JP2001083981A - Speech recognition system and method and recording medium readable by computer having recorded voice recognition program therein - Google Patents

Speech recognition system and method and recording medium readable by computer having recorded voice recognition program therein

Info

Publication number
JP2001083981A
JP2001083981A JP25428699A JP25428699A JP2001083981A JP 2001083981 A JP2001083981 A JP 2001083981A JP 25428699 A JP25428699 A JP 25428699A JP 25428699 A JP25428699 A JP 25428699A JP 2001083981 A JP2001083981 A JP 2001083981A
Authority
JP
Japan
Prior art keywords
dictionary
partial
speech recognition
group
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP25428699A
Other languages
Japanese (ja)
Other versions
JP3999913B2 (en
Inventor
Tomohiro Iwasaki
知弘 岩▲さき▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP25428699A priority Critical patent/JP3999913B2/en
Publication of JP2001083981A publication Critical patent/JP2001083981A/en
Application granted granted Critical
Publication of JP3999913B2 publication Critical patent/JP3999913B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a speech recognition system and a method capable of suppressing a cost lowly, and simultaneously capable of shortening a recognition response time, by memorizing a word dictionary in plural recording mediums, and a recording medium readable by a computer, having a speech recognition program recorded therein. SOLUTION: In this speech recognition system equipped with an acoustic analytical means 1, a reference model memory means 2, a dictionary memory means for memorizing plural partial dictionaries obtained by dividing a word dictionary, comparison data memory means 4, and a model comparison means 5 for executing comparison processing by consulting a reference model and the word dictionary relative to a characteristic vector, and for outputting a recognition result, the dictionary memory means is composed of a first dictionary memory means 6 capable of being consulted at high speed, for memorizing a partial dictionary having a high frequency of use, and a second dictionary memory means 7 incapable of being consulted at high speed, for memorizing a residual partial dictionary having a low frequency of use. Hereby, a cost can be suppressed lowly, and simultaneously a recognition response time can be shortened.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、音声により住所
検索などの大語彙認識を行う音声認識システム及び方法
並びに音声認識プログラムを記録したコンピュータ読み
取り可能な記録媒体に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition system and method for performing large vocabulary recognition such as address search by voice, and a computer-readable recording medium storing a voice recognition program.

【0002】[0002]

【従来の技術】大語彙の音声認識を行う場合には、一般
的にビームサーチなどの手法を利用して、演算量を低減
することが行われる。ここでは、特開平10−2544
79号公報に開示されている音声認識装置を一例とし
て、従来の音声認識装置の説明を行う。
2. Description of the Related Art When speech recognition of a large vocabulary is performed, a calculation amount is generally reduced by utilizing a technique such as a beam search. Here, Japanese Patent Application Laid-Open No. 10-2544
A conventional speech recognition apparatus will be described using the speech recognition apparatus disclosed in Japanese Patent Publication No. 79 as an example.

【0003】図15は、例えば特開平10−25447
9号公報に示された従来の音声認識装置のモデル照合処
理部の構成を示すブロック図である。以下、音声認識方
式としてはHMM(Hidden Markov Model)を用い、認
識対象を住所とし、認識する単位であるノードを地名と
して説明を行う。
FIG. 15 shows, for example, Japanese Patent Application Laid-Open No. H10-25447.
FIG. 9 is a block diagram illustrating a configuration of a model matching processing unit of a conventional speech recognition device disclosed in Japanese Patent Application Laid-Open No. 9-No. Hereinafter, a description will be given using an HMM (Hidden Markov Model) as a speech recognition method, an address as a recognition target, and a node as a recognition unit as a place name.

【0004】図15において、1は音声信号を入力し音
響分析を行い特徴ベクトルの時系列に変換する音響分析
手段、2は認識対象の標準モデルを記憶する標準モデル
記憶手段、3は住所を表現する辞書を記憶する辞書記憶
手段、4は照合処理に作業領域として照合データを記憶
する照合データ記憶手段、5は音響分析手段1からの特
徴ベクトルに対し、標準モデルと辞書を参照しながら照
合処理を行い、認識結果を出力するモデル照合手段であ
る。
In FIG. 15, reference numeral 1 denotes a sound analysis means for inputting a voice signal, performs sound analysis and converts it into a time series of feature vectors, 2 a standard model storage means for storing a standard model to be recognized, and 3 an address. Storage means for storing the matching data as a work area in the matching processing, and reference processing for the feature vectors from the acoustic analysis means 1 with reference to the standard model and the dictionary. And outputs a recognition result.

【0005】つぎに、従来の音声認識装置の動作につい
て図面を参照しながら説明する。
Next, the operation of the conventional speech recognition apparatus will be described with reference to the drawings.

【0006】この説明では、図16に示す住所を認識対
象とする。認識に先立ち、標準モデル記憶手段3には標
準モデルが、辞書記憶手段3には住所を表現する辞書が
収められているものとする。
In this description, the address shown in FIG. 16 is to be recognized. Prior to recognition, it is assumed that the standard model is stored in the standard model storage means 3 and a dictionary expressing addresses is stored in the dictionary storage means 3.

【0007】図16に示す住所を表す辞書記憶手段3の
内容を図17に示す。図17には認識対象の住所の地名
が四角の中に、またその接続が矢印で示されている。各
単語は角の丸い枠で示された部分辞書に分割されて記憶
されており、部分辞書を単位としてモデル照合手段5に
取り込み照合演算に用いることができる。三角は部分辞
書へのエントリーポイントを示し、例えば部分辞書net5
の「江ノ島」は部分辞書net9の「1丁目」、「2丁
目」、「3丁目」のそれぞれに接続されていることを示
す。
FIG. 17 shows the contents of the dictionary storage means 3 representing the addresses shown in FIG. In FIG. 17, the place name of the address to be recognized is indicated by a square, and the connection is indicated by an arrow. Each word is divided and stored in a partial dictionary indicated by a frame with a rounded corner, and can be taken into the model matching unit 5 for each partial dictionary and used for a matching operation. Triangles indicate entry points to partial dictionaries, for example, partial dictionaries net5
"Enoshima" indicates that it is connected to each of "1 chome", "2 chome" and "3 chome" of the partial dictionary net9.

【0008】図18に示す部分辞書net2を一例としての
部分辞書の構造について説明する。この部分辞書net2
は、ひとつのエントリーポイント(entry0)を有し、内
部にノード番号node2の「神奈川県」と、ノード番号nod
e3の「香川県」の2つのノードを有する。
The structure of the partial dictionary as an example of the partial dictionary net2 shown in FIG. 18 will be described. This partial dictionary net2
Has one entry point (entry0) and has "Kanagawa" of node number node2 inside and node number nod
It has two nodes of "Kagawa prefecture" of e3.

【0009】神奈川県は次に部分辞書net3のエントリー
ポイントentry0に接続され、香川県は次に部分辞書net4
のエントリーポイントentry0に接続される。神奈川県の
ノードに対してモデル照合する場合には、標準モデル記
憶手段2のノード番号node2のHMMパラメータを使用
することを意味する。
[0009] Kanagawa is then connected to entry point entry0 of partial dictionary net3, and Kagawa is then connected to partial dictionary net4.
Connected to entry point entry0 of When model matching is performed on a node in Kanagawa Prefecture, it means that the HMM parameter of the node number node2 of the standard model storage means 2 is used.

【0010】図19は、標準モデル記憶手段の内容を示
す図である。それぞれのノードに対応するHMMのパラ
メータが記憶されている。HMMのパラメータとして
は、状態数、状態間の遷移確率などHMMの照合演算に
必要なパラメータがあらかじめ入っているものとする。
FIG. 19 is a diagram showing the contents of the standard model storage means. HMM parameters corresponding to each node are stored. It is assumed that the parameters required for the HMM collation operation, such as the number of states and the transition probability between states, are included in advance as the parameters of the HMM.

【0011】認識が開始されるとまず、最初のノードで
ある無音を含むnet1が辞書記憶手段3より読み出され、
照合データ記憶手段4に必要な作業領域が取られる。こ
の様子を図20に示す。認識処理が進められ、続くノー
ドの照合処理が必要となると、図21に示すように、ne
t1に続くnet2の部分辞書が辞書記憶手段3より読み込ま
れ、照合データ記憶手段4に必要な作業領域が取られ
る。このように認識処理が進むにつれ、辞書記憶手段3
より必要な部分辞書が読み込まれ照合データ記憶手段4
に作業領域が取られてゆく。
When the recognition is started, first, the net1 including the silence, which is the first node, is read from the dictionary storage means 3, and
A necessary work area is set in the collation data storage means 4. This is shown in FIG. When the recognition process proceeds and the subsequent node collation process is required, as shown in FIG.
The partial dictionary of net2 following t1 is read from the dictionary storage means 3, and a necessary work area is obtained in the collation data storage means 4. As the recognition process proceeds, the dictionary storage means 3
More necessary partial dictionaries are read and collation data storage means 4
Work area is taken up.

【0012】次に、モデル照合の動作について説明す
る。
Next, the operation of model matching will be described.

【0013】図15に示す音響分析手段1に音声信号が
入力されると一定時間間隔で音響分析が行われ、特徴ベ
クトルに変換され出力される。音声信号が入力されてい
る間、音響分析手段1からモデル照合手段5へは繰り返
し特徴ベクトルが送られる。
When a sound signal is input to the sound analysis means 1 shown in FIG. 15, sound analysis is performed at fixed time intervals, converted into a feature vector and output. While the audio signal is being input, the feature vector is repeatedly sent from the acoustic analysis unit 1 to the model matching unit 5.

【0014】モデル照合手段5の内部では、図22に示
すフローチャートで示される処理が特徴ベクトルが入力
されるたびに繰り返し行われる。ステップ501はノー
ド内の状態に対する照合演算を行うノード内演算処理、
ステップ502はビームサーチの評価値を決定する評価
値決定処理、ステップ503はビームサーチ処理を行う
ビームサーチ演算処理、ステップ504はノード間の演
算を行うノード間演算処理である。
In the model matching means 5, the processing shown in the flowchart of FIG. 22 is repeatedly performed every time a feature vector is input. Step 501 is an intra-node operation for performing a collation operation on the state in the node;
Step 502 is an evaluation value determination process for determining an evaluation value of a beam search, step 503 is a beam search operation process for performing a beam search process, and step 504 is an inter-node operation process for performing an operation between nodes.

【0015】図23は、ノードnに対する照合データ記
憶手段4の中のデータ構造の詳細を説明する図である。
図20と図21では照合データ記憶手段4の内容をノー
ド単位で示していたが、図23はノードの内容について
記述してある。
FIG. 23 is a diagram for explaining details of the data structure in the collation data storage means 4 for the node n.
20 and 21 show the contents of the collation data storage means 4 in node units, but FIG. 23 describes the contents of the nodes.

【0016】ノードnは、Sn(1)、Sn(2)、Sn(3)の3
状態から構成されているものとする。ノードnの左端の
状態Sn(0)は、ノード間演算のために用いられる疑似状
態であり、Sn(1)、Sn(2)、Sn(3)の3つの状態がモデ
ルの実体を表す。
The node n has three of S n (1), S n (2), and S n (3).
It is assumed that it is composed of states. The state S n (0) at the left end of the node n is a pseudo state used for the operation between nodes, and three states of Sn (1), Sn (2), and Sn (3) correspond to the model. Represents an entity.

【0017】an(i,j)は状態iからjへの遷移確率に基
づくペナルティー、bn(i)は状態iの出力確率に基づく
ペナルティーを表す。ペナルティーは、確率が小さいほ
ど大きな値となる。これらの遷移確率に基づくペナルテ
ィー、出力確率に基づくペナルティーはHMMを用いる
認識では標準的に用いられるパラメータであり、ここで
は詳細な説明は省略する。これらのパラメータはあらか
じめ図19に示すように標準モデル記憶手段2に記憶さ
れており、辞書記憶手段3でノードnを含む部分辞書が
読み込まれた場合に、標準モデル記憶手段2から読み出
され、照合データ記憶手段4の中に図23に示すように
作業領域を取られる。
A n (i, j) represents a penalty based on the transition probability from state i to j, and b n (i) represents a penalty based on the output probability of state i. The penalty increases as the probability decreases. The penalty based on the transition probability and the penalty based on the output probability are parameters used as standard in recognition using the HMM, and a detailed description thereof will be omitted. These parameters are stored in advance in the standard model storage means 2 as shown in FIG. 19, and are read from the standard model storage means 2 when the partial dictionary including the node n is read in the dictionary storage means 3, A work area is set in the collation data storage means 4 as shown in FIG.

【0018】ノード内演算処理(ステップ501)にお
いては、特徴ベクトルが入力されるたびに出力確率、遷
移確率を用いて次の式1に示すモデル照合演算が行わ
れ、S n(i)の更新が行われる。Inはノードnの状態数
を表す。出力確率は、入力された特徴ベクトルに対して
そのぞれの状態の音響特徴を表す分布に対する確率演算
を行い求められる。
In the intra-node operation processing (step 501),
In other words, every time a feature vector is input,
The model matching operation shown in the following equation 1 is performed using the transfer probability.
And S n(i) is updated. InIs the number of states of node n
Represents The output probability is based on the input feature vector.
Probability calculation for distributions representing acoustic features in each state
Is required.

【0019】 Sn(i)=max(Sn(i)+an(i,i)),(Sn(i−1)+an(i−1,i))+bn(i) i=1,In ・・・式1S n (i) = max (S n (i) + a n (i, i)), (S n (i−1) + a n (i−1, i)) + b n (i) i = 1, I n ··· formula 1

【0020】評価値決定処理(ステップ502)では、
以下の式2のようにしてビームサーチのための評価値En
ode(n)と、ノード間遷移を行うための評価値Earc(n)
と、ビームサーチの基準値Ebestnodeを求める。Ebestno
deはノードの中で最も良いビームサーチの評価値で代表
するものとする。
In the evaluation value determination process (step 502),
The evaluation value En for beam search is calculated by the following equation 2.
ode (n) and evaluation value Earc (n) for performing transition between nodes
And a beam search reference value Ebestnode. Ebestno
de is represented by the evaluation value of the best beam search among the nodes.

【0021】 Enode(n)=max(Sn(i))1<i<In Earc(n)=Sn(In) Ebestnode=max(Enode(n))1<n<N ・・・式2Enode (n) = max (S n (i)) 1 <i <In Earc (n) = S n (I n ) Ebestnode = max (Enode (n)) 1 <n <N 2

【0022】ビームサーチ演算処理(ステップ503)
では、以下の条件を満たさない場合、そのノードの照合
演算を非活性化して、演算量を下げるものである。非活
性化されたノードに対するノード内演算処理は行われな
い。Tnodeはビームサーチのための閾値であり、予め定
められた規定値を用いる。
Beam search calculation processing (step 503)
Then, when the following condition is not satisfied, the collation operation of the node is inactivated to reduce the amount of operation. Intra-node arithmetic processing is not performed on the inactivated node. Tnode is a threshold value for beam search, and uses a predetermined value.

【0023】 Enode(n)>Ebestnode−Tnode ・・・式3Enode (n)> Ebestnode−Tnode Equation 3

【0024】続いて、ノード間演算処理(ステップ50
4)では、次の式4の条件を満たし、作業領域が照合デ
ータ記憶手段4になかった場合には、辞書記憶手段3よ
り新たなノードを含む部分辞書が読み込まれ、新たなノ
ードの作業領域を確保し新たに読み込んだノードを活性
化してノード間照合演算を行う。
Subsequently, the inter-node arithmetic processing (step 50)
In 4), if the condition of the following expression 4 is satisfied and the work area is not in the collation data storage means 4, the partial dictionary including the new node is read from the dictionary storage means 3, and the work area of the new node is read. Is secured, and the newly read node is activated to perform an inter-node matching operation.

【0025】 Earc(n)>Ebestnode−Tarc ・・・式4Earc (n)> Ebestnode−Tarc Equation 4

【0026】続くノードをn+1とした場合に、ノード
n+1の作業領域が取られた様子を図24に示す。読み
込まれた直後、ノードn+1の各状態のスコアは最も低
い値に初期化される。続いて、ノードnとノードn+1
の間でノード間の照合処理を行う。ノード間の照合処理
は以下の式5で示される。
FIG. 24 shows a state where the work area of the node n + 1 is taken when the subsequent node is set to n + 1. Immediately after the reading, the score of each state of the node n + 1 is initialized to the lowest value. Then, node n and node n + 1
Between nodes are collated. The collation processing between nodes is represented by the following Expression 5.

【0027】 Sn+1(0)=Sn(In) ・・・式5S n + 1 (0) = S n (I n ) Equation 5

【0028】続くノードn+1が照合データ記憶手段4
に作業領域が取られており、非活性化されていた場合に
は再度活性化させて、式5に示すノード間の照合演算を
行う。
The next node n + 1 is the collation data storage means 4.
In the case where the work area has been set up and has been deactivated, the work area is activated again, and the collation operation between nodes shown in Expression 5 is performed.

【0029】モデル照合手段5では、特徴ベクトルが入
力されるたびに繰り返し上記のように照合処理を進め、
音声信号のすべての特徴ベクトルに対する処理が終了し
たら、最終的に最もスコアの高かったノード列を認識結
果として出力する。
The model matching means 5 repeatedly performs the matching process as described above every time a feature vector is input.
When the processing for all the feature vectors of the audio signal is completed, the node sequence having the highest score is output as the recognition result.

【0030】[0030]

【発明が解決しようとする課題】上述したような従来の
音声認識装置では、日本全国住所など大語彙の認識を行
う場合には辞書記憶手段3のデータ容量が40メガバイ
ト(Mbyte)にも達し、EPROMのようなコスト
の高い記録媒体に記憶するには音声認識装置のコストが
高くなるという問題点があった。
In the above-described conventional speech recognition apparatus, when recognizing a large vocabulary such as a nationwide address in Japan, the data capacity of the dictionary storage unit 3 reaches 40 megabytes (Mbytes). There is a problem that the cost of the speech recognition device is increased to store the data on a high-cost recording medium such as an EPROM.

【0031】また、CD−ROM、あるいはDVD−R
OMのような読み出し速度が低速の記録媒体に記憶する
場合には、辞書の読み出し時間が長くかかり認識結果を
得るまでの認識応答時間が長くなるという問題点があっ
た。
Also, a CD-ROM or a DVD-R
When the data is stored in a low-speed recording medium such as the OM, there is a problem that the dictionary reading time is long and the recognition response time until a recognition result is obtained is long.

【0032】この発明は、前述した問題点を解決するた
めになされたもので、単語辞書を複数の記録媒体に記憶
することにより、コストを低く抑えながら認識応答時間
を短くすることができる音声認識システム及び方法並び
に音声認識プログラムを記録したコンピュータ読み取り
可能な記録媒体を得ることを目的とする。
The present invention has been made in order to solve the above-mentioned problems. By storing a word dictionary on a plurality of recording media, it is possible to shorten the recognition response time while keeping costs low. It is an object of the present invention to obtain a computer-readable recording medium recording a system and a method and a speech recognition program.

【0033】[0033]

【課題を解決するための手段】この発明の請求項1に係
る音声認識システムは、音声信号を入力し音響分析を行
い特徴ベクトルの時系列に変換して出力する音響分析手
段と、認識対象の標準モデルを記憶する標準モデル記憶
手段と、単語辞書を分割した複数の部分辞書を記憶する
辞書記憶手段と、照合処理に作業領域として照合データ
を記憶する照合データ記憶手段と、前記音響分析手段か
らの特徴ベクトルに対し、前記標準モデル及び前記単語
辞書を参照しながら照合処理を行い、認識結果を出力す
るモデル照合手段とを備えた音声認識システムにおい
て、前記辞書記憶手段を、高速に参照可能で使用頻度の
高い部分辞書を記憶する第一辞書記憶手段と、高速に参
照不可能で残りの使用頻度の低い部分辞書を記憶する第
二辞書記憶手段とから構成したものである。
According to a first aspect of the present invention, there is provided a voice recognition system which receives a voice signal, performs a voice analysis, converts the voice signal into a time series of feature vectors, and outputs the time series. A standard model storage unit that stores a standard model, a dictionary storage unit that stores a plurality of partial dictionaries obtained by dividing a word dictionary, a collation data storage unit that stores collation data as a work area in the collation processing, and a sound analysis unit. In the speech recognition system including a model matching unit that performs a matching process on the feature vector with reference to the standard model and the word dictionary and outputs a recognition result, the dictionary storage unit can be referred to at high speed. First dictionary storage means for storing frequently used partial dictionaries, and second dictionary storage means for storing remaining infrequently used partial dictionaries that cannot be referenced at high speed. Are those that you configured.

【0034】この発明の請求項2に係る音声認識システ
ムは、前記辞書記憶手段が、部分辞書を前記第一辞書記
憶手段又は前記第二辞書記憶手段のどちらに記憶してい
るかを示す記録媒体情報を記憶する記録媒体記憶手段を
さらに含むものである。
According to a second aspect of the present invention, in the speech recognition system, the dictionary storage means indicates whether the partial dictionary is stored in the first dictionary storage means or the second dictionary storage means. Is further included in the storage medium storing means.

【0035】この発明の請求項3に係る音声認識システ
ムは、前記第一辞書記憶手段及び前記第二辞書記憶手段
が、各ノードに対応して、次に接続される部分辞書が前
記第一辞書記憶手段又は前記第二辞書記憶手段のどちら
に記憶しているかを示す記録媒体情報を含む部分辞書を
記憶するものである。
In the speech recognition system according to a third aspect of the present invention, the first dictionary storage means and the second dictionary storage means correspond to each node, and the next partial dictionary to be connected is the first dictionary. The storage unit stores a partial dictionary including recording medium information indicating which of the storage unit and the second dictionary storage unit is stored.

【0036】この発明の請求項4に係る音声認識システ
ムは、前記第一辞書記憶手段及び前記第二辞書記憶手段
が、同じ記録媒体上にある依存関係の強い部分辞書をひ
とまとめのグループとして記憶し、前記モデル照合手段
が、ある部分辞書を参照する場合にその部分辞書を含む
グループをまとめて読み出し、照合処理を行うものであ
る。
In the speech recognition system according to a fourth aspect of the present invention, the first dictionary storage means and the second dictionary storage means store partial dictionaries having a strong dependency on the same recording medium as a group. When the model matching means refers to a certain partial dictionary, a group including the partial dictionary is read out collectively and a matching process is performed.

【0037】この発明の請求項5に係る音声認識システ
ムは、前記辞書記憶手段が、ある部分辞書を参照する場
合にまとめて転送されたその部分辞書を含むグループを
記憶するグループ記憶手段をさらに有し、前記モデル照
合手段が、前記グループ記憶手段に記憶されている前記
グループ内の部分辞書を個別に参照して照合処理を行う
ものである。
According to a fifth aspect of the present invention, in the speech recognition system, the dictionary storage means further includes a group storage means for storing a group including the partial dictionary transferred together when referring to the partial dictionary. The model matching means performs the matching process by individually referring to the partial dictionaries in the group stored in the group storage means.

【0038】この発明の請求項6に係る音声認識システ
ムは、前記辞書記憶手段が、前記第二辞書記憶手段から
前記照合データ記憶手段へ読み込んだ部分辞書の量を計
測する転送量計測手段をさらに有し、前記モデル照合手
段が、前記転送量計測手段による計測量と規定量を比較
し前記規定量以上の部分辞書を読み込まないように制御
するものである。
In the speech recognition system according to a sixth aspect of the present invention, the dictionary storage means further includes a transfer amount measurement means for measuring an amount of the partial dictionary read from the second dictionary storage means to the collation data storage means. The model collating means compares the measured amount by the transfer amount measuring means with a specified amount, and controls so as not to read a partial dictionary having the specified amount or more.

【0039】この発明の請求項7に係る音声認識システ
ムは、前記第一辞書記憶手段が、前記第二辞書記憶手段
に記憶されるべきグループの先頭部分のみから構成され
る部分辞書を新たなグループとして記憶し、前記第二辞
書記憶手段が、前記先頭部分が抜けた残りから構成され
る部分辞書を新たなグループとして記憶し、前記モデル
照合手段が、ある部分辞書を参照する場合にその部分辞
書を含むグループをまとめて読み出し、照合処理を行う
ものである。
According to a seventh aspect of the present invention, in the voice recognition system according to the first aspect, the first dictionary storage unit may add a partial dictionary composed of only a head portion of a group to be stored in the second dictionary storage unit to a new group. The second dictionary storage means stores a partial dictionary composed of the remainder from which the leading part has been omitted as a new group, and when the model matching means refers to a certain partial dictionary, Are read out collectively and collation processing is performed.

【0040】この発明の請求項8に係る音声認識方法
は、音声信号を入力して音響分析を行い特徴ベクトルの
時系列に変換し、前記特徴ベクトルに対し、認識対象の
標準モデル及び単語辞書を分割した複数の部分辞書を参
照しながら照合処理を行い、認識結果を出力する音声認
識方法において、前記照合処理において、最初に、高速
に参照可能で使用頻度の高い部分辞書を記憶する第一辞
書記憶手段から部分辞書を読み出す第1の部分辞書読出
ステップと、前記照合処理において、次に、高速に参照
不可能で残りの使用頻度の低い部分辞書を記憶する第二
辞書記憶手段又は前記第一辞書記憶手段から部分辞書を
読み出す第2の部分辞書読出ステップとを含むものであ
る。
According to the speech recognition method of the present invention, a speech signal is inputted, acoustic analysis is performed, and the speech signal is converted into a time series of feature vectors. In a voice recognition method for performing a matching process while referring to a plurality of divided partial dictionaries and outputting a recognition result, in the matching process, first, a first dictionary that stores a frequently referenced partial dictionary that can be referred to at high speed. In the first partial dictionary reading step of reading the partial dictionary from the storage means, and in the collation processing, the second dictionary storage means or the first dictionary storage means for storing the remaining partial dictionaries which cannot be referred to at high speed and are not used frequently. Reading a partial dictionary from the dictionary storage means.

【0041】この発明の請求項9に係る音声認識方法
は、前記第2の部分辞書読出ステップでは、次に接続さ
れる部分辞書が前記第一辞書記憶手段又は前記第二辞書
記憶手段のどちらに記憶しているかを示す記録媒体情報
に基いて、前記第一辞書記憶手段又は前記第二辞書記憶
手段から部分辞書を読み出すものである。
In the speech recognition method according to a ninth aspect of the present invention, in the second partial dictionary reading step, a partial dictionary to be connected next is stored in either the first dictionary storage unit or the second dictionary storage unit. A partial dictionary is read from the first dictionary storage unit or the second dictionary storage unit based on recording medium information indicating whether the dictionary is stored.

【0042】この発明の請求項10に係る音声認識方法
は、前記第2の部分辞書読出ステップでは、ある部分辞
書を参照する場合に、依存関係の強い部分辞書をひとま
とめのグループとして記憶している第二辞書記憶手段か
らその部分辞書を含むグループをまとめて読み出すもの
である。
According to a tenth aspect of the present invention, in the second partial dictionary reading step, when referring to a certain partial dictionary, the partial dictionaries having a strong dependency are stored as a group. A group including the partial dictionary is read out from the second dictionary storage means.

【0043】この発明の請求項11に係る音声認識方法
は、前記第2の部分辞書読出ステップでは、ある部分辞
書を参照する場合に、前記第二辞書記憶手段からその部
分辞書を含むグループをまとめて読み出してグループ記
憶手段に記憶するものである。
In the speech recognition method according to an eleventh aspect of the present invention, in the second partial dictionary reading step, when a certain partial dictionary is referred to, a group including the partial dictionary is collected from the second dictionary storage means. The data is read out and stored in the group storage means.

【0044】この発明の請求項12に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、音声信号を入力し音響分析を行い特徴ベクトルの時
系列に変換して出力する音響分析手順と、認識対象の標
準モデルを記憶する標準モデル記憶領域と、単語辞書を
分割した複数の部分辞書を記憶する辞書記憶領域と、照
合処理に作業領域として照合データを記憶する照合デー
タ記憶領域と、前記音響分析手順からの特徴ベクトルに
対し、前記標準モデル及び前記単語辞書を参照しながら
照合処理を行い、認識結果を出力するモデル照合手順と
を含む音声認識プログラムを記録したコンピュータ読み
取り可能な記録媒体において、前記辞書記憶領域を、高
速に参照可能で使用頻度の高い部分辞書を記憶する第一
辞書記憶領域と、高速に参照不可能で残りの使用頻度の
低い部分辞書を記憶する第二辞書記憶領域とから構成し
たものである。
According to a twelfth aspect of the present invention, there is provided a computer-readable recording medium storing a speech recognition program, comprising: a sound analysis step of inputting a sound signal, performing sound analysis, converting the sound signal into a time series of feature vectors, and outputting the result; A standard model storage area for storing a standard model to be recognized, a dictionary storage area for storing a plurality of partial dictionaries obtained by dividing the word dictionary, a collation data storage area for storing collation data as a work area in the collation processing, For a feature vector from the analysis procedure, a matching process is performed while referring to the standard model and the word dictionary, and a model recognition procedure for outputting a recognition result. The dictionary storage area, a first dictionary storage area that stores a partial dictionary that can be referred to at high speed and that is frequently used, Impossible reference speed is obtained by construction of a second dictionary storage area for storing the rest of the used infrequently moiety dictionary.

【0045】この発明の請求項13に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、前記辞書記憶領域が、部分辞書を前記第一辞書記憶
領域又は前記第二辞書記憶領域のどちらに記憶している
かを示す記録媒体情報を記憶する記録媒体記憶領域をさ
らに含むものである。
According to a thirteenth aspect of the present invention, in the computer-readable recording medium storing the voice recognition program, the dictionary storage area stores the partial dictionary in either the first dictionary storage area or the second dictionary storage area. It further includes a recording medium storage area for storing recording medium information indicating whether the information is stored.

【0046】この発明の請求項14に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、前記第一辞書記憶領域及び前記第二辞書記憶領域
が、各ノードに対応して、次に接続される部分辞書が前
記第一辞書記憶領域又は前記第二辞書記憶領域のどちら
に記憶しているかを示す記録媒体情報を含む部分辞書を
記憶するものである。
According to a fourteenth aspect of the present invention, there is provided a computer readable recording medium storing a speech recognition program, wherein the first dictionary storage area and the second dictionary storage area correspond to each node and are connected next. The storage unit stores a partial dictionary including recording medium information indicating whether the partial dictionary to be stored is stored in the first dictionary storage area or the second dictionary storage area.

【0047】この発明の請求項15に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、前記第一辞書記憶領域及び前記第二辞書記憶領域
が、同じ記録媒体上にある依存関係の強い部分辞書をひ
とまとめのグループとして記憶し、前記モデル照合手順
が、ある部分辞書を参照する場合にその部分辞書を含む
グループをまとめて読み出し、照合処理を行うものであ
る。
According to a fifteenth aspect of the present invention, in the computer-readable recording medium recording the speech recognition program, the first dictionary storage area and the second dictionary storage area are on the same recording medium and have a strong dependency. The partial dictionaries are stored as a group, and when the model collation procedure refers to a certain partial dictionary, a group including the partial dictionary is collectively read and collation processing is performed.

【0048】この発明の請求項16に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、前記辞書記憶領域が、ある部分辞書を参照する場合
にまとめて転送されたその部分辞書を含むグループを記
憶するグループ記憶領域をさらに有し、前記モデル照合
手順が、前記グループ記憶領域に記憶されている前記グ
ループ内の部分辞書を個別に参照して照合処理を行うも
のである。
A computer-readable recording medium on which a speech recognition program according to claim 16 of the present invention is recorded, wherein the dictionary storage area includes a group including a partial dictionary transferred together when referring to the partial dictionary. Is further provided, and the model collation procedure performs collation processing by individually referring to partial dictionaries in the group stored in the group memory area.

【0049】この発明の請求項17に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、前記第二辞書記憶領域から前記照合データ記憶領域
へ読み込んだ部分辞書の量を計測する転送量計測手順を
さらに有し、前記モデル照合手順が、前記転送量計測手
順による計測量と規定量を比較し前記規定量以上の部分
辞書を読み込まないように制御するものである。
A computer readable recording medium having recorded thereon a speech recognition program according to claim 17 of the present invention, wherein a transfer amount measurement for measuring an amount of a partial dictionary read from said second dictionary storage area to said collation data storage area. The method further includes a step of comparing the measured amount in the transfer amount measuring step with a specified amount, and controlling not to read a partial dictionary having the specified amount or more.

【0050】この発明の請求項18に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、前記第一辞書記憶領域が、前記第二辞書記憶領域に
記憶されるべきグループの先頭部分のみから構成される
部分辞書を新たなグループとして記憶し、前記第二辞書
記憶領域が、前記先頭部分が抜けた残りから構成される
部分辞書を新たなグループとして記憶し、前記モデル照
合手順が、ある部分辞書を参照する場合にその部分辞書
を含むグループをまとめて読み出し、照合処理を行うも
のである。
A computer-readable recording medium having recorded thereon a speech recognition program according to claim 18 of the present invention, wherein the first dictionary storage area starts from only the head of a group to be stored in the second dictionary storage area. The second dictionary storage area stores a partial dictionary composed of the remaining part from which the leading part has been omitted as a new group, and the model collation procedure includes a step of: When a dictionary is referred to, a group including the partial dictionary is read out collectively and a collation process is performed.

【0051】[0051]

【発明の実施の形態】実施の形態1.この発明の実施の
形態1に係る音声認識システムについて図面を参照しな
がら説明する。図1は、この発明の実施の形態1に係る
音声認識システムの構成を示すブロック図である。な
お、各図中、同一符号は同一又は相当部分を示す。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiment 1 A speech recognition system according to Embodiment 1 of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a speech recognition system according to Embodiment 1 of the present invention. In the drawings, the same reference numerals indicate the same or corresponding parts.

【0052】図1において、1は音声信号を入力し音響
分析を行い特徴ベクトルの時系列に変換する音響分析手
段、2は認識対象の標準モデルを記憶する標準モデル記
憶手段、4は照合処理に作業領域として照合データを記
憶する照合データ記憶手段、5は音響分析手段1からの
特徴ベクトルに対し、標準モデルと辞書を参照しながら
照合処理を行い、認識結果を出力するモデル照合手段で
ある。
In FIG. 1, reference numeral 1 denotes a sound analysis means for inputting an audio signal, performs sound analysis and converts the sound signal into a time series of feature vectors, 2 denotes a standard model storage means for storing a standard model to be recognized, and 4 denotes a matching process. A collation data storage unit 5 that stores collation data as a work area performs collation processing on the feature vector from the acoustic analysis unit 1 with reference to the standard model and the dictionary, and outputs model recognition results.

【0053】また、同図において、6は高速に参照可能
な記録媒体を用いる第一辞書記憶手段、7は高速では参
照不可能な記録媒体を用いる第二辞書記憶手段、8は部
分辞書を記録した記録媒体(記憶手段)を記憶する記録
媒体記憶手段である。
In FIG. 6, reference numeral 6 denotes a first dictionary storage unit using a recording medium that can be referred to at high speed, 7 denotes a second dictionary storage unit that uses a recording medium that cannot be referred to at high speed, and 8 denotes a partial dictionary. Storage means for storing the recorded recording medium (storage means).

【0054】以下、第一辞書記憶手段6をEEPROM
(Electrical Erasable Programmable Read Only Memor
y)、第二辞書記憶手段7をCD−ROM(Compact Dis
k-Read Only Memory)として説明を行う。EEPROM
は、高速に参照可能な記録媒体であるが、コストが非常
に高いという欠点がある。また、CD−ROMは、非常
に大容量でコストが安いが読み出し速度が遅いという欠
点がある。
Hereinafter, the first dictionary storage means 6 will be referred to as an EEPROM.
(Electrical Erasable Programmable Read Only Memor
y), the second dictionary storage means 7 is stored in a CD-ROM (Compact Dis
The description will be made as “k-Read Only Memory”. EEPROM
Is a recording medium that can be referenced at high speed, but has the disadvantage that the cost is very high. Further, the CD-ROM has an extremely large capacity and a low cost, but has a drawback that the reading speed is low.

【0055】住所などの大語彙の認識を行う場合には辞
書の大きさが膨大となり、EEPROMに全部記憶して
おくことはコストが大きくなる。さらに、すべてをCD
−ROMに記憶した場合には、CD−ROMの参照回数
が大きくなり、参照によるオーバーヘッドにより認識す
る時間が非常に長くなり、音声認識システムとしての認
識応答性に問題が生じる。そのため、辞書を記憶する記
憶媒体を2種類用い、使用頻度の高い部分辞書を選択し
て選択された部分辞書のみEEPROMに記憶し、使用
頻度の低い部分辞書はコストの安いCD−ROMに記憶
するものとする。
When recognizing a large vocabulary such as an address, the size of the dictionary becomes enormous, and storing all the data in the EEPROM increases the cost. Plus everything on CD
-When stored in the ROM, the number of times the CD-ROM is referred to increases, and the time required for recognition increases due to the overhead caused by the reference, which causes a problem in recognition responsiveness as a speech recognition system. Therefore, two types of storage media for storing dictionaries are used, a frequently used partial dictionary is selected and only the selected partial dictionary is stored in the EEPROM, and the infrequently used partial dictionary is stored on a low-cost CD-ROM. Shall be.

【0056】図2は、この実施の形態1に係る音声認識
システムの単語辞書の構成を示す図である。図2におい
て、実線で囲ってある部分辞書net1、net2、net9、net1
2が第一辞書記憶手段6(EEPROM)に記憶され、
残りの点線で囲まれている部分辞書は第二辞書記憶手段
7(CD−ROM)に記憶するものとする。
FIG. 2 is a diagram showing the configuration of the word dictionary of the speech recognition system according to the first embodiment. In FIG. 2, the partial dictionaries net1, net2, net9, net1 enclosed by solid lines
2 is stored in the first dictionary storage means 6 (EEPROM),
The remaining partial dictionaries surrounded by dotted lines are stored in the second dictionary storage means 7 (CD-ROM).

【0057】部分辞書net1、net2、net12は認識する場
合に必ず必要となるため、高速に参照可能な記録媒体で
ある第一辞書記憶手段6に記録する。また、部分辞書ne
t9は多くの部分辞書から接続されているため参照される
可能性が高いものとして同じくに記録する。図2におい
て、破線で囲まれた四角で示されている残りの部分辞書
は第二辞書手段7に記憶しておき、必要に応じて読み込
む構成とする。
Since the partial dictionaries net1, net2, and net12 are always required for recognition, they are recorded in the first dictionary storage means 6, which is a recording medium that can be referenced at high speed. Also, the partial dictionary ne
Since t9 is connected from many partial dictionaries, it is also recorded as having a high possibility of being referred to. In FIG. 2, the remaining partial dictionaries indicated by squares surrounded by broken lines are stored in the second dictionary means 7, and are read as needed.

【0058】音声認識処理の基本動作は従来例の説明と
同様であるため、ここでは説明を省略する。上記のよう
に構成することにより、神奈川県の発声であれば神奈川
県のノードが式4の条件を満たし、続く部分辞書net3を
読み込むことができる。また、香川県の発声であれば香
川県のノードが式4の条件を満たし続く部分辞書net4を
読み込むことができる。
The basic operation of the speech recognition process is the same as that of the conventional example, and the description is omitted here. With the above configuration, if the utterance is Kanagawa Prefecture, the node of Kanagawa Prefecture satisfies the condition of Expression 4, and the subsequent partial dictionary net3 can be read. Further, in the case of the utterance of Kagawa Prefecture, the partial dictionary net4 in which the node of Kagawa Prefecture satisfies the condition of Expression 4 can be read.

【0059】これらの部分辞書がどの記録媒体に入って
いるかは記録媒体記憶手段8を参照して決定する。図3
は、記録媒体記憶手段8の内容を示したものであり、認
識に先立ち記録媒体記憶手段8に記憶されているものと
する。
Which recording medium contains these partial dictionaries is determined by referring to the recording medium storage means 8. FIG.
Indicates the contents of the storage medium storage means 8 and is assumed to be stored in the storage medium storage means 8 prior to recognition.

【0060】なお、別の単語辞書の例についても説明す
る。図4は、この実施の形態1に係る音声認識システム
の別な単語辞書の例を示す図である。これは神奈川県に
在住している使用者がこの音声認識装置を使う場合、神
奈川県の住所を検索する頻度が高くなるため、神奈川県
の地名を含む部分辞書net3、net5、net6を第一辞書記憶
手段6(EEPROM)に置く構成としたものである。
An example of another word dictionary will be described. FIG. 4 is a diagram showing an example of another word dictionary of the speech recognition system according to the first embodiment. This means that if a user residing in Kanagawa Prefecture uses this speech recognition device, the frequency of searching for an address in Kanagawa Prefecture will increase, so the partial dictionaries net3, net5, and net6 containing the names of places in Kanagawa Prefecture will be the first dictionary It is configured to be stored in the storage means 6 (EEPROM).

【0061】また、音声認識システムを使用中に各部分
辞書の使用頻度を学習して、第一辞書記憶手段6(EE
PROM)の部分辞書が参照頻度の高いものとなるよう
内容を書き換えることも有効である。これらの機能を有
する音声認識システムも本発明の範疇とする。
While using the speech recognition system, the use frequency of each partial dictionary is learned, and the first dictionary storage means 6 (EE
It is also effective to rewrite the contents so that the partial dictionary of (PROM) has a high reference frequency. A speech recognition system having these functions is also included in the scope of the present invention.

【0062】上記の説明ではEEPROMとCD−RO
Mを記憶媒体として用いる場合を一例として説明した
が、EEPROMの代わりにフラッシュROM、EPR
OM、ROM、RAMなど、また、CD−ROMの代わ
りにCD−RW(書き換え可能CD)、DVD−RO
M、DVD−RAM、DVD−RW(書き換え可能DV
D)、ハードディスクなどであっても良く、同様に効果
を奏する。
In the above description, the EEPROM and the CD-RO
M has been described as an example of a storage medium, but instead of an EEPROM, a flash ROM, an EPR
OM, ROM, RAM, etc. Also, instead of CD-ROM, CD-RW (rewritable CD), DVD-RO
M, DVD-RAM, DVD-RW (rewritable DV
D), a hard disk or the like may be used, and the same effect can be obtained.

【0063】また、上記の説明で用いた部分辞書の分類
は一例を示したものであり、他の分類の方法でも良い。
The classification of the partial dictionaries used in the above description is merely an example, and other classification methods may be used.

【0064】また、上記の説明では2種類の記憶媒体を
用いる方法について説明したが、3種類以上の記憶媒体
を用いてもよく、同様に効果を奏する。
In the above description, a method using two types of storage media has been described. However, three or more types of storage media may be used, and the same effect can be obtained.

【0065】さらに、上記の説明ではノードを単語とし
て説明したが、ノードは音素片、音素、半音節、音節、
形態素などの単位でも良く、同様に効果を奏する。
Further, in the above description, nodes are described as words, but nodes are phonemes, phonemes, semi-syllables, syllables,
A unit such as a morpheme may be used, and the same effect can be obtained.

【0066】また、音声認識方式もHMMとして説明し
たが、これはDP(Dynamic Programming)マッチング
やニューラルネットを用いる音声認識方式でも良く同様
に効果を奏する。
Although the speech recognition method has been described as an HMM, the same effect may be obtained by a DP (Dynamic Programming) matching or a speech recognition method using a neural network.

【0067】実施の形態2.この発明の実施の形態2に
係る音声認識システムについて図面を参照しながら説明
する。図5は、この発明の実施の形態2に係る音声認識
システムの構成を示すブロック図である。
Embodiment 2 Embodiment 2 A speech recognition system according to Embodiment 2 of the present invention will be described with reference to the drawings. FIG. 5 is a block diagram showing a configuration of a speech recognition system according to Embodiment 2 of the present invention.

【0068】上記の実施の形態1に係る音声認識システ
ムでは、部分辞書の個数が多くなった場合に記録媒体記
憶手段8のテーブルサイズが大きくなるという欠点があ
る。ここでは、これを解決する方法として次に続く記録
媒体を部分辞書の内部に記憶した音声認識システムにつ
いて説明する。
The speech recognition system according to the first embodiment has a disadvantage that the table size of the recording medium storage means 8 increases when the number of partial dictionaries increases. Here, as a method for solving this, a speech recognition system in which the following recording medium is stored in a partial dictionary will be described.

【0069】図5において、6は高速に参照可能な記録
媒体を用いる第一辞書記憶手段、7は高速では参照不可
能な記録媒体を用いる第二辞書記憶手段である。
In FIG. 5, reference numeral 6 denotes a first dictionary storage unit that uses a recording medium that can be referenced at high speed, and 7 denotes a second dictionary storage unit that uses a recording medium that cannot be referenced at high speed.

【0070】その他の部分は従来の音声認識装置と同一
のため、説明を省略する。以下、上記の実施の形態1と
同様に、第一辞書記憶手段6をEEPROM、第二辞書
記憶手段7をCD−ROMとして説明を行う。ただし、
実施の形態1とは異なり、部分辞書の中に次に接続され
る部分辞書の記録媒体の情報を記録する。
The other parts are the same as those of the conventional speech recognition apparatus, and the description is omitted. Hereinafter, as in the first embodiment, the first dictionary storage unit 6 will be described as an EEPROM, and the second dictionary storage unit 7 will be described as a CD-ROM. However,
Unlike the first embodiment, the information of the recording medium of the partial dictionary to be connected next is recorded in the partial dictionary.

【0071】本実施の形態2における部分辞書の一例を
net2を例として説明をする。図6に部分辞書net2の構造
を示す。図18に示す従来の音声認識装置の部分辞書の
構造に比べ、図6には次に続く部分辞書の記憶されてい
る記録媒体の情報がCD−ROMと追加されている。こ
の情報により、続く部分辞書がどの記憶媒体にあるのか
判定することが可能である。
An example of the partial dictionary according to the second embodiment is
This is explained using net2 as an example. FIG. 6 shows the structure of the partial dictionary net2. Compared with the structure of the partial dictionary of the conventional speech recognition apparatus shown in FIG. 18, in FIG. 6, information on the recording medium storing the next partial dictionary is added to the CD-ROM. Based on this information, it is possible to determine which storage medium has the subsequent partial dictionary.

【0072】このような構成にすることにより、上記の
実施の形態1では必要であった記録媒体記憶手段8が不
要となる。
By adopting such a configuration, the recording medium storage means 8, which is required in the first embodiment, becomes unnecessary.

【0073】上記の説明ではEEPROMとCD−RO
Mを記憶媒体として用いる場合を一例として説明した
が、EEPROMの代わりにフラッシュROM、EPR
OM、ROM、RAMなど、また、CD−ROMの代わ
りにCD−RW(書き換え可能CD)、DVD−RO
M、DVD−RAM、DVD−RW(書き換え可能DV
D)、ハードディスクなどであっても良く、同様に効果
を奏する。
In the above description, the EEPROM and the CD-RO
M has been described as an example of a storage medium, but instead of an EEPROM, a flash ROM, an EPR
OM, ROM, RAM, etc. Also, instead of CD-ROM, CD-RW (rewritable CD), DVD-RO
M, DVD-RAM, DVD-RW (rewritable DV
D), a hard disk or the like may be used, and the same effect can be obtained.

【0074】また、上記の説明で用いた部分辞書の分類
は一例を示したものであり、他の分類の方法でも良い。
The classification of the partial dictionaries used in the above description is merely an example, and other classification methods may be used.

【0075】また、上記の説明では2種類の記憶媒体を
用いる方法について説明したが、3種類以上の記憶媒体
を用いてもよく同様に効果を奏する。
In the above description, a method using two types of storage media has been described. However, three or more types of storage media may be used, and the same effect can be obtained.

【0076】さらに、上記の説明ではノードを単語とし
て説明したが、ノードは音素片、音素、半音節、音節、
形態素などの単位でも良く、同様に効果を奏する。
Further, in the above description, the node has been described as a word, but the node is a phoneme, a phoneme, a half syllable, a syllable,
A unit such as a morpheme may be used, and the same effect can be obtained.

【0077】また、音声認識方式もHMMとして説明し
たが、これはDP(Dynamic Programming)マッチング
やニューラルネットを用いる音声認識方式でも良く、同
様に効果を奏する。
Although the speech recognition method has been described as an HMM, it may be a DP (Dynamic Programming) matching or a speech recognition method using a neural network, and the same effect can be obtained.

【0078】実施の形態3.この実施の形態3に係る音
声認識システムの構成は、実施の形態2に係る音声認識
システムの構成と同様のため、ここでは説明を省略す
る。
Embodiment 3 The configuration of the speech recognition system according to the third embodiment is the same as the configuration of the speech recognition system according to the second embodiment, and a description thereof will not be repeated.

【0079】CD−ROMは、1回の参照に時間がかか
るという問題がある。上記の実施の形態1及び2ではC
D−ROM上の部分辞書の個数が多くなり、CD−RO
Mの参照回数が多くなるという問題があった。本実施の
形態3はこの問題を回避するために、同じ記録媒体に記
憶してある依存関係の強い部分辞書をひとまとめのグル
ープとして記憶して、参照する場合にまとめて読み出す
ことを特徴とする。
The CD-ROM has a problem that it takes time for one reference. In the first and second embodiments, C
The number of partial dictionaries on the D-ROM increases, and CD-RO
There has been a problem that the number of references to M is increased. In order to avoid this problem, the third embodiment is characterized in that partial dictionaries having a strong dependence stored on the same recording medium are stored as a group, and are read out collectively when referred to.

【0080】住所認識の場合は地名部分が木構造になる
ため、部分辞書の依存関係が明確である。例えば、CD
−ROMに記憶されている同一の県の下の地名をまとめ
てひとつのグループとした辞書を図7に示す。図中、一
点鎖線で囲まれた部分辞書群をグループとすることを表
している。
In the case of address recognition, since the place name portion has a tree structure, the dependency of the partial dictionary is clear. For example, CD
FIG. 7 shows a dictionary in which place names under the same prefecture stored in the ROM are grouped into one group. In the drawing, a partial dictionary group surrounded by a chain line is represented as a group.

【0081】図8は、部分辞書net2の構造を示す図であ
る。図6に比べ、grp3、grp4というグループ番号が付加
されている。これにより、続く部分辞書のグループ番号
を知ることが可能である。実施の形態1の記録媒体記憶
手段8のように独立したグループ番号を記憶するテーブ
ルを作成しても、同様の効果がある。
FIG. 8 is a diagram showing the structure of the partial dictionary net2. 6, group numbers grp3 and grp4 are added. Thereby, it is possible to know the group number of the subsequent partial dictionary. The same effect can be obtained by creating a table for storing independent group numbers as in the recording medium storage unit 8 of the first embodiment.

【0082】次に、動作について説明する。照合データ
記憶手段4上に部分辞書net1とnet2が取り込まれている
ものとする。発声が「香川県大川郡長尾町西」であった
場合、ノード「香川県」が式4の条件に当てはまったと
きは、次につながるグループgrp4を参照する。
Next, the operation will be described. It is assumed that the partial dictionaries net1 and net2 are fetched on the collation data storage means 4. If the utterance is “Nagao-cho, Okawa-gun, Kagawa prefecture”, and the node “Kagawa prefecture” satisfies the condition of Expression 4, the group grp4 connected next is referred to.

【0083】この時点での照合データ記憶手段4の内容
を図9に示す。図中、実線で囲まれているノードは活性
化されているものとし、破線で囲まれているノードは非
活性化されていることを表す。グループgrp4には部分辞
書net7、net8、net10、net11が含まれているため、まと
めて読み出さて、照合データ記憶手段4に作業領域が取
られる。ただし、グループgrp4内のノードであっても
「志度町」、「長尾町」以外のノードは式4の条件に合
わないため、ノード間転送が生じないため、この時点で
は活性化されない。
FIG. 9 shows the contents of the collation data storage means 4 at this time. In the figure, a node surrounded by a solid line indicates that the node is activated, and a node surrounded by a broken line indicates that the node is deactivated. Since the group grp4 includes the partial dictionaries net7, net8, net10, and net11, they are read out collectively and a work area is set in the collation data storage means 4. However, even the nodes in the group grp4, the nodes other than “Shido-cho” and “Nagao-cho” do not meet the condition of Expression 4, so that no inter-node transfer occurs, so that they are not activated at this time.

【0084】認識処理がさらに進み、大川郡のノードが
式4の条件に合致した場合、部分辞書net8に対する照合
処理が必要となるが、既に作業領域に取りこまれている
ため、改めて第二辞書記憶手段7(CD−ROM)を参
照する必要はない。
If the recognition process proceeds further and the node of Okawa-gun meets the condition of the expression 4, the collation process for the partial dictionary net8 is necessary. However, since the partial dictionary net8 has already been incorporated in the work area, the second dictionary is renewed. It is not necessary to refer to the storage means 7 (CD-ROM).

【0085】上記のように構成することにより、照合処
理で将来必要となる部分辞書をまとめて読み出す効果が
あり、第二辞書記憶手段7(CD−ROM)の参照回数
を少なく抑えられる。
With the above configuration, there is an effect that the partial dictionaries which will be required in the collation processing in the future are read out collectively, and the number of times of reference to the second dictionary storage means 7 (CD-ROM) can be reduced.

【0086】上記の説明ではCD−ROMを記憶媒体と
して用いる場合を一例として説明したが、CD−ROM
の代わりにCD−RW(書き換え可能CD)、DVD−
ROM、DVD−RAM、DVD−RW(書き換え可能
DVD)、ハードディスクなどであっても良く同様に効
果を奏する。
In the above description, the case where a CD-ROM is used as a storage medium has been described as an example.
CD-RW (rewritable CD), DVD-
A ROM, a DVD-RAM, a DVD-RW (rewritable DVD), a hard disk, or the like may be used, and the same effect can be obtained.

【0087】また、上記の説明で用いた部分辞書の分類
は一例を示したものであり、他の分類の方法でも良い。
The classification of the partial dictionaries used in the above description is merely an example, and other classification methods may be used.

【0088】また、上記の説明では2種類の記憶媒体を
用いる方法について説明したが、3種類以上の記憶媒体
を用いてもよく同様に効果を奏する。
In the above description, a method using two types of storage media has been described. However, three or more types of storage media may be used, and the same effect can be obtained.

【0089】さらに、上記の説明ではノードを単語とし
て説明したが、ノードは音素片、音素、半音節、音節、
形態素などの単位でも良く、同様に効果を奏する。
Further, in the above description, the node has been described as a word, but the node is a phoneme piece, a phoneme, a half syllable, a syllable,
A unit such as a morpheme may be used, and the same effect can be obtained.

【0090】また、音声認識方式もHMMとして説明し
たが、これはDP(Dynamic Programming)マッチング
やニューラルネットを用いる音声認識方式でも良く同様
に効果を奏する。
Although the speech recognition system has been described as an HMM, a DP (Dynamic Programming) matching or a speech recognition system using a neural network may be similarly effective.

【0091】実施の形態4.上記の実施の形態3では部
分辞書をグループ化することにより、第二辞書記憶手段
7(CD−ROM)の参照回数を減少できたが、照合デ
ータ記憶手段4にまとめて部分辞書の作業領域を取るこ
とが必要なため、照合データ記憶手段4のメモリ量が多
いという欠点があった。部分辞書のデータ形式より、照
合データ記憶手段4の作業領域のデータ形式の方がかな
り大きいためである。本実施の形態4では高速に参照す
ることが可能な中間的な記憶領域を設けることにより、
第二辞書記憶手段7のグループの部分辞書を転送した
後、照合処理で参照された部分辞書のみ照合データ記憶
手段4に作業領域を取ることを特徴とする。
Embodiment 4 In the third embodiment, the number of times of reference to the second dictionary storage unit 7 (CD-ROM) can be reduced by grouping the partial dictionaries. There is a drawback that the amount of memory of the collation data storage means 4 is large because it is necessary to take the data. This is because the data format of the work area of the collation data storage unit 4 is considerably larger than the data format of the partial dictionary. In the fourth embodiment, by providing an intermediate storage area that can be referenced at high speed,
After the partial dictionaries of the group of the second dictionary storage means 7 are transferred, only the partial dictionaries referred to in the collation processing have a work area in the collation data storage means 4.

【0092】図10は、この発明の実施の形態4に係る
音声認識システムの構成を示す図である。
FIG. 10 is a diagram showing a configuration of a speech recognition system according to Embodiment 4 of the present invention.

【0093】同図において、6はグループにまとめられ
ている部分辞書を記憶する高速に参照可能な記録媒体を
用いる第一辞書記憶手段、7はグループにまとめられて
いる部分辞書を記憶する高速では参照不可能な記録媒体
を用いる第二辞書記憶手段、9は第二辞書記憶手段7よ
りグループ単位で部分辞書郡を転送し、記憶する高速に
参照可能なグループ記憶手段である。なお、5はグルー
プ記憶手段9の部分辞書を個別に参照して照合処理を行
うモデル照合手段である。
In the figure, reference numeral 6 denotes a first dictionary storage means which uses a high-speed referable recording medium for storing partial dictionaries organized in groups, and 7 denotes a high-speed storage means for storing partial dictionaries organized in groups. A second dictionary storage unit 9 using a non-referenceable recording medium is a high-speed reference group storage unit that transfers and stores partial dictionary groups in groups from the second dictionary storage unit 7. Reference numeral 5 denotes a model matching unit that performs a matching process by individually referring to the partial dictionaries of the group storage unit 9.

【0094】以下、第二辞書記憶手段7をCD−RO
M、グループ記憶手段9をRAMとして説明を行う。
Hereinafter, the second dictionary storage means 7 is stored in the CD-RO
M, the group storage means 9 will be described as a RAM.

【0095】次に、動作について説明する。認識処理の
途中で香川県のノードが式4の条件を満たし、グループ
grp4が参照されたとする。この段階のグループ記憶手段
9と照合データ記憶手段4の内容を図11に示す。同図
において、上段の(a)にはグループ記憶手段9の内
容、下段の(b)には照合データ記憶手段4の内容がそ
れぞれ示されている。
Next, the operation will be described. During the recognition process, the node in Kagawa Prefecture satisfies the condition of Equation 4 and the group
Suppose grp4 is referenced. FIG. 11 shows the contents of the group storage means 9 and the collation data storage means 4 at this stage. In the figure, the upper part (a) shows the contents of the group storage means 9, and the lower part (b) shows the contents of the collation data storage means 4, respectively.

【0096】まず、グループgrp4の部分辞書郡が第二辞
書記憶手段7(CD−ROM)よりグループ記憶手段9
(RAM)に転送される。続いてグループ記憶手段9
(RAM)上の必要な部分辞書net4のみが参照され照合
データ記憶手段4に作業領域をとられる。
First, the partial dictionary group of the group grp4 is stored in the group storage unit 9 from the second dictionary storage unit 7 (CD-ROM).
(RAM). Subsequently, the group storage means 9
Only the necessary partial dictionary net4 on the (RAM) is referred to, and a work area is set in the collation data storage means 4.

【0097】このように構成することにより、第二辞書
記憶手段7(CD−ROM)の参照回数を減少させたま
まで、照合データ記憶手段4のメモリ量を抑制すること
ができる。
With such a configuration, the amount of memory of the collation data storage unit 4 can be suppressed while the number of times of reference to the second dictionary storage unit 7 (CD-ROM) is reduced.

【0098】上記の説明ではRAM、EEPROMとC
D−ROMを記憶媒体として用いる場合を一例として説
明したが、RAMやEEPROMの代わりにフラッシュ
ROM、EPROM、ROM、RAMなど、また、CD
−ROMの代わりにCD−RW(書き換え可能CD)、
DVD−ROM、DVD−RAM、DVD−RW(書き
換え可能DVD)、ハードディスクなどであっても良く
同様に効果を奏する。
In the above description, RAM, EEPROM and C
Although the case where a D-ROM is used as a storage medium has been described as an example, a flash ROM, an EPROM, a ROM, a RAM, or the like may be used instead of a RAM or an EEPROM.
-CD-RW (rewritable CD) instead of ROM,
A DVD-ROM, a DVD-RAM, a DVD-RW (rewritable DVD), a hard disk, or the like may be used, and the same effects can be obtained.

【0099】また、上記の説明で用いた部分辞書の分類
は一例を示したものであり、他の分類の方法でも良い。
The classification of the partial dictionaries used in the above description is an example, and other classification methods may be used.

【0100】また、上記の説明では3種類の記憶媒体を
用いる方法について説明したが、4種類以上の記憶媒体
を用いてもよく同様に効果を奏する。
In the above description, a method using three types of storage media has been described. However, four or more types of storage media may be used, and the same effect can be obtained.

【0101】さらに、上記の説明ではノードを単語とし
て説明したが、ノードは音素片、音素、半音節、音節、
形態素などの単位でも良く、同様に効果を奏する。
Further, in the above description, the node has been described as a word, but the node is a phoneme, a phoneme, a half syllable, a syllable,
A unit such as a morpheme may be used, and the same effect can be obtained.

【0102】また、音声認識方式もHMMとして説明し
たが、これはDP(Dynamic Programming)マッチング
やニューラルネットを用いる音声認識方式でも良く同様
に効果を奏する。
Although the speech recognition method has been described as an HMM, the same effect can be obtained by a DP (Dynamic Programming) matching or a speech recognition method using a neural network.

【0103】実施の形態5.認識の時にCD−ROMの
参照回数や、転送量が多くなりすぎると、認識処理のオ
ーバーヘッドが大きくなり、認識結果がえられるまでの
反応時間が長くなる場合がある。このため、この実施の
形態5では、CD−ROMの参照回数、あるいは転送量
の上限を設け、規定の反応時間を確保するものである。
Embodiment 5 FIG. If the number of references to the CD-ROM or the transfer amount becomes too large during the recognition, the overhead of the recognition process increases, and the reaction time until a recognition result is obtained may be long. For this reason, in the fifth embodiment, the upper limit of the number of times of reference to the CD-ROM or the transfer amount is set to secure a specified reaction time.

【0104】ここでは、グループの参照回数を計測し、
規定の値に達すると参照を禁止する音声認識システムを
一例として説明を行う。また、CD−ROMの参照回数
の上限値を規定する場合を一例として説明を行う。
Here, the number of times of reference to the group is measured,
A description will be given of an example of a voice recognition system that prohibits reference when a predetermined value is reached. The case where the upper limit value of the number of times of reference to the CD-ROM is specified will be described as an example.

【0105】図12は、この発明の実施の形態5に係る
音声認識システムの構成を示すブロック図である。同図
において、10は第二辞書記憶手段7の参照回数を計測
する転送量計測手段である。なお、他の手段は実施の形
態3と同様のため、ここでは説明を省略する。
FIG. 12 is a block diagram showing a configuration of a speech recognition system according to Embodiment 5 of the present invention. In the figure, reference numeral 10 denotes a transfer amount measuring means for measuring the number of times of reference of the second dictionary storage means 7. The other means are the same as those in the third embodiment, and the description is omitted here.

【0106】ノード間の照合演算を式4の条件で行って
いたが、新たに第二辞書記憶手段7(CD−ROM)に
グループの参照を必要とする場合には以下の式6で示す
条件で行うものとする。
The collation operation between nodes has been performed under the condition of Expression 4, but when it is necessary to newly refer to the group in the second dictionary storage means 7 (CD-ROM), the condition expressed by Expression 6 below is used. Shall be performed.

【0107】 Earc(n)>Ebestnode−Tgrp ・・・式6Earc (n)> Ebestnode−Tgrp Equation 6

【0108】閾値Tgrpは、認識の最初では以下の式7
の条件である。
At the beginning of recognition, the threshold value Tgrp is calculated by the following equation (7).
Is the condition.

【0109】 Tgrp=Tarc ・・・式7Tgrp = Tarc Equation 7

【0110】ただし、第二辞書記憶手段7(CD−RO
M)の参照回数が規定値を超えた場合には、以下の式8
のように設定する。
However, the second dictionary storage means 7 (CD-RO
If the number of references in M) exceeds the specified value, the following equation 8
Set as follows.

【0111】 Tgrp=∞ ・・・式8Tgrp = ∞ Equation 8

【0112】上記の式8のように設定された後は、式6
の条件を満たさないようになるため、続くノードへの参
照要求が生じないため第二辞書記憶手段7(CD−RO
M)の参照回数を規定の値に制限することができる。
After being set as in the above equation 8, the equation 6
Is not satisfied, the reference request to the subsequent node does not occur, and the second dictionary storage unit 7 (CD-RO
The reference count of M) can be limited to a prescribed value.

【0113】第二辞書記憶手段7(CD−ROM)への
参照を制限する条件としては第二辞書記憶手段7(CD
−ROM)の参照回数のほか、部分辞書の転送量あるい
は、参照回数と部分辞書の転送量の両方で制限を加える
こともでき、同様に効果を奏する。
The conditions for restricting reference to the second dictionary storage means 7 (CD-ROM) are as follows.
-ROM), the amount of transfer of the partial dictionary, or both the number of references and the amount of transfer of the partial dictionary can be limited, and the same effect can be obtained.

【0114】上記の説明ではEEPROMとCD−RO
Mを記憶媒体として用いる場合を一例として説明した
が、EEPROMの代わりにフラッシュROM、EPR
OM、ROM、RAMなど、また、CD−ROMの代わ
りにCD−RW(書き換え可能CD)、DVD−RO
M、DVD−RAM、DVD−RW(書き換え可能DV
D)、ハードディスクなどであっても良く同様に効果を
奏する。
In the above description, the EEPROM and the CD-RO
M has been described as an example of a storage medium, but instead of an EEPROM, a flash ROM, an EPR
OM, ROM, RAM, etc. Also, instead of CD-ROM, CD-RW (rewritable CD), DVD-RO
M, DVD-RAM, DVD-RW (rewritable DV
D), a hard disk or the like may be used, and the same effect can be obtained.

【0115】また、上記の説明で用いた部分辞書の分類
は一例を示したものであり、他の分類の方法でも良い。
The classification of the partial dictionaries used in the above description is merely an example, and other classification methods may be used.

【0116】また、上記の説明では2種類の記憶媒体を
用いる方法について説明したが、3種類以上の記憶媒体
を用いてもよく同様に効果を奏する。
In the above description, a method using two types of storage media has been described. However, three or more types of storage media may be used, and the same effect can be obtained.

【0117】さらに、上記の説明ではノードを単語とし
て説明したが、ノードは音素片、音素、半音節、音節、
形態素などの単位でも良く、同様に効果を奏する。
Further, in the above description, the node has been described as a word, but the node is a phoneme, a phoneme, a half syllable, a syllable,
A unit such as a morpheme may be used, and the same effect can be obtained.

【0118】また、音声認識方式もHMMとして説明し
たが、これはDP(Dynamic Programming)マッチング
やニューラルネットを用いる音声認識方式でも良く同様
に効果を奏する。
Although the speech recognition method has been described as an HMM, the same effect can be obtained by a DP (Dynamic Programming) matching or a speech recognition method using a neural network.

【0119】実施の形態6.上記の実施の形態5のよう
に第二辞書記憶手段7(CD−ROM)の参照回数の上
限を設けた時に、グループの選択を誤った場合、認識不
能となる可能性が高い。本発明の例として示した「神奈
川県」、「香川県」の場合、一音節しか違いがなく似て
いるため、特に誤りやすい。そのため、この実施の形態
6では、県名に加え市町村名の一部の照合処理を行った
後、第二辞書記憶手段7(CD−ROM)に記憶してあ
るグループを選択することにより、グループの選択の精
度を高めることを特徴とする。県名だけでなく続く市町
村名の一部を別の部分辞書として第一辞書記憶手段6
(EEPROM)に記憶する。
Embodiment 6 FIG. When the upper limit of the number of times of reference to the second dictionary storage means 7 (CD-ROM) is set as in the above-described fifth embodiment, if the group is incorrectly selected, there is a high possibility that recognition becomes impossible. In the case of "Kanagawa prefecture" and "Kagawa prefecture" shown as examples of the present invention, since only one syllable is different and similar, it is particularly prone to error. Therefore, in the sixth embodiment, after performing a part of the collation processing of the municipal name in addition to the prefecture name, the group stored in the second dictionary storage means 7 (CD-ROM) is selected. It is characterized in that the accuracy of the selection is increased. First dictionary storage means 6 which stores not only the prefecture name but also a part of the following municipal names as another partial dictionary
(EEPROM).

【0120】本実施の形態6に係る音声認識システムの
構成は、上記の実施の形態3に示したものと同一のた
め、ここでは説明を省略する。第一及び第二辞書記憶手
段6、7の記憶方式に本実施の形態6の特徴があるた
め、以下説明を行う。
The configuration of the speech recognition system according to the sixth embodiment is the same as that described in the third embodiment, and a description thereof will not be repeated. Since the storage method of the first and second dictionary storage means 6 and 7 has the feature of the sixth embodiment, it will be described below.

【0121】図13は、本実施の形態6における辞書の
構成の一例を示すものである。第二辞書記憶手段7(C
D−ROM)に記憶しているグループgrp3、grp4の最初
の先頭の2音節を別の部分辞書net3hおよびnet4hとて第
一辞書記憶手段6(EEPROM)に記憶するものとす
る。
FIG. 13 shows an example of the configuration of the dictionary according to the sixth embodiment. Second dictionary storage means 7 (C
The first two syllables of the groups grp3 and grp4 stored in the D-ROM) are stored in the first dictionary storage means 6 (EEPROM) as another partial dictionary net3h and net4h.

【0122】図13では「藤沢市」を「フジ」と「サワ
シ」に分割している。同様に「鎌倉市」、「高松市」お
よび「大川郡」も最初の2音節を分離している。図13
では、第一辞書記憶手段6(EEPROM)に記憶する
部分辞書は実線で囲っており、第二辞書記憶手段7(C
D−ROM)に記憶する部分辞書は破線で囲って示して
いる。また、部分辞書net3hはグループgrp3hに属し、部
分辞書net4hはグループgrp4hに属すものとしている。
In FIG. 13, "Fujisawa City" is divided into "Fuji" and "Sawashi". Similarly, "Kamakura City", "Takamatsu City" and "Okawa-gun" also separate the first two syllables. FIG.
Then, the partial dictionaries stored in the first dictionary storage means 6 (EEPROM) are surrounded by solid lines, and the second dictionary storage means 7 (C
The partial dictionary stored in the D-ROM) is enclosed by a broken line. The partial dictionary net3h belongs to the group grp3h, and the partial dictionary net4h belongs to the group grp4h.

【0123】このような構成とすることにより、「香川
県大川郡長尾町西」の発声に対し、「カガワケンオオ」
までの情報を用いて「香川県」の市町村名のグループの
選択をできるため、「神奈川県」の市町村名のグループ
であるgrp3を誤って選択する可能性を減少させることが
できる。その結果として認識率を向上できるという効果
がある。
With such a configuration, “Kagawa Kawao” can be used in response to the utterance of “Nagao-cho, Okawa-gun, Kagawa”.
Since the group with the municipal name of “Kagawa Prefecture” can be selected using the information up to, the possibility of erroneously selecting grp3 which is the group with the municipal name of “Kanagawa Prefecture” can be reduced. As a result, there is an effect that the recognition rate can be improved.

【0124】上記の説明はグループの先頭の2音節を第
一辞書記憶手段6(EEPROM)に記憶する構成を例
として説明したが、本発明は2音節に限るものではな
い。
In the above description, the first syllable of the group is stored in the first dictionary storage means 6 (EEPROM), but the present invention is not limited to the two syllables.

【0125】また、図14のように、「藤沢市」、「鎌
倉市」、「高松市」および「大川郡」全体を分離して第
一辞書記憶手段6(EEPROM)に記憶しても良く、
同様に効果を奏する。
As shown in FIG. 14, the entire "Fujisawa City", "Kamakura City", "Takamatsu City" and "Okawa-gun" may be separated and stored in the first dictionary storage means 6 (EEPROM). ,
It works similarly.

【0126】上記の説明ではEEPROMとCD−RO
Mを記憶媒体として用いる場合を一例として説明した
が、EEPROMの代わりにフラッシュROM、EPR
OM、ROM、RAMなど、また、CD−ROMの代わ
りにCD−RW(書き換え可能CD)、DVD−RO
M、DVD−RAM、DVD−RW(書き換え可能DV
D)、ハードディスクなどであっても良く、同様に効果
を奏する。
In the above description, the EEPROM and the CD-RO
M has been described as an example of a storage medium, but instead of an EEPROM, a flash ROM, an EPR
OM, ROM, RAM, etc. Also, instead of CD-ROM, CD-RW (rewritable CD), DVD-RO
M, DVD-RAM, DVD-RW (rewritable DV
D), a hard disk or the like may be used, and the same effect can be obtained.

【0127】また、上記の説明で用いた部分辞書の分類
は一例を示したものであり、他の分類の方法でも良い。
The classification of the partial dictionary used in the above description is an example, and other classification methods may be used.

【0128】また、上記の説明では2種類の記憶媒体を
用いる方法について説明したが、3種類以上の記憶媒体
を用いてもよく同様に効果を奏する。
In the above description, a method using two types of storage media has been described. However, three or more types of storage media may be used, and the same effect can be obtained.

【0129】さらに、上記の説明ではノードを単語とし
て説明したが、ノードは音素片、音素、半音節、音節、
形態素などの単位でも良く、同様に効果を奏する。
Further, in the above description, the node has been described as a word, but the node is a phoneme, a phoneme, a half syllable, a syllable,
A unit such as a morpheme may be used, and the same effect can be obtained.

【0130】また、音声認識方式もHMMとして説明し
たが、これはDP(Dynamic Programming)マッチング
やニューラルネットを用いる音声認識方式でも良く同様
に効果を奏する。
Although the speech recognition method has been described as an HMM, the same effect can be obtained by a DP (Dynamic Programming) matching or a speech recognition method using a neural network.

【0131】[0131]

【発明の効果】この発明の請求項1に係る音声認識シス
テムは、以上説明したとおり、音声信号を入力し音響分
析を行い特徴ベクトルの時系列に変換して出力する音響
分析手段と、認識対象の標準モデルを記憶する標準モデ
ル記憶手段と、単語辞書を分割した複数の部分辞書を記
憶する辞書記憶手段と、照合処理に作業領域として照合
データを記憶する照合データ記憶手段と、前記音響分析
手段からの特徴ベクトルに対し、前記標準モデル及び前
記単語辞書を参照しながら照合処理を行い、認識結果を
出力するモデル照合手段とを備えた音声認識システムに
おいて、前記辞書記憶手段を、高速に参照可能で使用頻
度の高い部分辞書を記憶する第一辞書記憶手段と、高速
に参照不可能で残りの使用頻度の低い部分辞書を記憶す
る第二辞書記憶手段とから構成したので、コストを低く
抑えながら認識応答時間を短くすることができるという
効果を奏する。
As described above, the speech recognition system according to the first aspect of the present invention comprises: a sound analysis unit that inputs a speech signal, performs sound analysis, converts the signal into a time series of feature vectors, and outputs the time series; Standard model storage means for storing a standard model of the above, dictionary storage means for storing a plurality of partial dictionaries obtained by dividing the word dictionary, collation data storage means for storing collation data as a work area in the collation processing, and the acoustic analysis means In the speech recognition system including a matching process for performing a matching process on the feature vector from the reference model with reference to the standard model and the word dictionary and outputting a recognition result, the dictionary storage unit can be referred to at high speed. First dictionary storage means for storing a partial dictionary frequently used in the first dictionary, and a second dictionary storage means for storing remaining partial dictionaries which cannot be referred to at high speed and remain infrequently used Since it is configured from a, an effect that it is possible to shorten the recognition response time while keeping costs low.

【0132】この発明の請求項2に係る音声認識システ
ムは、以上説明したとおり、前記辞書記憶手段が、部分
辞書を前記第一辞書記憶手段又は前記第二辞書記憶手段
のどちらに記憶しているかを示す記録媒体情報を記憶す
る記録媒体記憶手段をさらに含むので、コストを低く抑
えながら認識応答時間を短くすることができるという効
果を奏する。
In the speech recognition system according to a second aspect of the present invention, as described above, whether the dictionary storage unit stores a partial dictionary in the first dictionary storage unit or the second dictionary storage unit Since the recording medium storage means for storing the recording medium information indicating the above is further included, it is possible to shorten the recognition response time while keeping the cost low.

【0133】この発明の請求項3に係る音声認識システ
ムは、以上説明したとおり、前記第一辞書記憶手段及び
前記第二辞書記憶手段が、各ノードに対応して、次に接
続される部分辞書が前記第一辞書記憶手段又は前記第二
辞書記憶手段のどちらに記憶しているかを示す記録媒体
情報を含む部分辞書を記憶するので、コストを低く抑え
ながら認識応答時間を短くすることができるという効果
を奏する。
As described above, in the speech recognition system according to claim 3 of the present invention, the first dictionary storage means and the second dictionary storage means correspond to each node, and Stores a partial dictionary including recording medium information indicating which of the first dictionary storage unit and the second dictionary storage unit is stored, so that it is possible to shorten the recognition response time while keeping costs low. It works.

【0134】この発明の請求項4に係る音声認識システ
ムは、以上説明したとおり、前記第一辞書記憶手段及び
前記第二辞書記憶手段が、同じ記録媒体上にある依存関
係の強い部分辞書をひとまとめのグループとして記憶
し、前記モデル照合手段が、ある部分辞書を参照する場
合にその部分辞書を含むグループをまとめて読み出し、
照合処理を行うので、コストを低く抑えながら認識応答
時間を短くすることができ、各記憶手段の参照回数を減
らすことができるという効果を奏する。
In the speech recognition system according to a fourth aspect of the present invention, as described above, the first dictionary storage unit and the second dictionary storage unit collectively combine the partial dictionaries having a strong dependency on the same recording medium. When the model matching unit refers to a certain partial dictionary, the group including the partial dictionary is read out collectively,
Since the collation processing is performed, the recognition response time can be shortened while keeping the cost low, and the number of times of referring to each storage means can be reduced.

【0135】この発明の請求項5に係る音声認識システ
ムは、以上説明したとおり、前記辞書記憶手段が、ある
部分辞書を参照する場合にまとめて転送されたその部分
辞書を含むグループを記憶するグループ記憶手段をさら
に有し、前記モデル照合手段が、前記グループ記憶手段
に記憶されている前記グループ内の部分辞書を個別に参
照して照合処理を行うので、コストを低く抑えながら認
識応答時間を短くすることができ、各記憶手段の参照回
数を減らすことができるという効果を奏する。
As described above, in the speech recognition system according to the fifth aspect of the present invention, the dictionary storage means stores a group including a partial dictionary transferred together when referring to the partial dictionary. A storage unit, wherein the model matching unit performs the matching process by individually referring to the partial dictionaries in the group stored in the group storage unit, so that the recognition response time is shortened while keeping costs low. This makes it possible to reduce the number of references to each storage means.

【0136】この発明の請求項6に係る音声認識システ
ムは、以上説明したとおり、前記辞書記憶手段が、前記
第二辞書記憶手段から前記照合データ記憶手段へ読み込
んだ部分辞書の量を計測する転送量計測手段をさらに有
し、前記モデル照合手段が、前記転送量計測手段による
計測量と規定量を比較し前記規定量以上の部分辞書を読
み込まないように制御するので、コストを低く抑えなが
ら認識応答時間を短くすることができるという効果を奏
する。
In the speech recognition system according to the sixth aspect of the present invention, as described above, the dictionary storage means transfers the partial dictionary read from the second dictionary storage means to the collation data storage means. The apparatus further comprises an amount measuring unit, wherein the model matching unit compares the amount measured by the transfer amount measuring unit with a specified amount and controls not to read a partial dictionary of the specified amount or more. This has the effect of shortening the response time.

【0137】この発明の請求項7に係る音声認識システ
ムは、以上説明したとおり、前記第一辞書記憶手段が、
前記第二辞書記憶手段に記憶されるべきグループの先頭
部分のみから構成される部分辞書を新たなグループとし
て記憶し、前記第二辞書記憶手段が、前記先頭部分が抜
けた残りから構成される部分辞書を新たなグループとし
て記憶し、前記モデル照合手段が、ある部分辞書を参照
する場合にその部分辞書を含むグループをまとめて読み
出し、照合処理を行うので、認識率を向上することがで
きるという効果を奏する。
In the speech recognition system according to a seventh aspect of the present invention, as described above, the first dictionary storage means includes:
The second dictionary storage unit stores a partial dictionary consisting only of the head portion of the group to be stored as a new group, and the second dictionary storage unit stores the partial dictionary consisting of the remainder left out of the head portion. The dictionary is stored as a new group, and when the model matching unit refers to a certain partial dictionary, the group including the partial dictionary is collectively read and the matching process is performed, so that the recognition rate can be improved. To play.

【0138】この発明の請求項8に係る音声認識方法
は、以上説明したとおり、音声信号を入力して音響分析
を行い特徴ベクトルの時系列に変換し、前記特徴ベクト
ルに対し、認識対象の標準モデル及び単語辞書を分割し
た複数の部分辞書を参照しながら照合処理を行い、認識
結果を出力する音声認識方法において、前記照合処理に
おいて、最初に、高速に参照可能で使用頻度の高い部分
辞書を記憶する第一辞書記憶手段から部分辞書を読み出
す第1の部分辞書読出ステップと、前記照合処理におい
て、次に、高速に参照不可能で残りの使用頻度の低い部
分辞書を記憶する第二辞書記憶手段又は前記第一辞書記
憶手段から部分辞書を読み出す第2の部分辞書読出ステ
ップとを含むので、コストを低く抑えながら認識応答時
間を短くすることができるという効果を奏する。
As described above, in the speech recognition method according to the eighth aspect of the present invention, a speech signal is input and subjected to acoustic analysis to convert the feature vector into a time series of feature vectors. In a voice recognition method of performing a matching process with reference to a plurality of partial dictionaries obtained by dividing a model and a word dictionary and outputting a recognition result, in the matching process, first, a partial dictionary that can be referred to at high speed and that is frequently used is used. A first partial dictionary reading step of reading a partial dictionary from the first dictionary storage means to be stored; and a second dictionary storage for storing the remaining infrequently inaccessible partial dictionaries in the matching process. Means for reading the partial dictionary from the first dictionary storage means or the first dictionary storage means, so that the recognition response time can be shortened while keeping the cost low. There is an effect that kill.

【0139】この発明の請求項9に係る音声認識方法
は、以上説明したとおり、前記第2の部分辞書読出ステ
ップでは、次に接続される部分辞書が前記第一辞書記憶
手段又は前記第二辞書記憶手段のどちらに記憶している
かを示す記録媒体情報に基いて、前記第一辞書記憶手段
又は前記第二辞書記憶手段から部分辞書を読み出すの
で、コストを低く抑えながら認識応答時間を短くするこ
とができるという効果を奏する。
As described above, in the speech recognition method according to the ninth aspect of the present invention, in the second partial dictionary reading step, the next partial dictionary to be connected is the first dictionary storage unit or the second dictionary. Since the partial dictionary is read from the first dictionary storage unit or the second dictionary storage unit based on the storage medium information indicating which storage unit is stored, the recognition response time can be reduced while keeping the cost low. This has the effect that it can be performed.

【0140】この発明の請求項10に係る音声認識方法
は、以上説明したとおり、前記第2の部分辞書読出ステ
ップでは、ある部分辞書を参照する場合に、依存関係の
強い部分辞書をひとまとめのグループとして記憶してい
る第二辞書記憶手段からその部分辞書を含むグループを
まとめて読み出すので、コストを低く抑えながら認識応
答時間を短くすることができ、記憶手段の参照回数を減
らすことができるという効果を奏する。
As described above, in the speech recognition method according to the tenth aspect of the present invention, in the second partial dictionary reading step, when referring to a certain partial dictionary, a partial dictionary having a strong dependency is grouped together. Since the group including the partial dictionary is collectively read from the second dictionary storage unit that is stored as, the recognition response time can be shortened while the cost is kept low, and the number of references to the storage unit can be reduced. To play.

【0141】この発明の請求項11に係る音声認識方法
は、以上説明したとおり、前記第2の部分辞書読出ステ
ップでは、ある部分辞書を参照する場合に、前記第二辞
書記憶手段からその部分辞書を含むグループをまとめて
読み出してグループ記憶手段に記憶するので、コストを
低く抑えながら認識応答時間を短くすることができ、記
憶手段の参照回数を減らすことができるという効果を奏
する。
As described above, in the voice recognition method according to the eleventh aspect of the present invention, in the second partial dictionary reading step, when a certain partial dictionary is referred to, the second partial dictionary storage means reads the partial dictionary. Are collectively read and stored in the group storage means, so that the recognition response time can be shortened while the cost is kept low, and the number of references to the storage means can be reduced.

【0142】この発明の請求項12に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、以上説明したとおり、音声信号を入力し音響分析を
行い特徴ベクトルの時系列に変換して出力する音響分析
手順と、認識対象の標準モデルを記憶する標準モデル記
憶領域と、単語辞書を分割した複数の部分辞書を記憶す
る辞書記憶領域と、照合処理に作業領域として照合デー
タを記憶する照合データ記憶領域と、前記音響分析手順
からの特徴ベクトルに対し、前記標準モデル及び前記単
語辞書を参照しながら照合処理を行い、認識結果を出力
するモデル照合手順とを含む音声認識プログラムを記録
したコンピュータ読み取り可能な記録媒体において、前
記辞書記憶領域を、高速に参照可能で使用頻度の高い部
分辞書を記憶する第一辞書記憶領域と、高速に参照不可
能で残りの使用頻度の低い部分辞書を記憶する第二辞書
記憶領域とから構成したので、コストを低く抑えながら
認識応答時間を短くすることができるという効果を奏す
る。
According to a twelfth aspect of the present invention, a computer-readable recording medium storing a speech recognition program receives a speech signal, performs acoustic analysis, converts the signal into a time series of feature vectors, and outputs the result. Acoustic analysis procedure, a standard model storage area for storing a standard model to be recognized, a dictionary storage area for storing a plurality of partial dictionaries obtained by dividing a word dictionary, and collation data storage for storing collation data as a work area in the collation processing A computer-readable recording of a speech recognition program including a region and a model matching procedure for performing a matching process on the feature vector from the acoustic analysis procedure with reference to the standard model and the word dictionary and outputting a recognition result In a simple recording medium, the dictionary storage area stores a partial dictionary that can be referred to at high speed and that is frequently used. Since it is composed of one dictionary storage area and a second dictionary storage area that stores the remaining partial dictionaries that cannot be referenced at high speed and that are used less frequently, the recognition response time can be shortened while keeping costs low. To play.

【0143】この発明の請求項13に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、以上説明したとおり、前記辞書記憶領域が、部分辞
書を前記第一辞書記憶領域又は前記第二辞書記憶領域の
どちらに記憶しているかを示す記録媒体情報を記憶する
記録媒体記憶領域をさらに含むので、コストを低く抑え
ながら認識応答時間を短くすることができるという効果
を奏する。
According to a thirteenth aspect of the present invention, as described above, the computer-readable recording medium recording the speech recognition program is such that the dictionary storage area stores the partial dictionary in the first dictionary storage area or the second dictionary storage area. Since the recording medium storage area for storing the recording medium information indicating which of the storage areas is stored is further included, an effect is obtained that the recognition response time can be shortened while keeping costs low.

【0144】この発明の請求項14に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、以上説明したとおり、前記第一辞書記憶領域及び前
記第二辞書記憶領域が、各ノードに対応して、次に接続
される部分辞書が前記第一辞書記憶領域又は前記第二辞
書記憶領域のどちらに記憶しているかを示す記録媒体情
報を含む部分辞書を記憶するので、コストを低く抑えな
がら認識応答時間を短くすることができるという効果を
奏する。
According to a fourteenth aspect of the present invention, there is provided a computer readable recording medium storing a speech recognition program, wherein the first dictionary storage area and the second dictionary storage area correspond to each node, as described above. Since a partial dictionary including recording medium information indicating whether the next partial dictionary is stored in the first dictionary storage area or the second dictionary storage area is stored, recognition can be performed while keeping costs low. This has the effect of shortening the response time.

【0145】この発明の請求項15に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、以上説明したとおり、前記第一辞書記憶領域及び前
記第二辞書記憶領域が、同じ記録媒体上にある依存関係
の強い部分辞書をひとまとめのグループとして記憶し、
前記モデル照合手順が、ある部分辞書を参照する場合に
その部分辞書を含むグループをまとめて読み出し、照合
処理を行うので、コストを低く抑えながら認識応答時間
を短くすることができ、各記憶領域の参照回数を減らす
ことができるという効果を奏する。
According to a computer-readable recording medium having recorded thereon a speech recognition program according to claim 15 of the present invention, as described above, the first dictionary storage area and the second dictionary storage area are stored on the same recording medium. Memorize a partial dictionary with a strong dependency as a group,
When the model matching procedure refers to a certain partial dictionary, a group including the partial dictionary is read out collectively and the matching process is performed, so that the recognition response time can be shortened while keeping costs low, and the There is an effect that the number of times of reference can be reduced.

【0146】この発明の請求項16に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、以上説明したとおり、前記辞書記憶領域が、ある部
分辞書を参照する場合にまとめて転送されたその部分辞
書を含むグループを記憶するグループ記憶領域をさらに
有し、前記モデル照合手順が、前記グループ記憶領域に
記憶されている前記グループ内の部分辞書を個別に参照
して照合処理を行うので、コストを低く抑えながら認識
応答時間を短くすることができ、各記憶領域の参照回数
を減らすことができるという効果を奏する。
As described above, in the computer-readable recording medium storing the speech recognition program according to claim 16 of the present invention, when the dictionary storage area refers to a certain partial dictionary, The apparatus further includes a group storage area for storing a group including a partial dictionary, and the model matching procedure performs a matching process by individually referring to partial dictionaries in the group stored in the group storage area. , The recognition response time can be shortened, and the number of times of referring to each storage area can be reduced.

【0147】この発明の請求項17に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、以上説明したとおり、前記第二辞書記憶領域から前
記照合データ記憶領域へ読み込んだ部分辞書の量を計測
する転送量計測手順をさらに有し、前記モデル照合手順
が、前記転送量計測手順による計測量と規定量を比較し
前記規定量以上の部分辞書を読み込まないように制御す
るので、コストを低く抑えながら認識応答時間を短くす
ることができるという効果を奏する。
The computer-readable recording medium having recorded thereon the speech recognition program according to claim 17 of the present invention, as described above, stores the amount of the partial dictionary read from the second dictionary storage area to the collation data storage area. The method further includes a transfer amount measurement procedure for measuring, and the model matching procedure controls the comparison between the measurement amount and the specified amount by the transfer amount measurement procedure so as not to read a partial dictionary of the specified amount or more, thereby reducing costs. There is an effect that the recognition response time can be shortened while suppressing it.

【0148】この発明の請求項18に係る音声認識プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、以上説明したとおり、前記第一辞書記憶領域が、前
記第二辞書記憶領域に記憶されるべきグループの先頭部
分のみから構成される部分辞書を新たなグループとして
記憶し、前記第二辞書記憶領域が、前記先頭部分が抜け
た残りから構成される部分辞書を新たなグループとして
記憶し、前記モデル照合手順が、ある部分辞書を参照す
る場合にその部分辞書を含むグループをまとめて読み出
し、照合処理を行うので、認識率を向上することができ
るという効果を奏する。
According to a computer-readable recording medium having recorded thereon a speech recognition program according to claim 18 of the present invention, as described above, the first dictionary storage area is a group to be stored in the second dictionary storage area. The second dictionary storage area stores a partial dictionary composed of the remainder of the first part as a new group, and stores the partial dictionary composed only of the first part of the model dictionary as a new group. When the procedure refers to a certain partial dictionary, a group including the partial dictionary is read out collectively and collation processing is performed, so that the recognition rate can be improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 この発明の実施の形態1に係る音声認識シス
テムの構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a speech recognition system according to Embodiment 1 of the present invention.

【図2】 この発明の実施の形態1に係る音声認識シス
テムの単語辞書の構成を示す図である。
FIG. 2 is a diagram showing a configuration of a word dictionary of the speech recognition system according to the first embodiment of the present invention.

【図3】 この発明の実施の形態1に係る音声認識シス
テムの記録媒体記憶手段の内容を示す図である。
FIG. 3 is a diagram showing contents of a recording medium storage means of the voice recognition system according to the first embodiment of the present invention.

【図4】 この発明の実施の形態1に係る音声認識シス
テムの単語辞書の別の構成を示す図である。
FIG. 4 is a diagram showing another configuration of the word dictionary of the speech recognition system according to the first embodiment of the present invention.

【図5】 この発明の実施の形態2に係る音声認識シス
テムの構成を示すブロック図である。
FIG. 5 is a block diagram showing a configuration of a speech recognition system according to Embodiment 2 of the present invention.

【図6】 この発明の実施の形態2に係る音声認識シス
テムの部分辞書の構造を示す図である。
FIG. 6 is a diagram showing a structure of a partial dictionary of the speech recognition system according to Embodiment 2 of the present invention.

【図7】 この発明の実施の形態3に係る音声認識シス
テムの単語辞書の構成を示す図である。
FIG. 7 is a diagram showing a configuration of a word dictionary of a speech recognition system according to Embodiment 3 of the present invention.

【図8】 この発明の実施の形態3に係る音声認識シス
テムの部分辞書の構造を示す図である。
FIG. 8 is a diagram showing a structure of a partial dictionary of the speech recognition system according to Embodiment 3 of the present invention.

【図9】 この発明の実施の形態3に係る音声認識シス
テムの照合データ記憶手段の内容を示す図である。
FIG. 9 is a diagram showing contents of a collation data storage means of the voice recognition system according to Embodiment 3 of the present invention.

【図10】 この発明の実施の形態4に係る音声認識シ
ステムの構成を示すブロック図である。
FIG. 10 is a block diagram showing a configuration of a speech recognition system according to Embodiment 4 of the present invention.

【図11】 この発明の実施の形態4に係る音声認識シ
ステムのグループ記憶手段及び照合データ記憶手段の内
容を示す図である。
FIG. 11 is a diagram showing contents of a group storage unit and a collation data storage unit of the voice recognition system according to the fourth embodiment of the present invention.

【図12】 この発明の実施の形態5に係る音声認識シ
ステムの構成を示すブロック図である。
FIG. 12 is a block diagram showing a configuration of a speech recognition system according to Embodiment 5 of the present invention.

【図13】 この発明の実施の形態6に係る音声認識シ
ステムの単語辞書の構成を示す図である。
FIG. 13 is a diagram showing a configuration of a word dictionary of a speech recognition system according to Embodiment 6 of the present invention.

【図14】 この発明の実施の形態6に係る音声認識シ
ステムの単語辞書の別の構成を示す図である。
FIG. 14 is a diagram showing another configuration of the word dictionary of the speech recognition system according to Embodiment 6 of the present invention.

【図15】 従来の音声認識システムの構成を示すブロ
ック図である。
FIG. 15 is a block diagram showing a configuration of a conventional speech recognition system.

【図16】 従来の音声認識システムにおける認識対象
の住所を示す図である。
FIG. 16 is a diagram showing addresses to be recognized in a conventional voice recognition system.

【図17】 従来の音声認識システムの単語辞書の構成
を示す図である。
FIG. 17 is a diagram showing a configuration of a word dictionary of a conventional speech recognition system.

【図18】 従来の音声認識システムの部分辞書の構造
を示す図である。
FIG. 18 is a diagram showing a structure of a partial dictionary of a conventional speech recognition system.

【図19】 従来の音声認識システムの標準モデル記憶
手段の内容を示す図である。
FIG. 19 is a diagram showing the contents of a standard model storage means of a conventional speech recognition system.

【図20】 従来の音声認識システムの照合データ記憶
手段の内容を示す図である。
FIG. 20 is a diagram showing contents of a collation data storage means of a conventional speech recognition system.

【図21】 従来の音声認識システムの照合データ記憶
手段の内容を示す図である。
FIG. 21 is a diagram showing the contents of a collation data storage means of a conventional speech recognition system.

【図22】 従来の音声認識システムのモデル照合手段
の動作を示すフローチャートである。
FIG. 22 is a flowchart showing the operation of a model matching unit of a conventional speech recognition system.

【図23】 従来の音声認識システムの照合データ記憶
手段のHMMの内容を示す図である。
FIG. 23 is a diagram showing the contents of the HMM of the collation data storage means of the conventional speech recognition system.

【図24】 従来の音声認識システムの照合データ記憶
手段のHMMの内容を示す図である。
FIG. 24 is a diagram showing the contents of an HMM in a collation data storage means of a conventional speech recognition system.

【符号の説明】[Explanation of symbols]

1 音響分析手段、2 標準モデル記憶手段、4 照合
データ記憶手段、5モデル照合手段、6 第一辞書記憶
手段、7 第二辞書記憶手段、8 記録媒体記憶手段、
9 グループ記憶手段、10 転送量計測手段。
1 acoustic analysis means, 2 standard model storage means, 4 collation data storage means, 5 model collation means, 6 first dictionary storage means, 7 second dictionary storage means, 8 recording medium storage means,
9 Group storage means, 10 Transfer amount measurement means.

Claims (18)

【特許請求の範囲】[Claims] 【請求項1】 音声信号を入力し音響分析を行い特徴ベ
クトルの時系列に変換して出力する音響分析手段と、 認識対象の標準モデルを記憶する標準モデル記憶手段
と、 単語辞書を分割した複数の部分辞書を記憶する辞書記憶
手段と、 照合処理に作業領域として照合データを記憶する照合デ
ータ記憶手段と、 前記音響分析手段からの特徴ベクトルに対し、前記標準
モデル及び前記単語辞書を参照しながら照合処理を行
い、認識結果を出力するモデル照合手段とを備えた音声
認識システムにおいて、 前記辞書記憶手段を、高速に参照可能で使用頻度の高い
部分辞書を記憶する第一辞書記憶手段と、 高速に参照不可能で残りの使用頻度の低い部分辞書を記
憶する第二辞書記憶手段とから構成したことを特徴とす
る音声認識システム。
1. A sound analysis means for inputting a sound signal, performing sound analysis, converting the sound signal into a time series of feature vectors and outputting the time series, a standard model storage means for storing a standard model to be recognized, and a plurality of divided word dictionaries. Dictionary storage means for storing partial dictionaries, collation data storage means for storing collation data as a work area in the collation processing, and referring to the standard model and the word dictionary for the feature vector from the acoustic analysis means. A speech recognition system comprising: a model matching unit that performs a matching process and outputs a recognition result; wherein the dictionary storage unit is a first dictionary storage unit that stores a partial dictionary that can be referred to at high speed and that is frequently used; And a second dictionary storage means for storing remaining incompletely used partial dictionaries that cannot be referred to.
【請求項2】 前記辞書記憶手段は、部分辞書を前記第
一辞書記憶手段又は前記第二辞書記憶手段のどちらに記
憶しているかを示す記録媒体情報を記憶する記録媒体記
憶手段をさらに含むことを特徴とする請求項1記載の音
声認識システム。
2. The dictionary storage unit further includes a storage medium storage unit that stores storage medium information indicating whether the partial dictionary is stored in the first dictionary storage unit or the second dictionary storage unit. The speech recognition system according to claim 1, wherein:
【請求項3】 前記第一辞書記憶手段及び前記第二辞書
記憶手段は、各ノードに対応して、次に接続される部分
辞書が前記第一辞書記憶手段又は前記第二辞書記憶手段
のどちらに記憶しているかを示す記録媒体情報を含む部
分辞書を記憶することを特徴とする請求項1記載の音声
認識システム。
3. The first dictionary storage means and the second dictionary storage means, corresponding to each node, wherein a partial dictionary to be connected next is either the first dictionary storage means or the second dictionary storage means. 2. The speech recognition system according to claim 1, wherein a partial dictionary including recording medium information indicating whether the information is stored in the storage unit is stored.
【請求項4】 前記第一辞書記憶手段及び前記第二辞書
記憶手段は、同じ記録媒体上にある依存関係の強い部分
辞書をひとまとめのグループとして記憶し、前記モデル
照合手段は、ある部分辞書を参照する場合にその部分辞
書を含むグループをまとめて読み出し、照合処理を行う
ことを特徴とする請求項3記載の音声認識システム。
4. The first dictionary storage unit and the second dictionary storage unit store, as a group, partial dictionaries having a strong dependency on the same recording medium, and the model matching unit stores a certain partial dictionary. 4. The speech recognition system according to claim 3, wherein when referring to, the group including the partial dictionary is read out collectively and a collation process is performed.
【請求項5】 前記辞書記憶手段は、ある部分辞書を参
照する場合にまとめて転送されたその部分辞書を含むグ
ループを記憶するグループ記憶手段をさらに有し、 前記モデル照合手段は、前記グループ記憶手段に記憶さ
れている前記グループ内の部分辞書を個別に参照して照
合処理を行うことを特徴とする請求項4記載の音声認識
システム。
5. The dictionary storage unit further includes a group storage unit configured to store a group including the partial dictionary transferred collectively when referring to the partial dictionary, and the model matching unit includes the group storage unit. 5. The speech recognition system according to claim 4, wherein the matching processing is performed by individually referring to the partial dictionaries in the group stored in the means.
【請求項6】 前記辞書記憶手段は、前記第二辞書記憶
手段から前記照合データ記憶手段へ読み込んだ部分辞書
の量を計測する転送量計測手段をさらに有し、 前記モデル照合手段は、前記転送量計測手段による計測
量と規定量を比較し前記規定量以上の部分辞書を読み込
まないように制御することを特徴とする請求項4記載の
音声認識システム。
6. The dictionary storage unit further includes a transfer amount measurement unit that measures an amount of a partial dictionary read from the second dictionary storage unit to the comparison data storage unit, and the model comparison unit includes the transfer unit. 5. The speech recognition system according to claim 4, wherein the amount measured by the amount measuring means is compared with a prescribed amount, and control is performed so that a partial dictionary having the prescribed amount or more is not read.
【請求項7】 前記第一辞書記憶手段は、前記第二辞書
記憶手段に記憶されるべきグループの先頭部分のみから
構成される部分辞書を新たなグループとして記憶し、 前記第二辞書記憶手段は、前記先頭部分が抜けた残りか
ら構成される部分辞書を新たなグループとして記憶し、 前記モデル照合手段は、ある部分辞書を参照する場合に
その部分辞書を含むグループをまとめて読み出し、照合
処理を行うことを特徴とする請求項4記載の音声認識シ
ステム。
7. The first dictionary storage means stores, as a new group, a partial dictionary composed only of a head portion of a group to be stored in the second dictionary storage means, wherein the second dictionary storage means Storing a partial dictionary composed of the remainder of the leading part as a new group, wherein the model matching unit reads a group including the partial dictionary collectively when referring to a certain partial dictionary, and performs a matching process. 5. The speech recognition system according to claim 4, wherein the speech recognition is performed.
【請求項8】 音声信号を入力して音響分析を行い特徴
ベクトルの時系列に変換し、前記特徴ベクトルに対し、
認識対象の標準モデル及び単語辞書を分割した複数の部
分辞書を参照しながら照合処理を行い、認識結果を出力
する音声認識方法において、 前記照合処理において、最初に、高速に参照可能で使用
頻度の高い部分辞書を記憶する第一辞書記憶手段から部
分辞書を読み出す第1の部分辞書読出ステップと、 前記照合処理において、次に、高速に参照不可能で残り
の使用頻度の低い部分辞書を記憶する第二辞書記憶手段
又は前記第一辞書記憶手段から部分辞書を読み出す第2
の部分辞書読出ステップとを含むことを特徴とする音声
認識方法。
8. A speech signal is input, acoustic analysis is performed, and the speech signal is converted into a time series of feature vectors.
In a voice recognition method of performing a matching process with reference to a plurality of partial dictionaries obtained by dividing a standard model and a word dictionary to be recognized, and outputting a recognition result, in the matching process, first, a high-speed reference and a usage frequency A first partial dictionary reading step of reading a partial dictionary from a first dictionary storage unit that stores a high partial dictionary; and in the collation processing, next, a remaining partial dictionary that cannot be referred to at high speed and is used less frequently Reading a partial dictionary from the second dictionary storage means or the first dictionary storage means;
And a sub-dictionary reading step.
【請求項9】 前記第2の部分辞書読出ステップでは、
次に接続される部分辞書が前記第一辞書記憶手段又は前
記第二辞書記憶手段のどちらに記憶しているかを示す記
録媒体情報に基いて、前記第一辞書記憶手段又は前記第
二辞書記憶手段から部分辞書を読み出すことを特徴とす
る請求項8記載の音声認識方法。
9. In the reading step of the second partial dictionary,
Next, the first dictionary storage unit or the second dictionary storage unit is based on recording medium information indicating which of the first dictionary storage unit and the second dictionary storage unit the partial dictionary to be connected to is stored. 9. The speech recognition method according to claim 8, wherein a partial dictionary is read out of the dictionary.
【請求項10】 前記第2の部分辞書読出ステップで
は、ある部分辞書を参照する場合に、依存関係の強い部
分辞書をひとまとめのグループとして記憶している第二
辞書記憶手段からその部分辞書を含むグループをまとめ
て読み出すことを特徴とする請求項9記載の音声認識方
法。
10. The second partial dictionary reading step includes, when referring to a partial dictionary, the partial dictionary from a second dictionary storage unit that stores a partial dictionary having a strong dependence as a group. The speech recognition method according to claim 9, wherein the groups are read out collectively.
【請求項11】 前記第2の部分辞書読出ステップで
は、ある部分辞書を参照する場合に、前記第二辞書記憶
手段からその部分辞書を含むグループをまとめて読み出
してグループ記憶手段に記憶することを特徴とする請求
項10記載の音声認識方法。
11. The second partial dictionary reading step includes, when referring to a certain partial dictionary, reading out a group including the partial dictionary from the second dictionary storage unit and storing the group in the group storage unit. The voice recognition method according to claim 10, wherein
【請求項12】 音声信号を入力し音響分析を行い特徴
ベクトルの時系列に変換して出力する音響分析手順と、 認識対象の標準モデルを記憶する標準モデル記憶領域
と、 単語辞書を分割した複数の部分辞書を記憶する辞書記憶
領域と、 照合処理に作業領域として照合データを記憶する照合デ
ータ記憶領域と、 前記音響分析手順からの特徴ベクトルに対し、前記標準
モデル及び前記単語辞書を参照しながら照合処理を行
い、認識結果を出力するモデル照合手順とを含む音声認
識プログラムを記録したコンピュータ読み取り可能な記
録媒体において、 前記辞書記憶領域を、高速に参照可能で使用頻度の高い
部分辞書を記憶する第一辞書記憶領域と、 高速に参照不可能で残りの使用頻度の低い部分辞書を記
憶する第二辞書記憶領域とから構成したことを特徴とす
る音声認識プログラムを記録したコンピュータ読み取り
可能な記録媒体。
12. A sound analysis procedure for inputting a sound signal, performing sound analysis, converting the sound signal into a time series of feature vectors, and outputting the time series, a standard model storage area for storing a standard model to be recognized, and a plurality of divided word dictionaries. A dictionary storage area for storing partial dictionaries, a collation data storage area for storing collation data as a work area in the collation processing, and a feature vector from the acoustic analysis procedure with reference to the standard model and the word dictionary. A computer-readable recording medium storing a speech recognition program including a model matching procedure for performing a matching process and outputting a recognition result, wherein the dictionary storage area stores a partial dictionary that can be referred to at high speed and that is frequently used. The first dictionary storage area and the second dictionary storage area for storing the remaining infrequently used partial dictionaries that cannot be referenced at high speed. A computer-readable recording medium having recorded thereon a voice recognition program.
【請求項13】 前記辞書記憶領域は、部分辞書を前記
第一辞書記憶領域又は前記第二辞書記憶領域のどちらに
記憶しているかを示す記録媒体情報を記憶する記録媒体
記憶領域をさらに含むことを特徴とする請求項12記載
の音声認識プログラムを記録したコンピュータ読み取り
可能な記録媒体。
13. The dictionary storage area further includes a storage medium storage area for storing storage medium information indicating whether the partial dictionary is stored in the first dictionary storage area or the second dictionary storage area. A computer-readable recording medium on which the voice recognition program according to claim 12 is recorded.
【請求項14】 前記第一辞書記憶領域及び前記第二辞
書記憶領域は、各ノードに対応して、次に接続される部
分辞書が前記第一辞書記憶領域又は前記第二辞書記憶領
域のどちらに記憶しているかを示す記録媒体情報を含む
部分辞書を記憶することを特徴とする請求項12記載の
音声認識プログラムを記録したコンピュータ読み取り可
能な記録媒体。
14. The first dictionary storage area and the second dictionary storage area correspond to each node, and a partial dictionary to be connected next is either the first dictionary storage area or the second dictionary storage area. 13. A computer-readable recording medium storing a speech recognition program according to claim 12, wherein a partial dictionary including recording medium information indicating whether the speech recognition program is stored is stored.
【請求項15】 前記第一辞書記憶領域及び前記第二辞
書記憶領域は、同じ記録媒体上にある依存関係の強い部
分辞書をひとまとめのグループとして記憶し、 前記モデル照合手順は、ある部分辞書を参照する場合に
その部分辞書を含むグループをまとめて読み出し、照合
処理を行うことを特徴とする請求項14記載の音声認識
プログラムを記録したコンピュータ読み取り可能な記録
媒体。
15. The first dictionary storage area and the second dictionary storage area store, as a group, partial dictionaries having a strong dependency relationship on the same recording medium, and the model collation procedure includes: 15. The computer-readable recording medium storing a speech recognition program according to claim 14, wherein a group including the partial dictionary is read out at a time when the reference is made, and a collation process is performed.
【請求項16】 前記辞書記憶領域は、ある部分辞書を
参照する場合にまとめて転送されたその部分辞書を含む
グループを記憶するグループ記憶領域をさらに有し、 前記モデル照合手順は、前記グループ記憶領域に記憶さ
れている前記グループ内の部分辞書を個別に参照して照
合処理を行うことを特徴とする請求項15記載の音声認
識プログラムを記録したコンピュータ読み取り可能な記
録媒体。
16. The dictionary storage area further includes a group storage area for storing a group including the partial dictionary transferred collectively when the partial dictionary is referred to, and wherein the model collation procedure includes the step of: 16. The computer-readable recording medium according to claim 15, wherein the collation processing is performed by individually referring to the partial dictionaries in the group stored in the area.
【請求項17】 前記第二辞書記憶領域から前記照合デ
ータ記憶領域へ読み込んだ部分辞書の量を計測する転送
量計測手順をさらに有し、 前記モデル照合手順は、前記転送量計測手順による計測
量と規定量を比較し前記規定量以上の部分辞書を読み込
まないように制御することを特徴とする請求項15記載
の音声認識プログラムを記録したコンピュータ読み取り
可能な記録媒体。
17. The method according to claim 17, further comprising: a transfer amount measuring step of measuring an amount of the partial dictionary read from the second dictionary storage area to the comparison data storage area; 16. A computer-readable recording medium storing a speech recognition program according to claim 15, wherein a control is performed so as not to read the partial dictionary having the prescribed amount or more.
【請求項18】 前記第一辞書記憶領域は、前記第二辞
書記憶領域に記憶されるべきグループの先頭部分のみか
ら構成される部分辞書を新たなグループとして記憶し、 前記第二辞書記憶領域は、前記先頭部分が抜けた残りか
ら構成される部分辞書を新たなグループとして記憶し、 前記モデル照合手順は、ある部分辞書を参照する場合に
その部分辞書を含むグループをまとめて読み出し、照合
処理を行うことを特徴とする請求項15記載の音声認識
プログラムを記録したコンピュータ読み取り可能な記録
媒体。
18. The first dictionary storage area stores, as a new group, a partial dictionary composed only of a leading part of a group to be stored in the second dictionary storage area, And storing a partial dictionary composed of the remainder from which the leading part is omitted as a new group. In the model matching procedure, when referring to a certain partial dictionary, the group including the partial dictionary is read out collectively, and the matching process is performed. 16. A computer-readable recording medium on which the voice recognition program according to claim 15 is recorded.
JP25428699A 1999-09-08 1999-09-08 Speech recognition system and method, and computer-readable recording medium recording speech recognition program Expired - Lifetime JP3999913B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25428699A JP3999913B2 (en) 1999-09-08 1999-09-08 Speech recognition system and method, and computer-readable recording medium recording speech recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25428699A JP3999913B2 (en) 1999-09-08 1999-09-08 Speech recognition system and method, and computer-readable recording medium recording speech recognition program

Publications (2)

Publication Number Publication Date
JP2001083981A true JP2001083981A (en) 2001-03-30
JP3999913B2 JP3999913B2 (en) 2007-10-31

Family

ID=17262868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25428699A Expired - Lifetime JP3999913B2 (en) 1999-09-08 1999-09-08 Speech recognition system and method, and computer-readable recording medium recording speech recognition program

Country Status (1)

Country Link
JP (1) JP3999913B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304192A (en) * 2001-04-05 2002-10-18 Denso Corp Voice recognition device
JP2007003602A (en) * 2005-06-21 2007-01-11 Alpine Electronics Inc Speech recognition device and travel guidance device for vehicle equipped with same
JP2010191856A (en) * 2009-02-20 2010-09-02 Fujitsu Ltd Verification device and authentication device
JP4855421B2 (en) * 2005-12-14 2012-01-18 三菱電機株式会社 Voice recognition device

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304192A (en) * 2001-04-05 2002-10-18 Denso Corp Voice recognition device
JP4724943B2 (en) * 2001-04-05 2011-07-13 株式会社デンソー Voice recognition device
JP2007003602A (en) * 2005-06-21 2007-01-11 Alpine Electronics Inc Speech recognition device and travel guidance device for vehicle equipped with same
JP4855421B2 (en) * 2005-12-14 2012-01-18 三菱電機株式会社 Voice recognition device
US8112276B2 (en) 2005-12-14 2012-02-07 Mitsubishi Electric Corporation Voice recognition apparatus
JP2010191856A (en) * 2009-02-20 2010-09-02 Fujitsu Ltd Verification device and authentication device

Also Published As

Publication number Publication date
JP3999913B2 (en) 2007-10-31

Similar Documents

Publication Publication Date Title
JP4528535B2 (en) Method and apparatus for predicting word error rate from text
JP5282737B2 (en) Speech recognition apparatus and speech recognition method
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
US7013277B2 (en) Speech recognition apparatus, speech recognition method, and storage medium
JP4845118B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
US7487091B2 (en) Speech recognition device for recognizing a word sequence using a switching speech model network
JP4414088B2 (en) System using silence in speech recognition
JP3459712B2 (en) Speech recognition method and device and computer control device
JPH08278794A (en) Speech recognition device and its method and phonetic translation device
WO2003088209A1 (en) Car navigation system and speech recognizing device thereof
JP3803029B2 (en) Voice recognition device
JP4289715B2 (en) Speech recognition apparatus, speech recognition method, and tree structure dictionary creation method used in the method
JP2980026B2 (en) Voice recognition device
JP2001083981A (en) Speech recognition system and method and recording medium readable by computer having recorded voice recognition program therein
US20090222266A1 (en) Apparatus, method, and recording medium for clustering phoneme models
JP2003208195A5 (en)
JP4951035B2 (en) Likelihood ratio model creation device by speech unit, Likelihood ratio model creation method by speech unit, speech recognition reliability calculation device, speech recognition reliability calculation method, program
JP2002278579A (en) Voice data retrieving device
JP3472101B2 (en) Speech input interpretation device and speech input interpretation method
JP2001312293A (en) Method and device for voice recognition, and computer- readable storage medium
WO1999028898A1 (en) Speech recognition method and system
JP3969079B2 (en) Voice recognition apparatus and method, recording medium, and program
JP3494338B2 (en) Voice recognition method
JPH08241096A (en) Speech recognition method
Gopalakrishnan et al. Fast match techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070717

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070810

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3999913

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120817

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120817

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130817

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term