JP2001092489A - Continuous voice recognition device - Google Patents

Continuous voice recognition device

Info

Publication number
JP2001092489A
JP2001092489A JP26945899A JP26945899A JP2001092489A JP 2001092489 A JP2001092489 A JP 2001092489A JP 26945899 A JP26945899 A JP 26945899A JP 26945899 A JP26945899 A JP 26945899A JP 2001092489 A JP2001092489 A JP 2001092489A
Authority
JP
Japan
Prior art keywords
word
unknown
language model
class
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP26945899A
Other languages
Japanese (ja)
Other versions
JP3907880B2 (en
Inventor
Atsushi Matsui
淳 松井
Toru Imai
亨 今井
Akio Ando
彰男 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP26945899A priority Critical patent/JP3907880B2/en
Publication of JP2001092489A publication Critical patent/JP2001092489A/en
Application granted granted Critical
Publication of JP3907880B2 publication Critical patent/JP3907880B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To additionally register unknown words without decrease in presumption accuracy of parameters concerning words registered in a stochastic language model. SOLUTION: Parameters to be allocated to unknown words for each class are prepared, and a parameter corresponding to the word class of an unknown word to be registered is determined. A stochastic language model to be additionally registered is created by an unknown word N-gram creating part 6 by using the determined parameter, and is additionally registered in the existing stochastic language model.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、確率的言語モデル
を使用して音声認識を行う連続音声認識装置に関し、よ
り詳しくは、未知語を既存の確率的言語モデルに追加登
録する機能を有する連続音声認識装置および記録媒体に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a continuous speech recognition apparatus for performing speech recognition using a probabilistic language model, and more particularly, to a continuous speech recognition apparatus having a function of additionally registering an unknown word in an existing probabilistic language model. The present invention relates to a voice recognition device and a recording medium.

【0002】[0002]

【従来の技術】従来この種の音声認識装置で使用される
確率的言語モデルに未知語を登録する方法としては、以
下の方法が知られている。
2. Description of the Related Art Conventionally, the following method is known as a method of registering an unknown word in a probabilistic language model used in this type of speech recognition apparatus.

【0003】(a)クラス言語モデルによる方法(Brow
n,P.F.et. al., "Class-Based n-gramModels of Natura
l Language", Computaional Linguistics, vol. 18, N
o.4, pp.467-479,1992) この方法は、単語の連接を確率的に表現するN−gra
mモデル(unigram,bigramを含むN−g
ramモデルについては、たとえば、「確率モデルによ
る音声認識」,中川聖一,電子情報通信学会,pp.1
09参照)を、単語クラスを用いて近似する方法であ
る。
(A) A method using a class language model (Brow
n, PFet.al., "Class-Based n-gramModels of Natura
l Language ", Computaional Linguistics, vol. 18, N
o.4, pp.467-479,1992) This method uses N-gra that stochastically expresses the concatenation of words.
m model (Ng including unigram and biggram)
The ram model is described in, for example, "Speech Recognition by Probabilistic Model", Seiichi Nakagawa, IEICE, pp. 146-64. 1
09) using a word class.

【0004】ここで単語クラスとは単語の集合を何らか
の基準で分類したものを指し、たとえば、品詞(名詞、
動詞、形容詞)による分類が挙げられる.bigram
の場合、2つの連接する単語wi,wi-1に関する確率(b
igram確率)p(wi|wi-1)は、各々の単語の当該クラ
スの連接に関する確率p(ci|ci-1)と、クラスから単語が
出現する確率p(wi|ci-1)との積(次式参照)で近似され
る。
[0004] Here, the word class refers to a set of words classified according to some criterion, for example, a part of speech (noun,
(Verb, adjective). bigram
, The probabilities (b
igm probability) p (wi | wi-1) is the probability p (ci | ci-1) of the concatenation of each word in the class and the probability p (wi | ci-1) of the word appearing from the class. It is approximated by the product (see the following equation).

【0005】[0005]

【数1】 (Equation 1)

【0006】未知語の登録は、未知語が分類される単語
クラスに新たな要素として追加登録することにより実現
化可能である。たとえば、未知語uが単語クラスCuに属
する場合、未知語を含むbigram確率p(u|wi-1),p
(wi|u)は、未知後の当該クラスCuに関する確率p(Ci|C
u), p(Cu|Ci-1)を用いて次式で表される。
[0006] Registration of an unknown word can be realized by additionally registering as a new element in a word class in which the unknown word is classified. For example, if the unknown word u belongs to the word class Cu, the bigram probability p (u | wi-1), p
(wi | u) is the probability p (Ci | C
u) and p (Cu | Ci-1) are represented by the following equations.

【0007】[0007]

【数2】 (Equation 2)

【0008】ここで、未知語uが単語クラスCuから出現
する確率p(u|Cu)を決定する必要があるが、たとえば、
未知語を含む大量のテキストデータを別途用意して、未
知語uの出現頻度と、単語クラスCuに属する全ての単語
の出現頻度の比率から推定したり、またはCuに属する単
語wのクラスから出現確率p(w|Cu)を等確率と仮定する方
法が提案されている(Asadi, A., et. al.: "Automatic
Modeling for Adding New Words to Large-vocabulary
Continuous Speech Recognition System", ICASSP-91
Proc. Vol.1, IEEE, 1991, pp.305-308参照)。
Here, it is necessary to determine the probability p (u | Cu) that the unknown word u appears from the word class Cu.
Prepare a large amount of text data including unknown words separately and estimate from the appearance frequency ratio of unknown word u and the appearance frequency of all words belonging to word class Cu, or appear from class of word w belonging to Cu A method has been proposed that assumes the probabilities p (w | Cu) to be equal probabilities (Asadi, A., et. Al .: "Automatic
Modeling for Adding New Words to Large-vocabulary
Continuous Speech Recognition System ", ICASSP-91
Proc. Vol. 1, IEEE, 1991, pp. 305-308).

【0009】[0009]

【発明が解決しようとする課題】上記従来の未知語登録
方法では、既にN−gramモデルのパラメータを高い
推定精度で推定できる大量のデータが用意されている場
合には、単語クラスによる近似を行うことでかえってパ
ラメータの推定精度が低下する点においていまだ改善す
べき余地があった。
According to the above-mentioned conventional unknown word registration method, when a large amount of data is already prepared for estimating the parameters of the N-gram model with high estimation accuracy, approximation by word class is performed. On the contrary, there is still room for improvement in that the parameter estimation accuracy is reduced.

【0010】そこで、本発明の目的は、確率的言語モデ
ルに登録されている単語に関するパラメータの推定精度
を低下させずに未知語に関するパラメータ、たとえば、
未知語uと既知語(登録単語)wのbigram確率p(u|w),p(w
|u)を推定し、確率言語モデルに未知語を追加登録する
ことができる連続音声認識装置および記録媒体を提供す
ることにある。
[0010] Therefore, an object of the present invention is to provide a parameter relating to an unknown word, for example, a parameter relating to an unknown word without reducing the estimation accuracy of the parameter relating to a word registered in the probabilistic language model.
Bigram probability p (u | w), p (w) of unknown word u and known word (registered word) w
| u), and a continuous speech recognition device and a recording medium capable of additionally registering an unknown word in a stochastic language model.

【0011】[0011]

【課題を解決するための手段】このような目的を達成す
るために、請求項1の発明は、確率的言語モデルに登録
されている既知語およびそのパラメータを使用して入力
音声を音声認識すると共に、前記確率的言語モデルに未
知語を追加する機能を有する連続音声認識装置におい
て、未知語および該未知語が属する単語クラスを入力す
る入力手段と、単語クラスごとに未知語に対して割り当
てるパラメータを記憶しておく記憶手段と、前記入力手
段から入力された未知語の単語クラスに対応するパラメ
ータを前記記憶手段から取得する第1の情報処理手段
と、当該取得されたパラメータおよび前記入力手段から
入力された未知語を使用して登録用の確率的言語モデル
を作成し、前記確率的言語モデルに追加登録する第2の
情報処理手段とを具えたことを特徴とする。
In order to achieve the above object, according to the present invention, an input speech is recognized using a known word registered in a stochastic language model and its parameters. A continuous speech recognition device having a function of adding an unknown word to the probabilistic language model; and input means for inputting the unknown word and a word class to which the unknown word belongs, and a parameter assigned to the unknown word for each word class. A first information processing unit that obtains a parameter corresponding to a word class of an unknown word input from the input unit from the storage unit; and a storage unit that stores the parameter and the obtained parameter and the input unit. Second information processing means for creating a probabilistic language model for registration using the input unknown word and additionally registering the probabilistic language model in the probabilistic language model It is characterized in.

【0012】請求項2の発明は、請求項1に記載の連続
音声認識装置において、前記確率的言語モデルに登録さ
れている既知語およびそのパラメータを単語クラスごと
に分類する分類手段と、当該単語クラスごとに分類され
た既知語のパラメータに基づいてあらかじめ定めた演算
式にしたがって前記記憶手段に記憶するパラメータを取
得する演算処理手段とをさらに具えたことを特徴とす
る。
According to a second aspect of the present invention, in the continuous speech recognition apparatus according to the first aspect, a classifying means for classifying a known word and its parameters registered in the stochastic language model for each word class, An arithmetic processing unit for acquiring a parameter stored in the storage unit in accordance with a predetermined arithmetic expression based on a parameter of a known word classified for each class.

【0013】請求項3の発明は、請求項2に記載の連続
音声認識装置において、前記あらかじめ定めた演算式に
より既知語のパラメータの平均値を取得することを特徴
とする。
According to a third aspect of the present invention, in the continuous speech recognition apparatus according to the second aspect, an average value of parameters of known words is obtained by the predetermined arithmetic expression.

【0014】請求項4の発明は、請求項1に記載の連続
音声認識装置において、前記パラメータにはunigr
am確率、バックオフ係数、単語2つ組の中の前側の単
語、前記単語2つ組の中の後ろ側の単語および前記単語
2つ組のbigram確率を含むことを特徴とする。
According to a fourth aspect of the present invention, in the continuous speech recognition apparatus according to the first aspect, the parameter is unigr.
am probabilities, back-off coefficients, front words in the word set, rear words in the word sets, and bigram probabilities of the word sets.

【0015】請求項5の発明は、確率的言語モデルに登
録されている既知語およびそのパラメータを使用して入
力音声を音声認識すると共に、前記確率的言語モデルに
未知語を追加する機能をコンピュータがプログラムを実
行することにより実現し、前記プログラムを記録した記
録媒体において、前記プログラムは、未知語および該未
知語が属する単語クラスを入力する入力ステップと、前
記コンピュータの記憶手段には単語クラスごとに未知語
に対して割り当てるパラメータが記憶されており、前記
入力ステップで入力された未知語の単語クラスに対応す
るパラメータを前記記憶手段から取得する第1の情報処
理ステップと、当該取得されたパラメータおよび前記入
力ステップで入力された未知語を使用して登録用の確率
的言語モデルを作成し、前記確率的言語モデルに追加登
録する第2の情報処理ステップとを具えたことを特徴と
する。
According to a fifth aspect of the present invention, a computer has a function of recognizing an input speech using a known word registered in a stochastic language model and its parameters, and adding an unknown word to the stochastic language model. Is realized by executing a program, and in a recording medium on which the program is recorded, the program comprises: an input step of inputting an unknown word and a word class to which the unknown word belongs; A first information processing step of obtaining a parameter corresponding to the word class of the unknown word input in the input step from the storage means, and a parameter assigned to the unknown word in the input step. And creating a probabilistic language model for registration using the unknown words input in the input step. And it is characterized in that comprising a second information processing step of additionally registered in the probabilistic language model.

【0016】請求項6の発明は、請求項5に記載の記録
媒体において、前記プログラムは、前記確率的言語モデ
ルに登録されている既知語およびそのパラメータを単語
クラスごとに分類する分類ステップと、当該単語クラス
ごとに分類された既知語のパラメータに基づいてあらか
じめ定めた演算式にしたがって前記記憶手段に記憶する
パラメータを取得する演算処理ステップとをさらに具え
たことを特徴とする。
According to a sixth aspect of the present invention, in the recording medium according to the fifth aspect, the program comprises a classifying step of classifying a known word and its parameters registered in the probabilistic language model for each word class; An arithmetic processing step of acquiring a parameter stored in the storage means in accordance with a predetermined arithmetic expression based on a parameter of a known word classified for each word class.

【0017】請求項7の発明は、請求項6に記載の記録
媒体において、前記あらかじめ定めた演算式により既知
語のパラメータの平均値を取得することを特徴とする。
According to a seventh aspect of the present invention, in the recording medium according to the sixth aspect, an average value of a parameter of a known word is obtained by the predetermined arithmetic expression.

【0018】請求項8の発明は、請求項5に記載の記録
媒体において、前記パラメータにはunigram確
率、バックオフ係数、単語2つ組の中の前側の単語のb
igram確率および前記単語2つ組の中の後ろ側の単
語のbigram確率を含むことを特徴とする。
According to an eighth aspect of the present invention, in the recording medium according to the fifth aspect, the parameters include a unigram probability, a back-off coefficient, and b of a preceding word in the word set.
It is characterized by including an gram probability and a bigram probability of a word behind in the word pair.

【0019】[0019]

【発明の実施の形態】以下、図面を参照して、本発明の
実施形態を詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0020】図1は連続音声認識装置の未知語登録部の
機能構成を示す。
FIG. 1 shows the functional configuration of the unknown word registration unit of the continuous speech recognition device.

【0021】1は登録済み(以下、既知と称す)の確率
的言語モデルであり、本実施形態ではN−gramモデ
ルを例とする。
Reference numeral 1 denotes a registered (hereinafter referred to as "known") probabilistic language model. In this embodiment, an N-gram model is used as an example.

【0022】N−gramモデル1には、unigra
mのデータとして、 ・既知語(unigramのエントリー) w ・既知語のunigram確率 p(w) ・既知語のバックオフ係数 a(w) が記述されている。また、N−gramモデル1には、
bigramのデータとして ・既知語の2つの組(bigramエントリー) w1w2 ・既知語の組のbigram確率 p(w2|w1) が記述されている。
The N-gram model 1 has unigra
As the data of m, a known word (entry of a unigram) w, a unigram probability p (w) of a known word, and a backoff coefficient a (w) of a known word are described. Also, the N-gram model 1 includes
As bigram data, two sets of known words (bigram entry) w1w2, and a bigram probability p (w2 | w1) of the set of known words are described.

【0023】3は単語分類器であり、上記N−gram
モデルを単語クラスに分類する。単語分類器3としては
松本他、が開発した“日本語形態素解析システム”茶筌
“ver.2.0(その使用説明書、NAIST-IS-TR99008参照)
があるが,単語の表記から単語クラスに分類できるツー
ルであればいずれをも使用することができる。
Reference numeral 3 denotes a word classifier, and the N-gram
Classify models into word classes. As the word classifier 3, "Japanese morphological analysis system" ChaSen "ver.2.0" developed by Matsumoto et al. (Refer to its instruction manual, NAIST-IS-TR99008)
However, any tool that can be classified into word classes from word expressions can be used.

【0024】4はN−gramパラメータ推定部であ
り、単語分類器3で作成された各単語クラスG(w)に基づ
き後述の未知語N−gramパラメータリスト5を推定
する。
An N-gram parameter estimating unit 4 estimates an unknown word N-gram parameter list 5 described later based on each word class G (w) created by the word classifier 3.

【0025】6は未知語N−gram作成部であり、未
知語に関するデータを記述した未知語リスト2と未知語
N−gramパラメータリスト5とに基づき、未知語に
関するN−gramモデル7を出力する。
Reference numeral 6 denotes an unknown word N-gram creating unit, which outputs an N-gram model 7 relating to the unknown word based on the unknown word list 2 describing data relating to the unknown word and the unknown word N-gram parameter list 5. .

【0026】未知語リスト2には ・未知語の表記 u ・未知語uが属する単語クラス G(u) が記述されている。The unknown word list 2 describes: • Notation of unknown word u • Word class G (u) to which unknown word u belongs.

【0027】未知語モデル7はデータとして ・未知語uのunigram確率 p(u) ・未知語のバックオフ係数 a(u) ・未知語に前接する既知語 w1 ・未知語uと既知語w1のbigram確率 p(u| w1) ・未知語uに後接する既知語 w2 ・未知語uと既知語w2のbigram確率 p(w2|u) を有する。これらのデータを推定して、N−gramモ
デル1に追加することに本実施形態の新規特徴がある。
The unknown word model 7 is used as data: a unigram probability p (u) of the unknown word u; a backoff coefficient a (u) of the unknown word; a known word w1 preceding the unknown word; bigram probability p (u | w1)-a known word w2 succeeding the unknown word u-has a bigram probability p (w2 | u) of the unknown word u and the known word w2. Estimating these data and adding them to the N-gram model 1 has a new feature of the present embodiment.

【0028】8はN−gramモデル合成部であり、既
知語に関するN−gramモデル1と未知語に関する
(登録用)N−gramモデルを合成して未知語追加N
−gramモデルを出力する。
Reference numeral 8 denotes an N-gram model synthesizing unit, which synthesizes an N-gram model 1 for a known word and an N-gram model (for registration) for an unknown word to add an unknown word N
-Output the gram model.

【0029】以上の機能構成を持つ未知語モデル登録部
を有する連続音声認識装置を次に説明する。
Next, a continuous speech recognition apparatus having an unknown word model registration unit having the above-described functional configuration will be described.

【0030】図2は連続音声認識装置のシステム構成を
示す。図2において、CPU100は音声認識用プログ
ラムを実行して,連続音声認識処理を行うと共に、後述
の未知語登録プログラムを実行して確率的言語モデルに
未知語の登録を行う。システムメモリ110は、CPU
100が行う情報処理に対する入出力データを一時記憶
する。ハードディスク記憶装置(HDDと略記する)1
30は、連続音声認識のために使用する確率的言語モデ
ル(N−gramモデル1)を保存のために記憶する。
また、上記連続音声認識や未知語登録のためのプログラ
ムもHDD130に保存される。これらのプログラムは
不図示のキーボードやマウス等の実行の指示で、HDD
130からシステムメモリ110にローディングされた
後、CPU100により指示されたプログラムが実行さ
れる。
FIG. 2 shows the system configuration of the continuous speech recognition apparatus. In FIG. 2, the CPU 100 executes a speech recognition program to perform a continuous speech recognition process, and executes an unknown word registration program described later to register an unknown word in a probabilistic language model. The system memory 110 is a CPU
The input / output data for the information processing performed by 100 is temporarily stored. Hard disk storage device (abbreviated as HDD) 1
Reference numeral 30 stores a probabilistic language model (N-gram model 1) used for continuous speech recognition for storage.
Further, a program for the continuous speech recognition and the unknown word registration is also stored in the HDD 130. These programs are executed by a keyboard or mouse (not shown) instructed to execute.
After loading from 130 to the system memory 110, the program specified by the CPU 100 is executed.

【0031】入力インターフェース(I/O)120は
マイクロホンから入力された音声信号をA/D変換し
て、デジタル形態の音声信号を連続音声認識のためにC
PU100に引き渡す。
An input interface (I / O) 120 performs A / D conversion of a voice signal input from a microphone and converts a digital voice signal into a C signal for continuous voice recognition.
Deliver to PU100.

【0032】上述の未知語リスト2は外部装置あるいは
連続音声認識装置の文書作成機能(ワードプロセッサ)
により作成された後、直接もしくは通信あるいは携帯用
記録媒体(フロッピーディスク等)を介して連続音声認
識装置に入力され、HDD130にあらかじめ保存され
ているものとする。
The above unknown word list 2 is a document creation function (word processor) of an external device or a continuous speech recognition device.
After that, it is input to the continuous speech recognition device directly or via communication or a portable recording medium (a floppy disk or the like), and is stored in the HDD 130 in advance.

【0033】ユーザがキーボードあるいはマウス等によ
りCPU100に未知語登録用プログラムの実行を指示
すると、HDD130からシステムメモリ110に未知
語登録用プログラムがローディングされ、CPU100
により実行される。
When the user instructs CPU 100 to execute the program for registering an unknown word using a keyboard or a mouse, the program for registering an unknown word is loaded from HDD 130 to system memory 110, and CPU 100 is executed.
Is executed by

【0034】未知語登録用プログラムは図1に示した構
成部の機能を実現するための処理が規定されている。こ
のプログラムの中の単語分類器3の機能を実現するため
の処理の詳細を図3に示す。N−gramパラメータ推
定部4の機能を実現するための処理の詳細を図4に示
す。また、未知語N−gram作成部6の機能を実現す
る処理の詳細を図5に示す。
In the unknown word registration program, processing for realizing the functions of the components shown in FIG. 1 is defined. FIG. 3 shows details of processing for realizing the function of the word classifier 3 in this program. FIG. 4 shows details of a process for realizing the function of the N-gram parameter estimation unit 4. FIG. 5 shows details of a process for realizing the function of the unknown word N-gram creation unit 6.

【0035】図3〜図5のフローチャートを参照しなが
ら図2のシステムの動作を説明する。
The operation of the system shown in FIG. 2 will be described with reference to the flowcharts shown in FIGS.

【0036】未知語登録用プログラムの実行が開始され
るとCPU100はHDD130に保存されている分類
用プログラムを起動し、HDD130に保存されている
既存のN−gramモデル(1)に記述されているun
igramのデータ内の既知語wと、bigramのデ
ータ内の既知語の組み合わせw1w2を分類用プログラムに
引き渡す。分類用プログラムをCPU100が実行し
て、引き渡されたデータw, w1w2をそれぞれを3つの単
語クラスG(w),G(w1),G(w2)に分類すると、分類した結果
をシステムメモリ110の所定領域に書き込むことで、
未知語登録用プログラムに分類結果を引きわたす。
When the execution of the unknown word registration program is started, the CPU 100 activates the classification program stored in the HDD 130 and is described in the existing N-gram model (1) stored in the HDD 130. un
The combination w1w2 of the known word w in the gram data and the known word in the bigram data is delivered to the classification program. When the CPU 100 executes the classification program and classifies the delivered data w and w1w2 into three word classes G (w), G (w1) and G (w2), the classification result is stored in the system memory 110. By writing to the predetermined area,
The classification result is passed to the unknown word registration program.

【0037】より具体的には、CPU100はHDD1
30上のN−gramモデル1の先頭データをシステム
メモリ1上に読み出した後、そのデータがunigra
mのデータか否かの判定を行う(図3のステップS10
→S20)。読み出したデータがunigramのデー
タの場合には、読み出したデータの中から既知語w、既
知語のunigram確率p(w)、既知語のバックオフ係
数a(w)を取り出して、システムメモリ110上のuni
gram用に割り当てた記憶領域に書き込む(ステップ
S20→S30)。この後、手順はステップS60のデ
ータの分類の終了の有無判定処理を経由してステップS
10に戻り、次のデータをHDD130のN−gram
モデル1から取り出す。
More specifically, the CPU 100
After reading the leading data of the N-gram model 1 on the system memory 1 into the system memory 1, the data is stored in the unigram.
m is determined (step S10 in FIG. 3).
→ S20). When the read data is unigram data, the known word w, the known word unigram probability p (w), and the known word back-off coefficient a (w) are extracted from the read data and stored in the system memory 110. The uni
The data is written in the storage area allocated for the program (step S20 → S30). Thereafter, the procedure goes to step S60 through the process of determining whether or not the data classification has been completed in step S60.
10, returning the next data to the N-gram of the HDD 130.
Take out from Model 1.

【0038】一方、読み出したデータがunigram
のデータでない場合には、つぎにbigramのデータ
か否かの判定を行う。読み出したデータがbigram
のデータの場合にはデータの中から前側の既知語w1、後
ろ側の既知語w2およびbigram確率p(w2|w1)を取り
出して、取り出した既知語をシステムメモリ110の割
り当て記憶領域に書き込む(ステップS20→S40→
S50)。この後、手順はステップS60のデータの分
類の終了の有無判定処理を経由してステップS10に戻
り、次のデータをHDD130のN−gramモデル1
から取り出す。
On the other hand, if the read data is unigram
If it is not the data of (1), it is next determined whether or not the data is bigram. The read data is bigram
In the case of the data of (1), the leading known word w1, the trailing known word w2, and the bigram probability p (w2 | w1) are extracted from the data, and the extracted known words are written to the assigned storage area of the system memory 110 ( Step S20 → S40 →
S50). Thereafter, the procedure returns to step S10 via the process of judging the end of the data classification in step S60, and returns the next data to the N-gram model 1 of the HDD 130.
Remove from

【0039】読み出したデータがunigramおよび
bigramのいずれのデータではない場合には、この
後、手順はステップS60のデータの分類の終了の有無
判定処理を経由してステップS10に戻り、次のデータ
をHDD130のN−gramモデル1から取り出す。
If the read data is not unigram or bigram data, then the procedure returns to step S10 via the process of judging the end of the data classification in step S60, and returns the next data. Take out from the N-gram model 1 of the HDD 130.

【0040】以下上述のデータ分類処理(ステップS1
0〜S60)を繰り返し実行すると、N−gramuモ
デルに記載されているデータをすべて分類することがで
きる。最後のデータについての分類を終了すると、ステ
ップS60の終了有無判定処理ではYES判定が得られ
るので、図3の処理手順が終了する。この後、図4のN
−gramパラメータ推定処理が開始される。
The data classification process described above (step S1)
0 to S60), all the data described in the N-gramu model can be classified. When the classification of the last data is completed, a YES determination is obtained in the end presence / absence determination processing of step S60, and thus the processing procedure of FIG. 3 ends. Thereafter, N in FIG.
-The gram parameter estimation process is started.

【0041】CPU100は図3の単語分類処理で分類
(作成)された単語クラスG(w)の全てのungram確
率と全てのバックオフ係数の集合
The CPU 100 sets all ungram probabilities and all backoff coefficients of the word class G (w) classified (created) in the word classification process of FIG.

【0042】[0042]

【外1】 [Outside 1]

【0043】を抽出し、単語クラスについての平均un
igram確率
And extract the average un for the word class
igram probability

【0044】[0044]

【外2】 [Outside 2]

【0045】単語クラスG(w)について平均したバックオ
フ係数
Back-off coefficient averaged for word class G (w)

【0046】[0046]

【外3】 [Outside 3]

【0047】を計算する(図4のステップS100)。
なお、
Is calculated (step S100 in FIG. 4).
In addition,

【0048】[0048]

【外4】 [Outside 4]

【0049】はxに関するf(x)の平均値を表す。Represents the average value of f (x) with respect to x.

【0050】同様にCPU100は、bigramのデ
ータの既知語の2つ組w1w2それぞれの単語クラスG(w1),
G(w2)について、前側の既知語w1の単語クラスG(w1)に
ついて平均したbigram確率
Similarly, the CPU 100 determines the word class G (w1),
For G (w2), the bigram probability averaged for the word class G (w1) of the preceding known word w1

【0051】[0051]

【外5】 [Outside 5]

【0052】後ろ側の既知語w2の単語クラスG(w2)につ
いて平均したbigram確率
The bigram probability averaged for the word class G (w2) of the known word w2 on the back side

【0053】[0053]

【外6】 [Outside 6]

【0054】をも計算する(図4のステップS11
0)。
Is also calculated (step S11 in FIG. 4).
0).

【0055】なお、既知語が特定の一つの単語クラスに
はなく、複数の単語クラスに所属しうる場合には、上記
の各平均を求める計算からは除外する。
If the known word does not belong to one specific word class but can belong to a plurality of word classes, it is excluded from the above calculation for calculating the average.

【0056】この重複の既知語を検出する周知の処理手
順を実行すればよいので、ここでは詳細な説明を省略す
る。
Since a well-known processing procedure for detecting the duplicate known word may be executed, a detailed description is omitted here.

【0057】この計算結果は以下の未知語N−gram
パラメータリストの形態でHDD130(本発明の記憶
手段)に保存される(図1の符号5に対応する処理,図
4のステップS120)。
The result of this calculation is the following unknown word N-gram
It is stored in the HDD 130 (storage means of the present invention) in the form of a parameter list (processing corresponding to reference numeral 5 in FIG. 1, step S120 in FIG. 4).

【0058】未知語N−gramパラメータリスト5は
各単語クラスをキーとして検索可能なように、たとえ
ば、単語クラスを配列の要素に持つ次の形態とするとよ
い。
The unknown word N-gram parameter list 5 may have the following form, for example, having a word class as an array element so that each word class can be searched as a key.

【0059】[0059]

【外7】 [Outside 7]

【0060】次にCPU100は図5の処理手順に移行
し、HDD130に保存されている未知語リスト2に記
述されている単語クラスをキーとして上記未知語N−g
ramパラメータリスト5に保存したデータを検索する
(ステップS200)。
Next, the CPU 100 shifts to the processing procedure of FIG. 5 and uses the word class described in the unknown word list 2 stored in the HDD 130 as a key to set the unknown word Ng.
The data stored in the ram parameter list 5 is searched (step S200).

【0061】この検索により抽出したunigramの
データおよびbigramのデータの単語クラスが未知
語の表記に置換される。置換結果がHDD130に未知
語に関するN−gramモデルとして保存される。
The word class of the data of the unigram and the data of the bigram extracted by this search is replaced with the notation of the unknown word. The replacement result is stored in HDD 130 as an N-gram model relating to the unknown word.

【0062】上述の処理において,たとえば、未知語u
の単語クラスG(u)で検索を行い、
In the above processing, for example, the unknown word u
Search for the word class G (u) of

【0063】[0063]

【外8】 [Outside 8]

【0064】が抽出された場合、単語クラスG(u)が未知
語uで置換される。
When is extracted, the word class G (u) is replaced with the unknown word u.

【0065】次に、上述のステップS110で計算され
た平均値の中の単語クラスG(u)について計算した各平均
Next, each average value calculated for the word class G (u) in the average value calculated in step S110 described above.

【0066】[0066]

【外9】 [Outside 9]

【0067】がそれぞれ未知語uに関するN−gram
モデルのデータとして下記の形態でHDD130上の未
知語に関するN−gramモデル7に保存される(図5
のステップS210〜S230)。
Is the N-gram for each unknown word u.
The data of the model is stored in the N-gram model 7 relating to the unknown word on the HDD 130 in the following form as model data (FIG. 5).
Steps S210 to S230).

【0068】[0068]

【外10】 [Outside 10]

【0069】CPU100はこのようにして作成された
未知語に関する(登録用)N−gramモデル7を既知
語に関するN−gramモデル1に追加・挿入する(図
1のN−gramモデルに対応)。これにより未知語を
追加したN−gramモデル9が作成される。
The CPU 100 adds and inserts the N-gram model 7 for unknown words (for registration) created in this way into the N-gram model 1 for known words (corresponding to the N-gram model in FIG. 1). Thereby, the N-gram model 9 to which the unknown word is added is created.

【0070】1)上述の実施形態では、未知語を確率的
言語モデルに追加登録する際に、既知語に関するパラメ
ータの平均演算を行っているが、平均演算は未知語登録
前の任意の時点で行えばよい。平均演算の後、作成した
未知語パラメータリスト5をHDD130に記憶して、
未知語登録時に使用すればよい。
1) In the above-described embodiment, when an unknown word is additionally registered in the probabilistic language model, the averaging operation of the parameters relating to the known word is performed. However, the averaging operation is performed at any time before the registration of the unknown word. Just do it. After the averaging operation, the created unknown word parameter list 5 is stored in the HDD 130,
It may be used when registering unknown words.

【0071】2)未知語を登録するためのプログラムを
記録する記憶媒体としては上述のHDD130の他に、
ROM,RAM等のICメモリ、フロッピーディスクや
光磁気ディスク等の携帯用記録媒体を使用することがで
きる。
2) As a storage medium for recording a program for registering unknown words, in addition to the above-mentioned HDD 130,
An IC memory such as a ROM and a RAM, and a portable recording medium such as a floppy disk and a magneto-optical disk can be used.

【0072】3)上述の実施形態は本発明を説明するた
めの一例であって、特許請求の範囲の示す技術思想に沿
って、各種の変形を行うことができる。しかしなが、こ
のような変形を行っても、その変形例は本願特許の権利
範囲内となる。
3) The above embodiment is merely an example for describing the present invention, and various modifications can be made in accordance with the technical concept described in the claims. However, even if such a modification is made, the modification is within the scope of the patent of the present application.

【0073】[0073]

【発明の効果】以上、説明したように、本発明によれ
ば、単語クラスごとに未知語に割り当てるパラメータを
要しておく。登録対象の未知語に応じたパラメータを使
用して追加登録用の確率的言語モデルを未知語N−gr
am作成部6により作成する。このため、本発明では作
成済みの既知語の確率的言語モデルに何らの変更を加え
る必要はなく、従来のように既知語に関する確率的言語
モデルの推定精度を犠牲にすることもない。
As described above, according to the present invention, parameters to be assigned to unknown words are required for each word class. A probabilistic language model for additional registration is determined by using a parameter corresponding to the unknown word to be registered.
It is created by the am creating unit 6. For this reason, in the present invention, it is not necessary to make any change to the created stochastic language model of the known word, and the estimation accuracy of the stochastic language model related to the known word is not sacrificed unlike the related art.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明実施形態のシステム構成を示すブロック
図である。
FIG. 1 is a block diagram illustrating a system configuration according to an embodiment of the present invention.

【図2】本発明実施形態のハードウェア構成を示すブロ
ック図である。
FIG. 2 is a block diagram illustrating a hardware configuration according to the embodiment of the present invention.

【図3】CPU100が実行する処理内容を示すフロー
チャートである。
FIG. 3 is a flowchart illustrating processing executed by a CPU 100;

【図4】CPU100が実行する処理内容を示すフロー
チャートである。
FIG. 4 is a flowchart illustrating processing executed by a CPU 100;

【図5】CPU100が実行する処理内容を示すフロー
チャートである。
FIG. 5 is a flowchart illustrating processing executed by a CPU 100;

【符号の説明】 3 単語分類器 4 N−gramパラメータ推定部 6 未知語N−gram作成部 8 N−gram合成部[Description of Signs] 3 Word Classifier 4 N-gram Parameter Estimation Unit 6 Unknown Word N-gram Creation Unit 8 N-gram Synthesis Unit

───────────────────────────────────────────────────── フロントページの続き (72)発明者 安藤 彰男 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 Fターム(参考) 5B091 AA15 CB12 5D015 GG03 HH23  ────────────────────────────────────────────────── ─── Continuing on the front page (72) Inventor Akio Ando 1-10-11 Kinuta, Setagaya-ku, Tokyo Japan Broadcasting Corporation Japan Broadcasting Research Institute F-term (reference) 5B091 AA15 CB12 5D015 GG03 HH23

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 確率的言語モデルに登録されている既知
語およびそのパラメータを使用して入力音声を音声認識
すると共に、前記確率的言語モデルに未知語を追加する
機能を有する連続音声認識装置において、 未知語および該未知語が属する単語クラスを入力する入
力手段と、 単語クラスごとに未知語に対して割り当てるパラメータ
を記憶しておく記憶手段と、 前記入力手段から入力された未知語の単語クラスに対応
するパラメータを前記記憶手段から取得する第1の情報
処理手段と、 当該取得されたパラメータおよび前記入力手段から入力
された未知語を使用して登録用の確率的言語モデルを作
成し、前記確率的言語モデルに追加登録する第2の情報
処理手段とを具えたことを特徴とする連続音声認識装
置。
1. A continuous speech recognition apparatus having a function of recognizing an input speech using a known word registered in a probabilistic language model and its parameters and adding an unknown word to the probabilistic language model. Input means for inputting an unknown word and a word class to which the unknown word belongs; storage means for storing a parameter to be assigned to the unknown word for each word class; and word class of the unknown word input from the input means A first information processing means for acquiring a parameter corresponding to the above from the storage means, and creating a probabilistic language model for registration using the acquired parameters and the unknown word inputted from the input means, A continuous speech recognition apparatus, comprising: a second information processing means for additionally registering a stochastic language model.
【請求項2】 請求項1に記載の連続音声認識装置にお
いて、前記確率的言語モデルに登録されている既知語お
よびそのパラメータを単語クラスごとに分類する分類手
段と、当該単語クラスごとに分類された既知語のパラメ
ータに基づいてあらかじめ定めた演算式にしたがって前
記記憶手段に記憶するパラメータを取得する演算処理手
段とをさらに具えたことを特徴とする連続音声認識装
置。
2. A continuous speech recognition apparatus according to claim 1, wherein said known words registered in said probabilistic language model and their parameters are classified for each word class; A continuous speech recognition apparatus, further comprising: an arithmetic processing unit that acquires a parameter stored in the storage unit in accordance with a predetermined arithmetic expression based on the parameter of the known word.
【請求項3】 請求項2に記載の連続音声認識装置にお
いて、前記あらかじめ定めた演算式により既知語のパラ
メータの平均値を取得することを特徴とする連続音声認
識装置。
3. The continuous speech recognition device according to claim 2, wherein an average value of parameters of known words is obtained by the predetermined operation formula.
【請求項4】 請求項1に記載の連続音声認識装置にお
いて、前記パラメータにはunigram確率、バック
オフ係数、単語2つ組の中の前側の単語、前記単語2つ
組の中の後ろ側の単語および前記単語2つ組のbigr
am確率を含むことを特徴とする連続音声認識装置。
4. The continuous speech recognition device according to claim 1, wherein the parameters include a unigram probability, a back-off coefficient, a front word in the word set, and a rear word in the word set. A word and a bigr of the word pair
A continuous speech recognition device comprising an am probability.
【請求項5】 確率的言語モデルに登録されている既知
語およびそのパラメータを使用して入力音声を音声認識
すると共に、前記確率的言語モデルに未知語を追加する
機能をコンピュータがプログラムを実行することにより
実現し、前記プログラムを記録した記録媒体において、
前記プログラムは、 未知語および該未知語が属する単語クラスを入力する入
力ステップと、 前記コンピュータの記憶手段には単語クラスごとに未知
語に対して割り当てるパラメータが記憶されており、 前記入力ステップで入力された未知語の単語クラスに対
応するパラメータを前記記憶手段から取得する第1の情
報処理ステップと、 当該取得されたパラメータおよび前記入力ステップで入
力された未知語を使用して登録用の確率的言語モデルを
作成し、前記確率的言語モデルに追加登録する第2の情
報処理ステップとを具えたことを特徴とする記録媒体。
5. A computer executes a program having a function of recognizing an input speech using a known word registered in a probabilistic language model and its parameters, and adding an unknown word to the probabilistic language model. And a recording medium that records the program,
An input step of inputting an unknown word and a word class to which the unknown word belongs; and a storage means of the computer storing parameters to be assigned to the unknown word for each word class. A first information processing step of acquiring a parameter corresponding to the word class of the obtained unknown word from the storage means, and a probabilistic process for registration using the obtained parameter and the unknown word input in the input step. A second information processing step of creating a language model and additionally registering the language model in the probabilistic language model.
【請求項6】 請求項5に記載の記録媒体において、前
記プログラムは、前記確率的言語モデルに登録されてい
る既知語およびそのパラメータを単語クラスごとに分類
する分類ステップと、当該単語クラスごとに分類された
既知語のパラメータに基づいてあらかじめ定めた演算式
にしたがって前記記憶手段に記憶するパラメータを取得
する演算処理ステップとをさらに具えたことを特徴とす
る記録媒体。
6. The recording medium according to claim 5, wherein the program comprises: a classification step of classifying a known word and its parameters registered in the probabilistic language model for each word class; A calculation processing step of acquiring a parameter stored in the storage unit in accordance with a predetermined calculation expression based on the classified known word parameters.
【請求項7】 請求項6に記載の記録媒体において、前
記あらかじめ定めた演算式により既知語のパラメータの
平均値を取得することを特徴とする記録媒体。
7. The recording medium according to claim 6, wherein an average value of a parameter of a known word is obtained by the predetermined arithmetic expression.
【請求項8】 請求項5に記載の記録媒体において、前
記パラメータにはunigram確率、バックオフ係
数、単語2つ組の中の前側の単語のbigram確率お
よび前記単語2つ組の中の後ろ側の単語のbigram
確率を含むことを特徴とする記録媒体。
8. The recording medium according to claim 5, wherein the parameters include a unigram probability, a back-off coefficient, a bigram probability of a front word in the word set, and a rear side of the word set. The bigram of the word
A recording medium characterized by including a probability.
JP26945899A 1999-09-22 1999-09-22 Continuous speech recognition apparatus and recording medium Expired - Fee Related JP3907880B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26945899A JP3907880B2 (en) 1999-09-22 1999-09-22 Continuous speech recognition apparatus and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26945899A JP3907880B2 (en) 1999-09-22 1999-09-22 Continuous speech recognition apparatus and recording medium

Publications (2)

Publication Number Publication Date
JP2001092489A true JP2001092489A (en) 2001-04-06
JP3907880B2 JP3907880B2 (en) 2007-04-18

Family

ID=17472727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26945899A Expired - Fee Related JP3907880B2 (en) 1999-09-22 1999-09-22 Continuous speech recognition apparatus and recording medium

Country Status (1)

Country Link
JP (1) JP3907880B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007138875A1 (en) * 2006-05-31 2007-12-06 Nec Corporation Speech recognition word dictionary/language model making system, method, and program, and speech recognition system
JP2009271465A (en) * 2008-05-12 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> Word addition device, word addition method and program therefor
JP2012242421A (en) * 2011-05-16 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> Word additional device, word addition method, and program thereof
WO2021024613A1 (en) * 2019-08-06 2021-02-11 株式会社Nttドコモ Word weight calculation system
JP7512288B2 (en) 2019-08-06 2024-07-08 株式会社Nttドコモ Word Weight Calculation System

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6545633B2 (en) 2016-03-17 2019-07-17 株式会社東芝 Word score calculation device, word score calculation method and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007138875A1 (en) * 2006-05-31 2007-12-06 Nec Corporation Speech recognition word dictionary/language model making system, method, and program, and speech recognition system
JP2009271465A (en) * 2008-05-12 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> Word addition device, word addition method and program therefor
JP2012242421A (en) * 2011-05-16 2012-12-10 Nippon Telegr & Teleph Corp <Ntt> Word additional device, word addition method, and program thereof
WO2021024613A1 (en) * 2019-08-06 2021-02-11 株式会社Nttドコモ Word weight calculation system
JP7512288B2 (en) 2019-08-06 2024-07-08 株式会社Nttドコモ Word Weight Calculation System

Also Published As

Publication number Publication date
JP3907880B2 (en) 2007-04-18

Similar Documents

Publication Publication Date Title
JP5099953B2 (en) Generation of unified task-dependent language model by information retrieval method
JP5223673B2 (en) Audio processing apparatus and program, and audio processing method
JP3967952B2 (en) Grammar update system and method
JP4215418B2 (en) Word prediction method, speech recognition method, speech recognition apparatus and program using the method
US7634406B2 (en) System and method for identifying semantic intent from acoustic information
JP3930138B2 (en) Information analysis method and medium storing information analysis program
JP2004362584A (en) Discrimination training of language model for classifying text and sound
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
CN108027814B (en) Stop word recognition method and device
JP2001092496A (en) Continuous voice recognition device and recording medium
JP2001343994A (en) Voice recognition error detector and storage medium
JP5360414B2 (en) Keyword extraction model learning system, method and program
JP5897718B2 (en) Voice search device, computer-readable storage medium, and voice search method
JP3907880B2 (en) Continuous speech recognition apparatus and recording medium
JP4344418B2 (en) Voice summarization apparatus and recording medium recording voice summarization program
EP1465155A2 (en) Automatic resolution of segmentation ambiguities in grammar authoring
JP2002342323A (en) Language model learning device, voice recognizing device using the same, language model learning method, voice recognizing method using the same, and storage medium with the methods stored therein
JP4861941B2 (en) Transcription content confirmation method, transcription content confirmation device, computer program
WO2023050541A1 (en) Phoneme extraction method, speech recognition method and apparatus, device and storage medium
JP2005031255A (en) Dictionary creating device and speech recognizing device
JP2002092017A (en) Concept dictionary extending method and its device and recording medium with concept dictionary extending program recorded thereon
JP2003255985A (en) Method, device, and program for statistical language model generation
JP3908878B2 (en) Phoneme recognition performance measuring device for continuous speech recognition device
JP6830148B1 (en) Modification candidate identification device, modification candidate identification method, and modification candidate identification program
Jeong et al. An error-corrective language-model adaptation for automatic speech recognition.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040422

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060801

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070117

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110126

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120126

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130126

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140126

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees