JP3415585B2 - Statistical language model generating device, a speech recognition apparatus and an information retrieval apparatus - Google Patents

Statistical language model generating device, a speech recognition apparatus and an information retrieval apparatus

Info

Publication number
JP3415585B2
JP3415585B2 JP2000378702A JP2000378702A JP3415585B2 JP 3415585 B2 JP3415585 B2 JP 3415585B2 JP 2000378702 A JP2000378702 A JP 2000378702A JP 2000378702 A JP2000378702 A JP 2000378702A JP 3415585 B2 JP3415585 B2 JP 3415585B2
Authority
JP
Japan
Prior art keywords
word
unit
name
model
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2000378702A
Other languages
Japanese (ja)
Other versions
JP2001236089A (en
Inventor
芳典 匂坂
博史 山本
宏一 谷垣
Original Assignee
株式会社国際電気通信基礎技術研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP11-358947 priority Critical
Priority to JP35894799 priority
Application filed by 株式会社国際電気通信基礎技術研究所 filed Critical 株式会社国際電気通信基礎技術研究所
Priority to JP2000378702A priority patent/JP3415585B2/en
Publication of JP2001236089A publication Critical patent/JP2001236089A/en
Application granted granted Critical
Publication of JP3415585B2 publication Critical patent/JP3415585B2/en
Application status is Active legal-status Critical
Anticipated expiration legal-status Critical

Links

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、学習データ及び学習用テキストデータに基づいて統計的言語モデルを生成する統計的言語モデル生成装置、上記統計的言語モデルを用いて、入力される発声音声文の音声信号を音声認識する音声認識装置、 及び上記音声認識装置を用いた情報検索処理装置 BACKGROUND OF THE INVENTION [0001] [Technical Field of the Invention The present invention is, statistical language model generating device for generating a statistical language model based on the training data and the training text data, the statistical language model using speech recognizing speech recognition device audio signals utterance sentence inputted, and the information retrieval processing device using the speech recognition device に関する。 On. 【0002】 【従来の技術】近年、音声認識技術の進展に伴い、音声認識の大語彙タスクへの適用が盛んに行われている。 [0002] In recent years, with the development of voice recognition technology, be applied to large vocabulary task of speech recognition has been actively conducted. しかしながら、大語彙音声認識のパラダイム(特定領域や時代の支配的な科学的対象把握の方法をいう。)においても、未登録語の問題が完全に解決するわけではない。 However, even in the paradigm of large-vocabulary speech recognition (refers to a method of dominant scientific subject grasp of the specific region or era.), An unregistered word of the problem is not completely resolved.
特に、人名などの固有名詞に関しては、すべてを網羅することが困難であるといった本質的な問題もある。 In particular, with regard to the proper nouns, such as a person's name, it is to cover all there is also a substantial problem that it is difficult. 一方で、固有名詞にはタスク達成上重要な情報であるものも多く含まれ、音声認識の実タスク上での運用を考える際、固有名詞の未登録語処理技術は重要な課題となる。 On the other hand, proper names include many others is an important information on the tasks accomplished, when considering operation on the real task of the speech recognition, unregistered word processing technology proper noun is an important issue. 【0003】従来、連続音声認識装置における音素並び(読み)を含めた未登録語の検出方式としては、以下の方法が提案されている。 Conventionally, as the unregistered word detection methods including phoneme sequence (reading) in continuous speech recognition system, the following methods have been proposed. (1)音素タイプライタ等のサブワードデコーダを併用する方法(以下、第1の従来例の方法という。)、及び(2)サブワードを擬似的な単語として言語モデルに組み込む方法(以下、第2の従来例の方法という。)。 (1) how to use the sub-word decoders such as phoneme typewriter (hereinafter. Referred to as a first conventional example of the method), and (2) a method of incorporating the language model sub-word as a pseudo word (hereinafter, the second that the conventional example of the way.). 【0004】 【発明が解決しようとする課題】しかしながら、第1の従来例の方法は、別のデコーダを駆動する必要があるため、処理量の観点で望ましくない。 [0004] The present invention is, however, the method of the first conventional example, since it is necessary to drive the different decoder, undesirable in terms of throughput. また、推定未知語区間の音響スコアには最尤音素系列のスコアが使われるため、語彙内単語系列仮説との統合には、ペナルティやしきい値などのヒューリスティックス(発見的方法)が絡む。 Also, the acoustic score of the estimated unknown word interval for scores maximum likelihood phoneme sequence is used, the integration of the vocabulary in a word sequence hypotheses, heuristics, such as penalties and thresholds (heuristics) are involved. 【0005】一方、第2の従来例の方法は、デコーダの変更なしに実現できる利点がある。 On the other hand, the method of the second conventional example, there is an advantage that can be achieved without the decoder changes. しかしながら、サブワード系列として得られる未登録語に対し有効な言語処理を行うためには、後処理として、認識語彙よりも大きな語彙による形態素解析などを要する。 However, in order to perform a valid language processing to unregistered word obtained as a sub-word sequence, as post requires morphological analysis also due to a large vocabulary than recognition vocabulary. また、単語とサブワード、あるいは、サブワード間のN−gram確率で、言語的特質を十分反映するモデル化ができるとは考えにくく、認識制約としての有効性に疑問が残る。 Further, words and word or, in N-gram probabilities between sub-word, unlikely the can modeling to sufficiently reflect the linguistic characteristics, questionable effectiveness as recognition constraints. 【0006】また、電話機における音声認識及び自動ダイヤリング機能や、カーナビゲーションなどの小規模の情報検索装置において、辞書登録の数が限定されるため、対象となる固有名詞の数が限定される。 Further, and voice recognition and automatic dialing function in the phone, in small information retrieval apparatus such as a car navigation, the number of dictionary registration is limited, the number of proper names of interest is limited. このような場合において、対象の固有名詞が声認識装置とは別のシステムで管理されるとき、音声認識装置への登録はできず、音声認識率を向上させることができない。 In such a case, when a proper noun of interest to be managed in a different system than the voice recognition device, can not register with the speech recognition device, it is impossible to improve the speech recognition rate. 【0007】本発明の目的は以上の問題点を解決し、単語辞書において未登録の未登録語に関する音声認識の精度を従来例に比較して高くすることができ、未登録語の区間やクラスを同定する統計的言語モデルを生成することができる統計的言語モデル生成装置及び、統計的言語モデル生成装置を用いた音声認識装置を提供することにある。 An object of the present invention is to solve the above problems, the accuracy of speech recognition of unregistered unregistered word in the word dictionary can be increased as compared with the conventional example, the section and class of the unregistered word statistical language model generating apparatus and capable of generating a statistical language model to identify, is to provide a speech recognition apparatus using a statistical language model generator. 【0008】また、本発明の別の目的は、電話機における音声認識及び自動ダイヤリング機能や、カーナビゲーションなどの小規模の情報検索処理装置において、単語辞書において未登録の未登録語に関する音声認識の精度を従来例に比較して高くすることができる音声認識装置を用いて情報検索を実行することができる情報検索処理装置を提供することにある。 [0008] Also, another object of the present invention, and voice recognition and automatic dialing function in the phone, in the small-scale information retrieval processing devices such as car navigation, voice recognition related to unregistered unregistered words in the word dictionary to provide an information retrieval apparatus capable of performing information search using the speech recognition apparatus can be increased by comparing the accuracy of the conventional example. 【0009】 【0010】 【0011】 【0012】 【0013】 【0014】 【課題を解決するための手段】本発明に係る請求項記載の統計的言語モデル生成装置は、固有名詞又は外来語の普通名詞の単語リストを含む学習データを格納する学習データ記憶手段と、上記学習データ記憶手段に格納された学習データに基づいて、上記学習データにおけるモーラ長に対する単語数の割合が実質的にガンマ分布に従うと仮定したときのモーラ長のガンマ分布のパラメータをクラスに依存して推定して計算するとともに、モーラ又はモーラ連鎖であるサブワード単位で、上記固有名詞又は外来語の普通名詞の下位クラスであるクラスを有する第1のN−gramの出現確率を計算することにより未登録語をモデル化したサブワード単位N− [0009] [0010] [0011] [0012] [0013] [0014] According to the present invention SUMMARY OF] claim 1 statistical language model generating device according the proper noun or foreign words a learning data storage means for storing the learning data including the common noun word list, based on the stored learned data in the learning data storage means, the rate is substantially gamma distribution of the number of words for mora length in the learning data mora length with dependent parameters of the gamma distribution into classes calculated by estimation, sub-word units is mora or morae chain, is a subclass of noun of the proper noun or foreign words, assuming that follow the first N-gram the unregistered word model by computing the probability of occurrence of reduction and sub-word units with a class N- ramモデルを生成する第1の生成手段と、所定のテキストデータベースに基づいて生成された単語クラスN−gram A first generating means for generating a ram model, word class N-gram generated based on predetermined text database
モデルと、上記第1の生成手段によって生成されたサブワード単位N−gramモデルと、上記第1の生成手段によって計算されたモーラ長のガンマ分布のパラメータとに基づいて、上記単語クラスと、上記固有名詞又は外来語の普通名詞の下位クラスであるクラスとに依存した第2のN−gramの出現確率を計算することによりサブワード単位に基づいた未登録語を含む統計的言語モデルを生成する第2の生成手段とを備えたことを特徴とする。 And model based on the parameters of the sub-word units N-gram model generated by the first generating means, gamma distribution mora length calculated by said first generating means, and the word class, the specific second generating a statistical language model including unregistered word based on sub-word units by calculating the probability of occurrence of the second N-gram that depends on the class, which is a subclass of nouns or foreign words common noun characterized by comprising a generation means. 【0015】また、請求項記載の統計的言語モデル生成装置は、請求項記載の統計的言語モデル生成装置において、上記第1の生成手段によって生成されたサブワード単位N−gramモデルに基づいて、上記サブワード単位を抽出し、抽出したラベルを上記サブワード単位に付与することにより、サブワード単位当たり複数のラベル付きサブワード単位のデータを生成する第3の生成手段と、上記テキストデータベースから抽出された単語と、上記第3の生成手段によって生成された複数のラベル付きサブワード単位のデータとに対して音素並びを付与することにより単語辞書を生成する第4の生成手段とをさらに備えたことを特徴とする。 Further, the statistical language model generating apparatus according to claim 2, in a statistical language model generating apparatus according to claim 1, based on the subword unit N-gram model generated by said first generating means word extracting sub-word units, the extracted label by applying a sub-word unit, and a third generating means for generating data of a plurality of labeled subword units per subword units, extracted from the text database When a, further comprising a fourth generating means for generating a word dictionary by imparting phoneme sequence against the data of the third plurality of labeled subword units generated by the generating means to. 【0016】またさらに、本発明に係る請求項記載の音声認識装置は、入力される発声音声文の音声信号に基づいて、所定の統計的言語モデルを用いて音声認識する音声認識手段を備えた音声認識装置において、上記音声認識手段は、請求項又は記載の統計的言語モデル生成装置によって生成された統計的言語モデルと、請求項 [0016] Furthermore, the speech recognition apparatus according to claim 3, wherein according to the present invention, based on the audio signal of the utterance sentence inputted, a voice recognizing speech recognition means by using a predetermined statistical language model in speech recognition apparatus, the speech recognition means, a statistical language model generated by the statistical language model generating device according to claim 1, claim
記載の第4の生成手段によって生成された単語辞書とを用いて音声認識することを特徴とする。 Characterized by speech recognition using the word dictionary generated by the fourth generating means 2 described. 【0017】また、本発明に係る請求項記載の情報検索処理装置は、上記単語リストに対応する普通名詞の単語データとそれに対応する情報とを含むデータベースを記憶するデータベース記憶手段と、請求項記載の音声認識装置から出力される音声認識結果の文字列をキーとして用いて、上記データベース記憶手段に記憶されたデータベースから検索して、一致する単語データに対応する情報を上記データベース記憶手段から読み出して出力する検索手段とを備えたことを特徴とする。 Further, the information retrieval apparatus according to claim 4, wherein according to the present invention, a database storage means for storing a database containing the information and the corresponding word data of common nouns corresponding to the word list, claim 3 using the character string of the speech recognition result output from the speech recognition apparatus according as the key, retrieved from a database stored in the database storage unit, information corresponding to the matching word data from said database storage means characterized by comprising a search means for reading and outputting. 【0018】さらに、請求項記載の情報検索処理装置は、請求項記載の情報検索処理装置において、さらに、上記検索手段から出力される情報に基づいて、所定の処理を実行する処理実行手段を備えたことを特徴とする。 Furthermore, the information retrieval apparatus according to claim 5, wherein, in the information retrieval apparatus according to claim 4, further based on the information output from the search means, process executing means for executing a predetermined processing characterized by comprising a. 【0019】 【0020】 【発明の実施の形態】以下、図面を参照して本発明に係る実施形態について説明する。 [0019] [0020] PREFERRED EMBODIMENTS Hereinafter, an embodiment will be described according to the present invention with reference to the drawings. 【0021】<第1の実施形態>図1は、本発明に係る第1の実施形態である連続音声認識システムのブロック図である。 [0021] <First Embodiment> FIG 1 is a block diagram of a continuous speech recognition system according to a first embodiment of the present invention. 本発明に係る第1の実施形態の連続音声認識システムは、未登録語モデル生成部20と、サブワード単位データ生成部21と、単語辞書生成部22と、単語クラスN−gramモデル生成部23と、言語モデル生成部24とを備えた統計的言語モデル生成装置を備えたことを特徴としている。 Continuous speech recognition system of the first embodiment according to the present invention, the unregistered word model generation unit 20, a sub-word unit data generating unit 21, a word dictionary generating unit 22, a word class N-gram model generation unit 23 It is characterized by comprising a statistical language model generator with a language model generating unit 24. 【0022】本実施形態では、未登録語を含む音声の高精度な認識を可能とする、新しい統計的言語モデルを生成する統計的言語モデル生成装置を開示する。 [0022] In the present embodiment enables highly accurate recognition of speech including unregistered word, discloses a statistical language model generating device for generating a new statistical language model. 本実施形態の統計的言語モデルは、(1)学習データメモリ30 Statistical language model of the present embodiment, (1) learning data memory 30
内の学習データに基づいて未登録語モデル生成部20によって生成された、未登録語認識用の複数の未登録語モデルである、サブワード単位N−gramモデル及びモーラ長ガンマ分布データと、(2)テキストデータメモリ31内のテキストデータに基づいて単語クラスN−g Produced by the unregistered word model generation unit 20 based on the learning data of the inner, a plurality of unregistered words model for unregistered word recognition, and the sub-word units N-gram model and mora length gamma distribution data, (2 ) word class based on the text data of the text data memory in the 31 N-g
ramモデル生成部23によって生成された単語クラスN−gramモデルと、に基づいて言語モデル生成部2 And the word class N-gram model generated by ram model generation unit 23, the language based on the model generating unit 2
4によって統計的言語モデルが生成される。 Statistical language model by 4 is generated. 【0023】これらの未登録語モデルは、各語彙クラスに依存して構築される。 [0023] These unregistered word model is built depends on each vocabulary class. ここで、サブワードとは、単語よりも小さい単位をいい、具体的にはモーラ又はモーラ連鎖をいう。 Here, the sub-word, refers to a unit smaller than words, and specifically refers to the mora or mora chain. モーラとは、韻律論において、強勢や抑揚などの単位となる音の相対的な長さをいい、1モーラは短母音を含む1音節の長さに相当する。 Mora and, in prosody theory, refers to the relative lengths of the sound as a unit, such as stress and intonation, one mora is equivalent to the length of one syllable containing short vowels. 日本語では、ほぼ「かな」1字(拗音では2字)がこれに相当する。 In Japanese, almost "kana" one character (2 characters in the contracted sound) corresponds to this. 以下では、固有名詞の下位クラスである、日本人姓及び名の未登録語に対象を限定して説明する。 In the following, which is a lower class of proper names, described by limiting the subject to unregistered word of Japanese last name and first name. 【0024】本発明者は、(1)表1に示すように約3 [0024] The present inventors have found that (1) Table 1 about 3 as shown in
0万の日本人の姓のモーラ並び(読み)のデータを含む日本人姓ファイル30aと、(2)表2に示すように約30万の日本人の名のモーラ並び(読み)のデータを含む日本人名ファイル30bとを含む学習データを学習データメモリ30に格納した。 And Japanese surname file 30a, which includes the data of 00000 Mora arrangement of the Japanese last name (reading), the data of (2) table as shown in 2 to about 300,000 of Mora arrangement of the Japanese name (reading) the learning data including the Japanese name file 30b, including stored in the learning data memory 30. 【0025】 【表1】 ―――――――――――― ス,ズ,キタ,カ,ハ,シサ,イ,ト,オタ,ナ,カヒ,ラ,ツ,ジア,サ,ギ,ノ…… ―――――――――――― 【0026】 【表2】 ――――――――――――――――――――――――――――――――――― ヨ,オ,コト,モ,エト,モ,コケ,イ,コ …… ――――――――――――――――――――――――――――――――――― 【0027】上記学習データに基づく、本発明者による日本人姓及び名データの分析及び分析結果について説明する。 [0025] [Table 1] ------------ vinegar,'s, Kita, mosquitoes, Ha, parallax, Lee, theft, OTA, Na, peel, La, Tsu, Zia, support, formic Roh ...... ------------ [0026] [Table 2] --------------------------- -------- Yo, Oh, things, model, eth, model, moss, Lee, co ... ----------------------- ------------ [0027] based on the learning data, the present inventors by describing the Japanese last name and the name of the data analysis and the analysis result of. 日本人の姓や名をサブワードの系列として眺めるとき、次の特徴を有することが容易に予想される。 When overlooking the surname and first name of the Japanese as a sequence of sub-word, it can be easily expected to have the following features. (1)長さに関する特徴:姓ではスズキ、サトウ、タカハシなど、名ではヒロシ、アキラ、イチロウなど、3ないし4モーラ長の名前が一般的である。 (1) length of the features: Suzuki in the last name, sugar, such as Takahashi, Hiroshi in the name, Akira, such as Ichiro, 3 to the name of the 4 mora length is common. (2)音素並びに関する特徴:日本人の姓及び名は、基本的に漢字で構成されており、姓ではヤマ、ムラ、ナカなど、名ではロウ、イチ、ヒロなど、高頻度の単位が存在する。 (2) features of phoneme sequence: last name and the name of the Japanese people, is composed of a basic Chinese characters, in the last mountain, uneven, such as Naka, in the name row, the location, such as Hilo, there is a high frequency of unit to. 【0028】本発明者は、こうした観点から、日本人姓及び名の読みに関する統計的特徴を分析した。 [0028] The present inventors have found that, from this point of view, was to analyze the statistical characteristics about the reading of the Japanese last name and first name. 人名データとしては約30万人の著名人の名前を集録した公知の人名リストを用いた。 The person's name data using a known person's name list, which was acquired the name of the approximately 30 million people of the celebrities. この学習データから、漢字と平仮名のみで構成される姓及び名を日本人名として抽出し、 From this learning data, to extract the last name and the name consists only in kanji and hiragana as a Japanese name,
得られた姓303,552人分、名295,148人分を対象に分析を行い、その結果を表3に示す。 The resulting surname 303,552 persons, conduct an analysis to target the name 295,148 persons, and the results are shown in Table 3. 併せて比較のため、日本人姓及び名以外の単語の特徴を分析する。 Together for the purpose of comparison, to analyze the characteristics of the words of non-Japanese last name and first name. 比較する学習データとしては、本特許出願人が所有する自然発話旅行会話データベースより、日本人姓及び名を除いた、のべ1,155,183単語を用いた。 The learning data comparison, than the natural speech travel conversation database owned by the present applicant, except for the Japanese last name and first name, using a total of 1,155,183 words. 【0029】 【表3】 モデルの学習データ――――――――――――――――――――――――――――――――――― 日本人名姓 名 旅行会話――――――――――――――――――――――――――――――――――― 単語総数 303,552 295,148 1,161,576 異なり語彙 19,018 20,413 13,453 ――――――――――――――――――――――――――――――――――― (注)日本人名の異なり語彙は、音素並び又は読みの異なり単語で評価し、漢字表記の違いは無視した【0030】本発明者が分析した単語の長さに関する統計を図6に示す。 [0029] [Table 3] model of learning data ----------------------------------- Japanese name First Name Last Name travel conversation ----------------------------------- word total 303,552 295,148 1,161,576 Unlike vocabulary 19,018 20,413 13,453 ----------------------------------- (Note) Japan Unlike the vocabulary of the person's name is, and evaluated by the word, unlike the phoneme list or reading, the difference is in Kanji shows the statistics on the length of the words that were ignored [0030] the present inventors have analyzed in Figure 6. 長さの単位としては、モーラ数を用いた。 The unit of length, was used mora number. この結果から、日本人姓及び名の長さが3、4モーラを中心に非常に偏った分布を持つことが確認できる。 From this result, the length of the Japanese family name and name can be confirmed to have a distribution skewed very mainly 3,4 mora.
3、4モーラを合わせると、姓及び名ともにほぼ9割の人名が該当することになる。 Together 3,4 mora, so that the corresponding almost 90% of the person's name in both first and last name. 次に、モーラの並びに関する統計を表4に示す。 Next, the statistics about the arrangement of mora Table 4. モーラ並びの偏りの指標として、 As an indicator of mora sequence of bias,
頻度上位N種類のモーラ二連鎖による、モーラ並びの被覆率を調べた。 By frequency Top N type mora two chain was examined coverage mora sequence. ここで、被覆率とは、すべてのモーラの中での二連鎖の占める割合をいう。 Here, the coverage refers to the proportion of two chains of all Mora. 【0031】 【表4】 モーラ並びの偏り――――――――――――――――――――――――――――――――――― 二連鎖モーラの種類モーラ並びの被覆率(%) (頻度上位N種類) 日本人名姓 名 旅行会話――――――――――――――――――――――――――――――――――― 1 3.8 4.9 0.1 10 23.3 28.3 5.1 100 59.8 66.6 19.4 1000 84.3 82.4 35.6 ――――――――――――――――――――――――――――――――――― (注)頻度上位N種類の二連鎖モーラによる。 [0031] [Table 4] Mora sequence bias ----------------------------------- of the two-chain Mora kind mora sequence of coverage (%) (frequency Top N type) Japanese name First name last name travel conversation ----------------------------- ------ 1 3.8 4.9 0.1 10 23.3 28.3 5.1 100 59.8 66.6 19.4 1000 84.3 82.4 35.6 ---- ------------------------------- by (Note) frequency Top N type of the two-chain mora. モーラ並びの被覆率(%)。 Mora sequence of coverage (%). 奇数長の単語があるため、被覆率が100%になることはない。 Since there is a word of odd length, never coverage is 100%. 【0032】例えば、日本人姓及び名では、それぞれの高頻度1000種類のモーラ二連鎖だけで、姓及び名におけるモーラ並びの8割以上が被覆される。 [0032] For example, in Japanese surname and first name, only the respective high frequency 1000 type mora two chains, more than 80% of Mora arrangement in first and last name are covered. 【0033】次いで、日本人姓及び名の未登録語モデルに基づく統計的言語モデルの生成方法について詳述する。 [0033] Next, will be described in detail a method of generating a statistical language model based on unregistered word model of the Japanese last name and first name. 上述で得られた知見に基づき、日本人姓及び名クラスの未登録語モデルに基づく統計的言語モデルを構築する。 Based on the knowledge obtained in the above, to construct a statistical language model based on unregistered word model Japanese surnames and name classes. また、デコーディングの観点から、統計的言語モデルは、近年広く用いられているN−gram形式で取り扱えることが望ましく、本実施形態では、本未登録語モデルを単語N−gram形式で実装する。 From the viewpoint of the decoding, statistical language model, it is desirable to handle with N-gram format widely used in recent years, in this embodiment, to implement the present unregistered word model word N-gram format. 【0034】まず、未登録語を含む単語系列のモデル化について説明する。 [0034] First, a description will be given of the model of the word series, including the unregistered word. 本実施形態に係る統計的言語モデルのベースとなるのは、単語のクラスN−gramモデルである。 The basis of the statistical language model according to this embodiment is a word class N-gram model. この単語クラスN−gramモデルは、単語クラスN−gramモデル生成部23により、テキストデータベースメモリ31に格納された多数の日本語の書き下し文からなるコーパスと呼ばれるテキストデータに基づいて、例えば公知の最尤推定法を用いて単語のクラスタリングを行って単語クラスN−gramモデルを生成し、このモデルを単語クラスN−gramモデルメモリ43に格納する。 The word class N-gram model, the word class N-gram model generation unit 23, based on the text data called corpus consisting Kakikudashibun numerous Japanese stored in the text database memory 31, for example a known maximum likelihood performing clustering of words generates word class N-gram model using estimation method, and stores the model in the word class N-gram model memory 43. 【0035】単語クラスN−gramモデルでは、単語系列W=w 1 ,w 2 ,w 3 ,w 4 ,…,w Tの言語的尤度p [0035] In a word class N-gram model, a word sequence W = w 1, w 2, w 3, w 4, ..., linguistic likelihood of w T p
h(W)が一般に次式で与えられる。 h (W) is generally given by the following equation. ただし、w tは単語系列Wのt番目の単語であり、c wtは単語w tの語彙クラスを表わすものとする。 However, w t is the t-th word of the word sequence W, c wt is assumed to represent a vocabulary class of word w t. 【0036】 【数1】 [0036] [number 1] 【0037】ところで、単語w t (以下、1つの単語をwで表す。)には認識語彙にない未登録語が含まれている。 [0037] By the way, the word w t (hereinafter referred to. One of the words w) are included unregistered word not in the recognition vocabulary to. これら未登録語の生起確率を音素並び(又は読み) The probability of occurrence of these unregistered word phoneme sequence (or reading)
の統計的特徴に基づいて推定するとき、上記数1中のクラス内単語1−gram確率p(w|c w )は次式により与えられる。 When estimated on the basis of statistical features, classes in the word 1-gram probability p in Formula in 1 (w | c w) is given by the following equation. ただし、M wは単語wのモーラ系列を表す。 However, M w represents the mora series of word w. 【0038】 【数2】(1)もしw∈単語辞書のときp(w|c w )≡(1−p(OOV|c w ))・p(w| [0038] [number 2] (1) If the time of w∈ word dictionary p (w | c w) ≡ (1-p (OOV | c w)) · p (w |
w ,inVoc), (2)もし上記以外のときp(w|c w )≡p(OOV|c w )・p(M w |c w ,O c w, inVoc), (2 ) if the time other than the above-mentioned p (w | c w) ≡p (OOV | c w) · p (M w | c w, O
OV) 【0039】ここで、単語辞書は、単語辞書メモリ12 OV) [0039] In this case, the word dictionary, a word dictionary memory 12
に格納される語彙辞書であり、OOVは未登録語であり、inVocは単語辞書内の条件を表す。 A vocabulary dictionary to be stored in, OOV is an unregistered word, inVoc represents the conditions in the word dictionary. 上記数2において、確率p(OOV|c w )は、クラスから未登録語が生起する確率であり、例えば公知の方法(例えば、 In Equation 2, the probability p (OOV | c w) is the probability that an unregistered word is arising from a class, for example, a known method (for example,
従来技術文献「政瀧ほか,“品詞及び可変長形態素列の複合N−gramを用いた形態素解析”,言語処理学会会誌「自然言語処理」,Vol. Prior art document "Seitaki addition," morphological analysis using the composite N-gram of the part of speech and variable length morpheme string ", the Association for Natural Language Processing Journal" natural language processing ", Vol. 6,No. 6, No. 2,pp. 2, pp.
41−57,1999年」など参照。 41-57, see, for 1999 ". )で推定できる。 ) It can be estimated at.
この推定方法について説明すると、公知のチューリング(Turing)推定法を用いたとき、データ上にr回出現する形態素は、次式のr *回と推定される。 Referring to this estimation method, when using the known Turing (Turing) estimation method, morpheme which appears r times on the data, it is estimated that the following equation r * times. 【0040】 【数3】r * ={(r+1)n r+1 }/n r 【0041】ここで、n rはデータ上にr回出現した形態素の種類数を表す。 [0040] Equation 3] r * = {(r + 1 ) n r + 1} / n r [0041] Here, n r represents the number of types of morphemes that appeared r times on the data. 従って、r回出現する形態素wの品詞からの出現確率P(w|c ξ )は、次式で表される。 Accordingly, the occurrence probability P from the part of speech of morphemes w appearing r times (w | c xi]) is expressed by the following equation. 【0042】 【数4】P(w|c ξ )=r * /N(c ξ ) 【0043】上記出現確率P(w|c ξ )を、クラスc [0042] [number 4] P (w | c ξ) = r * / N (c ξ) [0043] The occurrence probability P | a (w c ξ), class c
ξに属する全ての形態素について計算し、次式に示すように、1から引いた残りが品詞c ξから未知語出現する確率P(c h ξ )である。 calculated for all morpheme belonging to xi], as shown in the following equation, is the probability remainder obtained by subtracting from 1 appears unknown words from word class c ξ P (c h ξ) . 【0044】 【数5】 [0044] [number 5] 【0045】本実施形態では、限られた評価セット上で未登録語モデルの有効な評価を行うことに主眼を置き、 [0045] In the present embodiment, placing the focus on to perform an effective evaluation of the unregistered word model on a limited evaluation set,
次式を用いてモデル化を行う。 To model using the following equation. すなわち、未登録語の生起は予め規定したいくつかのクラス(ここで、クラスの集合をC OOVという。)のみに許すこととし、これらクラスからの単語生起は全て未登録語モデルで説明することとし、登録語を作らない。 That is, (wherein, the set of classes C OOV.) Some classes occurrence is as defined previously unregistered word as allowing only, be explained all words occur from these classes unregistered word model and then, it does not make the registered words. 【0046】 【数6】 [0046] [6] 【数7】 [Equation 7] 【0047】次いで、日本人姓及び名の未登録語モデルについて説明する。 [0047] Next, a description will be given of unregistered word model of the Japanese last name and first name. 上述したように、日本人姓及び名の読みには、モーラ長、及びモーラ並び、それぞれに関して特徴的な傾向が見られた。 As described above, the reading of the Japanese last name and first name, mora length, and well as mora, was seen a characteristic trend for each. 従って、上記数7の未登録語モデルp(M w |c w )は、次式のように展開することにより、高精度なモデル化が可能となる。 Therefore, unregistered word model p in Formula 7 (M w | c w), by expanded as follows, it is possible to highly accurate modeling. ただし、le However, le
n(M w )は単語wのモーラ長を表す。 n (M w) represents the mora length of the word w. 【0048】 【数8】p(M w |c w )=p(len(M w )|c w )・ [0048] [number 8] p (M w | c w) = p (len (M w) | c w) ·
p(M w |c w ,len(M w )) 【0049】上記数8の確率p(len(M)|c) p (M w | c w, len (M w)) [0049] probability of the number 8 p (len (M) | c)
は、日本人姓又は名クラスにおいて、長さlen(M) It is, in Japanese last name or name of the class, length len (M)
の単語が生起する確率である。 Word is the probability of occurrence. 本実施形態では、その確率分布が次式で与えられるガンマ分布に実質的に従うことを仮定する。 In the present embodiment, it is assumed that the probability distribution is substantially in accordance with the gamma distribution given by the following equation. すなわち、上記数8の右辺は、第1項のモーラ長のガンマ分布の確率と、第2項のサブワード単位バイグラムの確率との掛け算になっている。 That is, the right side of the equation 8, and the probability of the gamma distribution Mora length of the first term, and is multiplied with the probability of subword unit bigram in the second term. ただし、 However,
α,λはクラスcに依存するパラメータであり、モーラ長の平均と分散より定まる。 alpha, lambda is a parameter that depends on the class c, determined from the mean and variance of the mora length. 【0050】 【数9】 [0050] [number 9] ここで、 【数10】 Here, [number 10] 【0051】一方、上記数8の確率p(M w |c w ,le [0051] On the other hand, the probability p (M w of the number 8 | c w, le
n(M w ))は、クラスc wにおいて長さlen(M w n (M w)), in the class c w length len (M w)
のモーラ並びがM w =m 1 w ,m 2 w ,…となる確率であり、次式のサブワード単位N−gramによりモデル化する。 Mora sequence of is M w = m 1 w, m 2 w, ... to become probability, modeled by the sub-word units of N-gram of the following equation. ただし、U=u 1 ,u 2 ,…は詳細後述する手法で自動獲得したサブワード単位(モーラ又はモーラ連鎖) However, U = u 1, u 2 , ... subword units automatically acquired in the manner described in detail later (mora or Mora chain)
の系列である。 It is a series. また、式中のサブワード単位N−gra In addition, the sub-word units in the formula N-gra
mには終端記号への遷移を含まない。 The m does not contain a transition to terminal symbols. 【0052】 【数11】 [0052] [number 11] 【0053】以上述べてきた本実施形態に係る統計的言語モデルにおいて、「...あさぎ野 陽子 と [0053] In statistical language model according to an embodiment of the present invention which have been described above, "... Asagi field protons and
. . . 」が出力される例を図7に示す。 Example "is output is shown in FIG. 例では、日本人姓及び名クラスの単語「あさぎ野」、「陽子」に対して、クラスラベル付きモーラ系列「アサギノ(日姓)」、「ヨオコ(日名)」が出力される。 In the example, the words of the Japanese family name and name the class "Asagi field", for the "Yoko", the class labeled mora series "Asagino (day last name)", "Yooko (Japan name)" is output. 本モデルでは、日本人姓及び名の生起に対して、次の3レベルから言語的制約をかける。 In this model, with respect to the occurrence of a Japanese last name and first name, place a linguistic constraints from the following three levels. 【0054】<3レベルの言語的制約> (1)単語間制約:単語のクラスN−gramを用い、 [0054] <3 level language constraints of> (1) inter-word constraints: using the words of class N-gram,
単語コンテキストにおいて日本人姓及び名(クラス)が生起する尤度を評価する。 In a word context to evaluate the likelihood that the Japanese last name and first name (class) is to occur. サブワードによる姓及び名のモデル化は下位の階層に隠蔽されるため、登録語系列のモデル化には悪影響を及ぼさない。 Since the model of the family name and the name by the sub-word, which is concealed in the lower hierarchy, it does not have an adverse effect on the model of the registered word series. (2)姓及び名区間の継続長制約:姓及び名それぞれのモーラ長に関するガンマ分布を用い、区間の姓及び名らしさを評価する。 (2) first and last name section duration constraints: using a gamma distribution for mora length of each first and last name, to assess the family name and name ness of the section. この制約により、不当に短い、もしくは長いモーラ系列の湧き出しを防ぐことができる。 This constraint, it is possible to prevent unduly short, or of long mora series springing out of the. (3)サブワードの並び制約:モーラとモーラ連鎖を単位とする姓及び名のサブワード単位N−gramを用いる。 (3) sub-word of the sequence constraints: using the mora and the sub-word units of N-gram of the family name and the name of the mora chain as a unit. モーラ連鎖を単位とすることで、N−gramの高精度化が期待できる。 By the mora chain units, high accuracy of N-gram can be expected. ここで、モデル化単位とするモーラ連鎖は、後述する繰り返し学習において自動的に獲得する。 Here, Mora chain and modeling unit is automatically acquired in iterative learning described later. 【0055】次いで、未登録語モデル生成部20によって実行される未登録語モデルの学習生成処理について説明する。 [0055] Next, a description will be given learning process of generating unregistered word model that is executed by the unregistered word model generation unit 20. 未登録語モデル生成部20は、学習データメモリ30に格納された日本人姓ファイル30a及び日本人名ファイル30bに基づいて、日本人の姓クラス(ラベルでは、日姓と略記する。)及び日本人の名クラス(ラベルでは、日名と略記する。)の未登録語モデルを構築する。 Unregistered word model generation unit 20 based on the Japanese surname file 30a is stored in the learning data memory 30 and the Japanese name file 30b, (in the label, abbreviated as day surname.) Last name class Japanese and Japanese (the label, referred to as the day name.) name the class of building the unregistered word model. この学習生成処理では、具体的には、サブワード単位N−gramモデルとモーラ長ガンマ分布のデータを生成する。 In this learning generation process, more specifically, to generate the data subword unit N-gram model and mora length gamma distribution. 以下の実施形態では、個人名はそれぞれ等しい確率で出現するとし、各姓又は各名の観測頻度として人名リスト中の同姓者又は同名者の人数を用いることとする。 In the following embodiments, the personal name is found at each equally likely, it will be used the number of surname person or the same name who is names listed as an observation frequency of each surname or each name. サブワード単位N−gramには、初期単位セットとして単一モーラのみを与え、後述の繰り返し学習において、逐次的に新たなモーラ連鎖を単位セットに追加していく。 The subword unit N-gram, received only a single mora as the initial unit set, in iterative learning described later, continue to add sequentially new mora chained unit set. これら単位候補となるモーラ連鎖には頻度による予備選択を施すことで、学習の効率化を図った。 The mora chain comprising these unit candidates by performing preliminary selection by frequency and improving the efficiency of learning. 【0056】図3は、図1の未登録語モデル生成部20 [0056] FIG. 3, unregistered word model generating unit 20 of FIG. 1
によって実行される未登録語モデル生成処理を示すフローチャートであり、図4は、図3のサブルーチンであるサブワード2−gramの単位決定処理(ステップS A flow chart showing the unregistered word model generation process executed by the FIG. 4, the unit determination process subword 2-gram is a sub-routine of FIG. 3 (step S
4)を示すフローチャートである。 4) it is a flowchart illustrating a. 【0057】未登録語モデルの学習データとして、モーラ系列で表現された姓及び名のリストを用い、このリストデータはそれぞれ学習データメモリ30内の日本人姓ファイル30a及び日本人名ファイル30bに格納されている。 [0057] as a learning data of the unregistered word model, using a list of the last name and the name that has been expressed in mora series, this list data is stored in a Japanese last name file 30a and Japanese name file 30b of each learning data memory 30 ing. この学習データは先の表1及び表2の通りであって、各モーラをカンマ「,」で区切って表記してある。 The training data is a shown in Table 1 and Table 2 above, are denoted separate each mora by commas ",". この学習データに基づいて、未登録語モデル、すなわち、モーラ長のガンマ分布とサブワード単位N−gr Based on the training data, unregistered word model, i.e., mora length of the gamma distribution and the sub-word units N-gr
amモデルを生成する。 To generate the am model. 以下では、N−gramの次数Nが2の場合について、未登録語モデルの生成手順を説明する。 Hereinafter, the order N of the N-gram is for the case of 2, illustrating the procedure of generating the unregistered word model. 【0058】図3のステップS1において学習データメモリ30から学習データを読み出し、ステップS2において、読み出した学習データに基づいて、姓又は名の1 [0058] In step S1 of FIG. 3 reads learning data from the learning data memory 30, in step S2, based on the read learning data, the first or last name 1
単語当たりのモーラ数の平均μと分散Vを計算した後、 After the average number of moras per word μ and were calculated variance V,
次式を用いてモーラ長のガンマ分布のパラメータを推定する。 Estimating the parameters of the gamma distribution Mora length using the following equation. 【0059】 【数12】λ=V/μ 【数13】α=μ 2 /V 【0060】さらに、ステップS3において上記学習データに基づいて、サブワード単位2−gramの単位候補となる、高頻度のモーラ連鎖を抽出し、抽出した単位候補を「単位候補セット」と呼ぶ。 [0059] [Expression 12] lambda = V / mu Equation 13] α = μ 2 / V [0060] Further, based on the training data in step S3, a unit candidates subword unit 2-gram, high frequency mora chain was extracted, the extracted unit candidate is referred to as a "unit candidate set". ここでは、学習データ上に出現する、例えば長さ2以上の全てのモーラ連鎖に対して、その頻度を調べ、頻度が所定の値(=10 Here, it appeared on training data, for example, the length 2 or more for all moras chain examine the frequency, the frequency is a predetermined value (= 10
0)以上のモーラ連鎖を単位候補として抽出する。 0) is extracted as a unit candidates or mora chain. 次いで、ステップS4において、図4に示すサブルーチンであるサブワード2−gramの単位決定処理を実行し、 Then, in step S4, and it executes the unit determination process subword 2-gram is a sub-routine shown in FIG. 4,
最後に、ステップS5において、学習終了後の暫定未登録語モデルをサブワード単位N−gramモデルとしてサブワード単位モデルN−gramモデルメモリ40に格納するとともに、モーラ長のガンマ分布のデータをモーラ長ガンマ分布データメモリ41に格納する。 Finally, in step S5, and stores the sub-word unit models N-gram model memory 40 provisional unregistered word model after learning completion as subwords N-gram model, mora length gamma distribution data of the gamma distribution Mora length stored in the data memory 41. 【0061】図4のサブワード2−gramの単位決定処理においては、まず、ステップS11において確定単位セットにすべての単一のモーラを挿入し、ステップS [0061] In the unit determination process subword 2-gram of Fig. 4, first, inserted every single mora confirmation unit set in step S11, step S
12において単位候補セットの中から1つのモーラ連鎖を選択する。 Selecting one mora chain from the unit candidate set at 12. 次いで、ステップS13において選択したモーラ連鎖は確定単位セットに含まれているか否かを判断し、YESのときはステップS15に進む一方、NO Then, Mora chain selected determines whether or not included in the confirmation unit set in step S13, whereas the process proceeds to step S15 when YES, NO
のときは、ステップS14に進む。 When the, the process proceeds to step S14. ステップS14において選択したモーラ連鎖を確定単位セットに追加して、 Mora chain selected in addition to confirmation unit set in step S14,
公知の最尤推定法を用いて暫定サブワード2−gram Interim sub-word 2-gram by using a well-known maximum likelihood estimation method
モデルを生成してステップS15に進む。 And generate a model proceeds to step S15. ここで、2− Here, 2-
gramモデルは、学習データと追加セットとの間の1 gram model, 1 between the training data and the additional set
−gramと、追加セットのみの0−gramを用いて、公知の削除補間法(例えば、従来技術文献「中川聖一,”確率モデルによる音声認識”,社団法人電子情報通信学会編,pp.63−64,昭和63年7月1日発行」など参照。)を用いて補間して生成する。 And -gram, using a 0-gram of only additional set, known deleted interpolation method (for example, the prior art literature "Seiichi Nakagawa," probability model speech recognition by ", Institute of Electronics, Information and Communication Society of Japan, pp.63 -64, is generated by interpolation using the reference.) such as Showa issued 63 July 1 ". この暫定サブワード2−gramと、モーラ長のガンマ分布データを合わせて「暫定未登録語モデル」と呼ぶ。 And the provisional sub-word 2-gram, in accordance with the gamma distribution data of mora length is referred to as a "provisional unregistered word model". ステプS Sutepu S
15においては、すべてのモーラ連鎖について上記ステップS13及びS14の処理したか否かを判断し、NO In 15, for all moras chain determines whether the processes in steps S13 and S14, NO
であるときはステップS12に戻り上記の処理を繰り返すが、YESのときはステップS16に進む。 When it repeats the above processing returns to step S12, but if YES the process proceeds to step S16. ステップS16において各暫定未登録語モデルに対して数8を用いて平均尤度を計算し、平均尤度を最大にする暫定未登録語モデルの単位セットを新しい確定単位セットとする。 Average likelihood calculated using the number 8 for each provisional unregistered word model in step S16, the unit set of provisional unregistered word model maximizes the average likelihood be a new confirmation unit set. そして、ステップS17において確定単位セットに含まれるモーラ連鎖の数≧所定のしきい値N th (例えば、150である。)であるか否かが判断され、NOのときはステップS12に戻り上記の処理を繰り返す一方、YESのときは元のメインルーチンに戻る。 Then, the number ≧ predetermined threshold N th mora chain included confirmation unit set (for example, 150.) In step S17 a is whether it is determined, said return to step S12 if NO while the process is repeated. If YES, the process flow returns to the main routine. 【0062】図9は、図1の未登録語モデル生成部20 [0062] FIG. 9, unregistered word model generating unit 20 of FIG. 1
によって実行される未登録語モデル生成処理における、 In unregistered word model generation process executed by,
モーラ連鎖の単位化による平均尤度の向上を示すグラフであって、モーラ連鎖の種類の数に対する平均尤度を示すグラフである。 A graph showing the improvement in average likelihood in units of moras chain is a graph showing the average likelihood for the number of types of mora chain. すなわち、図9は繰り返し学習における平均尤度(数8)の変化を示す。 That is, FIG. 9 shows the change in average likelihood in iterative learning (8). 単位候補とするモーラ連鎖は、頻度が100以上のものとした。 Mora chain to a unit candidate frequency were of 100 or more. 表1乃至表3に示す学習データからは、姓モデルで1,829種類、名モデルで1,660種類のモーラ連鎖が単位候補となる。 From Table 1 to the learning data shown in Table 3, 1,829 kinds surname model, 1,660 types of mora chain is a unit candidates in the name model. サブワード単位N−gramはN=2とし、1 Subword unit N-gram is a N = 2, 1
−gram、0−gramを用いた公知の削除補間法で補間した。 -gram, interpolated by a known deleted interpolation method using a 0-gram. 図9に示すように、モーラ連鎖をサブワード単位として追加していくことで、学習データに対する平均尤度は単調に上昇する。 As shown in FIG. 9, by continue to add mora chain as subword units, the average likelihood for the training data is monotonously increased. モーラ連鎖を150個追加したモデルの平均尤度は、モーラ連鎖を用いないモデルに比べ、姓モデルで3.9倍、名モデルで3.2倍となった。 The average likelihood of the model you add 150 mora chain, compared to the model that does not use a mora chain, 3.9 times in the last model, was a 3.2-fold in the name models. 未登録語モデルを単語1−gramとみなすと、単語の学習セットパープレキシティは姓モデルで74%、 Once regarded as an unregistered word model with the word 1-gram, word of the learning set perplexity is 74% in the last model,
名モデルで69%改善されることになる。 It will be improved 69% in the name model. 【0063】次いで、未登録語モデルを単語N−gra [0063] Then, the word N-gra the unregistered word model
m形式による単語辞書に実装する方法について説明する。 A description will be given of a method to implement in the word dictionary by the m format. 上述の未登録語モデルは、以下に述べる方法により、近似なく、クラスN−gramの形式で扱うことができる。 Unregistered word model described above, by the method described below, without approximation, it can be handled by the class N-gram format. そのため、統計的言語モデルとしてクラスN− Therefore, the class as a statistical language model N-
gramを扱うことが可能なデコーダであれば、デコーダの変更無しに、本方法による未登録語の認識が可能となる。 If the decoder capable of handling a gram, without change of the decoder, it is possible to recognition of unregistered words in accordance with the present method. ただし、極端に長い未登録語(本実施形態では、 However, extremely long unregistered words (in this embodiment,
10モーラ以上の姓及び名)が認識対象とならないことが条件となる。 That 10 Mora or more of first and last name) is not a recognition target is a condition. サブワード単位N−gramで単位として用いるモーラ及びモーラ連鎖は、擬似的な単語として扱い、認識辞書、及びクラスN−gramに組み込む。 Mora and Mora chain used as a unit with subword unit N-gram is treated as pseudo words, incorporated recognition dictionary, and the class N-gram.
その際、各サブワード単位は以下のラベル付けによる展開を行い、ラベル違いの同一サブワード単位を複数生成する。 At that time, each subword unit performs development by following labeling, generates a plurality of identical sub-word units of the label difference. 【0064】すなわち、ラベル付きサブワード単位データ生成部20は、サブワード単位N−gramメモリ4 [0064] That is, labeled subword unit data generator 20, sub-word units N-gram memory 4
2に格納された、日本人姓及び名のサブワード単位N− 2 stored in the Japanese family name and the name of the sub-word units N-
gramそれぞれに対して以下の処理を実行し、この結果得られるラベル付きサブワード単位群のデータをラベル付きサブワード単位データメモリ40に格納する。 Perform the following processing for each gram, are proposed store data labeled subword unit group obtained results are labeled subword unit data memory 40. すなわち、日本人姓(もしくは日本人名)サブワード単位N−gramで単位として用いられるサブワード単位(単一モーラ、モーラ連鎖)を全て抽出する。 That is, Japanese surname (or Japanese name) subword units used as a unit with subword unit N-gram (single mora, Mora chain) extracts all. 次いで、 Then,
抽出したそれぞれのサブワード単位に応じて、ラベルを複数生成する。 Depending on the respectively extracted subword unit that generates a plurality label. 生成した各ラベルを当該サブワード単位に付与することにより、サブワード単位あたり複数のラベル付きサブワード単位が生成される。 The product each label that by applying to the subword unit, a plurality of labeled subword units per subword unit are generated. ここでラベルとは、(a)クラス(本実施形態においては、「日姓」又は「日名」)、(b)単語内の開始位置(1,2,…, Here, the label (in this embodiment, "day surname" or "day name") (a) class, (b) the starting position in the word (1,2, ...,
LenMax+1;サブワード単位のモーラ数:ここで、LenMaxは事前に設定された値であり、認識対象とする最長の姓もしくは名のモーラ数を意味する。 LenMax + 1; number of moras subword unit: Here, LenMax is preset value, means the number of moras longest last name or names to be recognized. )、及び(c)単語の終端であるか否か(終端を示す「終」又は「−」)の3項組みである。 It is a 3-tuples of) -), and (whether or not the end of the c) word (indicating an end "final" or "". 【0065】上記(b)の開始モーラ位置による展開は、学習データに出現する最長の姓及び名に合わせ、ともに終端位置が9モーラまでとなるようにした。 [0065] development by starting mora position (b) above, move the longest last name and first name appearing in the learning data, are both so end position is up to 9 mora. 上記(c)で単語終端ラベルを付与したサブワード単位には、音素並び(読み)の終端にポーズが入ることを許容する。 The sub-word units to grant word end label in the above (c), allowing the pause from entering the end of the phoneme sequence (reading). ここで、ラベル付きサブワードは、その遷移に次の制約を受ける。 Here, the label with the sub-word is subject to the following constraints on the transition. (i)登録語のクラスからラベル付きサブワードへの遷移は、ラベル付きサブワードの開始モーラ位置が1の場合のみ許される。 Transition (i) from the class of registered words to the labeled sub-word, the start mora position of labeled subword is allowed only if 1. 逆に、(ii)ラベル付きサブワードから登録語のクラスへの遷移は、ラベル付きサブワードに単語終端ラベルが付与されている場合のみ許される。 Conversely, a transition to the registration word classes from (ii) labeled subword is allowed only if the word end label is applied to the labeled sub-word. (iii)ラベル付きサブワード間の遷移は、単語内でのモーラ位置が連接し、かつ同一のクラスに属する場合のみ許される。 Transition between (iii) labeled subword, mora position in the word are concatenated, and are permissible only if they belong to the same class. 【0066】さらに、単語辞書生成部22は、ラベル付きサブワード単位データメモリ42内のデータと、テキストデータメモリ31内のテキストデータとに基づいて以下のように単語辞書を生成して単語辞書メモリ12に格納する。 [0066] Further, the word dictionary generating unit 22, and data labeled subword unit data memory 42, the word dictionary memory 12 to generate the word dictionary as shown below on the basis of the text data of the text data memory 31 and stores it in. まず、単語辞書生成部22は、テキストデータベースメモリ31内のテキストデータ中に出現する全ての単語を抽出し、単語辞書メモリ12に格納する。 First, the word dictionary generating unit 22 extracts all the words appearing in the text data in a text database memory 31, and stores the word dictionary memory 12. 次いで、ラベル付きサブワード単位データメモリ42中の全てのラベル付きサブワード単位を単語辞書メモリ12 Then, the word dictionary memory 12 all labeled subword units in the labeled sub-word unit data memory 42
に格納する。 And stores it in. 単語辞書メモリ12に格納された全てのエントリに対して、人手で、もしくは、読みと音素系列との対応テーブルを用いて音素付与を行う公知の音素付与処理プログラムを用いて、その読み(音素系列)を付与することにより単語辞書を生成する。 For all entries stored in the word dictionary memory 12, manually or using known phonemes giving processing program for performing phoneme applied using a correspondence table between read and phoneme sequence, the reading (phoneme sequence ) to generate a word dictionary by applying. これによって、単語辞書メモリ12に単語辞書が生成格納される。 Thus, the word dictionary is generated and stored in the word dictionary memory 12. 【0067】次いで、言語モデル生成部24の統計的言語モデル生成処理について説明する。 [0067] Next, a description will be given statistical language model generation process of the language model generating unit 24. ラベル付きサブワード単位u dを単語として扱う際、クラスN−gram When dealing with a label with the sub-word units u d as a word, class N-gram
(N=2)における確率は、以下のように与える(N> Probability in (N = 2) is given as follows (N>
2でも同様)。 Similarly, even 2). ただし、uはラベル付け前のサブワード単位を表し、#は単語内のモーラ開始位置記号を表し、 However, u denotes the subword unit before labeling, # represents a mora starting position symbol in the word,
cは語彙クラスを表し、len(u)はサブワード単位uのモーラ長、p sw (u j |u i ,c)はクラスに依存したサブワード単位2−gramであり、p LM (c'| c represents vocabulary class, len (u) is mora length subword unit u, p sw (u j | u i, c) is a subword units 2-gram that depends on the class, p LM (c '|
c)はクラス2−gramのクラス間遷移確率を表す。 c) represents a class transition probability of class 2-gram.
また、classof(u d ),startof In addition, classof (u d), startof
(u d ),isend(u d )はそれぞれ、ラベル付きサブワード単位u dのラベルである語彙クラス、単語内のモーラ開始位置、単語終端か否か、を参照する関数であり、endof(u d )はstartof(u d )+le (U d), isend (u d) , respectively, is a function to refer vocabulary class is the label of the labeled sub-word units u d, mora start position in the word, the word end whether the, endof (u d ) is startof (u d) + le
n(u)により与えるものとする。 Shall be given by n (u). c (*)はクラスのモーラ長ガンマ分布g c (x)(数9)に基づく確率関数であり、次の定積分により与えられる。 G c (*) is the probability function based on the class of the mora length gamma distribution g c (x) (Equation 9) is given by the following definite integral. 【0068】 【数14】 [0068] [number 14] 【数15】 [Number 15] 【0069】まず、先頭サブワードの生起確率である姓及び名クラスのクラス内1−gram確率p(u d [0069] First of all, is the probability of occurrence of the first sub-word last name and the name of the class within a 1-gram probability p (u d |
c)は、ラベル付きサブワード単位u dの開始モーラ位置ラベルが1である場合のみ許す。 c) it is permitted only if the start mora position label labeled subword unit u d is 1. 従って、次式で表すことができる。 Therefore, it can be represented by the following equation. 【0070】 【数16】(1)もし(classof(u d )=c) [0070] [Expression 16] (1) If (classof (u d) = c)
∧(startof(u d )=1) ∧(isend(u d )=偽)のときp(u d |c)=p sw (u|#、c)・G c (x>len ∧ (startof (u d) = 1) ∧ (isend (u d) = false) p when (u d | c) = p sw (u | #, c) · G c (x> len
(u)) (2)もし(classof(u d )=c)∧(sta (U)) (2) if (classof (u d) = c ) ∧ (sta
rtof(u d )=1) ∧(isend(u d )=真)のときp(u d |c)=p sw (u|#、c)・G c (x=len rtof (u d) = 1) ∧ (isend (u d) = true) when p (u d | c) = p sw (u | #, c) · G c (x = len
(u)) (3)もし上記以外のときp(u d |c)=0 【0071】次いで、第1のクラス間2−gram確率である、ラベル付きサブワード単位間の遷移は、両者のクラスが同じで、かつ、両者の単語内でのモーラ位置が連接する場合のみ許す。 (U)) (3) if p (u d except when the | c) = 0 [0071] Then, a first inter-class 2-gram probabilities, transitions between labeled subword units, both Class but the same, and allows only if mora position in both words are concatenated. 従って、第1のクラス間2−g Thus, between the first class 2-g
ram確率p(u dj |u di )は次式で表すことができる。 ram probability p (u dj | u di) can be represented by the following formula. 【0072】 【数17】(1)もし(classof(u dj )=cl [0072] [number 17] (1) if (classof (u dj) = cl
assof(u di )=c) ∧(startof(u dj )=endof(u di )+ assof (u di) = c) ∧ (startof (u dj) = endof (u di) +
1) ∧(isend(u dj )=偽)のときp(u dj |u di )=p sw (u j |u i ,c)・G c (x> 1) ∧ (isend (u dj ) = false) when p (u dj | u di) = p sw (u j | u i, c) · G c (x>
(endof(u di )+len(u dj )))/G c (x (Endof (u di) + len (u dj))) / G c (x
>endof(u di )) (2)もし(classof(u dj )=classof > Endof (u di)) ( 2) if (classof (u dj) = classof
(u di )=c) ∧(startof(u dj )=endof(u di )+ (U di) = c) ∧ (startof (u dj) = endof (u di) +
1) ∧(isend(u dj )=真)のときp(u dj |u di )=p sw (u j |u i ,c)・G c (x= 1) ∧ (isend (u dj ) = true) when p (u dj | u di) = p sw (u j | u i, c) · G c (x =
(endof(u di )+len(u dj )))/G c (x (Endof (u di) + len (u dj))) / G c (x
>endof(u di )) (3)もし上記以外のときp(u dj |u di )=0 【0073】さらに、第2のクラス間2−gram確率である、ラベル付きサブワード単位から、次単語のクラスへの遷移は、ラベル付きサブワード単位に単語終端ラベルが付与されている場合のみに許す。 > Endof (u di)) ( 3) If the time other than the p (u dj | u di) = 0 [0073] In addition, a 2-gram probabilities between the second class, the labeled subword unit, the following words transition to class allows only if the word end label is applied to the labeled subword units. 従って、第2のクラス間2−gram確率p(c|u d )は次式で表される。 Thus, the second class between 2-gram probability p (c | u d) is expressed by the following equation. 【0074】 【数18】(1)もしisend(u d )=真のときp(c|u d )=p LM (c|classof(u d )) (2)もし上記以外のときp(c|u d )=0 【0075】図5は、図1の言語モデル生成部24によって実行される言語モデル生成処理を示すフローチャートである。 [0074] [Expression 18] (1) If iSEND (u d) = true when p (c | u d) = p LM (c | classof (u d)) (2) If the time other than the p (c | u d) = 0 [0075] Figure 5 is a flow chart illustrating a language model generation processing executed by the language model generating unit 24 of FIG. 1. 図5において、まず、S21において各メモリ40、41、42からそれぞれ格納された各データを読み出し、ステップS22においてモーラ長のガンマ分布のデータに基づいて、数14及び数15を用いて確率関数の値を計算する。 5, first, reads out the data stored from each memory 40, 41 and 42 in S21, based on the data of the gamma distribution Mora length in step S22, the probability function using a number 14 and number 15 to calculate the value. 次いで、ステップS23において先頭サブワードの生起確率であるクラス内−gram確率を数16を用いて計算し、ステップS24においてサブワード間の遷移確率である第1のクラス間2−gra Then, the intraclass -gram probability is the probability of occurrence of the top sub-word is calculated using the number 16 in step S23, the first class between 2-gra the transition probabilities between sub-word in step S24
m確率を数17を用いて計算し、ステップS25において終端サブワードから次単語のクラスに遷移する確率である第2のクラス間2−gram確率を数17を用いて計算する。 With m probability number 17 calculates, calculated using the second inter-class 2-gram probability number 17 is the probability of transition from the end sub-word to the next word class in step S25. そして、ステップS26において上記計算された確率をまとめて、未登録語モデルに基づいて統計的言語モデルとして統計的言語モデルメモリ44に格納する。 Then, together probabilities calculated above in step S26, and stores the statistical language model memory 44 as a statistical language model based on the unregistered word model. 【0076】上記の言語モデル生成処理で生成された統計的言語モデルの別の一例を図8に示す。 [0076] Fig. 8 shows another example of the language model statistical language model generated by the generation process. 図8の例における遷移確率は上述で定義されたものである。 Transition probability in the example of FIG. 8 are as defined above. 【0077】次いで、図1に示す連続音声認識システムの構成及び動作について説明する。 [0077] Next, the configuration and operation of the continuous speech recognition system shown in FIG. 図1において、単語照合部4に接続された音素隠れマルコフモデル(以下、 In Figure 1, connected to the word collating unit 4 phoneme Hidden Markov Model (hereinafter,
隠れマルコフモデルをHMMという。 Hidden Markov model that HMM. )メモリ11内の音素HMMは、各状態を含んで表され、各状態はそれぞれ以下の情報を有する。 Phoneme HMM) of the memory 11 is represented include each state, each state has the following information, respectively. (a)状態番号、(b)受理可能なコンテキストクラス、(c)先行状態、及び後続状態のリスト、(d)出力確率密度分布のパラメータ、及び(e)自己遷移確率及び後続状態への遷移確率。 (A) state number, (b) an acceptable context class, (c) prior state, and a list of successors, transition to (d) output probability density distribution of the parameters, and (e) self-transition probabilities and subsequent state probability. なお、本実施形態において用いる音素HMMは、各分布がどの話者に由来するかを特定する必要があるため、所定の話者混合HMMを変換して生成する。 Incidentally, the phoneme HMM used in this embodiment, since it is necessary to specify whether each distribution is derived from any speaker, is generated by converting a predetermined speaker mixed HMM. ここで、出力確率密度関数は34次元の対角共分散行列をもつ混合ガウス分布である。 Here, the output probability density function is a mixed Gaussian distribution having 34-dimensional diagonal covariance matrix. また、単語照合部4に接続された単語辞書メモリ12内の単語辞書は、音素HMMメモリ11内の音素HMMの各単語毎にシンボルで表した読みを示すシンボル列を格納する。 Further, the word dictionary in the word dictionary memory 12 connected to the word collating unit 4 stores a symbol string indicating reading that represents a symbol for each word of the phoneme HMM in the phoneme HMM memory 11. 【0078】図1において、話者の発声音声はマイクロホン1に入力されて音声信号に変換された後、特徴抽出部2に入力される。 [0078] In FIG. 1, the utterance voice of the speaker is converted into voice signal is input to a microphone 1, it is input to the feature extraction section 2. 特徴抽出部2は、入力された音声信号をA/D変換した後、例えばLPC分析を実行し、対数パワー、16次ケプストラム係数、Δ対数パワー及び16次Δケプストラム係数を含む34次元の特徴パラメータを抽出する。 Feature extraction unit 2, after the input audio signal is converted A / D, for example, perform an LPC analysis, log power, 16th order cepstrum coefficient, 34-dimensional feature parameters including Δ log power and 16-order Δ cepstrum coefficients It is extracted. 抽出された特徴パラメータの時系列はバッファメモリ3を介して単語照合部4に入力される。 Time series of the extracted characteristic parameter is inputted to the word collating unit 4 through the buffer memory 3. 【0079】単語照合部4は、ワン−パス・ビタビ復号化法を用いて、バッファメモリ3を介して入力される特徴パラメータのデータに基づいて、音素HMMメモリ1 [0079] word collating unit 4, a one - using a pass Viterbi decoding method, based on data of the feature parameters inputted via the buffer memory 3, the phoneme HMM memory 1
1内の音素HMMと、単語辞書メモリ12内の単語辞書とを用いて単語仮説を検出し尤度を計算して出力する。 Detection and calculates and outputs likelihoods word hypotheses using the phoneme HMM in a 1, a word dictionary in the word dictionary memory 12.
ここで、単語照合部4は、各時刻の各HMMの状態毎に、単語内の尤度と発声開始からの尤度を計算する。 Here, the word collating unit 4, for each state of each HMM at each time, to calculate the likelihood from start of utterance and a likelihood in a word. 尤度は、単語の識別番号、単語の開始時刻、先行単語の違い毎に個別にもつ。 The likelihood is, the word of the identification number, the words of the start time, with individually for each difference of the preceding word. また、計算処理量の削減のために、 Further, in order to reduce the amount of calculation process,
音素HMM及び単語辞書とに基づいて計算される総尤度のうちの低い尤度のグリッド仮説を削減する。 Reducing the low likelihood of a grid hypothesis ones of the total likelihood is calculated based on the phoneme HMM and the word dictionary. 単語照合部4は、その結果の単語仮説と尤度の情報を発声開始時刻からの時間情報(具体的には、例えばフレーム番号) Word collating unit 4, the time information from the result of word hypotheses and likelihoods information utterance start time (specifically, for example, frame number)
とともにバッファメモリ5を介して単語仮説絞込部6に出力する。 And it outputs the word hypothesis narrowing-down unit 6 via the buffer memory 5. 【0080】単語仮説絞込部6は、単語照合部4からバッファメモリ5を介して出力される単語仮説に基づいて、統計的言語モデルメモリ44内の統計的言語モデルを参照して、終了時刻が等しく開始時刻が異なる同一の単語の単語仮説に対して、当該単語の先頭音素環境毎に、発声開始時刻から当該単語の終了時刻に至る計算された総尤度のうちの最も高い尤度を有する1つの単語仮説で代表させるように単語仮説の絞り込みを行った後、 [0080] word hypothesis narrowing-down unit 6, based on the word collating unit 4 to word hypotheses outputted through the buffer memory 5, with reference to the statistical language model in a statistical language model memory 44, the end time against equals the start time is different from the same word word hypothesis, each leading phoneme environment of the word, the highest likelihood among the calculated total likelihood, from the utterance start time to the end time of the word after narrowing the word hypotheses to be represented by one word hypothesis having,
絞り込み後のすべての単語仮説の単語列のうち、最大の総尤度を有する仮説の単語列を認識結果として出力する。 Of the word string of all the words hypothesis after narrowing, and outputs a word string of hypothesis with a maximum of the total likelihood as a recognition result. なお、タスク適応化された統計的言語モデルは、各タスク毎に1つの統計的言語モデルを備え、単語仮説絞込部6は、音声認識しようとするタスクに対応する統計的言語モデルを選択的に参照する。 Note that statistical language models task adaptation, with one statistical language model for each task, word hypothesis narrowing-down unit 6 selectively a statistical language model corresponding to the task to be speech recognition to refer to. 本実施形態においては、好ましくは、処理すべき当該単語の先頭音素環境とは、当該単語より先行する単語仮説の最終音素と、当該単語の単語仮説の最初の2つの音素とを含む3つの音素並びをいう。 In the present embodiment, preferably, the top phoneme environment of the word to be processed, three phonemes including a last phoneme of a word hypothesis preceding the relevant word, the first two phonemes of a word hypothesis of the word It refers to the list. 【0081】例えば、図2に示すように、(i−1)番目の単語W i-1の次に、音素列a 1 、a 2 、…、a nからなるi番目の単語W iがくるときに、単語W i-1の単語仮説として6つの仮説Wa、Wb、Wc、Wd、We、Wf [0081] For example, as shown in FIG. 2, the (i-1) th word W i-1 of the following phoneme string a 1, a 2, ..., come i th word W i consisting a n when, six hypothesis Wa as a word hypothesis of the word W i-1, Wb, Wc , Wd, We, Wf
が存在している。 There has been an existence. ここで、前者3つの単語仮説Wa、W Here, the former three word hypotheses Wa, W
b、Wcの最終音素は/x/であるとし、後者3つの単語仮説Wd、We、Wfの最終音素は/y/であるとする。 b, the final phoneme of Wc is set to a / x /, the latter three word hypotheses Wd, We, the final phoneme of Wf is is / y /. 終了時刻t eと先頭音素環境が等しい仮説(図2では先頭音素環境が“x/a 1 /a 2 ”である上から3つの単語仮説)のうち総尤度が最も高い仮説(例えば、図2 End time t e and the top total likelihood is the highest hypothesis of phoneme environment are equal hypotheses (three word hypotheses from the top leading phoneme environment is "x / a 1 / a 2 " in FIG. 2) (e.g., FIG. 2
において1番上の仮説)以外を削除する。 To remove a non-hypothesis) on the No. 1 in. なお、上から4番めの仮説は先頭音素環境が違うため、すなわち、先行する単語仮説の最終音素がxではなくyであるので、 Since the hypothesis fourth from the top different is the top phoneme environment, that is, the last phoneme of a preceding word hypothesis is not the x y,
上から4番めの仮説を削除しない。 Do not remove the hypothesis of the fourth from the top. すなわち、先行する単語仮説の最終音素毎に1つのみ仮説を残す。 That leaves only one hypothesis to the final phoneme of the preceding word hypothesis. 図2の例では、最終音素/x/に対して1つの仮説を残し、最終音素/y/に対して1つの仮説を残す。 In the example of FIG. 2, leaving one hypothesis for the final phoneme / x /, leaving one hypothesis for the final phoneme / y /. 【0082】以上の実施形態においては、固有名詞の下位クラスである日本人の姓及び名とを、未登録語の語彙クラスとして用いているが、本発明はこれに限らず、以下の固有名詞や外来語の普通名詞などに適用することができる。 [0082] In the above embodiment, the first and last names of the Japanese is the subclass of a proper noun, is used as the lexical class unregistered word, the present invention is not limited to this, following proper nouns it can be applied, such as in and foreign words of common nouns. (1)外国人の姓と名、(2)地名、(3)会社名、 (1) foreigners of first and last name, (2) place name, (3) the company name,
(4)各種施設名、(5)各種製品名など。 (4) various facilities name, and (5) various product name. 従って、本発明では、未登録語の語彙クラスとして、固有名詞及び外来語の普通名詞の各下位クラスを用いることができる。 Accordingly, in the present invention, as a vocabulary class unregistered word can be used normally each subclass of nouns proper nouns and foreign words. 【0083】また、本実施形態で用いるクラス依存未登録語モデルは、クラス毎に異なったパラメータ構造を持たせることが可能となっている。 [0083] Also, the class dependent unregistered word model used in the present embodiment, it is possible to have a different parameter structures for each class. そのため、各クラスにおける読みの統計的特徴を強く反映させたモデル化が可能である。 Therefore, it is possible to model that reflects strongly statistical characteristics of readings in each class. 実施形態において、日本人姓及び名の未登録語モデル構築には、そのパラメータ構造として、(1) In embodiments, the unregistered word model building Japanese surnames and name, as the parameter structure (1)
単語長のガンマ分布と、(2)終端記号への遷移を含まないサブワード単位N−gramとを用いた。 And gamma distribution of word length, and a subword unit N-gram containing no transition to (2) terminal symbol was used. しかしながら、その他のクラス、例えば宿泊施設名(「京都第一観光ホテル」、「赤坂プリンスホテル」、「いとう旅館」、…)のように、複合語を多く含むクラスをモデル化する際には、(1)長さに関する制約が有効とはならない場合がある。 However, other classes, for example accommodation name ( "first tourist hotels Kyoto", "Akasaka Prince Hotel", "Ito inn", ...) as in, when modeling a class containing a large amount of compound words, (1) restriction on the length may not become a valid. その場合は、上記(1)の制約を省き、代わりに上記(2)の制約に基づいたサブワード単位N−gramにおいて、終端記号への遷移を含むようモデル化する(例えば、「ホテル」や「旅館」から終端記号へ高い確率で遷移する)ことで、そうしたクラスに対しても高精度な未登録語モデルを構築することが可能である。 In that case, eliminating the constraints of (1), in subword unit N-gram based on the constraints of the above (2) instead, modeled to include a transition to terminal symbols (e.g., "hotels" or " B 'from transitions with a high probability to terminal symbols) that is, it is possible to construct a highly accurate unregistered word models against those classes. 【0084】以上の実施形態においては、当該単語の先頭音素環境とは、当該単語より先行する単語仮説の最終音素と、当該単語の単語仮説の最初の2つの音素とを含む3つの音素並びとして定義されているが、本発明はこれに限らず、先行する単語仮説の最終音素と、最終音素と連続する先行する単語仮説の少なくとも1つの音素とを含む先行単語仮説の音素列と、当該単語の単語仮説の最初の音素を含む音素列とを含む音素並びとしてもよい。 [0084] In the above embodiment, the A word of leading phoneme environment, as three phonemes sequence including the final phoneme of a word hypothesis preceding the relevant word, the first two phonemes of a word hypothesis of the word have been defined, the present invention is not limited to this, and the final phoneme of a word hypothesis preceding the phoneme sequence of the preceding word hypotheses and at least one phoneme of the preceding word hypothesis successive final phoneme, the word the first phoneme of the word hypothesis may be a phoneme sequence that includes a sequence of phonemes, including. 【0085】以上の実施形態において、特徴抽出部2 [0085] In the above embodiment, the feature extraction section 2
と、単語照合部4と、単語仮説絞込部6と、未登録語モデル生成部20と、サブワード単位データ生成部21 When a word collating unit 4, and the word hypothesis narrowing-down unit 6, and the unregistered word model generation unit 20, the sub-word unit data generating unit 21
と、単語辞書生成部22と、単語クラスN−gramモデル生成部23と、言語モデル生成部24とは、例えば、デジタル電子計算機などのコンピュータで構成され、バッファメモリ3、5と、音素HMMメモリ11 When, a word dictionary generating unit 22, a word class N-gram model generation unit 23, the language model generating unit 24, for example, a computer such as a digital electronic computer, a buffer memory 3 and 5, the phoneme HMM memory 11
と、単語辞書メモリ12と、学習データメモリ30と、 And, a word dictionary memory 12, and learning data memory 30,
テキストデータベースメモリ31と、サブワード単位N Text database memory 31, the sub-word units N
−gramモデルメモリ40と、モーラ長ガンマ分布データメモリ41と、ラベル付きサブワード単位データメモリ42と、単語クラスN−gramモデルメモリ43 And -gram model memory 40, a mora length gamma distribution data memory 41, and labeled subword unit data memory 42, the word class N-gram model memory 43
と、統計的言語モデルメモリ44とは、例えばハードディスクメモリなどの記憶装置で構成される。 When, the statistical language model memory 44, for example, a storage device such as a hard disk memory. 【0086】以上実施形態においては、単語照合部4と単語仮説絞込部6とを用いて音声認識を行っているが、 [0086] In the above embodiment, although performing speech recognition using the word collating unit 4 and the word hypothesis narrowing-down unit 6,
本発明はこれに限らず、例えば、音素HMMメモリ11 The present invention is not limited to this, for example, phoneme HMM memory 11
内の音素HMMを参照する音素照合部と、例えばOne A phoneme collating unit that refers to the phoneme HMM of the inner, for instance One
Pass DPアルゴリズムを用いて統計的言語モデルを参照して単語の音声認識を行う音声認識部とで構成してもよい。 Pass DP algorithm may be constituted by a voice recognition unit for performing voice recognition of a word with reference to the statistical language model using. 【0087】 【実施例】本発明者は、本実施形態に係る統計的言語モデルの有効性を確認するため、音声認識実験を行った。 [0087] [Example] The present inventors, in order to verify the effectiveness of the statistical language model according to this embodiment, was conducted speech recognition experiments.
以下では、二種類の統計的言語モデルを用いて比較評価を行う。 In the following, a comparative evaluation with the two types of statistical language models. 両言語モデルは、共通のベースモデルとして、 Both language model, as a common base model,
表3の旅行会話データのみから生成したクラスN−gr Class N-gr generated from only travel conversation data in Table 3
amを用いる。 Use of the am. このベースモデルに対して、それぞれの方法で日本人姓クラス、及び名クラスのクラス内単語1 With respect to the base model, Japanese surname class, and the name of the class within a class word 1 in each of the methods
−gramを置換する。 To replace the -gram. 【0088】評価を行う統計的言語モデルは以下の通りである。 [0088] statistical language model to perform the evaluation are as follows. (1)本実施形態に係る統計的言語モデル:日本人姓及び名クラスの単語1−gramとして、姓及び名それぞれの未登録語モデルを用いる。 (1) statistical language model according to the present embodiment: as a word 1-gram Japanese surnames and name classes, using the unregistered word model of each first and last name. サブワード単位N−gr Sub-word units of N-gr
amで単位として用いるモーラ連鎖は、特に断らない限り150個の場合を評価する。 Mora chain used as a unit in am evaluates the case 150 of, unless otherwise specified. 認識語彙は、日本人姓及び名以外の単語12,755単語+サブワードで構成し、登録語の日本人姓及び名は作らない。 Recognition vocabulary is composed of words 12,755 words + word of non-Japanese last name and first name, Japanese last name and the name of the registered word is not made. (2)登録語方法(以下、比較例という。):日本人姓及び名クラスの単語1−gramとして、表3の人名データによる単語1−gramを用いる。 (2) the registered words method (hereinafter, referred to as Comparative Example.): As a word 1-gram Japanese surnames and name classes, using the words 1-gram by names data in Table 3. 認識語彙は、日本人姓及び名以外の単語12,755単語+日本人姓及び名39,431単語となる。 Recognition vocabulary, the word 12,755 words + Japanese surname and name 39,431 words of non-Japanese last name and first name. この方法は、評価セット中のほぼ全人名をカバーする語彙を持つこと、また、本実施形態の方法が未登録語モデルの最尤推定に用いる人名データを単語1−gramとして直接用いることから、概ね本実施形態の方法による認識精度の上限値を与えるものと考えられる。 The method can have the vocabulary that covers almost all the names in the test set, also from using directly the personal name data method of this embodiment is used in the maximum likelihood estimation of the unregistered word model as a word 1-gram, generally considered to provide an upper limit value of the recognition accuracy due to the method of the present embodiment. 【0089】これら2つの方法の音声認識率を、以下の基準により評価する。 [0089] The speech recognition rate of the two methods is evaluated by the following criteria. (1)単語認識率:評価データに出現する全単語の認識率を評価する。 (1) word recognition rate: To assess the recognition rate of all the words that appear in the evaluation data. 日本人姓及び名は、クラス(「日姓」又は「日名」)、読み(モーラ並び)、位置(DPによる対応付け)が全て正しい場合のみを正解とする。 Japanese surname and name, class ( "day last name" or "day name"), reading (Mora list), (association by DP) position is the correct answer only if all correct. ただし、読みに関し、明らかに等価な長音(ヨウコとヨオコ)は手作業で修正して評価した。 However relates to reading, apparently equivalent long vowel (Yoko and Yooko) was evaluated by modified manually. (2)姓及び名単語の再現率及び適合率:単語認識率評価時の動的計画法のマッチング(DPマッチング)を用いて、日本人姓及び名のみの再現率と適合率を評価する。 (2) surname and name the words of recall and precision rate: using the matching of word recognition rate dynamic programming at the time of evaluation (DP matching), to evaluate the precision and recall of the Japanese last name and first name only. 【0090】ここで、評価セットには、旅行会話ドメインの42片側会話4、990単語を用いた。 [0090] In this case, the evaluation set, with 42 one-sided conversation 4,990 words of travel conversation domain. 評価セットに出現する日本人名は、姓及び名、合わせて70単語(異なり単語数52)である。 Japanese name that appears in the evaluation set is the last name and first name, a total of 70 words (unlike the word number 52). うち、表3の人名リストにも出現しない姓は3単語(アサギノ1単語、チンザイ2単語)であった。 Among them, the last name that does not appear in the person's name listed in Table 3 was a three-word (Asagino one word, Chinzai 2 words). 【0091】次いで、表3に本実施形態の方法、及び比較例の方法の音声認識率を示す。 [0091] Next, shown the method of the present embodiment shown in Table 3, and the speech recognition rate of the method of the comparative example. 【0092】 【表5】 音声認識率――――――――――――――――――――――――――――――――――― 認識率(%) 本実施形態 比較例――――――――――――――――――――――――――――――――――― 単語認識率 87.51 87.30 姓及び名単語再現率 70 73 適合率 67 75 ――――――――――――――――――――――――――――――――――― (注)姓及び名は、読み、クラス、区間が全て正しい場合のみ正解として評価した。 [0092] [Table 5] voice recognition rate ----------------------------------- recognition rate (%) this embodiment Comparative example ----------------------------------- word recognition rate 87.51 87.30 surname and name the word recall 70 73 compliance rate 67 75 ----------------------------------- (Note) surname and name, reading, class, section was evaluated as correct only if all correct. 比較例の方法の認識率は、概ね本実施形態の方法の上限値に相当すると考えられる。 Recognition rate of the method of the comparative example is generally thought to correspond to the upper limit value of the method of the present embodiment. 【0093】本実施形態の方法では、未登録語である姓及び名を、登録語として認識した場合とほぼ同等の精度で認識できた。 [0093] In the method of this embodiment, the first and last names are unregistered word was recognized by almost the same precision as when recognizing a registered word. 予想に反し、本実施形態の方法の単語認識率が比較例の方法を上回った理由の一つとして、以下が挙げられる。 Contrary to expectations, as one of the reasons why the word recognition rate of the method of this embodiment is above the method of the comparative example is described below. 音響尤度の低い一部の姓及び名に対し、 Low for some of the family name and the name of the acoustic likelihood,
本実施形態の方法では読み誤りはあるものの区間が正しく検出され、結果、前後の単語にまで認識誤りを誘発することが少なかったと考えられる。 In the method of the present embodiment misreading is detected is that of the section is correct, the result is considered to had less to induce recognition errors to around the word. このことは、次の表6に示す読み誤りを無視した姓及び名区間の再現率及び適合率において、本実施形態の方法が優れていることからも裏付けられる。 This means that in recall and precision rate surnames and name section ignoring misreading in the following table 6, also supported by the method of the present embodiment is superior. 【0094】 【表6】 姓及び名単語の区間検出率――――――――――――――――――――――――――――――――――― 認識率(%) 本実施形態 比較例――――――――――――――――――――――――――――――――――― 姓及び名区間再現率 87 80 適合率 84 82 ――――――――――――――――――――――――――――――――――― (注)姓及び名のクラスや区間が正しい場合を、正解として評価(音響尤度の影響が強い読み誤りは無視する。)した。 [0094] [Table 6] last name and first name word interval detection rate of ----------------------------------- recognition rate (%) In this embodiment Comparative example ----------------------------------- family name and name section reproducibility rate 87 80 compliance rate 84 82 ----------------------------------- (Note) of the family name and the name class or when a section is correct, it was evaluated as the correct answer (the influence of the acoustic likelihood is strong reading errors are ignored.). 【0095】図10は、本発明者による実験の実験結果であって、日本人の姓及び名の再現率におけるモーラ連鎖の単位化効果を示すグラフであり、モーラ連鎖の種類の数に対する単語再現率を示すグラフである。 [0095] Figure 10 is an experimental result of an experiment by the present inventors is a graph showing the unit effect mora chain in recall Japanese surnames and name, word reproduction to the number of kinds of Mora chain is a graph showing the rate. 図10から明らかなように、単位化するモーラ連鎖を増やすことで、モデルによる姓及び名の尤度が上がり、再現率が改善されるものと思われる。 As apparent from FIG. 10, by increasing the mora chain of units of the likelihood of first and last name by the model is increased, it is believed that recall is improved. これは、上述の学習セットに対する平均尤度の改善傾向と合致する。 This is consistent with improving trend of the average likelihood for the training set described above. 【0096】次いで、希有な姓及び名に対する音声認識率について説明する。 [0096] Next, a description will be given of the speech recognition rate for rare surname and name. 本実施形態で提案する未登録語モデルの利点は、事前に予測できない希有な単語も正しく認識できる可能性があることにある。 The advantage of unregistered words model proposed in the present embodiment is that it may be possible to also correctly recognize rare words that can not be predicted in advance. ここでは、そうした希な姓及び名を模擬的に作り出すことで、本実施形態の方法の評価を行う。 Here, by creating such a rare surname and first name in simulated, the evaluation method of this embodiment. 評価セットには、52種類の日本人姓及び名が出現する。 The evaluation set, 52 kinds of Japanese surname and the name appears. そこで、これらの単語と同じ読みを持つ全ての姓及び名を表1の学習データから削除した後、前節と同様に本実施形態の方法と比較例の方法による音声認識率の比較実験を行った。 Therefore, after all the first and last name with the same reading these words were deleted from the learning data in Table 1, it was carried out comparative experiments of a speech recognition rate according to the method of Comparative Example and the method of the present embodiment similar to the previous section . 表7にその結果を示す。 Table 7 shows the results. 【0097】 【表7】希有な姓及び名入力時の音声認識率―――――――――――――――――――――――― 認識率(%) 本実施形態 比較例―――――――――――――――――――――――― 単語認識率 86.66 86.08 姓及び名単語再現率 31 6 適合率 36 8 ―――――――――――――――――――――――― (注)学習に用いる姓及び名データから、評価セットに出現する姓及び名と同じ読みを持つエントリを全て削除して実験。 [0097] [Table 7] rare surname and name input during the speech recognition rate ------------------------ recognition rate (%) In the present embodiment Comparative example ------------------------ word recognition rate 86.66 86.08 surname and first name word recall 31 6 compliance rate 36 8 --- --------------------- (Note) from the family name and the name data used for learning, delete all the entries with the same reading as the last name and the name that appears in the evaluation set to experiment. 姓及び名は、読み、クラス、区間が全て正しい場合のみ正解として評価した。 Surname and name, reading, was evaluated class, as a correct answer only if the section is all correct. 登録語方式の再現率・ Recall of the registered word method,
適合率が0%にならないのは、形態素の不備により、一部の姓が「普通名詞」になっていたためである。 The compliance rate is not zero percent, by the inadequacy of morpheme, is because part of the last name had become "common noun". 【0098】表5から明らかなように、本実施形態の方法では、学習データに存在しない姓及び名を与えても、 [0098] As apparent from Table 5, in the method of this embodiment, even given the last name and first name does not exist in the training data,
31%の再現率で、その読み、クラス、区間を正しく認識できた。 In 31% of the recall, the reading, can be recognized class, a section correctly. 結果、単語認識率でも登録語方式を0.58 A result, the registered word method in word recognition rate 0.58
ポイント上回った。 It exceeded point. 【0099】以上説明したように、本発明に係る実施形態によれば、未登録語モデルのクラス依存化により、次の特有の効果を得ることができる。 [0099] As described above, according to the embodiment of the present invention, the class dependent of unregistered word model, it is possible to obtain the following specific effects. (1)モデル化対象を限定することで、読みの統計的特徴をより明確化することができ、クラス固有のパラメータ制約を導入できるため、未登録語モデルを高精度化することができる。 (1) By limiting the modeling object may be more clearly the statistical characteristics of the readings, it is possible to introduce a class-specific parameter constraints, it is possible to highly accurately the unregistered word model. (2)検出区間の言語処理が可能である。 (2) can language processing detection section. 未登録語は、 Unregistered word,
読みに加えクラスも同時に同定される。 Class in addition to reading also identified at the same time. 読みとクラスは、固有名詞の言語処理において必要十分な情報となるケースが多いものと考えられる。 Reading and classes, it is considered that there are many cases to be a necessary and sufficient information in the language processing of proper nouns. (3)上記生成された統計的言語モデルを用いて音声認識することにより、従来技術に比較して高い認識率で音声認識することができる。 (3) by voice recognition using the generated statistical language model can be speech recognition with a high recognition rate as compared with the prior art. 【0100】<第2の実施形態>図11は、本発明に係る第2の実施形態である連続音声認識システムの構成を示すブロック図であり、図12は、図11の連続音声認識システムを用いた、自動ダイヤリング機能付き電話機の構成を示すブロック図である。 [0100] <Second Embodiment> FIG. 11 is a block diagram showing the configuration of a continuous speech recognition system according to a second embodiment of the present invention, FIG. 12, a continuous speech recognition system of FIG. 11 used was a block diagram illustrating an automatic dialing function telephone configuration. 【0101】図11の連続音声認識システムは、図1の連続音声認識システムに比較して以下の点が異なる。 [0102] Continuous speech recognition system of FIG. 11, the following points are different compared to the continuous speech recognition system of FIG. (1)学習データメモリ30は、日本人姓ファイル30 (1) learning data memory 30, Japanese surname file 30
aと、日本人名ファイル30bとに加えて、地名ファイル30cなどのファイルを含む。 And a, in addition to the Japanese name file 30b, including a file, such as a place name file 30c. 地名ファイルは、例えば日本や外国の地名の単語を含むファイルである。 Place-name file is, for example, a file that contains a word of Japanese and foreign place names. (2)図1の単語クラスN−gramモデル生成部23 (2) the word class of FIG. 1 N-gram model generation unit 23
に代えて、有限状態オートマトンモデル生成部23aを備える。 Instead, it comprises a finite state automaton model generating unit 23a. (3)図1の単語クラスN−gramモデルメモリ43 (3) the word class of FIG. 1 N-gram model memory 43
に代えて、有限状態オートマトンモデルメモリ43aを備える。 Instead of, comprising a finite state automaton model memory 43a. 【0102】ここで、有限状態オートマトンモデル生成部23aは、テキストデータベースメモリ31に格納された多数の日本語の書き下し文からなるコーパスと呼ばれるテキストデータに基づいて有限状態オートマトンモデルを生成し、このモデルを有限状態オートマトンメモリ43aに格納する。 [0102] Here, the finite state automaton model generating unit 23a generates a finite state automaton model based on the text data called corpus consisting Kakikudashibun numerous Japanese stored in the text database memory 31, the model and stores it in the finite-state automaton memory 43a. 【0103】図11の連続音声認識システムにおいて、 [0103] In continuous speech recognition system of FIG. 11,
破線で囲んだ部分を音声認識装置100という。 The portion surrounded by a broken line of voice recognition device 100. すなわち、音声認識装置100は、マイクロホン1から単語仮説絞込部6までの回路及び処理部と、単語照合部4に接続された音素HMMメモリ11及び単語辞書メモリ1 That is, the speech recognition apparatus 100 includes a circuit and the processing unit from the microphone 1 to the word hypothesis narrowing-down unit 6, the phoneme HMM memory 11 connected to the word collating unit 4 and the word dictionary memory 1
2、並びに、単語仮説絞込部6に接続された統計的言語モデルメモリ44とを備えて構成される。 2, and constituted by a statistical language model memory 44 connected to the word hypothesis narrowing-down unit 6. 第2の実施形態では、この音声認識装置100を用いて、図12の自動ダイヤリング機能付き電話機が構成される。 In the second embodiment, by using this voice recognition device 100, it is configured automatic dialing function telephone of Figure 12. なお、単語辞書メモリ12及び統計的言語モデルメモリ44内のデータは予め図11のシステムにより生成されて格納される。 The data of the word dictionary memory 12 and statistical language in the model memory 44 is stored is generated by the system in advance FIG. 従って、音声認識装置100は、マイクロホン1 Therefore, the speech recognition apparatus 100 includes a microphone 1
に入力される人名などの単語の話者音声に応答して、音声認識処理を実行して、音声認識結果の文字列を出力する。 In response to the words of the speaker sound such as names to be entered into, by executing the speech recognition process, it outputs a string of the speech recognition result. 【0104】図12は本実施形態に係る自動ダイヤリング機能付き電話機の構成を示しており、主制御部50 [0104] Figure 12 shows the structure of an automatic dialing function phone according to the present embodiment, the main control unit 50
は、CPUで構成され、ROM51内に格納される所定の動作プログラムを実行することによりこの電話機の全体の動作を制御する。 It is composed of a CPU, and controls the entire operation of the telephone set by executing a predetermined operation program stored in the ROM 51. RAM52は、主制御部50で動作プログラムを実行するときに必要なデータを格納するとともに、主制御部50のための一時的なワーキングメモリとして用いられる。 RAM52 is configured to store the data required for executing the operation program in the main control unit 50 is used as a temporary work memory for the main control unit 50. 表示部53は、例えば液晶表示装置(LCD)等の表示装置であり、当該電話機の動作状態を表示したり、送信先の名称や電話番号を表示する。 Display unit 53 is, for example, a display device such as a liquid crystal display (LCD), and displays an operation state of the phone and displays the destination name and phone number. また、操作部54は、当該電話機を操作するために必要な文字キー、ダイヤル用テンキー、短縮ダイヤルキーや各種のファンクションキー等を備える。 The operation unit 54 includes character keys necessary for operating the telephone, dials a numeric keypad, a speed-dial keys and various function keys. さらに、ネットワークコントロールユニット(NCU)55は、アナログの公衆電話回線Lの直流ループなどの閉結及び開放の動作を行い、かつ自動ダイヤル機能を有するMTD Furthermore, a network control unit (NCU) 55 performs closing and opening operations, such as DC loop of a public telephone line L analog, and MTD having an automatic dialing function
Fダイヤラーを含むハードウェア回路であり、必要に応じて送受話器59に接続し、もしくは音声合成出力部5 A hardware circuit comprising F dialer, connected to the receiver 59 feeding optionally, or speech synthesis output unit 5
6からの出力を公衆電話回線Lに接続する。 To connect the output from the 6 to the public telephone line L. またさらに、音声合成出力部56は、例えば、パルス発生器と雑音発生器と利得可変型増幅器とフィルタとを備え、公知の音声合成方法を用いて、主制御部50からの制御により、音声合成すべき文字列のテキストデータを所定のパラメータ時系列に変換した後、そのピッチに基づいてパルス発生器を制御し、有声/無声の切り換えに基づいてパルス発生器と雑音発生器とを選択的に切り換えて使用し、振幅値に基づいて利得可変型増幅器を制御し、フィルタ係数値に基づいて上記フィルタを制御することにより、上記文字列の音声を音声合成してスピーカ57を介して出力し、もしくは、当該音声合成の音声信号をNC Furthermore, the speech synthesis output unit 56 includes, for example, a pulse generator and a noise generator and a variable gain amplifier filter, using a known speech synthesis method, the control of the main control unit 50, voice synthesis after converting the text data should do a string to a predetermined parameter time series, and controls the pulse generator on the basis of the pitch, and selectively a pulse generator and a noise generator based on the switching of the voiced / unvoiced switching using, to control the variable gain amplifier based on the amplitude value, by controlling the filter based on the filter coefficient value, and outputs via the speaker 57 a voice of the character string to voice synthesis, or the audio signal of the speech synthesis NC
U55及び公衆電話回線Lを介して通信の相手方に対して送信する。 U55 and through the public telephone line L and transmits the other party of communication. 以上の回路51乃至56及び電話番号検索部60とは、バス58を介して主制御部50に接続される。 The circuit 51 to 56 and the telephone number search unit 60 described above, is connected to the main control unit 50 via the bus 58. 【0105】電話番号テーブルメモリ61は、人名とそれに対応する電話番号をテーブルの形式で予め記憶する。 [0105] Telephone number table memory 61 stores in advance in personal names and format of the telephone number table corresponding thereto. そして、電話番号検索部60は、音声認識装置10 Then, the telephone number search unit 60, the speech recognition device 10
0からの音声認識結果の「発信」という単語に続く文字列の人名の単語に基づいて、当該人名に対応する電話番号の情報を電話番号テーブルメモリ61から読み出して、当該電話番号の情報をバス58を介して主制御部5 0 Based on the word names of the character string following the word "Call" speech recognition result from, reads the information of the telephone number corresponding to the person's name from the telephone number table memory 61, the bus information of the telephone number the main control unit 5 through 58
0に出力する。 And outputs it to 0. これに応答して、主制御部50は、電話番号の情報をNCU55内のMTDFダイヤラーに出力し、このとき、NCU55は発信のためにオフフックした後、MTDFダイヤラーは入力される電話番号の情報に対応するダイヤル信号を発生して公衆電話回線Lに対して送出する。 In response to this, the main control unit 50 outputs the information of the telephone number to MTDF dialer in NCU 55, this time, after the off-hook for NCU 55 outgoing, the MTDF dialer information of the telephone number entered It generates a corresponding dial signal is sent to the public telephone line L. これにより、ユーザがマイクロホン1を介して発声した人名に対応する電話番号の電話機に対して発信できる。 This allows the originating for phone telephone number that the user corresponding to the person's name uttered through the microphone 1. 【0106】この第2の実施形態によれば、音声認識及び自動ダイヤリング機能を備えた電話機において、単語辞書において未登録の未登録語に関する音声認識の精度を従来例に比較して高くすることができる音声認識装置を用いて情報検索を実行することができ、これにより、 [0106] According to this second embodiment, the telephone having a voice recognition and automatic dialing feature, increasing the accuracy of speech recognition in comparison with the conventional example of unregistered unregistered word in the word dictionary can perform the information retrieval using the speech recognition device can, thereby,
限られたメモリで多数の人名などの固有名詞が音声認識可能となるため、データベースを備えた電話機において、従来技術に比較して高い精度で情報検索が可能となる。 Since a limited proper nouns, such as a number of names in the memory is possible speech recognition, in phone having a database, information retrieval with high accuracy as compared with the prior art becomes possible. また、高い音声認識率で自動ダイヤリングできる。 In addition, it can be automatically dialing a high speech recognition rate. 【0107】以上の実施形態においては、有限状態オートマトンモデル生成部23a及び有限状態オートマトンメモリ43aを備えているが、本発明はこれに限らず、 [0107] In the above embodiments, and a finite state automaton model generating unit 23a and the finite state automaton memory 43a, the present invention is not limited to this,
それぞれ図1の単語クラスN−gramモデル生成部2 Word class, respectively, of FIG 1 N-gram model generating unit 2
3、図1の単語クラスN−gramモデルメモリ43を備えてもよい。 3, may include a word class N-gram model memory 43 of FIG. 1. 【0108】<第3の実施形態>図13は、本発明に係る第3の実施形態である構内交換機(PBX)の構成を示すブロック図である。 [0108] <Third Embodiment> FIG. 13 is a block diagram showing the configuration of the PBX is a third embodiment according to the present invention (PBX). この実施形態は、図11の音声認識装置100及び図12の電話番号検索部60、電話番号テーブルメモリ61を、構内交換機の内線転送又は外線転送に適用したことを特徴としている。 This embodiment, the telephone number search unit 60 of the speech recognition device 100, and 12 in FIG. 11, the telephone number table memory 61 is characterized in that applied to the extension transfer or external transfer of the PBX. 【0109】図13において、主制御部150は、CP [0109] In FIG. 13, the main control unit 150, CP
Uで構成され、ROM151内に格納される所定の動作プログラムを実行することによりこの構内交換機の全体の動作を制御する。 Consists of U, it controls the entire operation of the private branch exchange by executing a predetermined operation program stored in the ROM 151. RAM152は、主制御部150で動作プログラムを実行するときに必要なデータを格納するとともに、主制御部150のための一時的なワーキングメモリとして用いられる。 RAM152 is configured to store the data required for executing the operation program in the main control unit 150 is used as a temporary work memory for the main control unit 150. 表示部153は、例えば液晶表示装置(LCD)等の表示装置であり、当該構内交換機の動作状態を表示したり、送信先の名称や電話番号を表示する。 Display unit 153 is, for example, a display device such as a liquid crystal display (LCD), and displays an operation state of the private branch exchange, and displays the destination names and phone numbers. また、操作部154は、当該構内交換機を操作するために必要な文字キー、ダイヤル用テンキーや各種のファンクションキー等を備える。 The operation unit 154 is provided with the character keys needed to operate the private branch exchange, a dial for a numeric keypad, various function keys and the like. さらに、ネットワークコントロールユニット(NCU)155は、外線である複数の公衆電話回線L1乃至LNと、内線電話機T1乃至TMに接続された内線とを交互に接続する電話交換スイッチ回路を備えるとともに、アナログの各公衆電話回線L1乃至LNの直流ループなどの閉結及び開放の動作を行い、かつ自動ダイヤル機能を有するMTDF Furthermore, a network control unit (NCU) 155, together comprising a plurality of public telephone lines L1 to LN is external, a telephone exchange switching circuit for alternately connecting extension connected to the extension telephone T1 to TM, the analog It performs an operation of closing and opening, such as the public telephone line L1 to LN DC loop, and MTDF with automatic dialing feature
ダイヤラーを含むハードウェア回路であり、必要に応じて音声合成出力部156からの出力を公衆電話回線L1 A hardware circuit including a dialer, a public telephone output from the voice synthesizing output unit 156 as necessary line L1
乃至LNに接続する。 Or to connect to the LN. またさらに、音声合成出力部15 Furthermore, the speech synthesis output unit 15
6は、図12の音声合成出力部56と同様に構成され、 6 is configured similarly to the speech synthesis output unit 56 of FIG. 12,
主制御部50からの制御により、音声合成すべき文字列のテキストデータを音声合成して、上記文字列の音声を音声合成してその音声信号をNCU155及び公衆電話回線L1乃至LNを介して通信相手方に対して送信する。 Under the control of the main control unit 50, the text data of the character string to be speech synthesized speech synthesis, via NCU155 and public telephone line L1 or LN to the audio signal of the audio of the text to speech synthesis communication It is transmitted to the other party. 以上の回路151乃至156及び電話番号検索部6 Or more circuits 151 to 156 and the telephone number search unit 6
0とは、バス158を介して主制御部150に接続される。 0 and is connected to the main control unit 150 via the bus 158. 【0110】電話番号テーブルメモリ61bは、人名とそれに対応する内線電話番号及び外線電話番号をテーブルの形式で予め記憶する。 [0110] Telephone number table memory 61b stores in advance in personal names and telephone extension and the form of the external telephone number table corresponding thereto. そして、主制御部150は、 Then, the main control unit 150,
NCU155において公衆電話回線L1乃至LNにうちの1つからの着信に対して自動応答し、「こちらは、A Automatically respond to from one of incoming out to the public telephone line L1 to LN in NCU155, "here, A
BC会社です。 BC company. 内線のどちらにお繋ぎしましょうか? Or let you connect to either of the extension? "
という音声合成信号を音声合成出力部156で発生させて相手方に出力する。 And outputs to the other party is generated by the speech synthesis output unit 156 a speech synthesis signal called. これに対して、相手方から発声される内線転送すべき人名の音声信号をNCU155から音声認識装置100の特徴抽出器2に出力する。 In contrast, and it outputs a personal name of the audio signal to be extension transfer is uttered from the other party to the feature extractor 2 of a speech recognition apparatus 100 from NCU155. このとき、音声認識装置100は音声認識処理を実行し、音声認識結果の文字列を電話番号検索部60に出力する。 In this case, the speech recognition apparatus 100 performs a voice recognition process, outputs a string of the speech recognition results to the telephone number search unit 60. これに応答して、電話番号検索部60は、音声認識装置1 In response, the telephone number search unit 60, the speech recognition device 1
00からの音声認識結果の文字列の人名の単語に基づいて、当該人名に対応する内線電話番号の情報を電話番号テーブルメモリ61bから読み出して、当該内線電話番号の情報をバス158を介して主制御部150に出力する。 00 based on the word names of the string of the speech recognition result from the information of the extension number corresponding to the person's name is read from the telephone number table memory 61b, the main information of the extension number via the bus 158 to the control unit 150. これに応答して、主制御部150は、内線番号の情報に基づいてNCU155を制御して、当該着信してきた公衆電話回線を対応する内線番号の内線電話機に接続することにより、内線転送が完了する。 In response to this, the main control unit 150 controls the NCU155 based on the information of the extension, by connecting a public telephone line that has the call to the extension phone corresponding extension number, extension transfer is complete to. 【0111】以上の実施形態においては、内線転送の例について説明しているが、内線電話機T1乃至TMから公衆電話回線への外線発信でも同様に、音声認識装置1 [0111] In the above embodiments have described an example of extension transfer, also in external call to the public telephone line from extension telephone T1 to TM, the speech recognition device 1
00、電話番号検索部60及び電話番号テーブルメモリ61bを用いて、ユーザが外線発信したい「人名」を発声するだけで外線発信を実行できるように構成できる。 00, using a telephone number search unit 60 and the telephone number table memory 61b, the user can configure to run Outbound Just say the "person's name" are you outside line. 【0112】この第3の実施形態によれば、音声認識及び自動転送機能を備えた構内交換機において、単語辞書において未登録の未登録語に関する音声認識の精度を従来例に比較して高くすることができる音声認識装置を用いて情報検索を実行することができ、これにより、限られたメモリで多数の人名などの固有名詞が音声認識可能となるため、データベースを備えた構内交換機において、従来技術に比較して高い精度で情報検索が可能となる。 [0112] According to the third embodiment, the private branch exchange having a speech recognition and automatic transfer functions, increasing the accuracy of speech recognition in comparison with the conventional example of unregistered unregistered word in the word dictionary can perform the information retrieval using the speech recognition device can, thereby, since the proper nouns, such as a number of names in limited memory is available speech recognition, the private branch exchange with a database, prior art information retrieval with high precision in comparison becomes possible. また、高い音声認識率で自動転送できる。 Moreover, it can be automatically transferred at a high speech recognition rate. 【0113】<第4の実施形態>図14は、本発明に係る第4の実施形態であるカーナビゲーションシステムの構成を示すブロック図である。 [0113] <Fourth Embodiment> FIG. 14 is a block diagram showing a configuration of a car navigation system according to a fourth embodiment of the present invention. この実施形態は、図11 This embodiment, FIG. 11
の音声認識装置100をカーナビゲーションシステムに適用したことを特徴としている。 The speech recognition apparatus 100 is characterized in that is applied to a car navigation system. 【0114】図14において、主制御部250は、CP [0114] In FIG. 14, the main control section 250, CP
Uで構成され、ROM251内に格納される所定の基本プログラム及びCD−ROMドライブ装置259内のC It consists of U, C of a predetermined basic program, and a CD-ROM drive device 259 to be stored in ROM251
D−ROMからフラッシュメモリ258にロードされたアプリケーションプログラムを実行することによりこのカーナビゲーションシステムの全体の動作を制御する。 It controls the entire operation of the car navigation system by executing an application program loaded into the flash memory 258 from the D-ROM.
RAM252は、主制御部250で基本プログラム又はアプリケーションプログラムを実行するときに必要なデータを格納するとともに、主制御部250のための一時的なワーキングメモリとして用いられる。 RAM252 is configured to store the data required for executing the basic program or application program in the main control unit 250 is used as a temporary work memory for the main control unit 250. 表示部253 The display unit 253
は、例えば液晶表示装置(LCD)等の表示装置であり、当該カーナビゲーションの動作状態を表示したり、 Is, for example, a display device such as a liquid crystal display (LCD), and displays the operating status of the car navigation,
指示された地名付近の地図やナビゲーション情報を表示する。 To display the map and navigation information in the vicinity of the indicated place name. また、操作部254は、当該ナビゲーションシステムを操作するために必要な文字キー、ダイヤル用テンキーや各種のファンクションキー等を備える。 The operation unit 254 includes character keys necessary for operating the navigation system, a dial for a numeric keypad, various function keys and the like. さらに、 further,
音声合成出力部256は、図12の音声合成出力部56 Speech synthesis output unit 256, speech synthesis output unit 56 of FIG. 12
と同様に構成され、主制御部250からの制御により、 And is configured similarly, the control of the main control unit 250,
音声合成すべき文字列のテキストデータを音声合成して、上記文字列の音声を音声合成してその音声信号をスピーカ257に出力する。 The text data of a character string to be speech synthesized speech synthesis, and outputs the audio signal to the speaker 257 of the speech of the character string to voice synthesis. CD−ROMドライブ装置2 The CD-ROM drive 2
59には、カーナビゲーションのためのアプリケーションプログラム及び地図情報などのカーナビゲーション情報を格納したCD−ROMが挿入され、これらの情報は当該CD−ROMからCD−ROMドライブ装置259 The 59, CD-ROM which stores car navigation information, such as application programs and map information for the navigation are inserted, the information is the CD-ROM drive from the CD-ROM 259
及びバス258を介してフラッシュメモリ258にロードされて利用される。 And it is utilized by being loaded into the flash memory 258 via bus 258. 以上の回路251乃至256、2 Or more circuits 251 to 256,
59及び地名検索部60aとは、バス258を介して主制御部250に接続される。 The 59 and place name search unit 60a, is connected to the main control unit 250 via the bus 258. 【0115】地名テーブルメモリ61aは、地名とそれに対応する位置情報(緯度や経度の情報)をテーブルの形式で予め記憶する。 [0115] place name table memory 61a stores in advance in the place name and the position information (latitude and longitude information) table format corresponding thereto. そして、ユーザが音声認識装置1 When the user voice recognition apparatus 1
00のマイクロホン1に対して地名を発声したとき、音声認識装置100は音声認識処理を実行し、音声認識結果の文字列を地名検索部60aに出力する。 When uttered place names against the microphone 1 00, the speech recognition apparatus 100 performs a voice recognition process, outputs a string of the speech recognition result to the place name search unit 60a. これに応答して、地名検索部60aは、音声認識装置100からの音声認識結果の文字列の地名の単語に基づいて、当該地名に対応する位置情報を地名テーブルメモリ61aから読み出して、当該位置情報をバス258を介して主制御部250に出力する。 In response to this, the place name search unit 60a, based on the word place name string of the speech recognition result from the speech recognition apparatus 100 reads the position information corresponding to the place name from the place name table memory 61a, the position information and outputs to the main control unit 250 via the bus 258. これに応答して、主制御部250 In response, the main control unit 250
は、当該位置情報に基づいて、フラッシュメモリ258 , Based on the position information, the flash memory 258
内の地図情報などのカーナビゲーション情報を検索して、検索された対応する情報を表示部253に表示するとともに、検索された音声情報を音声合成出力部256 Searching for car navigation information, such as map information of the inner, and displays on the display unit 253 the corresponding information retrieved, the voice synthesis output unit 256 audio information retrieved
に出力することにより、スピーカ257から当該音声合成された音声を出力させる。 By outputting to, and outputs sounds, which is the speech synthesized from the speaker 257. 【0116】この第4の実施形態によれば、音声認識及びカーナビゲーション機能を有するカーナビゲーションシステムにおいて未登録の未登録語に関する音声認識の精度を従来例に比較して高くすることができる音声認識装置を用いて情報検索を実行することができ、これにより、限られたメモリで多数の地名なの固有名詞が音声認識可能となるため、データベースを備えたカーナビゲーションシステムにおいて従来技術に比較して高い精度で情報検索が可能となる。 [0116] According to the fourth embodiment, the speech recognition can be increased as compared with the conventional example speech recognition accuracy regarding unregistered unregistered words in a car navigation system with voice recognition and a car navigation function can perform the information retrieval using the apparatus, thereby, for a limited number of places for proper nouns in memory becomes possible speech recognition, high compared to the prior art in a car navigation system equipped with a database information retrieval accuracy becomes possible. また、高い音声認識率で地名を音声認識でき、適切にカーナビゲーションの処理を実行できる。 Further, to recognize the voice of the place name in high speech recognition rate can be appropriately execute processing of car navigation. 【0117】以上の第2、第3及び第4の実施形態においては、電話機、構内交換機、カーナビゲーションシステムの例について説明しているが、本発明はこれに限らず、単語リストに対応する普通名詞の単語データとそれに対応する情報とを含むデータベースメモリを記憶し、 [0117] The above second, in the third and fourth embodiments, telephones, ordinary private branch exchange, has been described an example of a car navigation system, the present invention is that not limited thereto, corresponds to a word list storing a database memory containing the word data and information corresponding to that of nouns,
音声認識装置100から出力される音声認識結果の文字列をキーとして用いて、上記データベースの記憶装置に記憶されたデータベースから検索して、一致する単語データに対応する情報を上記データベースメモリから読み出して出力し、さらには、当該検索された情報に基づいて、所定の処理を実行することができる。 Using the character string of the speech recognition result output from the speech recognition apparatus 100 as a key, and searches the database stored in the storage device of the database, the information corresponding to the matching word data is read from the database memory output, and further, based on the retrieved information, it may perform the predetermined processing. 【0118】<第5の実施形態>図15は、本発明に係る第5の実施形態であるかな漢字変換装置の構成を示すブロック図であり、図1と同様のものについては同一の符号を付している。 [0118] <Fifth Embodiment> FIG. 15 is a block diagram showing the configuration of a kana-kanji conversion apparatus according to a fifth embodiment of the present invention, with the same reference numerals the same as FIG. 1 doing. この実施形態に係るかな漢字変換装置は、キーボード71と、キーボードインターフェース72と、音素HMMメモリ11及び単語辞書メモリ12 Kana-kanji conversion apparatus according to this embodiment includes a keyboard 71, a keyboard interface 72, the phoneme HMM memory 11 and word dictionary memory 12
が接続された単語照合部4aと、バッファメモリ5と、 A word collating unit 4a but connected, a buffer memory 5,
統計的言語モデルメモリ44が接続された単語仮説絞込部6とを備えて構成される。 Constructed and a word hypothesis narrowing-down unit 6 which statistical language model memory 44 is connected. 【0119】ここで、単語辞書メモリ12は、図1の単語辞書生成部22により生成された単語辞書を記憶し、 [0119] Here, the word dictionary memory 12 stores a word dictionary generated by the word dictionary generating unit 22 of FIG. 1,
ここで、単語辞書は、学習用データメモリ30に記憶されたファイル(図1や図11に図示の、日本人姓ファイル30a、日本人名ファイル30b、地名ファイル30 Here, the word dictionary, the file stored in the learning data memory 30 (shown in FIGS. 1 and 11, Japanese surname file 30a, a Japanese name file 30b, place name file 30
cに限らず、上述のように、外国人の姓と名、会社名、 Not limited to c, as described above, foreigners of first and last name, company name,
各種施設名、各種製品名などの単語を含んでもよい。 Various facilities name, may include words such as product names. )
及びテキストデータメモリ31内のテキストデータの単語に対応する漢字表記の複数の単語データを含む。 And a plurality of word data of Chinese characters that correspond to the words in the text data of the text data memory 31. また、統計的言語モデルメモリ44は、図1の言語モデル生成部24により生成された統計的言語モデルを記憶し、この統計的言語モデルは上記学習用データメモリ3 Further, statistical language model memory 44 stores a statistical language model generated by the language model generating unit 24 of FIG. 1, the statistical language model data memory 3 for the learning
0に記憶されたファイル及びテキストデータメモリ31 Files stored in the 0 and text data memory 31
内のテキストデータの単語に基づいて生成される。 It is generated based on the word of the text data of the internal. 【0120】図15において、キーボード71は、かな文字列を入力するための入力手段であり、キーボードインターフェース72はキーボード71を用いて入力されたかな文字列のデータを一旦格納した後、所定の信号変換などの処理を実行した後、単語照合部4aに出力する。 [0120] In FIG. 15, the keyboard 71 is an input means for inputting a kana character string, keyboard interface 72 after temporarily storing the data Do string or input by using the keyboard 71, a predetermined signal after executing the processing such as conversion, and outputs to the word collating unit 4a. 単語照合部4aは、ワン−パス・ビタビ復号化法を用いて、キーボードインターフェース72を介して入力されるかな文字列のデータに基づいて、音素HMMメモリ11内の音素HMMと、単語辞書メモリ12内の単語辞書とを用いて単語仮説を検出し尤度を計算して出力する。 Word collating unit 4a, the one - using a pass Viterbi decoding method, based on the data Do string or input via a keyboard interface 72, the phoneme HMM in the phoneme HMM memory 11, the word dictionary memory 12 detection and calculates and outputs likelihoods word hypothesis by using the word dictionary of the inner. ここで、具体的には、単語照合部4aは、単語辞書を参照して、入力されたかな文字列と、上記単語辞書内の単語との間の単語照合及び尤度計算を行い、一致したときに漢字表記の単語に変換して単語仮説の文字列として尤度とともに出力する一方、一致しないときにかな文字のまま単語仮説の文字列として尤度とともに出力する。 Here, specifically, word collating unit 4a, referring to the word dictionary, it performs the Do string or entered, the word collating and likelihood calculation between the words in the word dictionary, consistent while output together with likelihood as a string of converted into word word hypotheses of Chinese characters when outputs with likelihood as leave word hypotheses string kana characters when they do not match. 単語照合部4aからの出力データはバッファメモリ5を介して単語仮説絞込部6に入力される。 The output data from the word collating unit 4a is inputted to the word hypothesis narrowing-down unit 6 via the buffer memory 5. 単語仮説絞込部6は、単語照合部4aからバッファメモリ5を介して出力される単語仮説に基づいて、統計的言語モデルメモリ44内の統計的言語モデルを参照して、終了時刻が等しく開始時刻が異なる同一の単語の単語仮説に対して、当該単語の先頭音素環境毎に、発声開始時刻から当該単語の終了時刻に至る計算された総尤度のうちの最も高い尤度を有する1つの単語仮説で代表させるように単語仮説の絞り込みを行った後、絞り込み後のすべての単語仮説の単語列のうち、最大の総尤度を有し漢字表記を含む仮説の単語列を認識結果として出力する。 Word hypothesis narrowing-down unit 6, based on the word collating unit 4a to word hypotheses outputted through the buffer memory 5, with reference to the statistical language model in a statistical language model memory 44, the start equal end time against time differs same word word hypothesis, each leading phoneme environment of the word, one having the highest likelihood among the calculated total likelihood, from the utterance start time to the end time of the word after narrowing the word hypotheses to be represented by the word hypothesis, among the word strings for all word hypotheses after narrowing, output as a recognition result a word string hypotheses including Chinese characters have a maximum total likelihood to. 【0121】この第5の実施形態によれば、かな漢字変換装置によれば、上記統計的言語モデルを利用して、かな漢字変換率を従来技術に比較して向上できるかな漢字変換装置を提供するができる。 [0121] According to the fifth embodiment, according to the kana-kanji conversion apparatus, it may utilize the statistical language model, provides a kana-kanji conversion apparatus the kana-kanji conversion can be improved as compared with the prior art . 従って、例えば未登録の固有名詞も変換可能とすることができる。 Thus, for example, it can also be a convertible unregistered proper noun. 【0122】 【発明の効果】以上詳述したように本発明によれば、クラスに依存して構築された未登録語モデルを含む統計的言語モデルを生成したので、次の特有の効果を得ることができる。 [0122] According to the present invention as described in detail above, since the generating the statistical language models, including unregistered word model built depending on the class to get the next unique effect be able to. (1)モデル化対象を限定することで、読みの統計的特徴をより明確化することができ、クラス固有のパラメータ制約を導入できるため、未登録語モデルを高精度化することができる。 (1) By limiting the modeling object may be more clearly the statistical characteristics of the readings, it is possible to introduce a class-specific parameter constraints, it is possible to highly accurately the unregistered word model. (2)検出区間の言語処理が可能である。 (2) can language processing detection section. 未登録語は、 Unregistered word,
読みに加えクラスも同時に同定される。 Class in addition to reading also identified at the same time. 読みとクラスは、固有名詞の言語処理において必要十分な情報となるケースが多いものと考えられる。 Reading and classes, it is considered that there are many cases to be a necessary and sufficient information in the language processing of proper nouns. (3)上記生成された統計的言語モデルを用いて音声認識することにより、従来技術に比較して高い認識率で音声認識することができる。 (3) by voice recognition using the generated statistical language model can be speech recognition with a high recognition rate as compared with the prior art. 【0123】また、本発明に係る情報検索処理装置によれば、電話機における音声認識及び自動ダイヤリング機能や、カーナビゲーションなどの小規模の情報検索処理装置において、単語辞書において未登録の未登録語に関する音声認識の精度が従来例に比較して高い音声認識装置を用いて情報検索を実行することができる。 [0123] Further, according to the information retrieval apparatus according to the present invention, and voice recognition and automatic dialing function in the phone, in small information retrieval apparatus such as car navigation, unregistered unregistered word in the word dictionary accuracy of speech recognition related can execute the information retrieval using a high speech recognition apparatus as compared with the conventional example. 従って、 Therefore,
限られたメモリで多数の人名や地名などの固有名詞が音声認識可能となるため、データベースを備えた小型携帯装置などの情報検索処理装置において、従来技術に比較して高い精度で情報検索が可能となる。 Since many proper nouns, such as names and place names with limited memory is available speech recognition, in the information retrieval apparatus such as a small portable device having a database, information can be searched with high accuracy as compared with the prior art to become. 【0124】 [0124]

【図面の簡単な説明】 【図1】 本発明に係る第1の実施形態である連続音声認識システムのブロック図である。 Is a block diagram of a BRIEF DESCRIPTION OF THE DRAWINGS continuous speech recognition system 1 is a first embodiment according to the present invention. 【図2】 図1の連続音声認識システムにおける単語仮説絞込部6の処理を示すタイミングチャートである。 2 is a timing chart showing the processing of word hypotheses narrowing-down unit 6 in the continuous speech recognition system of FIG. 【図3】 図1の未登録語モデル生成部20によって実行される未登録語モデル生成処理を示すフローチャートである。 3 is a flowchart showing the unregistered word model generating process performed by the unregistered word model generation unit 20 of FIG. 1. 【図4】 図3のサブルーチンであるサブワード2−g Which is a subroutine of FIG. 4] FIG. 3 sub-word 2-g
ramの単位決定処理(ステップS4)を示すフローチャートである。 Is a flow chart showing unit determination process of ram (the step S4). 【図5】 図1の言語モデル生成部24によって実行される言語モデル生成処理を示すフローチャートである。 5 is a flow chart showing a language model generation processing executed by the language model generating unit 24 of FIG. 1. 【図6】 本発明者の分析による、日本人の姓及び名並びに旅行会話における単語の長さの分布を示すグラフであって、モーラ長に対する単語数の割合を示すグラフである。 By [6] The present inventor's analysis, a graph showing the distribution of lengths of words in first and last name as well as the travel conversation Japanese is a graph showing the ratio of the number of words for the mora length. 【図7】 第1の実施形態に係るクラス依存未登録語モデルに基づく統計的言語モデルの一例を示す状態遷移図である。 7 is a state transition diagram showing an example of a statistical language model based on class dependent unregistered word model according to the first embodiment. 【図8】 第1の実施形態に係る統計的言語モデルの一例を示す状態遷移図である。 8 is a state transition diagram showing an example of a statistical language model according to the first embodiment. 【図9】 図1の未登録語モデル生成部20によって実行される未登録語モデル生成処理における、モーラ連鎖の単位化による平均尤度の向上を示すグラフであって、 [9] in the unregistered word model generating process performed by the unregistered word model generation unit 20 of FIG. 1, a graph showing the improvement in average likelihood in units of moras chain,
モーラ連鎖の種類の数に対する平均尤度を示すグラフである。 Is a graph showing the average likelihood for the number of types of mora chain. 【図10】 本発明者による第1の実施形態の連続音声認識システムに係る実験の実験結果であって、日本人の姓及び名の再現率におけるモーラ連鎖の単位化効果を示すグラフであり、モーラ連鎖の種類の数に対する単語再現率を示すグラフである。 [Figure 10] A experimental result of the experiment according to the continuous speech recognition system according to a first embodiment of the present inventors, is a graph showing the unit effect mora chain in recall Japanese surnames and name, is a graph showing the word recall to the number of types of mora chain. 【図11】 本発明に係る第2の実施形態である連続音声認識システムの構成を示すブロック図である。 11 is a block diagram showing the configuration of a continuous speech recognition system according to a second embodiment of the present invention. 【図12】 図11の連続音声認識システムを用いた、 Using a continuous speech recognition system [12] 11,
自動ダイヤリング機能付き電話機の構成を示すブロック図である。 Is a block diagram showing the configuration of an automatic dialing function telephone. 【図13】 本発明に係る第3の実施形態である構内交換機(PBX)の構成を示すブロック図である。 13 is a block diagram showing a configuration of a third embodiment according to the present invention a private branch exchange (PBX). 【図14】 本発明に係る第4の実施形態であるカーナビゲーションシステムの構成を示すブロック図である。 14 is a block diagram showing a configuration of a car navigation system according to a fourth embodiment of the present invention. 【図15】 本発明に係る第5の実施形態であるかな漢字変換装置の構成を示すブロック図である。 It is a block diagram showing the configuration of a kana-kanji conversion apparatus according to a fifth embodiment according to the present invention; FIG. 【符号の説明】 1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4,4a…単語照合部、 6…単語仮説絞込部、 11…音素HMMメモリ、 12…単語辞書メモリ、 20…未登録モデル生成部、 21…サブワード単位データ生成部、 22…単語辞書生成部、 23…単語クラスN−gramモデル生成部、 23a…有限状態オートマトンモデル生成部、 24…言語モデル生成部、 30…学習データメモリ、 30a…日本人姓ファイル、 30b…日本人名ファイル、 30c…地名ファイル、 31…テキストデータベースメモリ、 40…サブワード単位N−gramモデルメモリ、 41…モーラ長ガンマ分布データメモリ、 42…ラベル付きサブワード単位データメモリ、 43…単語クラスN−gramモデルメモリ、 [Reference Numerals] 1 ... microphone, 2 ... feature extractor, 3,5 ... buffer memory, 4, 4a ... word collating unit, 6 ... word hypothesis narrowing-down unit, 11 ... phoneme HMM memory, 12 ... word dictionary memory, 20 ... unregistered model generation unit, 21 ... sub-word units of data generation unit, 22 ... word dictionary generating unit, 23 ... word class N-gram model generation unit, 23a ... finite state automaton model generation unit, 24 ... the language model generating unit, 30 ... learning data memory, 30a ... Japanese surname file, 30b ... Japanese name file, 30c ... place name file, 31 ... text database memory, 40 ... sub-word units of N-gram model memory, 41 ... mora length gamma distribution data memory, 42 ... labeled sub-word units of data memory, 43 ... word class N-gram model memory, 43a…有限状態オートマトンモデルメモリ、 44…統計的言語モデルメモリ、 50…主制御部、 51…ROM、 52…RAM、 53…表示部、 54…操作部、 55…ネットワークコントロールユニット(NCU)、 56…音声合成出力部、 57…スピーカ、 58…バス、 59…送受話器、 60…電話番号検索部、 60a…地名検索部、 61,61b…電話番号テーブルメモリ、 61a…地名テーブルメモリ、 71…キーボード、 72…キーボードインターフェース、 100…音声認識装置、 150…主制御部、 151…ROM、 152…RAM、 153…表示部、 154…操作部、 155…ネットワークコントロールユニット(NC 43a ... finite state automaton model memory, 44 ... statistical language model memory, 50 ... main control unit, 51 ... ROM, 52 ... RAM, 53 ... display unit, 54 ... operation unit, 55 ... a network control unit (NCU), 56 ... speech synthesis output unit, 57 ... speaker, 58 ... bus, 59 ... handset, 60 ... telephone number search unit, 60a ... place name search unit, 61,61B ... telephone number table memory, 61a ... place name table memory, 71 ... keyboard , 72 ... keyboard interface, 100 ... voice recognition device, 150 ... main control unit, 151 ... ROM, 152 ... RAM, 153 ... display unit, 154 ... operating unit, 155 ... network control unit (NC
U)、 156…音声合成出力部、 158…バス、 250…主制御部、 251…ROM、 252…RAM、 253…表示部、 254…操作部、 256…音声合成出力部、 257…スピーカ、 258…バス、 259…CD−ROMドライブ装置、 L,L1乃至LN…公衆電話回線、 T1乃至TM…内線電話機。 U), 156 ... voice synthesis output unit, 158 ... bus, 250 ... main control unit, 251 ... ROM, 252 ... RAM, 253 ... display unit, 254 ... operating unit, 256 ... voice synthesis output unit, 257 ... speaker, 258 ... bus, 259 ... CD-ROM drive device, L, L1 to LN ... public telephone line, T1 to TM ... extension telephone.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 特開2001−51996(JP,A) 特開 平6−308994(JP,A) 特開2000−99082(JP,A) Masaaki NAGATA,A Part of Speech Est imation Method for Japanese Unknown Words using a Stat istical Model of M orpholog,37th Annua l Meeting of the A ssociation for Com putational Linguis tics Pro ────────────────────────────────────────────────── ─── of the front page continued (72) inventor Yoshinori Sagisaka Kyoto Prefecture Sagara-gun Seika Oaza Inuidani Sublocality Sanpeitani 5 address, Inc. TA Thi Earl sound voice translation communication within the Institute (56) reference JP 2001-51996 (JP, A) JP flat 6-308994 (JP, A) JP-2000-99082 (JP, A) Masaaki NAGATA, A Part of Speech Est imation Method for Japanese Unknown Words using a Stat istical Model of M orpholog, 37th Annua l Meeting of the A ssociation for Com putational Linguis tics Pro eedings o f the Conference,米 国,Association for Computational Ling uistics,1999年 6月20日, 277−284 (58)調査した分野(Int.Cl. 7 ,DB名) G10L 15/18 JICSTファイル(JOIS) eedings o f the Conference, the United States, Association for Computational Ling uistics, 6 May 20, 1999, 277-284 (58) investigated the field (Int.Cl. 7, DB name) G10L 15/18 JICST file (JOIS)

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1】 固有名詞又は外来語の普通名詞の単語リストを含む学習データを格納する学習データ記憶手段と、 上記学習データ記憶手段に格納された学習データに基づいて、上記学習データにおけるモーラ長に対する単語数の割合が実質的にガンマ分布に従うと仮定したときのモーラ長のガンマ分布のパラメータをクラスに依存して推定して計算するとともに、モーラ又はモーラ連鎖であるサブワード単位で、上記固有名詞又は外来語の普通名詞の下位クラスであるクラスを有する第1のN−gram (57) and the learning data storage means for storing the learning data including the common noun word list of the Claims 1] proper noun or foreign language, the learning data stored in the learning data storage means based on, with calculating estimates depending parameters of the gamma distribution mora length when the ratio of the number of words for mora length in the learning data is assumed to follow a substantially gamma distribution class, mora or mora chain in subword unit is a first N-gram having a class is a subclass of noun of the proper noun or foreign language
    の出現確率を計算することにより未登録語をモデル化したサブワード単位N−gramモデルを生成する第1の生成手段と、 所定のテキストデータベースに基づいて生成された単語クラスN−gramモデルと、上記第1の生成手段によって生成されたサブワード単位N−gramモデルと、 A first generating means for generating a subword units N-gram model that models the unregistered word by calculating the probability of occurrence, and the word class N-gram model generated based on a predetermined text database, the a subword unit N-gram model generated by the first generating means,
    上記第1の生成手段によって計算されたモーラ長のガンマ分布のパラメータとに基づいて、上記単語クラスと、 Based on the parameters of the gamma distribution mora length calculated by said first generating means, and the word class,
    上記固有名詞又は外来語の普通名詞の下位クラスであるクラスとに依存した第2のN−gramの出現確率を計算することによりサブワード単位に基づいた未登録語を含む統計的言語モデルを生成する第2の生成手段とを備えたことを特徴とする統計的言語モデル生成装置。 Generating a statistical language model including unregistered word based on sub-word units by calculating the probability of occurrence of the second N-gram that depends on the class, which is a subclass of the common nouns of the proper noun or foreign language statistical language model generating device characterized by comprising a second generation means. 【請求項2】 上記第1の生成手段によって生成されたサブワード単位N−gramモデルに基づいて、上記サブワード単位を抽出し、抽出したラベルを上記サブワード単位に付与することにより、サブワード単位当たり複数のラベル付きサブワード単位のデータを生成する第3 2. Based on the subword unit N-gram model generated by said first generating means, and extracting the sub-word units, by the extracted label applied to the subword unit, the plurality per subword unit third generating data labeled subword unit
    の生成手段と、 上記テキストデータベースから抽出された単語と、上記第3の生成手段によって生成された複数のラベル付きサブワード単位のデータとに対して音素並びを付与することにより単語辞書を生成する第4の生成手段とをさらに備えたことを特徴とする請求項記載の統計的言語モデル生成装置。 And generating means, second generating and words extracted from the text database, a word dictionary by imparting phoneme sequence against the data of the third plurality of labeled subword units generated by the generating means statistical language model generating apparatus according to claim 1, wherein, further comprising fourth and generating means. 【請求項3】 入力される発声音声文の音声信号に基づいて、所定の統計的言語モデルを用いて音声認識する音声認識手段を備えた音声認識装置において、 上記音声認識手段は、請求項又は記載の統計的言語モデル生成装置によって生成された統計的言語モデルと、請求項記載の第4の生成手段によって生成された単語辞書とを用いて音声認識することを特徴とする音声認識装置。 3. Based on the audio signal of the utterance sentence input, the speech recognition apparatus having speech recognizing speech recognition means by using a predetermined statistical language model, the speech recognition means, according to claim 1 or speech recognition, characterized in that the speech recognition using a statistical language model generated by 2 statistical language model generating apparatus according, a word dictionary generated by the fourth generating means according to claim 2, wherein apparatus. 【請求項4】 上記単語リストに対応する普通名詞の単語データとそれに対応する情報とを含むデータベースを記憶するデータベース記憶手段と、 請求項記載の音声認識装置から出力される音声認識結果の文字列をキーとして用いて、上記データベース記憶手段に記憶されたデータベースから検索して、一致する単語データに対応する情報を上記データベース記憶手段から読み出して出力する検索手段とを備えたことを特徴とする情報検索処理装置。 Wherein the word corresponding to the list and a common noun word data and database storage means for storing a database containing the information corresponding thereto, the speech recognition result output from the speech recognition apparatus according to claim 3, wherein characters using columns as the key, retrieved from a database stored in the database storage unit, information corresponding to the matching word data, characterized in that a search means for outputting read from the database storage unit information retrieval processing apparatus. 【請求項5】 上記情報検索処理装置はさらに、 上記検索手段から出力される情報に基づいて、所定の処理を実行する処理実行手段を備えたことを特徴とする請求項記載の情報検索処理装置。 Wherein said information retrieval processor further based on the information output from the search means, the information retrieval process according to claim 4, further comprising a process execution means for executing a predetermined processing apparatus.
JP2000378702A 1999-12-17 2000-12-13 Statistical language model generating device, a speech recognition apparatus and an information retrieval apparatus Active JP3415585B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP11-358947 1999-12-17
JP35894799 1999-12-17
JP2000378702A JP3415585B2 (en) 1999-12-17 2000-12-13 Statistical language model generating device, a speech recognition apparatus and an information retrieval apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000378702A JP3415585B2 (en) 1999-12-17 2000-12-13 Statistical language model generating device, a speech recognition apparatus and an information retrieval apparatus

Publications (2)

Publication Number Publication Date
JP2001236089A JP2001236089A (en) 2001-08-31
JP3415585B2 true JP3415585B2 (en) 2003-06-09

Family

ID=26580871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000378702A Active JP3415585B2 (en) 1999-12-17 2000-12-13 Statistical language model generating device, a speech recognition apparatus and an information retrieval apparatus

Country Status (1)

Country Link
JP (1) JP3415585B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3696231B2 (en) * 2002-10-08 2005-09-14 松下電器産業株式会社 Generating the language model storage unit, the speech recognition device, the language model generating method and a speech recognition method
JP4528540B2 (en) * 2004-03-03 2010-08-18 日本電信電話株式会社 Speech recognition method and apparatus and a speech recognition program, and a storage medium storing a speech recognition program
US7813928B2 (en) 2004-06-10 2010-10-12 Panasonic Corporation Speech recognition device, speech recognition method, and program
JPWO2007097390A1 (en) 2006-02-23 2009-07-16 日本電気株式会社 Speech recognition systems, speech recognition result output method, and the speech recognition result output program
JPWO2007138875A1 (en) * 2006-05-31 2009-10-01 日本電気株式会社 Word dictionary and language model creation system for speech recognition, a method, a program and a voice recognition system
JP4741452B2 (en) * 2006-11-21 2011-08-03 日本放送協会 Language model creating apparatus and a language model generating program, and a speech recognition apparatus and speech recognition program
JP4987530B2 (en) * 2007-03-27 2012-07-25 三菱電機株式会社 Speech recognition dictionary creating apparatus and a voice recognition device
JP4769286B2 (en) * 2008-12-18 2011-09-07 日本放送協会 Kana-kanji conversion device and kana-to-kanji conversion program
KR101388569B1 (en) 2011-08-10 2014-04-23 한국전자통신연구원 Apparatus and method for adding new proper nouns to language model in a continuous speech recognition system
JP5546565B2 (en) * 2012-02-22 2014-07-09 日本電信電話株式会社 Word add-on device, word how to add, and program
CN105632512B (en) * 2016-01-14 2019-04-09 华南理工大学 A kind of dual sensor sound enhancement method and device based on statistical model

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Masaaki NAGATA,A Part of Speech Estimation Method for Japanese Unknown Words using a Statistical Model of Morpholog,37th Annual Meeting of the Association for Computational Linguistics Proceedings of the Conference,米国,Association for Computational Linguistics,1999年 6月20日,277−284

Also Published As

Publication number Publication date
JP2001236089A (en) 2001-08-31

Similar Documents

Publication Publication Date Title
Young Large vocabulary continuous speech recognition: A review
EP0805434B1 (en) Method and system for speech recognition using continuous density hidden Markov models
US8285537B2 (en) Recognition of proper nouns using native-language pronunciation
EP0570660B1 (en) Speech recognition system for natural language translation
JP4351385B2 (en) Speech recognition system for recognizing continuous and isolated speech
US9514126B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
US6085160A (en) Language independent speech recognition
Hori et al. Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition
CN1121680C (en) Speech sound recognition
US8214213B1 (en) Speech recognition based on pronunciation modeling
KR101120716B1 (en) Automatic identification of telephone callers based on voice characteristics
US9640175B2 (en) Pronunciation learning from user correction
Kanthak et al. Context-dependent acoustic modeling using graphemes for large vocabulary speech recognition
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US20030187643A1 (en) Vocabulary independent speech decoder system and method using subword units
JP3741156B2 (en) Voice recognition device and voice recognition method and speech translation apparatus
US6856956B2 (en) Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
CA2351988C (en) Method and system for preselection of suitable units for concatenative speech
US20070219777A1 (en) Identifying language origin of words
US6856957B1 (en) Query expansion and weighting based on results of automatic speech recognition
US6477488B1 (en) Method for dynamic context scope selection in hybrid n-gram+LSA language modeling
EP0664535A2 (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
KR101056080B1 (en) The phoneme-based speech recognition system and method
US6823307B1 (en) Language model based on the speech recognition history
Arisoy et al. Turkish broadcast news transcription and retrieval

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100404

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130404

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130404

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140404

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250