JPH11259088A

JPH11259088A - 音声認識方法及び音声認識装置並びに記録媒体

Info

Publication number: JPH11259088A
Application number: JP10063601A
Authority: JP
Inventors: Sadahiro Furui; 貞煕古井
Original assignee: Tokyo University of Science; Japan Society for Promotion of Science; Japan Society For Promotion of Machine Industry
Current assignee: Tokyo University of Science; Japan Society for Promotion of Science; Japan Society For Promotion of Machine Industry
Priority date: 1998-03-13
Filing date: 1998-03-13
Publication date: 1999-09-24

Abstract

(57)【要約】【課題】学習用テキストデータベース中の各単語の複
数の読みのそれぞれの頻度を考慮した音声認識を行なう
ことにより、精度の高い音声認識結果を得られるように
する。【解決手段】学習用テキストデータベース３２を用い
て言語モデルを学習する言語モデル学習部２１と、この
言語モデル学習部２１で学習された言語モデルを用いて
入力音声の認識を行なう音声認識部２２とをそなえ、言
語モデル学習部２１が、学習用テキストデータベース３
２中の各単語の複数の読みのそれぞれの頻度を求める頻
度演算手段３６を有するとともに、音声認識部２２が、
この頻度演算手段３６で得られた単語の読みに関する頻
度を言語モデルから計算される尤度に組み合わせて言語
尤度を演算する言語尤度演算手段４３を有するように構
成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、学習用テキストデ
ータベース中の単語の統計的言語モデルを推定し、この
推定言語モデルを用いて音声を認識する音声認識方法及
び音声認識装置に関するとともに、上記の音声認識方法
及び装置を実現するためのプログラムを記録した記録媒
体に関する。

【０００２】

【従来の技術】音声でパーソナルコンピュータ（以下、
パソコンという）やワードプロセッサ（以下、ワープロ
という）等の電子機器を機能させたり、ニュース番組な
どにおいてアナウンサーが発声した音声を自動的に字幕
に変換したりするシステムを高い性能で実現するには、
音声の音響的性質のみならず言語的性質を十分考慮した
音声認識を行なう必要がある。

【０００３】これまでに、言語的性質を用いる方法とし
ては、言語的性質を自動的に学習するための大量のテキ
ストデータベース、即ち、文字で書かれた大量の原稿を
集めて、それを形態素解析プログラムなどによって単語
（形態素）に自動的に区切り、区切った単語間の統計的
連接関係、具体的には、バイグラム，トライグラムなど
を計算する方法が広く用いられている。

【０００４】この方法では、各単語の読み（発音）は、
単語辞書の形式で各単語毎に音響モデルとして蓄えてお
く。そして、未知入力音声を認識しようとする際には、
入力として可能な多数の単語列候補について、その単語
連接の統計的可能性をバイグラムやトライグラムを用い
て計算し、各単語の読みとしては、辞書に蓄えられてい
る全ての読みが等しく選択可能（同じ確率）であると仮
定して、入力音声と音響的に似ているかどうかを比較す
る方法がとられてきた。

【０００５】

【発明が解決しようとする課題】しかしながら、このよ
うな従来の技術では、各単語の読みの頻度が考慮されて
いないため、思わぬ音声認識誤りが生じる可能性があ
る。例えば、「円」という文字（単語）には、「え
ん」，「まる」などの読みがある。この内、「まる」と
いう読みは実際にはほとんど使われないが、学習用テキ
ストデータベースに「円」という単語が頻出すると、
「円（まる）」のバイグラムやトライグラムに大きな値
が与えられ、たまたま「・・・まる」と発音した音声の
認識結果として、「円」が出力されてしまう場合があ
る。

【０００６】そこで、単語の読みの違いによって分け
て、「円（まる）」と「円（えん）」を別々の単語とし
て扱って統計的連接関係を計算すれば、このような現象
は原理的に解決可能であるが、このような手法をとると
語彙数が膨大になってしまい、結果として、バイグラム
や、特にトライグラムを正確に計算することができなく
なってしまう。

【０００７】本発明は、このような課題に鑑み創案され
たもので、学習用テキストデータベース中の各単語の複
数の読みのそれぞれの頻度を考慮した音声認識を行なう
ことにより、精度の高い音声認識結果を得られるように
した、音声認識方法及び音声認識装置を提供することを
目的とする。また、このような音声認識をコンピュータ
にて実現するためのプログラムを記録した記録媒体を提
供することも目的とする。

【０００８】

【課題を解決するための手段】このため、請求項１記載
の本発明の音声認識方法は、学習用テキストデータベー
スを用いて、その学習用テキストデータベース中の単語
の統計的言語モデルを推定し、この推定言語モデルを用
いて音声を認識する方法において、上記の学習用テキス
トデータベース中の各単語の複数の読みのそれぞれの頻
度を求めておき、その後、未知入力音声を認識する際
に、言語モデルから計算される尤度に、上記の単語の読
みに関する頻度を組み合わせて、音声を認識することを
特徴としている。

【０００９】また、請求項２記載の本発明の音声認識装
置は、学習用テキストデータベースを用いて言語モデル
を学習する言語モデル学習部と、この言語モデル学習部
で学習された言語モデルを用いて入力音声の認識を行な
う音声認識部とをそなえ、上記の言語モデル学習部が、
上記の学習用テキストデータベース中の各単語の複数の
読みのそれぞれの頻度を求める頻度演算手段を有すると
ともに、上記の音声認識部が、この頻度演算手段で得ら
れた単語の読みに関する頻度を言語モデルから計算され
る尤度に組み合わせて言語尤度を演算する言語尤度演算
手段を有していることを特徴としている。

【００１０】さらに、請求項３記載の本発明の記録媒体
は、コンピュータ読み取り可能なものであって、学習用
テキストデータベースを用いて言語モデルを学習する際
にその学習用テキストデータベース中の各単語の複数の
読みのそれぞれの頻度を求めることが可能な言語モデル
学習手段と、この言語モデル学習手段で学習された言語
モデルを用いて入力音声の認識を行なう際に言語モデル
学習手段で得られた上記の単語の読みに関する頻度を言
語モデルから計算される尤度に組み合わせて言語尤度を
演算することが可能な音声認識手段との各機能を、コン
ピュータにて機能させるプログラムが記録されているこ
とを特徴としている。

【００１１】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図１は本発明の一実施形態として
の音声認識装置として機能するパーソナルコンピュータ
システムの構成を示すブロック図で、この図１に示すよ
うに、本パーソナルコンピュータシステム１（以下、単
に「パソコン１」といったり「システム１」といったり
することがある）は、本体２，ディスプレイ３，キーボ
ード４，マウス（ポインティングデバイス）５及びマイ
ク（音声入力装置）６などをそなえて構成されている。

【００１２】そして、このシステム１では、マイク６を
用いて任意の音声を入力すると、その音声に対する音声
認識処理が行なわれ、音声認識結果が例えば文字情報と
してディスプレイ３上にリアルタイムに表示されるよう
になっている。ただし、本実施形態では、このシステム
１をテレビジョン放送音声を音声認識によって自動的に
文字に変換して字幕として提供する「ディクテーション
システム」と呼ばれるシステムに適用することを想定す
る。

【００１３】ここで、上記の音声認識処理は、例えば、
ＣＰＵ(Central Processing Unit)７が、本体２内のハ
ードディスク等のメモリ（記憶部）８に記憶されている
音声認識プログラムを読み取り、そのプログラムに従っ
て動作することによって実行される。なお、上記の音声
認識プログラムは、例えば、次のような方法〜でメ
モリ８に保存しておけばよい。

【００１４】自システム１のキーボード４を用いて作
成したものをメモリ８に保存する。他のパソコンで作成され、フロッピーディスク（Ｆ
Ｄ）１１やＣＤ−ＲＯＭ１２，ＭＯ（光磁気ディスク）
１３などのコンピュータ読み取り可能な各種記録媒体１
０に保存されたものを本体２に装備されたディスクドラ
イブ９を通じてインストールすることによってメモリ８
に保存する。

【００１５】他のパソコンで作成されたものをインタ
ーネットやＬＡＮ(Local Area Network)などの所望の通
信網を介して受信することによりメモリ８に保存する。
そして、具体的に、上記のＣＰＵ７が音声認識プログラ
ムを読み取って動作することにより、パソコン１が音声
認識装置として機能する場合の要部の構成に着目する
と、本実施形態のパソコン１は、例えば図２に示すよう
に、学習用テキストデータベース３２を用いて言語モデ
ルを学習する言語モデル学習部２１と、この言語モデル
学習部２１で学習された言語モデルを用いて入力音声の
認識を行なう音声認識部２２とをそなえている。

【００１６】さらに、言語モデル学習部２１は、この図
２に示すように、単語区切り手段３１，統計的連接関係
計算手段３３，連接関係記憶部３４，読み付与手段３
５，読み頻度計算手段３６及び読み頻度記憶部３７を有
して構成され、音声認識部２２は、文仮説生成手段４
１，音響尤度計算手段４２，言語尤度計算手段４３，尤
度組み合わせ手段４４を有して構成されている。

【００１７】ここで、言語モデル学習部２１において、
単語区切り手段３１は、学習用テキストデータベース３
２内の文章を、フリーソフトウェアである“Juman"や"C
hasen"などの公知の形態素解析プログラムを用いて、単
語（正確には、形態素）に区切るものである。ただし、
本実施形態では、少しでも単語の誤読を解消するため
に、漢数字に関しては単位毎（例えば、「八千三百四十
七」なら「八千」，「三百」，「四十」，「七」）に区
切るように工夫している。なお、「ディクテーションシ
ステム」における学習用テキストデータベース３２とし
ては、例えば、過去の放送音声を文字に書起したものや
放送用の原稿などを用い（ＣＤ−ＲＯＭ等によって提供
される）、ここでは、５０万文章、あるいはそれ以上の
文章を用いる。

【００１８】また、統計的連接関係計算手段３３は、上
記の単語区切り手段３１によって得られた各単語につい
てバイグラム（もしくは、トライグラム，フォーグラ
ム，ファイブグラム，・・・）と呼ばれる確率値を計算
することによって、学習用テキストデータベース３２
（以下、単に「データベース３２」ということがある）
中における各単語の統計的連接関係を計算するものであ
る。

【００１９】ここで、上記のバイグラムとは、或る単語
ｗ_k-1（ただし、ｋは或る文章中の単語の位置を表す）
が与えられたときに、その単語ｗ_k-1に連接しうる単語
ｗ_kの確率Ｐ（ｗ_k｜ｗ_k-1）を表し、トライグラムと
は、このバイグラムに基づいて得られる確率値で、連接
する２つの単語ｗ_k-1，ｗ_k-2が与えられたときに、そ
の次に連接しうる単語ｗ_kの確率Ｐ（ｗ_k｜ｗ_k-1ｗ
_k-2）を表す。

【００２０】同様に、フォーグラム，ファイブグラム，
・・・もそれぞれ前の計算で得られたトライグラム，フ
ォーグラム，・・・に基づいて得られる確率値で、この
ように計算過程を増やすほど得られる連接関係の確率値
の精度は向上する。基本的に、上記の統計的連接関係の
計算には、バイグラム，トライグラム，フォーグラム，
・・・のいずれを適用してもよいが、あまり計算過程を
増やすと計算時間がかかり過ぎるので、本実施形態で
は、適用システムがリアルタイム性の要求される「ディ
クテーションシステム」であることを考慮して、バイグ
ラムを適用する。

【００２１】さらに、上記の連接関係記憶部３４は、こ
の統計的連接関係計算手段３３で計算されたバイグラム
の確率値を蓄えておくものであり、本実施形態では、こ
れらの単語区切り手段３１，統計的連接関係計算手段３
３及び連接関係記憶部３４によって、データベース３２
中に含まれる各単語の統計的言語モデルを推定して学習
する言語モデル推定・学習系２１Ａが形成されている。

【００２２】また、上記の読み付与手段３５は、単語区
切り手段３１によって得られたデータベース３２内の各
単語に対し、公知の形態素解析プログラム（"Chasen"
等）を用いて、その読み（複数の読みがある場合はその
全ての読み）を自動的に付与するものであり、読み頻度
計算手段（頻度演算手段）３６は、この読み付与手段３
５で読みを付与されたデータベース３２内の各単語
（ｗ）の読み（ｒ）の頻度（複数の読みがある場合は各
読みのそれぞれの頻度）を計算にて求めて、得られた頻
度情報を相対頻度である確率値Ｐ（ｗ（ｒ）｜ｗ）に変
換するもので、この確率値Ｐ（ｗ（ｒ）｜ｗ）は、次式
（１）により計算される。

【００２３】Ｐ（ｗ（ｒ）｜ｗ）＝Ｎ（ｗ（ｒ））／Ｎ（ｗ）・・・（１）なお、上記の式（１）において、Ｎ（ｗ）は、データベ
ース３２内の或る単語ｗの出現頻度を表し、Ｎ（ｗ
（ｒ））は、データベース３２において読みｒが付与さ
れた単語ｗの出現頻度を表す。さらに、上記の読み頻度
記憶部３７は、読み頻度計算手段３６で得られた読みの
確率値Ｐ（ｗ（ｒ）｜ｗ）を蓄えるものであり、本実施
形態では、単語区切り手段３１，読み付与手段３５，読
み頻度計算手段３６及び読み頻度記憶部３７によって、
データベース３２中に含まれる各単語の読みに関する頻
度（確率）を学習する読み頻度学習系２１Ｂが形成され
ている。

【００２４】一方、図２に示す音声認識部２２におい
て、文仮説生成手段４１は、未知入力音声に関して、入
力として考えられる全ての文章の仮説（以下、文仮説と
いう）を生成し、得られた各文仮説を音素系列に変換す
るものである。なお、文仮説の生成は、認識対象語彙の
全ての組み合わせを生成することによって行ない、文仮
説の音素系列への変換は、辞書（テーブル）形式のデー
タ（単語辞書：図示略）としてメモリ８に記憶（登録）
されている各単語の種々の読みを順に組み合わせること
によって行なう。

【００２５】また、音響尤度計算手段４２は、この文仮
説生成手段４１で生成された各文仮説を音素系列で表し
たものに音響モデルを割り当て、これと入力音声とに基
づいて、音響尤度Ｐ_A（ｗ_k-1 ⁿ( ｒ_k))（ｎは文仮説
中の単語数である）を計算するものである。このとき、
音響モデルとしては、音素を隠れマルコフモデル（ＨＭ
Ｍ）で表したものを用い、入力音声には、音声波形をケ
プストラムなどの特徴パラメータに変換したものを用い
る。なお、ケプストラムなどの特徴パラメータに変換す
る方法や、特徴パラメータとＨＭＭから音響尤度を計算
する方法については、例えば、音響・音声工学（古井貞
煕著：近代科学社）等に説明されている公知の方法を用
いる。

【００２６】さらに、言語尤度計算手段（言語尤度演算
手段）４３は、上記の読み頻度学習系２１Ｂにおける読
み頻度計算手段３６で得られた単語の読みに関する頻度
を言語モデル推定・学習系２１Ａにおいて言語モデルか
ら計算される尤度に組み合わせて言語尤度を演算するも
ので、具体的には、文仮説生成手段４１で生成された各
文仮説について、その単語系列に対応する統計的連接関
係（バイグラム）の確率値と各読みの確率値とをそれぞ
れ連接関係記憶部３４及び読み頻度記憶部３７から取り
出し、次式（２）に示すように両確率値を組み合わせて
言語尤度を計算するようになっている。

【００２７】

【数１】

【００２８】ここで、上式（２）において、左辺のＰ_l
（ｗ_k=1 ⁿ( ｒ_k))が求めるべき言語尤度、右辺第１項
のＰ（ｗ_k( ｒ_k) ｜ｗ_k) ^Bが文仮説中のｋ番目の単
語の読みｒの確率値（ただし、Ｂは重み係数）、右辺第
２項のＰ（ｗ_k｜ｗ_i=1 ^k-1)が統計的連接関係（バイグ
ラム）の確率値である。なお、従来の音声認識で用いら
れる言語尤度の計算式は、上式（２）の右辺第１項〔Ｐ
（ｗ_k( ｒ_k) ｜ｗ_k) ^B〕が“１”に固定されたもの
に相当する（全ての読みの確率を同じ確率としてい
る）。

【００２９】なお、上記の式（２）は、単語が細分化さ
れてデータがスパースになることを防止するために、本
来なら単語の読みごとに計算すべき次式（２）′を"cla
ss Ngram"の考え方を応用して近似したものであるが、
原理的には、次式（２）′を上記の言語尤度の計算に適
用してもよい。

【００３０】

【数２】

【００３１】また、尤度組み合わせ手段４４は、全ての
文仮説について、この言語尤度計算手段４３で計算され
た言語尤度Ｐ_l（ｗ_k=1 ⁿ( ｒ_k))を音響尤度計算手段
４２で計算された音響尤度Ｐ_A（ｗ_k-1 ⁿ( ｒ_k))と、
次式（３）に示すように組み合わせて総合的尤度Ｐ（ｗ
_k=1 ⁿ(r_k))を計算するもので、この計算の結果、全て
の文仮説のうちで最も大きい総合的尤度Ｐ（ｗ_k=1 ⁿ(r
_k))に対応する単語ｗ _kを選んで音声認識結果として出
力するようになっている。

【００３２】Ｐ(w_k=1 ⁿ( ｒ_k))＝Ｐ_l（ｗ_k=1 ⁿ( ｒ_k))^CＰ_A（ｗ_k=1 ⁿ( ｒ_k))e ^np ・・・（３）なお、上式（３）において、Ｃは言語尤度Ｐ_l（ｗ_k=1
ⁿ( ｒ_k))に対する重み係数であり、ｅ^pは１回の単語
間遷移に対するペナルティである。つまり、上記の音声
認識プログラムは、上記の各手段３１，３３，３５，３
６，４１〜４４及び各記憶部３４，３７としての機能
（本実施形態の要部に着目すると以下の，に示すよ
うな機能）を、コンピュータ（ＣＰＵ７）にて機能させ
るためのもので、例えば、上述したようにフロッピーデ
ィスク（ＦＤ）１１やＣＤ−ＲＯＭ１２，ＭＯ（光磁気
ディスク）１３などの記録媒体１０に記録されることに
よって、任意のパソコンにインストールすることが可能
になる。

【００３３】データベース３２を用いて言語モデルを
学習する際にそのデータベース３２中の各単語の複数の
読みのそれぞれの頻度を求めることが可能な言語モデル
学習部２１としての機能。言語モデル学習部２１で学習された言語モデルを用い
て入力音声の認識を行なう際に言語モデル学習部２１で
得られた単語の読みに関する頻度を言語モデルから計算
される尤度に組み合わせて言語尤度を演算することが可
能な音声認識部２２としての機能。

【００３４】以下、上述のごとく構成された本実施形態
のシステム（音声認識装置）１の動作について詳述す
る。まず、学習用テキストデータベース３２として、放
送用の原稿などの５０万文章を言語モデル学習部２１に
与える。すると、言語モデル学習部２１では、言語モデ
ル推定・学習系２１Ａにおいてデータベース３２中に含
まれる各単語の統計的言語モデルの推定・学習が行なわ
れる一方、読み頻度学習系２１Ｂにおいて、データベー
ス３２中に含まれる各単語の読みに関する頻度（確率）
の学習が行なわれる。

【００３５】即ち、言語モデル推定・学習系２１Ａで
は、単語区切り手段３１（"Chasen"などの形態素解析プ
ログラム）が、データベース３２に含まれる全文章を単
語（形態素）に区切る。単語区切り手段３１は、区切っ
た単語を用いて、データベース３２に含まれる全単語の
種類と各単語の出現頻度とを調べ、頻度の高い方からデ
ータベース３２の中のほとんど（例えば９８％）をカバ
ーする単語（例えば２万語）を選び、選んだ単語を音声
認識用語彙として辞書形式のデータ（単語辞書）の形で
保持（登録）しておく。このとき各単語の可能な読みも
登録しておく。

【００３６】そして、この単語辞書に登録されている全
ての単語について、統計的連接関係計算手段３３が、出
現確率（ユニグラム）を計算し、このユニグラムに基づ
き、上記単語辞書中の全ての単語の組み合わせについ
て、統計的連接関係（バイグラム）の確率値Ｐ（ｗ_k｜
ｗ_i=1 ^k-1)を計算する。得られた統計的連接関係の確率
値Ｐ（ｗ_k｜ｗ_i=1 ^k-1)は、順次、連接関係記憶部３４
に蓄えられる。

【００３７】一方、読み頻度学習系２１Ｂでは、まず、
読み付与手段３５が、単語区切り手段３１を通じて得ら
れたデータベース３２中の全ての単語に、"Chasen"など
の形態素解析プログラムを用いて、読み（読みが複数あ
る場合は全ての読み）を自動的に付与する。そして、こ
のように読みを付与された各単語について、読み頻度計
算手段３６が、各単語毎に各読みの頻度を計算し、前記
の式（１）により相対頻度である確率値Ｐ（ｗ（ｒ）｜
ｗ）に変換して、読み頻度記憶部３７に、順次、蓄え
る。

【００３８】以上のような処理が、実際に音声認識
（「ディクテーション」）を行なう前の準備（学習）と
して行なわれる。次に、未知入力音声に対して実際に
「ディクテーション」を行なう過程について詳述する。
まず、マイク６を通じて未知音声が入力されると、その
入力音声はケプストラムやデルタケプストラム，デルタ
パワーなどの特徴パラメータ系列に変換された状態で文
仮説生成手段４１に入力される。すると、文仮説生成手
段４１は、その入力音声に対して、認識用語彙の組み合
わせとして可能な全ての文仮説を生成し、生成した各文
仮説に対して、その文仮説を構成する各単語の読みを前
記の単語辞書（メモリ８）に基づいて音素系列に置き換
える。このとき、各単語の読みが複数ある場合には、そ
の数だけ別々に系列が作成される。

【００３９】そして、得られた音素系列は、音響尤度計
算手段４２に入力され、音響尤度計算手段４２は、その
音素系列をＨＭＭ系列に置き換え、得られたＨＭＭ系列
に基づいて、入力音声の特徴パラメータ系列から生成さ
れる音響尤度Ｐ_A（ｗ_k-1 ⁿ( ｒ_k))を計算する。一
方、このとき、文仮説生成手段４３で生成された文仮説
が言語尤度計算手段４３に入力されており、言語尤度計
算手段４３では、入力文仮説について、連接関係記憶部
３４における単語のバイグラムと、読み頻度記憶部３７
における単語の読みの確率とを組み合わせて言語尤度Ｐ
_l（ｗ_k=1 ⁿ( ｒ _k))を計算する〔式（２）参照〕。

【００４０】得られた言語尤度Ｐ_l（ｗ_k=1 ⁿ( ｒ_k))
は、音響尤度計算手段４２で計算された音響尤度Ｐ
_A（ｗ_k-1 ⁿ( ｒ_k))とともに尤度組み合わせ手段４４
に入力され、尤度組み合わせ手段４４は、これらの言語
尤度Ｐ_l（ｗ_k=1 ⁿ( ｒ_k))と音響尤度Ｐ_A（ｗ_k-1 ⁿ
( ｒ_k))とに基づいて総合的尤度Ｐ（ｗ_k=1 ⁿ(r_k))を
計算する〔式（３）参照〕。

【００４１】そして、尤度組み合わせ手段４４は、文仮
説生成手段４１で生成された全ての文仮説についての総
合的尤度Ｐ（ｗ_k=1 ⁿ(r_k))の計算が終了すると、最も
大きい総合的尤度Ｐ（ｗ_k=1 ⁿ(r_k))を有する文仮説を
選んで、入力音声に対する音声認識結果として出力す
る。ここで、学習用テキストデータベース３２として、
ニュース原稿約５０万文章を用い、単語間の統計的連接
関係および読みの頻度（確率）の学習を行なった後、５
名のアナウンサーによる９９文章の音声のディクテーシ
ョン実験を行なった場合の単語正解精度の一例を次表１
に示す。

【００４２】

【表１】

【００４３】この表１に示すように、各単語の読みの確
率値を考慮しない場合、即ち、全ての読みの確率値を１
とした場合（前記の式（３）における重み係数Ｃを０と
した場合）、平均単語誤り率が２３．４％（単語正解精
度＝７６．６％）であったのに対し、上述のように各単
語の読みの確率値を考慮すると（重み係数Ｃを５とする
と）、平均単語誤り率が２２．１％（単語正解精度＝７
７．９％）に低下することが確認された。ここで、読み
の確率を算出するためのデータ量をより多くし、各単語
の読みを自動的に付与するプログラム（読み付与手段３
５）の性能を向上させれば、さらなる音声認識性能の向
上が期待できる。

【００４４】以上のように、本実施形態のシステム１
（音声認識方法，音声認識装置）によれば、学習用テキ
ストデータベース３２中の各単語の複数の読みのそれぞ
れの頻度を求めておき、その後、未知入力音声を認識す
る際に、言語モデルから計算される尤度に、単語の読み
に関する頻度を組み合わせて、音声を認識するので、常
に、単語の読みの頻度（確率）を考慮した音声認識を行
なうことができる。

【００４５】従って、読みの頻度が低いにもかかわら
ず、言語モデルから計算される尤度が高いために、誤っ
た単語が音声認識結果として出力されて音声認識精度が
劣化してしまうことを確実に防止することができ、精度
の高い音声認識を行なうことができる。また、上述した
言語モデル学習部２１としての機能と音声認識部２２と
しての機能とをもった音声認識プログラムを記録媒体１
０に記録すれば、音声認識機能をもたない既存のパソコ
ン（コンピュータ）であっても、この音声認識プログラ
ムを記録媒体１０から読み取ることによって、極めて容
易に、上述のような精度の高い音声認識を実現すること
ができ、これにより、上述した音声認識方法及び音声認
識装置の普及に大いに寄与する。

【００４６】なお、本発明は上述した実施形態に限定さ
れるものではなく、本発明の趣旨を逸脱しない範囲で種
々変形して実施することができる。

【００４７】

【発明の効果】以上詳述したように、本発明の音声認識
方法及び音声認識装置によれば、学習用テキストデータ
ベース中の各単語の複数の読みのそれぞれの頻度を求め
ておき、未知入力音声を認識する際に、言語モデルから
計算される尤度に、上記の単語の読みに関する頻度を組
み合わせて、音声を認識するので、常に、単語の読みの
頻度を考慮した音声認識を行なうことができる。従っ
て、読みの頻度が低いにもかかわらず、言語モデルから
計算される尤度が高いために、誤った単語が音声認識結
果として出力されて音声認識精度が劣化してしまうこと
を確実に防止することができ、精度の高い音声認識を行
なうことができる（請求項１，２）。

【００４８】また、本発明の記録媒体によれば、上述し
たような音声認識方法及び音声認識装置としての機能
を、コンピュータにて機能させるためのプログラムが記
録されているので、既存のコンピュータであっても、こ
のプログラムを本記録媒体から読み取ることによって、
極めて容易に、上述のような精度の高い音声認識を実現
することができ、これにより、上述した音声認識方法及
び音声認識装置の普及に大いに寄与する（請求項３）。

【図面の簡単な説明】

【図１】本発明の一実施形態としての音声認識装置とし
て機能するパーソナルコンピュータシステムの構成を示
す図である。

【図２】本発明の一実施形態としての音声認識装置の要
部の機能に着目した構成を示すブロック図である。

【符号の説明】

１パーソナルコンピュータシステム（音声認識装置）２本体３ディスプレイ４キーボード５マウス（ポインティングデバイス）６マイク（音声入力装置）７ＣＰＵ(Central Processing Unit) ８メモリ（記憶部）９ディスクドライブ１０記録媒体１１フロッピーディスク（ＦＤ）１２ＣＤ−ＲＯＭ１３ＭＯ（光磁気ディスク）２１言語モデル学習部２１Ａ言語モデル推定・学習系２１Ｂ読み頻度学習系２２音声認識部３１単語区切り手段３２学習用テキストデータベース３３統計的連接関係計算手段３４連接関係記憶部３５読み付与手段３６読み頻度計算手段（頻度演算手段）３７読み頻度記憶部４１文仮説生成手段４２音響尤度計算手段４３言語尤度計算手段（言語尤度演算手段）４４尤度組み合わせ手段

Claims

【特許請求の範囲】

【請求項１】学習用テキストデータベースを用いて、
該学習用テキストデータベース中の単語の統計的言語モ
デルを推定し、この推定言語モデルを用いて音声を認識
する方法において、該学習用テキストデータベース中の各単語の複数の読み
のそれぞれの頻度を求めておき、その後、未知入力音声を認識する際に、言語モデルから
計算される尤度に、該単語の読みに関する頻度を組み合
わせて、音声を認識することを特徴とする、音声認識方
法。
【請求項２】学習用テキストデータベースを用いて言
語モデルを学習する言語モデル学習部と、該言語モデル学習部で学習された言語モデルを用いて入
力音声の認識を行なう音声認識部とをそなえ、該言語モデル学習部が、該学習用テキストデータベース
中の各単語の複数の読みのそれぞれの頻度を求める頻度
演算手段を有するとともに、該音声認識部が、該頻度演算手段で得られた該単語の読
みに関する頻度を言語モデルから計算される尤度に組み
合わせて言語尤度を演算する言語尤度演算手段を有して
いることを特徴とする、音声認識装置。
【請求項３】学習用テキストデータベースを用いて言
語モデルを学習する際に該学習用テキストデータベース
中の各単語の複数の読みのそれぞれの頻度を求めること
が可能な言語モデル学習手段と、該言語モデル学習手段で学習された言語モデルを用いて
入力音声の認識を行なう際に該言語モデル学習手段で得
られた該単語の読みに関する頻度を言語モデルから計算
される尤度に組み合わせて言語尤度を演算することが可
能な音声認識手段との各機能を、コンピュータにて機能
させるプログラムを記録したコンピュータ読み取り可能
な記録媒体。