JPH11259088A - 音声認識方法及び音声認識装置並びに記録媒体 - Google Patents

音声認識方法及び音声認識装置並びに記録媒体

Info

Publication number
JPH11259088A
JPH11259088A JP10063601A JP6360198A JPH11259088A JP H11259088 A JPH11259088 A JP H11259088A JP 10063601 A JP10063601 A JP 10063601A JP 6360198 A JP6360198 A JP 6360198A JP H11259088 A JPH11259088 A JP H11259088A
Authority
JP
Japan
Prior art keywords
language model
word
learning
frequency
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10063601A
Other languages
English (en)
Inventor
Sadahiro Furui
貞煕 古井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo University of Science
Japan Society for Promotion of Science
Japan Society For Promotion of Machine Industry
Original Assignee
Tokyo University of Science
Japan Society for Promotion of Science
Japan Society For Promotion of Machine Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo University of Science, Japan Society for Promotion of Science, Japan Society For Promotion of Machine Industry filed Critical Tokyo University of Science
Priority to JP10063601A priority Critical patent/JPH11259088A/ja
Publication of JPH11259088A publication Critical patent/JPH11259088A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 学習用テキストデータベース中の各単語の複
数の読みのそれぞれの頻度を考慮した音声認識を行なう
ことにより、精度の高い音声認識結果を得られるように
する。 【解決手段】 学習用テキストデータベース32を用い
て言語モデルを学習する言語モデル学習部21と、この
言語モデル学習部21で学習された言語モデルを用いて
入力音声の認識を行なう音声認識部22とをそなえ、言
語モデル学習部21が、学習用テキストデータベース3
2中の各単語の複数の読みのそれぞれの頻度を求める頻
度演算手段36を有するとともに、音声認識部22が、
この頻度演算手段36で得られた単語の読みに関する頻
度を言語モデルから計算される尤度に組み合わせて言語
尤度を演算する言語尤度演算手段43を有するように構
成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、学習用テキストデ
ータベース中の単語の統計的言語モデルを推定し、この
推定言語モデルを用いて音声を認識する音声認識方法及
び音声認識装置に関するとともに、上記の音声認識方法
及び装置を実現するためのプログラムを記録した記録媒
体に関する。
【0002】
【従来の技術】音声でパーソナルコンピュータ(以下、
パソコンという)やワードプロセッサ(以下、ワープロ
という)等の電子機器を機能させたり、ニュース番組な
どにおいてアナウンサーが発声した音声を自動的に字幕
に変換したりするシステムを高い性能で実現するには、
音声の音響的性質のみならず言語的性質を十分考慮した
音声認識を行なう必要がある。
【0003】これまでに、言語的性質を用いる方法とし
ては、言語的性質を自動的に学習するための大量のテキ
ストデータベース、即ち、文字で書かれた大量の原稿を
集めて、それを形態素解析プログラムなどによって単語
(形態素)に自動的に区切り、区切った単語間の統計的
連接関係、具体的には、バイグラム,トライグラムなど
を計算する方法が広く用いられている。
【0004】この方法では、各単語の読み(発音)は、
単語辞書の形式で各単語毎に音響モデルとして蓄えてお
く。そして、未知入力音声を認識しようとする際には、
入力として可能な多数の単語列候補について、その単語
連接の統計的可能性をバイグラムやトライグラムを用い
て計算し、各単語の読みとしては、辞書に蓄えられてい
る全ての読みが等しく選択可能(同じ確率)であると仮
定して、入力音声と音響的に似ているかどうかを比較す
る方法がとられてきた。
【0005】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の技術では、各単語の読みの頻度が考慮されて
いないため、思わぬ音声認識誤りが生じる可能性があ
る。例えば、「円」という文字(単語)には、「え
ん」,「まる」などの読みがある。この内、「まる」と
いう読みは実際にはほとんど使われないが、学習用テキ
ストデータベースに「円」という単語が頻出すると、
「円(まる)」のバイグラムやトライグラムに大きな値
が与えられ、たまたま「・・・まる」と発音した音声の
認識結果として、「円」が出力されてしまう場合があ
る。
【0006】そこで、単語の読みの違いによって分け
て、「円(まる)」と「円(えん)」を別々の単語とし
て扱って統計的連接関係を計算すれば、このような現象
は原理的に解決可能であるが、このような手法をとると
語彙数が膨大になってしまい、結果として、バイグラム
や、特にトライグラムを正確に計算することができなく
なってしまう。
【0007】本発明は、このような課題に鑑み創案され
たもので、学習用テキストデータベース中の各単語の複
数の読みのそれぞれの頻度を考慮した音声認識を行なう
ことにより、精度の高い音声認識結果を得られるように
した、音声認識方法及び音声認識装置を提供することを
目的とする。また、このような音声認識をコンピュータ
にて実現するためのプログラムを記録した記録媒体を提
供することも目的とする。
【0008】
【課題を解決するための手段】このため、請求項1記載
の本発明の音声認識方法は、学習用テキストデータベー
スを用いて、その学習用テキストデータベース中の単語
の統計的言語モデルを推定し、この推定言語モデルを用
いて音声を認識する方法において、上記の学習用テキス
トデータベース中の各単語の複数の読みのそれぞれの頻
度を求めておき、その後、未知入力音声を認識する際
に、言語モデルから計算される尤度に、上記の単語の読
みに関する頻度を組み合わせて、音声を認識することを
特徴としている。
【0009】また、請求項2記載の本発明の音声認識装
置は、学習用テキストデータベースを用いて言語モデル
を学習する言語モデル学習部と、この言語モデル学習部
で学習された言語モデルを用いて入力音声の認識を行な
う音声認識部とをそなえ、上記の言語モデル学習部が、
上記の学習用テキストデータベース中の各単語の複数の
読みのそれぞれの頻度を求める頻度演算手段を有すると
ともに、上記の音声認識部が、この頻度演算手段で得ら
れた単語の読みに関する頻度を言語モデルから計算され
る尤度に組み合わせて言語尤度を演算する言語尤度演算
手段を有していることを特徴としている。
【0010】さらに、請求項3記載の本発明の記録媒体
は、コンピュータ読み取り可能なものであって、学習用
テキストデータベースを用いて言語モデルを学習する際
にその学習用テキストデータベース中の各単語の複数の
読みのそれぞれの頻度を求めることが可能な言語モデル
学習手段と、この言語モデル学習手段で学習された言語
モデルを用いて入力音声の認識を行なう際に言語モデル
学習手段で得られた上記の単語の読みに関する頻度を言
語モデルから計算される尤度に組み合わせて言語尤度を
演算することが可能な音声認識手段との各機能を、コン
ピュータにて機能させるプログラムが記録されているこ
とを特徴としている。
【0011】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1は本発明の一実施形態として
の音声認識装置として機能するパーソナルコンピュータ
システムの構成を示すブロック図で、この図1に示すよ
うに、本パーソナルコンピュータシステム1(以下、単
に「パソコン1」といったり「システム1」といったり
することがある)は、本体2,ディスプレイ3,キーボ
ード4,マウス(ポインティングデバイス)5及びマイ
ク(音声入力装置)6などをそなえて構成されている。
【0012】そして、このシステム1では、マイク6を
用いて任意の音声を入力すると、その音声に対する音声
認識処理が行なわれ、音声認識結果が例えば文字情報と
してディスプレイ3上にリアルタイムに表示されるよう
になっている。ただし、本実施形態では、このシステム
1をテレビジョン放送音声を音声認識によって自動的に
文字に変換して字幕として提供する「ディクテーション
システム」と呼ばれるシステムに適用することを想定す
る。
【0013】ここで、上記の音声認識処理は、例えば、
CPU(Central Processing Unit)7が、本体2内のハ
ードディスク等のメモリ(記憶部)8に記憶されている
音声認識プログラムを読み取り、そのプログラムに従っ
て動作することによって実行される。なお、上記の音声
認識プログラムは、例えば、次のような方法〜でメ
モリ8に保存しておけばよい。
【0014】自システム1のキーボード4を用いて作
成したものをメモリ8に保存する。 他のパソコンで作成され、フロッピーディスク(F
D)11やCD−ROM12,MO(光磁気ディスク)
13などのコンピュータ読み取り可能な各種記録媒体1
0に保存されたものを本体2に装備されたディスクドラ
イブ9を通じてインストールすることによってメモリ8
に保存する。
【0015】他のパソコンで作成されたものをインタ
ーネットやLAN(Local Area Network)などの所望の通
信網を介して受信することによりメモリ8に保存する。
そして、具体的に、上記のCPU7が音声認識プログラ
ムを読み取って動作することにより、パソコン1が音声
認識装置として機能する場合の要部の構成に着目する
と、本実施形態のパソコン1は、例えば図2に示すよう
に、学習用テキストデータベース32を用いて言語モデ
ルを学習する言語モデル学習部21と、この言語モデル
学習部21で学習された言語モデルを用いて入力音声の
認識を行なう音声認識部22とをそなえている。
【0016】さらに、言語モデル学習部21は、この図
2に示すように、単語区切り手段31,統計的連接関係
計算手段33,連接関係記憶部34,読み付与手段3
5,読み頻度計算手段36及び読み頻度記憶部37を有
して構成され、音声認識部22は、文仮説生成手段4
1,音響尤度計算手段42,言語尤度計算手段43,尤
度組み合わせ手段44を有して構成されている。
【0017】ここで、言語モデル学習部21において、
単語区切り手段31は、学習用テキストデータベース3
2内の文章を、フリーソフトウェアである“Juman"や"C
hasen"などの公知の形態素解析プログラムを用いて、単
語(正確には、形態素)に区切るものである。ただし、
本実施形態では、少しでも単語の誤読を解消するため
に、漢数字に関しては単位毎(例えば、「八千三百四十
七」なら「八千」,「三百」,「四十」,「七」)に区
切るように工夫している。なお、「ディクテーションシ
ステム」における学習用テキストデータベース32とし
ては、例えば、過去の放送音声を文字に書起したものや
放送用の原稿などを用い(CD−ROM等によって提供
される)、ここでは、50万文章、あるいはそれ以上の
文章を用いる。
【0018】また、統計的連接関係計算手段33は、上
記の単語区切り手段31によって得られた各単語につい
てバイグラム(もしくは、トライグラム,フォーグラ
ム,ファイブグラム,・・・)と呼ばれる確率値を計算
することによって、学習用テキストデータベース32
(以下、単に「データベース32」ということがある)
中における各単語の統計的連接関係を計算するものであ
る。
【0019】ここで、上記のバイグラムとは、或る単語
k-1 (ただし、kは或る文章中の単語の位置を表す)
が与えられたときに、その単語wk-1 に連接しうる単語
kの確率P(wk |wk-1 )を表し、トライグラムと
は、このバイグラムに基づいて得られる確率値で、連接
する2つの単語wk-1 ,wk-2 が与えられたときに、そ
の次に連接しうる単語wk の確率P(wk |wk-1
k-2 )を表す。
【0020】同様に、フォーグラム,ファイブグラム,
・・・もそれぞれ前の計算で得られたトライグラム,フ
ォーグラム,・・・に基づいて得られる確率値で、この
ように計算過程を増やすほど得られる連接関係の確率値
の精度は向上する。基本的に、上記の統計的連接関係の
計算には、バイグラム,トライグラム,フォーグラム,
・・・のいずれを適用してもよいが、あまり計算過程を
増やすと計算時間がかかり過ぎるので、本実施形態で
は、適用システムがリアルタイム性の要求される「ディ
クテーションシステム」であることを考慮して、バイグ
ラムを適用する。
【0021】さらに、上記の連接関係記憶部34は、こ
の統計的連接関係計算手段33で計算されたバイグラム
の確率値を蓄えておくものであり、本実施形態では、こ
れらの単語区切り手段31,統計的連接関係計算手段3
3及び連接関係記憶部34によって、データベース32
中に含まれる各単語の統計的言語モデルを推定して学習
する言語モデル推定・学習系21Aが形成されている。
【0022】また、上記の読み付与手段35は、単語区
切り手段31によって得られたデータベース32内の各
単語に対し、公知の形態素解析プログラム("Chasen"
等)を用いて、その読み(複数の読みがある場合はその
全ての読み)を自動的に付与するものであり、読み頻度
計算手段(頻度演算手段)36は、この読み付与手段3
5で読みを付与されたデータベース32内の各単語
(w)の読み(r)の頻度(複数の読みがある場合は各
読みのそれぞれの頻度)を計算にて求めて、得られた頻
度情報を相対頻度である確率値P(w(r)|w)に変
換するもので、この確率値P(w(r)|w)は、次式
(1)により計算される。
【0023】 P(w(r)|w)=N(w(r))/N(w)・・・(1) なお、上記の式(1)において、N(w)は、データベ
ース32内の或る単語wの出現頻度を表し、N(w
(r))は、データベース32において読みrが付与さ
れた単語wの出現頻度を表す。さらに、上記の読み頻度
記憶部37は、読み頻度計算手段36で得られた読みの
確率値P(w(r)|w)を蓄えるものであり、本実施
形態では、単語区切り手段31,読み付与手段35,読
み頻度計算手段36及び読み頻度記憶部37によって、
データベース32中に含まれる各単語の読みに関する頻
度(確率)を学習する読み頻度学習系21Bが形成され
ている。
【0024】一方、図2に示す音声認識部22におい
て、文仮説生成手段41は、未知入力音声に関して、入
力として考えられる全ての文章の仮説(以下、文仮説と
いう)を生成し、得られた各文仮説を音素系列に変換す
るものである。なお、文仮説の生成は、認識対象語彙の
全ての組み合わせを生成することによって行ない、文仮
説の音素系列への変換は、辞書(テーブル)形式のデー
タ(単語辞書:図示略)としてメモリ8に記憶(登録)
されている各単語の種々の読みを順に組み合わせること
によって行なう。
【0025】また、音響尤度計算手段42は、この文仮
説生成手段41で生成された各文仮説を音素系列で表し
たものに音響モデルを割り当て、これと入力音声とに基
づいて、音響尤度PA (wk-1 n ( rk ))(nは文仮説
中の単語数である)を計算するものである。このとき、
音響モデルとしては、音素を隠れマルコフモデル(HM
M)で表したものを用い、入力音声には、音声波形をケ
プストラムなどの特徴パラメータに変換したものを用い
る。なお、ケプストラムなどの特徴パラメータに変換す
る方法や、特徴パラメータとHMMから音響尤度を計算
する方法については、例えば、音響・音声工学(古井貞
煕著:近代科学社)等に説明されている公知の方法を用
いる。
【0026】さらに、言語尤度計算手段(言語尤度演算
手段)43は、上記の読み頻度学習系21Bにおける読
み頻度計算手段36で得られた単語の読みに関する頻度
を言語モデル推定・学習系21Aにおいて言語モデルか
ら計算される尤度に組み合わせて言語尤度を演算するも
ので、具体的には、文仮説生成手段41で生成された各
文仮説について、その単語系列に対応する統計的連接関
係(バイグラム)の確率値と各読みの確率値とをそれぞ
れ連接関係記憶部34及び読み頻度記憶部37から取り
出し、次式(2)に示すように両確率値を組み合わせて
言語尤度を計算するようになっている。
【0027】
【数1】
【0028】ここで、上式(2)において、左辺のPl
(wk=1 n ( rk ))が求めるべき言語尤度、右辺第1項
のP(wk ( rk ) |wk ) B が文仮説中のk番目の単
語の読みrの確率値(ただし、Bは重み係数)、右辺第
2項のP(wk |wi=1 k-1)が統計的連接関係(バイグ
ラム)の確率値である。なお、従来の音声認識で用いら
れる言語尤度の計算式は、上式(2)の右辺第1項〔P
(wk ( rk ) |wk) B 〕が“1”に固定されたもの
に相当する(全ての読みの確率を同じ確率としてい
る)。
【0029】なお、上記の式(2)は、単語が細分化さ
れてデータがスパースになることを防止するために、本
来なら単語の読みごとに計算すべき次式(2)′を"cla
ss Ngram"の考え方を応用して近似したものであるが、
原理的には、次式(2)′を上記の言語尤度の計算に適
用してもよい。
【0030】
【数2】
【0031】また、尤度組み合わせ手段44は、全ての
文仮説について、この言語尤度計算手段43で計算され
た言語尤度Pl (wk=1 n ( rk ))を音響尤度計算手段
42で計算された音響尤度PA (wk-1 n ( rk ))と、
次式(3)に示すように組み合わせて総合的尤度P(w
k=1 n (rk ))を計算するもので、この計算の結果、全て
の文仮説のうちで最も大きい総合的尤度P(wk=1 n (r
k ))に対応する単語w k を選んで音声認識結果として出
力するようになっている。
【0032】 P(wk=1 n ( rk ))=Pl (wk=1 n ( rk ))C A (wk=1 n ( rk ))e np ・・・(3) なお、上式(3)において、Cは言語尤度Pl (wk=1
n ( rk ))に対する重み係数であり、ep は1回の単語
間遷移に対するペナルティである。つまり、上記の音声
認識プログラムは、上記の各手段31,33,35,3
6,41〜44及び各記憶部34,37としての機能
(本実施形態の要部に着目すると以下の,に示すよ
うな機能)を、コンピュータ(CPU7)にて機能させ
るためのもので、例えば、上述したようにフロッピーデ
ィスク(FD)11やCD−ROM12,MO(光磁気
ディスク)13などの記録媒体10に記録されることに
よって、任意のパソコンにインストールすることが可能
になる。
【0033】データベース32を用いて言語モデルを
学習する際にそのデータベース32中の各単語の複数の
読みのそれぞれの頻度を求めることが可能な言語モデル
学習部21としての機能。 言語モデル学習部21で学習された言語モデルを用い
て入力音声の認識を行なう際に言語モデル学習部21で
得られた単語の読みに関する頻度を言語モデルから計算
される尤度に組み合わせて言語尤度を演算することが可
能な音声認識部22としての機能。
【0034】以下、上述のごとく構成された本実施形態
のシステム(音声認識装置)1の動作について詳述す
る。まず、学習用テキストデータベース32として、放
送用の原稿などの50万文章を言語モデル学習部21に
与える。すると、言語モデル学習部21では、言語モデ
ル推定・学習系21Aにおいてデータベース32中に含
まれる各単語の統計的言語モデルの推定・学習が行なわ
れる一方、読み頻度学習系21Bにおいて、データベー
ス32中に含まれる各単語の読みに関する頻度(確率)
の学習が行なわれる。
【0035】即ち、言語モデル推定・学習系21Aで
は、単語区切り手段31("Chasen"などの形態素解析プ
ログラム)が、データベース32に含まれる全文章を単
語(形態素)に区切る。単語区切り手段31は、区切っ
た単語を用いて、データベース32に含まれる全単語の
種類と各単語の出現頻度とを調べ、頻度の高い方からデ
ータベース32の中のほとんど(例えば98%)をカバ
ーする単語(例えば2万語)を選び、選んだ単語を音声
認識用語彙として辞書形式のデータ(単語辞書)の形で
保持(登録)しておく。このとき各単語の可能な読みも
登録しておく。
【0036】そして、この単語辞書に登録されている全
ての単語について、統計的連接関係計算手段33が、出
現確率(ユニグラム)を計算し、このユニグラムに基づ
き、上記単語辞書中の全ての単語の組み合わせについ
て、統計的連接関係(バイグラム)の確率値P(wk
i=1 k-1)を計算する。得られた統計的連接関係の確率
値P(wk |wi=1 k-1)は、順次、連接関係記憶部34
に蓄えられる。
【0037】一方、読み頻度学習系21Bでは、まず、
読み付与手段35が、単語区切り手段31を通じて得ら
れたデータベース32中の全ての単語に、"Chasen"など
の形態素解析プログラムを用いて、読み(読みが複数あ
る場合は全ての読み)を自動的に付与する。そして、こ
のように読みを付与された各単語について、読み頻度計
算手段36が、各単語毎に各読みの頻度を計算し、前記
の式(1)により相対頻度である確率値P(w(r)|
w)に変換して、読み頻度記憶部37に、順次、蓄え
る。
【0038】以上のような処理が、実際に音声認識
(「ディクテーション」)を行なう前の準備(学習)と
して行なわれる。次に、未知入力音声に対して実際に
「ディクテーション」を行なう過程について詳述する。
まず、マイク6を通じて未知音声が入力されると、その
入力音声はケプストラムやデルタケプストラム,デルタ
パワーなどの特徴パラメータ系列に変換された状態で文
仮説生成手段41に入力される。すると、文仮説生成手
段41は、その入力音声に対して、認識用語彙の組み合
わせとして可能な全ての文仮説を生成し、生成した各文
仮説に対して、その文仮説を構成する各単語の読みを前
記の単語辞書(メモリ8)に基づいて音素系列に置き換
える。このとき、各単語の読みが複数ある場合には、そ
の数だけ別々に系列が作成される。
【0039】そして、得られた音素系列は、音響尤度計
算手段42に入力され、音響尤度計算手段42は、その
音素系列をHMM系列に置き換え、得られたHMM系列
に基づいて、入力音声の特徴パラメータ系列から生成さ
れる音響尤度PA (wk-1 n( rk ))を計算する。一
方、このとき、文仮説生成手段43で生成された文仮説
が言語尤度計算手段43に入力されており、言語尤度計
算手段43では、入力文仮説について、連接関係記憶部
34における単語のバイグラムと、読み頻度記憶部37
における単語の読みの確率とを組み合わせて言語尤度P
l (wk=1 n ( r k ))を計算する〔式(2)参照〕。
【0040】得られた言語尤度Pl (wk=1 n ( rk ))
は、音響尤度計算手段42で計算された音響尤度P
A (wk-1 n ( rk ))とともに尤度組み合わせ手段44
に入力され、尤度組み合わせ手段44は、これらの言語
尤度Pl (wk=1 n ( rk ))と音響尤度PA (wk-1 n
( rk ))とに基づいて総合的尤度P(wk=1 n (rk ))を
計算する〔式(3)参照〕。
【0041】そして、尤度組み合わせ手段44は、文仮
説生成手段41で生成された全ての文仮説についての総
合的尤度P(wk=1 n (rk ))の計算が終了すると、最も
大きい総合的尤度P(wk=1 n (rk ))を有する文仮説を
選んで、入力音声に対する音声認識結果として出力す
る。ここで、学習用テキストデータベース32として、
ニュース原稿約50万文章を用い、単語間の統計的連接
関係および読みの頻度(確率)の学習を行なった後、5
名のアナウンサーによる99文章の音声のディクテーシ
ョン実験を行なった場合の単語正解精度の一例を次表1
に示す。
【0042】
【表1】
【0043】この表1に示すように、各単語の読みの確
率値を考慮しない場合、即ち、全ての読みの確率値を1
とした場合(前記の式(3)における重み係数Cを0と
した場合)、平均単語誤り率が23.4%(単語正解精
度=76.6%)であったのに対し、上述のように各単
語の読みの確率値を考慮すると(重み係数Cを5とする
と)、平均単語誤り率が22.1%(単語正解精度=7
7.9%)に低下することが確認された。ここで、読み
の確率を算出するためのデータ量をより多くし、各単語
の読みを自動的に付与するプログラム(読み付与手段3
5)の性能を向上させれば、さらなる音声認識性能の向
上が期待できる。
【0044】以上のように、本実施形態のシステム1
(音声認識方法,音声認識装置)によれば、学習用テキ
ストデータベース32中の各単語の複数の読みのそれぞ
れの頻度を求めておき、その後、未知入力音声を認識す
る際に、言語モデルから計算される尤度に、単語の読み
に関する頻度を組み合わせて、音声を認識するので、常
に、単語の読みの頻度(確率)を考慮した音声認識を行
なうことができる。
【0045】従って、読みの頻度が低いにもかかわら
ず、言語モデルから計算される尤度が高いために、誤っ
た単語が音声認識結果として出力されて音声認識精度が
劣化してしまうことを確実に防止することができ、精度
の高い音声認識を行なうことができる。また、上述した
言語モデル学習部21としての機能と音声認識部22と
しての機能とをもった音声認識プログラムを記録媒体1
0に記録すれば、音声認識機能をもたない既存のパソコ
ン(コンピュータ)であっても、この音声認識プログラ
ムを記録媒体10から読み取ることによって、極めて容
易に、上述のような精度の高い音声認識を実現すること
ができ、これにより、上述した音声認識方法及び音声認
識装置の普及に大いに寄与する。
【0046】なお、本発明は上述した実施形態に限定さ
れるものではなく、本発明の趣旨を逸脱しない範囲で種
々変形して実施することができる。
【0047】
【発明の効果】以上詳述したように、本発明の音声認識
方法及び音声認識装置によれば、学習用テキストデータ
ベース中の各単語の複数の読みのそれぞれの頻度を求め
ておき、未知入力音声を認識する際に、言語モデルから
計算される尤度に、上記の単語の読みに関する頻度を組
み合わせて、音声を認識するので、常に、単語の読みの
頻度を考慮した音声認識を行なうことができる。従っ
て、読みの頻度が低いにもかかわらず、言語モデルから
計算される尤度が高いために、誤った単語が音声認識結
果として出力されて音声認識精度が劣化してしまうこと
を確実に防止することができ、精度の高い音声認識を行
なうことができる(請求項1,2)。
【0048】また、本発明の記録媒体によれば、上述し
たような音声認識方法及び音声認識装置としての機能
を、コンピュータにて機能させるためのプログラムが記
録されているので、既存のコンピュータであっても、こ
のプログラムを本記録媒体から読み取ることによって、
極めて容易に、上述のような精度の高い音声認識を実現
することができ、これにより、上述した音声認識方法及
び音声認識装置の普及に大いに寄与する(請求項3)。
【図面の簡単な説明】
【図1】本発明の一実施形態としての音声認識装置とし
て機能するパーソナルコンピュータシステムの構成を示
す図である。
【図2】本発明の一実施形態としての音声認識装置の要
部の機能に着目した構成を示すブロック図である。
【符号の説明】
1 パーソナルコンピュータシステム(音声認識装置) 2 本体 3 ディスプレイ 4 キーボード 5 マウス(ポインティングデバイス) 6 マイク(音声入力装置) 7 CPU(Central Processing Unit) 8 メモリ(記憶部) 9 ディスクドライブ 10 記録媒体 11 フロッピーディスク(FD) 12 CD−ROM 13 MO(光磁気ディスク) 21 言語モデル学習部 21A 言語モデル推定・学習系 21B 読み頻度学習系 22 音声認識部 31 単語区切り手段 32 学習用テキストデータベース 33 統計的連接関係計算手段 34 連接関係記憶部 35 読み付与手段 36 読み頻度計算手段(頻度演算手段) 37 読み頻度記憶部 41 文仮説生成手段 42 音響尤度計算手段 43 言語尤度計算手段(言語尤度演算手段) 44 尤度組み合わせ手段

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 学習用テキストデータベースを用いて、
    該学習用テキストデータベース中の単語の統計的言語モ
    デルを推定し、この推定言語モデルを用いて音声を認識
    する方法において、 該学習用テキストデータベース中の各単語の複数の読み
    のそれぞれの頻度を求めておき、 その後、未知入力音声を認識する際に、言語モデルから
    計算される尤度に、該単語の読みに関する頻度を組み合
    わせて、音声を認識することを特徴とする、音声認識方
    法。
  2. 【請求項2】 学習用テキストデータベースを用いて言
    語モデルを学習する言語モデル学習部と、 該言語モデル学習部で学習された言語モデルを用いて入
    力音声の認識を行なう音声認識部とをそなえ、 該言語モデル学習部が、該学習用テキストデータベース
    中の各単語の複数の読みのそれぞれの頻度を求める頻度
    演算手段を有するとともに、 該音声認識部が、該頻度演算手段で得られた該単語の読
    みに関する頻度を言語モデルから計算される尤度に組み
    合わせて言語尤度を演算する言語尤度演算手段を有して
    いることを特徴とする、音声認識装置。
  3. 【請求項3】 学習用テキストデータベースを用いて言
    語モデルを学習する際に該学習用テキストデータベース
    中の各単語の複数の読みのそれぞれの頻度を求めること
    が可能な言語モデル学習手段と、 該言語モデル学習手段で学習された言語モデルを用いて
    入力音声の認識を行なう際に該言語モデル学習手段で得
    られた該単語の読みに関する頻度を言語モデルから計算
    される尤度に組み合わせて言語尤度を演算することが可
    能な音声認識手段との各機能を、コンピュータにて機能
    させるプログラムを記録したコンピュータ読み取り可能
    な記録媒体。
JP10063601A 1998-03-13 1998-03-13 音声認識方法及び音声認識装置並びに記録媒体 Pending JPH11259088A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10063601A JPH11259088A (ja) 1998-03-13 1998-03-13 音声認識方法及び音声認識装置並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10063601A JPH11259088A (ja) 1998-03-13 1998-03-13 音声認識方法及び音声認識装置並びに記録媒体

Publications (1)

Publication Number Publication Date
JPH11259088A true JPH11259088A (ja) 1999-09-24

Family

ID=13233974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10063601A Pending JPH11259088A (ja) 1998-03-13 1998-03-13 音声認識方法及び音声認識装置並びに記録媒体

Country Status (1)

Country Link
JP (1) JPH11259088A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082691A (ja) * 2000-08-08 2002-03-22 Koninkl Philips Electronics Nv 発声内に含まれる会社名の自動認識方法
JP2004240154A (ja) * 2003-02-06 2004-08-26 Hitachi Ltd 情報認識装置
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム
JP2008243227A (ja) * 2001-10-15 2008-10-09 Silverbrook Research Pty Ltd 手書き文字認識で使用されるテンプレートを生成する方法および装置
KR20190059185A (ko) * 2017-11-22 2019-05-30 한양대학교 산학협력단 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082691A (ja) * 2000-08-08 2002-03-22 Koninkl Philips Electronics Nv 発声内に含まれる会社名の自動認識方法
JP2008243227A (ja) * 2001-10-15 2008-10-09 Silverbrook Research Pty Ltd 手書き文字認識で使用されるテンプレートを生成する方法および装置
JP4568774B2 (ja) * 2001-10-15 2010-10-27 シルバーブルック リサーチ ピーティワイ リミテッド 手書き文字認識で使用されるテンプレートを生成する方法
US8285048B2 (en) 2001-10-15 2012-10-09 Silverbrook Research Pty Ltd Classifying a string formed from hand-written characters
JP2004240154A (ja) * 2003-02-06 2004-08-26 Hitachi Ltd 情報認識装置
JP2005242183A (ja) * 2004-02-27 2005-09-08 Toshiba Corp 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム
KR20190059185A (ko) * 2017-11-22 2019-05-30 한양대학교 산학협력단 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템

Similar Documents

Publication Publication Date Title
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US7124080B2 (en) Method and apparatus for adapting a class entity dictionary used with language models
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
US8065149B2 (en) Unsupervised lexicon acquisition from speech and text
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
JP2002287787A (ja) 明確化言語モデル
WO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JP7295839B2 (ja) 音節に基づく自動音声認識
CN117935785A (zh) 用于在端到端模型中跨语言语音识别的基于音素的场境化
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
EP1887562B1 (en) Speech recognition by statistical language model using square-root smoothing
JP4820240B2 (ja) 単語分類装置及び音声認識装置及び単語分類プログラム
JP4089861B2 (ja) 音声認識文章入力装置
JPH11259088A (ja) 音声認識方法及び音声認識装置並びに記録媒体
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
US6772116B2 (en) Method of decoding telegraphic speech
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2004184951A (ja) クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
JP2008242059A (ja) 音声認識辞書作成装置および音声認識装置
JP2001100788A (ja) 音声処理装置および音声処理方法、並びに記録媒体
Hasegawa-Johnson et al. Fast transcription of speech in low-resource languages

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040122

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20031215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040122