JPH11344991A - 音声認識装置および記憶媒体 - Google Patents

音声認識装置および記憶媒体

Info

Publication number
JPH11344991A
JPH11344991A JP10166248A JP16624898A JPH11344991A JP H11344991 A JPH11344991 A JP H11344991A JP 10166248 A JP10166248 A JP 10166248A JP 16624898 A JP16624898 A JP 16624898A JP H11344991 A JPH11344991 A JP H11344991A
Authority
JP
Japan
Prior art keywords
likelihood
occurrence
recognition
language model
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10166248A
Other languages
English (en)
Inventor
Shigeaki Komatsu
慈明 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP10166248A priority Critical patent/JPH11344991A/ja
Publication of JPH11344991A publication Critical patent/JPH11344991A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 高い認識精度を維持しつつ、漢字に読みを振
ったテキストデータベースの使用量および記憶量を軽減
することができる音声認識装置を実現する。 【解決手段】 ステップ10で入力音声の特徴パラメー
タを抽出し、ステップ11で文節構文および単語辞書を
用いて認識候補を選出し、ステップ13で文字音素変換
規則を用いて認識候補を音素に変換する。続いてステッ
プ18で音素に対応する標準パターンを読出すととも
に、特徴パラメータと比較して類似性尤度を算出する。
続いてステップ20で第1の統計的言語モデルを用いて
認識候補についてのトライグラムによる生起尤度を検索
し、ステップ22で第2の統計的言語モデルを用いて読
み付きバイグラムによる生起尤度を検索し、ステップ2
4で類似性尤度、トライグラムによる生起尤度およびバ
イグラムによる生起尤度を加算して総合尤度を算出す
る。そして、ステップ30で最も高い総合尤度の認識候
補を認識結果として選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声を認識する音
声認識装置、およびその音声認識装置が音声認識を行う
ためのコンピュータプログラムが記憶された記憶媒体に
関し、音声認識の精度を高めることができるものであ
る。
【0002】
【従来の技術】従来、日本語音声認識方法として、たと
えば特開平6−12091号公報に記載のものが知られ
ている。図9は、その日本語音声認識方法を実施した装
置の構成を示す説明図である。図9に示す標準パターン
メモリ34には、学習用音声データベースから作成され
た音素標準パターンが記憶されており、メモリ40に
は、文字の読みを振った学習用テキストデータベースか
ら作成された、読みを振った文字の生起順序に関する統
計的言語モデル41と、学習用テキストデータベースか
ら作成された、日本語文節の構造が単語の遷移規則とし
て記述されている文節構文42と、読みを振った単語辞
書43と、読みを振った仮名および漢字を音素の記号列
に変換する文字音素変換規則44とが記憶されている。
【0003】そして、音声信号入力端子31から入力さ
れた音声信号は、特徴抽出部32においてディジタル信
号に変換され、さらにLPCケプストラム分析された
後、1フレーム(1時点、たとえば10ミリ秒)ごとに
特徴パラメータに変換される。そして、認識部33は、
文節構文42および単語辞書43を用いて上記変換され
た特徴パラメータに対応する認識候補を選出し、その選
出した認識候補の音素を文字音素変換規則44を用いて
抽出し、その抽出した音素に対応する標準パターンを標
準パターンメモリ34から読出し、その読出した標準パ
ターンと上記特徴パラメータとを比較して入力音声の特
徴パラメータの類似性尤度を求める。また、認識部33
は、統計的言語モデル41を用いて上記選出した認識候
補の生起尤度を求める。
【0004】たとえば、入力音声のi番目の文字を認識
するには、統計的言語モデルにおける読みを振った文字
の出現順序に関するトライグラムを用いて(i−2)番
目および(i−1)番目の文字の認識結果を基に、i番
目に出現する文字の生起尤度を各文字について求める。
また、i番目の文字の特徴パラメータと標準パタンとの
類似性を示す類似性尤度を求める。そして、生起尤度と
類似性尤度の和を総合尤度とする。このようにして、読
みを振った仮名・漢字候補の選出と、それらについての
標準パタンとの照合と、その総合尤度から認識結果文字
を得る操作とを音声区間が終わるまで繰り返し、最後
に、それまで得られた認識結果文字を認識結果出力部3
5に送り、その順に仮名、漢字系列として出力する。
【0005】
【発明が解決しようとする課題】しかし、上記従来のも
のは、漢字の読みを振ったテキストデータベースから作
成された読み付きの仮名および漢字のトライグラムを用
いているため、漢字の読みを振っていないテキストデー
タベースから作成された読み無しの仮名および漢字のト
ライグラムよりも統計的言語モデルとしての認識精度は
高くなるが、漢字に読みが振ってある分、大量のテキス
トデータベースが必要である。しかも、読みを振ってい
ないテキストデータベースは、新聞記事などから大量に
入手できるが、読みを振ったテキストデータベースは、
大量に入手するのが困難であるという問題もある。ま
た、読み付きのトライグラムは、読み無しのトライグラ
ムよりも記憶量が多くなるという問題もある。
【0006】そこで、本発明は、高い認識精度を維持し
つつ、漢字に読みを振ったテキストデータベースの使用
量および記憶量を軽減することができる音声認識装置、
およびその音声認識装置によって音声認識を行うための
コンピュータプログラムが記憶された記憶媒体を実現す
ることを目的とする。
【0007】
【課題を解決するための手段】本発明は、上記目的を達
成するため、請求項1に記載の発明では、音声をその音
声に対応する特徴パラメータの時系列に変換する変換手
段と、テキストデータベースから作成された生起順序に
関する統計的言語モデルを用いて認識候補についての生
起の尤度を算出する生起尤度算出手段と、前記変換手段
によって変換された特徴パラメータの時系列を構成する
各特徴パラメータと、標準パターンとを照合することに
より、認識候補についての類似の尤度を算出する類似性
尤度算出手段とを備え、前記算出された生起の尤度およ
び類似の尤度から総合尤度を各認識候補ごとに算出し、
その算出された総合尤度の中で高い総合尤度の認識候補
を認識結果とする音声認識装置において、前記統計的言
語モデルは、テキストデータベースから作成されたN組
の仮名および漢字の生起順序に関する第1の統計的言語
モデルと、漢字に読みを振ったテキストデータベースか
ら作成されたN未満であるM組の読みを振った仮名およ
び漢字の生起順序に関する第2の統計的言語モデルとか
ら構成されており、前記生起尤度算出手段は、前記第1
の統計的言語モデルおよび第2の統計的言語モデルを用
いて前記各認識候補についての生起の尤度を算出するよ
うに構成されているという技術的手段を採用する。
【0008】請求項2に記載の発明では、請求項1に記
載の音声認識装置において、前記生起尤度算出手段は、
日本語の文節構造を単語の遷移規則として記述した文法
を用いた日本語の構文と、読みを振った仮名および漢字
系列の単語の集合から構成される単語辞書と、前記第1
の統計的言語モデルと、前記第2の統計的言語モデルと
を用いて前記各認識候補についての生起の尤度を算出す
るように構成されているという技術的手段を採用する。
【0009】請求項3に記載の発明では、請求項1に記
載の音声認識装置において、前記変換手段は、仮名もし
くは漢字ごとに発声された音声をその音声に対応する特
徴パラメータの時系列に変換するように構成されてお
り、前記生起尤度算出手段は、読みを振った仮名および
漢字の集合から構成される単漢字辞書と、前記第1の統
計的言語モデルと、前記第2の統計的言語モデルとを用
いて前記各認識候補についての生起の尤度を算出するよ
うに構成されているという技術的手段を採用する。
【0010】請求項4に記載の発明では、請求項1ない
し請求項3のいずれか1つに記載の音声認識装置におい
て、前記変換手段は、音節ごとに無音区間を設けて発声
された音声をその音声に対応する特徴パラメータの時系
列に変換するように構成されており、前記類似性尤度算
出手段は、前記特徴パラメータの時系列の中に含まれる
無音区間に基づいて前記特徴パラメータを音節ごとに切
り出す切出し手段を備え、この切出し手段によって切り
出された特徴パラメータと前記標準パターンとを照合し
て各音節ごとに類似の尤度をそれぞれ算出するように構
成されているという技術的手段を採用する。
【0011】請求項5に記載の発明では、請求項1ない
し請求項4のいずれか1つに記載の音声認識装置におい
て、前記生起尤度算出手段は、前記第1の統計的言語モ
デルを用いて算出した第1の生起の尤度と、前記第2の
統計的言語モデルを用いて算出した第2の生起の尤度と
を加算し、その加算値を認識候補についての生起の尤度
として算出するように構成されているという技術的手段
を採用する。
【0012】請求項6に記載の発明では、請求項1ない
し請求項4のいずれか1つに記載の音声認識装置におい
て、前記生起尤度算出手段は、前記第1の統計的言語モ
デルを用いて算出した結果に重み付けを行った第1の生
起の尤度と、前記第2の統計的言語モデルを用いて算出
した結果に重み付けを行った第2の生起の尤度とを加算
し、その加算値を認識候補についての生起の尤度として
算出するように構成されているという技術的手段を採用
する。
【0013】請求項7に記載の発明では、音声をその音
声に対応する特徴パラメータの時系列に変換し、テキス
トデータから作成されたN組の仮名および漢字の生起順
序に関する第1の統計的言語モデルと、漢字に読みを振
ったテキストデータベースから作成されたN未満である
M組の読みを振った仮名および漢字の生起順序に関する
第2の統計的言語モデルを用いて認識候補についての類
似の尤度を算出し、標準パターンと、前記変換された特
徴パラメータの時系列とを照合して認識候補についての
類似の尤度を算出し、その算出された類似の尤度および
前記算出された生起の尤度から総合尤度を算出し、その
算出された総合尤度の中で高い総合尤度の認識候補を認
識結果とするコンピュータプログラムが記憶されている
ことを特徴とする記憶媒体という技術的手段を採用す
る。
【0014】
【作用】請求項1ないし請求項7に記載の発明では、上
記生起尤度算出手段は、漢字に読みを振ったテキストデ
ータベースから作成された読みを振った仮名および漢字
の生起順序に関する第2の統計的言語モデルを用いて認
識候補についての生起の尤度を算出するため、読みを振
っていない仮名および漢字の生起順序に関する統計的言
語モデルのみを用いて認識候補についての生起の尤度を
算出するものよりも認識精度を高めることができる。し
かも、漢字に読みを振ったテキストデータベースから作
成された第2の統計的言語モデルは、N未満であるM組
の読みを振った仮名および漢字から構成されているた
め、N組の読みを振った仮名および漢字から構成されて
いるものよりも、統計的言語モデルを記憶するための記
憶量を少なくすることができる。また、N未満であるM
組の読みを振った仮名および漢字から構成された統計的
言語モデルを用いたものは、N組の読みを振った仮名お
よび漢字から構成されている言語モデルを用いたものよ
りも、認識精度の点では低くなるが、請求項1ないし請
求項7に記載の発明の生起尤度算出手段では、読みを振
ってはいないが、テキストデータベースから作成された
N組の仮名および漢字の生起順序に関する第1の統計的
言語モデルをも併用するため、認識精度の低下を補うこ
とができる。つまり、請求項1ないし請求項7に記載の
発明によれば、高い認識精度を維持しつつ、漢字に読み
を振ったテキストデータベースの使用量および記憶量を
軽減することができる。
【0015】特に、請求項2に記載の発明では、上記生
起尤度算出手段は、日本語の文節構造を単語の遷移規則
として記述した文法を用いた日本語の構文と、読みを振
った仮名および漢字系列の単語の集合から構成される単
語辞書と、上記第1の統計的言語モデルと、上記第2の
統計的言語モデルとを用いて各認識候補についての生起
の尤度を算出するように構成されているため、上記日本
語の構文および単語辞書を用いないで認識を行うものよ
りも認識精度を高めることができる。
【0016】また、請求項3に記載の発明では、仮名も
しくは漢字ごとに発声された音声の認識を行う構成であ
るため、認識処理の構成を簡単なものにすることができ
る。そして、仮名もしくは漢字ごとに発声された音声の
認識を行うために、上記変換手段は、仮名もしくは漢字
ごとに発声された音声をその音声に対応する特徴パラメ
ータの時系列に変換し、上記生起尤度算出手段は、読み
を振った仮名および漢字の集合から構成される単漢字辞
書と、上記第1の統計的言語モデルと、上記第2の統計
的言語モデルとを用いて各認識候補についての生起の尤
度を算出する。
【0017】さらに、請求項4に記載の発明では、音節
ごとに無音区間を設けて発声された音声の認識を行う構
成であるため、認識率および認識処理速度を高めること
ができる。そして、音節ごとに無音区間を設けて発声さ
れた音声の認識を行うために、上記変換手段は、音節ご
とに無音区間を設けて発声された音声をその音声に対応
する特徴パラメータの時系列に変換し、上記類似性尤度
算出手段に備えられた切出し手段は、上記特徴パラメー
タの時系列の中に含まれる無音区間に基づいて上記特徴
パラメータを音節ごとに切り出し、類似性尤度算出手段
は、その切り出された特徴パラメータと上記標準パター
ンとを照合して各音節ごとに類似の尤度をそれぞれ算出
する。
【0018】また、請求項5に記載の発明では、上記生
起尤度算出手段は、第1の統計的言語モデルを用いて算
出した第1の生起の尤度と、第2の統計的言語モデルを
用いて算出した第2の生起の尤度とを加算し、その加算
値を認識候補についての生起の尤度として算出する。つ
まり、認識候補についての生起の尤度は、上記第1の生
起の尤度と第2の生起の尤度とを加算するという、簡単
な演算によって求めることができるため、CPUの処理
負担を小さくできる。
【0019】さらに、請求項6に記載の発明では、上記
生起尤度算出手段は、第1の統計的言語モデルを用いて
算出した結果に重み付けを行った第1の生起の尤度と、
第2の統計的言語モデルを用いて算出した結果に重み付
けを行った第2の生起の尤度とを加算し、その加算値を
認識候補についての生起の尤度として算出する。つま
り、第1の生起の尤度および第2の生起の尤度にそれぞ
れ重み付けを行うことにより、第1の統計的言語モデル
と第2の統計的言語モデルとの間に存在する統計的な偏
りを是正して認識率を高めることができる。
【0020】そして、請求項7に記載の発明では、音声
をその音声に対応する特徴パラメータの時系列に変換
し、テキストデータから作成されたN組の仮名および漢
字の生起順序に関する第1の統計的言語モデルと、漢字
に読みを振ったテキストデータベースから作成されたN
未満であるM組の読みを振った仮名および漢字の生起順
序に関する第2の統計的言語モデルを用いて認識候補に
ついての類似の尤度を算出し、標準パターンと、前記変
換された特徴パラメータの時系列とを照合して認識候補
についての類似の尤度を算出し、その算出された類似の
尤度および前記算出された生起の尤度から総合尤度を算
出し、その算出された総合尤度の中で高い総合尤度の認
識候補を認識結果とするコンピュータプログラムが記憶
されていることを特徴とする記憶媒体という構成である
ため、その記憶媒体を用いることにより、上記請求項1
に記載の音声認識装置を実現できる。つまり、上記音声
認識装置は、たとえば、後述する発明の実施の形態に記
載するように、音声認識装置に内蔵されたCPU、ある
いは、音声認識装置に接続されたコンピュータによって
制御されることから、上記記憶媒体としての記憶部を音
声認識装置に設け、もしくは、上記記憶媒体に格納され
ているコンピュータプログラムをコンピュータにインス
トールすることによって、請求項1に記載の発明を実施
できるからである。
【0021】
【発明の実施の形態】以下、本発明の音声認識装置の一
実施形態について図を参照して説明する。最初に、第1
実施形態の音声装置の主な構成について図1を参照して
説明する。なお、図1は、音声認識装置10に備えられ
た図示しないCPUにより実行される処理の内容を概念
的に示すものであり、CPUが実行するコンピュータプ
ログラムは、図示しないROM、HDDなどの記憶媒体
に記憶されている。音声認識装置10には、音声入力端
子11から入力された音声をディジタル信号に変換し、
さらにLPCケプストラム分析した後、1フレーム(1
時点、たとえば10ミリ秒)ごとに特徴パラメータを抽
出する特徴抽出部12と、学習用音声データベースから
作成されたサブワード標準パターンが記憶された標準パ
ターンメモリ13と、メモリ20とが備えられている。
【0022】ここで、メモリ20の記憶内容について、
それを示す図3を参照して説明する。メモリ20は、第
1の統計的言語モデル21aおよび第2の統計的言語モ
デル21bから構成される統計的言語モデル記憶部21
を有する。第1の統計的言語モデル(トライグラム)2
1aは、テキストデータベースから作成されており、3
文字から構成される言語と生起尤度とを対応付けて構成
されている。たとえば、3文字から構成される言語にお
いて、「東」という文字が1文字目に生起する生起尤度
は、LT1であり、「山」という文字が1文字目に生起
する生起尤度は、LT2である。また、第2の統計的言
語モデル(バイグラム)21bは、漢字に読みを振った
テキストデータベースから作成されており、読み付きの
2文字から構成される言語と生起尤度とを対応付けて構
成されている。たとえば、読み付きの2文字から構成さ
れる言語において、「東(とう)」という読み付き文字
が1文字目に生起する生起尤度は、LB1であり、
「山」という文字が1文字目に生起する生起尤度は、L
B2である。さらに、メモリ20は、日本語文節の構造
が単語の遷移規則として記述されている文節構文22a
が記憶された文節構文記憶部22と、読みを振った単語
の辞書23aが記憶された単語辞書記憶部23と、文字
を音素に変換する規則を示す文字音素変換規則が記憶さ
れた文字音素変換規則記憶部24とを有する。文節構文
22aは、図3に示すように、文節=S(語頭)+名詞
+助詞という構文であり、単語辞書23aは、見出しと
品詞とを対応付けて構成されている。
【0023】また、音声認識装置10には、特徴抽出部
12において抽出された特徴パラメータの認識処理を行
う認識部14と、この認識部14によって認識された結
果を出力する認識結果出力部15とが備えられている。
認識部14は、特徴抽出部12によって抽出された特徴
パラメータに対応する認識候補を、文節構文22aおよ
び単語辞書23aを用いて選出するとともに、その選出
した認識候補を文字音素変換規則を用いて音素に変換
し、その変換した音素に対応する標準パターンを標準パ
ターンメモリ13から読出し、その読出した標準パター
ンと上記特徴パラメータとを比較して入力音声の特徴パ
ラメータの類似性尤度を算出する。そしてさらに、認識
部14は、第1の統計的言語モデル21aを用いて上記
選出した認識候補のトライグラムによる生起尤度を算出
するとともに、第2の統計的言語モデル21bを用いて
上記選出した認識候補の読み付きバイグラムによる生起
尤度を算出し、上記算出した類似性尤度、トライグラム
による生起尤度および読み付きバイグラムによる生起尤
度を加算して総合尤度を算出する。そして、その算出さ
れた総合尤度の中で最も高い総合尤度の認識結果を選択
する。その選択された認識結果は、認識結果出力部15
から図示しない表示装置などへ出力される。なお、前述
のROM、HDDが請求項7に記載の記憶媒体に対応す
る。
【0024】次に、図1に示す音声認識装置10が行う
処理の内容を図2ないし図4(A)を参照して説明す
る。図2は、音声認識装置10が行う処理の流れを示す
フローチャートである。図4(A)は、総合尤度の算出
結果を示す説明図である。なお、以下では、「東京の
(とうきょうの)」という音声に対する処理の内容を代
表に説明する。まず、特徴抽出部12は、音声入力端子
11から入力された「東京の(とうきょうの)」という
音声をディジタル信号に変換し、さらにLPCケプスト
ラム分析した後、1フレーム(1時点、たとえば10ミ
リ秒)ごとに特徴パラメータを抽出する(ステップ1
0)。続いて、認識部14は、文節構文記憶部22に記
憶された文節構文22aおよび単語辞書記憶部23に記
憶された単語辞書23aを用いて上記変換された特徴パ
ラメータに対応する認識候補を選出する(ステップ1
1)。ここでは、「東」および「山」が認識候補として
選出されたものとする。そして、認識部14は、上記認
識候補「東(とう)」を文字音素変換規則記憶部24に
記憶された文字音素変換規則を用いて音素「tou」に
変換し(ステップ13)、その変換した音素「tou」
に対応する標準パタンを標準パタンメモリ13から読出
し、その読出した標準パタンと上記特徴パラメータとを
比較して入力音声「東(とう)」の特徴パラメータの類
似性尤度P1を算出する(ステップ18)。
【0025】続いて、認識部14は、統計的言語モデル
記憶部21に記憶された第1の統計的言語モデルを用い
て上記選出した認識候補「東(とう)」が、3文字から
構成される言語の1文字目に生起する生起尤度LT1を
検索する(ステップ20)。また、認識部14は、統計
的言語モデル記憶部21に記憶された第2の統計的言語
モデルを用いて上記選出した認識候補「東(とう)」
が、読み付きの2文字から構成される言語の1文字目に
生起する生起尤度LB1を求める(ステップ22)。そ
して、認識部14は、上記算出された類似性尤度P1、
生起尤度LT1および生起尤度LB1を加算して認識候
補「東(とう)」の総合尤度Q1(=P1+LT1+L
B1)を算出する(ステップ24)。
【0026】続いて、に認識部14は、総ての認識候補
について総合尤度の算出処理が終了したか否かを判定す
るが(ステップ26)、ここではまだ「東(とう)」に
ついての総合尤度の算出処理を行っただけであるため、
ステップ11へ戻り(ステップ26:No)、次の認識
候補である「山」の類似性尤度P2、トライグラムによ
る生起尤度LT2および読み付きバイグラムによる生起
尤度LB2を検索し(ステップ17〜ステップ22)、
総合尤度Q2(=P2+LT2+LB2)を算出する
(ステップ24)。そして、認識部14は、「東京」に
ついての類似性尤度P3、生起尤度LT3および生起尤
度LB3を算出し、総合尤度Q3(=Q1+P3+LT
3+LB3)を算出する。また、同様に「山形」の総合
尤度Q4(=Q2+P4+LT4+LB4)を算出す
る。次に、認識部14は、「東京は」、「東京が」、
「東京の」、「山形は」、「山形が」および「山形の」
についての総合尤度Q5〜Q10をそれぞれ算出する
(図4(A))。
【0027】そして、認識部14は、総ての認識候補に
ついての総合尤度の算出を終了すると(ステップ26:
Yes)、総合尤度Q1からQ10を高い順にソートし
(ステップ28)、その中で最も高い総合尤度の認識候
補を選択する(ステップ30)。この選択された認識候
補は、認識結果出力部15から図示しないCRTやLC
Dなどの表示装置へ出力され、表示される。ここでは、
「東京の」と表示される。なお、総合尤度の低いQ1か
らQ4は、算出された時点、あるいは、ソートする時点
で切り捨てるように処理することもできる。
【0028】以上のように、本第1実施形態の音声認識
装置10を使用すれば、漢字に読みを振ったテキストデ
ータベースから作成された、読みを振った仮名および漢
字の生起順序に関する第2の統計的言語モデル(バイグ
ラム)21bを用いて認識候補についての生起の尤度を
算出するため、読みを振っていない仮名および漢字の生
起順序に関する統計的言語モデルのみを用いて認識候補
についての生起の尤度を算出するものよりも認識精度を
高めることができる。しかも、第2の統計的言語モデル
21bは、2組の読みを振った仮名および漢字から構成
されており、従来の3組のものよりも1組少ないため、
第2の統計的言語モデル21bの記憶量を従来のものよ
りも小さくできる。また、その小さくなる分、入手が困
難な漢字に読みを振ったテキストデータベースに基づい
て第2の統計的言語モデルを作成する労力を軽減でき
る。
【0029】さらに、テキストデータベースから作成さ
れた3組の仮名および漢字の生起順序に関する第1の統
計的言語モデル(トライグラム)を併用するため、第2
の統計的言語モデルを構成する言語が少ないことによる
認識精度の低下を補うことができる。つまり、本第1実
施形態の音声認識装置を使用すれば、高い認識精度を維
持しつつ、漢字に読みを振ったテキストデータベースの
使用量および記憶量を軽減することができる。なお、上
記文字音素変換規則に代えて、文字サブワード変換規則
を用いることもできる。この場合、標準パターンに代え
てサブワード標準パターンが標準パターンメモリ13に
記憶される。この構成によれば、文字音素変換規則を用
いた場合よりも、認識精度をより一層高めることができ
る。
【0030】次に、本発明第2実施形態の音声認識装置
について図5および図6を参照して説明する。本第2実
施形態の音声認識装置は、文節構文および単語辞書を用
いないで、単漢字辞書および文字サブワード変換規則を
用いて認識処理を行うことを特徴とする。図5は、本実
施形態の音声認識装置の主要構成をブロックで示す説明
図であり、図6は、図5に示す音声認識装置による音声
認識処理の流れを示すフローチャートである。なお、前
述の第1実施形態の音声認識装置と異なる構成の部分を
中心に説明する。
【0031】図5に示すように、音声認識装置10に備
えられたメモリ20は、第1の統計的言語モデル21a
および第2の統計的言語モデル21bから構成される統
計的言語モデル記憶部21と、読みを振った仮名および
漢字の集合から構成される単漢字辞書が記憶された単漢
字辞書記憶部26と、文字サブワード変換規則が記憶さ
れた文字サブワード変換規則記憶部25とから構成され
る。また、音声認識装置10には、サブワード標準パタ
ーンが記憶されたサブワード標準パターンメモリ16が
備えられている。そして、上記構成の音声認識装置10
は、仮名もしくは漢字ごとに発声され、音声入力端子1
1から入力されたた音声の特徴パラメータを抽出し(ス
テップ10)、単漢字辞書記憶部26に記憶された単漢
字辞書を検索して認識候補を選出し(ステップ16)、
その選出した認識候補を文字サブワード変換規則記憶部
25に記憶された文字サブワード変換規則を用いてサブ
ワードに変換する(ステップ17)。続いて、その変換
したサブワードに対応するサブワード標準パターンをサ
ブワード標準パターンメモリ16から抽出し、その抽出
したサブワード標準パターンと、上記抽出された特徴パ
ラメータとを比較して類似性尤度を算出する(ステップ
18)。以降、前述の第1実施形態と同じ処理を実行
し、認識候補の総てについての総合尤度を算出し(ステ
ップ20〜ステップ26)、総合尤度の高い順にソート
を行い(ステップ28)、その中で最も高い総合尤度の
認識候補を認識結果として選択する(ステップ30)。
【0032】以上のように、本第2実施形態の音声認識
装置10を使用すれば、仮名もしくは漢字ごとに発声さ
れた音声の認識を行う構成であるため、認識処理の構成
を簡単なものにすることができる。
【0033】次に、本発明第3実施形態の音声認識装置
について図7および図8を参照して説明する。本第3実
施形態の音声認識装置は、音節ごとに無音区間を設けて
発声された音声を認識処理することを特徴とする。図7
は、本実施形態の音声認識装置の主要構成をブロックで
示す説明図であり、図8は、図7に示す音声認識装置に
よる音声認識処理の流れを示すフローチャートである。
なお、前述の第1実施形態の音声認識装置と異なる構成
の部分を中心に説明する。
【0034】図7に示すように、音声認識装置10に備
えられたメモリ20は、統計的言語モデル記憶部21
と、単漢字辞書記憶部26と、文字音素変換規則記憶部
24とから構成される。また、音声認識装置10には、
特徴抽出部12によって抽出された特徴パラメータの時
系列の中に含まれる無音区間に基づいて特徴パラメータ
を音節ごとに切り出す音節切り出し部17が備えられて
いる。そして、上記構成の音声認識装置10は、音節ご
とに無音区間を設けて発声され、音声入力端子11から
入力されたた音声の特徴パラメータを抽出し(ステップ
10)、その抽出された特徴パラメータの時系列の中に
含まれる無音区間に基づいて特徴パラメータを音節ごと
に切り出し(ステップ12)、単音節を認識する(ステ
ップ14)。続いて、単漢字辞書記憶部26に記憶され
た単漢字辞書を検索して認識候補を選出し(ステップ1
6)、その選出した認識候補を文字音素変換規則記憶部
24に記憶された文字音素変換規則を用いて音素に変換
するとともに、その変換した音素に対応する標準パター
ンを標準パターンメモリ13から抽出し、その抽出した
標準パターンと、上記抽出された特徴パラメータとを比
較して類似性尤度を算出する(ステップ18)。以降、
前述の第1実施形態と同じ処理を実行し、認識候補の総
てについての総合尤度を算出し(ステップ20〜ステッ
プ26)、総合尤度の高い順にソートを行い(ステップ
28)、その中で最も高い総合尤度の認識候補を認識結
果として選択する(ステップ30)。
【0035】以上のように、本第3実施形態の音声認識
装置10を使用すれば、音節ごとに無音区間を設けて発
声された音声の認識を行う構成であるため、認識率およ
び認識処理速度を高めることができる。
【0036】ところで、上記各実施形態では、図4
(A)に示すように、類似性尤度P、トライグラムによ
る生起尤度LTおよび読み付きバイグラムによる生起尤
度LBの単純加算によって総合尤度Qを算出したが、図
4(B)に示すように、生起尤度LTおよび生起尤度L
Bにそれぞれ係数a(たとえば、0.6)、b(たとえ
ば、0.4)を乗算して重み付けを行ったものを用いて
総合尤度Qを算出することもできる。これによれば、第
1の統計的言語モデル21aおよび第2の統計的言語モ
デル21b間の統計的バランスが偏っている場合であっ
ても、その偏りを是正して精度の高い音声認識を行うこ
とができる。また、上記各実施形態では、音声認識装置
10に備えられた図示しないCPUが上記音声認識を実
行するためのコンピュータプログラムが、音声認識装置
10内の図示しないROM、HDDに記憶されている構
成を説明したが、上記コンピュータプログラムをCD−
ROMやFDなどに記憶し、それらを音声認識装置10
に備えられた図示しない読取装置を用いてインストール
することによって音声認識装置10を動作させることも
できる。この場合、上記CD−ROMやFDなどが、請
求項7に記載の記憶媒体として機能する。さらに、外部
情報処理装置から有線または無線の通信手段を介してコ
ンピュータプログラムを読み込んで動作させることもで
きる。なお、CPUが実行するステップ10が本発明の
変換手段として機能し、ステップ18が類似性尤度算出
手段として機能し、ステップ20およびステップ22が
生起尤度算出手段として機能する。
【0037】
【発明の効果】以上のように、請求項1ないし請求項7
に記載の発明によれば、漢字に読みを振ったテキストデ
ータベースから作成された読みを振った仮名および漢字
の生起順序に関する第2の統計的言語モデルを用いて認
識候補についての生起の尤度を算出する生起尤度算出手
段を備えるため、読みを振っていない仮名および漢字の
生起順序に関する統計的言語モデルのみを用いて認識候
補についての生起の尤度を算出するものよりも認識精度
を高めることができる。しかも、漢字に読みを振ったテ
キストデータベースから作成された第2の統計的言語モ
デルは、N未満であるM組の読みを振った仮名および漢
字から構成されているため、N組の読みを振った仮名お
よび漢字から構成されているものよりも、統計的言語モ
デルを記憶するための記憶量を少なくすることができ
る。また、上記生起尤度算出手段は、読みを振ってはい
ないが、テキストデータベースから作成されたN組の仮
名および漢字の生起順序に関する第1の統計的言語モデ
ルを併用するため、第2の統計的言語モデルが少ない組
の仮名および漢字から構成されていることによる認識精
度の低下を補うことができる。つまり、請求項1ないし
請求項7に記載の発明によれば、高い認識精度を維持し
つつ、漢字に読みを振ったテキストデータベースの使用
量および記憶量を軽減することができる。
【0038】特に、請求項2に記載の発明によれば、上
記生起尤度算出手段は、上記第1の統計的言語モデルお
よび第2の統計的言語モデルに加えて、日本語の構文お
よび単語辞書を用いて各認識候補についての生起の尤度
を算出するように構成されているため、上記日本語の構
文および単語辞書を用いないで認識を行うものよりも認
識精度を高めることができる。
【0039】また、請求項3に記載の発明によれば、仮
名もしくは漢字ごとに発声された音声の認識を行う構成
であるため、認識処理の構成を簡単なものにすることが
できる。
【0040】さらに、請求項4に記載の発明によれば、
音節ごとに無音区間を設けて発声された音声の認識を行
う構成であるため、認識率および認識処理速度を高める
ことができる。
【0041】また、請求項5に記載の発明によれば、上
記生起尤度算出手段は、第1の統計的言語モデルを用い
て算出した第1の生起の尤度と、第2の統計的言語モデ
ルを用いて算出した第2の生起の尤度とを加算し、その
加算値を認識候補についての生起の尤度として算出する
という、簡単な演算によって求めることができるため、
CPUの処理負担を小さくできる。
【0042】さらに、請求項6に記載の発明によれば、
上記生起尤度算出手段は、第1の統計的言語モデルを用
いて算出した結果に重み付けを行った第1の生起の尤度
と、第2の統計的言語モデルを用いて算出した結果に重
み付けを行った第2の生起の尤度とを加算し、その加算
値を認識候補についての生起の尤度として算出するた
め、第1の統計的言語モデルと第2の統計的言語モデル
との間に存在する統計的な偏りを是正して認識率を高め
ることができる。
【0043】そして、請求項7に記載の発明によれば、
音声をその音声に対応する特徴パラメータの時系列に変
換し、テキストデータから作成されたN組の仮名および
漢字の生起順序に関する第1の統計的言語モデルと、漢
字に読みを振ったテキストデータベースから作成された
N未満であるM組の読みを振った仮名および漢字の生起
順序に関する第2の統計的言語モデルを用いて認識候補
についての類似の尤度を算出し、標準パターンと、前記
変換された特徴パラメータの時系列とを照合して認識候
補についての類似の尤度を算出し、その算出された類似
の尤度および前記算出された生起の尤度から総合尤度を
算出し、その算出された総合尤度の中で高い総合尤度の
認識候補を認識結果とするコンピュータプログラムが記
憶されていることを特徴とする記憶媒体という構成であ
るため、その記憶媒体を音声認識装置内の記憶部として
設け、もしくは、その記憶媒体に格納されているコンピ
ュータプログラムを音声認識装置あるいは音声認識装置
に接続されたコンピュータにインストールすることによ
って請求項1に記載の音声認識装置を実現することがで
きる。
【図面の簡単な説明】
【図1】本発明第1実施形態の音声認識装置10に備え
られた図示しないCPUにより実行される処理の内容を
概念的に示す説明図である。
【図2】図1に示す音声認識装置10が行う処理の流れ
を示すフローチャートである。
【図3】メモリ20の記憶内容を示す説明図である。
【図4】図4(A)は、総合尤度の算出式を示す説明図
であり、図4(B)は、生起尤度に重み付けを行った場
合の総合尤度の算出式を示す説明図である。
【図5】本発明第2実施形態の音声認識装置10に備え
られた図示しないCPUにより実行される処理の内容を
概念的に示す説明図である。
【図6】図5に示す音声認識装置10が行う処理の流れ
を示すフローチャートである。
【図7】本発明第3実施形態の音声認識装置10に備え
られた図示しないCPUにより実行される処理の内容を
概念的に示す説明図である。
【図8】図7に示す音声認識装置10が行う処理の流れ
を示すフローチャートである。
【図9】従来の日本語音声認識方法を実施した装置の構
成を示す説明図である。
【符号の説明】
10 音声認識装置 11 音声入力端子 12 特徴抽出部 13 標準パターンメモリ 14 認識部 15 認識結果出力部 16 サブワード標準パターンメモリ 17 音節切り出し部 20 メモリ 21 統計的言語モデル記憶部 21a 第1の統計的言語モデル 21b 第2の統計的言語モデル 22 文節構文記憶部 23 単語辞書記憶部 24 文字音素変換規則記憶部 25 文字サブワード変換規則記憶部 26 単漢字辞書記憶部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 音声をその音声に対応する特徴パラメー
    タの時系列に変換する変換手段と、 テキストデータベースから作成された生起順序に関する
    統計的言語モデルを用いて認識候補についての生起の尤
    度を算出する生起尤度算出手段と、 前記変換手段によって変換された特徴パラメータの時系
    列を構成する各特徴パラメータと、標準パターンとを照
    合することにより、認識候補についての類似の尤度を算
    出する類似性尤度算出手段とを備え、前記算出された生
    起の尤度および類似の尤度から総合尤度を各認識候補ご
    とに算出し、その算出された総合尤度の中で高い総合尤
    度の認識候補を認識結果とする音声認識装置において、 前記統計的言語モデルは、 テキストデータベースから作成されたN組の仮名および
    漢字の生起順序に関する第1の統計的言語モデルと、漢
    字に読みを振ったテキストデータベースから作成された
    N未満であるM組の読みを振った仮名および漢字の生起
    順序に関する第2の統計的言語モデルとから構成されて
    おり、 前記生起尤度算出手段は、 前記第1の統計的言語モデルおよび第2の統計的言語モ
    デルを用いて前記各認識候補についての生起の尤度を算
    出するように構成されていることを特徴とする音声認識
    装置。
  2. 【請求項2】 前記生起尤度算出手段は、 日本語の文節構造を単語の遷移規則として記述した文法
    を用いた日本語の構文と、読みを振った仮名および漢字
    系列の単語の集合から構成される単語辞書と、前記第1
    の統計的言語モデルと、前記第2の統計的言語モデルと
    を用いて前記各認識候補についての生起の尤度を算出す
    るように構成されていることを特徴とする請求項1に記
    載の音声認識装置。
  3. 【請求項3】 前記変換手段は、 仮名もしくは漢字ごとに発声された音声をその音声に対
    応する特徴パラメータの時系列に変換するように構成さ
    れており、 前記生起尤度算出手段は、 読みを振った仮名および漢字の集合から構成される単漢
    字辞書と、前記第1の統計的言語モデルと、前記第2の
    統計的言語モデルとを用いて前記各認識候補についての
    生起の尤度を算出するように構成されていることを特徴
    とする請求項1に記載の音声認識装置。
  4. 【請求項4】 前記変換手段は、 音節ごとに無音区間を設けて発声された音声をその音声
    に対応する特徴パラメータの時系列に変換するように構
    成されており、 前記類似性尤度算出手段は、 前記特徴パラメータの時系列の中に含まれる無音区間に
    基づいて前記特徴パラメータを音節ごとに切り出す切出
    し手段を備え、この切出し手段によって切り出された特
    徴パラメータと前記標準パターンとを照合して各音節ご
    とに類似の尤度をそれぞれ算出するように構成されてい
    ることを特徴とする請求項1ないし請求項3のいずれか
    1つに記載の音声認識装置。
  5. 【請求項5】 前記生起尤度算出手段は、 前記第1の統計的言語モデルを用いて算出した第1の生
    起の尤度と、前記第2の統計的言語モデルを用いて算出
    した第2の生起の尤度とを加算し、その加算値を認識候
    補についての生起の尤度として算出するように構成され
    ていることを特徴とする請求項1ないし請求項4のいず
    れか1つに記載の音声認識装置。
  6. 【請求項6】 前記生起尤度算出手段は、 前記第1の統計的言語モデルを用いて算出した結果に重
    み付けを行った第1の生起の尤度と、前記第2の統計的
    言語モデルを用いて算出した結果に重み付けを行った第
    2の生起の尤度とを加算し、その加算値を認識候補につ
    いての生起の尤度として算出するように構成されている
    ことを特徴とする請求項1ないし請求項4のいずれか1
    つに記載の音声認識装置。
  7. 【請求項7】 音声をその音声に対応する特徴パラメー
    タの時系列に変換し、テキストデータから作成されたN
    組の仮名および漢字の生起順序に関する第1の統計的言
    語モデルと、漢字に読みを振ったテキストデータベース
    から作成されたN未満であるM組の読みを振った仮名お
    よび漢字の生起順序に関する第2の統計的言語モデルを
    用いて認識候補についての類似の尤度を算出し、標準パ
    ターンと、前記変換された特徴パラメータの時系列とを
    照合して認識候補についての類似の尤度を算出し、その
    算出された類似の尤度および前記算出された生起の尤度
    から総合尤度を算出し、その算出された総合尤度の中で
    高い総合尤度の認識候補を認識結果とするコンピュータ
    プログラムが記憶されていることを特徴とする記憶媒
    体。
JP10166248A 1998-05-30 1998-05-30 音声認識装置および記憶媒体 Pending JPH11344991A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10166248A JPH11344991A (ja) 1998-05-30 1998-05-30 音声認識装置および記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10166248A JPH11344991A (ja) 1998-05-30 1998-05-30 音声認識装置および記憶媒体

Publications (1)

Publication Number Publication Date
JPH11344991A true JPH11344991A (ja) 1999-12-14

Family

ID=15827870

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10166248A Pending JPH11344991A (ja) 1998-05-30 1998-05-30 音声認識装置および記憶媒体

Country Status (1)

Country Link
JP (1) JPH11344991A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001048737A2 (en) * 1999-12-23 2001-07-05 Intel Corporation Speech recognizer with a lexical tree based n-gram language model
JP2010540976A (ja) * 2007-10-04 2010-12-24 株式会社東芝 自動音声認識の方法および装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001048737A2 (en) * 1999-12-23 2001-07-05 Intel Corporation Speech recognizer with a lexical tree based n-gram language model
WO2001048737A3 (en) * 1999-12-23 2002-11-14 Intel Corp Speech recognizer with a lexical tree based n-gram language model
JP2010540976A (ja) * 2007-10-04 2010-12-24 株式会社東芝 自動音声認識の方法および装置

Similar Documents

Publication Publication Date Title
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US5949961A (en) Word syllabification in speech synthesis system
US8185376B2 (en) Identifying language origin of words
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US8126714B2 (en) Voice search device
CN107705787A (zh) 一种语音识别方法及装置
US20010032078A1 (en) Speech information processing method and apparatus and storage medium
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JPWO2009016729A1 (ja) 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
El Méliani et al. Accurate keyword spotting using strictly lexical fillers
Stefan-Adrian et al. Rule-based automatic phonetic transcription for the Romanian language
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JPH11344991A (ja) 音声認識装置および記憶媒体
JPH10269204A (ja) 中国語文書自動校正方法及びその装置
JP3366253B2 (ja) 音声合成装置
JP3378547B2 (ja) 音声認識方法及び装置
US20060206301A1 (en) Determining the reading of a kanji word
CN116229994B (zh) 一种阿拉伯语方言的标符预测模型的构建方法和装置
JPH0612091A (ja) 日本語音声認識方法
JPH0627985A (ja) 音声認識方法
Wei et al. Research on Syllable-Based Language Model in Malay Speech Recognition