JP2000315095A - 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体 - Google Patents

音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体

Info

Publication number
JP2000315095A
JP2000315095A JP11122730A JP12273099A JP2000315095A JP 2000315095 A JP2000315095 A JP 2000315095A JP 11122730 A JP11122730 A JP 11122730A JP 12273099 A JP12273099 A JP 12273099A JP 2000315095 A JP2000315095 A JP 2000315095A
Authority
JP
Japan
Prior art keywords
word
dictionary
word sequence
stored
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11122730A
Other languages
English (en)
Inventor
Katsuki Minamino
活樹 南野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP11122730A priority Critical patent/JP2000315095A/ja
Publication of JP2000315095A publication Critical patent/JP2000315095A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ユーザ自身が所定のキーワードなどを覚えて
おく必要がなく、一語ずつの音声認識を高精度に行う。 【解決手段】 認識処理部4は、言語モデル記憶部6に
記憶されている言語モデルを用いて音響モデル記憶部5
に記憶されている音響モデルを接続して複数の単語系列
を構成し、これらと音響分析部3からの特徴量との類似
度を示すスコア付けを行って、そのスコアが最も高い単
語系列を選択する。認識処理部4は、選択された単語系
列が仮名入力辞書の「単語」にあるかを判定し、あると
きは仮名入力辞書を用いて、上記「単語」に対応する
「出力」の仮名を出力部8を介して出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声による仮名の
入力を高精度に行う音声認識装置、音声認識方法及び音
声認識制御プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】今日では、ナビゲーション装置などにお
いて、手動操作入力に代えて音声入力操作を容易に行う
べく、様々な音声認識装置が開発されている。
【0003】例えば図6に示すように、従来の音声認識
装置10は、入力部11と、音響分析部12と、認識処
理部13と、音響モデル記憶部14と、言語モデル記憶
部15と、出力部16とを備える。
【0004】音響分析部12は、入力部11からの音声
データに対して、認識に必要な特徴量の抽出を所定のサ
ンプリング間隔で行ったりして、周波数分析を行う。具
体的には、音響分析部12は、信号のエネルギー、零交
差数、ピッチ、周波数特性及びこれらの変化量等を抽出
する。周波数分析としては、線形予測分析(LPC)、
高速フーリエ変換(FFT)、バンドパスフィルタ(B
PF)などが用いられる。音響分析部11は、これらの
特徴量をベクトルとして抽出したり、量子化を行ってス
カラーとして抽出して、認識処理部13に供給する。
【0005】認識処理部13は、音響モデル記憶部14
に記憶されている音響モデルと、言語モデル記憶部15
に記憶されている言語モデルとを用いて、音響分析部1
2からの特徴量系列に対応する単語系列を決定し、これ
を出力する。認識手法としては、DPマッチング、ニュ
ーラルネットワーク、HMM(Hidden Markov Model)
などが広く用いられている。
【0006】DPマッチングは、テンプレートといわれ
る標準パターンを予め作成しておき、入力された特徴量
系列のパターンと時間軸の対応を取りながらマッチング
させる、すなわち距離計算を行うことで、最も類似した
ものを選択する。
【0007】ニューラルネットワークは、人間の脳の構
造を模倣するネットワークモデルによって認識を行うも
ので、あらかじめパスの重み係数をパラメータとして決
定しておき、そのネットワークに特徴量系列を入力して
求まる値によってスコア付けを行う。
【0008】HMMとは、状態遷移確率と出力確率密度
関数をもつ状態遷移モデルのことで、状態を遷移しなが
ら系列を出力する確率値を累積していくことによって尤
度を決定し、その値がスコアとなる。
【0009】いすれも、学習過程において、テンプレー
トや、ネットワークモデルの重み係数、HMMの遷移確
率・出力確率密度関数などをあらかじめ決定しておく必
要がある。 一般に、音響モデルは、音素、音節、単語、フレーズ、
文などいろいろなレベルでモデル化することが可能であ
る。例えば、音素毎にテンプレートやHMMを作成した
り、単語単位でテンプレートやHMMを作成したりする
ことである。
【0010】一方、言語モデルは、音響モデルの接続関
係をモデル化したものであり、複数の音響モデルを接続
することで様々な単語やフレーズ、文などを認識できる
ようになる。
【0011】認識処理部13は、これらの音響モデルと
言語モデルとを用いて、いろいろな単語の系列に対して
スコア付けを行い、そのスコアが最も高い単語系列又は
上位複数の単語系列を認識結果として選択する。
【0012】ここで、音響モデルとして、音素や音節な
どの微小な単位を用いれば、それを接続することでいろ
いろな言葉を認識することが可能となる。日本語の仮
名、例えば、『あ』、『い』、『う』、『え』、
『お』、『か』、・・・『ん』を単位とする音響モデル
を用いた場合、これらを組み合わせることで、『は
い』、『いいえ』、『こんにちは』など、いろいろな言
葉を構成することが可能となる。そして、これらの言葉
に対して、入力される特徴量系列との類似度を表すスコ
アの計算を行うことが可能となる。
【0013】音響モデルを接続するための情報として
は、大きくわけて辞書と文法という2つが考えられる。
辞書とは、認識対象となる各単語を構成するために、音
響モデルをどのように接続するかを与えるものである。
文法とは、単語と単語をどのように接続するかを与える
ものである。例えば、『(数字)時から(数字)時ま
で』という文を扱いたい場合、まず、『0(ぜろ)』
『1(いち)』・・・『24(にじゅうよん)』という
数字と、『時(じ)』、『から』、『まで』という語に
関して、それぞれ読み仮名を含めて辞書としてもつこと
で、仮名を単位とする音響モデルの接続関係を与える。
【0014】つぎに、『(数字)』+『時』+『から』
+『(数字)』+『時』+『まで』というルールを文法
としてもつことで、単語の接続関係を与える。これらの
辞書と文法を組み合わせることによって、『1時から2
時まで』や『2時から5時まで』など、それぞれの文と
入力される特徴量系列との類似度が計算できることにな
り、その中で最もスコアの高いものを認識結果として出
力することが可能となるわけである。この場合、辞書と
文法が言語モデル記憶部15に記憶されている言語モデ
ルに該当する。
【0015】ここで、重要なことは、音素や音節などの
徴小な単位を音響モデルとして用いることによって、辞
書や文法の変更だけで、いろいろな言葉を認識する音声
認識装置が構成できることである。そして、このような
音声認識装置を用いれば、データの入力などを、音声に
よって行うことが可能となる。
【0016】
【発明が解決しようとする課題】以上のような音声認識
技術を用いれば、日本語の仮名1文字を認識し、これを
データとして入力することも可能となる。しかしなが
ら、キーボードなどを用いた入力手段に比べると、音声
認識を用いた入力方式では、認識誤りのために、データ
が正しく入力されないという問題が発生しやすくなる。
特に、日本語の仮名を一つだけ入力したい場合には、識
別に利用できる特徴量系列の長さも短くなり、認識精度
はさらに低いものとなる。
【0017】これを解決するために、ひとつの仮名に対
して、その前後の仮名などをもとに生起確率を決めてお
くことで、認識精度を上げることが可能となる。しかし
ながら、前後の仮名情報が使えない場合、特に、日本語
の仮名を一文字だけ入力したい場合などには、このよう
な手法は効果が期待できない。
【0018】別の方法として、『東京のと』『吉野の
よ』などのあらかじめ決められた語を登録しておき、こ
れらの言葉が認識されたときに、『と』や『よ』を出力
するようにすることで、音声による仮名入力の精度を向
上させる方法について従来から用いられている。しかし
ながら、それぞれの仮名に対して、このようなキーワー
ドを覚えなければならないというのは大きな問題であ
る。
【0019】本発明は、このような実情に鑑みて提案さ
れたものであり、ユーザ自身が所定のキーワードなどを
覚えておく必要がなく、一語ずつの音声認識を高精度に
行うことができる音声認識装置、音声認識方法及び音声
認識制御プログラムを記録した記録媒体を提供すること
を目的とする。
【0020】
【課題を解決するための手段】本発明に係る音声認識装
置は、入力音声信号の特徴量を抽出する特徴量抽出手段
と、1語毎に特徴量をモデル化した音響モデルを記憶す
る音響モデル記憶手段と、音響モデルを接続するための
情報からなる言語モデルを記憶する言語モデル記憶手段
と、音響モデルを接続して構成される単語系列に対して
出力対象となる最小単位を示す辞書を記憶する辞書記憶
手段と、言語モデル記憶手段に記憶される言語モデルを
用いて音響モデル記憶手段に記憶される音響モデルを接
続して複数の単語系列を生成し、特徴量抽出手段からの
特徴量と生成された複数の単語系列との類似度を計算し
て最も類似度の高い単語系列を選択し、当該選択された
単語系列が辞書の一の単語系列に対応するときは、当該
単語系列に対して出力対象となる最小単位を出力するこ
とで音声認識を行い、当該選択された単語系列が辞書の
いずれの単語系列にも対応しないときは、当該選択され
た単語系列を音声認識の結果として出力する音声認識手
段とを備えることにより、上述した課題を解決する。
【0021】本発明に係る音声認識方法は、1語毎に特
徴量をモデル化した音響モデルと、音響モデルを接続す
るための情報からなる言語モデルと、音響モデルを接続
して構成される単語系列に対して出力対象となる最小単
位を示す辞書とを記憶手段に記憶し、入力音声信号の特
徴量を抽出し、記憶手段に記憶される言語モデルを用い
て記憶手段に記憶される音響モデルを接続して複数の単
語系列を生成し、抽出された特徴量と生成された複数の
単語系列との類似度を計算して最も類似度の高い単語系
列を選択し、選択された単語系列が辞書の一の単語系列
に対応するときは、当該単語系列に対して出力対象とな
る最小単位を出力することで音声認識を行い、当該選択
された単語系列が辞書のいずれの単語系列にも対応しな
いときは、当該選択された単語系列を音声認識の結果と
して出力することにより、上述した課題を解決する。
【0022】本発明に係る音声認識制御プログラムを記
録した記録媒体は、1語毎に特徴量をモデル化した音響
モデルと、音響モデルを接続するための情報からなる言
語モデルと、音響モデルを接続して構成される単語系列
に対して出力対象となる最小単位を示す辞書とを記憶手
段に記憶し、入力音声信号の特徴量を抽出し、記憶手段
に記憶される言語モデルを用いて記憶手段に記憶される
音響モデルを接続して複数の単語系列を生成し、抽出さ
れた特徴量と生成された複数の単語系列との類似度を計
算して最も類似度の高い単語系列を選択し、選択された
単語系列が辞書の一の単語系列に対応するときは、当該
単語系列に対して出力対象となる最小単位を出力するこ
とで音声認識を行い、当該選択された単語系列が辞書の
いずれの単語系列にも対応しないときは、当該選択され
た単語系列を音声認識の結果として出力する音声認識制
御プログラムを記録することにより、上述した課題を解
決する。
【0023】本発明に係る音声認識装置は、入力音声信
号の特徴量を抽出する特徴量抽出手段と、1語毎に特徴
量をモデル化した音響モデルを記憶する音響モデル記憶
手段と、音響モデルを接続するための情報からなる辞書
情報を有する言語モデルを記憶する言語モデル記憶手段
と、言語モデル記憶手段に記憶されている言語モデルの
辞書情報の単語を最小単位に分割し、単語に対して分割
した最小単位を付加してなる単語系列と当該最小単位と
を対応付けた辞書を生成する辞書生成手段と、言語モデ
ル記憶手段に記憶される言語モデルを用いて音響モデル
記憶手段に記憶される音響モデルを接続して複数の単語
系列を生成し、特徴量抽出手段からの特徴量と生成され
た複数の単語系列との類似度を計算して最も類似度の高
い単語系列を選択し、当該選択された単語系列が辞書の
一の単語系列に対応するときは、当該単語系列に対して
出力対象となる最小単位を出力することで音声認識を行
い、当該選択された単語系列が辞書のいずれの単語系列
にも対応しないときは、当該選択された単語系列を音声
認識の結果として出力する音声認識手段とを備えること
により、上述した課題を解決する。
【0024】本発明に係る音声認識方法は、1語毎に特
徴量をモデル化した音響モデルと、音響モデルを接続す
るための情報からなる辞書情報を有する言語モデルとを
記憶手段に記憶し、入力音声信号の特徴量を抽出し、言
語モデル記憶手段に記憶されている言語モデルの辞書情
報の単語を最小単位に分割し、単語に対して分割した最
小単位を付加してなる単語系列と当該最小単位とを対応
付けた辞書を生成し、記憶手段に記憶される言語モデル
を用いて記憶手段に記憶される音響モデルを接続して複
数の単語系列を生成し、抽出された特徴量と生成された
複数の単語系列との類似度を計算して最も類似度の高い
単語系列を選択し、 選択された単語系列が辞書の一の
単語系列に対応するときは、当該単語系列に対して出力
対象となる最小単位を出力することで音声認識を行い、
当該選択された単語系列が辞書のいずれの単語系列にも
対応しないときは、当該選択された単語系列を音声認識
の結果として出力することにより、上述した課題を解決
する。
【0025】本発明に係る音声認識制御プログラムを記
録した記録媒体は、1語毎に特徴量をモデル化した音響
モデルと、音響モデルを接続するための情報からなる辞
書情報を有する言語モデルとを記憶手段に記憶し、入力
音声信号の特徴量を抽出し、言語モデル記憶手段に記憶
されている言語モデルの辞書情報の単語を最小単位に分
割し、単語に対して分割した最小単位を付加してなる単
語系列と当該最小単位とを対応付けた辞書を生成し、記
憶手段に記憶される言語モデルを用いて記憶手段に記憶
される音響モデルを接続して複数の単語系列を生成し、
抽出された特徴量と生成された複数の単語系列との類似
度を計算して最も類似度の高い単語系列を選択し、選択
された単語系列が辞書の一の単語系列に対応するとき
は、当該単語系列に対して出力対象となる最小単位を出
力することで音声認識を行い、当該選択された単語系列
が辞書のいずれの単語系列にも対応しないときは、当該
選択された単語系列を音声認識の結果として出力する音
声認識制御プログラムを記録することにより、上述した
課題を解決する。
【0026】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照しながら説明する。
【0027】本発明は、例えば図1に示す構成の音声認
識装置1に適用することができる。
【0028】上記音声認識装置1は、入力される音声か
ら音声データを生成する入力部2と、音声データから音
響分析を行う音響分析部3と、音響分析部3の結果に基
づいて言語認識を行う認識処理部4と、音響モデルを記
憶する音響モデル記憶部5と、音響モデルを接続するた
めの言語モデルを記憶する言語モデル記憶部6と、仮名
入力辞書を記憶する仮名入力辞書記憶部7と、認識処理
部4の認識結果を出力する出力部8と、図示しないRO
M(Read Only Memory)とを備える。このROMに音声
認識制御プログラムをインストールすることにより、以
下に示すような処理を行うことができる。
【0029】音響分析部3は、入力部2から供給される
音声データに対して、認識に必要な特徴量の抽出を所定
のサンプリング間隔で行い、例えば、信号のエネルギ
ー、零交差数、ピッチ、周波数特性、およびこれらの変
化量などを抽出する。周波数分析としては、線形予測分
析(LPC)、高速フーリエ変換(FFT)、バンドパ
スフイルター(BPF)などを行う。また、これらの特
徴量は、ベクトルとして抽出されたり、量子化が行われ
スカラーとして抽出されたりする。そして、音響分析部
3は、このような特徴量系列を認識処理部4に供給す
る。
【0030】認識処理部4は、音響分析部3からの特徴
量系列に対応する単語系列を決定し、これを出力するも
のである。
【0031】ここで、音響モデル記憶部5に記憶されて
いる音響モデルは、日本語の仮名からなり、具体的に
は、『あ』、『い』、『う』、『え』、『お』、
『か』、・・・『ん』を単位としている。
【0032】言語モデル記憶部6に記憶されている言語
モデルは、日本語の辞書と文法からなるものとする。日
本語の辞書としては、認識対象となる語彙が全て登録さ
れ、例えば名詞、動詞、助詞などが登録されている。日
本語の文法としては、文章の構文などが記憶されてい
る。そして、これら日本語の辞書や文法を変更するだけ
で、いろいろな言葉を認識することが可能となる。
【0033】なお、各単語に対応する音響モデルの接続
情報として、読み仮名が与えられる。例えば図2に示す
ようなものである。
【0034】仮名入力辞書記憶部7に記憶されている仮
名入力辞書は、図3に示すように、「単語」、「読み仮
名」、「出力」から構成されている。これらの3つの要
素は、言語モデル記憶部6の日本語の辞書にある全ての
単語に対して設けられているものである。
【0035】「単語」は、例えば「ABC」という3つ
の仮名からなる1の単語に対して、「ABCのA」、
「ABCのB」、「ABCのC」が3つが存在する。な
お、これら3つのうち同じものが存在するときは、重複
するものについては省略する。一例を挙げると、「東
京」という単語に対しては、「東京のと」、「東京の
う」、「東京のきょ」の3つが存在する。
【0036】「読み仮名」は、上述した「単語」の読み
を仮名で示したものである。例えば「東京のと」という
「単語」に対しては、「とうきょうのと」が該当する。
【0037】「出力」は、ある「単語」が入力されたと
きに当該単語に対応して出力する仮名を示したものであ
る。具体的には、「単語」の最後の仮名である。例え
ば、「東京のと」という「単語」に対しては、「と」が
出力対象となる。
【0038】そして、認識処理部4は、上述の音響分析
部3からの特徴量系列を受け取ると、認識処理又は仮名
入力であるかを判定する(図4に示すステップST
1)。具体的には、認識処理部4は、言語モデル記憶部
6に記憶されている言語モデルを用いて音響モデル記憶
部5に記憶されている音響モデルを接続して複数の単語
系列を構成し、これらと音響分析部3からの特徴量との
類似度を示すスコア付けを行って、そのスコアが最も高
い単語系列を選択する。
【0039】認識処理部4は、選択された単語系列が仮
名入力辞書の「単語」にあるかを判定し、あるときは仮
名入力モードに移行する(ステップST2)。そして、
認識処理部4は、仮名入力辞書を用いて、上記「単語」
に対応する「出力」の仮名を出力部8を介して出力す
る。例えば、認識処理部4は、「東京のう」という単語
系列を選択したときは、上記仮名入力辞書において対応
する「う」を出力する。
【0040】一方、認識処理部4は、選択された単語系
列が仮名入力辞書の「単語」にないときは、認識処理モ
ードに移行し(ステップST3)、選択された単語系列
を認識結果として出力部8を介して出力する。
【0041】以上のように、上記音声認識装置1は、仮
名入力辞書記憶部7に記憶されている仮名入力用辞書を
用いることによって、音響モデルと仮名入力用辞書を用
いた認識処理を行うことが可能となり、その認識結果か
ら、対応する仮名を出力することが可能となる。
【0042】換言すると、仮名出力のキーワードとして
言語モデルに登録されている全ての語彙を利用すること
ができ、かつ、1の単語とそこに含まれる全ての仮名が
対応付けられるので、1の仮名に対応する語彙として非
常に多くの単語を利用することができるようになる。
【0043】これによって、ユーザはある仮名を入力す
るためにその仮名に対応するキーワードなどを覚えず
に、入力したい仮名を含む単語を連想して発話するだけ
よい。しかも、音声認識装置1は、識別に利用できる特
徴量系列の長さも長くなるため、仮名の認識精度を高く
することが可能となる。
【0044】ユーザは、例えば『と』を入力するため
に、特別なキーワードを特に覚える必要はなく、『京
都』が連想されれば『京都のと』と発声すれば良く、
『時計』が思い浮かべば『時計のと』と発声すればよ
い。
【0045】つぎに、仮名入力辞書記憶部7に記憶され
る仮名入力辞書の作成について説明する。音声認識装置
1は、言語モデル記憶部6に記憶されている言語モデル
のうち、日本語辞書の全ての語彙に対して当該語彙を構
成する全ての仮名を対応付けることで、仮名入力辞書記
憶部7に記憶すべき仮名入力辞書を作成することができ
る。ここでは、言語モデルのうち、『東京(とうきょ
う)』について仮名を対応付けることについて説明す
る。
【0046】認識処理部4は、言語モデルのうち日本語
辞書の各単語に与えられた読み仮名を、仮名を単位とし
て分割する。認識処理部4は、例えば『とうきょう』を
『と』『う』『きょ』『う』に分割する。
【0047】つぎに、認識処理部4は、各単語と分割し
た仮名とを接続して、新しい語彙を生成する。このと
き、接続のために、例えば『の』などを挿入するものと
する。例えば、『東京』に対しては、『東京のと』『東
京のう』『東京のきょ』『東京のう』の語彙を生成す
る。認識処理部4は、こうして得られる語彙を全て含む
辞書を自動的に作成し、これを仮名入力用辞書として仮
名入力辞書記憶部7に登録する。認識処理部4は、言語
モデルの他の単語についても、同様にして新たな語彙を
生成する。
【0048】この結果、図3に示すような仮名入力用辞
書が生成され、当該仮名入力辞書が7に記憶されること
になる。なお、ここでは、『東京のう』のように、2以
上同じものが生成される語彙については、重複するもの
は除去される。また、それぞれの単語には、接続された
仮名が出力用のシンボルとして与えられるものとする。
【0049】そして、認識処理部4は、スコアの計算の
結果最も高いスコアの単語系列を選択したときには、以
上のように作成された仮名入力辞書を用いて、上記選択
された単語系列に対応する一語を出力することが可能と
なる。
【0050】また、上述した仮名入力辞書の代わりに、
図5に示すようなネット構造からなる仮名入力辞書を作
成してもよい。例えば、上記ネット構造において、「大
阪のお」「大阪のさ」「大阪のか」について、スタート
からエンドまでの経路を特定することで仮名入力辞書を
構成することができる。すなわち、仮名入力辞書とし
て、「東京」「大阪」などの各単語における経路を特定
する情報を仮名入力辞書記憶部7に記憶させておいても
よい。これにより、図3に示す仮名入力辞書よりもデー
タ量を少なくすることが可能となる。
【0051】なお、言語モデルにあらかじめ用意された
辞書が小語彙の場合には、全ての仮名を含むような大語
彙の辞書を仮名入力用辞書の作成用に用意して置くこと
も可能である。また、言語モデルにあらかじめ用意され
た辞書が非常に大語彙の場合には、頻度などに応じて語
彙数を削減したり、あるいは、頻度などに応じて重みを
つけるなども可能である。さらにまた、ユーザが自分で
登録した単語を、仮名入力用辞書の作成用の語彙に含め
てもよい。これにより、ハードウェアの処理能力に応じ
た最適な音声認識処理を行うことができる。
【0052】また、本発明は、上述した実施の形態にお
ける日本語音声認識の場合に限定されるものではなく、
例えば英語や他の外国語の場合にも適用することができ
る。例えば英語の場合には、音響モデル記憶部5に英語
用の音響モデルを記憶し、言語モデル記憶部6に英語の
辞書及び文法からなる言語モデルを記憶させておけばよ
い。さらに、仮名入力辞書では、「単語」として例えば
「c for(of) cake」と設定したときに、「出力」として
「c」を対応させればよい。
【0053】また、例えば「cake の c」としたり「ケ
ーキの c」とするように、英語と日本語を混在させてア
ルファベットを認識させることもできる。
【0054】
【発明の効果】以上詳細に説明したように、本発明に係
る音声認識装置、音声認識方法及び音声認識制御プログ
ラムを記録した記録媒体によれば、記憶手段に記憶され
る言語モデルを用いて記憶手段に記憶される音響モデル
を接続して複数の単語系列を生成し、抽出された特徴量
と生成された複数の単語系列との類似度を計算して最も
類似度の高い単語系列を選択し、選択された単語系列が
辞書の一の単語系列に対応するときは、当該単語系列に
対して出力対象となる最小単位を出力することで音声認
識を行い、当該選択された単語系列が辞書のいずれの単
語系列にも対応しないときは、当該選択された単語系列
を音声認識の結果として出力することにより、音声入力
によって最小単位を高精度で認識することができる。
【0055】本発明に係る音声認識装置、音声認識方法
及び音声認識制御プログラムを記録した記録媒体によれ
ば、言語モデル記憶手段に記憶されている言語モデルの
辞書情報の単語を最小単位に分割し、単語に対して分割
した最小単位を付加してなる単語系列と当該最小単位と
を対応付けた辞書を生成し、記憶手段に記憶される言語
モデルを用いて記憶手段に記憶される音響モデルを接続
して複数の単語系列を生成し、抽出された特徴量と生成
された複数の単語系列との類似度を計算して最も類似度
の高い単語系列を選択し、選択された単語系列が辞書の
一の単語系列に対応するときは、当該単語系列に対して
出力対象となる最小単位を出力することで音声認識を行
い、当該選択された単語系列が辞書のいずれの単語系列
にも対応しないときは、当該選択された単語系列を音声
認識の結果として出力することによって、辞書情報の中
にある全ての単語について、その単語に含まれる最小単
位と関連付けて音声認識をすることが可能になる。した
がって、ユーザは、特別なキーワードを覚える必要がな
く、思い浮かんだキーワードに関連付けられた最小単位
の音声を入力することで、当該最小単位を容易に認識さ
せることができる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識装置の構成を示すブ
ロック図である。
【図2】上記音声認識装置の認識対象となる各単語に対
応する音響モデルの接続情報を示す図である。
【図3】上記音声認識装置の仮名入力辞書記憶部に記憶
されている仮名入力辞書を示す図である。
【図4】上記音声認識装置の音声認識処理の動作内容を
説明するフローチャートである。
【図5】上記仮名入力辞書の他の例を示す図である。
【図6】従来の音声認識装置の構成を示すブロック図で
ある。
【符号の説明】
1 音声認識装置、2 入力部、3 音響分析部、4
認識処理部、5 音響モデル記憶部、6 言語モデル記
憶部、7 仮名入力辞書記憶部、8 出力部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号の特徴量を抽出する特徴量
    抽出手段と、 1語毎に特徴量をモデル化した音響モデルを記憶する音
    響モデル記憶手段と、 音響モデルを接続するための情報からなる言語モデルを
    記憶する言語モデル記憶手段と、 音響モデルを接続して構成される単語系列に対して出力
    対象となる最小単位を示す辞書を記憶する辞書記憶手段
    と、 上記言語モデル記憶手段に記憶される言語モデルを用い
    て上記音響モデル記憶手段に記憶される音響モデルを接
    続して複数の単語系列を生成し、上記特徴量抽出手段か
    らの特徴量と生成された複数の単語系列との類似度を計
    算して最も類似度の高い単語系列を選択し、当該選択さ
    れた単語系列が上記辞書の一の単語系列に対応するとき
    は、当該単語系列に対して出力対象となる最小単位を出
    力することで音声認識を行い、当該選択された単語系列
    が上記辞書のいずれの単語系列にも対応しないときは、
    当該選択された単語系列を音声認識の結果として出力す
    る音声認識手段とを備えることを特徴とする音声認識装
    置。
  2. 【請求項2】 上記音響モデル記憶手段は、仮名毎に又
    はアルファベット毎に特徴量をモデル化した音響モデル
    を記憶し、 上記辞書記憶手段は、上記音響モデルを接続して構成さ
    れる日本語又は英語の語彙に対して、出力対象となる仮
    名又はアルファベットを示す辞書を記憶することを特徴
    とする請求項1記載の音声認識装置。
  3. 【請求項3】 1語毎に特徴量をモデル化した音響モデ
    ルと、音響モデルを接続するための情報からなる言語モ
    デルと、音響モデルを接続して構成される単語系列に対
    して出力対象となる最小単位を示す辞書とを記憶手段に
    記憶し、 入力音声信号の特徴量を抽出し、 上記記憶手段に記憶される言語モデルを用いて上記記憶
    手段に記憶される音響モデルを接続して複数の単語系列
    を生成し、 上記抽出された特徴量と生成された複数の単語系列との
    類似度を計算して最も類似度の高い単語系列を選択し、 選択された単語系列が上記辞書の一の単語系列に対応す
    るときは、当該単語系列に対して出力対象となる最小単
    位を出力することで音声認識を行い、当該選択された単
    語系列が上記辞書のいずれの単語系列にも対応しないと
    きは、当該選択された単語系列を音声認識の結果として
    出力することを特徴とする音声認識方法。
  4. 【請求項4】 仮名毎に又はアルファベット毎に特徴量
    をモデル化した音響モデルと、上記音響モデルを接続し
    て構成される日本語又は英語の単語系列に対して出力対
    象となる仮名又はアルファベットを示す辞書とを上記記
    憶手段に記憶することを特徴とする請求項3記載の音声
    認識方法。
  5. 【請求項5】 1語毎に特徴量をモデル化した音響モデ
    ルと、音響モデルを接続するための情報からなる言語モ
    デルと、音響モデルを接続して構成される単語系列に対
    して出力対象となる最小単位を示す辞書とを記憶手段に
    記憶し、入力音声信号の特徴量を抽出し、上記記憶手段
    に記憶される言語モデルを用いて上記記憶手段に記憶さ
    れる音響モデルを接続して複数の単語系列を生成し、上
    記抽出された特徴量と生成された複数の単語系列との類
    似度を計算して最も類似度の高い単語系列を選択し、選
    択された単語系列が上記辞書の一の単語系列に対応する
    ときは、当該単語系列に対して出力対象となる最小単位
    を出力することで音声認識を行い、当該選択された単語
    系列が上記辞書のいずれの単語系列にも対応しないとき
    は、当該選択された単語系列を音声認識の結果として出
    力する音声認識制御プログラムを記録した記録媒体。
  6. 【請求項6】 仮名毎に又はアルファベット毎に特徴量
    をモデル化した音響モデルと、上記音響モデルを接続し
    て構成される日本語又は英語の単語系列に対して出力対
    象となる仮名又はアルファベットを示す辞書とを上記記
    憶手段に記憶させる音声認識制御プログラムを記録する
    ことを特徴とする請求項5記載の音声認識制御プログラ
    ムを記録した記録媒体。
  7. 【請求項7】 入力音声信号の特徴量を抽出する特徴量
    抽出手段と、 1語毎に特徴量をモデル化した音響モデルを記憶する音
    響モデル記憶手段と、 音響モデルを接続するための情報からなる辞書情報を有
    する言語モデルを記憶する言語モデル記憶手段と、 上記言語モデル記憶手段に記憶されている言語モデルの
    辞書情報の単語を最小単位に分割し、上記単語に対して
    分割した最小単位を付加してなる単語系列と当該最小単
    位とを対応付けた辞書を生成する辞書生成手段と、 上記言語モデル記憶手段に記憶される言語モデルを用い
    て上記音響モデル記憶手段に記憶される音響モデルを接
    続して複数の単語系列を生成し、上記特徴量抽出手段か
    らの特徴量と生成された複数の単語系列との類似度を計
    算して最も類似度の高い単語系列を選択し、当該選択さ
    れた単語系列が上記辞書の一の単語系列に対応するとき
    は、当該単語系列に対して出力対象となる最小単位を出
    力することで音声認識を行い、当該選択された単語系列
    が上記辞書のいずれの単語系列にも対応しないときは、
    当該選択された単語系列を音声認識の結果として出力す
    る音声認識手段とを備えることを特徴とする音声認識装
    置。
  8. 【請求項8】 1語毎に特徴量をモデル化した音響モデ
    ルと、音響モデルを接続するための情報からなる辞書情
    報を有する言語モデルとを記憶手段に記憶し、 入力音声信号の特徴量を抽出し、 上記言語モデル記憶手段に記憶されている言語モデルの
    辞書情報の単語を最小単位に分割し、 上記単語に対して分割した最小単位を付加してなる単語
    系列と当該最小単位とを対応付けた辞書を生成し、 上記記憶手段に記憶される言語モデルを用いて上記記憶
    手段に記憶される音響モデルを接続して複数の単語系列
    を生成し、 上記抽出された特徴量と生成された複数の単語系列との
    類似度を計算して最も類似度の高い単語系列を選択し、 上記選択された単語系列が上記辞書の一の単語系列に対
    応するときは、当該単語系列に対して出力対象となる最
    小単位を出力することで音声認識を行い、当該選択され
    た単語系列が上記辞書のいずれの単語系列にも対応しな
    いときは、当該選択された単語系列を音声認識の結果と
    して出力することを特徴とする音声認識方法。
  9. 【請求項9】 1語毎に特徴量をモデル化した音響モデ
    ルと、音響モデルを接続するための情報からなる辞書情
    報を有する言語モデルとを記憶手段に記憶し、入力音声
    信号の特徴量を抽出し、上記言語モデル記憶手段に記憶
    されている言語モデルの辞書情報の単語を最小単位に分
    割し、上記単語に対して分割した最小単位を付加してな
    る単語系列と当該最小単位とを対応付けた辞書を生成
    し、上記記憶手段に記憶される言語モデルを用いて上記
    記憶手段に記憶される音響モデルを接続して複数の単語
    系列を生成し、上記抽出された特徴量と生成された複数
    の単語系列との類似度を計算して最も類似度の高い単語
    系列を選択し、上記選択された単語系列が上記辞書の一
    の単語系列に対応するときは、当該単語系列に対して出
    力対象となる最小単位を出力することで音声認識を行
    い、当該選択された単語系列が上記辞書のいずれの単語
    系列にも対応しないときは、当該選択された単語系列を
    音声認識の結果として出力する音声認識制御プログラム
    を記録した記録媒体。
JP11122730A 1999-04-28 1999-04-28 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体 Withdrawn JP2000315095A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11122730A JP2000315095A (ja) 1999-04-28 1999-04-28 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11122730A JP2000315095A (ja) 1999-04-28 1999-04-28 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000315095A true JP2000315095A (ja) 2000-11-14

Family

ID=14843175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11122730A Withdrawn JP2000315095A (ja) 1999-04-28 1999-04-28 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2000315095A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8126714B2 (en) 2007-04-10 2012-02-28 Mitsubishi Electric Corporation Voice search device
JP2016161935A (ja) * 2015-02-26 2016-09-05 キューキー インコーポレイテッドKeukey Inc. 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8126714B2 (en) 2007-04-10 2012-02-28 Mitsubishi Electric Corporation Voice search device
JP2016161935A (ja) * 2015-02-26 2016-09-05 キューキー インコーポレイテッドKeukey Inc. 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体

Similar Documents

Publication Publication Date Title
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
US7676365B2 (en) Method and apparatus for constructing and using syllable-like unit language models
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
Lee Voice dictation of mandarin chinese
Wang et al. Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data
Kumar et al. A large-vocabulary continuous speech recognition system for Hindi
KR100486733B1 (ko) 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
Anumanchipalli et al. Development of Indian language speech databases for large vocabulary speech recognition systems
JP2002520664A (ja) 言語に依存しない音声認識
EP1460615B1 (en) Voice processing device and method, recording medium, and program
Celin et al. A weighted speaker-specific confusion transducer-based augmentative and alternative speech communication aid for dysarthric speakers
KR100930714B1 (ko) 음성인식 장치 및 방법
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
US20040006469A1 (en) Apparatus and method for updating lexicon
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
AbuZeina et al. Cross-word modeling for Arabic speech recognition
Jackson Automatic speech recognition: Human computer interface for kinyarwanda language
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2000315095A (ja) 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体
Liao et al. Towards the Development of Automatic Speech Recognition for Bikol and Kapampangan

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060704