JPH1097270A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH1097270A
JPH1097270A JP8251096A JP25109696A JPH1097270A JP H1097270 A JPH1097270 A JP H1097270A JP 8251096 A JP8251096 A JP 8251096A JP 25109696 A JP25109696 A JP 25109696A JP H1097270 A JPH1097270 A JP H1097270A
Authority
JP
Japan
Prior art keywords
acoustic model
word
subword
unknown
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8251096A
Other languages
English (en)
Other versions
JP3428309B2 (ja
Inventor
Mitsuru Endo
充 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP25109696A priority Critical patent/JP3428309B2/ja
Publication of JPH1097270A publication Critical patent/JPH1097270A/ja
Application granted granted Critical
Publication of JP3428309B2 publication Critical patent/JP3428309B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 タイプライタペナルティ値の設定やガーベジ
モデルの作成を必要とせず、未知語に対して頑健な音声
認識方法を実現することを目的とする。 【解決手段】 予め作成したサブワード音響モデルから
の語頭用サブワード音響モデルと語尾用サブワード音響
モデルとを接続した単音節音響モデルを作成部2、未知
語の音響的特徴を前記単音節音響モデルで表現した未知
語音響モデルを作成部4、サブワード音響モデルと未知
語音響モデルとを併せた音響モデルを、接続規則に従っ
て入力音声10と照合して得られた単語系列11を出力
する認識部6とから構成することで、開発が容易で未知
語に対して頑健な音声認識方法が得られる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、単語を連続して発
声された音声の認識を行なう音声認識装置に関するもの
である。
【0002】
【従来の技術】近年、音声認識装置の頑健性を向上をさ
せる試みが行なわれてきている。その一つとして、入力
音声の中に登録語以外の語である未知語が含まれている
場合にも、未知語の区間は未知語として認識し、登録語
の区間は登録語としてその発音内容を正しく認識するこ
とで認識率を向上させることを目指したものがある。
【0003】このような未知語を扱った音声認識装置の
例としては、音声タイプライタを用いる方式(”音声タ
イプライタを用いた未知語検出方式の改良検討”日本音
響学会平成4年度秋研究発表会講演論文集、2−Q−2
4(1992))とガーベジモデル(garbage
model)を用いる方式(”連続音声認識における未
知語検出の検討”日本音響学会平成7年度秋研究発表会
講演論文集、1−Q−17(1995))の2種類の方
式が知られており、音声タイプライタを用いる方式を従
来例1、ガーベジモデルを用いる方式を従来例2として
説明する。
【0004】従来例1は、音声タイプライタを用いる方
式である。音声タイプライタは、日本語として考えられ
るすべての発音を認識できるようにサブワードでモデル
化したものである。従来例1において、用いられている
サブワードは音素片である。
【0005】図14は、従来例1の音声認識装置の概略
構成を示したブロック図であり、1は予め作成されたサ
ブワード音響モデルを格納するサブワード音響モデル格
納部、7は音声タイプライタの音響的特徴をサブワード
音響モデルの系列で表現したタイプライタ音響モデルを
作成するタイプライタ音響モデル作成部、4は登録語以
外の単語である未知語の音響的特徴をタイプライタ音響
モデルとタイプライタペナルティ値によって表現した未
知語音響モデルを作成する未知語音響モデル作成部、8
は前記タイプライタペナルティ値を格納するタイプライ
タペナルティ値格納部、5は単語に対応する音響モデル
系列を規定し、出力可能な単語系列を規定する接続規則
を保存する接続規則格納部、6はサブワード音響モデル
と未知語音響モデルを併せた音響モデルを、接続規則に
従って接続し、入力された音声と照合して得られる単語
系列を出力する認識部である。
【0006】以下に、音声認識装置の動作について簡単
に説明する。認識の動作を行なう前に、まず、タイプラ
イタ音響モデル作成部7は、サブワード音響モデル格納
部1に格納してあるサブワード音響モデルからタイプラ
イタ音響モデルを作成する。次に、未知語音響モデル作
成部4は、タイプライタ音響モデル作成部7で作成され
たタイプライタ音響モデルとタイプライタペナルティ値
格納部8に格納してあるタイプライタペナルティ値とか
ら未知語音響モデルを作成する。認識の動作は、認識部
6が、サブワード音響モデル格納部1に格納してあるサ
ブワード音響モデルと未知語音響モデル作成部4で作成
された未知語音響モデルとを併せた音響モデルを、接続
規則格納部5に格納してある接続規則に従って接続し、
入力された音声と照合して得られる単語系列を出力す
る。
【0007】このタイプライタペナルティ値は、未知語
音響モデルによる照合スコアに求められる条件とタイプ
ライタ音響モデルによる照合スコアとの差を調整するた
めのものであり、種々のタイプライタペナルティの与え
方とその値を設定し、評価実験を繰り返すことで最適値
を求めている。
【0008】従来例2は、ガーベジモデルを用いる例で
ある。ガーベジモデルは色々な音声の音響的な特徴をミ
ックスして少ないクラスで表現したモデルである。従来
例2において、用いられているサブワードは音素であ
る。
【0009】図15は、従来例2の音声認識装置の概略
構成を示したブロック図であり、1は予め作成されたサ
ブワード音響モデルを格納するサブワード音響モデル格
納部、9は色々な音響的特徴を少数のモデルで表現した
ガーベジモデルを格納するガーベジモデル格納部、4は
登録語以外の単語である未知語の音響的特徴をガーベジ
モデルの系列で表現した未知語音響モデルを作成する未
知語音響モデル作成部、5は単語に対応する音響モデル
系列を規定し、出力可能な単語系列を規定する接続規則
を保存する接続規則格納部、6はサブワード音響モデル
と未知語音響モデルを併せた音響モデルを、登録語接続
規則に未知語接続規則を追加した接続規則に従って接続
し、入力された音声と照合して得られる単語系列を出力
する認識部である。
【0010】以下に、従来例2の音声認識装置の動作に
ついて簡単に説明する。認識の動作を行なう前に、未知
語音響モデル作成部4は、ガーベジモデル格納部9に格
納してあるガーベジモデルから未知語音響モデルを作成
する。認識の動作は、認識部6が、サブワード音響モデ
ル格納部1に格納してあるサブワード音響モデルと未知
語音響モデル作成部4で作成された未知語音響モデルと
を併せた音響モデルを、接続規則格納部5に格納してあ
る接続規則に従って接続し、入力された音声と照合して
得られる単語系列を出力する。
【0011】この例では、ガーベジモデルを作成する際
にどのような音素クラスタを用いれば良いのかを調べる
ために、色々なクラスタを設定し、評価実験を繰り返す
ことで最適なクラスタを求めている。
【0012】
【発明が解決しようとする課題】音声認識装置において
は、頑健性が要求されており、その一つとして、入力音
声の中に登録語以外の語である未知語が含まれている場
合にも、未知語の区間は未知語として認識し、登録語の
区間は登録語としてその発音内容を正しく認識すること
が求められている。従来法によっても未知語を扱うこと
はできるが、従来例1においてはタイプライタペナルテ
ィ値を設定することが試行錯誤によるため膨大な作業量
が必要であり、開発コストがかかるという課題を有して
いた。
【0013】また、従来例2においても、ガーベジモデ
ル作成のためにやはり試行錯誤が必要で膨大な作業量が
必要であり、開発コストがかかるという課題を有してい
た。
【0014】本発明は、このようなタイプライタペナル
ティ値の設定やガーベジモデルの作成を必要としない開
発が容易な装置で、未知語に対して頑健な音声認識装置
を実現することを目的とする。
【0015】
【課題を解決するための手段】この課題を解決するため
に本発明は、予め作成されたサブワード音響モデルを保
存するサブワード音響モデル格納部と、孤立発声された
音節を前記サブワード音響モデルからの語頭用サブワー
ド音響モデルと語尾用サブワード音響モデルとを接続す
ることにより表現した単音節音響モデルを作成する単音
節音響モデル作成部と、登録語以外の単語である未知語
の音響的特徴を前記単音節音響モデルの系列で表現した
未知語音響モデルを作成する未知語音響モデル作成部
と、予め単語に対応する音響モデル系列と出力可能な単
語系列とを規定する接続規則を保存する接続規則格納部
と、前記サブワード音響モデルと前記未知語音響モデル
とを併せた音響モデルを、前記接続規則に従って接続
し、入力された音声と照合して得られる単語系列を出力
する認識部とで構成したものである。
【0016】これにより、音響モデルは、自然にペナル
ティがかかる構造であるためにペナルティ値の設定を必
要とせず、かつ、登録語と共通のサブワード音響モデル
から構成するのでガーベジモデルの作成も必要とせず、
開発が容易でかつ未知語に対して頑健な音声認識装置が
実現できるものである。
【0017】
【発明の実施の形態】本発明の請求項1に記載の発明
は、予め作成されたサブワード音響モデルを保存するサ
ブワード音響モデル格納部と、孤立発声された音節を前
記サブワード音響モデルからの語頭用サブワード音響モ
デルと語尾用サブワード音響モデルとを接続することに
より表現した単音節音響モデルを作成する単音節音響モ
デル作成部と、登録語以外の単語である未知語の音響的
特徴を前記単音節音響モデルの系列で表現した未知語音
響モデルを作成する未知語音響モデル作成部と、予め単
語に対応する音響モデル系列と出力可能な単語系列とを
規定する接続規則を保存する接続規則格納部と、前記サ
ブワード音響モデルと前記未知語音響モデルとを併せた
音響モデルを、前記接続規則に従って接続し、入力され
た音声と照合して得られる単語系列を出力する認識部と
を有することを特徴とする音声認識装置としたものであ
り、未知語音響モデルを作成する際にサブワード音響モ
デルからの語頭用サブワードモデルと語尾用サブワード
音響モデルを接続して表現した単音節音響モデルの系列
で作成することにより、従来の装置では試行錯誤により
多くの時間と開発コストが必要であったペナルティ値の
設定及びガーベジモデルの作成を必要としないので、開
発コストが削減でき、且つ未知語に対して頑健な音声認
識ができるという作用を有する。
【0018】請求項2に記載の発明は、予め作成された
サブワード音響モデルを保存するサブワード音響モデル
格納部と、孤立発声された音節を前記サブワード音響モ
デルからの語頭用サブワード音響モデルと語尾用サブワ
ード音響モデルを接続することで表現した単音節音響モ
デルを作成する単音節音響モデル作成部と、前記単音節
音響モデルからN個の音響モデルを選択する単音節音響
モデル選択部と、登録語以外の単語である未知語の音響
的特徴を選択された前記単音節音響モデルの系列で表現
した未知語音響モデルを作成する未知語音響モデル作成
部と、予め単語に対応する音響モデル系列と出力可能な
単語系列とを規定する接続規則を保存する接続規則格納
部と、前記サブワード音響モデルと前記未知語音響モデ
ルとを併せた音響モデルを、前記接続規則に従って接続
し、入力された音声と照合して得られる単語系列を出力
する認識部とを有することを特徴とする音声認識装置と
したものであり、未知語音響モデルを作成する際にサブ
ワード音響モデルからの語頭用サブワードモデルと語尾
用サブワード音響モデルを接続して選択したN個の単音
節音響モデルの系列で作成することにより、従来の装置
では試行錯誤により多くの時間と開発コストが必要であ
ったペナルティ値の設定及びガーベジモデルの作成を必
要としないので、開発コストが削減でき、且つ未知語に
対して頑健な音声認識ができるという作用を有する。
【0019】以下、本発明の実施の形態について、図1
から図13を用いて説明する。 (実施の形態1)以下、本発明の実施の形態1につい
て、図1から図8を用いて説明する。
【0020】図1は、本発明の実施の形態1の音声認識
装置のブロック図を示すものであり、1は予め作成され
たサブワード音響モデルを保存するサブワード音響モデ
ル格納部、2は孤立発声された音節を語頭用サブワード
音響モデルと語尾用サブワード音響モデルを接続するこ
とにより表現した単音節音響モデルを作成する単音節音
響モデル作成部、4は登録語以外の単語である未知語の
音響的特徴を単音節音響モデルの系列で表現した未知語
音響モデルを作成する未知語音響モデル作成部、5は単
語に対応する音響モデル系列を規定し、出力可能な単語
系列を規定する接続規則を保存する接続規則格納部、6
はサブワード音響モデルと未知語音響モデルとを併せた
音響モデルを、接続規則に従って接続し、入力された音
声10と照合して得られる単語系列11を出力する認識
部である。
【0021】本発明の実施の形態1では、サブワードと
してcv/vc(子音+母音/母音+子音)を用いた場
合を例に説明する。説明を簡単にするため単語と単語の
つなぎ目については、音節間の遷移部分を考慮しないも
のとして説明する。
【0022】以下に、音声認識装置の動作について図2
から図6を用いて詳細に説明する。サブワード音響モデ
ル格納部1には、予め多くの話者が発声した学習用デー
タから作成したサブワード音響モデルを格納している。
サブワード音響モデルは、サブワードを音響的特徴量
(特徴パラメータの統計量(平均値ベクトル、共分散行
列)の時系列、系列間の遷移確率)で表わしたものであ
る。
【0023】図2に、サブワード音響モデルの作成処理
の概要を示す。ここで、#は、音声の開始時点および終
了時点を表す仮想的な音素である。図中、音声の音響的
特徴を形で表した多角形は、横方向が時間、縦方向は音
声のパワー情報を参考にして表している。図2の例にお
いて、学習用音声データの発声内容は、「12、78」
である。点線で区切られた長方形の区間は音素区間にお
いて前後の音素の影響を受けにくい部分を表し、斜め線
を含む台形の区間は音素間の遷移部分を表している。
【0024】特徴パラメータの系列である学習用音声デ
ータ(図2(a))は、まずサブワードに切り分ける境
界を定義するためのラベリング(図2(b))を行な
う。ここで、図2(c)に示すように連続する音声部分
(「12」と「78」の2つの部分)の最初のサブワー
ドが語頭のサブワードであり、最後のサブワードが語尾
のサブワードであり、残りのサブワードが語中のサブワ
ードである。サブワード音響モデルは、サブワードの種
類毎に、切り分けられたサブワード音声データから、音
響的特徴量を求めることで作成する。サブワード音響モ
デルの作成手順は、既に実用化されている孤立発声単語
音声認識装置の場合と同様であり、確立されている。
【0025】単音節音響モデル作成部2は、サブワード
音響モデル格納部1から読み出したサブワード音響モデ
ルを入力とし、単音節音響モデルを出力する。図3は、
単音節音響モデルを示した図である。単音節音響モデル
は、サブワード音響モデルによって、日本語のすべての
音節を表現したものである。ここで、各音節は、語頭の
サブワード音響モデルと語尾のサブワード音響モデルを
接続したものであり、音節を単独で発音した単音節を表
現している。
【0026】未知語音響モデル作成部4は、単音節モデ
ル作成部2から出力された単音節音響モデルを入力と
し、未知語音響モデルを出力する。図4に、未知語音響
モデルをネットワークで表した図を示す。未知語音響モ
デルは単音節音響モデルの系列で未知語の音響的な特徴
を表したものである。一般に未知語の発音を予め予測す
ることはできないので、未知語を日本語の全ての音節の
任意の並びとして表現した。図中、φのついた矢印はヌ
ル遷移を表し、時間0で遷移できることを意味してい
る。未知語モデルは、始端(401)から各音節に分岐
し、それぞれの単音節音響モデルを経由して、合流し終
端(402)にたどり着く。図中最下の遷移(403)
は終端から始端へもどるためのヌル遷移であるので、こ
の未知語音響モデルは連続する単音節を表現している。
【0027】全ての日本語の単語は、音節列として表す
ことができるのでこの未知語音響モデルは任意の単語に
対しても、それなりに大きい照合スコアを与えることが
でき、入力の未知語区間に対しては、登録語に対する照
合スコアよりも大きい値を取ることが期待できる。また
音節間の遷移部分を表現していないことから、入力の登
録語区間に対しては、登録語に対する照合スコアよりも
小さい値を取ることが期待できる。
【0028】接続規則格納部5には、予め作成した接続
規則が格納してある。図5に、接続規則の例を示す。接
続規則は、単語に対応する音響モデル系列の接続規則
(接続規則1)と、出力可能な単語系列の接続規則(接
続規則2)との2つの接続規則からなる。接続規則1
(図5(a))に記述されているように、登録語はサブ
ワード系列として表される。例えば、「観光」という単
語は、{#ka、aN、Nk、ko、oo、o#}とい
うサブワードの系列で表され、対応するサブワードの音
響モデルを接続することで登録語の音響モデルが表現さ
れる。各サブワード音響モデルは音素および音素間の遷
移部分を表すので、登録語の音響モデルは、単語内のす
べての音素および音素間の遷移部分、換言すればすべて
の音節および音節間の遷移部分が表現されたものとな
る。一方、未知語に対応する音響モデルは未知語音響モ
デルである。
【0029】また、接続規則2(図5(b))に記述さ
れているように、出力可能な単語系列は、{「観光」
「です」}、{「仕事」「です」}、{未知語、「で
す」}などが認められている。接続規則1と接続規則2
とにより、すべての出力可能な単語系列は、音響モデル
の系列で表すことができ、また、音響モデルの系列は、
それに対応する単語系列に変換できるようになる。
【0030】認識部6は、音声10を入力として、単語
系列11を出力する。出力の単語系列11は、サブワー
ド音響モデル格納部1から読み出したサブワード音響モ
デルと未知語音響モデル作成部4で作成された未知語音
響モデルを併せた音響モデルを、接続規則格納部5から
読み出した接続規則に従って接続し、入力音声10と照
合して得られる結果である。
【0031】音声は、各部分の時間長が変動するので、
入力の各フレームが音響モデルのどのフレームに対応す
るかを求める必要がある。そのためには、入力音声のフ
レームと音響モデルのフレームとの間の類似度を定義
し、その類似度の総和が最大となるような対応を求め
る。この対応づけを照合と呼び、類似度の総和の最大値
を入力音声と音響モデルとの照合スコアと呼ぶ。図6
に、照合のイメージを示す。図において、横軸に入力音
声の特徴パラメータ系列を、縦軸に単語系列{「仕事」
「です」}に対応する音響モデルを置き、フレームの対
応づけを折れ線で示した。この対応づけはDP法により
求めることができる。同様に、他の単語系列に対しても
照合を行ない、照合スコアに従って順位づけを行ない、
順位の高い単語系列を出力する。未知語モデルのよう
に、ネットワーク表現された部分との照合は、合流点に
おいては最も照合スコアの高い候補を残して照合を進め
ることで実行でき、One Pass DP法により計
算できる。
【0032】未知語を扱う認識装置の動作として、未知
語を含まない入力の場合と未知語を含む入力の場合の二
通りの場合について検証する必要がある。この2つの場
合について、図7、図8を用いて説明する。
【0033】図7は、未知語を含まない入力とその結果
の例である。入力音声は「仕事です。」であり、「仕
事」と「です」の2単語からなる。図5に示したよう
に、「仕事」、「です」は登録語であり、サブワード系
列で表されている。また、{「仕事」、「です」}や
{未知語、「です」}という単語系列は許されている。
1位の結果は、単語系列が{「仕事」、「です」}であ
り、照合スコアが0.9であった。2位の結果は、単語
系列が{未知語(シ・ゴ・ト)、「です」}であり、照
合スコアが0.8であった。どちらの結果も音節列とし
て見れば{シ、ゴ、ト、デ、ス}であるが、サブワード
列として見ると{シ、ゴ、ト}に対応する部分が異な
り、1位の結果では{#si、ig、go、ot、t
o、o#}、2位の結果では{#si、i#、#go、
o#、#to、o#}となっているためにスコアが異な
る。
【0034】音響モデル系列の中で、入力との類似度の
低い部分を図中の網掛けで示した。1位の結果では全て
の音節間の遷移部分が表現されているので、特に類似度
の低い部分はないが、2位の結果ではシとゴの間の遷移
部分、ゴとトの間の遷移部分が表現されていないよう
に、周期的に類似度の低い部分が現れている。このこと
が、音声タイプライタにおいて音節間の遷移に応じたペ
ナルティを与えるような働きをする。これによって、登
録語が未知語として認識されることなく正しく認識され
た。
【0035】図8は、未知語を含む入力とその認識結果
の例である。入力音声は「商用です。」であり、「商
用」と「です」の2単語からなる。図5に示したように
「です」は登録語でありサブワード系列で表されている
が、「商用」は未知語であるものとする。また{「仕
事」、「です」}や{未知語、「です」}という単語系
列は許されている。1位の結果は、単語系列が{未知語
(ショ・ヨ)、「です」}であり、照合スコアが0.8
であった。
【0036】2位の結果は、単語系列が{「仕事」、
「です」}であり、照合スコアが0.6であった。入力
中の未知語「商用」の発音に対して、登録語のなかで最
も発音が近かった「仕事」に対する音響モデルよりも未
知語モデルの表す単音節系列の中で最も発音が近かった
単音節系列{ショ、ヨ}に対する音響モデルの方が音響
的特徴量が似ていたので、未知語区間に対して未知語で
あるという正しい出力の認識が行なえた。
【0037】以上で検証した動作例は、原理的に期待で
きる動作を説明した例であり、実際の動作では、正しく
認識できる場合も正しく認識できない場合もあるので、
その性能は確率的なものである。そこで本発明の実施の
形態1による音声認識装置を用いて認識実験を行なっ
た。
【0038】実験において、特徴パラメータは、LPC
ケプストラム系列と各音素の標準パタンとの類似度を、
共分散行列を全ての音素カテゴリで共通化したマハラノ
ビス距離として与えた音素類似度ベクトルとした。サブ
ワード音響モデルは、音素類似度ベクトルの平均値ベク
トルの系列を用いた。入力音声と音響モデルのフレーム
間の類似度はベクトルの内積として定義した。評価デー
タは男女各12名の発声した166文である。認識対象
は166文を含む400文で、登録語彙は665単語で
ある。未知語への対処法の効果を調べるために、この6
65単語の中から10%にあたる67単語をランダムに
選んで接続規則から削除して認識した、未知語への対処
のないの場合と、上記67単語を接続規則から削除し、
削除した単語の代わりに未知語が挿入される単語系列を
許すように接続規則を登録して認識した、未知語への対
処のある場合について評価した。
【0039】実施の形態1における評価結果を(表1)
に示す。表中の数字は単語検出率であり、入力中の未知
語以外の単語について、1位の単語系列に含まれたら検
出、含まれなかったら非検出として検出された割合を計
算した。
【0040】
【表1】
【0041】(表1)からわかるように、未知語への対
処をすることにより、未知語を含まない入力に対しては
単語検出率が少し低下するものの、未知語を含んだ入力
に対しては単語検出率が大幅に向上した。総合の単語検
出率は76.6%から84.4%まで向上し、本発明の
効果が確認された。
【0042】以上のように本発明の実施の形態1によれ
ば、ペナルティ値の設定を必要とせず、かつ、ガーベジ
モデルの作成も必要としないので、開発コストがかから
なず未知語に対して頑健な音声認識装置が実現できる。
【0043】(実施の形態2)以下、本発明の実施の形
態2について、図9から図13を用いて説明する。
【0044】図9は、本発明の実施の形態2の音声認識
装置のブロック図を示すものであり、1は予め作成され
たサブワード音響モデルを保存するサブワード音響モデ
ル格納部、2は孤立発声された音節を語頭用サブワード
音響モデルと語尾用サブワード音響モデルを接続するこ
とにより表現した単音節音響モデルを作成する単音節音
響モデル作成部、3は単音節音響モデルからN個の音響
モデルを選択する単音節音響モデル選択部、登録語以外
の単語である未知語の音響的特徴を選択された単音節音
響モデルの系列で表現した未知語音響モデルを作成する
未知語音響モデル作成部、4は単語に対応する音響モデ
ル系列を規定し、出力可能な単語系列を規定する接続規
則を保存する接続規則格納部、5はサブワード音響モデ
ルと未知語音響モデルとを併せた音響モデルを、接続規
則に従って接続し、入力された音声10と照合して得ら
れる単語系列11を出力する認識部である。
【0045】本発明の実施の形態2においては、サブワ
ードとしてcv/vc(子音+母音/母音+子音)を用
いた場合を例に説明する。説明を簡単にするため単語と
単語のつなぎ目については、音節間の遷移部分を考慮し
ないものとして説明する。
【0046】以下に、音声認識装置の動作について図1
0から図11を用いて説明する。サブワード音響モデル
格納部1、単音節音響モデル作成部2、接続規則格納部
5、認識部6の動作は、本発明の実施の形態1と同じで
あるので、説明を省略する。
【0047】単音節モデル選択部3は、単音節音響モデ
ル作成部2で作成された単音節音響モデルの中からN個
の単音節音響モデルを選択して出力する。図10は、単
音節音響モデル選択部3において選択した単音節音響モ
デルの例である。単音節音響モデルから母音および撥音
である6個の単音節母音(撥音を含む)を選択した。
【0048】未知語音響モデル作成部4は、単音節モデ
ル選択部3で選択されたN個の単音節音響モデルを入力
とし、未知語音響モデルを出力する。図11に、未知語
音響モデルの例をネットワークで示した図を示す。未知
語音響モデルは選択された単音節音響モデルの系列で未
知語の音響的な特徴を表したものである。一般に未知語
の発音を予め予測することはできないので、未知語を日
本語の全ての単音節母音の任意の並びとして表現した。
図中、φのついた矢印はヌル遷移を表し、時間0で遷移
できることを意味している。未知語モデルは、始端(1
10)から各単音節母音に分岐し、それぞれの単音節音
響モデルを経由して、合流し終端(111)にたどり着
く。図中最下の遷移(112)は、終端から始端へもど
るためのヌル遷移であるので、この未知語音響モデルは
連続する単音節母音を表現している。
【0049】全ての日本語の単語は音節列として表すこ
とができるが、各音節には必ず母音が含まれているの
で、この未知語音響モデルは任意の単語に対しても、そ
れなりに大きい照合スコアを与えることができ、入力の
未知語区間に対しては、登録語に対する照合スコアより
も大きい値を取ることが期待できる。また音節間の遷移
部分を表現していないことと子音部を表現していないこ
とから、入力の登録語区間に対しては、登録語に対する
照合スコアよりも小さい値を取ることが期待できる。
【0050】未知語を扱う認識装置の動作として、未知
語を含まない入力の場合と未知語を含む入力の場合の二
通りの場合について検証する必要がある。この2つの場
合について、図12、図13を用いて説明する。
【0051】図12は、未知語を含まない入力音声とそ
の認識結果の例である。入力音声は、「仕事です。」で
あり、「仕事」と「です」の2単語からなる。図5の接
続規則に示したように、「仕事」、「です」は登録語で
ありサブワード系列で表されている。また、{「仕
事」、「です」}や{未知語、「です」}という単語系
列は許されている。認識結果を図12に示すが、1位の
結果は単語系列が{「仕事」、「です」}であり、照合
スコアが0.9であった。2位の結果は、単語系列が
{未知語(イ・オ・オ)、「です」}であり、照合スコ
アが0.7であった。サブワード系列を見るとに入力の
「仕事」対応する部分が異なり、1位の結果では{#s
i、ig、go、ot、to、o#}、2位の結果では
{#i、i#、#o、o#、#o、o#}となっている
ためにスコアが異なる。音響モデルの中で、入力との類
似度の低い部分を図中の網掛けで示した。
【0052】1位の結果では、全ての子音部分や音節間
の遷移部分が表現されているので、特に類似度の低い部
分はないが、2位の結果では、子音部分と音節間の遷移
部分が表現されていないので、周期的に類似度の低い部
分が現れている。このことが、音声タイプライタにおい
て音節間の遷移に応じたペナルティを与えるような働き
をする。これによって、登録語が未知語として認識され
ることなく正しく認識された。
【0053】図13は、未知語を含む入力とその認識結
果の例である。入力音声は、「商用です。」であり、
「商用」と「です」の2単語からなる。図5の接続規則
に示したように「です」は登録語でありサブワード系列
で表されているが、「商用」は未知語であるものとす
る。また{「仕事」、「です」}や{未知語、「で
す」}という単語系列は許されている。認識結果を図1
3に示すが、1位の結果は単語系列が{未知語(オ・
オ)、「です」}であり、照合スコアが0.7であっ
た。2位の結果は、単語系列が{「仕事」、「です」}
であり、照合スコアが0.6であった。
【0054】入力中の未知語「商用」の発音に対して、
登録語のなかで最も発音が近かった「仕事」に対する音
響モデルよりも未知語モデルの表す単音節母音系列の中
で最も発音が近かった単音節母音系列{オ、オ}に対す
る音響モデルの方が音響的特徴量が似ていたので、未知
語区間に対して未知語であるという正しい出力の認識が
行なえた。
【0055】以上で検証した動作例は、原理的に期待で
きる動作を説明した例であり、実際の動作では、正しく
認識できる場合も正しく認識できない場合もあるので、
その性能は確率的なものである。そこで本発明の実施の
形態2による音声認識装置を用いて認識実験を行なっ
た。
【0056】実験において、特徴パラメータは、LPC
ケプストラム系列と各音素の標準パタンとの類似度を、
共分散行列を全ての音素カテゴリで共通化したマハラノ
ビス距離として与えた音素類似度ベクトルとした。サブ
ワード音響モデルは、音素類似度ベクトルの平均値ベク
トルの系列を用いた。入力と音響モデルのフレーム間の
類似度はベクトルの内積として定義した。評価データは
男女各12名の発声した166文である。認識対象は1
66文を含む400文で、登録語彙は665単語であ
る。未知語への対処法の効果を調べるために、この66
5単語の中から10%にあたる67単語をランダムに選
んで接続規則から削除して認識した、未知語への対処の
ないの場合と、上記67単語を接続規則から削除し、削
除した単語の代わりに未知語が挿入される単語系列を許
すように接続規則を登録して認識した、未知語への対処
のある場合について評価した。
【0057】実施の形態2における結果を(表2)に示
す。表中の数字は単語検出率であり、入力中の未知語以
外の単語について、1位の単語系列に含まれたら検出、
含まれなかったら非検出として検出された割合を計算し
た。
【0058】
【表2】
【0059】(表2)からわかるように、未知語への対
処をすることにより、未知語を含まない入力に対しての
単語検出率の低下がほとんどなく、未知語を含んだ入力
に対しては単語検出率が大幅に向上した。総合の単語検
出率は76.6%から93.8%まで向上し、本発明の
効果が確認された。
【0060】以上のように本発明の実施の形態2によれ
ば、ペナルティ値の設定を必要とせず、かつ、ガーベジ
モデルの作成も必要としないので、開発コストが削減で
き、且つ未知語に対して頑健な音声認識装置が実現でき
る。
【0061】
【発明の効果】以上のように本発明によれば、未知語音
響モデルを作成する際にサブワード音響モデルからの語
頭用サブワードモデルと語尾用サブワード音響モデルを
接続して表現した単音節音響モデルの系列で作成するこ
とにより、従来の装置では試行錯誤により多くの時間と
開発コストが必要であったペナルティ値の設定及びガー
ベジモデルの作成を必要としないので、開発コストが削
減でき、且つ未知語に対して頑健な優れた音声認識装置
が実現できるものである。
【図面の簡単な説明】
【図1】本発明の実施の形態1による音声認識装置を示
すブロック図
【図2】(a)本発明の実施の形態1による音声認識装
置のサブワード音響モデルの作成処理の学習用音声デー
タを示す図 (b)本発明の実施の形態1による音声認識装置のサブ
ワード音響モデルの作成処理のラベリングを示す図 (c)本発明の実施の形態1による音声認識装置のサブ
ワード音響モデルの作成処理のサブワード音響モデルを
示す図
【図3】本発明の実施の形態1による音声認識装置の単
音節音響モデルの例を示す図
【図4】本発明の実施の形態1による音声認識装置の未
知語音響モデルの例を示す図
【図5】(a)本発明の実施の形態1による音声認識装
置の接続規則1の例を示す図 (b)本発明の実施の形態1による音声認識装置の接続
規則2の例を示す図
【図6】本発明の実施の形態1による音声認識装置にお
ける入力と音響モデルとの照合処理の概要を示す図
【図7】本発明の実施の形態1による音声認識装置の未
知語を含まない入力とその認識結果の例を示す図
【図8】本発明の実施の形態1による音声認識装置の未
知語を含む入力とその認識結果の例を示す図
【図9】本発明の実施の形態2による音声認識装置を示
すブロック図
【図10】本発明の実施の形態2による音声認識装置の
選択された単音節音響モデルの例を示す図
【図11】本発明の実施の形態2による音声認識装置の
未知語音響モデルの例を示す図
【図12】本発明の実施の形態2による音声認識装置の
未知語を含まない入力とその認識結果の例を示す図
【図13】本発明の実施の形態2による音声認識装置の
未知語を含む入力とその認識結果の例を示す図
【図14】従来例1による音声認識装置を示すブロック
【図15】従来例2による音声認識装置を示すブロック
【符号の説明】
1 サブワード音響モデル格納部 2 単音節音響モデル作成部 3 単音節音響モデル選択部 4 未知語音響モデル作成部 5 接続規則格納部 6 認識部 7 タイプライタ音響モデル作成部 8 タイプライタペナルティ値格納部 9 ガーベジモデル格納部 10 音声 11 単語系列

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 予め作成されたサブワード音響モデルを
    保存するサブワード音響モデル格納部と、孤立発声され
    た音節を前記サブワード音響モデルからの語頭用サブワ
    ード音響モデルと語尾用サブワード音響モデルとを接続
    することにより表現した単音節音響モデルを作成する単
    音節音響モデル作成部と、登録語以外の単語である未知
    語の音響的特徴を前記単音節音響モデルの系列で表現し
    た未知語音響モデルを作成する未知語音響モデル作成部
    と、予め単語に対応する音響モデル系列と出力可能な単
    語系列とを規定する接続規則を保存する接続規則格納部
    と、前記サブワード音響モデルと前記未知語音響モデル
    とを併せた音響モデルを、前記接続規則に従って接続
    し、入力された音声と照合して得られる単語系列を出力
    する認識部とを有することを特徴とする音声認識装置。
  2. 【請求項2】 予め作成されたサブワード音響モデルを
    保存するサブワード音響モデル格納部と、孤立発声され
    た音節を前記サブワード音響モデルからの語頭用サブワ
    ード音響モデルと語尾用サブワード音響モデルを接続す
    ることで表現した単音節音響モデルを作成する単音節音
    響モデル作成部と、前記単音節音響モデルからN個の音
    響モデルを選択する単音節音響モデル選択部と、登録語
    以外の単語である未知語の音響的特徴を選択された前記
    単音節音響モデルの系列で表現した未知語音響モデルを
    作成する未知語音響モデル作成部と、予め単語に対応す
    る音響モデル系列と出力可能な単語系列とを規定する接
    続規則を保存する接続規則格納部と、前記サブワード音
    響モデルと前記未知語音響モデルとを併せた音響モデル
    を、前記接続規則に従って接続し、入力された音声と照
    合して得られる単語系列を出力する認識部とを有するこ
    とを特徴とする音声認識装置。
  3. 【請求項3】 サブワード音響モデルを作成する際、音
    響的特徴量として特徴パラメータの統計量である平均ベ
    クトル、共分散行列の時系列あるいは系列間の遷移率を
    用いることを特徴とする請求項1または請求項2記載の
    音声認識装置。
  4. 【請求項4】 認識部の照合において、入力音声のフレ
    ームと音響モデルのフレームとの類似度の総和の最大値
    を照合スコアとして求め、照合スコアの高い単語系列を
    出力することを特徴とする請求項1または請求項2記載
    の音声認識装置。
  5. 【請求項5】 単音節音響モデル選択部において、単音
    節音響モデルから母音および撥音である6個の単音節母
    音(撥音を含む)を選択することを特徴とする請求項2
    記載の音声認識装置。
  6. 【請求項6】 サブワードとして、cv/vc(子音+
    母音/母音+子音)を用いたことを特徴とする請求項1
    乃至5のいずれか記載の音声認識装置。
JP25109696A 1996-09-24 1996-09-24 音声認識装置 Expired - Fee Related JP3428309B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25109696A JP3428309B2 (ja) 1996-09-24 1996-09-24 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25109696A JP3428309B2 (ja) 1996-09-24 1996-09-24 音声認識装置

Publications (2)

Publication Number Publication Date
JPH1097270A true JPH1097270A (ja) 1998-04-14
JP3428309B2 JP3428309B2 (ja) 2003-07-22

Family

ID=17217594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25109696A Expired - Fee Related JP3428309B2 (ja) 1996-09-24 1996-09-24 音声認識装置

Country Status (1)

Country Link
JP (1) JP3428309B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7260527B2 (en) 2001-12-28 2007-08-21 Kabushiki Kaisha Toshiba Speech recognizing apparatus and speech recognizing method
JP2009104156A (ja) * 2001-12-17 2009-05-14 Asahi Kasei Homes Kk 電話通信端末
US7653541B2 (en) 2002-11-21 2010-01-26 Sony Corporation Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102117082B1 (ko) 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009104156A (ja) * 2001-12-17 2009-05-14 Asahi Kasei Homes Kk 電話通信端末
US7260527B2 (en) 2001-12-28 2007-08-21 Kabushiki Kaisha Toshiba Speech recognizing apparatus and speech recognizing method
US7653541B2 (en) 2002-11-21 2010-01-26 Sony Corporation Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech

Also Published As

Publication number Publication date
JP3428309B2 (ja) 2003-07-22

Similar Documents

Publication Publication Date Title
US7366669B2 (en) Acoustic model creation method as well as acoustic model creation apparatus and speech recognition apparatus
EP2192575B1 (en) Speech recognition based on a multilingual acoustic model
US5680510A (en) System and method for generating and using context dependent sub-syllable models to recognize a tonal language
US20060041429A1 (en) Text-to-speech system and method
US6801892B2 (en) Method and system for the reduction of processing time in a speech recognition system using the hidden markov model
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JPH06110493A (ja) 音声モデルの構成方法及び音声認識装置
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
JPH0728487A (ja) 音声認識方法
Boite et al. A new approach towards keyword spotting.
US6230126B1 (en) Word-spotting speech recognition device and system
JPH1097270A (ja) 音声認識装置
JP2583074B2 (ja) 音声合成方法
JP4391179B2 (ja) 話者認識システム及び方法
JPH10133686A (ja) 非母国語音声認識装置
JP3033322B2 (ja) 連続音声認識方法
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JPH08248975A (ja) 標準パターン学習装置およびこの装置を使用した音声認識装置
JP6995967B2 (ja) 生成装置、認識システム、および、有限状態トランスデューサの生成方法
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP3299170B2 (ja) 音声登録認識装置
JPH0827638B2 (ja) 音素を単位とした音声認識装置
JP2004272134A (ja) 音声認識装置及びコンピュータプログラム
JPH04271397A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees