JPH08123470A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH08123470A
JPH08123470A JP6260413A JP26041394A JPH08123470A JP H08123470 A JPH08123470 A JP H08123470A JP 6260413 A JP6260413 A JP 6260413A JP 26041394 A JP26041394 A JP 26041394A JP H08123470 A JPH08123470 A JP H08123470A
Authority
JP
Japan
Prior art keywords
recognition
entry
speech
likelihood
entry dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6260413A
Other languages
English (en)
Inventor
Toru Imai
亨 今井
Akio Ando
彰男 安藤
Eiichi Miyasaka
栄一 宮坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP6260413A priority Critical patent/JPH08123470A/ja
Publication of JPH08123470A publication Critical patent/JPH08123470A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 話者に依存した発声変形を自動的に吸収し、
音声認識の性能を向上させた音声認識装置を提供する。 【構成】 話者に依存した発声変形ルールを自動的に求
める発声変形ルール自動生成部と、発声変形ルールに基
づいてシングルエントリ辞書からマルチエントリ辞書を
作成するマルチエントリ化処理部と、マルチエントリ辞
書を用いて音声認識を行う認識処理部とを具備する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、話者に依存した発声
変形を自動的に吸収する音声認識装置に関するものであ
る。
【0002】
【従来の技術】従来のこの種の音声認識技術には、例え
ば次ののよう技術が提案されている。 母音の無声化などの音声学的知識を認識系に組み込
む技術(渡辺隆夫ほか「半音節を単位とするHMMを用
いた不特定話者音声認識」信学論J75-D-II No.8,pp.128
1-1289(1992) 、相川清明ほか「Top-down的音韻認識に
基づく単語音声認識」信学論J67-D No.6, pp.693-700
(1984)、M. Weintraub, et. al., "Linguistic Constra
ints in Hidden Markov Model Based Speech Recogniti
on", ICASSP-89, pp. 699-702(1989) 参照) 。 音素認識系から得た誤認識の傾向を音声変形ルール
として利用する技術( 田中信一ほか「日本語 Dictation
システムにおける文節検出の高速化」信学技報SP90-7
0(1990) 参照) 。
【0003】
【発明が解決しようとする問題点】上述した従来の技術
では、一般的な発声変形の傾向を利用するので、つぎ
のような問題点がある。話者に依存した発声変形を吸収
することが難しい。認識モデルに依存した認識誤りを、
認識辞書の再構築により減少させることが難しい。音声
学的知識を人手で登録しなければならず手間である。ま
た従来の技術は、話者に依存した発声変形に対処でき
るものの、音素認識系などのボトムアップ的な認識系で
しか利用できず、音素HMM(Hidden MarkovModel: 隠
れマルコフモデル) を連結したモデルで尤度を求めるな
どのトップダウン的な認識系では利用できない。従っ
て、本発明の目的は、上記問題点を伴うことなく話者に
依存した発声変形を自動的に吸収し、音声認識の性能を
向上させた音声認識装置を提供せんとするものである。
【0004】
【問題点を解決するための手段】この目的を達成するた
め、本発明音声認識装置は、話者に依存した発声変形ル
ールを自動的に求める発声変形ルール自動生成部と、発
声変形ルールに基づいてシングルエントリ辞書からマル
チエントリ辞書を作成するマルチエントリ化処理部と、
マルチエントリ辞書を用いて音声認識を行う認識処理部
とを具備したことを特徴とするものである。また、本発
明の好適な実施態様は前記発声変形ルール自動生成部
が、認識対象話者の連続音声中の各音素の尤度および継
続時間長を、その標準的発音記号列と音声認識モデルか
ら算出し、音声認識モデル学習時の尤度および継続時間
長と比べて評価の低い音素を検出する音素評価部と、こ
の音素から脱落、置換、挿入の発声変形ルールの複数の
仮説を生成する仮説生成部と、複数の仮説による尤度上
昇と識別能力向上を認識対象話者の連続音声で検証し、
複数の仮説の中から合格とみなされた仮説を発声変形ル
ールとして採用する仮説検証部とを備えたことを特徴と
するものである。
【0005】(実施例)以下添付図面を参照し、実施例
により本発明を詳細に説明する。本発明による音声認識
装置の一構成例を示す図1を参照するに、一実施例は、
ルール作成用連続音声{Sk }の入力部1と、その発声
内容に対する標準的発音記号列{Pk }の入力部2と、
不特定話者音素HMM{Ym }の入力部3と、発声変形
ルール自動生成部4と、音素評価を行うブロック5と、
仮説生成を行うブロック6と、仮説検証を行うブロック
7と、メモリ部8と、発声変形ルール9と、マルチエン
トリ辞書10と、シングルエントリ辞書の入力部11
と、マルチエントリ化処理部12と、認識用音声の入力
部13と、認識処理部14と、認識結果の出力部15と
を含む。まず、入力部1に認識対象話者が発声した50
文程度の連続音声{Sk }を入力し、入力部2に
{Sk }に対応する標準的発音記号列{Pk }を入力
し、入力部3に例えば最尤推定学習法などのHMM学習
法で作成した不特定話者音素HMM{Ym }と、各音素
mの平均尤度Lm と継続時間長(平均μm 、標準偏差σ
m、最小値τm など)を入力する。
【0006】発声変形ルール自動生成部4はこれらの入
力データを受け取り、音素評価を行うブロック5におい
て、ルール作成用連続音声{Sk }のSk に対して、そ
の標準的発音記号列{Pk }のPk に基づいて連結した
HMMで例えばViterbi アルゴリズムを適用し、全体の
尤度L(Sk |Pk )およびPk 中のi番目の音素Xk
i の尤度Lk i と継続時間長tk i を求める。この時、
k のすべての文節間に挿入されているポーズ記号と無
音HMMを用いて、音声中の文節間のポーズの有無を自
動判別する。仮説生成を行うブロック6において、音素
k i の継続時間長と尤度をHMM学習時と比較し、評
価の低い場合にその音素から次のような音素の3つ組あ
るいは2つ組間の発声変形の仮説を生成する。
【0007】(i) 脱落ルール(ABC→AC、音素AB
Cのうち音素Bが脱落するルール) 継続時間長が短いか尤度が低い音素をPk から検出し、
脱落ルールを作成する。音素Xk i =Ym の時、次の3
つの条件 tk i <μm −2σm 、tk i <τm 、Lk i <Lm (1) のいずれかが満たされる時、Pk からXk i を脱落さ
せ、新たな発音記号列Pk ′を作る。Pk ′に基づいて
音素HMMを連結し、尤度L(Sk |Pk ′)を求め
る。もし L(Sk |Pk )<L(Sk |Pk ′) (2) ならば、Xk i-1 k i k i+1 →Xk i-1 k i+1
脱落ルールの仮説とする。
【0008】(ii)置換1ルール(ABC→ADC、音素
ABCのうち音素BをDに置換するルール) 音素Xk i が(1)式のいずれかを満たすならば、これ
を他の全ての音素で順次置換し、最も尤度が高くなる音
素Xnew による新たな発音記号列Pk ′を作る。もし
(2)式が満たされるならば、Xk i-1 k i k i+1
→Xk i-1 newk i+1 を置換1ルールの仮説とす
る。
【0009】(iii) 置換2ルール(ABC→DC、音素
ABCのうち音素対ABをDに置換するルール) 音素対Xk i-1 k i に対し、Xk i-1 とXk i の継続
時間長の和が、それぞれのHMM学習時の継続時間長の
和と比べて(1)式と同様に短い、あるいは尤度が低い
かどうかを調べる。もしそうであれば音素対Xk i-1
k i を全ての音素で順次置換し、Sk の尤度が最も高く
なる音素Xnew による新たな発音記号列Pk ′を作る。
(2)式が満たされるならば、Xk i-1 k i k i+1
→Xnewk i+1 を置換2ルールの仮説とする。(iv)挿
入ルール(AB→ACB、音素ABの間に音素Cを挿入
するルール) 音素対Xk i-1 k i の継続時間長が(iii) と同様にH
MM学習時と比べて長い、あるいは尤度が低い場合、X
k i-1 k i 間に全ての音素を順次挿入し、Sk の尤度
が最も高くなる音素Xnew による新たな発音記号列
k ′を作る。もし(2)式が満たされるならば、Xk
i-1 k i →Xk i-1 new k i を挿入ルールの仮説
とする。以上(i) 〜(iv)の処理を、すべてのルール作成
用連続音声の全ての音素{Xk i }に対して行う。
【0010】次に、仮説検証を行うブロック7におい
て、仮説として生成された各発声変形ルールの左辺の音
素列を含む標準的発音記号列Pk を、標準的発音記号列
{Pk}から全て選ぶ。これらに発声変形ルールの仮説
を適用し、各発声変形ルールに対するルール作成用連続
音声{Sk }の平均の対数尤度上昇値を求める。この値
が負になる発声変形ルールは仮説から削除し、それ以外
はこの値を発声変形ルールの効果を示す値として保存す
る。更に識別能力を調べるため、ルール作成用連続音声
{Sk }をViterbi アルゴリズムによりポーズで分割す
る。これらフレーズ音声の尤度を、発声変形ルールを適
用した全フレーズの発音記号列で求める。正解と最近傍
のフレーズによる尤度の差が、ルール適用前に比べて上
昇するルールのみを、最終的な発声変形ルール9として
採用し、メモリ部8に蓄える。
【0011】認識タスクの1つの“言葉”(単語あるい
は文節)に1つ発音記号列を対応づけたシングルエント
リ辞書を入力部11に入力し、マルチエントリ化処理部
12において、自動生成された発声変形ルール9を適用
して、各“言葉”に複数の発音記号列を対応付けたマル
チエントリ辞書10を構築し、メモリ部8に蓄える。た
だし1つの“言葉”から生成される複数の発音記号列の
うち、発声変形ルール生成時の平均の対数尤度上昇値の
上位n個までを用いる(nはシングルエントリ辞書の各
“言葉”の音素数)。
【0012】最後に音声認識処理部14において、マル
チエントリ辞書10と入力部3の不特定話者音素HMM
を用いて、入力部13の認識用音声の音声認識を行う。
認識結果の文字列は、出力部15に出力される。この
時、認識候補の尤度算出に、例えばマルチエントリ辞書
の複数の発音記号列による尤度の平均値を用いる。本発
明のもう一つの実施例は、マルチエントリ辞書10の構
成法として、発声変形ルール9に基づいて入力部11の
シングルエントリ辞書から発音記号ネットワークを作成
し、これをマルチエントリ辞書10として利用する方法
である。この場合、発音の分岐に確率値を導入し、認識
候補の尤度を算出する。
【0013】次にほぼ文節単位のフレーズ音声の認識実
験により、本発明の有効性の検証を行う。音声認識モデ
ルには離散分布型HMMを用い、市販の日本語データベ
ースの男性話者15名が発声した50文中の、ラベルに
基づく音素(最大600データ/音素)を用いて学習を
行う。ルール作成用連続音声1には、上記とは異なる市
販の日本語データベースの男性話者1名が発声した50
文を用いる。認識用音声13には、同話者の異なる内容
の25文からほぼ文節単位に切り出した約140フレー
ズを用いる。音響分析条件は、標本化周波数15kH
z、高域強調(1−0.95z-1)、ハミング窓(幅2
0ms,周期5ms)、18次線形予測分析である。特
徴パラメータは、18次LPCケプストラム係数、18
次ΔLPCケプストラム係数、Δ対数パワーで、コード
ブックサイズはそれぞれ256、256、64である。
音素HMMは41種類、子音は4状態、母音と無音は2
状態のleft-to-right モデルである。シングルエントリ
辞書11には認識候補として、評価する全フレーズに対
応する標準的発音記号列を記述する。これに、ルール作
成用連続音声1から自動生成された発声変形ルール9を
適用し、評価する全フレーズに複数の発音記号列を対応
づけたマルチエントリ辞書10を構築する。認識実験
は、5名の話者(A〜E)に対して行った。得られた発
声変形ルールの例を図2に、マルチエントリ辞書の例を
図3に、認識率を図4に示す。シングルエントリ辞書の
場合に認識率の高い上位2名の話者(D,E)に対して
は、マルチエントリ化の効果はあまり見られなかった
が、下位3名(A,B,C)に対しては平均で3.5
%、最高で3.9%認識率が向上した。この結果は、特
にシングルエントリ辞書の場合に認識率の低い話者に対
して本発明の効果が高いことを示している。
【0014】以上説明してきた実施例は本発明のほんの
一部にすぎず本発明はこれら実施例に限定されることな
く、特許請求の範囲に記載した発明の要旨内で各種の変
形、変更のあることは当業者に自明であろう。
【図面の簡単な説明】
【図1】本発明一実施例の構成を示す図。
【図2】発声変形ルールの例を示す図。
【図3】マルチエントリ辞書の例を示す図。
【図4】認識実験の結果を示す図。
【符号の説明】
1 ルール作成用連続音声の入力部 2 標準的発音記号列の入力部 3 不特定話者音素HMMの入力部 4 発声変形ルール自動生成部 5 音素評価を行うブロック 6 仮説生成を行うブロック 7 仮説検証を行うブロック 8 メモリ部 9 発声変形ルール 10 マルチエントリ辞書 11 シングルエントリ辞書の入力部 12 マルチエントリ化処理部 13 認識用音声の入力部 14 認識処理部 15 認識結果の出力部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 話者に依存した発声変形ルールを自動的
    に求める発声変形ルール自動生成部と、発声変形ルール
    に基づいてシングルエントリ辞書からマルチエントリ辞
    書を作成するマルチエントリ化処理部と、マルチエント
    リ辞書を用いて音声認識を行う認識処理部とを具備した
    ことを特徴とする音声認識装置。
  2. 【請求項2】 請求項1記載の音声認識装置において、
    前記発声変形ルール自動生成部が、認識対象話者の連続
    音声中の各音素の尤度および継続時間長を、その標準的
    発音記号列と音声認識モデルから算出し、音声認識モデ
    ル学習時の尤度および継続時間長と比べて評価の低い音
    素を検出する音素評価部と、この音素から脱落、置換、
    挿入の発声変形ルールの複数の仮説を生成する仮説生成
    部と、複数の仮説による尤度上昇と識別能力向上を認識
    対象話者の連続音声で検証し、複数の仮説の中から合格
    とみなされた仮説を発声変形ルールとして採用する仮説
    検証部とを備えたことを特徴とする音声認識装置。
  3. 【請求項3】 請求項1または2記載の音声認識装置に
    おいて、前記マルチエントリ化処理部が、認識タスクの
    単語あるいは文節に対する標準的発音記号列のみを記述
    したシングルエントリ辞書に発声変形ルールを適用する
    ことにより、認識タスクの単語あるいは文節に複数の発
    音記号列を割り当てたマルチエントリ辞書を作成し、前
    記認識処理部が、マルチエントリ辞書の複数の発音記号
    列から算出された尤度の平均値を、音声認識時の各候補
    の尤度として利用することを特徴とする音声認識装置。
  4. 【請求項4】 請求項1または2記載の音声認識装置に
    おいて、前記マルチエントリ化処理部が、認識タスクの
    単語あるいは文節に対する標準的発音記号列のみを記述
    したシングルエントリ辞書に発声変形ルールを適用する
    ことにより、分岐確率を備えた発音記号ネットワークを
    構成してマルチエントリ辞書を作成し、前記認識処理部
    が、発音記号ネットワークであるマルチエントリ辞書を
    用いて各候補の尤度を算出することを特徴とする音声認
    識装置。
JP6260413A 1994-10-25 1994-10-25 音声認識装置 Pending JPH08123470A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6260413A JPH08123470A (ja) 1994-10-25 1994-10-25 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6260413A JPH08123470A (ja) 1994-10-25 1994-10-25 音声認識装置

Publications (1)

Publication Number Publication Date
JPH08123470A true JPH08123470A (ja) 1996-05-17

Family

ID=17347590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6260413A Pending JPH08123470A (ja) 1994-10-25 1994-10-25 音声認識装置

Country Status (1)

Country Link
JP (1) JPH08123470A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003522980A (ja) * 2000-02-09 2003-07-29 スピーチワークス・インターナショナル・インコーポレーテッド 発音修正による音声認識の改善
WO2009078256A1 (ja) * 2007-12-18 2009-06-25 Nec Corporation 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP2010176067A (ja) * 2009-02-02 2010-08-12 Fujitsu Ltd 音声認識装置及び音声認識方法
JP2010175869A (ja) * 2009-01-30 2010-08-12 Fujitsu Ltd 音声認識用辞書作成装置及び音声認識用辞書作成方法
JP2012137580A (ja) * 2010-12-27 2012-07-19 Fujitsu Ltd 音声認識装置,および音声認識プログラム
JP2012247553A (ja) * 2011-05-26 2012-12-13 Fujitsu Ltd 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム
US8918318B2 (en) 2007-01-16 2014-12-23 Nec Corporation Extended recognition dictionary learning device and speech recognition system
JP2015230384A (ja) * 2014-06-05 2015-12-21 クラリオン株式会社 意図推定装置、及び、モデルの学習方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003522980A (ja) * 2000-02-09 2003-07-29 スピーチワークス・インターナショナル・インコーポレーテッド 発音修正による音声認識の改善
US8918318B2 (en) 2007-01-16 2014-12-23 Nec Corporation Extended recognition dictionary learning device and speech recognition system
WO2009078256A1 (ja) * 2007-12-18 2009-06-25 Nec Corporation 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP5327054B2 (ja) * 2007-12-18 2013-10-30 日本電気株式会社 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US8595004B2 (en) 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
JP2010175869A (ja) * 2009-01-30 2010-08-12 Fujitsu Ltd 音声認識用辞書作成装置及び音声認識用辞書作成方法
JP2010176067A (ja) * 2009-02-02 2010-08-12 Fujitsu Ltd 音声認識装置及び音声認識方法
JP2012137580A (ja) * 2010-12-27 2012-07-19 Fujitsu Ltd 音声認識装置,および音声認識プログラム
JP2012247553A (ja) * 2011-05-26 2012-12-13 Fujitsu Ltd 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム
JP2015230384A (ja) * 2014-06-05 2015-12-21 クラリオン株式会社 意図推定装置、及び、モデルの学習方法

Similar Documents

Publication Publication Date Title
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
Seymore et al. The 1997 CMU Sphinx-3 English broadcast news transcription system
Hadian et al. Flat-start single-stage discriminatively trained HMM-based models for ASR
CN111862954B (zh) 一种语音识别模型的获取方法及装置
US20040210437A1 (en) Semi-discrete utterance recognizer for carefully articulated speech
Hasegawa-Johnson et al. Simultaneous recognition of words and prosody in the Boston University Radio Speech Corpus
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
US20050038647A1 (en) Program product, method and system for detecting reduced speech
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
Metze Articulatory features for conversational speech recognition
Raškinis et al. Building medium‐vocabulary isolated‐word lithuanian hmm speech recognition system
JPH08123470A (ja) 音声認識装置
Proença et al. Mispronunciation Detection in Children's Reading of Sentences
Sukkar Subword-based minimum verification error (SB-MVE) training for task independent utterance verification
Dimzon et al. An automatic phoneme recognizer for children’s filipino read speech
Hwang et al. Building a highly accurate Mandarin speech recognizer
JP2011053312A (ja) 適応化音響モデル生成装置及びプログラム
Tabibian A survey on structured discriminative spoken keyword spotting
Sirigos et al. A hybrid syllable recognition system based on vowel spotting
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
Hasegawa-Johnson et al. Speech recognition models of the interdependence among syntax, prosody, and segmental acoustics
Hwang et al. Building a highly accurate Mandarin speech recognizer with language-independent technologies and language-dependent modules
Hirose et al. Continuous speech recognition of Japanese using prosodic word boundaries detected by mora transition modeling of fundamental frequency contours

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040217