JPH09198078A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH09198078A
JPH09198078A JP8007984A JP798496A JPH09198078A JP H09198078 A JPH09198078 A JP H09198078A JP 8007984 A JP8007984 A JP 8007984A JP 798496 A JP798496 A JP 798496A JP H09198078 A JPH09198078 A JP H09198078A
Authority
JP
Japan
Prior art keywords
recognition
phoneme
similarity
voice
recognition dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8007984A
Other languages
English (en)
Inventor
Naoyuki Habasaki
直行 幅崎
Yasuo Tomooka
靖夫 友岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
NEC Robotics Engineering Ltd
Original Assignee
NEC Corp
NEC Robotics Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, NEC Robotics Engineering Ltd filed Critical NEC Corp
Priority to JP8007984A priority Critical patent/JPH09198078A/ja
Publication of JPH09198078A publication Critical patent/JPH09198078A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】利用者に複数の話者適応用の単語を発声しても
らう必要があるので、非常に時間がかかるばかりでな
く、他の認識単語の認識性能に影響を及ぼす。 【解決手段】標準パタン格納部5には標準パタンをあら
かじめ格納し、認識辞書記憶部6には認識対象単語から
作成される各単語の音素番号列を格納した認識辞書をあ
らかじめ記憶しておく。分析部2は音声入力部6で利用
者の音声から変換した音声信号を分析して特徴ベクトル
系列に変換する。類似度計算部3は入力音声の特徴ベク
トル系列と標準パタンの音素ごとの特徴ベクトル系列と
の類似度を計算して出力する。マッチング部4は認識辞
書記憶部6の認識対象単語ごとに音素番号列の順序で音
素の類似度を累積して類似度が最大の単語を認識結果と
する。認識辞書書換え部7は類似度計算部3から出力さ
れた類似度情報の中で最も類似した音素番号列を保持し
て認識辞書記憶部6の対象単語位置に書き込む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識装置に関
し、特に不特定話者用音声認識装置を一部特定話者化し
た音声認識装置に関する。
【0002】
【従来の技術】従来、不特定話者用音声認識装置では、
音素(または音節や半音節)を比較単位として認識辞書
と比較し、入力音声の各音素と認識辞書の各音素との類
似度を計算し、認識辞書に格納されている全単語につい
て音素列としての類似度を累積し、1発声の累積類似度
が最も高い単語を認識結果としている。
【0003】図2は従来の不特定話者用音声認識装置の
一例を示すブロック図である。
【0004】図2を参照すると、この従来例では、あら
かじめ数百人分の音声から音素単位の特徴ベクトル系列
を抽出して標準パタン15を作成しておく。また、あら
かじめ単語ごとに音素番号列として認識辞書16を作成
しておく。
【0005】ここで、特定の利用者が発声した音声は音
声入力部11により音声信号に変換される。分析部12
では、音声入力部11からの音声信号を分析して入力音
声の特徴ベクトル系列を作成する。
【0006】類似度計算部13では、分析部12からの
入力音声の特徴ベクトル系列と標準パタン15との音素
単位の類似度を計算してマッチング部14に入力する。
【0007】マッチング部14では、認識辞書16の単
語ごとに音素番号列の順序で音素の類似度を累積し、入
力音声が終了した時点で類似度が最大の単語を認識結果
として出力する。
【0008】この従来の不特定話者用音声認識装置で
は、利用者の発声が標準パタンとかけ離れているときに
は認識結果が悪くなる。そこで、この場合は話者適応
(学習)により不特定話者用の標準パタンを特定話者化
することにより認識率の向上を図っている。
【0009】次に、図3は従来の不特定話者用音声認識
装置の話者適応方式の一例を示すブロック図である。
【0010】話者適応するときには、類似度計算部23
が出力する標準パタンのすべての音素を含む話者適応用
の単語群を順番に利用者に発声してもらい、得られた特
徴ベクトル系列により標準パタン25を書き換える。
【0011】標準パタン25はあらかじめ数百人分の音
声から音素単位の特徴ベクトル系列を抽出して作成して
おく。また、認識辞書26はあらかじめ話者適応用の単
語ごとに音素番号列として作成しておく。
【0012】ここで、特定の利用者が発声した音声は音
声入力部21により音声信号に変換される。分析部22
では、音声入力部21からの音声信号を分析して入力音
声の特徴ベクトル系列を作成する。
【0013】類似度計算部23では、分析部22からの
入力音声の特徴ベクトル系列と標準パタン25との音素
単位の類似度を計算してマッチング部24と話者適応部
28とに入力する。
【0014】マッチング部24では、認識辞書26の単
語ごとに音素番号列の順序で音素の類似度を累積する。
話者適応部28はマッチング部24により累積された音
素の類似度と、認識辞書26から選択された音素番号
と、類似度計算部23による音素の類似度とから、標準
パタン25と利用者の発声との特徴ベクトル系列の違い
を音素ごとに累積する。
【0015】利用者が話者適応用の単語をすべて発声し
終わった時点で、標準パタン書換え部27は話者適応部
28が累積した音素ごとの特徴ベクトル系列から標準パ
タン25の特徴ベクトル系列を書き換える。
【0016】書き換えられた標準パタン25は、以降利
用者専用の標準パタンとして特定話者用音声認識に使用
可能となる。
【0017】
【発明が解決しようとする課題】しかしながら、この従
来の音声認識装置は、標準パタンのすべての音素につい
て特徴ベクトル系列を書き換えるため、利用者に複数の
話者適応用の単語を発声してもらう必要があるので、非
常に時間がかかるばかりでなく、他の認識単語の認識性
能に影響を及ぼすという問題点があった。
【0018】本発明の目的は、類似度計算結果の音素単
位の類似度から装置利用者の発声に最も類似した音素番
号列を作成して認識辞書を書き換えることにより、装置
利用者に複数の話者適応用の単語を発声してもらって認
識辞書を書き換える必要が無くなり、したがって他の認
識単語の認識性能に影響を及ぼすことなく不特定話者用
音声認識装置の一部特定話者化を可能にした音声認識装
置を提供することにある。
【0019】
【課題を解決するための手段】本発明によれば、複数人
分の不特定話者の音声から作成される各音素の特徴ベク
トル系列の標準パタンと、認識対象単語から作成される
各単語の音素番号列を記憶した認識辞書とを備え、前記
標準パタンと装置利用者の発声音声との音素単位の類似
度から前記発声音声に最も類似した音素番号列を作成し
て前記認識辞書を書き換えることを特徴とする音声認識
装置が得られる。
【0020】また、あらかじめ前記標準パタンを格納し
た標準パタン格納手段と、あらかじめ前記認識辞書を記
憶した認識辞書記憶手段と、前記装置利用者の音声を音
声信号に変換する音声入力手段と、この音声入力手段か
ら入力された前記音声信号を分析して特徴ベクトル系列
に変換する分析手段と、入力音声の特徴ベクトル系列と
前記標準パタン格納手段の前記各音素ごとの特徴ベクト
ル系列との類似度を計算して出力する類似度計算手段
と、前記認識辞書記憶手段の認識対象単語ごとに音素番
号列の順序で音素の類似度を累積して類似度が最大の単
語を認識結果とするマッチング手段と、前記類似度計算
手段から出力された類似度情報の中で最も類似した音素
番号列を保持して前記認識辞書記憶手段の対象単語位置
に書き込む認識辞書書換え手段とを備えることを特徴と
することを特徴とする音声認識装置が得られる。
【0021】
【発明の実施の形態】次に、本発明について図面を参照
して説明する。
【0022】図1は本発明の音声認識装置の一実施形態
を示すブロック図である。
【0023】図1を参照すると、本実施形態の音声認識
装置は、あらかじめ数百人分の不特定話者の音声から作
成される各音素の特徴ベクトル系列の標準パタンを格納
する標準パタン格納部5と、あらかじめ認識対象単語か
ら作成される各単語の音素番号列を記憶した認識辞書を
記憶した認識辞書記憶部6と、装置利用者の音声を音声
信号に変換する音声入力部1と、この音声入力部1から
入力された音声信号を分析して特徴ベクトル系列に変換
する分析部2と、入力音声の特徴ベクトル系列と標準パ
タン格納部5の各音素ごとの特徴ベクトル系列との類似
度を計算して出力する類似度計算部3と、認識辞書記憶
部6の認識対象単語ごとに音素番号列の順序で音素の類
似度を累積して類似度が最大の単語を認識結果とするマ
ッチング部4と、類似度計算部3から出力された類似度
情報の中で最も類似した音素番号列を保持して認識辞書
記憶部6の対象単語位置に書き込む認識辞書書換え部7
とを備えている。
【0024】なお、上記標準パタンは不特定話者用であ
るため、装置利用者の発声が標準パタンに近いほど高い
認識率が得られるが、かけ離れているときには認識率は
悪くなる。
【0025】続いて、本実施形態の動作について説明す
る。装置使用の際には、認識率の悪い単語があると誤認
識の結果が得られる。装置利用者が認識率の悪い単語を
特定話者化したい場合には、その時点で認識辞書書換え
部7を起動する。
【0026】認識辞書書換え部7は上述したとおり、発
声に最も類似した音素番号列を保持しており、認識辞書
記憶部6内の認識辞書の対象単語位置に音素番号列を書
き込む。
【0027】以降、書き換えた認識単語についてのみ特
定話者化することで認識が可能となる。
【0028】
【発明の効果】以上説明したように本発明は、数百人分
の不特定話者の音声から作成される各音素の特徴ベクト
ル系列の標準パタンと、認識対象単語から作成される各
単語の音素番号列を格納した認識辞書とを備え、上記標
準パタンと装置利用者の発声音声との音素単位の類似度
からこの発声音声に最も類似した音素番号列を作成して
認識辞書を書き換えることにより、また、実施態様とし
ては、あらかじめ標準パタンを格納した標準パタン格納
手段と、あらかじめ認識辞書を記憶した認識辞書記憶手
段と、装置利用者の音声を音声信号に変換する音声入力
手段と、この音声入力手段から入力された音声信号を分
析して特徴ベクトル系列に変換する分析手段と、入力音
声の特徴ベクトル系列と標準パタン格納手段の各音素ご
との特徴ベクトル系列との類似度を計算して出力する類
似度計算手段と、認識辞書記憶手段の認識対象単語ごと
に音素番号列の順序で音素の類似度を累積して類似度が
最大の単語を認識結果とするマッチング手段と、類似度
計算手段から出力された類似度情報の中で最も類似した
音素番号列を保持して認識辞書記憶手段の対象単語位置
に書き込む認識辞書書換え手段とを備えることにより、
認識辞書の一部を短時間で特定話者化することができる
という効果を有する。
【0029】また、他の単語の認識性能に影響を及ぼす
ことなく特定話者化することができるという効果を有
し、さらに、類似単語の読替えが非常に容易であるとい
う効果を有する。
【図面の簡単な説明】
【図1】本発明の音声認識装置の一実施形態を示すブロ
ック図である。
【図2】従来の不特定話者用音声認識装置の一例を示す
ブロック図である。
【図3】従来の不特定話者用音声認識装置の話者適応方
式の一例を示すブロック図である。
【符号の説明】
1,11,21 音声入力部 2,12,22 分析部 3,13,23 類似度計算部 4,14,24 マッチング部 5 標準パタン格納部 6 認識辞書記憶部 7 認識辞書書換え部 15,25 標準パタン 16,26 認識辞書 27 標準パタン書換え部 28 話者適応部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 友岡 靖夫 東京都港区芝五丁目7番1号 日本電気株 式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 複数人分の不特定話者の音声から作成さ
    れる各音素の特徴ベクトル系列の標準パタンと、認識対
    象単語から作成される各単語の音素番号列を格納した認
    識辞書とを備え、前記標準パタンと装置利用者の発声音
    声との音素単位の類似度から前記発声音声に最も類似し
    た音素番号列を作成して前記認識辞書を書き換えること
    を特徴とする音声認識装置。
  2. 【請求項2】 あらかじめ前記標準パタンを格納した標
    準パタン格納手段と、あらかじめ前記認識辞書を記憶し
    た認識辞書記憶手段と、前記装置利用者の音声を音声信
    号に変換する音声入力手段と、この音声入力手段から入
    力された前記音声信号を分析して特徴ベクトル系列に変
    換する分析手段と、入力音声の特徴ベクトル系列と前記
    標準パタン格納手段の前記各音素ごとの特徴ベクトル系
    列との類似度を計算して出力する類似度計算手段と、前
    記認識辞書記憶手段の認識対象単語ごとに音素番号列の
    順序で音素の類似度を累積して類似度が最大の単語を認
    識結果とするマッチング手段と、前記類似度計算手段か
    ら出力された類似度情報の中で最も類似した音素番号列
    を保持して前記認識辞書記憶手段の対象単語位置に書き
    込む認識辞書書換え手段とを備えることを特徴とする請
    求項1記載の音声認識装置。
JP8007984A 1996-01-22 1996-01-22 音声認識装置 Pending JPH09198078A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8007984A JPH09198078A (ja) 1996-01-22 1996-01-22 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8007984A JPH09198078A (ja) 1996-01-22 1996-01-22 音声認識装置

Publications (1)

Publication Number Publication Date
JPH09198078A true JPH09198078A (ja) 1997-07-31

Family

ID=11680706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8007984A Pending JPH09198078A (ja) 1996-01-22 1996-01-22 音声認識装置

Country Status (1)

Country Link
JP (1) JPH09198078A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237930A (ja) * 2010-05-07 2011-11-24 Alpine Electronics Inc 検索装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237930A (ja) * 2010-05-07 2011-11-24 Alpine Electronics Inc 検索装置

Similar Documents

Publication Publication Date Title
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US5791904A (en) Speech training aid
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
KR20010102549A (ko) 화자 인식 방법 및 장치
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
KR102508640B1 (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
JP7098587B2 (ja) 情報処理装置、キーワード検出装置、情報処理方法およびプログラム
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2820093B2 (ja) 単音節認識装置
JP3277579B2 (ja) 音声認識方法および装置
JPH09198078A (ja) 音声認識装置
JP2813209B2 (ja) 大語彙音声認識装置
JPH0612090A (ja) 音声学習方式
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP2003271180A (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP3231365B2 (ja) 音声認識装置
JP2862306B2 (ja) 音声認識装置
JP2001228890A (ja) 音声認識装置
JPH1165589A (ja) 音声認識装置
JPH05303391A (ja) 音声認識装置
KR100608644B1 (ko) 가변 길이의 연결숫자음 인식방법
JP2004309654A (ja) 音声認識装置
JPS60164800A (ja) 音声認識装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000704