JP2003058185A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2003058185A
JP2003058185A JP2001242442A JP2001242442A JP2003058185A JP 2003058185 A JP2003058185 A JP 2003058185A JP 2001242442 A JP2001242442 A JP 2001242442A JP 2001242442 A JP2001242442 A JP 2001242442A JP 2003058185 A JP2003058185 A JP 2003058185A
Authority
JP
Japan
Prior art keywords
voice
recognition
speaker
input
normalization parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001242442A
Other languages
English (en)
Inventor
Takashi Tsuzuki
貴史 續木
Satoru Suzuki
哲 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2001242442A priority Critical patent/JP2003058185A/ja
Publication of JP2003058185A publication Critical patent/JP2003058185A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【課題】 認識辞書記憶部に認識語を登録する際に、
話者性を取り除き話者正規化した上で登録を行うことに
より、認識精度の高い音声認識装置を提供する。 【解決手段】 話者によって発声された音声信号の話者
性を正規化し、話者正規化された音声特徴量を出力する
話者正規化部と、音声認識に用いる音声認識標準パター
ンを蓄積する音声認識標準パターン記憶部と、入力され
る音声特徴量を音声認識標準パターンを用いて認識して
音節情報に変換し、音節情報を出力する音節系列認識部
と、認識対象のテキスト情報とテキスト情報に対応した
音節情報とを記憶する認識辞書記憶部と、テキスト情報
と前記音節情報とを認識辞書記憶部に登録する辞書登録
部を有し、音声信号が入力されたとき、入力された音声
信号を音声認識し、認識結果である認識語のテキスト情
報を出力する音声認識部とを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、高精度な認識性能
を有する音声認識装置及び音声認識方法に関する。
【0002】
【従来の技術】従来、音声認識では、認識語が蓄積され
ている認識辞書に基づき作成された音声認識標準パター
ンを用いて、これらの音声認識標準パターンと未知音声
から求められた音声パターンとの類似度を求め、最大の
類似度を与えるカテゴリを認識結果とする方法が一般に
用いられており、認識精度の高い音声認識装置を実現す
る方法として、ユーザが発声した音声を用いて、音声認
識標準パターンや認識辞書の作成を行う方法が提案され
ている。例えば、特開平8−110790号公報に開示
されている技術では、ユーザが発声した音声を音声認識
し、認識結果の文字列を認識単語辞書に単語登録し、登
録された単語を認識対象として音声認識を行うことによ
り、認識精度の高い音声認識装置を実現している。又、
特開平11−242493号公報に開示されている技術
では、ユーザが発声した音声に近いサブワード(音節、
半音節、音素、連接による音素)の連接を求め、このサ
ブワード列を音声認識標準パターンとして使用すること
により、認識精度の高い音声認識装置を実現している。
【0003】
【発明が解決しようとする課題】上記2つの提案方法の
ように、ユーザが発声した音声をそのまま用いて音声認
識標準パターンや認識辞書の作成を行うと、音声認識標
準パターンや認識辞書に登録される文字列に話者の特性
そのものが反映されるため、発声した特定ユーザに対し
ては、認識精度が高い音声認識装置は実現できる。しか
し、一方で、登録発声者以外の話者に交代した場合に
は、認識精度が低下することがあり、不特定話者を対象
とした音声認識装置に対しては適用できないという問題
があった。
【0004】本発明は、このような従来の問題点に鑑み
てなされたものであって、登録対象の発声を認識辞書に
登録する際に、発声者の音声の個人性を取り除き、話者
正規化した上で登録を行うことにより、不特定話者に対
応した音声認識標準パターンや認識辞書が利用可能な音
声認識装置を提供することを目的としている。
【0005】
【課題を解決するための手段】上記課題を解決するた
め、本発明は以下の構成を有する。請求項1の本発明
は、話者によって発声された音声を入力し、音声信号を
出力するマイクロホンと、入力される音声信号の話者性
を正規化し、話者正規化された音声特徴量を出力する話
者正規化部と、音声認識に用いる音声認識標準パターン
を蓄積する音声認識標準パターン記憶部と、入力される
前記音声特徴量を前記音声認識標準パターンを用いて認
識して音節情報に変換し、前記音節情報を出力する音節
系列認識部と、認識対象のテキスト情報と前記テキスト
情報に対応した音節情報とを記憶する認識辞書記憶部
と、入力される前記音節情報に対応したテキスト情報を
取得し、前記テキスト情報と前記音節情報とを前記認識
辞書記憶部に登録する辞書登録部と、音声信号が入力さ
れたとき、前記認識辞書記憶部を参照し、前記音声認識
標準パターンを用いて、入力された音声信号を音声認識
し、認識結果である認識語のテキスト情報を出力する音
声認識部と、を有することを特徴とする音声認識装置で
ある。
【0006】請求項2の本発明は、前記話者正規化部
は、入力された音声信号を話者正規化するために用いる
正規化パラメータを入力する正規化パラメータ入力部
と、音声信号と正規化パラメータが入力されると、この
音声信号を入力された前記正規化パラメータを用いて話
者正規化し、話者正規化された前記音声特徴量を出力す
る登録音声話者正規化部と、を有することを特徴とする
請求項1記載の音声認識装置である。
【0007】請求項3の本発明は、話者によって発声さ
れた音声を入力し、音声信号を出力するマイクロホン
と、入力される音声信号の話者性を正規化するために用
いる正規化パラメータを推定し、前記正規化パラメータ
を出力する正規化パラメータ推定部と、音声信号と前記
正規化パラメータが入力されると、前記正規化パラメー
タを、入力された音声信号の正規化に用いるか否かを判
定する登録判定部と、前記登録判定部が前記正規化パラ
メータを入力された音声信号の正規化に用いると判定し
且つ前記正規化パラメータと音声信号が入力されると、
前記正規化パラメータを用いて、入力された音声信号の
話者性を正規化し、話者正規化された音声特徴量を出力
する話者正規化部と、音声認識に用いる音声認識標準パ
ターンを蓄積する音声認識標準パターン記憶部と、入力
される前記音声特徴量を前記音声認識標準パターンを用
いて認識して音節情報に変換し、前記音節情報を出力す
る音節系列認識部と、認識対象のテキスト情報と前記テ
キスト情報に対応した音節情報とを記憶する認識辞書記
憶部と、入力される前記音節情報に対応したテキスト情
報を取得し、前記テキスト情報と前記音節情報とを前記
認識辞書記憶部に登録する辞書登録部と、音声信号が入
力されたとき、前記認識辞書記憶部を参照し、前記音声
認識標準パターンを用いて入力された音声信号を音声認
識し、認識結果である認識語のテキスト情報を出力する
音声認識部と、を有することを特徴とする音声認識装置
である。
【0008】請求項4の本発明は、話者によって発声さ
れた音声を入力し、音声信号を出力するマイクロホン
と、入力される音声信号を提示する提示部と、登録者が
音声信号の始終端情報を入力する操作部と、音声信号が
入力されると前記提示部に音声信号を提示し、前記操作
部から音声信号の始終端情報が入力されると、前記始終
端情報に基づいて音声信号の音声区間を切り出し、この
切り出された音声信号の話者性を正規化するために用い
る正規化パラメータを推定し、前記正規化パラメータを
出力する正規化パラメータ推定部と、前記正規化パラメ
ータと音声信号が入力されると、前記正規化パラメータ
を用いて、入力された音声信号の話者性を正規化し、話
者正規化された音声特徴量を出力する話者正規化部と、
音声認識に用いる音声認識標準パターンを蓄積する音声
認識標準パターン記憶部と、入力される前記音声特徴量
を前記音声認識標準パターンを用いて認識して音節情報
に変換し、前記音節情報を出力する音節系列認識部と、
認識対象のテキスト情報と前記テキスト情報に対応した
音節情報とを記憶する認識辞書記憶部と、入力される前
記音節情報に対応したテキスト情報を取得し、前記テキ
スト情報と前記音節情報とを前記認識辞書記憶部に登録
する辞書登録部と、音声信号が入力されたとき前記認識
辞書記憶部を参照し、前記音声認識標準パターンを用い
て入力された音声信号を音声認識し、認識結果である認
識語のテキスト情報を出力する音声認識部と、を有する
ことを特徴とする音声認識装置である。
【0009】請求項5の本発明は、前記正規化パラメー
タ推定部は、入力された音声信号から第1の区間の前記
音声信号を切り出し、第1の区間の前記音声信号を前記
提示部に伝送する音声区間検出部と、第1の区間の前記
音声信号から、前記始終端情報によって規定される第2
の区間の前記音声信号を切り出し、第2の区間の前記音
声信号の話者性を正規化するために用いる正規化パラメ
ータを推定し、前記正規化パラメータを出力する登録音
声正規化パラメータ推定部と、を有することを特徴とす
る請求項4に記載の音声認識装置である。
【0010】請求項6の本発明は、話者によって発声さ
れた音声を入力し、音声信号を出力するマイクロホン
と、複数の正規化パラメータを蓄積する正規化パラメー
タ記憶部と、前記正規化パラメータ記憶部に蓄積された
複数の正規化パラメータに基づいて、入力された音声信
号の話者性を正規化するための正規化パラメータを推定
し前記正規化パラメータを出力する登録音声正規化パラ
メータ推定部と、前記正規化パラメータを用いて、入力
された音声信号の話者性を正規化し、話者正規化された
第1の音声特徴量を出力する登録音声話者正規化部と、
音声認識に用いる音声認識標準パターンを蓄積する音声
認識標準パターン記憶部と、入力される前記第1の音声
特徴量を前記音声認識標準パターンを用いて認識して音
節情報に変換し、前記音節情報を出力する音節系列認識
部と、認識対象のテキスト情報と前記テキスト情報に対
応した音節情報とを記憶する認識辞書記憶部と、入力さ
れる前記音節情報に対応したテキスト情報を取得し、前
記テキスト情報と前記音節情報とを前記認識辞書記憶部
に登録する辞書登録部と、音声信号が入力されると、前
記正規化パラメータ記憶部を参照し、入力された音声信
号の話者性を正規化するために用いる正規化パラメータ
を推定し、この正規化パラメータを出力する認識音声正
規化パラメータ推定部と、前記正規化パラメータを用い
て、入力された音声信号の話者性を正規化し、話者正規
化された第2の音声特徴量を出力する認識音声話者正規
化部と、前記第2の音声特徴量が入力されたとき、前記
認識辞書記憶部を参照し、前記音声認識標準パターンを
用いて入力された前記第2の音声特徴量を音声認識し、
認識結果である認識語のテキスト情報を出力する音声認
識部と、を有することを特徴とする音声認識装置であ
る。
【0011】請求項7の本発明は、話者によって発声さ
れた音声を入力し、音声信号を出力するマイクロホン
と、正規化パラメータを蓄積する正規化パラメータ記憶
部と、前記正規化パラメータ記憶部に蓄積された正規化
パラメータの一つに基づいて入力された音声信号の話者
性を正規化するための正規化パラメータを推定し、推定
された前記正規化パラメータを出力し、且つ推定された
前記正規化パラメータを前記正規化パラメータ記憶部に
蓄積する登録音声正規化パラメータ推定部と、前記正規
化パラメータを用いて、入力された音声信号の話者性を
正規化し、話者正規化された第1の音声特徴量を出力す
る登録音声話者正規化部と、音声認識に用いる音声認識
標準パターンを蓄積する音声認識標準パターン記憶部
と、入力される前記第1の音声特徴量を前記音声認識標
準パターンを用いて認識して音節情報に変換し、前記音
節情報を出力する音節系列認識部と、認識対象のテキス
ト情報とこのテキスト情報に対応した音節情報とを記憶
する認識辞書記憶部と、入力される前記音節情報に対応
したテキスト情報を取得し、前記テキスト情報と前記音
節情報とを前記認識辞書記憶部に登録する辞書登録部
と、音声信号が入力されると、前記正規化パラメータ記
憶部を参照し、入力された音声信号の話者性を正規化す
るために用いる正規化パラメータを推定し、この正規化
パラメータを出力する認識音声正規化パラメータ推定部
と、前記正規化パラメータを用いて、入力された音声信
号の話者性を正規化し、話者正規化された第2の音声特
徴量を出力する認識音声話者正規化部と、前記第2の音
声特徴量が入力されたとき、前記認識辞書記憶部を参照
し、前記音声認識標準パターンを用いて入力された前記
第2の音声特徴量を音声認識し、認識結果である認識語
のテキスト情報を出力する音声認識部と、を有すること
を特徴とする音声認識装置である。
【0012】請求項8の本発明は、話者によって発声さ
れた音声を入力し、音声信号を出力するマイクロホン
と、入力された音声信号を発話した話者に対応する第1
の話者ラベルを取得する話者認識部と、正規化パラメー
タと第2の話者ラベルとを対応させて蓄積するする正規
化パラメータ記憶部と、前記第1の話者ラベルと同一の
前記第2の話者ラベルに対応づけられた前記正規化パラ
メータを前記正規化パラメータ記憶部から読み出し、読
み出した前記正規化パラメータに基づいて正規化パラメ
ータを推定し又は読み出した前記正規化パラメータを正
規化パラメータとして推定し、出力する正規化パラメー
タ推定部と、推定された前記正規化パラメータと音声信
号が入力されると、前記正規化パラメータを用いて入力
された音声信号の話者性を正規化し、話者正規化された
第1の音声特徴量を出力する登録音声話者正規化部と、
音声認識に用いる音声認識標準パターンを蓄積する音声
認識標準パターン記憶部と、入力される前記第1の音声
特徴量を前記音声認識標準パターンを用いて認識して音
節情報に変換し、前記音節情報を出力する音節系列認識
部と、認識対象のテキスト情報と前記テキスト情報に対
応した音節情報とを記憶する認識辞書記憶部と、入力さ
れる音節情報に対応したテキスト情報を取得し、前記テ
キスト情報と前記音節情報とを前記認識辞書記憶部に登
録する辞書登録部と、音声信号と話者ラベルが入力され
たとき、前記正規化パラメータ記憶部を参照し、入力さ
れた話者ラベルに対応する正規化パラメータを取得し、
この正規化パラメータに基づいて正規化パラメータを推
定し、又は取得した前記正規化パラメータを正規化パラ
メータとして推定し、出力する正規化パラメータ参照部
と、推定された前記正規化パラメータを用いて、入力さ
れた音声信号の話者性を正規化し、話者正規化された第
2の音声特徴量を出力する認識音声話者正規化部と、前
記第2の音声特徴量が入力されたとき、前記認識辞書記
憶部を参照し、前記音声認識標準パターンを用いて入力
された前記第2の音声特徴量を音声認識し、認識結果で
ある認識語のテキスト情報を出力する音声認識部と、を
有することを特徴とする音声認識装置である。
【0013】請求項9の本発明は、話者によって発声さ
れた音声を入力し、音声信号を出力するマイクロホン
と、入力される音声信号の話者性を正規化し、話者正規
化された音声特徴量を出力する話者正規化部と、音声認
識に用いる音声認識標準パターンを蓄積する第1の音声
認識標準パターン記憶部と、複数の音声認識標準パター
ンを蓄積する第2の音声認識標準パターン記憶部と、入
力される前記音声特徴量を前記第1の音声認識標準パタ
ーン記憶部に蓄積された音声認識標準パターン、及び前
記第2の音声認識標準パターン記憶部に蓄積された話者
の属性に応じた音声認識標準パターンを用いて認識し
て、音節情報に変換し、前記音節情報を出力する音節系
列認識部と、認識対象のテキスト情報と前記テキスト情
報に対応した音節情報とを記憶する認識辞書記憶部と、
入力される音節情報に対応したテキスト情報を取得し、
前記テキスト情報と前記音節情報とを前記認識辞書記憶
部に登録する辞書登録部と、音声信号が入力されたとき
前記音声認識標準パターン記憶部を用いて前記音声信号
を音節情報に変換し、前記音節情報に対応するテキスト
情報を前記認識辞書記憶部から読み出し、読み出した前
記テキスト情報を認識結果として出力する音声認識部
と、を有することを特徴とする音声認識装置である。
【0014】請求項10の本発明は、音声登録ステップ
と音声認識ステップとを選択的に実行する音声認識装置
の制御方法であって、音声登録ステップにおいては、マ
イクロホンから話者によって発声された音声による音声
信号を入力する音声入力ステップと、入力された前記音
声信号から話者性を取り除き、話者正規化された音声特
徴量を出力する話者正規化ステップと、前記音声特徴量
を、音声認識標準パターン記憶部に蓄積された音声認識
標準パターンを用いて音節情報に変換する音節系列認識
ステップと、ユーザが認識対象のテキスト情報を入力す
るテキスト入力ステップと、入力された前記音節情報と
前記テキスト情報とを対応づけて、認識辞書記憶部に登
録する辞書登録ステップと、を有し、音声認識ステップ
においては、マイクロホンから話者によって発声された
音声による音声信号を入力する音声入力ステップと、登
録語の音節系列を認識辞書記憶部から読み出す、音節系
列読み出しステップと、音声認識標準パターン記憶部を
参照して入力された音声信号の音声認識を行い、認識結
果を出力する認識結果出力ステップと、を有することを
特徴とする音声認識装置の制御方法である。
【0015】請求項11の本発明は、前記話者正規化ス
テップは、前記音声信号の話者性を正規化するために用
いる正規化パラメータを推定し、前記正規化パラメータ
を用いて入力された前記音声信号を話者正規化するか否
かを判定し、前記正規化パラメータを用いて正規化する
と判定した場合に、前記正規化パラメータを用いて前記
音声信号を話者正規化することを特徴とする請求項10
に記載の音声認識装置の制御方法である。
【0016】請求項12の本発明は、前記話者正規化ス
テップは、入力される音声信号の情報を提示し、ユーザ
が提示された音声信号の情報に基づき音声信号の音声区
間を切り出し、この切り出された音声信号の話者性を正
規化するために用いる正規化パラメータを推定し、前記
正規化パラメータに基づいて切り出された音声信号の話
者性を正規化することを特徴とする請求項10に記載の
音声認識装置の制御方法である。
【0017】請求項13の本発明は、音声登録ステップ
と音声認識ステップとを選択的に実行する音声認識装置
の制御方法であって、音声登録ステップにおいては、マ
イクロホンから話者によって発声された音声による音声
信号を出力する音声入力ステップと、正規化パラメータ
記憶部に蓄積された複数の正規化パラメータに基づい
て、入力された音声信号の話者性を正規化するための正
規化パラメータを推定する登録音声正規化パラメータ推
定ステップと、推定された前記正規化パラメータを用い
て、入力された音声信号の話者性を取り除き、話者正規
化された第1の音声特徴量を出力する登録音声話者正規
化ステップと、前記第1の音声特徴量を音声認識標準パ
ターン記憶部に記憶された音声認識標準パターンを用い
て認識し、音節情報に変換する音節系列認識ステップ
と、ユーザが認識対象のテキスト情報を入力するテキス
ト入力ステップと、前記音節情報と前記テキスト情報と
を対応づけて、認識辞書記憶部に登録する辞書登録ステ
ップと、を有し、音声認識ステップにおいては、マイク
ロホンから話者によって発声された音声による音声信号
を入力する音声入力ステップと、正規化パラメータ記憶
部に記憶されている正規化パラメータを参照し、それを
もとに、入力された前記音声信号を話者正規化するため
に用いる正規化パラメータを推定する、認識音声正規化
パラメータ推定ステップと、推定された前記正規化パラ
メータを用いて、入力された音声信号の話者性を正規化
し、話者正規化された第2の音声特徴量を出力する認識
音声話者正規化ステップと、認識辞書記憶部から登録語
の音節系列を読みだす、音節系列読み出しステップと、
読み出した前記音節系列に基づき、前記音声認識標準パ
ターンを用いて入力された前記第2の音声特徴量の音声
認識を行い、認識結果を出力する認識結果出力ステップ
を、を有することを特徴とする音声認識装置の制御方法
である。
【0018】請求項14の本発明は、音声登録ステップ
と音声認識ステップとを選択的に実行する音声認識装置
の制御方法であって、音声登録ステップにおいては、マ
イクロホンから話者によって発声された音声による音声
信号を入力する音声入力ステップと、正規化パラメータ
記憶部に蓄積された正規化パラメータの一つを読み出
し、読み出した正規化パラメータに基づいて、入力され
た音声信号の話者性を正規化するための正規化パラメー
タを推定する登録音声正規化パラメータ推定ステップ
と、推定された前記正規化パラメータを用いて、入力さ
れた音声信号の話者性を取り除き、話者正規化された第
1の音声特徴量を出力する登録音声話者正規化ステップ
と、前記第1の音声特徴量を音声認識標準パターン記憶
部に記憶された音声認識標準パターンを用いて認識し、
音節情報に変換する音節系列認識ステップと、ユーザが
認識対象のテキスト情報を入力するテキスト入力ステッ
プと、前記音節情報と前記テキスト情報とを対応づけ
て、認識辞書記憶部に登録する辞書登録ステップと、を
有し、音声認識ステップにおいては、マイクロホンから
話者によって発声された音声による音声信号を入力する
音声入力ステップと、正規化パラメータ記憶部に記憶さ
れている正規化パラメータを参照し、それをもとに、入
力された前記音声信号を話者正規化するために用いる正
規化パラメータを推定する、認識音声正規化パラメータ
推定ステップと、推定された前記正規化パラメータを用
いて、入力された音声信号の話者性を正規化し、話者正
規化された第2の音声特徴量を出力する認識音声話者正
規化ステップと、認識辞書記憶部から登録語の音節系列
を読みだす、音節系列読み出しステップと、読み出した
前記音節系列に基づき、前記音声認識標準パターンを用
いて入力された前記第2の音声特徴量の音声認識を行
い、認識結果を出力する認識結果出力ステップを、を有
することを特徴とする音声認識装置の制御方法である。
【0019】請求項15の本発明は、音声登録ステップ
と音声認識ステップとを選択的に実行する音声認識装置
の制御方法であって、音声登録ステップにおいては、マ
イクロホンから話者によって発声された音声による音声
信号を入力する音声入力ステップと、入力された音声信
号を発話した話者に対応する第1の話者ラベルを取得す
る話者認識ステップと、正規化パラメータを第2の話者
ラベルに対応して保存する正規化パラメータ記憶部か
ら、前記第1の話者ラベルと同一の前記第2の話者ラベ
ルに対応して蓄積されている前記正規化パラメータを読
み出し、読み出した前記正規化パラメータに基づいて正
規化パラメータを推定し、又は読み出した前記正規化パ
ラメータを正規化パラメータとして推定し、推定された
正規化パラメータを出力する正規化パラメータ推定ステ
ップと、推定された前記正規化パラメータを用いて、入
力された音声信号の話者性を正規化し、話者正規化され
た第1の音声特徴量を出力する登録音声話者正規化ステ
ップと、前記第1の音声特徴量を、音声認識標準パター
ン記憶部に蓄積されている音声認識標準パターンを用い
て認識して音節情報に変換し、前記音節情報を出力する
音節系列認識ステップと、ユーザが認識対象のテキスト
情報を入力するテキスト入力ステップと、前記音節情報
と前記テキスト情報とを、対応づけて認識辞書記憶部に
登録する辞書登録ステップと、を有し、音声認識ステッ
プにおいては、音声信号と話者ラベルが入力されたと
き、前記正規化パラメータ記憶部を参照し、入力された
話者ラベルに対応する正規化パラメータを取得し、この
正規化パラメータに基づいて正規化パラメータを推定し
又は取得した正規化パラメータを正規化パラメータとし
て推定する正規化パラメータ参照ステップと、推定され
た前記正規化パラメータを用いて入力された音声信号の
話者性を正規化し、話者正規化された第2の音声特徴量
を出力する認識音声話者正規化ステップと、認識辞書記
憶部から登録語の音節系列を読みだす、音節系列読み出
しステップと、読み出した前記音節系列に基づき、前記
音声認識標準パターンを用いて入力された前記第2の音
声特徴量の音声認識を行い、認識結果を出力する認識結
果出力ステップを、を有することを特徴とする音声認識
装置の制御方法である。
【0020】請求項16の本発明は、音声登録ステップ
と音声認識ステップを選択的に実行する音声認識装置の
制御方法であって、音声登録ステップにおいては、マイ
クロホンから話者によって発声された音声による音声信
号を入力する音声入力ステップと、ユーザが認識対象の
テキスト情報を入力するテキスト入力ステップと、入力
された前記音声信号から話者性を取り除き、話者正規化
された音声特徴量を出力する話者正規化ステップと、第
1の音声認識標準パターン記憶部に蓄積されている、第
1の音声認識標準パターンを用いて、前記音声特徴量を
認識して第1の音節情報に変換する音節系列認識ステッ
プと、前記第1の音節情報と前記テキスト情報を対応づ
けて認識辞書記憶部に登録する辞書登録ステップと、複
数の音声認識標準パターンを蓄積する第2の音声認識標
準パターン記憶部から話者の属性に応じた第2の音声認
識標準パターンを選択し、前記第2の音声認識標準パタ
ーンを用いて、前記音声特徴量を認識して第2の音節情
報に変換する音節系列認識ステップと、前記第2の音節
情報と前記テキスト情報を対応づけて認識辞書記憶部に
登録する辞書登録ステップと、を有し、音声認識ステッ
プにおいては、音声認識標準パターン記憶部を参照して
入力された音声信号を第3の音節情報に変換する音節情
報認識ステップと、認識結果である前記第3の音節情報
に対応した登録語を前記認識辞書記憶部から読み出し、
読み出した登録語のテキスト情報を出力する認識結果出
力ステップと、を有することを特徴とする音声認識装置
の制御方法である。
【0021】
【発明の実施例】以下本発明の実施をするための最良の
形態を具体的に示した実施例について図面とともに記載
する。
【0022】《実施例1》本発明の実施例1による音声
認識装置について、図1を用いて説明する。本実施例の
音声認識装置は、マイクロホン101、スイッチ10
2、話者正規化部103、音節系列認識部104、音声
認識標準パターン記憶部105、辞書登録部106、認
識辞書記憶部107、音声認識部108を有する。
【0023】マイクロホン101は話者によって発話さ
れた音声を取り込み、音声信号を出力する。スイッチ1
02はマイクロホン101から入力された音声信号の出
力先を登録時と認識時とで切り換える。話者正規化部1
03は音声信号が入力されると、この音声信号に重畳さ
れている発話者の話者性を取り除き、話者正規化された
(話者の音声の個性が取り除かれた)音声特徴量を音節
系列認識部104へ出力する。音声認識標準パターン記
憶部105は各音節に対応する音声認識標準パターンを
記憶する。日本語の音節情報は、一般に仮名、片仮名、
又はローマ字で表現できる。あるいはさらに細かい半音
素・音素単位で各音節に対応した特徴量を定義すること
もできる。さらに日本語でなくとも、全ての言語におけ
る音節を表現する系列を定義することでそれぞれの音素
に対応した音声認識標準パターンを用いることもでき
る。音節系列認識部104は話者性が取り除かれた音声
特徴量を受け、音声認識標準パターン記憶部105を参
照して、入力された音声特徴量と全ての音節のつながり
とのマッチングを行い、音声特徴量を音節系列として認
識し、この認識結果の音節系列を辞書登録部106へ出
力する。辞書登録部106はテキスト入力手段を有し、
ユーザが入力したテキスト情報を取得し、このテキスト
情報と音節系列認識部104から入力された音節系列と
を対応づけ、認識辞書記憶部107へ登録する。認識辞
書記憶部107は単語を構成する音節系列と、テキスト
情報を対にして格納する。認識辞書記憶部107の内容
の一例を図2に示す。ここではテキスト情報は仮名又は
漢字で記憶され、音節系列は仮名で記憶される。音声認
識部108は音声信号や音声特徴量が入力されると、認
識辞書記憶部107から認識対象語の音節系列を読み出
し、この音節系列に基づき音声認識標準パターン記憶部
105を参照して入力された音声信号や音声特徴量の音
声認識を行い、認識結果を出力する。ここでの認識結果
は、認識語のテキスト情報とする。
【0024】本実施例の音声認識装置の音声認識過程を
より具体的に述べるために、ユーザが「おはよう」とい
う単語を登録する例を示す。ユーザはスイッチ102を
登録時に切り換え、マイクロホン101に「おはよう」
という音声を入力する。話者正規化部103は、マイク
ロホン101から音声信号「おはよう」が入力される
と、この音声信号「おはよう」に重畳されているユーザ
の話者性を取り除き、話者正規化された音声特徴量「お
へよう」を音節系列認識部104へ出力する。(この例
においては、話者の発音のなまりにより、話者は「おは
よう」を発音したつもりが、話者性を取り除いた結果
「おへよう」という音声特徴量に変換されたものとす
る。)音節系列認識部104は話者正規化部103から
話者正規化された音声特徴量「おへよう」が入力される
と、音声認識標準パターン記憶部105を参照して、音
声特徴量「おへよう」を、最適な音節系列「お・へ・よ
・う」と認識し、この音節系列「お・へ・よ・う」を辞
書登録部106へ出力する。ユーザは辞書登録部106
のテキスト入力手段(例えばキーボードの様な物)より
テキスト情報「おはよう」を打ち込む。辞書登録部10
6は音節系列認識部104から受けた音節系列「お・へ
・よ・う」と、テキスト入力手段から受けたテキスト情
報「おはよう」を対応づけし、認識辞書記憶部107に
登録する。この時点での認識辞書記憶部107は図3の
ような状態になる。
【0025】次に、上記の方法によって登録した「おは
よう」という単語を認識させる例を示す。認識辞書記憶
部107へ認識語を登録した登録者以外のユーザが、ス
イッチ102を認識時に切り換え、「おはよう」という
音声をマイクロホン101から入力する。音声認識部1
08はマイクロホン101から音声信号「おはよう」を
受け、認識辞書記憶部107から登録語の音節系列「お
・は・よ・う、こ・ん・に・ち・は、…、お・へ・よ・
う」を読み出す。そしてこの音節系列に基づき、音声認
識標準パターン記憶部105を参照して、音声信号「お
はよう」と全ての登録語の音素系列との距離を計算し
て、その距離が最小となる音素系列を選択する。こうし
て選択された単語モデルがユーザの発声した単語として
認識される。
【0026】尚、登録時において、ユーザは登録する認
識語のテキストと異なるテキストをテキスト入力手段か
ら入力してもい。上記の例では、マイクロホン101か
ら「おはよう」という音声を入力し、テキスト入力手段
から「挨拶」というテキスト情報を入力しても良い。こ
の場合、認識辞書記憶部107には音節系列「お・へ・
よ・う」に対応するテキスト情報として「挨拶」が記録
されるので、認識過程において、ユーザが「おはよう」
と発声した場合、音声認識の結果としてテキスト「挨
拶」が出力される。又、音声認識部108はマイクロホ
ン101から音声信号が入力されると、登録時における
話者正規化と同一の方法により、この音声信号に重畳さ
れているユーザの話者性を取り除いた音声特徴量を用い
て音声認識を行い、認識結果を出力してもよい。また、
本実施例の話者正規化部は、話者正規化する際に用いる
正規化パラメータをユーザが入力するパラメータ入力部
と、ユーザによって入力された正規化パラメータを用い
て話者正規化する登録音声話者正規化部から構成される
ようにしてもよい。本実施例によれば、音声認識用辞書
に認識語を登録するために、登録者は登録する認識語の
発声を行い、この発声から登録者の話者性を取り除き、
この話者正規化された音声を用いて音声認識用辞書に認
識語を登録することで、認識過程において、登録者以外
の話者に対しても高精度な認識が行える音声認識用辞書
を作成することができる。
【0027】《実施例2》本発明の実施例2による音声
認識装置について、図4を用いて説明する。本実施例の
音声認識装置は、マイクロホン101、スイッチ10
2、音節系列認識部104、音声認識標準パターン記憶
部105、辞書登録部106、認識辞書記憶部107、
音声認識部108、正規化パラメータ推定部201、話
者正規化部202、登録判定部203を有する。ここ
で、実施例1と同一番号のブロックは同じ機能を担うも
のとし、それらの詳細な説明は省略する。正規化パラメ
ータ推定部201は、マイクロホン101から音声信号
を受け、この音声信号の話者性を正規化するために用い
る正規化パラメータを推定し、この正規化パラメータと
音声信号とを登録判定部203へ出力する。登録判定部
203は、音声信号と正規化パラメータを受け、この正
規化パラメータを用いて入力された音声信号を出力する
か否かを判定し、出力すると判定した場合に、音声信号
と正規化パラメータを話者正規化部202へ出力する。
また、この正規化パラメータを用いないと判定した場合
は、登録判定部203は判定結果を正規化パラメータ推
定部201に伝送する。正規化パラメータ推定部201
は判定結果に応じて、別の正規化パラメータを推定し、
出力しても良い。話者正規化部202は、音声信号と正
規化パラメータが入力されると、この正規化パラメータ
を用いて入力された音声信号の話者性を取り除き、話者
正規化された音声特徴量を音節系列認識部104へ出力
する。
【0028】本実施例の音声認識装置の音声認識過程を
より具体的に述べるために、ユーザが「おはよう」とい
う単語を登録する例を示す。ユーザはスイッチ102を
登録時に切り換え、マイクロホン101に「おはよう」
という音声を入力する。正規化パラメータ推定部201
は、マイクロホン101から音声信号「おはよう」が入
力されると、この音声信号「おはよう」を話者正規化す
るために用いる正規化パラメータを推定し、この推定さ
れた正規化パラメータと音声信号「おはよう」を登録判
定部203へ出力する。登録判定部203は正規化パラ
メータ推定部201から音声信号「おはよう」と正規化
パラメータが入力されると、この正規化パラメータを用
いて入力された音声信号「おはよう」を話者正規化部2
02へ出力するか否かを判定し、出力すると判定した場
合、音声信号「おはよう」と正規化パラメータを話者正
規化部202へ出力する。話者正規化部202は、登録
判定部203から音声信号「おはよう」と正規化パラメ
ータが入力されると、この正規化パラメータを用いて入
力された音声信号「おはよう」の話者正規化を行い、話
者正規化された音声特徴量「おへよう」を音節系列認識
部104へ出力する。登録時における以降の動作と認識
時の動作は実施例1と同じであるので、それらの詳細な
説明は省略する。本実施例の音声認識装置は、音声登録
時の話者正規化ステップにおいて、正規化パラメータを
推定し、音声信号の話者正規化に、この正規化パラメー
タを用いるか否かを判定することを特徴とする。
【0029】《実施例3》本発明の実施例3による音声
認識装置について、図5を用いて説明する。本実施例の
音声認識装置は、マイクロホン101、スイッチ10
2、音節系列認識部104、音声認識標準パターン記憶
部105、辞書登録部106、認識辞書記憶部107、
音声認識部108、話者正規化部202、提示部30
1、正規化パラメータ推定部302、操作部303を有
する。ここで、実施例2と同一番号のブロックは同じ機
能を担うものとし、それらの詳細な説明は省略する。提
示部301は正規化パラメータ推定部302から出力さ
れる波形情報をユーザに提示する。操作部303は、キ
ーボード等の入力装置で構成され、ユーザが提示部30
1に提示された波形を確認して、提示された波形の始終
端情報を入力する。正規化パラメータ推定部302は音
声区間検出部を有し、マイクロホン101から音声信号
が入力されると、音声区間検出部が入力された音声信号
から提示部に提示すべき第1の音声区間を切り出し、こ
の切り出した第1の音声区間を提示部に提示する。そし
て操作部303からユーザによって始端情報及び終端情
報が入力されると、この始終端情報によって規定される
第2の音声区間を第1の音声区間から切り出し、この切
り出された音声信号の話者性を正規化するために用いる
正規化パラメータを推定し、この正規化パラメータと切
り出された音声信号を話者正規化部202へ出力する。
【0030】本実施例の音声認識装置の音声認識過程を
より具体的に述べるために、ユーザが「おはよう」とい
う単語を登録する例を示す。ユーザはスイッチ102を
登録時に切り換え、マイクロホン101に「おはよう」
という音声を入力する。正規化パラメータ推定部302
はマイクロホン101から音声信号「おはよう」が入力
されると、その音声波形を提示部301に提示する。提
示部301の提示内容の一例を図6に示す。ユーザは提
示部301に提示されている音声波形「おはよう」を確
認して、この音声波形の始終端情報(一例として、始端
情報0.3秒、終端情報0.8秒)を入力する。ここ
で、音声の提示方法として、音声をスピーカから再生し
て、登録者に確認させることにより、始端終端情報を入
力したり、登録するかどうかについて判断させることも
できる。正規化パラメータ推定部302は操作部303
から音声信号「おはよう」の始端情報0.3秒、終端情
報0.8秒が入力されると、音声信号「おはよう」の
0.3秒〜0.8秒の音声区間を切り出し、この切り出
した音声信号「おはよう」の話者性を正規化するために
用いる正規化パラメータを推定し、この正規化パラメー
タと切り出した音声信号「おはよう」を話者正規化部2
02へ出力する。以降の登録時における動作と認識時の
動作は実施例2と同じであるので、それらの詳細な説明
は省略する。本実施例の音声認識装置は、音声登録時の
話者正規化ステップにおいて、この音声を提示し、登録
するユーザが音声の提示を確認して、音声の始終端情報
を入力し、この始終端情報に基づいて認識語の音声区間
を切り出し、登録者が登録したい音声区間を話者正規化
することを特徴とする。
【0031】《実施例4》本発明の実施例4による音声
認識装置について、図7を用いて説明する。本実施例の
音声認識装置は、マイクロホン101、スイッチ10
2、音節系列認識部104、音声認識標準パターン記憶
部105、辞書登録部106、認識辞書記憶部107、
音声認識部108、正規化パラメータ記憶部401、登
録音声正規化パラメータ推定部402、登録音声話者正
規化部403、認識音声正規化パラメータ推定部40
4、認識音声話者正規化部405を有する。ここで、実
施例1と同一番号のブロックは同じ機能を担うものと
し、それらの詳細な説明は省略する。
【0032】正規化パラメータ記憶部401は、入力さ
れる正規化パラメータと正規化パラメータのデフォルト
値を記憶する。登録音声正規化パラメータ推定部402
は音声信号が入力されると、正規化パラメータ記憶部4
01に最後に蓄積された正規化パラメータの値を参照
し、この正規化パラメータの値を初期値として、その値
を変化させ、最適の正規化パラメータの値を検索する。
このようにして入力された音声信号を話者正規化するた
めに用いる正規化パラメータを推定し、この正規化パラ
メータを正規化パラメータ記憶部401へ出力し、正規
化パラメータと音声信号を登録音声話者正規化部403
へ出力する。登録を行う話者は同一人である確率が高
い。最後に蓄積された正規化パラメータの値を初期値と
して正規化パラメータを推定することにより、推定に要
する時間を短縮することができ、且つ誤った値を推定す
ることを防止できる。登録音声話者正規化部403は、
音声信号と正規化パラメータが入力されると、この正規
化パラメータを用いて入力された音声信号の話者性を取
り除き、話者正規化された音声特徴量を音節系列認識部
104出力する。認識音声正規化パラメータ推定部40
4は音声信号が入力されると、正規化パラメータ記憶部
401に蓄積されている複数の正規化パラメータを読み
込み、この複数の正規化パラメータから最後に登録され
た正規化パラメータを選択し、この選択した正規化パラ
メータを初期値として、入力された音声信号を話者正規
化するために用いる正規化パラメータを推定し、この正
規化パラメータと音声信号を認識音声話者正規化部40
5へ出力する。認識音声話者正規化部405は、音声信
号と正規化パラメータが入力されると、この正規化パラ
メータを用いて入力された音声信号の話者性を取り除
き、話者正規化された音声特徴量を音声認識部108へ
出力する。
【0033】本実施例の音声認識装置の音声認識過程を
より具体的に述べるために、ユーザが「おはよう」とい
う単語を登録する例を示す。ユーザはスイッチ102を
登録時に切り換え、マイクロホン101に「おはよう」
という音声を入力する。登録音声正規化パラメータ推定
部402はマイクロホン101から音声信号「おはよ
う」が入力されると、正規化パラメータ記憶部401に
蓄積されている正規化パラメータデフォルト値(例えば
1.0とする)を読み込む。一例として、この時点での
正規化パラメータ記憶部401の内容が図8のようであ
るとする。さらに登録音声正規化パラメータ推定部40
2は、正規化パラメータ記憶部401から読み込んだ正
規化パラメータデフォルト値(1.0)を初期値とし、
マイクロホン101から入力された音声信号を話者正規
化するために用いる正規化パラメータを推定し(推定さ
れた正規化パラメータの値を9.8とする)、この正規
化パラメータ(9.8)を正規化パラメータ記憶部40
1に、又、推定された正規化パラメータ(9.8)と音
声信号「おはよう」を登録音声話者正規化部403へ出
力する。
【0034】正規化パラメータ記憶部401は、登録音
声正規化パラメータ推定部402から正規化パラメータ
として9.8が入力されると、この入力された値9.8
を記憶する。この時点での正規化パラメータ記憶部40
1の内容の一例を図9に示す。登録音声話者正規化部4
03は、登録音声正規化パラメータ推定部402から音
声信号「おはよう」と正規化パラメータ(9.8)が入
力されると、この正規化パラメータ(9.8)を用いて
音声信号「おはよう」の話者正規化を行い、この話者正
規化された音声特徴量「おへよう」を音節系列認識部1
04へ出力する。以降の登録時における動作は実施例1
と同じであるので、詳細な説明は省略する。尚、本実施
例において登録音声正規化パラメータ推定部402はマ
イクロホン101から音声信号が入力されると、正規化
パラメータ記憶部401に蓄積されている複数の正規化
パラメータを読み込み、この複数の正規化パラメータか
ら1つを選択し、この選択した正規化パラメータを初期
値として、入力された音声信号を話者正規化するために
用いる正規化パラメータを推定し、この正規化パラメー
タを正規化パラメータ記憶部401に、推定された正規
化パラメータと音声信号を登録音声話者正規化部403
へ出力するようにしてもよい。
【0035】次に、上記の方法によって登録した「おは
よう」という単語を認識させる例を示す。認識辞書記憶
部107へ認識語を登録した登録者以外のユーザが、ス
イッチ102を認識時に切り換え、「おはよう」という
音声をマイクロホン101から入力する。認識音声正規
化パラメータ推定部404はマイクロホン101から音
声信「おはよう」が入力されると、正規化パラメータ記
憶部401に蓄積されている正規化パラメータ(1.0
と−5.0と9.8)を読み込み、一例として、最後に
登録された正規化パラメータ(9.8)を選択し、この
正規化パラメータ(9.8)を初期値として、入力され
た音声信号「おはよう」を話者正規化するために用いる
正規化パラメータを推定し(例えば、推定された正規化
パラメータの値を12.0とする)、この推定された正
規化パラメータ(12.0)と音声信号「おはよう」を
認識音声話者正規化部405へ出力する。認識音声話者
正規化部405は、認識音声正規化パラメータ推定部4
04から音声信号「おはよう」と正規化パラメータ(1
2.0)が入力されると、この正規化パラメータ(1
2.0)を用いて音声信号「おはよう」の話者性を取り
除き、この話者正規化された音声特徴量「おはよう」を
音声認識部108へ出力する。以降の認識時における動
作は実施例1と同じであるので、詳細な説明は省略す
る。
【0036】尚、認識音声正規化パラメータ推定部40
4は、推定した正規化パラメータを正規化パラメータ記
憶部401へ出力してもよい。上記の例では、認識音声
正規化パラメータ推定部404は、推定した正規化パラ
メータ(12.0)を正規化パラメータ記憶部401へ
出力する。一例として、この時点での正規化パラメータ
記憶部401の内容を図10に示す。また登録音声正規
化パラメータ推定部402が正規化パラメータを推定す
る方法として、以下のような方法を用いても良い。最初
にデフォルト値の正規化パラメータ(仮の正規化パラメ
ータ)を用いて正規化し、正規化結果を見ながら仮の正
規化パラメータの値を修正し、修正した仮の正規化パラ
メータを用いて再び正規化し、正規化結果を見る。これ
を繰り返して最適の正規化パラメータを求める。最初の
登録時に、登録音声正規化パラメータ推定部402は、
デフォルト値の正規化パラメータを仮の正規化パラメー
タとし、上記の手順を繰り返して最適の正規化パラメー
タを求める。求められた最適の正規化パラメータを正規
化パラメータ記憶部に記憶する。次の登録時に、正規化
パラメータ記憶部から推定された正規化パラメータを読
み出し、読み出した正規化パラメータを仮の正規化パラ
メータとし、上記の手順を繰り返して最適の正規化パラ
メータを求める。求められた最適の正規化パラメータを
正規化パラメータ記憶部に記憶する。こうすると、2回
目以降の最適の正規化パラメータを求める時間が短くな
る(早く収束する)。また、誤った正規化パラメータ
(最適値でない極大の正規化パラメータ)を出力するお
それがなくなる。
【0037】また登録音声正規化パラメータ推定部40
2が正規化パラメータを推定するもう1つの方法として
以下のような方法を用いても良い。正規化パラメータ記
憶部に男性用デフォルト正規化パラメータ(例えば正規
パラメータが+5)と女性用デフォルト正規化パラメー
タ(例えば正規化パラメータが−5)とを記憶する。最
初に男性用デフォルト正規化パラメータ(+5)を仮の
正規化パラメータとして上記の手順を繰り返す。一定期
間内に収束しなければ、女性用デフォルト正規化パラメ
ータ(−5)を仮の正規化パラメータとして上記の手順
を繰り返す。こうすることにより、最適の正規化パラメ
ータを求める時間が短くなる(早く収束する)。また、
誤った正規化パラメータ(例えば最適値でない極大の正
規化パラメータ)を出力するおそれがなくなる。最適の
正規化パラメータの値は、男性又は女性、老人又は大人
又は子供などの話者の属性に応じて大きく変化する。単
一の初期値を起点に最適の正規化パラメータを推定した
場合には、初期値と最適の正規化パラメータの値との差
が大きすぎて最適の正規化パラメータの推定に時間がか
かる場合がある。又、誤差値を推定する可能性がある。
例えば最適の正規化パラメータが一定の関数の最大値に
対応する値である場合に局地的な関数の極大値(真の最
大値ではない)に対応する値を誤って正規化パラメータ
として推定するおそれがある。
【0038】複数の初期値を起点に最適の正規化パラメ
ータを推定した場合には、ひとつの初期値は真の最適の
正規化パラメータの値に近く、短時間で当該真の最適の
正規化パラメータに収束する。真の最適の正規化パラメ
ータの値においては、関数の値は最大となり、局地的な
関数の極大値(ニセの値)を排除することができる。正
規化パラメータ記憶部401に蓄積されている全て(例
えば5個あるとする)の正規化パラメータの値を初期値
として、最適の正規化パラメータの値を求める場合もあ
るが、例えば3個の正規化パラメータの値を初期値とし
て、関数が十分大きな値になった場合は(最大値である
蓋然性が高い)、それに対応する値を正規化パラメータ
に決定する。他の初期値を起点とした正規化パラメータ
の検索を行わなくても良い。本実施例による音声認識装
置は、音声認識用辞書への登録過程で求めた正規化パラ
メータを、認識過程での正規化パラメータ推定に利用す
ることを特徴とする。
【0039】《実施例5》本発明の実施例5の音声認識
装置について、図11を用いて説明する。本実施例の音
声認識装置は、マイクロホン101、スイッチ102、
音節系列認識部104、音声認識標準パターン記憶部1
05、辞書登録部106、認識辞書記憶部107、音声
認識部108、登録音声話者正規化部403、認識音声
話者正規化部405、話者認識部501、正規化パラメ
ータ推定部502、正規化パラメータ記憶部503、正
規化パラメータ参照部504を有する。ここで、実施例
4と同一番号のブロックは同じ機能を担うものとし、そ
れらの詳細な説明は省略する。
【0040】話者認識部501は、音声信号が入力され
ると、音声信号を発声した話者に対応した話者ラベルを
取得し、この話者ラベルと入力された音声信号を出力す
る。話者ラベルは例えばキーボードを通じて入力され
る。正規化パラメータ推定部502は、話者ラベルと音
声信号が入力されると、この音声信号の話者性を正規化
するために用いる正規化パラメータを推定し、この正規
化パラメータと話者ラベルを正規化パラメータ記憶部5
03へ出力し、正規化パラメータと音声信号とを登録音
声話者正規化部403へ出力する。正規化パラメータ記
憶部503は、話者ラベルと正規化パラメータが入力さ
れるとこの正規化パラメータを話者ラベルと対応づけて
記憶する。正規化パラメータ参照部504は、話者ラベ
ルと音声信号が入力されると、正規化パラメータ記憶部
503を参照し、入力された話者ラベルに対応する正規
化パラメータが存在する場合は、この正規化パラメータ
を取得し、入力された話者ラベルに対応した正規化パラ
メータが存在しない場合は、正規化パラメータとして正
規化パラメータデフォルト値を取得し、この正規化パラ
メータと音声信号を認識音声話者正規化部405へ出力
する。
【0041】本実施例の音声認識装置の音声認識過程を
より具体的に述べるために、ユーザが「おはよう」とい
う単語を登録する例を示す。ユーザはスイッチ102を
登録時に切り換え、マイクロホン101に「おはよう」
という音声を入力する。話者認識部501はマイクロホ
ン101から音声信号「おはよう」が入力されると、こ
の音声信号を発声した話者に対応した話者ラベルを取得
する。一例として、話者ラベルを話者の氏名とし、話者
ラベルとして「一郎」を取得したとする。さらに話者認
識部501は、取得した話者ラベル「一郎」とマイクロ
ホン101から入力された音声信号「おはよう」を正規
化パラメータ推定部502へ出力する。正規化パラメー
タ推定部502は、話者認識部501から話者ラベル
「一郎」と音声信号「おはよう」が入力されると、この
音声信号「おはよう」の話者性を正規化するために用い
る正規化パラメータを推定し(推定された正規化パラメ
ータを3.0とする)、この正規化パラメータ(3.
0)と話者ラベル「一郎」を正規化パラメータ記憶部5
03に、正規化パラメータ(3.0)と音声信号「おは
よう」を登録音声話者正規化部403へ出力する。正規
化パラメータ記憶部503は、正規化パラメータ推定部
502から話者ラベル「一郎」と正規化パラメータ
(3.0)が入力されると、この正規化パラメータ
(3.0)を話者ラベル「一郎」に対応させて記憶す
る。一例として、この時点での正規化パラメータ記憶部
503は図12のようになる。次に、正規化パラメータ
推定部502に話者ラベル「一郎」と音声信号「こんに
ちは」が入力されると、正規化パラメータ記憶部503
から話者ラベル「一郎」に対応づけられた正規化パラメ
ータ(3.0)が読み出される。正規化パラメータ推定
部502は、正規化パラメータ(3.0)をそのまま最
適の正規化パラメータとして推定し、推定した正規化パ
ラメータ(3.0)と音声信号「こんにちは」と登録音
声話者正規化部403に出力する。以降の登録時におけ
る動作は実施例4と同じであるので、詳細な説明は省略
する。
【0042】次に、上記の方法によって登録した「おは
よう」という単語を認識させる例を示す。ユーザ「一
郎」がスイッチ102を認識時に切り替え、「おはよ
う」という音声をマイクロホン101から入力する。話
者認識部501はマイクロホン101から音声信号「お
はよう」が入力されると、この音声信号を発声した話者
に対応した話者ラベル「一郎」を取得する。さらに話者
認識部501は、取得した話者ラベル「一郎」とマイク
ロホン101から入力された音声信号「おはよう」を正
規化パラメータ参照部504へ出力する。正規化パラメ
ータ参照部504は、話者認識部501から話者ラベル
「一郎」と音声信号「おはよう」が入力されると、正規
化パラメータ記憶部503を参照し、話者ラベル「一
郎」に対応する正規化パラメータ(3.0)を取得し、
この正規化パラメータ(3.0)と音声信号「おはよ
う」を認識音声話者正規化部405へ出力する。以降の
認識時における動作は実施例4と同じであるので、詳細
な説明は省略する。他の実施例においては、正規化パラ
メータ推定部502に話者ラベル「一郎」と音声信号
「こんにちは」が入力されると、正規化パラメータ記憶
部503から話者ラベル「一郎」に対応づけられた正規
化パラメータ(3.0)が読み出される。正規化パラメ
ータ推定部502は、正規化パラメータ(3.0)を初
期値として、最適の正規化パラメータを推定し、推定し
た正規化パラメータ(例えば(3.5)) と音声信号
「こんにちは」を登録音声話者正規化部403に出力す
る。正規化パラメータ記憶部503には、新たな正規化
パラメータ(3.5)が話者ラベル「一郎」に対応づけ
て記憶される。本実施例による音声認識装置は、音声認
識用辞書への登録過程で求めた正規化パラメータを話者
毎に保存し、認識過程において、話者毎に保存した正規
化パラメータから認識音声を発声した話者に対応する正
規化パラメータを参照することを特徴とする。
【0043】《実施例6》本発明の実施例6の音声認識
装置について、図13を用いて説明する。本実施例によ
る音声認識装置は、音声認識用辞書に認識語を登録する
過程で、認識語が発声された音声を話者正規化し、この
話者正規化された音声を話者の属性に近い音声認識標準
パターンと認識過程で用いる音声認識標準パターンとを
用いて音節系列に認識することを特徴とする。
【0044】本実施例の音声認識装置は、マイクロホン
101、スイッチ102、話者正規化部103、音声認
識標準パターン記憶部105、辞書登録部106、認識
辞書記憶部107、音声認識部108、登録用音声認識
標準パターン記憶部601、認識標準パターン選択記憶
部602、音節系列認識部603を有する。ここで実施
例1と同一番号のブロックは同じ機能を担うものとし、
それらの詳細な説明は省略する。
【0045】登録用音声認識標準パターン記憶部601
は、話者の属性別に音節レベルの音声認識標準パターン
を複数保持する。認識標準パターン選択記憶部602
は、話者の属性に対応した音声認識標準パターンを登録
用音声認識標準パターン記憶部601から選択し、この
選択した音声認識標準パターンを蓄積する。音節系列認
識部603は、音声特徴量が入力されると、認識標準パ
ターン選択記憶部602と音声認識標準パターン記憶部
105に蓄積されている音声認識標準パターンをそれぞ
れ用いて、入力される音声特徴量と全ての音節のつなが
りとのマッチングを行い、入力される音声特徴量を音節
系列に認識し、それぞれの認識結果の音節系列を出力す
る。
【0046】本実施例の音声認識装置の音声認識過程を
より具体的に述べるために、高齢者女性ユーザが「おは
よう」という単語を登録する例を示す。高齢者女性ユー
ザがスイッチ102を登録時に切り換え、マイクロホン
101に「おはよう」という音声を入力する。話者正規
化部103はマイクロホン101から音声信号「おはよ
う」が入力されると、この音声信号「おはよう」を話者
正規化し、話者正規化された音声特徴量「おばごお」を
音節系列認識部603へ出力する。例えば、登録用音声
認識標準パターン記憶部601に「若年者用音声認識標
準パターン、成人用音声認識標準パターン、高齢者用音
声認識標準パターン」が存在するとする。認識標準パタ
ーン選択記憶部602は、マイクロホン101に発声を
行った話者が高齢者女性であるので、登録用音声認識標
準パターン記憶部601から高齢者用音声認識標準パタ
ーンを選択し、この高齢者用音声認識標準パターンを記
憶する。
【0047】音節系列認識部603は話者正規化部10
3から話者正規化された音声特徴量「おばごお」が入力
されると、まず音声認識標準パターン記憶部105に記
憶されている音声認識標準パターン(話者の属性(例え
ば若年又は成人又は高齢者)によらない)を参照して、
音声特徴量「おばごお」をそのまま音節系列「お・ば・
ご・お」と認識し、この音節系列「お・ば・ご・お」を
辞書登録部106へ出力する。さらに、音節系列認識部
603は、認識標準パターン選択記憶部602に記憶さ
れている高齢者用音声認識標準パターン(高齢者が「お
はよう」を「おばごお」と発音することに対応してい
る)を用いて、音声特徴量「おばごお」を音節系列「お
・は・よ・う」と認識し、この音節系列「お・は・よ・
う」も辞書登録部106へ出力する。辞書登録部106
は音節系列「お・ば・ご・お」及び「お・は・よ・う」
とテキスト情報「おはよう」を対応させて認識辞書記憶
部107に登録する。以降の登録時における動作と認識
時の動作は実施例1と同じであるので、それらの詳細な
説明は省略する。認識時に高齢者が「おばごお」と発音
した場合にも、成人が「おはよう」と発音した場合に
も、認識辞書記憶部107を用いてテキスト情報「おは
よう」が出力される。本実施例によれば、音声認識用辞
書に認識語を登録する過程で、認識語が発声された音声
を話者正規化し、この話者正規化された音声を音声認識
過程において用いる音声認識標準パターンと登録者の属
性に近い音声認識標準パターンを用いて音声認識用辞書
に登録することで、全ての話者に対してより高精度な認
識が行える音声認識用辞書を作成することができる。上
記は例示であり、登録用音声認識標準パターン記憶部6
01にどのような属性に基づく音声認識標準パターンを
記憶してもよい。
【0048】《実施例7》図14に実施例1の音声認識
装置による実施例7の音声認識方法のフローチャートを
示す。実施例7の音声認識方法は音声登録ステップと音
声認識ステップからなる。音声登録ステップにおいて
は、ステップ1401において、ユーザがマイクロホン
から音声を発声し音声信号を入力する。ステップ140
2で音声登録か否か(音声認識か)をチェックする。音
声登録ステップにおいてはステップ1403〜1406
を実行する。ステップ1403において、ユーザが認識
対象のテキスト情報をテキスト入力手段から入力する。
ステップ1404において、入力された音声信号を話者
正規化された(話者性が取り除かれた)音声特徴量に変
換する。ステップ1405において、話者正規化された
音声特徴量を音声認識標準パターン記憶部を用いて音節
情報に変換する。ステップ1405において、入力され
た音節情報とテキスト情報を対応づけ、認識辞書記憶部
へ登録する。
【0049】音声認識ステップにおいては、ステップ1
401において、ユーザがマイクロホンから音声を発声
し音声信号を入力する。ステップ1402で音声登録か
否かをチェックする。音声認識ステップにおいては、ス
テップ1407、1408を実行する。ステップ140
7において、認識辞書記憶部から登録語の音節系列を読
み出す。ステップ1408において、読み出した音節系
列に基づき、音声認識標準パターン記憶部を参照して入
力された音声信号の音声認識を行い、認識結果を出力す
る。
【0050】《実施例8》図15に実施例2の音声認識
装置を用いた実施例8の音声認識方法のフローチャート
を示す。実施例8の音声認識方法は音声登録ステップと
音声認識ステップからなる。音声登録ステップにおいて
は、ステップ1501において、ユーザがマイクロホン
から音声を発声し音声信号を入力する。ステップ150
2で音声登録か否かをチェックする。音声登録ステップ
においては、ステップ1503〜1508を実行する。
ステップ1503において、ユーザが認識対象のテキス
ト情報をテキスト入力手段から入力する。ステップ15
04において、入力された音声信号を話者正規化するた
めの正規化するための正規化パラメータを推定する。ス
テップ1505において、推定した正規化パラメータを
話者正規化に用いるか否か判定し、用いると判定した場
合はステップ1506に進みその正規化パラメータを用
いて音声信号を話者正規化し、用いないと判定した場合
はステップ1504に戻り正規化パラメータの推定をや
り直す。ステップ1506において、推定された正規化
パラメータを用いて、音声信号を話者正規化された(話
者性が取り除かれた)音声特徴量に変換する。ステップ
1507において、話者正規化された音声特徴量を音声
認識標準パターン記憶部を用いて音節情報に変換する。
ステップ1508において、入力された音節情報とテキ
スト情報を対応づけ、認識辞書記憶部へ登録する。
【0051】音声認識ステップにおいては、ステップ1
501において、ユーザがマイクロホンから音声を発声
し音声信号を入力する。ステップ1502で音声登録か
否かをチェックする。音声認識ステップにおいては、ス
テップ1509、1510を実行する。ステップ150
9において、認識辞書記憶部から登録語の音節系列を読
み出す。ステップ1510において、読み出した音節系
列に基づき、音声認識標準パターン記憶部を参照して入
力された音声信号の音声認識を行い、認識結果を出力す
る。
【0052】《実施例9》図16に実施例3の音声認識
装置を用いた実施例9の音声認識方法のフローチャート
を示す。実施例9の音声認識方法は音声登録ステップと
音声認識ステップからなる。音声登録ステップにおいて
は、ステップ1601において、ユーザがマイクロホン
から音声を発声し音声信号を入力する。ステップ160
2で音声登録か否かをチェックする。音声登録ステップ
においては、ステップ1603〜1609を実行する。
ステップ1603において、ユーザが認識対象のテキス
ト情報をテキスト入力手段から入力する。ステップ16
04において、音声信号の波形をユーザに提示する。ス
テップ1605において、ユーザが提示された音声波形
を見て、音声区間の始終端情報を入力し、音声信号を切
り出す。ステップ1606において、切り出された音声
信号を話者正規化するための正規化パラメータを推定す
る。ステップ1607において、推定された正規化パラ
メータを用いて音声信号を話者正規化された(話者性が
取り除かれた)音声特徴量に変換する。ステップ160
8において、話者正規化された音声特徴量を音声認識標
準パターン記憶部を用いて音節情報に変換する。ステッ
プ1609において、入力された音節情報とテキスト情
報を対応づけ、認識辞書記憶部へ登録する。
【0053】音声認識ステップにおいては、ステップ1
601において、ユーザがマイクロホンから音声を発声
し音声信号を入力する。ステップ1602で音声登録か
否かをチェックする。音声認識ステップにおいてはステ
ップ1610、1611を実行する。ステップ1610
において、認識辞書記憶部から登録語の音節系列を読み
出す。ステップ1611において、読み出した音節系列
に基づき、音声認識標準パターン記憶部を参照して入力
された音声信号の音声認識を行い、認識結果を出力す
る。
【0054】《実施例10》図17に実施例4の音声認
識装置を用いた実施例10の音声認識方法のフローチャ
ートを示す。実施例10の音声認識方法は音声登録ステ
ップと音声認識ステップからなる。音声登録ステップに
おいては、ステップ1701において、ユーザがマイク
ロホンから音声を発声し音声信号を入力する。ステップ
1702で音声登録か否かをチェックする。音声登録ス
テップにおいては、ステップ1703〜1707を実行
する。ステップ1703において、ユーザが認識対象の
テキスト情報をテキスト入力手段から入力する。ステッ
プ1704において、正規化パラメータ記憶部に最後に
記憶された正規化パラメータを参照し、それをもとに
(初期値として)、入力された音声信号を話者正規化す
るために用いる正規化パラメータを推定する。この時、
推定した正規化パラメータを正規化パラメータ記憶部に
格納する。ステップ1705において、ステップ170
4で推定された正規化パラメータを用いて、音声信号を
話者正規化された(話者性が取り除かれた)音声特徴量
に変換する。ステップ1706において、話者正規化さ
れた音声特徴量を音声認識標準パターン記憶部を用いて
音節情報に変換する。ステップ1707において、入力
された音節情報とテキスト情報を対応づけ、認識辞書記
憶部へ登録する。
【0055】音声認識ステップにおいては、ステップ1
701において、ユーザがマイクロホンから音声を発声
し音声信号を入力する。ステップ1702で音声登録か
否かをチェックする。音声認識ステップにおいては、ス
テップ1708〜1711を実行する。ステップ170
8において、正規化パラメータ記憶部に記憶されてい
る、正規化パラメータを参照し、それをもとに、入力さ
れた音声信号を話者正規化するために用いる正規化パラ
メータを推定する。ステップ1709において、推定さ
れた正規化パラメータを用いて音声信号を話者正規化さ
れた(話者性が取り除かれた)音声特徴量に変換する。
ステップ1710において、認識辞書記憶部から登録語
の音節系列を読み出す。ステップ1711において、読
み出した音節系列に基づき、音声認識標準パターン記憶
部を参照して入力された音声信号の音声認識を行い、認
識結果を出力する。尚、本実施例のステップ1708に
おいて推定した正規化パラメータを正規化パラメータ記
憶部に格納しても良い。他の実施例においては、ステッ
プ1704において、正規化パラメータ記憶部に記憶さ
れた複数の正規化パラメータを初期値として、それぞれ
の値を変えて、最適の正規化パラメータを推定する。
【0056】《実施例11》図18に実施例5の音声認
識装置を用いた実施例11の音声認識方法のフローチャ
ートを示す。実施例11の音声認識方法は音声登録ステ
ップと音声認識ステップからなる。音声登録ステップに
おいては、ステップ1801において、ユーザがマイク
ロホンから音声を発声し音声信号を入力する。ステップ
1802において、話者に対応した話者ラベル(例えば
話者名又は固有の識別子)を取得する。ステップ180
3で、音声登録か否かをチェックする。音声登録ステッ
プにおいては、ステップ1804〜1808を実行す
る。ステップ1804において、ユーザが認識対象のテ
キスト情報をテキスト入力手段から入力する。ステップ
1805において、ステップ1802で取得された話者
ラベルに対応する正規化パラメータを正規化パラメータ
記憶部から参照し、それをもとに(初期値として)音声
信号を話者正規化するために用いる正規化パラメータを
推定する。この時、推定した正規化パラメータを正規化
パラメータ記憶部に格納しておく。取得された話者ラベ
ルに対応する正規化パラメータを正規化パラメータ記憶
部から読み出し、読み出した正規化パラメータを、その
まま推定された正規化パラメータとして出力しても良
い。ステップ1806において、ステップ1805で推
定された正規化パラメータを用いて、音声信号を話者正
規化された(話者性が取り除かれた)音声特徴量に変換
する。ステップ1807において、話者正規化された音
声特徴量を音声認識標準パターン記憶部を用いて音節情
報に変換する。ステップ1808において、入力された
音節情報とテキスト情報を対応づけ、認識辞書記憶部へ
登録する。
【0057】音声認識ステップにおいては、ステップ1
801において、ユーザがマイクロホンから音声を発声
し音声信号を入力する。ステップ1802において、話
者に対応した話者ラベル(例えば話者名)を取得する。
ステップ1803で音声登録か否かをチェックする。音
声登録か否かをチェックする。音声認識ステップにおい
ては、ステップ1809〜1812を実行する。ステッ
プ1809において、ステップ1802で取得された話
者ラベルに対応した正規化パラメータを正規化パラメー
タ記憶部から参照し、それをもとに、入力された音声信
号を話者正規化するために用いる正規化パラメータを推
定する。ステップ1810において、推定された正規化
パラメータを用いて音声信号を話者正規化された(話者
性が取り除かれた)音声特徴量に変換する。ステップ1
811において、認識辞書記憶部から登録語の音節系列
を読み出す。ステップ1812において、読み出した音
節系列に基づき、音声認識標準パターン記憶部を参照し
て入力された音声信号の音声認識を行い、認識結果を出
力する。尚、本実施例のステップ1809において推定
した正規化パラメータを正規化パラメータ記憶部に格納
しても良い。
【0058】《実施例12》図19に実施例6の音声認
識装置を用いた実施例12の音声認識方法のフローチャ
ートを示す。実施例12の音声認識方法は音声登録ステ
ップと音声認識ステップからなる。音声登録ステップに
おいては、ステップ1901において、ユーザがマイク
ロホンから音声を発声し音声信号を入力する。ステップ
1902で音声登録か否かをチェックする。音声登録ス
テップにおいては、ステップ1903〜1908を実行
する。ステップ1903において、ユーザが認識対象の
テキスト情報をテキスト入力手段から入力する。ステッ
プ1904において、入力された音声信号を話者正規化
された(話者性が取り除かれた)音声特徴量に変換す
る。ステップ1905において、話者正規化された音声
特徴量を話者の属性を考慮しない音声認識標準パターン
を用いて第1の音節情報に変換する。ステップ1906
において、第1の音節情報とテキスト情報を対応づけ、
認識辞書記憶部へ登録する。ステップ1907におい
て、ステップ1904で話者正規化された音声特徴量
を、話者の属性に応じた音声認識標準パターンを用いて
第2の音節情報に変換する。ステップ1908におい
て、第2の音節情報とテキスト情報を対応づけ、認識辞
書記憶部へ登録する。
【0059】音声認識ステップにおいては、ステップ1
901において、ユーザがマイクロホンから音声を発声
し音声信号を入力する。ステップ1902で音声登録時
か否かをチェックする。音声登録ステップにおいては、
ステップ1909、ステップ1910を実行する。ステ
ップ1909において、入力された音声信号を音声認識
標準パターン記憶部を参照して音節系列に変換する。ス
テップ1910において、ステップ1909で得られた
音節情報に対応するテキスト情報を認識辞書記憶部から
読み出し、そのテキスト情報を認識結果として出力す
る。
【0060】
【発明の効果】以上のように本発明の音声認識装置は、
認識語を登録する際、入力された音声信号の話者性を取
り除くための話者正規化部を有する。本発明の音声認識
方法によると、登録ステップにおいて、登録者が発声し
た音声の音声信号から話者性を取り除き、話者正規化さ
れた音声特徴量を用いて音声認識用辞書へ認識語を登録
する。このことにより認識ステップにおいて、登録発声
者以外の話者に交代した場合でも、認識精度が低下する
ことが少なく、不特定話者を対象とした音声認識装置を
実現できるという効果が得られる。
【0061】また本発明によれば、音声認識用辞書の認
識語登録に用いる登録音声を話者正規化する際に、登録
者が話者正規化に用いる話者正規化パラメータを入力す
ることができる。また本発明によれば、話者正規化した
音声を音声認識用辞書への認識語登録に用いるとき、話
者正規化を行うために求めたパラメータを用いて、話者
正規化した音声を認識語登録に用いるか否かを判定する
ことで、認識語登録の判定が精度良く行うことができる
という有利な効果が得られる。
【0062】また本発明によれば、音声認識用辞書に認
識語を登録するために用いる音声を話者正規化するとき
に、この音声を提示し、登録者は音声の提示を確認して
提示された音声の始終端情報を入力し、この始終端情報
に基づいて認識語の発声を切り出すことで、登録者が登
録したい音声区間を話者正規化することで、認識語の登
録を精度良く行うことができるという有利な効果が得ら
れる。また本発明によれば、音声認識用辞書に認識語を
登録するために用いる音声の音声区間を切り出し、この
切り出した音声を提示することで、登録者は提示された
音声を確認して容易に音声の始終端情報を入力すること
ができるという有利な効果が得られる。
【0063】また本発明によれば、音声認識用辞書への
認識語登録過程で求めた正規化パラメータを、次の認識
過程における認識音声の正規化パラメータ推定に利用す
ることで、認識音声の正規化パラメータが精度良く、
又、計算量が少なく求めることができるという有利な効
果が得られる。また本発明によれば、複数の正規化パラ
メータ(初期値)に基づいて最適の正規化パラメータを
推定することにより、認識音声の正規化パラメータが精
度良く、又、計算量が少なく求めることができるという
有利な効果が得られる。
【0064】また本発明によれば、音声認識用辞書への
認識語登録過程で求めた正規化パラメータを話者毎に保
存し、認識過程において、話者毎に保存した正規化パラ
メータから認識音声を発声した話者に対応する正規化パ
ラメータを参照できるようにすることで、登録者も含め
全ての話者に対して高精度な認識が行える音声認識装置
が実現できるという有利な効果が得られる。
【0065】また本発明によれば、音声認識用辞書に認
識語を登録する過程で、認識語が発声された音声を話者
正規化し、この話者正規化された音声を登録者の属性を
考慮しない音声認識標準パターンと登録者の属性に近い
音声認識標準パターンを用いて音声認識用辞書に登録す
ることで、全ての話者に対してより高精度な音声認識が
行える音声認識用辞書を作成することができるという有
利な効果が得られる。
【図面の簡単な説明】
【図1】 実施例1における音声認識装置の構成図
【図2】 実施例1〜実施例6の音声認識装置に用い
られる認識辞書記憶部の内容を示す一例
【図3】 実施例1〜実施例6の音声認識装置に用い
られる認識辞書記憶部の内容を示す一例
【図4】 実施例2における音声認識装置の構成図
【図5】 実施例3における音声認識装置の構成図
【図6】 実施例3の音声認識装置に用いられる提示
部の提示内容を示す一例
【図7】 実施例4における音声認識装置の構成図
【図8】 実施例4の音声認識装置に用いられる正規
化パラメータ記憶部の内容を示す一例
【図9】 実施例4の音声認識装置に用いられる正規
化パラメータ記憶部の内容を示す一例である
【図10】 実施例4の音声認識装置に用いられる正規
化パラメータ記憶部の内容を示す一例
【図11】 実施例5における音声認識装置の構成図
【図12】 実施例5の音声認識装置に用いられる正規
化パラメータ記憶部の内容を示す一例
【図13】 実施例6における音声認識装置の構成図
【図14】 実施例7の音声認識方法のフローチャー
【図15】 実施例8の音声認識方法のフローチャー
【図16】 実施例9の音声認識方法のフローチャー
【図17】 実施例10の音声認識方法のフローチャ
ート
【図18】 実施例11の音声認識方法のフローチャ
ート
【図19】 実施例12の音声認識方法のフローチャ
ート
【符号の説明】
101 マイクロホン 102 スイッチ 103、202 話者正規化部 104、603 音節系列認識部 105 音声認識標準パターン記憶部 106 辞書登録部 107 認識辞書記憶部 108 音声認識部 201、302、502 正規化パラメータ推定部 203 登録判定部 301 提示部 303 操作部 401、503 正規化パラメータ記憶部 402 登録音声正規化パラメータ推定部 403 登録音声話者正規化部 404 認識音声正規化パラメータ推定部 405 認識音声話者正規化部 501 話者認識部 504 正規化パラメータ参照部 601 登録用音声認識標準パターン記憶部 602 認識標準パターン選択記憶部

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 話者によって発声された音声を入力し、
    音声信号を出力するマイクロホンと、 入力される音声信号の話者性を正規化し、話者正規化さ
    れた音声特徴量を出力する話者正規化部と、 音声認識に用いる音声認識標準パターンを蓄積する音声
    認識標準パターン記憶部と、 入力される前記音声特徴量を前記音声認識標準パターン
    を用いて認識して音節情報に変換し、前記音節情報を出
    力する音節系列認識部と、 認識対象のテキスト情報と前記テキスト情報に対応した
    音節情報とを記憶する認識辞書記憶部と、 入力される前記音節情報に対応したテキスト情報を取得
    し、前記テキスト情報と前記音節情報とを前記認識辞書
    記憶部に登録する辞書登録部と、 音声信号が入力されたとき、前記認識辞書記憶部を参照
    し、前記音声認識標準パターンを用いて、入力された音
    声信号を音声認識し、認識結果である認識語のテキスト
    情報を出力する音声認識部と、 を有することを特徴とする音声認識装置。
  2. 【請求項2】 前記話者正規化部は、入力された音声信
    号を話者正規化するために用いる正規化パラメータを入
    力する正規化パラメータ入力部と、 音声信号と正規化パラメータが入力されると、この音声
    信号を入力された前記正規化パラメータを用いて話者正
    規化し、話者正規化された前記音声特徴量を出力する登
    録音声話者正規化部と、を有することを特徴とする請求
    項1記載の音声認識装置。
  3. 【請求項3】 話者によって発声された音声を入力し、
    音声信号を出力するマイクロホンと、 入力される音声信号の話者性を正規化するために用いる
    正規化パラメータを推定し、前記正規化パラメータを出
    力する正規化パラメータ推定部と、 音声信号と前記正規化パラメータが入力されると、前記
    正規化パラメータを、入力された音声信号の正規化に用
    いるか否かを判定する登録判定部と、 前記登録判定部が前記正規化パラメータを入力された音
    声信号の正規化に用いると判定し且つ前記正規化パラメ
    ータと音声信号が入力されると、前記正規化パラメータ
    を用いて、入力された音声信号の話者性を正規化し、話
    者正規化された音声特徴量を出力する話者正規化部と、 音声認識に用いる音声認識標準パターンを蓄積する音声
    認識標準パターン記憶部と、 入力される前記音声特徴量を前記音声認識標準パターン
    を用いて認識して音節情報に変換し、前記音節情報を出
    力する音節系列認識部と、 認識対象のテキスト情報と前記テキスト情報に対応した
    音節情報とを記憶する認識辞書記憶部と、 入力される前記音節情報に対応したテキスト情報を取得
    し、前記テキスト情報と前記音節情報とを前記認識辞書
    記憶部に登録する辞書登録部と、 音声信号が入力されたとき、前記認識辞書記憶部を参照
    し、前記音声認識標準パターンを用いて入力された音声
    信号を音声認識し、認識結果である認識語のテキスト情
    報を出力する音声認識部と、 を有することを特徴とする音声認識装置。
  4. 【請求項4】 話者によって発声された音声を入力し、
    音声信号を出力するマイクロホンと、 入力される音声信号を提示する提示部と、 登録者が音声信号の始終端情報を入力する操作部と、 音声信号が入力されると前記提示部に音声信号を提示
    し、前記操作部から音声信号の始終端情報が入力される
    と、前記始終端情報に基づいて音声信号の音声区間を切
    り出し、この切り出された音声信号の話者性を正規化す
    るために用いる正規化パラメータを推定し、前記正規化
    パラメータを出力する正規化パラメータ推定部と、 前記正規化パラメータと音声信号が入力されると、前記
    正規化パラメータを用いて、入力された音声信号の話者
    性を正規化し、話者正規化された音声特徴量を出力する
    話者正規化部と、 音声認識に用いる音声認識標準パターンを蓄積する音声
    認識標準パターン記憶部と、 入力される前記音声特徴量を前記音声認識標準パターン
    を用いて認識して音節情報に変換し、前記音節情報を出
    力する音節系列認識部と、 認識対象のテキスト情報と前記テキスト情報に対応した
    音節情報とを記憶する認識辞書記憶部と、 入力される前記音節情報に対応したテキスト情報を取得
    し、前記テキスト情報と前記音節情報とを前記認識辞書
    記憶部に登録する辞書登録部と、 音声信号が入力されたとき前記認識辞書記憶部を参照
    し、前記音声認識標準パターンを用いて入力された音声
    信号を音声認識し、認識結果である認識語のテキスト情
    報を出力する音声認識部と、 を有することを特徴とする音声認識装置。
  5. 【請求項5】 前記正規化パラメータ推定部は、 入力された音声信号から第1の区間の前記音声信号を切
    り出し、第1の区間の前記音声信号を前記提示部に伝送
    する音声区間検出部と、 第1の区間の前記音声信号から、前記始終端情報によっ
    て規定される第2の区間の前記音声信号を切り出し、第
    2の区間の前記音声信号の話者性を正規化するために用
    いる正規化パラメータを推定し、前記正規化パラメータ
    を出力する登録音声正規化パラメータ推定部と、 を有することを特徴とする請求項4に記載の音声認識装
    置。
  6. 【請求項6】 話者によって発声された音声を入力し、
    音声信号を出力するマイクロホンと、 複数の正規化パラメータを蓄積する正規化パラメータ記
    憶部と、 前記正規化パラメータ記憶部に蓄積された複数の正規化
    パラメータに基づいて、入力された音声信号の話者性を
    正規化するための正規化パラメータを推定し前記正規化
    パラメータを出力する登録音声正規化パラメータ推定部
    と、 前記正規化パラメータを用いて、入力された音声信号の
    話者性を正規化し、話者正規化された第1の音声特徴量
    を出力する登録音声話者正規化部と、 音声認識に用いる音声認識標準パターンを蓄積する音声
    認識標準パターン記憶部と、 入力される前記第1の音声特徴量を前記音声認識標準パ
    ターンを用いて認識して音節情報に変換し、前記音節情
    報を出力する音節系列認識部と、 認識対象のテキスト情報と前記テキスト情報に対応した
    音節情報とを記憶する認識辞書記憶部と、 入力される前記音節情報に対応したテキスト情報を取得
    し、前記テキスト情報と前記音節情報とを前記認識辞書
    記憶部に登録する辞書登録部と、 音声信号が入力されると、前記正規化パラメータ記憶部
    を参照し、入力された音声信号の話者性を正規化するた
    めに用いる正規化パラメータを推定し、この正規化パラ
    メータを出力する認識音声正規化パラメータ推定部と、 前記正規化パラメータを用いて、入力された音声信号の
    話者性を正規化し、話者正規化された第2の音声特徴量
    を出力する認識音声話者正規化部と、 前記第2の音声特徴量が入力されたとき、前記認識辞書
    記憶部を参照し、前記音声認識標準パターンを用いて入
    力された前記第2の音声特徴量を音声認識し、認識結果
    である認識語のテキスト情報を出力する音声認識部と、 を有することを特徴とする音声認識装置。
  7. 【請求項7】 話者によって発声された音声を入力し、
    音声信号を出力するマイクロホンと、 正規化パラメータを蓄積する正規化パラメータ記憶部
    と、前記正規化パラメータ記憶部に蓄積された正規化パ
    ラメータの一つに基づいて入力された音声信号の話者性
    を正規化するための正規化パラメータを推定し、推定さ
    れた前記正規化パラメータを出力し、且つ推定された前
    記正規化パラメータを前記正規化パラメータ記憶部に蓄
    積する登録音声正規化パラメータ推定部と、 前記正規化パラメータを用いて、入力された音声信号の
    話者性を正規化し、話者正規化された第1の音声特徴量
    を出力する登録音声話者正規化部と、 音声認識に用いる音声認識標準パターンを蓄積する音声
    認識標準パターン記憶部と、 入力される前記第1の音声特徴量を前記音声認識標準パ
    ターンを用いて認識して音節情報に変換し、前記音節情
    報を出力する音節系列認識部と、 認識対象のテキスト情報とこのテキスト情報に対応した
    音節情報とを記憶する認識辞書記憶部と、 入力される前記音節情報に対応したテキスト情報を取得
    し、前記テキスト情報と前記音節情報とを前記認識辞書
    記憶部に登録する辞書登録部と、 音声信号が入力されると、前記正規化パラメータ記憶部
    を参照し、入力された音声信号の話者性を正規化するた
    めに用いる正規化パラメータを推定し、この正規化パラ
    メータを出力する認識音声正規化パラメータ推定部と、 前記正規化パラメータを用いて、入力された音声信号の
    話者性を正規化し、話者正規化された第2の音声特徴量
    を出力する認識音声話者正規化部と、 前記第2の音声特徴量が入力されたとき、前記認識辞書
    記憶部を参照し、前記音声認識標準パターンを用いて入
    力された前記第2の音声特徴量を音声認識し、認識結果
    である認識語のテキスト情報を出力する音声認識部と、 を有することを特徴とする音声認識装置。
  8. 【請求項8】 話者によって発声された音声を入力し、
    音声信号を出力するマイクロホンと、 入力された音声信号を発話した話者に対応する第1の話
    者ラベルを取得する話者認識部と、 正規化パラメータと第2の話者ラベルとを対応させて蓄
    積するする正規化パラメータ記憶部と、 前記第1の話者ラベルと同一の前記第2の話者ラベルに
    対応づけられた前記正規化パラメータを前記正規化パラ
    メータ記憶部から読み出し、読み出した前記正規化パラ
    メータに基づいて正規化パラメータを推定し又は読み出
    した前記正規化パラメータを正規化パラメータとして推
    定し、出力する正規化パラメータ推定部と、 推定された前記正規化パラメータと音声信号が入力され
    ると、前記正規化パラメータを用いて入力された音声信
    号の話者性を正規化し、話者正規化された第1の音声特
    徴量を出力する登録音声話者正規化部と、 音声認識に用いる音声認識標準パターンを蓄積する音声
    認識標準パターン記憶部と、 入力される前記第1の音声特徴量を前記音声認識標準パ
    ターンを用いて認識して音節情報に変換し、前記音節情
    報を出力する音節系列認識部と、 認識対象のテキスト情報と前記テキスト情報に対応した
    音節情報とを記憶する認識辞書記憶部と、 入力される音節情報に対応したテキスト情報を取得し、
    前記テキスト情報と前記音節情報とを前記認識辞書記憶
    部に登録する辞書登録部と、 音声信号と話者ラベルが入力されたとき、前記正規化パ
    ラメータ記憶部を参照し、入力された話者ラベルに対応
    する正規化パラメータを取得し、この正規化パラメータ
    に基づいて正規化パラメータを推定し、又は取得した前
    記正規化パラメータを正規化パラメータとして推定し、
    出力する正規化パラメータ参照部と、 推定された前記正規化パラメータを用いて、入力された
    音声信号の話者性を正規化し、話者正規化された第2の
    音声特徴量を出力する認識音声話者正規化部と、 前記第2の音声特徴量が入力されたとき、前記認識辞書
    記憶部を参照し、前記音声認識標準パターンを用いて入
    力された前記第2の音声特徴量を音声認識し、認識結果
    である認識語のテキスト情報を出力する音声認識部と、 を有することを特徴とする音声認識装置。
  9. 【請求項9】 話者によって発声された音声を入力し、
    音声信号を出力するマイクロホンと、 入力される音声信号の話者性を正規化し、話者正規化さ
    れた音声特徴量を出力する話者正規化部と、 音声認識に用いる音声認識標準パターンを蓄積する第1
    の音声認識標準パターン記憶部と、 複数の音声認識標準パターンを蓄積する第2の音声認識
    標準パターン記憶部と、 入力される前記音声特徴量を前記第1の音声認識標準パ
    ターン記憶部に蓄積された音声認識標準パターン、及び
    前記第2の音声認識標準パターン記憶部に蓄積された話
    者の属性に応じた音声認識標準パターンを用いて認識し
    て、音節情報に変換し、前記音節情報を出力する音節系
    列認識部と、 認識対象のテキスト情報と前記テキスト情報に対応した
    音節情報とを記憶する認識辞書記憶部と、 入力される音節情報に対応したテキスト情報を取得し、
    前記テキスト情報と前記音節情報とを前記認識辞書記憶
    部に登録する辞書登録部と、 音声信号が入力されたとき前記音声認識標準パターン記
    憶部を用いて前記音声信号を音節情報に変換し、前記音
    節情報に対応するテキスト情報を前記認識辞書記憶部か
    ら読み出し、読み出した前記テキスト情報を認識結果と
    して出力する音声認識部と、 を有することを特徴とする音声認識装置。
  10. 【請求項10】 音声登録ステップと音声認識ステップ
    とを選択的に実行する音声認識装置の制御方法であっ
    て、 音声登録ステップにおいては、 マイクロホンから話者によって発声された音声による音
    声信号を入力する音声入力ステップと、 入力された前記音声信号から話者性を取り除き、話者正
    規化された音声特徴量を出力する話者正規化ステップ
    と、 前記音声特徴量を、音声認識標準パターン記憶部に蓄積
    された音声認識標準パターンを用いて音節情報に変換す
    る音節系列認識ステップと、 ユーザが認識対象のテキスト情報を入力するテキスト入
    力ステップと、 入力された前記音節情報と前記テキスト情報とを対応づ
    けて、認識辞書記憶部に登録する辞書登録ステップと、 を有し、 音声認識ステップにおいては、 マイクロホンから話者によって発声された音声による音
    声信号を入力する音声入力ステップと、 登録語の音節系列を認識辞書記憶部から読み出す、音節
    系列読み出しステップと、 音声認識標準パターン記憶部を参照して入力された音声
    信号の音声認識を行い、認識結果を出力する認識結果出
    力ステップと、 を有することを特徴とする音声認識装置の制御方法。
  11. 【請求項11】 前記話者正規化ステップは、 前記音声信号の話者性を正規化するために用いる正規化
    パラメータを推定し、前記正規化パラメータを用いて入
    力された前記音声信号を話者正規化するか否かを判定
    し、 前記正規化パラメータを用いて正規化すると判定した場
    合に、前記正規化パラメータを用いて前記音声信号を話
    者正規化することを特徴とする請求項10に記載の音声
    認識装置の制御方法。
  12. 【請求項12】 前記話者正規化ステップは、 入力される音声信号の情報を提示し、ユーザが提示され
    た音声信号の情報に基づき音声信号の音声区間を切り出
    し、この切り出された音声信号の話者性を正規化するた
    めに用いる正規化パラメータを推定し、前記正規化パラ
    メータに基づいて切り出された音声信号の話者性を正規
    化することを特徴とする請求項10に記載の音声認識装
    置の制御方法。
  13. 【請求項13】 音声登録ステップと音声認識ステップ
    とを選択的に実行する音声認識装置の制御方法であっ
    て、 音声登録ステップにおいては、 マイクロホンから話者によって発声された音声による音
    声信号を出力する音声入力ステップと、 正規化パラメータ記憶部に蓄積された複数の正規化パラ
    メータに基づいて、入力された音声信号の話者性を正規
    化するための正規化パラメータを推定する登録音声正規
    化パラメータ推定ステップと、 推定された前記正規化パラメータを用いて、入力された
    音声信号の話者性を取り除き、話者正規化された第1の
    音声特徴量を出力する登録音声話者正規化ステップと、 前記第1の音声特徴量を音声認識標準パターン記憶部に
    記憶された音声認識標準パターンを用いて認識し、音節
    情報に変換する音節系列認識ステップと、 ユーザが認識対象のテキスト情報を入力するテキスト入
    力ステップと、 前記音節情報と前記テキスト情報とを対応づけて、認識
    辞書記憶部に登録する辞書登録ステップと、 を有し、 音声認識ステップにおいては、 マイクロホンから話者によって発声された音声による音
    声信号を入力する音声入力ステップと、 正規化パラメータ記憶部に記憶されている正規化パラメ
    ータを参照し、それをもとに、入力された前記音声信号
    を話者正規化するために用いる正規化パラメータを推定
    する、認識音声正規化パラメータ推定ステップと、 推定された前記正規化パラメータを用いて、入力された
    音声信号の話者性を正規化し、話者正規化された第2の
    音声特徴量を出力する認識音声話者正規化ステップと、 認識辞書記憶部から登録語の音節系列を読みだす、音節
    系列読み出しステップと、 読み出した前記音節系列に基づき、前記音声認識標準パ
    ターンを用いて入力された前記第2の音声特徴量の音声
    認識を行い、認識結果を出力する認識結果出力ステップ
    を、 を有することを特徴とする音声認識装置の制御方法。
  14. 【請求項14】 音声登録ステップと音声認識ステップ
    とを選択的に実行する音声認識装置の制御方法であっ
    て、 音声登録ステップにおいては、 マイクロホンから話者によって発声された音声による音
    声信号を入力する音声入力ステップと、 正規化パラメータ記憶部に蓄積された正規化パラメータ
    の一つを読み出し、読み出した正規化パラメータに基づ
    いて、入力された音声信号の話者性を正規化するための
    正規化パラメータを推定する登録音声正規化パラメータ
    推定ステップと、 推定された前記正規化パラメータを用いて、入力された
    音声信号の話者性を取り除き、話者正規化された第1の
    音声特徴量を出力する登録音声話者正規化ステップと、 前記第1の音声特徴量を音声認識標準パターン記憶部に
    記憶された音声認識標準パターンを用いて認識し、音節
    情報に変換する音節系列認識ステップと、 ユーザが認識対象のテキスト情報を入力するテキスト入
    力ステップと、 前記音節情報と前記テキスト情報とを対応づけて、認識
    辞書記憶部に登録する辞書登録ステップと、 を有し、 音声認識ステップにおいては、 マイクロホンから話者によって発声された音声による音
    声信号を入力する音声入力ステップと、 正規化パラメータ記憶部に記憶されている正規化パラメ
    ータを参照し、それをもとに、入力された前記音声信号
    を話者正規化するために用いる正規化パラメータを推定
    する、認識音声正規化パラメータ推定ステップと、 推定された前記正規化パラメータを用いて、入力された
    音声信号の話者性を正規化し、話者正規化された第2の
    音声特徴量を出力する認識音声話者正規化ステップと、 認識辞書記憶部から登録語の音節系列を読みだす、音節
    系列読み出しステップと、 読み出した前記音節系列に基づき、前記音声認識標準パ
    ターンを用いて入力された前記第2の音声特徴量の音声
    認識を行い、認識結果を出力する認識結果出力ステップ
    を、 を有することを特徴とする音声認識装置の制御方法。
  15. 【請求項15】 音声登録ステップと音声認識ステップ
    とを選択的に実行する音声認識装置の制御方法であっ
    て、 音声登録ステップにおいては、 マイクロホンから話者によって発声された音声による音
    声信号を入力する音声入力ステップと、 入力された音声信号を発話した話者に対応する第1の話
    者ラベルを取得する話者認識ステップと、 正規化パラメータを第2の話者ラベルに対応して保存す
    る正規化パラメータ記憶部から、前記第1の話者ラベル
    と同一の前記第2の話者ラベルに対応して蓄積されてい
    る前記正規化パラメータを読み出し、読み出した前記正
    規化パラメータに基づいて正規化パラメータを推定し、
    又は読み出した前記正規化パラメータを正規化パラメー
    タとして推定し、推定された正規化パラメータを出力す
    る正規化パラメータ推定ステップと、 推定された前記正規化パラメータを用いて、入力された
    音声信号の話者性を正規化し、話者正規化された第1の
    音声特徴量を出力する登録音声話者正規化ステップと、 前記第1の音声特徴量を、音声認識標準パターン記憶部
    に蓄積されている音声認識標準パターンを用いて認識し
    て音節情報に変換し、前記音節情報を出力する音節系列
    認識ステップと、 ユーザが認識対象のテキスト情報を入力するテキスト入
    力ステップと、 前記音節情報と前記テキスト情報とを、対応づけて認識
    辞書記憶部に登録する辞書登録ステップと、 を有し、 音声認識ステップにおいては、 音声信号と話者ラベルが入力されたとき、前記正規化パ
    ラメータ記憶部を参照し、入力された話者ラベルに対応
    する正規化パラメータを取得し、この正規化パラメータ
    に基づいて正規化パラメータを推定し又は取得した正規
    化パラメータを正規化パラメータとして推定する正規化
    パラメータ参照ステップと、 推定された前記正規化パラメータを用いて入力された音
    声信号の話者性を正規化し、話者正規化された第2の音
    声特徴量を出力する認識音声話者正規化ステップと、 認識辞書記憶部から登録語の音節系列を読みだす、音節
    系列読み出しステップと、 読み出した前記音節系列に基づき、前記音声認識標準パ
    ターンを用いて入力された前記第2の音声特徴量の音声
    認識を行い、認識結果を出力する認識結果出力ステップ
    を、 を有することを特徴とする音声認識装置の制御方法。
  16. 【請求項16】 音声登録ステップと音声認識ステップ
    を選択的に実行する音声認識装置の制御方法であって、 音声登録ステップにおいては、 マイクロホンから話者によって発声された音声による音
    声信号を入力する音声入力ステップと、 ユーザが認識対象のテキスト情報を入力するテキスト入
    力ステップと、 入力された前記音声信号から話者性を取り除き、話者正
    規化された音声特徴量を出力する話者正規化ステップ
    と、 第1の音声認識標準パターン記憶部に蓄積されている、
    第1の音声認識標準パターンを用いて、前記音声特徴量
    を認識して第1の音節情報に変換する音節系列認識ステ
    ップと、 前記第1の音節情報と前記テキスト情報を対応づけて認
    識辞書記憶部に登録する辞書登録ステップと、 複数の音声認識標準パターンを蓄積する第2の音声認識
    標準パターン記憶部から話者の属性に応じた第2の音声
    認識標準パターンを選択し、前記第2の音声認識標準パ
    ターンを用いて、前記音声特徴量を認識して第2の音節
    情報に変換する音節系列認識ステップと、 前記第2の音節情報と前記テキスト情報を対応づけて認
    識辞書記憶部に登録する辞書登録ステップと、 を有し、 音声認識ステップにおいては、 音声認識標準パターン記憶部を参照して入力された音声
    信号を第3の音節情報に変換する音節情報認識ステップ
    と 認識結果である前記第3の音節情報に対応した登録語を
    前記認識辞書記憶部から読み出し、読み出した登録語の
    テキスト情報を出力する認識結果出力ステップと、 を有することを特徴とする音声認識装置の制御方法。
JP2001242442A 2001-08-09 2001-08-09 音声認識装置 Pending JP2003058185A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001242442A JP2003058185A (ja) 2001-08-09 2001-08-09 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001242442A JP2003058185A (ja) 2001-08-09 2001-08-09 音声認識装置

Publications (1)

Publication Number Publication Date
JP2003058185A true JP2003058185A (ja) 2003-02-28

Family

ID=19072712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001242442A Pending JP2003058185A (ja) 2001-08-09 2001-08-09 音声認識装置

Country Status (1)

Country Link
JP (1) JP2003058185A (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04151200A (ja) * 1990-10-15 1992-05-25 A T R Jido Honyaku Denwa Kenkyusho:Kk 話者適応化装置
JPH0519786A (ja) * 1991-07-11 1993-01-29 Matsushita Electric Ind Co Ltd 音声認識方法
JPH08110790A (ja) * 1994-10-11 1996-04-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置
JPH0962291A (ja) * 1995-08-30 1997-03-07 Nec Corp 記述長最小基準を用いたパターン適応化方式
JPH1185186A (ja) * 1997-09-08 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者音響モデル生成装置及び音声認識装置
JPH11175090A (ja) * 1997-12-10 1999-07-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者クラスタリング処理装置及び音声認識装置
JPH11242493A (ja) * 1998-02-24 1999-09-07 Nec Corp 音声登録認識装置
JP2000276188A (ja) * 1999-03-24 2000-10-06 Sony Corp 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04151200A (ja) * 1990-10-15 1992-05-25 A T R Jido Honyaku Denwa Kenkyusho:Kk 話者適応化装置
JPH0519786A (ja) * 1991-07-11 1993-01-29 Matsushita Electric Ind Co Ltd 音声認識方法
JPH08110790A (ja) * 1994-10-11 1996-04-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置
JPH0962291A (ja) * 1995-08-30 1997-03-07 Nec Corp 記述長最小基準を用いたパターン適応化方式
JPH1185186A (ja) * 1997-09-08 1999-03-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者音響モデル生成装置及び音声認識装置
JPH11175090A (ja) * 1997-12-10 1999-07-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者クラスタリング処理装置及び音声認識装置
JPH11242493A (ja) * 1998-02-24 1999-09-07 Nec Corp 音声登録認識装置
JP2000276188A (ja) * 1999-03-24 2000-10-06 Sony Corp 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体

Similar Documents

Publication Publication Date Title
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP4867804B2 (ja) 音声認識装置及び会議システム
US7634401B2 (en) Speech recognition method for determining missing speech
US9911408B2 (en) Dynamic speech system tuning
JP2000221990A (ja) 音声認識装置
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
JPH10254475A (ja) 音声認識方法
JP2004163541A (ja) 音声応答装置
JP2018087945A (ja) 言語認識システム、言語認識方法、及び言語認識プログラム
JP2000250593A (ja) 話者認識装置及び方法
JP2001318915A (ja) フォント変換装置
JP2003058185A (ja) 音声認識装置
JP3277579B2 (ja) 音声認識方法および装置
JP3685648B2 (ja) 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機
JP2664785B2 (ja) 音声認識装置
JPH07248792A (ja) 音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
KR100560916B1 (ko) 인식 후 거리를 이용한 음성인식 방법
JP3110025B2 (ja) 発声変形検出装置
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2000242295A (ja) 音声認識装置および音声対話装置
JPH08110790A (ja) 音声認識装置
JP2004309654A (ja) 音声認識装置
JP3357752B2 (ja) パターンマッチング装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050525

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20061129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110125