JP2003255980A - 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体 - Google Patents

音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体

Info

Publication number
JP2003255980A
JP2003255980A JP2002057245A JP2002057245A JP2003255980A JP 2003255980 A JP2003255980 A JP 2003255980A JP 2002057245 A JP2002057245 A JP 2002057245A JP 2002057245 A JP2002057245 A JP 2002057245A JP 2003255980 A JP2003255980 A JP 2003255980A
Authority
JP
Japan
Prior art keywords
acoustic
frequency spectrum
acoustic model
expansion
contraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002057245A
Other languages
English (en)
Other versions
JP2003255980A5 (ja
Inventor
Yoichiro Hachiman
洋一郎 八幡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002057245A priority Critical patent/JP2003255980A/ja
Publication of JP2003255980A publication Critical patent/JP2003255980A/ja
Publication of JP2003255980A5 publication Critical patent/JP2003255980A5/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 子供も含めた多数話者の高品質な多量の擬似
音声データを用いて音響モデルを作成する。 【解決手段】 音響分析部2は、音声データ格納部1に
格納された音声データから音響特徴量を抽出する。周波
数スペクトル伸縮部4は、上記音響特徴量の周波数スペ
クトルを周波数軸方向に伸縮する。音響モデル生成部3
は、上記周波数スペクトルが伸縮されたまたは伸縮され
ない音響特徴量を用いて音響モデルを生成する。したが
って、上記周波数スペクトル伸縮を、例えば成人女性の
音声データから擬似的に子供の音声データを得る写像関
数fiを用いた写像で行えば、成人女性の音声データま
たは成人女性音響特徴量に基づいて子供音響特徴量を擬
似的に増量できる。こうして、子供の音声データに対応
した音響モデルの精度を上げたり、不特定話者用音響モ
デルの精度を上げたりできる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、隠れマルコフモ
デル(Hidden Markov Model)(以下、HMMと略称する)
を用いた不特定話者を対象とする音声の認識に適した音
響モデルおよび音声認識に関し、特に音響モデル作成方
法、音声認識装置および音声認識方法、音声認識プログ
ラム、並びに、プログラム記録媒体に関する。
【0002】
【従来の技術】音響特徴量あるいはその確率モデル(例
えばHMM)に基づいて入力音声の発話内容を推定する
音声認識装置において、不特定話者の入力音声を対象と
する場合には、音響特徴量あるいはその確率モデルによ
って表現される音響モデルの作成に用いるデータ量は重
要な問題である。
【0003】一般に、統計的パターン認識において、そ
の性能を向上するために、予め多量のデータからモデル
を作成することが有効であることは、よく知られてい
る。しかしながら、実際に、種々の条件を満たす多量の
音声データを収集することは、時間とコストとの両面か
ら非常に困難である。
【0004】従来、上記音響モデルの作成に用いる音声
データ量を擬似的に増量して、認識性能の向上を目指し
た音声認識用の音響モデル作成方法がある。例えば、特
開平6‐308993号公報に開示されている音声認識
用辞書学習方法では、モデルの学習に用いる音声データ
のレベルを種々変更して、擬似的に入力音声パワーのレ
ベル変動を考慮した音声データを作成する。そして、こ
うして作成された多量の音声データから音響モデルを作
成するようにしている。
【0005】尚、高品質な多量の音声データベースとし
て、例えば、(株式会社)国際電気通信基礎技術研究所
(ATR)の音声データベース、(社団法人)日本音響学会
(ASJ)の研究用連続音声データベース、(社団法人)日
本電子工業振興協会(電子協)の日本語共通音声データベ
ース等がある。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来の音響モデル作成方法においては、以下のような問題
がある。すなわち、特開平6‐308993号公報に開
示された音声認識用辞書学習方法では、入力音声のパワ
ーのレベル変動への考慮に関しては、具体的な擬似音声
データ作成方法を示していると言える。ところが、多数
話者の擬似音声データ作成方法に関しては、具体的な擬
似音声データ作成方法が示されているとは言えない。し
たがって、多数話者の音声データを擬似的に得ることが
できないと言う問題がある。
【0007】また、成人男女の音声データベースに関し
ては上述したように高品質な多量の音声データベースが
あるが、子供の音声データベースについては高品質な多
量のデータベースが無いという問題もある。実際に、成
人の場合に比して、子供の場合には高品質な多量の音声
データを収集するのは困難である。
【0008】そこで、この発明の目的は、成人男女に限
らず子供も含めた多数話者の高品質な多量の擬似音声デ
ータを用いた音響モデル作成方法、この音響モデル作成
方法で作成された音響モデルを用いた音声認識装置およ
び音声認識方法、並びに、上記音声認識方法を実現する
音声認識プログラム、この音声認識プログラムを記録し
たプログラム記録媒体を提供することにある。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明は、音声認識に用いる音響モデルを作成
する音響モデル作成方法であって、音声データから音響
分析手段によって音声周波数スペクトルを表現する音響
特徴量を抽出する音響分析ステップと、上記音声データ
および音響特徴量を含む音響データの周波数スペクトル
を,周波数スペクトル伸縮部によって周波数軸方向に伸
縮する周波数スペクトル伸縮ステップと、上記周波数ス
ペクトルが伸縮された音響データに対応する音響特徴量
を含む音響特徴量を用いて,音響モデル生成手段によっ
て音響モデルを生成する音響モデル生成ステップを備え
たことを特徴としている。
【0010】上記構成によれば、音響分析手段によっ
て、音声データから音声周波数スペクトルを表現する音
響特徴量が抽出される。一方、周波数スペクトル伸縮部
によって、上記音声データおよび音響特徴量を含む音響
データの周波数スペクトルが周波数軸方向に伸縮され
る。そうすると、音響モデル生成手段によって、上記周
波数スペクトルが伸縮された音響データに対応する音響
特徴量(つまり、上記周波数スペクトルが伸縮された音
声データから抽出された音響特徴量または上記周波数ス
ペクトルが伸縮された音響特徴量)を含む上記音響特徴
量が用いられて音響モデルが生成される。
【0011】こうして、少数話者の音声データから擬似
的に多数話者の音響特徴量が作成される。したがって、
こうして得られた擬似音響特徴量を含む多数の音響特徴
量を用いて生成される音響モデルの統計的信頼性が向上
される。
【0012】また、1実施例では、上記第1の発明の音
響モデル作成方法において、上記周波数スペクトル伸縮
ステップにおいて周波数スペクトルが伸縮される音響デ
ータは上記音響特徴量である。
【0013】上記構成によれば、上記音響分析手段によ
って音声データから音響特徴量が抽出され、上記周波数
スペクトル伸縮部によって上記音響特徴量の周波数スペ
クトルが周波数軸方向に伸縮される。そして、上記音響
モデル生成手段によって、上記周波数スペクトルが伸縮
された音響特徴量を含む音響特徴量が用いられて音響モ
デルが生成される。こうして、少数話者の音声データか
ら擬似的に作成された擬似音響特徴量を含む多数の音響
特徴量を用いることによって、音響モデルの統計的信頼
性が向上される。
【0014】その際に、音声周波数スペクトルを表現す
る音響特徴量に対して周波数スペクトル伸縮処理が行わ
れる。したがって、周波数スペクトル伸縮時における周
波数スペクトル分析計算を省略することができ、上記周
波数スペクトルの伸縮が高速に行われる。
【0015】また、1実施例では、上記第1の発明の音
響モデル作成方法において、上記周波数スペクトル伸縮
ステップにおける上記周波数スペクトルの周波数軸方向
への伸縮は、線形に伸縮する線形伸縮である。
【0016】この実施例によれば、上記音声データおよ
び音響特徴量を含む音響データの周波数スペクトルが、
周波数軸方向に線形に伸縮される。こうして、声道長
(声帯から口までの音声生成器官の長さ)の個人差が反映
された擬似音響データが作成される。
【0017】また、1実施例では、上記第1の発明の音
響モデル作成方法において、上記周波数スペクトル伸縮
ステップにおける上記周波数スペクトルの周波数軸方向
への伸縮は、上記周波数軸における高域方向への伸長で
ある。
【0018】この実施例によれば、上記音声データおよ
び音響特徴量を含む音響データの周波数スペクトルが、
周波数軸方向における高域方向に伸長される。こうし
て、元の音響データの話者よりも上記声道長が短い話者
による擬似音響データが作成される。したがって、例え
ば、成人女性の音響データから子供の擬似音響データを
作成することが可能になる。
【0019】また、1実施例では、上記第1の発明の音
響モデル作成方法において、上記周波数スペクトル伸縮
ステップにおける上記周波数スペクトルの周波数軸方向
への伸縮は、1.05倍以上且つ1.20倍以下の倍率か
ら選択された一つあるいは複数の倍率で行う。
【0020】この実施例によれば、上記音響データの周
波数スペクトルが、周波数軸方向に1.05倍以上且つ
1.20倍以下の倍率から選択された一つあるいは複数
の倍率で伸長される。こうして、成人男性の音響データ
から成人女性の擬似音響データが、あるいは、成人女性
の音響データから子供の擬似音響データが作成される。
【0021】また、1実施例では、上記第1の発明の音
響モデル作成方法において、上記音響モデル生成ステッ
プにおける音響モデルの生成は、上記周波数スペクトル
が伸縮された音響特微量を用いて行われる。
【0022】この実施例によれば、上記周波数スペクト
ルが伸縮された音響特微量を用いて上記音響モデルが生
成される。したがって、音響モデル作成用音声の発話者
における声道長分布域とは異なる声道長分布域を有する
話者に対して、安定した音声認識を可能にする音響モデ
ルが生成される。
【0023】また、1実施例では、上記第1の発明の音
響モデル作成方法において、上記音響モデル生成ステッ
プにおける音響モデルの生成は、上記周波数スペクトル
が伸縮された成人女性の音響特徴量を用いて行われる。
【0024】この実施例によれば、上記周波数スペクト
ルが伸縮された成人女性の音響特徴量を用いて上記音響
モデルが生成される。したがって、子供の音響特徴量を
一切用いることなく、子供の入力音声を認識できる音響
モデルが生成される。
【0025】また、1実施例では、上記第1の発明の音
響モデル作成方法において、上記音響モデル生成ステッ
プにおける音響モデルの生成は、上記周波数スペクトル
が伸縮された音響特微量と上記周波数スペクトルが伸縮
されない音響特微量とを用いて行われる。
【0026】この実施例によれば、上記周波数スペクト
ルが伸縮された音響特徴量と、上記周波数スペクトルが
伸縮されないオリジナルの音響特徴量とが併用されて、
上記音響モデルが生成される。したがって、音響モデル
作成用音声の発話者における声道長分布域とは異なる声
道長分布域を有する話者と、上記発話者の声道長分布域
に近い声道長分布域を有する話者とに対して、安定した
音声認識を可能にする音響モデルが生成される。
【0027】また、1実施例では、上記第1の発明の音
響モデル作成方法において、上記音響モデル生成ステッ
プにおける音響モデルの生成は、成人女性の音声データ
については,上記周波数スペクトルが伸縮された音響特
徴量および上記周波数スペクトルが伸縮されない音響特
徴量を用いて行われる一方、成人女性以外の音声データ
については,上記周波数スペクトルが伸縮されない音響
特徴量のみを用いて行われる。
【0028】この実施例によれば、成人女性の音声デー
タについては、上記周波数スペクトルが伸縮された音響
特徴量と伸縮されない音響特徴量とが併用される一方、
成人女性以外の音声データについては、上記周波数スペ
クトルが伸縮されない音響特徴量のみが用いられて、上
記音響モデルが生成される。したがって、成人女性の音
響特徴量から擬似的に子供の音響特徴量が生成され、子
供の音声データが擬似的に補強された不特定話者用音響
モデルが生成される。すなわち、成人男女に対しても子
供に対しても頑健な音声認識性能を有する音響モデルが
生成されるのである。
【0029】また、1実施例では、上記第1の発明の音
響モデル作成方法において、上記周波数スペクトル伸縮
ステップにおける上記周波数スペクトルの周波数軸方向
への伸縮は、対象と成る音響データが有声音の場合と有
声音以外の場合とで異なる処理を施すようになってい
る。
【0030】この実施例によれば、有声音の音響データ
と有声音以外の音響データとで異なる伸縮処理が施され
る。したがって、上記周波数スペクトルを伸縮すること
が好ましくない有声音以外の音響データに対して上記伸
縮を行わないようにして、高品位な擬似音響データが生
成可能になる。
【0031】また、1実施例では、上記第1の発明の音
響モデル作成方法において、上記周波数スペクトル伸縮
ステップにおける上記周波数スペクトルの周波数軸方向
への伸縮は、対象と成る音響データが有声音の場合には
行い、有声音以外の場合には行わないようになってい
る。
【0032】この実施例によれば、有声音の音響データ
の場合には上記周波数スペクトルの伸縮が行われる一
方、有声音以外の音響データの場合には上記周波数スペ
クトルの伸縮が行われない。したがって、上記周波数ス
ペクトルを伸縮することが好ましくない上記有声音以外
の音響データには上記伸縮が行われず、高品位な擬似音
響データが生成される。
【0033】また、第2の発明は、入力された音声デー
タから音声周波数スペクトルを表現する音響特徴量を抽
出する音響分析手段と,音響モデル格納部に格納された
音響モデルと上記音響特徴量とを照合する照合手段とを
有して,入力音声の発話内容を推定する音声認識装置に
おいて、上記音響モデル格納部に格納された音響モデル
は、上記第1の発明の音響モデル作成方法によって作成
された音響モデルであることを特徴としている。
【0034】上記構成によれば、照合手段によって、音
響分析手段が入力音声データから抽出した音響特徴量
と、上記第1の発明の音響モデル作成方法によって作成
された音響モデルとが照合されて、入力音声の発話内容
が推定される。したがって、特に子供を含む不特定話者
の音声に対する高い認識精度が得られる。
【0035】また、第3の発明は、入力された音声デー
タから音声周波数スペクトルを表現する音響特徴量を抽
出する第1音響分析手段と,音響モデル格納部に格納さ
れた音響モデルと上記第1音響分析手段で抽出された音
響特徴量とを照合する照合手段とを有して,入力音声の
発話内容を推定する音声認識装置において、音声データ
を格納する音声データ格納手段と、上記音声データ格納
手段に格納された音声データから音声周波数スペクトル
を表現する音響特徴量を抽出する第2音響分析手段と、
上記第2音響分析手段で抽出された音響特徴量の周波数
スペクトルを周波数軸方向に伸縮する周波数スペクトル
伸縮手段と、上記周波数スペクトルが伸縮された音響特
徴量を含む音響特徴量を用いて,上記音響モデル格納部
に格納される音響モデルを生成する音響モデル生成手段
を備えたことを特徴としている。
【0036】上記構成によれば、音声データから第2音
響分析手段によって抽出された音響特徴量の周波数スペ
クトルが、周波数スペクトル伸縮手段によって周波数軸
方向に伸縮される。そして、この伸縮された音響特徴量
を含む上記音響特徴量を用いて音響モデル生成手段によ
って音響モデルが生成されて音響モデル格納部に格納さ
れる。そうした後、照合手段による入力音声データから
抽出された音響特徴量に対する照合が、上記音響モデル
格納部に格納された上記第1の発明の音響モデル作成方
法によって作成された音響モデルを用いて行われる。し
たがって、特に子供を含む不特定話者の音声に対する高
い認識精度が得られる。
【0037】また、第4の発明の音声認識方法は、入力
された音声データから音響分析手段によって音声周波数
スペクトルを表現する音響特徴量を抽出し、上記第1の
発明の音響モデル作成方法によって作成された音響モデ
ルと上記抽出された音響特徴量とを照合手段によって照
合して,入力音声の発話内容を推定することを特徴とし
ている。
【0038】上記構成によれば、入力音声データから抽
出された音響特徴量と、上記第1の発明の音響モデル作
成方法によって作成された音響モデルとが照合されて、
入力音声の発話内容が推定される。したがって、特に子
供を含む不特定話者の音声に対する高い認識精度が得ら
れる。
【0039】また、第5の発明の音声認識プログラム
は、コンピュータを、入力された音声データから音響特
徴量を抽出する音響分析手段と、上記第1の発明の音響
モデル作成方法によって作成された音響モデルと上記音
響特徴量とを照合する照合手段として機能させることを
特徴としている。
【0040】上記構成によれば、入力音声データから抽
出された音響特徴量と、上記第1の発明の音響モデル作
成方法によって作成された音響モデルとが照合されて、
入力音声の発話内容が推定される。したがって、特に子
供を含む不特定話者の音声に対する高い認識精度が得ら
れる。
【0041】また、第6の発明の音声認識プログラム
は、コンピュータを、上記第3の発明における第1音響
分析手段,照合手段,第2音響分析手段,周波数スペクト
ル伸縮手段および音響モデル生成手段として機能させる
ことを特徴としている。
【0042】上記構成によれば、上記第1の発明の音響
モデル作成方法によって音響モデルが作成されて音響モ
デル格納部に格納され、その音響モデルを用いて、入力
音声データから抽出された音響特徴量との照合が行われ
る。したがって、特に子供を含む不特定話者の音声に対
する高い認識精度が得られる。
【0043】また、第7の発明のプログラム記録媒体
は、上記第5の発明あるいは第6の発明の音声認識プロ
グラムが記録されていることを特徴としている。
【0044】上記構成によれば、上記第5の発明あるい
は第6の発明の場合と同様に、特に子供を含む不特定話
者の音声に対する高い認識精度が得られる。
【0045】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。
【0046】<第1実施の形態>図1は、本実施の形態
の音響モデル作成方法によって音響モデルを作成する音
響モデル作成装置のブロック図である。
【0047】図1において、1は、音響モデルの作成に
用いられる音声データが格納されている音声データ格納
部であり、半導体メモリ,磁気メモリまたは記憶装置等
で構成される。尚、上記音声データは、例えば、予めA
/D(アナログ/ディジタル)変換処理を施して記録された
ディジタル音声データである。また、例えば、アナログ
音声データのままテープ等に予め録音されたもの等であ
っても差し支えない。
【0048】2は、上記音声データから音響特徴量を抽
出する音響分析部であり、専用のLSI(大規模集積回
路)素子等で構成される。尚、上記入力音声がアナログ
音声データである場合には、音響分析部2では、初めに
A/D変換処理を施すことになる。そして、入力された
あるいは変換されたディジタル音声データから抽出され
る音響特徴量としては、音声周波数スペクトルの効率の
よい表現方法が用いられる。ここで、上記音声周波数ス
ペクトルの表現方法としては、MFCC(メル周波数F
FT(高速フーリエ変換)ケプストラム)やLPC(線形予
測分析)メルケプストラムがある。尚、この発明におい
ては、上記音響特徴量として、音声周波数スペクトルを
表現した特徴量であれば上記以外のものを用いても一向
に差し支えない。
【0049】3は、上記音響分析部2で抽出された音響
特徴量を用いて音響モデルを生成する音響モデル生成部
であり、専用のLSI素子等で構成される。上記音響モ
デルには、多量の音声データから求めた平均的な特徴量
を標準パターンとして表現するものや、統計的特徴量を
確率的にモデル化したHMM等がある。尚、この発明に
おいては、上記音響モデルとして、多量の音声データか
ら作成されるものであれば上記以外のものを用いても一
向に差し支えない。また、上記HMMを用いた音声認識
については、中川聖一著「確率モデルによる音声認識」
(電子情報通信学会)に詳しい。
【0050】4は、この発明における特徴の1つである
周波数スペクトル伸縮部であり、専用のLSI素子等で
構成される。周波数スペクトル伸縮部4では、上記抽出
された音響特徴量の周波数スペクトルを周波数軸方向に
伸縮する。
【0051】尚、上記各部を構成する素子等は、1つで
あっても複数が複合されたものであっても本実施の形態
に影響は無い。また、各部は、CPU(中央演算処理装
置)あるいはその周辺機器等で代用してもよい。
【0052】また、図1においては、上記周波数スペク
トル伸縮部4を音響分析部2に接続して配置している
が、周波数スペクトル伸縮部4を音声データ格納部1に
接続して配置しても差し支えない。但し、処理速度の観
点から言えば、音声周波数スペクトルを表現した音響特
徴量を抽出する音響分析部2に、周波数スペクトル伸縮
部4を接続して配置した方が、周波数スペクトルの算出
を一度に行うことができるため高速に処理可能である。
【0053】図2は、図1に示す音響モデル作成装置に
よって実行される音響モデル作成方法の手順を示すフロ
ーチャートである。以下、図2に従って、音響モデル作
成処理動作について詳細に説明する。
【0054】ステップS1で、上記音響分析部2によっ
て、音声データ格納部1に格納された音声データから、
MFCCやLPCメルケプストラム等の音響特徴量が抽
出される(音響分析処理)。ステップS2で、周波数スペ
クトル伸縮部4によって、音響特徴量の周波数スペクト
ルが周波数軸方向に伸縮される(周波数スペクトル伸縮
処理)。尚、周波数スペクトル伸縮の詳細な処理手順に
ついては後述する。ステップS3で、音響モデル生成部
3によって、上記周波数スペクトル伸縮処理が行われた
音響特徴量あるいは行われていない音響特徴量を用い
て、上述のような音響モデルが生成される(音響モデル
生成処理)。そうした後、音響モデル作成処理動作を終
了する。
【0055】図3は、図2に示す音響モデル作成処理動
作のフローチャートにおけるステップS2で実行される
周波数スペクトル伸縮処理サブルーチンのフローチャー
トである。以下、図3に従って、周波数スペクトル伸縮
処理動作について詳細に説明する。上記音響モデル作成
処理動作のステップS1において、音響分析処理動作が
終了すると周波数スペクトル伸縮処理動作がスタートす
る。
【0056】ステップS11で、上記音響分析部2で抽出
された音響特徴量の1つが周波数スペクトル伸縮部4に
入力される(音響特徴量入力処理)。ステップS12で、上
記入力された音響特徴量に基づいて、有声音か否かが判
別される。その結果、有声音であればステップS13に進
み、そうでなければ(つまり、無声音であれば)ステップ
S18に進む(有声音判定分岐処理)。尚、上記有声音判定
は、例えば、音響モデル作成用の音声データにセグメン
ト(音韻境界)情報と共に音韻ラベルが付与されている場
合には、その音韻ラベルに基づいて行えばよい。また、
音韻ラベルが付与されていない音声データの場合には、
対象となる音響特徴量に基づいて、例えばHMMに基づ
く音声認識処理を行い、ビタビ演算等を用いて音韻ラベ
ルとセグメント情報とを付与して行えばよい。
【0057】ステップS13で、写像関数番号のカウンタ
iが初期値「1」に初期化される(カウンタ初期化処理)。
ステップS14で、i番目の写像関数fiを用いて音響特
徴量を写像することによって、周波数スペクトルの伸縮
処理が行われる(周波数軸伸縮処理)。写像関数の例およ
び写像の詳細な処理手順については後述する。ステップ
S15で、周波数スペクトルが周波数軸方向に伸縮処理さ
れた音響特徴量が、音響分析部2に一旦返される。そし
て更に、音響分析部2から音響モデル生成部3に出力さ
れる(伸縮後音響特徴量出力処理)。
【0058】ステップS16で、上記カウンタiが写像関
数の数「N」に等しいか否かが判別される。その結果、等
しければステップS19に進む一方、等しくなければステ
ップS17に進む(カウンタ判定分岐処理)。ステップS17
で、カウンタiの内容がインクリメントされる(カウン
タ加算処理)。そうした後、上記ステップS14に戻って
次の写像関数を用いた処理に移行する。ステップS18
で、上記ステップS12において無声音であると判定され
た音響特徴量が、音響分析部2に一旦返される。そして
更に、音響分析部2から音響モデル生成部3に出力され
る(音響特徴量出力処理)。ステップS19で、音響分析部
2で抽出された総ての音響特徴量に対する処理が終了し
たか否かが判別される。その結果、終了していなければ
上記ステップS11に戻って、次の音響特徴量に対する処
理に移行する一方、終了していれば周波数スペクトル伸
縮処理動作を終了して上記音響モデル作成処理動作にリ
ターンする(終了判定分岐処理)。
【0059】尚、図3に示す周波数スペクトル伸縮処理
動作では、上記ステップS12において有声音判定分岐処
理を行い、有声音に対してのみ周波数軸伸縮を行うよう
にしている。しかしながら、入力された音響特徴量から
有声音であるか無声音であるかの判別が困難である場合
等においては、上記ステップS12での有声音判定分岐処
理と上記ステップS18での音響特徴量出力処理とを省略
し、ステップS11での音響特徴量入力処理が終了した
ら、上記ステップS13のカウンタ初期化処理に進むよう
にしても差し支えない。また、予め用意した写像関数f
iの数「N」が1である場合には、上記ステップS13での
カウンタ初期化処理,上記ステップS16でのカウンタ判
定分岐処理および上記ステップS17でのカウンタ加算処
理を省略しても一向に構わない。
【0060】ところで、図2および図3は、周波数スペ
クトル伸縮部4を音響分析部2に接続して配置した場合
における音響モデル作成処理動作および周波数スペクト
ル伸縮処理動作である。もし、周波数スペクトル伸縮部
4を音声データ格納部1に接続して配置するのであれ
ば、その場合における音響モデル作成処理動作は、図2
に示すフローチャートにおいて、ステップS1とステッ
プS2とを入れ換えればよい。また、周波数スペクトル
伸縮処理動作は、図3に示すフローチャートにおいて、
ステップS11では音声データ格納部1から入力された音
声データを音声周波数スペクトルを表現したものに変換
すると共に、ステップS15及びステップS18では音声デ
ータを音声データ格納部1を経由してあるいは直接音響
分析部2に出力するようにすればよい。
【0061】図4は、上記写像関数fiの一例を示す図
である。図4において、横軸xは周波数軸伸縮前の音響
特徴量の周波数軸であり、縦軸f(x)は周波数軸伸縮後
の音響特徴量の周波数軸である。尚、写像関数fiは下
記の式で表される。ここで、写像関数fiとして線形伸
縮係数に基づく線形関数を用いるのは、声道長の個人差
を次元数の少ないパラメータで簡潔に表現するためであ
る。尚、声道長と音声スペクトルとの詳細な関係につい
ては、下記文献に詳しい。また、写像関数fiについて
は、声道長の個人差を表現した関数であれば近似関数を
含めて如何様な関数を用いても差し支えない。 「AT&T Bell Labs. Li Lee,Richard C.Rose:“Speaker
Normalization usingEfficient Frequency Warping P
rocedures”,ICASSP96,p.p.353‐356(1996)」
【0062】写像関数fi: ・x≦min(ω/αi,ω)では、fi(x)=αi・x (i=1,
2,…,N) ・min(ω/αi,ω)<xでは、 αi>1のとき fi(x)→(ω/αi,ω)と(fs/2,fs/
2)とを結ぶ直線 αi≦1のとき fi(x)→(ω,αi・ω)と(fs/2,fs/
2)とを結ぶ直線 但し、N:写像関数fiの数 αi:線形伸縮係数 fs:サンプリング周波数(例えば12kHz) ω:写像関数の接続点(例えば4kHz) ここで、ωによって接続点を設置するのは、周波数軸伸
縮前後の定義域を保ち、且つ不連続性に対処するためで
ある。
【0063】例えば、成人女性の音響特徴量から擬似的
に子供の音響特徴量を得る場合に適用される写像関数f
iの場合には、N=1,α1=1.1である(図4に相
当)。但し、元の音声データベースの環境等によって
は、上述の値に限るものではない。また、線形伸縮係数
αiを複数(N>1)用意することによって、意図的に声
道長の個人差を創出することもできる。尚、成人男性の
音響特徴量から擬似的に成人女性の音響特徴量を得る場
合、あるいは、成人女性の音響特徴量から擬似的に子供
の音響特徴量を得る場合に用いるαiは、次式 1.05≦αi≦1.20 を満たす(つまり、高域方向に伸長する)ことが好まし
い。また、写像関数fiが線形伸縮係数αiに基づく線形
関数ではない場合には、関数を定義するのに必要なパラ
メータ群に係数αを置き換え、後述する写像のイメージ
を満たすような値に設定すればよい。
【0064】次に、上記写像関数fiを用いて上記音響
特徴量の周波数スペクトルを周波数軸方向に伸縮する例
を、音響特徴量がLPCメルケプストラムである場合で
説明する。すなわち、上記周波数軸方向への伸縮に際し
て、先ず、音響特徴量に対して逆cos変換を行い、上記
音響特徴量を周波数次元の対数パワースペクトルで表現
する。次に、音響特徴量の周波数軸を、メルスケールか
ら線形スケールに変換する。そして、上記写像関数fi
を用いて周波数軸を伸縮する。そうした後、周波数軸を
上記線形スケールからメルスケールに変換し、続いてco
s変換することによって上記音響特徴量が再びLPCメ
ルケプストラムとして表現される。
【0065】尚、上述の説明においては、上記音響特徴
量がLPCメルケプストラムとして抽出された場合につ
いて説明している。しかしながら、初めにLPCケプス
トラム(線形)を抽出しておき、周波数軸伸縮処理を行っ
た後に線形スケールからメルスケールに変換してもよ
い。これら周波数軸伸縮処理の手順は、この発明の要旨
を逸脱するものでなければ如何様な処理手順であっても
構わない。
【0066】図5は、図3に示す周波数スペクトル伸縮
処理動作の結果得られた擬似データのイメージ図であ
る。図5において、白い四角は、成人男性の音声データ
から抽出された成人男性音響特徴量である。また、白い
丸は、成人女性の音声データから抽出された成人女性音
響特徴量である。そして、黒い丸は、成人女性音響特徴
量を周波数スペクトル伸縮することによって得られた擬
似子供音響特徴量、または、成人女性の音声データを周
波数スペクトル伸縮することによって得られた擬似子供
音声データに対応する擬似子供音響特徴量(周波数スペ
クトル伸縮部4を音声データ格納部1に接続した場合)
である。
【0067】図5から分かるように、子供の音声データ
が一切ない場合においても、成人女性の音声データまた
は成人女性音響特徴量のみを用いて図2および図3に示
す音響モデル作成処理を行うことによって、子供の音声
データに対応した音響モデルを擬似的に作成することが
できるのである。ここで、上記成人女性とは必ずしも真
の性別を指すものではなく、成人女性に近い音響特徴の
音声であれば成人男性等の音声であっても差し支えな
い。また、上記成人男性についても同様である。
【0068】図6は、図2に示す音響モデル作成処理動
作のフローチャートにおけるステップS2で実行される
周波数スペクトル伸縮処理サブルーチンの図3とは異な
るフローチャートである。以下、図5に示す周波数スペ
クトル伸縮処理動作について詳細に説明する。上記音響
モデル作成処理動作のステップS1において、音響分析
処理動作が終了すると本周波数スペクトル伸縮処理動作
がスタートする。
【0069】ステップS21で、上記音響分析部2で抽出
された音響特徴量の1つが周波数スペクトル伸縮部4に
入力される(音響特徴量入力処理)。ステップS22で、上
記ステップS21において入力された音響特徴量が、音響
分析部2に一旦返される。そして更に、音響分析部2か
ら音響モデル生成部3に出力される(音響特徴量出力処
理)。このように、本実施の形態においては、音響特徴
量出力処理を音響特徴量入力処理の直後に実行するよう
にしている。こうして、周波数スペクトル伸縮処理が施
されない音響特徴量の総てを、上記音響モデル生成部3
に出力するのである。
【0070】ステップS23で、上記ステップS21におい
て入力された音響特徴量が、成人女性音響特徴量である
か否かが判別される。その結果、成人女性であればステ
ップS24に進み、そうでなければステップS30に進む
(成人女性判定分岐処理)。こうして、成人女性音響特徴
量以外の音響特徴量に対する本周波数スペクトル伸縮処
理は行わないのである。
【0071】ステップS24〜ステップS30で、図3に示
す音響モデル作成処理動作のステップS12〜ステップS
17およびステップS19と同様に、有声音判定分岐処理,
カウンタ初期化処理,周波数軸伸縮処理,伸縮後音響特徴
量出力処理,カウンタ判定分岐処理,カウンタ加算処理お
よび終了判定分岐処理が順次実行される。そして、上記
ステップS30において、音響分析部2で抽出された総て
の音響特徴量に対する処理が終了したと判別されれば、
周波数スペクトル伸縮処理動作を終了して上記音響モデ
ル作成処理動作にリターンするのである。
【0072】尚、本周波数スペクトル伸縮処理動作の場
合にも、図3に示す周波数スペクトル伸縮処理動作の場
合と同様に、入力された音響特徴量から有声音であるか
無声音であるかの判別が困難である場合等には、ステッ
プS23での成人女性判定分岐処理が終了したら上記ステ
ップS25のカウンタ初期化処理に進むようにしても差し
支えない。また、予め用意した写像関数fiの数「N」が
1である場合には、上記ステップS25でのカウンタ初期
化処理,上記ステップS28でのカウンタ判定分岐処理お
よび上記ステップS29でのカウンタ加算処理を省略して
も構わない。また、周波数スペクトル伸縮部4を音声デ
ータ格納部1に接続する場合には、上記ステップS21に
おいて、音声データ格納部1から入力された音声データ
を音声周波数スペクトルを表現したものに変換すると共
に、ステップS22およびステップS27では音声データを
音声データ格納部1を経由してあるいは直接音響分析部
2に出力するようにすればよい。
【0073】図7は、図6に示す周波数スペクトル伸縮
処理動作の結果得られた擬似データのイメージ図であ
る。図7において、白い四角は、成人男性の音声データ
から抽出された成人男性音響特徴量である。また、白い
丸は、成人女性の音声データから抽出された成人女性音
響特徴量である。また、白い三角は、子供の音声データ
から抽出された子供音響特徴量である。そして、黒い丸
は、成人女性音響特徴量を周波数スペクトル伸縮するこ
とによって得られた擬似子供音響特徴量、あるいは、成
人女性の音声データを周波数スペクトル伸縮することに
よって得られた擬似子供音声データに対応する擬似子供
音響特徴量(周波数スペクトル伸縮部4を音声データ格
納部1に接続した場合)である。つまり、白の四角,丸,
三角は、総て図6に示す周波数スペクトル伸縮処理動作
の上記ステップS22において周波数軸伸縮処理を行わず
に出力された音響特徴量なのである。
【0074】図7から分かるように、子供の音声データ
が少ない場合においても、成人男性,成人女性および子
供の音声データまたは音響特徴量を用いて図6に示すス
ペクトル伸縮処理動作を行うことによって、成人女性の
音声データまたは音響特徴量から擬似子供音響特徴量を
得ることができ、擬似的に子供音響特徴量を増量するこ
とができるのである。
【0075】したがって、図7に示す音響特徴量から子
供に対応するもの(実音響特徴量および擬似音響特徴量)
を用いることによって、子供の音声データに対応した音
響モデルの精度を向上することが可能になる。また、図
7に示す総ての音響特徴量(実音響特徴量および擬似音
響特徴量)を用いることによって、不特定話者用音響モ
デルの精度を向上することが可能になる。ここで、上記
成人女性とは必ずしも真の性別を指すものではなく、成
人女性に近い音響特徴の音声であれば成人男性等の音声
であっても差し支えない。また、上記成人男性および子
供についても同様である。
【0076】以上のごとく、本実施の形態における音響
モデル作成装置は、上記音声データ格納部1に格納され
た音声データから音響分析部2で抽出された音声周波数
スペクトルを表現した音響特徴量の周波数スペクトル
を、周波数軸方向に伸縮する周波数スペクトル伸縮部4
を有している。そして、音響モデル生成部3は、周波数
スペクトルが周波数軸方向に伸縮された音響特徴量、あ
るいは、伸縮されない音響特徴量を用いて、音響モデル
を生成するようにしている。
【0077】したがって、上記周波数スペクトル伸縮部
4による周波数スペクトル伸縮を、例えば成人女性の音
声データから擬似的に子供の音声データを得る場合に適
用される写像関数fiを用いた写像によって行うことに
よって、子供の音声データが少ない場合や一切ない場合
でも、成人女性の音声データまたは成人女性音響特徴量
に基づいて擬似子供音響特徴量を得ることができ、収集
が困難な子供音響特徴量を擬似的に増量することができ
る。したがって、子供の音声データに対応した音響モデ
ルの精度を向上したり、不特定話者用音響モデルの精度
を向上することができるのである。
【0078】その際に、上記写像関数fiとして、線形
伸縮係数に基づく線形関数を用いることによって、声道
長の個人差を反映した擬似音声データや擬似音響特徴量
を作成することができ、不特定話者用音響モデルの精度
を更に向上することが可能になる。また、上記周波数ス
ペクトル伸縮部4による周波数スペクトル伸縮を、有声
音に対してのみ行うことによって、高品質な擬似音声デ
ータあるいは擬似音響特徴量を得ることができる。
【0079】<第2実施の形態>図8は、本実施の形態
における音声認識装置のブロック図である。この音声認
識装置は、上記第1実施の形態における音響モデル作成
方法で作成された音響モデルを用いるものであって、図
1に示す音響モデル作成装置が搭載されている。
【0080】図8において、音響モデル作成部11は、
図1に示す音響モデル作成装置と基本的には同じであ
り、音声データ格納部13,音響分析部14,音響モデル
生成部15および周波数スペクトル伸縮部16で構成さ
れる。ここで、音声データ格納部13,音響モデル生成
部15および周波数スペクトル伸縮部16は、上記第1
実施の形態において図1に示す音声データ格納部1,音
響モデル生成部3および周波数スペクトル伸縮部4と同
じである。
【0081】音響分析部14は、音響モデル作成部11
を構成すると共に、音声認識部12をも構成している。
そして、音響モデル作成部11用の音響分析部として機
能する場合には、図1に示す音響分析部2と同様に、音
声データ格納部13に格納された音声データから音声周
波数スペクトルを表現した音響特徴量を抽出する。そし
て、この抽出された音響特徴量または周波数スペクトル
伸縮部16で周波数スペクトル伸縮された音響特徴量を
音響モデル生成部15に出力する。
【0082】上記音声認識部12は、上記音響分析部1
4の他に、照合部17および音響モデル格納部18を有
している。音響分析部14は、音声認識部12用の音響
分析部として機能する場合には、入力された音声データ
から音声周波数スペクトルを表現した音響特徴量を抽出
して照合部17に出力する。その際に、処理量削減のた
めには抽出された音響特徴量に周波数スペクトル伸縮を
行わない方が好ましいが、処理可能である場合には周波
数スペクトル伸縮部16に音響特徴量を送出して周波数
スペクトル伸縮を行わせても差し支えない。
【0083】上記照合部17は、専用のLSI素子等に
よって構成されて、上記音響分析部14で抽出された音
響特徴量を、音響モデル作成部11で作成された音響モ
デルを用いて照合して入力音声を認識する。
【0084】上記音響モデル格納部18は、半導体メモ
リ,磁気メモリまたは記憶装置等によって構成されて、
音響モデル作成部11によって上記第1実施の形態の音
響モデル作成方法に基づいて作成された音響モデルを格
納し、音声認識時に照合部17からの要求に応じて出力
する。
【0085】尚、上記各部は、CPUあるいはその周辺
機器等で代用してもよい。
【0086】図9は、図8に示す音声認識装置における
音声認識部12によって実行される音声認識処理動作の
フローチャートである。図9において、ステップS31
で、音響分析部14によって、図2に示す音響モデル作
成処理動作のステップS1の場合と同様にして、入力さ
れた音声データからMFCCやLPCメルケプストラム
等を含む音響特徴量が抽出される(音響分析処理)。ステ
ップS32で、照合部17によって、上記ステップS31に
おける音響分析処理によって抽出された音響特徴量が、
音響モデル格納部18に格納された音響モデルと照合さ
れる(照合処理)。その際における照合の単位は、音素,
単語,文節等用途に応じて設定すればよく、この発明に
おいては照合の単位を限定するものではない。ステップ
S33で、照合部17によって、上記ステップS32におけ
る照合処理の結果、最も尤度の高い音響モデルのラベル
(音素,単語,文節等)が認識結果として出力される(認識
結果出力処理)。尚、上記ステップS32における照合処
理の結果から得られる認識結果は、音響モデルのラベル
に限定されるものではなく、音響モデルに関連付けられ
る情報であれば、その表現形式を特定するのもではな
い。また、出力の方法としては、ディスプレイヘの文字
出力や合成音声による出力や認識結果に基づくスイッチ
のオン等がある。何れの出力方法を用いるかは、用途に
応じて設定すればよい。この発明においては、特に出力
方法を限定するものではない。
【0087】以上のように、本実施の形態の音声認識装
置は、照合部17による音響特徴量の照合を、上記第1
実施の形態を適用して擬似子供音響特徴量や擬似成人音
響特徴量を含む音響特徴量から生成された音響モデルを
用いて行うようにしている。したがって、子供の音声や
不特定話者の音声に対する認識精度を高めることができ
るのである。
【0088】尚、上記第2実施の形態における音声認識
装置は、音響モデル作成部11を搭載して構成されてい
る。しかしながら、この発明はこれに限定されるもので
はなく、音響モデル格納部18に上記第1実施の形態を
適用して作成された音響モデルが格納されていれば、音
響モデル作成部11を搭載していなくとも一向に構わな
い。尚、その際に、音響モデル格納部18に格納される
音響モデルは、周波数スペクトルが周波数軸方向に伸縮
された音響特徴量を用いる音響モデル作成方法によって
作成されたものであればよく、その作成処理手順は図2
および図3,図6のフローチャートに限定されるもので
はない。
【0089】ところで、上記第2実施の形態における音
響分析部14,音響モデル生成部15,周波数スペクトル
伸縮部16および照合部17としての機能は、プログラ
ム記録媒体に記録された音声認識プログラムによって実
現される。上記第2実施の形態における上記プログラム
記録媒体は、ROM(リード・オンリ・メモリ)(図示せず)
でなるプログラムメディアである。あるいは、外部補助
記憶装置に装着されて読み出されるプログラムメディア
であってもよい。尚、何れの場合においても、上記プロ
グラムメディアから音声認識プログラムを読み出すプロ
グラム読み出し手段は、上記プログラムメディアに直接
アクセスして読み出す構成を有していてもよいし、RA
M(ランダム・アクセス・メモリ)(図示せず)に設けられた
プログラム記憶エリアにダウンロードし、上記プログラ
ム記憶エリアにアクセスして読み出す構成を有していて
もよい。尚、上記プログラムメディアから上記RAMの
プログラム記憶エリアにダウンロードするためのダウン
ロードプログラムは、予め本体装置に格納されているも
のとする。
【0090】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)‐ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタル多用途ディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
【0091】また、上記第2実施の形態における音声認
識装置は、モデムを備えてインターネットを含む通信ネ
ットワークと接続可能に構成することもできる。その場
合における上記プログラムメディアは、通信ネットワー
クからのダウンロード等によって流動的にプログラムを
坦持する媒体であっても差し支えない。尚、その場合に
おける上記通信ネットワークからダウンロードするため
のダウンロードプログラムは、予め本体装置に格納され
ているものとする。あるいは、別の記録媒体からインス
トールされるものとする。
【0092】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
【0093】
【発明の効果】以上より明らかなように、第1の発明の
音響モデル作成方法は、音声データから音声周波数スペ
クトルを表現する音響特徴量を抽出し、上記音声データ
および音響特徴量を含む音響データの周波数スペクトル
を周波数軸方向に伸縮し、上記周波数スペクトルが伸縮
された音響データに対応する音響特徴量(上記周波数ス
ペクトルが伸縮された音声データから抽出された音響特
徴量または上記周波数スペクトルが伸縮された音響特徴
量)を含む音響特徴量を用いて音響モデルを生成するの
で、少数話者の音声データから擬似的に作成された多数
話者の音響特徴量を用いて音響モデルを作成することが
できる。したがって、音声データの収集が困難な子供を
含む不特定話者用音響モデルの統計的信頼性を向上さ
せ、子供を含む不特定話者の音声認識精度を高めること
ができる。
【0094】また、1実施例の音響モデル作成方法は、
上記周波数スペクトルが伸縮される音響データを上記音
響特徴量としたので、少数話者の音声データから擬似的
に作成された擬似音響特徴量を含む多数の音響特徴量を
用いることによって、音響モデルの統計的信頼性を向上
することができる。その際に、音声周波数スペクトルを
表現する音響特徴量に対して周波数スペクトル伸縮処理
が行われる。したがって、周波数スペクトル伸縮時にお
ける周波数スペクトル分析計算を省略することができ、
上記周波数スペクトルの伸縮を高速に行うことができ
る。
【0095】また、1実施例の音響モデル作成方法は、
上記周波数スペクトルの周波数軸方向への伸縮を、声道
長の個人差を次元数の少ないパラメータで簡潔に表現で
きるように線形に伸縮するので、声道長の個人差が反映
された擬似音響データを作成することができる。
【0096】また、1実施例の音響モデル作成方法は、
上記周波数スペクトルの周波数軸方向への伸縮を、上記
周波数軸における高域方向への伸長としたので、元の音
響データの話者よりも上記声道長が短い話者による擬似
音響データを作成することができる。したがって、例え
ば、成人女性の音響データから子供の擬似音響データを
作成することが可能になる。
【0097】また、1実施例の音響モデル作成方法は、
上記周波数スペクトルの周波数軸方向への伸縮を、1.
05倍以上且つ1.20倍以下の倍率から選択された一
つあるいは複数の倍率で行うので、成人男性の音響デー
タから成人女性の擬似音響データを作成したり、成人女
性の音響データから子供の擬似音響データを作成したり
できる。
【0098】また、1実施例の音響モデル作成方法は、
上記音響モデルの生成を、上記周波数スペクトルが伸縮
された音響特微量を用いて行うので、音響モデル作成用
音声の発話者における声道長分布域とは異なる声道長分
布域を有する話者に対して、安定した音声認識を可能に
する音響モデルを生成することができる。
【0099】また、1実施例の音響モデル作成方法は、
上記音響モデルの生成を、上記周波数スペクトルが伸縮
された成人女性の音響特徴量を用いて行うので、子供の
音響特徴量を一切用いることなく、子供の入力音声を認
識できる音響モデルを生成することができる。
【0100】また、1実施例の音響モデル作成方法は、
上記音響モデルの生成を、上記周波数スペクトルが伸縮
された音響特微量と上記周波数スペクトルが伸縮されな
い音響特微量とを用いて行うので、音響モデル作成用音
声の発話者における声道長分布域とは異なる声道長分布
域を有する話者と、上記発話者の声道長分布域に近い声
道長分布域を有する話者とに対して、安定した音声認識
を可能にする音響モデルを生成することができる。
【0101】また、1実施例の音響モデル作成方法は、
上記音響モデルの生成を、成人女性の音声データについ
ては、上記周波数スペクトルが伸縮された音響特徴量お
よび伸縮されない音響特徴量を用いて行う一方、成人女
性以外の音声データについては、上記周波数スペクトル
が伸縮されない音響特徴量のみを用いて行うので、成人
女性の音響特徴量から擬似的に子供の音響特徴量を生成
して、子供の音声データが擬似的に補強された不特定話
者用音響モデルを生成することができる。したがって、
成人男性,女性に対しても子供に対しても頑健な音声認
識性能を有する音響モデルを生成できるのである。
【0102】また、1実施例の音響モデル作成方法は、
上記周波数スペクトルの周波数軸方向への伸縮を、対象
と成る音響データが有声音の場合と有声音以外の場合と
で異なる処理を施すようにしたので、上記周波数スペク
トルの伸縮が好ましくない有声音以外の音響データに対
しては上記伸縮を行わないようにして、高品位な擬似音
響データを生成することができる。
【0103】また、1実施例の発明の音響モデル作成方
法は、上記周波数スペクトルの周波数軸方向への伸縮
を、対象と成る音響データが有声音の場合には行い、有
声音以外の場合には行わないようにしたので、上記周波
数スペクトルの伸縮が好ましくない有声音以外の音響デ
ータには上記伸縮が行われず、高品位な擬似音響データ
を生成することができる。
【0104】また、第2の発明の音声認識装置は、上記
第1の発明の音響モデル作成方法によって作成された音
響モデルを音響モデル格納部に格納し、照合手段は、音
響分析手段で入力音声データから抽出された音響特徴量
と上記音響モデル格納部に格納された音響モデルとを照
合するので、特に子供を含む不特定話者の発話内容を高
い精度で認識することができる。
【0105】また、第3の発明の音声認識装置は、音声
データから第2音響分析手段で抽出した音響特徴量の周
波数スペクトルを周波数スペクトル伸縮手段で周波数軸
方向に伸縮し、この伸縮された音響特徴量を含む上記音
響特徴量を用いて音響モデル生成手段で音響モデルを生
成して音響モデル格納部に格納し、照合手段は、第1音
響分析手段で入力音声データから抽出した音響特徴量と
上記音響モデル格納部に格納された音響モデルとを照合
するので、上記照合を、上記第1の発明の音響モデル作
成方法によって作成された音響モデルを用いて行うこと
ができる。したがって、特に子供を含む不特定話者の発
話内容を高い精度で認識することができる。
【0106】また、第4の発明の音声認識方法は、入力
された音声データから音響特徴量を抽出し、この抽出さ
れた音響特徴量と上記第1の発明の音響モデル作成方法
によって作成された音響モデルとを照合して入力音声の
発話内容を認識するので、特に子供を含む不特定話者の
発話内容を高い精度で認識することができる。
【0107】また、第5の発明の音声認識プログラム
は、コンピュータを、入力された音声データから音響特
徴量を抽出する音響分析手段と、上記第1の発明の音響
モデル作成方法によって作成された音響モデルと上記音
響特徴量とを照合する照合手段として機能させるので、
特に子供を含む不特定話者の音声に対する高い認識精度
を得ることができる。
【0108】また、第6の発明の音声認識プログラム
は、コンピュータを、上記第3の発明における第1音響
分析手段,照合手段,第2音響分析手段,周波数スペクト
ル伸縮手段および音響モデル生成手段として機能させる
ので、上記第1の発明の音響モデル作成方法によって作
成した音響モデルを音響モデル格納部に格納し、その音
響モデルを用いて、入力音声データから抽出された音響
特徴量との照合を行うことができる。したがって、特に
子供を含む不特定話者の音声に対する高い認識精度を得
ることができる。
【0109】また、第7の発明のプログラム記録媒体
は、上記第5の発明あるいは第6の発明の音声認識プロ
グラムを記録しているので、上記第5の発明あるいは第
6の発明の場合と同様に、特に子供を含む不特定話者の
音声に対する高い認識精度を得ることができる。
【図面の簡単な説明】
【図1】 この発明の音響モデル作成方法によって音響
モデルを作成する音響モデル作成装置のブロック図であ
る。
【図2】 図1に示す音響モデル作成装置によって実行
される音響モデル作成方法のフローチャートである。
【図3】 図2に示す音響モデル作成処理動作で実行さ
れる周波数スペクトル伸縮処理動作のフローチャートで
ある。
【図4】 図3に示す周波数スペクトル伸縮処理動作で
用いられる写像関数fiの一例を示す図である。
【図5】 図3に示す周波数スペクトル伸縮処理動作の
結果得られた擬似データのイメージ図である。
【図6】 図3とは異なる周波数スペクトル伸縮処理動
作のフローチャートである。
【図7】 図6に示す周波数スペクトル伸縮処理動作の
結果得られた擬似データのイメージ図である。
【図8】 この発明の音声認識装置におけるブロック図
である。
【図9】 図8における音声認識部によって実行される
音声認識処理動作のフローチャートである。
【符号の説明】
1,13…音声データ格納部、 2,14…音響分析部、 3,15…音響モデル生成部、 4,16…周波数スペクトル伸縮部、 11…音響モデル作成部、 12…音声認識部、 17…照合部、 18…音響モデル格納部。

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 音声認識に用いる音響モデルを作成する
    音響モデル作成方法であって、 音声データから音響分析手段によって音声周波数スペク
    トルを表現する音響特徴量を抽出する音響分析ステップ
    と、 上記音声データおよび音響特徴量を含む音響データの周
    波数スペクトルを、周波数スペクトル伸縮部によって周
    波数軸方向に伸縮する周波数スペクトル伸縮ステップ
    と、 上記周波数スペクトルが伸縮された音響データに対応す
    る音響特徴量を含む音響特徴量を用いて、音響モデル生
    成手段によって音響モデルを生成する音響モデル生成ス
    テップを備えたことを特徴とする音響モデル作成方法。
  2. 【請求項2】 請求項1に記載の音響モデル作成方法に
    おいて、 上記周波数スペクトル伸縮ステップにおいて周波数スペ
    クトルが伸縮される音響データは、上記音響特徴量であ
    ることを特徴とする音響モデル作成方法。
  3. 【請求項3】 請求項1に記載の音響モデル作成方法に
    おいて、 上記周波数スペクトル伸縮ステップにおける上記周波数
    スペクトルの周波数軸方向への伸縮は、線形に伸縮する
    線形伸縮であることを特徴とする音響モデル作成方法。
  4. 【請求項4】 請求項1に記載の音響モデル作成方法に
    おいて、 上記周波数スペクトル伸縮ステップにおける上記周波数
    スペクトルの周波数軸方向への伸縮は、上記周波数軸に
    おける高域方向への伸長であることを特徴とする音響モ
    デル作成方法。
  5. 【請求項5】 請求項3あるいは請求項4に記載の音響
    モデル作成方法において、 上記周波数スペクトル伸縮ステップにおける上記周波数
    スペクトルの周波数軸方向への伸縮は、1.05倍以上
    且つ1.20倍以下の倍率から選択された一つあるいは
    複数の倍率で行うことを特徴とする音響モデル作成方
    法。
  6. 【請求項6】 請求項1に記載の音響モデル作成方法に
    おいて、 上記音響モデル生成ステップにおける音響モデルの生成
    は、上記周波数スペクトルが伸縮された音響特微量を用
    いて行われることを特徴とする音響モデル作成方法。
  7. 【請求項7】 請求項3,請求項4および請求項6の何
    れか一つに記載の音響モデル作成方法において、 上記音響モデル生成ステップにおける音響モデルの生成
    は、上記周波数スペクトルが伸縮された成人女性の音響
    特徴量を用いて行われることを特徴とする音響モデル作
    成方法。
  8. 【請求項8】 請求項1に記載の音響モデル作成方法に
    おいて、 上記音響モデル生成ステップにおける音響モデルの生成
    は、上記周波数スペクトルが伸縮された音響特微量と上
    記周波数スペクトルが伸縮されない音響特微量とを用い
    て行われることを特徴とする音響モデル作成方法。
  9. 【請求項9】 請求項3,請求項4および請求項8の何
    れか一つに記載の音響モデル作成方法において、 上記音響モデル生成ステップにおける音響モデルの生成
    は、 成人女性の音声データについては、上記周波数スペクト
    ルが伸縮された音響特徴量、および、上記周波数スペク
    トルが伸縮されない音響特徴量を用いて行われる一方、
    成人女性以外の音声データについては、上記周波数スペ
    クトルが伸縮されない音響特徴量のみを用いて行われる
    ことを特徴とする音響モデル作成方法。
  10. 【請求項10】 請求項1に記載の音響モデル作成方法
    において、 上記周波数スペクトル伸縮ステップにおける上記周波数
    スペクトルの周波数軸方向への伸縮は、対象と成る音響
    データが有声音の場合と有声音以外の場合とで異なる処
    理を施すようになっていることを特徴とする音響モデル
    作成方法。
  11. 【請求項11】 請求項10に記載の音響モデル作成方
    法において、 上記周波数スペクトル伸縮ステップにおける上記周波数
    スペクトルの周波数軸方向への伸縮は、対象と成る音響
    データが有声音の場合には行い、有声音以外の場合には
    行わないようになっていることを特徴とする音響モデル
    作成方法。
  12. 【請求項12】 入力された音声データから音声周波数
    スペクトルを表現する音響特徴量を抽出する音響分析手
    段と、音響モデル格納部に格納された音響モデルと上記
    音響特徴量とを照合する照合手段とを有して、入力音声
    の発話内容を推定する音声認識装置において、 上記音響モデル格納部に格納された音響モデルは、請求
    項1乃至請求項11の何れか一つに記載の音響モデル作
    成方法によって作成された音響モデルであることを特徴
    とする音声認識装置。
  13. 【請求項13】 入力された音声データから音声周波数
    スペクトルを表現する音響特徴量を抽出する第1音響分
    析手段と、音響モデル格納部に格納された音響モデルと
    上記第1音響分析手段で抽出された音響特徴量とを照合
    する照合手段とを有して、入力音声の発話内容を推定す
    る音声認識装置において、 音声データを格納する音声データ格納手段と、 上記音声データ格納手段に格納された音声データから音
    声周波数スペクトルを表現する音響特徴量を抽出する第
    2音響分析手段と、 上記第2音響分析手段で抽出された音響特徴量の周波数
    スペクトルを周波数軸方向に伸縮する周波数スペクトル
    伸縮手段と、 上記周波数スペクトルが伸縮された音響特徴量を含む音
    響特徴量を用いて上記音響モデル格納部に格納される音
    響モデルを生成する音響モデル生成手段を備えたことを
    特徴とする音声認識装置。
  14. 【請求項14】 入力された音声データから音響分析手
    段によって音声周波数スペクトルを表現する音響特徴量
    を抽出し、 請求項1乃至請求項11の何れか一つに記載の音響モデ
    ル作成方法によって作成された音響モデルと上記抽出さ
    れた音響特徴量とを、照合手段によって照合して、入力
    音声の発話内容を推定することを特徴とする音声認識方
    法。
  15. 【請求項15】 コンピュータを、 入力された音声データから音響特徴量を抽出する音響分
    析手段と、 請求項1乃至請求項11の何れか一つに記載の音響モデ
    ル作成方法によって作成された音響モデルと上記音響特
    徴量とを照合する照合手段として機能させることを特徴
    とする音声認識プログラム。
  16. 【請求項16】 コンピュータを、 請求項13に記載の第1音響分析手段,照合手段,第2音
    響分析手段,周波数スペクトル伸縮手段および音響モデ
    ル生成手段として機能させることを特徴とする音声認識
    プログラム。
  17. 【請求項17】 請求項15あるいは請求項16に記載
    の音声認識プログラムが記録されていることを特徴とす
    るコンピュータ読出し可能なプログラム記録媒体。
JP2002057245A 2002-03-04 2002-03-04 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体 Pending JP2003255980A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002057245A JP2003255980A (ja) 2002-03-04 2002-03-04 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002057245A JP2003255980A (ja) 2002-03-04 2002-03-04 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2003255980A true JP2003255980A (ja) 2003-09-10
JP2003255980A5 JP2003255980A5 (ja) 2005-09-02

Family

ID=28667562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002057245A Pending JP2003255980A (ja) 2002-03-04 2002-03-04 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2003255980A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100912339B1 (ko) * 2007-05-10 2009-08-14 주식회사 케이티 음성 변이를 이용한 소수 화자 음성 데이터 훈련 장치 및그 방법
KR20110084402A (ko) * 2008-09-12 2011-07-22 로제타 스톤 리미티드 스피치 모델 생성 방법
US8290773B2 (en) 2008-12-26 2012-10-16 Fujitsu Limited Information processing apparatus, method and recording medium for generating acoustic model
JP2013152277A (ja) * 2012-01-24 2013-08-08 Toshiba Tec Corp 情報提供装置とそのプログラムおよび情報提供システム
WO2017088364A1 (zh) * 2015-11-26 2017-06-01 乐视控股(北京)有限公司 动态选择语音模型的语音识别方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100912339B1 (ko) * 2007-05-10 2009-08-14 주식회사 케이티 음성 변이를 이용한 소수 화자 음성 데이터 훈련 장치 및그 방법
KR20110084402A (ko) * 2008-09-12 2011-07-22 로제타 스톤 리미티드 스피치 모델 생성 방법
JP2012502327A (ja) * 2008-09-12 2012-01-26 ロゼッタ ストーン エルティーディー 音声モデルの生成方法
US8645135B2 (en) 2008-09-12 2014-02-04 Rosetta Stone, Ltd. Method for creating a speech model
KR101664815B1 (ko) * 2008-09-12 2016-10-11 로제타 스톤 엘티디. 스피치 모델 생성 방법
US8290773B2 (en) 2008-12-26 2012-10-16 Fujitsu Limited Information processing apparatus, method and recording medium for generating acoustic model
JP2013152277A (ja) * 2012-01-24 2013-08-08 Toshiba Tec Corp 情報提供装置とそのプログラムおよび情報提供システム
WO2017088364A1 (zh) * 2015-11-26 2017-06-01 乐视控股(北京)有限公司 动态选择语音模型的语音识别方法及装置

Similar Documents

Publication Publication Date Title
Erro et al. INCA algorithm for training voice conversion systems from nonparallel corpora
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP5106371B2 (ja) 話認認証の検証のための方法および装置、話者認証システム
US20070213987A1 (en) Codebook-less speech conversion method and system
US20030069729A1 (en) Method of assessing degree of acoustic confusability, and system therefor
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
Yapanel et al. A new perspective on feature extraction for robust in-vehicle speech recognition.
JP5007401B2 (ja) 発音評定装置、およびプログラム
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Helander et al. A novel method for prosody prediction in voice conversion
JP4811993B2 (ja) 音声処理装置、およびプログラム
JP2018084604A (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
Syiem et al. Comparison of Khasi speech representations with different spectral features and hidden Markov states
JP2003255980A (ja) 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
JP4753412B2 (ja) 発音評定装置、およびプログラム
JP3754613B2 (ja) 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP2002182682A (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
JP4962930B2 (ja) 発音評定装置、およびプログラム
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
Verma et al. Voice fonts for individuality representation and transformation
Manjunath et al. Improvement of phone recognition accuracy using source and system features
JP4812010B2 (ja) 音声処理装置、およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050303

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050303

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070810

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080916