JP3014177B2 - 話者適応音声認識装置 - Google Patents

話者適応音声認識装置

Info

Publication number
JP3014177B2
JP3014177B2 JP3198179A JP19817991A JP3014177B2 JP 3014177 B2 JP3014177 B2 JP 3014177B2 JP 3198179 A JP3198179 A JP 3198179A JP 19817991 A JP19817991 A JP 19817991A JP 3014177 B2 JP3014177 B2 JP 3014177B2
Authority
JP
Japan
Prior art keywords
speaker
unit
voice
speech
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3198179A
Other languages
English (en)
Other versions
JPH0540497A (ja
Inventor
徹 真田
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3198179A priority Critical patent/JP3014177B2/ja
Priority to US07/921,215 priority patent/US5375173A/en
Publication of JPH0540497A publication Critical patent/JPH0540497A/ja
Application granted granted Critical
Publication of JP3014177B2 publication Critical patent/JP3014177B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、新規話者の音声を認識
する話者適応音声認識装置に関し、特に、高い認識率を
実現できる話者適応音声認識装置に関するものである。
【0002】音声認識装置は、音声のスペクトルパター
ンと音声内容との対応関係を管理する構成を採って、音
声入力が与えられるときに、その入力された音声のスペ
クトルパターンの指す音声内容を特定していくことで音
声認識を実行していく構成を採るものであるが、この構
成に従って特定話者の音声認識は実用化できるものの、
不特定話者の音声認識は認識率が低くて実用にならない
のが現状である。これから、近年、スペクトルパターン
と音声内容との対応関係の管理データを新規話者に応じ
て変更していく構成を採ることで、不特定話者の音声認
識を実行していく話者適応音声認識装置が提案されてい
る。このような話者適応音声認識装置では、スペクトル
パターンと音声内容との対応関係の管理データをできる
限り新規話者に適合するものに変更可能とする構成にし
ていく必要がある。
【0003】
【従来の技術】図6及び図7に、従来の話者適応音声認
識装置の装置構成を図示する。図6中、1-i(i=1〜
n)は複数用意される話者テンプレートであって、それ
ぞれ別々の話者の音声のスペクトルパターンとその音声
内容との対応関係を管理するもの、2はスペクトル分析
部であって、選択用音声入力が与えられるときに、その
選択用音声入力のスペクトルパターンを算出するもの、
3は話者選択部であって、スペクトル分析部2の算出す
るスペクトルパターンと、話者テンプレート1-iに格納
されるスペクトルパターンとの類似度を算出すること
で、選択用音声入力のスペクトルパターンに最も類似す
るスペクトルパターンを格納する話者テンプレート1-i
を選択するもの、4は新規話者用テンプレートであっ
て、話者選択部3により選択された話者テンプレート1
-iの管理データを新規話者用のテンプレートとして格納
するもの、5はスペクトル分析部であって、新規話者音
声入力が与えられるときに、その新規話者音声入力のス
ペクトルパターンを算出するもの、6はスペクトル照合
部であって、スペクトル分析部5の算出するスペクトル
パターンと、新規話者用テンプレート4に格納されるス
ペクトルパターンとを照合することで、新規話者音声入
力の音声内容を認識するものである。
【0004】このように構成される図6の従来技術で
は、先ず最初に、新規話者は、選択用音声入力をスペク
トル分析部2に入力していく。このようにして、選択用
音声入力が与えられると、スペクトル分析部2は、その
選択用音声入力のスペクトルパターンを算出し、この算
出処理を受けて、話者選択部3は、この算出されたスペ
クトルパターンと、話者テンプレート1-iに格納されて
いるスペクトルパターンとの類似度を算出することで、
選択用音声入力のスペクトルパターンに最も類似するス
ペクトルパターンを格納する話者テンプレート1-iを選
択して、その話者テンプレート1-iの管理データを新規
話者用テンプレート4に格納する。
【0005】次に、新規話者は、音声認識対象となる音
声をスペクトル分析部5に入力する。このようにして、
新規話者音声入力が与えられると、スペクトル分析部5
は、その新規話者音声入力のスペクトルパターンを算出
し、この算出処理を受けて、スペクトル照合部6は、こ
の算出されたスペクトルパターンと、新規話者用テンプ
レート4に格納されるスペクトルパターンとを照合する
ことで、新規話者音声入力の音声内容を認識する。
【0006】このように、図6に示す従来技術では、別
々の特定話者に関しての話者テンプレート1-iを複数用
意して、最も新規話者に近い話者テンプレート1-iを選
択していくことで、不特定話者の音声認識を適応的に実
行していく構成を採るものである。
【0007】一方、図7中、7は1つ用意される標準話
者テンプレートであって、標準話者の音声のスペクトル
パターンとその音声内容との対応関係を管理するもの、
8はニューロンのネットワーク接続により構成されて、
ニューロン間に設定される結合係数に従って規定のデー
タ変換処理を実行するニューラルネットワークであっ
て、標準話者テンプレート7の管理するスペクトルパタ
ーンを変更するもの、9はスペクトル分析部であって、
学習用音声入力が与えられるときに、その学習用音声入
力のスペクトルパターンを算出するもの、10はニュー
ラルネットワーク8のニューロン間に設定される結合係
数を学習する学習部であって、ニューラルネットワーク
8に標準話者テンプレート7の管理するスペクトルパタ
ーンを入力するときに、ニューラルネットワーク8から
スペクトル分析部9の算出する対応のスペクトルパター
ンが出力されるようになる結合係数を学習してニューラ
ルネットワーク8に設定するもの、11は新規話者用テ
ンプレートであって、ニューラルネットワーク8により
変換される標準話者テンプレート7の管理データを新規
話者用のテンプレートとして格納するもの、12はスペ
クトル分析部であって、新規話者音声入力が与えられる
ときに、その新規話者音声入力のスペクトルパターンを
算出するもの、13はスペクトル照合部であって、スペ
クトル分析部12の算出するスペクトルパターンと、新
規話者用テンプレート11に格納されるスペクトルパタ
ーンとを照合することで、新規話者音声入力の音声内容
を認識するものである。
【0008】このように構成される図7の従来技術で
は、先ず最初に、新規話者は、学習用音声入力をスペク
トル分析部9に入力していく。このようにして、学習用
音声入力が与えられると、スペクトル分析部9は、その
学習用音声入力のスペクトルパターンを算出し、この算
出処理を受けて、学習部10は、バックプロパゲーショ
ン法等の学習アルゴリズムに従って、ニューラルネット
ワーク8のニューロン間に設定する結合係数を学習し、
この学習処理を受けて、ニューラルネットワーク8は、
標準話者テンプレート7の管理するスペクトルパターン
を変換することで新規話者用テンプレート11を生成す
る。
【0009】次に、新規話者は、音声認識対象となる音
声をスペクトル分析部12に入力する。このようにし
て、新規話者音声入力が与えられると、スペクトル分析
部12は、その新規話者音声入力のスペクトルパターン
を算出し、この算出処理を受けて、スペクトル照合部1
3は、この算出されたスペクトルパターンと、新規話者
用テンプレート11に格納されるスペクトルパターンと
を照合することで、新規話者音声入力の音声内容を認識
する。
【0010】このように、図7に示す従来技術では、標
準話者に関しての標準話者テンプレート7を1つ用意す
るとともに、この標準話者テンプレート7の管理データ
を変換するニューラルネットワーク8と、このニューラ
ルネットワーク8のデータ変換機能を学習用音声入力に
従って学習する学習部10とを用意して、標準話者テン
プレート7の管理データを新規話者の話者特性に近いも
のに変換していくことで、不特定話者の音声認識を適応
的に実行していく構成を採るものである。
【0011】
【発明が解決しようとする課題】しかしながら、図6に
示す従来技術では、新規話者が用意されている話者テン
プレート1-iで想定していない話者特性を持つ場合に
は、十分な認識率が得られないという問題点があった。
この問題点を解決するために、用意する話者テンプレー
ト1-iの個数を増やしていくという方法を採ることも考
えられるが、そのようにすると、大きなメモリ容量が必
要となり実用的でなくなるという新たな問題点がでてく
ることになる。
【0012】また、図7に示す従来技術では、ニューラ
ルネットワーク8のデータ変換機能により新規話者の話
者特性に適合する新規話者用テンプレート11を用意で
きるものの、新規話者がニューラルネットワーク8のデ
ータ変換機能でもってカバーしきれない話者特性を持つ
場合には、十分な認識率が得られないという問題点があ
った。この問題点を解決するために、ニューラルネット
ワーク8のネットワーク規模を増大させていくという方
法を採ることも考えられるが、そのようにすると、ニュ
ーロン間の結合係数を学習していくために、膨大な数の
学習用音声入力の要求を強いることになるという新たな
問題点がでてくることになる。
【0013】本発明はかかる事情に鑑みてなされたもの
であって、高い認識率を実現できる新たな話者適応音声
認識装置の提供を目的とするものである。
【0014】
【課題を解決するための手段】図1に本発明の原理構成
を図示する。図中、20-i(i=1〜n)は複数用意さ
れる話者テンプレートであって、それぞれ別々の話者の
音声の音声特徴量とその音声内容との対応関係を管理す
るもの、21-i(i=1〜n)は例えば話者テンプレー
ト20-i対応に備えられる変換部であって、設定される
パラメータに従って、話者テンプレート20-iの管理す
る音声特徴量を変換するもの、22は音声特徴量分析部
であって、学習用音声入力が与えられるときに、その学
習用音声入力の音声特徴量を算出するもの、23-i(i
=1〜n)は例えば話者テンプレート20-i対応に備え
られる学習部であって、変換部21-iにより変換される
話者テンプレート20-iの音声特徴量が、音声特徴量分
析部22により算出される対応の学習用音声入力の音声
特徴量と概略一致するようになる変換部21-iのパラメ
ータを学習して変換部21-iに設定するものである。
【0015】24は音声特徴量分析部であって、選択用
音声入力が与えられるときに、その選択用音声入力の音
声特徴量を算出するもの、25は選択部であって、音声
特徴量分析部24の算出する選択用音声入力の音声特徴
量と、変換部21-iの変換する対応の音声特徴量とを比
較することで、変換部21-iにより変換される音声特徴
量が選択用音声入力の音声特徴量に近いものを示す1つ
又は複数の話者テンプレート20-iを選択するもの、2
6は新規話者用テンプレートであって、選択部25によ
り選択された変換部21-iの変換する話者テンプレート
20-iの管理データを新規話者用のテンプレートとして
格納するもの、27は音声特徴量分析部であって、新規
話者音声入力が与えられるときに、その新規話者音声入
力の音声特徴量を算出するもの、28は音声特徴量照合
部であって、音声特徴量分析部27の算出する音声特徴
量と、新規話者用テンプレート26に格納される音声特
徴量とを照合することで、新規話者音声入力の音声内容
を認識するものである。
【0016】この構成にあって、変換部21-iは、有声
音や無声音等といった音声属性毎に設定されるパラメー
タに従って変換処理を実行し、この変換処理を受けて、
学習部23-iは、変換部21-iに設定される音声属性毎
のパラメータを学習していく構成を採ることがある。こ
の構成を採ることで、音声属性に適合した高い認識処理
を実行できることになる。また、変換部21-iは、線形
変換処理に従って変換処理を実行し、この変換処理を受
けて、学習部23-iは、線形回帰分析に従ってこの線形
変換処理のパラメータを学習していく構成を採ることが
ある。また、変換部21-iは、1つ又は複数の入力とこ
の入力に乗算されるべき内部状態値とを受け取って積和
値を得るとともに、この積和値を規定関数によって変換
して最終出力を得る基本ユニットを基本単位として、こ
の基本ユニットのネットワーク接続から構成されて、こ
れらの内部状態値をパラメータとして変換処理を実行
し、この変換処理を受けて、学習部23-iは、これらの
内部状態値を学習していく構成を採ることがある。そし
て、音声特徴量分析部24に入力される選択用音声入力
として、音声特徴量分析部22に入力される学習用音声
入力を用いる構成を採ることがある。この構成を採るこ
とで、選択用音声入力の入力処理を省略できることにな
る。
【0017】
【作用】本発明では、先ず最初に、新規話者は、学習用
音声入力を音声特徴量分析部22に入力していく。この
ようにして、学習用音声入力が与えられると、音声特徴
量分析部22は、その学習用音声入力の音声特徴量を算
出し、この算出処理を受けて、各学習部23-iは、例え
ば、変換部21-iが上述の基本ユニットの階層ネットワ
ーク接続から構成される場合には、バックプロパゲーシ
ョン法に従って、変換部21-iにより変換される話者テ
ンプレート20-iの音声特徴量が、音声特徴量分析部2
2により算出される対応の学習用音声入力の音声特徴量
と概略一致するようになる変換部21-iのパラメータを
学習し、この学習処理を受けて、変換部21-iは、学習
されたパラメータに従って対応の話者テンプレート20
-iの管理する音声特徴量を変換していく。また、各学習
部23-iは、例えば、変換部21-iが線形変換処理に従
って変換処理を実行する場合には、線形回帰分析に従っ
て、変換部21-iにより変換される話者テンプレート2
0-iの音声特徴量が、音声特徴量分析部22により算出
される対応の学習用音声入力の音声特徴量と概略一致す
るようになる線形変換処理のパラメータを学習し、この
学習処理を受けて、変換部21-iは、学習されたパラメ
ータに従って対応の話者テンプレート20-iの管理する
音声特徴量を変換していく。
【0018】次に、新規話者は、選択用音声入力を音声
特徴量分析部24に入力していく。このようにして、選
択用音声入力が与えられると、音声特徴量分析部24
は、その選択用音声入力の音声特徴量を算出し、この算
出処理を受けて、選択部25は、この算出された音声特
徴量と、変換部21-iの変換した対応の音声特徴量とを
比較することで、変換部21-iにより変換され音声特
徴量が選択用音声入力の音声特徴量に近いものを示す話
者テンプレート20-iを選択して、変換部21-iにより
変換されその話者テンプレート20-iの管理データを
新規話者用テンプレート26に格納する。
【0019】続いて、新規話者は、音声認識対象となる
音声を音声特徴量分析部27に入力する。このようにし
て、新規話者音声入力が与えられると、音声特徴量分析
部27は、その新規話者音声入力の音声特徴量を算出
し、この算出処理を受けて、音声特徴量照合部28は、
この算出された音声特徴量と、新規話者用テンプレート
26に格納される音声特徴量とを照合することで、新規
話者音声入力の音声内容を認識する。
【0020】このように、本発明では、話者テンプレー
ト20-iを複数用意するとともに、この話者テンプレー
ト20-iの管理データを変換する変換部21-iと、この
変換部21-iのデータ変換機能を学習用音声入力に従っ
て学習する学習部23-iとを用意して、各話者テンプレ
ート20-iの管理データを新規話者の話者特性に近いも
のに変換していくとともに、その変換した話者テンプレ
ート20-iの管理データの内で最も新規話者の話者特性
に近いものを音声認識用に選択していくことで、不特定
話者の音声認識を適応的に実行していく構成を採るもの
であることから、変換部21-iの規模を大きくすること
なく新規話者の音声認識を高い認識率でもって実現でき
るようになるのである。
【0021】
【実施例】以下、実施例に従って本発明を詳細に説明す
る。図2に、本発明の一実施例を図示する。図中、図1
で説明したものと同じものについては同一の記号で示し
てある。この実施例では、図1で説明した音声特徴量と
してスペクトルパターンを用いている。これから、この
実施例では、図1で説明した変換部21-i、音声特徴量
分析部22、音声特徴量分析部24、音声特徴量分析部
27、音声特徴量照合部28を、それぞれ、スペクトル
変換部21a-i、スペクトル分析部22a、スペクトル
分析部24a、スペクトル分析部27a、スペクトル照
合部28aとして開示してある。
【0022】次に、図2に示す実施例の各機能部分の備
える構成要素について詳述する。スペクトル変換部21
a-iは、話者テンプレート20-iから読み出す帯域スペ
クトルの時系列データ(スペクトルパターン)を回帰パ
ラメータを線形係数として線形変換する線形変換部21
1と、話者テンプレート20-iから読み出す帯域スペク
トルの時系列データの各時点の帯域スペクトルが有声音
か無声音か無音かを識別する音種別識別部212と、有
声音/無声音/無音毎に設定される回帰パラメータを管
理して、音種別識別部212が識別した音種別の回帰パ
ラメータを選択して線形変換部211に通知する回帰パ
ラメータ記憶部213とから構成される。すなわち、ス
ペクトル変換部21a-iは、話者テンプレート20-iに
格納される帯域スペクトルの各帯域の値x1 〜xm と、
音種別に対応付けて設定される回帰パラメータa0 〜a
m とを用いて、 yi =a0 +a1 1 +a2 2 +・・・+am m (1≦i≦m) に従って、変換後の帯域スペクトルの各帯域の値y1
m を算出していく変換処理を実行するのである。
【0023】スペクトル分析部22aは、学習用音声の
入力処理を実行する音声入力部221と、音声入力部2
21により入力された学習用音声の帯域スペクトルの時
系列データを計算する帯域スペクトル計算部222とを
備える。
【0024】学習部23-iは、帯域スペクトル計算部2
22の算出した帯域スペクトル時系列データを記憶する
帯域スペクトル時系列記憶部231と、帯域スペクトル
時系列記憶部231に記憶される帯域スペクトル時系列
データに対応付けられる話者テンプレート20-iの帯域
スペクトル時系列データを展開する帯域スペクトル時系
列記憶部232と、2つの帯域スペクトル時系列記憶部
231,232に記憶される帯域スペクトル時系列デー
タのDPマッチング処理を行って、この2つの帯域スペ
クトル時系列データの時間軸を伸縮して対応付けを行う
DPマッチング部233と、DPマッチング部233に
より対応付けられた帯域スペクトル時系列データ対の各
時点の帯域スペクトルが有声音か無声音か無音かを識別
する音種別識別部234と、音種別識別部234の識別
結果に従って、DPマッチング部233により対応付け
られた帯域スペクトル対を有声音/無声音/無音毎に記
憶する帯域スペクトル対記憶部235と、帯域スペクト
ル対記憶部235に格納される帯域スペクトル対の対応
関係を線形回帰分析に従って回帰パラメータとして算出
して、回帰パラメータ記憶部213の対応の管理領域に
格納する線形回帰分析部236とから構成される。すな
わち、学習部23-iは、話者テンプレート20-iに格納
される帯域スペクトル時系列データを学習用音声の帯域
スペクトル時系列データに変換できるようにする回帰パ
ラメータを求めて、スペクトル変換部21a-iに設定し
ていくよう処理するのである。
【0025】スペクトル分析部24aは、選択用音声の
入力処理を実行する音声入力部241と、音声入力部2
41により入力された選択用音声の帯域スペクトルの時
系列データを計算する帯域スペクトル計算部242とを
備える。
【0026】選択部25は、帯域スペクトル計算部24
2の算出した帯域スペクトル時系列データと、線形変換
部211の変換した各話者テンプレート20-iの対応の
帯域スペクトル時系列データとの距離をDPマッチング
処理に従って算出するDP距離計算部251と、DP距
離計算部251の算出した距離の内で最小の距離を示す
話者テンプレート20-iを特定して、スペクトル変換部
21a-iにより変換されるこの話者テンプレート20-i
の帯域スペクトル時系列データを新規話者用テンプレー
ト26に格納する最小距離話者選択部252とを備え
る。
【0027】スペクトル分析部27aは、音声の認識対
象となる新規話者音声の入力処理を実行する音声入力部
271と、音声入力部271により入力された新規話者
音声の帯域スペクトルの時系列データを計算する帯域ス
ペクトル計算部272とを備える。
【0028】スペクトル照合部28aは、帯域スペクト
ル計算部272の算出した帯域スペクトル時系列データ
と、新規話者用テンプレート26に格納される各帯域ス
ペクトル時系列データとの距離をDPマッチング処理に
従って算出するDP距離計算部281と、DP距離計算
部281の算出した距離の内で最小の距離を示す帯域ス
ペクトル時系列データを特定して、その特定した帯域ス
ペクトル時系列データに対応付けられる文字列を音声認
識結果として出力する最小距離検索部282とを備え
る。
【0029】次に、このように構成される実施例の音声
認識処理について説明する。音声の認識対象となる新規
話者は、先ず最初に、学習用音声を音声入力部221に
入力し、この学習用音声の入力を受けて、帯域スペクト
ル計算部222は、この学習用音声の帯域スペクトル時
系列データを計算して、帯域スペクトル時系列記憶部2
31に格納していく。このようにして、学習用音声の帯
域スペクトル時系列データが帯域スペクトル時系列記憶
部231に格納されると、DPマッチング部233は、
この帯域スペクトル時系列記憶部231に格納される帯
域スペクトル時系列データと、これに対応する話者テン
プレート20-iに格納される帯域スペクトル時系列デー
タとのDPマッチング処理を行って対応付けを行い、音
種別識別部234は、この対応付けられた帯域スペクト
ル対の音種別を識別して、その識別結果に従って、この
対応付けられた帯域スペクトル対を帯域スペクトル対記
憶部235の対応する管理領域に格納していく。
【0030】このようにして、帯域スペクトル対記憶部
235に帯域スペクトル対が格納されると、線形回帰分
析部236は、帯域スペクトル対記憶部235に格納さ
れる帯域スペクトル対の対応関係を線形回帰分析に従っ
て回帰パラメータとして算出して、回帰パラメータ記憶
部213の対応する管理領域に格納する。そして、この
回帰パラメータの格納処理を受けて、線形変換部211
は、話者テンプレート20-iから帯域スペクトル時系列
データを読み出すと、音種別識別部212の処理に従っ
て通知される回帰パラメータを用いて、その読み出した
帯域スペクトル時系列データを線形変換していく。
【0031】このようにして、スペクトル変換部21a
-iは、話者テンプレート20-iに格納される帯域スペク
トル時系列データを学習用音声に類似するものに線形変
換していくのである。
【0032】次に、新規話者は、選択用音声を音声入力
部241に入力し、この選択用音声の入力を受けて、帯
域スペクトル計算部242は、この選択用音声の帯域ス
ペクトル時系列データを計算する。この算出処理を受け
て、DP距離計算部251は、この算出された選択用音
声の帯域スペクトル時系列データと、線形変換部211
の変換した各話者テンプレート20-iの対応の帯域スペ
クトル時系列データとの距離を算出し、この算出処理を
受けて、最小距離話者選択部252は、算出された距離
の内で最小の距離を示す話者テンプレート20-iを特定
して、スペクトル変換部21a-iにより変換されるこの
話者テンプレート20-iの帯域スペクトル時系列データ
を新規話者用テンプレート26に格納していく。
【0033】このようにして、選択部25は、新規話者
の話者特性に類似する新規話者用テンプレート26を生
成していくのである。続いて、新規話者は、音声認識対
象となる新規話者音声を音声入力部271に入力し、こ
の新規話者音声の入力を受けて、帯域スペクトル計算部
272は、この新規話者音声の帯域スペクトル時系列デ
ータを計算する。この算出処理を受けて、DP距離計算
部281は、この算出された新規話者音声の帯域スペク
トル時系列データと、新規話者用テンプレート26に格
納される各帯域スペクトル時系列データとの距離を算出
し、この算出処理を受けて、最小距離検索部282は、
算出された距離の内で最小の距離を示す帯域スペクトル
時系列データを特定して、その特定した帯域スペクトル
時系列データに対応付けられる文字列を音声認識結果と
して出力していく。
【0034】このようにして、スペクトル照合部28a
は、新規話者の話者特性に類似する形態で生成された新
規話者用テンプレート26を用いて、新規話者音声の音
声認識処理を実行していくのである。
【0035】このように、本発明では、話者テンプレー
ト20-iを複数用意するとともに、この話者テンプレー
ト20-iの管理データを学習用音声に類似するものに変
換して、その変換した話者テンプレート20-iの管理デ
ータの内で最も新規話者の話者特性に近いものを用いて
音声認識処理を実行していく構成を採るものであること
から、新規話者の音声認識を高い認識率をもって実現で
きるようになるのである。
【0036】図3及び図4に、本発明の他の実施例を図
示する。ここで、図2の実施例と同じものについては同
一の記号で示してある。この図3の実施例は、選択用音
声として、帯域スペクトル時系列記憶部231に格納さ
れる学習用音声の帯域スペクトル時系列データを用いる
ことで構成される実施例である。このように、帯域スペ
クトル時系列記憶部231に格納される学習用音声の帯
域スペクトル時系列データを選択用音声の帯域スペクト
ル時系列データとして用いる構成を採ることから、この
図3の実施例では、図2の実施例で必要としたスペクト
ル分析部24aが必要なくなることになる。
【0037】一方、図4の実施例は、スペクトル変換部
21a-iをニューラルネットワーク214で構成する実
施例である。このニューラルネットワーク214は、例
えば、図5に示すように、話者テンプレート20-iから
読み出される帯域スペクトル時系列データを受け取って
分配する入力ユニット30の複数により構成される入力
層と、この入力層の後段に位置して、入力層からの1つ
又は複数の入力と、この入力に対して乗算されるべき重
み値とを受け取って積和を得るとともに、この積和値を
所定の規定関数によって変換することで最終出力を得る
基本ユニット31の複数により構成される中間層と、こ
の中間層の後段に位置して、中間層からの1つ又は複数
の入力と、この入力に対して乗算されるべき重み値とを
受け取って積和を得るとともに、この積和値を所定の規
定関数によって変換することで最終出力を得る基本ユニ
ット32の複数により構成されて、変換した帯域スペク
トル時系列データを出力する出力層とから構成される。
【0038】このニューラルネットワーク214は、各
ユニット間に割り付けられる重み値に従ってそのデータ
変換機能を変化するものであり、学習部23-iは、この
重み値の学習処理を実行するために、ニューラルネット
ワーク学習部237を備えて、話者テンプレート20-i
に格納される帯域スペクトルをニューラルネットワーク
214の入力層に提示するときに、その出力層から帯域
スペクトル記憶部235に格納される学習用音声の対応
する帯域スペクトルが出力されることになる重み値を学
習していくことになる。
【0039】
【発明の効果】以上説明したように、本発明によれば、
話者テンプレートを複数用意するとともに、この話者テ
ンプレートの管理データを学習用音声に類似するものに
変換して、その変換した話者テンプレートの管理データ
の内で最も新規話者の話者特性に近いものを用いて音声
認識処理を実行していく構成を採るものであることか
ら、新規話者の音声認識を高い認識率をもって実現でき
るようになるのである。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の一実施例である。
【図3】本発明の他の実施例である。
【図4】本発明の他の実施例である。
【図5】ニューラルネットワークの一実施例である。
【図6】従来技術の説明図である。
【図7】従来技術の説明図である。
【符号の説明】
20 話者テンプレート 21 変換部 22 音声特徴量分析部 23 学習部 24 音声特徴量分析部 25 選択部 26 新規話者用テンプレート 27 音声特徴量分析部 28 音声特徴量照合部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 15/20 G10L 3/00 539 21/02 (56)参考文献 特開 昭60−200295(JP,A) 特開 昭58−116596(JP,A) 特開 昭59−180596(JP,A) 特開 昭63−309998(JP,A) 特開 昭61−121093(JP,A) 特許2549010(JP,B2) 特許2704216(JP,B2) 特許2980382(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G10L 15/10 G06F 15/18 560 G06F 17/28 G10L 15/06 G10L 15/16 G10L 15/20 G10L 21/02 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 新規話者の音声を認識する話者適応音声
    認識装置において、 音声特徴量と音声内容との対応関係を管理する複数の話
    者テンプレートと、 設定されるパラメータに従って、上記話者テンプレート
    の管理する音声特徴量を変換する変換部と、 記変換部の変換する音声特徴量が学習用音声の持つ音
    声特徴量と概略一致するようになる上記パラメータを学
    習して上記変換部に設定する学習部と、 択用音声の持つ音声特徴量と、上記パラメータの設定
    に応じて上記変換部の変換した対応の音声特徴量とを比
    較することで、上記変換部の変換した音声特徴量が該選
    択用音声の持つ音声特徴量に近いものを示す1つ又は複
    数の上記話者テンプレートを選択する選択部とを備え、上記変換部の変換した音声特徴量の中から、上記選択部
    の選択した上記話者テンプレートに対応付けられるもの
    を選択することで新 規話者用の話者テンプレートを生成
    して、この生成される話者テンプレートを用いて新規話
    者の音声入力の持つ音声内容を認識していくように処理
    することを、 特徴とする話者適応音声認識装置。
  2. 【請求項2】 請求項1記載の話者適応音声認識装置に
    おいて、 変換部は、音声属性毎に設定されるパラメータに従って
    変換処理を実行し、 学習部は、変換部に設定される音声属性毎のパラメータ
    を学習していくよう処理することを、 特徴とする話者適応音声認識装置。
  3. 【請求項3】 請求項1又は2記載の話者適応音声認識
    装置において、 変換部は、線形変換処理に従って変換処理を実行し、 学習部は、線形回帰分析に従って、上記線形変換処理の
    パラメータを学習していくよう処理することを、 特徴とする話者適応音声認識装置。
  4. 【請求項4】 請求項1又は2記載の話者適応音声認識
    装置において、 変換部は、1つ又は複数の入力と該入力に乗算されるべ
    き内部状態値とを受け取って積和値を得るとともに、該
    積和値を規定関数によって変換して最終出力を得る基本
    ユニットを基本単位として、該基本ユニットのネットワ
    ーク接続から構成されて、該内部状態値をパラメータと
    して変換処理を実行し、 学習部は、上記内部状態値を学習していくよう処理する
    ことを、 特徴とする話者適応音声認識装置。
  5. 【請求項5】 請求項1、2、3又は4記載の話者適応
    音声認識装置において、 選択用音声入力として、学習用音声入力を用いていくよ
    う構成されてなることを、 特徴とする話者適応音声認識装置。
JP3198179A 1991-08-08 1991-08-08 話者適応音声認識装置 Expired - Fee Related JP3014177B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP3198179A JP3014177B2 (ja) 1991-08-08 1991-08-08 話者適応音声認識装置
US07/921,215 US5375173A (en) 1991-08-08 1992-07-29 Speaker adapted speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3198179A JP3014177B2 (ja) 1991-08-08 1991-08-08 話者適応音声認識装置

Publications (2)

Publication Number Publication Date
JPH0540497A JPH0540497A (ja) 1993-02-19
JP3014177B2 true JP3014177B2 (ja) 2000-02-28

Family

ID=16386794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3198179A Expired - Fee Related JP3014177B2 (ja) 1991-08-08 1991-08-08 話者適応音声認識装置

Country Status (2)

Country Link
US (1) US5375173A (ja)
JP (1) JP3014177B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3536380B2 (ja) 1994-10-28 2004-06-07 三菱電機株式会社 音声認識装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3311467B2 (ja) * 1994-03-10 2002-08-05 富士通株式会社 音声認識システム
JP3254994B2 (ja) * 1995-03-01 2002-02-12 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US6349281B1 (en) * 1997-01-30 2002-02-19 Seiko Epson Corporation Voice model learning data creation method and its apparatus
US6263309B1 (en) * 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6526379B1 (en) 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
US8918406B2 (en) 2012-12-14 2014-12-23 Second Wind Consulting Llc Intelligent analysis queue construction
US9324320B1 (en) 2014-10-02 2016-04-26 Microsoft Technology Licensing, Llc Neural network-based speech processing
KR102371697B1 (ko) * 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US9842106B2 (en) * 2015-12-04 2017-12-12 Mitsubishi Electric Research Laboratories, Inc Method and system for role dependent context sensitive spoken and textual language understanding with neural networks

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
JP2733955B2 (ja) * 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
US5175793A (en) * 1989-02-01 1992-12-29 Sharp Kabushiki Kaisha Recognition apparatus using articulation positions for recognizing a voice
US5144672A (en) * 1989-10-05 1992-09-01 Ricoh Company, Ltd. Speech recognition apparatus including speaker-independent dictionary and speaker-dependent

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3536380B2 (ja) 1994-10-28 2004-06-07 三菱電機株式会社 音声認識装置

Also Published As

Publication number Publication date
JPH0540497A (ja) 1993-02-19
US5375173A (en) 1994-12-20

Similar Documents

Publication Publication Date Title
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN110111773B (zh) 基于卷积神经网络的音乐信号多乐器识别方法
CN112562691B (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
JP5768093B2 (ja) 音声処理システム
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
CN107680582A (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN108182936A (zh) 语音信号生成方法和装置
JPS62231996A (ja) 音声認識方法
US5594834A (en) Method and system for recognizing a boundary between sounds in continuous speech
JP3014177B2 (ja) 話者適応音声認識装置
WO1996013829A1 (en) Method and system for continuous speech recognition using voting techniques
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
CN113436612B (zh) 基于语音数据的意图识别方法、装置、设备及存储介质
US20050015251A1 (en) High-order entropy error functions for neural classifiers
US5864807A (en) Method and apparatus for training a speaker recognition system
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
JP7360814B2 (ja) 音声処理装置及び音声処理プログラム
CN115762491A (zh) 一种音色转换方法、装置、电子设备及存储介质
JPH10509526A (ja) ヒドンマルコフモデルを使用して設計された決定木分類子
CN114822497A (zh) 语音合成模型的训练及语音合成方法、装置、设备和介质
JP2021189402A (ja) 音声処理プログラム、音声処理装置及び音声処理方法
CN113112969A (zh) 基于神经网络的佛教音乐记谱方法、装置、设备及介质
JPH0962644A (ja) ニューラルネットワーク
JP2980382B2 (ja) 話者適応音声認識方法および装置
CN112951270A (zh) 语音流利度检测的方法、装置和电子设备

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19991130

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071217

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081217

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees