JP2004317845A - Model data generation device, model data generation method, and method therefor - Google Patents

Model data generation device, model data generation method, and method therefor Download PDF

Info

Publication number
JP2004317845A
JP2004317845A JP2003112684A JP2003112684A JP2004317845A JP 2004317845 A JP2004317845 A JP 2004317845A JP 2003112684 A JP2003112684 A JP 2003112684A JP 2003112684 A JP2003112684 A JP 2003112684A JP 2004317845 A JP2004317845 A JP 2004317845A
Authority
JP
Japan
Prior art keywords
data
acoustic model
model unit
unit data
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003112684A
Other languages
Japanese (ja)
Inventor
Kazuya Takeda
一哉 武田
Katsunobu Ito
克亘 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya Industrial Science Research Institute
TIS Inc
Original Assignee
Nagoya Industrial Science Research Institute
TIS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya Industrial Science Research Institute, TIS Inc filed Critical Nagoya Industrial Science Research Institute
Priority to JP2003112684A priority Critical patent/JP2004317845A/en
Publication of JP2004317845A publication Critical patent/JP2004317845A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To generate a sound model from a currently existent sound model DB through statistical processing in specified environment. <P>SOLUTION: Each sound model DB is stored with phoneme HMM data. A sound model generating device 1 receives phoneme HMM data, needed to generate test data "Hello" for decision from respective sound model DBs and generates cancatenated phoneme data representing an array of "Hello" from the received phoneme data. A database such that the voice feature quantity of the concatenated phoneme data is similar to the voice feature quantity of the test data for decision is selected. Composite phoneme concatenated HMM data are generated by combining identical phoneme HMM data stored in the selected database at a certain ratio and also concatenated to generate composite phoneme concatenated HMM data, and a ratio at which an evaluation value becomes high is found. Phoneme HMM data as to all phonemes are received from the selected database and put together at the ratio to generate composite phoneme HMM data, which are regarded as a sound model in the specified environment. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、音響モデルや言語モデル等のモデルデータの生成処理に関する。
【0002】
【従来技術および発明が解決しようとする課題】
従来、音響モデルの生成については、想定される話者や環境ごとに予め定めた文章をしゃべってもらい、かかる音声データを統計的処理して生成していた。たとえば、カーナビゲーションシステムにおける音声認識のための音響モデルとしては、車の中で様々な走行状況下にて、20代〜50代の男性100人、20代〜50代の女性120人に、予め定められた文章をしゃべってもらい、かかる音声データから特徴量を抽出して、統計的処理を行ない、音響モデルを生成する。このような統計的手法を用いることにより、不特定話者における音声認識率を高めることができる。
【0003】
しかし、かかる方法では、音声認識しようとする環境ごとにて、統計的処理を行うための多数のデータ収集が必要となる。
【0004】
上記問題は、音響モデルの生成だけでなく、統計的なモデルである言語モデルについても同様に問題となる。
【0005】
この発明は、上記問題を解決し、すでに存在する音声データを用いて、ある環境下にて前記統計的処理を施した音響モデルを生成する音響モデル生成装置またはその方法を提供することを目的とする。
【0006】
また、すでに存在する言語データを用いて、ある環境下にて前記統計的処理を施した言語モデルを生成する言語モデル生成装置またはその方法を提供することを目的とする。
【0007】
また、すでに存在するモデルデータを用いて、ある環境下にて前記統計的処理を施したモデルデータを生成するモデルデータ生成装置またはその方法を提供することを目的とする。
【0008】
【課題を解決するための手段および発明の効果】
1)本発明にかかる音響モデル生成方法は、特定環境下における音素HMMデータを生成する音響モデル生成方法であって、1)音素HMMデータを記憶する複数の候補データ記憶装置とネットワーク接続し、2)音響データとその表記文字列で構成された前記特定環境下における判断用テストデータが与えられると、前記各候補データ記憶装置から、記憶された音素HMMデータのうち前記表記文字列に対応する音素HMMデータを受け取り、この音素HMMデータを連結して生成した音素連結HMMデータと、前記判断用テストデータの音響データとの類似度を判断し、3)前記得られた類似度に基づいて、前記候補データ記憶装置から選択済み候補データ記憶装置を複数特定し、4)前記各選択済み候補データ記憶装置に記憶された音素HMMデータを音素別に2以上組み合わせた場合に、前記判断用テストデータの表記文字列に対応する音素連結HMMデータについて、より類似度の高くなる合成割合を求め、5)この合成割合で前記各選択済み候補データ記憶装置に記憶された音素HMMデータを合成させた合成音素HMMデータを、前記特定環境下における音響モデルとして生成する。
【0009】
このように、前記受け取った音素HMMデータを連結して生成した音素連結HMMデータと、前記判断用テストデータの音響データとの類似度を判断して選択済み候補データ記憶装置を決定し、さらに、前記複数の選択済み候補データ記憶装置から抽出した音素HMMをある合成割合で合成させた場合に、前記判断用テストデータとの類似度がより高くなる合成割合を求めて、かかる割合を用いて新たな音響モデルを生成している。したがって、前記特定環境下における音響データを前記判断に必要な程度収集することにより、すでに候補データ記憶装置に記憶された音素HMMデータを用いて、統計的処理済み音響モデルを得ることができる。
【0010】
2)本発明にかかる音響モデル生成方法は、特定環境下における統計的処理済み音響モデルを生成する音響モデル生成方法であって、以下の各ステップを備えている。1)ネットワーク接続されている複数のデータ記憶装置から選択済み候補データ記憶装置を特定するステップであって、音響データとその表記文字列で構成された前記特定環境下における判断用テストデータと、各データ記憶装置に記憶された前記判断用テストデータの表記文字列に対応する音響モデル単位データとの適合度から、選択済み候補データ記憶装置を特定する選択ステップ、2)前記選択済み候補データ記憶装置に記憶された音響モデル単位データを単位データごとに2以上組み合わせた合成音響モデル単位データについて、前記判断用テストデータの表記文字列に対応する連結音響モデル単位データとの類似度がより高くなる組合せ比率を決定する組合せ比率決定ステップ、3)前記選択済み候補データ記憶装置から全音響モデル単位データを受け取って、前記決定した組合せ比率で合成させた合成音響モデル単位データを前記特定環境下における統計的処理済み音響モデルとして生成する生成ステップ。
【0011】
このように、前記受け取った音響モデル単位データを連結して生成した音響モデル単位連結データと、前記判断用テストデータの音響データとの類似度を判断して選択済み候補データ記憶装置を決定し、さらに、複数の選択済み候補データ記憶装置から抽出した音響モデル単位データをある合成割合で合成させた場合に、前記判断用テストデータとの類似度がより高くなる合成割合を求めて、かかる割合を用いて新たな音響モデルを生成している。したがって、前記特定環境下における音響データを前記判断に必要な程度収集することにより、統計的処理済み音響モデルを得ることができる。
【0012】
3)本発明にかかる音響モデル生成方法は、前記データ記憶装置は音響モデル単位データを生成するための基礎データを記憶しており、音響モデル単位データ生成要求が与えられると、これを生成して記憶する。したがって、予め音響モデル単位データをデータ化していない場合に、要求された音響モデル単位データだけを生成することができる。
【0013】
4)本発明にかかる音響モデル生成方法においては 前記音響モデル単位データは、少なくとも、当該音素に対する特徴ベクトルの平均値および分散値を含んでおり、前記組合せ比率決定ステップでは、前記表記文字列に対応する音素の特徴ベクトルごとに平均値および分散値を合成する。したがって、前記特徴ベクトルの平均値および分散値を用いた統計的処理済みデータを得ることができる。
【0014】
5)本発明にかかる音響モデル生成装置は、特定環境下における統計的処理済み音響モデルを生成する音響モデル生成装置であって、1)ネットワーク接続されている複数の候補データ記憶装置から選択済み候補データ記憶装置を特定する手段であって、音響データとその表記文字列で構成された前記特定環境下における判断用テストデータの適合度を前記各候補データ記憶装置に記憶された音響モデル単位データを用いて演算した場合の適合度から、選択対象とするデータ記憶装置を特定する選択済み候補決定手段、2)前記各候補データ記憶装置に記憶された音響モデル単位データを単位データごとに2以上組み合わせた場合に、前記判断用テストデータの表記文字列に対応する音響データについて、前記選択済み候補データ記憶装置に記憶された音響モデル単位データによって演算された適合度よりも高くなる選択済み候補データ記憶装置の組合せの割合を決定する組合せ割合決定手段、3)前記選択済み候補データ記憶装置から全音響モデル単位データを受け取って、前記決定した組合せ比率で合成させた合成音響モデル単位データを前記特定環境下における統計的処理済み音響モデルとして生成する音響モデル生成手段を備えている。
【0015】
このように、各候補データ記憶装置から抽出した音響モデル単位データをある合成割合で合成させた場合に、前記判断用テストデータとの適合度がより高くなる選択済み候補データ記憶装置の組合せの割合を決定して、かかる割合を用いて新たな音響モデルを生成することにより、前記特定環境下における音響データを前記判断に必要な程度収集することにより、統計的処理済み音響モデルを得ることができる。
【0016】
6)本発明にかかる音響モデル生成装置は、特定環境下における音響モデル単位データを生成する音響モデル生成装置であって、1)音響データとその表記文字列で構成された前記特定環境下における判断用テストデータを記憶する判断用テストデータ記憶手段、2)複数の選択済み候補データ記憶装置から、判断用テストデータの前記表記文字列に対応する音響モデル単位データを取得する音響モデル単位データ取得手段、3)前記複数選択済み候補データ記憶装置から取得した音響モデル単位データについて、同じ音響モデル単位で音響モデル単位データを、所定の合成割合で合成して合成音響モデル単位データを生成し、これを連結して生成した連結音響モデル単位データについて、前記判断用テストデータの音響データとの適合度を演算し、適合度がより高くなる合成割合を決定する合成割合決定手段、4)前記合成割合に基づき、前記選択済み候補データ記憶装置から全音響モデル単位データを受け取って、前記決定した合成割合で合成させた合成音響モデル単位データを前記特定環境下における音響モデルとして生成する生成手段を備えている。
【0017】
このように、複数の選択済み候補データ記憶装置から抽出した音響モデル単位データをある合成割合で合成させた場合に、前記判断用テストデータとの類似度がより高くなる合成割合を求めて、かかる割合を用いて新たな音響モデルを生成する。したがって、前記特定環境下における音響データを前記判断に必要な程度収集することにより、統計的処理済み音響モデルを得ることができる。
【0018】
7)本発明にかかる音響モデル生成装置は、ネットワーク接続されている複数の候補データ記憶装置から、前記判断用テストデータの表記文字列を構成するための音響モデル単位データを連結して生成される連結音響モデル単位データとの適合度から、前記選択済み候補データ記憶装置を特定する。したがって、前記判断用テストデータとの適合度に応じて前記選択済み候補データ記憶装置をとくていすることができる。
【0019】
8)本発明にかかる音響モデル生成装置においては、前記判断用テストデータにはその属性を示す属性データが付加されており、ネットワーク接続されている複数の候補データ記憶装置に記憶されている音響モデルの属性を示す属性データとの合致度に基づいて、前記選択済み候補データ記憶装置を特定する。したがって、前記選択済み候補データ記憶装置の特定を迅速に行うことができる。
【0020】
9)本発明にかかる音響モデル生成装置においては、前記複数の候補データ記憶装置から、前記判断用テストデータの表記文字列を構成するための音響モデル単位データを受け取って、これを連結して連結音響モデル単位データを生成する。したがって、前記候補データ記憶装置は判断に必要な一部の音響モデル単位データ出力するだけで、選択するか否かを判断することができる。
【0021】
10)本発明にかかる音響モデル生成装置においては、前記複数の候補データ記憶装置に、前記判断用テストデータを与え、各候補データ記憶装置に記憶されている音響モデル単位データを用いて評価した場合評価値を受け取って、前記選択済み候補データ記憶装置を特定する。したがって、前記候補データ記憶装置は選択対象とされるか否かを決定する段階では、音響モデル単位データ出力することなく、これを判断することができる。
【0022】
11)本発明にかかる言語モデル生成装置は、特定環境下における統計的処理済み言語モデルを生成する言語モデル生成装置であって、1)前記特定環境下における判断用テストデータを記憶する判断用テストデータ記憶手段、2)複数の選択済み候補データ記憶装置から、前記判断用テストデータに含まれる言語モデル単位データを取得する言語モデル単位データ取得手段、3)前記選択済み候補データ記憶装置から取得した言語モデル単位データについて、同じ言語モデル単位データをある合成割合で合成して合成言語モデル単位データを生成し、前記判断用テストデータにおける出現頻度を演算し、適合度がより高くなる合成割合を決定する合成割合決定手段、4)前記合成割合に基づき、前記選択済み候補データ記憶装置から全言語モデル単位データを受け取って、前記決定した合成割合で合成させた合成言語モデル単位データを前記特定環境下における言語モデルとして生成する。
【0023】
このように、複数の選択済み候補データ記憶装置から抽出した言語モデル単位データをある合成割合で合成させた場合に、前記判断用テストデータとの類似度がより高くなる合成割合を求めて、かかる割合を用いて新たな言語モデルを生成する。したがって、前記特定環境下における言語データを前記判断に必要な程度収集することにより、統計的処理済み言語モデルを得ることができる。
【0024】
12)本発明にかかるモデルデータ生成装置は、特定環境下における統計的処理済みモデルデータを生成するモデルデータ生成装置であって、1)前記特定環境下における判断用テストデータを記憶する判断用テストデータ記憶手段、2)選択済み候補データ記憶装置から、前記判断用テストデータに含まれるモデル単位データを取得するモデル単位データ取得手段、3)前記選択済み候補データ記憶装置から取得したモデル単位データについて、同じモデル単位データをある合成割合で合成して合成モデル単位データを生成し、前記判断用テストデータとの適合度を演算し、適合度がより高くなる合成割合を決定する合成割合決定手段、4)前記合成割合に基づき、前記選択済み候補データ記憶装置から全モデル単位データを受け取って、前記決定した合成割合で合成させた合成モデル単位データを前記特定環境下における統計的処理済みモデルデータとして生成する。
【0025】
このように、複数の選択済み候補データ記憶装置から抽出したモデル単位データをある合成割合で合成させた場合に、前記判断用テストデータとの類似度がより高くなる合成割合を求めて、かかる割合を用いて新たな統計的処理済みモデルを生成する。したがって、前記特定環境下におけるデータを前記判断に必要な程度収集することにより、統計的処理済みモデルデータを得ることができる。
【0026】
13)本発明にかかる言語モデル生成装置は、特定環境下における統計的処理済み言語モデルを生成する言語モデル生成装置であって、1)前記特定環境下における判断用テストデータを記憶する判断用テストデータ記憶手段、2)選択済み候補データ記憶装置から、前記判断用テストデータに含まれる言語モデル単位データを取得する言語モデル単位データ取得手段、3)前記取得した言語モデル単位データを取得対象言語モデル単位データとして、これと同じ言語モデル単位データについての出現頻度を前記選択済み候補データ記憶装置から取得し、各言語モデル単位データについて、これらをある合成割合で合成して合成言語モデル単位データの出現頻度演算し、前記判断用テストデータにおける出現頻度との適合度を演算し、適合度がより高くなる合成割合を決定する合成割合決定手段、4)前記合成割合に基づき、前記選択済み候補データ記憶装置から全言語モデル単位データを受け取って、前記決定した合成割合で合成させた合成言語モデル単位データを前記特定環境下における言語モデルとして生成する。
【0027】
このように、複数の選択済み候補データ記憶装置から抽出した言語モデル単位データをある合成割合で合成させた場合に、前記判断用テストデータとの適合度がより高くなる合成割合を求めて、かかる割合を用いて新たな言語モデルを生成する。したがって、前記特定環境下における言語データを前記判断に必要な程度収集することにより、統計的処理済み言語モデルを得ることができる。
【0028】
14)本発明にかかるプログラムは、特定環境下における統計的処理済みモデルデータを生成する音響モデル生成プログラムであって、コンピュータに以下の処理を実行させるためのプログラムである。1)音響データとその表記文字列で構成された前記特定環境下における判断用テストデータについて、複数の選択済み候補データ記憶装置から、判断用テストデータの前記表記文字列に対応する音響モデル単位データを取得し、2)前記複数選択済み候補データ記憶装置から取得した音響モデル単位データについて、同じ音響モデル単位で音響モデル単位データをある合成割合で合成して合成音響モデル単位データを生成し、これを連結して生成した連結音響モデル単位データについて、前記判断用テストデータの音響データとの適合度を演算し、適合度がより高くなる合成割合を決定し、3)前記合成割合に基づき、前記選択済み候補データ記憶装置から全音響モデル単位データを受け取って、前記決定した合成割合で合成させた合成音響モデル単位データを前記特定環境下における音響モデルとして生成する。
【0029】
このように、複数の選択済み候補データ記憶装置から抽出した音響モデル単位データをある合成割合で合成させた場合に、前記判断用テストデータとの適合度がより高くなる合成割合を求めて、かかる割合を用いて新たな音響モデルを生成する。したがって、前記特定環境下における音響データを前記判断に必要な程度収集することにより、統計的処理済み音響モデルを得ることができる。
【0030】
15)本発明にかかるプログラムは、特定環境下における統計的処理済みモデルデータを生成するモデルデータ生成プログラムであって、コンピュータに以下の処理を実行させるためのプログラム、1)選択済み候補データ記憶装置から、記憶した前記特定環境下における判断用テストデータに含まれるモデル単位データを取得し、2)前記選択済み候補データ記憶装置から取得したモデル単位データについて、同じモデル単位データをある合成割合で合成して合成モデル単位データを生成し、前記判断用テストデータとの適合度を演算し、適合度がより高くなる合成割合を決定し、3)前記合成割合に基づき、前記選択済み候補データ記憶装置から全モデル単位データを受け取って、前記決定した合成割合で合成させた合成モデル単位データを前記特定環境下における統計的処理済みモデルデータとして生成する。
【0031】
このように、複数の選択済み候補データ記憶装置から抽出した言語モデル単位データをある合成割合で合成させた場合に、前記判断用テストデータとの類似度がより高くなる合成割合を求めて、かかる割合を用いて新たな言語モデルを生成する。したがって、前記特定環境下における言語データを前記判断に必要な程度収集することにより、統計的処理済み言語モデルを得ることができる。
【0032】
16)本発明にかかるプログラムは、特定環境下における統計的処理済みモデルデータを生成する音響モデル生成プログラムであって、コンピュータに以下の処理を実行させるためのプログラムであり、1)音響データとその表記文字列で構成された前記特定環境下における判断用テストデータについて、複数の候補データ記憶装置から、判断用テストデータの前記表記文字列に対応する音響モデル単位データを取得し、2)前記複数の候補データ記憶装置から取得した音響モデル単位データについて、同じ音響モデル単位で音響モデル単位データをある合成割合で合成して合成音響モデル単位データを生成し、これを連結して生成した連結音響モデル単位データについて、前記判断用テストデータの音響データとの適合度を演算し、適合度がより高くなる合成割合を決定し、3)前記合成割合に基づき、前記候補データ記憶装置から全音響モデル単位データを受け取って、前記決定した合成割合で合成させた合成音響モデル単位データを前記特定環境下における音響モデルとして生成する。このように、複数の候補データ記憶装置から抽出した音響モデル単位データをある合成割合で合成させた場合に、前記判断用テストデータとの適合度がより高くなる合成割合を求めて、かかる割合を用いて新たな音響モデルを生成する。したがって、前記特定環境下における音響データを前記判断に必要な程度収集することにより、統計的処理済み音響モデルを得ることができる。
【0033】
17)本発明にかかる音響モデル生成装置は特定環境下における音響モデル単位データを生成する音響モデル生成装置であって、1)音響データとその表記文字列で構成された前記特定環境下における判断用テストデータを記憶する判断用テストデータ記憶手段、2)複数の選択済み候補データ記憶装置から、判断用テストデータの前記表記文字列に対応する音響モデル単位データを取得する音響モデル単位データ取得手段、3)前記複数選択済み候補データ記憶装置から取得した音響モデル単位データについて、同じ音響モデル単位で音響モデル単位データを、所定の合成割合で合成して合成音響モデル単位データを生成し、これを連結して生成した連結音響モデル単位データについて、前記判断用テストデータの音響データとの適合度を演算し、適合度がより高くなる合成割合を決定する合成割合決定手段、4)前記合成割合に基づき、前記選択済み候補データ記憶装置から全音響モデル単位データを受け取って、前記決定した合成割合で合成させた合成音響モデル単位データを前記特定環境下における音響モデルとして生成する生成手段、5)前記生成された音響モデルを記憶する生成音響モデル記憶手段、6)新たに与えられた判断用テストデータについて、前記生成音響モデル記憶手段に記憶した生成音響モデルとの合致度を演算し、所定のしきい値を越える場合には、当該生成音響モデルを前記特定環境下における音響モデルのデータとして出力する音響モデル出力手段を備えている。したがって、すでに生成した音響モデルデータをそのまま、当該特定環境下における音響モデルデータとして出力することができる。
【0034】
18)本発明にかかる音響モデル生成方法は、特定環境下における音響モデル単位データを生成する音響モデル生成方法であって、1)音響データとその表記文字列で構成された前記特定環境下における判断用テストデータが与えられると、前記表記文字列に対応する音響モデル単位データを生成するために、各候補データ記憶装置に記憶された音響データから抽出される所定のパラメータデータまたはパラメータデータを統計的処理を行った統計データを取得し、この音響モデル単位データを連結して生成した連結音響モデル単位データと、前記判断用テストデータの音響データとの類似度を判断して、選択済み候補データ記憶装置を複数特定し、2)前記得られた類似度に基づいて、前記候補データ記憶装置から選択済み候補データ記憶装置を複数特定し、3)前記各選択済み候補データ記憶装置に記憶された音響モデル単位データを音素別に2以上組み合わせた場合に、前記判断用テストデータの表記文字列に対応する連結音響モデル単位データについて、より類似度の高くなる合成割合を求め、4)この合成割合で前記各選択済み候補データ記憶装置に記憶された音響データから抽出される所定のパラメータデータまたはパラメータデータを統計的処理を行った統計データを取得し、前記音響モデル単位データを生成するとともに、これらの音響モデル単位データを合成させた合成音響モデル単位データを生成して、前記特定環境下における音響モデルとして出力する。
【0035】
このように、合成対象とするか否かの決定段階では一部のデータについての合致度を判断するためのデータを受け取り、合成対象と決定すると、当該候補データ記憶装置から全音響モデル単位データを受け取ることにより、現実に音響モデルを生成する候補データ記憶装置からだけ、音響モデル単位データを受け取る。これにより使用に応じた課金が可能となる。また、候補データ記憶装置からは、音響データではなく、かかる音響データから抽出される所定のパラメータデータまたはパラメータデータを統計的処理を行った統計データである。これにより、プライバシーがまもれるとともに、データ記憶装置に記憶されたデータの目的外使用の問題も防止できる。
【0036】
19)本発明にかかる言語モデル生成方法は、特定環境下における統計的処理済み言語モデルを生成する言語モデル生成方法であって、1)前記特定環境下における判断用テストデータが与えられると、各候補データ記憶装置から前記判断用テストデータに含まれる言語モデル単位データを生成するための所定のパラメータデータまたはパラメータデータを統計的処理を行った統計データを取得し、2)生成した言語モデル単位データと、前記判断用テストデータに存在する言語モデル単位データの出現頻度の類似度を判断して、選択済み候補データ記憶装置を複数特定し、3)前記各選択済み候補データ記憶装置から抽出したデータから生成された言語モデル単位データを、言語モデル単位データ別に2以上組み合わせた場合に、前記判断用テストデータに存在する言語モデル単位データとの類似度が、より高くなる合成割合を求め、4)前記各選択済み候補データ記憶装置に記憶された全データについての所定のパラメータデータまたはこれらのパラメータデータを統計的処理を行った統計データを受け取り、これらを前記合成割合で合成した合成言語モデル単位データを前記特定環境下における言語モデルとして生成する。
【0037】
このように、合成対象とするか否かの決定段階では一部のデータについての合致度を判断するためのデータを受け取り、合成対象と決定すると、当該候補データ記憶装置から全言語モデル単位データを受け取ることにより、現実に言語モデルを生成する候補データ記憶装置からだけ、言語モデル単位データを受け取る。これにより使用に応じた課金が可能となる。また、候補データ記憶装置からは、言語データではなく、かかる言語データから抽出される所定のパラメータデータまたはパラメータデータを統計的処理を行った統計データである。これにより、プライバシーがまもれるとともに、データ記憶装置に記憶されたデータの目的外使用の問題も防止できる。
【0038】
20)本発明にかかる統計的処理済みモデルデータの生成方法は、特定環境下における統計的処理済みモデルデータを生成するモデルデータ生成方法であって、1)前記特定環境下における判断用テストデータが与えられると、各候補データ記憶装置から、合成対象とするか否かの決定するために、前記判断用テストデータとの合致度を演算するのに必要な一部のデータのみを所定のパラメータ形式のデータまたはかかるパラメータ形式のデータを統計的処理したデータとして受け取り、前記判断用テストデータとの合致度を演算して、選択済み候補データ記憶装置を複数特定し、2)前記各選択済み候補データ記憶装置から抽出したデータから生成されたモデル単位データを、モデル単位データ別に2以上組み合わせた場合に、前記判断用テストデータのモデル単位データとの類似度が、より高くなる合成割合を求め、3)前記各選択済み候補データ記憶装置に記憶された全データについての所定のパラメータデータまたはこれらのパラメータデータを統計的処理を行った統計データを受け取り、これらを前記合成割合で合成した合成モデル単位データを前記特定環境下におけるモデルデータとして生成する。
【0039】
このように、合成対象とするか否かの決定段階では一部のデータについての合致度を判断するためのデータを受け取り、合成対象と決定すると、当該候補データ記憶装置から全モデル単位データを受け取ることにより、現実にモデルデータを生成する候補データ記憶装置からだけ、モデル単位データを受け取る。これにより使用に応じた課金が可能となる。また、候補データ記憶装置からは、モデルデータの元となる生データではなく、かかる生データから抽出される所定のパラメータデータまたはパラメータデータを統計的処理を行った統計データである。これにより、プライバシーがまもれるとともに、データ記憶装置に記憶されたデータの目的外使用の問題も防止できる。
【0040】
21)本発明にかかる音響モデル出力装置は、特定環境下における音響モデル単位データを生成する音響モデル出力装置であって、1)前記取得した複数の音響モデル単位データについて、同じ音響モデル単位で音響モデル単位データをある割合で合成して合成音響モデル単位データを生成し、これらを前記表記文字列の順序で連結して、連結音響モデル単位データを生成し、連結音響モデル単位データと前記判断用テストデータとの適合度を求める適合度演算手段、2)前記割合をあらかじめ定められた割合決定規則に基づいて、変更して、より適合する割合を決定する割合決定手段、3)前記合成割合に基づき、前記選択済み候補データ記憶装置に記憶されている全音響モデル単位データまたはこれを生成するための基礎データを受け取って、前記決定した合成割合で合成させた合成音響モデル単位データを生成して、前記特定環境下における音響モデルとして出力する出力手段を備えている。
【0041】
このように、複数の選択済み候補データ記憶装置から抽出した音響モデル単位データをある合成割合で合成させた場合に、前記判断用テストデータとの類似度がより高くなる合成割合を求めて、かかる割合を用いて新たな音響モデルを生成する。したがって、前記特定環境下における音響データを前記判断に必要な程度収集することにより、統計的処理済み音響モデルを得ることができる。
【0042】
以下、本明細書において用いた用語の意義について説明する。
【0043】
「音響モデル単位データ」とは、実施形態では音素HMMデータが該当するが、サブワード単位のデータを含む。サブワード単位とは、たとえば、音節単位、音素対、半音節等で表されたデータを含む。また、音素HMMデータ以外でも、個々のデータを組み合わせることにより、音響データを生成できる単位データを含む。
【0044】
「合成音響モデル単位データ」とは、音響モデル単位データを単位別に1または2以上合成することにより得られた音響モデル単位データをいう。ここで、合成とは、合成割合が1:0である場合を含む。すなわち、合成割合の演算で2以上データベースの合成割合が1:0である場合がもっとも高い場合には、当該「1」に該当するデータベースから抽出したモデル単位データ自体が合成モデル単位データとなる。言語モデルの場合も同様である。
【0045】
「音素HMMデータ」とは、実施形態ではトライフォン形式で各音素について、特徴量を統計的なデータ化をおこなった場合について説明したが、音素についての特徴量を統計的に表したものを含む。
【0046】
「判断用テストデータ」とは、目的とする環境下で収集した典型的なデータであり、統計的データにまで至らない程度の典型データをいう。
【0047】
「音素連結HMMデータ」とは、音素HMMデータを連結して得られるデータをいう。
【0048】
「選択済み候補データ記憶装置」とは、候補データ記憶装置のうち、重みづけのための係数の演算処理を行う対象となるものをいう。
【0049】
「音素HMMデータを音素別に2以上組み合わせる」とは、異なる候補データベースから、同じ音素に関する音素HMMデータについての統計的データを合成することをいう。
【0050】
「合成音素HMMデータ」とは、音素HMMデータを音素別に2以上組み合わせることにより得られた音素HMMデータをいう。
【0051】
「連結音響モデル単位データ」とは、音響モデル単位データを連結させて生成した音響モデル単位データの集合データをいう。
【0052】
「音響モデル単位データを生成するための基礎データ」とは、生の音声データはもちろん、これらから抽出した特徴量を含み、統計的処理がなされていないデータをいう。
【0053】
「属性データ」とは、たとえば、50台の男性とか、当該データベースに記憶されている音響モデルデータまたはその基礎データに関する属性データをいう。
【0054】
「音響モデル単位データを取得する」とは、当該データ記憶装置が記憶されているデータから音響モデル単位データを生成してこれを受け取る場合はもちろん、当該データ記憶装置に記憶されているデータを受け取り、これに基づいて、自らが音響モデル単位データを生成する場合も含む。また、後者の場合、当該データ記憶装置に記憶されている音声データである場合には、これらについての所定のパラメータの値またはこれらのパラメータの統計的処理をしたデータで受け取ることができる。
【0055】
【発明の実施の形態】
〔1.概略および機能ブロックの説明〕
本発明の一実施形態を図面に基づいて説明する。図1に、本発明にかかる音響モデル生成装置1の機能ブロック図を示す。音響モデル生成装置1は、特定環境下における統計的処理済み音響モデルを生成する装置である。図1に示すように、複数の音響モデルデータベース9a〜9nと接続されており、抽出先決定手段3、組合せ割合決定手段5、音響モデル生成手段7を備えている。
【0056】
各音響モデルデータベース9a〜9nには、音素別に統計的処理がなされた音響モデルデータが記憶されている。
【0057】
抽出先決定手段3は、音響データとその表記文字列で構成された特定環境下判断用テストデータの適合度を、各音響モデルデータベース9a〜9nに記憶された音響モデル単位データを用いて適合度を演算して、選択候補とする音響モデルデータベースを特定する。組合せ割合決定手段5は、各候補音響モデルデータベースに記憶された音響モデル単位データを単位データごとに2以上組み合わせた場合に、前記判断用テストデータの表記文字列に対応する音響データについて、前記演算された適合度よりも高くなる音響モデルデータベースの組合せの割合を決定する。音響モデル生成手段7は、前記組合せ候補の音響モデルデータベースから全音響モデル単位データを受け取って、前記決定した組合せ比率で合成させた音響モデル単位データを前記特定環境下における統計的処理済み音響モデルとして生成する。
【0058】
〔2.ハードウェア構成〕
図1に示す音響モデル生成装置1のハードウェア構成について図2を用いて説明する。図2は、音響モデル生成装置1をCPUを用いて構成したハードウェア構成の一例である。
【0059】
音響モデル生成装置1は、CPU23、メモリ27、ハードディスク26、CRT30、CDD(CDROMドライブ)25、入力デバイス28、通信部32およびバスライン29を備えている。CPU23は、ハードディスク26に記憶されたプログラムにしたがいバスライン29を介して、各部を制御する。なお、オペレーティングシステムとしては、例えば、Linux(商標)等を採用すればよい。
【0060】
ハードディスク26には、後述する生成プログラムが記憶されている。このプログラムは、CDD25を介して、プログラムが記憶されたCDROM25aから読み出されてハードディスク26にインストールされたものである。なお、CDROM以外に、フレキシブルディスク(FD)、ICカード等のプログラムをコンピュータ可読の記録媒体から、ハードディスクにインストールさせるようにしてもよい。さらに、通信回線を用いてダウンロードするようにしてもよい。
【0061】
本実施形態においては、プログラムをCDROMからハードディスク26にインストールさせることにより、CDROMに記憶させたプログラムを間接的にコンピュータに実行させるようにしている。しかし、これに限定されることなく、CDROMに記憶させたプログラムをCDD25から直接的に実行するようにしてもよい。なお、コンピュータによって、実行可能なプログラムとしては、そのままのインストールするだけで直接実行可能なものはもちろん、一旦他の形態等に変換が必要なもの(例えば、データ圧縮されているものを、解凍する等)、さらには、他のモジュール部分と組み合わせて実行可能なものも含む。
【0062】
ハードディスク26は、あらかじめ検索対象のデータベースを特定するためのデータベース特定情報記憶部26t、重みづけ決定規則記憶部26k、プログラム記憶部26pが記憶されている。本実施形態においては、データベース特定情報として、URLを採用した。プログラム記憶部に記憶されたプログラムおよび重みづけ決定規則については後述する。
【0063】
通信部32はインターネットまたはイントラネットなどネットワーク接続された他のコンピュータとの間でデータ伝送処理を行う。
【0064】
音響モデル生成装置1に接続された各音響モデルデータベース9a〜9nについて説明する。各音響モデルデータベース9a〜9nには、音響モデルデータが記憶されている。本実施形態においては、音響モデルデータとして、各音素ごとに、トライフォン形式のHMM形式のデータ(以下音素HMMデータという)を採用した。トライフォン形式とは、同じ音素「こ」でも前後の音素によって特徴量が異なるので、前後の音素ごとに別データとして区分する形式をいう。たとえば、「こ」「ん」「に」「ち」「は」における各音素は、「−/k/o」,「/k/o/n」, 「o/n/n」, 「n/n/i」, 「n/i/ch」, 「i/ch/i」, 「ch/i/w」, 「i/w/a/」, 「w/a/−」で表される。なお、音素「−/k/o」における「−」は無音であることを表している。
【0065】
前記音素HMMデータについて図3を用いて説明する。音素HMMデータは、所定の特徴量を要素とするベクトルで表される。本実施形態においては、特徴ベクトルの要素として、短時間スペクトル分析を行った結果得られる振幅スペクトル,振幅スペクトルの対数値である対数振幅スペクトル,対数振幅スペクトル値の逆コサイン変換値であるケプストラム係数値,およびそれらの時間変化を回帰分析することで得られるデルタパラメータを採用した。各要素は、その平均値、分散値、自己ループ確率、状態遷移確率で表される。
【0066】
本実施形態においては、短時間スペクトル分析を、10msごとに20msの分析時間に渡って実行したが、かかる分析時間については特に限定されない。
【0067】
〔3.処理の概要〕
1)各データベースには予め、トライフォン形式で音素ごとに音素HMMデータが記憶されている。
【0068】
2)音響モデル生成装置は、判断用テストデータを構成する音素の音素HMMデータを受け取る要求を、各候補データベースに与える。たとえば、判断用テストデータが「こんにちは」である場合、音素HMMデータ「−/k/o」,「/k/o/n」, 「o/n/n」, 「n/n/i」, 「n/i/ch」, 「i/ch/i」, 「ch/i/w」, 「i/w/a」, 「w/a/−」の音素HMMデータを要求する。音響モデル生成装置は、受け取った音素HMMデータから「こんにちは」と並べた連結音素データを生成する。
【0069】
3)音響モデル生成装置は、前記判断用テストデータの音声特徴量とこの連結音素データの音声特徴量を比較して類似度を判断する。そして、当該DBに記憶されたデータの評価として記憶する。
【0070】
4)上記2)、3)の処理を全ての候補データベースについて行う。
【0071】
5)候補データベースのうち上位のものを選択済み候補データベースとして、所定数選択する。
【0072】
6)選択済み候補データベースに記憶されている同じ音素HMMデータをある比率で組み合わせてみて合成音素HMMデータを生成し、これを連結した合成音素連結HMMデータを生成し、生成された合成音素連結HMMデータについての評価値を求める。前記比率を変更して、評価値が高くなる比率を決定する。
【0073】
7)選択データベースから全音素についての音素HMMデータを受け取って、前記比率に基づいて、各音素HMMデータを合成して合成音素HMMデータを生成し、これを求める特定環境下の音響モデルとする。
【0074】
〔4.フローチャート〕
音響モデル生成装置1における処理について図4を用いて説明する。以下では、カーナビゲーションシステムにおける音声認識のための音響モデルを生成する場合を例として説明する。
【0075】
まず、音響モデル生成装置1の操作者は生成を希望する音響モデルの利用環境下(使用場所,利用者,発声内容,収録機器)にて、数十文程度の発声を収録し,典型音声データとする。具体的には、車の中にて、数人に予め定められた文章、たとえば、「近くのコンビニを探す」をしゃべってもらい、これを記憶すればよい。CPU23は、典型音声データから音響パラメータを抽出し、文章の文字列と対応づけて記憶する。具体的には、しゃべった単語の対応文字列のデータとともにその音声特徴量が抽出されて、記憶される。なお、音声特徴量についてはすでに説明したので説明は省略する。
【0076】
つぎに、音響モデル生成装置1のCPU23は、選択済み候補データベースの決定処理を行う(図4ステップS1)。
【0077】
選択済み候補データベースの決定処理について、図5を用いて説明する。CPU23は、データベース特定情報記憶部に記憶されたデータベース特定情報を用いて、アクセスするデータベースを特定する。ここでは、音響モデルデータベース9a〜9kの11のデータベースが特定されたものとする。
【0078】
CPU23は、処理番号iを初期化し(図5ステップS11)、i番目のデータベースに対して、必要な音素HMMデータを取得する要求を行う(ステップS13)。具体的には、0番目のデータベースとして音響モデルデータベース9aに対して,「近くのコンビニを探す」という文字列の音響データを生成するために、音素「−/ch/i」,「ch/i/k」,「i/k/a」,「k/a/k」, 「a/k/u」, 「k/u/n」, 「u/n/o」, 「n/o/k」,「o/k/o」, 「k/o/n」, 「o/n/b」, 「n/b/i」, 「b/i/n」, 「i/n/i」, 「n/i/w」, 「i/w/o」, 「w/o/s」, 「o/s/a」, 「s/a/g」, 「a/g/a」, 「g/a/s」, 「a/s/u」, 「s/u/−」の各音素HMMデータを受け取る。そして、当該データベースに記憶された音素HMMデータを用いて、「ちかくのこんびにをさがす」の音響データを生成し、典型音声データから生成した音響データと生成した音響データとの類似度を演算する(ステップS15)。本実施形態においては、典型音声データが、音素HMMデータを用いて生成した音響データから出力される確率を演算し、得られた値を類似度とした。
【0079】
なお、類似度の判断手法は、従来から行われているいろいろな演算手法が採用可能であり、たとえば、長時間スペクトル間のユークリッド距離を比較するようにしてもよい。
【0080】
CPU23は、得られた値を音響モデルデータベース9aに記憶された音響モデルの評価として記憶する(ステップS17)。
【0081】
つぎに、CPU23はすべての候補データベースについて、判断が終了したか否か判断する(ステップS19)。この場合、終了していないので、処理番号iをインクリメントする(ステップS21)。
【0082】
CPU23は、つぎに、1番目のデータベースに対して、ステップS13からステップS17の処理を繰り返す。具体的には、音響モデルデータベース9bに対して,音素「−/ch/i」,「ch/i/k」,「i/k/a」,「k/a/k」, 「a/k/u」, 「k/u/n」, 「u/n/o」, 「n/o/k」,「o/k/o」, 「k/o/n」, 「o/n/b」, 「n/b/i」, 「b/i/n」, 「i/n/i」, 「n/i/w」, 「i/w/o」, 「w/o/s」, 「o/s/a」, 「s/a/g」, 「a/g/a」, 「g/a/s」, 「a/s/u」, 「s/u/−」の各音素HMMデータを受け取り、当該データベースの評価値を求める。
【0083】
CPU23は、ステップS19にて全ての候補データベースについて、判断が終了したと判断した場合には、評価値に基づいて、選択する候補データベースを決定する(ステップS23)。本実施形態においては、しきい値を設定しておき、しきい値以上のデータベースについては全て候補とするようにした。
【0084】
なお、候補データベースの最大個数について上限を設けておいてもよい。
【0085】
つぎにCPU23は、組合せ割合決定処理を行う(図4ステップS3)。組合せ割合決定処理は、前記選択済み候補データベースについて、重み付けとなる係数を求めることにより実行される。選択済み候補データベースDiについての係数λiは、選択済み候補データベースごとに1つ決定され、全選択済み候補データベースの係数λの総計は1と満たすという条件下で、もっとも、類似度が高くなる組合せが決定される。組合せ割合決定処理について、図6を用いて説明する。
【0086】
以下では、ステップS23で決定した選択済み候補データベースが音響モデルデータベース9a,9cの2つである場合について説明する。
【0087】
CPU23は、ハードディスク26に記憶された重みづけ決定規則を用いて選択済み候補データベースの重みづけを決定する(図6ステップS31)。本実施形態においては、選択済み候補データベースが2つである場合、最初は、一方の重みを0.01、他方を0.99とした。
【0088】
CPU23は、決定した重みづけにより、同じ音素HMMデータを合成する(ステップS33)。この場合、まず、音響モデルデータベース9a,9cから抽出した1番目の音素「−/ch/i」の音素HMMデータを上記重みづけに基づき合成する。本実施形態においては、当該音素に対する特徴ベクトルの各要素について、その平均値および分散値で表されているので、これらを前記重みづけの割合で合成した。たとえば、図7に音響モデルデータベース9a,9cから抽出した各特徴ベクトルの第1番目の要素同士を前記重みづけ合成する状態を示す。このような合成処理を全要素について行えばよい。また、自己ループ確率および状態遷移確率についても、同様に対応するもの同士を前記割合で合成する。
【0089】
なお、自己ループ確率および状態遷移確率については、双方のデータベースから抽出した値の平均をとるようにしてもよい。
【0090】
つぎに、CPU23は、典型音声データを生成するために必要な音素HMMデータを全て処理済みか否か判断する(ステップS35)。この場合、まだ残っているので、他の音素「ch/i/k」,「i/k/a」,「k/a/k」, 「a/k/u」, 「k/u/n」, 「u/n/o」, 「n/o/k」,「o/k/o」, 「k/o/n」, 「o/n/b」, 「n/b/i」, 「b/i/n」, 「i/n/i」, 「n/i/w」, 「i/w/o」, 「w/o/s」, 「o/s/a」, 「s/a/g」, 「a/g/a」, 「g/a/s」, 「a/s/u」, 「s/u/−」についても行う。
【0091】
CPU23は、必要な音素HMMデータについて合成音素HMMデータが生成処理済みと判断すると、ステップS35からステップS37に進み、連結音素連結HMMデータを生成する(ステップS37)。
【0092】
CPU23は、合成して生成された音素HMMデータを用いて、「ちかくのこんびにをさがす」の音響データを生成し、典型音声データから生成した音響データと生成した音響データとの類似度を演算する(ステップS39)。かかる処理についてはステップS15と同様である。
【0093】
CPU23は、終了条件に合致するか否か判断する(ステップS41)。本実施形態においては、係数を0.01づつ変化させて、当該係数が0.99となった場合に終了するものとした。
【0094】
この場合、終了条件に合致していないので、CPU23は重みづけ決定規則に基づいて重みづけを変更する。これにより、重みづけが0.02と0.98と変化する。
【0095】
以下、CPU23は、ステップS33からステップS43までの処理を終了条件と合致するまで繰り返す。ステップS41にて終了条件と合致すると、合成割合を決定する(ステップS45)。これは、もっとも類似度の高くなるように係数を決定すればよい。
【0096】
なお、遺伝子アルゴリズムなどを用いることにより、より、早く、係数を決定することもできる。
【0097】
CPU23は合成割合を決定すると、音響モデルの生成処理を行う(図4ステップS5)。具体的には、CPU23は、全ての選択済み候補データベースから全音素HMMデータを受け取り、前記ステップS3で求めた係数を用いて、選択済み候補データベースの音素HMMデータを合成させたデータを生成する。
【0098】
このように、音声認識システムの想定する利用環境の情報に基づいて,分散して保存されている複数の音声データから、適切なデータを選択し,選択されたデータから抽出された統計量を用いて音響モデルを作成することにより、大量の音声を学習データとして利用する場合と同様の精度を持つ音響モデルを作成することができる。すなわち、特定の利用環境下で大量の学習用音声データを収集することなく、当該環境下での音声認識に適した音声モデルを作成することができる。
【0099】
また、ネットワーク上に分散して格納されている多様な音声データを音響モデルの学習に利用する場合に、当該データが所望の利用環境における利用に適切なデータであるかを判定することができる。また、ネットワーク上に分散して格納されている音声データのデータ量について,収録環境によって偏りがあっても適切な音声モデルを生成できる。
【0100】
また、本実施形態においては、ステップS23で決定した選択済み候補データベースが2つである場合について説明したが、2以上の場合であれば同様に適用することができる。全選択済み候補データベースの係数λの総計は1と満たすという条件下で各係数を決定すればよいからである。選択済み候補データベースの数が多い場合には、総当たりの演算数が飛躍的に増えることとなる。この場合には、前記変化させる値を大きくするようにしてもよい。
【0101】
なお、上記係数λiは0〜1の任意の値をとることができる。したがって、選択済み候補データベースのうち、最終的には合成に用いないものもありうる。これより、とりあえず、複数の選択済み候補データベースを特定するだけで、所望の環境下における音響モデル生成に必要なものだけが採用される。
【0102】
なお、終了条件については、上記に限定されず、所定以上の類似度が得られた場合を終了条件としてもよい。
【0103】
〔5.言語モデルに適用した場合の実施形態〕
上記実施形態においては音響モデルに適用した場合を例として説明したが、同様に、自然言語モデルについても適用することができる。すなわち、すでに存在する複数の言語モデルから、同様にして典型言語データに適合する言語モデルを合成するようにすればよい。なお、以下では、各言語データベースに、単語トライグラムおよびその統計処理データが記憶されている場合を例として説明する。また、ハードウェア構成について図2と同様であるので説明は省略する。
【0104】
まず、基本的な処理フローチャートを図8に示す。このように、判断用テストデータ(以下典型データという)の分析処理(ステップS51)、選択済み候補の言語データベースの決定処理(ステップS53)、組合せ割合決定処理(ステップS55)、言語モデル生成処理(ステップS57)を行えばよい。
【0105】
典型データの分析処理について説明する。判断用のテスト文章が与えられると、CPU23は、典型データについて、単語トライグラムの統計的データを求める。これは、典型データから単語を抽出して、各単語について、前後に連結されている単語として、どのような単語が出現するのかの統計的データを、各単語について演算すればよい。このように、ある単語の前後の3つの単語から構成された連結データを単語トライグラムという。これにより、典型データについての単語トライグラムおよびその出現頻度を得ることができる。
【0106】
つぎにCPU23は、選択済み候補言語データベースの決定処理をおこなう。かかる決定処理について図9を用いて説明する。典型データについて、各単語トライグラムの評価値を単語トライグラムの数と同じ次元数のベクトルとして表現する(ステップS61)。ここでは、1000次元のベクトルデータが得られたとする。
【0107】
つぎに、CPU23は、各言語データベースから上記と同じ単語トライグラムについてその頻度を抽出する(ステップS63)。これにより、同じ1000次元のベクトルデータを得ることができる。なお、当該言語データベースにある単語トライグラムが存在しない場合もある。この場合は、頻度ゼロとすればよい。
【0108】
CPU23は、両ベクトルデータの類似度を比較する(ステップS65)。2つのベクトルデータの類似度は、公知の方法を用いることができる。本実施形態においては、ユークリッド距離を演算することにより類似度を求めた。ユークリッド距離は、各次元の値の差分を2乗し、その総和を求めることにより求めることができる。
【0109】
たとえば、図10に示すような単語トライグラムについて、テストデータにおける頻度とデータベースDiにおける頻度が得られた場合、両者の類似度は、(0.01365−0.00175)^2 + (0.00455−0.00000)^2 +・・・・で求めることができる。
【0110】
CPU23は、選択済み候補として決定するか否かを判断する全言語データベースについて、処理済みか否か判断し(ステップS67)、所定の選択基準で上位の言語データベースを選択済み候補言語データベースとして決定する(ステップS69)。
【0111】
CPU23は、組合せ割合決定処理を行う(図8ステップS55)。かかる処理の概要は類似度の演算処理を除いては、上記音響モデルの場合と同様である。図11を用いて簡単に説明する。
【0112】
以下では、ステップS53で決定した選択済み候補データベースが言語モデルデータベースDi,Djの2つである場合について説明する。
【0113】
CPU23は、ハードディスク26に記憶された重みづけ決定規則を用いて、選択済み候補データベースの重みづけを決定する(図11ステップS81)。本実施形態においては、選択済み候補データベースが2つである場合、最初は、データベースDiの重みを0.01、データベースDjの重みを0.99とした。
【0114】
CPU23は、決定した重みづけにより、同じ単語トライグラムの出現頻度を合成する(ステップS83)。たとえば、単語トライグラム「を,する,の」について、データベースDiにおける出現頻度が0.00175、データベースDjにおける出現頻度が0.0001である場合、合成すると、0.00175*0.01+0.00001*0.99=0.0010075となる。
【0115】
CPU23は、典型データを評価するために必要な単語トライグラムを全て処理済みか否か判断する(ステップS85)。この場合、まだ残っているので、他の単語トライグラムについてステップS83の処理を行う。
【0116】
CPU23は、必要な単語トライグラムについてステップS83の合成処理が終了したと判断すると、ステップS85からステップS89に進み、テストデータとの類似度を演算する(ステップS89)。かかる処理については図9ステップS65と同様である。
【0117】
CPU23は、終了条件に合致するか否か判断する(ステップS91)。本実施形態においては、係数を0.01づつ変化させて、当該係数が0.99となった場合に終了するものとした。
【0118】
この場合、終了条件に合致していないので、CPU23は重みづけ決定規則に基づいて重みづけを変更する。これにより、重みづけが0.02と0.98と変化する。
【0119】
以下、CPU23は、ステップS83からステップS93までの処理を終了条件と合致するまで繰り返す。ステップS91にて終了条件と合致すると、合成割合を決定する(ステップS45)。これは、もっとも類似度の高くなるように係数を決定すればよい。
【0120】
CPU23は合成割合を決定すると、言語モデルの生成処理を行う(図8ステップS57)。具体的には、CPU23は、全ての選択済み候補データベースから全単語トライグラムを受け取り、前記ステップS55で求めた係数を用いて、選択済み候補データベースの単語トライグラムの出現頻度を合成させたデータを生成する。
【0121】
このようにして、言語モデルについても、音響モデルと同様に、複数の言語モデルデータベースから、統計的処理済みの前記テストデータに適合する言語モデルを生成することができる。なお、3以上の選択済み候補データベースがある場合など、前記音響モデルにて説明した変形例は、言語モデルの場合も同様に適用することができる。
【0122】
〔6.他の実施形態〕
このように、本実施形態においては、すでに蓄積されている音声データを用いて、これらを所定の割合で結合させることにより、目的とする音響モデルを生成している。したがって、音響モデルを生成するために多数の音声データを収集する必要がなくなる。また、各データベースからは、オリジナルの音データではなく、パラメータまたは統計的処理データを取得するだけなので、オリジナルの音データの目的外利用の問題も生じない。また、各データベースに蓄積されているデータの使用量に応じた課金も可能となる。
【0123】
上記実施形態においては、音素HMMデータがあらかじめ各音響モデルデータベースに記憶されている場合について説明したが、音素HMMデータはそのつど生の音声データまたは当該生データから抽出した特徴量から生成してもよい。
【0124】
上記実施形態においては、車の中という環境下の音声モデルについて、車の中での音声データを記憶したデータベースと、男性という音声データを記憶したデータベースを所定の割合で合成させて、音響モデルを生成する場合を例として説明した。しかし、本件発明は、前記特定者用の音響モデルの生成方法は、前記複数の基礎データを所定の比率で組み合わたものであることに着目し、あらかじめ定められた用語をしゃべってもらい、これから、いずれのデータベースに存在する基礎データをどの比率で組み合わせればよいかを決定して、前記特定者用の音響モデルを生成するものである。したがって、統計的データを抽出可能な複数のデータベースであればどのような環境下のものを組み合わせることも出来る。たとえば、40代の男性という音響モデルが存在しない場合、幼児の声を集めたデータベース、成人の声を集めたデータベース、老人の声を集めたデータベースを適宜合成させて、40代の男性の音響モデルを生成することもできる。
【0125】
なお、上記実施形態においては、候補データベースを特定するための情報(URLなど )を記憶しておき、これを検索するようにしたが、検索エンジンなどをもちいて検索するようにしてもよい。
【0126】
なお、上記実施形態においては、選択済み候補データベースとして決定するか否かの判断時に、各音響モデルデータベースから音素HMMデータを受け取り、言語モデル生成装置にて類似度を判断するようにしたが、各音響モデルデータベースに典型音声データを与えて、その音響モデルデータベースに記憶されている音響モデルを用いた場合の適合度だけを受け取り、選択済み候補として決定したあと、所望の音素HMMデータを各データベースから受け取るようにしてもよい。すなわち、選択済み候補として選定するかの判断時には、各データベースに記憶された音素HMMデータは特に必要とせず、そのデータベースに記憶された音響モデルによる評価値(スコア)が得られればよい。
【0127】
また、上記実施形態においては、候補データベースから所定の合致度を有するデータベースを選択済み候補データベースとし、この選択済み候補データベースについて重みづけの係数を求めるようにしたが、このような選別処理を行うことなく、候補データベース全部について、前記係数を求めるようにしてもよい。
【0128】
また、上記実施形態においては、説明を簡略化するために、各音素の各ベクトル要素は1の正規分布で表される場合について説明した。しかし、現実には音響モデルでは、各音素の特徴量は、複数の正規分布を合成で表される場合が多い。この場合には、合成分布における分布素選択回数の期待値,合成分布における分布素毎の音響パラメータ値の期待値,合成分布における分布素毎の音響パラメータの2乗値の期待値等をさらに考慮するようにすればよい。
【0129】
なお、上記実施形態においては各データベースにはすでに統計的処理済みのモデルデータが記憶されている場合について説明したが、これらを演算するための基礎データを記憶しておくようにしてもよい。
【0130】
また、上記実施形態においては、候補データベースから、そのデータベースに記憶されているモデルデータと、テストデータとの合致度を演算して、所定の数だけ、選択済み候補データベースとしたが、かかる選択条件についてはこれに限定されることなく、たとえば、所定の値以上の合致度を有するものを選択するというようにしてもよい。
【0131】
また、そのような選択基準ではなく、候補データベースに記憶されているデータに属性データを付加されている場合には、これを用いるようにしてもよい。
【0132】
上記実施形態においては、各候補データベースから必要なモデル単位データを受け取り、連結後のデータとテストデータとを比較するようにしたが、各候補データベースにテストデータを与えて、比較結果(評価値)を受け取って、選別するようにしてもよい。
【0133】
なお、上記実施形態においては、1の典型音声データで類似度を判断するようにしたが、複数の典型音声データを用いて、これらの平均評価値で類似度を判断するようにしてもよい。
【0134】
また、ネットワーク接続とは、インターネットまたはイントラネットのように各装置がいわゆるネットワークで接続されている場合はもちろん、なんらかのデータ転送経路で接続されている場合を含む概念である。また、物理的に音響モデルデータや言語モデルデータを記憶する装置は1台でも、複数の領域に分けられて記憶されている場合も含む。
【0135】
なお、上記実施形態においては、そのつど音響モデルデータや言語モデルデータを生成する場合について説明したが、一旦生成した音響モデルデータや言語モデルデータを蓄積しておき、新たなテストデータが与えられた場合には、既に蓄積しているモデルデータ中に合致するものが存在するか否かを判断し、存在する場合には、それをそのまま出力するようにしてもよい。これにより、すでに存在するモデルデータを有効活用することができる。合致するものが存在するか否かは、たとえば、しきい値を予め決めておけばよい。
【0136】
本実施形態においては、図1に示す機能を実現する為に、CPUを用い、ソフトウェアによってこれを実現している。しかし、その一部もしくは全てを、ロジック回路等のハードウェアによって実現してもよい。
【0137】
なお、プログラムの一部の処理をさらに、オペレーティングシステム(OS)にさせるようにしてもよい。
【図面の簡単な説明】
【図1】本発明にかかる音響モデル生成装置1の機能ブロック図である。
【図2】音響モデル生成装置1をCPUを用いて実現したハードウエア構成の一例を示す図である。
【図3】音響モデルのデータ構造を示す図である。
【図4】音響モデル生成処理の全体フローチャートである。
【図5】選択済み候補データベース決定の詳細フローチャートである。
【図6】組合せ割合決定の詳細フローチャートである。
【図7】合成処理を説明するための図である。
【図8】言語モデル生成処理の全体フローチャートである。
【図9】選択済み候補データベース決定の詳細フローチャートである。
【図10】単語トライグラムのデータ構造を示す。
【図11】組合せ割合決定の詳細フローチャートである。
【符号の説明】
1・・・・音響モデル生成装置
23・・・CPU
27・・・メモリ
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a process for generating model data such as an acoustic model and a language model.
[0002]
Problems to be solved by the prior art and the invention
Conventionally, when generating an acoustic model, a predetermined sentence is spoken for each supposed speaker or environment, and the voice data is generated by statistical processing. For example, as an acoustic model for voice recognition in a car navigation system, under various driving conditions in a car, 100 men in their 20s to 50s and 120 women in their 20s to 50s are set in advance. A predetermined sentence is spoken, a feature amount is extracted from the voice data, and a statistical process is performed to generate an acoustic model. By using such a statistical method, the speech recognition rate of an unspecified speaker can be increased.
[0003]
However, such a method requires a large number of data collections for performing statistical processing in each environment in which speech recognition is to be performed.
[0004]
The above-mentioned problem becomes a problem not only for generation of an acoustic model but also for a language model which is a statistical model.
[0005]
An object of the present invention is to solve the above-described problem and to provide an acoustic model generation device or an acoustic model generation method that generates an acoustic model subjected to the statistical processing in a certain environment using already existing audio data. I do.
[0006]
It is another object of the present invention to provide a language model generation device or method for generating a language model that has been subjected to the statistical processing in a certain environment using existing language data.
[0007]
It is another object of the present invention to provide a model data generating apparatus or method for generating model data that has been subjected to the statistical processing under a certain environment using model data that already exists.
[0008]
Means for Solving the Problems and Effects of the Invention
1) An acoustic model generation method according to the present invention is an acoustic model generation method for generating phoneme HMM data under a specific environment. 1) A plurality of candidate data storage devices for storing phoneme HMM data are connected to a network. When the test data for judgment under the specific environment composed of the sound data and the notation character string is given, the phoneme corresponding to the notation character string in the stored phoneme HMM data is stored from each candidate data storage device. Receiving the HMM data, determining the similarity between the phoneme-connected HMM data generated by connecting the phoneme HMM data, and the sound data of the test data for determination, and 3) based on the obtained similarity, A plurality of selected candidate data storage devices are specified from the candidate data storage devices; and 4) sounds stored in each of the selected candidate data storage devices. When two or more HMM data are combined for each phoneme, a synthesis ratio with a higher similarity is obtained for the phoneme-connected HMM data corresponding to the written character string of the test data for determination. The synthesized phoneme HMM data obtained by synthesizing the phoneme HMM data stored in the completed candidate data storage device is generated as an acoustic model under the specific environment.
[0009]
In this way, the similarity between the phoneme-connected HMM data generated by connecting the received phoneme HMM data and the sound data of the test data for determination is determined, and the selected candidate data storage device is determined. When the phoneme HMMs extracted from the plurality of selected candidate data storage devices are synthesized at a certain synthesis ratio, a synthesis ratio with which the similarity with the judgment test data is higher is obtained, and a new synthesis ratio is calculated using the ratio. A simple acoustic model is generated. Therefore, by collecting the acoustic data under the specific environment to the extent necessary for the determination, it is possible to obtain a statistically processed acoustic model using the phoneme HMM data already stored in the candidate data storage device.
[0010]
2) An acoustic model generation method according to the present invention is an acoustic model generation method for generating a statistically processed acoustic model under a specific environment, and includes the following steps. 1) a step of specifying a selected candidate data storage device from a plurality of data storage devices connected to a network, the test data for determination under the specific environment being composed of acoustic data and its notation character string; A selection step of specifying a selected candidate data storage device based on the degree of conformity with acoustic model unit data corresponding to a written character string of the determination test data stored in the data storage device; 2) the selected candidate data storage device A combination in which the degree of similarity with the combined acoustic model unit data corresponding to the written character string of the test data for judgment is higher for the combined acoustic model unit data obtained by combining two or more acoustic model unit data stored for each unit data. A combination ratio determining step of determining a ratio; and 3) all sound modes from the selected candidate data storage device. Receive Le unit data generating step of generating a composite acoustic model unit data is synthesized with a combination ratio with the determined as statistical processed acoustic model under the specific environment.
[0011]
In this way, the sound model unit concatenated data generated by concatenating the received sound model unit data and the similarity between the sound data of the test data for judgment are determined to determine the selected candidate data storage device, Further, when the acoustic model unit data extracted from the plurality of selected candidate data storage devices is combined at a certain combination ratio, a combination ratio that gives a higher similarity with the test data for determination is obtained, and the ratio is calculated. A new acoustic model is generated using this. Therefore, a statistically processed acoustic model can be obtained by collecting acoustic data in the specific environment to an extent necessary for the determination.
[0012]
3) In the acoustic model generation method according to the present invention, the data storage device stores basic data for generating acoustic model unit data, and generates the acoustic model unit data generation request when given. Remember. Therefore, if the acoustic model unit data has not been converted into data, only the requested acoustic model unit data can be generated.
[0013]
4) In the acoustic model generation method according to the present invention, the acoustic model unit data includes at least an average value and a variance value of a feature vector for the phoneme, and the combination ratio determination step corresponds to the written character string. The average value and the variance value are synthesized for each feature vector of the phoneme to be processed. Therefore, statistically processed data using the average value and the variance value of the feature vector can be obtained.
[0014]
5) An acoustic model generation device according to the present invention is an acoustic model generation device that generates a statistically processed acoustic model under a specific environment, and 1) a selected candidate from a plurality of candidate data storage devices connected to a network. Means for specifying a data storage device, the acoustic model and the acoustic model unit data stored in each of the candidate data storage device, the degree of conformity of the test data for determination under the specific environment composed of the sound data and its notation character string Selected candidate determining means for specifying a data storage device to be selected based on the degree of suitability when the calculation is performed by using the 2nd combination of acoustic model unit data stored in each candidate data storage device for each unit data In this case, the sound data corresponding to the written character string of the test data for determination is stored in the selected candidate data storage device. Combination ratio determining means for determining the ratio of combinations of selected candidate data storage devices that are higher than the fitness calculated by the stored acoustic model unit data. 3) All acoustic model unit data from the selected candidate data storage device. And acoustic model generation means for generating synthetic acoustic model unit data synthesized at the determined combination ratio as a statistically processed acoustic model under the specific environment.
[0015]
As described above, when the acoustic model unit data extracted from each candidate data storage device is synthesized at a certain synthesis ratio, the ratio of the combination of the selected candidate data storage devices that has a higher degree of suitability with the test data for judgment is higher. Is determined, and a new acoustic model is generated using the ratio. By collecting acoustic data under the specific environment to an extent necessary for the determination, a statistically processed acoustic model can be obtained. .
[0016]
6) An acoustic model generating apparatus according to the present invention is an acoustic model generating apparatus that generates acoustic model unit data under a specific environment, and 1) determination under the specific environment composed of acoustic data and its notation character string. Model data storing means for storing test data for use, and acoustic model unit data obtaining means for obtaining, from a plurality of selected candidate data storage devices, acoustic model unit data corresponding to the written character string of the test data for determination. 3) With respect to the acoustic model unit data acquired from the plurality of selected candidate data storage devices, the acoustic model unit data is synthesized at a predetermined synthesis ratio in the same acoustic model unit to generate synthesized acoustic model unit data. For the connected acoustic model unit data generated by the connection, the degree of conformity with the acoustic data of the test data for judgment is determined. Means for determining a synthesis rate at which the degree of adaptation is higher; 4) receiving all acoustic model unit data from the selected candidate data storage device based on the synthesis rate, and A generating unit configured to generate the synthesized acoustic model unit data as an acoustic model under the specific environment.
[0017]
As described above, when the acoustic model unit data extracted from the plurality of selected candidate data storage devices is combined at a certain combination ratio, a combination ratio at which the similarity with the test data for determination becomes higher is calculated. A new acoustic model is generated using the ratio. Therefore, a statistically processed acoustic model can be obtained by collecting acoustic data in the specific environment to an extent necessary for the determination.
[0018]
7) An acoustic model generation device according to the present invention is generated by connecting acoustic model unit data for forming a notation character string of the test data for determination from a plurality of candidate data storage devices connected to a network. The selected candidate data storage device is specified based on the degree of matching with the connected acoustic model unit data. Therefore, the selected candidate data storage device can be used according to the degree of conformity with the test data for determination.
[0019]
8) In the acoustic model generation device according to the present invention, the attribute data indicating the attribute is added to the judgment test data, and the acoustic model stored in the plurality of candidate data storage devices connected to the network. The selected candidate data storage device is specified based on the degree of matching with the attribute data indicating the attribute. Therefore, it is possible to quickly specify the selected candidate data storage device.
[0020]
9) In the acoustic model generation device according to the present invention, acoustic model unit data for forming a notation character string of the test data for determination is received from the plurality of candidate data storage devices, and these are coupled and coupled. Generate acoustic model unit data. Therefore, the candidate data storage device can determine whether or not to select only by outputting a part of the acoustic model unit data necessary for the determination.
[0021]
10) In the acoustic model generation device according to the present invention, the test data for determination is provided to the plurality of candidate data storage devices, and the evaluation is performed using the acoustic model unit data stored in each candidate data storage device. Upon receiving the evaluation value, the selected candidate data storage device is specified. Therefore, at the stage of determining whether or not the candidate data storage device is to be selected, the candidate data storage device can determine this without outputting acoustic model unit data.
[0022]
11) A language model generation device according to the present invention is a language model generation device that generates a statistically processed language model under a specific environment, and 1) a determination test for storing the determination test data under the specific environment. Data storage means, 2) language model unit data acquisition means for acquiring language model unit data included in the test data for judgment from a plurality of selected candidate data storage devices, and 3) acquisition from the selected candidate data storage devices. For the language model unit data, the same language model unit data is synthesized at a certain synthesis ratio to generate synthesized language model unit data, the frequency of appearance in the test data for judgment is calculated, and the synthesis ratio at which the fitness is higher is determined. Means for determining the combination ratio to be used; 4) all languages from the selected candidate data storage device based on the combination ratio; Receive Dell unit data to generate a composite language model unit data is combined by the combining ratio with the determined as the language model under the specific environment.
[0023]
As described above, when the language model unit data extracted from the plurality of selected candidate data storage devices is synthesized at a certain synthesis ratio, a synthesis ratio at which the similarity with the test data for determination becomes higher is calculated. Generate a new language model using the ratio. Therefore, a statistically processed language model can be obtained by collecting language data under the specific environment to an extent necessary for the determination.
[0024]
12) A model data generation device according to the present invention is a model data generation device that generates statistically processed model data under a specific environment, and 1) a determination test for storing the determination test data under the specific environment. Data storage means, 2) model unit data acquisition means for acquiring model unit data included in the test data for determination from the selected candidate data storage device, and 3) model unit data acquired from the selected candidate data storage device. A synthesis ratio determining unit that generates the synthesized model unit data by synthesizing the same model unit data at a certain synthesis ratio, calculates a degree of conformity with the test data for determination, and determines a combination ratio at which the degree of conformity is higher; 4) receiving all model unit data from the selected candidate data storage device based on the combining ratio; Generating a composite model unit data is combined by the combining proportions were serial determined as a statistical processed model data under the specific environment.
[0025]
As described above, when the model unit data extracted from the plurality of selected candidate data storage devices is combined at a certain combination ratio, a combination ratio at which the similarity with the test data for determination becomes higher is determined. To generate a new statistically processed model. Therefore, statistically processed model data can be obtained by collecting data under the specific environment to the extent necessary for the determination.
[0026]
13) A language model generation device according to the present invention is a language model generation device that generates a statistically processed language model under a specific environment, and 1) a determination test for storing the determination test data under the specific environment. Data storage means, 2) language model unit data acquisition means for acquiring language model unit data included in the test data for judgment from the selected candidate data storage device, 3) language model for acquiring the acquired language model unit data As the unit data, an appearance frequency for the same language model unit data is obtained from the selected candidate data storage device, and for each language model unit data, these are combined at a certain combination ratio to generate the appearance of the combined language model unit data. The frequency is calculated, and the degree of conformity with the frequency of appearance in the test data for judgment is calculated. A combining ratio determining means for determining a higher combining ratio; 4) a combining language model obtained by receiving all language model unit data from the selected candidate data storage device based on the combining ratio and combining the unit data at the determined combining ratio. The unit data is generated as a language model under the specific environment.
[0027]
As described above, when the language model unit data extracted from the plurality of selected candidate data storage devices is combined at a certain combination ratio, a combination ratio that provides a higher degree of conformity with the test data for determination is obtained. Generate a new language model using the ratio. Therefore, a statistically processed language model can be obtained by collecting language data under the specific environment to an extent necessary for the determination.
[0028]
14) A program according to the present invention is an acoustic model generation program for generating statistically processed model data under a specific environment, and is a program for causing a computer to execute the following processing. 1) For the test data for judgment under the specific environment composed of the sound data and the notation character string, acoustic model unit data corresponding to the notation character string of the judgment test data from a plurality of selected candidate data storage devices. 2) With respect to the acoustic model unit data acquired from the plurality of selected candidate data storage devices, the acoustic model unit data is combined at the same acoustic model unit at a certain combination ratio to generate synthetic acoustic model unit data. For the connected acoustic model unit data generated by concatenating the test data, the degree of conformity with the acoustic data of the test data for judgment is calculated, and a synthesis ratio at which the degree of conformity is higher is determined. 3) Based on the synthesis ratio, Synthesized sound obtained by receiving all sound model unit data from the selected candidate data storage device and synthesizing them at the determined synthesis ratio Generating a Dell unit data as the acoustic model under the specific environment.
[0029]
As described above, when the acoustic model unit data extracted from the plurality of selected candidate data storage devices is combined at a certain combination ratio, a combination ratio that provides a higher degree of matching with the test data for determination is determined. A new acoustic model is generated using the ratio. Therefore, a statistically processed acoustic model can be obtained by collecting acoustic data in the specific environment to an extent necessary for the determination.
[0030]
15) A program according to the present invention is a model data generation program for generating statistically processed model data under a specific environment, and is a program for causing a computer to execute the following processing: 1) Selected candidate data storage device From the stored model unit data included in the judgment test data under the specific environment, and 2) combining the same model unit data at a certain combination ratio with respect to the model unit data acquired from the selected candidate data storage device. To generate the combined model unit data, calculate the degree of conformity with the test data for judgment, determine the combination ratio at which the degree of conformity is higher, and 3) based on the combination ratio, the selected candidate data storage device. And the combined model unit data obtained by combining with the determined combining ratio. The generated as statistical processed model data under the specific environment.
[0031]
As described above, when the language model unit data extracted from the plurality of selected candidate data storage devices is synthesized at a certain synthesis ratio, a synthesis ratio at which the similarity with the test data for determination becomes higher is calculated. Generate a new language model using the ratio. Therefore, a statistically processed language model can be obtained by collecting language data under the specific environment to an extent necessary for the determination.
[0032]
16) A program according to the present invention is an acoustic model generation program for generating statistically processed model data under a specific environment, and is a program for causing a computer to execute the following processing. Acquiring acoustic model unit data corresponding to the notation character string of the judgment test data from a plurality of candidate data storage devices for the judgment test data under the specific environment composed of the notation character string, For the acoustic model unit data acquired from the candidate data storage device, the combined acoustic model unit data is synthesized at a certain synthesis ratio in the same acoustic model unit to generate synthetic acoustic model unit data, and the combined acoustic model unit data is generated by linking the combined acoustic model unit data. For the unit data, the degree of conformity with the acoustic data of the test data for judgment is calculated, and the degree of conformity is calculated. And 3) receiving all acoustic model unit data from the candidate data storage device based on the composite ratio and combining the combined acoustic model unit data with the determined composite ratio based on the specific environment. Generated as an acoustic model below. As described above, when the acoustic model unit data extracted from the plurality of candidate data storage devices is synthesized at a certain synthesis ratio, a synthesis ratio that provides a higher degree of conformity with the test data for determination is obtained, and the ratio is calculated. To generate a new acoustic model. Therefore, a statistically processed acoustic model can be obtained by collecting acoustic data in the specific environment to an extent necessary for the determination.
[0033]
17) An acoustic model generation device according to the present invention is an acoustic model generation device that generates acoustic model unit data under a specific environment, and 1) for determination under the specific environment, which is composed of acoustic data and a character string thereof. Determination test data storage means for storing test data; 2) acoustic model unit data acquisition means for acquiring, from a plurality of selected candidate data storage devices, acoustic model unit data corresponding to the written character string of the determination test data; 3) With respect to the acoustic model unit data acquired from the plurality of selected candidate data storage devices, the acoustic model unit data is combined at a predetermined combination ratio in the same acoustic model unit to generate combined acoustic model unit data, and these are combined. For the connected acoustic model unit data generated as described above, the degree of conformity with the acoustic data of the test data for judgment is determined. Means for determining a synthesis rate at which the degree of adaptation is higher; 4) receiving all acoustic model unit data from the selected candidate data storage device based on the synthesis rate, and Generating means for generating the synthesized acoustic model unit data as an acoustic model under the specific environment; 5) generated acoustic model storing means for storing the generated acoustic model; and 6) newly provided test data for judgment. , The degree of matching with the generated acoustic model stored in the generated acoustic model storage means is calculated, and if the degree exceeds a predetermined threshold value, the generated acoustic model is output as data of an acoustic model under the specific environment. An acoustic model output unit is provided. Therefore, the already generated acoustic model data can be directly output as acoustic model data under the specific environment.
[0034]
18) An acoustic model generating method according to the present invention is an acoustic model generating method for generating acoustic model unit data under a specific environment, and 1) determination under the specific environment composed of acoustic data and a character string thereof. Given test data, predetermined parameter data or parameter data extracted from acoustic data stored in each candidate data storage device is statistically generated to generate acoustic model unit data corresponding to the written character string. Obtaining the processed statistical data, determining the similarity between the connected acoustic model unit data generated by connecting the acoustic model unit data and the acoustic data of the test data for determination, and storing the selected candidate data. Specifying a plurality of devices; and 2) storing selected candidate data from the candidate data storage device based on the obtained similarity. 3) When two or more acoustic model unit data stored in each of the selected candidate data storage devices are combined for each phoneme, a connected acoustic model unit corresponding to the written character string of the test data for determination. For the data, a combination ratio with a higher similarity is obtained. 4) The predetermined parameter data or parameter data extracted from the acoustic data stored in each of the selected candidate data storage devices at this combination ratio is subjected to statistical processing. The obtained statistical data is obtained, the acoustic model unit data is generated, and synthetic acoustic model unit data obtained by synthesizing the acoustic model unit data is generated and output as an acoustic model under the specific environment.
[0035]
As described above, in the determination step as to whether or not to be a synthesis target, data for determining the degree of coincidence of some data is received. As a result, the acoustic model unit data is received only from the candidate data storage device that actually generates the acoustic model. As a result, billing according to use becomes possible. Also, the candidate data storage device is not the acoustic data but the predetermined parameter data extracted from the acoustic data or the statistical data obtained by performing a statistical process on the parameter data. As a result, privacy can be secured, and the problem of unintended use of data stored in the data storage device can be prevented.
[0036]
19) A language model generating method according to the present invention is a language model generating method for generating a statistically processed language model under a specific environment. 1) When the judgment test data under the specific environment is given, Obtaining predetermined parameter data or statistical data obtained by statistically processing parameter data for generating language model unit data included in the determination test data from the candidate data storage device; and 2) generating language model unit data. And determining the similarity of the appearance frequency of the language model unit data present in the test data for determination to specify a plurality of selected candidate data storage devices, and 3) data extracted from each of the selected candidate data storage devices. When two or more language model unit data generated from are combined for each language model unit data, A synthesis ratio at which the degree of similarity with the language model unit data existing in the test data is higher is determined. 4) Predetermined parameter data for all data stored in each selected candidate data storage device or these parameter data. Is received and statistical data obtained by performing statistical processing is generated, and synthesized language model unit data obtained by synthesizing these at the synthesis ratio is generated as a language model under the specific environment.
[0037]
As described above, at the stage of determining whether or not to be a synthesis target, data for determining the degree of coincidence of some data is received, and when it is determined to be a synthesis target, all language model unit data is read from the candidate data storage device. Upon receipt, the language model unit data is received only from the candidate data storage device that actually generates the language model. As a result, billing according to use becomes possible. The candidate data storage device is not language data but rather predetermined parameter data extracted from the language data or statistical data obtained by performing statistical processing on the parameter data. As a result, privacy can be secured, and the problem of unintended use of data stored in the data storage device can be prevented.
[0038]
20) A method for generating statistically processed model data according to the present invention is a model data generating method for generating statistically processed model data under a specific environment, wherein 1) the test data for judgment under the specific environment is When given, only a part of data necessary for calculating the degree of coincidence with the test data for judgment is determined from each candidate data storage device in order to determine whether or not the data is to be synthesized in a predetermined parameter format. Or the data in the parameter format as statistically processed data, calculates the degree of coincidence with the test data for determination, specifies a plurality of selected candidate data storage devices, and 2) selects each of the selected candidate data. When two or more model unit data generated from data extracted from the storage device are combined for each model unit data, The synthesis ratio at which the similarity of the strike data to the model unit data is higher is determined. 3) The predetermined parameter data of all the data stored in each of the selected candidate data storage devices or these parameter data are statistically calculated. The processing unit receives the processed statistical data, and generates synthetic model unit data obtained by synthesizing the statistical data at the synthesizing ratio as model data under the specific environment.
[0039]
As described above, in the step of determining whether or not to be a synthesis target, data for determining the degree of matching of some data is received, and when it is determined to be a synthesis target, all model unit data is received from the candidate data storage device. Thus, the model unit data is received only from the candidate data storage device that actually generates the model data. As a result, billing according to use becomes possible. From the candidate data storage device, not the raw data that is the basis of the model data, but the predetermined parameter data extracted from the raw data or the statistical data obtained by performing statistical processing on the parameter data. As a result, privacy can be secured, and the problem of unintended use of data stored in the data storage device can be prevented.
[0040]
21) An acoustic model output device according to the present invention is an acoustic model output device for generating acoustic model unit data under a specific environment. 1) Acquisition of the plurality of acquired acoustic model unit data in the same acoustic model unit The model unit data is synthesized at a certain ratio to generate synthetic acoustic model unit data, and these are connected in the order of the notation character string to generate connected acoustic model unit data. Means for calculating a degree of conformity with test data; 2) rate determining means for changing the ratio based on a predetermined ratio determining rule to determine a more suitable ratio; Receiving all the acoustic model unit data stored in the selected candidate data storage device or basic data for generating the same. Te, and generates a synthesized acoustic model unit data is combined by the combining ratio with the determined, and an output means for outputting the acoustic model under the specific environment.
[0041]
As described above, when the acoustic model unit data extracted from the plurality of selected candidate data storage devices is combined at a certain combination ratio, a combination ratio at which the similarity with the test data for determination becomes higher is calculated. A new acoustic model is generated using the ratio. Therefore, a statistically processed acoustic model can be obtained by collecting acoustic data in the specific environment to an extent necessary for the determination.
[0042]
Hereinafter, the meaning of the terms used in the present specification will be described.
[0043]
The “acoustic model unit data” corresponds to phoneme HMM data in the embodiment, but includes data in subword units. The subword unit includes, for example, data expressed in syllable units, phoneme pairs, semisyllables, and the like. Also, in addition to the phoneme HMM data, unit data that can generate acoustic data by combining individual data is included.
[0044]
“Synthesized acoustic model unit data” refers to acoustic model unit data obtained by synthesizing one or more acoustic model unit data for each unit. Here, the combination includes the case where the combination ratio is 1: 0. That is, if the combination ratio of two or more databases is 1: 0 in the calculation of the combination ratio, the model unit data itself extracted from the database corresponding to “1” becomes the combined model unit data. The same applies to the language model.
[0045]
The “phoneme HMM data” described in the embodiment is a case where the feature amount of each phoneme is converted into statistical data in the triphone format, but includes a statistical representation of the feature amount of the phoneme. .
[0046]
The “test data for judgment” is typical data collected under a target environment, and refers to typical data that does not reach statistical data.
[0047]
The “phoneme linked HMM data” refers to data obtained by linking phoneme HMM data.
[0048]
The “selected candidate data storage device” refers to a candidate data storage device to be subjected to a calculation process of a coefficient for weighting.
[0049]
“Combining two or more phoneme HMM data for each phoneme” means to synthesize statistical data on phoneme HMM data for the same phoneme from different candidate databases.
[0050]
"Synthesized phoneme HMM data" refers to phoneme HMM data obtained by combining two or more phoneme HMM data for each phoneme.
[0051]
“Connected acoustic model unit data” refers to aggregate data of acoustic model unit data generated by connecting acoustic model unit data.
[0052]
“Basic data for generating acoustic model unit data” refers to raw speech data as well as data that includes feature amounts extracted from them and has not been subjected to statistical processing.
[0053]
The “attribute data” refers to, for example, 50 males or attribute data relating to acoustic model data or its basic data stored in the database.
[0054]
“Acquiring acoustic model unit data” means not only generating and receiving acoustic model unit data from the data stored in the data storage device, but also receiving the data stored in the data storage device. Based on this, the case where the acoustic model unit data is generated by itself is also included. In the latter case, if the data is audio data stored in the data storage device, it can be received as a value of a predetermined parameter for the data or data obtained by statistically processing these parameters.
[0055]
BEST MODE FOR CARRYING OUT THE INVENTION
[1. Overview and description of functional blocks]
An embodiment of the present invention will be described with reference to the drawings. FIG. 1 shows a functional block diagram of an acoustic model generation device 1 according to the present invention. The acoustic model generation device 1 is a device that generates a statistically processed acoustic model under a specific environment. As shown in FIG. 1, it is connected to a plurality of acoustic model databases 9a to 9n, and includes an extraction destination determining unit 3, a combination ratio determining unit 5, and an acoustic model generating unit 7.
[0056]
In each of the acoustic model databases 9a to 9n, acoustic model data subjected to statistical processing for each phoneme is stored.
[0057]
The extraction destination determining unit 3 determines the conformity of the test data for specific environment judgment composed of the acoustic data and the character string thereof using the acoustic model unit data stored in the acoustic model databases 9a to 9n. Is calculated, and an acoustic model database as a selection candidate is specified. When two or more acoustic model unit data stored in each candidate acoustic model database are combined for each unit data, the combination ratio determining means 5 performs the calculation on the acoustic data corresponding to the written character string of the test data for determination. The ratio of the combination of the acoustic model databases that is higher than the obtained degree of fit is determined. The acoustic model generation means 7 receives all the acoustic model unit data from the acoustic model database of the combination candidate, and converts the acoustic model unit data synthesized at the determined combination ratio as a statistically processed acoustic model under the specific environment. Generate.
[0058]
[2. Hardware configuration)
The hardware configuration of the acoustic model generation device 1 shown in FIG. 1 will be described with reference to FIG. FIG. 2 is an example of a hardware configuration in which the acoustic model generation device 1 is configured using a CPU.
[0059]
The acoustic model generation device 1 includes a CPU 23, a memory 27, a hard disk 26, a CRT 30, a CDD (CD ROM drive) 25, an input device 28, a communication unit 32, and a bus line 29. The CPU 23 controls each unit via the bus line 29 according to a program stored in the hard disk 26. Note that, for example, Linux (trademark) or the like may be adopted as the operating system.
[0060]
The hard disk 26 stores a generation program described later. This program is read from the CDROM 25a storing the program via the CDD 25 and installed on the hard disk 26. In addition to the CDROM, a program such as a flexible disk (FD) or an IC card may be installed on a hard disk from a computer-readable recording medium. Furthermore, you may make it download using a communication line.
[0061]
In the present embodiment, by installing the program from the CDROM to the hard disk 26, the computer indirectly executes the program stored in the CDROM. However, without being limited to this, the program stored in the CDROM may be directly executed from the CDD 25. Note that, as a program executable by a computer, not only a program that can be directly executed by simply installing it as it is, but also a program that needs to be once converted into another form (for example, decompresses a data-compressed program) Etc.), and also includes those that can be executed in combination with other module parts.
[0062]
The hard disk 26 stores in advance a database specifying information storage unit 26t for specifying a database to be searched, a weight determination rule storage unit 26k, and a program storage unit 26p. In the present embodiment, a URL is adopted as the database specifying information. The programs and the weight determination rules stored in the program storage unit will be described later.
[0063]
The communication unit 32 performs data transmission processing with another computer connected to a network such as the Internet or an intranet.
[0064]
The acoustic model databases 9a to 9n connected to the acoustic model generation device 1 will be described. Each of the acoustic model databases 9a to 9n stores acoustic model data. In this embodiment, triphone format HMM format data (hereinafter referred to as phoneme HMM data) is employed for each phoneme as acoustic model data. The triphone format refers to a format in which the same phoneme “ko” has different feature values depending on the preceding and following phonemes, and is therefore classified as separate data for each of the preceding and following phonemes. For example, each phoneme in “ko”, “n”, “ni”, “chi”, and “ha” is “− / k / o”, “/ k / o / n”, “o / n / n”, “n / n / i "," n / i / ch "," i / ch / i "," ch / i / w "," i / w / a / ", and" w / a /-". Note that "-" in the phoneme "-/ k / o" indicates that there is no sound.
[0065]
The phoneme HMM data will be described with reference to FIG. The phoneme HMM data is represented by a vector having a predetermined feature amount as an element. In the present embodiment, as the elements of the feature vector, an amplitude spectrum obtained as a result of performing short-time spectrum analysis, a logarithmic amplitude spectrum which is a logarithmic value of the amplitude spectrum, and a cepstrum coefficient value which is an inverse cosine transform value of the logarithmic amplitude spectrum value. , And delta parameters obtained by regression analysis of their time changes. Each element is represented by its average, variance, self-loop probability, and state transition probability.
[0066]
In the present embodiment, the short-time spectrum analysis is performed every 10 ms for an analysis time of 20 ms, but the analysis time is not particularly limited.
[0067]
[3. Overview of processing)
1) In each database, phoneme HMM data is stored in advance for each phoneme in a triphone format.
[0068]
2) The acoustic model generation device gives, to each candidate database, a request to receive phoneme HMM data of phonemes constituting the test data for determination. For example, if the determination for the test data is "Hello", the phoneme HMM data "- / k / o", "/ k / o / n", "o / n / n", "n / n / i", Request phoneme HMM data of "n / i / ch", "i / ch / i", "ch / i / w", "i / w / a", "w / a /-". Acoustic model generation apparatus, to generate a consolidated phoneme data side-by-side with "Hello" from the phoneme HMM data received.
[0069]
3) The acoustic model generation device judges the similarity by comparing the audio feature amount of the test data for judgment with the audio feature amount of the connected phoneme data. Then, the data is stored as an evaluation of the data stored in the DB.
[0070]
4) The above processes 2) and 3) are performed for all candidate databases.
[0071]
5) A predetermined number is selected from among the candidate databases as the selected candidate databases.
[0072]
6) Combine the same phoneme HMM data stored in the selected candidate database at a certain ratio to generate synthesized phoneme HMM data, generate synthesized phoneme-connected HMM data by connecting these, and generate the generated synthesized phoneme-connected HMM. Obtain an evaluation value for the data. By changing the ratio, a ratio at which the evaluation value becomes higher is determined.
[0073]
7) Receiving the phoneme HMM data for all phonemes from the selection database, synthesizing each phoneme HMM data based on the ratio to generate synthesized phoneme HMM data, and obtaining this as an acoustic model under a specific environment.
[0074]
[4. flowchart〕
The processing in the acoustic model generation device 1 will be described with reference to FIG. Hereinafter, a case where an acoustic model for speech recognition in a car navigation system is generated will be described as an example.
[0075]
First, the operator of the acoustic model generation apparatus 1 records tens of sentences of utterances in the use environment (use place, user, utterance content, recording device) of the acoustic model desired to be generated, and generates typical voice data. And More specifically, in a car, a predetermined sentence, for example, “Search for a nearby convenience store” may be spoken by several people and stored. The CPU 23 extracts acoustic parameters from the typical voice data and stores them in association with the character strings of the text. Specifically, the speech feature amount is extracted and stored together with the data of the character string corresponding to the spoken word. Note that the audio feature has already been described, and a description thereof will be omitted.
[0076]
Next, the CPU 23 of the acoustic model generation device 1 performs a process of determining a selected candidate database (step S1 in FIG. 4).
[0077]
The process of determining the selected candidate database will be described with reference to FIG. The CPU 23 specifies a database to be accessed using the database specifying information stored in the database specifying information storage unit. Here, it is assumed that eleven databases of the acoustic model databases 9a to 9k have been specified.
[0078]
The CPU 23 initializes the process number i (step S11 in FIG. 5), and makes a request to the i-th database to acquire necessary phoneme HMM data (step S13). Specifically, in order to generate acoustic data of a character string “search for a nearby convenience store” for the acoustic model database 9a as the 0th database, phonemes “− / ch / i” and “ch / i” are used. / K "," i / k / a "," k / a / k "," a / k / u "," k / u / n "," u / n / o "," n / o / k " ”,“ O / k / o ”,“ k / o / n ”,“ o / n / b ”,“ n / b / i ”,“ b / i / n ”,“ i / n / i ”, “N / i / w”, “i / w / o”, “w / o / s”, “o / s / a”, “s / a / g”, “a / g / a”, “g / A / s "," a / s / u ", and" s / u /-". Then, by using the phoneme HMM data stored in the database, the sound data of “Search for a song” is generated, and the similarity between the sound data generated from the typical sound data and the generated sound data is calculated. (Step S15). In the present embodiment, the probability that typical voice data is output from acoustic data generated using phoneme HMM data is calculated, and the obtained value is used as the similarity.
[0079]
In addition, as a method of determining the similarity, various calculation methods conventionally used can be adopted. For example, the Euclidean distance between long-time spectra may be compared.
[0080]
The CPU 23 stores the obtained value as the evaluation of the acoustic model stored in the acoustic model database 9a (Step S17).
[0081]
Next, the CPU 23 determines whether or not the determination has been completed for all the candidate databases (step S19). In this case, since the processing has not been completed, the processing number i is incremented (step S21).
[0082]
Next, the CPU 23 repeats the processing from step S13 to step S17 for the first database. Specifically, the phonemes “− / ch / i”, “ch / i / k”, “i / k / a”, “k / a / k”, “a / k” are stored in the acoustic model database 9b. / U "," k / u / n "," u / n / o "," n / o / k "," o / k / o "," k / o / n "," o / n / b ""," N / b / i "," b / i / n "," i / n / i "," n / i / w "," i / w / o "," w / o / s ", "O / s / a", "s / a / g", "a / g / a", "g / a / s", "a / s / u", "s / u /-" The HMM data is received, and the evaluation value of the database is obtained.
[0083]
When determining in step S19 that the determination has been completed for all candidate databases, the CPU 23 determines a candidate database to be selected based on the evaluation value (step S23). In the present embodiment, a threshold value is set, and all databases having the threshold value or more are set as candidates.
[0084]
Note that an upper limit may be set for the maximum number of candidate databases.
[0085]
Next, the CPU 23 performs a combination ratio determination process (step S3 in FIG. 4). The combination ratio determination process is executed by obtaining a weighting coefficient for the selected candidate database. One coefficient λi for the selected candidate database Di is determined for each selected candidate database, and under the condition that the sum of the coefficients λ of all the selected candidate databases is 1, the combination having the highest similarity is determined. It is determined. The combination ratio determination process will be described with reference to FIG.
[0086]
Hereinafter, a case will be described in which the selected candidate databases determined in step S23 are the two acoustic model databases 9a and 9c.
[0087]
The CPU 23 determines the weight of the selected candidate database using the weight determination rules stored in the hard disk 26 (step S31 in FIG. 6). In the present embodiment, when the number of selected candidate databases is two, first, one weight is set to 0.01 and the other is set to 0.99.
[0088]
The CPU 23 synthesizes the same phoneme HMM data based on the determined weights (step S33). In this case, first, the phoneme HMM data of the first phoneme “− / ch / i” extracted from the acoustic model databases 9a and 9c is synthesized based on the weighting. In the present embodiment, each element of the feature vector for the phoneme is represented by the average value and the variance value, and these are combined at the weighting ratio. For example, FIG. 7 shows a state where the first elements of each feature vector extracted from the acoustic model databases 9a and 9c are weighted and combined. Such synthesis processing may be performed for all elements. In addition, the self-loop probability and the state transition probability are similarly combined with each other at the above ratio.
[0089]
As for the self-loop probability and the state transition probability, an average of the values extracted from both databases may be taken.
[0090]
Next, the CPU 23 determines whether or not all the phoneme HMM data necessary for generating the typical voice data has been processed (step S35). In this case, since there are still remaining phonemes, the other phonemes “ch / i / k”, “i / k / a”, “k / a / k”, “a / k / u”, “k / u / n” "," U / n / o "," n / o / k "," o / k / o "," k / o / n "," o / n / b "," n / b / i ", "B / i / n", "i / n / i", "n / i / w", "i / w / o", "w / o / s", "o / s / a", "s / A / g "," a / g / a "," g / a / s "," a / s / u ", and" s / u /-".
[0091]
When the CPU 23 determines that the synthesis phoneme HMM data has been generated for the necessary phoneme HMM data, the process proceeds from step S35 to step S37 to generate connected phoneme-connected HMM data (step S37).
[0092]
The CPU 23 generates the sound data of “Look for Search” using the phoneme HMM data generated by the synthesis, and calculates the similarity between the sound data generated from the typical sound data and the generated sound data. (Step S39). This process is the same as step S15.
[0093]
The CPU 23 determines whether or not the end condition is satisfied (step S41). In the present embodiment, the coefficient is changed by 0.01, and the process ends when the coefficient becomes 0.99.
[0094]
In this case, since the end condition is not met, the CPU 23 changes the weight based on the weight determination rule. As a result, the weight changes between 0.02 and 0.98.
[0095]
Hereinafter, the CPU 23 repeats the processing from step S33 to step S43 until the end condition is met. If the end condition is satisfied in step S41, the combining ratio is determined (step S45). For this, the coefficient may be determined so as to have the highest similarity.
[0096]
Note that the coefficient can be determined more quickly by using a genetic algorithm or the like.
[0097]
After determining the synthesis ratio, the CPU 23 performs an acoustic model generation process (Step S5 in FIG. 4). Specifically, the CPU 23 receives all the phoneme HMM data from all the selected candidate databases, and generates data obtained by synthesizing the phoneme HMM data of the selected candidate database using the coefficients obtained in step S3.
[0098]
As described above, based on information on the usage environment assumed by the speech recognition system, appropriate data is selected from a plurality of pieces of speech data that are stored in a distributed manner, and a statistic extracted from the selected data is used. Thus, an acoustic model having the same accuracy as when a large amount of speech is used as learning data can be created. In other words, it is possible to create a speech model suitable for speech recognition under a specific use environment without collecting a large amount of learning speech data under the use environment.
[0099]
In addition, when various audio data distributed and stored on a network are used for learning an acoustic model, it is possible to determine whether the data is appropriate for use in a desired use environment. Further, an appropriate audio model can be generated even if the data amount of the audio data distributed and stored on the network varies depending on the recording environment.
[0100]
Further, in the present embodiment, the case where the number of selected candidate databases determined in step S23 is two has been described, but the present invention can be similarly applied to the case where there are two or more. This is because each coefficient may be determined under the condition that the sum of the coefficients λ of all the selected candidate databases satisfies 1. When the number of selected candidate databases is large, the number of operations per round is drastically increased. In this case, the value to be changed may be increased.
[0101]
Note that the coefficient λi can take any value from 0 to 1. Therefore, some of the selected candidate databases may not be finally used for synthesis. Thus, only a plurality of selected candidate databases are specified, and only those necessary for generating an acoustic model in a desired environment are adopted.
[0102]
Note that the termination condition is not limited to the above, and a case where a similarity equal to or more than a predetermined value is obtained may be used as the termination condition.
[0103]
[5. Embodiment when applied to language model]
In the above embodiment, the case where the present invention is applied to an acoustic model has been described as an example. However, the present invention can be similarly applied to a natural language model. That is, a language model suitable for typical language data may be synthesized from a plurality of language models already existing. Hereinafter, a case will be described as an example where each language database stores a word trigram and its statistical processing data. Also, the hardware configuration is the same as that of FIG.
[0104]
First, a basic processing flowchart is shown in FIG. As described above, the analysis processing of the test data for determination (hereinafter referred to as typical data) (step S51), the processing of determining the language database of the selected candidate (step S53), the processing of determining the combination ratio (step S55), and the processing of generating the language model (step S55) Step S57) may be performed.
[0105]
The typical data analysis process will be described. When a test sentence for determination is given, the CPU 23 obtains statistical data of a word trigram for typical data. In this case, words may be extracted from the typical data, and statistical data of what words appear as words connected before and after each word may be calculated for each word. The linked data composed of the three words before and after a certain word is called a word trigram. This makes it possible to obtain a word trigram for typical data and its appearance frequency.
[0106]
Next, the CPU 23 performs a process of determining a selected candidate language database. This determination process will be described with reference to FIG. For the typical data, the evaluation value of each word trigram is expressed as a vector having the same number of dimensions as the number of word trigrams (step S61). Here, it is assumed that 1000-dimensional vector data is obtained.
[0107]
Next, the CPU 23 extracts the frequency of the same word trigram from each language database (step S63). Thereby, the same 1000-dimensional vector data can be obtained. In some cases, there is no word trigram in the language database. In this case, the frequency may be set to zero.
[0108]
The CPU 23 compares the similarity between the two sets of vector data (step S65). A known method can be used for the similarity between two vector data. In the present embodiment, the similarity is obtained by calculating the Euclidean distance. The Euclidean distance can be obtained by squaring the difference between the values of each dimension and calculating the sum thereof.
[0109]
For example, when the frequency in the test data and the frequency in the database Di are obtained for the word trigram as shown in FIG. 10, the similarity between the two is (0.01365-0.00175) ^ 2 + (0.00455). −0.00000) ^ 2 +...
[0110]
The CPU 23 determines whether or not the processing has been completed for all the language databases for which it is determined whether or not to be determined as the selected candidate (step S67), and determines a higher language database based on a predetermined selection criterion as the selected candidate language database. (Step S69).
[0111]
The CPU 23 performs a combination ratio determination process (Step S55 in FIG. 8). The outline of this processing is the same as that of the above acoustic model except for the calculation processing of the similarity. This will be briefly described with reference to FIG.
[0112]
Hereinafter, a case where the selected candidate databases determined in step S53 are two language model databases Di and Dj will be described.
[0113]
The CPU 23 determines the weight of the selected candidate database using the weight determination rule stored in the hard disk 26 (step S81 in FIG. 11). In the present embodiment, when the number of selected candidate databases is two, initially, the weight of the database Di is set to 0.01 and the weight of the database Dj is set to 0.99.
[0114]
The CPU 23 combines the appearance frequencies of the same word trigrams with the determined weights (step S83). For example, if the appearance frequency of the word trigram “を, suru, no” in the database Di is 0.00175 and the appearance frequency in the database Dj is 0.0001, the combination is 0.00175 * 0.01 + 0.00001 *. 0.99 = 0.0010075.
[0115]
The CPU 23 determines whether all the word trigrams necessary for evaluating the typical data have been processed (step S85). In this case, since there still remains, the process of step S83 is performed for another word trigram.
[0116]
When the CPU 23 determines that the combining process of step S83 is completed for the necessary word trigram, the process proceeds from step S85 to step S89, and calculates the similarity with the test data (step S89). This process is the same as step S65 in FIG.
[0117]
The CPU 23 determines whether or not the end condition is satisfied (step S91). In the present embodiment, the coefficient is changed by 0.01, and the process is terminated when the coefficient becomes 0.99.
[0118]
In this case, since the end condition is not met, the CPU 23 changes the weight based on the weight determination rule. As a result, the weight changes between 0.02 and 0.98.
[0119]
Hereinafter, the CPU 23 repeats the processing from step S83 to step S93 until the end condition is met. If the end condition is met in step S91, the combining ratio is determined (step S45). For this, the coefficient may be determined so as to have the highest similarity.
[0120]
After determining the combination ratio, the CPU 23 performs a language model generation process (step S57 in FIG. 8). Specifically, the CPU 23 receives all the word trigrams from all the selected candidate databases, and uses the coefficient obtained in step S55 to synthesize data obtained by synthesizing the appearance frequencies of the word trigrams in the selected candidate database. Generate.
[0121]
In this manner, as with the acoustic model, a language model suitable for the statistically processed test data can be generated from a plurality of language model databases. Note that the modification described in the acoustic model, such as when there are three or more selected candidate databases, can be similarly applied to a language model.
[0122]
[6. Other embodiments]
As described above, in the present embodiment, the target acoustic model is generated by combining the audio data that has already been stored at a predetermined ratio. Therefore, it is not necessary to collect a large amount of audio data to generate an acoustic model. In addition, since only the parameter or the statistical processing data is acquired from each database instead of the original sound data, there is no problem of using the original sound data for other purposes. It is also possible to charge according to the amount of data stored in each database.
[0123]
In the above embodiment, the case where the phoneme HMM data is stored in advance in each acoustic model database has been described, but the phoneme HMM data may be generated from the raw speech data or the feature amount extracted from the raw data each time. Good.
[0124]
In the above embodiment, for a voice model in an environment of a car, a database storing voice data in a car and a database storing voice data of a man are synthesized at a predetermined ratio, and an acoustic model is obtained. The case of generation is described as an example. However, the present invention focuses on that the method for generating the acoustic model for the specific person is a combination of the plurality of basic data at a predetermined ratio, and has a predetermined term spoken. It is to determine which database should be combined with which basic data in which database, and generate the acoustic model for the specific person. Therefore, any database under any environment can be combined as long as a plurality of databases from which statistical data can be extracted. For example, if there is no acoustic model of a man in his forties, a database of infant voices, a database of adult voices, and a database of old people's voices are appropriately combined to produce an acoustic model of a male in his forties. Can also be generated.
[0125]
In the above embodiment, information (URL, etc.) for specifying the candidate database is stored and searched, but the search may be performed using a search engine or the like.
[0126]
In the above embodiment, when determining whether or not to determine the selected candidate database, the phoneme HMM data is received from each acoustic model database, and the similarity is determined by the language model generation device. The typical phonetic data is given to the acoustic model database, only the fitness when using the acoustic model stored in the acoustic model database is received, and after determining as the selected candidate, the desired phoneme HMM data is obtained from each database. You may make it receive. That is, when determining whether or not to select as a selected candidate, the phoneme HMM data stored in each database is not particularly required, and an evaluation value (score) based on the acoustic model stored in the database may be obtained.
[0127]
Further, in the above embodiment, a database having a predetermined degree of matching from the candidate database is set as a selected candidate database, and a weighting coefficient is obtained for the selected candidate database. Instead, the coefficients may be obtained for all the candidate databases.
[0128]
In the above embodiment, for simplicity of description, the case where each vector element of each phoneme is represented by one normal distribution has been described. However, in reality, in an acoustic model, the feature amount of each phoneme is often represented by combining a plurality of normal distributions. In this case, the expected value of the number of distribution element selection in the composite distribution, the expected value of the acoustic parameter value for each distribution element in the composite distribution, the expected value of the square value of the acoustic parameter for each distribution element in the composite distribution, and the like are further considered. What should I do?
[0129]
In the above embodiment, a case has been described in which each database already stores statistically processed model data. However, basic data for calculating the model data may be stored.
[0130]
In the above-described embodiment, the degree of matching between the model data stored in the database and the test data is calculated from the candidate database, and a predetermined number of selected candidate databases are obtained. Is not limited to this, and for example, one having a matching degree equal to or higher than a predetermined value may be selected.
[0131]
If attribute data is added to data stored in the candidate database instead of such selection criteria, this may be used.
[0132]
In the above embodiment, the required model unit data is received from each candidate database, and the combined data and the test data are compared. However, the test data is given to each candidate database, and the comparison result (evaluation value) is given. May be received and sorted.
[0133]
In the above embodiment, the similarity is determined based on one typical voice data. However, the similarity may be determined based on an average evaluation value of a plurality of typical voice data.
[0134]
The term “network connection” is a concept that includes not only a case where each device is connected via a so-called network such as the Internet or an intranet, but also a case where each device is connected via some kind of data transfer path. Further, the case where even one device physically stores acoustic model data and language model data is stored in a plurality of areas.
[0135]
In the above-described embodiment, the case where acoustic model data and language model data are generated each time has been described. However, once generated acoustic model data and language model data are stored, new test data is provided. In this case, it may be determined whether or not there is a match in the model data that has already been accumulated, and if so, it may be output as it is. As a result, the existing model data can be effectively used. Whether or not there is a match may be determined, for example, in advance by a threshold value.
[0136]
In the present embodiment, in order to realize the functions shown in FIG. 1, this is realized by software using a CPU. However, some or all of them may be realized by hardware such as a logic circuit.
[0137]
Note that a part of the processing of the program may be further performed by an operating system (OS).
[Brief description of the drawings]
FIG. 1 is a functional block diagram of an acoustic model generation device 1 according to the present invention.
FIG. 2 is a diagram illustrating an example of a hardware configuration in which the acoustic model generation device 1 is implemented using a CPU.
FIG. 3 is a diagram showing a data structure of an acoustic model.
FIG. 4 is an overall flowchart of an acoustic model generation process.
FIG. 5 is a detailed flowchart for determining a selected candidate database.
FIG. 6 is a detailed flowchart of determining a combination ratio.
FIG. 7 is a diagram for explaining a combining process.
FIG. 8 is an overall flowchart of a language model generation process.
FIG. 9 is a detailed flowchart for determining a selected candidate database.
FIG. 10 shows a data structure of a word trigram.
FIG. 11 is a detailed flowchart of determining a combination ratio.
[Explanation of symbols]
1 ... Acoustic model generation device
23 ... CPU
27 ... Memory

Claims (21)

特定環境下における音素HMMデータを生成する音響モデル生成方法であって、
音素HMMデータを記憶する複数の候補データ記憶装置とネットワーク接続し、
音響データとその表記文字列で構成された前記特定環境下における判断用テストデータが与えられると、前記各候補データ記憶装置から、記憶された音素HMMデータのうち前記表記文字列に対応する音素HMMデータを受け取り、この音素HMMデータを連結して生成した音素連結HMMデータと、前記判断用テストデータの音響データとの類似度を判断し、
前記得られた類似度に基づいて、前記候補データ記憶装置から選択済み候補データ記憶装置を複数特定し、
前記各選択済み候補データ記憶装置に記憶された音素HMMデータを音素別に2以上組み合わせた場合に、前記判断用テストデータの表記文字列に対応する音素連結HMMデータについて、より類似度の高くなる合成割合を求め、
この合成割合で前記各選択済み候補データ記憶装置に記憶された音素HMMデータを合成させた合成音素HMMデータを、前記特定環境下における音響モデルとして生成すること、
を特徴とする音響モデル生成方法。
An acoustic model generation method for generating phoneme HMM data under a specific environment,
Network connection with a plurality of candidate data storage devices for storing phoneme HMM data,
Given the test data for determination in the specific environment composed of acoustic data and its notation character string, the phoneme HMM corresponding to the notation character string among the stored phoneme HMM data is stored from each of the candidate data storage devices. Receiving the data, determining the similarity between the phoneme-connected HMM data generated by connecting the phoneme HMM data, and the sound data of the test data for determination,
Based on the obtained similarity, specify a plurality of selected candidate data storage devices from the candidate data storage device,
When two or more phoneme HMM data stored in each of the selected candidate data storage devices are combined for each phoneme, a synthesis having a higher similarity is obtained for phoneme-connected HMM data corresponding to the written character string of the test data for determination. Find the percentage,
Generating synthesized phoneme HMM data obtained by synthesizing the phoneme HMM data stored in each of the selected candidate data storage devices at the synthesis ratio as an acoustic model under the specific environment;
An acoustic model generation method characterized by the following.
特定環境下における統計的処理済み音響モデルを生成する音響モデル生成方法であって、以下の各ステップを備えていること、
ネットワーク接続されている複数のデータ記憶装置から選択済み候補データ記憶装置を特定するステップであって、音響データとその表記文字列で構成された前記特定環境下における判断用テストデータとの適合度を各データ記憶装置に記憶された音響モデル単位データを用いて演算した場合の適合度から、選択済み候補データ記憶装置を特定する選択ステップ、
前記選択済み候補データ記憶装置に記憶された音響モデル単位データを単位データごとに2以上組み合わせた合成音響モデル単位データについて、前記判断用テストデータの表記文字列に対応する連結音響モデル単位データとの類似度がより高くなる組合せ比率を決定する組合せ比率決定ステップ、
前記選択済み候補データ記憶装置から全音響モデル単位データを受け取って、前記決定した組合せ比率で合成させた合成音響モデル単位データを前記特定環境下における統計的処理済み音響モデルとして生成する生成ステップ、
を特徴とする音響モデル生成方法。
An acoustic model generation method for generating a statistically processed acoustic model under a specific environment, comprising the following steps:
Identifying a selected candidate data storage device from the plurality of data storage devices connected to the network, and determining a degree of conformity between the acoustic data and the test data for determination in the specific environment, which is composed of notation character strings thereof. A selecting step of specifying a selected candidate data storage device from the fitness when the calculation is performed using the acoustic model unit data stored in each data storage device;
Regarding synthesized acoustic model unit data obtained by combining two or more acoustic model unit data stored in the selected candidate data storage device for each unit data, the combined acoustic model unit data corresponding to the notation character string of the test data for determination is used. A combination ratio determination step of determining a combination ratio at which the similarity is higher,
A generating step of receiving all acoustic model unit data from the selected candidate data storage device and generating synthetic acoustic model unit data synthesized at the determined combination ratio as a statistically processed acoustic model under the specific environment;
An acoustic model generation method characterized by the following.
請求項2の音響モデル生成方法において、
前記データ記憶装置は音響モデル単位データを生成するための基礎データを記憶しており、音響モデル単位データ生成要求が与えられると、これを生成して記憶すること、
を特徴とするもの。
The acoustic model generation method according to claim 2,
The data storage device stores basic data for generating acoustic model unit data, and when an acoustic model unit data generation request is given, generating and storing the request,
What is characterized by.
請求項2の音響モデル生成方法において、
前記音響モデル単位データは、少なくとも、当該音素に対する特徴ベクトルの平均値および分散値を含んでおり、
前記組合せ比率決定ステップでは、前記表記文字列に対応する音素の特徴ベクトルごとに平均値および分散値を合成すること、
を特徴とするもの。
The acoustic model generation method according to claim 2,
The acoustic model unit data includes at least an average value and a variance value of a feature vector for the phoneme,
In the combination ratio determination step, combining an average value and a variance value for each feature vector of a phoneme corresponding to the written character string,
What is characterized by.
特定環境下における統計的処理済み音響モデルを生成する音響モデル生成装置であって、
ネットワーク接続されている複数の候補データ記憶装置から選択済み候補データ記憶装置を特定する手段であって、音響データとその表記文字列で構成された前記特定環境下における判断用テストデータの適合度を前記各候補データ記憶装置に記憶された音響モデル単位データを用いて演算した場合の適合度から、選択対象とするデータ記憶装置を特定する選択済み候補決定手段、
前記各候補データ記憶装置に記憶された音響モデル単位データを単位データごとに2以上組み合わせた場合に、前記判断用テストデータの表記文字列に対応する音響データについて、前記選択済み候補データ記憶装置に記憶された音響モデル単位データによって演算された適合度よりも高くなる選択済み候補データ記憶装置の組合せの割合を決定する組合せ割合決定手段、
前記選択済み候補データ記憶装置から全音響モデル単位データを受け取って、前記決定した組合せ比率で合成させた合成音響モデル単位データを前記特定環境下における統計的処理済み音響モデルとして生成する音響モデル生成手段、
を備えたことを特徴とする音響モデル生成装置。
An acoustic model generation device that generates a statistically processed acoustic model under a specific environment,
A means for specifying a selected candidate data storage device from a plurality of candidate data storage devices connected to a network, comprising: A selected candidate determining unit that specifies a data storage device to be selected from the fitness when the calculation is performed using the acoustic model unit data stored in each of the candidate data storage devices,
When two or more acoustic model unit data stored in each of the candidate data storage devices are combined for each unit data, the acoustic data corresponding to the written character string of the test data for determination is stored in the selected candidate data storage device. Combination ratio determining means for determining a ratio of a combination of the selected candidate data storage devices that is higher than the fitness calculated by the stored acoustic model unit data,
Acoustic model generation means for receiving all acoustic model unit data from the selected candidate data storage device and generating synthetic acoustic model unit data synthesized at the determined combination ratio as a statistically processed acoustic model under the specific environment ,
An acoustic model generation device comprising:
特定環境下における音響モデル単位データを生成する音響モデル生成装置であって、
音響データとその表記文字列で構成された前記特定環境下における判断用テストデータを記憶する判断用テストデータ記憶手段、
複数の選択済み候補データ記憶装置から、判断用テストデータの前記表記文字列に対応する音響モデル単位データを取得する音響モデル単位データ取得手段、
前記複数選択済み候補データ記憶装置から取得した音響モデル単位データについて、同じ音響モデル単位で音響モデル単位データを、所定の合成割合で合成して合成音響モデル単位データを生成し、これを連結して生成した連結音響モデル単位データについて、前記判断用テストデータの音響データとの適合度を演算し、適合度がより高くなる合成割合を決定する合成割合決定手段、
前記合成割合に基づき、前記選択済み候補データ記憶装置から全音響モデル単位データを受け取って、前記決定した合成割合で合成させた合成音響モデル単位データを前記特定環境下における音響モデルとして生成する生成手段、
を備えたことを特徴とする音響モデル生成装置。
An acoustic model generation device that generates acoustic model unit data under a specific environment,
Test data storage means for storing test data for determination under the specific environment composed of sound data and its notation character string,
From a plurality of selected candidate data storage device, acoustic model unit data acquisition means for acquiring acoustic model unit data corresponding to the written character string of the test data for determination,
For the acoustic model unit data obtained from the plurality of selected candidate data storage devices, the acoustic model unit data is synthesized in the same acoustic model unit at a predetermined synthesis ratio to generate synthesized acoustic model unit data, and these are connected. For the generated connected acoustic model unit data, a composition ratio determining unit that calculates a degree of conformity with the acoustic data of the test data for determination and determines a composition ratio at which the degree of conformity is higher,
Generating means for receiving all acoustic model unit data from the selected candidate data storage device based on the synthesis ratio and generating synthetic acoustic model unit data synthesized at the determined synthesis ratio as an acoustic model under the specific environment ,
An acoustic model generation device comprising:
請求項6の音響モデル生成装置において、
ネットワーク接続されている複数の候補データ記憶装置から、前記判断用テストデータの表記文字列を構成するための音響モデル単位データを連結して生成される連結音響モデル単位データとの適合度から、前記選択済み候補データ記憶装置を特定すること、
を特徴とするもの。
The acoustic model generation device according to claim 6,
From a plurality of candidate data storage devices connected to the network, from the degree of conformity with the connected acoustic model unit data generated by connecting the acoustic model unit data to form the notation character string of the test data for determination, Identifying the selected candidate data store;
What is characterized by.
請求項6の音響モデル生成装置において、
前記判断用テストデータにはその属性を示す属性データが付加されており、
ネットワーク接続されている複数の候補データ記憶装置に記憶されている音響モデルの属性を示す属性データとの合致度に基づいて、前記選択済み候補データ記憶装置を特定すること、
を特徴とするもの。
The acoustic model generation device according to claim 6,
Attribute data indicating the attribute is added to the judgment test data,
Identifying the selected candidate data storage device based on the degree of matching with the attribute data indicating the attribute of the acoustic model stored in the plurality of candidate data storage devices connected to the network,
What is characterized by.
請求項7または請求項8の音響モデル生成装置において、
前記複数の候補データ記憶装置から、前記判断用テストデータの表記文字列を構成するための音響モデル単位データを受け取って、これを連結して連結音響モデル単位データを生成すること、
を特徴とするもの。
In the acoustic model generation device according to claim 7 or 8,
From the plurality of candidate data storage device, receiving acoustic model unit data for constituting a notation character string of the test data for determination, and linking them to generate connected acoustic model unit data,
What is characterized by.
請求項7または請求項8の音響モデル生成装置において、
前記複数の候補データ記憶装置に、前記判断用テストデータを与え、各候補データ記憶装置に記憶されている音響モデル単位データを用いて評価した場合の評価値を受け取って、前記選択済み候補データ記憶装置を特定すること、
を特徴とするもの。
In the acoustic model generation device according to claim 7 or 8,
The plurality of candidate data storage devices, providing the test data for determination, receiving an evaluation value when evaluated using acoustic model unit data stored in each candidate data storage device, the selected candidate data storage Identifying the device,
What is characterized by.
特定環境下における統計的処理済み言語モデルを生成する言語モデル生成装置であって、
前記特定環境下における判断用テストデータを記憶する判断用テストデータ記憶手段、
複数の選択済み候補データ記憶装置から、前記判断用テストデータに含まれる言語モデル単位データを取得する言語モデル単位データ取得手段、
前記選択済み候補データ記憶装置から取得した言語モデル単位データについて、同じ言語モデル単位データをある合成割合で合成して合成言語モデル単位データを生成し、前記判断用テストデータにおける出現頻度を演算し、適合度がより高くなる合成割合を決定する合成割合決定手段、
前記合成割合に基づき、前記選択済み候補データ記憶装置から全言語モデル単位データを受け取って、前記決定した合成割合で合成させた合成言語モデル単位データを前記特定環境下における言語モデルとして生成すること、
を特徴とする言語モデル生成装置。
A language model generation device that generates a statistically processed language model under a specific environment,
Judgment test data storage means for storing the judgment test data under the specific environment,
From a plurality of selected candidate data storage devices, language model unit data acquisition means for acquiring language model unit data included in the test data for determination,
For the language model unit data acquired from the selected candidate data storage device, the same language model unit data is synthesized at a certain synthesis ratio to generate synthesized language model unit data, and the appearance frequency in the test data for determination is calculated, Means for determining a combination ratio at which the degree of conformity is higher,
Receiving all language model unit data from the selected candidate data storage device based on the combination ratio, and generating combined language model unit data combined at the determined combination ratio as a language model under the specific environment;
A language model generation device characterized by the following.
特定環境下における統計的処理済みモデルデータを生成するモデルデータ生成装置であって、
前記特定環境下における判断用テストデータを記憶する判断用テストデータ記憶手段、
選択済み候補データ記憶装置から、前記判断用テストデータに含まれるモデル単位データを取得するモデル単位データ取得手段、
前記選択済み候補データ記憶装置から取得したモデル単位データについて、同じモデル単位データをある合成割合で合成して合成モデル単位データを生成し、前記判断用テストデータとの適合度を演算し、適合度がより高くなる合成割合を決定する合成割合決定手段、
前記合成割合に基づき、前記選択済み候補データ記憶装置から全モデル単位データを受け取って、前記決定した合成割合で合成させた合成モデル単位データを前記特定環境下における統計的処理済みモデルデータとして生成すること、
を特徴とするモデルデータ生成装置。
A model data generation device that generates statistically processed model data under a specific environment,
Judgment test data storage means for storing the judgment test data under the specific environment,
From the selected candidate data storage device, model unit data obtaining means for obtaining model unit data included in the test data for determination,
For the model unit data obtained from the selected candidate data storage device, the same model unit data is synthesized at a certain synthesis ratio to generate synthetic model unit data, and the degree of conformity with the test data for judgment is calculated. Composition ratio determining means for determining a composition ratio at which
On the basis of the combination ratio, all model unit data is received from the selected candidate data storage device, and combined model unit data combined at the determined combination ratio is generated as statistically processed model data under the specific environment. thing,
A model data generation device characterized by the following.
特定環境下における統計的処理済み言語モデルを生成する言語モデル生成装置であって、
前記特定環境下における判断用テストデータを記憶する判断用テストデータ記憶手段、
選択済み候補データ記憶装置から、前記判断用テストデータに含まれる言語モデル単位データを取得する言語モデル単位データ取得手段、
前記取得した言語モデル単位データを取得対象言語モデル単位データとして、これと同じ言語モデル単位データについての出現頻度を前記選択済み候補データ記憶装置から取得し、各言語モデル単位データについて、これらをある合成割合で合成して合成言語モデル単位データの出現頻度を演算し、前記判断用テストデータにおける出現頻度との適合度を演算し、適合度がより高くなる合成割合を決定する合成割合決定手段、
前記合成割合に基づき、前記選択済み候補データ記憶装置から全言語モデル単位データを受け取って、前記決定した合成割合で合成させた合成言語モデル単位データを前記特定環境下における言語モデルとして生成すること、
を特徴とする言語モデル生成装置。
A language model generation device that generates a statistically processed language model under a specific environment,
Judgment test data storage means for storing the judgment test data under the specific environment,
From the selected candidate data storage device, a language model unit data acquisition unit for acquiring language model unit data included in the test data for determination,
With the acquired language model unit data as acquisition target language model unit data, an appearance frequency for the same language model unit data is acquired from the selected candidate data storage device, and for each language model unit data, A composition ratio determining unit that computes the frequency of appearance of the synthesized language model unit data by combining with the ratio, calculates the degree of conformity with the frequency of appearance in the test data for determination, and determines the composition ratio at which the degree of conformity is higher;
Receiving all language model unit data from the selected candidate data storage device based on the combination ratio, and generating combined language model unit data combined at the determined combination ratio as a language model under the specific environment;
A language model generation device characterized by the following.
特定環境下における統計的処理済みモデルデータを生成する音響モデル生成プログラムであって、コンピュータに以下の処理を実行させるためのプログラムであり、
音響データとその表記文字列で構成された前記特定環境下における判断用テストデータについて、複数の選択済み候補データ記憶装置から、判断用テストデータの前記表記文字列に対応する音響モデル単位データを取得し、
前記複数選択済み候補データ記憶装置から取得した音響モデル単位データについて、同じ音響モデル単位で音響モデル単位データをある合成割合で合成して合成音響モデル単位データを生成し、これを連結して生成した連結音響モデル単位データについて、前記判断用テストデータの音響データとの適合度を演算し、適合度がより高くなる合成割合を決定し、
前記合成割合に基づき、前記選択済み候補データ記憶装置から全音響モデル単位データを受け取って、前記決定した合成割合で合成させた合成音響モデル単位データを前記特定環境下における音響モデルとして生成する、
を特徴とする音響モデル生成プログラム。
An acoustic model generation program that generates statistically processed model data under a specific environment, and is a program for causing a computer to execute the following processing.
Acquisition of acoustic model unit data corresponding to the notation character string of the test data for judgment, from a plurality of selected candidate data storage devices, for the test data for judgment in the specific environment composed of sound data and its notation character string And
With respect to the acoustic model unit data obtained from the plurality of selected candidate data storage devices, the acoustic model unit data is synthesized at a certain synthesis ratio in the same acoustic model unit to generate synthetic acoustic model unit data, and the combined acoustic model unit data is generated. For the connected acoustic model unit data, the degree of conformity with the acoustic data of the test data for judgment is calculated, and a synthesis ratio at which the degree of conformity is higher is determined,
On the basis of the combination ratio, receiving all acoustic model unit data from the selected candidate data storage device, and generating combined acoustic model unit data combined at the determined combination ratio as an acoustic model under the specific environment,
An acoustic model generation program characterized by the following.
特定環境下における統計的処理済みモデルデータを生成するモデルデータ生成プログラムであって、コンピュータに以下の処理を実行させるためのプログラム、
選択済み候補データ記憶装置から、記憶した前記特定環境下における判断用テストデータに含まれるモデル単位データを取得し、
前記選択済み候補データ記憶装置から取得したモデル単位データについて、同じモデル単位データをある合成割合で合成して合成モデル単位データを生成し、前記判断用テストデータとの適合度を演算し、適合度がより高くなる合成割合を決定し、
前記合成割合に基づき、前記選択済み候補データ記憶装置から全モデル単位データを受け取って、前記決定した合成割合で合成させた合成モデル単位データを前記特定環境下における統計的処理済みモデルデータとして生成する、
を特徴とするモデルデータ生成プログラム。
A model data generating program for generating statistically processed model data under a specific environment, the program causing a computer to execute the following processing,
From the selected candidate data storage device, to obtain the model unit data included in the stored test data for determination under the specific environment,
For the model unit data obtained from the selected candidate data storage device, the same model unit data is synthesized at a certain synthesis ratio to generate synthetic model unit data, and the degree of conformity with the test data for judgment is calculated. Is determined to be higher,
On the basis of the combination ratio, all model unit data is received from the selected candidate data storage device, and combined model unit data combined at the determined combination ratio is generated as statistically processed model data under the specific environment. ,
A model data generation program characterized by the following.
特定環境下における統計的処理済みモデルデータを生成する音響モデル生成プログラムであって、コンピュータに以下の処理を実行させるためのプログラムであり、
音響データとその表記文字列で構成された前記特定環境下における判断用テストデータについて、複数の候補データ記憶装置から、判断用テストデータの前記表記文字列に対応する音響モデル単位データを取得し、
前記複数の候補データ記憶装置から取得した音響モデル単位データについて、同じ音響モデル単位で音響モデル単位データをある合成割合で合成して合成音響モデル単位データを生成し、これを連結して生成した連結音響モデル単位データについて、前記判断用テストデータの音響データとの適合度を演算し、適合度がより高くなる合成割合を決定し、
前記合成割合に基づき、前記候補データ記憶装置から全音響モデル単位データを受け取って、前記決定した合成割合で合成させた合成音響モデル単位データを前記特定環境下における音響モデルとして生成する、
を特徴とする音響モデルデータ生成プログラム。
An acoustic model generation program that generates statistically processed model data under a specific environment, and is a program for causing a computer to execute the following processing.
For the test data for judgment under the specific environment composed of acoustic data and its notation character string, from a plurality of candidate data storage devices, acquire acoustic model unit data corresponding to the notation character string of the test data for judgment,
For the acoustic model unit data obtained from the plurality of candidate data storage devices, the acoustic model unit data is synthesized at a certain synthesis ratio in the same acoustic model unit to generate synthetic acoustic model unit data, and the combined acoustic model unit data is generated. For the acoustic model unit data, the degree of conformity with the acoustic data of the test data for judgment is calculated, and the synthesis ratio at which the degree of conformity is higher is determined,
On the basis of the synthesis ratio, receiving all acoustic model unit data from the candidate data storage device, and generating synthetic acoustic model unit data synthesized at the determined synthesis ratio as an acoustic model under the specific environment,
An acoustic model data generation program characterized by the following.
特定環境下における音響モデル単位データを生成する音響モデル生成装置であって、
音響データとその表記文字列で構成された前記特定環境下における判断用テストデータを記憶する判断用テストデータ記憶手段、
複数の選択済み候補データ記憶装置から、判断用テストデータの前記表記文字列に対応する音響モデル単位データを取得する音響モデル単位データ取得手段、
前記複数選択済み候補データ記憶装置から取得した音響モデル単位データについて、同じ音響モデル単位で音響モデル単位データを、所定の合成割合で合成して合成音響モデル単位データを生成し、これを連結して生成した連結音響モデル単位データについて、前記判断用テストデータの音響データとの適合度を演算し、適合度がより高くなる合成割合を決定する合成割合決定手段、
前記合成割合に基づき、前記選択済み候補データ記憶装置から全音響モデル単位データを受け取って、前記決定した合成割合で合成させた合成音響モデル単位データを前記特定環境下における音響モデルとして生成する生成手段、
前記生成された音響モデルを記憶する生成音響モデル記憶手段、
新たに与えられた判断用テストデータについて、前記生成音響モデル記憶手段に記憶した生成音響モデルとの合致度を演算し、所定のしきい値を越える場合には、当該生成音響モデルを前記特定環境下における音響モデルのデータとして出力する音響モデル出力手段、
を備えたことを特徴とする音響モデル生成装置。
An acoustic model generation device that generates acoustic model unit data under a specific environment,
Test data storage means for storing test data for determination under the specific environment composed of sound data and its notation character string,
From a plurality of selected candidate data storage device, acoustic model unit data acquisition means for acquiring acoustic model unit data corresponding to the written character string of the test data for determination,
For the acoustic model unit data obtained from the plurality of selected candidate data storage devices, the acoustic model unit data is synthesized in the same acoustic model unit at a predetermined synthesis ratio to generate synthesized acoustic model unit data, and these are connected. For the generated connected acoustic model unit data, a composition ratio determining unit that calculates a degree of conformity with the acoustic data of the test data for determination and determines a composition ratio at which the degree of conformity is higher,
Generating means for receiving all acoustic model unit data from the selected candidate data storage device based on the synthesis ratio and generating synthetic acoustic model unit data synthesized at the determined synthesis ratio as an acoustic model under the specific environment ,
Generated acoustic model storage means for storing the generated acoustic model,
For the newly given test data for judgment, the degree of matching with the generated acoustic model stored in the generated acoustic model storage means is calculated, and if it exceeds a predetermined threshold, the generated acoustic model is converted to the specific environment. An acoustic model output means for outputting as data of an acoustic model below,
An acoustic model generation device comprising:
特定環境下における音響モデル単位データを生成する音響モデル生成方法であって、
音響データとその表記文字列で構成された前記特定環境下における判断用テストデータが与えられると、前記表記文字列に対応する音響モデル単位データを生成するために、各候補データ記憶装置に記憶された音響データから抽出される所定のパラメータデータまたはパラメータデータを統計的処理を行った統計データを取得し、この音響モデル単位データを連結して生成した連結音響モデル単位データと、前記判断用テストデータの音響データとの類似度を判断して、選択済み候補データ記憶装置を複数特定し、
前記得られた類似度に基づいて、前記候補データ記憶装置から選択済み候補データ記憶装置を複数特定し、
前記各選択済み候補データ記憶装置に記憶された音響モデル単位データを音素別に2以上組み合わせた場合に、前記判断用テストデータの表記文字列に対応する連結音響モデル単位データについて、より類似度の高くなる合成割合を求め、
この合成割合で前記各選択済み候補データ記憶装置に記憶された音響データから抽出される所定のパラメータデータまたはパラメータデータを統計的処理を行った統計データを取得し、前記音響モデル単位データを生成するとともに、これらの音響モデル単位データを合成させた合成音響モデル単位データを生成して、前記特定環境下における音響モデルとして出力すること、
を特徴とする音響モデル生成方法。
このように、仮選択の段階では一部のデータについての合致度を判断するためのデータを受け取り、合成に用いることが決定すると、当該候補データ記憶装置から全音響モデル単位データを受け取ることにより、現実に音響モデルを生成する候補データ記憶装置からだけ、音響モデル単位データを受け取る。これにより使用に応じた課金が可能となる。また、候補データ記憶装置からは、音響データではなく、かかる音響データから抽出される所定のパラメータデータまたはパラメータデータを統計的処理を行った統計データである。したがって、プライバシーがまもれるとともに、データ記憶装置に記憶されたデータの目的外使用の問題も防止できる。
An acoustic model generation method for generating acoustic model unit data under a specific environment,
Given the test data for determination under the specific environment composed of the acoustic data and its notation character string, it is stored in each candidate data storage device to generate acoustic model unit data corresponding to the notation character string. Predetermined parameter data extracted from the obtained acoustic data or statistical data obtained by statistically processing the parameter data, and connected acoustic model unit data generated by connecting the acoustic model unit data, and the test data for determination. Judgment of the similarity to the acoustic data of, to specify a plurality of selected candidate data storage device,
Based on the obtained similarity, specify a plurality of selected candidate data storage devices from the candidate data storage device,
When two or more acoustic model unit data stored in each of the selected candidate data storage devices are combined for each phoneme, the similarity of the connected acoustic model unit data corresponding to the written character string of the test data for determination is higher. Is calculated,
At this combination ratio, predetermined parameter data extracted from the acoustic data stored in each of the selected candidate data storage devices or statistical data obtained by performing statistical processing on the parameter data is obtained, and the acoustic model unit data is generated. Along with generating synthetic acoustic model unit data obtained by synthesizing these acoustic model unit data, outputting as an acoustic model under the specific environment,
An acoustic model generation method characterized by the following.
In this way, at the stage of the tentative selection, data for determining the degree of coincidence of some data is received, and when it is determined that the data is to be used for synthesis, by receiving all acoustic model unit data from the candidate data storage device, The acoustic model unit data is received only from the candidate data storage device that actually generates the acoustic model. As a result, billing according to use becomes possible. Also, the candidate data storage device is not the acoustic data but the predetermined parameter data extracted from the acoustic data or the statistical data obtained by performing a statistical process on the parameter data. Therefore, privacy can be secured and the problem of unintended use of data stored in the data storage device can be prevented.
特定環境下における統計的処理済み言語モデルを生成する言語モデル生成方法であって、
前記特定環境下における判断用テストデータが与えられると、各候補データ記憶装置から前記判断用テストデータに含まれる言語モデル単位データを生成するための所定のパラメータデータまたはパラメータデータを統計的処理を行った統計データを取得し、
生成した言語モデル単位データと、前記判断用テストデータに存在する言語モデル単位データの出現頻度の類似度を判断して、選択済み候補データ記憶装置を複数特定し、
前記各選択済み候補データ記憶装置から抽出したデータから生成された言語モデル単位データを、言語モデル単位データ別に2以上組み合わせた場合に、前記判断用テストデータに存在する言語モデル単位データとの類似度が、より高くなる合成割合を求め、
前記各選択済み候補データ記憶装置に記憶された全データについての所定のパラメータデータまたはこれらのパラメータデータを統計的処理を行った統計データを受け取り、これらを前記合成割合で合成した合成言語モデル単位データを前記特定環境下における言語モデルとして生成すること、
を特徴とする言語モデル生成方法。
A language model generation method for generating a statistically processed language model under a specific environment,
When the test data for determination under the specific environment is given, statistical processing is performed on predetermined parameter data or parameter data for generating language model unit data included in the test data for determination from each candidate data storage device. Statistics data,
The generated language model unit data and the similarity of the appearance frequency of the language model unit data present in the test data for determination are determined, and a plurality of selected candidate data storage devices are specified.
When two or more language model unit data generated from the data extracted from each of the selected candidate data storage devices are combined for each language model unit data, the similarity with the language model unit data present in the test data for determination Finds a higher synthesis ratio,
Receives predetermined parameter data for all data stored in each of the selected candidate data storage devices or statistical data obtained by performing statistical processing on these parameter data, and synthesizes language data obtained by synthesizing them at the synthesis ratio. As a language model under the specific environment,
A language model generation method characterized by the following.
特定環境下における統計的処理済みモデルデータを生成するモデルデータ生成方法であって、
前記特定環境下における判断用テストデータが与えられると、各候補データ記憶装置から、合成対象とするか否かの決定するために、前記判断用テストデータとの合致度を演算するのに必要な一部のデータのみを所定のパラメータ形式のデータまたはかかるパラメータ形式のデータを統計的処理したデータとして受け取り、前記判断用テストデータとの合致度を演算して、選択済み候補データ記憶装置を複数特定し、
前記各選択済み候補データ記憶装置から抽出したデータから生成されたモデル単位データを、モデル単位データ別に2以上組み合わせた場合に、前記判断用テストデータのモデル単位データとの類似度が、より高くなる合成割合を求め、
前記各選択済み候補データ記憶装置に記憶された全データについての所定のパラメータデータまたはこれらのパラメータデータを統計的処理を行った統計データを受け取り、これらを前記合成割合で合成した合成モデル単位データを前記特定環境下におけるモデルデータとして生成すること、
を特徴とするモデルデータ生成方法。
A model data generation method for generating statistically processed model data under a specific environment,
Given the test data for determination under the specific environment, it is necessary to calculate the degree of matching with the test data for determination from each candidate data storage device to determine whether or not to perform the synthesis. Receives only a part of the data as data in a predetermined parameter format or data obtained by statistically processing the data in the parameter format, calculates the degree of matching with the test data for determination, and specifies a plurality of selected candidate data storage devices. And
When two or more model unit data generated from the data extracted from the selected candidate data storage devices are combined for each model unit data, the similarity of the test data for judgment with the model unit data becomes higher. Find the composition ratio,
Receiving predetermined parameter data for all data stored in each of the selected candidate data storage devices or statistical data obtained by performing statistical processing on these parameter data, and synthesizing model unit data obtained by synthesizing them at the synthesis ratio. Generating as model data under the specific environment,
A model data generation method characterized by the following.
特定環境下における音響モデル単位データを生成する音響モデル出力装置であって、
前記取得した複数の音響モデル単位データについて、同じ音響モデル単位で音響モデル単位データをある割合で合成して合成音響モデル単位データを生成し、これらを前記表記文字列の順序で連結して、連結音響モデル単位データを生成し、連結音響モデル単位データと前記判断用テストデータとの適合度を求める適合度演算手段、
前記割合をあらかじめ定められた割合決定規則に基づいて、変更して、より適合する割合を決定する割合決定手段、
前記合成割合に基づき、前記選択済み候補データ記憶装置に記憶されている全音響モデル単位データまたはこれを生成するための基礎データを受け取って、前記決定した合成割合で合成させた合成音響モデル単位データを生成して、前記特定環境下における音響モデルとして出力する出力手段、
を備えたことを特徴とする音響モデル出力装置。
An acoustic model output device that generates acoustic model unit data under a specific environment,
For the acquired plurality of acoustic model unit data, the acoustic model unit data is synthesized at a certain ratio in the same acoustic model unit to generate synthetic acoustic model unit data, and these are connected in the order of the notation character string. A fitness calculating unit that generates acoustic model unit data and calculates a fitness between the connected acoustic model unit data and the test data for determination;
A ratio determining unit that changes the ratio based on a predetermined ratio determination rule and determines a more suitable ratio,
Based on the synthesis ratio, receives all the acoustic model unit data stored in the selected candidate data storage device or basic data for generating the same, and synthesizes acoustic model unit data synthesized at the determined synthesis ratio. Output means for generating and outputting as an acoustic model under the specific environment,
An acoustic model output device comprising:
JP2003112684A 2003-04-17 2003-04-17 Model data generation device, model data generation method, and method therefor Pending JP2004317845A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003112684A JP2004317845A (en) 2003-04-17 2003-04-17 Model data generation device, model data generation method, and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003112684A JP2004317845A (en) 2003-04-17 2003-04-17 Model data generation device, model data generation method, and method therefor

Publications (1)

Publication Number Publication Date
JP2004317845A true JP2004317845A (en) 2004-11-11

Family

ID=33472818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003112684A Pending JP2004317845A (en) 2003-04-17 2003-04-17 Model data generation device, model data generation method, and method therefor

Country Status (1)

Country Link
JP (1) JP2004317845A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249050A (en) * 2006-03-17 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> Language model generating device, language model generating method, program thereof, and recording medium thereof
JP2007256342A (en) * 2006-03-20 2007-10-04 Fujitsu Ltd Clustering system, clustering method, clustering program and attribute estimation system using clustering program and clustering system
JP2008129527A (en) * 2006-11-24 2008-06-05 Nippon Telegr & Teleph Corp <Ntt> Sound model generating device, method and program, and its recording medium
JP2010096899A (en) * 2008-10-15 2010-04-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for creating acoustic model, program and recording medium
JP2011059500A (en) * 2009-09-11 2011-03-24 Yahoo Japan Corp Speaker clustering device and speaker clustering method
JP2012133371A (en) * 2012-01-04 2012-07-12 Intel Corp High-speed voice retrieval method and apparatus
US10319373B2 (en) 2016-03-14 2019-06-11 Kabushiki Kaisha Toshiba Information processing device, information processing method, computer program product, and recognition system

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259089A (en) * 1993-03-09 1994-09-16 A T R Jido Honyaku Denwa Kenkyusho:Kk Method for recognizing voice
JPH08123465A (en) * 1994-10-27 1996-05-17 Nippon Telegr & Teleph Corp <Ntt> Adapting method for acoustic model
JPH11143486A (en) * 1997-11-10 1999-05-28 Fuji Xerox Co Ltd Device and method adaptable for speaker
JP2000010590A (en) * 1998-06-25 2000-01-14 Oki Electric Ind Co Ltd Voice recognition device and its control method
JP2000172291A (en) * 1998-12-02 2000-06-23 Sony Corp Speech recognition device
JP2001013985A (en) * 1999-07-01 2001-01-19 Meidensha Corp Dictionary managing system of voice recognition system
JP2001511267A (en) * 1997-12-12 2001-08-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ A method for determining model special factors for speech pattern recognition.
JP2001222292A (en) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab Voice processing system and computer readable recording medium having voice processing program stored therein
JP2002091480A (en) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk Acoustic model generator and voice recognition device
JP2002091484A (en) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp Language model generator and voice recognition device using the generator, language model generating method and voice recognition method using the method, computer readable recording medium which records language model generating program and computer readable recording medium which records voice recognition program
JP2002229584A (en) * 2001-01-31 2002-08-16 Toyota Central Res & Dev Lab Inc Speech recognizing method, speech information retrieval method, program recording medium, speech recognition system, server computer for speech recognition, and server computer for speech information retrieval
JP2003044091A (en) * 2001-07-31 2003-02-14 Ntt Docomo Inc Voice recognition system, portable information terminal, device and method for processing audio information, and audio information processing program

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259089A (en) * 1993-03-09 1994-09-16 A T R Jido Honyaku Denwa Kenkyusho:Kk Method for recognizing voice
JPH08123465A (en) * 1994-10-27 1996-05-17 Nippon Telegr & Teleph Corp <Ntt> Adapting method for acoustic model
JPH11143486A (en) * 1997-11-10 1999-05-28 Fuji Xerox Co Ltd Device and method adaptable for speaker
JP2001511267A (en) * 1997-12-12 2001-08-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ A method for determining model special factors for speech pattern recognition.
JP2000010590A (en) * 1998-06-25 2000-01-14 Oki Electric Ind Co Ltd Voice recognition device and its control method
JP2000172291A (en) * 1998-12-02 2000-06-23 Sony Corp Speech recognition device
JP2001013985A (en) * 1999-07-01 2001-01-19 Meidensha Corp Dictionary managing system of voice recognition system
JP2001222292A (en) * 2000-02-08 2001-08-17 Atr Interpreting Telecommunications Res Lab Voice processing system and computer readable recording medium having voice processing program stored therein
JP2002091484A (en) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp Language model generator and voice recognition device using the generator, language model generating method and voice recognition method using the method, computer readable recording medium which records language model generating program and computer readable recording medium which records voice recognition program
JP2002091480A (en) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk Acoustic model generator and voice recognition device
JP2002229584A (en) * 2001-01-31 2002-08-16 Toyota Central Res & Dev Lab Inc Speech recognizing method, speech information retrieval method, program recording medium, speech recognition system, server computer for speech recognition, and server computer for speech information retrieval
JP2003044091A (en) * 2001-07-31 2003-02-14 Ntt Docomo Inc Voice recognition system, portable information terminal, device and method for processing audio information, and audio information processing program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249050A (en) * 2006-03-17 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> Language model generating device, language model generating method, program thereof, and recording medium thereof
JP4537970B2 (en) * 2006-03-17 2010-09-08 日本電信電話株式会社 Language model creation device, language model creation method, program thereof, and recording medium thereof
JP2007256342A (en) * 2006-03-20 2007-10-04 Fujitsu Ltd Clustering system, clustering method, clustering program and attribute estimation system using clustering program and clustering system
JP2008129527A (en) * 2006-11-24 2008-06-05 Nippon Telegr & Teleph Corp <Ntt> Sound model generating device, method and program, and its recording medium
JP4705557B2 (en) * 2006-11-24 2011-06-22 日本電信電話株式会社 Acoustic model generation apparatus, method, program, and recording medium thereof
JP2010096899A (en) * 2008-10-15 2010-04-30 Nippon Telegr & Teleph Corp <Ntt> Method and device for creating acoustic model, program and recording medium
JP2011059500A (en) * 2009-09-11 2011-03-24 Yahoo Japan Corp Speaker clustering device and speaker clustering method
JP2012133371A (en) * 2012-01-04 2012-07-12 Intel Corp High-speed voice retrieval method and apparatus
US10319373B2 (en) 2016-03-14 2019-06-11 Kabushiki Kaisha Toshiba Information processing device, information processing method, computer program product, and recognition system

Similar Documents

Publication Publication Date Title
US11069335B2 (en) Speech synthesis using one or more recurrent neural networks
US7024362B2 (en) Objective measure for estimating mean opinion score of synthesized speech
KR100924399B1 (en) Voice recognition apparatus and voice recognition method
JP5768093B2 (en) Speech processing system
JP3933750B2 (en) Speech recognition method and apparatus using continuous density Hidden Markov model
Zen et al. An overview of Nitech HMM-based speech synthesis system for Blizzard Challenge 2005
CN105593936B (en) System and method for text-to-speech performance evaluation
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP2001503154A (en) Hidden Markov Speech Model Fitting Method in Speech Recognition System
JP2005165272A (en) Speech recognition utilizing multitude of speech features
JP4829477B2 (en) Voice quality conversion device, voice quality conversion method, and voice quality conversion program
JP2010054802A (en) Unit rhythm extraction method from musical acoustic signal, musical piece structure estimation method using this method, and replacing method of percussion instrument pattern in musical acoustic signal
Narendra et al. Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis
JP2012141354A (en) Method, apparatus and program for voice synthesis
JP2004317845A (en) Model data generation device, model data generation method, and method therefor
KR20020067870A (en) Method and system for english pronunciation study based on speech recognition technology
CN1787072B (en) Method for synthesizing pronunciation based on rhythm model and parameter selecting voice
Lee et al. A text-to-speech platform for variable length optimal unit searching using perception based cost functions
US20050267755A1 (en) Arrangement for speech recognition
Taylor Unifying unit selection and hidden Markov model speech synthesis
JP3754613B2 (en) Speaker feature estimation device and speaker feature estimation method, cluster model creation device, speech recognition device, speech synthesizer, and program recording medium
JP2004139033A (en) Voice synthesizing method, voice synthesizer, and voice synthesis program
JP2886118B2 (en) Hidden Markov model learning device and speech recognition device
JP2001255887A (en) Speech recognition device, speech recognition method and medium recorded with the method
Militaru et al. ProtoLOGOS, system for Romanian language automatic speech recognition and understanding (ASRU)

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050331

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060414

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20060414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090914

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100208