JP4590692B2 - 音響モデル作成装置及びその方法 - Google Patents

音響モデル作成装置及びその方法 Download PDF

Info

Publication number
JP4590692B2
JP4590692B2 JP2000194196A JP2000194196A JP4590692B2 JP 4590692 B2 JP4590692 B2 JP 4590692B2 JP 2000194196 A JP2000194196 A JP 2000194196A JP 2000194196 A JP2000194196 A JP 2000194196A JP 4590692 B2 JP4590692 B2 JP 4590692B2
Authority
JP
Japan
Prior art keywords
noise
learning
acoustic model
sample
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000194196A
Other languages
English (en)
Other versions
JP2002014692A (ja
JP2002014692A5 (ja
Inventor
麻紀 山田
昌克 星見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2000194196A priority Critical patent/JP4590692B2/ja
Priority to US09/879,932 priority patent/US6842734B2/en
Priority to DE60110315T priority patent/DE60110315T2/de
Priority to EP01305223A priority patent/EP1168301B1/en
Priority to CNB01122522XA priority patent/CN1162839C/zh
Publication of JP2002014692A publication Critical patent/JP2002014692A/ja
Publication of JP2002014692A5 publication Critical patent/JP2002014692A5/ja
Application granted granted Critical
Publication of JP4590692B2 publication Critical patent/JP4590692B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stored Programmes (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、雑音環境下でも高い認識率が得られる音声認識用の音響モデル作成装置及びその方法に関する。
【0002】
【従来の技術】
雑音環境下での音声認識において、従来、雑音を重畳させた音声を用いて音響モデルの学習を行っていた(日本音響学会講演論文集,昭和63年3月, 3-P-8「ノイズ付加データに対する音素認識システムの評価」)。
【0003】
従来の音響モデル作成装置の構成図を図8に示し、以下に説明する。
【0004】
図8において、201はメモリ、202はCPU、203キーボード/ディスプレイ、204はCPUバス、205は学習用音声サンプル、206は学習用雑音サンプル、207は音響モデルである。
【0005】
図9に示すフローチャートに従って従来の音響モデル作成装置の音響モデルの学習方法について説明する。
【0006】
図9において、Sは各処理ステップを表す。まず、学習用音声サンプル205に学習用雑音サンプル206を重畳し(S81)、一定時間長(以下フレームと呼ぶ。ここでは1フレームは10ミリ秒とする)ごとに音響分析を行い(S82)、音響モデルを学習する(S83)。学習用雑音サンプル206は、会場雑音や車内雑音などを数十秒収録した1種類のデータである。
【0007】
この方法では、認識時の雑音環境と同じような雑音を重畳させた音声で音響モデルの学習を行えば、比較的高い認識率が得られる。
【0008】
【発明が解決しようとする課題】
しかしながら、一般には認識時の雑音環境は未知であり、上記の構成では、音響モデルの学習時の雑音環境と、認識時の雑音環境が異なる場合には認識率の劣化を招くという課題があった。
【0009】
しかし、認識時に出くわし得る雑音すべてを、学習用雑音サンプルとして集めることは不可能である。そこで実際には、ある程度認識時に出くわし得る雑音を想定して、多数の雑音サンプルを集めて学習を行う方法が考えられる。しかし、集めた雑音サンプルすべてに対して音響モデルの学習を行うのは、膨大な時間がかかるため非効率的である。しかも、集めた多数の雑音サンプルの特徴が偏っていた場合、特徴の偏った雑音サンプルを用いて学習しても、未知の雑音まで広くカバーすることはできない。
【0010】
本発明は、上記従来の課題を解決するもので、比較的少ない複数の雑音を用いて音響モデルの学習を行い、未知の雑音環境下においても高い認識性能が得られるような音響モデルを作成することを目的とする。
【0011】
【課題を解決するための手段】
この課題を解決するために、本発明は、認識時に出くわし得る雑音を想定した多数の雑音サンプルをクラスタリングし、各クラスから1つずつ雑音サンプルを選択し学習用複数雑音サンプルとして学習音声に重畳し、音響モデルを作成する。
【0012】
これにより、未知の雑音環境においても高い認識性能が得られる音響モデルを作成することができる。
【0013】
【発明の実施の形態】
本願の第1の発明は、音声認識用の音響モデルを作成する装置において、多数の雑音サンプルをクラスタリングする手段と、各クラスから1つずつ雑音サンプルを選択し、学習用音声サンプルに当該選択された雑音サンプルを重畳して学習用複数雑音サンプルとする手段と、その学習用複数雑音サンプルを用いて、1つの音響モデルの学習を行う手段とを備えたものであり、多数の雑音サンプルをクラスタリングして、それぞれのクラスから1つずつ学習に用いる雑音を選択して音響モデルを学習することにより、少ない雑音サンプルで学習でき、しかも偏り無くさまざまな雑音を広くカバーすることができるため、未知雑音環境下においても高い認識性能が得られる音響モデルを作成できるという作用を有する。
【0017】
以下、本発明の実施の形態について、図を用いて説明する。
【0018】
(実施の形態1)
図1に、本発明の実施の形態1における音響モデル作成装置の構成図を示し、説明する。図1において、101はメモリ、102はCPU、103はキーボード/ディスプレイ、104はCPUバス、105は学習用音声サンプル、106は多数雑音サンプル、107は学習用複数雑音サンプル、108は音響モデルである。
【0019】
本実施の形態では、図1の構成のもとに、最初に図2に示したフローチャートに従って学習用複数雑音サンプルを選択し、次に図3に示したフローチャートに従って音響モデルを作成する。
【0020】
最初に、学習用複数雑音サンプルの選択方法について説明する。
【0021】
図2において、まずできる限り多くの多数雑音サンプル106を用意する。ここではM個の雑音サンプルがあるものとする。これらM個の雑音サンプルのそれぞれに対し、一定時間長(以下フレームという)ごとに音響分析し(S21)、フレームごとにk次元の特徴パラメータを求める。本実施の形態では、1フレームを10ミリ秒とし、特徴パラメータとして7次までのLPCケプストラム係数(C1,C2,…,C7)を用いる。これを特徴ベクトルと呼ぶ。各雑音ごとにk次元特徴ベクトルの時間平均ベクトルを求める(S22)。
【0022】
そして、M個の時間平均特徴ベクトルをクラスタリング手法により、N個のカテゴリーに分類する(S23)。本実施の形態では、クラスタリング手法として、階層的クラスター分析を行う。2つの雑音間の距離は、2つの時間平均特徴ベクトル間の重み付きユークリッド距離を距離尺度とする。2つの雑音間の距離としては他に、ユークリッド距離や、マハラノビスの汎距離、個体間積和、分散を考慮したバッタチャリヤ距離などを用いてもかまわない。2つのクラスター間の距離は、その2つクラスターに属する雑音間の距離の最小値とする(最近隣法)。2つのクラスター間の距離としては他に、2つクラスターに属する雑音間の距離の最大値とする最遠隣法や、2つのクラスターの重心間の距離とする方法や、2つのクラスターに属する個体間の距離の平均とする方法を用いてもかまわない。
【0023】
これにより、M個の雑音をN個のクラスに分類することができる。
【0024】
本実施の形態ではM=17とし、N=5とする。多数雑音サンプルは図4に示した40秒分の雑音データである。これらを階層的クラスター分析した結果得られる樹形図を図5に示す。
【0025】
図5の樹形図では、横方向の長さが個体間あるいはクラスター間の距離をあらわしており、クラスターは樹形図を適当な長さで縦に切断したときに、そこまでで互いに接続している個体によって構成される。図5において☆印で切れば、5つのクラス(N=5)に分類することができる。そこで、
クラス1{川、音楽}
クラス2{マークII、カローラ、エスティマ、マジェスタ、ポートピア会場}
クラス3{データショウ会場、地下鉄}
クラス4{事業部、営業所、実験室、ざわめき、事務所、町工場}
クラス5{幼稚園、東京駅}
と定義する。
【0026】
そして各クラスから1つずつ任意の雑音を選択し(S24)、N個の学習用複数雑音サンプル107とする(雑音1〜Nとする)。クラス内から1つの雑音を選択する方法としては、クラス内の重心に最も近いものを選択しても良いし、ランダムに選んでも良い。
【0027】
ここでは、クラス1から「川」、クラス2から「マークII」、クラス3から「データショウ会場」、クラス4から「事業部」、クラス5から「幼稚園」を選択し、これら雑音を学習用複数雑音サンプル107とする。
【0028】
次に、図3に基づいて音響モデルを作成する方法に付いて説明する。
【0029】
まず、最初に学習用音声サンプル105に、あらかじめ学習用複数雑音サンプル107に登録されているN個の雑音(n=1〜N)の内1つの雑音を重畳する(S31)。本実施の形態では学習用音声サンプルとして、音韻バランス単語セット543単語×80名分を音声データとして用いた。雑音の重畳方法は以下に説明する。
【0030】
学習用の音声をA/D変換して得られる信号をS(i)(i=1,…,I)、雑音nをA/D変換して得られる信号をNn(i)(i=1,…,I)とするとき、この雑音を重畳した雑音重畳音声Sn(i)(i=1,…,I)は(数1)で表される。ただし、IはA/D変換時のサンプリング周波数(Hz)にデータの秒数をかけた値である。
【0031】
【数1】
Figure 0004590692
【0032】
次に、このようにして得られる雑音を重畳した学習用音声サンプルについて、一定時間(フレームと呼ぶ)ごとに音響分析を行う(S32)。ここでは、LPC分析を行いフレームごとにLPCケプストラム係数とその時間回帰係数を求め、特徴パラメータとする。ここではLPCケプストラムを用いるが、FFTケプストラム、MFCC、メルLPCケプストラムなどを用いても良い。このようにして、学習用雑音重畳音声サンプルに対し特徴パラメータの時系列が得られる。
【0033】
次に、P個の特徴パラメータからなるベクトルを特徴パラメータベクトルとして、音響モデルの学習を行う(S33)。本実施の形態では、特徴パラメータベクトルは1フレーム分の特徴パラメータからなるとするが、複数フレーム分の特徴パラメータを並べて特徴パラメータベクトルとする方法もある。
【0034】
学習用複数雑音サンプル107に登録されているN個の雑音(n=1〜N)のすべてについて学習が終了したかを判断し、終了するまでS31〜S33の処理を繰り返し、音響モデル108を作成する(S34)。
【0035】
音響モデルとしては、DPマッチング用の特徴ベクトルの時系列パターン(標準パターンと呼ぶ)や、HMMなどの確率モデルがある。本実施の形態1では、DPマッチング用の標準パターンを学習するものとする。DPマッチングは時間軸の伸縮を考慮しながら2つのパターンの類似度を計算する効率的な方法である。
【0036】
標準パターンの単位は、一般に音素、音節、半音節、CV/VC(子音+母音、母音+子音)などが用いられる。本実施の形態では音節を標準パターンの単位として説明する。標準パターンのフレーム数は、平均音節フレーム数と同じに設定する。学習用音声サンプルを音節単位に切り出して、DPマッチングにより時間伸縮を考慮しながらフレーム整合を取り、標準パターンのどのフレームに対応するかを求める。図6はフレーム整合の様子を表した図である。ここで、特徴ベクトルが単一ガウス分布に従うと仮定し、標準パターンのそれぞれのフレームについて、対応する学習データの特徴ベクトルの平均値ベクトルおよび共分散を求める。これが標準パターンとなる。本実施の形態1では単一ガウス分布とするが混合ガウス分布としても良い。
【0037】
以上を、N種の雑音すべてについて行う。最終的には、N種の雑音を重畳したデータにたいする平均値ベクトル及び共分散行列が求まる。
【0038】
このようにして、多数の雑音サンプルをクラスタリングしてそれぞれのクラスから1つずつ学習に用いる雑音を選択することにより決定される複数の雑音を重畳した学習用音声サンプルを用いて音響モデルの学習を行うことにより、少ない雑音サンプルで学習でき、しかも偏り無くさまざまな雑音を広くカバーすることができるため、未知雑音環境下においても高い認識性能が得られる音響モデルを作成できる。
【0039】
(実施の形態2)
実施の形態2は、実施の形態1で作成された音響モデルを用いて、入力された音声を認識する音声認識装置について説明する。図8に、本発明の実施の形態2における音声認識装置の動作フローチャートを示し、以下に説明する。
【0040】
図8において、音響モデル108は実施の形態1で作成されたものを用いる。
【0041】
まず最初に、未知入力音声をフレームごとに音響分析し、特徴パラメータを抽出する(S61)。特徴パラメータは音響モデル作成時と同じものである。
【0042】
認識対象語彙辞書109には、認識対象となる語彙の音節列が表記されている。この認識対象語彙辞書にしたがって、あらかじめ作成されている音節単位の音響モデル108を接続し、これと、上記未知入力音声の特徴パラメータ時系列とをDP照合する(S62)。その結果、最も類似度の大きかった語彙を認識結果として出力する。
【0043】
このようにして動作する音声認識装置では、音響モデルが、多数の雑音サンプルをクラスタリングすることにより決定される複数の雑音を重畳した学習用音声サンプルを用いて学習されているため、未知雑音環境下においても高い認識性能が得られる。
【0044】
以下に、認識実験について説明する。
【0045】
本発明の効果を検証するため、本実施の形態によって得られる音響モデルを用いて音声認識実験を行った。評価データは10名分の100地名音声データとした。評価データに、学習用に用いなかった雑音サンプルを重畳し、100単語認識を行った。学習用複数雑音サンプルは、「川」、「マークII」、「データショウ会場」、「事業部」、「幼稚園」である。
【0046】
評価データへ重畳する雑音サンプルは、クラス1からは「音楽」、クラス2からは「マジェスタ」、クラス3からは「地下鉄」、クラス4からは「事務所」、クラス5からは「東京駅」とした。また、まったく未知の雑音として、「道路」(道路わきで収録した騒音)、「テレビCM」(テレビのコマーシャル音を収録したもの)をそれぞれ評価データに重畳して、単語認識実験を行った。
【0047】
また、本発明の対照実験として、従来例に相当する、1種類の雑音のみ(「マークII」)で学習した音響モデルを用いた単語認識実験も同様に行った。
【0048】
その結果を(表1)に示す。
【0049】
【表1】
Figure 0004590692
【0050】
(表1)から、(1)において、学習時の雑音と認識時の雑音が同じクラス内(クラス2同士)の場合、高い認識性能が得られる(マジェスタ94.8%)が、他のクラスに属する雑音環境下では認識性能が悪い。これに対し、本発明の実験(2)では、クラス2以外のすべてのクラスで(1)よりも高い認識性能を示している。さらに、未知雑音環境に対する実験では、「道路」に対しても「テレビCM」に対しても、本発明の方が認識性能が高いことがわかる。
【0051】
このことから、本発明は未知雑音に関しても高い認識性能が得られるといえる。
【0052】
なお、本実施の形態では、クラスタリングによって選択したN個の学習用雑音サンプルをそれぞれ学習用音声サンプルに重畳して、音響モデルの各状態を単一ガウス分布として学習を行ったが、雑音ごとに別々にN個のガウス分布の混合分布としても良い。また、単一ガウス分布で表されるN個の音響モデルを学習して、認識時にN個の音響モデルと照合を行い、最も類似度の高い音響モデルに対するスコアを最終スコアとしても良い。
【0053】
【発明の効果】
以上のように本発明は、クラスタリングにより選択した雑音を学習データに重畳することにより、比較的少ない複数の雑音で学習できるため効率的であり、しかも偏り無く、広く雑音環境をカバーできるため、未知の雑音に対しても高い認識性能が得られる音響モデルが作成できる。
【図面の簡単な説明】
【図1】本発明の実施の形態1における音響モデル作成装置の構成図
【図2】本発明の実施の形態1における学習用複数雑音サンプルの選択方法を表すフローチャート
【図3】本発明の実施の形態1における音響モデルの作成方法を表すフローチャート
【図4】多数雑音サンプルの詳細を説明する図
【図5】樹形図
【図6】フレーム整合のイメージ図
【図7】本発明の実施の形態2における音声認識方法を表すフローチャート
【図8】従来例の音響モデル作成装置の構成図
【図9】従来例の音響モデルの作成方法を表すフローチャート
【符号の説明】
101 メモリ
102 CPU
103 キーボード/ディスプレイ
104 CPUバス
105 学習用音声サンプル
106 多数雑音サンプル
107 学習用複数雑音サンプル
108 音響モデル
109 認識対象語彙辞書

Claims (6)

  1. 音声認識用の音響モデルを作成する装置において、多数の雑音サンプルをクラスタリングする手段と、各クラスから1つずつ雑音サンプルを選択し、学習用音声サンプルに当該選択された雑音サンプルを重畳して学習用複数雑音サンプルとする手段と、その学習用複数雑音サンプルを用いて、1つの音響モデルの学習を行う手段とを備えた音響モデル作成装置。
  2. 前記雑音サンプルを重畳して学習用複数雑音サンプルとする手段は、クラスタリングされた複数の雑音サンプル間の近さを距離とした場合に、クラスタリングされた複数の雑音サンプル内の重心に最も近い雑音サンプルを選択する、請求項1に記載の音響モデル作成装置。
  3. 学習用複数雑音サンプルを用いて音響モデルの学習を行う手段は、選択された雑音サンプルをクラス毎に学習用音声サンプルに重畳し、当該クラス毎の雑音が重畳された学習用音声サンプルから音響モデルも学習を行う、請求項1に記載の音響モデル作成装置。
  4. 請求項1から3までのいずれか一つに記載の音響モデル作成装置で作成された音響モデルを用いて、入力された音声を認識することを特徴とする音声認識装置。
  5. 音声認識用の音響モデルを作成する方法において、多数雑音サンプル記憶手段に記憶された多数の雑音サンプルをクラスタリングして多数雑音サンプル記憶手段へ記憶するステップと、多数雑音サンプル記憶手段に記憶されたクラスタリングされた各クラスから1つずつ雑音サンプルを選択し、学習用音声サンプル記憶手段に記憶された学習用音声サンプルに当該選択された雑音サンプルを重畳して学習用複数雑音サンプルとして学習用複数雑音サンプル記憶手段へ記憶するステップと、学習用複数雑音サンプル記憶手段に記憶された学習用複数雑音サンプルを用いて、1つの音響モデルの学習を行うステップと、を含む音響モデル作成方法。
  6. 多数雑音サンプル記憶手段に記憶された多数の雑音サンプルをクラスタリングして多数雑音サンプル記憶手段へ記憶するステップと、多数雑音サンプル記憶手段に記憶されたクラスタリングされた各クラスから1つずつ雑音サンプルを選択し、学習用音声サンプル記憶手段に記憶された学習用音声サンプルに当該選択された雑音サンプルを重畳して学習用複数雑音サンプルとして学習用複数雑音サンプル記憶手段へ記憶するステップと、学習用複数雑音サンプル記憶手段に記憶された学習用複数雑音サンプルを用いて、1つの音響モデルの学習を行うステップと、を含む音響モデル作成方法を、コンピュータに実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
JP2000194196A 2000-06-28 2000-06-28 音響モデル作成装置及びその方法 Expired - Fee Related JP4590692B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2000194196A JP4590692B2 (ja) 2000-06-28 2000-06-28 音響モデル作成装置及びその方法
US09/879,932 US6842734B2 (en) 2000-06-28 2001-06-14 Method and apparatus for producing acoustic model
DE60110315T DE60110315T2 (de) 2000-06-28 2001-06-15 Trainieren von akustischen Modellen zur Widerstandsfähigkeit gegen Rauschen
EP01305223A EP1168301B1 (en) 2000-06-28 2001-06-15 Training of acoustic models for noise robustness
CNB01122522XA CN1162839C (zh) 2000-06-28 2001-06-27 产生声学模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000194196A JP4590692B2 (ja) 2000-06-28 2000-06-28 音響モデル作成装置及びその方法

Publications (3)

Publication Number Publication Date
JP2002014692A JP2002014692A (ja) 2002-01-18
JP2002014692A5 JP2002014692A5 (ja) 2007-04-05
JP4590692B2 true JP4590692B2 (ja) 2010-12-01

Family

ID=18693064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000194196A Expired - Fee Related JP4590692B2 (ja) 2000-06-28 2000-06-28 音響モデル作成装置及びその方法

Country Status (5)

Country Link
US (1) US6842734B2 (ja)
EP (1) EP1168301B1 (ja)
JP (1) JP4590692B2 (ja)
CN (1) CN1162839C (ja)
DE (1) DE60110315T2 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US6952674B2 (en) * 2002-01-07 2005-10-04 Intel Corporation Selecting an acoustic model in a speech recognition system
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US7365577B2 (en) * 2002-11-15 2008-04-29 Telebyte, Inc. Noise waveform generator with spectrum control
GB2401469B (en) * 2003-05-09 2006-11-22 Domain Dynamics Ltd Pattern recognition
JP4548646B2 (ja) 2003-09-12 2010-09-22 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
EP1732063A4 (en) 2004-03-31 2007-07-04 Pioneer Corp LANGUAGE RECOGNITION AND LANGUAGE RECOGNITION METHOD
JP4763387B2 (ja) * 2005-09-01 2011-08-31 旭化成株式会社 パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置
KR100679051B1 (ko) * 2005-12-14 2007-02-05 삼성전자주식회사 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법
TW200926142A (en) * 2007-12-12 2009-06-16 Inst Information Industry A construction method of English recognition variation pronunciation models
JP5302092B2 (ja) * 2009-05-12 2013-10-02 株式会社レイトロン 音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置
US10013641B2 (en) * 2009-09-28 2018-07-03 Oracle International Corporation Interactive dendrogram controls
US10552710B2 (en) * 2009-09-28 2020-02-04 Oracle International Corporation Hierarchical sequential clustering
US20110078194A1 (en) * 2009-09-28 2011-03-31 Oracle International Corporation Sequential information retrieval
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
CN103971677B (zh) * 2013-02-01 2015-08-12 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
US9396723B2 (en) 2013-02-01 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and device for acoustic language model training
US20140278415A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Voice Recognition Configuration Selector and Method of Operation Therefor
US9552825B2 (en) * 2013-04-17 2017-01-24 Honeywell International Inc. Noise cancellation for voice activation
WO2014182453A2 (en) * 2013-05-06 2014-11-13 Motorola Mobility Llc Method and apparatus for training a voice recognition model database
CN103280215B (zh) * 2013-05-28 2016-03-23 北京百度网讯科技有限公司 一种音频特征库建立方法及装置
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
GB2532041B (en) * 2014-11-06 2019-05-29 Imagination Tech Ltd Comfort noise generation
KR102167719B1 (ko) 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
JP6580882B2 (ja) * 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
CN105448303B (zh) * 2015-11-27 2020-02-04 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
US9922664B2 (en) * 2016-03-28 2018-03-20 Nuance Communications, Inc. Characterizing, selecting and adapting audio and acoustic training data for automatic speech recognition systems
CN107564513B (zh) 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
CN108335694B (zh) * 2018-02-01 2021-10-15 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
US11011162B2 (en) 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
CN110942763B (zh) * 2018-09-20 2023-09-12 阿里巴巴集团控股有限公司 语音识别方法及装置
CN110459219A (zh) * 2019-08-26 2019-11-15 恒大智慧科技有限公司 一种危险报警方法、装置、计算机设备及存储介质
CN110599751A (zh) * 2019-08-26 2019-12-20 恒大智慧科技有限公司 一种危险报警方法、装置、计算机设备及存储介质
US20220335964A1 (en) * 2019-10-15 2022-10-20 Nec Corporation Model generation method, model generation apparatus, and program
CN111369979B (zh) * 2020-02-26 2023-12-19 广州市百果园信息技术有限公司 训练样本获取方法、装置、设备及计算机存储介质
US11765501B2 (en) * 2021-03-10 2023-09-19 Honeywell International Inc. Video surveillance system with audio analytics adapted to a particular environment to aid in identifying abnormal events in the particular environment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06138895A (ja) * 1992-10-26 1994-05-20 Sharp Corp 音声認識装置
JPH09198079A (ja) * 1996-01-12 1997-07-31 Brother Ind Ltd 音声認識装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58105295A (ja) * 1981-12-18 1983-06-23 株式会社日立製作所 音声標準パタン作成方法
DE4325404C2 (de) 1993-07-29 2002-04-11 Tenovis Gmbh & Co Kg Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
AU720511B2 (en) 1995-08-24 2000-06-01 British Telecommunications Public Limited Company Pattern recognition
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
JPH10232694A (ja) * 1997-02-19 1998-09-02 Matsushita Electric Ind Co Ltd 音声認識装置および音声認識方法
US6381569B1 (en) 1998-02-04 2002-04-30 Qualcomm Incorporated Noise-compensated speech recognition templates
US6782361B1 (en) * 1999-06-18 2004-08-24 Mcgill University Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06138895A (ja) * 1992-10-26 1994-05-20 Sharp Corp 音声認識装置
JPH09198079A (ja) * 1996-01-12 1997-07-31 Brother Ind Ltd 音声認識装置

Also Published As

Publication number Publication date
EP1168301B1 (en) 2005-04-27
CN1162839C (zh) 2004-08-18
JP2002014692A (ja) 2002-01-18
DE60110315T2 (de) 2006-03-09
DE60110315D1 (de) 2005-06-02
EP1168301A1 (en) 2002-01-02
US6842734B2 (en) 2005-01-11
CN1331467A (zh) 2002-01-16
US20020055840A1 (en) 2002-05-09

Similar Documents

Publication Publication Date Title
JP4590692B2 (ja) 音響モデル作成装置及びその方法
KR100826875B1 (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
JP5768093B2 (ja) 音声処理システム
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US6442519B1 (en) Speaker model adaptation via network of similar users
JP4109063B2 (ja) 音声認識装置及び音声認識方法
WO2019102884A1 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
US20180151177A1 (en) Speech recognition system and method using an adaptive incremental learning approach
JP4220449B2 (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
JP6908045B2 (ja) 音声処理装置、音声処理方法、およびプログラム
WO2004057574A1 (en) Sensor based speech recognizer selection, adaptation and combination
CN102280106A (zh) 用于移动通信终端的语音网络搜索方法及其装置
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
Ons et al. A self learning vocal interface for speech-impaired users
Walter et al. An evaluation of unsupervised acoustic model training for a dysarthric speech interface
Imperl et al. Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JPWO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム
CN110419078A (zh) 自动语音识别系统的用户记录关键字的质量反馈
JP4571921B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体
Kokkinidis et al. Finding the optimum training solution for Byzantine music recognition—A Max/Msp approach

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070219

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070219

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070313

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20091119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100817

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100830

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130924

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4590692

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130924

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees