JPH10161692A - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法

Info

Publication number
JPH10161692A
JPH10161692A JP8336291A JP33629196A JPH10161692A JP H10161692 A JPH10161692 A JP H10161692A JP 8336291 A JP8336291 A JP 8336291A JP 33629196 A JP33629196 A JP 33629196A JP H10161692 A JPH10161692 A JP H10161692A
Authority
JP
Japan
Prior art keywords
distribution
model
representative
speech
distributions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8336291A
Other languages
English (en)
Inventor
Yasuhiro Komori
康弘 小森
Hiroki Yamamoto
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP8336291A priority Critical patent/JPH10161692A/ja
Priority to EP97309678A priority patent/EP0847041B1/en
Priority to DE69725106T priority patent/DE69725106T2/de
Priority to US08/982,385 priority patent/US5956679A/en
Publication of JPH10161692A publication Critical patent/JPH10161692A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 【課題】 音声モデルに対して高速な雑音適応を行なう
ことを可能とする音声認識装置を提供する。 【解決手段】 雑音モデルと音声モデルを用いて雑音適
応音声モデルをPMC法によって作成するに際し、従来
のように全モデルの全分布に対してPMC変換を行うの
ではなく、雑音適応部204にて、音声モデルの分布を
グループ化またはクラスタリングして複数の代表分布を
作成し、その各代表分布とそのグループ内分布の位置関
係を保存して、代表分布のみをPMC変換する。そし
て、PMC変換した代表分布と保存した位置関係とに基
づいて、雑音適応音声モデルを作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力音声に対して
音声認識を行う音声認識装置、及び音声認識方法に関す
るものである。
【0002】
【従来の技術】近年、音声認識を実用化するために利用
環境の雑音に対する耐性が盛んに検討されている。その
中で少量の雑音データから、音声モデルを適応した雑音
適応音声モデルを作成することができるPMC法が提案
されている。
【0003】図7は、PMC法における雑音適用処理の
流れを示す概念図である。
【0004】同図に示すように、PMC法における雑音
適応処理は、まず音声モデル(音声HMM)と雑音モデ
ル(雑音HMM)に対して、それぞれコサイン変換処理
601,602と指数変換処理603,604を順次施
し、その結果を合成する処理605を行う。そして、そ
の合成結果に対して対数変換処理606と逆コサイン変
換処理607を施して、雑音適応音声モデル(PMC−
HMM)を得る。
【0005】しかし、このPMC法において、認識性能
を上げるために音声モデルの種類を多くしたり分布数を
多くしたりすると、従来のPMC法では、全部の分布を
PMC変換するため、非常に多くの処理量を必要とす
る。
【0006】
【発明が解決しようとする課題】上述したように、従来
の音声認識方式において、PMC法により少量の雑音デ
ータを用いて詳細な音声モデル(多数モデルや多数分
布)を雑音適応する場合には、従来のPMC法では全て
の分布をPMC変換するため、非常に多くの処理量を必
要する、という問題を生ずる。
【0007】本発明は上記従来の問題点に鑑み、音声モ
デルに対して高速な雑音適応を行なうことを可能とする
音声認識装置、及び音声認識方法を提供することを目的
とする。
【0008】
【課題を解決するための手段】上記目的を達成するため
に、第1の発明である音声認識装置は、音声を取り込む
音声入力手段と、前記音声入力手段によって取り込まれ
た入力音声を分析する音響分析手段と、前記音響分析手
段の分析結果と認識対象の類似性を求めるモデルを作成
するモデル作成手段と、前記分析結果と前記モデルの出
力確率を求める出力確率算出手段と、認識対象の言語的
制約を記述する制約記述手段とを有し、これらの手段を
用いて言語探索を行い、入力音声に対する認識候補と尤
度を求めて認識結果を決定し出力する音声認識装置にお
いて、前記モデル作成手段は、入力データより非音声区
間を抽出し、抽出した区間のデータを用いて雑音モデル
を作成する雑音モデル作成手段と、音声モデルの分布を
グループ化またはクラスタリングして複数の代表分布を
作成する代表分布作成手段と、前記各代表分布とそのグ
ループ内分布の位置関係を保存する保存手段と、前記代
表分布のみをPMC変換するPMC変換手段と、前記P
MC変換手段によってPMC変換した代表分布と前記保
存手段に保存されている位置関係とに基づいて、前記モ
デルとして雑音適応音声モデルを作成する雑音適応音声
モデル作成手段とを備えたものである。
【0009】第2の発明である音声認識装置では、上記
第1の発明において、前記雑音適応音声モデル作成手段
は、前記代表分布とグループ内の各分布の差分べクト
ル、前記代表分布の平均値と分散、PMC変換後の代表
分布の平均値と分散、及びグループ内の各分布の平均値
と分散に基づいて、雑音適応後のグループ内の分布の平
均値と分散を決定する決定手段を備えたものである。
【0010】第3の発明である音声認識装置では、上記
第1または第2の発明において、前記代表分布作成手段
は、音声モデルの各状態に属している分布を1つのグル
ープとしたものである。
【0011】第4の発明である音声認識装置では、上記
第1または第2の発明において、前記代表分布作成手段
は、各分布間の距離が近い分布を1つのグループとした
ものである。
【0012】第5の発明である音声認識装置では、上記
第1または第2の発明において、前記代表分布作成手段
は、ある分布が近傍の複数のグループに属するように決
定する分布決定手段と、前記複数のグループに属する分
布が各々の代表分布で変換されたときに、その変換後の
複数の分布から1つの最終的な分布を作成する分布作成
手段とを備えたものである。
【0013】第6の発明である音声認識装置では、上記
第1乃至第5の発明において、前記制約記述手段は、辞
書及び文法を認識対象の言語的制約としたものである。
【0014】第7の発明である音声認識方法は、音声を
取り込む音声入力処理と、前記音声入力処理によって取
り込まれた入力音声を分析する音響分析処理と、前記音
響分析処理の分析結果と認識対象の類似性を求めるモデ
ルを作成するモデル作成処理と、前記分析結果と前記モ
デルの出力確率を求める出力確率算出処理と、認識対象
の言語的制約を記述する制約記述処理とを有し、これら
の処理を用いて言語探索を行い、入力音声に対する認識
候補と尤度を求めて認識結果を決定し出力する音声認識
方法において、前記モデル作成処理は、入力データより
非音声区間を抽出し、抽出した区間のデータを用いて雑
音モデルを作成する雑音モデル作成処理と、音声モデル
の分布をグループ化またはクラスタリングして複数の代
表分布を作成する代表分布作成処理と、前記各代表分布
とそのグループ内分布の位置関係を保存する保存処理
と、前記代表分布のみをPMC変換するPMC変換処理
と、前記PMC変換処理によってPMC変換した代表分
布と前記保存処理に保存されている位置関係とに基づい
て、前記モデルとして雑音適応音声モデルを作成する雑
音適応音声モデル作成処理とを実行するようにしたもの
である。
【0015】第8の発明である音声認識方法では、上記
第7の発明において、前記雑音適応音声モデル作成処理
は、前記代表分布とグループ内の各分布の差分べクト
ル、前記代表分布の平均値と分散、PMC変換後の代表
分布の平均値と分散、及びグループ内の各分布の平均値
と分散に基づいて、雑音適応後のグループ内の分布の平
均値と分散を決定する決定処理を実行するようにしたも
のである。
【0016】第9の発明である音声認識方法では、上記
第7または第8の発明において、前記代表分布作成処理
は、音声モデルの各状態に属している分布を1つのグル
ープとしたことにある。
【0017】第10の発明である音声認識方法では、上
記第7または第8の発明において、前記代表分布作成処
理は、各分布間の距離が近い分布を1つのグループとし
たものである。
【0018】第11の発明である音声認識方法では、上
記第7または第8の発明において、前記代表分布作成処
理は、ある分布が近傍の複数のグループに属するように
決定する分布決定処理と、前記複数のグループに属する
分布が各々の代表分布で変換されたときに、その変換後
の複数の分布から1つの最終的な分布を作成する分布作
成処理とを実行するようにしたものである。
【0019】第12の発明である音声認識方法では、上
記第7乃至第11の発明において、前記制約記述処理
は、辞書及び文法を認識対象の言語的制約としたもので
ある。
【0020】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。
【0021】図1は、本発明の実施の一形態に係る音声
認識装置の概略構成を示すブロック図である。
【0022】図中の101はマイク101aやA/D変
換器101bを含む音声入力部であり、102は音声パ
ラメータを求める音響分析部である。103は出力確率
計算を行なう出力確率計算部であり、104は雑音適応
後の音声認識用モデルである。また、105は言語探索
を行なう言語探索部であり、106は言語処理に用いる
文法・辞書であり、107は結果を出力する表示部であ
る。
【0023】さらに、201は雑音モデルの学習部であ
り、202雑音モデル(HMM)であり、203は音声
モデル(HMM)であり、204は雑音適応の実行部で
ある。
【0024】本実施形態の音声認識装置は、上記の要素
により構成され、図2に示すフローチャートに従って動
作する。
【0025】まず、音声認識時では、音声入力部101
で切り出された音声は(ステップS301)、音響分析
部102にてフレーム毎に音声パラメータに分析され
(ステップS302)、出力確率計算部103におい
て、話者適応後のHMM104を用いて出力確率の計算
を行なう(ステップS303)。
【0026】続いて、言語探索部105では、雑音適応
音声モデル104との認識用の文法・辞書106を用い
て言語探索を行ない認識結果とその尤度を求める(ステ
ップS304)。この結果をに認識結果として表示部1
07に出力する(ステップS305)。
【0027】一方、雑音適応時では、前記ステップS3
01及びステップS302を経て、入力音声から非音声
データ(雑音)を取り出し、雑音モデル学習部201に
て雑音モデルを学習し(ステップS401)、雑音モデ
ル(雑音HMM)202を作成する(ステップS40
2)。この雑音モデル202と音声モデル(音声HM
M)203を用いて、雑音適応部204にて雑音適応音
声モデル(雑音適応音声HMM)104を作成する(ス
テップS403)。
【0028】次に、前記ステップS403の雑音適応処
理の詳細を図3フローチャートを用いて説明する。
【0029】まず、音声モデル203の分布をグループ
化し(ステップS501)、各グループに属する分布を
用いて、代表分布を作成する(ステップS502)。こ
の代表分布は、次式(1),(2)で実現される。wは
重み係数を示し、Gはグループを示す。
【0030】
【数1】 続いて、代表分布とグループ内の各分布の位置関係を求
める(ステップS503)。代表分布は、ステップS5
04にてPMC法により雑音適応(PMC)変換が施さ
れる。PMC法の処理手順は前述した通りである(図7
参照)。PMC変換された代表分布とステップS503
で求めた位置関係とを用いて、各分布の雑音適応変換後
の位置を決定する(ステップS505)。各分布の雑音
適応の変換は次式(3),(4),(5),(6)で実
現される。
【0031】平均値と分散の両方の適応を行なう場合に
は、
【0032】
【数2】 または、平均値のみ適応を行ない、分散の適応を行なわ
ない場合には、
【0033】
【数3】 となる。この雑音適応法の概念図を図4に示す。
【0034】また、分布のグループ化に関しては、図5
に示すように音声モデルの各状態をグループとして代表
分布を作成する方法や、図6に示すように、近傍分布を
階層的にクラスタリングして(Level0,1,2)
代表分布の作成する方法などがある。
【0035】次に、本実施形態の実験結果を説明する。
【0036】雑音のない音声データを用いて学習した全
状態数710余りの状態共有triphoneHMM
(3状態6分布)を、雑音適応/環境適応し(MCMS
−PMC:音講論H8春,2−5−15、p87−8
8、1996.3.)、520単語の電話音声を認識す
る実験を行なった。
【0037】次の表1は、音声認識率(%)とPMC変
換に要した時間の割り合いである。
【0038】
【表1】 この表1から明らかなように、本実施形態のPMC法
は、従来のPMC法に比べて、音声認識率について従来
とほぼ同等のレベルでありながら、変換時間を大幅に短
縮することができる。
【0039】なお、本発明は図示の実施形態に限定され
ず種々の変形が可能である。その変形例としては例えば
次のようなものがある。
【0040】(1)本実施形態では、分布のグループ化
を、1分布1グループとなるように行なったが、ある分
布が複数のグループに存在するようにグループ化しても
構わない。
【0041】(2)本実施形態では、分布のグループ化
で、一分布が複数のグループに存在するようにグループ
化した場合に、変換により複数の変換後の分布が作成さ
れたときは、それらの分布を用いて雑音適応後の分布を
1つ作成する際に、それらの重心や平均より求めたり、
代表分布を求める式を用いたりすればよい。
【0042】
【発明の効果】以上詳述したように、第1の発明である
音声認識装置によれば、雑音モデルと音声モデルを用い
て雑音適応音声モデルをPMC法によって作成するに際
し、従来のように全モデルの全分布に対してPMC変換
を行うのではなく、音声モデルの分布をグループ化また
はクラスタリングして複数の代表分布を作成し、その各
代表分布とそのグループ内分布の位置関係を保存し、代
表分布のみをPMC変換し、そのPMC変換した代表分
布と保存した位置関係とに基づいて、雑音適応音声モデ
ルを作成する。これにより、詳細な音声モデル(多数モ
デルや多数分布)を高速に雑音適応することができ、高
性能な音声認識を実現することが可能になる。
【0043】第2の発明である音声認識装置によれば、
上記第1の発明において、雑音適応音声モデル作成手段
を簡易且つ的確に機能させることができる。
【0044】第3の発明である音声認識装置によれば、
上記第1または第2の発明において、代表分布作成手段
を簡単な構成にすることができる。
【0045】第4の発明である音声認識装置によれば、
上記第1または第2の発明において、代表分布作成手段
を簡単な構成にすることができる。
【0046】第5の発明である音声認識装置によれば、
上記第1または第2の発明において、代表分布作成手段
を、簡易且つ的確に機能させることができる。
【0047】第6の発明である音声認識装置によれば、
上記第1乃至第5の発明において、言語探索を的確に行
うことができる。
【0048】第7の発明である音声認識方法によれば、
上記第1の発明と同等の効果を得ることができる。
【0049】第8の発明である音声認識方法によれば、
上記第7の発明において、上記第2の発明と同等の効果
を得ることができる。
【0050】第9の発明である音声認識方法によれば、
上記第7または第8の発明において、上記第3の発明と
同等の効果を得ることができる。
【0051】第10の発明である音声認識方法によれ
ば、上記第7または第8の発明において、上記第4の発
明と同等の効果を得ることができる。
【0052】第11の発明である音声認識方法によれ
ば、上記第7または第8の発明において、上記第5の発
明と同等の効果を得ることができる。
【0053】第12の発明である音声認識方法によれ
ば、上記第7乃至第11の発明において、上記第6の発
明と同等の効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態に係る音声認識装置の概
略構成を示すブロック図である。
【図2】実施形態の全体的な処理の流れを示すフローチ
ャートである。
【図3】実施形態における雑音適応部の処理の流れを示
すフローチャートである。
【図4】実施形態の雑音適応法の概念図である。
【図5】実施形態において状態をグループとした代表分
布の作成を示す図である。
【図6】実施形態において近傍分布を階層的なクラスタ
リングしてとした代表分布の作成を示す図である。
【図7】PMC法における雑音適用処理の流れを示す概
念図である。
【符号の説明】
101 音声入力部 102 音響分析部 103 出力確率計算部 104 雑音適応後の音声認識用モデル 105 言語探索部 106 文法・辞書 107 表示部 201 雑音モデルの学習部 202 雑音モデル(HMM) 203 音声モデル(HMM) 204 雑音適応の実行部

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 音声を取り込む音声入力手段と、前記音
    声入力手段によって取り込まれた入力音声を分析する音
    響分析手段と、前記音響分析手段の分析結果と認識対象
    の類似性を求めるモデルを作成するモデル作成手段と、
    前記分析結果と前記モデルの出力確率を求める出力確率
    算出手段と、認識対象の言語的制約を記述する制約記述
    手段とを有し、これらの手段を用いて言語探索を行い、
    入力音声に対する認識候補と尤度を求めて認識結果を決
    定し出力する音声認識装置において、 前記モデル作成手段は、 入力データより非音声区間を抽出し、抽出した区間のデ
    ータを用いて雑音モデルを作成する雑音モデル作成手段
    と、 音声モデルの分布をグループ化またはクラスタリングし
    て複数の代表分布を作成する代表分布作成手段と、 前記各代表分布とそのグループ内分布の位置関係を保存
    する保存手段と、 前記代表分布のみをPMC変換するPMC変換手段と、 前記PMC変換手段によってPMC変換した代表分布と
    前記保存手段に保存されている位置関係とに基づいて、
    前記モデルとして雑音適応音声モデルを作成する雑音適
    応音声モデル作成手段とを備えたことを特徴とする音声
    認識装置。
  2. 【請求項2】 前記雑音適応音声モデル作成手段は、 前記代表分布とグループ内の各分布の差分べクトル、前
    記代表分布の平均値と分散、PMC変換後の代表分布の
    平均値と分散、及びグループ内の各分布の平均値と分散
    に基づいて、雑音適応後のグループ内の分布の平均値と
    分散を決定する決定手段を備えたことを特徴とする請求
    項1記載の音声認識装置。
  3. 【請求項3】 前記代表分布作成手段は、 音声モデルの各状態に属している分布を1つのグループ
    としたことを特徴とする請求項1または請求項2記載の
    音声認識装置。
  4. 【請求項4】 前記代表分布作成手段は、 各分布間の距離が近い分布を1つのグループとしたこと
    を特徴とする請求項1または請求項2記載の音声認識装
    置。
  5. 【請求項5】 前記代表分布作成手段は、 ある分布が近傍の複数のグループに属するように決定す
    る分布決定手段と、 前記複数のグループに属する分布が各々の代表分布で変
    換されたときに、その変換後の複数の分布から1つの最
    終的な分布を作成する分布作成手段とを備えたことを特
    徴とする請求項1または請求項2記載の音声認識装置。
  6. 【請求項6】 前記制約記述手段は、辞書及び文法を認
    識対象の言語的制約としたことを特徴とする請求項1乃
    至請求項5記載の音声認識装置。
  7. 【請求項7】 音声を取り込む音声入力処理と、前記音
    声入力処理によって取り込まれた入力音声を分析する音
    響分析処理と、前記音響分析処理の分析結果と認識対象
    の類似性を求めるモデルを作成するモデル作成処理と、
    前記分析結果と前記モデルの出力確率を求める出力確率
    算出処理と、認識対象の言語的制約を記述する制約記述
    処理とを有し、これらの処理を用いて言語探索を行い、
    入力音声に対する認識候補と尤度を求めて認識結果を決
    定し出力する音声認識方法において、 前記モデル作成処理は、 入力データより非音声区間を抽出し、抽出した区間のデ
    ータを用いて雑音モデルを作成する雑音モデル作成処理
    と、 音声モデルの分布をグループ化またはクラスタリングし
    て複数の代表分布を作成する代表分布作成処理と、 前記各代表分布とそのグループ内分布の位置関係を保存
    する保存処理と、 前記代表分布のみをPMC変換するPMC変換処理と、 前記PMC変換処理によってPMC変換した代表分布と
    前記保存処理に保存されている位置関係とに基づいて、
    前記モデルとして雑音適応音声モデルを作成する雑音適
    応音声モデル作成処理とを実行することを特徴とする音
    声認識方法。
  8. 【請求項8】 前記雑音適応音声モデル作成処理は、 前記代表分布とグループ内の各分布の差分べクトル、前
    記代表分布の平均値と分散、PMC変換後の代表分布の
    平均値と分散、及びグループ内の各分布の平均値と分散
    に基づいて、雑音適応後のグループ内の分布の平均値と
    分散を決定する決定処理を実行することを特徴とする請
    求項7記載の音声認識方法。
  9. 【請求項9】 前記代表分布作成処理は、 音声モデルの各状態に属している分布を1つのグループ
    としたことを特徴とする請求項7または請求項8記載の
    音声認識方法。
  10. 【請求項10】 前記代表分布作成処理は、 各分布間の距離が近い分布を1つのグループとしたこと
    を特徴とする請求項7または請求項8記載の音声認識方
    法。
  11. 【請求項11】 前記代表分布作成処理は、 ある分布が近傍の複数のグループに属するように決定す
    る分布決定処理と、 前記複数のグループに属する分布が各々の代表分布で変
    換されたときに、その変換後の複数の分布から1つの最
    終的な分布を作成する分布作成処理とを実行することを
    特徴とする請求項7または請求項8記載の音声認識方
    法。
  12. 【請求項12】 前記制約記述処理は、辞書及び文法を
    認識対象の言語的制約としたことを特徴とする請求項7
    乃至請求項11記載の音声認識方法。
JP8336291A 1996-12-03 1996-12-03 音声認識装置及び音声認識方法 Pending JPH10161692A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP8336291A JPH10161692A (ja) 1996-12-03 1996-12-03 音声認識装置及び音声認識方法
EP97309678A EP0847041B1 (en) 1996-12-03 1997-12-02 Method and apparatus for speech recognition performing noise adaptation
DE69725106T DE69725106T2 (de) 1996-12-03 1997-12-02 Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
US08/982,385 US5956679A (en) 1996-12-03 1997-12-02 Speech processing apparatus and method using a noise-adaptive PMC model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8336291A JPH10161692A (ja) 1996-12-03 1996-12-03 音声認識装置及び音声認識方法

Publications (1)

Publication Number Publication Date
JPH10161692A true JPH10161692A (ja) 1998-06-19

Family

ID=18297591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8336291A Pending JPH10161692A (ja) 1996-12-03 1996-12-03 音声認識装置及び音声認識方法

Country Status (4)

Country Link
US (1) US5956679A (ja)
EP (1) EP0847041B1 (ja)
JP (1) JPH10161692A (ja)
DE (1) DE69725106T2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266636B1 (en) 1997-03-13 2001-07-24 Canon Kabushiki Kaisha Single distribution and mixed distribution model conversion in speech recognition method, apparatus, and computer readable medium
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
WO2005098820A1 (ja) * 2004-03-31 2005-10-20 Pioneer Corporation 音声認識装置及び音声認識方法
JP2005338358A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル雑音適応化方法およびこの方法を実施する装置
US7209881B2 (en) 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000047696A (ja) 1998-07-29 2000-02-18 Canon Inc 情報処理方法及び装置、その記憶媒体
JP3969908B2 (ja) 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
JP3728172B2 (ja) 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
JP3814459B2 (ja) 2000-03-31 2006-08-30 キヤノン株式会社 音声認識方法及び装置と記憶媒体
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
JP4297602B2 (ja) * 2000-09-18 2009-07-15 パイオニア株式会社 音声認識システム
JP2002091478A (ja) * 2000-09-18 2002-03-27 Pioneer Electronic Corp 音声認識システム
EP1326164A4 (en) * 2000-10-11 2005-12-28 Canon Kk INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING AND STORAGE MEDIUM
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
JP2002268681A (ja) * 2001-03-08 2002-09-20 Canon Inc 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法
US7319954B2 (en) * 2001-03-14 2008-01-15 International Business Machines Corporation Multi-channel codebook dependent compensation
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US20030033143A1 (en) * 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
US7120580B2 (en) * 2001-08-15 2006-10-10 Sri International Method and apparatus for recognizing speech in a noisy environment
US6998068B2 (en) * 2003-08-15 2006-02-14 3M Innovative Properties Company Acene-thiophene semiconductors
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
JP4061094B2 (ja) * 2002-03-15 2008-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法
JP4109063B2 (ja) * 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
JP4217495B2 (ja) * 2003-01-29 2009-02-04 キヤノン株式会社 音声認識辞書作成方法、音声認識辞書作成装置及びプログラム、記録媒体
JP4357867B2 (ja) * 2003-04-25 2009-11-04 パイオニア株式会社 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
JP3836815B2 (ja) * 2003-05-21 2006-10-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
US7109519B2 (en) * 2003-07-15 2006-09-19 3M Innovative Properties Company Bis(2-acenyl)acetylene semiconductors
DE602004006429D1 (de) * 2003-10-08 2007-06-21 Philips Intellectual Property Anpassung einer umgebungsfehlanpassung für spracherkennungssysteme
JP2005249816A (ja) * 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
DE102004012209A1 (de) * 2004-03-12 2005-10-06 Siemens Ag Durch einen Benutzer steuerbare oder durch externe Parameter beeinflussbare Geräuschreduktion
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
EP1794218B1 (de) * 2004-10-01 2020-05-13 Merck Patent GmbH Elektronische vorrichtungen enthaltend organische halbleiter
JP4822829B2 (ja) * 2005-12-14 2011-11-24 キヤノン株式会社 音声認識装置および方法
JP5286667B2 (ja) * 2006-02-22 2013-09-11 コニカミノルタ株式会社 映像表示装置、及び映像表示方法
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US8615393B2 (en) * 2006-11-15 2013-12-24 Microsoft Corporation Noise suppressor for speech recognition
CN101887725A (zh) * 2010-04-30 2010-11-17 中国科学院声学研究所 一种基于音素混淆网络的音素后验概率计算方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3397372B2 (ja) * 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
JP3581401B2 (ja) * 1994-10-07 2004-10-27 キヤノン株式会社 音声認識方法
JP3453456B2 (ja) * 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6266636B1 (en) 1997-03-13 2001-07-24 Canon Kabushiki Kaisha Single distribution and mixed distribution model conversion in speech recognition method, apparatus, and computer readable medium
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
US7209881B2 (en) 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
WO2005098820A1 (ja) * 2004-03-31 2005-10-20 Pioneer Corporation 音声認識装置及び音声認識方法
US7813921B2 (en) 2004-03-31 2010-10-12 Pioneer Corporation Speech recognition device and speech recognition method
JP2005338358A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル雑音適応化方法およびこの方法を実施する装置
JP4510517B2 (ja) * 2004-05-26 2010-07-28 日本電信電話株式会社 音響モデル雑音適応化方法およびこの方法を実施する装置

Also Published As

Publication number Publication date
DE69725106D1 (de) 2003-10-30
DE69725106T2 (de) 2004-04-29
EP0847041A2 (en) 1998-06-10
EP0847041B1 (en) 2003-09-24
US5956679A (en) 1999-09-21
EP0847041A3 (en) 1999-02-03

Similar Documents

Publication Publication Date Title
JPH10161692A (ja) 音声認識装置及び音声認識方法
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
JPH02238496A (ja) 音声認識装置
CN109036381A (zh) 语音处理方法及装置、计算机装置及可读存储介质
JP2002014692A (ja) 音響モデル作成装置及びその方法
CN101515456A (zh) 语音识别接口装置及其语音识别方法
Thomas et al. Towards reducing the need for speech training data to build spoken language understanding systems
Korkmaz et al. Emotion recognition from speech signal using mel-frequency cepstral coefficients
Ananthi et al. Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired
Oura et al. A covariance-tying technique for HMM-based speech synthesis
CN111785302A (zh) 说话人分离方法、装置及电子设备
KR101727306B1 (ko) 언어모델 군집화 기반 음성인식 장치 및 방법
Li et al. A multi-feature multi-classifier system for speech emotion recognition
WO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム記録媒体
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
Mendiratta et al. ASR system for isolated words using ANN with back propagation and fuzzy based DWT
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
Hashimoto et al. Bayesian context clustering using cross validation for speech recognition
Nagino et al. Building an effective corpus by using acoustic space visualization (COSMOS) method [speech recognition applications]
JP2001109491A (ja) 連続音声認識装置および方法
US20230386491A1 (en) Artificial intelligence device
Khalifa et al. Statistical modeling for speech recognition
Tian et al. Tree-based covariance modeling of hidden Markov models
Zeng et al. Hearing environment recognition in hearing aids

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051108

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061226