JP5172973B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP5172973B2
JP5172973B2 JP2010548268A JP2010548268A JP5172973B2 JP 5172973 B2 JP5172973 B2 JP 5172973B2 JP 2010548268 A JP2010548268 A JP 2010548268A JP 2010548268 A JP2010548268 A JP 2010548268A JP 5172973 B2 JP5172973 B2 JP 5172973B2
Authority
JP
Japan
Prior art keywords
voice data
utterance
registered
unit
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010548268A
Other languages
English (en)
Other versions
JPWO2010086925A1 (ja
Inventor
道弘 山崎
純 石井
博紀 坂下
和行 野木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2010548268A priority Critical patent/JP5172973B2/ja
Publication of JPWO2010086925A1 publication Critical patent/JPWO2010086925A1/ja
Application granted granted Critical
Publication of JP5172973B2 publication Critical patent/JP5172973B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Navigation (AREA)

Description

この発明は、音声登録型の音声認識装置に関するものである。
従来の登録型の音声認識装置としては、登録用発話を1発話行い、当該発話を既に登録されている標準パタンと比較し、標準パタン(既登録語彙)と異なる発話(混同しやすさが低い発話)と判断した場合に登録処理を行うものがある(例えば、特許文献1参照)。
特開2002−297181号公報
従来の登録型の音声認識装置では、登録発話を1発話のみ受理し、この発話を既に登録されている標準パタンと比較した結果から登録可否を判定するので、登録発話の安定性の確認ができない。例えば、騒音環境下で音声区間が一部欠落した場合や、非定常騒音を誤って音声区間として検出した場合であっても、既に登録されている標準パタンと異なる内容であれば登録可能と判断されてしまい、誤った音声が標準パタンに登録される可能性がある。このように誤った入力に対して標準パタンとして登録されると、話者が実際に登録しようとして発話した内容と異なる音声で登録されるため、認識対象の発話が発せられた際に誤認識されるという課題があった。
この発明は、上記のような課題を解決するためになされたもので、非定常騒音や音声区間の誤検出等による誤登録を低減して音声の認識性能を向上させることができ、また利便性の向上やメモリの不要な使用を低減することができる音声認識装置を得ることを目的とする。
この発明に係る音声認識装置は、複数回発話された音声を入力する音声入力部と、音声入力部が入力した複数回発話された音声データを記憶する記憶部と、記憶部から読み出した複数回発話された音声データ間の類似度を求め、類似度が第1の閾値より大きい場合に音声データを登録可と判定する安定性検証部と、安定性検証部により登録可と判定された音声データを用いて標準パタンを作成する標準パタン作成部と、1発話分の再発話要求を実行する再発話要求部とを備え、音声入力部は、予め定めた複数回分だけ発話された音声を入力し、安定性検証部は、記憶部から読み出した予め定めた複数回分の音声データに登録可となる音声データがなかった場合、再発話要求部に再発話要求を実行させ、当該再発話要求に応じた1発話分の音声データと記憶部に既に記憶された複数回分の音声データとの音声データ間の類似度を求め、音声データ間の類似度のうちの最大値が第2の閾値より大きい場合に当該最大の類似度を与える音声データを登録可と判定するものである。
この発明によれば、複数回発話された音声データ間の類似度を求め、類似度が第1の閾値より大きい場合に音声データを登録可と判定し、登録可と判定された音声データを用いて標準パタンを作成し、1発話分の再発話要求を実行し、予め定めた複数回分だけ発話された音声を入力し、登録可となる音声データがなかった場合、再発話要求を実行し、当該再発話要求に応じた1発話分の音声データと既に記憶された複数回分の音声データとの音声データ間の類似度を求め、音声データ間の類似度のうちの最大値が第2の閾値より大きい場合に当該最大の類似度を与える音声データを登録可と判定するので、非定常騒音や音声区間の誤検出等による誤登録を低減して音声の認識性能を向上させることができ、また発話回数の不要な増加を防ぐことにより、利便性の向上やメモリの不要な使用を低減することができるという効果がある。
この発明の実施の形態1による登録型の音声認識装置の構成を示すブロック図である。 図1中の登録処理部による動作の流れを示すフローチャートである。 この発明の実施の形態2による登録型の音声認識装置の構成を示すブロック図である。 図3中の登録処理部による動作の流れを示すフローチャートである。 図3中の登録処理部による他の動作例を示すフローチャートである。 図3中の登録処理部による他の動作例を示すフローチャートである。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面にしたがって説明する。
実施の形態1.
図1は、この発明の実施の形態1による登録型の音声認識装置の構成を示すブロック図である。図1において、実施の形態1による音声認識装置は、登録処理部1、標準パタン記憶部2及び認識処理部3を備える。登録処理部1は、発話を標準パタンとして登録しようとする話者(以下、登録話者と呼ぶ)から発せられた登録対象の発話(以下、登録発話と呼ぶ)を入力して標準パタンを作成する手段であり、音声入力部11、登録音声データ記憶部(記憶部)12、発話安定性検証部(安定性検証部)13及び標準パタン作成部14を備える。
音声入力部11は、登録発話を複数回受理し、これら複数回の登録発話に対する複数個の登録音声データを作成する手段である。登録音声データ記憶部12は、音声入力部11で作成された登録音声データを記憶する記憶部である。発話安定性検証部13は、登録音声データ記憶部12に記憶されている複数個の登録音声データに対する類似度を算出し、類似度が予め定めた閾値以上であると、上記複数個の登録音声データを登録可と判定し、当該閾値未満である場合には登録不可であると判定する手段である。標準パタン作成部14は、発話安定性検証部13で登録可と判定された登録発話データを用いて標準パタンを作成する手段である。
標準パタン記憶部2は、登録処理部1にて作成された標準パタンを記憶する記憶部である。認識処理部3は、標準パタン記憶部2に記憶された標準パタンを用いて、話者から発せられた音声認識の対象となる発話(以下、認識対象発話と呼ぶ)に対する音声認識を実行する手段である。
なお、音声入力部11、発話安定性検証部13、標準パタン作成部14及び認識処理部3は、この発明の趣旨に従う音声登録・認識用プログラムをコンピュータに読み込ませ、そのCPUに実行させることで、ハードウエアとソフトウエアが協働した具体的な手段として当該コンピュータ上で実現することができる。また、登録音声データ記憶部12及び標準パタン記憶部2は、上記コンピュータが備える記憶装置(例えば、ハードディスク装置や外部記憶メディアなど)の記憶領域上に構築することができる。
次に動作について説明する。
図2は、図1中の登録処理部による動作の流れを示すフローチャートであり、この図に沿って登録処理部1の各構成部の動作を詳細に説明する。
装置外部からの操作等によって登録処理が開始されると、音声入力部11が、登録音声データ記憶部12に記憶されている登録音声データを初期化(登録音声データを削除)(ステップST1)し、発話回数Nをカウントするカウンタ(図1において不図示)のカウント値を0とする(ステップST2)。
この状態で、登録話者は、登録処理部1に対して発話(登録発話)する。音声入力部11では、発話回数Nをカウントする上記カウンタのカウント値を1増やして(ステップST3)、登録話者が発した登録発話を順次入力する(ステップST4)。次に、音声入力部11は入力した登録発話を登録音声データとして登録音声データ記憶部12に記憶する(ステップST5)。
登録発話を入力する度に、音声入力部11は、上記カウンタでカウントしている発話回数Nと所定の閾値Mとを比較し、発話回数Nが閾値M以上となったか否かを判定する(ステップST6)。閾値Mとは、同一内容を発話する2以上の整数値で規定された発話回数である。発話回数Nが閾値Mに満たない場合(ステップST6;NO)、音声入力部11は、ステップST3の処理に戻り、発話回数Nが閾値M以上となるまで、ステップST3からステップST5までの処理を繰り返す。
一方、発話回数Nが閾値M以上になると(ステップST6;YES)、発話安定性検証部13が、登録音声データ記憶部12に記憶されている登録音声データに対する類似度を算出する(ステップST7)。複数の登録音声データの類似度を算出するには、例えば、以下のような方法がある。
(1)算出方法1
発話回数M分の同一内容を示す登録音声データが登録音声データ記憶部12に記憶されている場合、発話安定性検証部13が、発話回数M分の登録音声データについて2発話分の全ての組み合わせを求める。次に、発話安定性検証部13が、2発話分の両登録音声データの特徴量を抽出し、当該特徴量を用いた動的計画法によって当該2発話間の登録音声データの類似度を算出する。この類似度を2発話分の全ての組み合わせから求め、得られた類似度の平均値を発話回数Mの登録音声データに対する類似度とする。
(2)算出方法2
算出方法1において、類似度の平均値の代わりに、2発話分の全ての組み合わせの類似度のうち、最小となる類似度(最も類似していない発話間の類似度)を発話回数Mの登録音声データに対する類似度とする。
(3)算出方法3
2発話分の組み合わせにおける登録音声データ間の類似度を算出するにあたり、発話安定性検証部13、標準パタン作成部14及び認識処理部3が協働して、上記組み合わせのうちの1発話を仮の標準パタンとして登録し、もう1発話を入力として音声認識を行い、この認識結果として得られるスコア(尤度)を、2発話間の登録音声データの類似度として使用する。この類似度を2発話分の全ての組み合わせから求め、得られた類似度の平均値若しくは最小類似度を発話回数Mの登録音声データに対する類似度とする。
次に、発話安定性検証部13は、ステップST7で算出した発話回数M以上の登録音声データに対する類似度が所定の閾値Tl(第1の閾値)以上であるか否かを判定する(ステップST8)。ここで、類似度が閾値Tl未満であると(ステップST8;NO)、発話安定性検証部13は、入力された発話の安定性が欠けると判断して、登録音声データ記憶部12に記憶されている登録音声データについては標準パタンを作成しない、いわゆる登録失敗として登録判定を終了する。
類似度が閾値Tl以上であると(ステップST8;YES)、発話安定性検証部13は、標準パタン作成部14にその旨を通知する。この通知を受けると、標準パタン作成部14は、登録音声データ記憶部12に記憶されている登録音声データから標準パタンを作成して標準パタン記憶部2に登録する(ステップST9、登録処理)。
標準パタンとしては、例えば登録音声データ(入力発話音声)について単位時間毎に音声の特徴量を抽出し、これら特徴量の時系列データ(特徴量ベクトル時系列)が挙げられる。また、予め音声の音声片(音節、音素等)毎に作成した各音声片の特徴を表すモデルを作成しておき、音声片のモデルの時系列(ラベル列)を標準パタンとして登録してもよい。
ステップST9において、標準パタン作成部14は、登録音声データ記憶部12に記憶されている登録音声データのうち、K(Kは1以上M以下の整数)個分の登録音声データからそれぞれ標準パタンを作成し、これらK個の標準パタンを標準パタン記憶部2に登録する。K個分の登録音声データの選別方法としては、例えば、発話安定性検証部13で算出された各組み合わせの類似度が近い順にK個分を選別する方法や、登録音声データの特徴量として重心を求め、重心に近い順にK個分を選別する方法が挙げられる。
なお、K個の標準パタンを作成する代わりに、K個の登録音声データに対して音声の特徴量をそれぞれ抽出し、これらのうち平均的な特徴量を持つ登録用データを作成して標準パタンとして登録してもよい。
以上のように、この実施の形態1によれば、複数回発話された音声を入力する音声入力部11と、音声入力部11が入力した複数回発話された音声データを記憶する登録音声データ記憶部12と、登録音声データ記憶部12から読み出した複数回発話された音声データ間の類似度を求め、類似度が閾値Tlより大きい場合に音声データを登録可と判定する発話安定性検証部13と、発話安定性検証部13により登録可と判定された音声データを用いて標準パタンを作成する標準パタン作成部14とを備える。このように構成することにより、登録発話を複数回分入力して、当該発話間の類似度が所定の閾値以上となる場合にのみ登録処理が行われ、複数回入力された発話が近い(類似する)場合にのみ登録される。従って、同一内容の複数回の発話が近い場合、すなわち入力された発話が安定している場合にのみ登録が完了するので、非定常騒音や音声区間の誤検出等に起因する誤登録を低減することができ、音声認識の性能(認識率)が向上する。
また、この実施の形態1によれば、登録の際に複数回の発話から標準パタンを作成するので、発話のバリエーションに対応した標準パタンを作成でき、これを用いた音声認識の性能を向上させることができる。
実施の形態2.
図3は、この発明の実施の形態2による登録型の音声認識装置の構成を示すブロック図である。図3において、実施の形態2による音声認識装置は、登録処理部1A、標準パタン記憶部2及び認識処理部3を備える。登録処理部1Aは、音声入力部11、登録音声データ記憶部12、発話安定性検証部13a、標準パタン作成部14及び再発話要求部15を備える。
発話安定性検証部13aは、登録音声データ記憶部12に記憶されている複数個の登録音声データのうち、同一内容で発話された所定の回数分(M発話分)の登録音声データの各組み合わせに対する類似度を算出し、最大の類似度をとるM発話の組み合わせとその類似度を求め、当該類似度が予め定めた閾値以上であると登録可と判定し、当該閾値未満である場合には登録不可であると判定する手段である。再発話要求部15は、発話安定性検証部13aで登録不可と判定された場合に、登録話者に対して再発話の要求を行う手段である。なお、発話安定性検証部13a及び再発話要求部15以外の構成要素は上記実施の形態1と同様であるので説明を省略する。
次に動作について説明する。
図4は、図3中の登録処理部による動作の流れを示すフローチャートであり、この図に沿って登録処理部1Aの各構成部の動作を詳細に説明する。図4において、ステップST1からステップST6までの処理は、上記実施の形態1の図2で示した内容と同様であるので説明を省略する。
発話回数Nが閾値M以上になると(ステップST6;YES)、発話安定性検証部13aは、登録音声データ記憶部12に記憶されている登録音声データのうち、同一内容で発話されたM発話分の登録音声データの各組み合わせに対する類似度をそれぞれ算出し、最大の類似度をとるM発話分の組み合わせ及びその類似度を求める(ステップST7a)。なお、複数発話(M発話分)の登録音声データの組み合わせに対する類似度の算出は、上記実施の形態1と同様である。
最大の類似度をとるM発話分の組み合わせ及びその類似度を求めると、発話安定性検証部13aは、求めた最大の類似度が予め設定した閾値Tl以上であるか否かを判定する(ステップST8)。最大の類似度が閾値Tl以上であると(ステップST8;YES)、発話安定性検証部13aは、標準パタン作成部14にその旨を通知する。この通知を受けると、標準パタン作成部14は、当該M発話分の登録音声データから標準パタンを作成して標準パタン記憶部2に登録する(ステップST9、登録処理)。
一方、最大の類似度が閾値Tl未満であると(ステップST8;NO)、発話安定性検証部13aは、その旨を再発話要求部15に通知する。この通知を受けると、再発話要求部15は、不図示の表示装置若しくはスピーカなどを用いて文書表示や音声出力によって、登録話者に対し1発話分の再発話を要求する(ステップST8−1)。
この状態で登録話者が1発話すると、音声入力部11が、発話回数Nをカウントするためのカウンタのカウント値を1増やし(ステップST3)、最大の類似度が閾値Tl以上になるまで(ステップST8;YES)、ステップST4からステップST8までの処理を繰り返す。
この場合、再発話された1発話を含まないM発話分の登録音声データの組み合わせの類似度は既に算出済みであるため、再発話により新たに追加した1発話分を含めたM発話分の登録音声データの組み合わせについて類似度を算出すればよい。例えば、新たに追加した1発話分の音声データと登録音声データ記憶部12に既に登録されているM−1回分の音声データとを合わせたM発話分の音声データ間の類似度を求めて、最大の類似度となる発話の組み合わせを特定し、この最大の類似度が閾値以上になった場合に当該組み合わせの音声データを登録する。
以上のように、この実施の形態2によれば、1発話分の再発話要求を実行する再発話要求部15を備え、音声入力部11が、予め定めた複数回分だけ発話された音声を入力し、発話安定性検証部13aが、登録音声データ記憶部12から読み出した予め定めた複数回分の音声データに登録可となる音声データがなかった場合、再発話要求部15に再発話要求を実行させ、当該再発話要求に応じた1発話分の音声データと登録音声データ記憶部12に既に記憶された複数回分の音声データとの音声データ間の類似度を求め、音声データ間の類似度のうちの最大値が閾値Tlより大きい場合に当該最大の類似度を与える音声データを登録可と判定する。このように構成することにより、上記実施の形態1と同様な効果が得られるとともに、登録に失敗した際に改めてM発話分の登録発話を行う場合と比較して、登録に必要な発話回数を減らすことができ、登録話者の負担を軽減することができる。
また、上記実施の形態2において、図5に示すように、最大の類似度が閾値Tl未満である場合(ステップST8;NO)、音声入力部11が、上記カウンタでカウントしている発話回数N(NはM以上となっている状態)と、発話回数の上限を示す所定の閾値Tnとを比較し、発話回数Nが閾値Tn以上となったか否かを判定するステップST10を追加してもよい。
ここで、発話回数Nが閾値Tn未満であれば(ステップST10;NO)、音声入力部11が、発話安定性検証部13aを介してその旨を再発話要求部15に通知する。これを受けると、再発話要求部15が、登録話者に対し1発話分の再発話を要求する(ステップST10−1)。
また、発話回数Nが閾値Tn以上であれば(ステップST10;YES)、発話安定性検証部13aが登録失敗と判断する。このように、発話回数Nが閾値Tn以上となった際には、さらに登録発話を入力するのではなく、登録失敗として登録判定を終了する。
さらに、上記実施の形態2において、図6に示すように、発話回数Nが閾値Tn未満である場合(ステップST10;NO)、発話安定性検証部13aが、登録音声データ記憶部12に記憶されている登録音声データのうちから、最新のL(LはM以上の整数値)発話分の登録音声データを選択し、残りを削除するステップST11を追加してもよい。ステップST11の処理が完了すると、再発話要求部15が、登録話者に対して1発話分の再発話を要求する(ステップST11−1)。これにより新たに得られた1発話分の音声データと登録音声データ記憶部12に既に記憶されているK(KはM−1以上)発話分の登録音声データとを合わせたK+1(=L)発話分の音声データを用いて類似度の確認や登録処理を実行する。
またL発話分の登録音声データを残す基準としては、最大の類似度が得られた登録音声データの組み合わせを選択するようにしてもよい。最大の類似度の算出方法は、M発話分の登録音声データの組み合わせの類似度を算出するステップST7aと同様である。
なお、L=Mの場合、L発話分の登録音声データの組み合わせは、ステップST7aで求めた最大の類似度をとるM発話分の登録音声データの組み合わせとなる。
このように、登録発話が登録条件を満たしていない場合に登録失敗とせず、1発話ずつ追加して登録発話を入力することで、登録に失敗する度に新たにM発話分の発話を行わせる場合に比べて入力発話回数を減らすことが可能となり、登録話者にとって利便性の高い登録型の音声認識装置を得ることができる。
また、登録失敗時の再発話の入力回数に対して上限(閾値Tn)を設けることで、登録発話をし続けても登録できない状態を無くすことができる。これは、登録に失敗する要因として登録(発話)環境が悪い可能性が高い。そこで、閾値Tn以上の発話回数となる場合には登録失敗として終了することにより、登録の発話環境を変えるように通知する等、ガイダンスを出すことが可能となり、ユーザにとって使い勝手のよいシステムとなる。
さらに、登録音声データを記録する数の上限(L発話分)を設定することで、登録音声データ記憶部12の記録領域の節約が可能となり、また最大類似度の演算時に必要な演算量も削減することができる。
この発明に係る音声認識装置は、非定常騒音や音声区間の誤検出等による誤登録を低減して音声の認識性能を向上させることができ、また発話回数の不要な増加を防ぐことにより、利便性の向上やメモリの不要な使用を低減することができるため、音声登録型の音声認識装置等に用いるのに適している。

Claims (4)

  1. 標準パタンを用いて認識対象の発話を音声認識する音声認識装置において、
    複数回発話された音声を入力する音声入力部と、
    前記音声入力部が入力した前記複数回発話された音声データを記憶する記憶部と、
    前記記憶部から読み出した前記複数回発話された音声データ間の類似度を求め、前記類似度が第1の閾値より大きい場合に前記音声データを登録可と判定する安定性検証部と、
    前記安定性検証部により登録可と判定された前記音声データを用いて前記標準パタンを作成する標準パタン作成部と
    1発話分の再発話要求を実行する再発話要求部とを備え、
    前記音声入力部は、予め定めた複数回分だけ発話された音声を入力し、
    前記安定性検証部は、前記記憶部から読み出した前記予め定めた複数回分の音声データに登録可となる音声データがなかった場合、前記再発話要求部に再発話要求を実行させ、当該再発話要求に応じた1発話分の音声データと前記記憶部に既に記憶された前記複数回分の音声データとの音声データ間の類似度を求め、前記音声データ間の類似度のうちの最大値が第2の閾値より大きい場合に当該最大の類似度を与える音声データを登録可と判定することを特徴とする音声認識装置。
  2. 安定性検証部は、記憶部から読み出した複数回分の音声データに登録可となる音声データがなく、音声入力部が入力した音声の発話回数が第3の閾値に到達すると、再発話要求部に再発話要求を実行させる代わりに、発話音声の登録に失敗したとして登録判定を終了することを特徴とする請求項記載の音声認識装置。
  3. 安定性検証部は、記憶部から読み出した複数回分の音声データに登録可となる音声データがなかった場合、所定数の音声データを残して前記記憶部の音声データを削除し、再発話要求に応じた1発話分の音声データと前記記憶部に残された前記所定数の音声データとの音声データ間の類似度を求め、前記音声データ間の類似度のうちの最大値が第2の閾値より大きい場合に当該最大の類似度を与える音声データを登録可と判定することを特徴とする請求項記載の音声認識装置。
  4. 安定性検証部は、記憶部に既に記憶されている複数回分の音声データと新たに入力された1発話分の音声データとのうち、音声データ間の類似度が最大となる音声データの組み合わせから所定数の音声データを特定して前記記憶部に残すことを特徴とする請求項記載の音声認識装置。
JP2010548268A 2009-01-30 2009-10-08 音声認識装置 Active JP5172973B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010548268A JP5172973B2 (ja) 2009-01-30 2009-10-08 音声認識装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009019692 2009-01-30
JP2009019692 2009-01-30
JP2010548268A JP5172973B2 (ja) 2009-01-30 2009-10-08 音声認識装置
PCT/JP2009/005244 WO2010086925A1 (ja) 2009-01-30 2009-10-08 音声認識装置

Publications (2)

Publication Number Publication Date
JPWO2010086925A1 JPWO2010086925A1 (ja) 2012-07-26
JP5172973B2 true JP5172973B2 (ja) 2013-03-27

Family

ID=42395195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010548268A Active JP5172973B2 (ja) 2009-01-30 2009-10-08 音声認識装置

Country Status (5)

Country Link
US (1) US8977547B2 (ja)
JP (1) JP5172973B2 (ja)
CN (1) CN102301419B (ja)
DE (1) DE112009004357B4 (ja)
WO (1) WO2010086925A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8630971B2 (en) * 2009-11-20 2014-01-14 Indian Institute Of Science System and method of using Multi Pattern Viterbi Algorithm for joint decoding of multiple patterns
TWI475558B (zh) * 2012-11-08 2015-03-01 Ind Tech Res Inst 詞語驗證的方法及裝置
JP6348903B2 (ja) * 2013-06-10 2018-06-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者識別方法、話者識別装置及び情報管理方法
US9443508B2 (en) * 2013-09-11 2016-09-13 Texas Instruments Incorporated User programmable voice command recognition based on sparse features
WO2016015687A1 (zh) * 2014-07-31 2016-02-04 腾讯科技(深圳)有限公司 声纹验证方法及装置
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
KR102245747B1 (ko) 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
CN105185379B (zh) * 2015-06-17 2017-08-18 百度在线网络技术(北京)有限公司 声纹认证方法和装置
US10044710B2 (en) 2016-02-22 2018-08-07 Bpip Limited Liability Company Device and method for validating a user using an intelligent voice print
CN109074397B (zh) 2016-05-06 2022-04-15 索尼公司 信息处理系统和信息处理方法
JP6804909B2 (ja) * 2016-09-15 2020-12-23 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US9984688B2 (en) 2016-09-28 2018-05-29 Visteon Global Technologies, Inc. Dynamically adjusting a voice recognition system
WO2020111880A1 (en) 2018-11-30 2020-06-04 Samsung Electronics Co., Ltd. User authentication method and apparatus

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02210500A (ja) * 1989-02-10 1990-08-21 Ricoh Co Ltd 標準パターン登録方式
WO2007111197A1 (ja) * 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4297528A (en) * 1979-09-10 1981-10-27 Interstate Electronics Corp. Training circuit for audio signal recognition computer
JPS59192A (ja) * 1982-06-25 1984-01-05 株式会社東芝 個人照合装置
US4751737A (en) 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
GB2237135A (en) 1989-10-16 1991-04-24 Logica Uk Ltd Speaker recognition
JPH075890A (ja) 1993-06-16 1995-01-10 Nippon Telegr & Teleph Corp <Ntt> 音声対話装置
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
KR100241901B1 (ko) * 1997-08-28 2000-02-01 윤종용 핸드셋과 핸즈프리킷 공용 음성인식기의 등록 엔트리 관리방법
JP3699608B2 (ja) * 1999-04-01 2005-09-28 富士通株式会社 話者照合装置及び方法
KR100297833B1 (ko) * 1999-07-07 2001-11-01 윤종용 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법
JP2002297181A (ja) 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
DE10313310A1 (de) * 2003-03-25 2004-10-21 Siemens Ag Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür
WO2005013263A1 (ja) * 2003-07-31 2005-02-10 Fujitsu Limited 音声認証システム
CN101124623B (zh) * 2005-02-18 2011-06-01 富士通株式会社 语音认证系统及语音认证方法
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
DE102008024257A1 (de) 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Sprecheridentifikation bei einer Spracherkennung
DE102008040002A1 (de) 2008-08-27 2010-03-04 Siemens Aktiengesellschaft Verfahren zur szenariounabhängigen Sprechererkennung
US8347247B2 (en) * 2008-10-17 2013-01-01 International Business Machines Corporation Visualization interface of continuous waveform multi-speaker identification
US8190437B2 (en) * 2008-10-24 2012-05-29 Nuance Communications, Inc. Speaker verification methods and apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02210500A (ja) * 1989-02-10 1990-08-21 Ricoh Co Ltd 標準パターン登録方式
WO2007111197A1 (ja) * 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム

Also Published As

Publication number Publication date
DE112009004357B4 (de) 2019-06-13
DE112009004357T5 (de) 2012-07-12
US8977547B2 (en) 2015-03-10
WO2010086925A1 (ja) 2010-08-05
JPWO2010086925A1 (ja) 2012-07-26
US20110276331A1 (en) 2011-11-10
CN102301419B (zh) 2013-06-12
CN102301419A (zh) 2011-12-28

Similar Documents

Publication Publication Date Title
JP5172973B2 (ja) 音声認識装置
US9514747B1 (en) Reducing speech recognition latency
EP3114679B1 (en) Predicting pronunciation in speech recognition
US8972260B2 (en) Speech recognition using multiple language models
CN108780645B (zh) 对通用背景模型和登记说话者模型进行文本转录适配的说话者验证计算机系统
US20110301953A1 (en) System and method of multi model adaptation and voice recognition
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US9613624B1 (en) Dynamic pruning in speech recognition
WO2008001485A1 (fr) système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue
JP6980603B2 (ja) 話者モデル作成システム、認識システム、プログラムおよび制御装置
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
JP2020067566A (ja) 情報処理方法、情報処理装置、及び、プログラム
JP4854732B2 (ja) 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP6420198B2 (ja) 閾値推定装置、音声合成装置、その方法及びプログラム
JPH11184491A (ja) 音声認識装置
JP6716513B2 (ja) 音声区間検出装置、その方法、及びプログラム
US9355636B1 (en) Selective speech recognition scoring using articulatory features
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP6006674B2 (ja) 音響モデル選択装置とその方法とプログラム
JP2012032538A (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP6571587B2 (ja) 音声入力装置、その方法、及びプログラム
JP2004101963A5 (ja)
JP2010197607A (ja) 音声認識装置、音声認識方法およびプログラム
CN109559759B (zh) 具备增量注册单元的电子设备及其方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121226

R150 Certificate of patent or registration of utility model

Ref document number: 5172973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250