JP5447382B2 - 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム - Google Patents

音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム Download PDF

Info

Publication number
JP5447382B2
JP5447382B2 JP2010526623A JP2010526623A JP5447382B2 JP 5447382 B2 JP5447382 B2 JP 5447382B2 JP 2010526623 A JP2010526623 A JP 2010526623A JP 2010526623 A JP2010526623 A JP 2010526623A JP 5447382 B2 JP5447382 B2 JP 5447382B2
Authority
JP
Japan
Prior art keywords
verification
speech recognition
unit
recognition hypothesis
hypothesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010526623A
Other languages
English (en)
Other versions
JPWO2010024052A1 (ja
Inventor
山本  仁
健 花沢
清一 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010526623A priority Critical patent/JP5447382B2/ja
Publication of JPWO2010024052A1 publication Critical patent/JPWO2010024052A1/ja
Application granted granted Critical
Publication of JP5447382B2 publication Critical patent/JP5447382B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声をテキストデータ等の電子データに変換する音声認識技術で得られる音声認識仮説を検証する音声認識仮説検証装置、音声認識装置、およびそれに用いられる音声認識仮説検証方法、音声認識方法、音声認識仮説検証用プログラム並びに音声認識用プログラムに関する。
音声認識技術の進歩に伴い、電話・多人数会議の記録作成支援用途や、携帯電話等の音声UI(User Interface)用途など、実応用の場で利用される音声認識システムが構築される場面が増えてきた。
しかし、電話や会議での自発発話(話し言葉)と呼ばれる音声において特徴的な音響面および言語面における多様な現象や、屋外の多種多様な雑音などの影響により、十分な音声認識精度を得ることは難しい。音声認識に誤りが発生すると、誤り訂正のコストが必要となったり、システム誤動作が発生するという問題が生じる。このような音声認識誤りによる悪影響を抑えるためには、音声誤りの検出が重要である。
音声誤りを検出する方法として、音声認識仮説の検証装置によってその正誤を判定する方法が考えられる。この音声認識仮説を検証するために、仮説中の各単語の信頼度尺度を用いる方法が提案されている。
例えば、特許文献1には、音声認識結果の検証に用いる信頼度尺度として各単語の一般化単語事後確率を求め、その値によって発話や単語ごとにその正誤を判定する検証装置が記載されている。
また、例えば、特許文献2には、音声認識手段の生成した文字列および単語列の正誤を予め用意した単語辞書を参照して判定する判定手段と、誤認識と判定された場合に、異なる方法の音声認識により新たな単語列を生成するリライト手段とを含むシステムが記載されている。
特開2005−164837号公報 特開2001−134288号公報
しかし、特許文献1に記載されている検証装置や特許文献2に記載されている方法では、音声認識仮説の検証に基づく認識誤りの検出精度が十分でないという問題点がある。特許文献1に記載されている検証装置では、音声認識仮説の検証を仮説中の単語単位で行うため、認識誤り区間が仮説中の単語単位の組み合わせでしか得られない。すなわち、音声認識仮説に含まれる数少ない単語境界のみを用いて、発話中のどの区間の認識を誤ったかを検出するため、音声認識誤り区間の検出精度が十分ではなくなってしまう。
また、特許文献2に記載されているシステムは、単語辞書を用いて音声認識仮説の正誤の判断を行った結果、誤りと判断された単語列を正しい単語列に置き換えるというものである。正誤の判断に単語辞書を用いていることからも明らかなように、検証は単語単位であり、音声認識誤り区間の検出精度が十分ではなくなってしまう点は特許文献1と同様である。
本発明は、上記課題に鑑みてなされたものであり、音声認識仮説の検証に際し、発話中の音声認識誤り区間の検出精度を高めた音声認識仮説検証装置およびそれを利用する音声認識装置、音声認識仮説検証方法、音声認識方法、音声認識仮説検証用プログラム並びに音声認識用プログラムを提供することを目的とする。
本発明による音声認識仮説検証装置は、入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を設定する検証単位変換部と、検証単位変換部によって設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する単位判定部とを備え、検証単位変換部は、音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含む1つ以上の検証単位を設定する。
また、本発明による音声認識装置は、入力された音声に対して音声認識を行い、音声認識仮説を生成する第1の音声認識部と、第1の音声認識部によって生成された音声認識仮説の検証を行う音声認識仮説検証部と、音声認識仮説検証部による音声認識仮説の検証結果を参照して、再び音声認識を行う第2の音声認識部とを備え、音声認識仮説検証部は、入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を設定する検証単位変換部と、検証単位変換部によって設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する単位判定部とを有し、検証単位変換部は、音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含む1つ以上の検証単位を設定する。
また、本発明による音声認識仮説検証方法は、音声認識仮説を検証する音声認識仮説検証方法であって、入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を、少なくとも音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含むように設定し、設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する。
また、本発明による音声認識方法は、入力された音声に対して音声認識を行って音声認識仮説を生成し、生成された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を、少なくとも音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含むように設定し、設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証し、音声認識仮説の検証結果を参照して、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて、再度音声認識を行う。
また、本発明による音声認識仮説検証用プログラムは、コンピュータに、入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を、音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含むように設定する手順と、設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する手順とを実行させる。
また、本発明による音声認識用プログラムは、コンピュータに、入力された音声に対して音声認識を行って音声認識仮説を生成する手順と、生成された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を、少なくとも音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含むように設定する手順と、設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する手順と、音声認識仮説の検証結果を参照して、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて、再度音声認識を行う手順とを実行させる。
本発明によれば、発話中の音声認識誤り区間の検出精度を高めることができる。
本発明の音声認識仮説検証装置の構成例を示すブロック図である。 本発明の音声認識仮説検証装置の他の構成例を示すブロック図である。 本発明の第1の実施形態にかかる音声認識仮説検証装置の構成例を示すブロック図である。 検証単位の例を示す説明図である。 文字・音節・音素・HMMの状態・音声特徴量の対応例を示す説明図である。 検証モデルの一例であるCRFで用いる素性の表現例を示す説明図である。 区間判定規則に規定する変更方法の例を示す説明図である。 図3に示した音声認識仮説検証装置の動作の一例を示すフローチャートである。 本発明の第2の実施形態にかかる音声認識装置の構成例を示すブロック図である。 発話と、第1の音声認識部による音声認識仮説と、音声認識仮説検証部による検証結果の例を示す説明図である。
以下に、本発明を実施するための形態について図面を参照して詳細に説明する。
図1は、本発明の音声認識仮説検証装置の構成例を示すブロック図である。
図1に示す音声認識仮説検証装置は、検証単位変換部1と、単位判定部2とを備える。
検証単位変換部1は、入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を設定する。検証単位変換部1は、入力された音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含む1つ以上の検証単位を設定する。検証単位変換部1は、例えば、音声認識仮説に含まれる単語の時間区間よりも小さな時間区間が設定された検証単位を含む1つ以上の検証単位を設定してもよい。例えば、音声分析フレーム単位に基づいて1つ以上の検証単位を設定してもよい。
単位判定部2は、検証単位変換部1によって設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する。単位判定部2は、例えば、検証単位の時間区間における音声認識誤りに関する特徴を含む複数種類の特徴を素性とする確率モデルからなる検証モデルと、検証単位ごとに処理対象の音声認識仮説から抽出される特徴とに基づいて、各検証単位の時間区間における認識仮説の正誤を検証してもよい。例えば、単位判定部2は、検証モデルと検証単位ごとに抽出される特徴とに基づいて、検証単位ごとに当該検証単位の時間区間に対する認識仮説が確からしい度合いを示す検証スコアを算出することにより、各検証単位の時間区間における認識仮説の正誤を検証してもよい。また、検証モデルとして、CRFモデルを用いてもよい。
このように、検証単位変換部1が、音声認識仮説に含まれる単語の時間区間とは異なる時間区間が設定された検証単位を含む1つ以上の検証単位を設定し、単位判定部2が、その設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証することにより、発話中の音声認識誤り区間の検出精度を高めることができる。これは、検証単位を認識仮説の単語の時間区間に依存させないようにしたことにより、単語単位の特徴ではない特徴を元に検証を行うことができるためである。
図2は、本発明の音声認識仮説検証装置の他の構成例を示すブロック図である。
図2に示すように、図1に示した音声認識仮説検証装置にさらに、区間判定部3を備えていてもよい。区間判定部3は、単位判定部2による検証単位ごとの検証結果に基づいて、処理対象の音声認識仮説の誤り区間を判定する。区間判定部3は、その際に複数の検証単位の検証結果(あれば、検証スコアを含む。)を参照して、単位判定部2による検証結果を変更した上で、誤り区間を判定する。
(第1の実施形態)
以下に、上述した音声認識仮説検証装置のより具体的な実施形態について説明する。
図3は、本発明の第1の実施形態にかかる音声認識仮説検証装置の構成例を示すブロック図である。
図3に示す音声認識仮説検証装置101は、音声認識仮説入力部12と、検証単位変換部13と、単位判定部14と、区間判定部15と、検証モデル記憶部16と、区間判定規則記憶部17とを備える。
音声認識仮説検証装置101は、全体としては、例えば、入力されたデータをコンピュータで情報処理するパーソナルコンピュータ(PC)やサーバ装置などの情報処理装置によって実現される。本実施形態では、音声認識装置などから出力される音声認識結果としての音声認識仮説を入力とし、入力された音声認識仮説の検証結果を出力する。
また、音声認識仮説入力部12は、データを入力するための各種データ入力装置によって実現される。具体的には、データ入力装置およびその入力を受け付ける制御部によって実現される。また、検証単位変換部13、単位判定部14および区間判定部15は、プログラムに従って動作するCPU等によって実現される。また、検証モデル記憶部16および区間判定規則記憶部17は、データを記憶する記憶ユニットによって実現される。
音声認識仮説検証装置101の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラム、該プログラムを格納するハードディスクなどの記憶ユニットを中心に、ハードウェアとソフトウェアの任意の組み合わせによって実現される。この他にも、例えば、ネットワーク接続用インタフェースといった各種インタフェースを含んでいてもよい。
音声認識仮説入力部12は、外部の音声認識装置(不図示)から音声認識仮説を受け取り、検証単位変換部13に提供(出力)する。音声認識仮説は、例えば、認識時のスコア(尤度)や認識対象音声に対応づけられた時間情報が付与された1つ以上の単語列を含む単語グラフやNベスト単語列の形式で表現される。
検証単位変換部13は、音声認識仮説入力部12を介して入力された音声認識仮説を、検証単位のデータ集合に変換する。ここで、検証単位とは、後段の単位判定部14において行われる検証の処理単位をいう。検証単位変換部13は、実際に検証単位のデータ集合を生成するのではなく、音声認識仮説に対して検証単位ごとにその範囲(認識対象とされた音声データにおける時間区間)を設定すればよい。以下、検証単位を定めるという表現を用いた場合には、音声認識仮説に対して1つ以上の検証単位とする時間区間を定めることをいう。
検証単位変換部13は、音声認識仮説の時間情報(音声認識仮説が示す各単語の時間区間)に依存せずに、検証単位を定める。具体的には、検証単位とする時間区間の少なくとも1つに、音声認識仮説が示す単語の時間区間とは異なる区間を含むように検証単位を定めればよい。例えば、認識対象音声の分析フレーム単位や複数の分析フレームをまとめたセグメント単位を1検証単位としてもよい。そのような場合には、認識対象とされた音声データを1分析フレームまたは1セグメントの時間区間ごとに区切ったものが各検証単位の範囲となる。また、音声認識仮説の単語を細かい単位に分割した文字・音節・音素・HMMの状態のような単位と分析フレームに基づく単位(分析フレーム単位やセグメント単位)とをあわせて用いることもできる。なお、文字・音節・音素・HMMの状態のような単位とあわせて用いる場合など、音声データ内において1検証単位とされる時間区間は必ずしも一定でなくてよい。
検証単位変換部13は、認識対象とされた音声データにおける検証単位を示す情報として、例えば、各検証単位を識別するための識別子と、その検証単位が認識仮説の時間区間においてどの区間に該当するかを示す情報とを対応づけた情報を生成してもよい。
図4a〜図4dは、検証単位の設定例を示す説明図である。
例えば、図4aに示すように、認識対象音声のある分析フレーム区間1〜100に対応する音声認識仮説が「今月末」という単語を示していたとする。
ここで、検証単位として分析フレーム単位を用いる場合には、図4bに示すように、認識対象音声の分析フレームそれぞれに対応させて検証単位を定めればよい。本例の場合、検証単位変換部13は、分析フレーム1〜100の時間区間をそれぞれ範囲とする100個の検証単位を示す情報を生成すればよい。
また、例えば、検証単位として10個の分析フレームをまとめたセグメント単位を用いる場合には、図4cに示すように、10個の分析フレームを1単位とする認識対象音声のセグメントそれぞれに対応させて検証単位を定めればよい。本例の場合、検証単位変換部13は、分析フレーム1〜10をまとめたセグメント1、分析フレーム11〜20をまとめたセグメント2といったセグメント1〜10の時間区間をそれぞれ範囲とする10個の検証単位を示す情報を生成すればよい。
また、例えば、単語の先頭部・中間部・末尾部といった単語に関する単位を併用して用いる場合には、図4dに示すように、音声認識仮説において分析フレーム境界で示される単語の先頭部・中間部・末尾部それぞれに対応させて検証単位を定めればよい。本例の場合、検証単位変換部13は、分析フレーム境界で示される単語の先頭部・中間部・末尾部の時間区間をそれぞれ範囲とする3個の検証単位を示す情報を生成すればよい。
また、検証単位を定める際に、文字・音節・音素・HMMの状態を併用してもよい。
図5に、文字・音節・音素・HMMの状態・音声特徴量の対応例を示す。
図5に示すように、音声認識仮説において分析フレーム境界で示されるある単語を構成する文字や音節、音素、HMMの状態に対応させて検証単位を定めればよい。例えば、音節、音素、HMMの状態の時間区間に基づいて「文字“今”の先頭部」に該当する範囲を特定し、1検証単位として決定する。なお、図5では、音声データを音声特徴量の時系列として示している。この場合、1分析フレームは、音声信号の一定区間(例えば、25ミリ秒)ごとに計算される特徴量(ベクトル)に相当する。
単位判定部14は、検証単位変換部13から検証単位を示す情報および音声認識仮説を受け取り、検証単位それぞれについて所定の検証用特徴を抽出し、抽出した検証用特徴値と検証モデル記憶部16に記憶されている検証モデルとを用いて検証単位ごとに認識仮説の正誤を判定する。単位判定部14は、例えば、その検証単位の時間区間に対する認識仮説が確からしい度合いを示す検証スコアを算出し、算出した検証スコアに基づき、検証単位ごとに認識仮説の正誤を判定する。
単位判定部14は、例えば図3に示したように、対象単位選択部141と、特徴抽出部142と、スコア算出部143と、対象単位判定部144とを含んでいてもよい。
対象単位選択部141は、検証単位変換部13から検証単位を示す情報および音声認識仮説を受け取り、その音声認識仮説を特徴抽出部142に提供する。また、認識対象とされた音声データに含まれる検証単位それぞれについて、処理対象の検証単位として順次指定し、特徴抽出部142および対象単位判定部144に提供する。
特徴抽出部142は、対象単位選択部141から音声認識仮説と処理対象の検証単位を示す情報とを受け取り、処理対象の検証単位に係る所定の検証用特徴を抽出して、スコア算出部143に提供する。
検証用特徴とは、音声認識仮説の検証を行う際に用いる特徴のことであり、検証単位ごとに抽出される。検証用特徴としては、音声認識仮説の正解らしさや誤りらしさと関連する性質をもつものを用いる。また、多種の検証用特徴を用いれば、検証の精度を高めることができる。例えば、音声認識仮説の構造情報、音声認識仮説の言語的な情報、認識計算に関する情報を用いてもよい。なお、処理対象の検証単位に係る特徴は、処理対象の検証単位の時間区間のデータ(以下、単に検証単位データという。)だけでなく、その前後の時間区間のデータや当該時間区間を含む単語の時間区間のデータを用いて抽出することも可能である。
音声認識仮説の構造情報としては、例えば、単語グラフが示す処理対象とされた検証単位の時間区間において競合するアークの数や、同時間区間に含まれるノードの数などが挙げられる。検証単位として分析フレームのセグメント単位を用いる場合、セグメント区間に存在するアーク数が多いと、その区間の認識誤りらしさが高い可能性がある。また、当該区間に含まれるノード数が多いと、その区間は元の発話中での単語境界であった可能性があり、その前後で認識誤りらしさが異なる可能性がある。
言語的な情報としては、例えば、仮説中の単語の表層や品詞などが挙げられる。単語表層を特徴に用いることで、頻出する音声認識誤り表現(音声認識装置の認識誤りパターン)を扱うことができるようになる。特に、単語単位よりも細かい単位でこれらの特徴を抽出することで、例えば、認識仮説として「今月末」のような長い単語が出てきた場合にその後半部分が特に認識誤りになりやすい、といった例を検出できるようになる。
認識計算に関する特徴としては、例えば、音響尤度や言語尤度のような仮説のもっともらしさを表す値が挙げられる。検証単位において、その区間が認識誤りである場合、この値が相対的に低かったり、競合仮説との値が小さいなどの特徴を示すことがある。フレーム単位で得られる音響尤度のような値を検証単位で用いることにより、単語単位で平均化されるのと比べてより詳細に参照することが可能である。また、前述の特許文献1に記載されている検証装置などで求められる単語単位の信頼度スコアを検証用特徴に用いることも可能である。
スコア算出部143は、特徴抽出部142から処理対象の検証単位を示す情報と該検証単位に係る検証用特徴とを受け取り、検証モデル記憶部16に記憶されている検証モデルを用いて検証スコアを算出し、対象単位判定部144に提供する。
検証モデル記憶部16は、検証単位データに見られる検証用特徴と認識仮説の正解らしさまたは誤りらしさとの関連の強さを表すモデルである検証モデルの情報を保持する。
スコア算出部143は、例えば、識別モデルの一種であるCRF(Conditional Random Fields)による識別処理を用いて検証スコアを算出してもよい。ここで、CRFは、次の式(1)のように記述される。
P(Y|X)=exp(Λ・Φ(X,Y))/Z ・・・式(1)
式(1)において、“X”は識別処理の対象となる入力を示している。また、“Y”は入力に対応づけられる識別結果である。また、“Φ(X,Y)”は識別に用いる特徴としての素性であり、“Λ”は素性のそれぞれに対応するCRFのモデルパラメータ(重み値)である。また、“Z”は正規化項である。なお、“exp()”は、eを底とする数値のべき乗を求める関数を示している。
CRFによる識別処理を用いる実施形態において、入力“X”は、検証対象である音声認識仮説から変換された検証単位データである。また、出力“Y”は、入力された検証単位データごとに対応づけられた検証結果である。素性“(X,Y)”には、アーク数やノード数、出現頻度といった検証用特徴のとる値を用いる。識別処理時には、入力に対して上記式(1)の左辺P(Y|X)が最大となる出力が選択される。また、CRFのモデルパラメータは、予め対応付けされた入力(X:検証単位データ)と出力(Y:識別結果)との組を学習データとして、上記式(1)の対数尤度を最大化する基準での反復計算法などにより最適化(学習)してもよい。なお、このようなCRFを用いた識別処理やモデルパラメータの学習方法に関する詳細は、例えば、文献「J.Lafferty, A.McCallum, F.Pereira, "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data", Proceedings of 18th International Conference of Machine Learning, 2001年, p.282-289」に記載されている。
検証モデル記憶部16は、例えば、CRFの情報として、素性Φの情報やモデルパラメータΛ(重み値)の情報を保持してもよい。
対象単位判定部144は、対象単位選択部141で指定された処理対象の検証単位に対して求められた検証スコアを所定の基準と照らし合わせて、各検証単位に対する認識仮説の正誤を判定する。この判定結果は、認識仮説に対する検証単位での検証結果に相当する。対象単位判定部144は、判定結果(すなわち、各検証単位の検証結果)を区間判定部15に提供する。検証結果と併せて検証スコアを提供してもよい。
以下に、CRFによる識別処理を用いた検証スコアの算出方法および正誤の判定方法についてより具体的に説明する。
例えば、ある音声データ長に対して設定される検証単位の一つに着目すると、その検証単位の時間区間に相当する区間の音声認識仮説には、認識仮説が誤っていた場合(または正しかった場合)に、アーク数=4やノード数=7といった検証用特徴があるとわかったとする。このような場合には、図6に示すように、これらの特徴を検証モデルで用いる素性として表現しておけばよい。
図6は、CRFの素性Φの例を示す説明図である。
図6では、F(アーク数=4)=1と、F(ノード数=7)=1という素性の例が示されている。
スコア算出部143は、これらの素性と、検証結果(例えば、正解と誤りの2つ)それぞれの重み値Λをかけることで、検証結果それぞれのスコアを求めてもよい。そして、対象単位判定部144は、このスコアの大きいものから有力な検証結果とすることで、その検証単位に対する検証結果として確定させればよい。
区間判定部15は、単位判定部14の対象単位判定部144から各検証単位に対する検証結果を受け取り、音声認識仮説に含まれる認識誤り区間を判定する。本実施形態では、区間判定部15は、各検証単位に対する検証結果を、区間判定規則記憶部17に記憶されている区間判定規則に従って必要に応じて変更することにより、音声認識仮説に含まれる認識誤り区間を判定する。区間判定規則は、単位判定部14による検証単位ごとの検証結果を、使用用途に合わせて変更するための規則(変更方法等を規定した情報)である。例えば、検証結果の信頼度や他の検証単位(例えば、前後の検証単位)の検証結果との関係に基づき変更する方法を規定してもよい。
図7a〜図7dは、区間判定規則に規定する変更方法の例を示す説明図である。図7aは、入力された音声認識仮説に対して設定した検証単位1〜32の単位判定部14による検証結果の一例を示している。
図7aに示す例では、単位判定部14による検証結果として、検証単位1〜5,9,12〜15,17〜19,25〜28,30〜32に対する認識仮説は正しい旨を示すラベル付け“○”がされている。また、検証単位6〜8,10〜11,16,20〜24,29に対する認識仮説は誤りである旨のラベル付け“×”がされている。このような検証結果に対して、図7bに示すように、まず同じラベルが所定のスコア以上で所定の単位以上連続する区間の検証結果を確定させる。図7bに示す例では、四角で囲った検証単位1〜5、6〜8、12〜15、17〜19、20〜24、25〜28および30〜32の区間に対して検証結果を確定させている。これにより、検証単位6〜8および20〜24の区間が誤り区間として確定することになる。なお、検証結果のラベルが同じであっても、その検証結果に付された検証スコアが所定のスコア以上でない区間があることにより、所定の単位以上の連続とはならない場合にはその区間は確定されない。
次に、図7cに示すように、未確定区間について、その前後の確定区間を所定の数だけ参照し、多数決によって検証結果を確定させる。図7cに示す例では、未確定区間である検証単位9〜11,16,29について、前後3つの検証単位からなる確定区間による多数決を試み、その結果、下線によって示すように、検証単位16および29の検証結果を認識仮説が正しいとする方に変更している。なお、検証単位データ9〜11の未確定区間については、その前後の確定区間である検証単位6〜8および検証単位12〜14の区間において、正しいと判定された数が3個、誤りと判定された数が3個であり、多数決では決められない。この他にも、所定の数だけの確定区間が連続して得られない場合などが考えられる。
最後に、図7dに示すように、残っている未確定区間について、認識仮説を誤りとする検証結果で確定させる。図7dに示す例では、未確定区間である検証単位9〜11について、下線によって示すように、認識仮説が誤りとする検証結果に変更している。
区間判定部15は、区間判定規則に従って各検証単位に対する検証結果を変更した結果、最終的に誤り区間として確定した検証単位の時間区間を、認識仮説における認識誤り区間として検出すればよい。図7a〜図7dに示す例では、検証単位6〜11および20〜24の区間が対応している時間区間が認識誤り区間として検出される。
区間判定規則記憶部17は、区間判定規則として、例えば、変更処理としてどのようなロジックを用いるかを指定する情報や、各ロジックに用いるパラメータ(例えば、連続判定に用いる単位数や閾値等)を記憶してもよい。
次に、本実施形態の動作について説明する。
図8は、図3に示した音声認識仮説検証装置101の動作の一例を示すフローチャートである。
図8に示すように、音声認識仮説検証装置101は、起動されると、検証モデル記憶部16や区間判定規則記憶部17を実現している記憶デバイスから検証モデルや区間判定規則を読み出し、それぞれ単位判定部14、区間判定部15から参照できるように展開する等の初期化処理を行う(ステップ11)。
一方、音声認識仮説入力部12は、例えば、外部の音声認識装置からの音声認識処理終了の通知に応じて、音声認識仮説を受け取り(入力し)、検証単位変換部13に提供(出力)する(ステップ12)。なお、音声認識仮説入力部12は、例えば、ユーザからの指示に応じて音声認識仮説を入力するなども考えられる。
音声認識仮説入力部12を介して検証対象である音声認識仮説が入力されると、検証単位変換部13は、入力された音声認識仮説を1つ以上の検証単位のデータ集合に変換して単位判定部14に提供する(ステップ13)。検証単位変換部13は、例えば、音声データにおける時間区間の情報を用いて1つ以上の検証単位を示す情報を単位判定部14に提供する。
単位判定部14は、検証単位ごとに検証スコアを求め、認識仮説を検証(正誤を判定)する(ステップ14)。単位判定部14では、まず、対象単位選択部141が、認識仮説に対して設定された検証単位それぞれについて順次、処理対象に指定する。そして、特徴抽出部142が、処理対象に指定された検証単位の検証用特徴を抽出する。次に、スコア算出部143が、抽出された検証用特徴と検証モデルとを参照して、処理対象に指定された検証単位に対する検証スコアを算出する。最後に、対象単位判定部144が、算出された検証スコアに基づき、処理対象に指定された検証単位の時間区間に対する認識仮説の正誤を判定する。このようにして判定された検証単位ごとの検証結果(正誤の判定結果)を、検証スコアとともに区間判定部15に提供する。
区間判定部15は、検証単位ごとの検証結果に基づき、検証対象として入力された音声認識仮説における認識誤り区間を検出する(ステップ15)。区間判定部15は、区間判定規則に従って、検証単位別に付された検証結果を適宜変更し、最終的に誤りと判定された検証単位が対応している時間区間を音声認識仮説における認識誤り区間として出力し、一連の音声認識仮説検証処理を終了する。
このように、本実施形態によれば、音声認識仮説の検証単位として、仮説中の単語単位よりも細かい単位や、仮説中の単語認定に依存しない分析フレーム基準の単位を用いているので、単語単位にはない特徴を参照して音声認識仮説の検証を行うことができ、結果として、より高い精度で音声認識誤り区間を検出することができる。
また、区間判定部15が検証単位での検証結果を調整(変更)する機能を有していることにより、使用用途にあった認識誤り区間の検出が可能になる。例えば、認識誤り区間の音声を切り出して再度音声認識を行う場合には、ある程度の長さの時間区間が必要になる。このような場合に、所定の長さ以上を確保することができる。また、検証スコアに基づき、「正」らしさと「誤」らしさが同程度の区間を保留にするなどの対応ができ、単位判定部14における判定誤りに対する頑健性を高めることができる。また、未確定区間をその前後の確定区間によって判定することは、一種の平滑化処理に相当し、例えば、1単位のみ周囲と結果が異なるものを補正することもできる。
なお、音声認識仮説がNベスト単語列の形式で表現される場合には、そのN個の単語列に対してセグメント単位等を用いて共通の検証単位を設定することも、N個の単語列がそれぞれ示す各単語に関する単位を併用させて別々の検証単位を設定することも可能である。なお、音声認識仮説が単語グラフの形式で表現される場合についても、セグメント単位等を用いてその単語グラフ全体に共通な検証単位を設定することも、また、単語グラフが示す各単語に関する単位を併用させて別々の検証単位を設定することも可能である。
また、音声認識仮説が示す1つの単語列に対して、セグメント単位とする等1つの基準を用いて1種類の検証単位を定めて、その検証単位ごとに抽出した特徴に基づき検証を行うだけでなく、例えば、複数種類の検証単位を定めて、それぞれの種類につき検証を行い、その結果を総合した上で誤り認識区間を判定することも可能である。そのような場合には、検証単位変換部13と単位判定部14とを複数備えた上で、区間判定部15が複数の単位判定部14からの検証結果を統合して、誤り区間を判定するようにすればよい。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。
図9は、本発明の第2の実施形態にかかる音声認識装置の構成例を示すブロック図である。
図9に示す音声認識装置201は、第1の音声認識部21と、音声認識仮説検証部22と、第2の音声認識部23と、第1のモデル記憶部24と、第2のモデル記憶部25とを備える。
音声認識装置201は、全体としては、例えば、入力されたデータをコンピュータで情報処理するパーソナルコンピュータ(PC)やサーバ装置などの情報処理装置によって実現される。
第1の音声認識部21は、当該音声認識装置201に入力される音声に対して音声認識処理を行って該音声に対応する単語列候補を求め、音声認識仮説として、例えば、単語グラフを出力する。第1の音声認識部21では、発話の全区間に対して、第1のモデル記憶部24に記憶されている第1のモデル(音声認識のためのモデルであって、音響モデルや言語モデル、単語辞書等を含む。)の与えるスコアに従って、音声データに適合する単語列を探索するといった通常の音声認識処理を行えばよい。例えば、音響モデルには隠れマルコフモデル、言語モデルには単語トライグラムモデルなどを用いる。
音声認識仮説検証部22は、図3に示した音声認識仮説検証装置101に相当する処理部であって、第1の音声認識部21が出力した音声認識仮説について、検証単位の設定処理と、検証単位ごとの検証処理と、誤り区間の判定処理とを行い、その結果を検証結果として出力する。検証結果として、例えば、音声データにおける音声認識誤り区間を示す情報(フレーム番号等)を出力する。
第2の音声認識部23は、音声認識仮説検証部22による検証結果に基づき、入力された音声のうち音声認識誤り区間として判定された区間またはその前後を含めた区間に対して、再び音声認識処理を行う。第2の音声認識部23では、第2のモデル記憶部25に記憶されている第2のモデルを用いて、音声認識処理を行う。ここで、第2のモデル記憶部25には、第1のモデル記憶部24が記憶している第1のモデルとは異なるモデルが記憶されているものとする。音響モデルであれば、音素等の単位ごとに音声特徴量の出現確率分布を示す情報を記憶してもよい。例えば、隠れマルコフモデルを第2のモデルとして用いる場合には、音素等の単位ごとに音声特徴量の出現確率分布として所定の値(第1のモデルとは異なる値)が導出される隠れマルコフモデルを規定するためのパラメータ(計算の際に用いる係数の情報等)を記憶してもよい。また、言語モデルであれば、単語等の単位ごとにその出現確率や接続確率を示す情報を記憶してもよい。例えば、単語トライグラムモデルを第2のモデルとして用いる場合には、単語等の単位ごとにその出現確率や接続確率として所定の値(第1のモデルとは異なる値)が導出される単語トライグラムモデルを規定するためのパラメータ(計算の際に用いる係数の情報等)を記憶してもよい。
図10は、発話と、第1の音声認識部21による音声認識仮説と、音声認識仮説検証部22による検証結果の例を示す説明図である。
図10に示すように、例えば、「今月松井の出る試合」という発話に対し、第1の音声認識部21が「<今月末><火><の><出る><試合>」という音声認識仮説を出力したとする。なお、“<>”は音声認識仮説における単語区切りを示している。この音声認識仮説に対して、音声認識仮説検証部22が検証単位ごとの特徴を抽出して検証を行ったところ、今月末の「月」の後半部分から「火」の終わりまでに相当する区間、すなわち発話における「松井」に相当する区間が認識誤り区間であると判定したとする。
第2の音声認識部23は、音声認識仮説検証部22が認識誤り区間であると判定した区間(今月末の「月」の後半部分から「火」の終わりまでに相当する区間)について、例えば、認識仮説が正しいと判定された区間の認識仮説が示す単語列「の出る試合」を言語的な制約として、音声認識処理を行ってもよい。本例では、「の出る試合」を確定させ、その前の区間を認識対象に、言語的な制約として、例えば、単語のつながりやすさを表す言語モデルを第2のモデルとして用いることにより、認識対象の後半には「の」「出る」とつながりやすい単語が上位にくるようにすればよい。第1の音声認識部21における音声認識処理では、「の」や「出る」も定まっていないため、あらゆる可能性を考慮しなければならないが、制約の追加により、認識精度を高めることができる。
また、例えば、認識仮説が正しいと判定された「の出る試合」からその発話に人名が出やすいことを推定し、人名を認識しやすいモデルを第2のモデルとして用いて音声認識処理を行ってもよい。本例では、「の出る試合」の区間の前には「人名」が出やすいという情報を得ることにより、「人名」らしい区間では「人名」として用いられる単語の出やすさを高くすればよい。なお、第2のモデルの選定に関して、予め第1のモデルとは異なるモデルが第2のモデルとして第2のモデル記憶部25に記憶されている場合には、そのまま記憶されている第2のモデルを用いればよい。また、例えば、第2のモデル記憶部25に複数種類のモデルが記憶されている場合には、その中から第1のモデルとは異なるモデルを第2のモデルとして選択すればよい。なお、第1のモデルと同じ種類のモデルであっても、第1のモデルに与えられたパラメータとは異なる値を与えることにより、第2のモデルとして用いることが可能である。
このように、発話(音声)のどの区間が誤りであるという時間的制約と、その前後にどのような言語情報または音響情報があるかという言語的制約や音響的制約を加えることで、音声認識精度を高めることができる。
なお、本発明においては、音声認識仮説検証装置や音声認識装置内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを音声認識仮説検証装置や音声認識装置にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを音声認識仮説検証装置や音声認識装置に読み込ませ、実行するものであっても良い。音声認識仮説検証装置や音声認識装置にて読取可能な記録媒体とは、ICカードやメモリカード、あるいは、フロッピーディスク(登録商標)、光磁気ディスク、DVD、CDなどの移設可能な記録媒体の他、音声認識仮説検証装置や音声認識装置に内蔵されたHDD等を指す。この記録媒体に記録されたプログラムは、例えば、制御ブロックにて読み込まれ、制御ブロックの制御によって、上述したものと同様の処理が行われる。
以上、実施例を参照して本願発明を説明したが、本願発明は上記実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年8月27日に出願された日本出願特願2008−218605を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、音声認識技術を利用するシステムに好適に適用可能である。

Claims (15)

  1. 時間情報が付与された音声認識仮説が入力される音声認識仮説入力部と、
    前記入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を設定する検証単位変換部と、
    前記検証単位変換部によって設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する単位判定部とを備え、
    前記検証単位変換部は、前記音声認識仮説の時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなる1つ以上の検証単位を設定する音声認識仮説検証装置。
  2. 請求項に記載の音声認識仮説検証装置において、
    前記単位判定部は、少なくとも検証単位の時間区間における音声認識誤りに関する特徴を含む複数種類の特徴を素性とする確率モデルからなる検証モデルと、検証単位ごとに処理対象の音声認識仮説から抽出される特徴とに基づいて、各検証単位の時間区間における認識仮説の正誤を検証する音声認識仮説検証装置。
  3. 請求項に記載の音声認識仮説検証装置において、
    前記検証モデルとして、CRFモデルを用いる音声認識仮説検証装置。
  4. 請求項1乃至のいずれか1項に記載の音声認識仮説検証装置において、
    前記単位判定部による検証単位ごとの検証結果に基づいて、処理対象の音声認識仮説の誤り区間を判定する区間判定部を備え、
    前記区間判定部は、複数の検証単位の検証結果を参照して、前記単位判定部による検証結果を変更した上で、誤り区間を判定する音声認識仮説検証装置。
  5. 請求項1乃至のいずれか1項に記載の音声認識仮説検証装置において、
    前記検証単位変換部は、音声分析フレーム単位に基づいて1つ以上の検証単位を設定する音声認識仮説検証装置。
  6. 入力された音声に対して音声認識を行い、時間情報が付与された音声認識仮説を生成する第1の音声認識部と、
    前記第1の音声認識部によって生成された音声認識仮説の検証を行う音声認識仮説検証部と、
    前記音声認識仮説検証部による音声認識仮説の検証結果を参照して音声認識を行う第2の音声認識部とを備え、
    前記音声認識仮説検証部は、
    入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を設定する検証単位変換部と、
    前記検証単位変換部によって設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する単位判定部とを有し、
    前記検証単位変換部は、前記音声認識仮説の時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなる1つ以上の検証単位を設定し、
    前記第2の音声認識部は、前記単位判定部にて認識仮説が誤りと判定された区間について音声認識を行う音声認識装置。
  7. 請求項に記載の音声認識装置において、
    前記第2の音声認識部は、前記音声認識仮説検証部による音声認識仮説の検証結果を参照し、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて音声認識を行う音声認識装置。
  8. 音声認識仮説を検証する音声認識仮説検証方法であって、
    入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を、少なくとも前記音声認識仮説に付与された時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなるように設定し、
    設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する音声認識仮説検証方法。
  9. 請求項に記載の音声認識仮説検証方法において、
    少なくとも検証単位の時間区間における音声認識誤りに関する特徴を含む複数種類の特徴を素性とする確率モデルからなる検証モデルと、検証単位ごとに処理対象の音声認識仮説から抽出される特徴とに基づいて、各検証単位の時間区間における認識仮説の正誤を検証する音声認識仮説検証方法。
  10. 請求項8または請求項9に記載の音声認識仮説検証方法において、
    検証単位ごとの検証結果に基づいて、処理対象の音声認識仮説の誤り区間を判定する際に、複数の検証単位の検証結果を参照して、前記検証単位ごとの検証結果を変更した上で、誤り区間を判定する音声認識仮説検証方法。
  11. 入力された音声に対して音声認識を行って、時間情報が付与された音声認識仮説を生成し、
    生成された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を、少なくとも前記音声認識仮説の時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなるように設定し、
    設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証し、
    音声認識仮説の検証結果を参照して、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて、認識仮説が誤りと判定された区間について音声認識を行う音声認識方法。
  12. コンピュータに、
    入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を、前記音声認識仮説に付与された時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなるように設定する手順と、
    設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する手順とを実行させるための音声認識仮説検証用プログラム。
  13. 請求項12に記載の音声認識仮説検証用プログラムにおいて、
    コンピュータに、
    少なくとも検証単位の時間区間における音声認識誤りに関する特徴を含む複数種類の特徴を素性とする確率モデルからなる検証モデルと、検証単位ごとに処理対象の音声認識仮説から抽出される特徴とに基づいて、各検証単位の時間区間における認識仮説の正誤を検証させる手順を実行させるための音声認識仮説検証用プログラム。
  14. 請求項12または請求項13に記載の音声認識仮説検証用プログラムにおいて、
    コンピュータに、
    検証単位ごとの検証結果に基づいて、処理対象の音声認識仮説の誤り区間を判定する際に、複数の検証単位の検証結果を参照して、前記検証単位ごとの検証結果を変更した上で、誤り区間を判定する手順を実行させるための音声認識仮説検証用プログラム。
  15. コンピュータに、
    入力された音声に対して音声認識を行って、時間情報が付与された音声認識仮説を生成する手順と、
    生成された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を、少なくとも前記音声認識仮説の時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなるように設定する手順と、
    設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する手順と、
    音声認識仮説の検証結果を参照して、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて、認識仮説が誤りと判定された区間について音声認識を行う手順とを実行させるための音声認識用プログラム。
JP2010526623A 2008-08-27 2009-07-10 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム Active JP5447382B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010526623A JP5447382B2 (ja) 2008-08-27 2009-07-10 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008218605 2008-08-27
JP2008218605 2008-08-27
JP2010526623A JP5447382B2 (ja) 2008-08-27 2009-07-10 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
PCT/JP2009/062611 WO2010024052A1 (ja) 2008-08-27 2009-07-10 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2010024052A1 JPWO2010024052A1 (ja) 2012-01-26
JP5447382B2 true JP5447382B2 (ja) 2014-03-19

Family

ID=41721226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010526623A Active JP5447382B2 (ja) 2008-08-27 2009-07-10 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム

Country Status (2)

Country Link
JP (1) JP5447382B2 (ja)
WO (1) WO2010024052A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6325770B2 (ja) * 2013-02-04 2018-05-16 日本放送協会 音声認識誤り修正装置及びそのプログラム
CN109829162B (zh) * 2019-01-30 2022-04-08 新华三大数据技术有限公司 一种文本分词方法及装置
CN111883109B (zh) * 2020-07-01 2023-09-26 北京猎户星空科技有限公司 语音信息处理及验证模型训练方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249688A (ja) * 1998-03-05 1999-09-17 Mitsubishi Electric Corp 音声認識装置およびその方法
JP2004526197A (ja) * 2001-03-16 2004-08-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 入力された音声のトランスクリプションおよび表示
JP2005202165A (ja) * 2004-01-15 2005-07-28 Advanced Media Inc 音声認識システム
JP2006227628A (ja) * 2005-02-18 2006-08-31 Samsung Electronics Co Ltd フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
WO2008001486A1 (fr) * 2006-06-29 2008-01-03 Nec Corporation Dispositif et programme de traitement vocal, et procédé de traitement vocal

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
JP3496706B2 (ja) * 1997-09-12 2004-02-16 日本電信電話株式会社 音声認識方法及びそのプログラム記録媒体
JP2001175276A (ja) * 1999-12-17 2001-06-29 Denso Corp 音声認識装置及び記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249688A (ja) * 1998-03-05 1999-09-17 Mitsubishi Electric Corp 音声認識装置およびその方法
JP2004526197A (ja) * 2001-03-16 2004-08-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 入力された音声のトランスクリプションおよび表示
JP2005202165A (ja) * 2004-01-15 2005-07-28 Advanced Media Inc 音声認識システム
JP2006227628A (ja) * 2005-02-18 2006-08-31 Samsung Electronics Co Ltd フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
WO2008001486A1 (fr) * 2006-06-29 2008-01-03 Nec Corporation Dispositif et programme de traitement vocal, et procédé de traitement vocal

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ201010076247; 山本仁 他: '"条件付確率場を用いた信頼度基準による認識誤り検出"' 日本音響学会2006年秋季研究発表会講演論文集CD-ROM , 20060906, p.63-64 *
JPN6013004823; 山本仁 他: '"条件付確率場を用いた信頼度基準による認識誤り検出"' 日本音響学会2006年秋季研究発表会講演論文集CD-ROM , 20060906, p.63-64 *

Also Published As

Publication number Publication date
WO2010024052A1 (ja) 2010-03-04
JPWO2010024052A1 (ja) 2012-01-26

Similar Documents

Publication Publication Date Title
US6985863B2 (en) Speech recognition apparatus and method utilizing a language model prepared for expressions unique to spontaneous speech
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
US8645139B2 (en) Apparatus and method of extending pronunciation dictionary used for speech recognition
US20080270133A1 (en) Speech model refinement with transcription error detection
JP3834169B2 (ja) 連続音声認識装置および記録媒体
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
US8849668B2 (en) Speech recognition apparatus and method
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
CN112331229B (zh) 语音检测方法、装置、介质和计算设备
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
CN115985342A (zh) 发音检错方法、装置、电子设备和存储介质
JP6148150B2 (ja) 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
JP5447382B2 (ja) 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
US20020184019A1 (en) Method of using empirical substitution data in speech recognition
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP4533160B2 (ja) 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体
JP2000352993A (ja) 音声認識システム及びヒドン・マルコフ・モデルの学習方法
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
JP4861941B2 (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
US6438521B1 (en) Speech recognition method and apparatus and computer-readable memory
JP2004101963A (ja) 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2005283646A (ja) 音声認識率推定装置
JP4604424B2 (ja) 音声認識装置及び方法、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131216

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5447382

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150