JP4861941B2 - 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム - Google Patents

書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム Download PDF

Info

Publication number
JP4861941B2
JP4861941B2 JP2007242678A JP2007242678A JP4861941B2 JP 4861941 B2 JP4861941 B2 JP 4861941B2 JP 2007242678 A JP2007242678 A JP 2007242678A JP 2007242678 A JP2007242678 A JP 2007242678A JP 4861941 B2 JP4861941 B2 JP 4861941B2
Authority
JP
Japan
Prior art keywords
syllable
data
text data
time
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007242678A
Other languages
English (en)
Other versions
JP2009075249A (ja
Inventor
晋也 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2007242678A priority Critical patent/JP4861941B2/ja
Publication of JP2009075249A publication Critical patent/JP2009075249A/ja
Application granted granted Critical
Publication of JP4861941B2 publication Critical patent/JP4861941B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、音声データのテキスト化である、いわゆる「書き起こし」により作成されたテキストデータの内容が、元の音声データの内容に対して妥当であるか否かを確認する方法及び装置に関する。
音声データの内容を、書き起こしによりテキスト化してテキストデータを作成することが多い。例えば、公的機関においては、議会における議事内容を書き起こして議事録を作成したり、裁判所における裁判内容を書き起こして裁判記録を作成することが、頻繁にある。また、公的機関以外でも、テレビ局や新聞社、通信社において、インタビュー内容の書き起こしが大量に行われる。
このような大量の書き起こし作業は、書き起こし専用のアプリケーションソフトを用いて行われることが多い。
特に、議会の議事録をターゲットとした書き起こし用のアプリケーションソフトの開発は活発であり、例えば、「http://www.advanced-media.co.jp/businesscategory/government.html」に記載されるような、音声認識技術を用いて書き起こしの時間を短縮するアプリケーションソフトが開発されている。
書き起こしの効率化については、例えば特許文献1〜6のように、様々な提案がなされている。特許文献1、2は、書き起こしにより作成されたテキストを音響的に分析し、認識誤りの可能性が高い部分を強調して操作者に通知することで、書き起こしにより作成されたテキストの誤り訂正を効率化している。特許文献3、4は、素起こしで作成されたテキストを効率よく整文する技術を提供する。素起こしとは、音声をそのまま(転置や言い直し部分を直さずに)書き起こすことである。特許文献5、6は、音声再生範囲を文単位から単語単位にすることで、書き起こしを効率化する技術を提供する。
特開2001−134276号公報 特開2007−108407号公報 特開2005−165066号公報 特開2007−133033号公報 特表2004−530205号公報 特開2005−228178号公報
書き起こしは、書き起こしの作業者のスキルアップのために、長期間に渡って教育を行う必要がある。また、書き起こしにより作成されたテキストデータが正しいかを、管理者が確認する必要がある。しかし、今後はASP(Application Service Provider)型のサービスが増え、在宅勤務の作業者が管理者による監視なしで書き起こしを行う機会が増えると考えられる。その場合、以下のような問題の発生が予想される。
例えば、作業者が音声を聞かずに書き起こしを行うことがある。在宅による作業では管理者による監視がないために、これを発見することは難しい。
また、作業者の入力ミスの問題もある。多くの書き起こし用のアプリケーションソフトでは、音声データを再生して、再生された内容を、アプリケーションソフトによって表示される処理画面の特定の場所(テキスト入力画面)に入力する方式をとっている。図8は、従来の書き起こし作業を行う際の処理画面の例示図である。この処理画面には、音声再生ボタンと音声再生ボタンに対応するテキスト入力領域が設けられている。作業者は、音声再生ボタンをクリックすることで、スピーカから再生される音声を聴取することができる。またキーボードにより、再生した音声の音声再生ボタンに対応するテキスト入力領域に、書き起こしたテキストを入力することができる。しかし、作業者の不注意で入力する位置を間違えることがある。在宅で作業を行う場合には、このような入力ミスを発見することも難しい。
本発明は、上記の問題に鑑み、作業者による不正行為や入力ミスの防止を容易に行える書き起こし内容確認方法及び装置を提供することを課題とする。
上記の課題を解決する本発明の書き起こし内容確認方法は、所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているか否かを確認する処理手段を有する装置により実行される方法であって、前記処理手段が、前記音声データと、前記テキストデータとが入力されるステップと、入力された前記テキストデータに含まれる音節の種類を判別するステップと、入力された前記音声データに含まれる音節と、当該音節に対応する前記テキストデータに含まれる音節とを、人の声の特徴をパラメータにした音響モデルに基づいて対応付けるステップと、前記テキストデータの音節に対応付けられた前記音声データの音節の時間を、判別された前記音節の種類ごとに、音節時間として算出するステップと、判別された前記音節の種類に対応する標準音節時間データを、標準音節時間として取得するステップと、算出された前記音節時間と、取得された前記標準音節時間とを前記音節の種類ごとに比較するステップと、前記比較の結果、算出された前記音節時間が、取得された前記標準音節時間から所定の範囲内にある場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記標準音節時間から所定の範囲外である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップとを有する第1段階と、前記音声データと、前記テキストデータとが入力されるステップと、入力された前記音声データに対して、平仮名単位の音声認識を行うことにより前記音声データの音響対数尤度を算出するステップと、入力された前記音声データに対して、前記テキストデータに含まれる単語に基づいて音声認識を行うことにより前記音声データの単語認識対数尤度を算出するステップと、算出された前記音節認識対数尤度と、算出された前記単語認識対数尤度とに基づいて、前記音声データと前記テキストデータとの類似度を算出するステップと、前記類似度が所定値以上である場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記類似度が所定値未満である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップと、を有する第2段階と、の少なくとも一方の段階を実行する、書き起こし内容確認方法である。
例えば、上記の課題を解決する本発明の書き起こし内容確認方法は、所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているかを確認する処理手段を有する装置により実行される方法である。前記処理手段が、前記音声データ及び前記テキストデータから、前記音声データの音節の種類毎の音節時間データを導出し、この導出した音節の種類毎の音節時間データと当該音節の種類の前記標準音節時間データとを比較することで、導出した前記音節時間データが前記標準音節時間データから所定の範囲内にあるか否かによって前記テキストデータの妥当性を判断する第1段階と、前記音声データを平仮名単位で音声認識して得られる音節認識対数尤度と、前記音声データの音声認識の結果として前記テキストデータと同一の認識結果を1つ得るような音声認識により得られる単語認識対数尤度とから、前記音声データと前記テキストデータとの合致度合を定量的に表す類似度を導出して、導出した類似度を所定の値と比較して前記テキストデータの妥当性を判断する第2段階と、の少なくとも一方を実行する。
音節時間及び類似度の少なくとも一方でテキストデータが妥当であると判断された場合に、当該テキストデータが書き起こしの結果として有用なものであると判断される。このようにして、作業者による不正行為や入力ミスの防止を図る。この方法では、管理者が作業者を監視していなくてもテキストデータの妥当性の判断が可能である。そのために、在宅の作業者による書き起こしでも上記のような問題の発生を抑止できる。
類似度の精度を上げるために、前記処理手段が、例えば前記第2段階で、N個(Nは自然数)の前記音節認識対数尤度を得て、前記単語対数尤度とN個の前記音節認識対数尤度とから前記類似度を導出(例えば前記単語認識対数尤度のべき指数値をN個の前記音節認識対数尤度のべき指数値の和で割ることにより導出)してもよい。
前記音節認識対数尤度には、例えば前記音声データ、HMMの音響モデル、及び少なくとも平仮名が格納された音節認識用辞書を用いてHMM法により得られる音響尤度の対数を用いることができる。前記単語認識対数尤度には、例えば前記音声データ、前記音響モデル、及び前記テキストデータのみが格納された単語認識用辞書を用いてHMM法により得られる音響尤度の対数を用いることができる。
本発明の書き起こし内容確認装置は、所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているか否かを確認する装置であって、前記音声データと、前記テキストデータとが入力される入力手段と、入力された前記テキストデータに含まれる音節の種類を判別する判別手段と、入力された前記音声データに含まれる音節と、当該音節に対応する前記テキストデータに含まれる音節とを、人の声の特徴をパラメータにした音響モデルに基づいて対応付ける対応付け手段と、前記テキストデータの音節に対応付けられた前記音声データの音節の時間を、判別された前記音節の種類ごとに、音節時間として算出する算出手段と、判別された前記音節の種類に対応する標準音節時間データを、標準音節時間として取得する取得手段と、算出された前記音節時間と、取得された前記標準音節時間とを前記音節の種類ごとに比較する比較手段と、前記比較の結果、算出された前記音節時間が、取得された前記標準音節時間から所定の範囲内にある場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記標準音節時間から所定の範囲外である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定する判定手段とを有する第1手段と、前記音声データと、前記テキストデータとが入力される第2入力手段と、入力された前記音声データに対して、平仮名単位の音声認識を行うことにより前記音声データの音響対数尤度を算出する音響対数尤度算出手段と、入力された前記音声データに対して、前記テキストデータに含まれる単語に基づいて音声認識を行うことにより前記音声データの単語認識対数尤度を算出する単語認識対数尤度算出手段と、算出された前記音節認識対数尤度と、算出された前記単語認識対数尤度とに基づいて、前記音声データと前記テキストデータとの類似度を算出する類似度算出手段と、前記類似度が所定値以上である場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記類似度が所定値未満である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定する第2判定手段と、を有する第2手段と、の少なくとも一方の手段を有する、書き起こし内容確認装置である。
例えば、本発明の書き起こし内容確認装置は、所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているかを確認する装置である。前記音声データ及び当該音声データを元に書き起こされたテキストデータから、前記音声データの音節の種類毎の音節時間データを導出する音声処理手段と、前記音声処理手段により導出された音節の種類毎の音節時間データを当該音節の種類の標準音節時間データと比較して、比較結果により前記テキストデータの妥当性を判断する音節時間比較手段と、前記音声データを平仮名単位で音声認識して得られる音節認識対数尤度及び前記音声データの音声認識の結果として前記テキストデータと同一の認識結果を1つ得るような音声認識により得られる単語認識対数尤度から、前記音声データと前記テキストデータとの合致度合を定量的に表す類似度を導出する類似度測定手段と、前記類似度測定手段で導出した前記類似度を所定の値と比較して前記テキストデータの妥当性を判断する類似度比較手段と、を備え、前記音節時間比較手段と前記類似度比較手段との少なくとも一方が妥当であると判断した場合に、前記テキストデータが妥当であると判断する。
この書き起こし内容確認装置は、前記音声処理手段で判別された音節の種類別に、前記音節時間を前記音節の種類別に集計する音節時間算出手段を更に備える構成であってもよい。また、音節時間算出手段は、前記音声処理手段で導出された音節時間を、音節の種類毎に平均して、音節の種類毎の前記標準音節時間データを算出し、所定の記録手段に記録するようになっていてもよい。
本発明のコンピュータプログラムは、所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているか否かを確認する処理手段を有するコンピュータに、前記音声データと、前記テキストデータとが入力されるステップと、入力された前記テキストデータに含まれる音節の種類を判別するステップと、入力された前記音声データに含まれる音節と、当該音節に対応する前記テキストデータに含まれる音節とを、人の声の特徴をパラメータにした音響モデルに基づいて対応付けるステップと、前記テキストデータの音節に対応付けられた前記音声データの音節の時間を、判別された前記音節の種類ごとに、音節時間として算出するステップと、判別された前記音節の種類に対応する標準音節時間データを、標準音節時間として取得するステップと、算出された前記音節時間と、取得された前記標準音節時間とを前記音節の種類ごとに比較するステップと、前記比較の結果、算出された前記音節時間が、取得された前記標準音節時間から所定の範囲内にある場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記標準音節時間から所定の範囲外である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップとを有する第1段階と、前記音声データと、前記テキストデータとが入力されるステップと、入力された前記音声データに対して、平仮名単位の音声認識を行うことにより前記音声データの音響対数尤度を算出するステップと、入力された前記音声データに対して、前記テキストデータに含まれる単語に基づいて音声認識を行うことにより前記音声データの単語認識対数尤度を算出するステップと、算出された前記音節認識対数尤度と、算出された前記単語認識対数尤度とに基づいて、前記音声データと前記テキストデータとの類似度を算出するステップと、前記類似度が所定値以上である場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記類似度が所定値未満である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップと、を有する第2段階と、の少なくとも一方の段階を実行させるためのコンピュータプログラムである。
例えば、本発明のコンピュータプログラムは、所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているかを確認するコンピュータに、前記音声データ及び前記テキストデータから、前記音声データの音節の種類毎の音節時間データを導出し、この導出した音節の種類毎の音節時間データと当該音節の種類の前記標準音節時間データとを比較することで、導出した前記音節時間データが前記標準音節時間データから所定の範囲内にあるか否かによって前記テキストデータの妥当性を判断する処理、前記音声データを平仮名単位で音声認識して得られる音節認識対数尤度と、前記音声データの音声認識の結果として前記テキストデータと同一の認識結果を1つ得るような音声認識により得られる単語認識対数尤度とから、前記音声データと前記テキストデータとの合致度合を定量的に表す類似度を導出して、導出した類似度を所定の値と比較して前記テキストデータの妥当性を判断する処理、の少なくとも一方を実行させるためのコンピュータプログラムである。
以上のような本発明によれば、音節時間及び/又は類似度を導出し、これにより書き起こされたテキストデータの妥当性を判断するために、書き起こしの精度が向上し、書き起こし内容の確認作業を軽減することができる。
以下、本発明の実施形態を図面を参照して説明する。
図1は、本実施形態の書き起こし内容確認システム1の機能ブロック構成図である。書き起こし内容確認システム1は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスクドライブ等の大容量記録装置、及び入出力インタフェースを備えた汎用のコンピュータ等の情報処理装置が所定のコンピュータプログラムを読み込んで実行することで実現される。この情報処理装置は、入出力インタフェースにより、外部装置2から、書き起こし内容確認に必要なデータである録音音声データや書き起こされた結果であるテキストデータ、音節の種類毎の標準的な音節時間である標準音節時間データ等を読み込み、書き起こし内容の確認結果等の必要な情報を出力する。
外部装置2は、少なくとも、大規模音声データ記録部21、ラベルデータ記録部22、標準音節データ記録部24、録音音声データ記録部25、及びテキストデータ記録部26、を有している。
大規模音声データ記録部21は、上述の標準音節時間データを導出するために用いる音声データ(大規模音声データ)が、文毎にファイルとして記録される。
ラベルデータ記録部22は、大規模音声データを書き起こしたテキストデータであるラベルデータが記録される。ラベルデータは、音声データと同じく文毎にファイルとして記録されており、例えばファイル名で、対応するラベルデータと音声データとが判るようになっている。
標準音節データ記録部24は、音節の種類毎の標準音節時間データが記録される。標準音節時間データは、大規模音声データと当該大規模音声データに対応するラベルデータにより導出された音節時間を、音節毎に平均することで得られる。
録音音声データ記録部25は、書き起こしに用いられる音声データが記録される。
テキストデータ記録部26は、録音音声データ記録部25に記録された音声データを元に書き起こされたテキストデータが記録される。
なお、この実施形態では、以上の各データを書き起こし内容確認システム1とは異なる別の外部装置2に格納しているが、これに限らず、その一部或いは全部が書き起こし内容確認システム1に内蔵された構成であってもよい。
書き起こし内容確認システム1は、入力装置が接続される入力部10と、出力装置が接続される出力部11と、音声を音節毎に分けて各音節の開始時刻と終了時刻とから音節毎の時間(以下、「音節時間」という)を導出する音声処理部12と、音節時間算出部13と、音節時間比較部14と、類似度測定部15と、類似度比較部16と、RAM等により形成される一時記録部17と、大容量記録装置により形成される大容量記録部18と、を備えている。音声処理部12、音節時間算出部13、音節時間比較部14、類似度測定部15、及び類似度比較部16は一つの処理装置で構成されてもよい。
この書き起こし内容確認ステム1は、在宅勤務の作業者による不正行為と入力ミスを防止するために、書き起こしに用いた音声データの内容と、書き起こしにより作成されたテキストデータとを比較して、当該テキストデータの妥当性を判断する。管理者は、テキストデータが妥当であるとされれば、音声データが正しく書き起こされたと判断し、妥当でないとされれば不正行為或いは入力ミスがあったと判断できる。
妥当性の判断は、例えば、(1)音声の各音節の長さが妥当か、(2)音声と書き起こしにより作成されたテキストは発音的に類似しているか、の2点に着目して行われる。(1)と(2)の両方を満たしている場合に、テキストデータが妥当である(書き起こしの作業者は音声データから正しく書き起こした)と判断される。両方を満たさない場合には、不正行為或いは入力ミスがあったと判断する。なお、システム構築者の判断により、(1)、(2)のいずれか一方だけを満たした場合でもテキストデータが正しいとしてもよい。
入力部10は、入力装置から操作者により入力される各種操作を受け付ける。入力装置からは、書き起こし内容確認システム1の起動指示や、確認対象の録音音声データ、書き起こし結果のテキストデータ、書き起こしデータ内容確認に必要な標準音節時間のデータのダウンロードの指示が行われる。ダウンロードの指示があると、外部装置2から所望のデータがダウンロードされる。ダウンロードは、主にネットワーク経由で行われるが、記録媒体によりダウンロードされるようにしてもよい。
出力部11は、書き起こし内容の確認結果の表示を行う。
音声処理部12は、書き起こし結果であるテキストデータから音節の種類を判別する音節種類判別部12aと、音声データ、テキストデータ、及び音響モデルから、音節時間を導出する音声セグメント処理部12bを備える。音節種類判別部12aは、テキストデータから、図2の「おー」や「しー」等の長音節、「っ」のような促音節、これら以外の通常音節といった音節種類を判別する。音声セグメント処理部12bは、音声のどの部分がどの音節であるか(母音を1つ含む音の一塊)を、音響モデルを用いて推定し、音節の開始時刻と終了時刻とを取得する。図2は、音声セグメント処理の説明図である。
音声データ及びこの音声データから書き起こされたテキストデータ(図2では「おーねがいしーます」)により音声セグメント処理を行うと、各音節の音声データの先頭からの開始時刻及び終了時刻が得られる。例えば、図2では、「ま」の開始時刻は310ms、終了時刻は380msである。音節の開始時刻と終了時刻が得られるので、音節時間が導出できる。例えば、図2では「ま」の音節時間は70msである。
なお、標準音節時間データを外部装置2からの入力でなく書き起こし内容確認システム1内で導出する場合には、録音音声データのかわりに大規模音声データ記録部21に記録された大規模音声データ及びテキストデータのかわりにラベルデータ記録部22に記録されたラベルデータを取得して、音声処理部12により、上記と同様に音節の種類を判別して、音節時間の導出を行う。
音節時間算出部13は、音声セグメント処理部12bにより求められた各音節の音節時間を、音節種類判別部12aで判別した音節の種類別に集計して平均し、録音音声音節時間データを算出する。求められた録音音声音節時間データは、一時記録部17等に記録される。
なお、標準音節時間データを外部装置2からの入力でなく書き起こし内容確認システム1内で導出する場合には、音声処理部12で導出された大規模音声データの各音節の音節時間を、上記と同様に音節の種類別に平均し、標準音節時間データを算出するようにしてもよい。標準音節時間データは、大容量記録部18に記録される。
音節時間比較部14は、大容量記録部18に記録された標準音節時間データと、一時記録部17に記録された録音音声データの録音音声音節時間データとを比較して、比較結果によりテキストデータの妥当性を判断する。例えば、録音音声音節時間データが標準音節時間データから所定の範囲内に有れば、録音音声音節時間データが妥当であると判断される。例えば、録音音声音節時間データが、(標準音節時間データ)−(ユーザ設定閾値)≦(録音音声音節時間データ)≦(標準音節時間データ)+(ユーザ設定閾値)を満たす場合には、録音音声音節時間データが許容範囲内にあり、テキストデータが妥当であると判断され、満たさない場合には録音音声音節時間データが許容範囲外でありテキストデータが妥当ではないと判断される。
類似度測定部15は、音声データの音声認識の結果と、音声データを元に書き起こされたテキストデータとの合致度合を定量的に表す類似度を導出する。類似度が高ければ、音声データの内容と書き起こされたテキストデータの内容は同じであり、正確に書き起こされた可能性が高く妥当であると判断される。類似度測定部15は、音節音声認識部19及び単語音声認識部20を備えている。
音節音声認識部19は、録音音声データ、音響モデル、及び平仮名列が格納された音節認識用辞書により、「平仮名」単位で音声認識を行い、認識結果と音響尤度を得る。音節音声認識部19では、音響モデルと音節認識用辞書から音素列を生成し、録音音声データの特徴量と生成した音素列との距離(尤度)計算と探索を繰り返し、最も確率の高い(近似する)N個の音節(平仮名)を認識結果としてその音響尤度とともに抽出する。一例として、音響モデルにHMM(Hidden Markov Model)を用いると、この音響モデルと音声認識用辞書から生成された音素列はHMM列であり、音響尤度はHMM法により求められる。なお、音響尤度を得る方法がこの方法に限定されるものでないことはいうまでもない。音節音声認識部19による音声認識の結果、例えば、「ばたー」という録音音声データから、音声認識により、「ばたぁ」(50%)、「ばたー」(60%)、「ばたあ」(60%)という具合に、「」で括られる認識結果と()で括られる音響尤度が得られる。
単語音声認識部20は、録音音声データと、音響モデルと、音節認識用辞書のかわりとして書き起こし結果であるテキストデータのみが格納された単語認識用辞書とを用いて音声認識を行う。即ち、音響モデルと単語認識用辞書から音素列を生成し、録音音声データの特徴量と生成した音素列との距離(尤度)計算を行い、テキストデータと同一の1つの認識結果をその音響尤度とともに抽出する。例えば、「ばたー」という録音音声データ及び「ばたー」というテキストデータから、音声認識により、「ばたー」(70%)という具合に、「」で括られる認識結果と()で括られる音響尤度が得られる。
音節音声認識部19及び単語音声認識部20による音声認識の結果得られる音響尤度は、音声認識の内部で使われる数値であり、音響尤度の対数を取れば、音響対数尤度になる。通常、音声認識で処理の対象となる値は、この音響対数尤度である。
類似度測定部15は、単語音声認識部20で得られた単語認識の音響対数尤度(「単語認識対数尤度」という)と、音節音声認識部19で得られた音節認識の音響対数尤度(「音節認識対数尤度」という)から類似度を算出する。類似度は、例えば以下の式のように、単語認識対数尤度のべき指数値をN個の音節認識対数尤度のべき指数値の和で割ることにより求められる。
(類似度)=exp(α×(単語認識対数尤度))/Σexp(α×(音節認識対数尤度))
α:調整項
Σexp(α×(音節認識対数尤度))は、N個の音節認識対数尤度の各々のexp(α×(音節認識対数尤度))の和
類似度比較部16は、類似度測定部15で導出された類似度が所定値以上か否かで書き起こしたテキストデータの妥当性を判断する。類似度が所定値未満の場合には、書き起こしが正しく行われず、不正行為や入力ミスの疑いがあると判断する。
一時記録部17は、音声処理部12で導出された音節時間、類似度測定部15で算出された類似度等の各種データを一時的に記録する。一時記録部17に記録されるデータは、必要に応じて、大容量記録部18に記録することができる。
大容量記録部18は、音節認識用辞書18a、単語認識用辞書18b、音響モデル記録部18c、及び標準音節データ記録部18dを有している。大容量記録部18には、上記の各構成要素で処理に用いられる各種データが記録可能になっている。
音節認識用辞書18aは、音節音声認識部19で音声認識を行う際のグラマーファイルとして用いられ、平仮名列が格納されている。これにより、平仮名単位の音声認識が行われる。
単語認識用辞書18bは、単語音声認識部20で音声認識を行う際のグラマーファイルとして用いられ、書き起こし結果であるテキストデータのみが格納されている。
音響モデル記録部23は、人の声の特徴をパラメータ化した音響モデルが記録される。従来の音声認識技術においても、音響モデルは必須である。
標準音節データ記録部24は、音節時間算出部13で算出された音節の種類毎の標準音節時間データが記録される。
大容量記録部18に記録される各データは、外部装置2に記録されて、必要なときにその都度ダウンロードするようにしてもよいが、処理の効率上、書き起こし内容確認システム1に格納しておく方がよい。
<音節時間によるテキストデータの妥当性判断>
音節時間を導出してテキストデータの妥当性の判断を行うには、標準音節時間データが必要である。標準音節時間データは、大規模音声データ(モデルデータ)に基づいて算出した音節の種類毎の音節時間の平均である。標準音節時間データは、外部からダウンロードされてもよいし、書き起こし内容確認システム1で導出されてもよい。書き起こし内容確認システム1で標準音節時間データを導出する場合には、例えば図3のフローチャートに示すようにして行われる。
まず、音声処理部12が、入力部10により外部から、大規模音声データ及び当該大規模音声データに対応するラベルデータを取得する(ステップS100)。また、この際に音響モデル記録部23から音響モデルも取得する。次いで音声処理部12は、ラベルデータから音節の種類の判別を行い、大規模音声データ、ラベルデータ、及び音響モデルにより、音節時間を算出する音声セグメント処理を行う。具体的には、ラベルデータから「おー」や「しー」等の長音節、「っ」のような促音節、これら以外の通常音節といった音節種類を判別しておく。そして、音響モデルを用いて大規模音声データとラベルデータをマッチングし、音声のどの部分がどの音節であるかを推定し、音節時間を取得する音声セグメント処理を行う(ステップS110)。音声処理部12は、音声処理の結果得られる音節時間を、音節の種類毎に分けて一時記録部17に記録する(ステップS120)。以上のステップS100〜S120の処理は、好適には、大規模音声データ記録部21に記録される大規模音声データのすべてのファイルを取得して行われる。
すべての音声データのすべてのファイルについてステップS100〜S120の処理が終了すると(ステップS130:Y)、音節時間算出部13は、一時記録部17に記録された音節時間を音節の種類毎に平均した標準音節時間データを算出して、大容量記録部18の標準音節時間記録部24に記録する。以上のような処理により、標準音節時間データが標準音節時間記録部24に記録される。
標準音節時間データを用いて行うテキストデータの妥当性の判断は、図4のフローチャートに示すように行われる。
まず、音声処理部12が、入力部12により外部から録音音声データ及び当該録音音声データに対応するテキストデータを取得する(ステップS200)。また、この際に音響モデル記録部23から音響モデルも取得する。次いで音声処理部12は、テキストデータから音節の種類の判別を行い、録音音声データ、テキストデータ、及び音響モデルにより、音節時間を算出する音声セグメント処理を行う。具体的には、テキストデータから音節種類を判別しておく。そして、音響モデルを用いて録音音声データとテキストデータをマッチングし、音声のどの部分がどの音節であるかを推定し、音節時間を取得する音声セグメント処理を行う(ステップS210)。音声処理部12は、音声処理の結果得られる音節の種類及び音節時間を、一時記録部17に記録する(ステップS220)。音節時間算出部13は、一時記録部17に記録された音節の種類毎の音節時間を、音節の種類別に平均して録音音声音節時間データを導出して一時記録部17に記録する(ステップS230)。
音節時間比較部14は、標準音節データ記録部24から、該当する音節の種類の標準音節時間データを取得する(ステップS240)。音節時間比較部14は、取得した標準音節時間データと一時記録部17に記録された録音音声音節時間データとを比較して、録音音声音節時間データが標準音節時間データから所定の範囲内にあるか否かを判断する(ステップS250)。比較結果により、テキストデータの内容の妥当性を判断する。
ステップS250の結果、テキストデータが妥当であると判断された場合には、判断された音声データとテキストデータとをそれぞれ大規模音声データ記録部21、ラベルデータ記録部22に記録し、ステップS220で一時記録部17に記録された音節時間を含めて再計算された標準音節時間データを標準音節時間記録部24に記録してもよい。
<類似値によるテキストデータの妥当性判断>
類似値を用いて行うテキストデータの妥当性の判断は、図5のフローチャートに示すように行われる。
まず、類似度測定部15が、入力部12により外部から録音音声データ及び当該録音音声データに対応するテキストデータを取得する(ステップS300)。また、大容量記録部18から音響モデル、音節認識用辞書、及び単語認識用辞書も取得する。
次いで、類似度測定部15は、取得したこれらのデータにより、録音音声データの音声認識を行う。
音節音声認識部19は、録音音声データ、音響モデル、及び平仮名列が格納された音節認識用辞書を用いて平仮名単位の音声認識を行い、認識結果と音響対数尤度を得る。即ち音節音声認識部19では、音響モデルと音節認識用辞書から音素列を生成し、録音音声データの特徴量と生成した音素列との距離(尤度)計算と探索を繰り返し、最も確率の高い(近似する)音節(平仮名)を認識結果としてその音響尤度とともに抽出する。この実施形態では、Nベスト機能により複数(N個:Nは自然数)の認識結果と音響尤度とを得る。音節音声認識部19による音声認識の結果得られるN個の音響尤度の対数であるN個の音節認識対数尤度を、一時記録部17に記録する(ステップS310)。
単語音声認識部20は、録音音声データ、音響モデル、及び書き起こし結果であるテキストデータのみが格納された単語認識用辞書を用いて音声認識を行う。書き起こし結果のみを格納した単語認識用辞書を用いることで、テキストデータに書かれた内容しか音声認識の結果として出力されない。即ち、音響モデルと単語認識用辞書から音素列を生成し、録音音声データの特徴量と生成した音素列との距離(尤度)計算を行い、テキストデータと同一の1つの認識結果をその音響尤度とともに抽出する。単語音声認識部20による音声認識の結果得られる音響尤度の対数である単語認識対数尤度を、一時記録部17に記録する(ステップS320)。
次いで、類似度比較部16は、一時記録部17に記録された音節認識対数尤度と単語認識対数尤度とから、例えば前述の数式により類似度を算出する(ステップS330)。
類似度比較部16は、このようにして求められた類似度が所定値以上であるか否かを判断する(ステップS340)。所定値以上の場合には、録音音声データの内容とテキストデータの内容とは類似度が高く、正しく書き起こしされたと判断する。所定値よりも低い場合には類似度が低いため、書き起こしが正しく行われていない可能性が高く、不正行為や入力ミスの疑いが有る。
上記の例では類似度を一つだけ算出していたが、複数算出するようにしてもよい。例えば、音響モデルを男女別や年齢別の音響モデルを用いたり、ノイズ耐性有りと無しで音声認識を行ったり、複数の音声認識エンジンを用意するなど、様々な方法で一つの音声データから複数の類似度を算出できる。
複数の類似度が算出できると、テキストデータの判断も様々になる。例えば、異なる方法で2種類の類似度を算出した場合には、両方の類似度が所定値以上のときにテキストデータが正しく書き起こされたとする。異なる方法で3種類の類似度を算出した場合には、2つ以上の類似度が所定値以上のときにテキストデータが正しく書き起こされたとする。このような判断が可能になるので、類似度での判断がより確からしくなる。
また、異なる方法で2種類の類似度を算出した場合に、片方の類似度が所定値以上のときにテキストデータが正しく書き起こされたと判断すると、類似度での判断が緩くなる。
<在宅の作業者の書き起こし能力測定>
書き起こしの質は作業者により異なるために、よりよい人材を確保することが重要である。人材を評価し、確保することは管理者の仕事であるが、在宅の作業者が増加すると管理者の目が行き届かなくなり、正しい評価できない可能性がある。
在宅の作業者の書き起こし能力測定は、正しく書き起こされたテキストデータ(「リファレンスデータ」という。)と能力測定される作業者の書き起こしたテキストデータとを比較することで実現できる。リファレンスデータは、大容量記録部18に記録される。また、書き起こし内容確認システム1に図6のフローチャートに示す処理を行う能力測定部を追加する。
能力測定部は、まず、上述のように音節時間比較及び類似度の算出により、類似度が所定値未満であれば、当該作業者に低い得点(例えば0点)を付加する(ステップS400:類似度低、ステップS460)。
類似度が所定値以上であれば(ステップS400:類似度高)、リファレンスデータを取得して(ステップS410)、リファレンスデータとテキストデータとを比較し、完全一致であれば、当該作業者に高い得点(例えば2点)を付加する(ステップS420:完全一致、ステップS430)。完全一致でない場合には、レーベンシュタイン距離によりリファレンスデータとテキストデータとの類似度を測定する(ステップS420:完全一致無し、ステップS440)。この類似度が高ければ、比較的高い得点(例えば1点)を付加する(ステップS440:類似度高、ステップS450)。この類似度が低ければ低い得点(例えば0点)を付加する(ステップS440:類似度低、ステップS460)。
このような処理により作業者に付加された得点により、能力を測定することができる。書き起こし作業者の能力を正確に把握できるために、作業者が在宅であっても、優秀な人材の確保のための評価が正確に可能になる。
<在宅の作業者の書き起こし能力向上>
二人の異なる作業者により同じ音声データを元に書き起こされたテキストデータを比較することで、書き起こし能力の向上を図る。この場合、管理者による確認作業を不要としてもよい。そのために、書き起こし内容確認システム1に図7のフローチャートに示す処理を行うテキストデータ比較部を追加する。
テキストデータ比較部は、まず、書き起こされた2つのテキストデータを取得する(ステップS500)。取得した2つのテキストデータを比較して、その結果、完全一致であれば書き起こした結果としてテキストデータが採用可になる(ステップS510:完全一致)。完全一致でなければ、レーベンシュタイン距離を測定して類似度を測定する(ステップS510:完全一致無し、ステップS520)。類似度が高ければ、第三者に2つのテキストデータのいずれかを選択してもらう(ステップS520:類似度高)。類似度が低く、再書き起こしをn回(nは自然数)行っていなければ、当該二人の作業者に再書き起こしを行わせる(ステップS520:類似度低、ステップS530:N、ステップS540)。再書き起こしをn回行っている場合には、熟練した他の作業者に書き起こしを行わせる(ステップS530:Y)。
このような処理により、高い精度の書き起こしを効率的に行うことができる。
本実施形態の書き起こし内容確認システム1の機能ブロック構成図。 音声セグメント処理の説明図。 標準音節時間データを導出するためのフローチャート。 テキストデータの妥当性を判断するためのフローチャート。 テキストデータの妥当性を判断するためのフローチャート。 能力測定を行うためのフローチャート。 テキストデータを比較するためのフローチャート。 書き起こし作業を行う際の処理画面の例示図。
符号の説明
1…書き起こし内容確認システム、2…外部装置、10…入力部、11…出力部、12…音声処理部、12a…音節種類判別部、12b…音声セグメント処理部、13…音節時間算出部、14…音節時間比較部、15…類似度測定部、16…類似度比較部、17…一時記録部、18…大容量記録部、18a…音節認識用辞書、18b…単語認識用辞書、18c…音響モデル記録部、18d…標準音節時間記録部、19…音節音声認識部、20…単語音声認識部、21…大規模音声データ記録部、22…ラベルデータ記録部、24…標準音節時間記録部、25…録音音声データ記録部、26…テキストデータ記録部

Claims (8)

  1. 所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているか否かを確認する処理手段を有する装置により実行される方法であって、
    前記処理手段が、
    前記音声データと、前記テキストデータとが入力されるステップと、
    入力された前記テキストデータに含まれる音節の種類を判別するステップと、
    入力された前記音声データに含まれる音節と、当該音節に対応する前記テキストデータに含まれる音節とを、人の声の特徴をパラメータにした音響モデルに基づいて対応付けるステップと、
    前記テキストデータの音節に対応付けられた前記音声データの音節の時間を、判別された前記音節の種類ごとに、音節時間として算出するステップと、
    判別された前記音節の種類に対応する標準音節時間データを、標準音節時間として取得するステップと、
    算出された前記音節時間と、取得された前記標準音節時間とを前記音節の種類ごとに比較するステップと、
    前記比較の結果、算出された前記音節時間が、取得された前記標準音節時間から所定の範囲内にある場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記標準音節時間から所定の範囲外である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップと
    を有する第1段階と、
    前記音声データと、前記テキストデータとが入力されるステップと、
    入力された前記音声データに対して、平仮名単位の音声認識を行うことにより前記音声データの音響対数尤度を算出するステップと、
    入力された前記音声データに対して、前記テキストデータに含まれる単語に基づいて音声認識を行うことにより前記音声データの単語認識対数尤度を算出するステップと、
    算出された前記音節認識対数尤度と、算出された前記単語認識対数尤度とに基づいて、前記音声データと前記テキストデータとの類似度を算出するステップと、
    前記類似度が所定値以上である場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記類似度が所定値未満である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップと、
    を有する第2段階と、
    の少なくとも一方の段階を実行する、書き起こし内容確認方法。
  2. 前記処理手段が、前記第2段階で、N個(Nは自然数)の前記音節認識対数尤度を得て
    、前記単語対数尤度とN個の前記音節認識対数尤度とから前記類似度を導出する、
    請求項1記載の書き起こし内容確認方法。
  3. 前記処理手段が、前記第2段階で、前記類似度を、前記単語認識対数尤度のべき指数値
    をN個の前記音節認識対数尤度のべき指数値の和で割ることにより導出する、
    請求項2記載の書き起こし内容確認方法。
  4. 前記音節認識対数尤度は、前記音声データ、HMMの音響モデル、及び少なくとも平仮
    名が格納された音節認識用辞書によりHMM法を用いて得られる音響尤度の対数であり、
    前記単語認識対数尤度は、前記音声データ、前記音響モデル、及び前記テキストデータ
    のみが格納された単語認識用辞書によりHMM法を用いて得られる音響尤度の対数である

    請求項1〜3のいずれかの項に記載の書き起こし内容確認方法。
  5. 所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているか否かを確認する装置であって、
    前記音声データと、前記テキストデータとが入力される入力手段と、
    入力された前記テキストデータに含まれる音節の種類を判別する判別手段と、
    入力された前記音声データに含まれる音節と、当該音節に対応する前記テキストデータに含まれる音節とを、人の声の特徴をパラメータにした音響モデルに基づいて対応付ける対応付け手段と、
    前記テキストデータの音節に対応付けられた前記音声データの音節の時間を、判別された前記音節の種類ごとに、音節時間として算出する算出手段と、
    判別された前記音節の種類に対応する標準音節時間データを、標準音節時間として取得する取得手段と、
    算出された前記音節時間と、取得された前記標準音節時間とを前記音節の種類ごとに比較する比較手段と、
    前記比較の結果、算出された前記音節時間が、取得された前記標準音節時間から所定の範囲内にある場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記標準音節時間から所定の範囲外である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定する判定手段と
    を有する第1手段と、
    前記音声データと、前記テキストデータとが入力される第2入力手段と、
    入力された前記音声データに対して、平仮名単位の音声認識を行うことにより前記音声データの音響対数尤度を算出する音響対数尤度算出手段と、
    入力された前記音声データに対して、前記テキストデータに含まれる単語に基づいて音声認識を行うことにより前記音声データの単語認識対数尤度を算出する単語認識対数尤度算出手段と、
    算出された前記音節認識対数尤度と、算出された前記単語認識対数尤度とに基づいて、前記音声データと前記テキストデータとの類似度を算出する類似度算出手段と、
    前記類似度が所定値以上である場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記類似度が所定値未満である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定する第2判定手段と、
    を有する第2手段と、
    の少なくとも一方の手段を有する、書き起こし内容確認装置。
  6. 前記判別手段で判別された音節の種類別に、前記算出手段によって算出された前記音節時間を前記音節の種類別に集計する音節時間算出手段を更に備える、
    請求項5記載の書き起こし内容確認装置。
  7. 前記音節時間算出手段は、前記算出手段によって算出された前記音節時間を、音節の種類毎に平均して、音節の種類毎の前記標準音節時間データを算出し、所定の記録手段に記録する、
    請求項6記載の書き起こし内容確認装置。
  8. 所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているか否かを確認する処理手段を有するコンピュータに、
    前記音声データと、前記テキストデータとが入力されるステップと、
    入力された前記テキストデータに含まれる音節の種類を判別するステップと、
    入力された前記音声データに含まれる音節と、当該音節に対応する前記テキストデータに含まれる音節とを、人の声の特徴をパラメータにした音響モデルに基づいて対応付けるステップと、
    前記テキストデータの音節に対応付けられた前記音声データの音節の時間を、判別された前記音節の種類ごとに、音節時間として算出するステップと、
    判別された前記音節の種類に対応する標準音節時間データを、標準音節時間として取得するステップと、
    算出された前記音節時間と、取得された前記標準音節時間とを前記音節の種類ごとに比較するステップと、
    前記比較の結果、算出された前記音節時間が、取得された前記標準音節時間から所定の範囲内にある場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記標準音節時間から所定の範囲外である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップと
    を有する第1段階と、
    前記音声データと、前記テキストデータとが入力されるステップと、
    入力された前記音声データに対して、平仮名単位の音声認識を行うことにより前記音声データの音響対数尤度を算出するステップと、
    入力された前記音声データに対して、前記テキストデータに含まれる単語に基づいて音声認識を行うことにより前記音声データの単語認識対数尤度を算出するステップと、
    算出された前記音節認識対数尤度と、算出された前記単語認識対数尤度とに基づいて、前記音声データと前記テキストデータとの類似度を算出するステップと、
    前記類似度が所定値以上である場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記類似度が所定値未満である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップと、
    を有する第2段階と、
    の少なくとも一方の段階を実行させるためのコンピュータプログラム。
JP2007242678A 2007-09-19 2007-09-19 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム Expired - Fee Related JP4861941B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007242678A JP4861941B2 (ja) 2007-09-19 2007-09-19 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007242678A JP4861941B2 (ja) 2007-09-19 2007-09-19 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2009075249A JP2009075249A (ja) 2009-04-09
JP4861941B2 true JP4861941B2 (ja) 2012-01-25

Family

ID=40610284

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007242678A Expired - Fee Related JP4861941B2 (ja) 2007-09-19 2007-09-19 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4861941B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6306400B2 (ja) * 2014-04-04 2018-04-04 Kddi株式会社 クラウドソーシングにおける作業者のスキルを評価するスキル評価装置、プログラム及び方法
CN111105799B (zh) * 2019-12-09 2023-07-07 国网浙江省电力有限公司杭州供电公司 基于发音量化和电力专用词库的离线语音识别装置及方法
CN111858852B (zh) * 2020-07-07 2022-07-05 国网福建省电力有限公司 一种基于数据相似性的全防误点表校核方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3171107B2 (ja) * 1996-04-26 2001-05-28 日本電気株式会社 音声認識装置
JP2001228890A (ja) * 2000-02-17 2001-08-24 Mitsubishi Electric Corp 音声認識装置
JP4610451B2 (ja) * 2005-09-09 2011-01-12 株式会社エヌ・ティ・ティ・データ 音声認識装置及びプログラム
JP2007133033A (ja) * 2005-11-08 2007-05-31 Nec Corp 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム

Also Published As

Publication number Publication date
JP2009075249A (ja) 2009-04-09

Similar Documents

Publication Publication Date Title
US10147418B2 (en) System and method of automated evaluation of transcription quality
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
US7603279B2 (en) Grammar update system and method for speech recognition
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US8645139B2 (en) Apparatus and method of extending pronunciation dictionary used for speech recognition
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP2009139862A (ja) 音声認識装置及びコンピュータプログラム
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP6996570B2 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP4354299B2 (ja) 事例検索プログラム、事例検索方法及び事例検索装置
JP4861941B2 (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
US20020184019A1 (en) Method of using empirical substitution data in speech recognition
JP3735209B2 (ja) 話者認識装置及び方法
JP5447382B2 (ja) 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
JP5673239B2 (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP4798606B2 (ja) 音声認識装置、およびプログラム
JP4981850B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JP4962930B2 (ja) 発音評定装置、およびプログラム
JP5066668B2 (ja) 音声認識装置、およびプログラム
JP4621936B2 (ja) 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム
US20030163312A1 (en) Speech processing apparatus and method

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100325

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100402

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111011

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111107

R150 Certificate of patent or registration of utility model

Ref document number: 4861941

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees