JP4861941B2

JP4861941B2 - 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム

Info

Publication number: JP4861941B2
Application number: JP2007242678A
Authority: JP
Inventors: 晋也樋口
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2007-09-19
Filing date: 2007-09-19
Publication date: 2012-01-25
Anticipated expiration: 2027-09-19
Also published as: JP2009075249A

Description

本発明は、音声データのテキスト化である、いわゆる「書き起こし」により作成されたテキストデータの内容が、元の音声データの内容に対して妥当であるか否かを確認する方法及び装置に関する。

音声データの内容を、書き起こしによりテキスト化してテキストデータを作成することが多い。例えば、公的機関においては、議会における議事内容を書き起こして議事録を作成したり、裁判所における裁判内容を書き起こして裁判記録を作成することが、頻繁にある。また、公的機関以外でも、テレビ局や新聞社、通信社において、インタビュー内容の書き起こしが大量に行われる。
このような大量の書き起こし作業は、書き起こし専用のアプリケーションソフトを用いて行われることが多い。

特に、議会の議事録をターゲットとした書き起こし用のアプリケーションソフトの開発は活発であり、例えば、「http://www.advanced-media.co.jp/businesscategory/government.html」に記載されるような、音声認識技術を用いて書き起こしの時間を短縮するアプリケーションソフトが開発されている。

書き起こしの効率化については、例えば特許文献１〜６のように、様々な提案がなされている。特許文献１、２は、書き起こしにより作成されたテキストを音響的に分析し、認識誤りの可能性が高い部分を強調して操作者に通知することで、書き起こしにより作成されたテキストの誤り訂正を効率化している。特許文献３、４は、素起こしで作成されたテキストを効率よく整文する技術を提供する。素起こしとは、音声をそのまま（転置や言い直し部分を直さずに）書き起こすことである。特許文献５、６は、音声再生範囲を文単位から単語単位にすることで、書き起こしを効率化する技術を提供する。
特開２００１−１３４２７６号公報特開２００７−１０８４０７号公報特開２００５−１６５０６６号公報特開２００７−１３３０３３号公報特表２００４−５３０２０５号公報特開２００５−２２８１７８号公報

書き起こしは、書き起こしの作業者のスキルアップのために、長期間に渡って教育を行う必要がある。また、書き起こしにより作成されたテキストデータが正しいかを、管理者が確認する必要がある。しかし、今後はＡＳＰ（Application Service Provider）型のサービスが増え、在宅勤務の作業者が管理者による監視なしで書き起こしを行う機会が増えると考えられる。その場合、以下のような問題の発生が予想される。

例えば、作業者が音声を聞かずに書き起こしを行うことがある。在宅による作業では管理者による監視がないために、これを発見することは難しい。
また、作業者の入力ミスの問題もある。多くの書き起こし用のアプリケーションソフトでは、音声データを再生して、再生された内容を、アプリケーションソフトによって表示される処理画面の特定の場所（テキスト入力画面）に入力する方式をとっている。図８は、従来の書き起こし作業を行う際の処理画面の例示図である。この処理画面には、音声再生ボタンと音声再生ボタンに対応するテキスト入力領域が設けられている。作業者は、音声再生ボタンをクリックすることで、スピーカから再生される音声を聴取することができる。またキーボードにより、再生した音声の音声再生ボタンに対応するテキスト入力領域に、書き起こしたテキストを入力することができる。しかし、作業者の不注意で入力する位置を間違えることがある。在宅で作業を行う場合には、このような入力ミスを発見することも難しい。

本発明は、上記の問題に鑑み、作業者による不正行為や入力ミスの防止を容易に行える書き起こし内容確認方法及び装置を提供することを課題とする。

上記の課題を解決する本発明の書き起こし内容確認方法は、所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているか否かを確認する処理手段を有する装置により実行される方法であって、前記処理手段が、前記音声データと、前記テキストデータとが入力されるステップと、入力された前記テキストデータに含まれる音節の種類を判別するステップと、入力された前記音声データに含まれる音節と、当該音節に対応する前記テキストデータに含まれる音節とを、人の声の特徴をパラメータにした音響モデルに基づいて対応付けるステップと、前記テキストデータの音節に対応付けられた前記音声データの音節の時間を、判別された前記音節の種類ごとに、音節時間として算出するステップと、判別された前記音節の種類に対応する標準音節時間データを、標準音節時間として取得するステップと、算出された前記音節時間と、取得された前記標準音節時間とを前記音節の種類ごとに比較するステップと、前記比較の結果、算出された前記音節時間が、取得された前記標準音節時間から所定の範囲内にある場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記標準音節時間から所定の範囲外である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップとを有する第１段階と、前記音声データと、前記テキストデータとが入力されるステップと、入力された前記音声データに対して、平仮名単位の音声認識を行うことにより前記音声データの音響対数尤度を算出するステップと、入力された前記音声データに対して、前記テキストデータに含まれる単語に基づいて音声認識を行うことにより前記音声データの単語認識対数尤度を算出するステップと、算出された前記音節認識対数尤度と、算出された前記単語認識対数尤度とに基づいて、前記音声データと前記テキストデータとの類似度を算出するステップと、前記類似度が所定値以上である場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記類似度が所定値未満である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップと、を有する第２段階と、の少なくとも一方の段階を実行する、書き起こし内容確認方法である。
例えば、上記の課題を解決する本発明の書き起こし内容確認方法は、所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているかを確認する処理手段を有する装置により実行される方法である。前記処理手段が、前記音声データ及び前記テキストデータから、前記音声データの音節の種類毎の音節時間データを導出し、この導出した音節の種類毎の音節時間データと当該音節の種類の前記標準音節時間データとを比較することで、導出した前記音節時間データが前記標準音節時間データから所定の範囲内にあるか否かによって前記テキストデータの妥当性を判断する第１段階と、前記音声データを平仮名単位で音声認識して得られる音節認識対数尤度と、前記音声データの音声認識の結果として前記テキストデータと同一の認識結果を１つ得るような音声認識により得られる単語認識対数尤度とから、前記音声データと前記テキストデータとの合致度合を定量的に表す類似度を導出して、導出した類似度を所定の値と比較して前記テキストデータの妥当性を判断する第２段階と、の少なくとも一方を実行する。

音節時間及び類似度の少なくとも一方でテキストデータが妥当であると判断された場合に、当該テキストデータが書き起こしの結果として有用なものであると判断される。このようにして、作業者による不正行為や入力ミスの防止を図る。この方法では、管理者が作業者を監視していなくてもテキストデータの妥当性の判断が可能である。そのために、在宅の作業者による書き起こしでも上記のような問題の発生を抑止できる。

類似度の精度を上げるために、前記処理手段が、例えば前記第２段階で、Ｎ個（Ｎは自然数）の前記音節認識対数尤度を得て、前記単語対数尤度とＮ個の前記音節認識対数尤度とから前記類似度を導出（例えば前記単語認識対数尤度のべき指数値をＮ個の前記音節認識対数尤度のべき指数値の和で割ることにより導出）してもよい。
前記音節認識対数尤度には、例えば前記音声データ、ＨＭＭの音響モデル、及び少なくとも平仮名が格納された音節認識用辞書を用いてＨＭＭ法により得られる音響尤度の対数を用いることができる。前記単語認識対数尤度には、例えば前記音声データ、前記音響モデル、及び前記テキストデータのみが格納された単語認識用辞書を用いてＨＭＭ法により得られる音響尤度の対数を用いることができる。

本発明の書き起こし内容確認装置は、所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているか否かを確認する装置であって、前記音声データと、前記テキストデータとが入力される入力手段と、入力された前記テキストデータに含まれる音節の種類を判別する判別手段と、入力された前記音声データに含まれる音節と、当該音節に対応する前記テキストデータに含まれる音節とを、人の声の特徴をパラメータにした音響モデルに基づいて対応付ける対応付け手段と、前記テキストデータの音節に対応付けられた前記音声データの音節の時間を、判別された前記音節の種類ごとに、音節時間として算出する算出手段と、判別された前記音節の種類に対応する標準音節時間データを、標準音節時間として取得する取得手段と、算出された前記音節時間と、取得された前記標準音節時間とを前記音節の種類ごとに比較する比較手段と、前記比較の結果、算出された前記音節時間が、取得された前記標準音節時間から所定の範囲内にある場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記標準音節時間から所定の範囲外である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定する判定手段とを有する第１手段と、前記音声データと、前記テキストデータとが入力される第２入力手段と、入力された前記音声データに対して、平仮名単位の音声認識を行うことにより前記音声データの音響対数尤度を算出する音響対数尤度算出手段と、入力された前記音声データに対して、前記テキストデータに含まれる単語に基づいて音声認識を行うことにより前記音声データの単語認識対数尤度を算出する単語認識対数尤度算出手段と、算出された前記音節認識対数尤度と、算出された前記単語認識対数尤度とに基づいて、前記音声データと前記テキストデータとの類似度を算出する類似度算出手段と、前記類似度が所定値以上である場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記類似度が所定値未満である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定する第２判定手段と、を有する第２手段と、の少なくとも一方の手段を有する、書き起こし内容確認装置である。
例えば、本発明の書き起こし内容確認装置は、所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているかを確認する装置である。前記音声データ及び当該音声データを元に書き起こされたテキストデータから、前記音声データの音節の種類毎の音節時間データを導出する音声処理手段と、前記音声処理手段により導出された音節の種類毎の音節時間データを当該音節の種類の標準音節時間データと比較して、比較結果により前記テキストデータの妥当性を判断する音節時間比較手段と、前記音声データを平仮名単位で音声認識して得られる音節認識対数尤度及び前記音声データの音声認識の結果として前記テキストデータと同一の認識結果を１つ得るような音声認識により得られる単語認識対数尤度から、前記音声データと前記テキストデータとの合致度合を定量的に表す類似度を導出する類似度測定手段と、前記類似度測定手段で導出した前記類似度を所定の値と比較して前記テキストデータの妥当性を判断する類似度比較手段と、を備え、前記音節時間比較手段と前記類似度比較手段との少なくとも一方が妥当であると判断した場合に、前記テキストデータが妥当であると判断する。
この書き起こし内容確認装置は、前記音声処理手段で判別された音節の種類別に、前記音節時間を前記音節の種類別に集計する音節時間算出手段を更に備える構成であってもよい。また、音節時間算出手段は、前記音声処理手段で導出された音節時間を、音節の種類毎に平均して、音節の種類毎の前記標準音節時間データを算出し、所定の記録手段に記録するようになっていてもよい。

本発明のコンピュータプログラムは、所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているか否かを確認する処理手段を有するコンピュータに、前記音声データと、前記テキストデータとが入力されるステップと、入力された前記テキストデータに含まれる音節の種類を判別するステップと、入力された前記音声データに含まれる音節と、当該音節に対応する前記テキストデータに含まれる音節とを、人の声の特徴をパラメータにした音響モデルに基づいて対応付けるステップと、前記テキストデータの音節に対応付けられた前記音声データの音節の時間を、判別された前記音節の種類ごとに、音節時間として算出するステップと、判別された前記音節の種類に対応する標準音節時間データを、標準音節時間として取得するステップと、算出された前記音節時間と、取得された前記標準音節時間とを前記音節の種類ごとに比較するステップと、前記比較の結果、算出された前記音節時間が、取得された前記標準音節時間から所定の範囲内にある場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記標準音節時間から所定の範囲外である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップとを有する第１段階と、前記音声データと、前記テキストデータとが入力されるステップと、入力された前記音声データに対して、平仮名単位の音声認識を行うことにより前記音声データの音響対数尤度を算出するステップと、入力された前記音声データに対して、前記テキストデータに含まれる単語に基づいて音声認識を行うことにより前記音声データの単語認識対数尤度を算出するステップと、算出された前記音節認識対数尤度と、算出された前記単語認識対数尤度とに基づいて、前記音声データと前記テキストデータとの類似度を算出するステップと、前記類似度が所定値以上である場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記類似度が所定値未満である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップと、を有する第２段階と、の少なくとも一方の段階を実行させるためのコンピュータプログラムである。
例えば、本発明のコンピュータプログラムは、所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているかを確認するコンピュータに、前記音声データ及び前記テキストデータから、前記音声データの音節の種類毎の音節時間データを導出し、この導出した音節の種類毎の音節時間データと当該音節の種類の前記標準音節時間データとを比較することで、導出した前記音節時間データが前記標準音節時間データから所定の範囲内にあるか否かによって前記テキストデータの妥当性を判断する処理、前記音声データを平仮名単位で音声認識して得られる音節認識対数尤度と、前記音声データの音声認識の結果として前記テキストデータと同一の認識結果を１つ得るような音声認識により得られる単語認識対数尤度とから、前記音声データと前記テキストデータとの合致度合を定量的に表す類似度を導出して、導出した類似度を所定の値と比較して前記テキストデータの妥当性を判断する処理、の少なくとも一方を実行させるためのコンピュータプログラムである。

以上のような本発明によれば、音節時間及び／又は類似度を導出し、これにより書き起こされたテキストデータの妥当性を判断するために、書き起こしの精度が向上し、書き起こし内容の確認作業を軽減することができる。

以下、本発明の実施形態を図面を参照して説明する。
図１は、本実施形態の書き起こし内容確認システム１の機能ブロック構成図である。書き起こし内容確認システム１は、例えばＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ハードディスクドライブ等の大容量記録装置、及び入出力インタフェースを備えた汎用のコンピュータ等の情報処理装置が所定のコンピュータプログラムを読み込んで実行することで実現される。この情報処理装置は、入出力インタフェースにより、外部装置２から、書き起こし内容確認に必要なデータである録音音声データや書き起こされた結果であるテキストデータ、音節の種類毎の標準的な音節時間である標準音節時間データ等を読み込み、書き起こし内容の確認結果等の必要な情報を出力する。

外部装置２は、少なくとも、大規模音声データ記録部２１、ラベルデータ記録部２２、標準音節データ記録部２４、録音音声データ記録部２５、及びテキストデータ記録部２６、を有している。

大規模音声データ記録部２１は、上述の標準音節時間データを導出するために用いる音声データ（大規模音声データ）が、文毎にファイルとして記録される。
ラベルデータ記録部２２は、大規模音声データを書き起こしたテキストデータであるラベルデータが記録される。ラベルデータは、音声データと同じく文毎にファイルとして記録されており、例えばファイル名で、対応するラベルデータと音声データとが判るようになっている。
標準音節データ記録部２４は、音節の種類毎の標準音節時間データが記録される。標準音節時間データは、大規模音声データと当該大規模音声データに対応するラベルデータにより導出された音節時間を、音節毎に平均することで得られる。

録音音声データ記録部２５は、書き起こしに用いられる音声データが記録される。
テキストデータ記録部２６は、録音音声データ記録部２５に記録された音声データを元に書き起こされたテキストデータが記録される。

なお、この実施形態では、以上の各データを書き起こし内容確認システム１とは異なる別の外部装置２に格納しているが、これに限らず、その一部或いは全部が書き起こし内容確認システム１に内蔵された構成であってもよい。

書き起こし内容確認システム１は、入力装置が接続される入力部１０と、出力装置が接続される出力部１１と、音声を音節毎に分けて各音節の開始時刻と終了時刻とから音節毎の時間（以下、「音節時間」という）を導出する音声処理部１２と、音節時間算出部１３と、音節時間比較部１４と、類似度測定部１５と、類似度比較部１６と、ＲＡＭ等により形成される一時記録部１７と、大容量記録装置により形成される大容量記録部１８と、を備えている。音声処理部１２、音節時間算出部１３、音節時間比較部１４、類似度測定部１５、及び類似度比較部１６は一つの処理装置で構成されてもよい。

この書き起こし内容確認ステム１は、在宅勤務の作業者による不正行為と入力ミスを防止するために、書き起こしに用いた音声データの内容と、書き起こしにより作成されたテキストデータとを比較して、当該テキストデータの妥当性を判断する。管理者は、テキストデータが妥当であるとされれば、音声データが正しく書き起こされたと判断し、妥当でないとされれば不正行為或いは入力ミスがあったと判断できる。
妥当性の判断は、例えば、（１）音声の各音節の長さが妥当か、（２）音声と書き起こしにより作成されたテキストは発音的に類似しているか、の２点に着目して行われる。（１）と（２）の両方を満たしている場合に、テキストデータが妥当である（書き起こしの作業者は音声データから正しく書き起こした）と判断される。両方を満たさない場合には、不正行為或いは入力ミスがあったと判断する。なお、システム構築者の判断により、（１）、（２）のいずれか一方だけを満たした場合でもテキストデータが正しいとしてもよい。

入力部１０は、入力装置から操作者により入力される各種操作を受け付ける。入力装置からは、書き起こし内容確認システム１の起動指示や、確認対象の録音音声データ、書き起こし結果のテキストデータ、書き起こしデータ内容確認に必要な標準音節時間のデータのダウンロードの指示が行われる。ダウンロードの指示があると、外部装置２から所望のデータがダウンロードされる。ダウンロードは、主にネットワーク経由で行われるが、記録媒体によりダウンロードされるようにしてもよい。
出力部１１は、書き起こし内容の確認結果の表示を行う。

音声処理部１２は、書き起こし結果であるテキストデータから音節の種類を判別する音節種類判別部１２ａと、音声データ、テキストデータ、及び音響モデルから、音節時間を導出する音声セグメント処理部１２ｂを備える。音節種類判別部１２ａは、テキストデータから、図２の「おー」や「しー」等の長音節、「っ」のような促音節、これら以外の通常音節といった音節種類を判別する。音声セグメント処理部１２ｂは、音声のどの部分がどの音節であるか（母音を１つ含む音の一塊）を、音響モデルを用いて推定し、音節の開始時刻と終了時刻とを取得する。図２は、音声セグメント処理の説明図である。
音声データ及びこの音声データから書き起こされたテキストデータ（図２では「おーねがいしーます」）により音声セグメント処理を行うと、各音節の音声データの先頭からの開始時刻及び終了時刻が得られる。例えば、図２では、「ま」の開始時刻は３１０ｍｓ、終了時刻は３８０ｍｓである。音節の開始時刻と終了時刻が得られるので、音節時間が導出できる。例えば、図２では「ま」の音節時間は７０ｍｓである。
なお、標準音節時間データを外部装置２からの入力でなく書き起こし内容確認システム１内で導出する場合には、録音音声データのかわりに大規模音声データ記録部２１に記録された大規模音声データ及びテキストデータのかわりにラベルデータ記録部２２に記録されたラベルデータを取得して、音声処理部１２により、上記と同様に音節の種類を判別して、音節時間の導出を行う。

音節時間算出部１３は、音声セグメント処理部１２ｂにより求められた各音節の音節時間を、音節種類判別部１２ａで判別した音節の種類別に集計して平均し、録音音声音節時間データを算出する。求められた録音音声音節時間データは、一時記録部１７等に記録される。
なお、標準音節時間データを外部装置２からの入力でなく書き起こし内容確認システム１内で導出する場合には、音声処理部１２で導出された大規模音声データの各音節の音節時間を、上記と同様に音節の種類別に平均し、標準音節時間データを算出するようにしてもよい。標準音節時間データは、大容量記録部１８に記録される。

音節時間比較部１４は、大容量記録部１８に記録された標準音節時間データと、一時記録部１７に記録された録音音声データの録音音声音節時間データとを比較して、比較結果によりテキストデータの妥当性を判断する。例えば、録音音声音節時間データが標準音節時間データから所定の範囲内に有れば、録音音声音節時間データが妥当であると判断される。例えば、録音音声音節時間データが、（標準音節時間データ）−（ユーザ設定閾値）≦（録音音声音節時間データ）≦（標準音節時間データ）＋（ユーザ設定閾値）を満たす場合には、録音音声音節時間データが許容範囲内にあり、テキストデータが妥当であると判断され、満たさない場合には録音音声音節時間データが許容範囲外でありテキストデータが妥当ではないと判断される。

類似度測定部１５は、音声データの音声認識の結果と、音声データを元に書き起こされたテキストデータとの合致度合を定量的に表す類似度を導出する。類似度が高ければ、音声データの内容と書き起こされたテキストデータの内容は同じであり、正確に書き起こされた可能性が高く妥当であると判断される。類似度測定部１５は、音節音声認識部１９及び単語音声認識部２０を備えている。

音節音声認識部１９は、録音音声データ、音響モデル、及び平仮名列が格納された音節認識用辞書により、「平仮名」単位で音声認識を行い、認識結果と音響尤度を得る。音節音声認識部１９では、音響モデルと音節認識用辞書から音素列を生成し、録音音声データの特徴量と生成した音素列との距離（尤度）計算と探索を繰り返し、最も確率の高い（近似する）Ｎ個の音節（平仮名）を認識結果としてその音響尤度とともに抽出する。一例として、音響モデルにＨＭＭ（Hidden Markov Model）を用いると、この音響モデルと音声認識用辞書から生成された音素列はＨＭＭ列であり、音響尤度はＨＭＭ法により求められる。なお、音響尤度を得る方法がこの方法に限定されるものでないことはいうまでもない。音節音声認識部１９による音声認識の結果、例えば、「ばたー」という録音音声データから、音声認識により、「ばたぁ」（５０％）、「ばたー」（６０％）、「ばたあ」（６０％）という具合に、「」で括られる認識結果と（）で括られる音響尤度が得られる。

単語音声認識部２０は、録音音声データと、音響モデルと、音節認識用辞書のかわりとして書き起こし結果であるテキストデータのみが格納された単語認識用辞書とを用いて音声認識を行う。即ち、音響モデルと単語認識用辞書から音素列を生成し、録音音声データの特徴量と生成した音素列との距離（尤度）計算を行い、テキストデータと同一の１つの認識結果をその音響尤度とともに抽出する。例えば、「ばたー」という録音音声データ及び「ばたー」というテキストデータから、音声認識により、「ばたー」（７０％）という具合に、「」で括られる認識結果と（）で括られる音響尤度が得られる。

音節音声認識部１９及び単語音声認識部２０による音声認識の結果得られる音響尤度は、音声認識の内部で使われる数値であり、音響尤度の対数を取れば、音響対数尤度になる。通常、音声認識で処理の対象となる値は、この音響対数尤度である。
類似度測定部１５は、単語音声認識部２０で得られた単語認識の音響対数尤度（「単語認識対数尤度」という）と、音節音声認識部１９で得られた音節認識の音響対数尤度（「音節認識対数尤度」という）から類似度を算出する。類似度は、例えば以下の式のように、単語認識対数尤度のべき指数値をＮ個の音節認識対数尤度のべき指数値の和で割ることにより求められる。
（類似度）＝exp（α×（単語認識対数尤度））／Σexp（α×（音節認識対数尤度））
α：調整項
Σexp（α×（音節認識対数尤度））は、Ｎ個の音節認識対数尤度の各々のexp（α×（音節認識対数尤度））の和

類似度比較部１６は、類似度測定部１５で導出された類似度が所定値以上か否かで書き起こしたテキストデータの妥当性を判断する。類似度が所定値未満の場合には、書き起こしが正しく行われず、不正行為や入力ミスの疑いがあると判断する。

一時記録部１７は、音声処理部１２で導出された音節時間、類似度測定部１５で算出された類似度等の各種データを一時的に記録する。一時記録部１７に記録されるデータは、必要に応じて、大容量記録部１８に記録することができる。

大容量記録部１８は、音節認識用辞書１８ａ、単語認識用辞書１８ｂ、音響モデル記録部１８ｃ、及び標準音節データ記録部１８ｄを有している。大容量記録部１８には、上記の各構成要素で処理に用いられる各種データが記録可能になっている。
音節認識用辞書１８ａは、音節音声認識部１９で音声認識を行う際のグラマーファイルとして用いられ、平仮名列が格納されている。これにより、平仮名単位の音声認識が行われる。
単語認識用辞書１８ｂは、単語音声認識部２０で音声認識を行う際のグラマーファイルとして用いられ、書き起こし結果であるテキストデータのみが格納されている。
音響モデル記録部２３は、人の声の特徴をパラメータ化した音響モデルが記録される。従来の音声認識技術においても、音響モデルは必須である。
標準音節データ記録部２４は、音節時間算出部１３で算出された音節の種類毎の標準音節時間データが記録される。
大容量記録部１８に記録される各データは、外部装置２に記録されて、必要なときにその都度ダウンロードするようにしてもよいが、処理の効率上、書き起こし内容確認システム１に格納しておく方がよい。

＜音節時間によるテキストデータの妥当性判断＞
音節時間を導出してテキストデータの妥当性の判断を行うには、標準音節時間データが必要である。標準音節時間データは、大規模音声データ（モデルデータ）に基づいて算出した音節の種類毎の音節時間の平均である。標準音節時間データは、外部からダウンロードされてもよいし、書き起こし内容確認システム１で導出されてもよい。書き起こし内容確認システム１で標準音節時間データを導出する場合には、例えば図３のフローチャートに示すようにして行われる。

まず、音声処理部１２が、入力部１０により外部から、大規模音声データ及び当該大規模音声データに対応するラベルデータを取得する（ステップＳ１００）。また、この際に音響モデル記録部２３から音響モデルも取得する。次いで音声処理部１２は、ラベルデータから音節の種類の判別を行い、大規模音声データ、ラベルデータ、及び音響モデルにより、音節時間を算出する音声セグメント処理を行う。具体的には、ラベルデータから「おー」や「しー」等の長音節、「っ」のような促音節、これら以外の通常音節といった音節種類を判別しておく。そして、音響モデルを用いて大規模音声データとラベルデータをマッチングし、音声のどの部分がどの音節であるかを推定し、音節時間を取得する音声セグメント処理を行う（ステップＳ１１０）。音声処理部１２は、音声処理の結果得られる音節時間を、音節の種類毎に分けて一時記録部１７に記録する（ステップＳ１２０）。以上のステップＳ１００〜Ｓ１２０の処理は、好適には、大規模音声データ記録部２１に記録される大規模音声データのすべてのファイルを取得して行われる。

すべての音声データのすべてのファイルについてステップＳ１００〜Ｓ１２０の処理が終了すると（ステップＳ１３０：Y）、音節時間算出部１３は、一時記録部１７に記録された音節時間を音節の種類毎に平均した標準音節時間データを算出して、大容量記録部１８の標準音節時間記録部２４に記録する。以上のような処理により、標準音節時間データが標準音節時間記録部２４に記録される。

標準音節時間データを用いて行うテキストデータの妥当性の判断は、図４のフローチャートに示すように行われる。

まず、音声処理部１２が、入力部１２により外部から録音音声データ及び当該録音音声データに対応するテキストデータを取得する（ステップＳ２００）。また、この際に音響モデル記録部２３から音響モデルも取得する。次いで音声処理部１２は、テキストデータから音節の種類の判別を行い、録音音声データ、テキストデータ、及び音響モデルにより、音節時間を算出する音声セグメント処理を行う。具体的には、テキストデータから音節種類を判別しておく。そして、音響モデルを用いて録音音声データとテキストデータをマッチングし、音声のどの部分がどの音節であるかを推定し、音節時間を取得する音声セグメント処理を行う（ステップＳ２１０）。音声処理部１２は、音声処理の結果得られる音節の種類及び音節時間を、一時記録部１７に記録する（ステップＳ２２０）。音節時間算出部１３は、一時記録部１７に記録された音節の種類毎の音節時間を、音節の種類別に平均して録音音声音節時間データを導出して一時記録部１７に記録する（ステップＳ２３０）。

音節時間比較部１４は、標準音節データ記録部２４から、該当する音節の種類の標準音節時間データを取得する（ステップＳ２４０）。音節時間比較部１４は、取得した標準音節時間データと一時記録部１７に記録された録音音声音節時間データとを比較して、録音音声音節時間データが標準音節時間データから所定の範囲内にあるか否かを判断する（ステップＳ２５０）。比較結果により、テキストデータの内容の妥当性を判断する。

ステップＳ２５０の結果、テキストデータが妥当であると判断された場合には、判断された音声データとテキストデータとをそれぞれ大規模音声データ記録部２１、ラベルデータ記録部２２に記録し、ステップＳ２２０で一時記録部１７に記録された音節時間を含めて再計算された標準音節時間データを標準音節時間記録部２４に記録してもよい。

＜類似値によるテキストデータの妥当性判断＞
類似値を用いて行うテキストデータの妥当性の判断は、図５のフローチャートに示すように行われる。

まず、類似度測定部１５が、入力部１２により外部から録音音声データ及び当該録音音声データに対応するテキストデータを取得する（ステップＳ３００）。また、大容量記録部１８から音響モデル、音節認識用辞書、及び単語認識用辞書も取得する。

次いで、類似度測定部１５は、取得したこれらのデータにより、録音音声データの音声認識を行う。
音節音声認識部１９は、録音音声データ、音響モデル、及び平仮名列が格納された音節認識用辞書を用いて平仮名単位の音声認識を行い、認識結果と音響対数尤度を得る。即ち音節音声認識部１９では、音響モデルと音節認識用辞書から音素列を生成し、録音音声データの特徴量と生成した音素列との距離（尤度）計算と探索を繰り返し、最も確率の高い（近似する）音節（平仮名）を認識結果としてその音響尤度とともに抽出する。この実施形態では、Ｎベスト機能により複数（Ｎ個：Ｎは自然数）の認識結果と音響尤度とを得る。音節音声認識部１９による音声認識の結果得られるＮ個の音響尤度の対数であるＮ個の音節認識対数尤度を、一時記録部１７に記録する（ステップＳ３１０）。
単語音声認識部２０は、録音音声データ、音響モデル、及び書き起こし結果であるテキストデータのみが格納された単語認識用辞書を用いて音声認識を行う。書き起こし結果のみを格納した単語認識用辞書を用いることで、テキストデータに書かれた内容しか音声認識の結果として出力されない。即ち、音響モデルと単語認識用辞書から音素列を生成し、録音音声データの特徴量と生成した音素列との距離（尤度）計算を行い、テキストデータと同一の１つの認識結果をその音響尤度とともに抽出する。単語音声認識部２０による音声認識の結果得られる音響尤度の対数である単語認識対数尤度を、一時記録部１７に記録する（ステップＳ３２０）。

次いで、類似度比較部１６は、一時記録部１７に記録された音節認識対数尤度と単語認識対数尤度とから、例えば前述の数式により類似度を算出する（ステップＳ３３０）。

類似度比較部１６は、このようにして求められた類似度が所定値以上であるか否かを判断する（ステップＳ３４０）。所定値以上の場合には、録音音声データの内容とテキストデータの内容とは類似度が高く、正しく書き起こしされたと判断する。所定値よりも低い場合には類似度が低いため、書き起こしが正しく行われていない可能性が高く、不正行為や入力ミスの疑いが有る。

上記の例では類似度を一つだけ算出していたが、複数算出するようにしてもよい。例えば、音響モデルを男女別や年齢別の音響モデルを用いたり、ノイズ耐性有りと無しで音声認識を行ったり、複数の音声認識エンジンを用意するなど、様々な方法で一つの音声データから複数の類似度を算出できる。

複数の類似度が算出できると、テキストデータの判断も様々になる。例えば、異なる方法で２種類の類似度を算出した場合には、両方の類似度が所定値以上のときにテキストデータが正しく書き起こされたとする。異なる方法で３種類の類似度を算出した場合には、２つ以上の類似度が所定値以上のときにテキストデータが正しく書き起こされたとする。このような判断が可能になるので、類似度での判断がより確からしくなる。
また、異なる方法で２種類の類似度を算出した場合に、片方の類似度が所定値以上のときにテキストデータが正しく書き起こされたと判断すると、類似度での判断が緩くなる。

＜在宅の作業者の書き起こし能力測定＞
書き起こしの質は作業者により異なるために、よりよい人材を確保することが重要である。人材を評価し、確保することは管理者の仕事であるが、在宅の作業者が増加すると管理者の目が行き届かなくなり、正しい評価できない可能性がある。

在宅の作業者の書き起こし能力測定は、正しく書き起こされたテキストデータ（「リファレンスデータ」という。）と能力測定される作業者の書き起こしたテキストデータとを比較することで実現できる。リファレンスデータは、大容量記録部１８に記録される。また、書き起こし内容確認システム１に図６のフローチャートに示す処理を行う能力測定部を追加する。

能力測定部は、まず、上述のように音節時間比較及び類似度の算出により、類似度が所定値未満であれば、当該作業者に低い得点（例えば０点）を付加する（ステップＳ４００：類似度低、ステップＳ４６０）。

類似度が所定値以上であれば（ステップＳ４００：類似度高）、リファレンスデータを取得して（ステップＳ４１０）、リファレンスデータとテキストデータとを比較し、完全一致であれば、当該作業者に高い得点（例えば２点）を付加する（ステップＳ４２０：完全一致、ステップＳ４３０）。完全一致でない場合には、レーベンシュタイン距離によりリファレンスデータとテキストデータとの類似度を測定する（ステップＳ４２０：完全一致無し、ステップＳ４４０）。この類似度が高ければ、比較的高い得点（例えば１点）を付加する（ステップＳ４４０：類似度高、ステップＳ４５０）。この類似度が低ければ低い得点（例えば０点）を付加する（ステップＳ４４０：類似度低、ステップＳ４６０）。
このような処理により作業者に付加された得点により、能力を測定することができる。書き起こし作業者の能力を正確に把握できるために、作業者が在宅であっても、優秀な人材の確保のための評価が正確に可能になる。

＜在宅の作業者の書き起こし能力向上＞
二人の異なる作業者により同じ音声データを元に書き起こされたテキストデータを比較することで、書き起こし能力の向上を図る。この場合、管理者による確認作業を不要としてもよい。そのために、書き起こし内容確認システム１に図７のフローチャートに示す処理を行うテキストデータ比較部を追加する。

テキストデータ比較部は、まず、書き起こされた２つのテキストデータを取得する（ステップＳ５００）。取得した２つのテキストデータを比較して、その結果、完全一致であれば書き起こした結果としてテキストデータが採用可になる（ステップＳ５１０：完全一致）。完全一致でなければ、レーベンシュタイン距離を測定して類似度を測定する（ステップＳ５１０：完全一致無し、ステップＳ５２０）。類似度が高ければ、第三者に２つのテキストデータのいずれかを選択してもらう（ステップＳ５２０：類似度高）。類似度が低く、再書き起こしをｎ回（ｎは自然数）行っていなければ、当該二人の作業者に再書き起こしを行わせる（ステップＳ５２０：類似度低、ステップＳ５３０：N、ステップＳ５４０）。再書き起こしをｎ回行っている場合には、熟練した他の作業者に書き起こしを行わせる（ステップＳ５３０：Y）。
このような処理により、高い精度の書き起こしを効率的に行うことができる。

本実施形態の書き起こし内容確認システム１の機能ブロック構成図。音声セグメント処理の説明図。標準音節時間データを導出するためのフローチャート。テキストデータの妥当性を判断するためのフローチャート。テキストデータの妥当性を判断するためのフローチャート。能力測定を行うためのフローチャート。テキストデータを比較するためのフローチャート。書き起こし作業を行う際の処理画面の例示図。

符号の説明

１…書き起こし内容確認システム、２…外部装置、１０…入力部、１１…出力部、１２…音声処理部、１２ａ…音節種類判別部、１２ｂ…音声セグメント処理部、１３…音節時間算出部、１４…音節時間比較部、１５…類似度測定部、１６…類似度比較部、１７…一時記録部、１８…大容量記録部、１８ａ…音節認識用辞書、１８ｂ…単語認識用辞書、１８ｃ…音響モデル記録部、１８ｄ…標準音節時間記録部、１９…音節音声認識部、２０…単語音声認識部、２１…大規模音声データ記録部、２２…ラベルデータ記録部、２４…標準音節時間記録部、２５…録音音声データ記録部、２６…テキストデータ記録部

Claims

所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているか否かを確認する処理手段を有する装置により実行される方法であって、
前記処理手段が、
前記音声データと、前記テキストデータとが入力されるステップと、
入力された前記テキストデータに含まれる音節の種類を判別するステップと、
入力された前記音声データに含まれる音節と、当該音節に対応する前記テキストデータに含まれる音節とを、人の声の特徴をパラメータにした音響モデルに基づいて対応付けるステップと、
前記テキストデータの音節に対応付けられた前記音声データの音節の時間を、判別された前記音節の種類ごとに、音節時間として算出するステップと、
判別された前記音節の種類に対応する標準音節時間データを、標準音節時間として取得するステップと、
算出された前記音節時間と、取得された前記標準音節時間とを前記音節の種類ごとに比較するステップと、
前記比較の結果、算出された前記音節時間が、取得された前記標準音節時間から所定の範囲内にある場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記標準音節時間から所定の範囲外である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップと
を有する第１段階と、
前記音声データと、前記テキストデータとが入力されるステップと、
入力された前記音声データに対して、平仮名単位の音声認識を行うことにより前記音声データの音響対数尤度を算出するステップと、
入力された前記音声データに対して、前記テキストデータに含まれる単語に基づいて音声認識を行うことにより前記音声データの単語認識対数尤度を算出するステップと、
算出された前記音節認識対数尤度と、算出された前記単語認識対数尤度とに基づいて、前記音声データと前記テキストデータとの類似度を算出するステップと、
前記類似度が所定値以上である場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記類似度が所定値未満である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップと、
を有する第２段階と、
の少なくとも一方の段階を実行する、書き起こし内容確認方法。
前記処理手段が、前記第２段階で、Ｎ個（Ｎは自然数）の前記音節認識対数尤度を得て
、前記単語対数尤度とＮ個の前記音節認識対数尤度とから前記類似度を導出する、
請求項１記載の書き起こし内容確認方法。
前記処理手段が、前記第２段階で、前記類似度を、前記単語認識対数尤度のべき指数値
をＮ個の前記音節認識対数尤度のべき指数値の和で割ることにより導出する、
請求項２記載の書き起こし内容確認方法。
前記音節認識対数尤度は、前記音声データ、ＨＭＭの音響モデル、及び少なくとも平仮
名が格納された音節認識用辞書によりＨＭＭ法を用いて得られる音響尤度の対数であり、
前記単語認識対数尤度は、前記音声データ、前記音響モデル、及び前記テキストデータ
のみが格納された単語認識用辞書によりＨＭＭ法を用いて得られる音響尤度の対数である
、
請求項１〜３のいずれかの項に記載の書き起こし内容確認方法。
所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているか否かを確認する装置であって、
前記音声データと、前記テキストデータとが入力される入力手段と、
入力された前記テキストデータに含まれる音節の種類を判別する判別手段と、
入力された前記音声データに含まれる音節と、当該音節に対応する前記テキストデータに含まれる音節とを、人の声の特徴をパラメータにした音響モデルに基づいて対応付ける対応付け手段と、
前記テキストデータの音節に対応付けられた前記音声データの音節の時間を、判別された前記音節の種類ごとに、音節時間として算出する算出手段と、
判別された前記音節の種類に対応する標準音節時間データを、標準音節時間として取得する取得手段と、
算出された前記音節時間と、取得された前記標準音節時間とを前記音節の種類ごとに比較する比較手段と、
前記比較の結果、算出された前記音節時間が、取得された前記標準音節時間から所定の範囲内にある場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記標準音節時間から所定の範囲外である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定する判定手段と
を有する第１手段と、
前記音声データと、前記テキストデータとが入力される第２入力手段と、
入力された前記音声データに対して、平仮名単位の音声認識を行うことにより前記音声データの音響対数尤度を算出する音響対数尤度算出手段と、
入力された前記音声データに対して、前記テキストデータに含まれる単語に基づいて音声認識を行うことにより前記音声データの単語認識対数尤度を算出する単語認識対数尤度算出手段と、
算出された前記音節認識対数尤度と、算出された前記単語認識対数尤度とに基づいて、前記音声データと前記テキストデータとの類似度を算出する類似度算出手段と、
前記類似度が所定値以上である場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記類似度が所定値未満である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定する第２判定手段と、
を有する第２手段と、
の少なくとも一方の手段を有する、書き起こし内容確認装置。
前記判別手段で判別された音節の種類別に、前記算出手段によって算出された前記音節時間を前記音節の種類別に集計する音節時間算出手段を更に備える、
請求項５記載の書き起こし内容確認装置。
前記音節時間算出手段は、前記算出手段によって算出された前記音節時間を、音節の種類毎に平均して、音節の種類毎の前記標準音節時間データを算出し、所定の記録手段に記録する、
請求項６記載の書き起こし内容確認装置。
所定の音声データ、前記音声データを元に書き起こされたテキストデータ、及び音節の種類毎の標準的な時間を表す標準音節時間データから、前記テキストデータが前記音声データから正しく書き起こされているか否かを確認する処理手段を有するコンピュータに、
前記音声データと、前記テキストデータとが入力されるステップと、
入力された前記テキストデータに含まれる音節の種類を判別するステップと、
入力された前記音声データに含まれる音節と、当該音節に対応する前記テキストデータに含まれる音節とを、人の声の特徴をパラメータにした音響モデルに基づいて対応付けるステップと、
前記テキストデータの音節に対応付けられた前記音声データの音節の時間を、判別された前記音節の種類ごとに、音節時間として算出するステップと、
判別された前記音節の種類に対応する標準音節時間データを、標準音節時間として取得するステップと、
算出された前記音節時間と、取得された前記標準音節時間とを前記音節の種類ごとに比較するステップと、
前記比較の結果、算出された前記音節時間が、取得された前記標準音節時間から所定の範囲内にある場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記標準音節時間から所定の範囲外である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップと
を有する第１段階と、
前記音声データと、前記テキストデータとが入力されるステップと、
入力された前記音声データに対して、平仮名単位の音声認識を行うことにより前記音声データの音響対数尤度を算出するステップと、
入力された前記音声データに対して、前記テキストデータに含まれる単語に基づいて音声認識を行うことにより前記音声データの単語認識対数尤度を算出するステップと、
算出された前記音節認識対数尤度と、算出された前記単語認識対数尤度とに基づいて、前記音声データと前記テキストデータとの類似度を算出するステップと、
前記類似度が所定値以上である場合には、前記テキストデータが前記音声データから正しく書き起こされていると判定し、前記類似度が所定値未満である場合には、前記テキストデータが前記音声データから正しく書き起こされていないと判定するステップと、
を有する第２段階と、
の少なくとも一方の段階を実行させるためのコンピュータプログラム。