JP2015045689A

JP2015045689A - 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム

Info

Publication number: JP2015045689A
Application number: JP2013175563A
Authority: JP
Inventors: 岳人倉田; Takehito Kurata; 雅史西村; Masafumi Nishimura
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-08-27
Filing date: 2013-08-27
Publication date: 2015-03-12

Abstract

【課題】本発明は、音声認識システムの認識性能を評価するために適切な誤り率を選択可能にする方法を提供することを目的とする。
【解決手段】本発明に従う音声認識結果を評価する技法は、上記音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率（以下、「表記誤り率」）と発音による誤り率（以下、「発音誤り率」）とをそれぞれ算出すること、上記算出した表記誤り率に所定の係数を適用した後の値と上記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として採用し、一方、上記差が上記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として採用すること、及び、各文についての上記採用された誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出することを含む。
【選択図】図３

Description

本発明は、音声認識システムの認識性能、すなわち正解データと比べてどれだけ正しかったかを評価する技法に関する。特には、本発明は、音声認識システムについての音声認識結果を評価する技法、並びに、複数の音声認識システムについての音声認識結果を評価する技法に関する。

音声認識、特には大語彙連続音声認識（ＬＶＣＳＲ）は、様々な分野、例えばコールセンターでの書き起こし、裁判所での自動調書作成、大学でのビデオ講義での字幕作成で利用されている。

音声検索では検索自体が高精度であっても、音声認識誤りによって検索精度が低下する。従って、検索にとって、音声認識結果を適切に評価することが重要である。しかしながら、日本語の大語彙連続音声認識結果の正確な評価は、表記揺れを纏めることが困難であることから困難である。

音声認識結果の慣用的な評価方法において、音声認識の正確性は、発話の正解データ（「正解書き起こし」又は「正解文書」ともいう）（reference）とＬＶＣＳＲシステムからとの仮説データ（hypothesis）とを比較することによって、見積もられる。

慣用的な評価方法では、異なる単語単位において上記正解データと上記仮説とを比較する。連続音声認識結果の一般的な評価方法における認識率評価尺度として例えば、単語誤り率（ＷＥＲ：Word Error Rate）、文字誤り率（ＣＥＲ：Character Error Rate）、及びかな誤り率（ＫＥＲ：Katakana Error Rate）がある。

単語誤り率（ＷＥＲ）は、単語を単位とした認識率評価尺度である。しかしながら、日本語は分かち書きがされていない。その為に、単語誤り率（ＷＥＲ）では、日本語の単語単位（ユニット）の不明瞭さに悩まされる。例えば、語「東京都知事」は、「東京都知事」，「東京／都知事」，「東京都／知事」，「東京／都／知事」の単語単位にわけられうる。従って、誤り率が分かち書きの仕方によって変化する為に、単語誤り率（ＷＥＲ）は日本語の音声認識結果の評価には適さない。

文字誤り率（ＣＥＲ）は、主にＯＣＲ文字認識やかな漢字変換の評価で用いられる認識率評価尺度であり、文字単位でマッチングを行う手法である。文字誤り率（ＣＥＲ）では、単語分割による表記の揺れがない。日本語は単語分割による曖昧性を有する為に、単語誤り率（ＷＥＲ）でなく、文字誤り率（ＣＥＲ）がよく用いられる。しかしながら、日本語では、平仮名、片仮名、漢字、及び英数字が、一つの文中において混合された様式で用いられている。また、大語彙連続音声認識では、同じ単語でも複数の表記を有しうる。綴り（スペリング）表現の複数の代替表現が通常、各単語について利用可能である。例えば、「coffee」（英語表記である）は、「コーヒー」（片仮名表記である）又は「珈琲」（漢字表記である）としても綴られ、当該綴りの表現の選択は任意的である。よって、文字誤り率（ＣＥＲ）では、表記の揺れ（例えば、上記「coffee」（英語表記である）は、「コーヒー」（片仮名表記である）又は「珈琲」（漢字表記である））を誤りとしてカウントしてしまう。従って、上記したとおり、日本語の大語彙連続音声認識では同じ単語でも複数の表記がある為に、文字誤り率（ＣＥＲ）では、どの表記を選択したかによって誤り率が変化してしまう。また、文字誤り率（ＣＥＲ）では、日本語における多種多様な綴り表現を取り扱うことは困難である。さらに、文字誤り率（ＣＥＲ）では、音声検索のような最近の巨大規模のタスクにおいて、上記正解データと上記仮説データとの間での正規化は実行不可能である。

かな誤り率（ＫＥＲ：Katakana Error Rate）は、上記正解データ及び上記仮説データを、発音を表す片仮名文字列（片仮名シーケンス）に翻訳してマッチングを行う認識率評価尺度である。かな誤り率（ＫＥＲ）は、綴りに基づく面倒な問題、例えば上記した単語単位の不明瞭さ及び多種多様な綴り表現を避けることが可能である。しかし、かな誤り率（ＫＥＲ）は、表記の誤りをカウントしない為に、誤認識を低く見積もる傾向にある。また、音声認識結果を片仮名文字列で出力することは見易さの観点からは好ましくない。従って、音声認識結果を片仮名文字列で出力すればいいというものでもない。

下記特許文献１は、認識結果に対する複数の第２の信頼性尺度が第１の信頼性尺度を決定するため自動的に結合され、認識結果が第１の信頼性尺度を用いて評価される、音声発話の自動認識方法において、上記第２の信頼性尺度の合成を決定するパラメータがクロスエントロピー誤差尺度の最小化に基づいて決定されることを特徴とする方法を記載する（請求項１）。すなわち、特許文献１は、音声認識がある結果を出力する際に、その計算途中で得られる尤度などから、得られた認識結果が正しいかどうかを推測する手法に関する。

下記特許文献２は、音声認識システムに対するモデル適合のための方法であって、１組の語のうちの１つの語の事例の認識または様々な語の事例の認識に対応する誤り率を決定する段階と、前記誤り率に基づいて、前記１つの語に対する１つのモデルまたは前記様々な語に対する様々なモデルの適合を調整する段階とを含む方法を記載する（請求項１）。すなわち、特許文献２は、音声認識の評価結果に基づいて、音声認識のモデルを改善する手法に関する。

下記特許文献３は、入力音声を音声認識して正解候補を複数出力し、出力した正解候補の中から音声認識結果を選択する音声認識手段を備えている誤り傾向学習音声認識装置において、前記音声認識手段は、前記誤り傾向学習手段により分析された認識誤りの傾向を修正するための誤り修正モデルを用いて、音声認識結果の選択における誤りを修正することを特徴する傾向学習音声認識装置を記載する（請求項１）。すなわち、特許文献３は、音声認識結果を人手で修正し、その結果に基づいて、自動的に音声認識結果を改善するモデルを学習する手法に関する。

下記特許文献４は、音声認識システムのパフォーマンスを評価するための方法を記載する（請求項１）。

下記特許文献５は、入力音声信号の音声認識結果が、どの程度信頼できるかを表す信頼度を推定するようにした音声認識装置を記載する（段落０００１）。

特開２０００−９９０８０号公報特開２００９−５３２７４４号公報特開２００８−２１６３４１号公報特開２００９−５３２７４２号公報特開２０１０−２１０８１６号公報

連続音声認識結果の一般的な評価方法における認識率評価尺度として、上記した通り、単語誤り率（ＷＥＲ：Word Error Rate）、文字誤り率（ＣＥＲ：Character Error Rate）、及びかな誤り率（ＫＥＲ：Katakana Error Rate）がある。それぞれの尺度方法の特徴からすれば、日本語の音声認識、特にはＬＶＣＳＲの性能評価には、文字誤り率（ＣＥＲ）を認識率評価尺度としてなるべく使用したい。しかしながら、文字誤り率（ＣＥＲ）においては、正解データの表記における表記の揺れがある為にどの表記を選択したかによって誤り率が変化し、また特にはＬＶＣＳＲシステムの場合、例えば検索発話やメッセージ発話の場合には語彙が多すぎて表記の正規化もできないという問題がある。そこで、本発明は、音声認識システムの音声認識結果を評価するために適切な誤り率を選択可能にする方法を提供することを目的とする。

本発明者らは、かな誤り率（ＫＥＲ）が文字誤り率（ＣＥＲ）よりもはるかに良い場合に、かな誤り率（ＫＥＲ）が文字誤り率（ＣＥＲ）よりもより合理的であることを見つけた。そして、本発明は、連続音声認識結果の認識率評価尺度として、文字誤り率（ＣＥＲ）を基本としつつ、発話単位での文字誤り率（ＣＥＲ）とかな誤り率（ＫＥＲ）の適切な切り替えにより、より合理的な誤り率が得られる技法を提供する。すなわち、本発明は、音声認識結果のテキストの一文ごとについて、文字誤り率（ＣＥＲ）が信頼に足りるかどうかを判定して、当該信頼が足りない場合にはかな誤り率（ＫＥＲ）にスイッチして評価を行うという評価尺度を提供する。

本発明は、音声認識結果を評価する技法を提供する。また、本発明は、複数の音声認識システムについての音声認識結果を評価する技法を提供する。当該技法は、音声認識結果を評価する方法、並びに、そのシステム、コンピュータ・プログラム及びコンピュータ・プログラム製品を包含しうる。

本発明に従う第１の態様において、音声認識結果を評価する方法は、
上記音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率（以下、「表記誤り率」という）と発音による誤り率（以下、「発音誤り率」という）とをそれぞれ算出するステップと、
上記算出した表記誤り率に所定の係数を適用した後の値と上記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として採用し、一方、上記差が上記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として採用するステップと、
各文についての上記採用された誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出するステップと
を含む。

本発明に従う第２の態様において、複数の音声認識結果を評価する方法は、
上記複数の音声認識システムそれぞれについて、同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率（表記誤り率）と発音による誤り率（発音誤り率）とをそれぞれ算出するステップと、
上記複数の音声認識システムそれぞれについて、上記算出した表記誤り率に所定の係数を適用した後の値と上記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として仮採用し、一方、上記差が上記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として仮採用するステップと、
上記複数の音声認識システムそれぞれについて、上記発音誤り率を誤り率として仮採用された文を識別して、当該文の集合を作成するステップと、
上記発音誤り率が誤り率として仮採用された上記文の集合同士の和集合を求めるステップと、
上記複数の音声認識システムそれぞれについて、上記求めた和集合に属する文については上記発音誤り率を採用し、一方、残りの文については上記表記誤り率を採用するステップと、
上記複数の音声認識システムそれぞれについて、上記採用された誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出するステップと
を含む。

本発明に従う第３の態様において、音声認識結果を評価するためのコンピュータは、
上記音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率（表記誤り率）と発音による誤り率（発音誤り率）とをそれぞれ算出する誤り率算出部と、
上記算出した表記誤り率に所定の係数を適用した後の値と上記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として採用し、一方、上記差が上記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として採用する誤り率採用部と、
各文についての上記採用された誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出する評価結果算出部と
を備えている。

本発明に従う第４の態様において、複数の音声認識結果を評価するためのコンピュータは、
上記複数の音声認識システムそれぞれについて、同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率（表記誤り率）と発音による誤り率（発音誤り率）とをそれぞれ算出する誤り率算出部と、
上記複数の音声認識システムそれぞれについて、上記算出した表記誤り率に所定の係数を適用した後の値と上記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として仮採用し、一方、上記差が上記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として仮採用する誤り率仮採用部と、
上記複数の音声認識システムそれぞれについて、上記発音誤り率を誤り率として仮採用された文を識別して、当該文の集合を作成する文集合識別部と、
上記発音誤り率が誤り率として仮採用された上記文の集合同士の和集合を求める和集合算出部と、
上記複数の音声認識システムそれぞれについて、上記求めた和集合に属する文については上記発音誤り率を採用し、一方、残りの文については上記表記誤り率を採用して、上記採用された誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出する評価結果算出部と
を備えている。

また、本発明に従う第５の態様において、コンピュータ・プログラム及びコンピュータ・プログラム製品は、上記コンピュータに、本発明に従う方法の各ステップを実行させる。

本発明の実施態様に従うコンピュータ・プログラムはそれぞれ、一つ又は複数のフレキシブル・ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ、ＢＤ、ハードディスク装置、ＵＳＢに接続可能なメモリ媒体、ＲＯＭ、ＭＲＡＭ、ＲＡＭ等の任意のコンピュータ読み取り可能な記録媒体に格納することができる。当該コンピュータ・プログラムは、記録媒体への格納のために、通信回線で接続する他のデータ処理システム、例えばサーバ・コンピュータからダウンロードしたり、又は他の記録媒体から複製したりすることができる。また、本発明の実施態様に従うコンピュータ・プログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。また、様々な形態で、本発明の実施態様に従うコンピュータ・プログラム製品を提供することも勿論可能であることにも留意されたい。本発明の実施態様に従うコンピュータ・プログラム製品は、例えば、上記コンピュータ・プログラムを記録した記憶媒体、又は、上記コンピュータ・プログラムを伝送する伝送媒体を包含しうる。

本発明の上記概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの構成要素のコンビネーション又はサブコンビネーションもまた、本発明となりうることに留意すべきである。

本発明の実施態様において使用されるコンピュータの各ハードウェア構成要素を、複数のマシンと組み合わせ、それらに機能を配分し実施する等の種々の変更は当業者によって容易に想定され得ることは勿論である。それらの変更は、当然に本発明の思想に包含される概念である。ただし、これらの構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。

また、本発明は、ハードウェア、ソフトウェア、又は、ハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアとの組み合わせによる実行において、上記コンピュータ・プログラムのインストールされたコンピュータにおける実行が典型的な例として挙げられる。かかる場合、当該コンピュータ・プログラムが当該コンピュータのメモリにロードされて実行されることにより、当該コンピュータ・プログラムは、当該コンピュータを制御し、本発明にかかる処理を実行させる。当該コンピュータ・プログラムは、任意の言語、コード、又は、表記によって表現可能な命令群から構成されうる。そのような命令群は、当該コンピュータが特定の機能を直接的に、又は、１．他の言語、コード若しくは表記への変換及び、２．他の媒体への複製、のいずれか一方若しくは双方が行われた後に、実行することを可能にするものである。

本発明の実施態様に従うと、発話単位でかな誤り率（ＫＥＲ）と文字誤り率（ＣＥＲ）とを適切に切り替えることによって、より合理的な誤り率が得られる。従って、本発明の実施態様に従うと、多様な表記が許されるような表現があった場合に、表記の揺れによる誤りを不必要に多く算出することなしに、音声認識システムの音声認識精度を適切に推定することが可能になる。また、本発明の実施態様に従うと、音声認識システムの音声認識結果をより高い精度で評価すること、並びに、複数の音声認識システムについての音声認識結果をより精度の高く評価することが可能になる。

本発明の実施形態におけるコンピュータ・ハードウェアの基本的なブロック図を示す。文字誤り率（ＣＥＲ）とかな誤り率（ＫＥＲ）との間で誤り率が異なることを示す表である。本発明の上記第１の実施態様に従う、音声認識結果を評価する処理のためのフローチャートを示す。本発明の上記第２の実施態様に従う、複数の音声認識システムについての音声認識結果を評価する処理のためのフローチャートを示す。図４Ａの説明と同じである。図４Ａの説明と同じである。図４Ａ〜図４Ｃに記載の複数の音声認識システムについての音声認識結果を評価する処理によって、かな誤り率（ＫＥＲ）の採用される範囲が最適化されることを示す図である。図１に従うハードウェア構成を好ましくは備えており、図３に示す本発明の上記第１の実施態様に従うコンピュータの機能ブロック図の一例を示した図である。図１に従うハードウェア構成を好ましくは備えており、図４Ａ〜図４Ｃに示す本発明の上記第２の実施態様に従うコンピュータの機能ブロック図の一例を示した図である。

本発明の実施形態を、以下に図面に従って説明する。以下の図を通して、特に断らない限り、同一の符号は同一の対象を指す。本発明の実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。

本発明の実施態様に従う上記コンピュータは、１又は複数のコンピュータから構成されうる。

図１は、本発明の実施態様において使用されうるコンピュータを実現するためのハードウェア構成の一例を示した図である。

コンピュータ（１０１）は、ＣＰＵ（１０２）とメイン・メモリ（１０３）とを備えており、これらはバス（１０４）に接続されている。ＣＰＵ（１０２）は好ましくは、３２ビット又は６４ビットのアーキテクチャに基づくものである。当該ＣＰＵ（１０２）は例えば、インテル社のＣｏｒｅ（商標ｉ）シリーズ、Ｃｏｒｅ（商標）２シリーズ、Ａｔｏｍ（商標）シリーズ、Ｘｅｏｎ（登録商標）シリーズ、Ｐｅｎｔｉｕｍ（登録商標）シリーズ若しくはＣｅｌｅｒｏｎ（登録商標）シリーズ、ＡＭＤ（Advanced Micro Devices）社のＡシリーズ、Ｐｈｅｎｏｍ（商標）シリーズ、Ａｔｈｌｏｎ（商標）シリーズ、Ｔｕｒｉｏｎ（商標）シリーズ若しくはＳｅｍｐｒｏｎ（商標）、又は、インターナショナル・ビジネス・マシーンズ・コーポレーションのＰｏｗｅｒ（商標）シリーズでありうる。

バス（１０４）には、ディスプレイ・コントローラ（１０５）を介して、ディスプレイ（１０６）、例えば液晶ディスプレイ（ＬＣＤ）が接続されうる。また、液晶ディスプレイ（ＬＣＤ）は例えば、タッチパネル・ディスプレイ又はフローティング・タッチ・ディスプレイであてもよい。ディスプレイ（１０６）は、コンピュータ（１０１）上で動作中のソフトウェア、例えば本発明の実施態様に従うコンピュータ・プログラムが稼働することによって表示される情報、例えば評価結果を、適当なグラフィック・インタフェースで表示するために使用されうる。

バス（１０４）には任意的に、例えばＳＡＴＡ又はＩＤＥコントローラ（１０７）を介して、記憶装置（１０８）、例えばハードディスク又はソリッド・ステート・ドライブに接続されうる。

バス（１０４）には任意的に、例えばＳＡＴＡ又はＩＤＥコントローラ（１０７）を介して、記憶装置（１０８）、ドライブ（１０９）、例えばＣＤ、ＤＶＤ又はＢＤドライブが接続されうる。

バス（１０４）には、周辺装置コントローラ（１１０）を介して、例えばキーボード・マウス・コントローラ又はＵＳＢバスを介して、任意的に、キーボード（１１１）及びマウス（１１２）が接続されうる。

記憶装置（１０８）には、オペレーティング・システム、Ｗｉｎｄｏｗｓ（登録商標）ＯＳ、ＵＮＩＸ（登録商標）、ＭａｃＯＳ（登録商標）、及びＪ２ＥＥなどのＪａｖａ（登録商標）処理環境、Ｊａｖａ（登録商標）アプリケーション、Ｊａｖａ（登録商標）仮想マシン（ＶＭ）、Ｊａｖａ（登録商標）実行時（ＪＩＴ）コンパイラを提供するプログラム、本発明の実施態様に従うコンピュータ・プログラム、及びその他のプログラム、並びにデータが、メイン・メモリ（１０３）にロード可能なように記憶されうる。

記憶装置（１０８）は、コンピュータ（１０１）内に内蔵されていてもよく、当該コンピュータ（１０１）がアクセス可能なようにケーブルを介して接続されていてもよく、又は、当該コンピュータ（１０１）がアクセス可能なように有線又は無線ネットワークを介して接続されていてもよい。

ドライブ（１０９）は、必要に応じて、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又はＢＤからプログラム、例えばオペレーティング・システム又はアプリケーションを記憶装置（１０８）にインストールするために使用されうる。

通信インタフェース（１１４）は、例えばイーサネット（登録商標）・プロトコルに従う。通信インタフェース（１１４）は、通信コントローラ（１１３）を介してバス（１０４）に接続され、コンピュータ（１０１）を通信回線（１１５）に有線又は無線接続する役割を担い、コンピュータ（１０１）のオペレーティング・システムの通信機能のＴＣＰ／ＩＰ通信プロトコルに対して、ネットワーク・インタフェース層を提供する。通信回線は例えば、有線ＬＡＮ接続規格に基づく有線ＬＡＮ環境、又は無線ＬＡＮ接続規格に基づく無線ＬＡＮ環境、例えばＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎなどのＷｉ−Ｆｉ無線ＬＡＮ環境、若しくは携帯電話網環境（例えば、３Ｇ、又は４Ｇ（ＬＴＥを含む）環境）でありうる。

コンピュータ（１０１）は、通信回線（１１５）を介して他のコンピュータからのデータを受信し、記憶装置（１０８）上に格納しうる。

図２は、文字誤り率（ＣＥＲ）とかな誤り率（ＫＥＲ）との間で誤り率が異なることを示す表である。

表（２０１）は、正解データ（２１１）の綴り（２２１）が「珈琲」（漢字表記である）であり、仮説データ１（２１２）の綴り（２２１）が「coffee」（英語表記である）及び仮説データ２（２１３）の綴り（２２１）が「氷」（漢字表記である）であることを示す。

また、表（２０１）は、正解データ（２１１）「珈琲」（漢字表記である）の片仮名表現（２２２）が「コーヒー」（「ko o hi i」で表記される）であり、仮説データ１（２１２）「coffee」（英語表記である）の片仮名表現（２２２）が「コーヒー」（「ko o hi i」で表記される）及び仮説データ２（２１３）「氷」（漢字表記である）の片仮名表現（２２２）が「コーリ」（「ko o ri」で表記される）であることを示す。

仮説データ１（２１２）の文字誤り率（ＣＥＲ）（２３１）
仮説データ１（２１２）の綴り（２２１）が「coffee」（英語表記である）であり、一方、正解データ（２１１）の綴り（２２１）が「珈琲」（漢字表記である）であるので、綴りは互いに異なる。従って、仮説データ１（２１２）の文字誤り率（ＣＥＲ）（２３１）は、１００％である。

仮説データ１（２１２）のかな誤り率（ＫＥＲ）（２４１）
仮説データ１（２１２）「coffee」の片仮名表現（２２２）が「コーヒー」であり、一方、正解データ（２１１）「珈琲」の片仮名表現（２２２）が「コーヒー」であるので、片仮名表現は同一である。従って、仮説データ１（２１２）のかな誤り率（ＫＥＲ）（２４１）は、０％である。

仮説データ２（２１３）の文字誤り率（ＣＥＲ）（２３１）
仮説データ２（２１３）の綴り（２２１）が「氷」（漢字表記である）であり、一方、正解データ（２１１）の綴り（２２１）が「珈琲」（漢字表記である）であるので、綴りは互いに異なる。従って、仮説データ２（２１３）の文字誤り率（ＣＥＲ）（２３１）は、１００％である。

仮説データ２（２１３）のかな誤り率（ＫＥＲ）（２４１）
仮説データ２（２１３）「氷」の片仮名表現（２２２）が「コーリ」であり、一方、正解データ（２１１）「珈琲」の片仮名表現（２２２）が「コーヒー」であるので、片仮名表現は一部異なる（すなわち、４文字中２文字異なる）。従って、仮説データ２（２１３）のかな誤り率（ＫＥＲ）（２４１）は、５０％である。

以上に示す通り、仮説データ１（２１２）について、仮説データ１（２１２）の文字誤り率（ＣＥＲ）が１００％であり、かな誤り率（ＫＥＲ）（２４１）は０％である。仮説データ１（２１２）「coffee」（英語表記である）及び正解データ（２１１）「珈琲」（漢字表記である）のいずれも綴りの正しい異綴語であり、且つ、同じ意味を有する。従って、仮説データ１（２１２）について、文字誤り率（ＣＥＲ）１００％は無意味である。すなわち、かな誤り率（ＫＥＲ）０％が文字誤り率（ＣＥＲ）１００％よりも合理的である。

以上に示す通り、仮説データ２（２１３）について、仮説データ２（２１３）の文字誤り率（ＣＥＲ）（２３１）は１００％であり、仮説データ２（２１３）のかな誤り率（ＫＥＲ）（２４１）は５０％である。仮説データ２（２１３）「氷」（漢字表記である）であり且つ正解データ（２１１）「珈琲」である。従って、仮説データ２（２１３）について、文字誤り率（ＣＥＲ）１００％がかな誤り率（ＫＥＲ）５０％よりもが合理的である。すなわち、文字誤り率（ＣＥＲ）１００％がかな誤り率（ＫＥＲ）５０％よりも合理的である。

以上のことから、表（２０２）中の太線枠で示すように、仮説データ１（２１２）についてはかな誤り率（ＫＥＲ）を選択し、仮説データ２（２１３）については文字誤り率（ＣＥＲ）を尺度として選択することがよい。

以下の図３において、仮説データ１（２１２）についてはかな誤り率（ＫＥＲ）を選択し、仮説データ２（２１３）については文字誤り率（ＣＥＲ）を尺度として選択する処理の為のフローチャートを示す。

図３は、本発明の上記第１の実施態様に従う、音声認識結果を評価する処理のためのフローチャートを示し、図４は、本発明の上記第２の実施態様に従う、複数の音声認識システムについての音声認識結果を評価する処理のためのフローチャートを示す。

図３に示すフローチャートについて、以下に説明する。

ステップ３０１において、コンピュータ（１０１）は、音声認識結果を評価する処理を開始する。

ステップ３０２において、コンピュータ（１０１）は、発話データ u_{i} を受信する。コンピュータ（１０１）は例えば、記憶装置（１０８）に予め格納された発話データをコンピュータ（１０１）のメモリ（１０３）中に読み出しうる。代替的には、コンピュータ（１０１）は例えば、音声入力装置から発話データをランタイムに記憶装置（１０８）又はメモリ（１０３）に格納し、そして発話データを記憶装置（１０８）に格納した場合には当該記憶装置（１０８）に格納した発話データをコンピュータ（１０１）のメモリ（１０３）中に読み出しうる。

発話データは、表記による誤り率（例えば、その中でも特には文字誤り率（ＣＥＲ））と発音誤り率（例えば、その中でも特にはかな誤り率（ＫＥＲ））とを計算可能な言語の発話データであれば特に制限はされない。当該言語は例えば、日本語、中国語、又は韓国語でありうる。発話データは、特に制限はされないが、例えば、音声検索発話、又はメッセージ発話でありうる。

ステップ３０３において、コンピュータ（１０１）は、受信した発話データ u_{i} を音声認識システムでテキスト化処理する。音声認識システムは例えば、大語彙音声認識システム、又は、特には大語彙連続音声認識（ＬＶＣＳＲ）システムでありうる。

ステップ３０４において、コンピュータ（１０１）は、上記音声認識システムでの音声認識結果 h_{i} を取得し、記憶装置（１０８）又はメモリ（１０３）に格納しうる。音声認識結果は例えば、大語彙音声認識結果、又は、特には大語彙連続音声認識（ＬＶＣＳＲ）結果でありうる。

ステップ３０５において、コンピュータ（１０１）は、正解データ t_{i} を取得する。正解データ t_{i} は、人手によって用意されたものである。すなわち、人間が音声データを聞いて、正解データを作成したものである。

ステップ３０６において、コンピュータ（１０１）は、音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記誤り率、例えば特には文字誤り率（ＣＥＲ）を下記式に従って算出する。

文字誤り率（ＣＥＲ）＝（Ｓ＋Ｄ＋Ｉ）／Ｎ
ここで、Ｓは、置換の文字数であり、
Ｄは、削除の文字数であり、
Ｉは、挿入の文字数であり、
Ｎは、正解データにおける全文字数であり、Ｎ＝Ｃである。
Ｃは、正解の文字数である。

ステップ３０７において、コンピュータ（１０１）は、ステップ３０６において算出した文字誤り率（ＣＥＲ）の結果 CER_{i} を取得し、当該取得した算出結果 CER_{i} を記憶装置（１０８）又はメモリ（１０３）に格納しうる。

ステップ３０８において、コンピュータ（１０１）は、音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、発音誤り率、例えば特にはかな誤り率（ＫＥＲ）を下記式に従って算出する。

かな誤り率（ＫＥＲ）＝（Ｓ＋Ｄ＋Ｉ）／Ｎ
ここで、Ｓは、置換のかな数であり、
Ｄは、削除のかな数であり、
Ｉは、挿入のかな数であり、
Ｎは、正解データにおける全かな数であり、Ｎ＝Ｃである。
Ｃは、正解のかな数である。

ステップ３０９において、コンピュータ（１０１）は、かな誤り率（ＫＥＲ）の算出結果 KER_{i} を取得し、記憶装置（１０８）又はメモリ（１０３）に格納しうる。

コンピュータ（１０１）は、ステップ３０６における文字誤り率（ＣＥＲ）の算出、及びステップ３０８におけるかな誤り率（ＫＥＲ）の算出をそれぞれ並行して、又は、任意の順番で、算出しうる。

ステップ３１０〜ステップ３１２において、コンピュータ（１０１）は、かな誤り率（ＫＥＲ）と文字誤り率（ＣＥＲ）とを切り替える混成誤り率（ＨＥＲ：Hybrid Error Rate）を下記式１に従い求める。

ここで、Ａは第１の係数（Ａは任意の正の数である）であり、
Ｂは第２の係数（Ｂは任意の正若しくは負の数、又は０である）であり、
Ｃは第３の係数（Ｃは任意の正の数である）であり、
ｉは発話数である。
上記パラメータＡ〜Ｃは例えば、音声認識の為に使用する辞書や評価データに依存しうる。当業者は、上記パラメータＡ〜Ｃを適宜設定しうる。

混成誤り率（ＨＥＲ）の上記式１において、本発明の実施態様に従うコンピュータ（１０１）を使用するユーザは、上記式１に任意の数の係数Ａ〜Ｃを適用しうる。混成誤り率（ＨＥＲ）の上記式１において、上記係数は例えば、Ｂ＝０である。混成誤り率（ＨＥＲ）の上記式１において、上記係数は例えば、Ｂ＝０且つＣ＝１である。混成誤り率（ＨＥＲ）の上記式１において、上記係数は例えば、Ａ＝１／３（又は０．３３），Ｂ＝０，且つＣ＝１である。

混成誤り率（ＨＥＲ）の上記式１においては、その右辺が一次関数である場合を示した。代替的には、その右辺が、文字誤り率（ＣＥＲ）と所定の係数を適用した二次関数であってもよい。

以下において、ステップ３１０〜ステップ３１２の処理の内容を説明する。

ステップ３１０において、コンピュータ（１０１）は、ステップ３０７で取得した算出結果 CER_{i} 及びステップ３０９で取得した算出結果 KER_{i} を使用して、A×CER_{i}−BがC×KER_{i}よりも大きいかどうかを判断する。コンピュータ（１０１）は、A×CER_{i}−BがC×KER_{i}と同じであるかそれよりも小さいことに応じて、例えば第２の係数B＝０である場合にA×CER_{i}がC×KER_{i}と同じであるかそれよりも小さいことに応じて、処理をステップ３１１に進める。一方、コンピュータ（１０１）は、A×CER_{i}−BがC×KER_{i}よりも大きいことに応じて、又は、第２の係数B＝０である場合には、A×CER_{i}がC×KER_{i}よりも大きいことに応じて、処理をステップ３１２に進める。

ステップ３１１において、コンピュータ（１０１）は、文字誤り率（ＣＥＲ）CER_{i} を混成誤り率（ＨＥＲ）として採用する（HER_{i} = CER_{i}）。

ステップ３１２において、コンピュータ（１０１）は、かな誤り率（ＫＥＲ）KER_{i}を混成誤り率（ＨＥＲ）として採用する（HER_{i} = KER_{i}）。

ステップ３１３において、コンピュータ（１０１）は、未処理の認識結果があるかどうかを確認する。コンピュータ（１０１）は、未処理の認識結果があることに応じて、当該未処理の認識結果について文字誤り率（ＣＥＲ）及びかな誤り率（ＫＥＲ）をそれぞれ算出する為に、処理をステップ３０６及び３０８に戻す。一方、コンピュータ（１０１）は、未処理の認識結果がないことに応じて、処理をステップ３１４に進める。

ステップ３１４において、コンピュータ（１０１）は、各文についてステップ３１１及びステップ３１２において採用された誤り率を組み合わせて、音声認識結果の上記テキストの全てについての評価結果を算出する。

ステップ３１５において、コンピュータ（１０１）は、ステップ３１４での評価結果の算出が終了することに応じて、音声認識結果を評価する処理を終了する。コンピュータ（１０１）は、任意的に、ステップ３１４での評価結果の算出が終了することに応じて、上記評価結果を表示画面上に表示しうる。

以下において、図３に示した本発明の上記第１の実施態様に従う、音声認識結果を評価する処理のためのフローチャートを、図２に記載の具体例を使用して更に説明する。

最初に、コンピュータ（１０１）は、仮説データ１について検討する。仮説データ１（２１２）の綴り（２２１）は「coffee」（英語表記である）である。

ステップ３０５において、コンピュータ（１０１）は、正解データ（２１１）を取得する。正解データ（２１１）の綴り（２２１）は「珈琲」（漢字表記である）である。

ステップ３０６及び３０７において、コンピュータ（１０１）は、文字誤り率（ＣＥＲ）を算出し、文字誤り率（ＣＥＲ）の算出結果１００％を取得する。

ステップ３０８及び３０９において、コンピュータ（１０１）は、文字誤り率（ＣＥＲ）を算出し、かな誤り率（ＫＥＲ）の算出結果０％を取得する。

ステップ３０８及び３０９において、コンピュータ（１０１）は、上記式１（Ａ＝１／３，Ｂ＝０，且つＣ＝１）に従い計算する。コンピュータ（１０１）は、ＫＥＲ（０％）＜１／３×ＣＥＲ（１００％）＝３３．３であるので、処理をステップ３１２に進める。

ステップ３１２において、コンピュータ（１０１）は、仮説データ１について、混成誤り率（ＨＥＲ）としてかな誤り率（０％）を採用する。

次に、コンピュータ（１０１）は、仮説データ２について検討する。仮説データ２（２１３）の綴り（２２１）は「氷」（漢字表記である）である。

ステップ３０８及び３０９において、コンピュータ（１０１）は、文字誤り率（ＣＥＲ）を算出し、かな誤り率（ＫＥＲ）の算出結果５０％を取得する。

ステップ３０８及び３０９において、コンピュータ（１０１）は、上記式１（Ａ＝１／３，Ｂ＝０，且つＣ＝１）に従い計算する。コンピュータ（１０１）は、ＫＥＲ（５０％）＞１／３×ＣＥＲ（１００％）＝３３．３であるので、処理をステップ３１１に進める。

ステップ３１２において、コンピュータ（１０１）は、仮説データ２について、混成誤り率（ＨＥＲ）として文字誤り率（ＣＥＲ）（１００％）を採用する。

以上に示す通り、混成誤り率（ＨＥＲ）として、仮説データ１についてかな誤り率（ＫＥＲ）（０％）が採用され、且つ仮説データ２について文字誤り率（ＣＥＲ）（１００％）が採用されている。従って、混成誤り率（ＨＥＲ）を採用することで、適切な誤り率を選択することが可能になる。

図４Ａ〜図４Ｃに示すフローチャートについて、以下に説明する。

ステップ４０１において、コンピュータ（１０１）は、複数の音声認識システムについての音声認識結果を評価する処理を開始する。図４Ａ〜図４Ｃに示すフローチャートでは、音声認識システムＸ及び音声認識システムＹの２つの音声認識システムについての音声認識結果を評価する処理を示す。音声認識システムの数が２よりも多い場合においても、図４Ａ〜図４Ｃに示すフローチャートと同様にして処理をすることが可能である。

ステップ４０２において、コンピュータ（１０１）は、発話データ u_{i} を受信する。ステップ４０２における発話データ u_{i} の受信処理は、図３に示すステップ３０２における発話データ u_{i} の受信処理と同様である。従って、ステップ４０２の説明について、ステップ３０２についての上記説明を援用する。

ステップ４０３において、コンピュータ（１０１）は、発話データ u_{i} を受信することに応じて、当該受信した発話データ u_{i} を、複数の音声認識システムのうちの音声認識システムＸでテキスト化処理する（４０３）。音声認識システムは例えば、大語彙音声認識システム、又は、特には大語彙連続音声認識（ＬＶＣＳＲ）システムでありうる。

ステップ４０４において、コンピュータ（１０１）は、音声認識システムＸでの音声認識結果 h^{X}_{i} を取得し、記憶装置（１０８）又はメモリ（１０３）に格納しうる。音声認識結果は例えば、大語彙音声認識結果、又は、特には大語彙連続音声認識（ＬＶＣＳＲ）結果でありうる。

ステップ４０５において、コンピュータ（１０１）は、正解データ t_{i} を取得する。正解データ t_{i} は、上記ステップ３０５と同様に、人手によって用意されたものである。なお、正解データの取得ステップ４０５は、発話データの取得ステップ４０２において行われてもよい。

ステップ４０６において、コンピュータ（１０１）は、音声認識システムＸでの同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記誤り率、例えば特には文字誤り率（ＣＥＲ）を、図３のステップ３０６の説明において示した上記式に従って算出する。

ステップ４０７において、コンピュータ（１０１）は、ステップ４０６において算出した音声認識システムＸでの文字誤り率（ＣＥＲ）の算出結果 CER^{X}_{i} を取得し、当該取得した算出結果 CER^{X}_{i} を記憶装置（１０８）又はメモリ（１０３）に格納しうる。

ステップ４０８において、コンピュータ（１０１）は、音声認識システムＸでの音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、発音誤り率、例えば特にはかな誤り率（ＫＥＲ）を、図３のステップ３０８の説明において示した上記式に従って算出する。

ステップ４０９において、コンピュータ（１０１）は、ステップ４０８において算出した音声認識システムＸでのかな誤り率（ＫＥＲ）の算出結果 KER^{X}_{i} を取得し、当該取得した算出結果 KER^{X}_{i} を記憶装置（１０８）又はメモリ（１０３）に格納しうる。

ステップ４１０〜ステップ４１２において、コンピュータ（１０１）は、音声認識システムＸで仮採用する混成誤り率２^Ｘを下記式２に従い求める。

混成誤り率２^Ｘ（ＨＥＲ２^Ｘ）の上記式２において、本発明の実施態様に従うコンピュータ（１０１）を使用するユーザは、上記式２に任意の数の係数Ａ〜Ｃを適用しうる。混成誤り率２^Ｘ（ＨＥＲ２^Ｘ）の上記式２において、上記係数は例えば、Ｂ＝０である。混成誤り率２^Ｘ（ＨＥＲ２^Ｘ）の上記式２において、上記係数は例えば、Ｂ＝０且つＣ＝１である。混成誤り率２^Ｘ（ＨＥＲ２^Ｘ）の上記式２において、上記係数は例えば、Ａ＝１／３（又は０．３３），Ｂ＝０，且つＣ＝１である。

混成誤り率２^Ｘ（ＨＥＲ２^Ｘ）の上記式２においては、その右辺が一次関数である場合を示した。代替的には、その右辺が、文字誤り率（ＣＥＲ）と所定の係数を適用した二次関数であってもよい。

以下において、ステップ４１０〜ステップ４１２の処理の内容を説明する。

ステップ４１０において、コンピュータ（１０１）は、ステップ４０７で取得した算出結果 CER^{X}_{i}及びステップ４０９で取得した算出結果 KER^{X}_{i} を使用して、A×CER^{X}_{i}−BがC×KER^{X}_{i}よりも大きいかどうかを判断する。コンピュータ（１０１）は、A×CER^{X}_{i}−BがC×KER^{X}_{i}と同じであるかそれよりも小さいことに応じて、例えば第２の係数B＝０である場合にA×CER^{X}_{i}−BがC×KER^{X}_{i}と同じであるかそれよりも小さいことに応じて、処理をステップ４１１に進める。一方、コンピュータ（１０１）は、A×CER^{X}_{i}−BがC×KER^{X}_{i}よりも大きいことに応じて、又は、第２の係数B＝０である場合には、A×CER^{X}_{i}がC×KER^{X}_{i}よりも大きいことに応じて、処理をステップ４１２に進める。

ステップ４１１において、コンピュータ（１０１）は、文字誤り率（ＣＥＲ）を混成誤り率２^Ｘ（ＨＥＲ２^Ｘ）として仮採用する（HER2^{X}_{i} = CER^{X}_{i}）。

ステップ４１２において、コンピュータ（１０１）は、かな誤り率（ＫＥＲ）を混成誤り率２^Ｘ（ＨＥＲ２^Ｘ）として仮採用する（HER2^{X}_{i} = KER^{X}_{i}）。

ステップ４１３において、コンピュータ（１０１）は、未処理の認識結果があるかどうかを確認する。コンピュータ（１０１）は、未処理の認識結果があることに応じて、当該未処理の認識結果について文字誤り率（ＣＥＲ）及びかな誤り率（ＫＥＲ）をそれぞれ算出する為に、処理をステップ４０６及び４０８に戻す。一方、コンピュータ（１０１）は、未処理の認識結果がないことに応じて、処理をステップ４１４に進める。

ステップ４１４において、コンピュータ（１０１）は、音声認識システムＸについて、かな誤り率（ＫＥＲ）を誤り率として仮採用された文を識別して、当該識別された文の集合を作成する。

ステップ４２３において、コンピュータ（１０１）は、発話データ u_{i} を受信することに応じて、当該受信した発話データ u_{i} を、複数の音声認識システムのうちの音声認識システムＹでテキスト化処理する（４２３）。音声認識システムは例えば、大語彙音声認識システム、又は、特には大語彙連続音声認識（ＬＶＣＳＲ）システムでありうる。

ステップ４２４において、コンピュータ（１０１）は、音声認識システムＹでの音声認識結果 h^{Y}_{i} を取得し、記憶装置（１０８）又はメモリ（１０３）に格納しうる。音声認識結果は例えば、大語彙音声認識結果、又は、特には大語彙連続音声認識（ＬＶＣＳＲ）結果でありうる。

ステップ４２５において、コンピュータ（１０１）は、正解データ t_{i} を取得する。正解データ t_{i} は、上記ステップ３０５と同様に、人手によって用意されたものである。なお、正解データの取得ステップ４２５は、発話データの取得ステップ４０２において行われてもよい。

ステップ４２６において、コンピュータ（１０１）は、ステップ４０６と同一のテストデータに対する音声認識システムＹでの音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記誤り率、例えば特には文字誤り率（ＣＥＲ）を、図３のステップ３０６の説明において示した上記式に従って算出する。

ステップ４２７において、コンピュータ（１０１）は、ステップ４２６において算出した音声認識システムＹでの文字誤り率（ＣＥＲ）の算出結果 CER^{Y}_{i} を取得し、当該取得した算出結果 CER^{Y}_{i} を記憶装置（１０８）又はメモリ（１０３）に格納しうる。

ステップ４２８において、コンピュータ（１０１）は、音声認識システムＹでの音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、発音誤り率、例えば特にはかな誤り率（ＫＥＲ）を、図３のステップ３０８の説明において示した上記式に従って算出する。

ステップ４２９において、コンピュータ（１０１）は、ステップ４２８において算出した音声認識システムＹでのかな誤り率（ＫＥＲ）の算出結果 KER^{Y}_{i} を取得し、当該取得した算出結果 KER^{Y}_{i} を記憶装置（１０８）又はメモリ（１０３）に格納しうる。

ステップ４３０〜ステップ４３２において、コンピュータ（１０１）は、音声認識システムＹで仮採用する誤り率２^Ｙを、上記式２と同じく下記式３に従い求める。

上記パラメータＡ〜Ｃ及びｉそれぞれは、上記式２におけるパラメータＡ〜Ｃ及びｉそれぞれに対応し、共通の値をとる。

混成誤り率２^Ｙ（ＨＥＲ２^Ｙ）の上記式３においては、その右辺が一次関数である場合を示した。代替的には、その右辺が、文字誤り率（ＣＥＲ）と所定の係数を適用した二次関数であってもよい。

以下において、ステップ４３０〜ステップ４３２の処理の内容を説明する。

ステップ４３０において、コンピュータ（１０１）は、ステップ４２７で取得した算出結果 CER^{Y}_{i}及びステップ４２９で取得した算出結果 KER^{Y}_{i} を使用して、A×CER^{Y}_{i}−BがC×KER^{Y}_{i}よりも大きいかどうかを判断する。コンピュータ（１０１）は、A×CER^{Y}_{i}−BがC×KER^{Y}_{i}と同じであるかそれよりも小さいことに応じて、例えば第２の係数B＝０である場合にA×CER^{Y}_{i}−BがC×KER^{Y}_{i}と同じであるかそれよりも小さいことに応じて、処理をステップ４３１に進める。一方、コンピュータ（１０１）は、A×CER^{Y}_{i}−BがC×KER^{Y}_{i}よりも大きいことに応じて、又は、第２の係数B＝０である場合には、A×CER^{Y}_{i}がC×KER^{X}_{i}よりも大きいことに応じて、処理をステップ４３２に進める。

ステップ４３１において、コンピュータ（１０１）は、文字誤り率（ＣＥＲ）を混成誤り率２^Ｙ（ＨＥＲ２^Ｙ）として仮採用する（HER2^{Y}_{i} = CER^{Y}_{i}）。

ステップ４３２において、コンピュータ（１０１）は、かな誤り率（ＫＥＲ）を混成誤り率２^Ｙ（ＨＥＲ２^Ｙ）として仮採用する（HER2^{Y}_{i} = KER^{Y}_{i}）。

ステップ４３３において、コンピュータ（１０１）は、未処理の認識結果があるかどうかを確認する。コンピュータ（１０１）は、未処理の認識結果があることに応じて、当該未処理の認識結果について文字誤り率（ＣＥＲ）及びかな誤り率（ＫＥＲ）をそれぞれ算出する為に、処理をステップ４２６及び４２８に戻す。一方、コンピュータ（１０１）は、未処理の認識結果がないことに応じて、処理をステップ４３４に進める。

ステップ４３４において、コンピュータ（１０１）は、音声認識システムＹについて、かな誤り率（ＫＥＲ）を誤り率として仮採用された文を識別して、当該識別された文の集合を作成する。

コンピュータ（１０１）は、音声認識システムＸでのステップ４０３〜４１３の処理、及び、音声認識システムＹでのステップ４２３〜４３３の処理をそれぞれ並行して、又は、任意の順番で、実行しうる。

ステップ４４１において、コンピュータ（１０１）は、ステップ４１４で作成された文の集合（すなわち、音声認識システムＸでかな誤り率（ＫＥＲ）が仮採用された文の集合）と、ステップ４３４で作成された文の集合（すなわち、音声認識システムＹでかな誤り率（ＫＥＲ）が仮採用された文の集合）との和集合を求める。すなわち、ステップ４１４で作成された文の集合と、ステップ４３４で作成された文の集合との共通部分をとる。

ステップ４５１において、コンピュータ（１０１）は、音声認識システムＸについて、ステップ４４１で求めた和集合に属する文についてはかな誤り率（ＫＥＲ）を採用し、一方、残りの文については文字誤り率（ＣＥＲ）を採用する。

ステップ４５２において、コンピュータ（１０１）は、音声認識システムＸについて、ステップ４５１において採用された誤り率を組み合わせて、音声認識システムＸについての音声認識結果の上記テキストの全てについての評価結果を算出する。当該処理によって、ステップ４１１で仮採用されていた文字誤り率（ＣＥＲ）が、発話によってはかな誤り率（ＫＥＲ）に切り替えられる。

ステップ４６１において、コンピュータ（１０１）は、音声認識システムＹについて、ステップ４４１で求めた和集合に属する文についてはかな誤り率（ＫＥＲ）を採用し、一方、残りの文については文字誤り率（ＣＥＲ）を採用する。

ステップ４６２において、コンピュータ（１０１）は、音声認識システムＹについて、ステップ４６１において採用された誤り率を組み合わせて、音声認識システムＹについての音声認識結果の上記テキストの全てについての評価結果を算出する。当該処理によって、ステップ４３１で仮採用されていた文字誤り率（ＣＥＲ）が、発話によってはかな誤り率（ＫＥＲ）に切り替えられる。

ステップ４７１において、コンピュータ（１０１）は、ステップ４５２及びステップ４６２での評価結果の算出が終了することに応じて、音声認識結果を評価する処理を終了する。コンピュータ（１０１）は、任意的に、ステップ４５２及びステップ４６２での評価結果の算出が終了することに応じて、音声認識システムＸ及びＹそれぞれについての評価結果を表示画面上に表示しうる。コンピュータ（１０１）は例えば、上記音声認識システム毎の上記算出された評価結果に基づいて、誤り率の少ない音声認識システムを表示しうる。

図４Ａ〜図４Ｃにおいて示したかな誤り率（ＫＥＲ）と文字誤り率（ＣＥＲ）とを切り替える混成誤り率２（ＨＥＲ２：Hybrid Error Rate）は、下記の式で示される。

ここで、上記パラメータＡ〜Ｃ及びｉそれぞれは、上記式２及び式３におけるパラメータＡ〜Ｃ及びｉそれぞれに対応し、共通の値をとる。ｊは実験数である。

上記パラメータＡ〜Ｃそれぞれは、上記式２及び上記式３におけるパラメータＡ〜Ｃと共通の値である。

混成誤り率２（ＨＥＲ２）の上記式４においては、その右辺が一次関数である場合を示した。代替的には、その右辺が、文字誤り率（ＣＥＲ）と所定の係数を適用した二次関数であってもよい。

図５は、図４Ａ〜図４Ｃに記載の複数の音声認識システム（すなわち、音声認識システムＸ及びＹ）についての音声認識結果を評価する処理によって、かな誤り率（ＫＥＲ）の採用される範囲が最適化されることことを示す図である。

図５は、音声認識システムＸで仮名誤り率（ＫＥＲ）が仮採用された文の集合（５０２）、及び、音声認識システムＹで仮名誤り率（ＫＥＲ）が仮採用された文の集合（５０３）を示し、且つ、上記仮採用された文の集合（５０２）及び上記仮採用された文の集合（５０３）の和集合（５０４）が、混成誤り率２（ＨＥＲ２）において仮名誤り率（ＫＥＲ）が採用された文の集合であることを示す。

図６は、図１に従うハードウェア構成を好ましくは備えており、図３に示す本発明の上記第１の実施態様に従うコンピュータの機能ブロック図の一例を示した図である。以下において、「部」は「手段」とも読み替えてもよい。

コンピュータ（６０１）は、図１のコンピュータ（１０１）に対応しうる。コンピュータ（６０１）は、図１のコンピュータ（１０１）に示されている構成、例えばＣＰＵ（１０２）、メイン・メモリ（１０３）、及び、ディスク（１０８）又はコンピュータ（１０１）がアクセス可能なネットワーク上にある記憶装置を備えている。コンピュータ（６０１）は、図３に示す本発明の上記第１の実施態様に従う音声認識結果を評価するためのコンピュータでありうる。

コンピュータ（６０１）は、音声認識処理部（６１１）及び評価部（６１３）を備えている。

音声認識処理部（６１１）は、図３に記載のステップ３０２〜３０４を実行しうる。

評価部（６１３）は、誤り率算出部（６２１）、誤り率採用部（６２２）、評価結果算出部（６２６）を備えうる。

誤り率算出部（６２１）は、表記誤り率算出部（６３１）と発音誤り率算出部（６５２）とを備えている。

表記誤り率算出部（６３１）は、音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記誤り率を算出する。

表記誤り率算出部（６３１）は、図３に記載のステップ３０６〜３０７を実行しうる。

発音誤り率算出部（６３２）は、音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、発音誤り率を算出する。

発音誤り率算出部（６３２）は、図３に記載のステップ３０８〜３０９を実行しうる。

誤り率採用部（６２２）は、表記誤り率算出部（６３１）が算出した表記誤り率に所定の係数を適用した後の値と、発音誤り率算出部（６３２）が算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として採用し、一方、上記差が上記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として採用する。

誤り率採用部（６２２）は例えば、上記表記誤り率を誤り率として採用することを、表記誤り率算出部（６３１）が算出した表記誤り率に第１の係数を掛けた第１の値から第２の係数を引いた第２の値と、発音誤り率算出部（６３２）が算出した発音誤り率に第３の係数を掛けた第３の値との差が所定の閾値以下であることに応じて行い、上記発音誤り率を誤り率として採用することを、上記第２の値と上記第３の値との上記差が上記所定の閾値よりも大きいことに応じて行いうる。

誤り率採用部（６２２）は例えば、上記表記誤り率を誤り率として採用することを、表記誤り率算出部（６３１）が算出した表記誤り率に第１の係数を掛けた第１の値から第２の係数を引いた第２の値が、発音誤り率算出部（６３２）が算出した発音誤り率に第３の係数を掛けた第３の値以下であること（例えば、図３のステップ３１１、並びに、図４のステップ４１１及びステップ４３１）に応じて行い、上記発音誤り率を誤り率として採用することを、上記第２の値が上記第３の値よりも大きいこと（例えば、図３のステップ３１２、並びに、図４のステップ４１２及びステップ４３２）に応じて行いうる。

誤り率採用部（６２２）は、図３に記載のステップ３１０〜３１２を実行しうる。

評価結果算出部（６２６）は、各文についての誤り率採用部（６２２）が採用した誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出する。

評価結果算出部（６２６）は、図３に記載のステップ３１４を実行しうる。

図７は、図１に従うハードウェア構成を好ましくは備えており、図４Ａ〜図４Ｃに示す本発明の上記第２の実施態様に従うコンピュータの機能ブロック図の一例を示した図である。

コンピュータ（７０１）は、図１のコンピュータ（１０１）に対応しうる。コンピュータ（７０１）は、図１のコンピュータ（１０１）に示されている構成、例えばＣＰＵ（１０２）、メイン・メモリ（１０３）、及び、ディスク（１０８）又はコンピュータ（１０１）がアクセス可能なネットワーク上にある記憶装置を備えている。コンピュータ（７０１）は、本発明に従う複数の音声認識システムについての音声認識結果を評価するを評価するためのコンピュータでありうる。

コンピュータ（７０１）は、音声認識処理部Ｘ（音声認識処理システムＸともいう）（７１１）及び音声認識処理部Ｙ（音声認識処理システムＹともいう）（７１２）、並びに評価部（７１３）を備えている。

音声認識処理部Ｘ（７１１）は、一つの音声認識処理システムとして実装されている。音声認識処理部Ｘ（７１１）は、図４Ａに記載のステップ４０３〜４０４を実行しうる。

音声認識処理部Ｙ（７１２）は、一つの音声認識処理システムとして実装されている。音声認識処理部Ｙ（７１２）は、図４Ａに記載のステップ４２３〜４２４を実行しうる。

評価部（７１３）は、誤り率算出部（７２１）、誤り率仮採用部（７２２）、文集合識別部（７２３）、和集合算出部（７２５）、及び評価結果算出部（７２６）を備えている。

誤り率算出部（７２１）は、表記誤り率算出部（７３１）と発音誤り率算出部（７３２）とを備えている。

表記誤り率算出部（７３１）は、複数の音声認識システム（例えば、図７の場合には、音声認識処理部Ｘ（７１１）及び音声認識処理部Ｙ（７１２））それぞれについて、同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記誤り率を算出する。

表記誤り率算出部（７３１）は、図４Ａに記載のステップ４０６〜４０７及びステップ４２６〜４２７を実行しうる。

発音誤り率算出部（７３２）は、複数の音声認識システム（例えば、図７の場合には、音声認識処理部Ｘ（７１１）及び音声認識処理部Ｙ（７１２））それぞれについて、同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、発音誤り率を算出する。

発音誤り率算出部（７３２）は、図４Ａに記載のステップ４０８〜４０９及びステップ４２８〜４２９を実行しうる。

誤り率仮採用部（７２２）は、複数の音声認識システム（例えば、図７の場合には、音声認識処理部Ｘ（７１１）及び音声認識処理部Ｙ（７１２））それぞれについて、表記誤り率算出部（７３１）が算出した表記誤り率に所定の係数を適用した後の値と、発音誤り率算出部（７３２）が算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として仮採用し、一方、上記差が前記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として仮採用する。

誤り率仮採用部（７２２）は例えば、上記表記誤り率を誤り率として仮採用することを、表記誤り率算出部（７３１）が算出した表記誤り率に第１の係数を掛けた第１の値から第２の係数を引いた第２の値と、発音誤り率算出部（７３２）が算出した発音誤り率に第３の係数を掛けた第３の値との差が所定の閾値以下であることに応じて行い、上記発音誤り率を誤り率として採用することを、上記第２の値と上記第３の値との上記差が上記所定の閾値よりも大きいことに応じて行いうる。

誤り率仮採用部（７２２）は例えば、上記表記誤り率を誤り率として仮採用することを、表記誤り率算出部（７３１）が算出した表記誤り率に第１の係数を掛けた第１の値から第２の係数を引いた第２の値が、発音誤り率算出部（７３２）算出した発音誤り率に第３の係数を掛けた第３の値以下であることに応じて行い、上記発音誤り率を誤り率として採用することを、上記第２の値が上記第３の値よりも大きいことに応じて行いうる。

誤り率仮採用部（７２２）は、図４Ｂに記載のステップ４１０〜４１２及びステップ４３０〜４３２を実行しうる。

文集合識別部（７２３）は、複数の音声認識システム（例えば、図７の場合には、音声認識処理部Ｘ（７１１）及び音声認識処理部Ｙ（７１２））それぞれについて、誤り率仮採用部（７２２）が発音誤り率を誤り率として仮採用された文を識別して、当該文の集合を作成する。

文集合識別部（７２３）は、図４Ｂに記載のステップ４１４及びステップ４３４を実行しうる。

和集合算出部（７２５）は、発音誤り率が誤り率として仮採用された文の集合同士の和集合を求める。

和集合算出部（７２５）は、図４Ｃに記載のステップ４４１を実行しうる。

評価結果算出部（７２６）は、複数の音声認識システム（例えば、図７の場合には、音声認識処理部Ｘ（７１１）及び音声認識処理部Ｙ（７１２））それぞれについて、和集合算出部（７２５）が求めた和集合に属する文については上記発音誤り率を採用し、一方、残りの文については上記表記誤り率を採用し、そして当該採用された誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出する。

評価結果算出部（７２６）は、図４Ｃに記載のステップ４５１〜４５２及び４６１〜４６２を実行しうる。

図６において、図３に示す本発明の上記第１の実施態様に従うコンピュータの機能ブロック図の一例を示し、図７において、図４Ａ〜図４Ｃに示す本発明の上記第２の実施態様に従うコンピュータの機能ブロック図を示した。本発明の実施態様に従うコンピュータが本発明の上記第１の実施態様及び上記第２の実施態様のいずれをも実行する場合には、評価部は、図６に示す評価部（６１３）及び図７に示す評価部（７１３）の各機能、すなわち、誤り率算出部（６２１，７２１）、誤り率採用部（６２２）、誤り率仮採用部（７２２）、文集合識別部（７２３）、及び和集合算出部（７２５）、及び評価結果算出部（６２６，７２６）を備えている。

［実施例］
従来技術の音声認識システムを使用して、１０００文からなる検索発話を音声認識すると同時に、耳でも上記検索発話を聴取して、エラーを間違ってカウントしている文の数をチェックした。その結果、従来技術の上記音声認識システムにおいて、上記発話の約１７％が綴り異綴語により誤見積もりされていた。一方、本発明の実施態様に従うコンピュータ（１０１）は、上記式１（Ａ＝１／３，Ｂ＝０，且つＣ＝１）に従い計算し、文字誤り率（ＣＥＲ）又はかな誤り率（ＫＥＲ）を発話単位で切り替えた。その結果、上記誤見積もりのほとんど（約１６％）を回復することができた。すなわち、誤見積もりが１％程度までに削減できた。また、誤切り替えの数は非常に少なかった（約３％）。さらには、主観評価実験は、上記切り替えにより人間の主観をよく反映していることを示した。すなわち、本発明の実施態様に従い、文字誤り率（ＣＥＲ）又はかな誤り率（ＫＥＲ）を発話単位で切り替えることによって、人間の直感に良く合致した評価尺度を得ることができる。

Claims

音声認識結果を評価する方法であって、コンピュータが、
前記音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率（以下、「表記誤り率」という）と発音による誤り率（以下、「発音誤り率」という）とをそれぞれ算出するステップと、
前記算出した表記誤り率に所定の係数を適用した後の値と前記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、前記表記誤り率を誤り率として採用し、一方、前記差が前記所定の閾値よりも大きいことに応じて、前記発音誤り率を誤り率として採用するステップと、
各文についての前記採用された誤り率を組み合わせて、前記音声認識結果の前記テキストの全てについての評価結果を算出するステップと
を実行することを含む、前記方法。
前記表記誤り率を誤り率として採用するステップが、
前記算出した表記誤り率に第１の係数を掛けた第１の値から第２の係数を引いた第２の値と前記算出した発音誤り率に第３の係数を掛けた第３の値との差が所定の閾値以下であることに応じて行われ、
前記発音誤り率を誤り率として採用するステップが、
前記第２の値と前記第３の値との前記差が前記所定の閾値よりも大きいことに応じて行われる、
請求項１に記載の方法。
前記表記誤り率を誤り率として採用するステップが、
前記算出した表記誤り率に第１の係数を掛けた第１の値から第２の係数を引いた第２の値が前記算出した発音誤り率に第３の係数を掛けた第３の値以下であることに応じて行われ、
前記発音誤り率を誤り率として採用するステップが、
前記第２の値が前記第３の値よりも大きいことに応じて行われる、
請求項１に記載の方法。
前記第２の係数が０である、請求項２又は３に記載の方法。
複数の音声認識システムについての音声認識結果を評価する方法であって、コンピュータが、
前記複数の音声認識システムそれぞれについて、同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率（以下、「表記誤り率」という）と発音による誤り率（以下、「発音誤り率」という）とをそれぞれ算出するステップと、
前記複数の音声認識システムそれぞれについて、前記算出した表記誤り率に所定の係数を適用した後の値と前記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、前記表記誤り率を誤り率として仮採用し、一方、前記差が前記所定の閾値よりも大きいことに応じて、前記発音誤り率を誤り率として仮採用するステップと、
前記複数の音声認識システムそれぞれについて、前記発音誤り率を誤り率として仮採用された文を識別して、当該文の集合を作成するステップと、
前記発音誤り率が誤り率として仮採用された前記文の集合同士の和集合を求めるステップと、
前記複数の音声認識システムそれぞれについて、前記求めた和集合に属する文については前記発音誤り率を採用し、一方、残りの文については前記表記誤り率を採用するステップと、
前記複数の音声認識システムそれぞれについて、前記採用された誤り率を組み合わせて、前記音声認識結果の前記テキストの全てについての評価結果を算出するステップと
を実行することを含む、前記方法。
前記表記誤り率を誤り率として仮採用するステップが、
前記算出した表記誤り率に第１の係数を掛けた第１の値から第２の係数を引いた第２の値と前記算出した発音誤り率に第３の係数を掛けた第３の値との差が所定の閾値以下であることに応じて行われ、
前記発音誤り率を誤り率として仮採用するステップが、
前記第２の値と前記第３の値との前記差が前記所定の閾値よりも大きいことに応じて行われる、
請求項５に記載の方法。
前記表記誤り率を誤り率として仮採用するステップが、
前記算出した表記誤り率に第１の係数を掛けた第１の値から第２の係数を引いた第２の値が前記算出した発音誤り率に第３の係数を掛けた第３の値以下であることに応じて行われ、
前記発音誤り率を誤り率として仮採用するステップが、
前記第２の値が前記第３の値よりも大きいことに応じて行われる、
請求項５に記載の方法。
前記第２の係数が０である、請求項６又は７に記載の方法。
前記表記誤り率が文字誤り率であり、且つ、前記発音誤り率がかな誤り率である、請求項１〜８のいずれか一項に記載の方法。
前記音声認識結果が大語彙音声認識結果である、請求項１〜９のいずれか一項に記載の方法。
音声認識結果を評価するためのコンピュータであって、
前記音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率（以下、「表記誤り率」という）と発音による誤り率（以下、「発音誤り率」という）とをそれぞれ算出する誤り率算出部と、
前記算出した表記誤り率に所定の係数を適用した後の値と前記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、前記表記誤り率を誤り率として採用し、一方、前記差が前記所定の閾値よりも大きいことに応じて、前記発音誤り率を誤り率として採用する誤り率採用部と、
各文についての前記採用された誤り率を組み合わせて、前記音声認識結果の前記テキストの全てについての評価結果を算出する評価結果算出部と
を備えている、前記コンピュータ。
前記誤り率採用部が、
前記表記誤り率を誤り率として採用することを、前記算出した表記誤り率に第１の係数を掛けた第１の値から第２の係数を引いた第２の値と前記算出した発音誤り率に第３の係数を掛けた第３の値との差が所定の閾値以下であることに応じて行い、
前記発音誤り率を誤り率として採用することを、前記第２の値と前記第３の値との前記差が前記所定の閾値よりも大きいことに応じて行う、
請求項１１に記載のコンピュータ。
前記誤り率採用部が、
前記表記誤り率を誤り率として採用することを、前記算出した表記誤り率に第１の係数を掛けた第１の値から第２の係数を引いた第２の値が前記算出した発音誤り率に第３の係数を掛けた第３の値以下であることに応じて行い、
前記発音誤り率を誤り率として採用することを、前記第２の値が前記第３の値よりも大きいことに応じて行う、
請求項１１に記載のコンピュータ。
前記第２の係数が０である、請求項１２又は１３に記載のコンピュータ。
複数の音声認識システムについての音声認識結果を評価するためのコンピュータであって、
前記複数の音声認識システムそれぞれについて、同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率（以下、「表記誤り率」という）と発音による誤り率（以下、「発音誤り率」という）とをそれぞれ算出する誤り率算出部と、
前記複数の音声認識システムそれぞれについて、前記算出した表記誤り率に所定の係数を適用した後の値と前記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、前記表記誤り率を誤り率として仮採用し、一方、前記差が前記所定の閾値よりも大きいことに応じて、前記発音誤り率を誤り率として仮採用する誤り率仮採用部と、
前記複数の音声認識システムそれぞれについて、前記発音誤り率を誤り率として仮採用された文を識別して、当該文の集合を作成する文集合識別部と、
前記発音誤り率が誤り率として仮採用された前記文の集合同士の和集合を求める和集合算出部と、
前記複数の音声認識システムそれぞれについて、前記求めた和集合に属する文については前記発音誤り率を採用し、一方、残りの文については前記表記誤り率を採用して、前記採用された誤り率を組み合わせて、前記音声認識結果の前記テキストの全てについての評価結果を算出する評価結果算出部と
を備えている、前記コンピュータ。
前記誤り率仮採用部が、
前記表記誤り率を誤り率として仮採用することを、前記算出した表記誤り率に第１の係数を掛けた第１の値から第２の係数を引いた第２の値と前記算出した発音誤り率に第３の係数を掛けた第３の値との差が所定の閾値以下であることに応じて行い、
前記発音誤り率を誤り率として採用することを、前記第２の値と前記第３の値との前記差が前記所定の閾値よりも大きいことに応じて行う、
請求項１５に記載のコンピュータ。
前記誤り率仮採用部が、
前記表記誤り率を誤り率として仮採用することを、前記算出した表記誤り率に第１の係数を掛けた第１の値から第２の係数を引いた第２の値が前記算出した発音誤り率に第３の係数を掛けた第３の値以下であることに応じて行い、
前記発音誤り率を誤り率として採用することを、前記第２の値が前記第３の値よりも大きいことに応じて行う、
請求項１５に記載のコンピュータ。
前記第２の係数が０である、請求項１６又は１７に記載のコンピュータ。
前記表記誤り率が文字誤り率であり、且つ、前記発音誤り率がかな誤り率である、請求項１１〜１８のいずれか一項に記載のコンピュータ。
音声認識結果を評価するためのコンピュータ・プログラムであって、コンピュータに、請求項１〜１０のいずれか一項に記載の方法の各ステップを実行させる、前記コンピュータ・プログラム。