JP2015045689A - 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム - Google Patents

音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム Download PDF

Info

Publication number
JP2015045689A
JP2015045689A JP2013175563A JP2013175563A JP2015045689A JP 2015045689 A JP2015045689 A JP 2015045689A JP 2013175563 A JP2013175563 A JP 2013175563A JP 2013175563 A JP2013175563 A JP 2013175563A JP 2015045689 A JP2015045689 A JP 2015045689A
Authority
JP
Japan
Prior art keywords
error rate
speech recognition
notation
pronunciation
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013175563A
Other languages
English (en)
Inventor
岳人 倉田
Takehito Kurata
岳人 倉田
雅史 西村
Masafumi Nishimura
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2013175563A priority Critical patent/JP2015045689A/ja
Publication of JP2015045689A publication Critical patent/JP2015045689A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】本発明は、音声認識システムの認識性能を評価するために適切な誤り率を選択可能にする方法を提供することを目的とする。
【解決手段】本発明に従う音声認識結果を評価する技法は、上記音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率(以下、「表記誤り率」)と発音による誤り率(以下、「発音誤り率」)とをそれぞれ算出すること、上記算出した表記誤り率に所定の係数を適用した後の値と上記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として採用し、一方、上記差が上記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として採用すること、及び、各文についての上記採用された誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出することを含む。
【選択図】図3

Description

本発明は、音声認識システムの認識性能、すなわち正解データと比べてどれだけ正しかったかを評価する技法に関する。特には、本発明は、音声認識システムについての音声認識結果を評価する技法、並びに、複数の音声認識システムについての音声認識結果を評価する技法に関する。
音声認識、特には大語彙連続音声認識(LVCSR)は、様々な分野、例えばコールセンターでの書き起こし、裁判所での自動調書作成、大学でのビデオ講義での字幕作成で利用されている。
音声検索では検索自体が高精度であっても、音声認識誤りによって検索精度が低下する。従って、検索にとって、音声認識結果を適切に評価することが重要である。しかしながら、日本語の大語彙連続音声認識結果の正確な評価は、表記揺れを纏めることが困難であることから困難である。
音声認識結果の慣用的な評価方法において、音声認識の正確性は、発話の正解データ(「正解書き起こし」又は「正解文書」ともいう)(reference)とLVCSRシステムからとの仮説データ(hypothesis)とを比較することによって、見積もられる。
慣用的な評価方法では、異なる単語単位において上記正解データと上記仮説とを比較する。連続音声認識結果の一般的な評価方法における認識率評価尺度として例えば、単語誤り率(WER:Word Error Rate)、文字誤り率(CER:Character Error Rate)、及びかな誤り率(KER:Katakana Error Rate)がある。
単語誤り率(WER)は、単語を単位とした認識率評価尺度である。しかしながら、日本語は分かち書きがされていない。その為に、単語誤り率(WER)では、日本語の単語単位(ユニット)の不明瞭さに悩まされる。例えば、語「東京都知事」は、「東京都知事」,「東京/都知事」,「東京都/知事」,「東京/都/知事」の単語単位にわけられうる。従って、誤り率が分かち書きの仕方によって変化する為に、単語誤り率(WER)は日本語の音声認識結果の評価には適さない。
文字誤り率(CER)は、主にOCR文字認識やかな漢字変換の評価で用いられる認識率評価尺度であり、文字単位でマッチングを行う手法である。文字誤り率(CER)では、単語分割による表記の揺れがない。日本語は単語分割による曖昧性を有する為に、単語誤り率(WER)でなく、文字誤り率(CER)がよく用いられる。しかしながら、日本語では、平仮名、片仮名、漢字、及び英数字が、一つの文中において混合された様式で用いられている。また、大語彙連続音声認識では、同じ単語でも複数の表記を有しうる。綴り(スペリング)表現の複数の代替表現が通常、各単語について利用可能である。例えば、「coffee」(英語表記である)は、「コーヒー」(片仮名表記である)又は「珈琲」(漢字表記である)としても綴られ、当該綴りの表現の選択は任意的である。よって、文字誤り率(CER)では、表記の揺れ(例えば、上記「coffee」(英語表記である)は、「コーヒー」(片仮名表記である)又は「珈琲」(漢字表記である))を誤りとしてカウントしてしまう。従って、上記したとおり、日本語の大語彙連続音声認識では同じ単語でも複数の表記がある為に、文字誤り率(CER)では、どの表記を選択したかによって誤り率が変化してしまう。また、文字誤り率(CER)では、日本語における多種多様な綴り表現を取り扱うことは困難である。さらに、文字誤り率(CER)では、音声検索のような最近の巨大規模のタスクにおいて、上記正解データと上記仮説データとの間での正規化は実行不可能である。
かな誤り率(KER:Katakana Error Rate)は、上記正解データ及び上記仮説データを、発音を表す片仮名文字列(片仮名シーケンス)に翻訳してマッチングを行う認識率評価尺度である。かな誤り率(KER)は、綴りに基づく面倒な問題、例えば上記した単語単位の不明瞭さ及び多種多様な綴り表現を避けることが可能である。しかし、かな誤り率(KER)は、表記の誤りをカウントしない為に、誤認識を低く見積もる傾向にある。また、音声認識結果を片仮名文字列で出力することは見易さの観点からは好ましくない。従って、音声認識結果を片仮名文字列で出力すればいいというものでもない。
下記特許文献1は、認識結果に対する複数の第2の信頼性尺度が第1の信頼性尺度を決定するため自動的に結合され、認識結果が第1の信頼性尺度を用いて評価される、音声発話の自動認識方法において、上記第2の信頼性尺度の合成を決定するパラメータがクロスエントロピー誤差尺度の最小化に基づいて決定されることを特徴とする方法を記載する(請求項1)。すなわち、特許文献1は、音声認識がある結果を出力する際に、その計算途中で得られる尤度などから、得られた認識結果が正しいかどうかを推測する手法に関する。
下記特許文献2は、音声認識システムに対するモデル適合のための方法であって、1組の語のうちの1つの語の事例の認識または様々な語の事例の認識に対応する誤り率を決定する段階と、前記誤り率に基づいて、前記1つの語に対する1つのモデルまたは前記様々な語に対する様々なモデルの適合を調整する段階とを含む方法を記載する(請求項1)。すなわち、特許文献2は、音声認識の評価結果に基づいて、音声認識のモデルを改善する手法に関する。
下記特許文献3は、入力音声を音声認識して正解候補を複数出力し、出力した正解候補の中から音声認識結果を選択する音声認識手段を備えている誤り傾向学習音声認識装置において、前記音声認識手段は、前記誤り傾向学習手段により分析された認識誤りの傾向を修正するための誤り修正モデルを用いて、音声認識結果の選択における誤りを修正することを特徴する傾向学習音声認識装置を記載する(請求項1)。すなわち、特許文献3は、音声認識結果を人手で修正し、その結果に基づいて、自動的に音声認識結果を改善するモデルを学習する手法に関する。
下記特許文献4は、音声認識システムのパフォーマンスを評価するための方法を記載する(請求項1)。
下記特許文献5は、入力音声信号の音声認識結果が、どの程度信頼できるかを表す信頼度を推定するようにした音声認識装置を記載する(段落0001)。
特開2000−99080号公報 特開2009−532744号公報 特開2008−216341号公報 特開2009−532742号公報 特開2010−210816号公報
連続音声認識結果の一般的な評価方法における認識率評価尺度として、上記した通り、単語誤り率(WER:Word Error Rate)、文字誤り率(CER:Character Error Rate)、及びかな誤り率(KER:Katakana Error Rate)がある。それぞれの尺度方法の特徴からすれば、日本語の音声認識、特にはLVCSRの性能評価には、文字誤り率(CER)を認識率評価尺度としてなるべく使用したい。しかしながら、文字誤り率(CER)においては、正解データの表記における表記の揺れがある為にどの表記を選択したかによって誤り率が変化し、また特にはLVCSRシステムの場合、例えば検索発話やメッセージ発話の場合には語彙が多すぎて表記の正規化もできないという問題がある。そこで、本発明は、音声認識システムの音声認識結果を評価するために適切な誤り率を選択可能にする方法を提供することを目的とする。
本発明者らは、かな誤り率(KER)が文字誤り率(CER)よりもはるかに良い場合に、かな誤り率(KER)が文字誤り率(CER)よりもより合理的であることを見つけた。そして、本発明は、連続音声認識結果の認識率評価尺度として、文字誤り率(CER)を基本としつつ、発話単位での文字誤り率(CER)とかな誤り率(KER)の適切な切り替えにより、より合理的な誤り率が得られる技法を提供する。すなわち、本発明は、音声認識結果のテキストの一文ごとについて、文字誤り率(CER)が信頼に足りるかどうかを判定して、当該信頼が足りない場合にはかな誤り率(KER)にスイッチして評価を行うという評価尺度を提供する。
本発明は、音声認識結果を評価する技法を提供する。また、本発明は、複数の音声認識システムについての音声認識結果を評価する技法を提供する。当該技法は、音声認識結果を評価する方法、並びに、そのシステム、コンピュータ・プログラム及びコンピュータ・プログラム製品を包含しうる。
本発明に従う第1の態様において、音声認識結果を評価する方法は、
上記音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率(以下、「表記誤り率」という)と発音による誤り率(以下、「発音誤り率」という)とをそれぞれ算出するステップと、
上記算出した表記誤り率に所定の係数を適用した後の値と上記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として採用し、一方、上記差が上記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として採用するステップと、
各文についての上記採用された誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出するステップと
を含む。
本発明に従う第2の態様において、複数の音声認識結果を評価する方法は、
上記複数の音声認識システムそれぞれについて、同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率(表記誤り率)と発音による誤り率(発音誤り率)とをそれぞれ算出するステップと、
上記複数の音声認識システムそれぞれについて、上記算出した表記誤り率に所定の係数を適用した後の値と上記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として仮採用し、一方、上記差が上記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として仮採用するステップと、
上記複数の音声認識システムそれぞれについて、上記発音誤り率を誤り率として仮採用された文を識別して、当該文の集合を作成するステップと、
上記発音誤り率が誤り率として仮採用された上記文の集合同士の和集合を求めるステップと、
上記複数の音声認識システムそれぞれについて、上記求めた和集合に属する文については上記発音誤り率を採用し、一方、残りの文については上記表記誤り率を採用するステップと、
上記複数の音声認識システムそれぞれについて、上記採用された誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出するステップと
を含む。
本発明に従う第3の態様において、音声認識結果を評価するためのコンピュータは、
上記音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率(表記誤り率)と発音による誤り率(発音誤り率)とをそれぞれ算出する誤り率算出部と、
上記算出した表記誤り率に所定の係数を適用した後の値と上記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として採用し、一方、上記差が上記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として採用する誤り率採用部と、
各文についての上記採用された誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出する評価結果算出部と
を備えている。
本発明に従う第4の態様において、複数の音声認識結果を評価するためのコンピュータは、
上記複数の音声認識システムそれぞれについて、同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率(表記誤り率)と発音による誤り率(発音誤り率)とをそれぞれ算出する誤り率算出部と、
上記複数の音声認識システムそれぞれについて、上記算出した表記誤り率に所定の係数を適用した後の値と上記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として仮採用し、一方、上記差が上記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として仮採用する誤り率仮採用部と、
上記複数の音声認識システムそれぞれについて、上記発音誤り率を誤り率として仮採用された文を識別して、当該文の集合を作成する文集合識別部と、
上記発音誤り率が誤り率として仮採用された上記文の集合同士の和集合を求める和集合算出部と、
上記複数の音声認識システムそれぞれについて、上記求めた和集合に属する文については上記発音誤り率を採用し、一方、残りの文については上記表記誤り率を採用して、上記採用された誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出する評価結果算出部と
を備えている。
また、本発明に従う第5の態様において、コンピュータ・プログラム及びコンピュータ・プログラム製品は、上記コンピュータに、本発明に従う方法の各ステップを実行させる。
本発明の実施態様に従うコンピュータ・プログラムはそれぞれ、一つ又は複数のフレキシブル・ディスク、MO、CD−ROM、DVD、BD、ハードディスク装置、USBに接続可能なメモリ媒体、ROM、MRAM、RAM等の任意のコンピュータ読み取り可能な記録媒体に格納することができる。当該コンピュータ・プログラムは、記録媒体への格納のために、通信回線で接続する他のデータ処理システム、例えばサーバ・コンピュータからダウンロードしたり、又は他の記録媒体から複製したりすることができる。また、本発明の実施態様に従うコンピュータ・プログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。また、様々な形態で、本発明の実施態様に従うコンピュータ・プログラム製品を提供することも勿論可能であることにも留意されたい。本発明の実施態様に従うコンピュータ・プログラム製品は、例えば、上記コンピュータ・プログラムを記録した記憶媒体、又は、上記コンピュータ・プログラムを伝送する伝送媒体を包含しうる。
本発明の上記概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの構成要素のコンビネーション又はサブコンビネーションもまた、本発明となりうることに留意すべきである。
本発明の実施態様において使用されるコンピュータの各ハードウェア構成要素を、複数のマシンと組み合わせ、それらに機能を配分し実施する等の種々の変更は当業者によって容易に想定され得ることは勿論である。それらの変更は、当然に本発明の思想に包含される概念である。ただし、これらの構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
また、本発明は、ハードウェア、ソフトウェア、又は、ハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアとの組み合わせによる実行において、上記コンピュータ・プログラムのインストールされたコンピュータにおける実行が典型的な例として挙げられる。かかる場合、当該コンピュータ・プログラムが当該コンピュータのメモリにロードされて実行されることにより、当該コンピュータ・プログラムは、当該コンピュータを制御し、本発明にかかる処理を実行させる。当該コンピュータ・プログラムは、任意の言語、コード、又は、表記によって表現可能な命令群から構成されうる。そのような命令群は、当該コンピュータが特定の機能を直接的に、又は、1.他の言語、コード若しくは表記への変換及び、2.他の媒体への複製、のいずれか一方若しくは双方が行われた後に、実行することを可能にするものである。
本発明の実施態様に従うと、発話単位でかな誤り率(KER)と文字誤り率(CER)とを適切に切り替えることによって、より合理的な誤り率が得られる。従って、本発明の実施態様に従うと、多様な表記が許されるような表現があった場合に、表記の揺れによる誤りを不必要に多く算出することなしに、音声認識システムの音声認識精度を適切に推定することが可能になる。また、本発明の実施態様に従うと、音声認識システムの音声認識結果をより高い精度で評価すること、並びに、複数の音声認識システムについての音声認識結果をより精度の高く評価することが可能になる。
本発明の実施形態におけるコンピュータ・ハードウェアの基本的なブロック図を示す。 文字誤り率(CER)とかな誤り率(KER)との間で誤り率が異なることを示す表である。 本発明の上記第1の実施態様に従う、音声認識結果を評価する処理のためのフローチャートを示す。 本発明の上記第2の実施態様に従う、複数の音声認識システムについての音声認識結果を評価する処理のためのフローチャートを示す。 図4Aの説明と同じである。 図4Aの説明と同じである。 図4A〜図4Cに記載の複数の音声認識システムについての音声認識結果を評価する処理によって、かな誤り率(KER)の採用される範囲が最適化されることを示す図である。 図1に従うハードウェア構成を好ましくは備えており、図3に示す本発明の上記第1の実施態様に従うコンピュータの機能ブロック図の一例を示した図である。 図1に従うハードウェア構成を好ましくは備えており、図4A〜図4Cに示す本発明の上記第2の実施態様に従うコンピュータの機能ブロック図の一例を示した図である。
本発明の実施形態を、以下に図面に従って説明する。以下の図を通して、特に断らない限り、同一の符号は同一の対象を指す。本発明の実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。
本発明の実施態様に従う上記コンピュータは、1又は複数のコンピュータから構成されうる。
図1は、本発明の実施態様において使用されうるコンピュータを実現するためのハードウェア構成の一例を示した図である。
コンピュータ(101)は、CPU(102)とメイン・メモリ(103)とを備えており、これらはバス(104)に接続されている。CPU(102)は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものである。当該CPU(102)は例えば、インテル社のCore(商標 i)シリーズ、Core(商標) 2シリーズ、Atom(商標)シリーズ、Xeon(登録商標)シリーズ、Pentium(登録商標)シリーズ若しくはCeleron(登録商標)シリーズ、AMD(Advanced Micro Devices)社のAシリーズ、Phenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ若しくはSempron(商標)、又は、インターナショナル・ビジネス・マシーンズ・コーポレーションのPower(商標)シリーズでありうる。
バス(104)には、ディスプレイ・コントローラ(105)を介して、ディスプレイ(106)、例えば液晶ディスプレイ(LCD)が接続されうる。また、液晶ディスプレイ(LCD)は例えば、タッチパネル・ディスプレイ又はフローティング・タッチ・ディスプレイであてもよい。ディスプレイ(106)は、コンピュータ(101)上で動作中のソフトウェア、例えば本発明の実施態様に従うコンピュータ・プログラムが稼働することによって表示される情報、例えば評価結果を、適当なグラフィック・インタフェースで表示するために使用されうる。
バス(104)には任意的に、例えばSATA又はIDEコントローラ(107)を介して、記憶装置(108)、例えばハードディスク又はソリッド・ステート・ドライブに接続されうる。
バス(104)には任意的に、例えばSATA又はIDEコントローラ(107)を介して、記憶装置(108)、ドライブ(109)、例えばCD、DVD又はBDドライブが接続されうる。
バス(104)には、周辺装置コントローラ(110)を介して、例えばキーボード・マウス・コントローラ又はUSBバスを介して、任意的に、キーボード(111)及びマウス(112)が接続されうる。
記憶装置(108)には、オペレーティング・システム、Windows(登録商標)OS、UNIX(登録商標)、MacOS(登録商標)、及びJ2EEなどのJava(登録商標)処理環境、Java(登録商標)アプリケーション、Java(登録商標)仮想マシン(VM)、Java(登録商標)実行時(JIT)コンパイラを提供するプログラム、本発明の実施態様に従うコンピュータ・プログラム、及びその他のプログラム、並びにデータが、メイン・メモリ(103)にロード可能なように記憶されうる。
記憶装置(108)は、コンピュータ(101)内に内蔵されていてもよく、当該コンピュータ(101)がアクセス可能なようにケーブルを介して接続されていてもよく、又は、当該コンピュータ(101)がアクセス可能なように有線又は無線ネットワークを介して接続されていてもよい。
ドライブ(109)は、必要に応じて、CD−ROM、DVD−ROM又はBDからプログラム、例えばオペレーティング・システム又はアプリケーションを記憶装置(108)にインストールするために使用されうる。
通信インタフェース(114)は、例えばイーサネット(登録商標)・プロトコルに従う。通信インタフェース(114)は、通信コントローラ(113)を介してバス(104)に接続され、コンピュータ(101)を通信回線(115)に有線又は無線接続する役割を担い、コンピュータ(101)のオペレーティング・システムの通信機能のTCP/IP通信プロトコルに対して、ネットワーク・インタフェース層を提供する。通信回線は例えば、有線LAN接続規格に基づく有線LAN環境、又は無線LAN接続規格に基づく無線LAN環境、例えばIEEE802.11a/b/g/nなどのWi−Fi無線LAN環境、若しくは携帯電話網環境(例えば、3G、又は4G(LTEを含む)環境)でありうる。
コンピュータ(101)は、通信回線(115)を介して他のコンピュータからのデータを受信し、記憶装置(108)上に格納しうる。
図2は、文字誤り率(CER)とかな誤り率(KER)との間で誤り率が異なることを示す表である。
表(201)は、正解データ(211)の綴り(221)が「珈琲」(漢字表記である)であり、仮説データ1(212)の綴り(221)が「coffee」(英語表記である)及び仮説データ2(213)の綴り(221)が「氷」(漢字表記である)であることを示す。
また、表(201)は、正解データ(211)「珈琲」(漢字表記である)の片仮名表現(222)が「コーヒー」(「ko o hi i」で表記される)であり、仮説データ1(212)「coffee」(英語表記である)の片仮名表現(222)が「コーヒー」(「ko o hi i」で表記される)及び仮説データ2(213)「氷」(漢字表記である)の片仮名表現(222)が「コーリ」(「ko o ri」で表記される)であることを示す。
仮説データ1(212)の文字誤り率(CER)(231)
仮説データ1(212)の綴り(221)が「coffee」(英語表記である)であり、一方、正解データ(211)の綴り(221)が「珈琲」(漢字表記である)であるので、綴りは互いに異なる。従って、仮説データ1(212)の文字誤り率(CER)(231)は、100%である。
仮説データ1(212)のかな誤り率(KER)(241)
仮説データ1(212)「coffee」の片仮名表現(222)が「コーヒー」であり、一方、正解データ(211)「珈琲」の片仮名表現(222)が「コーヒー」であるので、片仮名表現は同一である。従って、仮説データ1(212)のかな誤り率(KER)(241)は、0%である。
仮説データ2(213)の文字誤り率(CER)(231)
仮説データ2(213)の綴り(221)が「氷」(漢字表記である)であり、一方、正解データ(211)の綴り(221)が「珈琲」(漢字表記である)であるので、綴りは互いに異なる。従って、仮説データ2(213)の文字誤り率(CER)(231)は、100%である。
仮説データ2(213)のかな誤り率(KER)(241)
仮説データ2(213)「氷」の片仮名表現(222)が「コーリ」であり、一方、正解データ(211)「珈琲」の片仮名表現(222)が「コーヒー」であるので、片仮名表現は一部異なる(すなわち、4文字中2文字異なる)。従って、仮説データ2(213)のかな誤り率(KER)(241)は、50%である。
以上に示す通り、仮説データ1(212)について、仮説データ1(212)の文字誤り率(CER)が100%であり、かな誤り率(KER)(241)は0%である。仮説データ1(212)「coffee」(英語表記である)及び正解データ(211)「珈琲」(漢字表記である)のいずれも綴りの正しい異綴語であり、且つ、同じ意味を有する。従って、仮説データ1(212)について、文字誤り率(CER)100%は無意味である。すなわち、かな誤り率(KER)0%が文字誤り率(CER)100%よりも合理的である。
以上に示す通り、仮説データ2(213)について、仮説データ2(213)の文字誤り率(CER)(231)は100%であり、仮説データ2(213)のかな誤り率(KER)(241)は50%である。仮説データ2(213)「氷」(漢字表記である)であり且つ正解データ(211)「珈琲」である。従って、仮説データ2(213)について、文字誤り率(CER)100%がかな誤り率(KER)50%よりもが合理的である。すなわち、文字誤り率(CER)100%がかな誤り率(KER)50%よりも合理的である。
以上のことから、表(202)中の太線枠で示すように、仮説データ1(212)についてはかな誤り率(KER)を選択し、仮説データ2(213)については文字誤り率(CER)を尺度として選択することがよい。
以下の図3において、仮説データ1(212)についてはかな誤り率(KER)を選択し、仮説データ2(213)については文字誤り率(CER)を尺度として選択する処理の為のフローチャートを示す。
図3は、本発明の上記第1の実施態様に従う、音声認識結果を評価する処理のためのフローチャートを示し、図4は、本発明の上記第2の実施態様に従う、複数の音声認識システムについての音声認識結果を評価する処理のためのフローチャートを示す。
図3に示すフローチャートについて、以下に説明する。
ステップ301において、コンピュータ(101)は、音声認識結果を評価する処理を開始する。
ステップ302において、コンピュータ(101)は、発話データ u_{i} を受信する。コンピュータ(101)は例えば、記憶装置(108)に予め格納された発話データをコンピュータ(101)のメモリ(103)中に読み出しうる。代替的には、コンピュータ(101)は例えば、音声入力装置から発話データをランタイムに記憶装置(108)又はメモリ(103)に格納し、そして発話データを記憶装置(108)に格納した場合には当該記憶装置(108)に格納した発話データをコンピュータ(101)のメモリ(103)中に読み出しうる。
発話データは、表記による誤り率(例えば、その中でも特には文字誤り率(CER))と発音誤り率(例えば、その中でも特にはかな誤り率(KER))とを計算可能な言語の発話データであれば特に制限はされない。当該言語は例えば、日本語、中国語、又は韓国語でありうる。発話データは、特に制限はされないが、例えば、音声検索発話、又はメッセージ発話でありうる。
ステップ303において、コンピュータ(101)は、受信した発話データ u_{i} を音声認識システムでテキスト化処理する。音声認識システムは例えば、大語彙音声認識システム、又は、特には大語彙連続音声認識(LVCSR)システムでありうる。
ステップ304において、コンピュータ(101)は、上記音声認識システムでの音声認識結果 h_{i} を取得し、記憶装置(108)又はメモリ(103)に格納しうる。音声認識結果は例えば、大語彙音声認識結果、又は、特には大語彙連続音声認識(LVCSR)結果でありうる。
ステップ305において、コンピュータ(101)は、正解データ t_{i} を取得する。正解データ t_{i} は、人手によって用意されたものである。すなわち、人間が音声データを聞いて、正解データを作成したものである。
ステップ306において、コンピュータ(101)は、音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記誤り率、例えば特には文字誤り率(CER)を下記式に従って算出する。
文字誤り率(CER)= (S+D+I)/N
ここで、Sは、置換の文字数であり、
Dは、削除の文字数であり、
Iは、挿入の文字数であり、
Nは、正解データにおける全文字数であり、N=Cである。
Cは、正解の文字数である。
ステップ307において、コンピュータ(101)は、ステップ306において算出した文字誤り率(CER)の結果 CER_{i} を取得し、当該取得した算出結果 CER_{i} を記憶装置(108)又はメモリ(103)に格納しうる。
ステップ308において、コンピュータ(101)は、音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、発音誤り率、例えば特にはかな誤り率(KER)を下記式に従って算出する。
かな誤り率(KER)= (S+D+I)/N
ここで、Sは、置換のかな数であり、
Dは、削除のかな数であり、
Iは、挿入のかな数であり、
Nは、正解データにおける全かな数であり、N=Cである。
Cは、正解のかな数である。
ステップ309において、コンピュータ(101)は、かな誤り率(KER)の算出結果 KER_{i} を取得し、記憶装置(108)又はメモリ(103)に格納しうる。
コンピュータ(101)は、ステップ306における文字誤り率(CER)の算出、及びステップ308におけるかな誤り率(KER)の算出をそれぞれ並行して、又は、任意の順番で、算出しうる。
ステップ310〜ステップ312において、コンピュータ(101)は、かな誤り率(KER)と文字誤り率(CER)とを切り替える混成誤り率(HER:Hybrid Error Rate)を下記式1に従い求める。
ここで、Aは第1の係数(Aは任意の正の数である)であり、
Bは第2の係数(Bは任意の正若しくは負の数、又は0である)であり、
Cは第3の係数(Cは任意の正の数である)であり、
iは発話数である。
上記パラメータA〜Cは例えば、音声認識の為に使用する辞書や評価データに依存しうる。当業者は、上記パラメータA〜Cを適宜設定しうる。
混成誤り率(HER)の上記式1において、本発明の実施態様に従うコンピュータ(101)を使用するユーザは、上記式1に任意の数の係数A〜Cを適用しうる。混成誤り率(HER)の上記式1において、上記係数は例えば、B=0である。混成誤り率(HER)の上記式1において、上記係数は例えば、B=0且つC=1である。混成誤り率(HER)の上記式1において、上記係数は例えば、A=1/3(又は0.33),B=0,且つC=1である。
混成誤り率(HER)の上記式1においては、その右辺が一次関数である場合を示した。代替的には、その右辺が、文字誤り率(CER)と所定の係数を適用した二次関数であってもよい。
以下において、ステップ310〜ステップ312の処理の内容を説明する。
ステップ310において、コンピュータ(101)は、ステップ307で取得した算出結果 CER_{i} 及びステップ309で取得した算出結果 KER_{i} を使用して、A×CER_{i}−BがC×KER_{i}よりも大きいかどうかを判断する。コンピュータ(101)は、A×CER_{i}−BがC×KER_{i}と同じであるかそれよりも小さいことに応じて、例えば第2の係数B=0である場合にA×CER_{i}がC×KER_{i}と同じであるかそれよりも小さいことに応じて、処理をステップ311に進める。一方、コンピュータ(101)は、A×CER_{i}−BがC×KER_{i}よりも大きいことに応じて、又は、第2の係数B=0である場合には、A×CER_{i}がC×KER_{i}よりも大きいことに応じて、処理をステップ312に進める。
ステップ311において、コンピュータ(101)は、文字誤り率(CER)CER_{i} を混成誤り率(HER)として採用する(HER_{i} = CER_{i})。
ステップ312において、コンピュータ(101)は、かな誤り率(KER)KER_{i}を混成誤り率(HER)として採用する(HER_{i} = KER_{i})。
ステップ313において、コンピュータ(101)は、未処理の認識結果があるかどうかを確認する。コンピュータ(101)は、未処理の認識結果があることに応じて、当該未処理の認識結果について文字誤り率(CER)及びかな誤り率(KER)をそれぞれ算出する為に、処理をステップ306及び308に戻す。一方、コンピュータ(101)は、未処理の認識結果がないことに応じて、処理をステップ314に進める。
ステップ314において、コンピュータ(101)は、各文についてステップ311及びステップ312において採用された誤り率を組み合わせて、音声認識結果の上記テキストの全てについての評価結果を算出する。
ステップ315において、コンピュータ(101)は、ステップ314での評価結果の算出が終了することに応じて、音声認識結果を評価する処理を終了する。コンピュータ(101)は、任意的に、ステップ314での評価結果の算出が終了することに応じて、上記評価結果を表示画面上に表示しうる。
以下において、図3に示した本発明の上記第1の実施態様に従う、音声認識結果を評価する処理のためのフローチャートを、図2に記載の具体例を使用して更に説明する。
最初に、コンピュータ(101)は、仮説データ1について検討する。仮説データ1(212)の綴り(221)は「coffee」(英語表記である)である。
ステップ305において、コンピュータ(101)は、正解データ(211)を取得する。正解データ(211)の綴り(221)は「珈琲」(漢字表記である)である。
ステップ306及び307において、コンピュータ(101)は、文字誤り率(CER)を算出し、文字誤り率(CER)の算出結果100%を取得する。
ステップ308及び309において、コンピュータ(101)は、文字誤り率(CER)を算出し、かな誤り率(KER)の算出結果0%を取得する。
ステップ308及び309において、コンピュータ(101)は、上記式1(A=1/3,B=0,且つC=1)に従い計算する。コンピュータ(101)は、KER(0%)<1/3×CER(100%)=33.3であるので、処理をステップ312に進める。
ステップ312において、コンピュータ(101)は、仮説データ1について、混成誤り率(HER)としてかな誤り率(0%)を採用する。
次に、コンピュータ(101)は、仮説データ2について検討する。仮説データ2(213)の綴り(221)は「氷」(漢字表記である)である。
ステップ305において、コンピュータ(101)は、正解データ(211)を取得する。正解データ(211)の綴り(221)は「珈琲」(漢字表記である)である。
ステップ306及び307において、コンピュータ(101)は、文字誤り率(CER)を算出し、文字誤り率(CER)の算出結果100%を取得する。
ステップ308及び309において、コンピュータ(101)は、文字誤り率(CER)を算出し、かな誤り率(KER)の算出結果50%を取得する。
ステップ308及び309において、コンピュータ(101)は、上記式1(A=1/3,B=0,且つC=1)に従い計算する。コンピュータ(101)は、KER(50%)>1/3×CER(100%)=33.3であるので、処理をステップ311に進める。
ステップ312において、コンピュータ(101)は、仮説データ2について、混成誤り率(HER)として文字誤り率(CER)(100%)を採用する。
以上に示す通り、混成誤り率(HER)として、仮説データ1についてかな誤り率(KER)(0%)が採用され、且つ仮説データ2について文字誤り率(CER)(100%)が採用されている。従って、混成誤り率(HER)を採用することで、適切な誤り率を選択することが可能になる。
図4A〜図4Cに示すフローチャートについて、以下に説明する。
ステップ401において、コンピュータ(101)は、複数の音声認識システムについての音声認識結果を評価する処理を開始する。図4A〜図4Cに示すフローチャートでは、音声認識システムX及び音声認識システムYの2つの音声認識システムについての音声認識結果を評価する処理を示す。音声認識システムの数が2よりも多い場合においても、図4A〜図4Cに示すフローチャートと同様にして処理をすることが可能である。
ステップ402において、コンピュータ(101)は、発話データ u_{i} を受信する。ステップ402における発話データ u_{i} の受信処理は、図3に示すステップ302における発話データ u_{i} の受信処理と同様である。従って、ステップ402の説明について、ステップ302についての上記説明を援用する。
ステップ403において、コンピュータ(101)は、発話データ u_{i} を受信することに応じて、当該受信した発話データ u_{i} を、複数の音声認識システムのうちの音声認識システムXでテキスト化処理する(403)。音声認識システムは例えば、大語彙音声認識システム、又は、特には大語彙連続音声認識(LVCSR)システムでありうる。
ステップ404において、コンピュータ(101)は、音声認識システムXでの音声認識結果 h^{X}_{i} を取得し、記憶装置(108)又はメモリ(103)に格納しうる。音声認識結果は例えば、大語彙音声認識結果、又は、特には大語彙連続音声認識(LVCSR)結果でありうる。
ステップ405において、コンピュータ(101)は、正解データ t_{i} を取得する。正解データ t_{i} は、上記ステップ305と同様に、人手によって用意されたものである。なお、正解データの取得ステップ405は、発話データの取得ステップ402において行われてもよい。
ステップ406において、コンピュータ(101)は、音声認識システムXでの同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記誤り率、例えば特には文字誤り率(CER)を、図3のステップ306の説明において示した上記式に従って算出する。
ステップ407において、コンピュータ(101)は、ステップ406において算出した音声認識システムXでの文字誤り率(CER)の算出結果 CER^{X}_{i} を取得し、当該取得した算出結果 CER^{X}_{i} を記憶装置(108)又はメモリ(103)に格納しうる。
ステップ408において、コンピュータ(101)は、音声認識システムXでの音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、発音誤り率、例えば特にはかな誤り率(KER)を、図3のステップ308の説明において示した上記式に従って算出する。
ステップ409において、コンピュータ(101)は、ステップ408において算出した音声認識システムXでのかな誤り率(KER)の算出結果 KER^{X}_{i} を取得し、当該取得した算出結果 KER^{X}_{i} を記憶装置(108)又はメモリ(103)に格納しうる。
ステップ410〜ステップ412において、コンピュータ(101)は、音声認識システムXで仮採用する混成誤り率2を下記式2に従い求める。
ここで、Aは第1の係数(Aは任意の正の数である)であり、
Bは第2の係数(Bは任意の正若しくは負の数、又は0である)であり、
Cは第3の係数(Cは任意の正の数である)であり、
iは発話数である。
上記パラメータA〜Cは例えば、音声認識の為に使用する辞書や評価データに依存しうる。当業者は、上記パラメータA〜Cを適宜設定しうる。
混成誤り率2(HER2)の上記式2において、本発明の実施態様に従うコンピュータ(101)を使用するユーザは、上記式2に任意の数の係数A〜Cを適用しうる。混成誤り率2(HER2)の上記式2において、上記係数は例えば、B=0である。混成誤り率2(HER2)の上記式2において、上記係数は例えば、B=0且つC=1である。混成誤り率2(HER2)の上記式2において、上記係数は例えば、A=1/3(又は0.33),B=0,且つC=1である。
混成誤り率2(HER2)の上記式2においては、その右辺が一次関数である場合を示した。代替的には、その右辺が、文字誤り率(CER)と所定の係数を適用した二次関数であってもよい。
以下において、ステップ410〜ステップ412の処理の内容を説明する。
ステップ410において、コンピュータ(101)は、ステップ407で取得した算出結果 CER^{X}_{i}及びステップ409で取得した算出結果 KER^{X}_{i} を使用して、A×CER^{X}_{i}−BがC×KER^{X}_{i}よりも大きいかどうかを判断する。コンピュータ(101)は、A×CER^{X}_{i}−BがC×KER^{X}_{i}と同じであるかそれよりも小さいことに応じて、例えば第2の係数B=0である場合にA×CER^{X}_{i}−BがC×KER^{X}_{i}と同じであるかそれよりも小さいことに応じて、処理をステップ411に進める。一方、コンピュータ(101)は、A×CER^{X}_{i}−BがC×KER^{X}_{i}よりも大きいことに応じて、又は、第2の係数B=0である場合には、A×CER^{X}_{i}がC×KER^{X}_{i}よりも大きいことに応じて、処理をステップ412に進める。
ステップ411において、コンピュータ(101)は、文字誤り率(CER)を混成誤り率2(HER2)として仮採用する(HER2^{X}_{i} = CER^{X}_{i})。
ステップ412において、コンピュータ(101)は、かな誤り率(KER)を混成誤り率2(HER2)として仮採用する(HER2^{X}_{i} = KER^{X}_{i})。
ステップ413において、コンピュータ(101)は、未処理の認識結果があるかどうかを確認する。コンピュータ(101)は、未処理の認識結果があることに応じて、当該未処理の認識結果について文字誤り率(CER)及びかな誤り率(KER)をそれぞれ算出する為に、処理をステップ406及び408に戻す。一方、コンピュータ(101)は、未処理の認識結果がないことに応じて、処理をステップ414に進める。
ステップ414において、コンピュータ(101)は、音声認識システムXについて、かな誤り率(KER)を誤り率として仮採用された文を識別して、当該識別された文の集合を作成する。
ステップ423において、コンピュータ(101)は、発話データ u_{i} を受信することに応じて、当該受信した発話データ u_{i} を、複数の音声認識システムのうちの音声認識システムYでテキスト化処理する(423)。音声認識システムは例えば、大語彙音声認識システム、又は、特には大語彙連続音声認識(LVCSR)システムでありうる。
ステップ424において、コンピュータ(101)は、音声認識システムYでの音声認識結果 h^{Y}_{i} を取得し、記憶装置(108)又はメモリ(103)に格納しうる。音声認識結果は例えば、大語彙音声認識結果、又は、特には大語彙連続音声認識(LVCSR)結果でありうる。
ステップ425において、コンピュータ(101)は、正解データ t_{i} を取得する。正解データ t_{i} は、上記ステップ305と同様に、人手によって用意されたものである。なお、正解データの取得ステップ425は、発話データの取得ステップ402において行われてもよい。
ステップ426において、コンピュータ(101)は、ステップ406と同一のテストデータに対する音声認識システムYでの音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記誤り率、例えば特には文字誤り率(CER)を、図3のステップ306の説明において示した上記式に従って算出する。
ステップ427において、コンピュータ(101)は、ステップ426において算出した音声認識システムYでの文字誤り率(CER)の算出結果 CER^{Y}_{i} を取得し、当該取得した算出結果 CER^{Y}_{i} を記憶装置(108)又はメモリ(103)に格納しうる。
ステップ428において、コンピュータ(101)は、音声認識システムYでの音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、発音誤り率、例えば特にはかな誤り率(KER)を、図3のステップ308の説明において示した上記式に従って算出する。
ステップ429において、コンピュータ(101)は、ステップ428において算出した音声認識システムYでのかな誤り率(KER)の算出結果 KER^{Y}_{i} を取得し、当該取得した算出結果 KER^{Y}_{i} を記憶装置(108)又はメモリ(103)に格納しうる。
ステップ430〜ステップ432において、コンピュータ(101)は、音声認識システムYで仮採用する誤り率2を、上記式2と同じく下記式3に従い求める。
上記パラメータA〜C及びiそれぞれは、上記式2におけるパラメータA〜C及びiそれぞれに対応し、共通の値をとる。
混成誤り率2(HER2)の上記式3においては、その右辺が一次関数である場合を示した。代替的には、その右辺が、文字誤り率(CER)と所定の係数を適用した二次関数であってもよい。
以下において、ステップ430〜ステップ432の処理の内容を説明する。
ステップ430において、コンピュータ(101)は、ステップ427で取得した算出結果 CER^{Y}_{i}及びステップ429で取得した算出結果 KER^{Y}_{i} を使用して、A×CER^{Y}_{i}−BがC×KER^{Y}_{i}よりも大きいかどうかを判断する。コンピュータ(101)は、A×CER^{Y}_{i}−BがC×KER^{Y}_{i}と同じであるかそれよりも小さいことに応じて、例えば第2の係数B=0である場合にA×CER^{Y}_{i}−BがC×KER^{Y}_{i}と同じであるかそれよりも小さいことに応じて、処理をステップ431に進める。一方、コンピュータ(101)は、A×CER^{Y}_{i}−BがC×KER^{Y}_{i}よりも大きいことに応じて、又は、第2の係数B=0である場合には、A×CER^{Y}_{i}がC×KER^{X}_{i}よりも大きいことに応じて、処理をステップ432に進める。
ステップ431において、コンピュータ(101)は、文字誤り率(CER)を混成誤り率2(HER2)として仮採用する(HER2^{Y}_{i} = CER^{Y}_{i})。
ステップ432において、コンピュータ(101)は、かな誤り率(KER)を混成誤り率2(HER2)として仮採用する(HER2^{Y}_{i} = KER^{Y}_{i})。
ステップ433において、コンピュータ(101)は、未処理の認識結果があるかどうかを確認する。コンピュータ(101)は、未処理の認識結果があることに応じて、当該未処理の認識結果について文字誤り率(CER)及びかな誤り率(KER)をそれぞれ算出する為に、処理をステップ426及び428に戻す。一方、コンピュータ(101)は、未処理の認識結果がないことに応じて、処理をステップ434に進める。
ステップ434において、コンピュータ(101)は、音声認識システムYについて、かな誤り率(KER)を誤り率として仮採用された文を識別して、当該識別された文の集合を作成する。
コンピュータ(101)は、音声認識システムXでのステップ403〜413の処理、及び、音声認識システムYでのステップ423〜433の処理をそれぞれ並行して、又は、任意の順番で、実行しうる。
ステップ441において、コンピュータ(101)は、ステップ414で作成された文の集合(すなわち、音声認識システムXでかな誤り率(KER)が仮採用された文の集合)と、ステップ434で作成された文の集合(すなわち、音声認識システムYでかな誤り率(KER)が仮採用された文の集合)との和集合を求める。すなわち、ステップ414で作成された文の集合と、ステップ434で作成された文の集合との共通部分をとる。
ステップ451において、コンピュータ(101)は、音声認識システムXについて、ステップ441で求めた和集合に属する文についてはかな誤り率(KER)を採用し、一方、残りの文については文字誤り率(CER)を採用する。
ステップ452において、コンピュータ(101)は、音声認識システムXについて、ステップ451において採用された誤り率を組み合わせて、音声認識システムXについての音声認識結果の上記テキストの全てについての評価結果を算出する。当該処理によって、ステップ411で仮採用されていた文字誤り率(CER)が、発話によってはかな誤り率(KER)に切り替えられる。
ステップ461において、コンピュータ(101)は、音声認識システムYについて、ステップ441で求めた和集合に属する文についてはかな誤り率(KER)を採用し、一方、残りの文については文字誤り率(CER)を採用する。
ステップ462において、コンピュータ(101)は、音声認識システムYについて、ステップ461において採用された誤り率を組み合わせて、音声認識システムYについての音声認識結果の上記テキストの全てについての評価結果を算出する。当該処理によって、ステップ431で仮採用されていた文字誤り率(CER)が、発話によってはかな誤り率(KER)に切り替えられる。
ステップ471において、コンピュータ(101)は、ステップ452及びステップ462での評価結果の算出が終了することに応じて、音声認識結果を評価する処理を終了する。コンピュータ(101)は、任意的に、ステップ452及びステップ462での評価結果の算出が終了することに応じて、音声認識システムX及びYそれぞれについての評価結果を表示画面上に表示しうる。コンピュータ(101)は例えば、上記音声認識システム毎の上記算出された評価結果に基づいて、誤り率の少ない音声認識システムを表示しうる。
図4A〜図4Cにおいて示したかな誤り率(KER)と文字誤り率(CER)とを切り替える混成誤り率2(HER2:Hybrid Error Rate)は、下記の式で示される。
ここで、上記パラメータA〜C及びiそれぞれは、上記式2及び式3におけるパラメータA〜C及びiそれぞれに対応し、共通の値をとる。jは実験数である。
上記パラメータA〜Cそれぞれは、上記式2及び上記式3におけるパラメータA〜Cと共通の値である。
混成誤り率2(HER2)の上記式4においては、その右辺が一次関数である場合を示した。代替的には、その右辺が、文字誤り率(CER)と所定の係数を適用した二次関数であってもよい。
図5は、図4A〜図4Cに記載の複数の音声認識システム(すなわち、音声認識システムX及びY)についての音声認識結果を評価する処理によって、かな誤り率(KER)の採用される範囲が最適化されることことを示す図である。
図5は、音声認識システムXで仮名誤り率(KER)が仮採用された文の集合(502)、及び、音声認識システムYで仮名誤り率(KER)が仮採用された文の集合(503)を示し、且つ、上記仮採用された文の集合(502)及び上記仮採用された文の集合(503)の和集合(504)が、混成誤り率2(HER2)において仮名誤り率(KER)が採用された文の集合であることを示す。
図6は、図1に従うハードウェア構成を好ましくは備えており、図3に示す本発明の上記第1の実施態様に従うコンピュータの機能ブロック図の一例を示した図である。以下において、「部」は「手段」とも読み替えてもよい。
コンピュータ(601)は、図1のコンピュータ(101)に対応しうる。コンピュータ(601)は、図1のコンピュータ(101)に示されている構成、例えばCPU(102)、メイン・メモリ(103)、及び、ディスク(108)又はコンピュータ(101)がアクセス可能なネットワーク上にある記憶装置を備えている。コンピュータ(601)は、図3に示す本発明の上記第1の実施態様に従う音声認識結果を評価するためのコンピュータでありうる。
コンピュータ(601)は、音声認識処理部(611)及び評価部(613)を備えている。
音声認識処理部(611)は、図3に記載のステップ302〜304を実行しうる。
評価部(613)は、誤り率算出部(621)、誤り率採用部(622)、評価結果算出部(626)を備えうる。
誤り率算出部(621)は、表記誤り率算出部(631)と発音誤り率算出部(652)とを備えている。
表記誤り率算出部(631)は、音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記誤り率を算出する。
表記誤り率算出部(631)は、図3に記載のステップ306〜307を実行しうる。
発音誤り率算出部(632)は、音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、発音誤り率を算出する。
発音誤り率算出部(632)は、図3に記載のステップ308〜309を実行しうる。
誤り率採用部(622)は、表記誤り率算出部(631)が算出した表記誤り率に所定の係数を適用した後の値と、発音誤り率算出部(632)が算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として採用し、一方、上記差が上記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として採用する。
誤り率採用部(622)は例えば、上記表記誤り率を誤り率として採用することを、表記誤り率算出部(631)が算出した表記誤り率に第1の係数を掛けた第1の値から第2の係数を引いた第2の値と、発音誤り率算出部(632)が算出した発音誤り率に第3の係数を掛けた第3の値との差が所定の閾値以下であることに応じて行い、上記発音誤り率を誤り率として採用することを、上記第2の値と上記第3の値との上記差が上記所定の閾値よりも大きいことに応じて行いうる。
誤り率採用部(622)は例えば、上記表記誤り率を誤り率として採用することを、表記誤り率算出部(631)が算出した表記誤り率に第1の係数を掛けた第1の値から第2の係数を引いた第2の値が、発音誤り率算出部(632)が算出した発音誤り率に第3の係数を掛けた第3の値以下であること(例えば、図3のステップ311、並びに、図4のステップ411及びステップ431)に応じて行い、上記発音誤り率を誤り率として採用することを、上記第2の値が上記第3の値よりも大きいこと(例えば、図3のステップ312、並びに、図4のステップ412及びステップ432)に応じて行いうる。
誤り率採用部(622)は、図3に記載のステップ310〜312を実行しうる。
評価結果算出部(626)は、各文についての誤り率採用部(622)が採用した誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出する。
評価結果算出部(626)は、図3に記載のステップ314を実行しうる。
図7は、図1に従うハードウェア構成を好ましくは備えており、図4A〜図4Cに示す本発明の上記第2の実施態様に従うコンピュータの機能ブロック図の一例を示した図である。
コンピュータ(701)は、図1のコンピュータ(101)に対応しうる。コンピュータ(701)は、図1のコンピュータ(101)に示されている構成、例えばCPU(102)、メイン・メモリ(103)、及び、ディスク(108)又はコンピュータ(101)がアクセス可能なネットワーク上にある記憶装置を備えている。コンピュータ(701)は、本発明に従う複数の音声認識システムについての音声認識結果を評価するを評価するためのコンピュータでありうる。
コンピュータ(701)は、音声認識処理部X(音声認識処理システムXともいう)(711)及び音声認識処理部Y(音声認識処理システムYともいう)(712)、並びに評価部(713)を備えている。
音声認識処理部X(711)は、一つの音声認識処理システムとして実装されている。音声認識処理部X(711)は、図4Aに記載のステップ403〜404を実行しうる。
音声認識処理部Y(712)は、一つの音声認識処理システムとして実装されている。音声認識処理部Y(712)は、図4Aに記載のステップ423〜424を実行しうる。
評価部(713)は、誤り率算出部(721)、誤り率仮採用部(722)、文集合識別部(723)、和集合算出部(725)、及び評価結果算出部(726)を備えている。
誤り率算出部(721)は、表記誤り率算出部(731)と発音誤り率算出部(732)とを備えている。
表記誤り率算出部(731)は、複数の音声認識システム(例えば、図7の場合には、音声認識処理部X(711)及び音声認識処理部Y(712))それぞれについて、同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記誤り率を算出する。
表記誤り率算出部(731)は、図4Aに記載のステップ406〜407及びステップ426〜427を実行しうる。
発音誤り率算出部(732)は、複数の音声認識システム(例えば、図7の場合には、音声認識処理部X(711)及び音声認識処理部Y(712))それぞれについて、同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、発音誤り率を算出する。
発音誤り率算出部(732)は、図4Aに記載のステップ408〜409及びステップ428〜429を実行しうる。
誤り率仮採用部(722)は、複数の音声認識システム(例えば、図7の場合には、音声認識処理部X(711)及び音声認識処理部Y(712))それぞれについて、表記誤り率算出部(731)が算出した表記誤り率に所定の係数を適用した後の値と、発音誤り率算出部(732)が算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、上記表記誤り率を誤り率として仮採用し、一方、上記差が前記所定の閾値よりも大きいことに応じて、上記発音誤り率を誤り率として仮採用する。
誤り率仮採用部(722)は例えば、上記表記誤り率を誤り率として仮採用することを、表記誤り率算出部(731)が算出した表記誤り率に第1の係数を掛けた第1の値から第2の係数を引いた第2の値と、発音誤り率算出部(732)が算出した発音誤り率に第3の係数を掛けた第3の値との差が所定の閾値以下であることに応じて行い、上記発音誤り率を誤り率として採用することを、上記第2の値と上記第3の値との上記差が上記所定の閾値よりも大きいことに応じて行いうる。
誤り率仮採用部(722)は例えば、上記表記誤り率を誤り率として仮採用することを、表記誤り率算出部(731)が算出した表記誤り率に第1の係数を掛けた第1の値から第2の係数を引いた第2の値が、発音誤り率算出部(732)算出した発音誤り率に第3の係数を掛けた第3の値以下であることに応じて行い、上記発音誤り率を誤り率として採用することを、上記第2の値が上記第3の値よりも大きいことに応じて行いうる。
誤り率仮採用部(722)は、図4Bに記載のステップ410〜412及びステップ430〜432を実行しうる。
文集合識別部(723)は、複数の音声認識システム(例えば、図7の場合には、音声認識処理部X(711)及び音声認識処理部Y(712))それぞれについて、誤り率仮採用部(722)が発音誤り率を誤り率として仮採用された文を識別して、当該文の集合を作成する。
文集合識別部(723)は、図4Bに記載のステップ414及びステップ434を実行しうる。
和集合算出部(725)は、発音誤り率が誤り率として仮採用された文の集合同士の和集合を求める。
和集合算出部(725)は、図4Cに記載のステップ441を実行しうる。
評価結果算出部(726)は、複数の音声認識システム(例えば、図7の場合には、音声認識処理部X(711)及び音声認識処理部Y(712))それぞれについて、和集合算出部(725)が求めた和集合に属する文については上記発音誤り率を採用し、一方、残りの文については上記表記誤り率を採用し、そして当該採用された誤り率を組み合わせて、上記音声認識結果の上記テキストの全てについての評価結果を算出する。
評価結果算出部(726)は、図4Cに記載のステップ451〜452及び461〜462を実行しうる。
図6において、図3に示す本発明の上記第1の実施態様に従うコンピュータの機能ブロック図の一例を示し、図7において、図4A〜図4Cに示す本発明の上記第2の実施態様に従うコンピュータの機能ブロック図を示した。本発明の実施態様に従うコンピュータが本発明の上記第1の実施態様及び上記第2の実施態様のいずれをも実行する場合には、評価部は、図6に示す評価部(613)及び図7に示す評価部(713)の各機能、すなわち、誤り率算出部(621,721)、誤り率採用部(622)、誤り率仮採用部(722)、文集合識別部(723)、及び和集合算出部(725)、及び評価結果算出部(626,726)を備えている。
[実施例]
従来技術の音声認識システムを使用して、1000文からなる検索発話を音声認識すると同時に、耳でも上記検索発話を聴取して、エラーを間違ってカウントしている文の数をチェックした。その結果、従来技術の上記音声認識システムにおいて、上記発話の約17%が綴り異綴語により誤見積もりされていた。一方、本発明の実施態様に従うコンピュータ(101)は、上記式1(A=1/3,B=0,且つC=1)に従い計算し、文字誤り率(CER)又はかな誤り率(KER)を発話単位で切り替えた。その結果、上記誤見積もりのほとんど(約16%)を回復することができた。すなわち、誤見積もりが1%程度までに削減できた。また、誤切り替えの数は非常に少なかった(約3%)。さらには、主観評価実験は、上記切り替えにより人間の主観をよく反映していることを示した。すなわち、本発明の実施態様に従い、文字誤り率(CER)又はかな誤り率(KER)を発話単位で切り替えることによって、人間の直感に良く合致した評価尺度を得ることができる。

Claims (20)

  1. 音声認識結果を評価する方法であって、コンピュータが、
    前記音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率(以下、「表記誤り率」という)と発音による誤り率(以下、「発音誤り率」という)とをそれぞれ算出するステップと、
    前記算出した表記誤り率に所定の係数を適用した後の値と前記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、前記表記誤り率を誤り率として採用し、一方、前記差が前記所定の閾値よりも大きいことに応じて、前記発音誤り率を誤り率として採用するステップと、
    各文についての前記採用された誤り率を組み合わせて、前記音声認識結果の前記テキストの全てについての評価結果を算出するステップと
    を実行することを含む、前記方法。
  2. 前記表記誤り率を誤り率として採用するステップが、
    前記算出した表記誤り率に第1の係数を掛けた第1の値から第2の係数を引いた第2の値と前記算出した発音誤り率に第3の係数を掛けた第3の値との差が所定の閾値以下であることに応じて行われ、
    前記発音誤り率を誤り率として採用するステップが、
    前記第2の値と前記第3の値との前記差が前記所定の閾値よりも大きいことに応じて行われる、
    請求項1に記載の方法。
  3. 前記表記誤り率を誤り率として採用するステップが、
    前記算出した表記誤り率に第1の係数を掛けた第1の値から第2の係数を引いた第2の値が前記算出した発音誤り率に第3の係数を掛けた第3の値以下であることに応じて行われ、
    前記発音誤り率を誤り率として採用するステップが、
    前記第2の値が前記第3の値よりも大きいことに応じて行われる、
    請求項1に記載の方法。
  4. 前記第2の係数が0である、請求項2又は3に記載の方法。
  5. 複数の音声認識システムについての音声認識結果を評価する方法であって、コンピュータが、
    前記複数の音声認識システムそれぞれについて、同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率(以下、「表記誤り率」という)と発音による誤り率(以下、「発音誤り率」という)とをそれぞれ算出するステップと、
    前記複数の音声認識システムそれぞれについて、前記算出した表記誤り率に所定の係数を適用した後の値と前記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、前記表記誤り率を誤り率として仮採用し、一方、前記差が前記所定の閾値よりも大きいことに応じて、前記発音誤り率を誤り率として仮採用するステップと、
    前記複数の音声認識システムそれぞれについて、前記発音誤り率を誤り率として仮採用された文を識別して、当該文の集合を作成するステップと、
    前記発音誤り率が誤り率として仮採用された前記文の集合同士の和集合を求めるステップと、
    前記複数の音声認識システムそれぞれについて、前記求めた和集合に属する文については前記発音誤り率を採用し、一方、残りの文については前記表記誤り率を採用するステップと、
    前記複数の音声認識システムそれぞれについて、前記採用された誤り率を組み合わせて、前記音声認識結果の前記テキストの全てについての評価結果を算出するステップと
    を実行することを含む、前記方法。
  6. 前記表記誤り率を誤り率として仮採用するステップが、
    前記算出した表記誤り率に第1の係数を掛けた第1の値から第2の係数を引いた第2の値と前記算出した発音誤り率に第3の係数を掛けた第3の値との差が所定の閾値以下であることに応じて行われ、
    前記発音誤り率を誤り率として仮採用するステップが、
    前記第2の値と前記第3の値との前記差が前記所定の閾値よりも大きいことに応じて行われる、
    請求項5に記載の方法。
  7. 前記表記誤り率を誤り率として仮採用するステップが、
    前記算出した表記誤り率に第1の係数を掛けた第1の値から第2の係数を引いた第2の値が前記算出した発音誤り率に第3の係数を掛けた第3の値以下であることに応じて行われ、
    前記発音誤り率を誤り率として仮採用するステップが、
    前記第2の値が前記第3の値よりも大きいことに応じて行われる、
    請求項5に記載の方法。
  8. 前記第2の係数が0である、請求項6又は7に記載の方法。
  9. 前記表記誤り率が文字誤り率であり、且つ、前記発音誤り率がかな誤り率である、請求項1〜8のいずれか一項に記載の方法。
  10. 前記音声認識結果が大語彙音声認識結果である、請求項1〜9のいずれか一項に記載の方法。
  11. 音声認識結果を評価するためのコンピュータであって、
    前記音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率(以下、「表記誤り率」という)と発音による誤り率(以下、「発音誤り率」という)とをそれぞれ算出する誤り率算出部と、
    前記算出した表記誤り率に所定の係数を適用した後の値と前記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、前記表記誤り率を誤り率として採用し、一方、前記差が前記所定の閾値よりも大きいことに応じて、前記発音誤り率を誤り率として採用する誤り率採用部と、
    各文についての前記採用された誤り率を組み合わせて、前記音声認識結果の前記テキストの全てについての評価結果を算出する評価結果算出部と
    を備えている、前記コンピュータ。
  12. 前記誤り率採用部が、
    前記表記誤り率を誤り率として採用することを、前記算出した表記誤り率に第1の係数を掛けた第1の値から第2の係数を引いた第2の値と前記算出した発音誤り率に第3の係数を掛けた第3の値との差が所定の閾値以下であることに応じて行い、
    前記発音誤り率を誤り率として採用することを、前記第2の値と前記第3の値との前記差が前記所定の閾値よりも大きいことに応じて行う、
    請求項11に記載のコンピュータ。
  13. 前記誤り率採用部が、
    前記表記誤り率を誤り率として採用することを、前記算出した表記誤り率に第1の係数を掛けた第1の値から第2の係数を引いた第2の値が前記算出した発音誤り率に第3の係数を掛けた第3の値以下であることに応じて行い、
    前記発音誤り率を誤り率として採用することを、前記第2の値が前記第3の値よりも大きいことに応じて行う、
    請求項11に記載のコンピュータ。
  14. 前記第2の係数が0である、請求項12又は13に記載のコンピュータ。
  15. 複数の音声認識システムについての音声認識結果を評価するためのコンピュータであって、
    前記複数の音声認識システムそれぞれについて、同一のテストデータに対する音声認識結果のテキストを一文ごとに取り出し、当該取り出した一文ごとに、表記による誤り率(以下、「表記誤り率」という)と発音による誤り率(以下、「発音誤り率」という)とをそれぞれ算出する誤り率算出部と、
    前記複数の音声認識システムそれぞれについて、前記算出した表記誤り率に所定の係数を適用した後の値と前記算出した発音誤り率に所定の係数を適用した後の値との差が所定の閾値以下であることに応じて、前記表記誤り率を誤り率として仮採用し、一方、前記差が前記所定の閾値よりも大きいことに応じて、前記発音誤り率を誤り率として仮採用する誤り率仮採用部と、
    前記複数の音声認識システムそれぞれについて、前記発音誤り率を誤り率として仮採用された文を識別して、当該文の集合を作成する文集合識別部と、
    前記発音誤り率が誤り率として仮採用された前記文の集合同士の和集合を求める和集合算出部と、
    前記複数の音声認識システムそれぞれについて、前記求めた和集合に属する文については前記発音誤り率を採用し、一方、残りの文については前記表記誤り率を採用して、前記採用された誤り率を組み合わせて、前記音声認識結果の前記テキストの全てについての評価結果を算出する評価結果算出部と
    を備えている、前記コンピュータ。
  16. 前記誤り率仮採用部が、
    前記表記誤り率を誤り率として仮採用することを、前記算出した表記誤り率に第1の係数を掛けた第1の値から第2の係数を引いた第2の値と前記算出した発音誤り率に第3の係数を掛けた第3の値との差が所定の閾値以下であることに応じて行い、
    前記発音誤り率を誤り率として採用することを、前記第2の値と前記第3の値との前記差が前記所定の閾値よりも大きいことに応じて行う、
    請求項15に記載のコンピュータ。
  17. 前記誤り率仮採用部が、
    前記表記誤り率を誤り率として仮採用することを、前記算出した表記誤り率に第1の係数を掛けた第1の値から第2の係数を引いた第2の値が前記算出した発音誤り率に第3の係数を掛けた第3の値以下であることに応じて行い、
    前記発音誤り率を誤り率として採用することを、前記第2の値が前記第3の値よりも大きいことに応じて行う、
    請求項15に記載のコンピュータ。
  18. 前記第2の係数が0である、請求項16又は17に記載のコンピュータ。
  19. 前記表記誤り率が文字誤り率であり、且つ、前記発音誤り率がかな誤り率である、請求項11〜18のいずれか一項に記載のコンピュータ。
  20. 音声認識結果を評価するためのコンピュータ・プログラムであって、コンピュータに、請求項1〜10のいずれか一項に記載の方法の各ステップを実行させる、前記コンピュータ・プログラム。
JP2013175563A 2013-08-27 2013-08-27 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム Pending JP2015045689A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013175563A JP2015045689A (ja) 2013-08-27 2013-08-27 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013175563A JP2015045689A (ja) 2013-08-27 2013-08-27 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム

Publications (1)

Publication Number Publication Date
JP2015045689A true JP2015045689A (ja) 2015-03-12

Family

ID=52671258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013175563A Pending JP2015045689A (ja) 2013-08-27 2013-08-27 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP2015045689A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102797A (zh) * 2018-07-06 2018-12-28 平安科技(深圳)有限公司 语音识别测试方法、装置、计算机设备及存储介质
CN110277095A (zh) * 2018-03-16 2019-09-24 纬创资通股份有限公司 语音服务控制装置及其方法
CN112349290A (zh) * 2021-01-08 2021-02-09 北京海天瑞声科技股份有限公司 一种基于三元组的语音识别准确率计算方法
CN114822501A (zh) * 2022-04-18 2022-07-29 四川虹美智能科技有限公司 智能设备语音识别及语义识别的自动化测试方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110277095A (zh) * 2018-03-16 2019-09-24 纬创资通股份有限公司 语音服务控制装置及其方法
CN110277095B (zh) * 2018-03-16 2021-06-18 纬创资通股份有限公司 语音服务控制装置及其方法
CN109102797A (zh) * 2018-07-06 2018-12-28 平安科技(深圳)有限公司 语音识别测试方法、装置、计算机设备及存储介质
CN109102797B (zh) * 2018-07-06 2024-01-26 平安科技(深圳)有限公司 语音识别测试方法、装置、计算机设备及存储介质
CN112349290A (zh) * 2021-01-08 2021-02-09 北京海天瑞声科技股份有限公司 一种基于三元组的语音识别准确率计算方法
CN114822501A (zh) * 2022-04-18 2022-07-29 四川虹美智能科技有限公司 智能设备语音识别及语义识别的自动化测试方法及系统
CN114822501B (zh) * 2022-04-18 2023-07-25 四川虹美智能科技有限公司 智能设备语音识别及语义识别的自动化测试方法及系统

Similar Documents

Publication Publication Date Title
CN109887497B (zh) 语音识别的建模方法、装置及设备
US11797772B2 (en) Word lattice augmentation for automatic speech recognition
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN103714048B (zh) 用于校正文本的方法和系统
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
US9594744B2 (en) Speech transcription including written text
US11043213B2 (en) System and method for detection and correction of incorrectly pronounced words
US9747893B2 (en) Unsupervised training method, training apparatus, and training program for an N-gram language model based upon recognition reliability
CN109686383B (zh) 一种语音分析方法、装置及存储介质
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
US9588967B2 (en) Interpretation apparatus and method
EP3739575A1 (en) Acoustic model training using corrected terms
US20110213610A1 (en) Processor Implemented Systems and Methods for Measuring Syntactic Complexity on Spontaneous Non-Native Speech Data by Using Structural Event Detection
CN109979484B (zh) 发音检错方法、装置、电子设备及存储介质
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
US9460718B2 (en) Text generator, text generating method, and computer program product
CN109166569B (zh) 音素误标注的检测方法和装置
JP2015045689A (ja) 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
US20210264895A1 (en) Data generation apparatus and data generation method
CN112309429A (zh) 一种失爆检测方法、装置、设备及计算机可读存储介质
CN111951827B (zh) 一种连读识别校正方法、装置、设备以及可读存储介质
JP2023007014A (ja) 応答システム、応答方法、および応答プログラム
JP2024008334A (ja) 情報処理装置、情報処理方法およびプログラム