JP2016051179A

JP2016051179A - 音声認識方法、音声評価方法、音声認識システム及び音声評価システム

Info

Publication number: JP2016051179A
Application number: JP2015167911A
Authority: JP
Inventors: シュリンイエ; Shuling Ye; ジュヌジエチョン; Junjie Cheng; ジュヌジエヤオ; Junjie Yao; ジエヌチェヌ; Jian Chen
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2014-08-29
Filing date: 2015-08-27
Publication date: 2016-04-11
Also published as: CN105374356B; CN105374356A

Abstract

【課題】音声認識の正確性を効果的に向上する音声認識方法、音声評価方法、音声認識システム及び音声評価システムを提供する。【解決手段】ユーザの音声を取得する音声取得ステップＳ２０１と、取得した音声をテキストデータに認識し、初期音声認識結果とする音声認識ステップＳ２０２と、複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係のうちの偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果における偏差用語と同一の用語が原用語-偏差用語の関係における原用語に置き換えられるように誤り訂正処理を行うことで、誤り訂正された音声認識結果を取得し、当該音声認識方法によって生成された音声認識結果とする誤り訂正ステップＳ２０３と、を含む。【選択図】図２

Description

本発明は音声認識方法と音声評価方法に関し、さらには該音声認識方法を用いる音声認識システム及び該音声評価方法を用いる音声評価システムに関する。

現在、音声認識技術の絶えまない発展に伴い、音声認識に基づく応用もますます普及しており、このような技術はすでに家庭生活、ＯＡ分野、娯楽などの分野に浸透している。ユーザがＰＣ、ノートパソコン、タブレットＰＣ、専用学習端末、多機能携帯電話などの端末に外付けされた、または内蔵されたマイクに向かって音声を入力（例えば、一文を朗読）することで、音声認識エンジン（以下「エンジン」と略称）を介して音声-文字の変換を完成する。従来には数多くのエンジン製品が存在し、例えば汎用されている世界的にも有名なＮｕａｎｃｅ、Ｇｏｏｇｌｅ（グーグル）の音声認識サービス、中国国内のＩＦＬＹＴＥＣの音声認識サービスなどがある。しかし、音声認識におけるエンジンの最大の問題点は音声認識の正確度であり、従来のエンジン製品において最高の音声認識正確度を有するＮｕａｎｃｅでも下記の問題を避けることができない。

ａ１、例えば常用されていない人名、地名などのいくつかの珍しい用語はエンジンにより正しく認識されず、通常、同じ発音の用語に誤認される。

ａ２、日本語においては、漢字が認識返送されるのが望ましい場合や、仮名が認識返送されるのが望ましい場合があるが、該エンジンはその区別ができない。

他方、ますます増えている言語学習がインターネット経由をベースとする遠隔学習システムによって実現され、また、さまざまなテストシステムが伴われることで、ユーザ（学習者）の学習効果の検証が行われる。言語学習において非常に重要な一環となる話し言葉の学習は、遠隔学習システムにおいては、通常、前記音声認識方法に基づく音声評価システムが配置されることで、ユーザの話し言葉のテストが可能になる。たとえば、ユーザは端末にインストールされたソフトを介して学習サーバとのインタラクティブ（すなわち音声評価方法を実施するための音声評価システムを構成）が可能になり、音声-文字の変換、文字-文字の整合などのいくつかの技術手段によって、最終的にユーザ入力音声に対する評価点数、即ち、ユーザが標準的な音声で該一文を朗読したか否かを示す評価点数が得られる。

従来技術の音声認識に基づく音声評価システムにおいては、主に図１に示される音声評価方法を採用しており、即ちユーザの原文朗読による音声を取得し（ステップＳ１０１）、エンジンによって、取得したユーザの音声に対する音声認識（音声-テキストの変換）を行い（ステップＳ１０２）（ステップＳ１０１〜ステップＳ１０２は実際に音声認識方法である）、音声認識結果（テキスト）と原文（テキスト）との相似度比較により音声評価点数を算出し（ステップＳ１０３）、結果としての音声評価点数を出力する（ステップＳ１０４）。

前記エンジンは音声認識において音声認識の正確度の問題が存在するため、音声評価システムにおいて評価の正確性に影響を及ぼす恐れがある。なお、エンジンは、音声認識の正確度問題以外にも、音声認識において以下の欠点がある。

ｂ１、音声認識においてエンジンは、語気詞を無効音声に誤判断し自動フィルタしてしまうことが多い。

ｂ２、文末の疑問詞が軽く読まれた際にも、エンジンによって無効音声として誤判断され自動フィルタ処理されることがある。

要するに、従来の音声認識システムにおいては、従来のエンジンに音声認識時の客観的な欠点が存在するため、出力する音声認識結果の正確性に影響を与えるおそれがある。また、このような音声認識システムに基づく言語学習システムの音声評価システムにおける音声評価の正確性にも、判定の不正確、不合理などの問題が存在するため、ユーザの興味と信頼性の低下を招くことになり、該言語学習システムの汎用化に極めて不利である。

本発明の１つの目的は、以上の従来技術における欠点のうちの少なくともいずれかを解決し、音声認識の正確性を効果的に向上するための音声認識方法を提供する。

本発明のもう１つの目的は、以上の従来技術における欠点のうちの少なくともいずれかを解決し、言語学習システムにおける音声評価の正確性を効果的に向上するための音声評価方法を提供する。

本発明の１つの態様によれば、ユーザの音声を認識し、音声認識結果を生成するための音声認識方法において、前記ユーザの前記音声を取得する音声取得ステップと、言語認識処理により、取得した前記音声をテキストデータに変換し、初期音声認識結果とする音声認識ステップと、複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係における偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果における偏差用語と同一の用語が原用語-偏差用語の関係における原用語に置き換えられるように誤り訂正処理を行うことで、誤り訂正後の音声認識結果を取得し、当該音声認識方法によって生成された音声認識結果とする誤り訂正ステップと、を含む、音声認識方法を提供する。

本発明のもう１つの態様によれば、ユーザが特定の原文を朗読する音声に対して判定を行い、その音声の標準レベルを示す評価点数を出力するための音声評価方法において、ユーザが特定の原文を朗読する音声に基づいて音声認識結果を生成する前記請求項１〜５に記載の前記音声認識方法を実行するステップと、前記原文と前記誤り訂正後の音声認識結果との相似度を比較し、前記原文と前記誤り訂正後の音声認識結果とが完全に一致する場合は、最高の評価点数を出力し、前記原文と前記誤り訂正後の音声認識結果とが不一致になる場合は、前記原文から、前記原文に存在し、且つ前記初期音声認識結果又は前記誤り訂正後の音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、且つ対応する１つまたは複数の未戻し用語-空白の関係を構築し、複数の未戻し用語-空白の関係が記録されたフィルタ用語表を検索し、構築した前記１つまたは複数の未戻し用語-空白の関係のうちの一部または全部の未戻し用語-空白の関係が前記フィルタ用語表中に記録されている場合は、前記原文から前記一部または全部の未戻し用語-空白の関係に対応する未戻し用語を削除することで、フィルタ処理後の原文を生成するフィルタ処理ステップを実行する、比較ステップと、前記誤り訂正後の音声認識結果と前記フィルタ処理後の原文との相似度比較を行い、評価点数を算出し出力する出力ステップと、を含む、音声評価方法を提供する。

さらに本発明の１つの態様によれば、ユーザの音声を認識し、音声認識結果を生成するための音声認識システムにおいて、ユーザの前記音声を取得する音声取得ユニットと、音声認識処理によって、取得した前記音声をテキストデータに認識変換し、初期音声認識結果とする音声認識ユニットと、複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係における偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果における前記偏差用語と同一の用語が、前記原用語-偏差用語の関係における原用語に置き換えられように、誤り訂正処理を行うことで、誤り訂正後の音声認識結果を取得し、当該音声認識システムによって生成される音声認識結果とする誤り訂正処理ユニットと、を含む、音声認識システムを提供する。

さらに本発明のもう１つの態様によれば、ユーザが特定の原文を朗読する音声に対して判定を行い、音声の標準レベルを示す評価点数を出力するための音声評価システムにおいて、ユーザが特定の原文を朗読する音声に基づいて音声認識結果を生成する前記請求項８に記載の音声認識システムと、前記原文と前記誤り訂正後の音声認識結果との相似度を比較し、前記原文と前記誤り訂正後の音声認識結果とが完全に一致する場合は、最高の評価点数を出力し、前記原文と前記誤り訂正後の音声認識結果とが不一致になる場合は、前記原文から、前記原文に存在し、且つ前記初期音声認識結果又は前記誤り訂正後の音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、対応する１つまたは複数の未戻し用語-空白の関係を構築し、複数の未戻し用語-空白の関係が記録されたフィルタ用語表を検索し、構築した前記１つまたは複数の未戻し用語-空白の関係のうちの一部または全部の未戻し用語-空白の関係が前記フィルタ用語表中に記録されている場合は、前記原文から前記一部または全部の未戻し用語-空白の関係に対応する未戻し用語を削除するように、フィルタ処理を実行することで、フィルタ処理後の原文を生成するサンプルフィルタ処理ユニットを含む、比較ユニットと、前記誤り訂正後の音声認識結果と前記フィルタ処理後の原文との相似度比較を行い、評価点数を算出し出力する出力ユニットと、を含む、音声評価システムを提供する。

本発明における音声認識方法とシステムを用いることで、このような音声認識方法を結び付けた音声認識の正確率を効果的に向上することができる。

本発明における音声評価方法とシステムを用いることで、このような音声評価方法を結びつけた言語学習システムの音声評価の正確率を効果的に向上することができる。

従来技術の、音声認識に基づく音声評価システムにおける音声評価方法のフローチャートを示す。第１実施例に基づく音声認識方法のフローチャートを示す。第２実施例に基づく誤り訂正用語表の生成方法の第１の例のフローチャートを示す。第２実施例に基づく誤り訂正用語表の生成方法の第２の例のフローチャートを示す。第３実施例に基づく音声評価システムにおける音声評価方法のフローチャートを示す。第４実施例に基づくフィルタ用語表の生成方法のフローチャートを示す。

以下、図面を参照しながら実施例を詳しく説明する。例示として、本発明は日本語認識の応用環境を用いているが、これに限られず、他の言語への応用も本発明の範囲内に含まれる。

図２は、第１実施例に基づく音声認識方法のフローチャートを示す。ここで図２を参照して、第１実施例に基づく音声認識方法を説明する。本発明の第１実施例に基づく音声認識方法は下記のステップを含む。

ステップＳ２０１：ユーザの音声を取得する。ここでいわゆる音声は人の発音器官からの、ユーザが表現しようとする特定の言語意味を持つ音声を指す。

音声はマイクが接続／内蔵されるＰＣ、ノートパソコン、タブレットＰＣ、多機能携帯電話などの端末を介して取得したものである。

ステップＳ２０２：ステップＳ２０１において取得した音声はエンジンを介して、音声認識処理によって、テキストデータに変換（認識）され、初期音声認識結果となる。

本発明による実施例において、音声認識は、音声認識技術を採用する、端末と異なるエンジン（通常リモートサーバーに設置される）を介して実現される。該エンジンは、従来の技術においてすでに汎用されている世界的にも有名なＮｕａｎｃｅ、Ｇｏｏｇｌｅ（グーグル）の音声認識サービス、中国国内においてはＩＦＬＹＴＥＣの音声認識サービスなどが用いられてもよい。端末とエンジンとの間の通信方式については、インターネット、ワイヤレスネットワーク接続に基づくリモート方式であってもよく、異なるニーズに応じて、また条件が許すならば、有線方式で接続を行ってもよい。さらに、端末の処理能力が十分であるならば、エンジンを端末に内蔵してもよい。

ステップＳ２０３：初期音声認識結果に対する誤り訂正処理を行う。

該ステップにおいて、複数の原用語-偏差用語の関係が記録されている、誤り訂正処理を行うための誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係における偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果において偏差用語と同一の用語が原用語-偏差用語の関係における原用語に置き換えられるように、誤り訂正処理を行い、これによって音声認識方法が生成する音声認識結果となる、誤り訂正された音声認識結果を取得する。前記偏差用語が複数存在する場合は、該置き換えを複数回行う。ここでの原用語は正しい用語を指し、すなわち、ユーザが本来表現しようとする用語である。偏差用語は、認識されたもので、原用語と不一致の用語である。

本発明による第１実施例において、誤り訂正用語表に収集されるのは、通常、エンジンに誤認されやすい用語であり、すなわち背景技術において述べた例えば常用されていない人名、地名などの珍しい用語、及び日本語において、区分表示が必要な漢字と仮名である。本発明による第１実施例における音声認識方法は、異なる音声認識の応用場面に応じて、関連する応用場面に対応する、複数の原用語-偏差用語の関係を含む異なる誤り訂正用語表が用いられてもよい。すなわち、このような応用場面において常用され、且つエンジンに原用語と異なる偏差用語として誤認されやすい原用語を、偏差用語と対応付けて、対応する原用語-偏差用語の関係を構築し、且つ該構築した原用語-偏差用語の関係を誤り訂正用語表に収録する。誤り訂正用語表は経験をまとめたものであっても、さまざまな自動生成／収集方法を介して生成されたものであってもよく、対応する原用語-偏差用語の関係さえ収録されれば、特に制限されない。

本発明による第１実施例は、従来の音声認識技術に基づいて音声認識結果に対する誤り訂正処理を追加することで、背景技術で紹介した例えば常用されていない人名、地名などのいくつかの珍しい用語、及び日本語における漢字と仮名の区分がエンジンに誤認されやすい欠点を解決することができる。

以下、第２実施例を参照しながら、第１実施例における誤り訂正用語表の生成方法について説明を行う。第２実施例で説明する誤り訂正用語表の生成方法は、ある程度、本発明の実施例に基づく音声認識処理と独立したものである。誤り訂正用語表の生成（更新）は、音声認識処理ごとに必ず行うべきものではないため、定期的に操作してもよい。このような誤り訂正用語表の生成（更新）は音声認識処理における誤り訂正処理を実行する前に行うだけでよい。

図３は第２実施例に基づく誤り訂正用語表の生成方法の第１の例のフローチャートを示す。ここで図３を参照しながら第２実施例に基づく誤り訂正用語表の生成方法の第１の例を説明する。本発明の第２実施例に基づく誤り訂正用語表の生成方法の第１の例は下記ステップを含む。

ステップＳ３０１：複数の音声レベルを有する人を指定し、特定の原文を朗読することによって各人の音声を取得する。本発明に基づく第２実施例においては、５つの音声レベルを有する人をサンプルとして選択している。ここでの数量は例示としての説明であり、本発明はこれに限らない。

ここで特定の原文は、本発明の第１実施例に基づく音声認識方法の応用環境において常に使われている単語、短い文、長い文または短い文章などを指し、例えば日常の仕事中や会議中に常用される短い文、常に提起される人名、個人的な総括および仕事報告のサンプルである。

ステップＳ３０２：ステップＳ３０１において取得した５つのサンプル（５人）の音声が、エンジンにより、５つのサンプルの初期音声認識結果となるテキストデータに認識される。本実施例において、５つのサンプルの初期音声認識結果はそれぞれ「Ｔ１」、「Ｔ２」、「Ｔ３」、「Ｔ４」と「Ｔ５」に表記される。

ステップＳ３０３：原用語-偏差用語の関係を構築し、特定の原文における同一の原用語に対応する原用語-偏差用語の関係における、同一の偏差用語に対応する原用語-偏差用語の関係の確率を統計する。

該ステップにおいて、特定の原文と比較し、各サンプル（各人）の初期音声認識結果が原文と全く同じである場合は、該原文に対する誤り訂正用語表を構築する必要がない。

すべてのサンプルのすべての初期音声認識結果において原文との不一致が発見された場合は、第１実施例のステップＳ２０３と同様に、初期音声認識結果と原文から、Ｍ（Ｍ≧１）個の原用語-偏差用語の関係を構築する。これらの関係において、１つの原用語が複数の偏差用語に対応するケースが存在する。すべての該Ｍ個の原用語-偏差用語の関係から同一の原用語に対応するＮ（１≦Ｎ≦Ｍ）個の原用語-偏差用語の関係を抽出し、このような同一の原用語に対応する原用語-偏差用語の関係において同一の偏差用語を有する関係の個数Ｌ（１≦Ｌ≦Ｎ）を統計し、本発明の実施例で日本語を例に、例えば、原文が「王小華こんにちは」であると、表１には、実施例のすべての原用語-偏差用語の関係から抽出された、同一の原用語「王小華」に対応する原用語-偏差用語の関係（Ｎ＝５）が示され、ここで、偏差用語１の「高評価」を有する原用語-偏差用語の関係の個数は３（Ｌ１＝３）であり、偏差用語２の「王将か」を有する原用語-偏差用語の関係の個数はＬ２＝２である。同一の原用語に対応する原用語-偏差用語の関係において、同一の偏差用語に対応する関係の個数（Ｌ）を同一の原用語に対応する原用語-偏差用語の関係の個数（Ｎ）で割り算することで、同一の原用語に対応する原用語-偏差用語の関係における、同一の偏差用語に対応する関係の確率（Ｌ／Ｎ）が得られ、例えば表１において、原用語「王小華」に対応する原用語-偏差用語の関係において、偏差用語１の「高評価」に対応する原用語-偏差用語の関係の確率は６０％であり、偏差用語２の「王将か」に対応する原用語-偏差用語の関係の確率は４０％である。

ステップＳ３０４において、大確率の原用語-偏差用語の関係を誤り訂正用語表に収録する。

該ステップにおいて、ステップＳ３０３より算出した同一の原用語に対応する原用語-偏差用語の関係における同一の偏差用語に対応する関係の確率に基づいて、その確率が≧第１確率閾値の原用語-偏差用語の関係（いわゆる大確率の原用語-偏差用語の関係）を誤り訂正用語表に収録する。該ステップにおいて、対応する大確率の原用語-偏差用語の関係がすでに誤り訂正用語表に存在する場合は、該対応する大確率の原用語-偏差用語の関係は再度誤り訂正用語表に収録しない。

本発明による実施例において、第１確率閾値の例は６０％であり、すなわち、同一の原用語に対応する原用語-偏差用語の関係において、同一の偏差用語を有する関係の個数が≧３の原用語-偏差用語の関係を誤り訂正用語表に収録されることになる。ここでの数量は１例にすぎず、本発明はこれに限らない。

本発明の第２実施例における誤り訂正用語表の生成方法に基づく第１の例においては、生成された誤り訂正用語表に収録される原用語-偏差用語の関係は大確率の原用語-偏差用語の関係であり、それに対応する小確率の原用語-偏差用語の関係における偏差用語は、エンジンの誤認のみによるものではなく、サンプル自身の発音または環境騒音などの要因による差異である可能性があると認められる。

次に、図４を参照しながら、第２実施例における誤り訂正用語表の生成方法に基づく第２の例について説明を行う。前記第２実施例における誤り訂正用語表の生成方法に基づく第１の例においては、小確率の原用語-偏差用語の関係は無視されるため、誤り訂正用語表における原用語-偏差用語の関係に漏れが生じる可能性がある。誤り訂正効果をさらに向上させるために、第２実施例における誤り訂正用語表の生成方法に基づく第２の例は、原文におけるエンジンに誤認された原用語に対応する原用語-偏差用語の関係を出来る限りすべて誤り訂正用語表に収録可能にした点で第１の例と異なる。本発明の第２実施例における誤り訂正用語表の生成方法に基づく第２の例は下記のステップを含む。

ステップＳ４０１：複数（５つ）の音声レベルを有する人（サンプル）を指定し、特定の原文を朗読することによって各人の音声を取得する。該ステップは第２実施例における第１の例のＳ３０１ステップと同一である。

ステップＳ４０２：ステップＳ４０１において取得した５つのサンプル音声をエンジンによって、テキストデータとして認識する。該ステップは第２実施例における第１の例のＳ３０２ステップと同一である。

ステップＳ４０３：原用語-偏差用語の関係を構築し、原文における同一用語に対応する原用語-偏差用語の関係における、同一の偏差用語を有する原用語-偏差用語の関係の確率を統計する。該ステップは第２実施例における第１の例のＳ３０３ステップと同一である。

ステップＳ４０４：大確率の原用語-偏差用語の関係を誤り訂正用語表に収録する。該ステップは第２実施例における第１の例のＳ３０４ステップと同一である。

ステップＳ４０５：５つのサンプルの初期音声認識結果に対して誤り訂正処理を行う。該ステップは第１実施例におけるＳ２０３ステップと同一である。

ステップＳ４０６：原文に対してフィルタ処理を施し、誤り訂正後の５つのサンプルの音声認識結果において原文のフィルタ処理された部分に対応する認識結果が存在する場合は、該識別結果もフィルタ処理するようにする。

該ステップにおいて、原文との比較により、サンプル（人）ごとの誤り訂正後の音声認識結果が原文と完全に一致する場合は、原文と誤り訂正後の５つのサンプルの音声認識結果に対してフィルタ処理を行う必要がない。

すべてのサンプルのすべての誤り訂正後の音声認識結果において原文との不一致を発見した場合は、原文から、原文に存在し、且つ少なくとも１つのサンプルの初期音声認識結果、または誤り訂正後のサンプル音声認識結果において対応する認識結果戻しのない１つまたは複数の未戻し用語を抽出し、対応する１つまたは複数の未戻し用語-空白（空白は、少なくとも１つのサンプルの誤り訂正後の音声認識結果において対応する用語の認識結果がないことを意味する）の関係を構築し、原文から、対応する１つまたは複数の未戻し用語-空白の関係における未戻し用語をフィルタし、すなわち、原文から該未戻し用語を削除してフィルタ処理後の原文を生成するとともに、５つのサンプルの誤り訂正後の音声認識結果において原文のフィルタ処理された部分に対応する認識結果が存在する場合は該認識結果をもフィルタ処理するようにする。本発明の実施例は日本語の学習を例に、例えば、原文が日本語の「あっ、鈴木さん」である場合、５つのサンプルの誤り訂正後の初期音声認識結果において、４つのサンプルの初期音声認識結果は「鈴木さん」である一方、他の１つのサンプルの初期音声認識結果は「あっ、鈴木さん」であるため、該ステップにおいては、未戻し用語-空白の関係「あっ、-空白」を構築し、且つ「あっ、-空白」の関係に基づいて原文における「あっ、」をフィルタし、また、他の１つのサンプルの誤り訂正後の音声認識結果において原文の「あっ、」に対応する部分に認識結果が存在するため、該サンプルの誤り訂正後の音声認識結果における「あっ、」をもフィルタ処理する。

ステップＳ４０７：誤り訂正及びフィルタ処理後の５つのサンプルの初期音声認識結果とフィルタ処理後の原文との相似度比較を行い、音声評価点数を算出する。

同様に、音声評価点数の算出は、例えばＬＤ算出方法などのようなテキスト比較算出方法を用いて相似度比較を行ってもよい。

ステップＳ４０８：音声評価点数が１００点になるサンプルの確率を統計する。

該ステップにおいて、音声評価点数が１００点になるサンプルの個数をサンプル全体の個数で割り算することで、音声評価点数が１００点になるサンプルの確率を取得する。

ステップＳ４０９：ステップＳ４０８において統計する音声評価点数が１００点になるサンプルの確率≧第２確率閾値か否かを判断する。

音声評価点数が１００点になるサンプルの確率≧第２確率閾値になる場合は、誤り訂正用語表を生成するプロセスが完成し、音声評価点数が１００点になるサンプルの確率＜第２確率閾値になる場合は、ステップＳ４１０を実行する。本発明の実施例において、該ステップにおける第２確率閾値の値は第２実施例の誤り訂正用語表の生成方法の第１の例における第１確率閾値の値と同一である。

ステップＳ４１０：ステップＳ４０７において音声評価点数が１００点にならないサンプルには、それぞれ再度原文を複数回朗読させてから、音声評価が１００点になるサンプルの確率≧第２確率閾値になるまで、再度ステップＳ４０２〜ステップＳ４０９を実行する。

本発明に基づく実施例においては、該ステップにおいて音声評価点数が１００点にならない人を指定してそれぞれ原文を５回再朗読させる。ここでの数量は例示にすぎず、本発明はこれに限らない。一人の複数回の朗読は、複数の人の朗読として処理することができる。

実際の応用のニーズに応じて、最後に繰り返し回数判定ステップを含んでもよい。音声評価点数が１００点にならないサンプルは、ステップＳ４０２〜ステップＳ４０９を所定回数、繰り返し実行後も、音声評価点数が１００点になるサンプルの確率≧第２確率閾値の条件を満たさないと判定された場合は、再度繰り返し実行せず、すべての処理を中止する。本発明に基づく実施例においては、該繰り返し回数は１に設定されている。ここでの数量は１例にすぎず、本発明はこれに限らない。

図５は、第３実施例に基づく音声評価システムにおける音声評価方法のフローチャートを示す。

第３実施例の音声評価方法は、前述の音声認識方法における音声評価方法に基づくものである。このため、ここには第１実施例から第２実施例までの音声認識方法が結合される。以下、図５を参照しながら第３実施例に基づく音声評価システムにおける音声評価方法について説明を行う。本発明の第３実施例に基づく音声評価システムにおける音声評価方法は下記ステップを含む。

ステップＳ５０１：ユーザが原文を朗読することによって生成した音声を取得する。

該ステップは第１実施例におけるＳ２０１と基本的に同一である。唯一の違いは、ここで取得したユーザの音声はユーザが自由に発声したものではないことである。

第３実施例によるこのような音声評価の応用において、音声認識方法の応用環境は、前述の仕事と会議のものとは若干異なる。現在の言語学習の応用環境に応じて、音声認識方法の応用環境に対応する原文（ここでの原文は、ユーザが話し言葉の学習成果を検証するために朗読するテキストを指す）として、句読記号（例えばコンマ）で分けられた短い文であっても、完成した１つの長い文（つまり、文の完結を示す句読記号、例えば句点、感嘆符、疑問符で分けられたもの）であってもよく、１つの文章または複数の文章であってもよい。本発明に基づく実施例において、原文の最小単位は文であり、すなわち、完結した１つの文であるが、本発明はこれに限らない。

ステップＳ５０２：ステップＳ５０１において取得したユーザの音声がエンジンによって初期音声認識結果としてテキストデータに認識される。該ステップは第１実施例におけるＳ２０２と同一である。

ステップＳ５０３：初期音声認識結果に対して誤り訂正処理を施し、誤り訂正後の音声認識結果を取得する。

該ステップにおいて、原文と初期音声認識結果との相似度比較を行い、原文と初期音声認識結果とが完全に一致する場合には、最高の評価点数を出力し、原文と初期音声認識結果とが不一致になる場合には、誤り訂正ステップを実行し、誤り訂正ステップにおいて、初期音声認識結果から、原文における原用語と不一致の１つまたは複数の偏差用語となる用語を抽出し、対応する１つまたは複数の原用語-偏差用語の関係を構築し、且つ複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、構築した１つまたは複数の原用語-偏差用語の関係のうちの一部または全部の原用語-偏差用語の関係がすでに誤り訂正用語表中に記録されている場合は、偏差用語が該偏差用語の属する原用語-偏差用語の関係における対応する原用語に置き換えられるように、初期音声認識結果のうちの一部または全部の原用語-偏差用語の関係に対応する偏差用語の訂正・置き換えを行い、誤り訂正後の音声認識結果を生成する。

該ステップに関する原用語-偏差用語における原用語は、原文に記載された正確な用語を指し、すなわち、ユーザが本来表現しようとする用語である。該偏差用語は認識された、原用語とは不一致の用語である。

実際に、上述したステップＳ５０１〜ステップＳ５０３は音声認識プロセスであり、ここでの音声認識は、ユーザが話し言葉の学習成果を検証するための原文朗読に対して、第１実施例に説明したような音声認識方法を実行することによって、音声認識結果が生成される。同様に、該音声認識方法において誤り訂正用語表を使用する必要があれば、第２実施例に説明したような誤り訂正用語表を生成する方法（第１の例と第２の例）を実行してもよい。

ステップＳ５０４：原文に対してフィルタ処理を行う。

該フィルタ処理において、原文と誤り訂正後の音声認識結果との比較を行い、誤り訂正後の音声認識結果が原文と完全に一致する場合には、音声が完全に正確であることを示す評価点数（例えば１００点）を出力し、誤り訂正後の音声認識結果が原文と不一致になる場合には、原文から、原文に存在し、且つ初期音声認識結果又は誤り訂正後の音声認識結果において対応する認識結果戻しのない１つまたは複数の未戻し用語を抽出し、対応する１つまたは複数の未戻し用語-空白（空白は、誤り訂正後の音声認識結果において対応する用語の認識結果がないことを意味する）の関係を構築し、複数の未戻し用語-空白の関係が記録された、フィルタ処理を行うためのフィルタ用語表を検索し、ステップＳ５０４のフィルタ処理において構築した一部または全部の未戻し用語-空白の関係がすでにフィルタ用語表中に記録されている場合は、原文から一部または全部の未戻し用語-空白の関係に対応する未戻し用語をフィルタし、すなわち、原文から該未戻し用語を削除し、フィルタ処理後の原文を生成する。

ステップＳ５０５：誤り訂正後の音声認識結果とフィルタ処理後の原文との相似度比較を行い、音声評価点数を算出する。同様に、音声評価点数の算出は例えばＬＤ算出方法などのテキスト比較算出方法を用いて相似度比較を行ってもよい。

ステップＳ５０６：音声評価点数を出力する。

本発明に基づく第３実施例において、フィルタ用語表中に収集されたものは、エンジンにより無効音声と判定されやすく、自動的にフィルタされる認識戻しのない用語であり、すなわち、背景技術で紹介した、例えば語気詞や文末疑問符などである。誤り訂正用語表と同様に、フィルタ用語表は経験をまとめて音声評価システムに配置されたものでもよく、種々の自動生成／収集方法によって生成されたものでもよく、エンジンに無効音声と判定されやすく、自動的にフィルタされる認識結果の戻しのない用語さえ収録可能であれば、特に制限されない。本発明に基づく第３実施例において、１つの誤り訂正用語表と１つのフィルタ用語表は１つの文章（すなわち、複数の文）に配置されているが、本発明はこれに限らない。

以下は、図６を参照しながら、第４実施例に基づくフィルタ用語表の生成方法について説明を行う。

図６は、第４実施例に基づくフィルタ用語表の生成方法のフローチャートを示す。本発明の第４実施例に基づくフィルタ用語表の生成方法は下記ステップを含む。

ステップＳ６０１：複数（５つ）の音声レベルを有する人（サンプル）を指定し、原文を朗読させて各人の音声を取得する。該ステップは第２実施例における第１の例のＳ３０１と第２実施例における第２の例のＳ４０１と同一である。

ステップＳ６０２：ステップＳ６０１において取得した５つのサンプルの音声をエンジンによってテキストデータに認識する。該ステップは第２実施例における第１の例のＳ３０２と第２実施例における第２の例のＳ４０２と同一である。

ステップＳ６０３：未戻し用語-空白の関係を構築する。

該ステップにおいて、原文と比較し、各サンプル（各人）の初期音声認識結果が原文と完全に同一になる場合は、該原文に対するフィルタ用語表を構築する必要はない。

すべてのサンプルのすべての初期音声認識結果において原文との不一致を発見した場合は、第２実施例における第２の例のＳ４０６と同様に、対応する１つまたは複数の未戻し用語-空白の関係を構築する。

ステップＳ６０４：対応する１つまたは複数の未戻し用語-空白の関係をフィルタ用語表に収録する。

該ステップにおいて、対応する未戻し用語-空白の関係がすでにフィルタ用語表に存在している場合は、対応する未戻し用語-空白の関係を再度フィルタ用語表に追加することはない。

本発明はさらに、ユーザの音声の認識、及び、ユーザの特定の原文朗読に対する評価を行うための、上述した第１から第４実施例における音声認識方法を実施可能な音声認識システム及び音声評価方法を実施できる音声評価システムを提供する。

具体的に、本発明に基づく音声認識システムにおける１つの例として、音声認識システムは、ユーザの前記音声を取得する音声取得ユニットと、音声認識処理によって、取得した前記音声をテキストデータに認識変換し、初期音声認識結果とする音声認識ユニットと、複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係における偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果における前記偏差用語と同一の用語が、前記原用語-偏差用語の関係における原用語に置き換えられように、誤り訂正処理を行うことで、誤り訂正後の音声認識結果を取得し、当該音声認識システムによって生成される音声認識結果とする誤り訂正処理ユニットと、を含む。

本発明に基づく音声評価システムにおける１つの例として、音声評価システムは、前述の音声認識システムと、前記原文と前記誤り訂正後の音声認識結果との相似度を比較し、前記原文と前記誤り訂正後の音声認識結果とが完全に一致する場合は、最高の評価点数を出力し、前記原文と前記誤り訂正後の音声認識結果とが不一致になる場合は、前記原文から、前記原文に存在し、且つ前記初期音声認識結果又は前記誤り訂正後の音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、対応する１つまたは複数の未戻し用語-空白の関係を構築し、複数の未戻し用語-空白の関係が記録されたフィルタ用語表を検索し、構築した前記１つまたは複数の未戻し用語-空白の関係のうちの一部または全部の未戻し用語-空白の関係が前記フィルタ用語表中に記録されている場合は、前記原文から前記一部または全部の未戻し用語-空白の関係に対応する未戻し用語を削除するように、フィルタ処理を実行することで、フィルタ処理後の原文を生成するサンプルフィルタ処理ユニットを含む、比較ユニットと、前記誤り訂正後の音声認識結果と前記フィルタ処理後の原文との相似度比較を行い、評価点数を算出し出力する出力ユニットと、を含む。

以上、本発明を具体的な実施例を参照しながら説明したが、当業者にとっては、以上の説明に基づいた種々の置き換え、修正及び変更が可能になることは自明である。このため、このような置き換え、修正及び変更などは、付属する請求の範囲の主旨とその範囲に入る場合は、本発明に含まれるべきである。

Claims

ユーザの音声を認識し、音声認識結果を生成するための音声認識方法において、
前記ユーザの前記音声を取得する音声取得ステップと、
言語認識処理により、取得した前記音声をテキストデータに変換し、初期音声認識結果とする音声認識ステップと、
複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係における偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果における偏差用語と同一の用語が原用語-偏差用語の関係における原用語に置き換えられるように誤り訂正処理を行うことで、誤り訂正後の音声認識結果を取得し、当該音声認識方法によって生成された音声認識結果とする誤り訂正ステップと、を含む、ことを特徴とする音声認識方法。
前記誤り訂正ステップを実行する前に、誤り訂正用語表を生成するステップを実行し、前記誤り訂正用語表を生成するステップにおいて、
前記ユーザと異なる複数の音読レベルを有する人をサンプルとして指定し、サンプルごとの、音声の実行方法の応用環境に対応付けられた所定原文を朗読することで発生するサンプル音声を取得する、サンプル収集ステップと、
前記サンプル音声をサンプルテキストデータに認識し、前記複数のサンプルのサンプル音声認識結果とするサンプル音声認識ステップと、
前記原文と前記サンプル音声認識結果とを比較し、各サンプル音声認識結果が原文と全く同一である場合は、現在使用中の誤り訂正用語表を変更せず、すべてのサンプル音声認識結果において前記原文との不一致が存在する場合は、前記サンプル音声認識結果と前記原文から、Ｍ個の原用語-偏差用語の関係を構築し、すべての前記Ｍ個の原用語-偏差用語の関係から、同一の原用語に対応するＮ個の原用語-偏差用語の関係を抽出し、前記原用語-偏差用語の関係における同一の偏差用語に対応する関係の個数Ｌを統計し、同一の原用語に対応する原用語-偏差用語の関係における同一の偏差用語を有する関係の個数を、同一の原用語に対応する原用語-偏差用語の関係の個数で割り算することで、同一の原用語に対応する原用語-偏差用語の関係における同一の偏差用語を有する関係の確率Ｌ／Ｎ（Ｍ≧１、１≦Ｎ≦Ｍ、１≦Ｌ≦Ｎ）を算出する、確率算出ステップと、
前記確率算出ステップで得られた各原用語-偏差用語の関係の前記確率に基づいて、前記確率が第１閾値以上となる原用語-偏差用語の関係を大確率の原用語-偏差用語の関係とする大確率原用語-偏差用語関係選定ステップと、
前記大確率の原用語-偏差用語の関係を、前記現在使用中の誤り訂正用語表に収録し、新たな誤り訂正用語表を生成する誤り訂正用語表変更ステップと、を含むことを特徴とする請求項１に記載の音声認識方法。
前記誤り訂正用語表生成ステップにおいて、前記誤り訂正用語表変更ステップ後に、前記誤り訂正用語表の完全化判定ステップを実行し、前記誤り訂正用語表の完全化判定ステップにおいて、
各サンプルに対して、前記原文と前記サンプル音声認識結果との相似度比較を行い、前記原文と前記サンプル音声認識結果が完全に一致する場合は、最高の評価点数を出力し、
前記原文と前記サンプル音声認識結果が不一致になる場合は、
前記サンプル音声認識結果から、前記原文における原用語と不一致の１つまたは複数の用語を偏差用語として抽出し、対応する１つまたは複数の原用語-偏差用語の関係を構築し、且つ前記誤り訂正用語表生成ステップで生成した誤り訂正用語表を検索し、構築した前記１つまたは複数の原用語-偏差用語の関係のうちの一部または全部の原用語-偏差用語の関係が前記生成した誤り訂正用語表中に記録されている場合は、前記偏差用語が前記偏差用語の属する原用語-偏差用語の関係における対応する原用語に置き換えられるように、前記サンプル音声認識結果における対応する前記一部または全部の原用語-偏差用語の関係における偏差用語の訂正置き換えを行い、誤り訂正後のサンプル音声認識結果を生成する誤り訂正ステップを実行し、
前記原文から、前記原文には存在し、且つ前記サンプル音声認識結果又は前記誤り訂正後のサンプル音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、対応する１つまたは複数の未戻し用語-空白の関係を構築し、複数の未戻し用語-空白の関係が記録されたフィルタ用語表を検索し、構築した前記１つまたは複数の未戻し用語-空白の関係のうちの一部または全部の未戻し用語-空白の関係が前記フィルタ用語表中に記録されている場合は、前記原文から、対応する前記一部または全部の未戻し用語-空白の関係における未戻し用語を削除することで、フィルタ処理後の原文を生成し、且つ前記誤り訂正後のサンプル音声認識結果において対応する原文のフィルタ処理された部分の認識結果が存在すれば該認識結果も削除するようにする、フィルタ処理ステップを実行し、
前記誤り訂正後及びフィルタ処理後のサンプル音声認識結果と前記フィルタ処理後の原文との相似度比較を行い、サンプルの評価点数を算出し出力し、
最高の評価点数を取得したサンプルの比率を統計し、最高の評価点数を取得した前記サンプルのサンプル全体における比率が第２閾値以上の場合は、前記生成した誤り訂正用語表を当該音声認識方法に用い、最高の評価点数を取得した前記サンプルのサンプル全体における比率が第２閾値未満になる場合は、最適化ステップを実行し、前記複数のサンプルにおける最高の評価点数に達しないサンプルの、前記原文に対する複数の音声を収集し、前記誤り訂正用語表の完全化判定ステップを含む前記誤り訂正用語表生成ステップを繰り返し実行する、
ことを特徴とする請求項２に記載の音声認識方法。
前記最適化ステップにおいて、最高の評価点数を取得したサンプルの、サンプル全体における比率が前記第２閾値以上になるまで、前記最高の評価点数に達しないサンプルの前記原文に対する複数の音声を収集し、前記誤り訂正用語表の完全化判定ステップを含む前記誤り訂正用語表生成ステップを繰り返し実行する、
ことを特徴とする請求項３に記載の音声認識方法。
前記最適化ステップにおいて、繰り返し回数が第３閾値に達したと判定される場合は、前記最適化ステップを終了する、
ことを特徴とする請求項４に記載の音声認識方法。
ユーザが特定の原文を朗読する音声に対して判定を行い、該音声の標準レベルを示す評価点数を出力するための音声評価方法において、
ユーザが特定の原文を朗読する音声に基づいて音声認識結果を生成する前記請求項１〜５に記載の前記音声認識方法を実行するステップと、
前記原文と前記誤り訂正後の音声認識結果との相似度を比較し、前記原文と前記誤り訂正後の音声認識結果とが完全に一致する場合は、最高の評価点数を出力し、前記原文と前記誤り訂正後の音声認識結果とが不一致になる場合は、前記原文から、前記原文に存在し、且つ前記初期音声認識結果又は前記誤り訂正後の音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、且つ対応する１つまたは複数の未戻し用語-空白の関係を構築し、複数の未戻し用語-空白の関係が記録されたフィルタ用語表を検索し、構築した前記１つまたは複数の未戻し用語-空白の関係のうちの一部または全部の未戻し用語-空白の関係が前記フィルタ用語表中に記録されている場合は、前記原文から前記一部または全部の未戻し用語-空白の関係に対応する未戻し用語を削除することで、フィルタ処理後の原文を生成するフィルタ処理ステップを実行する、比較ステップと、
前記誤り訂正後の音声認識結果と前記フィルタ処理後の原文との相似度比較を行い、評価点数を算出し出力する出力ステップと、を含む、
ことを特徴とする音声評価方法。
前記フィルタ処理ステップの前に、フィルタ用語表を生成するステップを実行し、前記フィルタ用語表生成ステップにおいて、
複数の音読レベルを有する人をサンプルとして指定し、サンプルごとの前記原文を朗読するサンプル音声を取得するサンプル収集ステップと、
前記サンプル音声をサンプルテキストデータに認識し、前記複数のサンプルのサンプル音声認識結果とするサンプル音声認識ステップと、
前記原文と前記サンプル音声認識結果とを比較し、各サンプルのサンプル音声認識結果と前記原文とが全く同一になる場合は、現在使用中のフィルタ用語表を変更せず、すべてのサンプルの音声認識結果において前記原文との不一致が存在する場合は、前記原文から、前記原文に存在し、且つ前記サンプル音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、対応する１つまたは複数の未戻し用語-空白の関係を構築する、比較ステップと、
前記未戻し用語-空白の関係を前記フィルタ用語表に収録することで、新たな前記フィルタ用語表を生成するフィルタ用語表変更ステップと、を含む、
ことを特徴とする請求項６に記載の音声評価方法。
ユーザの音声を認識し、音声認識結果を生成するための音声認識システムにおいて、
ユーザの前記音声を取得する音声取得ユニットと、
音声認識処理によって、取得した前記音声をテキストデータに認識変換し、初期音声認識結果とする音声認識ユニットと、
複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係における偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果における前記偏差用語と同一の用語が、前記原用語-偏差用語の関係における原用語に置き換えられように、誤り訂正処理を行うことで、誤り訂正後の音声認識結果を取得し、当該音声認識システムによって生成される音声認識結果とする誤り訂正処理ユニットと、を含む、ことを特徴とする音声認識システム。
ユーザが特定の原文を朗読する音声に対して判定を行い、音声の標準レベルを示す評価点数を出力するための音声評価システムにおいて、
ユーザが特定の原文を朗読する音声に基づいて音声認識結果を生成する前記請求項８に記載の音声認識システムと、
前記原文と前記誤り訂正後の音声認識結果との相似度を比較し、前記原文と前記誤り訂正後の音声認識結果とが完全に一致する場合は、最高の評価点数を出力し、前記原文と前記誤り訂正後の音声認識結果とが不一致になる場合は、前記原文から、前記原文に存在し、且つ前記初期音声認識結果、または前記誤り訂正後の音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、対応する１つまたは複数の未戻し用語-空白の関係を構築し、複数の未戻し用語-空白の関係が記録されたフィルタ用語表を検索し、構築した前記１つまたは複数の未戻し用語-空白の関係のうちの一部または全部の未戻し用語-空白の関係が前記フィルタ用語表中に記録されている場合は、前記原文から前記一部または全部の未戻し用語-空白の関係に対応する未戻し用語を削除するように、フィルタ処理を実行することで、フィルタ処理後の原文を生成するサンプルフィルタ処理ユニットを含む、比較ユニットと、
前記誤り訂正後の音声認識結果と前記フィルタ処理後の原文との相似度比較を行い、評価点数を算出し出力する出力ユニットと、を含む、
ことを特徴とする音声評価システム。