JP6541673B2

JP6541673B2 - モバイル機器におけるリアルタイム音声評価システム及び方法

Info

Publication number: JP6541673B2
Application number: JP2016550920A
Authority: JP
Inventors: 翌王; 暉林; 哲人胡
Original assignee: Shanghai Liulishuo Information Technology Co ltd
Current assignee: Shanghai Liulishuo Information Technology Co ltd
Priority date: 2013-10-30
Filing date: 2014-10-28
Publication date: 2019-07-10
Anticipated expiration: 2034-10-28
Also published as: WO2015062465A1; CN104599680A; US20160253923A1; JP2016536652A; CN104599680B; EP3065119A4; EP3065119A1

Description

本発明は、コンピュータ技術分野に関し、特に、モバイル機器におけるリアルタイム音声評価システム及び方法に関する。

従来の音声評価システムの多くは、コンピュータをクライアントとし、ユーザがコンピュータに接続されたマイクで録音をし、音声データをネットワークを介してサーバにアップロードし、且つサーバで実行されるアルゴリズムによって評価し、評価アルゴリズムは計算リソース（ＣＰＵリソース・メモリリソース・記憶リソース）に比較的余裕のあるサーバのコンピュータで稼動している。

モバイル機器の普及に伴い、ユーザがコンピュータクライアントからモバイル機器クライアントへ変わり始めた。評価システムのクライアントをモバイル機器に移行する際、以下のような解決方式が多く採用されている。すなわち、モバイル機器クライアントから音声データを収集し、ネットワークを介して音声データをサーバに送り、サーバ上で実行されている音声評価アルゴリズムで評価し、評価した結果をネットワークを介してモバイル機器クライアントに返信する。

従来の技術はネットワークが接続されていることに依存している。ある面では、ネットワークを介して音声データを送信するのに流量がかかり、ある面では、モバイル機器がどんな時間においても信頼性の高いネットワークに接続されているわけではない。以上の２点いずれも、音声評価システムにマイナスなユーザ体験を与え易く、且つ、音声評価システムサーバの構築及びメンテナンスに余分なコストを増加させる。

本発明は、以上のような課題に鑑みてなされたものであり、上述する問題または一部の問題を解決するために、モバイル機器におけるリアルタイム音声評価システム及び方法を提供する。

音声評価システムをモバイル機器において完成させることで、音声評価システムがネットワークに対する依存性を低減させ、モバイル機器及びサーバのメッセージ伝送の流量損失を減少させることができるだけでなく、そのうえ、ユーザにリアルタイム音声評価のフィードバックをすることもできる。よって、いつでも何処でも当該音声評価システムを用いて音声練習ができ、ユーザの体験効果を高めることができる。

本発明の一実施例によれば、モバイル機器におけるリアルタイム音声評価システムを提供している。当該システムは、評価待ち音声の音声データを収集するために用いる収集モジュールと、収集モジュールが収集した音声データをテキストデータと認識する識別モジュールと、識別モジュールが認識したテキストデータ及び音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得るためのマッチングモジュールと、予め定義された評価ポリシーと前記マッチングモジュールによって得られたマッチング結果を用い、評価待ち音声の少なくとも１つの文字又は文字列の発音スコア、及び／又は評価待ち音声の発音スコアを得て、且つ出力するための評価モジュールと、を備える。ここで、評価待ち音声の中には少なくとも１文字の音声または文字列の音声を含む。

好ましくは、そのシステムは、前記音声サンプル庫にある音声サンプルのテキストデータを表示するために用いる表示モジュールをさらに備える。

前記収集モジュールは、前記表示モジュールが表示した音声サンプル庫にある音声サンプルのテキストデータに基づいて入力された評価待ち音声としての音声データをさらに収集することに用いる。

好ましくは、システムは、評価モジュールから出力された前記評価待ち音声の発音スコア、及び／又は前記評価待ち音声中の少なくとも１つの文字又は文字列の発音スコアを、予め定義された発音のスコア閾値と比較するためのスコア比較モジュールと、前記評価待ち音声の発音スコアが予め定義された発音スコア閾値より低い場合、前記表示モジュールが表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低いテキストデータにマークを付け、及び/又は、前記評価待ち音声に文字又は文字列の発音スコアが予め定義された発音スコア閾値より低い場合、前記表示モジュールが表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低い文字又は文字列にマークを付けるのに用いるマーキングモジュールをさらに備える。

好ましくは、マッチングモジュールはさらに、Levenshtein Distance編集距離アルゴリズムに基づいて、前記識別モジュールに認識されたテキストデータを、音声サンプル庫にある音声サンプルのテキストデータとマッチング演算を行い、マッチング結果を得る。

好ましくは、予め定義された評価ポリシーは、認識して得たテキストデータが音声サンプル庫にある音声サンプルのテキストデータとマッチングする場合、音声データに基づいて認識して得たテキストデータ中の文字又は文字列の事後確率を評価待ち音声中の文字又は文字列の発音スコアとし、評価待ち音声中の全ての文字または文字列の発音スコアの平均スコアを評価待ち音声の発音スコアとする。

好ましくは、システムは、前記音声サンプル庫を記憶するのに用いるストレージモジュールを更に備える。但し、前記音声サンプル庫には少なくとも１つの音声サンプルが含まれている。

本発明のもう一つの実施例によれば、端末機器におけるリアルタイム音声評価方法をさらに提供する。それは、前記評価待ち音声の音声データを収集するステップと、収集した音声データをテキストデータとして認識するステップと、認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得るステップと、予め定義される評価ポリシーと前記マッチング結果に従って、前記評価待ち音声中の少なくとも１つの文字又は文字列の発音スコア、及び／又は前記評価待ち音声の発音スコアを得て、且つ出力するステップと、を含む。但し、前記評価待ち音声の中には少なくとも１文字の音声または文字列の音声を含む。

好ましくは、前記評価待ち音声の音声データを収集するステップの前に、前記方法は、音声サンプル中にある音声サンプルのテキストデータを表示するステップをさらに含む。

これに応じて、前記評価待ち音声の音声データを収集するステップは、ユーザが表示した音声サンプル庫中にある音声サンプルのテキストデータに基づいて入力した前記評価待ち音声としての音声データを収集することである。

好ましくは、この方法は、出力された前記評価待ち音声の発音スコア、及び／又は前記評価待ち音声中の少なくとも１つの文字又は文字列の発音スコアを、予め定義された発音のスコア閾値と比較するステップと、前記評価待ち音声の発音スコアが予め定義された発音スコア閾値より低い場合、表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低いテキストデータにマークを付け、及び/又は、評価待ち音声中の少なくとも１つの文字又は文字列の発音スコアが予め定義された発音スコア閾値より低い場合、表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低い文字又は文字列にマークを付けるステップをさらに含む。

好ましくは、前記認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングし，マッチング結果を得るステップは、Levenshtein Distance編集距離アルゴリズムに基づいて、前記認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチング演算を行い、マッチング結果を得ることである。

本発明の実施例において、モバイル機器におけるリアルタイム音声評価システムを介して評価待ち音声の音声データを収集し、収集した音声データをテキストデータとして認識し、認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングして、マッチング結果を得る。さらに予め定義された評価ポリシー及びマッチング結果に基づいて、評価待ち音声の発音スコア、及び／又は評価待ち音声中の少なくとも１つの文字又は文字列の発音スコアを得て、且つ出力する。音声評価システムをモバイル機器のクライアント端末において完成することにより、モバイル機器のネットワークに対する依存性を低減し、モバイル機器及びサーバのメッセージ伝送の流量損失を減少させるだけでなく、そのうえ、ユーザにリアルタイム音声評価のフィードバックをすることができる。よって、いつでも何処でも当該音声評価システムを用いて音声練習ができる効果が得られる。

上記説明は、本発明の概要であり、本発明の技術手段を明確に理解するために、明細書に記載する内容に従って実施すればよい。さらに、本発明の前記ならびに他の目的や特徴や利点をより分かりやすくするために、以下本発明の実施形態をもって説明する。

下記の好ましい実施形態の詳細な説明を読むことにより、各種のその他の効果は本分野の技術者にとって明らかになったであろう。図面は好ましい実施形態を表示するだけに用いられ、本発明を限定するものではない。各図において、同じ参考符号で同じ部品を示す。
本発明の実施例に基づくモバイル機器におけるリアルタイム音声評価システム１００を模式的に示すブロック図である。本発明の実施例に基づくモバイル機器におけるリアルタイム音声評価方法２００を模式的に示すフローチャートである。

次は、図を参考に本開示の例示性実施例をより詳しく説明する。図をもって本開示の例示性実施例を表示しているが、本開示に述べた方式に拘らず、色々なやり方で本発明を実現すればよいと理解してほしい。逆に、これらの実施例を提供したのは、本開示をよりよく理解してもらい、且つ本明細書に開示された技術範囲を本分野の技術者により完全に伝えるためである。

理解すべきは、本分野の技術者が本明細書に明確な説明や記述がなくても、本発明に含まれる本発明の精神・原理及び範囲内における各構造の実現を見出せることである。

本明細書に記述されたすべての例及び条件付き言語は皆説明や教示を目的としたものであり、発明者の従来技術への貢献的な原理と概念を読者に深く理解させるためのものであって、これらの具体的な例及び条件に制限しない。

本明細書に記述された本発明の原理、各方面及び各実施例又は具体例のあらゆる解釈や説明はその構造上及び機能上における等価物又は等効果物をすべて含むことを意味する。また、このような等価物又は等効果物はいま既知の並びに将来開発される等価物又は等効果物を含むべきであり、つまり、いかなる構造であっても、同じ機能の開発成果を実行されるのである。

本分野の技術者は、明細書添付図面に表示されるブロック図が本発明を実現するための構造又は回路を示す模式図だと理解すべきである。同様に、明細書添付図面に表示されるいかなるフローチャート図などは実際に各種コンピュータ又はプロセッサにより実行される各処理を表示しており、図面にこれらのコンピュータ又はプロセッサを明確に示したか否かは関係しないと理解すべきである。

請求項の範囲において、機能の限定されたモジュールを実行するのに用いるということは、該機能を実行するためのあらゆる実施形態が含まれ、例えば（a）該機能の回路コンデンサの組み合わせ、または（b）いかなる形のソフトウェアを実行するのを含むことで、ファームウェア及びマイクロコードなどが含まれ、それが適当な回路と組み合わせて、機能実現のソフトウェアを実行するのに用いる。各モジュールで提供された機能が請求項の主張した実施形態と組み合わせることによって、これらの機能を提供できるいずれのモジュール・部品またはコンデンサが請求項に限定されたモジュールと等価であると理解すべきである。

明細書の中の術語「実施例」は該実施例に合わせて説明した特徴や構造などが本発明における少なくとも１つの実施例に含まれていることを意味し、従って、明細書の随所に出てくる術語「実施例において」は必ずしも同じ実施例を指すとは限らない。

図１が示す通り、本発明実施例のモバイル機器におけるリアルタイム音声評価システム１００に基づいて、主には収集モジュール１１０と、識別モジュール１３０と、マッチングモジュール１５０と評価モジュール１７０を備えることができる。理解すべきは、図１に表示された各モジュールの接続関係が例示するものだけであり、本分野の技術者が他の接続関係を採用することができ、その接続関係を採用して本発明の機能が実現できればよい。

本明細書において、各モジュールの機能は専用ハードウェアの使用、又は適切なソフトウェアと組み合わせて処理を行うハードウェアの使用によって実現できる。このようなハードウェア又は専用のハードウェアは、専用集積回路（ＡＳＩＣ）と、各種その他の回路と、各種プロセッサなどを備えることができる。プロセッサによって実現する場合、該機能は個別専用のプロセッサ・個別共有プロセッサ・又は複数独立のプロセッサ（そのうちいくつか共有される可能性がある）により提供できる。また、プロセッサがただソフトウェアを実行できるハードウェアだと理解すべきではなく、デジタルシグナルプロセッサ（ＤＳＰ）に限らないハードウェア・ソフトウェアを記憶するための読み取り専用ストレージロム（ＲＯＭ）・ランダムアクセスメモリ（RAM）及び非揮発性ストレージデバイスが暗に備えられるのである。

本発明の実施例によれば、収集モジュール１１０は、評価待ち音声の音声データを収集するのに用い、その評価待ち音声の中に少なくとも１つの文字の音声又は文字列の音声を含む。好ましくは、評価待ち音声の中に中国語の単語・英語の単語・アラビア数字のいずれの一種類又は多種類の組み合わせを含み、理解すべきは、本発明の実施例に評価待ち音声の言語種類に限定しないことである。

本発明の実施例において、収集モジュール１１０は評価待ち音声を登録し、評価待ち音声の音声データを保存する役割を果たす。好ましくは、該収集モジュール１１０は従来のマイクであってもよく、ユーザがマイクを通してシステム１００に評価待ち音声を入力する。例えば、評価待ち音声の内容は以下の英語「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo. 」であってもよい。好ましくは、システム１００は収集モジュール１１０を介して評価待ち音声の音声データを.wav形式の音声ファイルに転換且つ保存する。そのWAV形式はつまり音声波形ファイル形式である。理解すべきは、本発明の実施例に収集モジュール１１０の具体的な構造に限定しないことである。

本発明の実施例によれば、識別モジュール１３０は、収集モジュール１１０が収集した音声データをテキストデータとして認識するのに用いる。

つまり、識別モジュール１３０を介して上記例で説明した評価待ち音声の音声データを以下のテキストデータWELCOME TO LIU LI ＳHUO! MY NAME IＳ PETER. I'M AN ENGLIＳH TEACHER AT LIU LI ＳHUOとして認識できる。

好ましくは、本発明の実施例において、識別モジュール１３０が採用する音声認識モデルは混合ガウス分布を出力確率分布とする隠れマルコフモデル（Hidden Markov Model，HMM）である。

識別モジュール１３０は、定点演算を行って収集モジュール１１０が収集した音声データをテキストデータとして認識する。例えば、以下の方式で定点演算を行う。もちろんこれに限らない。

方式１、従来の音声認識アルゴリズムにおいて、浮動小数点演算が多くあり、定点DＳP（定点DＳPが完成したのは整数演算又は小数点演算であり、データフォーマットにはデータコードを含まず、通常定点DＳPは１６ビットまたは２４ビットのデータ幅がある）を用いて浮動小数点演算ができ、そして数のスケーリング法を用いて浮動点数を固定点数に転換する。数のスケーリング法はつまり小数点が定点における位置を決めることである。Ｑ表示法は常用のスケーリング法であり、その表示仕組みは、定点数をx、浮動点数をｙとし、Ｑ表示法の定点数と浮動点数の転換関係は、浮動点数ｙを定点数ｘに転換し、x=（int）y×２^Qである。

方式２、（１）アルゴリズム構造を定義及び簡略する。（２）量子化必要の関数中のキー変数を確定する。（３）キー変数の統計情報を収集する。（４）キー変数の正確な表示を確定する。（５）その他の変数の定点フォーマットを確定する。

これにより、本発明の実施例において定点演算を用いて一般的な浮動小数点を代替することができ、且つ整数で一般的な浮動小数点を代替して認識結果の出力確率を代表する。本発明の実施例において定点演算を用いることができ、該定点演算は浮動小数点演算に対して多くのパラメータを定義する必要がないため、識別モジュール１３０は少ないシステムリソース（CPUリソース、メモリリソース、ストレージリソース）を占用の情況下で認識過程を完成させることができる。理解すべきは、本発明の実施例において、識別モジュール１３０が文字認識に採用する認識モデルの具体的なタイプに限定しないことである。

本発明の実施例によれば、マッチングモジュール１５０は、識別モジュール１３０が認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得る。

好ましくは、本発明の実施例において音声サンプル庫にある音声サンプルのテキストデータは予め音声サンプル庫に保存したテキストデータであってもよく、例えば、予め以下のテキストデータ「WELCOME TO LIU LI ＳHUO! MY NAME IＳ PETER. I'M AN ENGLIＳH TEACHER AT LIU LI ＳHUO」を音声サンプル庫に保存する。

好ましくは、本発明の実施例において、マッチングモジュール１５０はさらに、Levenshtein Distance編集距離アルゴリズムに基づいて、識別モジュール１３０が認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチング演算を行い、マッチング結果を得る。そのうち、該マッチング結果は、識別モジュール１３０が認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングすることと、識別モジュール１３０が認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングしないことが含まれてもよい。理解すべきは、本発明の実施例においてマッチングモジュール１５０が採用されたマッチングアルゴリズムに限定しないことである。

本発明の実施例によれば，評価モジュール１７０は、予め定義された評価ポリシー及びマッチングモジュール１５０がマッチングして得たマッチング結果に基づいて、評価待ち音声中の少なくとも１つの文字又は文字列の発音スコア、及び/又は評価待ち音声の発音スコアを得て、且つ出力することに用いる。

好ましくは、本発明の実施例において、予め定義された評価ポリシーは、認識して得たテキストデータが音声サンプル庫にある音声サンプルのテキストデータとマッチングする場合、認識して得たテキストデータ中の文字又は文字列の事後確率を評価待ち音声中の文字又は文字列の発音スコアとし、及び評価待ち音声中の全ての文字又は文字列の発音スコアの平均スコアを評価待ち音声の発音スコアとする。

好ましくは、本発明の実施例において、音声データが認識して得た文字又は文字列の事後確率がp（０〜１）であることに基づいて、該文字又は文字列の発音スコアはp×１００である。

上記挙げた英語文を例として、評価モジュール１７０を介して全体の英語文「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」の発音スコア、及び/又は上記英語文の中の各単語の発音スコアを得ることができる。つまり、本発明の実施例においてセンテンスや単語で構成されたユニグラム言語モデル（unigram language model）を使用してもよい。

本発明の実施例によれば、前記モバイル機器におけるリアルタイム音声評価システム１００は１つ又は複数のオプションモジュールをさらに備えることによって、追加または付加機能の実現ができる。但し、これらのオプションモジュールは本発明の目的実現には必ずしも不可欠なものではなく、本発明の実施例によれば、モバイル機器におけるリアルタイム音声評価システム１００はこれらのオプションモジュールが備えられない場合でも、本発明の目的実現ができる。これらのオプションモジュールは図１に表示されなくても、上記各モジュール間との接続関係は本分野の技術者が下記の教示によって容易に見出せる。

好ましくは、本発明の実施例において、システム１００は、音声サンプル庫にある音声サンプルのテキストデータを表示するのに用いる表示モジュールをさらに備え、例えば以下の英語文「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」を表示する。

これに応じて、収集モジュール１１０は、ユーザが表示モジュールに表示された音声サンプル庫にある音声サンプルのテキストデータに基づいて入力した評価待ち音声としての音声データを収集するのにさらに用いる。

つまり、収集モジュール１１０はユーザが朗読した以下の英語文「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」の音声データを収集する。

好ましくは、本発明の実施例において、システム１００はスコア比較モジュール及びマーキングモジュールをさらに備え、そのうち、
上記スコア比較モジュールは評価モジュール１７０が出力した評価待ち音声の発音スコア、及び／又は評価待ち音声中の少なくとも１つの文字又は文字列の発音スコアを、予め定義された発音スコア閾値と比較するのに用い、好ましくは、予め定義された発音スコア閾値を６０スコアに設定することができ、理解すべきは、本発明の実施例においてその具体的な値に限定しないことである。

マーキングモジュールは、評価待ち音声の発音スコアが予め定義された発音スコア閾値より低い場合、表示モジュールが表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低いテキストデータにマークを付け、及び/又は、評価待ち音声中の少なくとも１つの文字又は文字列の発音スコアが予め定義された発音スコア閾値より低い場合、表示モジュールが表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低い文字又は文字列にマークを付けるのに用いる。

上記に挙げた英語文を例として、スコア比較モジュールが比較して「Welcome」の発音スコアが予め定義された発音スコア閾値より低いと分かった場合、全体の英語文の中から「Welcome」にマークを付けることができ、好ましくは、「Welcome」の色を赤に設定することである。

好ましくは、本発明の実施例において、システム１００は、音声サンプル庫を記憶するのに用いるストレージモジュールをさらに備える。但し、音声サンプル庫には少なくとも１つの音声サンプルを含み、例えば下記の音声サンプル「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」である。

本発明の実施例を通して、音声評価システムをモバイル機器のクライアント端末において完成することにより、モバイル機器のネットワークに対する依存性を低減し、モバイル機器及びサーバのメッセージ伝送の流量損失を減少させるだけでなく、そのうえ、ユーザにリアルタイム音声評価のフィードバックをすることができる。よって、いつでも何処でも当該音声評価システムを用いて音声練習ができる効果が得られる。

本発明のもう一つの実施例によれば、前記の本発明の実施例によるモバイル機器におけるリアルタイム音声評価システム１００に対応して、本発明は端末機器におけるリアルタイム音声評価方法２００をさらに提供する。

図２は、本発明の実施例に基づくモバイル機器におけるリアルタイム音声評価方法２００を模式的に示すフローチャートである。図２の示す通り、前記方法２００はステップＳ２１０・Ｓ２３０・Ｓ２５０・Ｓ２７０を含み、方法２００はステップＳ２１０から始まり、そのうち、評価待ち音声の音声データを収集する。その評価待ち音声中に少なくとも１つの文字の音声又は文字列の音声を含み、好ましくは、評価待ち音声の中に中国語の単語・英語の単語・アラビア数字のいずれの一種類又は多種類の組み合わせを含み、理解すべきは、本発明の実施例において評価待ち音声の言語種類に限定しないことである。

好ましくは、ユーザがマイクを通してシステム１００に評価待ち音声を入力することができる。例えば、評価待ち音声の内容は以下の英語「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」であってもよい。好ましくは、システム１００は収集モジュール１１０を介して評価待ち音声の音声データを.wav形式の音声ファイルに転換且つ保存する。そのWAV形式はつまり音声波形ファイル形式である。

その後、ステップＳ２３０において、収集した音声データをテキストデータに認識する。つまり、ステップＳ２３０を通して、上記例で説明した評価待ち音声の音声データを以下のテキストデータWELCOME TO LIU LI ＳHUO! MY NAME IＳ PETER. I'M AN ENGLIＳH TEACHER AT LIU LI ＳHUOに認識する。

好ましくは、本発明の実施例において、採用した音声認識モデルは混合ガウス分布を出力確率分布とする隠れマルコフモデル（Hidden Markov Model，HMM）である。つまり、本発明の実施例において定点演算を用いて一般的な浮動小数点を代替し、且つ整型数で一般的な浮動小数点を代替して認識結果の出力確率を代表する。理解すべきは、本発明の実施例において文字認識が採用する認識モデルの具体的なタイプに限定しないことである。

その後、ステップＳ２５０において、認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得る。

好ましくは、本発明の実施例において音声サンプル庫にある音声サンプルのテキストデータは予め音声サンプル庫に保存したテキストデータであってもよく、例えば予め以下のテキストデータWELCOME TO LIU LI ＳHUO! MY NAME IＳ PETER. I'M AN ENGLIＳH AT LIU LI ＳHUOを音声サンプル庫に保存する。

好ましくは、本発明の実施例において、ステップＳ２５０には、Levenshtein Distance編集距離アルゴリズムに基づいて、認識して得たテキストデータを、音声サンプル庫にある音声サンプルのテキストデータとマッチング演算を行い、マッチング結果を得る。例えば、該マッチング結果は、認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングしないことを含む。理解すべきは、本発明の実施例においてマッチングアルゴリズムに限定しないことである。

その後、ステップＳ２７０において、予め定義された評価ポリシー及び前記マッチング結果に基づいて、評価待ち音声中の少なくとも１つの文字又は文字列的発音スコア、及び/又は評価待ち音声の発音スコアを得て、且つ出力する。

好ましくは、本発明の実施例において、予め定義された評価ポリシーは、認識して得たテキストデータが音声サンプル庫にある音声サンプルのテキストデータとマッチングする場合、認識して得たテキストデータ中の文字又は文字列の事後確率を評価待ち音声中の文字又は文字列の発音スコアとし、及び評価待ち音声中の全ての文字又は文字列の発音スコアの平均スコアを評価待ち音声の発音スコアとする。
好ましくは、本発明の実施例において、音声データが認識して得た文字又は文字列の事後確率がp（０〜１）であることに基づいて、該文字又は文字列の発音スコアはp×１００である。

上記挙げた英語文を例として、ステップＳ２７０を通して全体の英語文「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」の発音スコア、及び/又は上記英語文の中の各単語の発音スコアを得ることができる。つまり、本発明の実施例においてセンテンスや単語で構成されたユニグラム言語モデル（unigram language model）を使用してもよい。

本発明の実施例によれば、前記モバイル機器におけるリアルタイム音声評価方法２００は、１つ又は複数のオプションステップをさらに含むことによって、追加または付加機能の実現ができる。但し、これらのオプションステップは本発明の目的実現には必ずしも不可欠なものではなく、本発明の実施例によれば、モバイル機器におけるリアルタイム音声評価方法２００はこれらのオプションステップが含まれない場合でも、本発明の目的実現ができる。これらのオプションステップは図２に表示されなくても、上記各ステップ間との実行順序は本分野の技術者が下記の教示によって容易に見出すことができる。指摘しておきたいのは、特別の説明がない限り、これらのオプションステップ及び上記ステップの実行順序は実際の必要によって選択できる。

好ましくは、方法２００は、音声サンプル庫にある音声サンプルのテキストデータのテキストデータを表示するステップをさらに含み、例えば以下の英語文「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」を表示する。

これに応じて、前記評価待ち音声の音声データを収集するステップ（Ｓ２１０）は、ユーザが表示された音声サンプル庫中にある音声サンプルに基づいて入力した前記評価待ち音声としての音声データを収集する。

つまり、ステップＳ２１０を通してユーザが朗読する以下の英語文「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo」の音声データを収集する。

好ましくは、方法２００は、出力した評価待ち音声の発音スコア、及び／又は評価待ち音声中の少なくとも１つの文字又は文字列の発音スコアを、予め定義された発音スコア閾値と比較するステップをさらに含む。好ましくは、予め定義された発音スコア閾値を６０スコアに設定する。理解すべきは、本発明の実施例においてその具体的な値に限定しないことである。

前記評価待ち音声の発音スコアが予め定義された発音スコア閾値より低い場合、表示されたテキストデータの中から発音スコアが予め定義された発音スコア閾値より低いテキストデータにマークを付け、及び/又は、評価待ち音声中の少なくとも１つの文字又は文字列の発音スコアが予め定義された発音スコア閾値より低い場合、表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低い文字又は文字列にマークを付ける。

上記に挙げた英語文を例として、比較して「Welcome」の発音スコアが予め定義された発音スコア閾値より低いと分かった場合、全体の英語文の中から「Welcome」にマークを付けることができ、好ましくは、「Welcome」の色を赤に設定することである。

上記各方法にかかる実施例は上記各機器にかかる実施例に対応しているため、各方法の実施例についてはこれ以上詳しく説明しない。

本明細書において、具体的な細部を多く説明した。しかし、理解すべきは、本発明の実施例はこれらの詳細な説明がなくても実施できる。いくつの実施例において、公知の方法・構造及び技術を詳細に明示しなかったのは、読者に本明細書の原理に対する理解を混同させないためである。

本分野の技術者が理解すべきは、各実施例における装置の中のモジュールを適切に変えることができ、且つ、それらを該実施例と異なる１つまたは複数の装置の中に設置することができるのである。実施例の中の若干モジュールを１つのモジュール又はニュット或は組合体に組み合わせて、また、それらを複数のサブモジュール又はサブユニット或はサブ組合体に分けることができる。特徴及び/又は反発し合う処理の場合を除けば、いかなる組み合わせを採用し、本明細書に公開されたいかなる方法のすべてのステップ及びいかなる装置のすべてのモジュールを組み合わせることができる。さらに明確な陳述がない限り、本説明書の中に公開された各特徴は、すべて提供された同様・等価・類似する目的の代替特徴を用いて代替することができる。

本発明の各装置における実施例は、ハードウェアで実現でき、又は、１つ又は複数のプロセッサ上で実行されるソフトモジュールで実現でき、又は、それらの組み合わせで実現できる。本分野の技術者が理解すべきは、実施する際にマイクロプロセサ又はデジタルシグナルプロセッサ（DＳP）を用いて、本発明実施例における装置の一部又は全部のモジュールの一部又は全部機能によって実現できることである。本発明はさらにここで説明した方法を実行するための装置プログラムの実現もできる（例えば、コンピュータプログラム及びコンピュータプログラム製品）。

注意すべきことは、上記の実施例は本発明を説明するものであり、本発明を制限するものではない。本分野の技術者は添付の権利請求の範囲をはずれない前提で、色々な代替実施例を設けられる。権利請求範囲の中で、特徴の並べる順番は特徴の特定の順位を意味しない。特に、方法での権利請求範囲の中での各ステップの順番はこれらのステップが該順番によって実行すべきことを意味しない。逆に、これらのステップは、いずれの適切な順序で実行してもよい。同様に、装置権利請求範囲の中での各モジュールの実行順番も、権利請求範囲中の各モジュールの順番の制限を受けるべきではなく、いずれの適切な順序で実行してもよい。権利請求範囲において、括弧内の参考になるいかなる文言を権利請求範囲への制限だと理解すべきではない。術語「含む」は、権利請求範囲の中に並べていないモジュールまたはステップの存在を排除しない。モジュールまたはステップという術語前の「１」又は「１つ」は、複数のこのようなモジュール又はステップの存在を排除しない。本発明は若干異なるモジュールを含んだハードウェア又は適切なプログラミングのコンピュータ若しくはプロセッサによって実現することができる。若干のモジュールを列挙した装置権利請求範囲の中で、これらのモジュール中の若干項は同一のハードウェアモジュールを介して実現することができる。術語「第一」・「第二」・「第三」などの使用はいかなる順序を表示せず、これらの術語を名称として解釈できる。術語「接続」・「カプラ」などは本明細書にて使用する際、いかなる期待する形式で操作可能な接続すると定義する。例えば、機械的・電子的・デジタル的・シミュレーション的・直接的・間接的に、ソフトウェア・ハードウェアなどの方式で接続を行う。

Claims

モバイル機器におけるリアルタイム音声評価システム（１００）であって、
評価待ち音声の音声データを収集するのに用いる収集モジュール（１１０）と、
前記収集モジュール（１１０）が収集して得た音声データをテキストデータとして認識するのに用いる識別モジュール（１３０）と、
識別モジュール（１３０）が認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得るのに用いるマッチングモジュール（１５０）と、
予め定義された評価ポリシー及び前記マッチングモジュール（１５０）がマッチングして得たマッチング結果に基づいて、前記評価待ち音声中の少なくとも１つの文字又は文字列の発音スコア、及び/又は前記評価待ち音声の発音スコアを得て、且つ出力するのに用いる評価モジュール（１７０）を備え、
前記評価待ち音声の中には少なくとも１つの文字又は文字列の音声を含み、
前記予め定義された評価ポリシーは、認識して得たテキストデータが音声サンプル庫にある音声サンプルのテキストデータとマッチングする場合、音声データに基づいて認識して得たテキストデータ中の文字又は文字列の事後確率を評価待ち音声中の文字又は文字列の発音スコアとし、評価待ち音声中の全ての文字または文字列の発音スコアの平均スコアを評価待ち音声の発音スコアとすることを特徴とするモバイル機器におけるリアルタイム音声評価システム。
前記システムは、前記音声サンプル庫にある音声サンプルのテキストデータを表示するのに用いる表示モジュールをさらに備え、
前記収集モジュール（１１０）は、ユーザが前記表示モジュールに表示された音声サンプル庫中にある音声サンプルに基づいて入力した、評価待ち音声としての音声データを収集するのにさらに用いることを特徴とする請求項１に記載のモバイル機器におけるリアルタイム音声評価システム。
前記評価モジュール（１７０）が出力した評価待ち音声の発音スコア、及び／又は前記評価待ち音声中の少なくとも１つの文字又は文字列の発音スコアを、予め定義された発音スコア閾値と比較するのに用いるスコア比較モジュールと、
前記評価待ち音声の発音スコアが予め定義された発音スコア閾値より低い場合、表示モジュールが表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低いテキストデータにマークを付け、及び/又は、
評価待ち音声中の文字又は文字列の発音スコアが予め定義された発音スコア閾値より低い場合、前記表示モジュールが表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低い文字又は文字列にマークを付けるのに用いるマーキングモジュールをさらに備えることを特徴とする請求項２に記載のモバイル機器におけるリアルタイム音声評価システム。
前記マッチングモジュール（１５０）は、Levenshtein Distance編集距離アルゴリズムに基づいて、前記識別モジュール（１３０）が認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチング演算を行い、マッチング結果を得るのにさらに用いることを特徴とする請求項１に記載のモバイル機器におけるリアルタイム音声評価システム。
前記音声サンプル庫を記憶するのに用いるストレージモジュールを更に備え、前記音声サンプル庫には少なくとも１つの音声サンプルが含まれていることを特徴とする請求項１ないし請求項４のいずれか１つに記載のモバイル機器におけるリアルタイム音声評価システム。
端末機器におけるリアルタイム音声評価方法（２００）であって、
評価待ち音声の音声データを収集するステップ（Ｓ２１０）と、
収集した音声データをテキストデータに識別するステップ（Ｓ２３０）と、
認識して得たテキストデータを、音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得るステップ（Ｓ２５０）と、
予め定義された評価ポリシー及び前記マッチング結果に基づいて、前記評価待ち音声中の少なくとも１つの文字又は文字列的発音スコア、及び/又は前記評価待ち音声の発音スコアを得て、且つ出力するステップ（Ｓ２７０）を含み、
前記評価待ち音声中少なくとも１つの文字の音声又は文字列の音声を含み、
前記予め定義された評価ポリシーは、認識して得たテキストデータが音声サンプル庫にある音声サンプルのテキストデータとマッチングする場合、音声データに基づいて認識して得たテキストデータ中の文字又は文字列の事後確率を評価待ち音声中の文字又は文字列の発音スコアとし、評価待ち音声中の全ての文字または文字列の発音スコアの平均スコアを評価待ち音声の発音スコアとすることを特徴とする端末機器におけるリアルタイム音声評価方法。
前記評価待ち音声の音声データを収集するステップ（Ｓ２１０）の前に、前記方法は、音声サンプル中にある音声サンプルのテキストデータを表示するステップをさらに含み、
前記評価待ち音声の音声データを収集するステップ（Ｓ２１０）は、
ユーザが表示された音声サンプル庫中にある音声サンプルに基づいて入力した、評価待ち音声としての音声データを収集するステップであることを特徴とする請求項６に記載の端末機器におけるリアルタイム音声評価方法。
出力された前記評価待ち音声の発音スコア、及び／又は前記評価待ち音声中の少なくとも１つの文字又は文字列の発音スコアを、予め定義された発音のスコア閾値と比較するステップと、
前記評価待ち音声の発音スコアが予め定義された発音スコア閾値より低い場合、表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低いテキストデータにマークを付けるステップと、及び/又は、評価待ち音声中の少なくとも１つの文字又は文字列の発音スコアが予め定義された発音スコア閾値より低い場合、表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低い文字又は文字列にマークを付けるステップをさらに含むことを特徴とする請求項７に記載の端末機器におけるリアルタイム音声評価方法。
前記認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得るステップは、
Levenshtein Distance編集距離アルゴリズムに基づいて、認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチング演算を行い、マッチング結果を得ることを特徴とする請求項６ないし請求項８のいずれか１つに記載の端末機器におけるリアルタイム音声評価方法。