JP6541673B2 - モバイル機器におけるリアルタイム音声評価システム及び方法 - Google Patents

モバイル機器におけるリアルタイム音声評価システム及び方法 Download PDF

Info

Publication number
JP6541673B2
JP6541673B2 JP2016550920A JP2016550920A JP6541673B2 JP 6541673 B2 JP6541673 B2 JP 6541673B2 JP 2016550920 A JP2016550920 A JP 2016550920A JP 2016550920 A JP2016550920 A JP 2016550920A JP 6541673 B2 JP6541673 B2 JP 6541673B2
Authority
JP
Japan
Prior art keywords
voice
evaluation
text data
pronunciation score
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016550920A
Other languages
English (en)
Other versions
JP2016536652A (ja
Inventor
翌 王
翌 王
暉 林
暉 林
哲人 胡
哲人 胡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Liulishuo Information Technology Co ltd
Original Assignee
Shanghai Liulishuo Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Liulishuo Information Technology Co ltd filed Critical Shanghai Liulishuo Information Technology Co ltd
Publication of JP2016536652A publication Critical patent/JP2016536652A/ja
Application granted granted Critical
Publication of JP6541673B2 publication Critical patent/JP6541673B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Signal Processing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Description

本発明は、コンピュータ技術分野に関し、特に、モバイル機器におけるリアルタイム音声評価システム及び方法に関する。
従来の音声評価システムの多くは、コンピュータをクライアントとし、ユーザがコンピュータに接続されたマイクで録音をし、音声データをネットワークを介してサーバにアップロードし、且つサーバで実行されるアルゴリズムによって評価し、評価アルゴリズムは計算リソース(CPUリソース・メモリリソース・記憶リソース)に比較的余裕のあるサーバのコンピュータで稼動している。
モバイル機器の普及に伴い、ユーザがコンピュータクライアントからモバイル機器クライアントへ変わり始めた。評価システムのクライアントをモバイル機器に移行する際、以下のような解決方式が多く採用されている。すなわち、モバイル機器クライアントから音声データを収集し、ネットワークを介して音声データをサーバに送り、サーバ上で実行されている音声評価アルゴリズムで評価し、評価した結果をネットワークを介してモバイル機器クライアントに返信する。
従来の技術はネットワークが接続されていることに依存している。ある面では、ネットワークを介して音声データを送信するのに流量がかかり、ある面では、モバイル機器がどんな時間においても信頼性の高いネットワークに接続されているわけではない。以上の2点いずれも、音声評価システムにマイナスなユーザ体験を与え易く、且つ、音声評価システムサーバの構築及びメンテナンスに余分なコストを増加させる。
本発明は、以上のような課題に鑑みてなされたものであり、上述する問題または一部の問題を解決するために、モバイル機器におけるリアルタイム音声評価システム及び方法を提供する。
音声評価システムをモバイル機器において完成させることで、音声評価システムがネットワークに対する依存性を低減させ、モバイル機器及びサーバのメッセージ伝送の流量損失を減少させることができるだけでなく、そのうえ、ユーザにリアルタイム音声評価のフィードバックをすることもできる。よって、いつでも何処でも当該音声評価システムを用いて音声練習ができ、ユーザの体験効果を高めることができる。
本発明の一実施例によれば、モバイル機器におけるリアルタイム音声評価システムを提供している。当該システムは、評価待ち音声の音声データを収集するために用いる収集モジュールと、収集モジュールが収集した音声データをテキストデータと認識する識別モジュールと、識別モジュールが認識したテキストデータ及び音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得るためのマッチングモジュールと、予め定義された評価ポリシーと前記マッチングモジュールによって得られたマッチング結果を用い、評価待ち音声の少なくとも1つの文字又は文字列の発音スコア、及び/又は評価待ち音声の発音スコアを得て、且つ出力するための評価モジュールと、を備える。ここで、評価待ち音声の中には少なくとも1文字の音声または文字列の音声を含む。
好ましくは、そのシステムは、前記音声サンプル庫にある音声サンプルのテキストデータを表示するために用いる表示モジュールをさらに備える。
前記収集モジュールは、前記表示モジュールが表示した音声サンプル庫にある音声サンプルのテキストデータに基づいて入力された評価待ち音声としての音声データをさらに収集することに用いる。
好ましくは、システムは、評価モジュールから出力された前記評価待ち音声の発音スコア、及び/又は前記評価待ち音声中の少なくとも1つの文字又は文字列の発音スコアを、予め定義された発音のスコア閾値と比較するためのスコア比較モジュールと、前記評価待ち音声の発音スコアが予め定義された発音スコア閾値より低い場合、前記表示モジュールが表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低いテキストデータにマークを付け、及び/又は、前記評価待ち音声に文字又は文字列の発音スコアが予め定義された発音スコア閾値より低い場合、前記表示モジュールが表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低い文字又は文字列にマークを付けるのに用いるマーキングモジュールをさらに備える。
好ましくは、マッチングモジュールはさらに、Levenshtein Distance編集距離アルゴリズムに基づいて、前記識別モジュールに認識されたテキストデータを、音声サンプル庫にある音声サンプルのテキストデータとマッチング演算を行い、マッチング結果を得る。
好ましくは、予め定義された評価ポリシーは、認識して得たテキストデータが音声サンプル庫にある音声サンプルのテキストデータとマッチングする場合、音声データに基づいて認識して得たテキストデータ中の文字又は文字列の事後確率を評価待ち音声中の文字又は文字列の発音スコアとし、評価待ち音声中の全ての文字または文字列の発音スコアの平均スコアを評価待ち音声の発音スコアとする。
好ましくは、システムは、前記音声サンプル庫を記憶するのに用いるストレージモジュールを更に備える。但し、前記音声サンプル庫には少なくとも1つの音声サンプルが含まれている。
本発明のもう一つの実施例によれば、端末機器におけるリアルタイム音声評価方法をさらに提供する。それは、前記評価待ち音声の音声データを収集するステップと、収集した音声データをテキストデータとして認識するステップと、認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得るステップと、予め定義される評価ポリシーと前記マッチング結果に従って、前記評価待ち音声中の少なくとも1つの文字又は文字列の発音スコア、及び/又は前記評価待ち音声の発音スコアを得て、且つ出力するステップと、を含む。但し、前記評価待ち音声の中には少なくとも1文字の音声または文字列の音声を含む。
好ましくは、前記評価待ち音声の音声データを収集するステップの前に、前記方法は、音声サンプル中にある音声サンプルのテキストデータを表示するステップをさらに含む。
これに応じて、前記評価待ち音声の音声データを収集するステップは、ユーザが表示した音声サンプル庫中にある音声サンプルのテキストデータに基づいて入力した前記評価待ち音声としての音声データを収集することである。
好ましくは、この方法は、出力された前記評価待ち音声の発音スコア、及び/又は前記評価待ち音声中の少なくとも1つの文字又は文字列の発音スコアを、予め定義された発音のスコア閾値と比較するステップと、前記評価待ち音声の発音スコアが予め定義された発音スコア閾値より低い場合、表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低いテキストデータにマークを付け、及び/又は、評価待ち音声中の少なくとも1つの文字又は文字列の発音スコアが予め定義された発音スコア閾値より低い場合、表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低い文字又は文字列にマークを付けるステップをさらに含む。
好ましくは、前記認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングし,マッチング結果を得るステップは、Levenshtein Distance編集距離アルゴリズムに基づいて、前記認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチング演算を行い、マッチング結果を得ることである。
本発明の実施例において、モバイル機器におけるリアルタイム音声評価システムを介して評価待ち音声の音声データを収集し、収集した音声データをテキストデータとして認識し、認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングして、マッチング結果を得る。さらに予め定義された評価ポリシー及びマッチング結果に基づいて、評価待ち音声の発音スコア、及び/又は評価待ち音声中の少なくとも1つの文字又は文字列の発音スコアを得て、且つ出力する。音声評価システムをモバイル機器のクライアント端末において完成することにより、モバイル機器のネットワークに対する依存性を低減し、モバイル機器及びサーバのメッセージ伝送の流量損失を減少させるだけでなく、そのうえ、ユーザにリアルタイム音声評価のフィードバックをすることができる。よって、いつでも何処でも当該音声評価システムを用いて音声練習ができる効果が得られる。
上記説明は、本発明の概要であり、本発明の技術手段を明確に理解するために、明細書に記載する内容に従って実施すればよい。さらに、本発明の前記ならびに他の目的や特徴や利点をより分かりやすくするために、以下本発明の実施形態をもって説明する。
下記の好ましい実施形態の詳細な説明を読むことにより、各種のその他の効果は本分野の技術者にとって明らかになったであろう。図面は好ましい実施形態を表示するだけに用いられ、本発明を限定するものではない。各図において、同じ参考符号で同じ部品を示す。
本発明の実施例に基づくモバイル機器におけるリアルタイム音声評価システム100を模式的に示すブロック図である。 本発明の実施例に基づくモバイル機器におけるリアルタイム音声評価方法200を模式的に示すフローチャートである。
次は、図を参考に本開示の例示性実施例をより詳しく説明する。図をもって本開示の例示性実施例を表示しているが、本開示に述べた方式に拘らず、色々なやり方で本発明を実現すればよいと理解してほしい。逆に、これらの実施例を提供したのは、本開示をよりよく理解してもらい、且つ本明細書に開示された技術範囲を本分野の技術者により完全に伝えるためである。
理解すべきは、本分野の技術者が本明細書に明確な説明や記述がなくても、本発明に含まれる本発明の精神・原理及び範囲内における各構造の実現を見出せることである。
本明細書に記述されたすべての例及び条件付き言語は皆説明や教示を目的としたものであり、発明者の従来技術への貢献的な原理と概念を読者に深く理解させるためのものであって、これらの具体的な例及び条件に制限しない。
本明細書に記述された本発明の原理、各方面及び各実施例又は具体例のあらゆる解釈や説明はその構造上及び機能上における等価物又は等効果物をすべて含むことを意味する。また、このような等価物又は等効果物はいま既知の並びに将来開発される等価物又は等効果物を含むべきであり、つまり、いかなる構造であっても、同じ機能の開発成果を実行されるのである。
本分野の技術者は、明細書添付図面に表示されるブロック図が本発明を実現するための構造又は回路を示す模式図だと理解すべきである。同様に、明細書添付図面に表示されるいかなるフローチャート図などは実際に各種コンピュータ又はプロセッサにより実行される各処理を表示しており、図面にこれらのコンピュータ又はプロセッサを明確に示したか否かは関係しないと理解すべきである。
請求項の範囲において、機能の限定されたモジュールを実行するのに用いるということは、該機能を実行するためのあらゆる実施形態が含まれ、例えば(a)該機能の回路コンデンサの組み合わせ、または(b)いかなる形のソフトウェアを実行するのを含むことで、ファームウェア及びマイクロコードなどが含まれ、それが適当な回路と組み合わせて、機能実現のソフトウェアを実行するのに用いる。各モジュールで提供された機能が請求項の主張した実施形態と組み合わせることによって、これらの機能を提供できるいずれのモジュール・部品またはコンデンサが請求項に限定されたモジュールと等価であると理解すべきである。
明細書の中の術語「実施例」は該実施例に合わせて説明した特徴や構造などが本発明における少なくとも1つの実施例に含まれていることを意味し、従って、明細書の随所に出てくる術語「実施例において」は必ずしも同じ実施例を指すとは限らない。
図1が示す通り、本発明実施例のモバイル機器におけるリアルタイム音声評価システム100に基づいて、主には収集モジュール110と、識別モジュール130と、マッチングモジュール150と評価モジュール170を備えることができる。理解すべきは、図1に表示された各モジュールの接続関係が例示するものだけであり、本分野の技術者が他の接続関係を採用することができ、その接続関係を採用して本発明の機能が実現できればよい。
本明細書において、各モジュールの機能は専用ハードウェアの使用、又は適切なソフトウェアと組み合わせて処理を行うハードウェアの使用によって実現できる。このようなハードウェア又は専用のハードウェアは、専用集積回路(ASIC)と、各種その他の回路と、各種プロセッサなどを備えることができる。プロセッサによって実現する場合、該機能は個別専用のプロセッサ・個別共有プロセッサ・又は複数独立のプロセッサ(そのうちいくつか共有される可能性がある)により提供できる。また、プロセッサがただソフトウェアを実行できるハードウェアだと理解すべきではなく、デジタルシグナルプロセッサ(DSP)に限らないハードウェア・ソフトウェアを記憶するための読み取り専用ストレージロム(ROM)・ランダムアクセスメモリ(RAM)及び非揮発性ストレージデバイスが暗に備えられるのである。
本発明の実施例によれば、収集モジュール110は、評価待ち音声の音声データを収集するのに用い、その評価待ち音声の中に少なくとも1つの文字の音声又は文字列の音声を含む。好ましくは、評価待ち音声の中に中国語の単語・英語の単語・アラビア数字のいずれの一種類又は多種類の組み合わせを含み、理解すべきは、本発明の実施例に評価待ち音声の言語種類に限定しないことである。
本発明の実施例において、収集モジュール110は評価待ち音声を登録し、評価待ち音声の音声データを保存する役割を果たす。好ましくは、該収集モジュール110は従来のマイクであってもよく、ユーザがマイクを通してシステム100に評価待ち音声を入力する。例えば、評価待ち音声の内容は以下の英語「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo. 」であってもよい。好ましくは、システム100は収集モジュール110を介して評価待ち音声の音声データを.wav形式の音声ファイルに転換且つ保存する。そのWAV形式はつまり音声波形ファイル形式である。理解すべきは、本発明の実施例に収集モジュール110の具体的な構造に限定しないことである。
本発明の実施例によれば、識別モジュール130は、収集モジュール110が収集した音声データをテキストデータとして認識するのに用いる。
つまり、識別モジュール130を介して上記例で説明した評価待ち音声の音声データを以下のテキストデータWELCOME TO LIU LI SHUO! MY NAME IS PETER. I'M AN ENGLISH TEACHER AT LIU LI SHUOとして認識できる。
好ましくは、本発明の実施例において、識別モジュール130が採用する音声認識モデルは混合ガウス分布を出力確率分布とする隠れマルコフモデル(Hidden Markov Model,HMM)である。
識別モジュール130は、定点演算を行って収集モジュール110が収集した音声データをテキストデータとして認識する。例えば、以下の方式で定点演算を行う。もちろんこれに限らない。
方式1、従来の音声認識アルゴリズムにおいて、浮動小数点演算が多くあり、定点DSP(定点DSPが完成したのは整数演算又は小数点演算であり、データフォーマットにはデータコードを含まず、通常定点DSPは16ビットまたは24ビットのデータ幅がある)を用いて浮動小数点演算ができ、そして数のスケーリング法を用いて浮動点数を固定点数に転換する。数のスケーリング法はつまり小数点が定点における位置を決めることである。Q表示法は常用のスケーリング法であり、その表示仕組みは、定点数をx、浮動点数をyとし、Q表示法の定点数と浮動点数の転換関係は、浮動点数yを定点数xに転換し、x=(int)y×2Q である。
方式2、(1)アルゴリズム構造を定義及び簡略する。(2)量子化必要の関数中のキー変数を確定する。(3)キー変数の統計情報を収集する。(4)キー変数の正確な表示を確定する。(5)その他の変数の定点フォーマットを確定する。
これにより、本発明の実施例において定点演算を用いて一般的な浮動小数点を代替することができ、且つ整数で一般的な浮動小数点を代替して認識結果の出力確率を代表する。本発明の実施例において定点演算を用いることができ、該定点演算は浮動小数点演算に対して多くのパラメータを定義する必要がないため、識別モジュール130は少ないシステムリソース(CPUリソース、メモリリソース、ストレージリソース)を占用の情況下で認識過程を完成させることができる。理解すべきは、本発明の実施例において、識別モジュール130が文字認識に採用する認識モデルの具体的なタイプに限定しないことである。
本発明の実施例によれば、マッチングモジュール150は、識別モジュール130が認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得る。
好ましくは、本発明の実施例において音声サンプル庫にある音声サンプルのテキストデータは予め音声サンプル庫に保存したテキストデータであってもよく、例えば、予め以下のテキストデータ「WELCOME TO LIU LI SHUO! MY NAME IS PETER. I'M AN ENGLISH TEACHER AT LIU LI SHUO」を音声サンプル庫に保存する。
好ましくは、本発明の実施例において、マッチングモジュール150はさらに、Levenshtein Distance編集距離アルゴリズムに基づいて、識別モジュール130が認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチング演算を行い、マッチング結果を得る。そのうち、該マッチング結果は、識別モジュール130が認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングすることと、識別モジュール130が認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングしないことが含まれてもよい。理解すべきは、本発明の実施例においてマッチングモジュール150が採用されたマッチングアルゴリズムに限定しないことである。
本発明の実施例によれば,評価モジュール170は、予め定義された評価ポリシー及びマッチングモジュール150がマッチングして得たマッチング結果に基づいて、評価待ち音声中の少なくとも1つの文字又は文字列の発音スコア、及び/又は評価待ち音声の発音スコアを得て、且つ出力することに用いる。
好ましくは、本発明の実施例において、予め定義された評価ポリシーは、認識して得たテキストデータが音声サンプル庫にある音声サンプルのテキストデータとマッチングする場合、認識して得たテキストデータ中の文字又は文字列の事後確率を評価待ち音声中の文字又は文字列の発音スコアとし、及び評価待ち音声中の全ての文字又は文字列の発音スコアの平均スコアを評価待ち音声の発音スコアとする。
好ましくは、本発明の実施例において、音声データが認識して得た文字又は文字列の事後確率がp(0〜1)であることに基づいて、該文字又は文字列の発音スコアはp×100である。
上記挙げた英語文を例として、評価モジュール170を介して全体の英語文「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」の発音スコア、及び/又は上記英語文の中の各単語の発音スコアを得ることができる。つまり、本発明の実施例においてセンテンスや単語で構成されたユニグラム言語モデル(unigram language model)を使用してもよい。
本発明の実施例によれば、前記モバイル機器におけるリアルタイム音声評価システム100は1つ又は複数のオプションモジュールをさらに備えることによって、追加または付加機能の実現ができる。但し、これらのオプションモジュールは本発明の目的実現には必ずしも不可欠なものではなく、本発明の実施例によれば、モバイル機器におけるリアルタイム音声評価システム100はこれらのオプションモジュールが備えられない場合でも、本発明の目的実現ができる。これらのオプションモジュールは図1に表示されなくても、上記各モジュール間との接続関係は本分野の技術者が下記の教示によって容易に見出せる。
好ましくは、本発明の実施例において、システム100は、音声サンプル庫にある音声サンプルのテキストデータを表示するのに用いる表示モジュールをさらに備え、例えば以下の英語文「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」を表示する。
これに応じて、収集モジュール110は、ユーザが表示モジュールに表示された音声サンプル庫にある音声サンプルのテキストデータに基づいて入力した評価待ち音声としての音声データを収集するのにさらに用いる。
つまり、収集モジュール110はユーザが朗読した以下の英語文「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」の音声データを収集する。
好ましくは、本発明の実施例において、システム100はスコア比較モジュール及びマーキングモジュールをさらに備え、そのうち、
上記スコア比較モジュールは評価モジュール170が出力した評価待ち音声の発音スコア、及び/又は評価待ち音声中の少なくとも1つの文字又は文字列の発音スコアを、予め定義された発音スコア閾値と比較するのに用い、好ましくは、予め定義された発音スコア閾値を 60スコアに設定することができ、理解すべきは、本発明の実施例においてその具体的な値に限定しないことである。
マーキングモジュールは、評価待ち音声の発音スコアが予め定義された発音スコア閾値より低い場合、表示モジュールが表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低いテキストデータにマークを付け、及び/又は、評価待ち音声中の少なくとも1つの文字又は文字列の発音スコアが予め定義された発音スコア閾値より低い場合、表示モジュールが表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低い文字又は文字列にマークを付けるのに用いる。
上記に挙げた英語文を例として、スコア比較モジュールが比較して「Welcome」の発音スコアが予め定義された発音スコア閾値より低いと分かった場合、全体の英語文の中から「Welcome」にマークを付けることができ、好ましくは、「Welcome」の色を赤に設定することである。
好ましくは、本発明の実施例において、システム100は、音声サンプル庫を記憶するのに用いるストレージモジュールをさらに備える。但し、音声サンプル庫には少なくとも1つの音声サンプルを含み、例えば下記の音声サンプル「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」である。
本発明の実施例を通して、音声評価システムをモバイル機器のクライアント端末において完成することにより、モバイル機器のネットワークに対する依存性を低減し、モバイル機器及びサーバのメッセージ伝送の流量損失を減少させるだけでなく、そのうえ、ユーザにリアルタイム音声評価のフィードバックをすることができる。よって、いつでも何処でも当該音声評価システムを用いて音声練習ができる効果が得られる。
本発明のもう一つの実施例によれば、前記の本発明の実施例によるモバイル機器におけるリアルタイム音声評価システム100に対応して、本発明は端末機器におけるリアルタイム音声評価方法200をさらに提供する。
図2は、本発明の実施例に基づくモバイル機器におけるリアルタイム音声評価方法200を模式的に示すフローチャートである。図2の示す通り、前記方法200はステップS210・S230・S250・S270を含み、方法200はステップS210から始まり、そのうち、評価待ち音声の音声データを収集する。その評価待ち音声中に少なくとも1つの文字の音声又は文字列の音声を含み、好ましくは、評価待ち音声の中に中国語の単語・英語の単語・アラビア数字のいずれの一種類又は多種類の組み合わせを含み、理解すべきは、本発明の実施例において評価待ち音声の言語種類に限定しないことである。
好ましくは、ユーザがマイクを通してシステム100に評価待ち音声を入力することができる。例えば、評価待ち音声の内容は以下の英語「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」であってもよい。好ましくは、システム100は収集モジュール110を介して評価待ち音声の音声データを.wav形式の音声ファイルに転換且つ保存する。そのWAV形式はつまり音声波形ファイル形式である。
その後、ステップS230において、収集した音声データをテキストデータに認識する。つまり、ステップS230を通して、上記例で説明した評価待ち音声の音声データを以下のテキストデータWELCOME TO LIU LI SHUO! MY NAME IS PETER. I'M AN ENGLISH TEACHER AT LIU LI SHUOに認識する。
好ましくは、本発明の実施例において、採用した音声認識モデルは混合ガウス分布を出力確率分布とする隠れマルコフモデル(Hidden Markov Model,HMM)である。つまり、本発明の実施例において定点演算を用いて一般的な浮動小数点を代替し、且つ整型数で一般的な浮動小数点を代替して認識結果の出力確率を代表する。理解すべきは、本発明の実施例において文字認識が採用する認識モデルの具体的なタイプに限定しないことである。
その後、ステップS250において、認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得る。
好ましくは、本発明の実施例において音声サンプル庫にある音声サンプルのテキストデータは予め音声サンプル庫に保存したテキストデータであってもよく、例えば予め以下のテキストデータWELCOME TO LIU LI SHUO! MY NAME IS PETER. I'M AN ENGLISH AT LIU LI SHUOを音声サンプル庫に保存する。
好ましくは、本発明の実施例において、ステップS250には、Levenshtein Distance編集距離アルゴリズムに基づいて、認識して得たテキストデータを、音声サンプル庫にある音声サンプルのテキストデータとマッチング演算を行い、マッチング結果を得る。例えば、該マッチング結果は、認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングしないことを含む。理解すべきは、本発明の実施例においてマッチングアルゴリズムに限定しないことである。
その後、ステップS270において、予め定義された評価ポリシー及び前記マッチング結果に基づいて、評価待ち音声中の少なくとも1つの文字又は文字列的発音スコア、及び/又は評価待ち音声の発音スコアを得て、且つ出力する。
好ましくは、本発明の実施例において、予め定義された評価ポリシーは、認識して得たテキストデータが音声サンプル庫にある音声サンプルのテキストデータとマッチングする場合、認識して得たテキストデータ中の文字又は文字列の事後確率を評価待ち音声中の文字又は文字列の発音スコアとし、及び評価待ち音声中の全ての文字又は文字列の発音スコアの平均スコアを評価待ち音声の発音スコアとする。
好ましくは、本発明の実施例において、音声データが認識して得た文字又は文字列の事後確率がp(0〜1)であることに基づいて、該文字又は文字列の発音スコアはp×100である。
上記挙げた英語文を例として、ステップS270を通して全体の英語文「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」の発音スコア、及び/又は上記英語文の中の各単語の発音スコアを得ることができる。つまり、本発明の実施例においてセンテンスや単語で構成されたユニグラム言語モデル(unigram language model)を使用してもよい。
本発明の実施例によれば、前記モバイル機器におけるリアルタイム音声評価方法200は、1つ又は複数のオプションステップをさらに含むことによって、追加または付加機能の実現ができる。但し、これらのオプションステップは本発明の目的実現には必ずしも不可欠なものではなく、本発明の実施例によれば、モバイル機器におけるリアルタイム音声評価方法200はこれらのオプションステップが含まれない場合でも、本発明の目的実現ができる。これらのオプションステップは図2に表示されなくても、上記各ステップ間との実行順序は本分野の技術者が下記の教示によって容易に見出すことができる。指摘しておきたいのは、特別の説明がない限り、これらのオプションステップ及び上記ステップの実行順序は実際の必要によって選択できる。
好ましくは、方法200は、音声サンプル庫にある音声サンプルのテキストデータのテキストデータを表示するステップをさらに含み、例えば以下の英語文「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo.」を表示する。
これに応じて、前記評価待ち音声の音声データを収集するステップ(S210)は、ユーザが表示された音声サンプル庫中にある音声サンプルに基づいて入力した前記評価待ち音声としての音声データを収集する。
つまり、ステップS210を通してユーザが朗読する以下の英語文「Welcome to Liu Li shuo! My name is Peter. I'm an English teacher at Liu Li shuo」の音声データを収集する。
好ましくは、方法200は、出力した評価待ち音声の発音スコア、及び/又は評価待ち音声中の少なくとも1つの文字又は文字列の発音スコアを、予め定義された発音スコア閾値と比較するステップをさらに含む。好ましくは、予め定義された発音スコア閾値を 60スコアに設定する。理解すべきは、本発明の実施例においてその具体的な値に限定しないことである。
前記評価待ち音声の発音スコアが予め定義された発音スコア閾値より低い場合、表示されたテキストデータの中から発音スコアが予め定義された発音スコア閾値より低いテキストデータにマークを付け、及び/又は、評価待ち音声中の少なくとも1つの文字又は文字列の発音スコアが予め定義された発音スコア閾値より低い場合、表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低い文字又は文字列にマークを付ける。
上記に挙げた英語文を例として、比較して「Welcome」の発音スコアが予め定義された発音スコア閾値より低いと分かった場合、全体の英語文の中から「Welcome」にマークを付けることができ、好ましくは、「Welcome」の色を赤に設定することである。
上記各方法にかかる実施例は上記各機器にかかる実施例に対応しているため、各方法の実施例についてはこれ以上詳しく説明しない。
本明細書において、具体的な細部を多く説明した。しかし、理解すべきは、本発明の実施例はこれらの詳細な説明がなくても実施できる。いくつの実施例において、公知の方法・構造及び技術を詳細に明示しなかったのは、読者に本明細書の原理に対する理解を混同させないためである。
本分野の技術者が理解すべきは、各実施例における装置の中のモジュールを適切に変えることができ、且つ、それらを該実施例と異なる1つまたは複数の装置の中に設置することができるのである。実施例の中の若干モジュールを1つのモジュール又はニュット或は組合体に組み合わせて、また、それらを複数のサブモジュール又はサブユニット或はサブ組合体に分けることができる。特徴及び/又は反発し合う処理の場合を除けば、いかなる組み合わせを採用し、本明細書に公開されたいかなる方法のすべてのステップ及びいかなる装置のすべてのモジュールを組み合わせることができる。さらに明確な陳述がない限り、本説明書の中に公開された各特徴は、すべて提供された同様・等価・類似する目的の代替特徴を用いて代替することができる。
本発明の各装置における実施例は、ハードウェアで実現でき、又は、1つ又は複数のプロセッサ上で実行されるソフトモジュールで実現でき、又は、それらの組み合わせで実現できる。本分野の技術者が理解すべきは、実施する際にマイクロプロセサ又はデジタルシグナルプロセッサ(DSP)を用いて、本発明実施例における装置の一部又は全部のモジュールの一部又は全部機能によって実現できることである。本発明はさらにここで説明した方法を実行するための装置プログラムの実現もできる(例えば、コンピュータプログラム及びコンピュータプログラム製品)。
注意すべきことは、上記の実施例は本発明を説明するものであり、本発明を制限するものではない。本分野の技術者は添付の権利請求の範囲をはずれない前提で、色々な代替実施例を設けられる。権利請求範囲の中で、特徴の並べる順番は特徴の特定の順位を意味しない。特に、方法での権利請求範囲の中での各ステップの順番はこれらのステップが該順番によって実行すべきことを意味しない。逆に、これらのステップは、いずれの適切な順序で実行してもよい。同様に、装置権利請求範囲の中での各モジュールの実行順番も、権利請求範囲中の各モジュールの順番の制限を受けるべきではなく、いずれの適切な順序で実行してもよい。権利請求範囲において、括弧内の参考になるいかなる文言を権利請求範囲への制限だと理解すべきではない。術語「含む」は、権利請求範囲の中に並べていないモジュールまたはステップの存在を排除しない。モジュールまたはステップという術語前の「1」又は「1つ」は、複数のこのようなモジュール又はステップの存在を排除しない。本発明は若干異なるモジュールを含んだハードウェア又は適切なプログラミングのコンピュータ若しくはプロセッサによって実現することができる。若干のモジュールを列挙した装置権利請求範囲の中で、これらのモジュール中の若干項は同一のハードウェアモジュールを介して実現することができる。術語「第一」・「第二」・「第三」などの使用はいかなる順序を表示せず、これらの術語を名称として解釈できる。術語「接続」・「カプラ」などは本明細書にて使用する際、いかなる期待する形式で操作可能な接続すると定義する。例えば、機械的・電子的・デジタル的・シミュレーション的・直接的・間接的に、ソフトウェア・ハードウェアなどの方式で接続を行う。

Claims (9)

  1. モバイル機器におけるリアルタイム音声評価システム(100)であって、
    評価待ち音声の音声データを収集するのに用いる収集モジュール(110)と、
    前記収集モジュール(110)が収集して得た音声データをテキストデータとして認識するのに用いる識別モジュール(130)と、
    識別モジュール(130)が認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得るのに用いるマッチングモジュール(150)と、
    予め定義された評価ポリシー及び前記マッチングモジュール(150)がマッチングして得たマッチング結果に基づいて、前記評価待ち音声中の少なくとも1つの文字又は文字列の発音スコア、及び/又は前記評価待ち音声の発音スコアを得て、且つ出力するのに用いる評価モジュール(170)を備え、
    前記評価待ち音声の中には少なくとも1つの文字又は文字列の音声を含み、
    前記予め定義された評価ポリシーは、認識して得たテキストデータが音声サンプル庫にある音声サンプルのテキストデータとマッチングする場合、音声データに基づいて認識して得たテキストデータ中の文字又は文字列の事後確率を評価待ち音声中の文字又は文字列の発音スコアとし、評価待ち音声中の全ての文字または文字列の発音スコアの平均スコアを評価待ち音声の発音スコアとすることを特徴とするモバイル機器におけるリアルタイム音声評価システム。
  2. 前記システムは、前記音声サンプル庫にある音声サンプルのテキストデータを表示するのに用いる表示モジュールをさらに備え、
    前記収集モジュール(110)は、ユーザが前記表示モジュールに表示された音声サンプル庫中にある音声サンプルに基づいて入力した、評価待ち音声としての音声データを収集するのにさらに用いることを特徴とする請求項1に記載のモバイル機器におけるリアルタイム音声評価システム。
  3. 前記評価モジュール(170)が出力した評価待ち音声の発音スコア、及び/又は前記評価待ち音声中の少なくとも1つの文字又は文字列の発音スコアを、予め定義された発音スコア閾値と比較するのに用いるスコア比較モジュールと、
    前記評価待ち音声の発音スコアが予め定義された発音スコア閾値より低い場合、表示モジュールが表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低いテキストデータにマークを付け、及び/又は、
    評価待ち音声中の文字又は文字列の発音スコアが予め定義された発音スコア閾値より低い場合、前記表示モジュールが表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低い文字又は文字列にマークを付けるのに用いるマーキングモジュールをさらに備えることを特徴とする請求項2に記載のモバイル機器におけるリアルタイム音声評価システム。
  4. 前記マッチングモジュール(150)は、Levenshtein Distance編集距離アルゴリズムに基づいて、前記識別モジュール(130)が認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチング演算を行い、マッチング結果を得るのにさらに用いることを特徴とする請求項1に記載のモバイル機器におけるリアルタイム音声評価システム。
  5. 前記音声サンプル庫を記憶するのに用いるストレージモジュールを更に備え、前記音声サンプル庫には少なくとも1つの音声サンプルが含まれていることを特徴とする請求項1ないし請求項4のいずれか1つに記載のモバイル機器におけるリアルタイム音声評価システム。
  6. 端末機器におけるリアルタイム音声評価方法(200)であって、
    評価待ち音声の音声データを収集するステップ(S210)と、
    収集した音声データをテキストデータに識別するステップ(S230)と、
    認識して得たテキストデータを、音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得るステップ(S250)と、
    予め定義された評価ポリシー及び前記マッチング結果に基づいて、前記評価待ち音声中の少なくとも1つの文字又は文字列的発音スコア、及び/又は前記評価待ち音声の発音スコアを得て、且つ出力するステップ(S270)を含み、
    前記評価待ち音声中少なくとも1つの文字の音声又は文字列の音声を含み、
    前記予め定義された評価ポリシーは、認識して得たテキストデータが音声サンプル庫にある音声サンプルのテキストデータとマッチングする場合、音声データに基づいて認識して得たテキストデータ中の文字又は文字列の事後確率を評価待ち音声中の文字又は文字列の発音スコアとし、評価待ち音声中の全ての文字または文字列の発音スコアの平均スコアを評価待ち音声の発音スコアとすることを特徴とする端末機器におけるリアルタイム音声評価方法。
  7. 前記評価待ち音声の音声データを収集するステップ(S210)の前に、前記方法は、音声サンプル中にある音声サンプルのテキストデータを表示するステップをさらに含み、
    前記評価待ち音声の音声データを収集するステップ(S210)は、
    ユーザが表示された音声サンプル庫中にある音声サンプルに基づいて入力した、評価待ち音声としての音声データを収集するステップであることを特徴とする請求項に記載の端末機器におけるリアルタイム音声評価方法。
  8. 出力された前記評価待ち音声の発音スコア、及び/又は前記評価待ち音声中の少なくとも1つの文字又は文字列の発音スコアを、予め定義された発音のスコア閾値と比較するステップと、
    前記評価待ち音声の発音スコアが予め定義された発音スコア閾値より低い場合、表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低いテキストデータにマークを付けるステップと、及び/又は、評価待ち音声中の少なくとも1つの文字又は文字列の発音スコアが予め定義された発音スコア閾値より低い場合、表示したテキストデータの中から発音スコアが予め定義された発音スコア閾値より低い文字又は文字列にマークを付けるステップをさらに含むことを特徴とする請求項に記載の端末機器におけるリアルタイム音声評価方法。
  9. 前記認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチングし、マッチング結果を得るステップは、
    Levenshtein Distance編集距離アルゴリズムに基づいて、認識して得たテキストデータを音声サンプル庫にある音声サンプルのテキストデータとマッチング演算を行い、マッチング結果を得ることを特徴とする請求項ないし請求項のいずれか1つに記載の端末機器におけるリアルタイム音声評価方法。
JP2016550920A 2013-10-30 2014-10-28 モバイル機器におけるリアルタイム音声評価システム及び方法 Active JP6541673B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310524873.8A CN104599680B (zh) 2013-10-30 2013-10-30 移动设备上的实时口语评价系统及方法
CN201310524873.8 2013-10-30
PCT/CN2014/089644 WO2015062465A1 (zh) 2013-10-30 2014-10-28 移动设备上的实时口语评价系统及方法

Publications (2)

Publication Number Publication Date
JP2016536652A JP2016536652A (ja) 2016-11-24
JP6541673B2 true JP6541673B2 (ja) 2019-07-10

Family

ID=53003339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016550920A Active JP6541673B2 (ja) 2013-10-30 2014-10-28 モバイル機器におけるリアルタイム音声評価システム及び方法

Country Status (5)

Country Link
US (1) US20160253923A1 (ja)
EP (1) EP3065119A4 (ja)
JP (1) JP6541673B2 (ja)
CN (1) CN104599680B (ja)
WO (1) WO2015062465A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9911410B2 (en) * 2015-08-19 2018-03-06 International Business Machines Corporation Adaptation of speech recognition
CN105513612A (zh) * 2015-12-02 2016-04-20 广东小天才科技有限公司 语言词汇的音频处理方法及装置
JP7028179B2 (ja) * 2016-09-29 2022-03-02 日本電気株式会社 情報処理装置、情報処理方法およびコンピュータ・プログラム
CN108154735A (zh) * 2016-12-06 2018-06-12 爱天教育科技(北京)有限公司 英语口语测评方法及装置
CN107578778A (zh) * 2017-08-16 2018-01-12 南京高讯信息科技有限公司 一种口语评分的方法
CN108053839B (zh) * 2017-12-11 2021-12-21 广东小天才科技有限公司 一种语言练习成果的展示方法及麦克风设备
CN108831212B (zh) * 2018-06-28 2020-10-23 深圳语易教育科技有限公司 一种口语教学辅助装置及方法
CN109272983A (zh) * 2018-10-12 2019-01-25 武汉辽疆科技有限公司 用于亲子教育的双语切换装置
CN109493852A (zh) * 2018-12-11 2019-03-19 北京搜狗科技发展有限公司 一种语音识别的评测方法及装置
US11640767B1 (en) * 2019-03-28 2023-05-02 Emily Anna Bridges System and method for vocal training
CN110349583A (zh) * 2019-07-15 2019-10-18 高磊 一种基于语音识别的游戏教育方法及系统
CN110634471B (zh) * 2019-09-21 2020-10-02 龙马智芯(珠海横琴)科技有限公司 一种语音质检方法、装置、电子设备和存储介质
CN110797049B (zh) * 2019-10-17 2022-06-07 科大讯飞股份有限公司 一种语音评测方法及相关装置
CN110827794B (zh) * 2019-12-06 2022-06-07 科大讯飞股份有限公司 语音识别中间结果的质量评测方法和装置
CN111415684B (zh) * 2020-03-18 2023-12-22 歌尔微电子股份有限公司 语音模组的测试方法、装置及计算机可读存储介质
CA3183250A1 (en) * 2020-07-01 2022-01-06 Alexandru ILIESCU System and method for interactive and handsfree language learning

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175095A (ja) * 2000-12-08 2002-06-21 Tdk Corp 発音学習システム
WO2002050803A2 (en) * 2000-12-18 2002-06-27 Digispeech Marketing Ltd. Method of providing language instruction and a language instruction system
JP2006133521A (ja) * 2004-11-05 2006-05-25 Kotoba No Kabe Wo Koete:Kk 語学学習機
US8272874B2 (en) * 2004-11-22 2012-09-25 Bravobrava L.L.C. System and method for assisting language learning
JP2006208644A (ja) * 2005-01-27 2006-08-10 Toppan Printing Co Ltd 語学会話力測定サーバシステム及び語学会話力測定方法
KR100932141B1 (ko) * 2005-06-15 2009-12-16 각코호진 와세다다이가쿠 문장 평가 장치 및 문장 평가 프로그램
JP2007148170A (ja) * 2005-11-29 2007-06-14 Cai Media Kyodo Kaihatsu:Kk 外国語学習支援システム
CA2640779A1 (en) * 2007-10-02 2009-04-02 Neurolanguage Corporation Computer-based language training work plan creation with specialized english materials
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
CN101246685B (zh) * 2008-03-17 2011-03-30 清华大学 计算机辅助语言学习系统中的发音质量评价方法
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机系统
CN101739869B (zh) * 2008-11-19 2012-03-28 中国科学院自动化研究所 一种基于先验知识的发音评估与诊断系统
CN101551952A (zh) * 2009-05-21 2009-10-07 无敌科技(西安)有限公司 发音评测装置及其方法
JP2010282058A (ja) * 2009-06-05 2010-12-16 Tokyobay Communication Co Ltd 外国語学習補助方法及び装置
US9361908B2 (en) * 2011-07-28 2016-06-07 Educational Testing Service Computer-implemented systems and methods for scoring concatenated speech responses
CN102800314B (zh) * 2012-07-17 2014-03-19 广东外语外贸大学 具有反馈指导的英语句子识别与评价系统及其方法
CA2923003C (en) * 2012-09-06 2021-09-07 Rosetta Stone Ltd. A method and system for reading fluency training
CN103065626B (zh) * 2012-12-20 2015-03-11 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备

Also Published As

Publication number Publication date
WO2015062465A1 (zh) 2015-05-07
CN104599680A (zh) 2015-05-06
US20160253923A1 (en) 2016-09-01
JP2016536652A (ja) 2016-11-24
CN104599680B (zh) 2019-11-26
EP3065119A4 (en) 2017-04-19
EP3065119A1 (en) 2016-09-07

Similar Documents

Publication Publication Date Title
JP6541673B2 (ja) モバイル機器におけるリアルタイム音声評価システム及び方法
CN107195295B (zh) 基于中英文混合词典的语音识别方法及装置
JP6909832B2 (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
KR101259558B1 (ko) 문장경계 인식 장치 및 방법
CN109461437B (zh) 唇语识别的验证内容生成方法及相关装置
CN112784696B (zh) 基于图像识别的唇语识别方法、装置、设备及存储介质
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN111145733B (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
CN109976702A (zh) 一种语音识别方法、装置及终端
US20220300708A1 (en) Method and device for presenting prompt information and storage medium
US20230055233A1 (en) Method of Training Voice Recognition Model and Voice Recognition Device Trained by Using Same Method
CN114999463B (zh) 语音识别方法、装置、设备及介质
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
KR102017229B1 (ko) 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN108845682B (zh) 一种输入预测方法及装置
CN115512692B (zh) 语音识别方法、装置、设备及存储介质
JP5954836B2 (ja) 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN113470617B (zh) 语音识别方法以及电子设备、存储装置
CN115691503A (zh) 语音识别方法、装置、电子设备和存储介质
CN111625636A (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
CN111523318A (zh) 一种汉语短语分析方法、系统、存储介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180710

A603 Late request for extension of time limit during examination

Free format text: JAPANESE INTERMEDIATE CODE: A603

Effective date: 20181011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190611

R150 Certificate of patent or registration of utility model

Ref document number: 6541673

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250