JP2016051179A - 音声認識方法、音声評価方法、音声認識システム及び音声評価システム - Google Patents

音声認識方法、音声評価方法、音声認識システム及び音声評価システム Download PDF

Info

Publication number
JP2016051179A
JP2016051179A JP2015167911A JP2015167911A JP2016051179A JP 2016051179 A JP2016051179 A JP 2016051179A JP 2015167911 A JP2015167911 A JP 2015167911A JP 2015167911 A JP2015167911 A JP 2015167911A JP 2016051179 A JP2016051179 A JP 2016051179A
Authority
JP
Japan
Prior art keywords
term
speech recognition
original
recognition result
error correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015167911A
Other languages
English (en)
Inventor
シュリン イエ
Shuling Ye
シュリン イエ
ジュヌジエ チョン
Junjie Cheng
ジュヌジエ チョン
ジュヌジエ ヤオ
Junjie Yao
ジュヌジエ ヤオ
ジエヌ チェヌ
Jian Chen
ジエヌ チェヌ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2016051179A publication Critical patent/JP2016051179A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識の正確性を効果的に向上する音声認識方法、音声評価方法、音声認識システム及び音声評価システムを提供する。【解決手段】ユーザの音声を取得する音声取得ステップS201と、取得した音声をテキストデータに認識し、初期音声認識結果とする音声認識ステップS202と、複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係のうちの偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果における偏差用語と同一の用語が原用語-偏差用語の関係における原用語に置き換えられるように誤り訂正処理を行うことで、誤り訂正された音声認識結果を取得し、当該音声認識方法によって生成された音声認識結果とする誤り訂正ステップS203と、を含む。【選択図】図2

Description

本発明は音声認識方法と音声評価方法に関し、さらには該音声認識方法を用いる音声認識システム及び該音声評価方法を用いる音声評価システムに関する。
現在、音声認識技術の絶えまない発展に伴い、音声認識に基づく応用もますます普及しており、このような技術はすでに家庭生活、OA分野、娯楽などの分野に浸透している。ユーザがPC、ノートパソコン、タブレットPC、専用学習端末、多機能携帯電話などの端末に外付けされた、または内蔵されたマイクに向かって音声を入力(例えば、一文を朗読)することで、音声認識エンジン(以下「エンジン」と略称)を介して音声-文字の変換を完成する。従来には数多くのエンジン製品が存在し、例えば汎用されている世界的にも有名なNuance、Google(グーグル)の音声認識サービス、中国国内のIFLYTECの音声認識サービスなどがある。しかし、音声認識におけるエンジンの最大の問題点は音声認識の正確度であり、従来のエンジン製品において最高の音声認識正確度を有するNuanceでも下記の問題を避けることができない。
a1、例えば常用されていない人名、地名などのいくつかの珍しい用語はエンジンにより正しく認識されず、通常、同じ発音の用語に誤認される。
a2、日本語においては、漢字が認識返送されるのが望ましい場合や、仮名が認識返送されるのが望ましい場合があるが、該エンジンはその区別ができない。
他方、ますます増えている言語学習がインターネット経由をベースとする遠隔学習システムによって実現され、また、さまざまなテストシステムが伴われることで、ユーザ(学習者)の学習効果の検証が行われる。言語学習において非常に重要な一環となる話し言葉の学習は、遠隔学習システムにおいては、通常、前記音声認識方法に基づく音声評価システムが配置されることで、ユーザの話し言葉のテストが可能になる。たとえば、ユーザは端末にインストールされたソフトを介して学習サーバとのインタラクティブ(すなわち音声評価方法を実施するための音声評価システムを構成)が可能になり、音声-文字の変換、文字-文字の整合などのいくつかの技術手段によって、最終的にユーザ入力音声に対する評価点数、即ち、ユーザが標準的な音声で該一文を朗読したか否かを示す評価点数が得られる。
従来技術の音声認識に基づく音声評価システムにおいては、主に図1に示される音声評価方法を採用しており、即ちユーザの原文朗読による音声を取得し(ステップS101)、エンジンによって、取得したユーザの音声に対する音声認識(音声-テキストの変換)を行い(ステップS102)(ステップS101〜ステップS102は実際に音声認識方法である)、音声認識結果(テキスト)と原文(テキスト)との相似度比較により音声評価点数を算出し(ステップS103)、結果としての音声評価点数を出力する(ステップS104)。
前記エンジンは音声認識において音声認識の正確度の問題が存在するため、音声評価システムにおいて評価の正確性に影響を及ぼす恐れがある。なお、エンジンは、音声認識の正確度問題以外にも、音声認識において以下の欠点がある。
b1、音声認識においてエンジンは、語気詞を無効音声に誤判断し自動フィルタしてしまうことが多い。
b2、文末の疑問詞が軽く読まれた際にも、エンジンによって無効音声として誤判断され自動フィルタ処理されることがある。
要するに、従来の音声認識システムにおいては、従来のエンジンに音声認識時の客観的な欠点が存在するため、出力する音声認識結果の正確性に影響を与えるおそれがある。また、このような音声認識システムに基づく言語学習システムの音声評価システムにおける音声評価の正確性にも、判定の不正確、不合理などの問題が存在するため、ユーザの興味と信頼性の低下を招くことになり、該言語学習システムの汎用化に極めて不利である。
本発明の1つの目的は、以上の従来技術における欠点のうちの少なくともいずれかを解決し、音声認識の正確性を効果的に向上するための音声認識方法を提供する。
本発明のもう1つの目的は、以上の従来技術における欠点のうちの少なくともいずれかを解決し、言語学習システムにおける音声評価の正確性を効果的に向上するための音声評価方法を提供する。
本発明の1つの態様によれば、ユーザの音声を認識し、音声認識結果を生成するための音声認識方法において、前記ユーザの前記音声を取得する音声取得ステップと、言語認識処理により、取得した前記音声をテキストデータに変換し、初期音声認識結果とする音声認識ステップと、複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係における偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果における偏差用語と同一の用語が原用語-偏差用語の関係における原用語に置き換えられるように誤り訂正処理を行うことで、誤り訂正後の音声認識結果を取得し、当該音声認識方法によって生成された音声認識結果とする誤り訂正ステップと、を含む、音声認識方法を提供する。
本発明のもう1つの態様によれば、ユーザが特定の原文を朗読する音声に対して判定を行い、その音声の標準レベルを示す評価点数を出力するための音声評価方法において、ユーザが特定の原文を朗読する音声に基づいて音声認識結果を生成する前記請求項1〜5に記載の前記音声認識方法を実行するステップと、前記原文と前記誤り訂正後の音声認識結果との相似度を比較し、前記原文と前記誤り訂正後の音声認識結果とが完全に一致する場合は、最高の評価点数を出力し、前記原文と前記誤り訂正後の音声認識結果とが不一致になる場合は、前記原文から、前記原文に存在し、且つ前記初期音声認識結果又は前記誤り訂正後の音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、且つ対応する1つまたは複数の未戻し用語-空白の関係を構築し、複数の未戻し用語-空白の関係が記録されたフィルタ用語表を検索し、構築した前記1つまたは複数の未戻し用語-空白の関係のうちの一部または全部の未戻し用語-空白の関係が前記フィルタ用語表中に記録されている場合は、前記原文から前記一部または全部の未戻し用語-空白の関係に対応する未戻し用語を削除することで、フィルタ処理後の原文を生成するフィルタ処理ステップを実行する、比較ステップと、前記誤り訂正後の音声認識結果と前記フィルタ処理後の原文との相似度比較を行い、評価点数を算出し出力する出力ステップと、を含む、音声評価方法を提供する。
さらに本発明の1つの態様によれば、ユーザの音声を認識し、音声認識結果を生成するための音声認識システムにおいて、ユーザの前記音声を取得する音声取得ユニットと、音声認識処理によって、取得した前記音声をテキストデータに認識変換し、初期音声認識結果とする音声認識ユニットと、複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係における偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果における前記偏差用語と同一の用語が、前記原用語-偏差用語の関係における原用語に置き換えられように、誤り訂正処理を行うことで、誤り訂正後の音声認識結果を取得し、当該音声認識システムによって生成される音声認識結果とする誤り訂正処理ユニットと、を含む、音声認識システムを提供する。
さらに本発明のもう1つの態様によれば、ユーザが特定の原文を朗読する音声に対して判定を行い、音声の標準レベルを示す評価点数を出力するための音声評価システムにおいて、ユーザが特定の原文を朗読する音声に基づいて音声認識結果を生成する前記請求項8に記載の音声認識システムと、前記原文と前記誤り訂正後の音声認識結果との相似度を比較し、前記原文と前記誤り訂正後の音声認識結果とが完全に一致する場合は、最高の評価点数を出力し、前記原文と前記誤り訂正後の音声認識結果とが不一致になる場合は、前記原文から、前記原文に存在し、且つ前記初期音声認識結果又は前記誤り訂正後の音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、対応する1つまたは複数の未戻し用語-空白の関係を構築し、複数の未戻し用語-空白の関係が記録されたフィルタ用語表を検索し、構築した前記1つまたは複数の未戻し用語-空白の関係のうちの一部または全部の未戻し用語-空白の関係が前記フィルタ用語表中に記録されている場合は、前記原文から前記一部または全部の未戻し用語-空白の関係に対応する未戻し用語を削除するように、フィルタ処理を実行することで、フィルタ処理後の原文を生成するサンプルフィルタ処理ユニットを含む、比較ユニットと、前記誤り訂正後の音声認識結果と前記フィルタ処理後の原文との相似度比較を行い、評価点数を算出し出力する出力ユニットと、を含む、音声評価システムを提供する。
本発明における音声認識方法とシステムを用いることで、このような音声認識方法を結び付けた音声認識の正確率を効果的に向上することができる。
本発明における音声評価方法とシステムを用いることで、このような音声評価方法を結びつけた言語学習システムの音声評価の正確率を効果的に向上することができる。
従来技術の、音声認識に基づく音声評価システムにおける音声評価方法のフローチャートを示す。 第1実施例に基づく音声認識方法のフローチャートを示す。 第2実施例に基づく誤り訂正用語表の生成方法の第1の例のフローチャートを示す。 第2実施例に基づく誤り訂正用語表の生成方法の第2の例のフローチャートを示す。 第3実施例に基づく音声評価システムにおける音声評価方法のフローチャートを示す。 第4実施例に基づくフィルタ用語表の生成方法のフローチャートを示す。
以下、図面を参照しながら実施例を詳しく説明する。例示として、本発明は日本語認識の応用環境を用いているが、これに限られず、他の言語への応用も本発明の範囲内に含まれる。
図2は、第1実施例に基づく音声認識方法のフローチャートを示す。ここで図2を参照して、第1実施例に基づく音声認識方法を説明する。本発明の第1実施例に基づく音声認識方法は下記のステップを含む。
ステップS201:ユーザの音声を取得する。ここでいわゆる音声は人の発音器官からの、ユーザが表現しようとする特定の言語意味を持つ音声を指す。
音声はマイクが接続/内蔵されるPC、ノートパソコン、タブレットPC、多機能携帯電話などの端末を介して取得したものである。
ステップS202:ステップS201において取得した音声はエンジンを介して、音声認識処理によって、テキストデータに変換(認識)され、初期音声認識結果となる。
本発明による実施例において、音声認識は、音声認識技術を採用する、端末と異なるエンジン(通常リモートサーバーに設置される)を介して実現される。該エンジンは、従来の技術においてすでに汎用されている世界的にも有名なNuance、Google(グーグル)の音声認識サービス、中国国内においてはIFLYTECの音声認識サービスなどが用いられてもよい。端末とエンジンとの間の通信方式については、インターネット、ワイヤレスネットワーク接続に基づくリモート方式であってもよく、異なるニーズに応じて、また条件が許すならば、有線方式で接続を行ってもよい。さらに、端末の処理能力が十分であるならば、エンジンを端末に内蔵してもよい。
ステップS203:初期音声認識結果に対する誤り訂正処理を行う。
該ステップにおいて、複数の原用語-偏差用語の関係が記録されている、誤り訂正処理を行うための誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係における偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果において偏差用語と同一の用語が原用語-偏差用語の関係における原用語に置き換えられるように、誤り訂正処理を行い、これによって音声認識方法が生成する音声認識結果となる、誤り訂正された音声認識結果を取得する。前記偏差用語が複数存在する場合は、該置き換えを複数回行う。ここでの原用語は正しい用語を指し、すなわち、ユーザが本来表現しようとする用語である。偏差用語は、認識されたもので、原用語と不一致の用語である。
本発明による第1実施例において、誤り訂正用語表に収集されるのは、通常、エンジンに誤認されやすい用語であり、すなわち背景技術において述べた例えば常用されていない人名、地名などの珍しい用語、及び日本語において、区分表示が必要な漢字と仮名である。本発明による第1実施例における音声認識方法は、異なる音声認識の応用場面に応じて、関連する応用場面に対応する、複数の原用語-偏差用語の関係を含む異なる誤り訂正用語表が用いられてもよい。すなわち、このような応用場面において常用され、且つエンジンに原用語と異なる偏差用語として誤認されやすい原用語を、偏差用語と対応付けて、対応する原用語-偏差用語の関係を構築し、且つ該構築した原用語-偏差用語の関係を誤り訂正用語表に収録する。誤り訂正用語表は経験をまとめたものであっても、さまざまな自動生成/収集方法を介して生成されたものであってもよく、対応する原用語-偏差用語の関係さえ収録されれば、特に制限されない。
本発明による第1実施例は、従来の音声認識技術に基づいて音声認識結果に対する誤り訂正処理を追加することで、背景技術で紹介した例えば常用されていない人名、地名などのいくつかの珍しい用語、及び日本語における漢字と仮名の区分がエンジンに誤認されやすい欠点を解決することができる。
以下、第2実施例を参照しながら、第1実施例における誤り訂正用語表の生成方法について説明を行う。第2実施例で説明する誤り訂正用語表の生成方法は、ある程度、本発明の実施例に基づく音声認識処理と独立したものである。誤り訂正用語表の生成(更新)は、音声認識処理ごとに必ず行うべきものではないため、定期的に操作してもよい。このような誤り訂正用語表の生成(更新)は音声認識処理における誤り訂正処理を実行する前に行うだけでよい。
図3は第2実施例に基づく誤り訂正用語表の生成方法の第1の例のフローチャートを示す。ここで図3を参照しながら第2実施例に基づく誤り訂正用語表の生成方法の第1の例を説明する。本発明の第2実施例に基づく誤り訂正用語表の生成方法の第1の例は下記ステップを含む。
ステップS301:複数の音声レベルを有する人を指定し、特定の原文を朗読することによって各人の音声を取得する。本発明に基づく第2実施例においては、5つの音声レベルを有する人をサンプルとして選択している。ここでの数量は例示としての説明であり、本発明はこれに限らない。
ここで特定の原文は、本発明の第1実施例に基づく音声認識方法の応用環境において常に使われている単語、短い文、長い文または短い文章などを指し、例えば日常の仕事中や会議中に常用される短い文、常に提起される人名、個人的な総括および仕事報告のサンプルである。
ステップS302:ステップS301において取得した5つのサンプル(5人)の音声が、エンジンにより、5つのサンプルの初期音声認識結果となるテキストデータに認識される。本実施例において、5つのサンプルの初期音声認識結果はそれぞれ「T1」、「T2」、「T3」、「T4」と「T5」に表記される。
ステップS303:原用語-偏差用語の関係を構築し、特定の原文における同一の原用語に対応する原用語-偏差用語の関係における、同一の偏差用語に対応する原用語-偏差用語の関係の確率を統計する。
該ステップにおいて、特定の原文と比較し、各サンプル(各人)の初期音声認識結果が原文と全く同じである場合は、該原文に対する誤り訂正用語表を構築する必要がない。
すべてのサンプルのすべての初期音声認識結果において原文との不一致が発見された場合は、第1実施例のステップS203と同様に、初期音声認識結果と原文から、M(M≧1)個の原用語-偏差用語の関係を構築する。これらの関係において、1つの原用語が複数の偏差用語に対応するケースが存在する。すべての該M個の原用語-偏差用語の関係から同一の原用語に対応するN(1≦N≦M)個の原用語-偏差用語の関係を抽出し、このような同一の原用語に対応する原用語-偏差用語の関係において同一の偏差用語を有する関係の個数L(1≦L≦N)を統計し、本発明の実施例で日本語を例に、例えば、原文が「王小華 こんにちは」であると、表1には、実施例のすべての原用語-偏差用語の関係から抽出された、同一の原用語「王小華」に対応する原用語-偏差用語の関係(N=5)が示され、ここで、偏差用語1の「高評価」を有する原用語-偏差用語の関係の個数は3(L1=3)であり、偏差用語2の「王将か」を有する原用語-偏差用語の関係の個数はL2=2である。同一の原用語に対応する原用語-偏差用語の関係において、同一の偏差用語に対応する関係の個数(L)を同一の原用語に対応する原用語-偏差用語の関係の個数(N)で割り算することで、同一の原用語に対応する原用語-偏差用語の関係における、同一の偏差用語に対応する関係の確率(L/N)が得られ、例えば表1において、原用語「王小華」に対応する原用語-偏差用語の関係において、偏差用語1の「高評価」に対応する原用語-偏差用語の関係の確率は60%であり、偏差用語2の「王将か」に対応する原用語-偏差用語の関係の確率は40%である。
Figure 2016051179
ステップS304において、大確率の原用語-偏差用語の関係を誤り訂正用語表に収録する。
該ステップにおいて、ステップS303より算出した同一の原用語に対応する原用語-偏差用語の関係における同一の偏差用語に対応する関係の確率に基づいて、その確率が≧第1確率閾値の原用語-偏差用語の関係(いわゆる大確率の原用語-偏差用語の関係)を誤り訂正用語表に収録する。該ステップにおいて、対応する大確率の原用語-偏差用語の関係がすでに誤り訂正用語表に存在する場合は、該対応する大確率の原用語-偏差用語の関係は再度誤り訂正用語表に収録しない。
本発明による実施例において、第1確率閾値の例は60%であり、すなわち、同一の原用語に対応する原用語-偏差用語の関係において、同一の偏差用語を有する関係の個数が≧3の原用語-偏差用語の関係を誤り訂正用語表に収録されることになる。ここでの数量は1例にすぎず、本発明はこれに限らない。
本発明の第2実施例における誤り訂正用語表の生成方法に基づく第1の例においては、生成された誤り訂正用語表に収録される原用語-偏差用語の関係は大確率の原用語-偏差用語の関係であり、それに対応する小確率の原用語-偏差用語の関係における偏差用語は、エンジンの誤認のみによるものではなく、サンプル自身の発音または環境騒音などの要因による差異である可能性があると認められる。
次に、図4を参照しながら、第2実施例における誤り訂正用語表の生成方法に基づく第2の例について説明を行う。前記第2実施例における誤り訂正用語表の生成方法に基づく第1の例においては、小確率の原用語-偏差用語の関係は無視されるため、誤り訂正用語表における原用語-偏差用語の関係に漏れが生じる可能性がある。誤り訂正効果をさらに向上させるために、第2実施例における誤り訂正用語表の生成方法に基づく第2の例は、原文におけるエンジンに誤認された原用語に対応する原用語-偏差用語の関係を出来る限りすべて誤り訂正用語表に収録可能にした点で第1の例と異なる。本発明の第2実施例における誤り訂正用語表の生成方法に基づく第2の例は下記のステップを含む。
ステップS401:複数(5つ)の音声レベルを有する人(サンプル)を指定し、特定の原文を朗読することによって各人の音声を取得する。該ステップは第2実施例における第1の例のS301ステップと同一である。
ステップS402:ステップS401において取得した5つのサンプル音声をエンジンによって、テキストデータとして認識する。該ステップは第2実施例における第1の例のS302ステップと同一である。
ステップS403:原用語-偏差用語の関係を構築し、原文における同一用語に対応する原用語-偏差用語の関係における、同一の偏差用語を有する原用語-偏差用語の関係の確率を統計する。該ステップは第2実施例における第1の例のS303ステップと同一である。
ステップS404:大確率の原用語-偏差用語の関係を誤り訂正用語表に収録する。該ステップは第2実施例における第1の例のS304ステップと同一である。
ステップS405:5つのサンプルの初期音声認識結果に対して誤り訂正処理を行う。該ステップは第1実施例におけるS203ステップと同一である。
ステップS406:原文に対してフィルタ処理を施し、誤り訂正後の5つのサンプルの音声認識結果において原文のフィルタ処理された部分に対応する認識結果が存在する場合は、該識別結果もフィルタ処理するようにする。
該ステップにおいて、原文との比較により、サンプル(人)ごとの誤り訂正後の音声認識結果が原文と完全に一致する場合は、原文と誤り訂正後の5つのサンプルの音声認識結果に対してフィルタ処理を行う必要がない。
すべてのサンプルのすべての誤り訂正後の音声認識結果において原文との不一致を発見した場合は、原文から、原文に存在し、且つ少なくとも1つのサンプルの初期音声認識結果、または誤り訂正後のサンプル音声認識結果において対応する認識結果戻しのない1つまたは複数の未戻し用語を抽出し、対応する1つまたは複数の未戻し用語-空白(空白は、少なくとも1つのサンプルの誤り訂正後の音声認識結果において対応する用語の認識結果がないことを意味する)の関係を構築し、原文から、対応する1つまたは複数の未戻し用語-空白の関係における未戻し用語をフィルタし、すなわち、原文から該未戻し用語を削除してフィルタ処理後の原文を生成するとともに、5つのサンプルの誤り訂正後の音声認識結果において原文のフィルタ処理された部分に対応する認識結果が存在する場合は該認識結果をもフィルタ処理するようにする。本発明の実施例は日本語の学習を例に、例えば、原文が日本語の「あっ、鈴木さん」である場合、5つのサンプルの誤り訂正後の初期音声認識結果において、4つのサンプルの初期音声認識結果は「鈴木さん」である一方、他の1つのサンプルの初期音声認識結果は「あっ、鈴木さん」であるため、該ステップにおいては、未戻し用語-空白の関係「あっ、-空白」を構築し、且つ「あっ、-空白」の関係に基づいて原文における「あっ、」をフィルタし、また、他の1つのサンプルの誤り訂正後の音声認識結果において原文の「あっ、」に対応する部分に認識結果が存在するため、該サンプルの誤り訂正後の音声認識結果における「あっ、」をもフィルタ処理する。
ステップS407:誤り訂正及びフィルタ処理後の5つのサンプルの初期音声認識結果とフィルタ処理後の原文との相似度比較を行い、音声評価点数を算出する。
同様に、音声評価点数の算出は、例えばLD算出方法などのようなテキスト比較算出方法を用いて相似度比較を行ってもよい。
ステップS408:音声評価点数が100点になるサンプルの確率を統計する。
該ステップにおいて、音声評価点数が100点になるサンプルの個数をサンプル全体の個数で割り算することで、音声評価点数が100点になるサンプルの確率を取得する。
ステップS409:ステップS408において統計する音声評価点数が100点になるサンプルの確率≧第2確率閾値か否かを判断する。
音声評価点数が100点になるサンプルの確率≧第2確率閾値になる場合は、誤り訂正用語表を生成するプロセスが完成し、音声評価点数が100点になるサンプルの確率<第2確率閾値になる場合は、ステップS410を実行する。本発明の実施例において、該ステップにおける第2確率閾値の値は第2実施例の誤り訂正用語表の生成方法の第1の例における第1確率閾値の値と同一である。
ステップS410:ステップS407において音声評価点数が100点にならないサンプルには、それぞれ再度原文を複数回朗読させてから、音声評価が100点になるサンプルの確率≧第2確率閾値になるまで、再度ステップS402〜ステップS409を実行する。
本発明に基づく実施例においては、該ステップにおいて音声評価点数が100点にならない人を指定してそれぞれ原文を5回再朗読させる。ここでの数量は例示にすぎず、本発明はこれに限らない。一人の複数回の朗読は、複数の人の朗読として処理することができる。
実際の応用のニーズに応じて、最後に繰り返し回数判定ステップを含んでもよい。音声評価点数が100点にならないサンプルは、ステップS402〜ステップS409を所定回数、繰り返し実行後も、音声評価点数が100点になるサンプルの確率≧第2確率閾値の条件を満たさないと判定された場合は、再度繰り返し実行せず、すべての処理を中止する。本発明に基づく実施例においては、該繰り返し回数は1に設定されている。ここでの数量は1例にすぎず、本発明はこれに限らない。
図5は、第3実施例に基づく音声評価システムにおける音声評価方法のフローチャートを示す。
第3実施例の音声評価方法は、前述の音声認識方法における音声評価方法に基づくものである。このため、ここには第1実施例から第2実施例までの音声認識方法が結合される。以下、図5を参照しながら第3実施例に基づく音声評価システムにおける音声評価方法について説明を行う。本発明の第3実施例に基づく音声評価システムにおける音声評価方法は下記ステップを含む。
ステップS501:ユーザが原文を朗読することによって生成した音声を取得する。
該ステップは第1実施例におけるS201と基本的に同一である。唯一の違いは、ここで取得したユーザの音声はユーザが自由に発声したものではないことである。
第3実施例によるこのような音声評価の応用において、音声認識方法の応用環境は、前述の仕事と会議のものとは若干異なる。現在の言語学習の応用環境に応じて、音声認識方法の応用環境に対応する原文(ここでの原文は、ユーザが話し言葉の学習成果を検証するために朗読するテキストを指す)として、句読記号(例えばコンマ)で分けられた短い文であっても、完成した1つの長い文(つまり、文の完結を示す句読記号、例えば句点、感嘆符、疑問符で分けられたもの)であってもよく、1つの文章または複数の文章であってもよい。本発明に基づく実施例において、原文の最小単位は文であり、すなわち、完結した1つの文であるが、本発明はこれに限らない。
ステップS502:ステップS501において取得したユーザの音声がエンジンによって初期音声認識結果としてテキストデータに認識される。該ステップは第1実施例におけるS202と同一である。
ステップS503:初期音声認識結果に対して誤り訂正処理を施し、誤り訂正後の音声認識結果を取得する。
該ステップにおいて、原文と初期音声認識結果との相似度比較を行い、原文と初期音声認識結果とが完全に一致する場合には、最高の評価点数を出力し、原文と初期音声認識結果とが不一致になる場合には、誤り訂正ステップを実行し、誤り訂正ステップにおいて、初期音声認識結果から、原文における原用語と不一致の1つまたは複数の偏差用語となる用語を抽出し、対応する1つまたは複数の原用語-偏差用語の関係を構築し、且つ複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、構築した1つまたは複数の原用語-偏差用語の関係のうちの一部または全部の原用語-偏差用語の関係がすでに誤り訂正用語表中に記録されている場合は、偏差用語が該偏差用語の属する原用語-偏差用語の関係における対応する原用語に置き換えられるように、初期音声認識結果のうちの一部または全部の原用語-偏差用語の関係に対応する偏差用語の訂正・置き換えを行い、誤り訂正後の音声認識結果を生成する。
該ステップに関する原用語-偏差用語における原用語は、原文に記載された正確な用語を指し、すなわち、ユーザが本来表現しようとする用語である。該偏差用語は認識された、原用語とは不一致の用語である。
実際に、上述したステップS501〜ステップS503は音声認識プロセスであり、ここでの音声認識は、ユーザが話し言葉の学習成果を検証するための原文朗読に対して、第1実施例に説明したような音声認識方法を実行することによって、音声認識結果が生成される。同様に、該音声認識方法において誤り訂正用語表を使用する必要があれば、第2実施例に説明したような誤り訂正用語表を生成する方法(第1の例と第2の例)を実行してもよい。
ステップS504:原文に対してフィルタ処理を行う。
該フィルタ処理において、原文と誤り訂正後の音声認識結果との比較を行い、誤り訂正後の音声認識結果が原文と完全に一致する場合には、音声が完全に正確であることを示す評価点数(例えば100点)を出力し、誤り訂正後の音声認識結果が原文と不一致になる場合には、原文から、原文に存在し、且つ初期音声認識結果又は誤り訂正後の音声認識結果において対応する認識結果戻しのない1つまたは複数の未戻し用語を抽出し、対応する1つまたは複数の未戻し用語-空白(空白は、誤り訂正後の音声認識結果において対応する用語の認識結果がないことを意味する)の関係を構築し、複数の未戻し用語-空白の関係が記録された、フィルタ処理を行うためのフィルタ用語表を検索し、ステップS504のフィルタ処理において構築した一部または全部の未戻し用語-空白の関係がすでにフィルタ用語表中に記録されている場合は、原文から一部または全部の未戻し用語-空白の関係に対応する未戻し用語をフィルタし、すなわち、原文から該未戻し用語を削除し、フィルタ処理後の原文を生成する。
ステップS505:誤り訂正後の音声認識結果とフィルタ処理後の原文との相似度比較を行い、音声評価点数を算出する。同様に、音声評価点数の算出は例えばLD算出方法などのテキスト比較算出方法を用いて相似度比較を行ってもよい。
ステップS506:音声評価点数を出力する。
本発明に基づく第3実施例において、フィルタ用語表中に収集されたものは、エンジンにより無効音声と判定されやすく、自動的にフィルタされる認識戻しのない用語であり、すなわち、背景技術で紹介した、例えば語気詞や文末疑問符などである。誤り訂正用語表と同様に、フィルタ用語表は経験をまとめて音声評価システムに配置されたものでもよく、種々の自動生成/収集方法によって生成されたものでもよく、エンジンに無効音声と判定されやすく、自動的にフィルタされる認識結果の戻しのない用語さえ収録可能であれば、特に制限されない。本発明に基づく第3実施例において、1つの誤り訂正用語表と1つのフィルタ用語表は1つの文章(すなわち、複数の文)に配置されているが、本発明はこれに限らない。
以下は、図6を参照しながら、第4実施例に基づくフィルタ用語表の生成方法について説明を行う。
図6は、第4実施例に基づくフィルタ用語表の生成方法のフローチャートを示す。本発明の第4実施例に基づくフィルタ用語表の生成方法は下記ステップを含む。
ステップS601:複数(5つ)の音声レベルを有する人(サンプル)を指定し、原文を朗読させて各人の音声を取得する。該ステップは第2実施例における第1の例のS301と第2実施例における第2の例のS401と同一である。
ステップS602:ステップS601において取得した5つのサンプルの音声をエンジンによってテキストデータに認識する。該ステップは第2実施例における第1の例のS302と第2実施例における第2の例のS402と同一である。
ステップS603:未戻し用語-空白の関係を構築する。
該ステップにおいて、原文と比較し、各サンプル(各人)の初期音声認識結果が原文と完全に同一になる場合は、該原文に対するフィルタ用語表を構築する必要はない。
すべてのサンプルのすべての初期音声認識結果において原文との不一致を発見した場合は、第2実施例における第2の例のS406と同様に、対応する1つまたは複数の未戻し用語-空白の関係を構築する。
ステップS604:対応する1つまたは複数の未戻し用語-空白の関係をフィルタ用語表に収録する。
該ステップにおいて、対応する未戻し用語-空白の関係がすでにフィルタ用語表に存在している場合は、対応する未戻し用語-空白の関係を再度フィルタ用語表に追加することはない。
本発明はさらに、ユーザの音声の認識、及び、ユーザの特定の原文朗読に対する評価を行うための、上述した第1から第4実施例における音声認識方法を実施可能な音声認識システム及び音声評価方法を実施できる音声評価システムを提供する。
具体的に、本発明に基づく音声認識システムにおける1つの例として、音声認識システムは、ユーザの前記音声を取得する音声取得ユニットと、音声認識処理によって、取得した前記音声をテキストデータに認識変換し、初期音声認識結果とする音声認識ユニットと、複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係における偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果における前記偏差用語と同一の用語が、前記原用語-偏差用語の関係における原用語に置き換えられように、誤り訂正処理を行うことで、誤り訂正後の音声認識結果を取得し、当該音声認識システムによって生成される音声認識結果とする誤り訂正処理ユニットと、を含む。
本発明に基づく音声評価システムにおける1つの例として、音声評価システムは、前述の音声認識システムと、前記原文と前記誤り訂正後の音声認識結果との相似度を比較し、前記原文と前記誤り訂正後の音声認識結果とが完全に一致する場合は、最高の評価点数を出力し、前記原文と前記誤り訂正後の音声認識結果とが不一致になる場合は、前記原文から、前記原文に存在し、且つ前記初期音声認識結果又は前記誤り訂正後の音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、対応する1つまたは複数の未戻し用語-空白の関係を構築し、複数の未戻し用語-空白の関係が記録されたフィルタ用語表を検索し、構築した前記1つまたは複数の未戻し用語-空白の関係のうちの一部または全部の未戻し用語-空白の関係が前記フィルタ用語表中に記録されている場合は、前記原文から前記一部または全部の未戻し用語-空白の関係に対応する未戻し用語を削除するように、フィルタ処理を実行することで、フィルタ処理後の原文を生成するサンプルフィルタ処理ユニットを含む、比較ユニットと、前記誤り訂正後の音声認識結果と前記フィルタ処理後の原文との相似度比較を行い、評価点数を算出し出力する出力ユニットと、を含む。
以上、本発明を具体的な実施例を参照しながら説明したが、当業者にとっては、以上の説明に基づいた種々の置き換え、修正及び変更が可能になることは自明である。このため、このような置き換え、修正及び変更などは、付属する請求の範囲の主旨とその範囲に入る場合は、本発明に含まれるべきである。

Claims (9)

  1. ユーザの音声を認識し、音声認識結果を生成するための音声認識方法において、
    前記ユーザの前記音声を取得する音声取得ステップと、
    言語認識処理により、取得した前記音声をテキストデータに変換し、初期音声認識結果とする音声認識ステップと、
    複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係における偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果における偏差用語と同一の用語が原用語-偏差用語の関係における原用語に置き換えられるように誤り訂正処理を行うことで、誤り訂正後の音声認識結果を取得し、当該音声認識方法によって生成された音声認識結果とする誤り訂正ステップと、を含む、ことを特徴とする音声認識方法。
  2. 前記誤り訂正ステップを実行する前に、誤り訂正用語表を生成するステップを実行し、前記誤り訂正用語表を生成するステップにおいて、
    前記ユーザと異なる複数の音読レベルを有する人をサンプルとして指定し、サンプルごとの、音声の実行方法の応用環境に対応付けられた所定原文を朗読することで発生するサンプル音声を取得する、サンプル収集ステップと、
    前記サンプル音声をサンプルテキストデータに認識し、前記複数のサンプルのサンプル音声認識結果とするサンプル音声認識ステップと、
    前記原文と前記サンプル音声認識結果とを比較し、各サンプル音声認識結果が原文と全く同一である場合は、現在使用中の誤り訂正用語表を変更せず、すべてのサンプル音声認識結果において前記原文との不一致が存在する場合は、前記サンプル音声認識結果と前記原文から、M個の原用語-偏差用語の関係を構築し、すべての前記M個の原用語-偏差用語の関係から、同一の原用語に対応するN個の原用語-偏差用語の関係を抽出し、前記原用語-偏差用語の関係における同一の偏差用語に対応する関係の個数Lを統計し、同一の原用語に対応する原用語-偏差用語の関係における同一の偏差用語を有する関係の個数を、同一の原用語に対応する原用語-偏差用語の関係の個数で割り算することで、同一の原用語に対応する原用語-偏差用語の関係における同一の偏差用語を有する関係の確率L/N(M≧1、1≦N≦M、1≦L≦N)を算出する、確率算出ステップと、
    前記確率算出ステップで得られた各原用語-偏差用語の関係の前記確率に基づいて、前記確率が第1閾値以上となる原用語-偏差用語の関係を大確率の原用語-偏差用語の関係とする大確率原用語-偏差用語関係選定ステップと、
    前記大確率の原用語-偏差用語の関係を、前記現在使用中の誤り訂正用語表に収録し、新たな誤り訂正用語表を生成する誤り訂正用語表変更ステップと、を含むことを特徴とする請求項1に記載の音声認識方法。
  3. 前記誤り訂正用語表生成ステップにおいて、前記誤り訂正用語表変更ステップ後に、前記誤り訂正用語表の完全化判定ステップを実行し、前記誤り訂正用語表の完全化判定ステップにおいて、
    各サンプルに対して、前記原文と前記サンプル音声認識結果との相似度比較を行い、前記原文と前記サンプル音声認識結果が完全に一致する場合は、最高の評価点数を出力し、
    前記原文と前記サンプル音声認識結果が不一致になる場合は、
    前記サンプル音声認識結果から、前記原文における原用語と不一致の1つまたは複数の用語を偏差用語として抽出し、対応する1つまたは複数の原用語-偏差用語の関係を構築し、且つ前記誤り訂正用語表生成ステップで生成した誤り訂正用語表を検索し、構築した前記1つまたは複数の原用語-偏差用語の関係のうちの一部または全部の原用語-偏差用語の関係が前記生成した誤り訂正用語表中に記録されている場合は、前記偏差用語が前記偏差用語の属する原用語-偏差用語の関係における対応する原用語に置き換えられるように、前記サンプル音声認識結果における対応する前記一部または全部の原用語-偏差用語の関係における偏差用語の訂正置き換えを行い、誤り訂正後のサンプル音声認識結果を生成する誤り訂正ステップを実行し、
    前記原文から、前記原文には存在し、且つ前記サンプル音声認識結果又は前記誤り訂正後のサンプル音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、対応する1つまたは複数の未戻し用語-空白の関係を構築し、複数の未戻し用語-空白の関係が記録されたフィルタ用語表を検索し、構築した前記1つまたは複数の未戻し用語-空白の関係のうちの一部または全部の未戻し用語-空白の関係が前記フィルタ用語表中に記録されている場合は、前記原文から、対応する前記一部または全部の未戻し用語-空白の関係における未戻し用語を削除することで、フィルタ処理後の原文を生成し、且つ前記誤り訂正後のサンプル音声認識結果において対応する原文のフィルタ処理された部分の認識結果が存在すれば該認識結果も削除するようにする、フィルタ処理ステップを実行し、
    前記誤り訂正後及びフィルタ処理後のサンプル音声認識結果と前記フィルタ処理後の原文との相似度比較を行い、サンプルの評価点数を算出し出力し、
    最高の評価点数を取得したサンプルの比率を統計し、最高の評価点数を取得した前記サンプルのサンプル全体における比率が第2閾値以上の場合は、前記生成した誤り訂正用語表を当該音声認識方法に用い、最高の評価点数を取得した前記サンプルのサンプル全体における比率が第2閾値未満になる場合は、最適化ステップを実行し、前記複数のサンプルにおける最高の評価点数に達しないサンプルの、前記原文に対する複数の音声を収集し、前記誤り訂正用語表の完全化判定ステップを含む前記誤り訂正用語表生成ステップを繰り返し実行する、
    ことを特徴とする請求項2に記載の音声認識方法。
  4. 前記最適化ステップにおいて、最高の評価点数を取得したサンプルの、サンプル全体における比率が前記第2閾値以上になるまで、前記最高の評価点数に達しないサンプルの前記原文に対する複数の音声を収集し、前記誤り訂正用語表の完全化判定ステップを含む前記誤り訂正用語表生成ステップを繰り返し実行する、
    ことを特徴とする請求項3に記載の音声認識方法。
  5. 前記最適化ステップにおいて、繰り返し回数が第3閾値に達したと判定される場合は、前記最適化ステップを終了する、
    ことを特徴とする請求項4に記載の音声認識方法。
  6. ユーザが特定の原文を朗読する音声に対して判定を行い、該音声の標準レベルを示す評価点数を出力するための音声評価方法において、
    ユーザが特定の原文を朗読する音声に基づいて音声認識結果を生成する前記請求項1〜5に記載の前記音声認識方法を実行するステップと、
    前記原文と前記誤り訂正後の音声認識結果との相似度を比較し、前記原文と前記誤り訂正後の音声認識結果とが完全に一致する場合は、最高の評価点数を出力し、前記原文と前記誤り訂正後の音声認識結果とが不一致になる場合は、前記原文から、前記原文に存在し、且つ前記初期音声認識結果又は前記誤り訂正後の音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、且つ対応する1つまたは複数の未戻し用語-空白の関係を構築し、複数の未戻し用語-空白の関係が記録されたフィルタ用語表を検索し、構築した前記1つまたは複数の未戻し用語-空白の関係のうちの一部または全部の未戻し用語-空白の関係が前記フィルタ用語表中に記録されている場合は、前記原文から前記一部または全部の未戻し用語-空白の関係に対応する未戻し用語を削除することで、フィルタ処理後の原文を生成するフィルタ処理ステップを実行する、比較ステップと、
    前記誤り訂正後の音声認識結果と前記フィルタ処理後の原文との相似度比較を行い、評価点数を算出し出力する出力ステップと、を含む、
    ことを特徴とする音声評価方法。
  7. 前記フィルタ処理ステップの前に、フィルタ用語表を生成するステップを実行し、前記フィルタ用語表生成ステップにおいて、
    複数の音読レベルを有する人をサンプルとして指定し、サンプルごとの前記原文を朗読するサンプル音声を取得するサンプル収集ステップと、
    前記サンプル音声をサンプルテキストデータに認識し、前記複数のサンプルのサンプル音声認識結果とするサンプル音声認識ステップと、
    前記原文と前記サンプル音声認識結果とを比較し、各サンプルのサンプル音声認識結果と前記原文とが全く同一になる場合は、現在使用中のフィルタ用語表を変更せず、すべてのサンプルの音声認識結果において前記原文との不一致が存在する場合は、前記原文から、前記原文に存在し、且つ前記サンプル音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、対応する1つまたは複数の未戻し用語-空白の関係を構築する、比較ステップと、
    前記未戻し用語-空白の関係を前記フィルタ用語表に収録することで、新たな前記フィルタ用語表を生成するフィルタ用語表変更ステップと、を含む、
    ことを特徴とする請求項6に記載の音声評価方法。
  8. ユーザの音声を認識し、音声認識結果を生成するための音声認識システムにおいて、
    ユーザの前記音声を取得する音声取得ユニットと、
    音声認識処理によって、取得した前記音声をテキストデータに認識変換し、初期音声認識結果とする音声認識ユニットと、
    複数の原用語-偏差用語の関係が記録された誤り訂正用語表を検索し、誤り訂正用語表のいずれかの原用語-偏差用語の関係における偏差用語が初期音声認識結果に存在する場合は、初期音声認識結果における前記偏差用語と同一の用語が、前記原用語-偏差用語の関係における原用語に置き換えられように、誤り訂正処理を行うことで、誤り訂正後の音声認識結果を取得し、当該音声認識システムによって生成される音声認識結果とする誤り訂正処理ユニットと、を含む、ことを特徴とする音声認識システム。
  9. ユーザが特定の原文を朗読する音声に対して判定を行い、音声の標準レベルを示す評価点数を出力するための音声評価システムにおいて、
    ユーザが特定の原文を朗読する音声に基づいて音声認識結果を生成する前記請求項8に記載の音声認識システムと、
    前記原文と前記誤り訂正後の音声認識結果との相似度を比較し、前記原文と前記誤り訂正後の音声認識結果とが完全に一致する場合は、最高の評価点数を出力し、前記原文と前記誤り訂正後の音声認識結果とが不一致になる場合は、前記原文から、前記原文に存在し、且つ前記初期音声認識結果、または前記誤り訂正後の音声認識結果において対応する認識結果戻しのない未戻し用語を抽出し、対応する1つまたは複数の未戻し用語-空白の関係を構築し、複数の未戻し用語-空白の関係が記録されたフィルタ用語表を検索し、構築した前記1つまたは複数の未戻し用語-空白の関係のうちの一部または全部の未戻し用語-空白の関係が前記フィルタ用語表中に記録されている場合は、前記原文から前記一部または全部の未戻し用語-空白の関係に対応する未戻し用語を削除するように、フィルタ処理を実行することで、フィルタ処理後の原文を生成するサンプルフィルタ処理ユニットを含む、比較ユニットと、
    前記誤り訂正後の音声認識結果と前記フィルタ処理後の原文との相似度比較を行い、評価点数を算出し出力する出力ユニットと、を含む、
    ことを特徴とする音声評価システム。
JP2015167911A 2014-08-29 2015-08-27 音声認識方法、音声評価方法、音声認識システム及び音声評価システム Pending JP2016051179A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410438639.8 2014-08-29
CN201410438639.8A CN105374356B (zh) 2014-08-29 2014-08-29 语音识别方法、语音评分方法、语音识别系统及语音评分系统

Publications (1)

Publication Number Publication Date
JP2016051179A true JP2016051179A (ja) 2016-04-11

Family

ID=55376487

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015167911A Pending JP2016051179A (ja) 2014-08-29 2015-08-27 音声認識方法、音声評価方法、音声認識システム及び音声評価システム

Country Status (2)

Country Link
JP (1) JP2016051179A (ja)
CN (1) CN105374356B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509566A (zh) * 2020-12-22 2021-03-16 北京百度网讯科技有限公司 一种语音识别方法、装置、设备、存储介质及程序产品
CN117009775A (zh) * 2023-09-28 2023-11-07 苏州元脑智能科技有限公司 模型训练数据获取方法、模型训练方法和装置

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328167A (zh) * 2016-08-16 2017-01-11 成都市和平科技有限责任公司 一种智能语音识别机器人及控制系统
CN106548787B (zh) * 2016-11-01 2019-07-09 云知声(上海)智能科技有限公司 优化生词的评测方法及评测系统
CN108154735A (zh) * 2016-12-06 2018-06-12 爱天教育科技(北京)有限公司 英语口语测评方法及装置
CN106710592B (zh) * 2016-12-29 2021-05-18 北京奇虎科技有限公司 一种智能硬件设备中的语音识别纠错方法和装置
CN108345581B (zh) * 2017-01-24 2022-10-14 北京搜狗科技发展有限公司 一种信息识别方法、装置和终端设备
CN106652622B (zh) * 2017-02-07 2019-09-17 广东小天才科技有限公司 一种课文训练方法和装置
US10354642B2 (en) * 2017-03-03 2019-07-16 Microsoft Technology Licensing, Llc Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition
CN107045496B (zh) * 2017-04-19 2021-01-05 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN107274903B (zh) * 2017-05-26 2020-05-19 北京搜狗科技发展有限公司 文本处理方法和装置、用于文本处理的装置
CN107316638A (zh) * 2017-06-28 2017-11-03 北京粉笔未来科技有限公司 一种诗词背诵评测方法及系统、一种终端及存储介质
CN107808674B (zh) * 2017-09-28 2020-11-03 上海流利说信息技术有限公司 一种测评语音的方法、介质、装置及电子设备
CN108010397A (zh) * 2017-11-14 2018-05-08 央建商学院(深圳)有限公司 一种学习教具及其学习方法
CN108052499B (zh) * 2017-11-20 2021-06-11 北京百度网讯科技有限公司 基于人工智能的文本纠错方法、装置及计算机可读介质
CN107980949A (zh) * 2017-12-22 2018-05-04 宣城市鹤鸣茶叶机械制造有限公司 一种理条系统
CN107821669A (zh) * 2017-12-22 2018-03-23 宣城市鹤鸣茶叶机械制造有限公司 一种茶叶理条系统
CN108304385A (zh) * 2018-02-09 2018-07-20 叶伟 一种语音识别文本纠错方法及装置
CN108766437B (zh) * 2018-05-31 2020-06-23 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN109240582A (zh) * 2018-08-30 2019-01-18 广东小天才科技有限公司 一种点读控制方法及智能设备
CN109461436B (zh) * 2018-10-23 2020-12-15 广东小天才科技有限公司 一种语音识别发音错误的纠正方法及系统
CN111292752B (zh) * 2018-12-06 2023-05-12 北京嘀嘀无限科技发展有限公司 一种用户意图识别方法、装置、电子设备及存储介质
CN109686365B (zh) * 2018-12-26 2021-07-13 深圳供电局有限公司 一种语音识别方法和语音识别系统
CN109741643A (zh) * 2019-01-14 2019-05-10 博拉网络股份有限公司 面向文本大数据的词语处理方法
CN110136721A (zh) * 2019-04-09 2019-08-16 北京大米科技有限公司 一种评分生成方法、装置、存储介质及电子设备
CN112447074A (zh) * 2019-09-05 2021-03-05 上海火月信息科技有限公司 一种实时在线教育系统及方法
CN112115706B (zh) * 2020-08-31 2022-05-03 北京字节跳动网络技术有限公司 文本处理方法、装置、电子设备及介质
CN112509609B (zh) * 2020-12-16 2022-06-10 北京乐学帮网络技术有限公司 音频处理方法、装置、电子设备以及存储介质
CN113068058A (zh) * 2021-03-19 2021-07-02 安徽宝信信息科技有限公司 一种基于语音识别及转写技术的实时字幕上屏直播系统

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6789231B1 (en) * 1999-10-05 2004-09-07 Microsoft Corporation Method and system for providing alternatives for text derived from stochastic input sources
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
CN1235188C (zh) * 2001-09-17 2006-01-04 皇家飞利浦电子股份有限公司 通过比较所识别的文本中的语音学序列与手动输入的校正词的语音学转换来校正通过语音识别而识别的文本
ATE417346T1 (de) * 2003-03-26 2008-12-15 Koninkl Philips Electronics Nv Spracherkennungs- und korrektursystem, korrekturvorrichtung und verfahren zur erstellung eines lexikons von alternativen
ATE403215T1 (de) * 2003-10-21 2008-08-15 Koninkl Philips Electronics Nv Intelligente spracherkennung mit benutzeroberflächen
WO2005045803A1 (en) * 2003-11-05 2005-05-19 Philips Intellectual Property & Standards Gmbh Error detection for speech to text transcription systems
US7606793B2 (en) * 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US8473295B2 (en) * 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
US8688451B2 (en) * 2006-05-11 2014-04-01 General Motors Llc Distinguishing out-of-vocabulary speech from in-vocabulary speech
US20090070109A1 (en) * 2007-09-12 2009-03-12 Microsoft Corporation Speech-to-Text Transcription for Personal Communication Devices
CN101655837B (zh) * 2009-09-08 2010-10-13 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
CN102768583B (zh) * 2011-05-03 2016-01-20 中国移动通信集团公司 智能便携设备及其整句输入的候选词过滤方法和装置
CN102999483B (zh) * 2011-09-16 2016-04-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
FR2980289A1 (fr) * 2011-09-16 2013-03-22 Alcatel Lucent Procede de generation d'une pluralite de messages electroniques et equipement associe
CN103366741B (zh) * 2012-03-31 2019-05-17 上海果壳电子有限公司 语音输入纠错方法及系统
CN102930866B (zh) * 2012-11-05 2014-05-21 广州市神骥营销策划有限公司 一种用于口语练习的学生朗读作业的评判方法
CN103000176B (zh) * 2012-12-28 2014-12-10 安徽科大讯飞信息科技股份有限公司 语音识别方法和系统
CN103021412B (zh) * 2012-12-28 2014-12-10 安徽科大讯飞信息科技股份有限公司 语音识别方法和系统
JP2014142465A (ja) * 2013-01-23 2014-08-07 Canon Inc 音響モデル生成装置及び方法、並びに音声認識装置及び方法
CN103605642B (zh) * 2013-11-12 2016-06-15 清华大学 一种面向文本输入的自动纠错方法与系统
CN103761963A (zh) * 2014-02-18 2014-04-30 大陆汽车投资(上海)有限公司 包含情感类信息的文本的处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509566A (zh) * 2020-12-22 2021-03-16 北京百度网讯科技有限公司 一种语音识别方法、装置、设备、存储介质及程序产品
CN112509566B (zh) * 2020-12-22 2024-03-19 阿波罗智联(北京)科技有限公司 一种语音识别方法、装置、设备、存储介质及程序产品
CN117009775A (zh) * 2023-09-28 2023-11-07 苏州元脑智能科技有限公司 模型训练数据获取方法、模型训练方法和装置

Also Published As

Publication number Publication date
CN105374356B (zh) 2019-07-30
CN105374356A (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
JP2016051179A (ja) 音声認識方法、音声評価方法、音声認識システム及び音声評価システム
CN110263322B (zh) 用于语音识别的音频语料筛选方法、装置及计算机设备
CN110717031B (zh) 一种智能会议纪要生成方法和系统
US11037553B2 (en) Learning-type interactive device
CN108564953B (zh) 一种语音识别文本的标点处理方法及装置
WO2018157703A1 (zh) 自然语言的语义提取方法及装置和计算机存储介质
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN105895103A (zh) 一种语音识别方法及装置
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
JP4885160B2 (ja) 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN104199825A (zh) 一种信息查询方法和系统
JP2012194245A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
Lakomkin et al. KT-speech-crawler: Automatic dataset construction for speech recognition from YouTube videos
US9805740B2 (en) Language analysis based on word-selection, and language analysis apparatus
JP2015087544A (ja) 音声認識装置及び音声認識プログラム
CN113539234B (zh) 语音合成方法、装置、系统及存储介质
CN113539235B (zh) 文本分析与语音合成方法、装置、系统及存储介质
JP4839291B2 (ja) 音声認識装置およびコンピュータプログラム
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN114822515A (zh) 唤醒词辨识训练系统及其训练方法
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
KR20090006903A (ko) 음성 인식을 이용한 자동 번역 방법 및 장치

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151127