JP6902010B2 - 音声評価方法、装置、機器及び読み取り可能な記憶媒体 - Google Patents
音声評価方法、装置、機器及び読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP6902010B2 JP6902010B2 JP2018223934A JP2018223934A JP6902010B2 JP 6902010 B2 JP6902010 B2 JP 6902010B2 JP 2018223934 A JP2018223934 A JP 2018223934A JP 2018223934 A JP2018223934 A JP 2018223934A JP 6902010 B2 JP6902010 B2 JP 6902010B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- evaluation
- voice
- acoustic
- answer text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Description
音声評価方法であって、
評価待ち音声、及び評価標準としての答えテキストを取得することと、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することと、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定することと、を含む。
音響特徴として、前記評価待ち音声のスペクトル特徴を取得することを含むか、
または、
前記評価待ち音声のスペクトル特徴を取得することと、
音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得することと、を含む。
テキスト特徴として、前記答えテキストのベクトルを取得することを含むか、
または、
前記答えテキストのベクトルを取得することと、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得することと、を含む。
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定することを含み、前記評価待ち音声の各々フレームの音声が、前記フレームレベルアテンション行列には、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれる。
ニューラルネットワークモデルの第1完全接続層により、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴を処理することを含み、前記第1完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように配置される。
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定することと、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定することと、を含み、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれる。
ニューラルネットワークモデルの第2完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理することを含み、前記第2完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レベルアテンション行列の内部状態表示を生成するように配置される。
前記揃え情報に基づき、前記評価待ち音声と前記答えテキストとのマッチ度を確定することと、
前記マッチ度に基づき、前記評価待ち音声が前記答えテキストに対する評価結果を確定することと、を含む。
ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理することを含み、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように配置される。
ニューラルネットワークモデルの第3完全接続層により、前記マッチ度を処理することを含み、前記第3完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声が前記答えテキストに対する評価結果の内部状態表示を生成するように配置される。
評価待ち音声、及び評価標準としての答えテキストを取得するためのデータ取得手段と、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定するための揃え情報確定手段と、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するための評価結果確定手段と、を備える。
音響特徴として、前記評価待ち音声のスペクトル特徴を取得するための第1音響特徴取得サブ手段を備えるか、
または、
前記評価待ち音声のスペクトル特徴を取得するための第2音響特徴取得サブ手段と、
音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得するための第3音響特徴取得サブ手段と、を備える。
テキスト特徴として、前記答えテキストのベクトルを取得するための第1テキスト特徴取得サブ手段を備えるか、
または、
前記答えテキストのベクトルを取得するための第2テキスト特徴取得サブ手段と、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得するための第3テキスト特徴取得サブ手段と、を備える。
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定するためのフレームレベルアテンション行列確定手段を備え、前記フレームレベルアテンション行列には、前記評価待ち音声の各々フレームの音声が、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれる。
ニューラルネットワークモデルの第1完全接続層により、前記音響特徴と前記テキスト特徴を処理するための第1完全接続層処理手段を備え、前記第1完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように、配置される。
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定するための単語レベル音響揃え行列確定手段と、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定するための単語レベルアテンション行列確定手段を備え、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれる。
ニューラルネットワークモデルの第2完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理するための第2完全接続層処理手段を備え、前記第2完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レ
ベルアテンション行列の内部状態表示を生成するように配置される。
前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定するためのマッチ度確定手段と、
前記マッチ度に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するためのマッチ度応用手段と、を備える。
ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理するための畳み込み手段処理手段を備え、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように、配置される。
ニューラルネットワークモデルの第3完全接続層により、前記マッチ度を処理するための第3完全接続層処理手段を備え、前記第3完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声が前記答えテキストに対する評価結果の内部状態表示を生成するように配置される。
プログラムを記憶するためのメモリと、
前記に記載の音声評価方法の各々ステップを実現するように、前記プログラムを実行するためのプロセッサーと、を備える。
ステップS100で、評価待ち音声、及び評価標準としての答えテキストを取得する。
あってもよく、同じく、テキスト特徴のタイプも多種であってもよい。
オプショナルな形態であって、評価待ち音声のスペクトル特徴を直接的に取得するとともに、当該スペクトル特徴を評価待ち音声の音響特徴としてもよい。
tualLinear Predictive、PLP)特徴などが含まれてもよい。
ゲート付き回帰ユニット)などである。
なお、ht(t=1,2,…,T)は、第tフレームの音声の音響特徴を示し、且つ各々のフレームの音響特徴の次元をそのまま保持して、m次元に定義する。
オプショナルな形態であって、答えテキストのベクトルを直接的に取得するとともに、当該ベクトルを答えテキストのテキスト特徴としてもよい。
ューラルネットワーク)、LSTM(LongShort-Term Memory、長短期記憶リカレントニューラルネットワーク)、GRU(GatedRecurrent
Unit、ゲート付き回帰ユニット)などである。
なお、si(i=1,2,…,C)は第i個のテキストユニットのテキスト特徴を示し、且つ各々のテキストユニットのテキスト特徴の次元をそのまま保持して、n次元に定義する。
なお、eitは、第i個のテキストユニットのテキスト特徴と第tフレーム音声の音響特徴との揃え情報を示し、aitは、第i個のテキストユニットに対して、第tフレームの音声が当該第i個のテキストユニットに対する揃え確率を示し、siは、第i個のテキストユニットのテキスト特徴を示し、n次元のベクトルであり、htは、第tフレームの音声の音響特徴を示し、m次元のベクトルであり、W,V,w,bは四つのパラメータであり、Wは、k*n次元の行列であってもよく、Vは、k*m次元の行列であってもよく、wは、k次元のベクトルであってもよく、これらの三つのパラメータは特徴マッピングに用いられ、bはバイアスであり、k次元のベクトルであってもよい。
本実施例において、アテンションメカニズムに基づき、ニューラルネットワークモデルによりフレームレベルアテンション行列を確定するオプショナルな形態を提供し、具体的には、以下のことを含んでもよい。
ニューラルネットワークモデルの第1完全接続層により、前記音響特徴と前記テキスト特徴を処理し、前記第1完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように配置される。
1.前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定し、前記単語レベル音響揃え行列には、前記答えテキストの各々のテキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれる。
aitとhtの意味は前文の紹介を参照すればよい。
前記単語レベル音響揃え行列は、以下のように示されてもよく、即ち、
ci(i=1,2,…,C)は第i個のテキストユニットの音響揃え情報を示し、ciはm次元である。
Kijは、第i個のテキストユニットの音響特徴と第j個のテキストユニットのテキスト特徴との揃え情報を示し、Iijは、第i個のテキストユニットの音響情報が第j個のテキストユニットのテキスト特徴に対する揃え確率を示し、sj Tはsjの転置であり、ciは、第i個のテキストユニットの音響揃え情報を示し、sjは、第j個のテキストユニットのテキスト特徴を示し、Uはパラメータであり、単語レベル音響揃え特徴を、テキスト特徴の同じ次元にマッピングすることで、ドット積演算を行うために用いられる。
本実施例において、アテンションメカニズムに基づき、ニューラルネットワークモデルにより、単語レベルアテンション行列を確定するオプショナルな実施形態を提供し、具体的には、以下のことを含んでもよい。
ニューラルネットワークモデルの第2完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理し、前記第2完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レベルアテンション行列の内部状態表示を生成するように配置される。
1)、前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定する。
ル予測得点であり、ziとzi+1は、トレーニングデータにおいて、第i個と第i+1
個のサンプルの人工評価得点である。
評価待ち音声及び評価標準としての答えテキストを取得するためのデータ取得手段11
と、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定するための揃え情報確定手段12と、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するための評価結果確定手段13と、を備える。
音響特徴として、前記評価待ち音声のスペクトル特徴を取得するための第1音響特徴取得サブ手段を備えるか、
または、
前記評価待ち音声のスペクトル特徴を取得するための第2音響特徴取得サブ手段と、
音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得するための第3音響特徴取得サブ手段と、を備える。
テキスト特徴として、前記答えテキストのベクトルを取得するための第1テキスト特徴取得サブ手段を備えるか、
または、
前記答えテキストのベクトルを取得するための第2テキスト特徴取得サブ手段と、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得するための第3テキスト特徴取得サブ手段と、を備える。
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定するためのフレームレベルアテンション行列確定手段を備え、前記フレームレベルアテンション行列には、前記評価待ち音声の各々フレームの音声が、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれる。
ニューラルネットワークモデルの第1完全接続層により、前記音響特徴と前記テキスト特徴を処理するための第1完全接続層処理手段を備え、前記第1完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように、配置される。
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定するための単語レベル音響揃え行列確定手段と、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定するための単語レベルアテンション行列確定手段を備え、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれる。
ニューラルネットワークモデルの第2完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理するための第2完全接続層処理手段を備え、前記第2完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レベルアテンション行列の内部状態表示を生成するように配置される。
前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定するためのマッチ度確定手段と、
前記マッチ度に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するためのマッチ度応用手段と、を備える。
ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理するための畳み込み手段処理手段を備え、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように、配置される。
ニューラルネットワークモデルの第3完全接続層により、前記マッチ度を処理するための第3完全接続層処理手段を備え、前記第3完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声が前記答えテキストに対する評価結果の内部状態表示を生成するように配置される。
本出願の実施例において、プロセッサー1、通信インターフェース2、メモリ3、通信バス4の数は少なくとも一つであり、且つプロセッサー1、通信インターフェース2、メモリ3は通信バス4により、互いの通信を完成し、
プロセッサー1は、中央演算処理装置CPUまたは特定用途向け集積回路ASIC(Application Specific Integrated Circuit)、
または、本発明の実施例を実施するように配置される一つまたは複数の集積回路などのものである可能性があり、
メモリ3には、高速RAMメモリが含まれるか、さらに不揮発性メモリ(non−volatilememory)など、例えば、少なくとも一つの磁気ディスクメモリが含まれる可能性があり、
メモリにはプログラムが記憶され、プロセッサーはメモリに記憶されるプログラムを呼び出すことができ、前記プログラムは、
評価待ち音声及び評価標準としての答えテキストを取得し、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定し、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するようにする。
評価待ち音声及び評価標準としての答えテキストを取得し、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定し、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するようにする。
Claims (15)
- 音声評価方法であって、
評価待ち音声、及び評価標準としての答えテキストを取得することと、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することと、
前記揃え情報に基づき、前記評価待ち音声の前記答えテキストに対する評価結果を確定することと、を含み、
前記テキスト特徴は、前記答えテキストのテキスト情報を反映し、
前記答えテキストのテキスト特徴を取得する過程は、
テキスト特徴として、前記答えテキストのベクトルを取得することを含むか、
または、
前記答えテキストのベクトルを取得することと、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得することと、を含む、
ことを特徴とする方法。 - 前記評価待ち音声の音響特徴を取得する過程は、
音響特徴として、前記評価待ち音声のスペクトル特徴を取得することを含むか、
または、
前記評価待ち音声のスペクトル特徴を取得することと、
音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得することと、を含むことを特徴とする請求項1に記載の方法。 - 前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することは、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定することを含み、前記フレームレベルアテンション行列には、前記評価待ち音声の各々フレームの音声が、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれることを特徴とする請求項1に記載の方法。 - 前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定することは、
ニューラルネットワークモデルの第1完全接続層により、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴を処理することを含み、前記第1完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように配置されることを特徴とする請求項3に記載の方法。 - 前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することは、さらに、
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定することと、
前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定することと、を含み、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれることを特徴とする請求項3に記載の方法。 - 前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定することは、
ニューラルネットワークモデルの第2完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理することを含み、前記第2完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レベルアテンション行列の内部状態表示を生成するように配置されることを特徴とする請求項5に記載の方法。 - 前記揃え情報に応じて、前記評価待ち音声の前記答えテキストに対する評価結果を確定することは、
前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定することと、
前記マッチ度に応じて、前記評価待ち音声の前記答えテキストに対する評価結果を確定することと、を含むことを特徴とする請求項1〜6のいずれか一項に記載の方法。 - 前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定することは、
ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理することを含み、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように配置されることを特徴とする請求項7に記載の方法。 - 前記マッチ度に基づき、前記評価待ち音声の前記答えテキストに対する評価結果を確定することは、
ニューラルネットワークモデルの第3完全接続層により、前記マッチ度を処理することを含み、前記第3完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声の前記答えテキストに対する評価結果の内部状態表示を生成するように配置されることを特徴とする請求項7に記載の方法。 - 音声評価装置であって、
評価待ち音声、及び評価標準としての答えテキストを取得するためのデータ取得手段と、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定するための揃え情報確定手段と、
前記揃え情報に応じて、前記評価待ち音声の前記答えテキストに対する評価結果を確定するための評価結果確定手段と、を備え、
前記テキスト特徴は、前記答えテキストのテキスト情報を反映し、
前記データ取得手段は、
テキスト特徴として、前記答えテキストのベクトルを取得するか、
または、
前記答えテキストのベクトルを取得し、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得する、
ことを特徴とする装置。 - 前記揃え情報確定手段は、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定するためのフレームレベルアテンション行列確定手段を備え、前記フレームレベルアテンション行列には、前記評価待ち音声の各々フレームの音声が、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれることを特徴とする請求項10に記載の装置。 - 前記揃え情報確定手段はさらに、
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定するための単語レベル音響揃え行列確定手段と、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定するための単語レベルアテンション行列確定手段を備え、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれることを特徴とする請求項11に記載の装置。 - 前記評価結果確定手段は、
前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定するためのマッチ度確定手段と、
前記マッチ度に応じて、前記評価待ち音声の前記答えテキストに対する評価結果を確定するためのマッチ度応用手段と、を備えることを特徴とする請求項10〜12のいずれか一項に記載の装置。 - 音声評価機器であって、
プログラムを記憶するためのメモリと、
請求項1〜9のいずれか一項に記載の音声評価方法の各ステップを実現するように、前記プログラムを実行するためのプロセッサーと、を備えることを特徴とする機器。 - コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサーにより実行される場合に、請求項1〜9のいずれか一項に記載の音声評価方法の各ステップを実現することを特徴とするコンピュー
タプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811162964.0A CN109215632B (zh) | 2018-09-30 | 2018-09-30 | 一种语音评测方法、装置、设备及可读存储介质 |
CN201811162964.0 | 2018-09-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020056982A JP2020056982A (ja) | 2020-04-09 |
JP6902010B2 true JP6902010B2 (ja) | 2021-07-14 |
Family
ID=64982845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018223934A Active JP6902010B2 (ja) | 2018-09-30 | 2018-11-29 | 音声評価方法、装置、機器及び読み取り可能な記憶媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6902010B2 (ja) |
CN (1) | CN109215632B (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100704542B1 (ko) * | 2006-09-12 | 2007-04-09 | 주식회사 보경이엔지건축사사무소 | 냉난방 효율을 증대시켜줄 수 있는 공동주택용 전실보조도어 |
CN111027794B (zh) * | 2019-03-29 | 2023-09-26 | 广东小天才科技有限公司 | 一种听写作业的批改方法及学习设备 |
CN109979482B (zh) * | 2019-05-21 | 2021-12-07 | 科大讯飞股份有限公司 | 一种针对音频的评测方法及装置 |
CN110223689A (zh) * | 2019-06-10 | 2019-09-10 | 秒针信息技术有限公司 | 语音信息的优化能力的确定方法及装置、存储介质 |
CN110600006B (zh) * | 2019-10-29 | 2022-02-11 | 福建天晴数码有限公司 | 一种语音识别的评测方法及系统 |
CN110782917B (zh) * | 2019-11-01 | 2022-07-12 | 广州美读信息技术有限公司 | 一种诗词吟诵风格的分类方法与系统 |
CN111128120B (zh) * | 2019-12-31 | 2022-05-10 | 思必驰科技股份有限公司 | 文本转语音方法和装置 |
CN113707178B (zh) * | 2020-05-22 | 2024-02-06 | 苏州声通信息科技有限公司 | 音频评测方法及装置、非瞬时性存储介质 |
CN111652165B (zh) * | 2020-06-08 | 2022-05-17 | 北京世纪好未来教育科技有限公司 | 口型评测方法、设备及计算机存储介质 |
CN111862957A (zh) * | 2020-07-14 | 2020-10-30 | 杭州芯声智能科技有限公司 | 一种单声道语音关键词低功耗实时检测方法 |
CN112256841B (zh) * | 2020-11-26 | 2024-05-07 | 支付宝(杭州)信息技术有限公司 | 文本匹配和对抗文本识别方法、装置及设备 |
CN113379234A (zh) * | 2021-06-08 | 2021-09-10 | 北京猿力未来科技有限公司 | 评价结果的生成方法及装置 |
CN113707148B (zh) * | 2021-08-05 | 2024-04-19 | 中移(杭州)信息技术有限公司 | 语音识别准确率的确定方法、装置、设备以及介质 |
CN113506585A (zh) * | 2021-09-09 | 2021-10-15 | 深圳市一号互联科技有限公司 | 一种语音通话的质量评估方法及系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05333896A (ja) * | 1992-06-01 | 1993-12-17 | Nec Corp | 会話文認識方式 |
US8231389B1 (en) * | 2004-04-29 | 2012-07-31 | Wireless Generation, Inc. | Real-time observation assessment with phoneme segment capturing and scoring |
JP2008052178A (ja) * | 2006-08-28 | 2008-03-06 | Toyota Motor Corp | 音声認識装置と音声認識方法 |
JP5834291B2 (ja) * | 2011-07-13 | 2015-12-16 | ハイウエア株式会社 | 音声認識装置、自動応答方法及び、自動応答プログラム |
CN104347071B (zh) * | 2013-08-02 | 2020-02-07 | 科大讯飞股份有限公司 | 生成口语考试参考答案的方法及系统 |
JP6217304B2 (ja) * | 2013-10-17 | 2017-10-25 | ヤマハ株式会社 | 歌唱評価装置およびプログラム |
CN104361895B (zh) * | 2014-12-04 | 2018-12-18 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
CN104810017B (zh) * | 2015-04-08 | 2018-07-17 | 广东外语外贸大学 | 基于语义分析的口语评测方法和系统 |
JP6674706B2 (ja) * | 2016-09-14 | 2020-04-01 | Kddi株式会社 | 学習者の口述音声から自動的に採点するプログラム、装置及び方法 |
CN108154735A (zh) * | 2016-12-06 | 2018-06-12 | 爱天教育科技(北京)有限公司 | 英语口语测评方法及装置 |
CN106847260B (zh) * | 2016-12-20 | 2020-02-21 | 山东山大鸥玛软件股份有限公司 | 一种基于特征融合的英语口语自动评分方法 |
US20190362703A1 (en) * | 2017-02-15 | 2019-11-28 | Nippon Telegraph And Telephone Corporation | Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program |
CN110444199B (zh) * | 2017-05-27 | 2022-01-07 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
CN107818795B (zh) * | 2017-11-15 | 2020-11-17 | 苏州驰声信息科技有限公司 | 一种英语口语的测评方法及装置 |
CN109192224B (zh) * | 2018-09-14 | 2021-08-17 | 科大讯飞股份有限公司 | 一种语音评测方法、装置、设备及可读存储介质 |
-
2018
- 2018-09-30 CN CN201811162964.0A patent/CN109215632B/zh active Active
- 2018-11-29 JP JP2018223934A patent/JP6902010B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN109215632A (zh) | 2019-01-15 |
CN109215632B (zh) | 2021-10-08 |
JP2020056982A (ja) | 2020-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6902010B2 (ja) | 音声評価方法、装置、機器及び読み取り可能な記憶媒体 | |
WO2021104099A1 (zh) | 一种基于情景感知的多模态抑郁症检测方法和系统 | |
CN110021308B (zh) | 语音情绪识别方法、装置、计算机设备和存储介质 | |
CN110223673B (zh) | 语音的处理方法及装置、存储介质、电子设备 | |
US20170358306A1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
TW574684B (en) | Method and system for speech recognition | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN106295717B (zh) | 一种基于稀疏表示和机器学习的西洋乐器分类方法 | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
KR20080023030A (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
CN112017694B (zh) | 语音数据的评测方法和装置、存储介质和电子装置 | |
CN107767881B (zh) | 一种语音信息的满意度的获取方法和装置 | |
CN111640456A (zh) | 叠音检测方法、装置和设备 | |
US20230070000A1 (en) | Speech recognition method and apparatus, device, storage medium, and program product | |
JPWO2017146073A1 (ja) | 声質変換装置、声質変換方法およびプログラム | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
CN112687291A (zh) | 一种发音缺陷识别模型训练方法以及发音缺陷识别方法 | |
CN117711444B (zh) | 一种基于口才表达的互动方法、装置、设备及存储介质 | |
CN108538292A (zh) | 一种语音识别方法、装置、设备及可读存储介质 | |
CN114708857A (zh) | 语音识别模型训练方法、语音识别方法及相应装置 | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
CN111833842A (zh) | 合成音模板发现方法、装置以及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200204 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200430 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200619 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20201110 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210309 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20210309 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210310 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20210427 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20210511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210608 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210618 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6902010 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |