JP6902010B2

JP6902010B2 - 音声評価方法、装置、機器及び読み取り可能な記憶媒体

Info

Publication number: JP6902010B2
Application number: JP2018223934A
Authority: JP
Inventors: ジン，ハイ; ウー，クイ; フー，ヤン; ジュー，チュン; ジュー，ボー; ウェイ，スー
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-09-30
Filing date: 2018-11-29
Publication date: 2021-07-14
Anticipated expiration: 2038-11-29
Also published as: CN109215632A; CN109215632B; JP2020056982A

Description

本願は、音声処理の技術分野に関して、より具体的には、音声評価方法、装置、機器及び読み取り可能な記憶媒体に関する。

教育改革の深化に従って、口頭試験が全国各地で展開されている。筆記試験に対して、口頭試験は受験生の口頭水準を評価できる。

従来の口頭試験は、専門教師により、問題に対応する正確な答え情報に応じて、受験生の答えを評価することが一般的であった。このような人工による評価の方法は、人間の主観影響を受けやすく、評価結果に人為的な干渉を及ぼし、且つ大量の人件費を消費することにつながる。

これに鑑み、本願は、従来において、人工により口頭試験評価を行う方法に存在する欠陥を解決するための音声評価方法、装置、機器及び読み取り可能な記憶媒体を提供する。

前記目的を実現するために、以下のような方案を提出し、即ち、
音声評価方法であって、
評価待ち音声、及び評価標準としての答えテキストを取得することと、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することと、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定することと、を含む。

好ましくは、前記評価待ち音声の音響特徴を取得する過程は、
音響特徴として、前記評価待ち音声のスペクトル特徴を取得することを含むか、
または、
前記評価待ち音声のスペクトル特徴を取得することと、
音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得することと、を含む。

好ましくは、前記答えテキストのテキスト特徴を取得する過程は、
テキスト特徴として、前記答えテキストのベクトルを取得することを含むか、
または、
前記答えテキストのベクトルを取得することと、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得することと、を含む。

好ましくは、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することは、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定することを含み、前記評価待ち音声の各々フレームの音声が、前記フレームレベルアテンション行列には、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれる。

好ましくは、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定することは、
ニューラルネットワークモデルの第１完全接続層により、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴を処理することを含み、前記第１完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように配置される。

好ましくは、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することは、さらに、
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定することと、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定することと、を含み、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれる。

好ましくは、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定することは、
ニューラルネットワークモデルの第２完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理することを含み、前記第２完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レベルアテンション行列の内部状態表示を生成するように配置される。

好ましくは、前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定することは、
前記揃え情報に基づき、前記評価待ち音声と前記答えテキストとのマッチ度を確定することと、
前記マッチ度に基づき、前記評価待ち音声が前記答えテキストに対する評価結果を確定することと、を含む。

好ましくは、前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定することは、
ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理することを含み、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように配置される。

好ましくは、前記マッチ度に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定することは、
ニューラルネットワークモデルの第３完全接続層により、前記マッチ度を処理することを含み、前記第３完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声が前記答えテキストに対する評価結果の内部状態表示を生成するように配置される。

音声評価装置であって、
評価待ち音声、及び評価標準としての答えテキストを取得するためのデータ取得手段と、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定するための揃え情報確定手段と、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するための評価結果確定手段と、を備える。

好ましくは、さらに、音響特徴取得手段を有し、前記音響特徴取得手段は、
音響特徴として、前記評価待ち音声のスペクトル特徴を取得するための第１音響特徴取得サブ手段を備えるか、
または、
前記評価待ち音声のスペクトル特徴を取得するための第２音響特徴取得サブ手段と、
音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得するための第３音響特徴取得サブ手段と、を備える。

好ましくは、さらにテキスト特徴取得手段を有し、前記テキスト特徴取得手段は、
テキスト特徴として、前記答えテキストのベクトルを取得するための第１テキスト特徴取得サブ手段を備えるか、
または、
前記答えテキストのベクトルを取得するための第２テキスト特徴取得サブ手段と、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得するための第３テキスト特徴取得サブ手段と、を備える。

好ましくは、前記揃え情報確定手段は、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定するためのフレームレベルアテンション行列確定手段を備え、前記フレームレベルアテンション行列には、前記評価待ち音声の各々フレームの音声が、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれる。

好ましくは、前記フレームレベルアテンション行列確定手段は、
ニューラルネットワークモデルの第１完全接続層により、前記音響特徴と前記テキスト特徴を処理するための第１完全接続層処理手段を備え、前記第１完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように、配置される。

好ましくは、前記揃え情報確定手段はさらに、
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定するための単語レベル音響揃え行列確定手段と、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定するための単語レベルアテンション行列確定手段を備え、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれる。

好ましくは、前記単語レベルアテンション行列確定手段は、
ニューラルネットワークモデルの第２完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理するための第２完全接続層処理手段を備え、前記第２完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レ
ベルアテンション行列の内部状態表示を生成するように配置される。

好ましくは、前記評価結果確定手段は、
前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定するためのマッチ度確定手段と、
前記マッチ度に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するためのマッチ度応用手段と、を備える。

好ましくは、前記マッチ度確定手段は、
ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理するための畳み込み手段処理手段を備え、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように、配置される。

好ましくは、前記マッチ度応用手段は、
ニューラルネットワークモデルの第３完全接続層により、前記マッチ度を処理するための第３完全接続層処理手段を備え、前記第３完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声が前記答えテキストに対する評価結果の内部状態表示を生成するように配置される。

音声評価機器であって、
プログラムを記憶するためのメモリと、
前記に記載の音声評価方法の各々ステップを実現するように、前記プログラムを実行するためのプロセッサーと、を備える。

コンピュータプログラムが記憶される読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサーにより実行される場合に、前記に記載の音声評価方法の各々ステップを実現する。

前記の技術案から分かるように、本出願の実施例に提供される音声評価方法は、評価待ち音声及び評価標準としての答えテキストを取得し、評価待ち音声の音響特徴と答えテキストのテキスト特徴に基づき、評価待ち音声と答えテキストとの揃え情報を確定でき、理解できるのは、揃え情報は、評価待ち音声と答えテキストとの揃え関係を表明し、さらに、揃え情報に応じて、評価待ち音声が答えテキストに対する評価結果を自動的に確定することを実現する。人工による評価を必要としないから、人間の主観影響が評価結果に対する干渉を避けるとともに、人件費の消費を減少させる。

本出願の実施例または従来技術における技術案をより明らかに説明するために、以下は、実施例または従来技術に対する説明において利用する必要が有る図面を簡単に紹介し、明らかに、以下に説明される図面は、本出願の実施例に過ぎず、当業者にとって、進歩性に値する労働をしない前提で、提供される図面に応じて、他の図面を取得できる。
本出願の実施例に開示される音声評価方法のフローチャートである。ニューラルネットワークモデルにより音声評価を行うフローの模式図を例示する。他のニューラルネットワークモデルにより、音声評価を行うフローの模式図を例示する。本出願の実施例に開示される音声評価装置の構成の模式図である。本出願の実施例に開示される音声評価機器のハードウェア構成のブロック図である。

以下は、本出願の実施例の図面を結合し、本出願の実施例における技術案に対して、明瞭で、完全な説明を行って、明らかに、説明される実施例は全ての実施例ではなく、本出願の一部の実施例のみである。本出願における実施例に基づき、当業者が進歩性に値する労働をしない前提で取得される他の全ての実施例は、いずれも本出願の保護範囲に属する。

従来の口頭評価は人工により、評価結果に人為的な干渉を及ぼし、且つ人件費を浪費するという問題を解決するために、本出願の発明者は、一つの解決方案を提出し、つまり、音声識別モデルにより、評価待ち音声を識別することで、識別テキストを得て、答えテキストからキーワードを抽出し、さらに、識別テキストがキーワードに対するヒット率を算出し、当該ヒット率に応じて、評価待ち音声の評価結果を確定し、ヒット率が高いほど、評価得点が高くなると確定できる。

但し、さらに研究することで、以下の問題を発見し、即ち、発明者が提出した前記解決方案は、まず評価待ち音声をテキストに識別する必要が有るから、当該過程は音声識別モデルを利用する。汎用の音声識別モデルにより、異なる試験シーンの評価待ち音声を識別すると、識別の正確率が低いという問題が存在し、評価結果の不正確を招く。異なる試験シーンに対してそれぞれ音声識別モデルをトレーニングすると、試験ごとに人手を予め手配し、トレーニングデータの採点を行う必要が有り、大量の人件費を費やす恐れがある。

これに基づき、本案の発明者はさらに研究し、最終的に、評価待ち音声と答えテキストとの揃え情報（アライメント情報）を自発的に探すという観点から出発し、自動的な音声評価を実現した。本出願の音声評価方法は、データ処理能力を有する電子機器により実現でき、例えば、インテリジェント端末、サーバー、クラウドプラットフォームなどである。

本出願の音声評価の方案は、口頭試験の評価シーン、及び発音水準を評価することに関する他のシーンに適用されることができる。

次は、図１を結合し、本出願の音声評価方法を説明し、当該方法は、以下のステップを含む。
ステップＳ１００で、評価待ち音声、及び評価標準としての答えテキストを取得する。

具体的には、口頭試験のシーンを例として、評価待ち音声は受験生からの口頭答えの録音であってもよい。対応的に、本実施例において、評価標準としての答えテキストを予め設定してもよい。資料閲読の口頭試験の問題を例として、評価標準としての答えテキストは、閲読資料から抽出されるテキスト情報であってもよい。その以外、他のタイプ問題の口頭試験に対して、評価標準としての答えテキストは、問題に対応する答え内容であってもよい。

当該ステップにおいて、評価待ち音声の取得方式は、録音機器により受信することであってもよく、録音機器は、マイク、例えばヘッドセットマイクを有してもよい。

ステップＳ１１０で、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定する。

なお、評価待ち音声の音響特徴は、評価待ち音声の音響情報を反映する。答えテキストのテキスト特徴は、答えテキストのテキスト情報を反映する。音響特徴のタイプは多種で
あってもよく、同じく、テキスト特徴のタイプも多種であってもよい。

本実施例において、音響特徴とテキスト特徴に基づき、評価待ち音声と答えテキストとの揃え情報を自発的に探し、当該揃え情報は、評価待ち音声と答えテキストとの揃え関係を反映する。理解できるのは、評価標準に合致する評価待ち音声にとって、答えテキストとの揃えの整合性も高いはずであり、逆に、評価標準に合致しない評価待ち音声にとって、答えテキストとの揃えの整合性が低い。

ステップＳ１２０で、前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定する。

前記論述から分かるように、揃え情報は評価待ち音声と答えテキストとの揃え関係を反映し、それは評価待ち音声が評価標準に合致するかどうか、及び評価標準に合致する程度に関するから、当該ステップにおいて、揃え情報に応じて、評価待ち音声が答えテキストに対する評価結果を確定できる。

本出願の実施例に提供される音声評価方法は、揃え情報に応じて、評価待ち音声が答えテキストに対する評価結果を自動的に確定することを実現できる。人工による評価を必要としないから、人間の主観影響が評価結果に対する干渉を避けるとともに、人件費の消費を減少させる。

さらに、本案は、評価待ち音声と答えテキストとの揃え情報を自発的に探すという観点から出発し、評価結果を確定するため、音声識別モデルによる評価待ち音声に対する音声識別、及び識別テキストと答えテキストとのキーワードのヒット率に対する算出を必要としないから、音声識別結果が不正確であることによる評価結果の不正確という問題を避け、その音声評価結果がより正確になり、且つ方案は各種の音声評価シーンに適用され、ロバスト性がより強くなり、トレーニングデータを確定するように、余分に人力を費やして異なるシーンで採点する必要がなく、人件費を節約する。

本出願の他の実施例において、前記ステップＳ１１０に言及された、評価待ち音声の音響特徴、及び答えテキストのテキスト特徴を取得する過程を紹介する。

まずは、評価待ち音声の音響特徴を取得する過程を紹介し、
オプショナルな形態であって、評価待ち音声のスペクトル特徴を直接的に取得するとともに、当該スペクトル特徴を評価待ち音声の音響特徴としてもよい。

スペクトル特徴には、メル周波数ケプストラム係数(ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ、ＭＦＣＣ)特徴または知覚線形予測(Ｐｅｒｃｅｐ
ｔｕａｌＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ、ＰＬＰ)特徴などが含まれてもよい。

説明を便利にするために、評価待ち音声にはＴフレームが含まれるように定義する。

そうすると、評価待ち音声のスペクトル特徴を取得する場合に、まずは評価待ち音声に対してフレーミング処理を行って、フレーミングされた後の評価待ち音声に対してプリエンファシスを行って、各々のフレームの音声のスペクトル特徴を抽出してもよい。

他のオプショナルな形態であって、評価待ち音声のスペクトル特徴を取得し、さらに、音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得してもよい。

ここで、ニューラルネットワークモデルは、多種の構成形式を採用してもよく、例えば、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、リカレントニューラルネットワーク）、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ-ＴｅｒｍＭｅｍｏｒｙ、長短期記憶リカレントニューラルネットワーク）、ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ、
ゲート付き回帰ユニット）などである。

ニューラルネットワークモデルの隠れ層により、スペクトル特徴を変換することで、スペクトル特徴に対して深度マッピングを行うことができ、得られた隠れ層特徴が、スペクトル特徴より、階層が深くて、評価待ち音声の音響特性をより表現するから、隠れ層特徴を音響特徴とすることができる。

音響特徴は、以下のような行列形式で示されてもよく、即ち、

なお、ｈ_ｔ（ｔ＝１，２，…，Ｔ）は、第ｔフレームの音声の音響特徴を示し、且つ各々のフレームの音響特徴の次元をそのまま保持して、ｍ次元に定義する。

さらに、評価待ち音声のテキスト特徴を取得する過程を紹介し、
オプショナルな形態であって、答えテキストのベクトルを直接的に取得するとともに、当該ベクトルを答えテキストのテキスト特徴としてもよい。

答えテキストのベクトルは、答えテキストを構成するテキストユニットの単語ベクトルの組み合わせ、または、テキストユニットの単語ベクトルが一定の演算処理を経た後のベクトル結果であってもよい。例えば、テキストユニットのベクトル結果として、ニューラルネットワークモデルにより、テキストユニットの単語ベクトルから、隠れ層特徴を抽出する。テキストユニットの単語ベクトルの表示方法は、特に限定されず、例えば、ｏｎｅ‐ｈｏｔまたはｅｍｂｅｄｄｉｎｇという方法で、単語ベクトルを示してもよい。

さらに、答えテキストのテキストユニットは、自由に設定されてもよく、例えば、単語レベル、音素レベルまたは語根レベルのテキストユニットを利用してもよい。

説明を便利にするために、答えテキストにはＣ個のテキストユニットが含まれるように定義する。

そうすると、答えテキストの各テキストユニットに対して、その単語ベクトルを取得し、最終的に、Ｃ個のテキストユニットの単語ベクトルに応じて、答えテキストのテキスト特徴を確定できる。

他のオプショナルな形態であって、答えテキストのベクトルを取得でき、さらに、テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得できる。

以上と同じように、ニューラルネットワークモデルは、多種の構成形式を採用してもよく、例えば、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、リカレントニ
ューラルネットワーク）、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ-ＴｅｒｍＭｅｍｏｒｙ、長短期記憶リカレントニューラルネットワーク）、ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔ
Ｕｎｉｔ、ゲート付き回帰ユニット）などである。

ニューラルネットワークモデルの隠れ層により、答えテキストのベクトルを変換することで、答えテキストのベクトルに対して、深度マッピングを行うことができ、得られた隠れ層特徴が、答えテキストのベクトルより階層が深くて、答えテキストのテキスト特性をより表現できるから、隠れ層特徴をテキスト特徴としてもよい。

テキスト特徴は、以下のような行列形式で、示されてもよく、即ち、

なお、ｓ_ｉ（ｉ＝１，２，…，Ｃ）は第ｉ個のテキストユニットのテキスト特徴を示し、且つ各々のテキストユニットのテキスト特徴の次元をそのまま保持して、ｎ次元に定義する。

本出願の他の実施例において、前記ステップＳ１１０において、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定する過程を紹介する。

本実施例において、評価待ち音声の音響特徴と答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定してもよく、当該フレームレベルアテンション行列には、答えテキストのいずれか一つのテキストユニットに対して、評価待ち音声の各々フレームの音声が前記テキストユニットに対する揃え確率が含まれる。

前記確定されたフレームレベルアテンション行列を、評価待ち音声と答えテキストとの揃え情報としてもよい。次は、式により、前記揃え確率を説明し、

なお、ｅ_ｉｔは、第ｉ個のテキストユニットのテキスト特徴と第ｔフレーム音声の音響特徴との揃え情報を示し、ａ_ｉｔは、第ｉ個のテキストユニットに対して、第ｔフレームの音声が当該第ｉ個のテキストユニットに対する揃え確率を示し、ｓ_ｉは、第ｉ個のテキストユニットのテキスト特徴を示し、ｎ次元のベクトルであり、ｈ_ｔは、第ｔフレームの音声の音響特徴を示し、ｍ次元のベクトルであり、Ｗ，Ｖ，ｗ，ｂは四つのパラメータであり、Ｗは、ｋ*ｎ次元の行列であってもよく、Ｖは、ｋ*ｍ次元の行列であってもよく、ｗは、ｋ次元のベクトルであってもよく、これらの三つのパラメータは特徴マッピングに用いられ、ｂはバイアスであり、ｋ次元のベクトルであってもよい。

前記フレームレベルアテンション行列は、以下のような形式に示されてもよく、即ち、

本実施例において、アテンションメカニズムに基づき、ニューラルネットワークモデルによりフレームレベルアテンション行列を確定するオプショナルな形態を提供し、具体的には、以下のことを含んでもよい。
ニューラルネットワークモデルの第１完全接続層により、前記音響特徴と前記テキスト特徴を処理し、前記第１完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように配置される。

なお、ニューラルネットワークモデルの第１完全接続層は、前記ｅ_ｉｔとａ_ｉｔの式の形式に示されてもよい。Ｗ，Ｖ，ｗ，ｂの四つのパラメータを第１完全接続層のパラメータとする。ニューラルネットワークモデルを反復トレーニングすることで、モデルのトレーニングを終了させた後に、四つのパラメータが固定されるまで、前記四つのパラメータを反復更新することができる。

本実施例により確定された、揃え情報としてのフレームレベルアテンション行列には、前記評価待ち音声の各々のフレームの音声が答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれ、つまり、評価待ち音声のフレームレベルの揃え情報が得られ、当該フレームレベルアテンション行列は、評価待ち音声が評価標準に合致する程度に関するから、後続において、当該フレームレベルアテンション行列に基づき、評価待ち音声が答えテキストに対する評価結果を確定できる。

さらに、異なるユーザの話すスピードの差異を考慮すると、同一の答えテキストを表現する場合に、異なるユーザによる音声の持続時間が違う可能性があり、さらに音声に含まれるフレームの数の異なる。前記方案に応じて確定された、揃え情報としてのフレームレベルアテンション行列は、フレームの数の違いで、フレームレベルアテンション行列の違いを招き、さらに、フレームレベルアテンション行列に基づき確定される評価結果も違う。しかし実際の状況において、異なるユーザにより表現されるのは、同一の答えテキストであるため、その評価結果は同じであるべきである。この問題に基づき、本実施例は他の、揃え情報を確定する方案を提供する。

前記実施例に紹介されたように、評価待ち音声の音響特徴と答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を得た上で、本実施例はさらに、以下のような処理ステップを追加し、即ち、
１．前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定し、前記単語レベル音響揃え行列には、前記答えテキストの各々のテキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれる。

具体的には、単語レベル音響揃え行列において、第ｉ個のテキストユニットに揃える音響情報の表現方式は以下の通りであり、即ち、

ａ_ｉｔとｈ_ｔの意味は前文の紹介を参照すればよい。
前記単語レベル音響揃え行列は、以下のように示されてもよく、即ち、

ｃ_ｉ（ｉ＝１，２，…，Ｃ）は第ｉ個のテキストユニットの音響揃え情報を示し、ｃ_ｉはｍ次元である。

２．前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定し、前記単語レベルアテンション行列には、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対して、前記答えテキストの各々テキストユニットの音響特徴がそれに対する揃え確率が含まれる。

当該ステップにより確定された単語レベルアテンション行列を、評価待ち音声と答えテキストとの揃え情報としてもよい。次は、式により単語レベルアテンション行列を説明し、即ち、

Ｋ_ｉｊは、第ｉ個のテキストユニットの音響特徴と第ｊ個のテキストユニットのテキスト特徴との揃え情報を示し、Ｉ_ｉｊは、第ｉ個のテキストユニットの音響情報が第ｊ個のテキストユニットのテキスト特徴に対する揃え確率を示し、ｓ_ｊ ^Ｔはｓ_ｊの転置であり、ｃ_ｉは、第ｉ個のテキストユニットの音響揃え情報を示し、ｓ_ｊは、第ｊ個のテキストユニットのテキスト特徴を示し、Ｕはパラメータであり、単語レベル音響揃え特徴を、テキスト特徴の同じ次元にマッピングすることで、ドット積演算を行うために用いられる。

単語レベルアテンション行列は、以下のような形式に示されてもよく、即ち、

本実施例において、アテンションメカニズムに基づき、ニューラルネットワークモデルにより、単語レベルアテンション行列を確定するオプショナルな実施形態を提供し、具体的には、以下のことを含んでもよい。
ニューラルネットワークモデルの第２完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理し、前記第２完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レベルアテンション行列の内部状態表示を生成するように配置される。

なお、ニューラルネットワークモデルの第２完全接続層は、前記Ｋ_ｉｊとＩ_ｉｊの式の形式に示されてもよい。Ｕというパラメータを第２完全接続層のパラメータとする。ニューラルネットワークモデルを反復トレーニングすることで、モデルのトレーニングを終了させた後に、パラメータＵが固定になるまで、前記パラメータＵを反復更新する。

本実施例により確定された、揃え情報としての単語レベルアテンション行列には、答えテキストの各々テキストユニットの音響特徴が、いずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれ、つまり、単語レベルアテンション行列を得て、当該単語レベルアテンション行列は、評価待ち音声が評価標準に合致する程度に関するから、後続において、当該単語レベルアテンション行列に基づき、評価待ち音声が答えテキストに対する評価結果を確定できる。

さらに、単語レベルアテンション行列は、評価待ち音声に含まれるフレームの数に関係なく、つまり、ユーザの話すスピードに関係なく、テキスト特徴と音響特徴との間の揃え関係のみを考慮するから、前記に言及された、異なる話すスピードのユーザにより、同一の答えテキストを表現する場合に、評価結果が違う欠陥を解決でき、つまり、揃え情報として、本実施例の単語レベルアテンション行列を利用すると、その評価の正確度がより高くなる。

本出願の他の実施例において、前記ステップＳ１２０において、前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定する過程を紹介する。

理解できるのは、本実施例において根拠とする揃え情報は、前記フレームレベルアテンション行列であってもよく、前記単語レベルアテンション行列であってもよい。そうすると、揃え情報に応じて、評価結果を確定する過程は、以下のことを含んでもよい。
１）、前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定する。

具体的には、前記で既に揃え情報を確定し、それはフレームレベルアテンション行列、または単語レベルアテンション行列であってもよい。当該揃え情報に基づき、評価待ち音声と答えテキストとの間のマッチ度を確定できる。

オプショナルな形態において、ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理してもよく、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように配置される。

ニューラルネットワークモデルの畳み込み手段に入力される揃え情報は、その行列の大きさが固定であってもよく、一般的な答えテキストの長さに応じて当該行列の大きさを確定でき、例えば、一般的な答えテキストはせいぜい２０個の単語を超えず、行列の大きさは２０*２０であってもよい。不十分な要素に対して、０で充填すればよい。

２）、前記マッチ度に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定する。

オプショナルな形態において、ニューラルネットワークモデルの第３完全接続層により、前記マッチ度を処理してもよく、前記第３完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声が前記答えテキストに対する評価結果の内部状態表示を生成するように配置される。

第３完全接続層は、以下のように示されてもよく、即ち、

ｘは、マッチ度であり、ｙは、回帰された評価結果であり、数値の形式であってもよく、Ｆは、特徴マッピング行列であり、ｇは、バイアスである。

なお、評価結果は回帰された具体的な得点であってもよく、得点の大きさは評価待ち音声の良否程度、つまり、評価待ち音声と評価標準との合致程度を示す。また、評価結果は評価待ち音声がある分類に属する確率を示してもよく、ここで、若干の分類を予め設定してもよく、異なる分類は、評価待ち音声と評価標準との異なる合致程度を示し、つまり、評価待ち音声の良否程度を示し、例えば、優、良、劣という三つの分類にそれぞれ区分される。

説明する必要があるのは、前記各々実施例に言及されたニューラルネットワークモデルは、同一のニューラルネットワークモデルであってもよく、即ち、一つのニューラルネットワークモデルの異なる階層構成で、各々のデータを処理し、例えば、ニューラルネットワークモデルの若干の隠れ層により、スペクトル特徴を変換し、他の若干の隠れ層により、単語ベクトルを変換し、第１完全接続層により、フレームレベルアテンション行列を生成し、第２完全接続層により、単語レベルアテンション行列を生成し、畳み込み手段により、前記評価待ち音声と前記答えテキストとのマッチ度を生成し、第３完全接続層により、前記評価待ち音声が前記答えテキストに対する評価結果を生成するなどする。これに基づき、人工による評価結果がマークされた音声トレーニングデータ、及び答えテキストを予め取得し、ニューラルネットワークモデルをトレーニングし、バックプロパゲーションアルゴリズムで、ニューラルネットワークモデルにおける異なる階層のパラメータを反復更新し、トレーニングを終了させた後に、各々パラメータが固定になる。

評価結果が評価得点である形式を例として説明し、ニューラルネットワークモデルをトレーニングする場合に、データペアという方式に基づき、目的関数としてもよく、各々データペアの構築方式は、人工評価得点に一定の差異があることを要求し、モデルが異なる評価得点の間の差異を学習するようにし、目的関数の表現式は以下の通りであり、即ち、

ｙ_ｉとｙ_ｉ＋１はトレーニングデータにおいて、第ｉ個と第ｉ+１個のサンプルのモデ
ル予測得点であり、ｚ_ｉとｚ_ｉ＋１は、トレーニングデータにおいて、第ｉ個と第ｉ+１
個のサンプルの人工評価得点である。

前記目的関数の目的は、モデル予測得点と人工評価得点との得点差を最小化し、且つ隣接する二つのサンプルのモデル予測得点の差を、当該二つのサンプルの人工評価得点の差により近接させることで、モデルに異なる評価得点の間の差異を学習させることである。

図２と図３を参照し、構成が異なる二つのニューラルネットワークモデルが音声評価を行うフローの模式図を例示する。

図２において、単語レベルアテンション行列を揃え情報として、当該揃え情報に基づき、評価結果を確定する。

図３において、フレームレベルアテンション行列を揃え情報として、当該揃え情報に基づき、評価結果を確定する。

図２に示すように、点線ボックス部分はニューラルネットワークモデルの内部処理フローであり、図２から分かるように、ニューラルネットワークモデルの入力として、評価待ち音声から音響特徴を抽出し、及び答えテキストからテキスト特徴を抽出し、それぞれは一つのＲＮＮ隠れ層を介して、深層音響特徴行列と深層テキスト特徴行列をそれぞれ抽出し、第１完全接続層に入力されることで、第１完全接続層によりフレームレベルアテンション行列を出力し、フレームレベルアテンション行列と深層音響特徴行列をドット積することで、単語レベル音響揃え行列を得て、単語レベル音響揃え行列と深層テキスト特徴行列を第２完全接続層の入力として、第２完全接続層により、単語レベルアテンション行列を出力し、単語レベルアテンション行列はＣＮＮ畳み込み手段に入力され、処理された後のマッチ度ベクトルを得て、第３完全接続層に入力され、第３完全接続層により評価得点を回帰する。

当該ニューラルネットワークモデルは、バックプロパゲーションアルゴリズムによりトレーニングされ、その各々階層構成のパラメータを反復更新してもよい。

図３の点線ボックス部分は、ニューラルネットワークモデルの内部処理フローであり、図２に対して、図３に例示されるニューラルネットワークモデルは第２完全接続層が欠ける。対応する処理フローにおいて、第１完全接続層により出力されるフレームレベルアテンション行列は直接的にＣＮＮ畳み込み手段の入力として、ＣＮＮ畳み込み手段により、フレームレベルアテンション行列に基づき、マッチ度ベクトルを出力し、後続のフローが一致である。図２のフローに比べると、図３において、第２完全接続層により単語レベルアテンション行列を得る過程を省略する。

同じく、当該ニューラルネットワークモデルはバックプロパゲーションアルゴリズムによりトレーニングされ、その各々階層構成のパラメータを反復更新してもよい。

さらに説明する必要があるのは、前記各々実施例に言及されたニューラルネットワークモデルは、複数の独立のニューラルネットワークモデルであってもよく、且つ全体の音声評価過程を完成するように、複数の独立のニューラルネットワークモデルの間は互いに協力する。例えば、スペクトル特徴を変換し、深層音響特徴を取得するニューラルネットワークモデルは独立のモデルであってもよく、例えば、音声識別モデルを当該独立のニューラルネットワークモデルとして、音声識別モデルの隠れ層により、スペクトル特徴を変換し、変換された隠れ層特徴を取得して深層音響特徴としてもよい。

以下は、本出願の実施例に提供される音声評価装置を説明し、以下に説明される音声評価装置と、前記に説明される音声評価方法とは互いに対応し参照すればよい。

図４を参照し、図４は、本出願の実施例に開示される音声評価装置の構成の模式図である。図４に示すように、当該装置は、
評価待ち音声及び評価標準としての答えテキストを取得するためのデータ取得手段１１
と、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定するための揃え情報確定手段１２と、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するための評価結果確定手段１３と、を備える。

オプショナル的に、本出願の装置はさらに、評価待ち音声の音響特徴を取得するための音響特徴取得手段を備える。具体的には、音響特徴取得手段は、
音響特徴として、前記評価待ち音声のスペクトル特徴を取得するための第１音響特徴取得サブ手段を備えるか、
または、
前記評価待ち音声のスペクトル特徴を取得するための第２音響特徴取得サブ手段と、
音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得するための第３音響特徴取得サブ手段と、を備える。

オプショナル的に、本出願の装置はさらに、答えテキストのテキスト特徴を取得するためのテキスト特徴取得手段を備える。具体的には、テキスト特徴取得手段は、
テキスト特徴として、前記答えテキストのベクトルを取得するための第１テキスト特徴取得サブ手段を備えるか、
または、
前記答えテキストのベクトルを取得するための第２テキスト特徴取得サブ手段と、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得するための第３テキスト特徴取得サブ手段と、を備える。

オプショナル的に、前記揃え情報確定手段は、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定するためのフレームレベルアテンション行列確定手段を備え、前記フレームレベルアテンション行列には、前記評価待ち音声の各々フレームの音声が、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれる。

オプショナル的に、前記フレームレベルアテンション行列確定手段は、
ニューラルネットワークモデルの第１完全接続層により、前記音響特徴と前記テキスト特徴を処理するための第１完全接続層処理手段を備え、前記第１完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように、配置される。

オプショナル的に、前記揃え情報確定手段はさらに、
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定するための単語レベル音響揃え行列確定手段と、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定するための単語レベルアテンション行列確定手段を備え、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれる。

オプショナル的に、前記単語レベルアテンション行列確定手段は、
ニューラルネットワークモデルの第２完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理するための第２完全接続層処理手段を備え、前記第２完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レベルアテンション行列の内部状態表示を生成するように配置される。

オプショナル的に、前記評価結果確定手段は、
前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定するためのマッチ度確定手段と、
前記マッチ度に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するためのマッチ度応用手段と、を備える。

オプショナル的に、前記マッチ度確定手段は、
ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理するための畳み込み手段処理手段を備え、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように、配置される。

オプショナル的に、前記マッチ度応用手段は、
ニューラルネットワークモデルの第３完全接続層により、前記マッチ度を処理するための第３完全接続層処理手段を備え、前記第３完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声が前記答えテキストに対する評価結果の内部状態表示を生成するように配置される。

本出願の実施例に提供される音声評価装置は、音声評価機器に適用されることができ、例えば、ＰＣ端末、クラウドプラットフォーム、サーバー及びサーバークラスタなどである。オプショナル的に、図５は、音声評価機器のハードウェア構成のブロック図を示し、図５を参照し、音声評価機器のハードウェア構成は、少なくとも一つのプロセッサー１と、少なくとも一つの通信インターフェース２と、少なくとも一つのメモリ３と、少なくとも一つの通信バス４を含んでもよく、
本出願の実施例において、プロセッサー１、通信インターフェース２、メモリ３、通信バス４の数は少なくとも一つであり、且つプロセッサー１、通信インターフェース２、メモリ３は通信バス４により、互いの通信を完成し、
プロセッサー１は、中央演算処理装置ＣＰＵまたは特定用途向け集積回路ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、
または、本発明の実施例を実施するように配置される一つまたは複数の集積回路などのものである可能性があり、
メモリ３には、高速ＲＡＭメモリが含まれるか、さらに不揮発性メモリ（ｎｏｎ−ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）など、例えば、少なくとも一つの磁気ディスクメモリが含まれる可能性があり、
メモリにはプログラムが記憶され、プロセッサーはメモリに記憶されるプログラムを呼び出すことができ、前記プログラムは、
評価待ち音声及び評価標準としての答えテキストを取得し、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定し、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するようにする。

オプショナル的に、前記プログラムの細分化機能と拡張機能とは、前文の説明を参照すればよい。

本出願の実施例はさらに読み取り可能な記憶媒体を提供し、当該読み取り可能な記憶媒体には、プロセッサーにより実行されるプログラムが記憶され、前記プログラムは、
評価待ち音声及び評価標準としての答えテキストを取得し、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定し、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するようにする。

最後に、説明する必要があるのは、本文において、例えば第１と第２等などの関係用語は、ただ一つの実体または操作を、他方の実体または操作に区分するために用いられ、必ずしもこれらの実体または操作の間には、如何なるこのような実際の関係または順序が存在することを要求または暗示するとは限らない。しかも、用語「含む」、「含み」またはその如何なる他の変体は、非排他的な含みをカバーすることを意図し、このように、一連の要素が含まれる過程、方法、物品または機器には、それらの要素ばかりではなく、さらに明確的にリストされていない他の要素が含まれて、または、このような過程、方法、物品または機器の固有の要素が含まれる。より多い制限がない場合に、「一つを含み……」という語句により限定される要素は、前記要素が含まれる過程、方法、物品または機器には、さらに他の同じ要素が存在する場合を排除しない。

本明細書の各々実施例は、漸進の方式で説明し、各々実施例が主に説明するのは、他の実施例との相違点であり、各々実施例の間の同じまたは類似する部分は互いに参照すればよい。

開示された実施例に対する前記説明により、当業者が本出願を実現しまたは利用することができる。これらの実施例に対する多種の補正は当業者にとって、自明であり、本文に定義された一般的な原理は、本出願の精神または範囲から逸脱しない場合に、他の実施例で実現できる。従って、本出願は、本文に示されるこれらの実施例に限定されず、本文に開示される原理と新規な特徴に一致する、最も広い範囲に合う。

Claims

音声評価方法であって、
評価待ち音声、及び評価標準としての答えテキストを取得することと、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することと、
前記揃え情報に基づき、前記評価待ち音声の前記答えテキストに対する評価結果を確定することと、を含み、
前記テキスト特徴は、前記答えテキストのテキスト情報を反映し、
前記答えテキストのテキスト特徴を取得する過程は、
テキスト特徴として、前記答えテキストのベクトルを取得することを含むか、
または、
前記答えテキストのベクトルを取得することと、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得することと、を含む、
ことを特徴とする方法。
前記評価待ち音声の音響特徴を取得する過程は、
音響特徴として、前記評価待ち音声のスペクトル特徴を取得することを含むか、
または、
前記評価待ち音声のスペクトル特徴を取得することと、
音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得することと、を含むことを特徴とする請求項１に記載の方法。
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することは、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定することを含み、前記フレームレベルアテンション行列には、前記評価待ち音声の各々フレームの音声が、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれることを特徴とする請求項１に記載の方法。
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定することは、
ニューラルネットワークモデルの第１完全接続層により、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴を処理することを含み、前記第１完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように配置されることを特徴とする請求項３に記載の方法。
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することは、さらに、
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定することと、
前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定することと、を含み、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれることを特徴とする請求項３に記載の方法。
前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定することは、
ニューラルネットワークモデルの第２完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理することを含み、前記第２完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レベルアテンション行列の内部状態表示を生成するように配置されることを特徴とする請求項５に記載の方法。
前記揃え情報に応じて、前記評価待ち音声の前記答えテキストに対する評価結果を確定することは、
前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定することと、
前記マッチ度に応じて、前記評価待ち音声の前記答えテキストに対する評価結果を確定することと、を含むことを特徴とする請求項１〜６のいずれか一項に記載の方法。
前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定することは、
ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理することを含み、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように配置されることを特徴とする請求項７に記載の方法。
前記マッチ度に基づき、前記評価待ち音声の前記答えテキストに対する評価結果を確定することは、
ニューラルネットワークモデルの第３完全接続層により、前記マッチ度を処理することを含み、前記第３完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声の前記答えテキストに対する評価結果の内部状態表示を生成するように配置されることを特徴とする請求項７に記載の方法。
音声評価装置であって、
評価待ち音声、及び評価標準としての答えテキストを取得するためのデータ取得手段と、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定するための揃え情報確定手段と、
前記揃え情報に応じて、前記評価待ち音声の前記答えテキストに対する評価結果を確定するための評価結果確定手段と、を備え、
前記テキスト特徴は、前記答えテキストのテキスト情報を反映し、
前記データ取得手段は、
テキスト特徴として、前記答えテキストのベクトルを取得するか、
または、
前記答えテキストのベクトルを取得し、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得する、
ことを特徴とする装置。
前記揃え情報確定手段は、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定するためのフレームレベルアテンション行列確定手段を備え、前記フレームレベルアテンション行列には、前記評価待ち音声の各々フレームの音声が、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれることを特徴とする請求項１０に記載の装置。
前記揃え情報確定手段はさらに、
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定するための単語レベル音響揃え行列確定手段と、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定するための単語レベルアテンション行列確定手段を備え、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれることを特徴とする請求項１１に記載の装置。
前記評価結果確定手段は、
前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定するためのマッチ度確定手段と、
前記マッチ度に応じて、前記評価待ち音声の前記答えテキストに対する評価結果を確定するためのマッチ度応用手段と、を備えることを特徴とする請求項１０〜１２のいずれか一項に記載の装置。
音声評価機器であって、
プログラムを記憶するためのメモリと、
請求項１〜９のいずれか一項に記載の音声評価方法の各ステップを実現するように、前記プログラムを実行するためのプロセッサーと、を備えることを特徴とする機器。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサーにより実行される場合に、請求項１〜９のいずれか一項に記載の音声評価方法の各ステップを実現することを特徴とするコンピュー
タプログラム。