JP6902010B2 - 音声評価方法、装置、機器及び読み取り可能な記憶媒体 - Google Patents

音声評価方法、装置、機器及び読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP6902010B2
JP6902010B2 JP2018223934A JP2018223934A JP6902010B2 JP 6902010 B2 JP6902010 B2 JP 6902010B2 JP 2018223934 A JP2018223934 A JP 2018223934A JP 2018223934 A JP2018223934 A JP 2018223934A JP 6902010 B2 JP6902010 B2 JP 6902010B2
Authority
JP
Japan
Prior art keywords
text
evaluation
voice
acoustic
answer text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018223934A
Other languages
English (en)
Other versions
JP2020056982A (ja
Inventor
ジン,ハイ
ウー,クイ
フー,ヤン
ジュー,チュン
ジュー,ボー
ウェイ,スー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Publication of JP2020056982A publication Critical patent/JP2020056982A/ja
Application granted granted Critical
Publication of JP6902010B2 publication Critical patent/JP6902010B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Description

本願は、音声処理の技術分野に関して、より具体的には、音声評価方法、装置、機器及び読み取り可能な記憶媒体に関する。
教育改革の深化に従って、口頭試験が全国各地で展開されている。筆記試験に対して、口頭試験は受験生の口頭水準を評価できる。
従来の口頭試験は、専門教師により、問題に対応する正確な答え情報に応じて、受験生の答えを評価することが一般的であった。このような人工による評価の方法は、人間の主観影響を受けやすく、評価結果に人為的な干渉を及ぼし、且つ大量の人件費を消費することにつながる。
これに鑑み、本願は、従来において、人工により口頭試験評価を行う方法に存在する欠陥を解決するための音声評価方法、装置、機器及び読み取り可能な記憶媒体を提供する。
前記目的を実現するために、以下のような方案を提出し、即ち、
音声評価方法であって、
評価待ち音声、及び評価標準としての答えテキストを取得することと、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することと、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定することと、を含む。
好ましくは、前記評価待ち音声の音響特徴を取得する過程は、
音響特徴として、前記評価待ち音声のスペクトル特徴を取得することを含むか、
または、
前記評価待ち音声のスペクトル特徴を取得することと、
音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得することと、を含む。
好ましくは、前記答えテキストのテキスト特徴を取得する過程は、
テキスト特徴として、前記答えテキストのベクトルを取得することを含むか、
または、
前記答えテキストのベクトルを取得することと、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得することと、を含む。
好ましくは、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することは、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定することを含み、前記評価待ち音声の各々フレームの音声が、前記フレームレベルアテンション行列には、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれる。
好ましくは、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定することは、
ニューラルネットワークモデルの第1完全接続層により、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴を処理することを含み、前記第1完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように配置される。
好ましくは、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することは、さらに、
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定することと、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定することと、を含み、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれる。
好ましくは、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定することは、
ニューラルネットワークモデルの第2完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理することを含み、前記第2完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レベルアテンション行列の内部状態表示を生成するように配置される。
好ましくは、前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定することは、
前記揃え情報に基づき、前記評価待ち音声と前記答えテキストとのマッチ度を確定することと、
前記マッチ度に基づき、前記評価待ち音声が前記答えテキストに対する評価結果を確定することと、を含む。
好ましくは、前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定することは、
ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理することを含み、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように配置される。
好ましくは、前記マッチ度に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定することは、
ニューラルネットワークモデルの第3完全接続層により、前記マッチ度を処理することを含み、前記第3完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声が前記答えテキストに対する評価結果の内部状態表示を生成するように配置される。
音声評価装置であって、
評価待ち音声、及び評価標準としての答えテキストを取得するためのデータ取得手段と、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定するための揃え情報確定手段と、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するための評価結果確定手段と、を備える。
好ましくは、さらに、音響特徴取得手段を有し、前記音響特徴取得手段は、
音響特徴として、前記評価待ち音声のスペクトル特徴を取得するための第1音響特徴取得サブ手段を備えるか、
または、
前記評価待ち音声のスペクトル特徴を取得するための第2音響特徴取得サブ手段と、
音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得するための第3音響特徴取得サブ手段と、を備える。
好ましくは、さらにテキスト特徴取得手段を有し、前記テキスト特徴取得手段は、
テキスト特徴として、前記答えテキストのベクトルを取得するための第1テキスト特徴取得サブ手段を備えるか、
または、
前記答えテキストのベクトルを取得するための第2テキスト特徴取得サブ手段と、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得するための第3テキスト特徴取得サブ手段と、を備える。
好ましくは、前記揃え情報確定手段は、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定するためのフレームレベルアテンション行列確定手段を備え、前記フレームレベルアテンション行列には、前記評価待ち音声の各々フレームの音声が、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれる。
好ましくは、前記フレームレベルアテンション行列確定手段は、
ニューラルネットワークモデルの第1完全接続層により、前記音響特徴と前記テキスト特徴を処理するための第1完全接続層処理手段を備え、前記第1完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように、配置される。
好ましくは、前記揃え情報確定手段はさらに、
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定するための単語レベル音響揃え行列確定手段と、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定するための単語レベルアテンション行列確定手段を備え、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれる。
好ましくは、前記単語レベルアテンション行列確定手段は、
ニューラルネットワークモデルの第2完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理するための第2完全接続層処理手段を備え、前記第2完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レ
ベルアテンション行列の内部状態表示を生成するように配置される。
好ましくは、前記評価結果確定手段は、
前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定するためのマッチ度確定手段と、
前記マッチ度に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するためのマッチ度応用手段と、を備える。
好ましくは、前記マッチ度確定手段は、
ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理するための畳み込み手段処理手段を備え、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように、配置される。
好ましくは、前記マッチ度応用手段は、
ニューラルネットワークモデルの第3完全接続層により、前記マッチ度を処理するための第3完全接続層処理手段を備え、前記第3完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声が前記答えテキストに対する評価結果の内部状態表示を生成するように配置される。
音声評価機器であって、
プログラムを記憶するためのメモリと、
前記に記載の音声評価方法の各々ステップを実現するように、前記プログラムを実行するためのプロセッサーと、を備える。
コンピュータプログラムが記憶される読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサーにより実行される場合に、前記に記載の音声評価方法の各々ステップを実現する。
前記の技術案から分かるように、本出願の実施例に提供される音声評価方法は、評価待ち音声及び評価標準としての答えテキストを取得し、評価待ち音声の音響特徴と答えテキストのテキスト特徴に基づき、評価待ち音声と答えテキストとの揃え情報を確定でき、理解できるのは、揃え情報は、評価待ち音声と答えテキストとの揃え関係を表明し、さらに、揃え情報に応じて、評価待ち音声が答えテキストに対する評価結果を自動的に確定することを実現する。人工による評価を必要としないから、人間の主観影響が評価結果に対する干渉を避けるとともに、人件費の消費を減少させる。
本出願の実施例または従来技術における技術案をより明らかに説明するために、以下は、実施例または従来技術に対する説明において利用する必要が有る図面を簡単に紹介し、明らかに、以下に説明される図面は、本出願の実施例に過ぎず、当業者にとって、進歩性に値する労働をしない前提で、提供される図面に応じて、他の図面を取得できる。
本出願の実施例に開示される音声評価方法のフローチャートである。 ニューラルネットワークモデルにより音声評価を行うフローの模式図を例示する。 他のニューラルネットワークモデルにより、音声評価を行うフローの模式図を例示する。 本出願の実施例に開示される音声評価装置の構成の模式図である。 本出願の実施例に開示される音声評価機器のハードウェア構成のブロック図である。
以下は、本出願の実施例の図面を結合し、本出願の実施例における技術案に対して、明瞭で、完全な説明を行って、明らかに、説明される実施例は全ての実施例ではなく、本出願の一部の実施例のみである。本出願における実施例に基づき、当業者が進歩性に値する労働をしない前提で取得される他の全ての実施例は、いずれも本出願の保護範囲に属する。
従来の口頭評価は人工により、評価結果に人為的な干渉を及ぼし、且つ人件費を浪費するという問題を解決するために、本出願の発明者は、一つの解決方案を提出し、つまり、音声識別モデルにより、評価待ち音声を識別することで、識別テキストを得て、答えテキストからキーワードを抽出し、さらに、識別テキストがキーワードに対するヒット率を算出し、当該ヒット率に応じて、評価待ち音声の評価結果を確定し、ヒット率が高いほど、評価得点が高くなると確定できる。
但し、さらに研究することで、以下の問題を発見し、即ち、発明者が提出した前記解決方案は、まず評価待ち音声をテキストに識別する必要が有るから、当該過程は音声識別モデルを利用する。汎用の音声識別モデルにより、異なる試験シーンの評価待ち音声を識別すると、識別の正確率が低いという問題が存在し、評価結果の不正確を招く。異なる試験シーンに対してそれぞれ音声識別モデルをトレーニングすると、試験ごとに人手を予め手配し、トレーニングデータの採点を行う必要が有り、大量の人件費を費やす恐れがある。
これに基づき、本案の発明者はさらに研究し、最終的に、評価待ち音声と答えテキストとの揃え情報(アライメント情報)を自発的に探すという観点から出発し、自動的な音声評価を実現した。本出願の音声評価方法は、データ処理能力を有する電子機器により実現でき、例えば、インテリジェント端末、サーバー、クラウドプラットフォームなどである。
本出願の音声評価の方案は、口頭試験の評価シーン、及び発音水準を評価することに関する他のシーンに適用されることができる。
次は、図1を結合し、本出願の音声評価方法を説明し、当該方法は、以下のステップを含む。
ステップS100で、評価待ち音声、及び評価標準としての答えテキストを取得する。
具体的には、口頭試験のシーンを例として、評価待ち音声は受験生からの口頭答えの録音であってもよい。対応的に、本実施例において、評価標準としての答えテキストを予め設定してもよい。資料閲読の口頭試験の問題を例として、評価標準としての答えテキストは、閲読資料から抽出されるテキスト情報であってもよい。その以外、他のタイプ問題の口頭試験に対して、評価標準としての答えテキストは、問題に対応する答え内容であってもよい。
当該ステップにおいて、評価待ち音声の取得方式は、録音機器により受信することであってもよく、録音機器は、マイク、例えばヘッドセットマイクを有してもよい。
ステップS110で、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定する。
なお、評価待ち音声の音響特徴は、評価待ち音声の音響情報を反映する。答えテキストのテキスト特徴は、答えテキストのテキスト情報を反映する。音響特徴のタイプは多種で
あってもよく、同じく、テキスト特徴のタイプも多種であってもよい。
本実施例において、音響特徴とテキスト特徴に基づき、評価待ち音声と答えテキストとの揃え情報を自発的に探し、当該揃え情報は、評価待ち音声と答えテキストとの揃え関係を反映する。理解できるのは、評価標準に合致する評価待ち音声にとって、答えテキストとの揃えの整合性も高いはずであり、逆に、評価標準に合致しない評価待ち音声にとって、答えテキストとの揃えの整合性が低い。
ステップS120で、前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定する。
前記論述から分かるように、揃え情報は評価待ち音声と答えテキストとの揃え関係を反映し、それは評価待ち音声が評価標準に合致するかどうか、及び評価標準に合致する程度に関するから、当該ステップにおいて、揃え情報に応じて、評価待ち音声が答えテキストに対する評価結果を確定できる。
本出願の実施例に提供される音声評価方法は、揃え情報に応じて、評価待ち音声が答えテキストに対する評価結果を自動的に確定することを実現できる。人工による評価を必要としないから、人間の主観影響が評価結果に対する干渉を避けるとともに、人件費の消費を減少させる。
さらに、本案は、評価待ち音声と答えテキストとの揃え情報を自発的に探すという観点から出発し、評価結果を確定するため、音声識別モデルによる評価待ち音声に対する音声識別、及び識別テキストと答えテキストとのキーワードのヒット率に対する算出を必要としないから、音声識別結果が不正確であることによる評価結果の不正確という問題を避け、その音声評価結果がより正確になり、且つ方案は各種の音声評価シーンに適用され、ロバスト性がより強くなり、トレーニングデータを確定するように、余分に人力を費やして異なるシーンで採点する必要がなく、人件費を節約する。
本出願の他の実施例において、前記ステップS110に言及された、評価待ち音声の音響特徴、及び答えテキストのテキスト特徴を取得する過程を紹介する。
まずは、評価待ち音声の音響特徴を取得する過程を紹介し、
オプショナルな形態であって、評価待ち音声のスペクトル特徴を直接的に取得するとともに、当該スペクトル特徴を評価待ち音声の音響特徴としてもよい。
スペクトル特徴には、メル周波数ケプストラム係数(Mel FrequencyCepstrum Coefficient、MFCC)特徴または知覚線形予測(Percep
tualLinear Predictive、PLP)特徴などが含まれてもよい。
説明を便利にするために、評価待ち音声にはTフレームが含まれるように定義する。
そうすると、評価待ち音声のスペクトル特徴を取得する場合に、まずは評価待ち音声に対してフレーミング処理を行って、フレーミングされた後の評価待ち音声に対してプリエンファシスを行って、各々のフレームの音声のスペクトル特徴を抽出してもよい。
他のオプショナルな形態であって、評価待ち音声のスペクトル特徴を取得し、さらに、音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得してもよい。
ここで、ニューラルネットワークモデルは、多種の構成形式を採用してもよく、例えば、RNN(Recurrent Neural Network、リカレントニューラルネットワーク)、LSTM(LongShort-Term Memory、長短期記憶リカレントニューラルネットワーク)、GRU(GatedRecurrent Unit、
ゲート付き回帰ユニット)などである。
ニューラルネットワークモデルの隠れ層により、スペクトル特徴を変換することで、スペクトル特徴に対して深度マッピングを行うことができ、得られた隠れ層特徴が、スペクトル特徴より、階層が深くて、評価待ち音声の音響特性をより表現するから、隠れ層特徴を音響特徴とすることができる。
音響特徴は、以下のような行列形式で示されてもよく、即ち、
Figure 0006902010

なお、h(t=1,2,…,T)は、第tフレームの音声の音響特徴を示し、且つ各々のフレームの音響特徴の次元をそのまま保持して、m次元に定義する。
さらに、評価待ち音声のテキスト特徴を取得する過程を紹介し、
オプショナルな形態であって、答えテキストのベクトルを直接的に取得するとともに、当該ベクトルを答えテキストのテキスト特徴としてもよい。
答えテキストのベクトルは、答えテキストを構成するテキストユニットの単語ベクトルの組み合わせ、または、テキストユニットの単語ベクトルが一定の演算処理を経た後のベクトル結果であってもよい。例えば、テキストユニットのベクトル結果として、ニューラルネットワークモデルにより、テキストユニットの単語ベクトルから、隠れ層特徴を抽出する。テキストユニットの単語ベクトルの表示方法は、特に限定されず、例えば、one‐hotまたはembeddingという方法で、単語ベクトルを示してもよい。
さらに、答えテキストのテキストユニットは、自由に設定されてもよく、例えば、単語レベル、音素レベルまたは語根レベルのテキストユニットを利用してもよい。
説明を便利にするために、答えテキストにはC個のテキストユニットが含まれるように定義する。
そうすると、答えテキストの各テキストユニットに対して、その単語ベクトルを取得し、最終的に、C個のテキストユニットの単語ベクトルに応じて、答えテキストのテキスト特徴を確定できる。
他のオプショナルな形態であって、答えテキストのベクトルを取得でき、さらに、テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得できる。
以上と同じように、ニューラルネットワークモデルは、多種の構成形式を採用してもよく、例えば、RNN(Recurrent Neural Network、リカレントニ
ューラルネットワーク)、LSTM(LongShort-Term Memory、長短期記憶リカレントニューラルネットワーク)、GRU(GatedRecurrent
Unit、ゲート付き回帰ユニット)などである。
ニューラルネットワークモデルの隠れ層により、答えテキストのベクトルを変換することで、答えテキストのベクトルに対して、深度マッピングを行うことができ、得られた隠れ層特徴が、答えテキストのベクトルより階層が深くて、答えテキストのテキスト特性をより表現できるから、隠れ層特徴をテキスト特徴としてもよい。
テキスト特徴は、以下のような行列形式で、示されてもよく、即ち、
Figure 0006902010

なお、s(i=1,2,…,C)は第i個のテキストユニットのテキスト特徴を示し、且つ各々のテキストユニットのテキスト特徴の次元をそのまま保持して、n次元に定義する。
本出願の他の実施例において、前記ステップS110において、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定する過程を紹介する。
本実施例において、評価待ち音声の音響特徴と答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定してもよく、当該フレームレベルアテンション行列には、答えテキストのいずれか一つのテキストユニットに対して、評価待ち音声の各々フレームの音声が前記テキストユニットに対する揃え確率が含まれる。
前記確定されたフレームレベルアテンション行列を、評価待ち音声と答えテキストとの揃え情報としてもよい。次は、式により、前記揃え確率を説明し、
Figure 0006902010

なお、eitは、第i個のテキストユニットのテキスト特徴と第tフレーム音声の音響特徴との揃え情報を示し、aitは、第i個のテキストユニットに対して、第tフレームの音声が当該第i個のテキストユニットに対する揃え確率を示し、sは、第i個のテキストユニットのテキスト特徴を示し、n次元のベクトルであり、hは、第tフレームの音声の音響特徴を示し、m次元のベクトルであり、W,V,w,bは四つのパラメータであり、Wは、k*n次元の行列であってもよく、Vは、k*m次元の行列であってもよく、wは、k次元のベクトルであってもよく、これらの三つのパラメータは特徴マッピングに用いられ、bはバイアスであり、k次元のベクトルであってもよい。
前記フレームレベルアテンション行列は、以下のような形式に示されてもよく、即ち、
Figure 0006902010

本実施例において、アテンションメカニズムに基づき、ニューラルネットワークモデルによりフレームレベルアテンション行列を確定するオプショナルな形態を提供し、具体的には、以下のことを含んでもよい。
ニューラルネットワークモデルの第1完全接続層により、前記音響特徴と前記テキスト特徴を処理し、前記第1完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように配置される。
なお、ニューラルネットワークモデルの第1完全接続層は、前記eitとaitの式の形式に示されてもよい。W,V,w,bの四つのパラメータを第1完全接続層のパラメータとする。ニューラルネットワークモデルを反復トレーニングすることで、モデルのトレーニングを終了させた後に、四つのパラメータが固定されるまで、前記四つのパラメータを反復更新することができる。
本実施例により確定された、揃え情報としてのフレームレベルアテンション行列には、前記評価待ち音声の各々のフレームの音声が答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれ、つまり、評価待ち音声のフレームレベルの揃え情報が得られ、当該フレームレベルアテンション行列は、評価待ち音声が評価標準に合致する程度に関するから、後続において、当該フレームレベルアテンション行列に基づき、評価待ち音声が答えテキストに対する評価結果を確定できる。
さらに、異なるユーザの話すスピードの差異を考慮すると、同一の答えテキストを表現する場合に、異なるユーザによる音声の持続時間が違う可能性があり、さらに音声に含まれるフレームの数の異なる。前記方案に応じて確定された、揃え情報としてのフレームレベルアテンション行列は、フレームの数の違いで、フレームレベルアテンション行列の違いを招き、さらに、フレームレベルアテンション行列に基づき確定される評価結果も違う。しかし実際の状況において、異なるユーザにより表現されるのは、同一の答えテキストであるため、その評価結果は同じであるべきである。この問題に基づき、本実施例は他の、揃え情報を確定する方案を提供する。
前記実施例に紹介されたように、評価待ち音声の音響特徴と答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を得た上で、本実施例はさらに、以下のような処理ステップを追加し、即ち、
1.前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定し、前記単語レベル音響揃え行列には、前記答えテキストの各々のテキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれる。
具体的には、単語レベル音響揃え行列において、第i個のテキストユニットに揃える音響情報の表現方式は以下の通りであり、即ち、
Figure 0006902010

itとhの意味は前文の紹介を参照すればよい。
前記単語レベル音響揃え行列は、以下のように示されてもよく、即ち、
Figure 0006902010

(i=1,2,…,C)は第i個のテキストユニットの音響揃え情報を示し、cはm次元である。
2.前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定し、前記単語レベルアテンション行列には、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対して、前記答えテキストの各々テキストユニットの音響特徴がそれに対する揃え確率が含まれる。
当該ステップにより確定された単語レベルアテンション行列を、評価待ち音声と答えテキストとの揃え情報としてもよい。次は、式により単語レベルアテンション行列を説明し、即ち、
Figure 0006902010

ijは、第i個のテキストユニットの音響特徴と第j個のテキストユニットのテキスト特徴との揃え情報を示し、Iijは、第i個のテキストユニットの音響情報が第j個のテキストユニットのテキスト特徴に対する揃え確率を示し、s はsの転置であり、cは、第i個のテキストユニットの音響揃え情報を示し、sは、第j個のテキストユニットのテキスト特徴を示し、Uはパラメータであり、単語レベル音響揃え特徴を、テキスト特徴の同じ次元にマッピングすることで、ドット積演算を行うために用いられる。
単語レベルアテンション行列は、以下のような形式に示されてもよく、即ち、
Figure 0006902010

本実施例において、アテンションメカニズムに基づき、ニューラルネットワークモデルにより、単語レベルアテンション行列を確定するオプショナルな実施形態を提供し、具体的には、以下のことを含んでもよい。
ニューラルネットワークモデルの第2完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理し、前記第2完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レベルアテンション行列の内部状態表示を生成するように配置される。
なお、ニューラルネットワークモデルの第2完全接続層は、前記KijとIijの式の形式に示されてもよい。Uというパラメータを第2完全接続層のパラメータとする。ニューラルネットワークモデルを反復トレーニングすることで、モデルのトレーニングを終了させた後に、パラメータUが固定になるまで、前記パラメータUを反復更新する。
本実施例により確定された、揃え情報としての単語レベルアテンション行列には、答えテキストの各々テキストユニットの音響特徴が、いずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれ、つまり、単語レベルアテンション行列を得て、当該単語レベルアテンション行列は、評価待ち音声が評価標準に合致する程度に関するから、後続において、当該単語レベルアテンション行列に基づき、評価待ち音声が答えテキストに対する評価結果を確定できる。
さらに、単語レベルアテンション行列は、評価待ち音声に含まれるフレームの数に関係なく、つまり、ユーザの話すスピードに関係なく、テキスト特徴と音響特徴との間の揃え関係のみを考慮するから、前記に言及された、異なる話すスピードのユーザにより、同一の答えテキストを表現する場合に、評価結果が違う欠陥を解決でき、つまり、揃え情報として、本実施例の単語レベルアテンション行列を利用すると、その評価の正確度がより高くなる。
本出願の他の実施例において、前記ステップS120において、前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定する過程を紹介する。
理解できるのは、本実施例において根拠とする揃え情報は、前記フレームレベルアテンション行列であってもよく、前記単語レベルアテンション行列であってもよい。そうすると、揃え情報に応じて、評価結果を確定する過程は、以下のことを含んでもよい。
1)、前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定する。
具体的には、前記で既に揃え情報を確定し、それはフレームレベルアテンション行列、または単語レベルアテンション行列であってもよい。当該揃え情報に基づき、評価待ち音声と答えテキストとの間のマッチ度を確定できる。
オプショナルな形態において、ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理してもよく、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように配置される。
ニューラルネットワークモデルの畳み込み手段に入力される揃え情報は、その行列の大きさが固定であってもよく、一般的な答えテキストの長さに応じて当該行列の大きさを確定でき、例えば、一般的な答えテキストはせいぜい20個の単語を超えず、行列の大きさは20*20であってもよい。不十分な要素に対して、0で充填すればよい。
2)、前記マッチ度に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定する。
オプショナルな形態において、ニューラルネットワークモデルの第3完全接続層により、前記マッチ度を処理してもよく、前記第3完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声が前記答えテキストに対する評価結果の内部状態表示を生成するように配置される。
第3完全接続層は、以下のように示されてもよく、即ち、
Figure 0006902010
xは、マッチ度であり、yは、回帰された評価結果であり、数値の形式であってもよく、Fは、特徴マッピング行列であり、gは、バイアスである。
なお、評価結果は回帰された具体的な得点であってもよく、得点の大きさは評価待ち音声の良否程度、つまり、評価待ち音声と評価標準との合致程度を示す。また、評価結果は評価待ち音声がある分類に属する確率を示してもよく、ここで、若干の分類を予め設定してもよく、異なる分類は、評価待ち音声と評価標準との異なる合致程度を示し、つまり、評価待ち音声の良否程度を示し、例えば、優、良、劣という三つの分類にそれぞれ区分される。
説明する必要があるのは、前記各々実施例に言及されたニューラルネットワークモデルは、同一のニューラルネットワークモデルであってもよく、即ち、一つのニューラルネットワークモデルの異なる階層構成で、各々のデータを処理し、例えば、ニューラルネットワークモデルの若干の隠れ層により、スペクトル特徴を変換し、他の若干の隠れ層により、単語ベクトルを変換し、第1完全接続層により、フレームレベルアテンション行列を生成し、第2完全接続層により、単語レベルアテンション行列を生成し、畳み込み手段により、前記評価待ち音声と前記答えテキストとのマッチ度を生成し、第3完全接続層により、前記評価待ち音声が前記答えテキストに対する評価結果を生成するなどする。これに基づき、人工による評価結果がマークされた音声トレーニングデータ、及び答えテキストを予め取得し、ニューラルネットワークモデルをトレーニングし、バックプロパゲーションアルゴリズムで、ニューラルネットワークモデルにおける異なる階層のパラメータを反復更新し、トレーニングを終了させた後に、各々パラメータが固定になる。
評価結果が評価得点である形式を例として説明し、ニューラルネットワークモデルをトレーニングする場合に、データペアという方式に基づき、目的関数としてもよく、各々データペアの構築方式は、人工評価得点に一定の差異があることを要求し、モデルが異なる評価得点の間の差異を学習するようにし、目的関数の表現式は以下の通りであり、即ち、
Figure 0006902010
とyi+1はトレーニングデータにおいて、第i個と第i+1個のサンプルのモデ
ル予測得点であり、zとzi+1は、トレーニングデータにおいて、第i個と第i+1
個のサンプルの人工評価得点である。
前記目的関数の目的は、モデル予測得点と人工評価得点との得点差を最小化し、且つ隣接する二つのサンプルのモデル予測得点の差を、当該二つのサンプルの人工評価得点の差により近接させることで、モデルに異なる評価得点の間の差異を学習させることである。
図2と図3を参照し、構成が異なる二つのニューラルネットワークモデルが音声評価を行うフローの模式図を例示する。
図2において、単語レベルアテンション行列を揃え情報として、当該揃え情報に基づき、評価結果を確定する。
図3において、フレームレベルアテンション行列を揃え情報として、当該揃え情報に基づき、評価結果を確定する。
図2に示すように、点線ボックス部分はニューラルネットワークモデルの内部処理フローであり、図2から分かるように、ニューラルネットワークモデルの入力として、評価待ち音声から音響特徴を抽出し、及び答えテキストからテキスト特徴を抽出し、それぞれは一つのRNN隠れ層を介して、深層音響特徴行列と深層テキスト特徴行列をそれぞれ抽出し、第1完全接続層に入力されることで、第1完全接続層によりフレームレベルアテンション行列を出力し、フレームレベルアテンション行列と深層音響特徴行列をドット積することで、単語レベル音響揃え行列を得て、単語レベル音響揃え行列と深層テキスト特徴行列を第2完全接続層の入力として、第2完全接続層により、単語レベルアテンション行列を出力し、単語レベルアテンション行列はCNN畳み込み手段に入力され、処理された後のマッチ度ベクトルを得て、第3完全接続層に入力され、第3完全接続層により評価得点を回帰する。
当該ニューラルネットワークモデルは、バックプロパゲーションアルゴリズムによりトレーニングされ、その各々階層構成のパラメータを反復更新してもよい。
図3の点線ボックス部分は、ニューラルネットワークモデルの内部処理フローであり、図2に対して、図3に例示されるニューラルネットワークモデルは第2完全接続層が欠ける。対応する処理フローにおいて、第1完全接続層により出力されるフレームレベルアテンション行列は直接的にCNN畳み込み手段の入力として、CNN畳み込み手段により、フレームレベルアテンション行列に基づき、マッチ度ベクトルを出力し、後続のフローが一致である。図2のフローに比べると、図3において、第2完全接続層により単語レベルアテンション行列を得る過程を省略する。
同じく、当該ニューラルネットワークモデルはバックプロパゲーションアルゴリズムによりトレーニングされ、その各々階層構成のパラメータを反復更新してもよい。
さらに説明する必要があるのは、前記各々実施例に言及されたニューラルネットワークモデルは、複数の独立のニューラルネットワークモデルであってもよく、且つ全体の音声評価過程を完成するように、複数の独立のニューラルネットワークモデルの間は互いに協力する。例えば、スペクトル特徴を変換し、深層音響特徴を取得するニューラルネットワークモデルは独立のモデルであってもよく、例えば、音声識別モデルを当該独立のニューラルネットワークモデルとして、音声識別モデルの隠れ層により、スペクトル特徴を変換し、変換された隠れ層特徴を取得して深層音響特徴としてもよい。
以下は、本出願の実施例に提供される音声評価装置を説明し、以下に説明される音声評価装置と、前記に説明される音声評価方法とは互いに対応し参照すればよい。
図4を参照し、図4は、本出願の実施例に開示される音声評価装置の構成の模式図である。図4に示すように、当該装置は、
評価待ち音声及び評価標準としての答えテキストを取得するためのデータ取得手段11
と、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定するための揃え情報確定手段12と、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するための評価結果確定手段13と、を備える。
オプショナル的に、本出願の装置はさらに、評価待ち音声の音響特徴を取得するための音響特徴取得手段を備える。具体的には、音響特徴取得手段は、
音響特徴として、前記評価待ち音声のスペクトル特徴を取得するための第1音響特徴取得サブ手段を備えるか、
または、
前記評価待ち音声のスペクトル特徴を取得するための第2音響特徴取得サブ手段と、
音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得するための第3音響特徴取得サブ手段と、を備える。
オプショナル的に、本出願の装置はさらに、答えテキストのテキスト特徴を取得するためのテキスト特徴取得手段を備える。具体的には、テキスト特徴取得手段は、
テキスト特徴として、前記答えテキストのベクトルを取得するための第1テキスト特徴取得サブ手段を備えるか、
または、
前記答えテキストのベクトルを取得するための第2テキスト特徴取得サブ手段と、
テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得するための第3テキスト特徴取得サブ手段と、を備える。
オプショナル的に、前記揃え情報確定手段は、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定するためのフレームレベルアテンション行列確定手段を備え、前記フレームレベルアテンション行列には、前記評価待ち音声の各々フレームの音声が、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれる。
オプショナル的に、前記フレームレベルアテンション行列確定手段は、
ニューラルネットワークモデルの第1完全接続層により、前記音響特徴と前記テキスト特徴を処理するための第1完全接続層処理手段を備え、前記第1完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように、配置される。
オプショナル的に、前記揃え情報確定手段はさらに、
前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定するための単語レベル音響揃え行列確定手段と、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定するための単語レベルアテンション行列確定手段を備え、
前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれる。
オプショナル的に、前記単語レベルアテンション行列確定手段は、
ニューラルネットワークモデルの第2完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理するための第2完全接続層処理手段を備え、前記第2完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レベルアテンション行列の内部状態表示を生成するように配置される。
オプショナル的に、前記評価結果確定手段は、
前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定するためのマッチ度確定手段と、
前記マッチ度に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するためのマッチ度応用手段と、を備える。
オプショナル的に、前記マッチ度確定手段は、
ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理するための畳み込み手段処理手段を備え、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように、配置される。
オプショナル的に、前記マッチ度応用手段は、
ニューラルネットワークモデルの第3完全接続層により、前記マッチ度を処理するための第3完全接続層処理手段を備え、前記第3完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声が前記答えテキストに対する評価結果の内部状態表示を生成するように配置される。
本出願の実施例に提供される音声評価装置は、音声評価機器に適用されることができ、例えば、PC端末、クラウドプラットフォーム、サーバー及びサーバークラスタなどである。オプショナル的に、図5は、音声評価機器のハードウェア構成のブロック図を示し、図5を参照し、音声評価機器のハードウェア構成は、少なくとも一つのプロセッサー1と、少なくとも一つの通信インターフェース2と、少なくとも一つのメモリ3と、少なくとも一つの通信バス4を含んでもよく、
本出願の実施例において、プロセッサー1、通信インターフェース2、メモリ3、通信バス4の数は少なくとも一つであり、且つプロセッサー1、通信インターフェース2、メモリ3は通信バス4により、互いの通信を完成し、
プロセッサー1は、中央演算処理装置CPUまたは特定用途向け集積回路ASIC(Application Specific Integrated Circuit)、
または、本発明の実施例を実施するように配置される一つまたは複数の集積回路などのものである可能性があり、
メモリ3には、高速RAMメモリが含まれるか、さらに不揮発性メモリ(non−volatilememory)など、例えば、少なくとも一つの磁気ディスクメモリが含まれる可能性があり、
メモリにはプログラムが記憶され、プロセッサーはメモリに記憶されるプログラムを呼び出すことができ、前記プログラムは、
評価待ち音声及び評価標準としての答えテキストを取得し、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定し、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するようにする。
オプショナル的に、前記プログラムの細分化機能と拡張機能とは、前文の説明を参照すればよい。
本出願の実施例はさらに読み取り可能な記憶媒体を提供し、当該読み取り可能な記憶媒体には、プロセッサーにより実行されるプログラムが記憶され、前記プログラムは、
評価待ち音声及び評価標準としての答えテキストを取得し、
前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定し、
前記揃え情報に応じて、前記評価待ち音声が前記答えテキストに対する評価結果を確定するようにする。
オプショナル的に、前記プログラムの細分化機能と拡張機能とは、前文の説明を参照すればよい。
最後に、説明する必要があるのは、本文において、例えば第1と第2等などの関係用語は、ただ一つの実体または操作を、他方の実体または操作に区分するために用いられ、必ずしもこれらの実体または操作の間には、如何なるこのような実際の関係または順序が存在することを要求または暗示するとは限らない。しかも、用語「含む」、「含み」またはその如何なる他の変体は、非排他的な含みをカバーすることを意図し、このように、一連の要素が含まれる過程、方法、物品または機器には、それらの要素ばかりではなく、さらに明確的にリストされていない他の要素が含まれて、または、このような過程、方法、物品または機器の固有の要素が含まれる。より多い制限がない場合に、「一つを含み……」という語句により限定される要素は、前記要素が含まれる過程、方法、物品または機器には、さらに他の同じ要素が存在する場合を排除しない。
本明細書の各々実施例は、漸進の方式で説明し、各々実施例が主に説明するのは、他の実施例との相違点であり、各々実施例の間の同じまたは類似する部分は互いに参照すればよい。
開示された実施例に対する前記説明により、当業者が本出願を実現しまたは利用することができる。これらの実施例に対する多種の補正は当業者にとって、自明であり、本文に定義された一般的な原理は、本出願の精神または範囲から逸脱しない場合に、他の実施例で実現できる。従って、本出願は、本文に示されるこれらの実施例に限定されず、本文に開示される原理と新規な特徴に一致する、最も広い範囲に合う。

Claims (15)

  1. 音声評価方法であって、
    評価待ち音声、及び評価標準としての答えテキストを取得することと、
    前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することと、
    前記揃え情報に基づき、前記評価待ち音声の前記答えテキストに対する評価結果を確定することと、を含み、
    前記テキスト特徴は、前記答えテキストのテキスト情報を反映し、
    前記答えテキストのテキスト特徴を取得する過程は、
    テキスト特徴として、前記答えテキストのベクトルを取得することを含むか、
    または、
    前記答えテキストのベクトルを取得することと、
    テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得することと、を含む、
    ことを特徴とする方法。
  2. 前記評価待ち音声の音響特徴を取得する過程は、
    音響特徴として、前記評価待ち音声のスペクトル特徴を取得することを含むか、
    または、
    前記評価待ち音声のスペクトル特徴を取得することと、
    音響特徴として、ニューラルネットワークモデルの隠れ層により、前記スペクトル特徴を変換した後の隠れ層特徴を取得することと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することは、
    前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定することを含み、前記フレームレベルアテンション行列には、前記評価待ち音声の各々フレームの音声が、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれることを特徴とする請求項1に記載の方法。
  4. 前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定することは、
    ニューラルネットワークモデルの第1完全接続層により、前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴を処理することを含み、前記第1完全接続層は、前記音響特徴と前記テキスト特徴を受信し処理することで、フレームレベルアテンション行列の内部状態表示を生成するように配置されることを特徴とする請求項に記載の方法。
  5. 前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定することは、さらに、
    前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定することと、
    前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定することと、を含み、
    前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
    前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれることを特徴とする請求項に記載の方法。
  6. 前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定することは、
    ニューラルネットワークモデルの第2完全接続層により、前記単語レベル音響揃え行列と前記テキスト特徴を処理することを含み、前記第2完全接続層は、前記単語レベル音響揃え行列と前記テキスト特徴を受信し処理することで、単語レベルアテンション行列の内部状態表示を生成するように配置されることを特徴とする請求項に記載の方法。
  7. 前記揃え情報に応じて、前記評価待ち音声の前記答えテキストに対する評価結果を確定することは、
    前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定することと、
    前記マッチ度に応じて、前記評価待ち音声の前記答えテキストに対する評価結果を確定することと、を含むことを特徴とする請求項1〜のいずれか一項に記載の方法。
  8. 前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定することは、
    ニューラルネットワークモデルの畳み込み手段により、前記揃え情報を処理することを含み、前記畳み込み手段は、前記揃え情報を受信し処理することで、前記評価待ち音声と前記答えテキストとのマッチ度の内部状態表示を生成するように配置されることを特徴とする請求項に記載の方法。
  9. 前記マッチ度に基づき、前記評価待ち音声の前記答えテキストに対する評価結果を確定することは、
    ニューラルネットワークモデルの第3完全接続層により、前記マッチ度を処理することを含み、前記第3完全接続層は、前記マッチ度を受信し処理することで、前記評価待ち音声の前記答えテキストに対する評価結果の内部状態表示を生成するように配置されることを特徴とする請求項に記載の方法。
  10. 音声評価装置であって、
    評価待ち音声、及び評価標準としての答えテキストを取得するためのデータ取得手段と、
    前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、前記評価待ち音声と前記答えテキストとの揃え情報を確定するための揃え情報確定手段と、
    前記揃え情報に応じて、前記評価待ち音声の前記答えテキストに対する評価結果を確定するための評価結果確定手段と、を備え、
    前記テキスト特徴は、前記答えテキストのテキスト情報を反映し、
    前記データ取得手段は、
    テキスト特徴として、前記答えテキストのベクトルを取得するか、
    または、
    前記答えテキストのベクトルを取得し、
    テキスト特徴として、ニューラルネットワークモデルの隠れ層により、前記ベクトルを変換した後の隠れ層特徴を取得する、
    ことを特徴とする装置。
  11. 前記揃え情報確定手段は、
    前記評価待ち音声の音響特徴と前記答えテキストのテキスト特徴に基づき、フレームレベルアテンション行列を確定するためのフレームレベルアテンション行列確定手段を備え、前記フレームレベルアテンション行列には、前記評価待ち音声の各々フレームの音声が、前記答えテキストのいずれか一つのテキストユニットに対する揃え確率が含まれることを特徴とする請求項10に記載の装置。
  12. 前記揃え情報確定手段はさらに、
    前記フレームレベルアテンション行列と前記音響特徴に基づき、単語レベル音響揃え行列を確定するための単語レベル音響揃え行列確定手段と、前記単語レベル音響揃え行列と前記テキスト特徴に基づき、単語レベルアテンション行列を確定するための単語レベルアテンション行列確定手段を備え、
    前記単語レベル音響揃え行列には、前記答えテキストの各々テキストユニットに揃える音響情報が含まれ、前記音響情報には、前記テキストユニットと各々フレームの音声との揃え確率を重みとして、各々フレームの音声の音響特徴に対して加重して総和を求める結果が含まれ、
    前記単語レベルアテンション行列には、前記答えテキストの各々テキストユニットの音響情報が、前記答えテキストのいずれか一つのテキストユニットのテキスト特徴に対する揃え確率が含まれることを特徴とする請求項11に記載の装置。
  13. 前記評価結果確定手段は、
    前記揃え情報に応じて、前記評価待ち音声と前記答えテキストとのマッチ度を確定するためのマッチ度確定手段と、
    前記マッチ度に応じて、前記評価待ち音声の前記答えテキストに対する評価結果を確定するためのマッチ度応用手段と、を備えることを特徴とする請求項1012のいずれか一項に記載の装置。
  14. 音声評価機器であって、
    プログラムを記憶するためのメモリと、
    請求項1〜のいずれか一項に記載の音声評価方法の各ステップを実現するように、前記プログラムを実行するためのプロセッサーと、を備えることを特徴とする機器。
  15. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサーにより実行される場合に、請求項1〜のいずれか一項に記載の音声評価方法の各ステップを実現することを特徴とするコンピュー
    タプログラム。
JP2018223934A 2018-09-30 2018-11-29 音声評価方法、装置、機器及び読み取り可能な記憶媒体 Active JP6902010B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811162964.0A CN109215632B (zh) 2018-09-30 2018-09-30 一种语音评测方法、装置、设备及可读存储介质
CN201811162964.0 2018-09-30

Publications (2)

Publication Number Publication Date
JP2020056982A JP2020056982A (ja) 2020-04-09
JP6902010B2 true JP6902010B2 (ja) 2021-07-14

Family

ID=64982845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018223934A Active JP6902010B2 (ja) 2018-09-30 2018-11-29 音声評価方法、装置、機器及び読み取り可能な記憶媒体

Country Status (2)

Country Link
JP (1) JP6902010B2 (ja)
CN (1) CN109215632B (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100704542B1 (ko) * 2006-09-12 2007-04-09 주식회사 보경이엔지건축사사무소 냉난방 효율을 증대시켜줄 수 있는 공동주택용 전실보조도어
CN111027794B (zh) * 2019-03-29 2023-09-26 广东小天才科技有限公司 一种听写作业的批改方法及学习设备
CN109979482B (zh) * 2019-05-21 2021-12-07 科大讯飞股份有限公司 一种针对音频的评测方法及装置
CN110223689A (zh) * 2019-06-10 2019-09-10 秒针信息技术有限公司 语音信息的优化能力的确定方法及装置、存储介质
CN110600006B (zh) * 2019-10-29 2022-02-11 福建天晴数码有限公司 一种语音识别的评测方法及系统
CN110782917B (zh) * 2019-11-01 2022-07-12 广州美读信息技术有限公司 一种诗词吟诵风格的分类方法与系统
CN111128120B (zh) * 2019-12-31 2022-05-10 思必驰科技股份有限公司 文本转语音方法和装置
CN113707178B (zh) * 2020-05-22 2024-02-06 苏州声通信息科技有限公司 音频评测方法及装置、非瞬时性存储介质
CN111652165B (zh) * 2020-06-08 2022-05-17 北京世纪好未来教育科技有限公司 口型评测方法、设备及计算机存储介质
CN111862957A (zh) * 2020-07-14 2020-10-30 杭州芯声智能科技有限公司 一种单声道语音关键词低功耗实时检测方法
CN112256841B (zh) * 2020-11-26 2024-05-07 支付宝(杭州)信息技术有限公司 文本匹配和对抗文本识别方法、装置及设备
CN113379234A (zh) * 2021-06-08 2021-09-10 北京猿力未来科技有限公司 评价结果的生成方法及装置
CN113707148B (zh) * 2021-08-05 2024-04-19 中移(杭州)信息技术有限公司 语音识别准确率的确定方法、装置、设备以及介质
CN113506585A (zh) * 2021-09-09 2021-10-15 深圳市一号互联科技有限公司 一种语音通话的质量评估方法及系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05333896A (ja) * 1992-06-01 1993-12-17 Nec Corp 会話文認識方式
US8231389B1 (en) * 2004-04-29 2012-07-31 Wireless Generation, Inc. Real-time observation assessment with phoneme segment capturing and scoring
JP2008052178A (ja) * 2006-08-28 2008-03-06 Toyota Motor Corp 音声認識装置と音声認識方法
JP5834291B2 (ja) * 2011-07-13 2015-12-16 ハイウエア株式会社 音声認識装置、自動応答方法及び、自動応答プログラム
CN104347071B (zh) * 2013-08-02 2020-02-07 科大讯飞股份有限公司 生成口语考试参考答案的方法及系统
JP6217304B2 (ja) * 2013-10-17 2017-10-25 ヤマハ株式会社 歌唱評価装置およびプログラム
CN104361895B (zh) * 2014-12-04 2018-12-18 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
CN104810017B (zh) * 2015-04-08 2018-07-17 广东外语外贸大学 基于语义分析的口语评测方法和系统
JP6674706B2 (ja) * 2016-09-14 2020-04-01 Kddi株式会社 学習者の口述音声から自動的に採点するプログラム、装置及び方法
CN108154735A (zh) * 2016-12-06 2018-06-12 爱天教育科技(北京)有限公司 英语口语测评方法及装置
CN106847260B (zh) * 2016-12-20 2020-02-21 山东山大鸥玛软件股份有限公司 一种基于特征融合的英语口语自动评分方法
US20190362703A1 (en) * 2017-02-15 2019-11-28 Nippon Telegraph And Telephone Corporation Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program
CN110444199B (zh) * 2017-05-27 2022-01-07 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN107818795B (zh) * 2017-11-15 2020-11-17 苏州驰声信息科技有限公司 一种英语口语的测评方法及装置
CN109192224B (zh) * 2018-09-14 2021-08-17 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN109215632A (zh) 2019-01-15
CN109215632B (zh) 2021-10-08
JP2020056982A (ja) 2020-04-09

Similar Documents

Publication Publication Date Title
JP6902010B2 (ja) 音声評価方法、装置、機器及び読み取り可能な記憶媒体
WO2021104099A1 (zh) 一种基于情景感知的多模态抑郁症检测方法和系统
CN110021308B (zh) 语音情绪识别方法、装置、计算机设备和存储介质
CN110223673B (zh) 语音的处理方法及装置、存储介质、电子设备
US20170358306A1 (en) Neural network-based voiceprint information extraction method and apparatus
TW574684B (en) Method and system for speech recognition
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN106295717B (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
KR20080023030A (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
CN108986798B (zh) 语音数据的处理方法、装置及设备
WO2018192186A1 (zh) 语音识别方法及装置
CN112017694B (zh) 语音数据的评测方法和装置、存储介质和电子装置
CN107767881B (zh) 一种语音信息的满意度的获取方法和装置
CN111640456A (zh) 叠音检测方法、装置和设备
US20230070000A1 (en) Speech recognition method and apparatus, device, storage medium, and program product
JPWO2017146073A1 (ja) 声質変換装置、声質変換方法およびプログラム
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
CN112687291A (zh) 一种发音缺陷识别模型训练方法以及发音缺陷识别方法
CN117711444B (zh) 一种基于口才表达的互动方法、装置、设备及存储介质
CN108538292A (zh) 一种语音识别方法、装置、设备及可读存储介质
CN114708857A (zh) 语音识别模型训练方法、语音识别方法及相应装置
Liu et al. AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning
CN111833842A (zh) 合成音模板发现方法、装置以及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200204

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200430

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200619

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210309

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210310

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210427

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210608

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210618

R150 Certificate of patent or registration of utility model

Ref document number: 6902010

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150