JP6807909B2

JP6807909B2 - データ評価方法、装置、機器及び読み取り可能な記憶媒体

Info

Publication number: JP6807909B2
Application number: JP2018208620A
Authority: JP
Inventors: フー，ヤン; ウー，クイ; ジュー，チュン
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-09-20
Filing date: 2018-11-06
Publication date: 2021-01-06
Anticipated expiration: 2038-11-06
Also published as: CN109273023B; CN109273023A; JP2020047234A

Description

本願は、機械学習技術分野に関し、より具体的には、データ評価方法、装置、機器及び読み取り可能な記憶媒体に関する。

教育改革の深化に従って、学生たちは授業で、各教科の知識を学習できる。そして、学生たちの知識に対する把握程度を検査するために、試験形式で検査を行う必要が有る。口頭試験を例として、一般的には、口頭試験は一段の材料を与え、該材料に対して、若干の問題を設定する。受験生が材料を読んだ後に、それぞれの問題について、口頭形式で答えを提出して、例えば、朗読問題、問答問題などのものである。

従来技術において、一般的には、人工により試験音声を評価し採点するように手配する。明らかに、このような方式は、大量の人件費を費やし、且つ試験音声の評価過程の全体の必要な時間も長い。

これに鑑みると、本願は、従来技術において、単純に人工による試験音声の評価を行う方式に存在する人件費が高くて必要な時間が長い問題を解決するために、データ評価方法、装置、機器及び読み取り可能な記憶媒体を提供する。

前記目的を実現するために、以下のような方案を提出し、即ち、
データ評価方法であって、
第１評価待ちデータを取得し、
評価モデルに基づき、前記第１評価待ちデータを評価することで、第１評価結果を得て、前記評価モデルは第１較正データに基づきトレーニングすることで得られて、前記第１較正データには専門家が第２評価待ちデータに対する評価結果が含まれ、
前記第１評価結果が設定された結果収束条件を満たしていなければ、第２較正データを取得するとともに、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定するまでに、前記第２較正データにより、前記評価モデルを反復更新し、前記第２較正データには専門家が第３評価待ちデータに対する評価結果が含まれ、
最新の評価モデルに基づき、データ評価を行う。

好ましくは、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定する過程は、
現在の更新後の評価モデルにより、プリセットの検証セットにおいて検証を行って、検証結果を得ることと、
検証結果が設定された検証結果収束条件を満たしていると確定すると、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することと、を含む。

好ましくは、前記現在の更新後の評価モデルにより、プリセットの検証セットにおいて検証を行って、検証結果を得ることは、
検証結果として、現在の更新後の評価モデルが検証セット内の検証サンプルに対する予測結果を取得することを含み、
前記検証結果が設定された検証結果収束条件を満たしていると確定すると、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することは、
前記検証サンプルのマーク結果を基準として、前記検証サンプルの予測結果が設定された検証結果収束条件を満たしているかどうかを判定し、ＹＥＳであれば、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定すること、
または、
前の評価モデルが前記検証サンプルに対する予測結果を参照し、現在の更新後の評価モデルが前記検証サンプルに対する予測結果が設定された検証結果収束条件を満たしているかどうかを判定し、ＹＥＳであれば、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することを含む。

好ましくは、前記第１較正データと前記第２較正データを取得する過程は、
汎用評価モデルの評価待ちデータに対する第２評価結果、及び人工評価主体の前記評価待ちデータに対する第３評価結果を取得することと、
各々の人工評価主体の前記評価待ちデータに対する第３評価結果、及び前記評価待ちデータの第２評価結果に応じて、各々の前記人工評価主体から、前記専門家を確定することと、
前記専門家により評価された評価待ちデータから、前記第１較正データと前記第２較正データを確定することと、を含む。

好ましくは、前記汎用評価モデルの評価待ちデータに対する第２評価結果を取得した後に、該方法はさらに、
前記第２評価結果を参照し、前記評価待ちデータから、人工評価の対象としての目標評価待ちデータを選択することを含み、
人工評価主体の前記評価待ちデータに対する第３評価結果を取得することは、
人工評価主体の前記目標評価待ちデータに対する第３評価結果を取得することを含む。

好ましくは、前記第２評価結果は、第２評価得点または第２評価レベルであり、前記第２評価結果を参照し、前記評価待ちデータから、人工評価の対象としての目標評価待ちデータを選択することは、
各々の前記評価待ちデータの第２評価得点または第２評価レベルを参照し、正規分布のサンプリング方式に従って、各々の前記評価待ちデータから、人工評価の対象としての目標評価待ちデータを選択することを含む。

好ましくは、各々の前記人工評価主体の前記評価待ちデータに対する第３評価結果、及び前記評価待ちデータの第２評価結果に応じて、各々の前記人工評価主体から前記専門家を確定することは、
各々の人工評価主体の前記評価待ちデータに対する第３評価結果、及び前記評価待ちデータの第２評価結果に応じて、前記第３評価結果と前記第２評価結果との関連性を算出することと、
前記専門家として、関連性が設定関連性条件を満たしている第３評価結果に対応する人工評価主体を選択することと、を含む。

好ましくは、第２評価待ちデータと第３評価待ちデータは評価待ち音声であり、前記評価モデルには、第１評価サブモデル、第２評価サブモデル、第３評価サブモデルのうちの、少なくとも一つが含まれ、
前記第１評価サブモデルは、評価待ち音声の音響特徴を評価特徴として、評価待ち音声のマーク評価結果をラベルとして、ニューラルネットワークモデルをトレーニングすることで得られて、
前記第２評価サブモデルは、評価待ち音声の識別結果に対応するテキスト特徴を評価特徴として、評価待ち音声のマーク評価結果をラベルとして、畳み込みニューラルネットワークモデルをトレーニングすることで得られて、
前記第３評価サブモデルは、評価待ち音声の識別結果に対応するテキスト特徴を評価特徴として、評価待ち音声のマーク評価結果をラベルとして、再帰型ニューラルネットワークモデルをトレーニングすることで得られてる。

データ評価装置であって、
第１評価待ちデータを取得するための第１評価待ちデータ取得手段と、
評価モデルに基づき、前記第１評価待ちデータを評価することで、第１評価結果を得るための第１評価結果取得手段と、
前記第１評価結果が設定された結果収束条件を満たしていなければ、第２較正データを取得するための第２較正データ取得手段と、
現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定するまでに、前記第２較正データにより、前記評価モデルを反復更新するためのモデル更新手段と、
最新の評価モデルに基づき、データ評価を行うためのモデル評価手段と、を備え、
前記評価モデルは、第１較正データに基づきトレーニングすることで得られて、前記第１較正データには、専門家が第２評価待ちデータに対する評価結果が含まれ、前記第２較正データには、専門家が第３評価待ちデータに対する評価結果が含まれる。

好ましくは、前記モデル更新手段により、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定する過程は、
現在の更新後の評価モデルにより、プリセットの検証セットにおいて検証を行って、検証結果を得ることと、
検証結果が設定された検証結果収束条件を満たしていると確定すれば、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することと、を含む。

好ましくは、前記モデル更新手段が現在の更新後の評価モデルにより、プリセットの検証セットにおいて検証を行って、検証結果を得る過程は、
検証結果として、現在の更新後の評価モデルの検証セット内の検証サンプルに対する予測結果を取得することを含み、
前記モデル更新手段により検証結果が設定された検証結果収束条件を満たしていると確定すれば、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定する過程は、
前記検証サンプルのマーク結果を基準として、前記検証サンプルの予測結果が設定された検証結果収束条件を満たしているかどうかを判定し、ＹＥＳであれば、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定すること、
または、
前の評価モデルの前記検証サンプルに対する予測結果を参照し、現在の更新後の評価モデルが前記検証サンプルに対する予測結果が設定された検証結果収束条件を満たしているかどうかを判定し、ＹＥＳであれば、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することを含む。

好ましくは、前記第２較正データ取得手段は、
汎用評価モデルの評価待ちデータに対する第２評価結果を取得するための第２評価結果取得手段と、
人工評価主体の前記評価待ち音声に対する第３評価結果を取得するための第３評価結果取得手段と、
各々の人工評価主体の前記評価待ちデータに対する第３評価結果、及び前記評価待ちデータの第２評価結果に応じて、各々の前記人工評価主体から前記専門家を確定するための専門家確定手段と、
前記専門家により評価された評価待ちデータから、前記第２較正データを確定するため
の第２較正データ確定手段と、を備える。

好ましくは、さらに、
前記汎用評価モデルの評価待ちデータに対する第２評価結果を取得した後に、前記第２評価結果を参照し、前記評価待ちデータから、人工評価の対象としての目標評価待ちデータを選択するための目標評価待ちデータ選択手段を備え、
前記第３評価結果取得手段により人工評価主体の前記評価待ち音声に対する第３評価結果を取得する過程は、
人工評価主体の前記目標評価待ちデータに対する第３評価結果を取得することを含む。

好ましくは、前記第２評価結果は、第２評価得点または第２評価レベルであり、前記目標評価待ちデータ選択手段は、
各々の前記評価待ちデータの第２評価得点または第２評価レベルを参照し、正規分布のサンプリング方式に従って、各々の前記評価待ちデータから、人工評価の対象としての目標評価待ちデータを選択するための正規分布サンプリング手段を備える。

好ましくは、前記専門家確定手段は、
各々の人工評価主体の前記評価待ちデータに対する第３評価結果、及び前記評価待ちデータの第２評価結果に応じて、前記第３評価結果と前記第２評価結果との関連性を算出するための関連性算出手段と、
前記専門家として、関連性が設定関連性条件を満たしている第３評価結果に対応する人工評価主体を選択するための関連性スクリーニング手段と、を備える。

データ評価機器であって、
プログラムを記憶するためのメモリと、
上記記載のデータ評価方法の各ステップを実現するように、前記プログラムを実行するためのプロセッサーと、を備える。

コンピュータプログラムが記憶される読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサーにより実行される際に、上記記載のデータ評価方法の各ステップを実現する。

前記の技術案から分かるように、本出願の実施例に提供されるデータ評価方法は、評価待ちデータから第２評価待ちデータを予め抽出し、専門家により、第２評価待ちデータを評価し、第１較正データを構成し、第１較正データにより評価モデルを予めトレーニングし、これに基づき、本願は評価待ちデータから、第１評価待ちデータを取得し、前記評価モデルに基づき、第１評価待ちデータを評価することで、第１評価結果を得て、第１評価結果が設定された結果収束条件を満たしていないと確定すれば、第２較正データを取得でき、該第２較正データは専門家が第３評価待ちデータに対する評価結果であってもよく、さらに、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定するまでに、第２較正データにより評価モデルを反復更新し、最新の評価モデルにより、データ評価を行う。このように、本案は、専門家により評価された結果を利用し、評価モデルを反復トレーニングするとともに、人工専門家と評価モデルとの結合により、データを評価し、従来において、単に人工専門家により評価を行う方式に比べると、本案のデータ評価の効率がより高くて、占める人件費がより低くて、そして評価にかかる時間がより短い。

本出願の実施例または従来技術における技術案をより明らかに説明するために、以下は、実施例または従来技術に対する説明において利用する必要が有る図面を簡単に紹介し、
明らかに、以下に説明する図面は、本出願の実施例のみであり、当業者にとって、進歩性に値する労働をしない前提で、提供される図面に応じて、他の図面を取得できる。
本出願の実施例に開示されるデータ評価方法のフローチャートである。従来の口頭試験の音声評価過程の模式図を示す。本案の口頭試験の音声評価過程の模式図を示す。目標評価待ちデータを選択する正規分布のサンプリング方式の模式図を例示す。本出願の実施例に開示されるデータ評価装置の構成の模式図である。本出願の実施例に開示されるデータ評価機器のハードウェア構成のブロック図である。

以下は、本出願の実施例の図面を結合し、本出願の実施例における技術案に対して、明瞭で、完全な説明を行って、明らかに、説明される実施例は全ての実施例ではなく、本出願の一部の実施例のみである。本出願における実施例に基づき、当業者が進歩性に値する労働をしない前提で取得する他の全ての実施例は、いずれも本出願の保護範囲に属する。

本出願の実施例は、データ処理能力を有する機器に適用されるデータ評価方案を提供する。本出願のデータ評価方案は、データ評価を行う必要がある各種のシーンに適用されてもよく、例えば、試験データ評価などである。評価待ちデータも多種であってもよく、例えば音声、テキスト、画像などの各種の形式である。

次は、図面１を結合し、本出願のデータ評価方法を紹介し、図１に示すように、該方法は、
第１評価待ちデータを取得するステップＳ１００を含む。

具体的には、データ評価シーンにおける、データ評価を行う必要が有る全てのデータを、評価待ちデータとする。当該ステップにおいて、第１評価待ちデータとして、評価待ちデータから、一部の評価待ちデータを取得する。

なお、第１評価待ちデータの数は厳しく限定されない。

ステップＳ１１０で、評価モデルに基づき、前記第１評価待ちデータを評価し、第１評価結果を得る。

前記評価モデルは、第１較正データに基づきトレーニングすることで得られて、前記第１較正データには、専門家が第２評価待ちデータに対する評価結果が含まれる。

第２評価待ちデータも評価待ちデータから抽出される。

本出願の方案は、評価待ちデータから一定数の第２評価待ちデータを予め抽出し、人工評価をするように専門家に任せて、専門家の第２評価待ちデータに対する評価結果を第１較正データとしてもよい。第１較正データにより評価モデルをトレーニングする。第１較正データによりトレーニングされた後の評価モデルに基づき、前のステップで取得された第１評価待ちデータを評価でき、第１評価結果を得る。

ステップＳ１２０で、前記第１評価結果が設定された結果収束条件を満たしていなければ、第２較正データを取得するとともに、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定するまでに、前記第２較正データにより、前記評価モデルを反復更新する。

具体的には、本案は、第１評価結果に対して収束判定を行うための、結果収束条件を予め設定してもよく、第１評価結果が結果収束条件を満たしていなければ、第１較正データに基づきトレーニングされた評価モデルが十分に優秀になるようにトレーニングされていないことを示し、さらに、第２較正データを取得し、反復更新を継続的に行う必要が有る。結果収束条件は多種であってもよく、例えば、専門家により、第１評価待ちデータまたはその一部の評価待ちデータを評価するとともに、専門家による評価結果を基準として、第１評価結果を専門家による評価結果にマッチングし、さらに、マッチング結果に応じて、設定された結果収束条件を満たしているかどうかを確定する。

説明する必要があるのは、第１較正データに基づきトレーニングされた評価モデルは、既に十分に優秀になっている可能性があり、そうすると、評価モデルが第１評価待ちデータに対して評価した第１評価結果は、設定された結果収束条件を満たしている。さらに、第１較正データに基づきトレーニングされた評価モデルは、まだ十分に優秀ではない可能性があり、つまり、第１較正データのデータ量は十分ではない可能性があり、トレーニングされた評価モデルは十分に優秀ではないことにつながる。この場合に、当該ステップにおいて、さらに第２較正データを取得し、評価モデルに対して反復更新し、当該第２較正データには専門家が第３評価待ちデータに対する評価結果が含まれる。なお、第３評価待ちデータは、評価待ちデータから抽出された一定数の評価待ちデータであってもよい。第３評価待ちデータは第２評価待ちデータと違ってもよい。

同時に、本案は、さらに、モデル更新停止条件を予め設定してもよく、第２較正データに基づき更新された評価モデルを判定するために用いられ、モデル更新停止条件に達するかどうかを確定する。

説明する必要があるのは、当該ステップにおいて、第２較正データを取得するラウンド数は複数のラウンドを有してもよく、各々のラウンドで一定量の第２較正データを取得した後に、現在の更新後の評価モデルがモデル更新停止条件を満たしていると確定するまでに、第２較正データにより、評価モデルを反復更新する。ここで、第２較正データの取得を停止してもよい。

ステップＳ１３０で、最新の評価モデルに基づき、データ評価を行う。

理解できるのは、前記第１評価結果が設定されたモデル更新停止条件を満たしていると、第１較正データに基づきトレーニングされた評価モデルは十分に優秀になっていることを示し、直接的に、第１較正データに基づきトレーニングされた評価モデルを最新の評価モデルとしてもよい。さらに、前記第１評価結果が設定されたモデル更新停止条件を満たしていなければ、第２較正データにより、現在の更新後の評価モデルがモデル更新停止条件を満たすまでに、反復に評価モデルを更新し、現在の更新後の評価モデルを最新の評価モデルとする。

最新の評価モデルを得た後に、最新の評価モデルに基づき、データ評価を行うことができる。

理解できるのは、最新の評価モデルにより、全ての評価待ちデータを評価してもよく、または最新の評価モデルにより、評価待ちデータにおける、専門家による人工評価以外の他の評価待ちデータを評価してもよく、または、評価待ちデータにおける、専門家による人工評価及び、更新段階の各々評価モデルにより評価された評価データ以外の、他の評価待ちデータを評価してもよい。最新の評価モデルの具体的な使用方式は必要に応じて設定できる。

本出願の実施例に提供されるデータ評価方法は、評価待ちデータから第２評価待ちデータを予め抽出するとともに、専門家により第２評価待ちデータを評価し、第１較正データを構成し、予め第１較正データにより評価モデルをトレーニングしてもよく、これに基づき、本出願は、評価待ちデータから第１評価待ちデータを取得し、前記評価モデルに基づき、第１評価待ちデータを評価し、第１評価結果を得て、第１評価結果が設定された結果収束条件を満たしていないと確定すれば、第２較正データを取得でき、当該第２較正データは専門家の第３評価待ちデータに対する評価結果であってもよく、さらに、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定するまでに、第２較正データにより評価モデルを反復更新し、最新の評価モデルによりデータ評価を行う。このように、本案は専門家による評価の結果で、評価モデルを反復トレーニングするとともに、人工専門家と評価モデルとの結合により、データを評価し、従来において、単に人工専門家により評価を行う方式に比べると、本案のデータ評価の効率がより高くて、占める人件費がより低くて、そして評価にかかる時間がより短い。

説明する必要があるのは、本案において、専門家がリアルタイムに評価待ちデータを評価し、評価結果を得ることができ、且つ専門家による評価過程と評価モデルのトレーニング及び評価の過程とは同期に実行されることができ、つまり、全体のデータ評価の過程において、専門家により人工評価しつつ、専門家による人工評価の結果を利用して評価モデルをトレーニングしつつ、トレーニングされた評価モデルで評価待ちデータを評価し、この三つのステップは同期に行われる。無論、評価モデルに対するトレーニングが設定されたモデル更新停止条件に達すると確定した場合に、評価モデルが最適の状態に達する。その後、専門家が人工評価を停止してもよく、または、評価モデルにより評価できない一部の問題タイプのみに対して、人工評価を行ってもよく、そうすると、専門家のコストを浪費しない上に、トレーニングにより最適の評価モデルを得ることも保証できる。

例を挙げて、以下のように説明して、即ち、
まずは、専門家により評価された３００分の較正データを取得し、該３００分の較正データにより評価モデルをトレーニングし、トレーニングされた第１評価モデルを得る。さらに、評価待ちデータから、１００分の評価待ちデータを取得し、第１評価モデルにより、１００分の評価待ちデータを評価し、第１評価結果を得る。第１評価結果が設定された結果収束条件を満たしているかどうかを確定し、満たしていなければ、さらに専門家により評価された他の３００分の較正データを取得するとともに、新たに取得された３００分の較正データにより、第１評価モデルを反復トレーニングし、トレーニングされた第２評価モデルを得る。第２評価モデルが設定されたモデル更新停止条件を満たしているかどうかを判定し、ＮＯであれば、専門家により評価された新たな較正データを継続的に取得し、及び評価モデルを継続的に反復トレーニングし検証し、ＹＥＳであれば、トレーニングされた評価モデルが十分に優秀になり、最新の評価モデルとして利用することができることを示し、そして、専門家に評価待ちデータに対する評価を停止させることができる。

また説明する必要があるのは、本出願の実施例において、タイプが異なる複数の評価モデルを予めに設置してもよく、各々のタイプの評価モデルがいずれも前記フローに応じて利用され、且つそれぞれトレーニングされることで、最適の状態に達する。さらに、トレーニングされたタイプが異なる複数の評価モデルを結合し利用してもよい。または、タイプが異なる複数の評価モデルに対して、同一の検証セットにおいて、効果照合を行って、最終に利用されるモデルとして、効果が最適の評価モデルを選定してもよい。

評価待ちデータが評価待ち音声であることを例として説明し、本実施例において、タイプが異なる三つの評価モデルを例示し、それぞれ、第１評価サブモデル、第２評価サブモデル、第３評価サブモデルであり、
第１評価サブモデルであって、
第１評価サブモデルは、評価待ち音声の音響特徴を評価特徴として、評価待ち音声のマーク評価結果をラベルとして、ニューラルネットワークモデルをトレーニングすることで得られる。

具体的には、評価特徴として、評価待ち音声の音響特徴を抽出し、主に、発音の正確性、流暢性、完全性が含まれる。さらに、履歴経験データと人工マーク結果で、第１評価サブモデルをトレーニングし、当該第１評価サブモデルはＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、サポートベクターマシン）、ＬＲ（ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ、ロジスティック回帰）などの構成のニューラルネットワークモデルであってもよい。

第２評価サブモデルであって、
第２評価サブモデルは、評価待ち音声の識別結果に対応するテキスト特徴を評価特徴として、評価待ち音声のマーク評価結果をラベルとして、畳み込みニューラルネットワークモデルをトレーニングすることで得られる。

具体的には、評価特徴として、評価待ち音声の識別結果からテキスト特徴を抽出する。受験生の言語表現水準を第２評価サブモデルの出力目標として、口頭試験の範囲内にある言語組織水準レベル分類による第２評価サブモデルを設計し、第２評価サブモデルが評価待ち音声の識別結果に基づき、受験生の言語水準能力を分析し、受験生の口頭水準レベルを判定できる。

第２評価サブモデルは、ＣＮＮ畳み込みニューラルネットワークを採用してもよく、それはテキストにおける局部の重要情報を抽出できるとともに、多層畳み込み方式で、局部から全体までの情報の抽出を実現する。当該第２評価サブモデルは、学生の高水準の表現方式を識別できる。

第３評価サブモデルであって、
第３評価サブモデルは、評価待ち音声の識別結果に対応するテキスト特徴を評価特徴として、評価待ち音声のマーク評価結果をラベルとして、再帰型ニューラルネットワークモデルをトレーニングすることで得られる。

具体的には、評価特徴として、評価待ち音声の識別結果から、テキスト特徴を抽出してもよい。第３評価サブモデルは、ＲＮＮ再帰型ニューラルネットワークを採用してもよく、それはテキストのシーケンスセマンティクスとロジック情報を抽出できるから、受験生のテキスト理解に適切である。

本出願の他の実施例において、前記ステップＳ１２０における、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定する過程に対して説明する。

オプショナルな形態であって、現在の更新後の評価モデルにより、プリセットの検証セットにおいて検証し、検証結果を得て、さらに検証結果が設定された検証結果収束条件を満たしているかどうかを判定し、検証結果が設定された検証結果収束条件を満たしていると確定すれば、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定する。

検証セットには、複数の検証サンプルが含まれてもよく、これらの検証サンプルには評価結果がマークされていてもよく、評価結果がマークされていなくてもよい。

検証結果を得る過程は、
検証結果として、現在の更新後の評価モデルが検証セット内の検証サンプルに対する予測結果を取得することを含んでもよい。

これに基づき、検証サンプルに評価結果がマークされていると、検証結果が設定された検証結果収束条件を満たしているかどうかを判定する過程は、
前記検証サンプルのマーク結果を基準として、前記検証サンプルの予測結果が設定された検証結果収束条件を満たしているかどうかを判定し、ＹＥＳであれば、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することを含んでもよい。

具体的には、検証サンプルの予測結果とマーク結果とを比較し、検証サンプルの予測結果が設定された検証結果収束条件を満たしているかどうかを判定してもよく、例えば、予測結果とマーク結果との差分値が、設定された差分値の範囲にあるかどうかを判定してもよい。

さらに、検証サンプルに評価結果がマークされていなければ、検証結果が設定された検証結果収束条件を満たしているかどうかを判定する過程は、
前の評価モデルが前記検証サンプルに対する予測結果を参照し、現在の更新後の評価モデルが前記検証サンプルに対する予測結果が設定された検証結果収束条件を満たしているかどうかを判定し、ＹＥＳであれば、現在の更新後の評価モデルがモデル停止更新条件を満たしていると確定することを含んでもよい。

具体的には、検証サンプルに評価結果がマークされていない場合に、前後二つの評価モデルが検証サンプルに対する予測結果を比較することで、現在の更新後の評価モデルが検証サンプルに対する予測結果が設定された検証結果収束条件を満たしているかどうかを判定し、例えば、現在の更新後の評価モデルが検証サンプルに対する予測結果と、前の評価モデルが前記検証サンプルに対する予測結果との差分値が、設定された差分値の範囲の内にあるなど。

本出願の他の実施例において、前記実施例に言及された、評価モデルをトレーニングするための第１較正データと第２較正データとを取得する過程を紹介する。

その前に、本実施例は、まず口頭試験のシーンを例として、口頭試験音声の評価の過程を紹介する。図２に示すように、口頭試験音声の評価の過程は、四つの部分に細分されてもよく、それぞれは、
Ｐａｒｔ１：試験音声の纏まり及び人工による較正専門家の選定。

ここで、試験音声は、受験生が口頭試験の内容に対して提出した返答音声である。さらに、従来技術において、第１バッチの較正専門家を組織する必要が有り、当該較正専門家は採点標準を確定し、較正専門家は強い専門水準を有する必要が有る。

Ｐａｒｔ２：経験に応じて、較正セットの規模を推定し、較正セットを選定する。較正セットは一般的に、全ての受験生の試験音声における、代表性を有する試験音声からなる。較正セットを確定した後に、人工較正をするように、較正専門家に任せて、つまり、較正専門家により、較正セット内の試験音声を評価し採点し、点数の高さが受験生の口頭水準を示す。較正セット内の試験音声が評価され採点された後に、トレーニングデータとして、音声評価モデルをトレーニングし、トレーニング後の音声評価モデルを得る。

Ｐａｒｔ３：第２バッチの採点専門家を組織する。ここで、説明する必要があるのは、
口頭試験内容において、一部の問題タイプは音声評価モデルにより採点でき、例えば、朗読問題などであり、また、一部の自由開放性の問題タイプが存在し、該部分の問題タイプは音声評価モデルによる採点効果が理想ではないから、人工による採点を必要とする。ここで、第２バッチの採点専門家は、主に当該部分の音声評価モデルによる採点効果が理想ではない問題タイプに対して、人工の評価採点を行う。また、音声評価モデルにより採点可能な問題タイプに対して、前のステップにおいてトレーニング後の音声評価モデルにより評価し採点する。

Ｐａｒｔ４：前のステップにおいて、人工による採点された問題タイプの得点と、音声評価モデルによる採点された問題タイプとの得点を合併することで、纏まりの得点を得る。

前記フローを分析し分かるように、以下の欠陥が存在し、即ち、
１、Ｐａｒｔ１のステップにおいて、人工により較正専門家を選定する必要が有るから、人工経験の影響を受けやすくて、選択される較正専門家の専門能力が不均一である恐れがあり、さらに、較正専門家により評価される試験音声をトレーニングデータとしてトレーニングされる口頭試験評価モデルにも偏差が発生し、最終の評価の正確度に影響する恐れがある。

２、Ｐａｒｔ２のステップにおいて、人工により、経験に応じて、較正セットの規模を推定する必要が有り、当該較正セットの規模は口頭試験評価モデルのトレーニングセットの規模であり、明らかに、人工により推定される規模は最適の結果ではない可能性が高くて、さらに、モデルのトレーニングの効果が悪くて、最終の評価の正確度に影響する。

３、Ｐａｒｔ１とＰａｒｔ３との二つのステップにおいて、合計に両バッチの専門家、つまり、第１バッチの較正専門家、及び第２バッチの採点専門家を組織する必要が有るから、全体の口頭試験の評価フローが複雑になり、期間が長くなる。

前記紹介された試験音声の評価フローの欠陥に基づき、本実施例は前記言及された欠陥を解決できる、第１較正データと第２較正データを取得する方式を提供し、該取得過程は以下を含んでもよく、
Ｓ１で、汎用評価モデルが評価待ちデータに対する第２評価結果、及び人工評価主体が前記評価待ちデータに対する第３評価結果を取得する。

口頭試験のシーンを例として、評価待ちデータは、受験生が口頭試験の問題に対する返答音声であってもよい。なお、汎用評価モデルは、例年の口頭試験音声及び評価結果に応じてトレーニングされ、試験音声を評価するための音声評価モデルであってもよい。汎用音声評価モデルの予測正確度が高いが、異なる地域に対して、採点スケールに僅かな差がある可能性があるから、異なる地域に対して、マッチングする音声評価モデルをトレーニングする必要が有り、精度がより高い音声評価を実現する。

相変わらず口頭試験のシーンを例として、本方案は、図２のフローにおけるＰａｒｔ１というステップの較正専門家を余分に組織する必要がなく、前記図２のフローにおけるＰａｒｔ３というステップの採点専門家に対応するように、ただ１バッチの専門家を組織すればよい。該ステップにおいて、人工評価主体は、図２のＰａｒｔ３というステップにおける採点専門家と見なされてもよい。

区別するように説明するために、当該ステップにおいて、汎用評価モデルが評価待ちデータに対する評価結果を第２評価結果と定義して、人工評価主体が前記評価待ちデータに対する評価結果を第３評価結果と定義する。

Ｓ２で、各々の人工評価主体が前記評価待ちデータに対する第３評価結果、及び及前記評価待ちデータの第２評価結果に応じて、前記各々の人工評価主体から専門家を確定する。

具体的には、汎用評価モデルが評価待ちデータに対する第２評価結果を標準として、各々の人工評価主体の第３評価結果を比較し、専門家として各々の人工評価主体から専門水準が高い目標人工評価主体を確定してもよい。ここで言及された専門家は、較正専門家であり、つまり、評価待ちデータに対する第３評価結果がより正確な人工評価主体であると理解されてもよい。

本案において、汎用評価モデルが評価待ちデータに対する第２評価結果を参照し、さらに各々の人工評価主体が評価待ちデータに対する第３評価結果に応じて、各々の人工評価主体から専門家を確定でき、選択された専門家の専門水準が高くて、人工で較正専門家を選定する必要がない。

Ｓ３で、前記専門家により評価された評価待ちデータから、前記第１較正データと前記第２較正データを確定する。

具体的には、前記に説明したように、専門家は採点専門家から確定されてもよく、本案において、較正専門家を余分に組織する必要がなく、ただ１バッチの採点専門家を組織すればよいから、評価期間がより短くなり、フローがより簡単になる。且つ、採点専門家は大量の受験生の試験データを評価できるから、評価待ちデータの数が大量であってもよく、つまり、第１較正データと第２較正データの数が大量であってもよい。

さらに、専門家は、汎用評価モデルが評価待ちデータに対する第２評価結果、及び各々の人工評価主体が評価待ちデータに対する第３評価結果を参照し確定されるから、その専門水準がより高くて、専門家が評価待ちデータに対する第３評価結果がより正確になり、これに基づき、大量で、正確な第１較正データと第２較正データを取得でき、トレーニングすることで、より優れた評価モデルを得ることを保証できる。

図３に示すように、本実施例に提供される第１較正データと第２較正データを取得する方式を応用して、口頭試験音声の評価を行う過程は、三つの部分に細分されてもよく、それぞれは、
Ｐａｒｔ１：試験音声の纏まり。

ここで、試験音声は、受験生が口頭試験の内容に対して提出した返答音声である。

説明する必要があるのは、従来のフローに比べると、本案は、Ｐａｒｔ１というステップにおいて、較正専門家を組織する必要がない。

Ｐａｒｔ２：汎用音声評価モデルが評価待ち音声を評価することで、第２評価結果を得て、採点専門家を組織し、評価待ち音声に対して人工評価を行うことで、第３評価結果を得る。第２評価結果と第３評価結果に応じて、専門家を確定するとともに、専門家により評価された評価待ちデータから、第１較正データと第２較正データを確定し、音声評価モデルをトレーニングする。トレーニング後の音声評価モデルは一部の問題タイプを評価し採点することができる。

Ｐａｒｔ３：前のステップにおける、採点専門家により人工で採点された問題タイプの得点、及び音声評価モデルにより採点された問題タイプの得点を合併し、纏まりの得点を
得る。

分析し分かるように、本出願の実施例に提供される方法は、ただ１バッチの採点専門家を組織し、全体の受験生の評価待ち音声を評価すればよく、１バッチの較正専門家を余分に組織する必要がないから、フローがより簡単になり、期間がより短くなり、且つ汎用音声評価モデルが評価待ち音声に対する第２評価結果を標準として、各々の人工評価主体の第３評価結果を比較し、較正専門家として、各々の人工評価主体から専門水準が高い専門家を確定でき、人工で較正専門家を選定することに比べると、本出願により確定される専門家の専門水準がより高くて、これに基づき得られた較正データがより正確であり、且つ組織される該バッチの人工評価主体により評価される評価待ち音声が大量であってもよく、これに基づき、本出願は十分な数の較正データを取得でき、トレーニングセットの規模を余分に推定する必要がなく、音声評価モデルのトレーニングがより十分になり、効果がよりよくなり、後続に試験音声の評価を行う場合に、より正確になる。

本出願の他の実施例において、前記Ｓ１において、汎用評価モデルが評価待ちデータに対する第２評価結果を取得する過程を紹介する。

評価待ちデータが評価待ち音声であり、汎用評価モデルが音声評価モデルであることを例として、以下のように説明して、
まずは、評価待ち音声の識別結果及び評価特徴を取得することができる。

評価待ち音声の識別結果は、評価待ち音声をテキストと識別した後の結果である。評価特徴には二つの種類が含まれてもよく、一種類は、評価待ち音声を構成する音声断片から抽出される音響特徴である。他方の種類は、評価待ち音声の識別結果から抽出されるテキスト特徴である。

取得された評価特徴は、発音の正確性、流暢性、完全性などの、評価標準に関する多種のタイプの特徴であってもよい。

さらに、前記識別結果と前記評価特徴を音声評価モデルに入力し、音声評価モデルにより出力される前記評価待ち音声の第１評価結果を得る。

音声評価モデルは、トレーニング音声の識別結果及び評価特徴をトレーニングサンプルとして、マークされた前記トレーニング音声の評価結果をサンプルラベルとして、トレーニングすることで得られる。

本実施例において、三種類の異なる評価特徴と異なる構成の音声評価モデルの構成方式を例示して、それぞれは以下の通りであり、即ち、
第１種類：
評価特徴として、評価待ち音声の音響特徴を抽出し、主に発音の正確性、流暢性、完全性が含まれる。さらに、履歴経験データと人工マーク結果で、音声評価モデルを予めトレーニングし、該音声評価モデルはＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、サポートベクターマシン）、ＬＲ（ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ、ロジスティック回帰）などの構成であってもよい。

第２種類：
評価特徴として、評価待ち音声の識別結果からテキスト特徴を抽出してもよい。受験生の言語表現水準を音声評価モデルの出力目標として、口頭試験の範囲にある言語組織水準レベル分類による音声評価モデルを設計し、モデルが評価待ち音声の識別結果に基づき、受験生の言語水準能力を分析し、受験生の口頭水準レベルを判定できる。

音声評価モデルは、ＣＮＮ畳み込みニューラルネットワークを採用してもよく、それはテキストにおける局部の重要情報を抽出できるとともに、多層畳み込みという方式で、局部から全体までの情報抽出を実現する。当該音声評価モデルは学生たちの高水準の表現方式を識別できる。

第３種類：
評価特徴として、評価待ち音声の識別結果からテキスト特徴を抽出してもよい。音声評価モデルはＲＮＮ再帰型ニューラルネットワークを採用してもよく、それはテキストのシーケンスセマンティクスとロジック情報を抽出できるから、受験生のテキスト理解に適切である。

本出願の他の実施例において、前記Ｓ１において、汎用評価モデルが評価待ちデータに対する第２評価結果を取得した後に、さらに以下のような処理ステップを追加してもよく、即ち、
前記評価待ちデータから、人工評価の対象としての目標評価待ちデータを選択する。

具体的には、評価待ちデータは全体の受験生の試験データであってもよく、人工評価を行う場合に、評価待ちデータから、段階的に目標評価待ちデータを選択してもよい。該ステップにおいて、評価待ちデータから選択され、人工評価の対象としての評価待ちデータを、目標評価待ちデータとする。

これに基づき、前記Ｓ１において、人工評価主体が前記評価待ちデータに対する第３評価結果を取得する過程は、具体的に、
人工評価主体が前記目標評価待ちデータに対する第３評価結果を取得することを含む。

さらに、前記評価待ちデータから、人工評価の対象としての目標評価待ちデータを選択する過程は、
前記第２評価結果を参照し、前記評価待ちデータから、人工評価の対象としての目標評価待ちデータを選択することを含んでもよい。

つまり、汎用評価モデルが各々評価待ちデータに対する第２評価結果に応じて、各々評価待ちデータから、人工評価の対象としての目標評価待ちデータを選択する。

第２評価結果には、第２評価得点または第２評価レベルが含まれてもよい。つまり、第２評価結果は、点数またはレベル形式であってもよい。これに基づき、前記各々評価待ちデータの第２評価得点または第２評価レベルを参照し、正規分布のサンプリング方式に従って、前記各々評価待ちデータから、人工評価の対象としての目標評価待ちデータを選択してもよい。

第２評価結果が評価レベル形式であることを例として、図４を結合し、以下のように説明して、即ち、
各々評価待ちデータの第２評価レベルには、合計にｎ個のレベルが含まれる。そうすると、第２評価レベルの正規分布のサンプリング方式に従って、各々評価待ちデータから、目標評価待ちデータを抽出し、最終に抽出された目標評価待ちデータにおいて、レベル軸の両端レベルにあるデータが少なくて、レベル軸の中間レベルの区間にあるデータが多い。

理解できるのは、全体の受験生の水準が一般的に正規分布に従い、これに基づき、本実施例において、各々評価待ちデータの第２評価得点または第２評価レベルを参照し、正規
分布の抽出方式に従って、目標評価待ちデータを抽出することは、全体の受験生をよくカバーすることができ、トレーニングサンプルをより均衡にする。

本出願の他の実施例において、前記Ｓ２が各々の人工評価主体が前記評価待ちデータに対する第３評価結果、及び前記評価待ちデータの第２評価結果に応じて、前記各々の人工評価主体から専門家を確定する過程を紹介する。

オプショナルな実施形態であって、
まずは、各々の人工評価主体が前記評価待ちデータに対する第３評価結果、及び前記評価待ちデータの第２評価結果に応じて、前記第３評価結果と前記第２評価結果との関連性を算出する。

さらに、専門家として、関連性が設定関連性条件を満たす第３評価結果に対応する人工評価主体を選択する。

第２評価結果は、第２評価得点または第２評価レベルであってもよく、同じく、第３評価結果も第３評価得点または第３評価レベルであってもよい。本実施例において、汎用評価モデルが評価待ちデータに対する第２評価結果を標準として、各々の人工評価主体が評価待ちデータに対する第３評価結果と第２評価結果との間の関連性を算出し、該関連性は各々の第３評価結果と、標準としての第２評価結果との間の対応程度を表徴でき、関連性が高いほど、両者の対応程度が高いことを示し、つまり、第３評価結果を与える人工評価主体の専門水準が高いことを示す。

本実施例は、関連性条件を予め設定することで、専門家として、関連性が設定関連性条件を満たす第３評価結果に対応する人工評価主体を選択でき、当該専門家は較正専門家としてもよい。

設定関連性条件には、関連性が設定関連性閾値を超えることと、関連性が設定関連性レベルにあることが含まれてもよく、関連性レベルの例示には、関連性の低レベル、中レベル、高レベルが含まれてもよい。

第２評価結果が第２評価レベルであり、第３評価結果が第３評価得点であることを例として説明して、異なる第３評価得点と異なる第２評価レベルとの間の関連性を予め設定してもよい。

本実施例は、第３評価結果と第２評価結果との間の関連性で、各々の第３評価結果に対応する人工評価主体の評価品質、つまり、対応する人工評価主体の専門水準を測定し、これによって、専門家として、高水準の人工評価主体を選定できる。

以下は、本出願の実施例に提供されるデータ評価装置を説明し、以下に説明されるデータ評価装置と前文に説明されたデータ方法とは、互いに対応し参照してもよい。

図５に示すように、本出願の実施例におけるデータ評価装置は、
第１評価待ちデータを取得するための第１評価待ちデータ取得手段１１と、
評価モデルに基づき、前記第１評価待ちデータを評価することで、第１評価結果を得るための第１評価結果取得手段１２と、
前記第１評価結果が設定された結果収束条件を満たしていなければ、第２較正データを取得するための第２較正データ取得手段１３と、
現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定するまでに、前記第２較正データにより、前記評価モデルを反復更新するためのモデル更新手
段１４と、
最新の評価モデルに基づきデータ評価を行うためのモデル評価手段１５と、を備え、
前記評価モデルは第１較正データに基づきトレーニングすることで得られて、前記第１較正データには専門家が第２評価待ちデータに対する評価結果が含まれ、前記第２較正データには専門家が第３評価待ちデータに対する評価結果が含まれる。

オプショナル的に、前記モデル更新手段により、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定する過程は、
現在の更新後の評価モデルにより、プリセットの検証セットにおいて検証を行って、検証結果を得ることと、
検証結果が設定された検証結果収束条件を満たしていると確定すれば、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することと、を含む。

オプショナル的に、前記モデル更新手段が現在の更新後の評価モデルにより、プリセットの検証セットにおいて検証を行って、検証結果を得る過程は、
検証結果として、現在の更新後の評価モデルが検証セット内の検証サンプルに対する予測結果を取得することを含み、
前記モデル更新手段により、検証結果が設定された検証結果収束条件を満たしていると確定すれば、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定する過程は、
前記検証サンプルのマーク結果を基準として、前記検証サンプルの予測結果が設定された検証結果収束条件を満たしているかどうかを判定し、ＹＥＳであれば、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定すること、
または、
前の評価モデルが前記検証サンプルに対する予測結果を参照し、現在の更新後の評価モデルが前記検証サンプルに対する予測結果が設定された検証結果収束条件を満たしているかどうかを判定し、ＹＥＳであれば、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することを含む。

オプショナル的に、前記第２較正データ取得手段は、
汎用評価モデルが評価待ちデータに対する第２評価結果を取得するための第２評価結果取得手段と、
人工評価主体が前記評価待ちデータに対する第３評価結果を取得するための第３評価結果取得手段と、
各々の人工評価主体が前記評価待ちデータに対する第３評価結果、及び前記評価待ちデータの第２評価結果に応じて、前記各々の人工評価主体から前記専門家を確定するための専門家確定手段と、
前記専門家により評価された評価待ちデータから、前記第２較正データを確定するための第２較正データ確定手段と、を備える。

オプショナル的に、本出願の装置はさらに、
前記汎用評価モデルが評価待ちデータに対する第２評価結果を取得した後に、前記第２評価結果を参照し、前記評価待ちデータから、人工評価の対象としての目標評価待ちデータを選択するための目標評価待ちデータ選択手段を備える。これに基づき、前記第３評価結果取得手段により人工評価主体が前記評価待ちデータ対する第３評価結果を取得する過程は、
人工評価主体が前記目標評価待ちデータに対する第３評価結果を取得することを含んでもよい。

オプショナル的に、前記第２評価結果は第２評価得点または第２評価レベルであり、前
記目標評価待ちデータ選択手段は、
各々前記評価待ちデータの第２評価得点または第２評価レベルを参照し、正規分布のサンプリング方式に従って、各々前記評価待ちデータから、人工評価の対象としての目標評価待ちデータを選択するための正規分布サンプリング手段を含んでもよい。

オプショナル的に、前記専門家確定手段は、
各々の人工評価主体が前記評価待ちデータに対する第３評価結果、及び前記評価待ちデータの第２評価結果に応じて、前記第３評価結果と前記第２評価結果との関連性を算出するための関連性算出手段と、
前記専門家として、関連性が設定関連性条件を満たしている第３評価結果に対応する人工評価主体を選択するための関連性スクリーニング手段と、を備える。

本出願の実施例に提供されるデータ評価装置は、データ評価機器、例えば、ＰＣ端末、クラウドプラットフォーム、サーバー及びサーバークラスタなどに適用されてもよい。オプショナル的に、図６は、データ評価機器のハードウェア構成のブロック図を示し、図６を参照し、データ評価機器のハードウェア構成は、少なくとも一つのプロセッサー１と、少なくとも一つの通信インターフェース２と、少なくとも一つのメモリ３と、少なくとも一つの通信バス４を含んでもよく、
本出願の実施例において、プロセッサー１、通信インターフェース２、メモリ３、通信バス４の数は少なくとも一つであり、且つプロセッサー１、通信インターフェース２、メモリ３は通信バス４により、互いの通信を完成し、
プロセッサー１は、中央演算処理装置ＣＰＵまたは特定用途向け集積回路ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、
または、本発明の実施例を実施するように配置される一つまたは複数の集積回路などのものである可能性があり、
メモリ３には、高速ＲＡＭメモリ、また不揮発性メモリ（ｎｏｎ−ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）など、例えば、少なくとも一つのディスクメモリが含まれる可能性があり、
メモリにはプログラムが記憶され、プロセッサーはメモリに記憶されるプログラムを呼び出すことができ、前記プログラムは、
第１評価待ちデータを取得し、
評価モデルに基づき、前記第１評価待ちデータを評価することで、第１評価結果を得て、前記評価モデルは第１較正データに基づきトレーニングすることで得られて、前記第１較正データには専門家の第２評価待ちデータに対する評価結果が含まれ、
前記第１評価結果が設定された結果収束条件を満たしていなければ、第２較正データを取得するとともに、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定するまでに、前記第２較正データにより、前記評価モデルを反復更新し、前記第２較正データには専門家の第３評価待ちデータに対する評価結果が含まれ、
最新の評価モデルに基づき、データ評価を行う。

オプショナル的に、前記プログラムの細分化機能と拡張機能とは、前文説明を参照すればよい。

本出願の実施例はさらに読み取り可能な記憶媒体を提供し、当該読み取り可能な記憶媒体には、プロセッサーによる実行に適するプログラムが記憶され、前記プログラムは、
第１評価待ちデータを取得し、
評価モデルに基づき、前記第１評価待ちデータを評価することで、第１評価結果を得て、前記評価モデルは第１較正データに基づきトレーニングすることで得られて、前記第１較正データには専門家の第２評価待ちデータに対する評価結果が含まれ、
前記第１評価結果が設定された結果収束条件を満たしていなければ、第２較正データを取得するとともに、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たし
ていると確定するまでに、前記第２較正データにより、前記評価モデルを反復更新し、前記第２較正データには専門家の第３評価待ちデータに対する評価結果が含まれ、
最新の評価モデルに基づき、データ評価を行う。

最後に、説明する必要があるのは、本文において、例えば第１と第２等などの関係用語は、ただ一つの実体または操作を、他方の実体または操作と区分するために用いられ、必ずこれらの実体または操作の間には、如何なるこのような実際の関係または順序が存在することを要求または暗示するとは限らない。しかも、用語「含む」、「含み」またはその如何なる他の変体は、非排他的な含みをカバーすることを意図し、このように、一連要素が含まれる過程、方法、物品または機器には、それらの要素ばかりではなく、さらに明確的にリストされる他の要素が含まれ、または、このような過程、方法、物品または機器の固有の要素が含まれる。より多い制限がない場合に、「一つを含み……」という語句により限定される要素は、前記要素が含まれる過程、方法、物品または機器に、さらに他の同じ要素が存在する場合を排除しない。

本明細書の各々実施例は、漸進という方式で説明し、各々実施例が主に説明するのは、他の実施例との相違点であり、各々実施例の間の同じまたは類似する部分は互いに参照すればよい。

開示された実施例に対する前記説明により、当業者が本出願を実現または利用することができる。これらの実施例に対する多種の修正は当業者にとって、自明であり、本文に定義された一般的な原理は、本出願の精神または範囲から逸脱しない場合に、他の実施例に実現される。従って、本出願は、本文に示されるこれらの実施例に限定されず、本文に開示される原理と新規な特徴に一致する、最も広い範囲に合う。

Claims

評価待ちデータのデータ評価方法であって、
評価待ちデータの母集団から第１評価待ちデータを取得し、
評価モデルに基づき、前記第１評価待ちデータを評価することで、第１評価結果を得て、前記評価モデルは第１較正データに基づきトレーニングすることで得られ、前記第１較正データには人手評価を行う専門家による前記評価待ちデータの母集団から抽出された一定数の第２評価待ちデータに対する評価結果が含まれ、
前記第１評価結果が設定された評価結果収束条件を満たしていなければ、第２較正データを取得するとともに、現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定するまで、前記第２較正データにより、前記評価モデルを反復更新し、前記第２較正データには人手評価を行う専門家による前記評価待ちデータの母集団から抽出された一定数の第３評価待ちデータに対する評価結果が含まれ、
最新の評価モデルに基づき、データ評価を行うことを含むことを特徴とする方法。
前記現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定する過程は、
前記現在の更新後の評価モデルにより、プリセットの検証セットにおいて検証を行って、検証結果を得ることと、
前記検証結果が設定された検証結果収束条件を満たしていると確定すると、前記現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することと、を含むことを特徴とする請求項１に記載の方法。
前記現在の更新後の評価モデルにより、プリセットの検証セットにおいて検証を行って、前記検証結果を得ることは、
前記検証結果として、前記現在の更新後の評価モデルが検証セット内の検証サンプルに対する予測結果を取得することを含み、
前記検証結果が設定された前記検証結果収束条件を満たしていると確定すると、前記現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することは、
前記検証サンプルの事前にマークされた人手評価結果であるマーク評価結果を基準として、前記検証サンプルの予測結果が設定された前記検証結果収束条件を満たしているかどうかを判定し、ＹＥＳであれば、前記現在の更新後の評価モデルが設定されたモデル更新
停止条件を満たしていると確定すること、
または、
前の評価モデルが前記検証サンプルに対する予測結果を参照し、前記現在の更新後の評価モデルが前記検証サンプルに対する予測結果が設定された前記検証結果収束条件を満たしているかどうかを判定し、ＹＥＳであれば、前記現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することを含むことを特徴とする請求項２に記載の方法。
前記第１較正データと前記第２較正データを取得する過程は、
汎用評価モデルによる評価待ちデータの母集団における各データに対する第２評価結果、及び人手評価を行う人手評価主体による前記評価待ちデータの母集団における各データに対する第３評価結果を取得することと、
各々の前記人手評価主体による前記評価待ちデータの母集団における各データに対する前記第３評価結果、及び前記評価待ちデータの母集団における各データの前記第２評価結果に応じて、各々の前記人手評価主体から、前記専門家を確定することと、
前記専門家により評価された前記評価待ちデータの母集団から、前記第１較正データと前記第２較正データを確定することと、を含むことを特徴とする請求項１に記載の方法。
前記汎用評価モデルによる前記評価待ちデータの母集団における各データに対する前記第２評価結果を取得した後、さらに、
前記第２評価結果を参照し、前記評価待ちデータの母集団から、人手評価の対象としての目標評価待ちデータを選択することを含み、
前記人手評価主体による前記評価待ちデータの母集団における各データに対する前記第３評価結果を取得することは、
前記人手評価主体による前記目標評価待ちデータに対する前記第３評価結果を取得することを含むことを特徴とする請求項４に記載の方法。
前記第２評価結果は、第２評価得点または第２評価レベルであり、
前記第２評価結果を参照し、前記評価待ちデータの母集団から、人手評価の対象としての前記目標評価待ちデータを選択することは、
前記評価待ちデータの母集団における各データの第２評価得点または第２評価レベルを参照し、正規分布のサンプリング方式に従って、各々の前記評価待ちデータの母集団から、人手評価の対象としての前記目標評価待ちデータを選択することを含むことを特徴とする請求項５に記載の方法。
各々の前記人手評価主体による前記評価待ちデータの母集団における各データに対する前記第３評価結果、及び前記評価待ちデータの母集団における各データの前記第２評価結果に応じて、各々の前記人手評価主体から前記専門家を確定することは、
各々の前記人手評価主体による前記評価待ちデータの母集団における各データに対する前記第３評価結果、及び前記評価待ちデータの母集団における各データの前記第２評価結果に応じて、前記第３評価結果と前記第２評価結果との関連性を算出することと、
前記専門家として、関連性が設定関連性条件を満たしている前記第３評価結果に対応する前記人手評価主体を選択することと、を含むことを特徴とする請求項４に記載の方法。
前記第２評価待ちデータと前記第３評価待ちデータは、評価待ち音声であり、前記評価モデルには、第１評価サブモデル、第２評価サブモデル、第３評価サブモデルのうちの、少なくとも一つが含まれ、
前記第１評価サブモデルは、評価待ち音声の音響特徴を評価特徴として、評価待ち音声の事前にマークされた人手評価結果であるマーク評価結果をラベルとして、ニューラルネットワークモデルをトレーニングすることで得られて、
前記第２評価サブモデルは、評価待ち音声の識別結果に対応するテキスト特徴を評価特徴として、評価待ち音声の前記マーク評価結果をラベルとして、畳み込みニューラルネットワークモデルをトレーニングすることで得られて、
前記第３評価サブモデルは、評価待ち音声の識別結果に対応するテキスト特徴を評価特徴として、評価待ち音声の前記マーク評価結果をラベルとして、再帰型ニューラルネットワークモデルをトレーニングすることで得られることを特徴とする請求項１に記載の方法。
評価待ちデータのデータ評価装置であって、
評価待ちデータの母集団から第１評価待ちデータを取得するための第１評価待ちデータ取得手段と、
評価モデルに基づき、前記第１評価待ちデータを評価することで、第１評価結果を得るための第１評価結果取得手段と、
前記第１評価結果が設定された評価結果収束条件を満たしていなければ、第２較正データを取得するための第２較正データ取得手段と、
現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定するまで、前記第２較正データにより、前記評価モデルを反復更新するためのモデル更新手段と、
最新の評価モデルに基づき、データ評価を行うためのモデル評価手段と、を備え、
前記評価モデルは、第１較正データに基づきトレーニングすることで得られて、前記第１較正データには、人手評価を行う専門家による前記評価待ちデータの母集団から抽出された一定数の第２評価待ちデータに対する評価結果が含まれ、前記第２較正データには、人手評価を行う専門家による前記評価待ちデータの母集団から抽出された一定数の第３評価待ちデータに対する評価結果が含まれることを特徴とする装置。
前記モデル更新手段が、前記現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定する過程は、
前記現在の更新後の評価モデルにより、プリセットの検証セットにおいて検証を行って、検証結果を得ることと、
前記検証結果が設定された検証結果収束条件を満たしていると確定すれば、前記現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することと、を含むことを特徴とする請求項９に記載の装置。
前記モデル更新手段が、前記現在の更新後の評価モデルにより、プリセットの検証セットにおいて検証を行って、前記検証結果を得る過程は、
前記検証結果として、前記現在の更新後の評価モデルが検証セット内の検証サンプルに対する予測結果を取得することを含み、
前記モデル更新手段により前記検証結果が設定された前記検証結果収束条件を満たしていると確定すれば、前記現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定する過程は、
前記検証サンプルの事前にマークされた人手評価結果であるマーク評価結果を基準として、前記検証サンプルの予測結果が設定された前記検証結果収束条件を満たしているかどうかを判定し、ＹＥＳであれば、前記現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定すること、
または、
前の評価モデルが前記検証サンプルに対する予測結果を参照し、前記現在の更新後の評価モデルが前記検証サンプルに対する予測結果が設定された前記検証結果収束条件を満たしているかどうかを判定し、ＹＥＳであれば、前記現在の更新後の評価モデルが設定されたモデル更新停止条件を満たしていると確定することを含むことを特徴とする請求項１０に記載の装置。
前記第２較正データ取得手段は、
汎用評価モデルによる評価待ちデータの母集団における各データに対する第２評価結果を取得するための第２評価結果取得手段と、
人手評価を行う人手評価主体による前記評価待ちデータの母集団における各データに対する第３評価結果を取得するための第３評価結果取得手段と、
各々の前記人手評価主体による前記評価待ちデータの母集団における各データに対する前記第３評価結果、及び前記評価待ちデータの母集団における各データの前記第２評価結果に応じて、各々の前記人手評価主体から前記専門家を確定するための専門家確定手段と、
前記専門家により評価された前記評価待ちデータの母集団から、前記第２較正データを確定するための第２較正データ確定手段と、を備えることを特徴とする請求項９に記載の装置。
さらに、
前記汎用評価モデルによる前記評価待ちデータの母集団における各データに対する前記第２評価結果を取得した後に、前記第２評価結果を参照し、前記評価待ちデータの母集団から、人手評価の対象としての目標評価待ちデータを選択するための目標評価待ちデータ選択手段を備え、
前記第３評価結果取得手段により前記人手評価主体による前記評価待ちデータ対する前記第３評価結果を取得する過程は、
前記人手評価主体の前記目標評価待ちデータに対する前記第３評価結果を取得することを含むことを特徴とする請求項１２に記載の装置。
前記第２評価結果は、第２評価得点または第２評価レベルであり、
前記目標評価待ちデータ選択手段は、
前記評価待ちデータの母集団における各データの第２評価得点または第２評価レベルを参照し、正規分布のサンプリング方式に従って、各々の前記評価待ちデータの母集団から、人手評価の対象としての前記目標評価待ちデータを選択するための正規分布サンプリング手段を備えることを特徴とする請求項１３に記載の装置。
前記専門家確定手段は、
各々の前記人手評価主体による前記評価待ちデータの母集団における各データに対する前記第３評価結果、及び前記評価待ちデータの母集団における各データの前記第２評価結果に応じて、前記第３評価結果と前記第２評価結果との関連性を算出するための関連性算出手段と、
前記専門家として、関連性が設定関連性条件を満たしている前記第３評価結果に対応する前記人手評価主体を選択するための関連性スクリーニング手段と、を備えることを特徴とする請求項１２に記載の装置。
データ評価機器であって、
プログラムを記憶するためのメモリと、
請求項１〜８のいずれか一項に記載のデータ評価方法の各ステップを実現するように、前記プログラムを実行するためのプロセッサーと、を備えることを特徴とする機器。
コンピュータプログラムが記憶される読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサーにより実行される際に、請求項１〜８のいずれか一項に記載のデータ評価方法の各ステップを実現することを特徴とする読み取り可能な記憶媒体。
請求項１〜８のいずれか１項に記載のデータ評価方法をコンピュータに実行させるため
のコンピュータプログラム。