JP7298174B2

JP7298174B2 - モデル学習装置、ラベル推定装置、それらの方法、およびプログラム

Info

Publication number: JP7298174B2
Application number: JP2019022353A
Authority: JP
Inventors: 歩相名神山; 哲小橋川; 厚志安藤; 亮増村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2023-06-27
Anticipated expiration: 2039-02-12
Also published as: JP2020129322A; WO2020166321A1; US20220108217A1

Description

本発明は、モデル学習およびラベル推定に関する。

電話音声の好感度（非特許文献１）や外国語の発音の良さ・流暢さ（非特許文献２）等の印象を評価して会話の技能を図るテストでは、音声に対して定量的な印象値（例えば、「良い」から「悪い」の５段階評価、好感度が「高い」から「低い」の５段階評価、自然さが「高い」から「低い」の５段階評価等）が付与される。

現在は、各技能の専門家が音声の印象を評価して印象値を付与し、合格・不合格の判定を行っている。しかし、音声の印象を自動推定して印象値が得られるようになると、それをテストの足切り判定等に活用したり、評価に不慣れな専門家（例えば評価者になりたての人物）への参考値として用いたりできる。

機械学習を用いてデータ（例えば、音声データ）に対するラベル（例えば、印象値）の自動推定を実現するためには、データとそのデータに付与されたラベルとの組みを学習データとした学習処理を行い、入力データに対するラベルを推定するモデルを生成すればよい。

しかし、評価者には個人差があり、またラベルを付与することに慣れていない評価者がデータにラベルを付与する場合もある。そのため、同じデータに対して異なる評価者が異なるラベルを付与することもある。

複数の評価者によるラベルの値を平均したようなラベルを推定するモデルを学習するためには、同一のデータに対して複数人の評価者がラベルを付与し、それらの値を平均したラベルと当該データとの組を学習データとすればよい。平均的なラベルを安定して推定できるようになるには、できるだけ多人数の評価者が同一のデータにラベルを付与するとよい。例えば、非特許文献３では同一のデータに対して１０名の評価者がラベルを付与している。

F. Burkhardt, B. Schuller, B. Weiss and F. Weninger, "Would You Buy a Car From Me?" On the Likability of Telephone Voices," In Proc. Interspeech, pp. 1557 - 1560, 2011. Kei Ohta and Seiichi Nakagawa, "A statistical method of evaluating pronunciation proficiency for Japanese words," INTERSPEECH2005, pp. 2233 - 2236. 籠宮隆之，山住賢司，槙洋一，"印象評定データの概要", [online]， [平成３１年１月２８日検索]，インターネット＜http://pj.ninjal.ac.jp/corpus_center/csj/manu-f/impression.pdf＞

評価者の中には、評価能力の高い人物とそうではない人物が存在する。１データあたりの評価者が多い場合、評価能力の低い評価者が混在していても、評価能力の高い評価者が付与したラベルによって学習データのラベルはある程度正確なものに補正される。しかし、１データあたりの評価者が少ない場合、評価者の評価能力不足によって学習データのラベル誤りが大きくなり、精度の高いラベルを推定するモデルを学習できなくなる場合が生じる。

本発明はこのような点に鑑みてなされたものであり、１データあたりの評価者が少ない学習データを用いた場合であっても、高い精度でラベル推定を行うことが可能なモデルを学習できる技術を提供することである。

本発明では、複数のデータと前記データに対する各ラベルの正しさの度合いを表す指標であるラベル期待値との組を学習データとして用いた学習処理を行い、入力データに対するラベルを推定するモデルを得る。

本発明では、複数のデータとラベル期待値との組を学習データとして用いるため、１データあたりの評価者が少ない場合であっても、高い精度でラベル推定を行うことが可能なモデルを学習できる。

図１は第１実施形態のモデル学習装置の機能構成を例示したブロック図である。図２は第１実施形態のモデル学習方法を例示するためのフロー図である。図３は実施形態のラベル推定装置の機能構成を例示したブロック図である。図４は実施形態の学習ラベルデータを例示するための図である。図５は実施形態の学習特徴データを例示するための図である。図６は第２実施形態のモデル学習装置の機能構成を例示したブロック図である。図７は第２実施形態のモデル学習方法を例示するためのフロー図である。図８は第１，２実施形態で推定されたラベル期待値を例示するための図である。

以下、図面を参照して本発明の実施形態を説明する。
［第１実施形態］
まず本発明の第１実施形態を説明する。
＜構成＞
図１に例示するように、本実施形態のモデル学習装置１は、学習ラベルデータ記憶部１１、学習特徴データ記憶部１２、ラベル推定部１３、および学習部１４を有する。ラベル推定部１３は、初期値設定部１３１、スキル推定部１３２、ラベル期待値推定部１３３、および制御部１３４を有する。図３に例示するように、本実施形態のラベル推定装置１５は、モデル記憶部１５１、および推定部１５２を有する。

＜前処理＞
モデル学習装置１によるモデル学習処理の前処理として、学習ラベルデータが学習ラベルデータ記憶部１１に格納され、学習特徴データが記憶部１２に格納される。学習ラベルデータは、複数の評価者それぞれによって付与された複数の学習特徴データ（データ）それぞれに対する印象値ラベル（ラベル）を表す情報である。学習特徴データは、ヒトが知覚可能な情報を表すデータ（例えば、音声データ、楽曲データ、テキストデータ、画像データ、動画データなど）であってもよいし、このようなヒトが知覚可能な情報の特徴量を表すデータであってもよい。印象値ラベルは、学習特徴データに対応する「ヒトが知覚可能な情報（例えば、音声、楽曲、テキスト、画像、動画など）」を知覚した評価者が自らの判断でその学習特徴データに対して付与した正解ラベルである。例えば、印象値ラベルは、学習特徴データに対応する「ヒトが知覚可能な情報」を知覚した評価者がその情報を評価して付与した評価結果を表す数値（例えば、印象を表す数値）である。

≪学習ラベルデータ・学習特徴データの例示≫
学習ラベルデータの例を図４、学習特徴データの例を図５に示す。ただし、これらは一例であって本発明を限定するものではない。
図４に例示した学習ラベルデータは、ラベルデータ番号ｉ、データ番号ｙ（ｉ，０）、評価者番号ｙ（ｉ，１）、および正解ラベルに対応する（例えば、正解ラベルである）印象値ラベルｙ（ｉ，２）（ラベル）を有する。ここで、ラベルデータ番号ｉ∈｛０，１，…，Ｉ｝は、学習ラベルデータの各レコードを識別する番号である。データ番号ｙ（ｉ，０）∈｛０，１，…，Ｊ｝は各学習特徴データを識別する番号である。評価者番号ｙ（ｉ，１）∈｛０，１，…，Ｋ｝は、学習特徴データに対応する情報（ヒトが知覚可能な情報。例えば、音声）の評価を行う各評価者を識別する番号である。印象値ラベルｙ（ｉ，２）∈｛０，１，…，Ｃ｝は、学習特徴データに対応する情報（ヒトが知覚可能な情報。例えば、音声）に対する評価者による評価結果を表す数値である。例えば、値の大きな印象値ラベルｙ（ｉ，２）ほど評価が高くてもよいし、逆に値の小さな印象値ラベルｙ（ｉ，２）ほど評価が高くてもよい。ただし、Ｉ，Ｊ，Ｋ，Ｃはそれぞれ２以上の整数である。図４の例では、各ラベルデータ番号ｉが、評価対象の学習特徴データを識別するデータ番号ｙ（ｉ，０）と、データ番号ｙ（ｉ，０）の学習特徴データに対する評価を行った評価者を識別する評価者番号ｙ（ｉ，１）と、データ番号ｙ（ｉ，０）の学習特徴データに対して評価者番号ｙ（ｉ，１）の評価者が行った評価結果を表す印象値ラベルｙ（ｉ，２）と、が対応付けられている。図４に例示するように、少なくとも一部の学習特徴データでは、１つの学習特徴データに複数の評価者によって複数の印象値ラベルｙ（ｉ，２）が付与されているものとする。図５の例では、複数のデータ番号ｊ＝ｙ（ｉ，０）∈｛０，１，…，Ｊ｝のそれぞれと、データ番号ｊの学習特徴データｘ（ｊ）とが対応付けられている。図５の例の学習特徴データｘ（ｊ）は、音声信号や音声信号から抽出された特徴を要素とするベクトル等の特徴量である。

＜モデル学習処理＞
次に、本実施形態のモデル学習処理を説明する。
≪ラベル推定部１３の処理≫
モデル学習装置１（図１）のラベル推定部１３の処理を説明する。
評価者がデータに正しくラベルを付与できる能力は一様ではなく、評価者ごとに異なる場合がある。ラベル推定部１３は、評価者がデータに正しくラベルを付与できる能力、および、データに対する各ラベルの正しさの度合いを推定する。すなわち、ラベル推定部１３は、複数の評価者それぞれによって付与された複数のデータそれぞれに対するラベルを表す情報（学習ラベルデータ）を入力とし、データ（学習特徴データ）に対する各ラベル（印象値ラベル）の正しさの度合いを表す指標を既知とみなし（データに対する各ラベルの正しさの度合いを表す指標が正しいとみなし）、評価者がデータに正しくラベルを付与できる能力を表す指標を更新する第１処理と、評価者がデータに正しくラベルを付与できる能力を表す指標を既知とみなし（評価者がデータに正しくラベルを付与できる能力を表す指標が正しいとみなし）、データに対する各ラベルの正しさの度合いを表す指標を更新する第２処理と、を交互に繰り返し、これによって得られたデータに対する各ラベルの正しさの度合いを表す指標をラベル期待値として出力する。第１処理および第２処理の繰り返し処理は、例えば、潜在変数を求めながら解を推定していくアルゴリズムに従って行われる。得られたラベル期待値は学習部１４に送られる。

本実施形態では、一例として以下の（１－ａ）から（１－ｄ）を満たす場合を例示する。しかし、これは本発明を限定するものではない。
（１－ａ）「データに対する各ラベルの正しさの度合いを表す指標」が、データ番号ｊ＝ｙ（ｉ，０）∈｛０，１，…，Ｊ｝に対する印象値ラベルｃ＝ｙ（ｉ，２）∈｛０，１，…，Ｃ｝が真のラベル（正しい印象値ラベル）である確率（データｊに対する各ラベルｃが真のラベルである確率）ｈ_ｊ，ｃである。
（１－ｂ）「評価者がデータに正しくラベルを付与できる能力を表す指標」が、真の印象値ラベルがｃ∈｛０，１，…，Ｃ｝であるデータ番号ｊ＝ｙ（ｉ，０）の情報（ヒトが知覚可能な情報。例えば、音声）に対して評価者番号ｋ＝ｙ（ｉ，１）の評価者が印象値ラベルｃ’∈｛０，１，…，Ｃ｝を付与する（真のラベルｃのデータｊに対して評価者ｋがラベルｃ’を付与する確率）確率ａ_{ｋ，ｃ，ｃ’}である。
（１－ｃ）「第１処理」が、確率ｈ_ｊ，ｃを用いて確率ａ_{ｋ，ｃ，ｃ’}と各ラベルｃ∈｛０，１，…，Ｃ｝の分布ｑ_ｃとを更新する処理である。
（１－ｄ）「第２処理」が、確率ａ_{ｋ，ｃ，ｃ’}および分布ｑ_ｃを用いて確率ｈ_ｊ，ｃを更新する処理である。
この例のラベル推定部１３は、ＥＭアルゴリズムによって確率ａ_{ｋ，ｃ，ｃ’}および分布ｑ_ｃと確率ｈ_ｊ，ｃとを交互に推定し、各ｊ∈｛０，１，…，Ｊ｝およびｃ∈｛０，１，…，Ｃ｝について最適な確率ｈ_ｊ，ｃをラベル期待値として学習部１４に出力する。ここでは、データ番号ｊ∈｛０，１，…，Ｊ｝、評価者番号ｋ∈｛０，１，…，Ｋ｝、印象値ラベルｃ∈｛０，１，…，Ｃ｝を用い、学習ラベルデータのレコードからなる集合Ａ（α，β，γ）、および各集合Ａ（α，β，γ）に属するレコードの個数Ｎ（α，β，γ）を以下のように定義する。
A(j,k,c)={i|y(i,0)=j∧y(i,1)=k∧y(i,2)=c,∀i}
N(j,k,c)=|A(j,k,c)|
A(*,k,c)={i|y(i,1)=k∧y(i,2)=c,∀i}
N(*,k,c)=|A(*,k,c)|
A(j,*,c)={i|y(i,0)=j∧y(i,2)=c,∀i}
N(j,*,c)=|A(j,*,c)|
A(j,k,*)={i|y(i,0)=j∧y(i,1)=k,∀i}
N(j,k,*)=|A(j,k,*)|
A(j,*,*)={i|y(i,0)=j,∀i}
N(j,*,*)=|A(j,*,*)|
A(*,k,*)={i|y(i,1)=k,∀i}
N(*,k,*)=|A(*,k,*)|
A(*,*,c)={i|y(i,2)=c,∀i}
N(*,*,c)=|A(*,*,c)|
A=A(*,*,*)={∀i}
N=N(*,*,*)=|A(*,*,*)|=I+1
ただし、*は任意を示すシンボルである。集合αに対する｜α｜は集合αに属する要素の個数を表す。

図２を用い、ラベル推定部１３の処理の詳細を説明する。
≪ステップＳ１３１≫
ラベル推定部１３の初期値設定部１３１（図１）は、学習ラベルデータ記憶部１１に格納された学習ラベルデータ（図４）を参照し、全てのデータ番号ｊ∈｛０，１，・・，Ｊ｝および全ての印象値ラベルｃ∈｛０，１，・・・，Ｃ｝について確率ｈ_ｊ，ｃの初期値を設定（初期化）して出力する。確率ｈ_ｊ，ｃの初期値の設定方法には特に限定はないが、初期値設定部１３１は、例えば以下のように確率ｈ_ｊ，ｃの初期値を設定する。

初期値設定部１３１から出力された確率ｈ_ｊ，ｃの初期値はスキル推定部１３２に送られる。

≪ステップＳ１３２≫
スキル推定部１３２は、最新の確率ｈ_ｊ，ｃを入力とし、以下の式（２）に従って確率ａ_{ｋ，ｃ，ｃ’}を推定（更新）して出力する。すなわち、スキル推定部１３２は、確率ｈ_ｊ，ｃを既知（正しい）とみなして式（２）によって確率ａ_{ｋ，ｃ，ｃ’}を更新して出力する。

さらにスキル推定部１３２は、以下の式（３）に従って全ての印象値ラベルｃ∈｛０，１，…，Ｃ｝の分布（確率分布）ｑ_ｃを推定（更新）して出力する。すなわち、スキル推定部１３２は、確率ｈ_ｊ，ｃを既知（正しい）とみなして式（３）によって分布ｑ_ｃを更新して出力する。

スキル推定部１３２で更新された新たな確率ａ_{ｋ，ｃ，ｃ’}および分布ｑ_ｃはラベル期待値推定部１３３に送られる。

≪ステップＳ１３３≫
ラベル期待値推定部１３３は、最新の確率ａ_{ｋ，ｃ，ｃ’}および分布ｑ_ｃを入力とし、以下の式（４）（５）に従って全てのデータ番号ｊ∈｛０，１，・・，Ｊ｝および全ての印象値ラベルｃ∈｛０，１，・・・，Ｃ｝について確率ｈ_ｊ，ｃを推定（更新）して出力する。すなわち、ラベル期待値推定部１３３は、確率ａ_{ｋ，ｃ，ｃ’}および分布ｑ_ｃを既知（正しい）とみなして式（４）（５）によって確率ｈ_ｊ，ｃを更新して出力する。

ラベル期待値推定部１３３で更新された新たな確率ｈ_ｊ，ｃはスキル推定部１３２に送られる。

≪ステップＳ１３４≫
制御部１３４は、終了条件を充足したか否かを判定する。終了条件に限定はなく、必要なレベルにまで確率ｈ_ｊ，ｃが収束したことを判断できるものであれば、どのような条件を終了条件としてもよい。例えば、制御部１３４は、最新のステップＳ１３３の処理で更新された確率ｈ_ｊ，ｃとその更新直前の確率ｈ_ｊ，ｃとの差分Δｈ_ｊ，ｃが、全てのデータ番号ｊ∈｛０，１，・・，Ｊ｝および全ての印象値ラベルｃ∈｛０，１，・・・，Ｃ｝について予め設定された正の閾値δを下回った場合（Δｈ_ｊ，ｃ＜δ）に終了条件を充足したと判断してもよい。その他、制御部１３４は、ステップＳ１３２およびＳ１３３の繰り返し回数が閾値を超えた場合に終了条件を充足したと判断してもよい。終了条件を充足していないと判断された場合にはステップＳ１３２に戻る。一方、終了条件を充足したと判断された場合、ラベル期待値推定部１３３は最新の確率ｈ_ｊ，ｃをラベル期待値として学習部１４に出力し、学習部１４は以下のステップＳ１４の処理を実行する。

≪学習部１４の処理≫
≪ステップＳ１４≫
学習部１４は、全てのデータ番号ｊ∈｛０，１，・・，Ｊ｝および全ての印象値ラベルｃ∈｛０，１，・・・，Ｃ｝について、学習特徴データ記憶部１２から読み出した学習特徴データｘ（ｊ）（複数のデータ）とラベル期待値推定部１３３から送られたラベル期待値（確率）ｈ_ｊ，ｃ（当該データに対する各ラベルの正しさの度合いを表す指標であるラベル期待値）との組を学習データとして用いた学習処理を行い、入力データｘに対する印象値ラベルを推定するモデルλを特定する情報（例えば、モデルパラメータ）を得て出力する。入力データｘは学習特徴データｘ（ｊ）と同じ種別のデータであり、例えば学習特徴データｘ（ｊ）と同じフォーマットのデータである。

学習部１４が行う学習処理の種別、および学習処理によって得られるモデルλの種別に限定はない。例えば、モデルλがニューラルネットワークモデルの場合、学習部１４は交差エントロピー誤差を最小化するように学習を行えばよい。例えば、学習部１４は次の式（６）の交差エントロピー誤差を最小化するように学習を行ってモデルλを得ればよい。

ただし、ｙ＾（ｊ）はｘ（ｊ）に対するニューラルネットワークモデルの推定値ｙ＾（ｊ）＝ｆ（ｘ（ｊ））であり、ｆがモデルλであり、学習部１４はの交差エントロピー誤差を最小化するようにｆを更新してモデルλを得る。なお、ｙ＾（ｊ）の上付き添え字の「＾」は、本来、式（６）のように「ｙ」の真上に記載されるべきであるが、記載表記の制約上から「＾」を「ｙ」の右上に記載している。モデルλがＳＶＭ（support vector machine）のような認識モデルであってもよい。例えば、モデルλがＳＶＭである場合、学習部１４は、全てのデータ番号ｊ∈｛０，１，・・，Ｊ｝について、学習特徴データ記憶部１２から読み出した各学習特徴データｘ（ｊ）からＣ＋１個の学習特徴データｘ（ｊ）を生成し、学習特徴データｘ（ｊ）と印象値ラベルｃとサンプル重みとするラベル期待値ｈ_ｊ，ｃとの組み合わせ（ｘ（ｊ），０，ｈ＿_ｊ，０），（ｘ（ｊ），１，ｈ＿_ｊ，１），・・・，（ｘ（ｊ），Ｃ，ｈ_＿ｊ，Ｃ）を学習データとし、各学習データ点間の距離が最大となるマージン最大化超平面を求めるという基準でモデルλのパラメータを学習する。なお、ラベル期待値ｈ_ｊ，ｃはＳＶＭのサンプル重みに対応する。

＜推定処理＞
次に、本実施形態の推定処理を説明する。
上述のようにモデル学習装置１から出力されたモデルλを特定する情報は、ラベル推定装置１５（図３）のモデル記憶部１５１に格納される。推定部１５２には、上述した学習特徴データｘ（ｊ）と同じ種別の入力データｘが入力される。推定部１５２はモデル記憶部１５１からモデルλを特定する情報を読み込み、モデルλに対して入力データｘを適用し、入力データｘに対するラベルｙを推定して出力する。推定部１５２は１つの入力データｘに対して、１つのラベルｙを出力してもよいし、複数のラベルｙを出力してもよいし、複数のラベルｙの確率を出力してもよい。

［第２実施形態］
次に本発明の第２実施形態を説明する。以下では、既に説明した事項との相違点を中心に説明し、説明済みの事項については同じ参照番号を用いて説明を簡略化する。
第１実施形態では、ＥＭアルゴリズムによって、「データに対する各ラベルの正しさの度合いを表す指標」である確率ｈ_ｊ，ｃと、「評価者がデータに正しくラベルを付与できる能力を表す指標」である確率ａ_{ｋ，ｃ，ｃ’}とを交互に推定し、各ｊ∈｛０，１，…，Ｊ｝およびｃ∈｛０，１，…，Ｃ｝について最適な確率ｈ_ｊ，ｃをラベル期待値としていた。しかし、１つのデータ番号ｙ（ｉ，０）あたり（すなわち、学習特徴データあたり）の印象値ラベルｙ（ｉ，２）の数が少ない場合、上述の推定過程において確率ｈ_ｊ，ｃや確率ａ_{ｋ，ｃ，ｃ’}が急峻に局所解に陥り、本来の適切なラベル期待値が得られなくなる場合がある。例えば、Ｃ＝５の例におけるステップＳ１３２およびＳ１３３（図２）の１回目の処理において、確率ｈ_ｊ，ｃがｈ_ｊ，０＝０，ｈ_ｊ，１＝０，ｈ_ｊ，２＝０，ｈ_ｊ，３＝１，ｈ_ｊ，４＝０，ｈ_ｊ，５＝０と一意に決定され、各確率ａ_{ｋ，ｃ，ｃ’}も０や１に一意に決定され、それ以降の繰り返しで確率ｈ_ｊ，ｃやａ_{ｋ，ｃ，ｃ’}が更新されない状態になる場合がある。ただ、現実的には「データに対する各ラベルの正しさの度合いを表す指標」である確率ｈ_ｊ，ｃや「評価者がデータに正しくラベルを付与できる能力を表す指標」である確率ａ_{ｋ，ｃ，ｃ’}が０や１といった決定的な値になることは考えにくい。そこで第２実施形態では、変分ベイズ法を用い、「評価者がデータに正しくラベルを付与できる能力」を単純な確率ではなく、ディレクレ分布に従った分布として定義する。これにより、局所解に急峻に陥らせることを防ぐ。

＜構成＞
図６に例示するように、本実施形態のモデル学習装置２は、学習ラベルデータ記憶部１１、学習特徴データ記憶部１２、ラベル推定部２３、および学習部１４を有する。ラベル推定部２３は、初期値設定部１３１、スキル推定部２３２、ラベル期待値推定部２３３、および制御部１３４を有する。

＜前処理＞
第１実施形態と同じ前処理が行われる。

＜モデル学習処理＞
次に、本実施形態のモデル学習処理を説明する。
≪ラベル推定部２３の処理≫
モデル学習装置２（図６）のラベル推定部２３の処理を説明する。
本実施形態では、一例として以下の（２－ａ）から（２－ｄ）を満たす場合を例示する。しかし、これは本発明を限定するものではない。
（２－ａ）「データに対する各ラベルの正しさの度合いを表す指標」が、データ番号ｊ＝ｙ（ｉ，０）∈｛０，１，…，Ｊ｝に対する印象値ラベルｃ＝ｙ（ｉ，２）∈｛０，１，…，Ｃ｝が真のラベル（正しい印象値ラベル）である確率（データｊに対する各ラベルｃが真のラベルである確率）ｈ_ｊ，ｃである。
（２－ｂ）「評価者がデータに正しくラベルを付与できる能力を表す指標」が、真の印象値ラベルｃ∈｛０，１，…，Ｃ｝のデータ番号ｊ∈｛０，１，…，Ｊ｝の情報（ヒトが知覚可能な情報。例えば、音声）に対して評価者番号ｋ∈｛０，１，…，Ｋ｝の評価者が正しくラベル付与できる度合いを表す確率分布（真のラベルｃのデータｊに対して評価者ｋが正しくラベル付与できる度合いを表す確率分布）を特定するディレクレ分布のパラメータμ_ｋ，ｃである。
（２－ｃ）「第１処理」が、確率ｈ_ｊ，ｃを用いてパラメータμ_ｋ，ｃと各ラベルｃ∈｛０，１，…，Ｃ｝の分布ｑ_ｃの確率分布を特定するディレクレ分布のパラメータρとを更新する処理である。
（２－ｄ）「第２処理」は、パラメータμ_ｋ，ｃおよびパラメータρを用いて確率ｈ_ｊ，ｃを更新する処理である。
この例のラベル推定部２３は、変分ベイズ法によってパラメータμ_ｋ，ｃおよびρと確率ｈ_ｊ，ｃとを交互に推定し、各ｊ∈｛０，１，…，Ｊ｝およびｃ∈｛０，１，…，Ｃ｝について最適な確率ｈ_ｊ，ｃをラベル期待値として学習部１４に出力する。

図７を用い、ラベル推定部２３の処理の詳細を例示する。
≪ステップＳ１３１≫
ラベル推定部２３の初期値設定部１３１（図６）は、第１実施形態で説明したステップＳ１３１の処理を実行し、確率ｈ_ｊ，ｃの初期値を設定（初期化）して出力する。初期値設定部１３１から出力された確率ｈ_ｊ，ｃの初期値はスキル推定部２３２に送られる。

≪ステップＳ２３２≫
スキル推定部２３２は、確率ｈ_ｊ，ｃを用いてパラメータμ_ｋ，ｃと各印象値ラベルｃ∈｛０，１，…，Ｃ｝の分布ｑ_ｃの確率分布を特定するパラメータρとを更新する。以下に詳細に説明する。
真の印象値ラベルｃ∈｛０，１，…，Ｃ｝のデータ番号ｊ∈｛０，１，…，Ｊ｝の情報（ヒトが知覚可能な情報。例えば、音声）に対して評価者番号ｋ∈｛０，１，…，Ｋ｝の評価者が正しくラベル付与できる度合いを表す確率分布ａ_ｋ，ｃをディレクレ分布に従って次の式（７）のように与える。

ここでμ_ｋ，ｃは以下のようなディリクレ分布のパラメータである。

確率分布ａ_ｋ，ｃは以下のような分布である。μ^（ｃ’） _ｋ，ｃは０以上の実数である。

ａ_{ｋ，ｃ，ｃ’}は真の印象値ラベルｃ∈｛０，１，…，Ｃ｝のデータ番号ｊ∈｛０，１，…，Ｊ｝の情報（ヒトが知覚可能な情報。例えば、音声）に対して評価者番号ｋ∈｛０，１，…，Ｋ｝の評価者が印象値ラベルｃ’∈｛０，１，…，Ｃ｝を付与する確率を示している。ａ_{ｋ，ｃ，ｃ’}は０以上１以下の実数であって以下の関係を満たす。

またΓはガンマ関数である。

以上に基づき、スキル推定部２３２は、最新の確率ｈ_ｊ，ｃを入力とし、すべての評価者番号ｋ∈｛０，１，…，Ｋ｝および印象値ラベルｃ，ｃ’∈｛０，１，…，Ｃ｝について、式（７）に従って確率分布ａ_ｋ，ｃを特定するディリクレ分布のパラメータμ_ｋ，ｃを以下の式（８）のように更新する。

すなわち、スキル推定部２３２は、式（８）の右辺を新たなμ^（ｃ’） _ｋ，ｃとする。μ^（ｃ’） _ｋ，ｃの初期値に限定はないが、例えばμ^（ｃ’） _ｋ，ｃの初期値をμ^（ｃ’） _ｋ，ｃ＝１とする。なお、式（８）のように、「μ^（ｃ’） _ｋ，ｃ」の下付き添え字の「ｋ，ｃ」は本来「（ｃ’）」の真下に記載すべきであるが、記載表記の制約上、「（ｃ’）」の右下に記載する場合がある。

同様に、すべての印象値ラベルｃ∈｛０，１，…，Ｃ｝の分布ｑ_ｃの確率分布ｑをディレクレ分布に従って次の式（９）のように与える。

ここでｑはパラメータｑ＝（ｑ_０，ｑ_１，…，ｑ_ｃ’，…，ｑ_Ｃ）であり、ρはディリクレ分布のパラメータρ＝（ρ_０，ρ_１，…，ρ_ｃ’，…，ρ_Ｃ）である。ｑ_ｃ’およびρ_ｃ’は正実数である。

以上に基づき、スキル推定部２３２は、最新の確率ｈ_ｊ，ｃを入力とし、すべての印象値ラベルｃ∈｛０，１，…，Ｃ｝について、次の式（１０）のようにディリクレ分布のパラメータρ_ｃを更新する。

すなわち、スキル推定部２３２は、式（１０）の右辺を新たなディリクレ分布のパラメータρ_ｃとする。ρ_ｃの初期値に限定はないが、例えばρ_ｃの初期値をρ_ｃ＝１とする。
スキル推定部２３２で更新された新たなμ_ｋ，ｃおよびρはラベル期待値推定部２３３に送られる。

≪ステップＳ２３３≫
ラベル期待値推定部２３３は、最新のパラメータμ_ｋ，ｃおよびパラメータρを入力とし、これらを用いて確率ｈ_ｊ，ｃを以下の式（１１）（１２）のように推定（更新）して出力する。

ここでΨはディガンマ関数であり、ガンマ関数の逆関数を示す。ラベル期待値推定部２３３で更新された新たな確率ｈ_ｊ，ｃはスキル推定部２３２に送られる。

≪ステップＳ１３４≫
第１実施形態で説明したように、制御部１３４は終了条件を充足したか否かを判定する。終了条件を充足していないと判断された場合にはステップＳ１３２に戻る。一方、終了条件を充足したと判断された場合、ラベル期待値推定部１３３は最新の確率ｈ_ｊ，ｃをラベル期待値として学習部１４に出力し、学習部１４は第１実施形態で説明したステップＳ１４の処理を実行する。その後実行される学習部１４の処理およびラベル推定装置１５による推定処理は、第１実施形態で説明した通りである。

[実験データ]
図８は、評価者の総数を２６９名とし、１つのデータ番号ｙ（ｉ，０）に対応する音声ごとに２名ずつの評価者が音声の印象を「高／低」の２値で評価し、それらの評価結果を表す２値の印象値ラベルｙ（ｉ，２）∈｛０，１｝を付与して得られた学習ラベルデータを用い、第１，２実施形態の方法で求めたラベル期待値ｈ_ｊ，ｃ（データ番号ｊ∈｛０，１，…，２６８｝に対する印象値ラベルｃ∈｛０，１｝が真のラベルである確率ｈ_ｊ，ｃ）を例示した図である。印象値ラベルｃは、１に近ければ近いほど印象が「高」であることを示し、０に近ければ近いほど印象が「低」を示す。縦軸の値は第１実施形態の方法（ＥＭアルゴリズム）で推定されたラベル期待値（確率）ｈ_ｊ，ｃを表し、横軸の値は第２実施形態の方法（変分ベイズ法）で推定されたラベル期待値（確率）ｈ_ｊ，ｃを表す。図中の×マークは、そのデータ番号ｙ（ｉ，０）に対応する音声に対して２名の評価者が共に「低」の印象、すなわち印象値ラベルｃ＝０を付した事象を表す。〇マークは、そのデータ番号ｙ（ｉ，０）に対応する音声に対して２名の評価者が共に「高」の印象、すなわち印象値ラベルｃ＝１を付した事象を表す。△マークは、そのデータ番号ｙ（ｉ，０）に対応する音声に対して２名の評価者の印象が分かれた事象、すなわち、一方の評価者が印象値ラベルｃ＝０を付し、他方の評価者が印象値ラベルｃ＝１を付した事象を表す。この図から分かるように、横軸の値が０または１である事象が多く、第１実施形態の方法（ＥＭアルゴリズム）で推定されたラベル期待値ｈ_ｊ，ｃは１または０の局所解に収束することも多いことが分かる。一方、縦軸の値が０または１である事象は少なく、第２実施形態の方法（変分ベイズ法）で推定されたラベル期待値ｈ_ｊ，ｃは局所解に収束することが少なく、ラベル期待値ｈ_ｊ，ｃが０から１の間に広く分布していることが分かる。

[その他の変形例等]
なお、本発明は上述の実施形態に限定されるものではない。例えば、第１実施形態では、初期値設定部１３１が確率ｈ_ｊ，ｃの初期値を設定し（ステップＳ１３１）、スキル推定部１３２が確率ｈ_ｊ，ｃを用いて確率ａ_{ｋ，ｃ，ｃ’}および分布ｑ_ｃを更新する処理（ステップＳ１３２）を行った後に、ラベル期待値推定部１３３が確率ａ_{ｋ，ｃ，ｃ’}および分布ｑ_ｃを用いて確率ｈ_ｊ，ｃを更新する処理（ステップＳ１３３）を行うことを繰り返した。この順序が最適であるが、スキル推定部１３２の処理とラベル期待値推定部１３３の処理との順序を入れ替えてもよい。すなわち、初期値設定部１３１が確率ａ_{ｋ，ｃ，ｃ’}および分布ｑ_ｃの初期値を設定し、ラベル期待値推定部１３３が確率ａ_{ｋ，ｃ，ｃ’}および分布ｑ_ｃを用いて確率ｈ_ｊ，ｃを更新する処理（ステップＳ１３３）を行った後に、スキル推定部１３２が確率ｈ_ｊ，ｃを用いて確率ａ_{ｋ，ｃ，ｃ’}および分布ｑ_ｃを更新する処理（ステップＳ１３２）を行うことを繰り返してもよい。この場合にも終了条件を満たした時点で最新の確率ｈ_ｊ，ｃをラベル期待値ｈ_ｊ，ｃとすればよい。確率ａ_{ｋ，ｃ，ｃ’}の初期値としては、データ番号ｊの「ヒトが知覚可能な情報（音声等）」に対して評価者番号ｋの評価者が付した印象値ラベルｃ’に対し、同じデータ番号ｊの「ヒトが知覚可能な情報（音声等）」に対して他の評価者が同じ評価値ラベルｃ’を付した数が多いほど大きくなる値（０以上１以下の値）を例示できる。分布ｑ_ｃの初期値としては１を例示できる。

同様に、第２実施形態では、初期値設定部１３１が確率ｈ_ｊ，ｃの初期値を設定し（ステップＳ１３１）、スキル推定部２３２が確率ｈ_ｊ，ｃを用いてパラメータμ_ｋ，ｃとパラメータρとを更新する処理（ステップＳ２３２）を行った後に、ラベル期待値推定部２３３がパラメータμ_ｋ，ｃおよびパラメータρを用いて確率ｈ_ｊ，ｃを更新する処理（ステップＳ２３３）を行うことを繰り返した。この順序が最適であるが、スキル推定部２３２の処理とラベル期待値推定部２３３の処理との順序を入れ替えてもよい。すなわち、初期値設定部１３１がパラメータμ_ｋ，ｃとパラメータρとの初期値を設定し、ラベル期待値推定部２３３がパラメータμ_ｋ，ｃおよびパラメータρを用いて確率ｈ_ｊ，ｃを更新する処理（ステップＳ２３３）を行った後に、スキル推定部２３２が確率ｈ_ｊ，ｃを用いてパラメータμ_ｋ，ｃとパラメータρとを更新する処理（ステップＳ２３２）を行うことを繰り返してもよい。この場合にも終了条件を満たした時点で最新の確率ｈ_ｊ，ｃをラベル期待値ｈ_ｊ，ｃとすればよい。

その他、第１，２実施形態のラベル推定部１３，２３で得られたラベル期待値ｈ_ｊ，ｃに代えて、ラベル推定部１３，２３とは異なる方法で得られたラベル期待値ｈ_ｊ，ｃまたは外部から入力されたラベル期待値ｈ_ｊ，ｃが学習部１４に入力され、前述したステップＳ１４の処理が実行されてもよい。

上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上記の各装置は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）およびＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

１，２モデル学習装置
１５ラベル推定装置

Claims

複数のデータと、複数の評価者によって付与された前記複数のデータそれぞれに対する複数のラベルに基づく、前記データに対する各ラベルがどの程度正しく付与されたかの度合いを表す指標であるラベル期待値と、の組を学習データとして用いた学習処理を行い、入力データに対するラベルを推定するモデルを得る、モデル学習装置。
複数のデータと前記データに対する各ラベルの正しさの度合いを表す指標であるラベル期待値との組を学習データとして用いた学習処理を行い、入力データに対するラベルを推定するモデルを得、
前記ラベル期待値は、
複数の評価者それぞれによって付与された前記複数のデータそれぞれに対するラベルを表す情報を入力とし、
前記データに対する各ラベルの正しさの度合いを表す指標を既知とみなし、前記評価者が前記データに正しくラベルを付与できる能力を表す指標を更新する第１処理と、
前記評価者が前記データに正しくラベルを付与できる能力を表す指標を既知とみなし、前記データに対する各ラベルの正しさの度合いを表す指標を更新する第２処理と、
を交互に繰り返すことで得られた、前記データに対する各ラベルの正しさの度合いを表す指標である、モデル学習装置。
請求項２のモデル学習装置であって、
（１）前記データに対する各ラベルの正しさの度合いを表す指標は、前記データｊに対する各ラベルｃが真のラベルである確率ｈ_ｊ，ｃであり、前記評価者が前記データに正しくラベルを付与できる能力を表す指標は、真のラベルｃの前記データｊに対して前記評価者ｋがラベルｃ’を付与する確率ａ_{ｋ，ｃ，ｃ’}であり、前記第１処理は、前記確率ｈ_ｊ，ｃを用いて前記確率ａ_{ｋ，ｃ，ｃ’}と各ラベルｃの分布ｑ_ｃとを更新する処理であり、前記第２処理は、前記確率ａ_{ｋ，ｃ，ｃ’}および前記分布ｑ_ｃを用いて前記確率ｈ_ｊ，ｃを更新する処理である、または
（２）前記データに対する各ラベルの正しさの度合いを表す指標は、前記データｊに対する各ラベルｃが真のラベルである確率ｈ_ｊ，ｃであり、前記評価者が前記データに正しくラベルを付与できる能力を表す指標は、真のラベルｃの前記データｊに対して前記評価者ｋが正しくラベル付与できる度合いを表す確率分布を特定するパラメータμ_ｋ，ｃであり、前記第１処理は、前記確率ｈ_ｊ，ｃを用いて前記パラメータμ_ｋ，ｃと各ラベルｃの分布ｑ_ｃの確率分布を特定するパラメータρとを更新する処理であり、前記第２処理は、前記パラメータμ_ｋ，ｃおよび前記パラメータρを用いて前記確率ｈ_ｊ，ｃを更新する処理である、モデル学習装置。
複数のデータと、複数の評価者によって付与された前記複数のデータそれぞれに対する複数のラベルに基づく、前記データに対する各ラベルがどの程度正しく付与されたかの度合いを表す指標であるラベル期待値と、の組を学習データとして用いた学習処理を行って得られたモデルに対して入力データを適用し、前記入力データに対するラベルを推定するラベル推定装置。
複数のデータと前記データに対する各ラベルの正しさの度合いを表す指標であるラベル期待値との組を学習データとして用いた学習処理を行って得られたモデルに対して入力データを適用し、前記入力データに対するラベルを推定し、
前記ラベル期待値は、
複数の評価者それぞれによって付与された前記複数のデータそれぞれに対するラベルを表す情報を入力とし、
前記データに対する各ラベルの正しさの度合いを表す指標を既知とみなし、前記評価者が前記データに正しくラベルを付与できる能力を表す指標を更新する第１処理と、
前記評価者が前記データに正しくラベルを付与できる能力を表す指標を既知とみなし、前記データに対する各ラベルの正しさの度合いを表す指標を更新する第２処理と、
を交互に繰り返すことで得られた、前記データに対する各ラベルの正しさの度合いを表す指標である、ラベル推定装置。
複数のデータと、複数の評価者によって付与された前記複数のデータそれぞれに対する複数のラベルに基づく、前記データに対する各ラベルがどの程度正しく付与されたかの度合いを表す指標であるラベル期待値と、の組を学習データとして用いた学習処理を行い、入力データに対するラベルを推定するモデルを得る、モデル学習方法。
複数のデータと前記データに対する各ラベルの正しさの度合いを表す指標であるラベル期待値との組を学習データとして用いた学習処理を行い、入力データに対するラベルを推定するモデルを得、
前記ラベル期待値は、
複数の評価者それぞれによって付与された前記複数のデータそれぞれに対するラベルを表す情報を入力とし、
前記データに対する各ラベルの正しさの度合いを表す指標を既知とみなし、前記評価者が前記データに正しくラベルを付与できる能力を表す指標を更新する第１処理と、
前記評価者が前記データに正しくラベルを付与できる能力を表す指標を既知とみなし、前記データに対する各ラベルの正しさの度合いを表す指標を更新する第２処理と、
を交互に繰り返すことで得られた、前記データに対する各ラベルの正しさの度合いを表す指標である、モデル学習方法。
ラベル推定装置によるラベル推定方法であって、
複数のデータと、複数の評価者によって付与された前記複数のデータそれぞれに対する複数のラベルに基づく、前記データに対する各ラベルがどの程度正しく付与されたかの度合いを表す指標であるラベル期待値と、の組を学習データとして用いた学習処理を行って得られたモデルに対して入力データを適用し、前記入力データに対するラベルを推定するラベル推定方法。
ラベル推定装置によるラベル推定方法であって、
複数のデータと前記データに対する各ラベルの正しさの度合いを表す指標であるラベル期待値との組を学習データとして用いた学習処理を行って得られたモデルに対して入力データを適用し、前記入力データに対するラベルを推定し、
前記ラベル期待値は、
複数の評価者それぞれによって付与された前記複数のデータそれぞれに対するラベルを表す情報を入力とし、
前記データに対する各ラベルの正しさの度合いを表す指標を既知とみなし、前記評価者が前記データに正しくラベルを付与できる能力を表す指標を更新する第１処理と、
前記評価者が前記データに正しくラベルを付与できる能力を表す指標を既知とみなし、前記データに対する各ラベルの正しさの度合いを表す指標を更新する第２処理と、
を交互に繰り返すことで得られた、前記データに対する各ラベルの正しさの度合いを表す指標である、ラベル推定方法。
請求項１から３の何れかのモデル学習装置としてコンピュータを機能させるためのプログラム。
請求項４または５のラベル推定装置としてコンピュータを機能させるためのプログラム。