JP2022110375A

JP2022110375A - 機械学習プログラム、装置、及び方法

Info

Publication number: JP2022110375A
Application number: JP2021005747A
Authority: JP
Inventors: 雅也立川; Masaya Tachikawa
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2022-07-29

Abstract

【課題】音声未登録の話者の音声データが含まれる場合でも、音声登録済みの話者の識別精度の低下を抑制することができる音声識別モデルを生成する。【解決手段】機械学習装置は、複数のユーザに音声データが登録済みの特定話者と音声データが未登録の不特定話者とが含まれることを検知すると、複数のユーザを示すユーザ情報に基づいて、音声データＤＢに記憶された音声データ群のうち、特定話者の訓練用音声を特定し、特定話者の訓練用音声及び音声データＤＢに記憶されたダミー音声の各々から、汎用モデル２４を用いて特徴を抽出し、特定話者の訓練用音声と特徴の差分が大きい順に所定個のダミー音声を選択し、特定した特定話者の訓練用音声と、選択したダミー音声とに基づいて、汎用モデル２４に対して追加学習を実行することにより、音声識別モデルを生成する。【選択図】図４

Description

開示の技術は、機械学習技術に関する。

従来、ニューラルネットワークを用いて、今回の入力話者が登録話者と非登録話者のいずれに属するかの判定用出力値を出力できる話者照合システムが提案されている。このシステムは、登録話者の学習用入力音声に前処理を施し、この登録話者の学習用入力データに基づき、特徴空間上で「登録話者」の領域により近いデータ、及び「その他」の領域全域をより効果的に埋めるデータを選択する。そして、このシステムは、選択したデータを用いて非登録話者のための学習用入力データを演算により決定し、上述の登録話者と非登録話者の学習用入力データをニューラルネットワークに入力して該ニューラルネットワークの機械学習を行なう。

また、入力話者の少数の音声データにより高認識率の話者適応を可能とすること音声認識装置が提案されている。この装置は、入力話者の発声した音声から音素ＨＭＭ（Hidden Markov Model）を求め、この音素ＨＭＭと不特定話者の音素ＨＭＭ及び不特定話者の音素環境依存型ＨＭＭとから話者適応を実行する。そして、この装置は、話者適応の実行により作成された認識用モデルによりその話者用の音声認識を行う。

また、音声データの特徴パラメータに基づいて、所定の学習アルゴリズムにより初期のＨＭＭを生成する音響モデル生成装置が提案されている。この装置は、音声データに対して初期のＨＭＭが起こすフレーム単位の識別誤りであるフレーム誤りの傾向に基づいてＨＭＭのガウス混合分布のコンポーネントを追加することにより初期のＨＭＭを再構成して再構成されたＨＭＭを生成する。また、この装置は、音声データの特徴パラメータに基づいて、所定の学習アルゴリズムにより再構成されたＨＭＭを再学習することにより、再学習されたＨＭＭである音響モデルを生成する。

特開平４－１５６９７号公報特開平１０－９７２７７号公報特開平１１－８５１８７号公報

複数の話者の発話が含まれる音声データから、音声識別モデルを用いて各話者の音声データを識別する場合において、その複数の話者の中に、音声登録済みの話者と、音声未登録の話者とが含まれる場合がある。このような場合に、音声登録済みの話者の音声データとダミー音声とを用いて訓練された音声識別モデルが音声識別に利用される。この場合、音声登録済みの話者の識別精度が低下する場合があるという問題がある。

一つの側面として、開示の技術は、音声未登録の話者の音声データが含まれる場合でも、音声登録済みの話者の識別精度の低下を抑制することができる音声識別モデルを生成することを目的とする。

一つの態様として、開示の技術は、複数のユーザを示す情報を取得する。また、開示の技術は、前記複数のユーザに音声データが登録済みの第１の一又は複数のユーザと音声データが未登録の第２の一又は複数のユーザとが含まれることを検知すると、前記第１の一又は複数のユーザの第１の一又は複数の音声データを特定する。第１の一又は複数の音声データは、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群から特定される。そして、開示の技術は、前記第１の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第２の一又は複数の音声データを選択する。さらに、開示の技術は、前記第１の一又は複数の音声データと前記第２の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する。

一つの側面として、音声未登録の話者の音声データが含まれる場合でも、音声登録済みの話者の識別精度の低下を抑制することができる音声識別モデルを生成することができる、という効果を有する。

ハイブリッド話者識別を説明するための図である。機械学習装置の機能ブロック図である。音声データＤＢの一例を示す図である。ダミー音声の選択を説明するための図である。音声識別モデルの生成を説明するための図である。識別装置の機能ブロック図である。機械学習装置として機能するコンピュータの概略構成を示すブロック図である。識別装置として機能するコンピュータの概略構成を示すブロック図である。機械学習処理の一例を示すフローチャートである。識別処理の一例を示すフローチャートである。比較手法による識別精度の一例を示す図である。本実施形態の手法による識別精度の一例を示す図である。

以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。
まず、実施形態の詳細を説明する前に、ハイブリッド話者識別システムにおける特定話者の識別精度の低下について説明する。ハイブリッド話者識別システムとは、特定話者識別システムと不特定話者識別システムとを組み合わせた話者識別システムである。特定話者識別システムは、システムに音声データが登録済みの話者（以下、「特定話者」という）を識別するシステムである。特定話者識別システムは、例えば、入力された音声データから話者を識別する音声識別モデルを教師あり学習により生成し、生成した音声識別モデルを用いて、各音声データに対応する話者を識別するシステムである。不特定話者識別システムは、システムに音声データが未登録の話者（以下、「不特定話者」という）を識別するシステムである。例えば、不特定話者識別システムは、教師なし学習であるクラスタリングを利用し、複数の話者の音声データから話者毎の音声データを識別するシステムである。なお、特定話者は、開示の技術の第１の一又は複数のユーザの一例であり、不特定話者は、開示の技術の第２の一又は複数のユーザの一例である。

ハイブリッド話者識別システムは、事前に不特定多数の話者の音声データを訓練用音声として用いて、特定話者識別に利用する音声識別モデルを生成しておく。そして、ハイブリッド話者識別システムは、識別対象の話者のうち、訓練用音声がある話者、すなわち特定話者については、音声識別モデルを用いた特定話者識別を行う。ハイブリッド話者識別システムは、特定話者識別において、訓練用音声のない話者、すなわち不特定話者を特定話者と区別するための話者ラベル用の音声データ（以下、「ダミー音声」という）を利用して、不特定話者の識別も行う。ハイブリッド話者識別システムは、特定話者識別の結果、不特定話者の音声データと識別された音声データに対してクラスタリングを実施することにより、音声データを不特定話者の人数分のクラスタに分類し、不特定話者識別を行う。

例えば、図１に示すように、Ａさん、Ｂさん、Ｃさん、Ｄさん、及びＥさんが参加した会議の様子を録音した音声データ（以下、「会議音声」という）から、各話者の音声データを識別する場合において、Ａさん、Ｂさん、及びＣさんが特定話者であるとする。この場合、訓練用音声として、Ａさん、Ｂさん、及びＣさんの音声データと、識別対象以外の不特定多数の話者の音声データである複数のダミー音声とが用意される。複数のダミー音声は、会議音声に含まれる不特定話者の音声データが共通のクラス（以下、「ダミークラス」という）に分類されるようにモデルを訓練するために利用される。なお、以下では、用意される複数のダミー音声に対応する、識別対象以外の不特定多数の話者の数を、「ダミー音声の数」ともいう。

ハイブリッド話者識別システムは、予め多人数の話者の訓練用音声で訓練された話者識別の汎用モデルに対して、Ａさん、Ｂさん、及びＣさんの音声データを示す各クラスにダミークラスを加えた４つのクラスを用いて追加学習を行う。これにより、汎用モデルが、今回の識別対象に対応した４クラス分類の音声識別モデルへ更新される。音声識別モデルを利用した特定話者識別の結果、５人の話者の音声データの各々が、Ａさんを示すクラス、Ｂさんを示すクラス、Ｃさんを示すクラス、及びダミークラスのそれぞれに分類される。これにより、Ａさん、Ｂさん、及びＣさんの音声データの識別は完了し、Ｄさん及びＥさんの音声データは、ダミークラスに分類される。

ハイブリッド話者識別システムは、ダミークラスに分類された音声データに対して、さらに不特定話者識別を行う。ここでは、ハイブリッド話者識別システムは、ダミークラスに分類された音声データを２クラスに分類するクラスタリングを実行する。なお、クラスタリングで用いる特徴は、例えば、音声識別モデルにおける特定話者識別の計算過程から抽出してよい。ハイブリッド話者識別システムは、クラスタリングされた各クラスに対して、不特定話者を示す話者ラベル（「Ｄさん」又は「Ｅさん」）を、例えばランダムに付与する。なお、ハイブリッド話者識別システムは、クラスタリングされた各クラスの音声データの少なくとも一部をユーザに提示し、各クラスへ付与する話者ラベルをユーザから受け付けてもよい。これにより、会議音声に含まれる音声データのそれぞれが、Ａさん、Ｂさん、Ｃさん、Ｄさん、及びＥさんのいずれかの話者による音声データとして識別される。

ここで、ハイブリッド話者識別システムを組み込んだ製品を実運用する場合、製品利用者が、識別したい特定話者についての訓練用音声を用意する。訓練用音声の用意は手間のかかる作業であるが、わざわざ訓練用音声を用意したにも関わらず、その特定話者の識別精度が低くなってしまう場合がある。このことは、製品利用者が訓練用音声を用意しなくなる傾向を高めることにつながる。ハイブリッド話者識別システムでは、訓練用音声が全く用意されなかった場合、全ての音声データに対して不特定話者識別を実施する。上述したように、不特定話者識別による話者ラベルの付与をランダムで行う場合には、全てのクラスにランダムに話者ラベルが付与されることになるため、識別精度が低下する。また、上述したように、ユーザにより人手で話者ラベルを付与する場合も、ユーザが全てのクラスの音声データを確認して話者ラベルを付与する必要があるため、ユーザの負担が大きくなる。

上記のような問題を回避するためには、特定話者の識別精度の低下を抑制することが重要である。特定話者の識別精度が低下する要因として、以下の２点が挙げられる。以下、各要因について、図１の例と同様に、会議音声から話者識別を実施する場合を例として詳述する。

特定話者の識別精度が低下する１つ目の要因について説明する。一般的に、話者識別システムにおいて、製品利用者が用意した特定話者の訓練用音声が録音された環境が、識別対象の会議音声が録音された環境と異なる場合、訓練用音声で訓練された話者識別モデルが会議音声に適合せず、特定話者の識別精度の低下を招く。教師あり学習を用いる特定話者識別では、機械学習フェーズにおいて、訓練用音声とその訓練用音声に対応する話者を示す話者ラベルとを紐付けるように機械学習が行われる。しかし、訓練用音声と識別対象の会議音声とで、音声データに含まれる環境雑音や反響の有無などの音響特性が大きく乖離している場合には、識別フェーズにおいて、特定話者に機械学習時と同様の話者ラベルを付与することが困難になる。すなわち、特定話者を正しく識別することが困難になる。この一般的な話者識別システムの問題は、ハイブリッド話者識別システムにおいても同様に存在する。

さらに、上記の一般的な話者識別システムの問題に関連し、ハイブリッド話者識別システム特有の問題もある。ハイブリッド話者識別における機械学習で利用されるダミー音声の音質と、製品利用者の用意した訓練用音声の音質とが類似しているとする。この場合、識別フェーズにおいて、会議音声に含まれる特定話者の音声データがダミークラスに分類される可能性が高くなる。このような問題は、特定話者の訓練用音声に加え、ダミー音声を機械学習に利用するハイブリッド話者識別システム特有の問題である。したがって、ハイブリッド話者識別システムでは、上記の一般的な話者識別システムの問題と同様に、訓練用音声と会議音声とで音響特性が異なる場合は、会議音声に含まれる特定話者の音声データがダミークラスへ分類される可能性が高くなる。加えて、仮に訓練用音声と会議音声との音響特性が比較的類似しているとしても、ダミー音声の音質と特定話者の訓練用音との音質とが類似している場合には、特定話者の識別精度が低下する。

特定話者の識別精度が低下する２つ目の要因について説明する。ハイブリッド話者識別システムでは、上述した、ダミー音声の音質と特定話者の訓練用音声の音質とが類似する問題の対策として、機械学習に利用するダミー音声の数が、識別対象の不特定話者の数よりも多くなるように、ダミー音声が選択される。仮に、ダミー音声の数が少ないうえ、ダミー音声の音質が訓練用音声の音質と類似している場合、特定話者を示すクラスとダミークラスとの境界が曖昧な音声識別モデルが生成されてしまうためである。そこで、ダミー音声の数を多くすると、１つのダミー音声が訓練用音声と類似しているとしても、様々な音響特性のダミー音声が全てダミークラスへ分類されるように訓練される。そのため、訓練用音声がダミー音声と類似しているだけで即座にダミークラスへ分類されることが抑制される。しかし、ダミー音声の数が多過ぎると、多種多様なダミー音声が全てダミークラスへ分類されるように音声識別モデルが訓練される。このように訓練された音声識別モデルを利用した特定話者識別では、特定話者の音声データもダミークラスへ分類される可能性が高まり、特定話者の識別精度が低下する。

本実施形態では、上記の要因による問題を解決する仕組みを提案する。なお、本実施形態では、上記図１の例と同様に、会議音声から、会議の参加者である各話者の音声データを識別する場合について説明する。

本実施形態に係るハイブリッド話者識別システムは、機械学習装置１０と、識別装置３０とを含む。まず、機械学習装置１０について説明する。図２に示すように、機械学習装置１０には、ユーザ情報が入力される。ユーザ情報は、識別対象の会議音声が示す会議に参加した複数のユーザを示す情報であり、例えば、ユーザＩＤ、氏名等、各ユーザを個別に特定可能な情報である。以下では、ユーザを個別に特定可能な情報がユーザＩＤである場合を例に説明する。上記の図１の例では、Ａさん、Ｂさん、Ｃさん、Ｄさん、及びＥさんがユーザ情報である。

機械学習装置１０は、機能的には、図２に示すように、取得部１２と、特定部１４と、選択部１６と、生成部１８とを含む。また、機械学習装置１０の所定の記憶領域には、音声データＤＢ（Database）２２と、汎用モデル２４とが記憶される。

音声データＤＢ２２には、図３に示すように、ユーザＩＤに対応付けて、そのユーザＩＤが示すユーザの音声データが記憶されている。音声データＤＢ２２に記憶された音声データ群には、製品利用者により登録された音声データ、すなわち特定話者の訓練用音声と、汎用モデル２４の生成に利用された不特定多数の話者の音声データ、すなわちダミー音声とが含まれる。図３の例では、「Ｕ」で始まるユーザＩＤに対応付けられた音声データが、特定話者の訓練用音声を表しており、「Ｄ」で始まるユーザＩＤに対応付けられた音声データが、ダミー音声を表している。

汎用モデル２４は、音声データＤＢ２２に記憶された複数（例えば、１００個）のダミー音声を利用して事前に機械学習が実行されることにより生成された、例えばニューラルネットワーク等の音声識別モデルである。事前学習において、各音声データ（ダミー音声）から特徴を抽出するためのパラメータの機械学習が実行されている。汎用モデル２４で各音声データから抽出される特徴は、各音声データをクラス分類するために重要な情報を表す。

取得部１２は、機械学習装置１０に入力されたユーザ情報を取得し、特定部１４へ受け渡す。

特定部１４は、取得部１２から受け渡されたユーザ情報が示す複数のユーザに、一又は複数の特定話者と、一又は複数の不特定話者とが含まれるか否かを検知する。例えば、ユーザ情報に含まれる各ユーザＩＤに、そのユーザが特定話者か不特定話者かを示す情報を付与しておき、特定部１４は、この情報に基づいて、複数のユーザに特定話者と不特定話者とが含まれるか否かを検知する。また、例えば、特定部１４は、ユーザ情報に含まれる各ユーザＩＤが音声データＤＢ２２に記憶されている場合には、そのユーザＩＤが示すユーザを特定話者、記憶されていない場合には不特定話者と判定する。そして、特定部１４は、その判定結果に基づいて、複数のユーザに特定話者と不特定話者とが含まれるか否かを検知してもよい。

特定部１４は、複数のユーザに特定話者と不特定話者とが含まれることを検知すると、ユーザ情報に基づいて、音声データＤＢ２２から、一又は複数の特定話者の訓練用音声を特定する。なお、特定部１４により特定される一又は複数の特定話者の訓練用音声は、開示の技術の第１の一又は複数の音声データの一例である。具体的には、特定部１４は、ユーザ情報に含まれる特定話者のユーザＩＤに対応付けて音声データＤＢ２２に記憶されている音声データを、その特定話者の訓練用音声として特定する。

選択部１６は、特定部１４により特定された一又は複数の特定話者の訓練用音声のそれぞれの特徴に基づいて、音声データＤＢ２２に記憶された音声データ群から一又は複数のダミー音声を選択する。なお、選択部１６により選択される一又は複数のダミー音声は、開示の技術の第２の一又は複数の音声データの一例である。具体的には、選択部１６は、一又は複数の特定話者の訓練用音声のそれぞれの特徴と、一又は複数のダミー音声のそれぞれの特徴との差分に基づいて、生成部１８による音声識別モデル２６の生成に利用する一又は複数のダミー音声を選択する。

より具体的には、選択部１６は、図４に示すように、汎用モデル２４を用いて、特定話者の訓練用音声、及び音声データＤＢ２２に記憶されたダミー音声のそれぞれから特徴を抽出する。例えば、汎用モデル２４を用いて抽出される特徴として、１秒のスペクトログラムから１０２４次元のベクトルが抽出されるとする。この場合、選択部１６は、特定話者の訓練用音声及びダミー音声の各々について、音声データの所定間隔（例えば１秒間隔）毎にベクトルを抽出し、抽出したベクトルの要素毎に、音声データの全期間分の平均値を算出する。選択部１６は、要素毎に算出した平均値を要素とするベクトルを、特定話者の訓練用音声及びダミー音声の各々の特徴として抽出する。そして、選択部１６は、図４に示すように、特定話者の訓練用音声の特徴とダミー音声の特徴との差分を算出する。特徴の差分は、例えば、ベクトルの要素毎の差分の二乗の、全要素の平均値である平均二乗誤差としてよい。なお、各音声データの特徴は、事前に抽出され、音声データＤＢ２２にユーザＩＤ及び音声データと対応付けて記憶しておいてもよい。この場合、選択部１６は、音声データＤＢ２２に記憶された特徴を用いて、特定話者の訓練用音声の特徴とダミー音声の特徴との差分を算出すればよい。

また、選択部１６は、音声データＤＢ２２に記憶されたダミー音声のうち、算出した差分が大きい順に所定個のダミー音声を選択する。例えば、選択部１６は、各ダミー音声の特徴と、一又は複数の特定話者の訓練用音声の各々の特徴との差分の平均が大きい順にダミー音声を選択する。また、例えば、選択部１６は、一又は複数の特定話者の訓練用音声のそれぞれについて、差分が大きいダミー音声を選択してもよい。上述したように、汎用モデル２４で各音声データから抽出される特徴は、各音声データをクラス分類するために重要な情報を表す。したがって、特定話者の訓練用音声の特徴との差分が大きい特徴を持つダミー音声、すなわち音響特性や音質が特定話者の訓練用音声と乖離していることが想定されるダミー音声を選択することで、特定話者の訓練用音声とダミー音声との混同が抑制される。

このように、特定話者の訓練用音声とダミー音声とで特徴の差分が大きなダミー音声を選択することで、生成部１８による音声識別モデル２６の生成時に、多くのダミー音声を利用する必要はなくなる。しかし、音声識別モデル２６の生成に利用するダミー音声の数が少な過ぎる場合には、幅広いパターンの音質をダミークラスへ分類するための機械学習ができなくなってしまう。この場合、ユーザ情報が示す複数のユーザに含まれる不特定話者の数が多いほど、不特定話者の音声データのダミークラスへの分類が失敗する可能性が高くなる。そこで、不特定話者の数と同数程度のダミー音声を利用すれば、生成部１８は、ダミークラスへ分類されるべき人数分の種類の音質を訓練することができるため、十分と考えられる。ただし、特定話者の訓練用音声の数よりもダミー音声の数の方が多くなってしまうと、生成部１８は、多くの音声データがダミークラスへ分類される機械学習を行ってしまうこととなり、識別精度の低下が予測される。そのため、ダミー音声の最大数は、特定話者の訓練用音声と同数程度であることが望ましい。

上記の点を踏まえ、選択部１６は、ユーザ情報が示す複数のユーザに含まれる不特定話者の数以下、かつ、最大数を、複数のユーザに含まれる特定話者の数とする範囲内で、選択するダミー音声の数を決定する。また、選択部１６は、ダミー音声の数を決定する際、複数のユーザに含まれる特定話者の数と不特定話者の数との比率に基づいて決定してもよい。例えば、複数のユーザに含まれる特定話者の数が不特定話者の数以上の場合、選択部１６は、選択するダミー音声の数を、不特定話者の数と同数に決定する。一方、複数のユーザに含まれる特定話者の数が不特定話者の数より少ない場合、選択部１６は、選択するダミー音声の数を、特定話者の数と同数に決定する。

生成部１８は、特定部１４により特定された一又は複数の特定話者の訓練用音声と、選択部１６により選択された一又は複数のダミー音声とに基づいた機械学習によって、音声識別モデル２６を生成する。具体的には、生成部１８は、図５に示すように、汎用モデル２４に対して、特定された特定話者の訓練用音声と、選択されたダミー音声とに基づいた追加学習を行うことにより、音声識別モデル２６を生成する。なお、音声識別モデル２６の生成は、追加学習による場合に限定されないが、事前に機械学習済みの汎用モデル２４に対して追加学習を行うことで、音声識別モデル２６の生成にかかる時間を短縮することができる。

次に、識別装置３０について説明する。識別装置３０は、機能的には、図６に示すように、第１識別部３２と、第２識別部３４とを含む。また、識別装置の所定の記憶領域には、機械学習装置１０により生成された音声識別モデル２６が記憶される。識別装置３０には、会議音声が入力される。この会議音声は、機械学習装置１０に入力されたユーザ情報が示すユーザが参加した会議を録音した音声データである。識別装置３０は、図１を参照して説明したハイブリッド話者識別を実行し、会議音声に含まれる音声データの話者を識別した識別結果を出力する。

第１識別部３２は、ハイブリッド話者識別における特定話者識別を実行する。具体的には、第１識別部３２は、会議音声に含まれる音声データの各々を、音声識別モデル２６を用いて、特定話者の各々を示すクラスとダミークラスとに分類する。第１識別部３２は、特定話者の各々を示すクラスに分類された音声データに、その分類されたクラスに対応する特定話者を示す話者ラベルを付与する。これにより、特定話者の音声データが識別される。

第２識別部３４は、ハイブリッド話者識別における不特定話者識別を実行する。具体的には、第２識別部３４は、第１識別部３２によりダミークラスに分類された音声データを、不特定話者の数分のクラスにクラスタリングする。そして、第２識別部３４は、各クラスに、不特定話者を示す話者ラベルを例えばランダムに付与する。これにより、不特定話者の音声データが識別される。第２識別部３２は、不特定話者の識別結果を、第１識別部３２による特定話者の識別結果とあわせて出力する。

機械学習装置１０は、例えば図７に示すコンピュータ４０で実現することができる。コンピュータ４０は、ＣＰＵ（Central Processing Unit）４１と、一時記憶領域としてのメモリ４２と、不揮発性の記憶部４３とを備える。また、コンピュータ４０は、入力部、表示部等の入出力装置４４と、記憶媒体４９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）部４５とを備える。また、コンピュータ４０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）４６を備える。ＣＰＵ４１、メモリ４２、記憶部４３、入出力装置４４、Ｒ／Ｗ部４５、及び通信Ｉ／Ｆ４６は、バス４７を介して互いに接続される。

記憶部４３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部４３には、コンピュータ４０を、機械学習装置１０として機能させるための機械学習プログラム５０が記憶される。機械学習プログラム５０は、取得プロセス５２と、特定プロセス５４と、選択プロセス５６と、生成プロセス５８とを有する。また、記憶部４３は、音声データＤＢ２２及び汎用モデル２４の各々を構成する情報が記憶される情報記憶領域６０を有する。

ＣＰＵ４１は、機械学習プログラム５０を記憶部４３から読み出してメモリ４２に展開し、機械学習プログラム５０が有するプロセスを順次実行する。ＣＰＵ４１は、取得プロセス５２を実行することで、図２に示す取得部１２として動作する。また、ＣＰＵ４１は、特定プロセス５４を実行することで、図２に示す特定部１４として動作する。また、ＣＰＵ４１は、選択プロセス５６を実行することで、図２に示す選択部１６として動作する。また、ＣＰＵ４１は、生成プロセス５８を実行することで、図２に示す生成部１８として動作する。また、ＣＰＵ４１は、情報記憶領域６０から情報を読み出して、音声データＤＢ２２及び汎用モデル２４の各々をメモリ４２に展開する。これにより、機械学習プログラム５０を実行したコンピュータ４０が、機械学習装置１０として機能することになる。なお、プログラムを実行するＣＰＵ４１はハードウェアである。

識別装置３０は、例えば図８に示すコンピュータ７０で実現することができる。コンピュータ７０は、ＣＰＵ７１と、一時記憶領域としてのメモリ７２と、不揮発性の記憶部７３とを備える。また、コンピュータ７０は、入力部、表示部等の入出力装置７４と、記憶媒体７９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ部７５と、インターネット等のネットワークに接続される通信Ｉ／Ｆ７６とを備える。ＣＰＵ７１、メモリ７２、記憶部７３、入出力装置７４、Ｒ／Ｗ部７５、及び通信Ｉ／Ｆ７６は、バス７７を介して互いに接続される。

記憶部７３は、ＨＤＤ、ＳＳＤ、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部７３には、コンピュータ７０を、識別装置３０として機能させるための識別プログラム８０が記憶される。識別プログラム８０は、第１識別プロセス８２と、第２識別プロセス８４とを有する。また、記憶部７３は、音声識別モデル２６を構成する情報が記憶される情報記憶領域９０を有する。

ＣＰＵ７１は、識別プログラム８０を記憶部７３から読み出してメモリ７２に展開し、識別プログラム８０が有するプロセスを順次実行する。ＣＰＵ７１は、第１識別プロセス８２を実行することで、図６に示す第１識別部３２として動作する。また、ＣＰＵ７１は、第２識別プロセス８４を実行することで、図６に示す第２識別部３４として動作する。また、ＣＰＵ７１は、情報記憶領域９０から情報を読み出して、音声識別モデル２６をメモリ７２に展開する。これにより、識別プログラム８０を実行したコンピュータ７０が、識別装置３０として機能することになる。なお、プログラムを実行するＣＰＵ７１はハードウェアである。

なお、機械学習プログラム５０及び識別プログラム８０の各々により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）等で実現することも可能である。

次に、本実施形態に係るハイブリッド話者識別システムの作用について説明する。まず、機械学習装置１０に、識別対象の会議音声が示す会議に参加した複数のユーザを示すユーザ情報が入力されると、機械学習装置１０が、図９に示す機械学習処理を実行する。そして、機械学習処理の実行により生成された音声識別モデル２６が機械学習装置１０から出力される。識別装置３０が、機械学習装置１０から出力された音声識別モデル２６を取得し、所定の記憶領域に記憶した状態で、識別装置３０に識別対象の会議音声が入力されると、識別装置３０が、図１０に示す識別処理を実行する。なお、機械学習処理は、開示の技術の機械学習方法の一例である。以下、機械学習処理及び識別処理の各々について詳述する。

まず、図９に示す機械学習処理について説明する。ステップＳ１０で、取得部１２が、機械学習装置１０に入力されたユーザ情報を取得し、特定部１４へ受け渡す。

次に、ステップＳ１２で、特定部１４が、取得部１２から受け渡されたユーザ情報が示す複数のユーザに、一又は複数の特定話者と、一又は複数の不特定話者とが含まれるか否かを検知する。特定部１４は、複数のユーザに特定話者と不特定話者とが含まれることを検知すると、ユーザ情報に含まれる特定話者のユーザＩＤに対応付けて音声データＤＢ２２に記憶されている音声データを、その特定話者の訓練用音声として特定する。

次に、ステップＳ１４で、選択部１６が、汎用モデル２４を用いて、特定話者の訓練用音声、及び音声データＤＢ２２に記憶されたダミー音声のそれぞれから特徴を抽出し、特定話者の訓練用音声の特徴とダミー音声の特徴との差分を算出する。そして、選択部１６が、音声データＤＢ２２に記憶されたダミー音声のうち、算出した差分が大きい順に所定個のダミー音声を選択する。選択部１６は、例えば、ユーザ情報が示す複数のユーザのうち、特定話者の数をｘ、不特定話者の数をｙとすると、下記に示すように、選択するダミー音声の数を決定する。
ｘ≧ｙの場合・・・ｙ個
ｘ＜ｙの場合・・・ｘ個

次に、ステップＳ１６で、生成部１８が、汎用モデル２４に対して、上記ステップＳ１２で特定された特定話者の訓練用音声と、上記ステップＳ１４で選択されたダミー音声とに基づいた追加学習を行うことにより、音声識別モデル２６を生成する。そして、生成部１８が、生成した音声識別モデル２６を出力し、機械学習処理は終了する。

次に、図１０に示す識別処理について説明する。ステップＳ２０で、第１識別部３２が、識別装置３０に入力された会議音声を取得する。

次に、ステップＳ２２で、第１識別部３２が、会議音声に含まれる音声データの各々を、音声識別モデル２６を用いて、特定話者の各々を示すクラスとダミークラスとに分類する。そして、第１識別部３２が、特定話者の各々を示すクラスに分類された音声データに、その分類されたクラスに対応する特定話者を示す話者ラベルを付与することにより、特定話者の音声データを識別する。

次に、ステップＳ２４で、第２識別部３４が、上記ステップＳ２２でダミークラスに分類された音声データを、不特定話者の数分のクラスにクラスタリングする。そして、第２識別部３４が、各クラスに、不特定話者を示す話者ラベルを例えばランダムに付与することにより、不特定話者の音声データを識別する。

次に、ステップＳ２６で、第２識別部３２が、上記ステップＳ２２における特定話者の識別結果と、上記ステップＳ２４における不特定話者の識別結果とあわせて出力し、識別処理は終了する。

なお、上記ステップＳ１２において、複数のユーザに特定話者のみが含まれることが検知された場合、機械学習装置は、上記ステップＳ１４の処理を省略すればよい。また、上記ステップＳ１２において、複数のユーザに不特定話者のみが含まれることが検知された場合、機械学習装置は、上記ステップＳ１２における特定話者の訓練用音声の特定を省略すればよい。この場合、さらに、機械学習装置は、上記ステップＳ１４で、音声データＤＢ２２から、不特定話者の人数分のダミー音声を例えばランダムに選択すればよい。

以上説明したように、本実施形態に係る機械学習システムによれば、機械学習装置が、複数のユーザを示すユーザ情報を取得する。また、機械学習装置が、複数のユーザに音声データが登録済みの一又は複数の特定話者と音声データが未登録の一又は複数の不特定話者とが含まれるか否かを検知する。そして、機械学習装置が、特定話者と不特定話者とが含まれることを検知すると、ユーザ情報に基づいて、音声データＤＢに記憶された音声データ群のうち、一又は複数の特定話者の一又は複数の訓練用音声を特定する。また、機械学習装置が、一又は複数の特定話者の訓練用音声のそれぞれの特徴に基づいて、音声データＤＢに記憶された音声データ群から一又は複数のダミー音声を選択する。そして、機械学習装置が、特定した一又は複数の特定話者の訓練用音声と、選択したダミー音声とに基づいた機械学習によって音声識別モデルを生成する。これにより、音声未登録の話者の音声データが含まれる場合でも、音声登録済みの話者の識別精度の低下を抑制することができる音声識別モデルを生成することができる。

ここで、図１１に、特定話者の訓練用音声の特徴との比較を行うことなく選択したダミー音声を用いて音声識別モデルを生成する手法（以下、「比較手法」という）による識別精度の一例を示す。また、図１２に、本実施形態の手法による識別精度の一例を示す。本実施形態の手法では、特定話者の数をｘ、不特定話者の数をｙとし、ｘ≧ｙの場合はｙ個、ｘ＜ｙの場合はｘ個のダミー音声を選択した。両手法とも、参加者４人（Ａ、Ｂ、Ｃ、及びＤ）の会議音声を識別対象とし、特定話者の組合せをそれぞれ異ならせたパターン毎の識別精度（正解率）を求めた。

図１１及び図１２において、「ＩＤ」は、パターン毎の識別番号、「特定話者」は、特定話者の組合せ、「全体精度」は、会話音声全区間における識別精度、「個別精度」は、話者毎の識別精度である。また、「発話区間割合」は、会議音声の全区間に対して、各話者の発話区間であると識別された区間の割合であり、会議音声内である程度話者がばらついていることを示すための指標である。また、図１１及び図１２において網掛の部分は、そのパターンにおける特定話者の結果を表している。

図１１と図１２とを比較すると、特に特定話者の識別精度において、比較手法に対する本実施形態の手法の優位性が確認できる。特定話者の識別精度が向上することで、製品利用者が特定話者の訓練用音声を用意する動機付けとなり、結果として、訓練用音声が用意される割合が高まることで、全体的な識別精度の向上へ寄与する。

なお、上記実施形態では、汎用モデルを用いて音声データから特徴を抽出する例について説明したが、これに限定されない。特定話者の訓練用音声とダミー音声との差分を特定可能な特徴を得ることができれば、汎用モデルを用いることなく、他のアルゴリズムにより得られる特徴を用いてもよい。

また、上記実施形態において、機械学習装置は、ダミー音声を選択する際、特定話者の訓練用音声の特徴との差分が所定値以上で、かつ、ダミー音声同士の特徴の類似度が所定値以下となるように選択してもよい。これにより、少ない数のダミー音声で、様々なパターンの音質の音声データがダミークラスへ分類されるように音声識別モデルを訓練することができるため、不特定話者も含めた全体の識別精度の向上を図ることができる。

また、上記実施形態では、機械学習装置と識別装置とを別々のコンピュータで構成する場合について説明したが、機械学習装置と識別装置とを１つのコンピュータで構成してもよい。

また、上記実施形態では、機械学習プログラム及び識別プログラムが記憶部に予め記憶（インストール）されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供することも可能である。

以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）
複数のユーザを示す情報を取得し、
前記複数のユーザに音声データが登録済みの第１の一又は複数のユーザと音声データが未登録の第２の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第１の一又は複数のユーザの第１の一又は複数の音声データを特定し、
前記第１の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第２の一又は複数の音声データを選択し、
前記第１の一又は複数の音声データと前記第２の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。

（付記２）
前記第２の一又は複数の音声データを選択する処理は、前記第１の一又は複数の音声データのそれぞれの特徴と、前記第２の一又は複数の音声データのそれぞれの特徴との差分に基づいて、前記第２の一又は複数の音声データを選択することを含む、
ことを特徴とする付記１に記載の機械学習プログラム。

（付記３）
前記第２の一又は複数の音声データを選択する処理は、前記差分が大きい順に所定個の前記第２の一又は複数の音声データを選択することを含む、
ことを特徴とする付記２に記載の機械学習プログラム。

（付記４）
前記第２の一又は複数の音声データを選択する処理は、前記複数のユーザに含まれる前記第２の一又は複数のユーザの数以下、かつ、最大数を前記複数のユーザに含まれる前記第１の一又は複数のユーザの数とする範囲内で、選択する前記第２の一又は複数の音声データの数を決定することを含む、
ことを特徴とする付記１～付記３のいずれか１項に記載の機械学習プログラム。

（付記５）
前記第２の一又は複数の音声データの数を決定する処理は、前記複数のユーザに含まれる前記第１の一又は複数のユーザの数と、前記第２の一又は複数のユーザの数との比率に基づいて、選択する前記第２の一又は複数の音声データの数を決定することを含む、
ことを特徴とする付記４に記載の機械学習プログラム。

（付記６）
前記第２の一又は複数の音声データの数を決定する処理は、
前記複数のユーザに含まれる前記第１の一又は複数のユーザの数が前記第２の一又は複数のユーザの数以上の場合、前記複数のユーザに含まれる前記第２の一又は複数のユーザの数と同数に決定し、
前記複数のユーザに含まれる前記第１の一又は複数のユーザの数が前記第２の一又は複数のユーザの数より少ない場合、前記複数のユーザに含まれる前記第１の一又は複数のユーザの数と同数に決定することを含む、
ことを特徴とする付記５に記載の機械学習プログラム。

（付記７）
前記音声識別モデルを生成する処理は、不特定多数のユーザの音声データに基づいて事前に機械学習された音声識別モデルに対して、前記第１の一又は複数の音声データと前記第２の一又は複数の音声データとに基づいた追加学習を行うことを含む、
ことを特徴とする付記１～付記６のいずれか１項に記載の機械学習プログラム。

（付記８）
前記第２の一又は複数の音声データを選択する処理は、不特定多数のユーザの音声データに基づいて事前に機械学習された音声識別モデルを用いて前記特徴を抽出することを含む、
ことを特徴とする付記１～付記７のいずれか１項に記載の機械学習プログラム。

（付記９）
複数のユーザを示す情報を取得し、
前記複数のユーザに音声データが登録済みの第１の一又は複数のユーザと音声データが未登録の第２の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第１の一又は複数のユーザの第１の一又は複数の音声データを特定し、
前記第１の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第２の一又は複数の音声データを選択し、
前記第１の一又は複数の音声データと前記第２の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
処理を実行する制御部を含むことを特徴とする機械学習装置。

（付記１０）
前記制御部は、前記第２の一又は複数の音声データを選択する処理として、前記第１の一又は複数の音声データのそれぞれの特徴と、前記第２の一又は複数の音声データのそれぞれの特徴との差分に基づいて、前記第２の一又は複数の音声データを選択することを含む処理を実行する、
ことを特徴とする付記９に記載の機械学習装置。

（付記１１）
前記制御部は、前記第２の一又は複数の音声データを選択する処理として、前記差分が所定値以上の前記第２の一又は複数の音声データ、又は、前記差分が大きい順に所定個の前記第２の一又は複数の音声データを選択することを含む処理を実行する、
ことを特徴とする付記１０に記載の機械学習装置。

（付記１２）
前記制御部は、前記第２の一又は複数の音声データを選択する処理として、前記複数のユーザに含まれる前記第２の一又は複数のユーザの数以下、かつ、最大数を前記複数のユーザに含まれる前記第１の一又は複数のユーザの数とする範囲内で、選択する前記第２の一又は複数の音声データの数を決定することを含む処理を実行する、
ことを特徴とする付記９～付記１１のいずれか１項に記載の機械学習装置。

（付記１３）
前記制御部は、前記第２の一又は複数の音声データの数を決定する処理として、前記複数のユーザに含まれる前記第１の一又は複数のユーザの数と、前記第２の一又は複数のユーザの数との比率に基づいて、選択する前記第２の一又は複数の音声データの数を決定することを含む処理を実行する、
ことを特徴とする付記１２に記載の機械学習装置。

（付記１４）
前記制御部は、前記第２の一又は複数の音声データの数を決定する処理として、
前記複数のユーザに含まれる前記第１の一又は複数のユーザの数が前記第２の一又は複数のユーザの数以上の場合、前記複数のユーザに含まれる前記第２の一又は複数のユーザの数と同数に決定し、
前記複数のユーザに含まれる前記第１の一又は複数のユーザの数が前記第２の一又は複数のユーザの数より少ない場合、前記複数のユーザに含まれる前記第１の一又は複数のユーザの数と同数に決定することを含む処理を実行する、
ことを特徴とする付記１３に記載の機械学習装置。

（付記１５）
前記制御部は、前記音声識別モデルを生成する処理として、不特定多数のユーザの音声データに基づいて事前に機械学習された音声識別モデルに対して、前記第１の一又は複数の音声データと前記第２の一又は複数の音声データとに基づいた追加学習を行うことを含む処理を実行する、
ことを特徴とする付記９～付記１４のいずれか１項に記載の機械学習装置。

（付記１６）
前記制御部は、前記第２の一又は複数の音声データを選択する処理として、不特定多数のユーザの音声データに基づいて事前に機械学習された音声識別モデルを用いて前記特徴を抽出することを含む処理を実行する、
ことを特徴とする付記９～付記１５のいずれか１項に記載の機械学習装置。

（付記１７）
複数のユーザを示す情報を取得し、
前記複数のユーザに音声データが登録済みの第１の一又は複数のユーザと音声データが未登録の第２の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第１の一又は複数のユーザの第１の一又は複数の音声データを特定し、
前記第１の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第２の一又は複数の音声データを選択し、
前記第１の一又は複数の音声データと前記第２の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
処理をコンピュータが実行することを特徴とする機械学習方法。

（付記１８）
前記第２の一又は複数の音声データを選択する処理は、前記第１の一又は複数の音声データのそれぞれの特徴と、前記第２の一又は複数の音声データのそれぞれの特徴との差分に基づいて、前記第２の一又は複数の音声データを選択することを含む、
ことを特徴とする付記１７に記載の機械学習方法。

（付記１９）
前記第２の一又は複数の音声データを選択する処理は、前記差分が大きい順に所定個の前記第２の一又は複数の音声データを選択することを含む、
ことを特徴とする付記１８に記載の機械学習方法。

（付記２０）
複数のユーザを示す情報を取得し、
前記複数のユーザに音声データが登録済みの第１の一又は複数のユーザと音声データが未登録の第２の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第１の一又は複数のユーザの第１の一又は複数の音声データを特定し、
前記第１の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第２の一又は複数の音声データを選択し、
前記第１の一又は複数の音声データと前記第２の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
処理をコンピュータに実行させることを特徴とする機械学習プログラムを記憶した記憶媒体。

１０機械学習装置
１２取得部
１４特定部
１６選択部
１８生成部
２２音声データＤＢ
２４汎用モデル
２６音声識別モデル
３０識別装置
３２第１識別部
３４第２識別部
４０、７０コンピュータ
４１、７１ＣＰＵ
４２、７２メモリ
４３、７３記憶部
４９、７９記憶媒体
５０機械学習プログラム
８０識別プログラム

Claims

複数のユーザを示す情報を取得し、
前記複数のユーザに音声データが登録済みの第１の一又は複数のユーザと音声データが未登録の第２の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第１の一又は複数のユーザの第１の一又は複数の音声データを特定し、
前記第１の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第２の一又は複数の音声データを選択し、
前記第１の一又は複数の音声データと前記第２の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
前記第２の一又は複数の音声データを選択する処理は、前記第１の一又は複数の音声データのそれぞれの特徴と、前記第２の一又は複数の音声データのそれぞれの特徴との差分に基づいて、前記第２の一又は複数の音声データを選択することを含む、
ことを特徴とする請求項１に記載の機械学習プログラム。
前記第２の一又は複数の音声データを選択する処理は、前記差分が大きい順に所定個の前記第２の一又は複数の音声データを選択することを含む、
ことを特徴とする請求項２に記載の機械学習プログラム。
前記第２の一又は複数の音声データを選択する処理は、前記複数のユーザに含まれる前記第２の一又は複数のユーザの数以下、かつ、最大数を前記複数のユーザに含まれる前記第１の一又は複数のユーザの数とする範囲内で、選択する前記第２の一又は複数の音声データの数を決定することを含む、
ことを特徴とする請求項１～請求項３のいずれか１項に記載の機械学習プログラム。
前記第２の一又は複数の音声データの数を決定する処理は、前記複数のユーザに含まれる前記第１の一又は複数のユーザの数と、前記第２の一又は複数のユーザの数との比率に基づいて、選択する前記第２の一又は複数の音声データの数を決定することを含む、
ことを特徴とする請求項４に記載の機械学習プログラム。
前記第２の一又は複数の音声データの数を決定する処理は、
前記複数のユーザに含まれる前記第１の一又は複数のユーザの数が前記第２の一又は複数のユーザの数以上の場合、前記複数のユーザに含まれる前記第２の一又は複数のユーザの数と同数に決定し、
前記複数のユーザに含まれる前記第１の一又は複数のユーザの数が前記第２の一又は複数のユーザの数より少ない場合、前記複数のユーザに含まれる前記第１の一又は複数のユーザの数と同数に決定することを含む、
ことを特徴とする請求項５に記載の機械学習プログラム。
前記音声識別モデルを生成する処理は、不特定多数のユーザの音声データに基づいて事前に機械学習された音声識別モデルに対して、前記第１の一又は複数の音声データと前記第２の一又は複数の音声データとに基づいた追加学習を行うことを含む、
ことを特徴とする請求項１～請求項６のいずれか１項に記載の機械学習プログラム。
前記第２の一又は複数の音声データを選択する処理は、不特定多数のユーザの音声データに基づいて事前に機械学習された音声識別モデルを用いて前記特徴を抽出することを含む、
ことを特徴とする請求項１～請求項７のいずれか１項に記載の機械学習プログラム。
複数のユーザを示す情報を取得し、
前記複数のユーザに音声データが登録済みの第１の一又は複数のユーザと音声データが未登録の第２の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第１の一又は複数のユーザの第１の一又は複数の音声データを特定し、
前記第１の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第２の一又は複数の音声データを選択し、
前記第１の一又は複数の音声データと前記第２の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
処理を実行する制御部を含むことを特徴とする機械学習装置。
複数のユーザを示す情報を取得し、
前記複数のユーザに音声データが登録済みの第１の一又は複数のユーザと音声データが未登録の第２の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第１の一又は複数のユーザの第１の一又は複数の音声データを特定し、
前記第１の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第２の一又は複数の音声データを選択し、
前記第１の一又は複数の音声データと前記第２の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
処理をコンピュータが実行することを特徴とする機械学習方法。