JP2022110375A - 機械学習プログラム、装置、及び方法 - Google Patents

機械学習プログラム、装置、及び方法 Download PDF

Info

Publication number
JP2022110375A
JP2022110375A JP2021005747A JP2021005747A JP2022110375A JP 2022110375 A JP2022110375 A JP 2022110375A JP 2021005747 A JP2021005747 A JP 2021005747A JP 2021005747 A JP2021005747 A JP 2021005747A JP 2022110375 A JP2022110375 A JP 2022110375A
Authority
JP
Japan
Prior art keywords
users
speech
data
machine learning
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021005747A
Other languages
English (en)
Inventor
雅也 立川
Masaya Tachikawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2021005747A priority Critical patent/JP2022110375A/ja
Publication of JP2022110375A publication Critical patent/JP2022110375A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】音声未登録の話者の音声データが含まれる場合でも、音声登録済みの話者の識別精度の低下を抑制することができる音声識別モデルを生成する。【解決手段】機械学習装置は、複数のユーザに音声データが登録済みの特定話者と音声データが未登録の不特定話者とが含まれることを検知すると、複数のユーザを示すユーザ情報に基づいて、音声データDBに記憶された音声データ群のうち、特定話者の訓練用音声を特定し、特定話者の訓練用音声及び音声データDBに記憶されたダミー音声の各々から、汎用モデル24を用いて特徴を抽出し、特定話者の訓練用音声と特徴の差分が大きい順に所定個のダミー音声を選択し、特定した特定話者の訓練用音声と、選択したダミー音声とに基づいて、汎用モデル24に対して追加学習を実行することにより、音声識別モデルを生成する。【選択図】図4

Description

開示の技術は、機械学習技術に関する。
従来、ニューラルネットワークを用いて、今回の入力話者が登録話者と非登録話者のいずれに属するかの判定用出力値を出力できる話者照合システムが提案されている。このシステムは、登録話者の学習用入力音声に前処理を施し、この登録話者の学習用入力データに基づき、特徴空間上で「登録話者」の領域により近いデータ、及び「その他」の領域全域をより効果的に埋めるデータを選択する。そして、このシステムは、選択したデータを用いて非登録話者のための学習用入力データを演算により決定し、上述の登録話者と非登録話者の学習用入力データをニューラルネットワークに入力して該ニューラルネットワークの機械学習を行なう。
また、入力話者の少数の音声データにより高認識率の話者適応を可能とすること音声認識装置が提案されている。この装置は、入力話者の発声した音声から音素HMM(Hidden Markov Model)を求め、この音素HMMと不特定話者の音素HMM及び不特定話者の音素環境依存型HMMとから話者適応を実行する。そして、この装置は、話者適応の実行により作成された認識用モデルによりその話者用の音声認識を行う。
また、音声データの特徴パラメータに基づいて、所定の学習アルゴリズムにより初期のHMMを生成する音響モデル生成装置が提案されている。この装置は、音声データに対して初期のHMMが起こすフレーム単位の識別誤りであるフレーム誤りの傾向に基づいてHMMのガウス混合分布のコンポーネントを追加することにより初期のHMMを再構成して再構成されたHMMを生成する。また、この装置は、音声データの特徴パラメータに基づいて、所定の学習アルゴリズムにより再構成されたHMMを再学習することにより、再学習されたHMMである音響モデルを生成する。
特開平4-15697号公報 特開平10-97277号公報 特開平11-85187号公報
複数の話者の発話が含まれる音声データから、音声識別モデルを用いて各話者の音声データを識別する場合において、その複数の話者の中に、音声登録済みの話者と、音声未登録の話者とが含まれる場合がある。このような場合に、音声登録済みの話者の音声データとダミー音声とを用いて訓練された音声識別モデルが音声識別に利用される。この場合、音声登録済みの話者の識別精度が低下する場合があるという問題がある。
一つの側面として、開示の技術は、音声未登録の話者の音声データが含まれる場合でも、音声登録済みの話者の識別精度の低下を抑制することができる音声識別モデルを生成することを目的とする。
一つの態様として、開示の技術は、複数のユーザを示す情報を取得する。また、開示の技術は、前記複数のユーザに音声データが登録済みの第1の一又は複数のユーザと音声データが未登録の第2の一又は複数のユーザとが含まれることを検知すると、前記第1の一又は複数のユーザの第1の一又は複数の音声データを特定する。第1の一又は複数の音声データは、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群から特定される。そして、開示の技術は、前記第1の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第2の一又は複数の音声データを選択する。さらに、開示の技術は、前記第1の一又は複数の音声データと前記第2の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する。
一つの側面として、音声未登録の話者の音声データが含まれる場合でも、音声登録済みの話者の識別精度の低下を抑制することができる音声識別モデルを生成することができる、という効果を有する。
ハイブリッド話者識別を説明するための図である。 機械学習装置の機能ブロック図である。 音声データDBの一例を示す図である。 ダミー音声の選択を説明するための図である。 音声識別モデルの生成を説明するための図である。 識別装置の機能ブロック図である。 機械学習装置として機能するコンピュータの概略構成を示すブロック図である。 識別装置として機能するコンピュータの概略構成を示すブロック図である。 機械学習処理の一例を示すフローチャートである。 識別処理の一例を示すフローチャートである。 比較手法による識別精度の一例を示す図である。 本実施形態の手法による識別精度の一例を示す図である。
以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。
まず、実施形態の詳細を説明する前に、ハイブリッド話者識別システムにおける特定話者の識別精度の低下について説明する。ハイブリッド話者識別システムとは、特定話者識別システムと不特定話者識別システムとを組み合わせた話者識別システムである。特定話者識別システムは、システムに音声データが登録済みの話者(以下、「特定話者」という)を識別するシステムである。特定話者識別システムは、例えば、入力された音声データから話者を識別する音声識別モデルを教師あり学習により生成し、生成した音声識別モデルを用いて、各音声データに対応する話者を識別するシステムである。不特定話者識別システムは、システムに音声データが未登録の話者(以下、「不特定話者」という)を識別するシステムである。例えば、不特定話者識別システムは、教師なし学習であるクラスタリングを利用し、複数の話者の音声データから話者毎の音声データを識別するシステムである。なお、特定話者は、開示の技術の第1の一又は複数のユーザの一例であり、不特定話者は、開示の技術の第2の一又は複数のユーザの一例である。
ハイブリッド話者識別システムは、事前に不特定多数の話者の音声データを訓練用音声として用いて、特定話者識別に利用する音声識別モデルを生成しておく。そして、ハイブリッド話者識別システムは、識別対象の話者のうち、訓練用音声がある話者、すなわち特定話者については、音声識別モデルを用いた特定話者識別を行う。ハイブリッド話者識別システムは、特定話者識別において、訓練用音声のない話者、すなわち不特定話者を特定話者と区別するための話者ラベル用の音声データ(以下、「ダミー音声」という)を利用して、不特定話者の識別も行う。ハイブリッド話者識別システムは、特定話者識別の結果、不特定話者の音声データと識別された音声データに対してクラスタリングを実施することにより、音声データを不特定話者の人数分のクラスタに分類し、不特定話者識別を行う。
例えば、図1に示すように、Aさん、Bさん、Cさん、Dさん、及びEさんが参加した会議の様子を録音した音声データ(以下、「会議音声」という)から、各話者の音声データを識別する場合において、Aさん、Bさん、及びCさんが特定話者であるとする。この場合、訓練用音声として、Aさん、Bさん、及びCさんの音声データと、識別対象以外の不特定多数の話者の音声データである複数のダミー音声とが用意される。複数のダミー音声は、会議音声に含まれる不特定話者の音声データが共通のクラス(以下、「ダミークラス」という)に分類されるようにモデルを訓練するために利用される。なお、以下では、用意される複数のダミー音声に対応する、識別対象以外の不特定多数の話者の数を、「ダミー音声の数」ともいう。
ハイブリッド話者識別システムは、予め多人数の話者の訓練用音声で訓練された話者識別の汎用モデルに対して、Aさん、Bさん、及びCさんの音声データを示す各クラスにダミークラスを加えた4つのクラスを用いて追加学習を行う。これにより、汎用モデルが、今回の識別対象に対応した4クラス分類の音声識別モデルへ更新される。音声識別モデルを利用した特定話者識別の結果、5人の話者の音声データの各々が、Aさんを示すクラス、Bさんを示すクラス、Cさんを示すクラス、及びダミークラスのそれぞれに分類される。これにより、Aさん、Bさん、及びCさんの音声データの識別は完了し、Dさん及びEさんの音声データは、ダミークラスに分類される。
ハイブリッド話者識別システムは、ダミークラスに分類された音声データに対して、さらに不特定話者識別を行う。ここでは、ハイブリッド話者識別システムは、ダミークラスに分類された音声データを2クラスに分類するクラスタリングを実行する。なお、クラスタリングで用いる特徴は、例えば、音声識別モデルにおける特定話者識別の計算過程から抽出してよい。ハイブリッド話者識別システムは、クラスタリングされた各クラスに対して、不特定話者を示す話者ラベル(「Dさん」又は「Eさん」)を、例えばランダムに付与する。なお、ハイブリッド話者識別システムは、クラスタリングされた各クラスの音声データの少なくとも一部をユーザに提示し、各クラスへ付与する話者ラベルをユーザから受け付けてもよい。これにより、会議音声に含まれる音声データのそれぞれが、Aさん、Bさん、Cさん、Dさん、及びEさんのいずれかの話者による音声データとして識別される。
ここで、ハイブリッド話者識別システムを組み込んだ製品を実運用する場合、製品利用者が、識別したい特定話者についての訓練用音声を用意する。訓練用音声の用意は手間のかかる作業であるが、わざわざ訓練用音声を用意したにも関わらず、その特定話者の識別精度が低くなってしまう場合がある。このことは、製品利用者が訓練用音声を用意しなくなる傾向を高めることにつながる。ハイブリッド話者識別システムでは、訓練用音声が全く用意されなかった場合、全ての音声データに対して不特定話者識別を実施する。上述したように、不特定話者識別による話者ラベルの付与をランダムで行う場合には、全てのクラスにランダムに話者ラベルが付与されることになるため、識別精度が低下する。また、上述したように、ユーザにより人手で話者ラベルを付与する場合も、ユーザが全てのクラスの音声データを確認して話者ラベルを付与する必要があるため、ユーザの負担が大きくなる。
上記のような問題を回避するためには、特定話者の識別精度の低下を抑制することが重要である。特定話者の識別精度が低下する要因として、以下の2点が挙げられる。以下、各要因について、図1の例と同様に、会議音声から話者識別を実施する場合を例として詳述する。
特定話者の識別精度が低下する1つ目の要因について説明する。一般的に、話者識別システムにおいて、製品利用者が用意した特定話者の訓練用音声が録音された環境が、識別対象の会議音声が録音された環境と異なる場合、訓練用音声で訓練された話者識別モデルが会議音声に適合せず、特定話者の識別精度の低下を招く。教師あり学習を用いる特定話者識別では、機械学習フェーズにおいて、訓練用音声とその訓練用音声に対応する話者を示す話者ラベルとを紐付けるように機械学習が行われる。しかし、訓練用音声と識別対象の会議音声とで、音声データに含まれる環境雑音や反響の有無などの音響特性が大きく乖離している場合には、識別フェーズにおいて、特定話者に機械学習時と同様の話者ラベルを付与することが困難になる。すなわち、特定話者を正しく識別することが困難になる。この一般的な話者識別システムの問題は、ハイブリッド話者識別システムにおいても同様に存在する。
さらに、上記の一般的な話者識別システムの問題に関連し、ハイブリッド話者識別システム特有の問題もある。ハイブリッド話者識別における機械学習で利用されるダミー音声の音質と、製品利用者の用意した訓練用音声の音質とが類似しているとする。この場合、識別フェーズにおいて、会議音声に含まれる特定話者の音声データがダミークラスに分類される可能性が高くなる。このような問題は、特定話者の訓練用音声に加え、ダミー音声を機械学習に利用するハイブリッド話者識別システム特有の問題である。したがって、ハイブリッド話者識別システムでは、上記の一般的な話者識別システムの問題と同様に、訓練用音声と会議音声とで音響特性が異なる場合は、会議音声に含まれる特定話者の音声データがダミークラスへ分類される可能性が高くなる。加えて、仮に訓練用音声と会議音声との音響特性が比較的類似しているとしても、ダミー音声の音質と特定話者の訓練用音との音質とが類似している場合には、特定話者の識別精度が低下する。
特定話者の識別精度が低下する2つ目の要因について説明する。ハイブリッド話者識別システムでは、上述した、ダミー音声の音質と特定話者の訓練用音声の音質とが類似する問題の対策として、機械学習に利用するダミー音声の数が、識別対象の不特定話者の数よりも多くなるように、ダミー音声が選択される。仮に、ダミー音声の数が少ないうえ、ダミー音声の音質が訓練用音声の音質と類似している場合、特定話者を示すクラスとダミークラスとの境界が曖昧な音声識別モデルが生成されてしまうためである。そこで、ダミー音声の数を多くすると、1つのダミー音声が訓練用音声と類似しているとしても、様々な音響特性のダミー音声が全てダミークラスへ分類されるように訓練される。そのため、訓練用音声がダミー音声と類似しているだけで即座にダミークラスへ分類されることが抑制される。しかし、ダミー音声の数が多過ぎると、多種多様なダミー音声が全てダミークラスへ分類されるように音声識別モデルが訓練される。このように訓練された音声識別モデルを利用した特定話者識別では、特定話者の音声データもダミークラスへ分類される可能性が高まり、特定話者の識別精度が低下する。
本実施形態では、上記の要因による問題を解決する仕組みを提案する。なお、本実施形態では、上記図1の例と同様に、会議音声から、会議の参加者である各話者の音声データを識別する場合について説明する。
本実施形態に係るハイブリッド話者識別システムは、機械学習装置10と、識別装置30とを含む。まず、機械学習装置10について説明する。図2に示すように、機械学習装置10には、ユーザ情報が入力される。ユーザ情報は、識別対象の会議音声が示す会議に参加した複数のユーザを示す情報であり、例えば、ユーザID、氏名等、各ユーザを個別に特定可能な情報である。以下では、ユーザを個別に特定可能な情報がユーザIDである場合を例に説明する。上記の図1の例では、Aさん、Bさん、Cさん、Dさん、及びEさんがユーザ情報である。
機械学習装置10は、機能的には、図2に示すように、取得部12と、特定部14と、選択部16と、生成部18とを含む。また、機械学習装置10の所定の記憶領域には、音声データDB(Database)22と、汎用モデル24とが記憶される。
音声データDB22には、図3に示すように、ユーザIDに対応付けて、そのユーザIDが示すユーザの音声データが記憶されている。音声データDB22に記憶された音声データ群には、製品利用者により登録された音声データ、すなわち特定話者の訓練用音声と、汎用モデル24の生成に利用された不特定多数の話者の音声データ、すなわちダミー音声とが含まれる。図3の例では、「U」で始まるユーザIDに対応付けられた音声データが、特定話者の訓練用音声を表しており、「D」で始まるユーザIDに対応付けられた音声データが、ダミー音声を表している。
汎用モデル24は、音声データDB22に記憶された複数(例えば、100個)のダミー音声を利用して事前に機械学習が実行されることにより生成された、例えばニューラルネットワーク等の音声識別モデルである。事前学習において、各音声データ(ダミー音声)から特徴を抽出するためのパラメータの機械学習が実行されている。汎用モデル24で各音声データから抽出される特徴は、各音声データをクラス分類するために重要な情報を表す。
取得部12は、機械学習装置10に入力されたユーザ情報を取得し、特定部14へ受け渡す。
特定部14は、取得部12から受け渡されたユーザ情報が示す複数のユーザに、一又は複数の特定話者と、一又は複数の不特定話者とが含まれるか否かを検知する。例えば、ユーザ情報に含まれる各ユーザIDに、そのユーザが特定話者か不特定話者かを示す情報を付与しておき、特定部14は、この情報に基づいて、複数のユーザに特定話者と不特定話者とが含まれるか否かを検知する。また、例えば、特定部14は、ユーザ情報に含まれる各ユーザIDが音声データDB22に記憶されている場合には、そのユーザIDが示すユーザを特定話者、記憶されていない場合には不特定話者と判定する。そして、特定部14は、その判定結果に基づいて、複数のユーザに特定話者と不特定話者とが含まれるか否かを検知してもよい。
特定部14は、複数のユーザに特定話者と不特定話者とが含まれることを検知すると、ユーザ情報に基づいて、音声データDB22から、一又は複数の特定話者の訓練用音声を特定する。なお、特定部14により特定される一又は複数の特定話者の訓練用音声は、開示の技術の第1の一又は複数の音声データの一例である。具体的には、特定部14は、ユーザ情報に含まれる特定話者のユーザIDに対応付けて音声データDB22に記憶されている音声データを、その特定話者の訓練用音声として特定する。
選択部16は、特定部14により特定された一又は複数の特定話者の訓練用音声のそれぞれの特徴に基づいて、音声データDB22に記憶された音声データ群から一又は複数のダミー音声を選択する。なお、選択部16により選択される一又は複数のダミー音声は、開示の技術の第2の一又は複数の音声データの一例である。具体的には、選択部16は、一又は複数の特定話者の訓練用音声のそれぞれの特徴と、一又は複数のダミー音声のそれぞれの特徴との差分に基づいて、生成部18による音声識別モデル26の生成に利用する一又は複数のダミー音声を選択する。
より具体的には、選択部16は、図4に示すように、汎用モデル24を用いて、特定話者の訓練用音声、及び音声データDB22に記憶されたダミー音声のそれぞれから特徴を抽出する。例えば、汎用モデル24を用いて抽出される特徴として、1秒のスペクトログラムから1024次元のベクトルが抽出されるとする。この場合、選択部16は、特定話者の訓練用音声及びダミー音声の各々について、音声データの所定間隔(例えば1秒間隔)毎にベクトルを抽出し、抽出したベクトルの要素毎に、音声データの全期間分の平均値を算出する。選択部16は、要素毎に算出した平均値を要素とするベクトルを、特定話者の訓練用音声及びダミー音声の各々の特徴として抽出する。そして、選択部16は、図4に示すように、特定話者の訓練用音声の特徴とダミー音声の特徴との差分を算出する。特徴の差分は、例えば、ベクトルの要素毎の差分の二乗の、全要素の平均値である平均二乗誤差としてよい。なお、各音声データの特徴は、事前に抽出され、音声データDB22にユーザID及び音声データと対応付けて記憶しておいてもよい。この場合、選択部16は、音声データDB22に記憶された特徴を用いて、特定話者の訓練用音声の特徴とダミー音声の特徴との差分を算出すればよい。
また、選択部16は、音声データDB22に記憶されたダミー音声のうち、算出した差分が大きい順に所定個のダミー音声を選択する。例えば、選択部16は、各ダミー音声の特徴と、一又は複数の特定話者の訓練用音声の各々の特徴との差分の平均が大きい順にダミー音声を選択する。また、例えば、選択部16は、一又は複数の特定話者の訓練用音声のそれぞれについて、差分が大きいダミー音声を選択してもよい。上述したように、汎用モデル24で各音声データから抽出される特徴は、各音声データをクラス分類するために重要な情報を表す。したがって、特定話者の訓練用音声の特徴との差分が大きい特徴を持つダミー音声、すなわち音響特性や音質が特定話者の訓練用音声と乖離していることが想定されるダミー音声を選択することで、特定話者の訓練用音声とダミー音声との混同が抑制される。
このように、特定話者の訓練用音声とダミー音声とで特徴の差分が大きなダミー音声を選択することで、生成部18による音声識別モデル26の生成時に、多くのダミー音声を利用する必要はなくなる。しかし、音声識別モデル26の生成に利用するダミー音声の数が少な過ぎる場合には、幅広いパターンの音質をダミークラスへ分類するための機械学習ができなくなってしまう。この場合、ユーザ情報が示す複数のユーザに含まれる不特定話者の数が多いほど、不特定話者の音声データのダミークラスへの分類が失敗する可能性が高くなる。そこで、不特定話者の数と同数程度のダミー音声を利用すれば、生成部18は、ダミークラスへ分類されるべき人数分の種類の音質を訓練することができるため、十分と考えられる。ただし、特定話者の訓練用音声の数よりもダミー音声の数の方が多くなってしまうと、生成部18は、多くの音声データがダミークラスへ分類される機械学習を行ってしまうこととなり、識別精度の低下が予測される。そのため、ダミー音声の最大数は、特定話者の訓練用音声と同数程度であることが望ましい。
上記の点を踏まえ、選択部16は、ユーザ情報が示す複数のユーザに含まれる不特定話者の数以下、かつ、最大数を、複数のユーザに含まれる特定話者の数とする範囲内で、選択するダミー音声の数を決定する。また、選択部16は、ダミー音声の数を決定する際、複数のユーザに含まれる特定話者の数と不特定話者の数との比率に基づいて決定してもよい。例えば、複数のユーザに含まれる特定話者の数が不特定話者の数以上の場合、選択部16は、選択するダミー音声の数を、不特定話者の数と同数に決定する。一方、複数のユーザに含まれる特定話者の数が不特定話者の数より少ない場合、選択部16は、選択するダミー音声の数を、特定話者の数と同数に決定する。
生成部18は、特定部14により特定された一又は複数の特定話者の訓練用音声と、選択部16により選択された一又は複数のダミー音声とに基づいた機械学習によって、音声識別モデル26を生成する。具体的には、生成部18は、図5に示すように、汎用モデル24に対して、特定された特定話者の訓練用音声と、選択されたダミー音声とに基づいた追加学習を行うことにより、音声識別モデル26を生成する。なお、音声識別モデル26の生成は、追加学習による場合に限定されないが、事前に機械学習済みの汎用モデル24に対して追加学習を行うことで、音声識別モデル26の生成にかかる時間を短縮することができる。
次に、識別装置30について説明する。識別装置30は、機能的には、図6に示すように、第1識別部32と、第2識別部34とを含む。また、識別装置の所定の記憶領域には、機械学習装置10により生成された音声識別モデル26が記憶される。識別装置30には、会議音声が入力される。この会議音声は、機械学習装置10に入力されたユーザ情報が示すユーザが参加した会議を録音した音声データである。識別装置30は、図1を参照して説明したハイブリッド話者識別を実行し、会議音声に含まれる音声データの話者を識別した識別結果を出力する。
第1識別部32は、ハイブリッド話者識別における特定話者識別を実行する。具体的には、第1識別部32は、会議音声に含まれる音声データの各々を、音声識別モデル26を用いて、特定話者の各々を示すクラスとダミークラスとに分類する。第1識別部32は、特定話者の各々を示すクラスに分類された音声データに、その分類されたクラスに対応する特定話者を示す話者ラベルを付与する。これにより、特定話者の音声データが識別される。
第2識別部34は、ハイブリッド話者識別における不特定話者識別を実行する。具体的には、第2識別部34は、第1識別部32によりダミークラスに分類された音声データを、不特定話者の数分のクラスにクラスタリングする。そして、第2識別部34は、各クラスに、不特定話者を示す話者ラベルを例えばランダムに付与する。これにより、不特定話者の音声データが識別される。第2識別部32は、不特定話者の識別結果を、第1識別部32による特定話者の識別結果とあわせて出力する。
機械学習装置10は、例えば図7に示すコンピュータ40で実現することができる。コンピュータ40は、CPU(Central Processing Unit)41と、一時記憶領域としてのメモリ42と、不揮発性の記憶部43とを備える。また、コンピュータ40は、入力部、表示部等の入出力装置44と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部45とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F(Interface)46を備える。CPU41、メモリ42、記憶部43、入出力装置44、R/W部45、及び通信I/F46は、バス47を介して互いに接続される。
記憶部43は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部43には、コンピュータ40を、機械学習装置10として機能させるための機械学習プログラム50が記憶される。機械学習プログラム50は、取得プロセス52と、特定プロセス54と、選択プロセス56と、生成プロセス58とを有する。また、記憶部43は、音声データDB22及び汎用モデル24の各々を構成する情報が記憶される情報記憶領域60を有する。
CPU41は、機械学習プログラム50を記憶部43から読み出してメモリ42に展開し、機械学習プログラム50が有するプロセスを順次実行する。CPU41は、取得プロセス52を実行することで、図2に示す取得部12として動作する。また、CPU41は、特定プロセス54を実行することで、図2に示す特定部14として動作する。また、CPU41は、選択プロセス56を実行することで、図2に示す選択部16として動作する。また、CPU41は、生成プロセス58を実行することで、図2に示す生成部18として動作する。また、CPU41は、情報記憶領域60から情報を読み出して、音声データDB22及び汎用モデル24の各々をメモリ42に展開する。これにより、機械学習プログラム50を実行したコンピュータ40が、機械学習装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。
識別装置30は、例えば図8に示すコンピュータ70で実現することができる。コンピュータ70は、CPU71と、一時記憶領域としてのメモリ72と、不揮発性の記憶部73とを備える。また、コンピュータ70は、入力部、表示部等の入出力装置74と、記憶媒体79に対するデータの読み込み及び書き込みを制御するR/W部75と、インターネット等のネットワークに接続される通信I/F76とを備える。CPU71、メモリ72、記憶部73、入出力装置74、R/W部75、及び通信I/F76は、バス77を介して互いに接続される。
記憶部73は、HDD、SSD、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部73には、コンピュータ70を、識別装置30として機能させるための識別プログラム80が記憶される。識別プログラム80は、第1識別プロセス82と、第2識別プロセス84とを有する。また、記憶部73は、音声識別モデル26を構成する情報が記憶される情報記憶領域90を有する。
CPU71は、識別プログラム80を記憶部73から読み出してメモリ72に展開し、識別プログラム80が有するプロセスを順次実行する。CPU71は、第1識別プロセス82を実行することで、図6に示す第1識別部32として動作する。また、CPU71は、第2識別プロセス84を実行することで、図6に示す第2識別部34として動作する。また、CPU71は、情報記憶領域90から情報を読み出して、音声識別モデル26をメモリ72に展開する。これにより、識別プログラム80を実行したコンピュータ70が、識別装置30として機能することになる。なお、プログラムを実行するCPU71はハードウェアである。
なお、機械学習プログラム50及び識別プログラム80の各々により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
次に、本実施形態に係るハイブリッド話者識別システムの作用について説明する。まず、機械学習装置10に、識別対象の会議音声が示す会議に参加した複数のユーザを示すユーザ情報が入力されると、機械学習装置10が、図9に示す機械学習処理を実行する。そして、機械学習処理の実行により生成された音声識別モデル26が機械学習装置10から出力される。識別装置30が、機械学習装置10から出力された音声識別モデル26を取得し、所定の記憶領域に記憶した状態で、識別装置30に識別対象の会議音声が入力されると、識別装置30が、図10に示す識別処理を実行する。なお、機械学習処理は、開示の技術の機械学習方法の一例である。以下、機械学習処理及び識別処理の各々について詳述する。
まず、図9に示す機械学習処理について説明する。ステップS10で、取得部12が、機械学習装置10に入力されたユーザ情報を取得し、特定部14へ受け渡す。
次に、ステップS12で、特定部14が、取得部12から受け渡されたユーザ情報が示す複数のユーザに、一又は複数の特定話者と、一又は複数の不特定話者とが含まれるか否かを検知する。特定部14は、複数のユーザに特定話者と不特定話者とが含まれることを検知すると、ユーザ情報に含まれる特定話者のユーザIDに対応付けて音声データDB22に記憶されている音声データを、その特定話者の訓練用音声として特定する。
次に、ステップS14で、選択部16が、汎用モデル24を用いて、特定話者の訓練用音声、及び音声データDB22に記憶されたダミー音声のそれぞれから特徴を抽出し、特定話者の訓練用音声の特徴とダミー音声の特徴との差分を算出する。そして、選択部16が、音声データDB22に記憶されたダミー音声のうち、算出した差分が大きい順に所定個のダミー音声を選択する。選択部16は、例えば、ユーザ情報が示す複数のユーザのうち、特定話者の数をx、不特定話者の数をyとすると、下記に示すように、選択するダミー音声の数を決定する。
x≧yの場合・・・y個
x<yの場合・・・x個
次に、ステップS16で、生成部18が、汎用モデル24に対して、上記ステップS12で特定された特定話者の訓練用音声と、上記ステップS14で選択されたダミー音声とに基づいた追加学習を行うことにより、音声識別モデル26を生成する。そして、生成部18が、生成した音声識別モデル26を出力し、機械学習処理は終了する。
次に、図10に示す識別処理について説明する。ステップS20で、第1識別部32が、識別装置30に入力された会議音声を取得する。
次に、ステップS22で、第1識別部32が、会議音声に含まれる音声データの各々を、音声識別モデル26を用いて、特定話者の各々を示すクラスとダミークラスとに分類する。そして、第1識別部32が、特定話者の各々を示すクラスに分類された音声データに、その分類されたクラスに対応する特定話者を示す話者ラベルを付与することにより、特定話者の音声データを識別する。
次に、ステップS24で、第2識別部34が、上記ステップS22でダミークラスに分類された音声データを、不特定話者の数分のクラスにクラスタリングする。そして、第2識別部34が、各クラスに、不特定話者を示す話者ラベルを例えばランダムに付与することにより、不特定話者の音声データを識別する。
次に、ステップS26で、第2識別部32が、上記ステップS22における特定話者の識別結果と、上記ステップS24における不特定話者の識別結果とあわせて出力し、識別処理は終了する。
なお、上記ステップS12において、複数のユーザに特定話者のみが含まれることが検知された場合、機械学習装置は、上記ステップS14の処理を省略すればよい。また、上記ステップS12において、複数のユーザに不特定話者のみが含まれることが検知された場合、機械学習装置は、上記ステップS12における特定話者の訓練用音声の特定を省略すればよい。この場合、さらに、機械学習装置は、上記ステップS14で、音声データDB22から、不特定話者の人数分のダミー音声を例えばランダムに選択すればよい。
以上説明したように、本実施形態に係る機械学習システムによれば、機械学習装置が、複数のユーザを示すユーザ情報を取得する。また、機械学習装置が、複数のユーザに音声データが登録済みの一又は複数の特定話者と音声データが未登録の一又は複数の不特定話者とが含まれるか否かを検知する。そして、機械学習装置が、特定話者と不特定話者とが含まれることを検知すると、ユーザ情報に基づいて、音声データDBに記憶された音声データ群のうち、一又は複数の特定話者の一又は複数の訓練用音声を特定する。また、機械学習装置が、一又は複数の特定話者の訓練用音声のそれぞれの特徴に基づいて、音声データDBに記憶された音声データ群から一又は複数のダミー音声を選択する。そして、機械学習装置が、特定した一又は複数の特定話者の訓練用音声と、選択したダミー音声とに基づいた機械学習によって音声識別モデルを生成する。これにより、音声未登録の話者の音声データが含まれる場合でも、音声登録済みの話者の識別精度の低下を抑制することができる音声識別モデルを生成することができる。
ここで、図11に、特定話者の訓練用音声の特徴との比較を行うことなく選択したダミー音声を用いて音声識別モデルを生成する手法(以下、「比較手法」という)による識別精度の一例を示す。また、図12に、本実施形態の手法による識別精度の一例を示す。本実施形態の手法では、特定話者の数をx、不特定話者の数をyとし、x≧yの場合はy個、x<yの場合はx個のダミー音声を選択した。両手法とも、参加者4人(A、B、C、及びD)の会議音声を識別対象とし、特定話者の組合せをそれぞれ異ならせたパターン毎の識別精度(正解率)を求めた。
図11及び図12において、「ID」は、パターン毎の識別番号、「特定話者」は、特定話者の組合せ、「全体精度」は、会話音声全区間における識別精度、「個別精度」は、話者毎の識別精度である。また、「発話区間割合」は、会議音声の全区間に対して、各話者の発話区間であると識別された区間の割合であり、会議音声内である程度話者がばらついていることを示すための指標である。また、図11及び図12において網掛の部分は、そのパターンにおける特定話者の結果を表している。
図11と図12とを比較すると、特に特定話者の識別精度において、比較手法に対する本実施形態の手法の優位性が確認できる。特定話者の識別精度が向上することで、製品利用者が特定話者の訓練用音声を用意する動機付けとなり、結果として、訓練用音声が用意される割合が高まることで、全体的な識別精度の向上へ寄与する。
なお、上記実施形態では、汎用モデルを用いて音声データから特徴を抽出する例について説明したが、これに限定されない。特定話者の訓練用音声とダミー音声との差分を特定可能な特徴を得ることができれば、汎用モデルを用いることなく、他のアルゴリズムにより得られる特徴を用いてもよい。
また、上記実施形態において、機械学習装置は、ダミー音声を選択する際、特定話者の訓練用音声の特徴との差分が所定値以上で、かつ、ダミー音声同士の特徴の類似度が所定値以下となるように選択してもよい。これにより、少ない数のダミー音声で、様々なパターンの音質の音声データがダミークラスへ分類されるように音声識別モデルを訓練することができるため、不特定話者も含めた全体の識別精度の向上を図ることができる。
また、上記実施形態では、機械学習装置と識別装置とを別々のコンピュータで構成する場合について説明したが、機械学習装置と識別装置とを1つのコンピュータで構成してもよい。
また、上記実施形態では、機械学習プログラム及び識別プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数のユーザを示す情報を取得し、
前記複数のユーザに音声データが登録済みの第1の一又は複数のユーザと音声データが未登録の第2の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第1の一又は複数のユーザの第1の一又は複数の音声データを特定し、
前記第1の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第2の一又は複数の音声データを選択し、
前記第1の一又は複数の音声データと前記第2の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
処理をコンピュータに実行させることを特徴とする機械学習プログラム。
(付記2)
前記第2の一又は複数の音声データを選択する処理は、前記第1の一又は複数の音声データのそれぞれの特徴と、前記第2の一又は複数の音声データのそれぞれの特徴との差分に基づいて、前記第2の一又は複数の音声データを選択することを含む、
ことを特徴とする付記1に記載の機械学習プログラム。
(付記3)
前記第2の一又は複数の音声データを選択する処理は、前記差分が大きい順に所定個の前記第2の一又は複数の音声データを選択することを含む、
ことを特徴とする付記2に記載の機械学習プログラム。
(付記4)
前記第2の一又は複数の音声データを選択する処理は、前記複数のユーザに含まれる前記第2の一又は複数のユーザの数以下、かつ、最大数を前記複数のユーザに含まれる前記第1の一又は複数のユーザの数とする範囲内で、選択する前記第2の一又は複数の音声データの数を決定することを含む、
ことを特徴とする付記1~付記3のいずれか1項に記載の機械学習プログラム。
(付記5)
前記第2の一又は複数の音声データの数を決定する処理は、前記複数のユーザに含まれる前記第1の一又は複数のユーザの数と、前記第2の一又は複数のユーザの数との比率に基づいて、選択する前記第2の一又は複数の音声データの数を決定することを含む、
ことを特徴とする付記4に記載の機械学習プログラム。
(付記6)
前記第2の一又は複数の音声データの数を決定する処理は、
前記複数のユーザに含まれる前記第1の一又は複数のユーザの数が前記第2の一又は複数のユーザの数以上の場合、前記複数のユーザに含まれる前記第2の一又は複数のユーザの数と同数に決定し、
前記複数のユーザに含まれる前記第1の一又は複数のユーザの数が前記第2の一又は複数のユーザの数より少ない場合、前記複数のユーザに含まれる前記第1の一又は複数のユーザの数と同数に決定することを含む、
ことを特徴とする付記5に記載の機械学習プログラム。
(付記7)
前記音声識別モデルを生成する処理は、不特定多数のユーザの音声データに基づいて事前に機械学習された音声識別モデルに対して、前記第1の一又は複数の音声データと前記第2の一又は複数の音声データとに基づいた追加学習を行うことを含む、
ことを特徴とする付記1~付記6のいずれか1項に記載の機械学習プログラム。
(付記8)
前記第2の一又は複数の音声データを選択する処理は、不特定多数のユーザの音声データに基づいて事前に機械学習された音声識別モデルを用いて前記特徴を抽出することを含む、
ことを特徴とする付記1~付記7のいずれか1項に記載の機械学習プログラム。
(付記9)
複数のユーザを示す情報を取得し、
前記複数のユーザに音声データが登録済みの第1の一又は複数のユーザと音声データが未登録の第2の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第1の一又は複数のユーザの第1の一又は複数の音声データを特定し、
前記第1の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第2の一又は複数の音声データを選択し、
前記第1の一又は複数の音声データと前記第2の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
処理を実行する制御部を含むことを特徴とする機械学習装置。
(付記10)
前記制御部は、前記第2の一又は複数の音声データを選択する処理として、前記第1の一又は複数の音声データのそれぞれの特徴と、前記第2の一又は複数の音声データのそれぞれの特徴との差分に基づいて、前記第2の一又は複数の音声データを選択することを含む処理を実行する、
ことを特徴とする付記9に記載の機械学習装置。
(付記11)
前記制御部は、前記第2の一又は複数の音声データを選択する処理として、前記差分が所定値以上の前記第2の一又は複数の音声データ、又は、前記差分が大きい順に所定個の前記第2の一又は複数の音声データを選択することを含む処理を実行する、
ことを特徴とする付記10に記載の機械学習装置。
(付記12)
前記制御部は、前記第2の一又は複数の音声データを選択する処理として、前記複数のユーザに含まれる前記第2の一又は複数のユーザの数以下、かつ、最大数を前記複数のユーザに含まれる前記第1の一又は複数のユーザの数とする範囲内で、選択する前記第2の一又は複数の音声データの数を決定することを含む処理を実行する、
ことを特徴とする付記9~付記11のいずれか1項に記載の機械学習装置。
(付記13)
前記制御部は、前記第2の一又は複数の音声データの数を決定する処理として、前記複数のユーザに含まれる前記第1の一又は複数のユーザの数と、前記第2の一又は複数のユーザの数との比率に基づいて、選択する前記第2の一又は複数の音声データの数を決定することを含む処理を実行する、
ことを特徴とする付記12に記載の機械学習装置。
(付記14)
前記制御部は、前記第2の一又は複数の音声データの数を決定する処理として、
前記複数のユーザに含まれる前記第1の一又は複数のユーザの数が前記第2の一又は複数のユーザの数以上の場合、前記複数のユーザに含まれる前記第2の一又は複数のユーザの数と同数に決定し、
前記複数のユーザに含まれる前記第1の一又は複数のユーザの数が前記第2の一又は複数のユーザの数より少ない場合、前記複数のユーザに含まれる前記第1の一又は複数のユーザの数と同数に決定することを含む処理を実行する、
ことを特徴とする付記13に記載の機械学習装置。
(付記15)
前記制御部は、前記音声識別モデルを生成する処理として、不特定多数のユーザの音声データに基づいて事前に機械学習された音声識別モデルに対して、前記第1の一又は複数の音声データと前記第2の一又は複数の音声データとに基づいた追加学習を行うことを含む処理を実行する、
ことを特徴とする付記9~付記14のいずれか1項に記載の機械学習装置。
(付記16)
前記制御部は、前記第2の一又は複数の音声データを選択する処理として、不特定多数のユーザの音声データに基づいて事前に機械学習された音声識別モデルを用いて前記特徴を抽出することを含む処理を実行する、
ことを特徴とする付記9~付記15のいずれか1項に記載の機械学習装置。
(付記17)
複数のユーザを示す情報を取得し、
前記複数のユーザに音声データが登録済みの第1の一又は複数のユーザと音声データが未登録の第2の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第1の一又は複数のユーザの第1の一又は複数の音声データを特定し、
前記第1の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第2の一又は複数の音声データを選択し、
前記第1の一又は複数の音声データと前記第2の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
処理をコンピュータが実行することを特徴とする機械学習方法。
(付記18)
前記第2の一又は複数の音声データを選択する処理は、前記第1の一又は複数の音声データのそれぞれの特徴と、前記第2の一又は複数の音声データのそれぞれの特徴との差分に基づいて、前記第2の一又は複数の音声データを選択することを含む、
ことを特徴とする付記17に記載の機械学習方法。
(付記19)
前記第2の一又は複数の音声データを選択する処理は、前記差分が大きい順に所定個の前記第2の一又は複数の音声データを選択することを含む、
ことを特徴とする付記18に記載の機械学習方法。
(付記20)
複数のユーザを示す情報を取得し、
前記複数のユーザに音声データが登録済みの第1の一又は複数のユーザと音声データが未登録の第2の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第1の一又は複数のユーザの第1の一又は複数の音声データを特定し、
前記第1の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第2の一又は複数の音声データを選択し、
前記第1の一又は複数の音声データと前記第2の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
処理をコンピュータに実行させることを特徴とする機械学習プログラムを記憶した記憶媒体。
10 機械学習装置
12 取得部
14 特定部
16 選択部
18 生成部
22 音声データDB
24 汎用モデル
26 音声識別モデル
30 識別装置
32 第1識別部
34 第2識別部
40、70 コンピュータ
41、71 CPU
42、72 メモリ
43、73 記憶部
49、79 記憶媒体
50 機械学習プログラム
80 識別プログラム

Claims (10)

  1. 複数のユーザを示す情報を取得し、
    前記複数のユーザに音声データが登録済みの第1の一又は複数のユーザと音声データが未登録の第2の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第1の一又は複数のユーザの第1の一又は複数の音声データを特定し、
    前記第1の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第2の一又は複数の音声データを選択し、
    前記第1の一又は複数の音声データと前記第2の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
    処理をコンピュータに実行させることを特徴とする機械学習プログラム。
  2. 前記第2の一又は複数の音声データを選択する処理は、前記第1の一又は複数の音声データのそれぞれの特徴と、前記第2の一又は複数の音声データのそれぞれの特徴との差分に基づいて、前記第2の一又は複数の音声データを選択することを含む、
    ことを特徴とする請求項1に記載の機械学習プログラム。
  3. 前記第2の一又は複数の音声データを選択する処理は、前記差分が大きい順に所定個の前記第2の一又は複数の音声データを選択することを含む、
    ことを特徴とする請求項2に記載の機械学習プログラム。
  4. 前記第2の一又は複数の音声データを選択する処理は、前記複数のユーザに含まれる前記第2の一又は複数のユーザの数以下、かつ、最大数を前記複数のユーザに含まれる前記第1の一又は複数のユーザの数とする範囲内で、選択する前記第2の一又は複数の音声データの数を決定することを含む、
    ことを特徴とする請求項1~請求項3のいずれか1項に記載の機械学習プログラム。
  5. 前記第2の一又は複数の音声データの数を決定する処理は、前記複数のユーザに含まれる前記第1の一又は複数のユーザの数と、前記第2の一又は複数のユーザの数との比率に基づいて、選択する前記第2の一又は複数の音声データの数を決定することを含む、
    ことを特徴とする請求項4に記載の機械学習プログラム。
  6. 前記第2の一又は複数の音声データの数を決定する処理は、
    前記複数のユーザに含まれる前記第1の一又は複数のユーザの数が前記第2の一又は複数のユーザの数以上の場合、前記複数のユーザに含まれる前記第2の一又は複数のユーザの数と同数に決定し、
    前記複数のユーザに含まれる前記第1の一又は複数のユーザの数が前記第2の一又は複数のユーザの数より少ない場合、前記複数のユーザに含まれる前記第1の一又は複数のユーザの数と同数に決定することを含む、
    ことを特徴とする請求項5に記載の機械学習プログラム。
  7. 前記音声識別モデルを生成する処理は、不特定多数のユーザの音声データに基づいて事前に機械学習された音声識別モデルに対して、前記第1の一又は複数の音声データと前記第2の一又は複数の音声データとに基づいた追加学習を行うことを含む、
    ことを特徴とする請求項1~請求項6のいずれか1項に記載の機械学習プログラム。
  8. 前記第2の一又は複数の音声データを選択する処理は、不特定多数のユーザの音声データに基づいて事前に機械学習された音声識別モデルを用いて前記特徴を抽出することを含む、
    ことを特徴とする請求項1~請求項7のいずれか1項に記載の機械学習プログラム。
  9. 複数のユーザを示す情報を取得し、
    前記複数のユーザに音声データが登録済みの第1の一又は複数のユーザと音声データが未登録の第2の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第1の一又は複数のユーザの第1の一又は複数の音声データを特定し、
    前記第1の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第2の一又は複数の音声データを選択し、
    前記第1の一又は複数の音声データと前記第2の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
    処理を実行する制御部を含むことを特徴とする機械学習装置。
  10. 複数のユーザを示す情報を取得し、
    前記複数のユーザに音声データが登録済みの第1の一又は複数のユーザと音声データが未登録の第2の一又は複数のユーザとが含まれることを検知すると、前記複数のユーザを示す情報に基づいて、記憶部に記憶された音声データ群のうち、前記第1の一又は複数のユーザの第1の一又は複数の音声データを特定し、
    前記第1の一又は複数の音声データのそれぞれの特徴に基づいて、前記音声データ群から第2の一又は複数の音声データを選択し、
    前記第1の一又は複数の音声データと前記第2の一又は複数の音声データとに基づいた機械学習によって音声識別モデルを生成する、
    処理をコンピュータが実行することを特徴とする機械学習方法。
JP2021005747A 2021-01-18 2021-01-18 機械学習プログラム、装置、及び方法 Pending JP2022110375A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021005747A JP2022110375A (ja) 2021-01-18 2021-01-18 機械学習プログラム、装置、及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021005747A JP2022110375A (ja) 2021-01-18 2021-01-18 機械学習プログラム、装置、及び方法

Publications (1)

Publication Number Publication Date
JP2022110375A true JP2022110375A (ja) 2022-07-29

Family

ID=82570033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021005747A Pending JP2022110375A (ja) 2021-01-18 2021-01-18 機械学習プログラム、装置、及び方法

Country Status (1)

Country Link
JP (1) JP2022110375A (ja)

Similar Documents

Publication Publication Date Title
US10366693B2 (en) Acoustic signature building for a speaker from multiple sessions
US10109280B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
JP6158348B2 (ja) 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定
JP2982870B2 (ja) 話者識別方法および話者認識装置
EP2048656B1 (en) Speaker recognition
EP0788090B1 (en) Transcription of speech data with segments from acoustically dissimilar environments
Lapidot et al. Unsupervised speaker recognition based on competition between self-organizing maps
JP5240457B2 (ja) 拡張認識辞書学習装置と音声認識システム
JP6437581B2 (ja) 話者適応型の音声認識
JP4220449B2 (ja) インデキシング装置、インデキシング方法およびインデキシングプログラム
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
Ben-Harush et al. Initialization of iterative-based speaker diarization systems for telephone conversations
JP2002358096A (ja) リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム
Agrawal et al. Prosodic feature based text dependent speaker recognition using machine learning algorithms
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
JP4787979B2 (ja) 雑音検出装置および雑音検出方法
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
Kumar et al. Comparative analysis of different feature extraction and classifier techniques for speaker identification systems: A review
Flemotomos et al. A memory augmented architecture for continuous speaker identification in meetings
JP2022110375A (ja) 機械学習プログラム、装置、及び方法
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
JP6114210B2 (ja) 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム
JP7176628B2 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240618