JP2022086961A

JP2022086961A - 話者埋め込みに基づく音声活動検出を利用した話者ダイアライゼーション方法、システム、およびコンピュータプログラム

Info

Publication number: JP2022086961A
Application number: JP2021014192A
Authority: JP
Inventors: ヨンギクォン; Youngki Kwon; ヒスホ; Hee Soo Heo; ジュンソンチョン; Joon Son Chung; ボンジンイ; Bong Jin Lee; イクサンハン; Icksang Han
Original assignee: Line Corp; Naver Corp
Current assignee: Z Intermediate Global Corp; Naver Corp
Priority date: 2020-11-30
Filing date: 2021-02-01
Publication date: 2022-06-09
Anticipated expiration: 2041-02-01
Also published as: KR102482827B1; KR20220075550A; JP7273078B2

Abstract

【課題】話者埋め込みに基づく音声活動検出を利用した話者ダイアライゼーション方法、システム、およびコンピュータプログラムを提供する。【解決手段】話者ダイアライゼーション方法は、与えられた音声ファイルに対して音声フレームごとに話者埋め込みを抽出する段階、および前記話者埋め込みに基づいて音声活動領域（ｓｐｅｅｃｈａｃｔｉｖｉｔｙｒｅｇｉｏｎ）である音声区間を検出する段階を含む。【選択図】図４

Description

以下の説明は、話者ダイアライゼーション（ｓｐｅａｋｅｒｄｉａｒｉｓａｔｉｏｎ）技術に関する。

話者ダイアライゼーションとは、多数の話者が発声した内容を録音した音声ファイルから話者ごとに音声区間を分割する技術を意味する。

話者ダイアライゼーション技術は、音声データから話者境界区間を検出するものであって、話者に対する先行知識を使用するか否かより、距離ベースの方式とモデルベースの方式とに分けられる。

例えば、特許文献１（登録日２０１８年２月２３日）には、話者の音声を認識する環境の変化および話者の発話状態の影響を受けずに、話者の音声に基づいて話者を区分することができる話者認識モデルを生成する技術が開示されている。

このような話者ダイアライゼーション技術は、会議、インタビュー、取引、裁判などのように多くの話者が順不同に発声する状況で発声内容を話者ごとに分割して自動記録する諸般の技術であり、議事録自動作成などに活用されている。

韓国登録特許第１０－１８３３７３１号公報

話者埋め込みに基づいて音声活動領域（ｓｐｅｅｃｈａｃｔｉｖｉｔｙｒｅｇｉｏｎ）である音声区間を検出する方法およびシステムを提供する。

音声活動を検出するための個別のモデルは使用せず、単一モデルである話者認識モデルを利用して音声活動検出と話者埋め込み抽出を実行する方法およびシステムを提供する。

コンピュータシステムが実行する話者ダイアライゼーション方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記話者ダイアライゼーション方法は、前記少なくとも１つのプロセッサにより、与えられた音声ファイルに対して音声フレームごとに話者埋め込みを抽出する段階、および前記少なくとも１つのプロセッサにより、前記話者埋め込みに基づいて音声活動領域（ｓｐｅｅｃｈａｃｔｉｖｉｔｙｒｅｇｉｏｎ）である音声区間を検出する段階を含む、話者ダイアライゼーション方法を提供する。

一側面によると、前記話者ダイアライゼーション方法は、単一モデルである話者認識モデルを利用して、前記話者埋め込みを抽出する段階と前記音声区間を検出する段階を実行してよい。

他の側面によると、前記音声区間を検出する段階は、前記音声フレームそれぞれの話者埋め込みベクトルに対してノルム（Ｎｏｒｍ）値を求める段階、および埋め込みノルム値が閾値（ｔｈｒｅｓｈｏｌｄ）以上の音声フレームは前記音声区間と判断し、前記閾値未満の音声フレームは非音声区間と判断する段階を含んでよい。

また他の側面によると、前記話者ダイアライゼーション方法は、前記少なくとも１つのプロセッサにより、音声と非音声を分類するための前記閾値を、与えられた音声ファイルによって適応的に設定する段階をさらに含んでよい。

また他の側面によると、前記話者ダイアライゼーション方法は、前記少なくとも１つのプロセッサにより、前記音声ファイルに対して、混合ガウスモデル（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）によって推定された前記閾値を設定する段階をさらに含んでよい。

また他の側面によると、前記話者ダイアライゼーション方法は、前記少なくとも１つのプロセッサにより、音声と非音声を分類するための前記閾値を、実験によって決定された固定値で設定する段階をさらに含んでよい。

また他の側面によると、前記話者埋め込みを抽出する段階は、スライディングウィンドウ（ｓｌｉｄｉｎｇｗｉｎｄｏｗ）方式を利用して、前記音声フレームごとに前記話者埋め込みを抽出する段階を含んでよい。

また他の側面によると、前記話者埋め込みを抽出する段階は、分類ロス（ｃｌａｓｓｉｆｉｃａｔｉｏｎｌｏｓｓ）とハードネガティブマイニングロス（ｈａｒｄｎｅｇａｔｉｖｅｍｉｎｉｎｇｌｏｓｓ）との組み合わせを利用して学習された話者認識モデルにより、前記話者埋め込みを抽出する段階を含んでよい。

また他の側面によると、前記話者埋め込みを抽出する段階は、話者認識モデルの出力が、時間的平均プーリング層（ｔｅｍｐｏｒａｌａｖｅｒａｇｅｐｏｏｌｉｎｇｌａｙｅｒ）を使用して時間の経過によって集計された後、投影層（ｐｒｏｊｅｃｔｉｏｎｌａｙｅｒ）を通過することにより、発言レベル（ｕｔｔｅｒａｎｃｅ－ｌｅｖｅｌ）の埋め込みを取得する段階を含んでよい。

また他の側面によると、前記音声区間を検出する段階は、前記話者認識モデルの出力が、時間の経過による集計なく、前記投影層を経て伝達されることにより、音声活動ラベルを取得する段階を含んでよい。

前記話者ダイアライゼーション方法を前記コンピュータシステムに実行させるために非一時的なコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、与えられた音声ファイルに対して音声フレームごとに話者埋め込みを抽出する話者埋め込み部、および前記話者埋め込みに基づいて音声活動領域である音声区間を検出する音声区間検出部を含む、コンピュータシステムを提供する。

本発明の実施形態によると、話者埋め込みに基づいて音声活動領域である音声区間を検出することにより、話者認識が明らかな区間だけを検出することができ、話者ダイアライゼーションの性能を高めることができる。

本発明の実施形態によると、音声活動の検出のために話者埋め込みの抽出に使用する話者認識モデルを利用することにより、単一モデルで音声活動検出と話者埋め込み抽出を実行することができ、話者ダイアライゼーションのパイプラインを簡素化させることができる。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、コンピュータシステムが実行することのできる話者ダイアライゼーション方法の例を示したフローチャートである。本発明の一実施形態における、話者ダイアライゼーションのための全体過程を示したフローチャートである。本発明の一実施形態における、話者埋め込みを抽出するためのモデルの例を示した図である。本発明の一実施形態における、話者埋め込みに基づく音声区間検出方法を利用した話者ダイアライゼーション性能の実験結果を示した図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態は、音声データから話者境界区間を検出する話者ダイアライゼーション技術に関する。

本明細書で具体的に開示される事項を含む実施形態は、話者埋め込みに基づいて音声活動領域である音声区間を検出することにより、話者ダイアライゼーションの性能を高めることができ、話者ダイアライゼーションのパイプラインを簡素化させることができる。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、サーバ１５０、およびネットワーク１６０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータシステムによって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレット、ゲームコンソール、ウェアラブルデバイス、ＩｏＴ（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓ）デバイス、ＶＲ（ｖｉｒｔｕａｌｒｅａｌｉｔｙ）デバイス、ＡＲ（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）デバイスなどがある。一例として、図１では、電子機器１１０の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１６０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０と通信することのできる多様な物理的なコンピュータシステムのうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１６０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１６０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１６０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０は、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１６０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１６０を介して接続した複数の電子機器１１０、１２０、１３０、１４０に目的とするサービスを提供するシステムであってよい。より具体的な例として、サーバ１５０は、複数の電子機器１１０、１２０、１３０、１４０においてインストールされて実行されるコンピュータプログラムであるアプリケーションを通じ、該当のアプリケーションが目的とするサービス（一例として、音声認識に基づく人工知能議事録サービスなど）を複数の電子機器１１０、１２０、１３０、１４０に提供してよい。

図２は、本発明の一実施形態における、コンピュータシステムの例を示したブロック図である。図１を参照しながら説明したサーバ１５０は、図２のように構成されたコンピュータシステム２００によって実現されてよい。

図２に示すように、コンピュータシステム２００は、本発明の実施形態に係る話者ダイアライゼーション方法を実行するための構成要素として、メモリ２１０、プロセッサ２２０、通信インタフェース２３０、および入力／出力インタフェース２４０を含んでよい。

メモリ２１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ２１０とは区分される別の永続的記録装置としてコンピュータシステム２００に含まれてもよい。また、メモリ２１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ２１０とは別のコンピュータ読み取り可能な記録媒体からメモリ２１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース２３０を通じてメモリ２１０にロードされてもよい。例えば、ネットワーク１６０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータシステム２００のメモリ２１０にロードされてよい。

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１０または通信インタフェース２３０によって、プロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信モジュール２３０は、ネットワーク１６０を介してコンピュータシステム２００が他の装置と互いに通信するための機能を提供してよい。一例として、コンピュータシステム２００のプロセッサ２２０がメモリ２１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース２３０の制御にしたがってネットワーク１６０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１６０を経てコンピュータシステム２００の通信インタフェース２３０を通じてコンピュータシステム２００に受信されてよい。通信インタフェース２３０を通じて受信された信号や命令、データなどは、プロセッサ２２０やメモリ２１０に伝達されてよく、ファイルなどは、コンピュータシステム２００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

通信方式が限定されることはなく、ネットワーク１６０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、機器間の有線／無線通信が含まれてもよい。例えば、ネットワーク１６０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１６０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

入力／出力インタフェース２４０は、入力／出力装置２５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力／出力インタフェース２４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２５０は、コンピュータシステム２００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータシステム２００は、図２の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム２００は、上述した入力／出力装置２５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

以下では、話者埋め込みに基づいて音声活動を検出する話者ダイアライゼーション方法およびシステムの具体的な実施形態について説明する。

図３は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示したブロック図であり、図４は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。

本実施形態に係るサーバ１５０は、多数の話者が発声した内容を録音した音声ファイルから話者ごとに音声区間を分割して文書として整理する人工知能サービスを提供するサービスプラットフォームの役割を担う。

サーバ１５０には、コンピュータシステム２００によって実現された話者ダイアライゼーションシステムが構成されてよい。一例として、サーバ１５０は、クライアント（ｃｌｉｅｎｔ）である複数の電子機器１１０、１２０、１３０、１４０を対象に、電子機器１１０、１２０、１３０、１４０上にインストールされた専用アプリケーションやサーバ１５０と関連するウェブ／モバイルサイトへの接続により、音声認識に基づく人工知能議事録サービスを提供してよい。

特に、サーバ１５０は、話者埋め込みに基づいて音声活動領域である音声区間を検出してよい。

サーバ１５０のプロセッサ２２０は、図４に係る話者ダイアライゼーション方法を実行するための構成要素として、図３に示すように、話者埋め込み部３１０、音声区間検出部３２０、およびクラスタリング実行部３３０を含んでよい。

実施形態によって、プロセッサ２２０の構成要素は、選択的にプロセッサ２２０に含まれても除外されてもよい。また、実施形態によって、プロセッサ２２０の構成要素は、プロセッサ２２０の機能の表現のために分離されても併合されてもよい。

このようなプロセッサ２２０およびプロセッサ２２０の構成要素は、図４の話者ダイアライゼーション方法が含む段階４１０～４３０を実行するようにサーバ１５０を制御してよい。例えば、プロセッサ２２０およびプロセッサ２２０の構成要素は、メモリ２１０が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。

ここで、プロセッサ２２０の構成要素は、サーバ１５０に記録されたプログラムコードが提供する命令にしたがってプロセッサ２２０によって実行される、互いに異なる機能の表現であってよい。例えば、サーバ１５０が話者埋め込みを抽出するように上述した命令にしたがってサーバ１５０を制御するプロセッサ２２０の機能的表現として、話者埋め込み部３１０が利用されてよい。

プロセッサ２２０は、サーバ１５０の制御と関連する命令がロードされたメモリ２１０から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、以下で説明する段階４１０～４３０をプロセッサ２２０が実行するように制御するための命令を含んでよい。

以下で説明する段階４１０～４３０は、図４に示した順序とは異なるように実行されてもよいし、段階４１０～４３０のうちの一部が省略されても追加の過程がさらに含まれてもよい。

図４を参照すると、段階４１０で、話者埋め込み部３１０は、多数の話者が発声した内容を録音した音声ファイルが与えられる場合、話者認識モデルを利用して、与えられた音声ファイルに対して音声フレームごとに話者埋め込みを抽出してよい。一例として、話者埋め込み部３１０は、スライディングウィンドウ（ｓｌｉｄｉｎｇｗｉｎｄｏｗ）方式によって音声フレームごとに話者埋め込みを抽出してよい。

段階４２０で、音声区間検出部３２０は、話者埋め込みに基づいて音声活動領域である音声区間を検出してよい。話者埋め込みを抽出するための話者認識モデル（例えば、ＳｐｅａｋｅｒＮｅｔなど）は、音声に対しては埋め込みのノルム（Ｎｏｒｍ）値を高く示し、非音声に対しては埋め込みのノルム値を低く示す。一例として、音声区間検出部３２０は、音声フレームそれぞれの話者埋め込みベクトルに対してノルム値を求め、埋め込みノルム値が閾値（ｔｈｒｅｓｈｏｌｄ）以上の音声フレームは音声区間と判断してよく、埋め込みノルム値が閾値未満の音声フレームは非音声区間と判断してよい。

段階４３０で、クラスタリング実行部３３０は、話者埋め込みをグループ化することにより、段階４２０で検出された音声区間に基づいて話者ダイアライゼーションクラスタリングを実行してよい。クラスタリング実行部３３０は、話者埋め込みに対する類似度行列（ａｆｆｉｎｉｔｙｍａｔｒｉｘ）を計算した後、類似度行列に基づいてクラスタ数を決定してよい。このとき、クラスタリング実行部３３０は、類似度行列に対して固有値分解（ｅｉｇｅｎｄｅｃｏｍｐｏｓｉｔｉｏｎ）を行って固有値（ｅｉｇｅｎｖａｌｕｅ）を抽出した後、抽出された固有値を大きさ順に整列し、整列された固有値で隣接する固有値の差を基準に、有効な主成分に該当する固有値の個数をクラスタ数として決定してよい。固有値が高いということは類似度行列で影響力が大きいことを意味し、すなわち、音声ファイル内の音声区間に対して類似度行列を構成するときに、発声がある話者のうちで発声の比重が高いことを意味する。言い換えれば、クラスタリング実行部３３０は、整列された固有値のうちから十分に大きな値を有する固有値を選択し、選択された固有値の個数を、話者数を示すクラスタ数として決定してよい。クラスタリング実行部３３０は、決定されたクラスタ数に基づいて音声区間をマッピングすることにより、話者ダイアライゼーションのクラスタリングを実行してよい。

図５に示すように、話者ダイアライゼーションのための全体過程５０は、音声区間（ｓｐｅｅｃｈｒｅｇｉｏｎ）検出段階５１、話者埋め込み抽出（Ｅｘｔｒａｃｔｓｐｅａｋｅｒｅｍｂｅｄｄｉｎｇｓ）段階５２、および話者ダイアライゼーションクラスタリング段階５３を含んでよい。

従来は、各フレームのエネルギーを測定して音声と非音声を区分する方式によって音声区間を検出していたが、音声区間検出のためのモデルは、話者埋め込み（ｓｐｅａｋｅｒｅｍｂｅｄｄｉｎｇ）を抽出するためのモデルとは異なる、独立的なモデルを使用していた。エネルギーに基づいて音声区間を検出する場合、検出された音声区間のうちの一部に話者認識が困難な区間が含まれることがあり、話者認識が困難な区間は話者認識モデルが学習できなかった類型であるため、話者埋め込みの品質が落ちるようになる。結果的に、検出された音声区間の品質が話者ダイアライゼーションの性能を左右するようになる。

本実施形態において、プロセッサ２２０は、音声活動を検出するための個別のモデルは使用せず、単一モデルである話者認識モデルを利用して、音声活動検出と話者埋め込み抽出を実行する。言い換えれば、本発明は、埋め込みモデル（ｅｍｂｅｄｄｉｎｇｍｏｄｅｌ）だけで、音声区間検出段階５１と話者埋め込み抽出段階５２を実行することができる。

本発明に係る話者ダイアライゼーションシステムに適用される核心アーキテクチャを説明すれば、次のとおりとなる。

話者認識モデルの認識が適切になされる話者表現（ｓｐｅａｋｅｒｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ）を得ることが、話者ダイアライゼーションの問題の核心となる。以下では、深層神経網〔ニューラルネットワーク〕によって話者埋め込みを学習して抽出を行う方法について説明する。

入力表現（ｉｎｐｕｔｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ）は、メル尺度で線形的に区間を分けて実現してよい。プロセッサ２２０は、一定の大きさ（例えば、２５ｍｓの幅と１０ｍｓのストライド）のウィンドウで各発言（ｕｔｔｅｒａｎｃｅ）からスペクトログラムを抽出する。６４次元のメルフィルタバンクが、ネットワークに対する入力として使用される。平均および分散正規化（ＭＶＮ）はインスタンス正規化を使用し、発言レベルでスペクトラムとフィルタバンクのすべての周波数ビンに対して実行される。

話者埋め込み抽出モデルは、話者認識モデルの１つであるＲｅｓＮｅｔ（Ｒｅｓｉｄｕａｌｎｅｔｗｏｒｋｓ）が使用されてよい。例えば、基本アーキテクチャとして、予備活性化残差ユニット（ｐｒｅ－ａｃｔｉｖａｔｉｏｎｒｅｓｉｄｕａｌｕｎｉｔｓ）を除いたＲｅｓＮｅｔ－３４を適用してよい。ＲｅｓＮｅｔ－３４アーキテクチャの例は、図６に示すとおりである。

話者埋め込み抽出モデルの出力は、時間的平均プーリング層（ｔｅｍｐｏｒａｌａｖｅｒａｇｅｐｏｏｌｉｎｇｌａｙｅｒ）を使用して時間経過によって集計された後、線形投影層（ｌｉｎｅａｒｐｒｏｊｅｃｔｉｏｎｌａｙｅｒ）を通過することで、発言レベルの埋め込みを取得してよい。

プロセッサ２２０は、目的関数として、分類ロス（ｃｌａｓｓｉｆｉｃａｔｉｏｎｌｏｓｓ）とハードネガティブマイニングロス（ｈａｒｄｎｅｇａｔｉｖｅｍｉｎｉｎｇｌｏｓｓ）との組み合わせを利用して、話者埋め込み抽出モデルを学習する。

分類ロスＬ_CEは数式（１）のように定義され、ハードネガティブマイニングロスＬ_Hは数式（２）のように定義される。

ここで、Ｎはバッチサイズ（ｂａｔｃｈｓｉｚｅ）、ｘ_iとＷ_yiはｉ番目の発言の埋め込みベクトルと該当の話者の基底を示す。Ｈ_iは、

値が大きい上位Ｈ話者ベースの集合を意味する。特定の話者に対する話者の基準は、話者に該当する出力層の加重値行列の一行ベクトルである。各サンプルに対するハード集合であるＨ_iは、サンプルｘ_iと学習セットのすべての話者ベースの間のコサイン類似性に基づき、すべてのミニバッチに対して選択される。範疇型交差エントロピー損失である分類ロスＬ_CEとハードネガティブマイニングロスＬ_Hは、同じ加重値で結合される。

プロセッサ２２０は、有名人の音声を抽出および検収することによって生成された学習データセット（例えば、ＶｏｘＣｅｌｅｂ２など）を利用して話者埋め込み抽出モデルを学習する。このとき、プロセッサ２２０は、各発言からランダムに抽出された固定の長さ（例えば、２秒）の時間セグメント（ｔｅｍｐｏｒａｌｓｅｇｍｅｎｔｓ）を利用して話者埋め込み抽出モデルを学習してよい。

音声区間検出段階５１で選択されたフレームで話者情報を表現する話者埋め込みを抽出する話者埋め込み抽出段階５２で使用される話者認識モデルを、音声区間検出段階５１でも活用してよい。話者埋め込みは、ある一人の音声を他人の音声と区別することができるため、音声（ｓｐｅｅｃｈ〔発話〕）と非音声（ｎｏｎ－ｓｐｅｅｃｈ〔非発話〕）を区別することができる。

埋め込みノルム値と目標タスクに対する信頼度には相関関係があるという点において、埋め込みベクトルがソフトマックス関数（ｓｏｆｔｍａｘｆｕｎｃｔｉｏｎ）によって活性化された出力層と同じ線形分類器によって分類される場合、ノルム値が高いということは、埋め込みベクトルと超平面（ｈｙｐｅｒｐｌａｎｅ）との間に大きな余裕があるということ、すなわち、モデルの信頼点数（ｃｏｎｆｉｄｅｎｃｅｓｃｏｒｅ）が高いということを意味する。

話者認識モデルは、人間の音声に対してのみ学習されたものであるため、学習対象でない非音声に対しては埋め込みノルム値が低く、信頼点数も極めて低い。したがって、独立されたモジュールやモデルを修正せずに、音声区間検出段階５１に話者認識モデルを使用することができる。

細分化された音声活動ラベルを得るために、話者埋め込み抽出モデルによってすべての出力をインポートし、時間的な集計なく投影層（ｐｒｏｊｅｃｔｉｏｎｌａｙｅｒ）を経て伝達する。これは、話者表現のために時間的平均プーリングを使用して一定の大きさ（例えば、２秒）のウィンドウで集計される埋め込みを使用するものとは対照的である。

プロセッサ２２０は、音声フレームそれぞれの話者埋め込みベクトルに対してノルム値を求め、埋め込みノルム値が閾値以上の音声フレームは音声区間と判断し、埋め込みノルム値が閾値未満の音声フレームは非音声区間と判断する。

一例として、プロセッサ２２０は、音声と非音声を分類するための閾値を、実験による固定値で設定してよい。実験を行い、閾値範囲内で最上の結果を見つけ出すことにより、開発集合を使用して埋め込みノルム値に対する閾値を手動で設定してよい。プロセッサ２２０は、すべてのデータセットに対して単一閾値を設定してよい。

他の例として、プロセッサ２２０は、与えられた音声ファイルに対して最適の閾値を自動で設定してよい。このとき、プロセッサ２２０は、混合ガウスモデル（ＧＭＭ）を使用して、各発言に対する最適閾値を推定してよい。このために、２つの混合成分を使用して混合ガウスモデルを学習させ、１つの発言としてノルム値の分布を学習する。このとき、混合成分とは、音声クラスタと非音声クラスタを示す。混合ガウスモデルを学習させた後、数式（４）により、閾値を推定してよい。

ここで、μ₀とμ₁は混合成分それぞれの平均値であり、αは２つの平均値の加重値係数を意味する。

プロセッサ２２０は、音声と非音声を分類するための閾値を、音声データによって適応的に推定することにより、多様なデータセットドメインで強力な閾値を設定することができる。

プロセッサ２２０は、話者埋め込みに基づく音声区間検出段階５１の結果に基づき、音声データの各セッションを複数の音声活動セグメントに分けてよい。

プロセッサ２２０は、音声区間検出の結果の過度な急変を保障するために、ＰＤ（ｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎ）過程を実行する。ＥＰＤとは、音声と非音声を区分した発声の最初と最後だけを見つけ出す過程である。一例として、プロセッサ２２０は、一定の大きさのウィンドウをスライディングすることによって最初と最後を探知する。例えば、開始点としては、音声活動フレームの割合が７０％を超える地点が識別され、非音声フレームに対しても同じ規則によって終了地点が識別されてよい。

プロセッサ２２０は、ＡＨＣ（ＡｇｇｌｏｍｅｒａｔｉｖｅＨｉｅｒａｒｃｈｉｃａｌＣｌｕｓｔｅｒｉｎｇ）アルゴリズムを利用して話者埋め込みをグループ化してよい。ＡＨＣアルゴリズムは、距離閾値またはクラスタ数によって話者表現をクラスタリングしてよい。プロセッサ２２０は、複数の異なるドメインにおいて、シルエット点数（２≦Ｃ≦１０）を基準に、各セッションまたは音声ファイル（または、音声を含んだビデオ）に対して最適なクラスタ数を自動で選択してよい。

シルエット点数は、データクラスタ内の一貫性を解釈したものであり、信頼度の尺度として見なされてよい。シルエット点数は、クラスタ内の平均距離により、数式（５）のように定義されてよい。

平均最近隣クラスタ距離（ｍｅａｎｎｅａｒｅｓｔ－ｃｌｕｓｔｅｒｄｉｓｔａｎｃｅ）は、各サンプルあたり、数式（６）のように定義されてよい。

特に、サンプルのシルエット点数s(i)は、数式（７）のように定義されてよい。

シルエット点数を利用したクラスタリング方法は、各データセットに対して閾値を手動で調整する方法とは異なり、媒介変数の最適化を要求しない。

本実施形態では、話者埋め込みに基づいて音声活動領域（すなわち、音声区間）を検出する方法が、話者ダイアライゼーションの性能を高めるための極めて簡単かつ効果的な解決策となる。

図７は、本発明における、話者埋め込みに基づく音声区間検出方法の話者ダイアライゼーション性能の実験結果を示した図である。

実験は、話者ダイアライゼーションのチャレンジデータセットとしてＤＩＨＡＲＤを利用し、音声活動を検出するためのモデルと話者埋め込みを抽出するためのモデルが完全に分割されたパイプラインの話者ダイアライゼーション方法をベースラインとして利用する。ＳＥ（ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ）は、音声に対するノイズ除去（ｄｅｎｏｉｓｉｎｇ）過程が含まれたものである。

ＭＳ（ｍｉｓｓｅｄｓｐｅｅｃｈ）は結果に含まれない音声の比率、ＦＡ（ｆａｌｓｅａｌａｒｍ）は結果に含まれた非音声の比率、ＳＣ（ｓｐｅａｋｅｒｃｏｎｆｕｓｉｏｎ）は結果に含まれたマッピングエラーの比率（話者ＩＤを間違えてマッピングした音声の比率）を示し、ＤＥＲ（ｄｉａｒｓａｔｉｏｎｅｒｒｏｒｒａｔｅ）は、ＭＳとＦＡ、およびＳＣの総合を意味する。すなわち、ＤＥＲが低いほど、話者ダイアライゼーションの性能が高いことを意味する。

単一モデルによって音声活動検出と話者埋め込み抽出を実行する本発明の話者ダイアライゼーションの性能とベースラインを比較すると、音声と非音声の分類基準となる閾値を固定設定した方法（Ｏｕｒｓｗ／ＳｐｅａｋｅｒＮｅｔＳＡＤＦｉｘｅｄ）と適応的に自動設定した方法（Ｏｕｒｓｗ／ＳｐｅａｋｅｒＮｅｔＳＡＤＧＭＭ）の両方とも、ベースラインに比べて高い性能を示すことが分かった。

このように、本発明の実施形態によると、話者埋め込みに基づいて音声活動領域である音声区間を検出することにより、話者認識が明らかな区間だけを検出することができ、話者ダイアライゼーションの性能を高めることができる。また、本発明の実施形態によると、音声活動を検出するために話者埋め込みの抽出に使用される話者認識モデルを利用することにより、単一モデルによって音声活動検出と話者埋め込み抽出を実行することができ、話者ダイアライゼーションのパイプラインを簡素化させることができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

２２０：プロセッサ
３１０：話者埋め込み部
３２０：音声区間検出部
３３０：クラスタリング実行部

Claims

コンピュータシステムが実行する話者ダイアライゼーション方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記話者ダイアライゼーション方法は、
前記少なくとも１つのプロセッサにより、与えられた音声ファイルに対して音声フレームごとに話者埋め込みを抽出する段階、および
前記少なくとも１つのプロセッサにより、前記話者埋め込みに基づいて音声活動領域（ｓｐｅｅｃｈａｃｔｉｖｉｔｙｒｅｇｉｏｎ）である音声区間を検出する段階
を含む、話者ダイアライゼーション方法。
前記話者ダイアライゼーション方法は、
単一モデルである話者認識モデルを利用して、前記話者埋め込みを抽出する段階と前記音声区間を検出する段階とを実行すること
を特徴とする、請求項１に記載の話者ダイアライゼーション方法。
前記音声区間を検出する段階は、
前記音声フレームそれぞれの話者埋め込みベクトルに対してノルム（Ｎｏｒｍ）値を求める段階、および
埋め込みノルム値が閾値以上の音声フレームは前記音声区間と判断し、前記閾値未満の音声フレームは非音声区間と判断する段階
を含む、請求項１に記載の話者ダイアライゼーション方法。
前記話者ダイアライゼーション方法は、
前記少なくとも１つのプロセッサにより、音声と非音声を分類するための前記閾値を、与えられた音声ファイルによって適応的に設定する段階
をさらに含む、請求項３に記載の話者ダイアライゼーション方法。
前記話者ダイアライゼーション方法は、
前記少なくとも１つのプロセッサにより、前記音声ファイルに対して、混合ガウスモデル（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）によって推定された前記閾値を設定する段階
をさらに含む、請求項３に記載の話者ダイアライゼーション方法。
前記話者ダイアライゼーション方法は、
前記少なくとも１つのプロセッサにより、音声と非音声を分類するための前記閾値を、実験によって決定された固定値に設定する段階
をさらに含む、請求項３に記載の話者ダイアライゼーション方法。
前記話者埋め込みを抽出する段階は、
スライディングウィンドウ方式を利用して、前記音声フレームごとに前記話者埋め込みを抽出する段階
を含む、請求項１に記載の話者ダイアライゼーション方法。
前記話者埋め込みを抽出する段階は、
分類ロス（ｃｌａｓｓｉｆｉｃａｔｉｏｎｌｏｓｓ）とハードネガティブマイニングロス（ｈａｒｄｎｅｇａｔｉｖｅｍｉｎｉｎｇｌｏｓｓ）との組み合わせを利用して学習された話者認識モデルにより、前記話者埋め込みを抽出する段階
を含む、請求項１に記載の話者ダイアライゼーション方法。
前記話者埋め込みを抽出する段階は、
話者認識モデルの出力が、時間的平均プーリング層（ｔｅｍｐｏｒａｌａｖｅｒａｇｅｐｏｏｌｉｎｇｌａｙｅｒ）を使用して時間経過によって集計された後、投影層（ｐｒｏｊｅｃｔｉｏｎｌａｙｅｒ）を通過することにより、発言レベル（ｕｔｔｅｒａｎｃｅ－ｌｅｖｅｌ）の埋め込みを取得する段階を含む、
請求項１に記載の話者ダイアライゼーション方法。
前記音声区間を検出する段階は、
前記話者認識モデルの出力が、時間経過による集計なく、前記投影層を経て伝達されることにより、音声活動ラベルを取得する段階
を含む、請求項９に記載の話者ダイアライゼーション方法。
請求項１～１０のうちのいずれか一項に記載の話者ダイアライゼーション方法を前記コンピュータシステムに実行させる、コンピュータプログラム。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
与えられた音声ファイルに対して音声フレームごとに話者埋め込みを抽出する話者埋め込み部、および
前記話者埋め込みに基づいて音声活動領域である音声区間を検出する音声区間検出部
を含む、コンピュータシステム。
前記少なくとも１つのプロセッサは、
単一モデルである話者認識モデルを利用して、前記話者埋め込みを抽出する過程と前記音声区間を検出する過程とを実行すること
を特徴とする、請求項１２に記載のコンピュータシステム。
前記音声区間検出部は、
前記音声フレームそれぞれの話者埋め込みベクトルに対してノルム値を求め、
埋め込みノルム値が閾値以上の音声フレームは前記音声区間と判断し、前記閾値未満の音声フレームは非音声区間と判断すること
を特徴とする、請求項１２に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
音声と非音声を分類するための前記閾値を、与えられた音声ファイルによって適応的に設定すること
を特徴とする、請求項１４に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
前記音声ファイルに対して、混合ガウスモデルによって推定された前記閾値を設定すること
を特徴とする、請求項１４に記載のコンピュータシステム。
前記話者埋め込み部は、
スライディングウィンドウ方式を利用して、前記音声フレームごとに前記話者埋め込みを抽出すること
を特徴とする、請求項１２に記載のコンピュータシステム。
前記話者埋め込み部は、
分類ロスとハードネガティブマイニングロスとの組み合わせを利用して学習された話者認識モデルにより、前記話者埋め込みを抽出すること
を特徴とする、請求項１２に記載のコンピュータシステム。
前記話者埋め込み部は、
話者認識モデルの出力が、時間的平均プーリング層を使用して時間経過によって集計された後、投影層を通過することにより、発言レベル埋め込みを取得すること
を特徴とする、請求項１２に記載のコンピュータシステム。
前記音声区間検出部は、
前記話者認識モデルの出力が、時間経過による集計なく、前記投影層を経て伝達されることにより、音声活動ラベルを取得すること
を特徴とする、請求項１９に記載のコンピュータシステム。