JP7348445B2

JP7348445B2 - 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム

Info

Publication number: JP7348445B2
Application number: JP2021189143A
Authority: JP
Inventors: ヨンギクォン; ハンヨンカン; ユジンキム; ハンギュキム; ボンジンイ; ジョンフンチャン; イクサンハン; ヒスホ; ジュンンソンチョン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2021-01-15
Filing date: 2021-11-22
Publication date: 2023-09-21
Anticipated expiration: 2041-11-22
Also published as: KR102560019B1; KR20220103507A; JP2022109867A; TW202230342A; US20220230648A1

Description

以下の説明は、話者ダイアライゼーション（ｓｐｅａｋｅｒｄｉａｒｉｚａｔｉｏｎ）技術に関する。

話者ダイアライゼーションとは、多数人の話者が発話した内容が録音された音声ファイルから各話者の発話区間を分離する技術である。

話者ダイアライゼーション技術は、オーディオデータから話者境界区間を検出するものであって、話者に対する先行知識の使用状況に応じて距離基盤方式とモデル基盤方式とに分けられる。

例えば、特許文献１（公開日２０２０年４月７日）には、話者の位置を追跡し、話者の位置情報に基づいて入力音響から話者の音声を分離する技術が開示されている。

このような話者ダイアライゼーション技術は、会議、インタビュー、取り引き、裁判などのように多人数の話者が不規則に発話する状況において発話内容を話者ごとに分離して自動記録する諸般の技術であって、議事録自動作成などに活用されている。

韓国公開特許第１０－２０２０－００３６８２０号公報

話者ダイアライゼーション技術に話者識別技術を結合することで話者ダイアライゼーション性能を改善する方法およびシステムを提供する。

話者ラベル（ｓｐｅａｋｅｒｌａｂｅｌ）が含まれた基準音声を利用して話者識別を先行した後に話者ダイアライゼーションを実行する方法およびシステムを提供する。

コンピュータシステムが実行する話者ダイアライゼーション方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記話者ダイアライゼーション方法は、前記少なくとも１つのプロセッサにより、クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する段階、前記少なくとも１つのプロセッサにより、前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する段階、および前記少なくとも１つのプロセッサにより、前記音声ファイルで識別されなかった残りの発話区間に対して、クラスタリングを利用した話者ダイアライゼーションを実行する段階を含む、話者ダイアライゼーション方法を提供する。

一側面によると、前記基準音声を設定する段階は、前記音声ファイルに属する話者のうちの一部の話者のラベルが含まれた音声データを前記基準音声として設定してよい。

他の側面によると、前記基準音声を設定する段階は、前記コンピュータシステムと関連するデータベース上に事前に記録された話者音声のうちから前記音声ファイルに属する一部の話者の音声の選択を受けて、前記基準音声として設定してよい。

また他の側面によると、前記基準音声を設定する段階は、録音によって前記音声ファイルに属する話者のうちの一部の話者の音声の入力を受けて、前記基準音声として設定してよい。

また他の側面によると、前記話者識別を実行する段階は、前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認する段階、および前記基準音声に対応する発話区間に前記基準音声の話者ラベルをマッピングする段階を含んでよい。

また他の側面によると、前記確認する段階は、前記発話区間から抽出された埋め込み（ｅｍｂｅｄｄｉｎｇ）と前記基準音声から抽出された埋め込みとの距離に基づいて、前記基準音声に対応する発話区間を確認してよい。

また他の側面によると、前記確認する段階は、前記発話区間から抽出された埋め込みをクラスタリングした結果である埋め込みクラスタと前記基準音声から抽出された埋め込みとの距離に基づいて、前記基準音声に対応する発話区間を確認してよい。

また他の側面によると、前記確認する段階は、前記発話区間から抽出された埋め込みとともに前記基準音声から抽出された埋め込みをクラスタリングした結果に基づいて、前記基準音声に対応する発話区間を確認してよい。

また他の側面によると、前記話者ダイアライゼーションを実行する段階は、前記残りの発話区間から抽出された埋め込みをクラスタリングする段階、およびクラスタのインデックスを前記残りの発話区間にマッピングする段階を含んでよい。

さらに他の側面によると、前記クラスタリングする段階は、前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算する段階、前記類似度行列に対して固有値分解（ｅｉｇｅｎｄｅｃｏｍｐｏｓｉｔｉｏｎ）を実行して固有値（ｅｉｇｅｎｖａｌｕｅ）を抽出する段階、前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数をクラスタ数として決定する段階、および前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階を含んでよい。

前記話者ダイアライゼーション方法を前記コンピュータシステムに実行させるためのコンピュータプログラムを提供する。

コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する基準設定部、前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する話者識別部、および前記音声ファイルで識別されなかった残りの発話区間に対して、クラスタリングを利用した話者ダイアライゼーションを実行する話者ダイアライゼーション部を含む、コンピュータシステムを提供する。

本発明の実施形態によると、話者ダイアライゼーション技術に話者識別技術を結合することで、話者ダイアライゼーション性能を改善することができる。

本発明の実施形態によると、話者ラベルが含まれた基準音声を利用して話者識別を先行した後に話者ダイアライゼーションを実行することにより、話者ダイアライゼーション技術の正確度を高めることができる。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、コンピュータシステムが実行することのできる話者ダイアライゼーション方法の例を示したフローチャートである。本発明の一実施形態における、話者識別過程を説明するための例示図である。本発明の一実施形態における、話者ダイアライゼーション過程を説明するための例示図である。本発明の一実施形態における、話者識別を結合した話者ダイアライゼーション過程を説明するための例示図である。本発明の一実施形態における、基準音声に対応する発話区間を確認する（ｖｅｒｉｆｙ）方法を説明するための例示図である。本発明の一実施形態における、基準音声に対応する発話区間を確認する（ｖｅｒｉｆｙ）方法を説明するための例示図である。本発明の一実施形態における、基準音声に対応する発話区間を確認する（ｖｅｒｉｆｙ）方法を説明するための例示図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態は、話者識別技術を結合した話者ダイアライゼーション技術に関する。

本明細書で具体的に開示される事項を含む実施形態は、話者ダイアライゼーション技術に話者識別技術を結合することで話者ダイアライゼーション性能を改善することができる。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、サーバ１５０、およびネットワーク１６０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータシステムによって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレット、ゲームコンソール、ウェアラブルデバイス、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）デバイス、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）デバイス、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）デバイスなどがある。一例として、図１では、電子機器１１０の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１６０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０と通信することのできる多様な物理的なコンピュータシステムのうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１６０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１６０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１６０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０は、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１６０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１６０を介して接続した複数の電子機器１１０、１２０、１３０、１４０に目的とするサービスを提供するシステムであってよい。より具体的な例として、サーバ１５０は、複数の電子機器１１０、１２０、１３０、１４０においてインストールされて実行されるコンピュータプログラムであるアプリケーションを通じ、該当のアプリケーションが目的とするサービス（一例として、音声認識基盤の人工知能議事録サービスなど）を複数の電子機器１１０、１２０、１３０、１４０に提供してよい。

図２は、本発明の一実施形態における、コンピュータシステムの例を示したブロック図である。図１を参照しながら説明したサーバ１５０は、図２に示すように構成されたコンピュータシステム２００で実現されてよい。

図２に示すように、コンピュータシステム２００は、本発明の一実施形態に係る話者ダイアライゼーション方法を実行するための構成要素として、メモリ２１０、プロセッサ２２０、通信インタフェース２３０、および入力／出力インタフェース２４０を含んでよい。

メモリ２１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ２１０とは区分される別の永続的記録装置としてコンピュータシステム２００に含まれてもよい。また、メモリ２１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ２１０とは別のコンピュータ読み取り可能な記録媒体からメモリ２１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース２３０を通じてメモリ２１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１６０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータシステム２００のメモリ２１０にロードされてよい。

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１０または通信インタフェース２３０によって、プロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信インタフェース２３０は、ネットワーク１６０を介してコンピュータシステム２００が他の装置と互いに通信するための機能を提供してよい。一例として、コンピュータシステム２００のプロセッサ２２０がメモリ２１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース２３０の制御にしたがってネットワーク１６０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１６０を経てコンピュータシステム２００の通信インタフェース２３０を通じてコンピュータシステム２００に受信されてよい。通信インタフェース２３０を通じて受信された信号や命令、データなどは、プロセッサ２２０やメモリ２１０に伝達されてよく、ファイルなどは、コンピュータシステム２００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

通信方式が制限されることはなく、ネットワーク１６０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を活用する通信方式だけでなく、機器間の近距離有線／無線通信が含まれてもよい。例えば、ネットワーク１６０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークうちの１つ以上の任意のネットワークを含んでよい。また、ネットワーク１６０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的（ｈｉｅｒａｒｃｈｉｃａｌ）ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでよいが、これらに制限されることはない。

入力／出力インタフェース２４０は、入力／出力装置２５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、マウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力／出力インタフェース２４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２５０は、コンピュータシステム２００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータシステム２００は、図２の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム２００は、上述した入力／出力装置２５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

以下では、話者識別を結合した話者ダイアライゼーション方法およびシステムの具体的な実施形態について説明する。

図３は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示したブロック図であり、図４は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。

本実施形態に係るサーバ１５０は、話者ダイアライゼーションを利用して議事録音声ファイルを文書で整理することが可能な人工知能サービスを提供するサービスプラットフォームの役割を担う。

サーバ１５０には、コンピュータシステム２００で実現された話者ダイアライゼーションシステムが構成されてよい。サーバ１５０は、クライアント（ｃｌｉｅｎｔ）である複数の電子機器１１０、１２０、１３０、１４０を対象にするものであって、電子機器１１０、１２０、１３０、１４０上にインストールされた専用アプリケーションやサーバ１５０と関連するウェブ／モバイルサイトへのアクセスにより、音声認識基盤の人工知能議事録サービスを提供してよい。

特に、サーバ１５０は、話者ダイアライゼーション技術に話者識別技術を結合することで話者ダイアライゼーション性能を改善することができる。

サーバ１５０のプロセッサ２２０は、図４に示した話者ダイアライゼーション方法を実行するための構成要素として、図３に示すように、基準設定部３１０、話者識別部３２０、および話者ダイアライゼーション部３３０を含んでよい。

実施形態によって、プロセッサ２２０の構成要素は、選択的にプロセッサ２２０に含まれても除外されてもよい。また、実施形態によって、プロセッサ２２０の構成要素は、プロセッサ２２０の機能の表現のために分離されても併合されてもよい。

このようなプロセッサ２２０およびプロセッサ２２０の構成要素は、図４の話者ダイアライゼーション方法が含む段階４１０～４３０を実行するようにサーバ１５０を制御してよい。例えば、プロセッサ２２０およびプロセッサ２２０の構成要素は、メモリ２１０が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。

ここで、プロセッサ２２０の構成要素は、サーバ１５０に記録されたプログラムコードが提供する命令にしたがってプロセッサ２２０によって実行される、互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。例えば、サーバ１５０が基準音声を設定するように上述した命令にしたがってサーバ１５０を制御するプロセッサ２２０の機能的表現として、基準設定部３１０が利用されてよい。

プロセッサ２２０は、サーバ１５０の制御と関連する命令がロードされたメモリ２１０から必要な命令を読み取ってよい。この場合、前記読み取られた命令には、プロセッサ２２０が以下で説明する段階４１０～４３０を実行するように制御するための命令が含まれてよい。

以下で説明する段階４１０～４３０は、図４に示した順序とは異なる順序で実行されてもよいし、段階４１０～４３０のうちの一部が省略されたり、更なる過程が追加されたりしてもよい。

プロセッサ２２０は、クライアントから音声ファイルを受信し、受信した音声で話者ごとに発話区間を分離してよく、このための話者ダイアライゼーション技術に話者識別技術を結合する。

図４を参照すると、段階４１０で、基準設定部３１０は、クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準となる話者音声（以下、「基準音声」とする）を設定してよい。基準設定部３１０は、話者ダイアライゼーション対象音声に含まれた話者のうちの一部の話者の音声を基準音声として設定してよい。このとき、基準音声は、話者識別が可能なように、話者ごとに話者ラベルが含まれた音声データを利用してよい。一例として、基準設定部３１０は、別途の録音によって話者ダイアライゼーション対象音声に属する話者の発話音声と該当の話者情報を含むラベルの入力を受け、基準音声として設定してよい。録音過程では、録音する文章や環境などのような基準音声録音のためのガイドを提供してよく、ガイドに基づいて録音された音声を基準音声として設定してよい。他の例として、基準設定部３１０は、話者ダイアライゼーション対象音声に属する話者の音声としてデータベース上に事前に記録された話者音声を利用して基準音声を設定してよい。サーバ１５０の構成要素としてサーバ１５０に含まれるかサーバ１５０とは別のシステムで実現されてサーバ１５０と連動可能なデータベース上に、話者識別が可能な音声、すなわち、ラベルが含まれた音声が記録されてよく、基準設定部３１０は、クライアントからデータベースに登録された（ｅｎｒｏｌｌｅｄ）話者音声のうちで話者ダイアライゼーション対象音声に属する一部の話者の音声の選択を受け、選択された話者音声を基準音声として設定してよい。

段階４２０で、話者識別部３２０は、段階４１０で設定された基準音声を利用して、話者ダイアライゼーション対象音声から基準音声の話者を識別する話者識別を実行してよい。話者識別部３２０は、話者ダイアライゼーション対象音声に含まれた各発話区間を基準音声と比較することによって基準音声に対応する発話区間を確認した（ｖｅｒｉｆｙ）後、該当の区間に基準音声の話者ラベルをマッピングしてよい。

段階４３０で、話者ダイアライゼーション部３３０は、話者ダイアライゼーション対象音声に含まれた発話区間のうちで話者が識別された区間以外の残りの区間に対して話者ダイアライゼーションを実行してよい。言い換えれば、話者ダイアライゼーション部３３０は、話者ダイアライゼーション対象音声で話者識別によって基準音声の話者ラベルがマッピングされ、残りの区間に対してはクラスタリングを利用した話者ダイアライゼーションを実行することにより、クラスタのインデックスを該当の区間にマッピングすることができる。

図５は、話者識別過程の一例を示した図である。

例えば、３人（ホン・ギルドン、ホン・チョルス、ホン・ヨンヒ）の話者音声が事前に登録されていると仮定する。

話者識別部３２０は、確認不可の未知の話者音声５０１が受信された場合、登録話者音声５０２とそれぞれ比較して登録話者との類似度点数を計算してよい。このとき、類似度点数が最も高い未確認話者音声５０１を登録話者の音声として識別して、該当の話者のラベルをマッピングしてよい。

図５に示すように、３人（ホン・ギルドン、ホン・チョルス、ホン・ヨンヒ）の登録話者のうちでホン・ギルドンとの類似度点数が最も高い場合、未確認話者音声５０１をホン・ギルドンの音声として識別してよい。

したがって、話者識別技術は、登録話者のうちで音声が最も類似する話者を探索するものであると言える。

図６は、話者ダイアライゼーション過程の一例を示した図である。

図６を参照すると、話者ダイアライゼーション部３３０は、クライアントから受信された話者ダイアライゼーション対象音声６０１に対してＥＰＤ（ｅｎｄｐｏｉｎｔｄｅｔｅｃｔｉｏｎ）過程を実行する（Ｓ６１）。ＥＰＤとは、無音区間に該当するフレームの音響特徴を取り除いて各フレームのエネルギーを測定し、音声／無音を区分した発声の始まりと終わりだけを探索するものである。言い換えれば、話者ダイアライゼーション部３３０は、話者ダイアライゼーションのための音声ファイル６０１から音声のある領域を見つけ出すＥＰＤを実行する。

話者ダイアライゼーション部３３０は、ＥＰＤ結果に対して埋め込み（ｅｍｂｅｄｄｉｎｇ）抽出過程を実行する（Ｓ６２）。一例として、話者ダイアライゼーション部３３０は、ディープニューラルネットワークや長・短期記憶（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）（ＬＳＴＭ）などに基づいてＥＰＤ結果から話者埋め込みを抽出してよい。音声に内在された生体の特性と独自の個人性をディープラーニングに基づいて学習することによって音声をベクトル化し、これによって音声ファイル６０１から特定の話者の音声を分離してよい。

話者ダイアライゼーション部３３０は、埋め込み抽出結果を利用して、話者ダイアライゼーションのためのクラスタリングを実行する（Ｓ６３）。

話者ダイアライゼーション部３３０は、ＥＰＤ結果から埋め込みを抽出して類似度行列（ａｆｆｉｎｉｔｙｍａｔｒｉｘ）を計算した後、類似度行列を利用してクラスタ数を計算する。一例として、話者ダイアライゼーション部３３０は、類似度行列に対して固有値分解（ｅｉｇｅｎｄｅｃｏｍｐｏｓｉｔｉｏｎ）を実行して固有値（ｅｉｇｅｎｖａｌｕｅ）と固有ベクトル（ｅｉｇｅｎｖｅｃｔｏｒ）を抽出し、抽出された固有値を大きさによって整列し、整列された固有値に基づいてクラスタ数を決定してよい。このとき、話者ダイアライゼーション部３３０は、整列された固有値で隣接する値の差を基準にし、有効な主成分に該当する固有値の個数をクラスタ数として決定してよい。固有値が高いということは、類似度行列で影響力が大きいことを意味する。すなわち、音声ファイル６０１に対して類似度行列を構成するとき、発声のある話者のうちで発声比重が高いことを意味する。言い換えれば、話者ダイアライゼーション部３３０は、整列された固有値のうちで十分に大きな値を有する固有値を選択し、選択された固有値の個数が話者数を示すクラスタ数となるように決定してよい。

話者ダイアライゼーション部３３０は、類似度行列とクラスタ数を利用して話者ダイアライゼーションクラスタリングを実行してよい。話者ダイアライゼーション部３３０は、類似度行列に対して固有値分解を実行し、固有値によって整列された固有ベクトルに基づいてクラスタリングを実行してよい。音声ファイル６０１からｍ個の話者音声区間が抽出される場合には、ｍ×ｍ個のエレメントを含む行列が生成されるようになる。このとき、各エレメントを示すｖ_ｉ、ｊは、ｉ番目の音声区間とｊ番目の音声区間との距離を意味する。このとき、話者ダイアライゼーション部３３０は、先立って決定されたクラスタ数だけ固有ベクトルを選択する方式により、話者ダイアライゼーションクラスタリングを実行してよい。

クラスタリングのための代表的な方法として、ＡＨＣ（凝集型階層的クラスタリング（ＡｇｇｌｏｍｅｒａｔｉｖｅＨｉｅｒａｒｃｈｉｃａｌＣｌｕｓｔｅｒｉｎｇ））、Ｋ平均（Ｋ－ｍｅａｎｓ）、またはスペクトル群集化アルゴリズムなどが適用されてよい。

最後に、話者ダイアライゼーション部３３０は、クラスタリングによる音声区間にクラスタのインデックスをマッピングすることにより、話者ダイアライゼーションをラベリングする（Ｓ６４）。話者ダイアライゼーション部３３０は、音声ファイル６０１から３つのクラスタが決定される場合、各クラスタのインデックス、例えば、Ａ、Ｂ、Ｃを該当の音声区間にマッピングしてよい。

したがって、話者ダイアライゼーション技術は、複数人の話者が混在する音声から各話者の固有音声特徴を利用して情報を分析し、話者それぞれに対応する音声に分割することができる。すなわち、話者ダイアライゼーション部３３０は、音声ファイル６０１から検出された各音声区間から話者の情報を含んでいる特徴を抽出した後、各話者の音声によってクラスタリングして分離することができる。

本実施形態は、図５を参照しながら説明した話者識別技術と図６を参照しながら説明した話者ダイアライゼーション技術を結合することで、話者ダイアライゼーションの性能を改善しようとするものである。

図７は、本発明の一実施形態における、話者識別を結合した話者ダイアライゼーション過程の一例を示した図である。

図７を参照すると、プロセッサ２２０は、クライアントから話者ダイアライゼーション対象音声６０１とともに登録された話者音声である基準音声７１０を受信してよい。基準音声７１０は、話者ダイアライゼーション対象音声に含まれた話者のうちの一部の話者（以下、「登録話者」とする）の音声であってよく、各登録話者の話者ラベル７０２が含まれた音声データ７０１を利用してよい。

話者識別部３２０は、話者ダイアライゼーション対象音声６０１に対してＥＰＤ過程を実行して発話区間を検出した後、各発話区間から話者埋め込みを抽出してよい（Ｓ７１）。基準音声７１０には各登録話者の埋め込みが含まれているか、あるいは話者埋め込み過程Ｓ７１で話者ダイアライゼーション対象音声６０１とともに基準音声７１０の話者埋め込みを抽出してよい。

話者識別部３２０は、話者ダイアライゼーション対象音声６０１に含まれた各発話区間の基準音声７１０と埋め込みとを比較して、基準音声７１０に対応する発話区間を確認してよい（Ｓ７２）。このとき、話者識別部３２０は、話者ダイアライゼーション対象音声６０１において基準音声７１０との類似度が設定値以上の発話区間に、基準音声７１０の話者ラベルをマッピングしてよい。

話者ダイアライゼーション部３３０は、話者ダイアライゼーション対象音声６０１において基準音声７１０を利用した話者識別によって話者が確認された（話者ラベルマッピングが完了した）発話区間と、話者が確認されずに残った発話区間７１とを区分してよい（Ｓ７３）。

話者ダイアライゼーション部３３０は、話者ダイアライゼーション対象音声６０１において話者が確認されずに残った発話区間７１だけに対して、話者ダイアライゼーションクラスタリングを実行する（Ｓ７４）。

話者ダイアライゼーション部３３０は、話者ダイアライゼーションクラスタリングによる各発話区間に該当のクラスタのインデックスをマッピングすることにより、話者ラベリングを完成してよい（Ｓ７５）。

したがって、話者ダイアライゼーション部３３０は、話者ダイアライゼーション対象音声６０１に話者識別を実行し、基準音声７１０の話者ラベルがマッピングされて残った区間７１に対してクラスタリングを利用した話者ダイアライゼーションを実行することで、クラスタのインデックスをマッピングしてよい。

以下では、話者ダイアライゼーション対象音声６０１で基準音声７１０に対応する発話区間を確認する方法について説明する。

一例として、図８を参照すると、話者識別部３２０は、話者ダイアライゼーション対象音声６０１の各発話区間から抽出された埋め込みＥ（ＥｍｂｅｄｄｉｎｇＥ）と基準音声７１０から抽出された埋め込みＳ（ＥｍｂｅｄｄｉｎｇＳ）との距離に基づいて、基準音声７１０に対応する発話区間を確認してよい。例えば、基準音声７１０が話者Ａと話者Ｂの音声であると仮定するとき、話者Ａの埋め込みＳ_Ａ（ＥｍｂｅｄｄｉｎｇＳ_Ａ）との距離が閾値（ｔｈｒｅｓｈｏｌｄ）以下である埋め込みＥ（ＥｍｂｅｄｄｉｎｇＥ）の発話区間に対しては話者Ａをマッピングし、話者Ｂの埋め込みＳ_Ｂ（ＥｍｂｅｄｄｉｎｇＳ_Ｂ）との距離が閾値以下である埋め込みＥ（ＥｍｂｅｄｄｉｎｇＥ）の発話区間に対しては話者Ｂをマッピングする。残りの区間は、確認不可の未知の発話区間に分類される。

他の例として、図９を参照すると、話者識別部３２０は、話者ダイアライゼーション対象音声６０１の各発話区間に対する埋め込みをクラスタリングした結果である埋め込みクラスタ（ＥｍｂｅｄｄｉｎｇＣｌｕｓｔｅｒ）と基準音声７１０から抽出された埋め込みＳ（ＥｍｂｅｄｄｉｎｇＳ）との距離に基づいて、基準音声７１０に対応する発話区間を確認してよい。例えば、話者ダイアライゼーション対象音声６０１に対して５つのクラスタが形成され、基準音声７１０が話者Ａと話者Ｂの音声であると仮定するとき、話者Ａの埋め込みＳ_Ａ（ＥｍｂｅｄｄｉｎｇＳ_Ａ）との距離が閾値以下であるクラスタ１と５の発話区間に対しては話者Ａをマッピングし、話者Ｂの埋め込みＳ_Ｂ（ＥｍｂｅｄｄｉｎｇＳ_Ｂ）との距離が閾値以下であるクラスタ３の発話区間に対しては話者Ｂをマッピングする。残りの区間は、確認不可の未知の発話区間に分類される。

また他の例として、図１０を参照すると、話者識別部３２０は、話者ダイアライゼーション対象音声６０１の各発話区間から抽出された埋め込みと基準音声７１０から抽出された埋め込みをともにクラスタリングして、基準音声７１０に対応する発話区間を確認してよい。例えば、基準音声７１０が話者Ａと話者Ｂの音声であると仮定するとき、話者Ａの埋め込みＳ_Ａ（ＥｍｂｅｄｄｉｎｇＳ_Ａ）が属するクラスタ４の発話区間に対しては話者Ａをマッピングし、話者Ｂの埋め込みＳ_Ｂ（ＥｍｂｅｄｄｉｎｇＳ_Ｂ）が属するクラスタ１と２に対しては話者Ｂをマッピングする。話者Ａの埋め込みＳ_Ａ（ＥｍｂｅｄｄｉｎｇＳ_Ａ）と話者Ｂの埋め込みＳ_Ｂ（ＥｍｂｅｄｄｉｎｇＳ_Ｂ）が共通して含まれるか２つのうちの１つも含まれない残りの区間は、確認不可の未知の発話区間に分類される。

基準音声７１０との類似度を判断するためには、クラスタリング技法に適用可能なＳｉｎｇｌｅ、ｃｏｍｐｌｅｔｅ、ａｖｅｒａｇｅ、ｗｅｉｇｈｔｅｄ、ｃｅｎｔｒｏｉｄ、ｍｅｄｉａｎ、ｗａｒｄなどの多様な距離関数が利用されてよい。

上述した確認方式を利用した話者識別によって基準音声７１０の話者ラベルがマッピングされた後に残った発話区間、すなわち、未知の発話区間に分類された区間に対して、クラスタリングを利用した話者ダイアライゼーションを実行する。

このように、本発明の実施形態によると、話者ダイアライゼーション技術に話者識別技術を結合することで話者ダイアライゼーション性能を改善することができる。言い換えれば、話者ラベルが含まれた基準音声を利用して話者識別を先行した後、未識別区間に対して話者ダイアライゼーションを実行することにより、話者ダイアライゼーション技術の正確度を高めることができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

２２０：プロセッサ
３１０：基準設定部
３２０：話者識別部
３３０：話者ダイアライゼーション部

Claims

コンピュータシステムが実行する話者ダイアライゼーション方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記話者ダイアライゼーション方法は、
前記少なくとも１つのプロセッサにより、クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する段階、
前記少なくとも１つのプロセッサにより、前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する段階、および
前記少なくとも１つのプロセッサにより、前記音声ファイルで識別されなかった残りの発話区間だけに対して、クラスタリングを利用した話者ダイアライゼーションを実行する段階
を含み、
前記話者識別を実行する段階は、
前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認する段階、を含み、
前記確認する段階は、
前記音声ファイルに含まれた発話区間から抽出された埋め込みと前記基準音声から抽出された埋め込みとの距離が閾値以下であることに基づいて、前記基準音声に対応する発話区間を確認することを含み、
前記話者ダイアライゼーションを実行する段階は、
前記残りの発話区間から抽出された埋め込みをクラスタリングする段階、および
クラスタのインデックスを前記残りの発話区間にマッピングする段階
を含み、
前記クラスタリングする段階は、
前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算する段階、
前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、
前記抽出された固有値を大きさによって整列した後、隣接する整列された固有値の差を基準にして選択された固有値の個数をクラスタ数として決定する段階、および
前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階
を含む、話者ダイアライゼーション方法。
コンピュータシステムが実行する話者ダイアライゼーション方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記話者ダイアライゼーション方法は、
前記少なくとも１つのプロセッサにより、クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する段階、
前記少なくとも１つのプロセッサにより、前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する段階、および
前記少なくとも１つのプロセッサにより、前記音声ファイルで識別されなかった残りの発話区間だけに対して、クラスタリングを利用した話者ダイアライゼーションを実行する段階
を含み、
前記話者識別を実行する段階は、
前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認する段階、を含み、
前記確認する段階は、
前記音声ファイルに含まれた発話区間から抽出された埋め込みをクラスタリングした結果である埋め込みクラスタと前記基準音声から抽出された埋め込みとの距離が閾値以下であることに基づいて、前記基準音声に対応する発話区間を確認することを含み、
前記話者ダイアライゼーションを実行する段階は、
前記残りの発話区間から抽出された埋め込みをクラスタリングする段階、および
クラスタのインデックスを前記残りの発話区間にマッピングする段階
を含み、
前記クラスタリングする段階は、
前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算する段階、
前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、
前記抽出された固有値を大きさによって整列した後、隣接する整列された固有値の差を基準にして選択された固有値の個数をクラスタ数として決定する段階、および
前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階
を含む、話者ダイアライゼーション方法。
前記基準音声を設定する段階は、
前記音声ファイルに属する話者のうちの一部の話者のラベルが含まれた音声データを前記基準音声として設定すること
を含む、請求項１又は２に記載の話者ダイアライゼーション方法。
前記基準音声を設定する段階は、
前記コンピュータシステムと関連するデータベース上に事前に記録された話者音声のうちで前記音声ファイルに属する一部の話者の音声の選択を受けて、前記基準音声として設定すること
を含む、請求項１又は２に記載の話者ダイアライゼーション方法。
前記基準音声を設定する段階は、
録音によって前記音声ファイルに属する話者のうちの一部の話者の音声の入力を受けて、前記基準音声として設定すること
を含む、請求項１又は２に記載の話者ダイアライゼーション方法。
前記話者識別を実行する段階は、
前記基準音声に対応する発話区間に前記基準音声の話者ラベルをマッピングする段階
を含む、請求項１～５のうちのいずれか一項に記載の話者ダイアライゼーション方法。
請求項１～６のうちのいずれか一項に記載の話者ダイアライゼーション方法を前記コンピュータシステムに実行させるためのコンピュータプログラム。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する基準設定部、
前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する話者識別部、および
前記音声ファイルで識別されなかった残りの発話区間だけに対して、クラスタリングを利用した話者ダイアライゼーションを実行する話者ダイアライゼーション部
を含み、
前記話者識別部は、
前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認し、
前記話者識別部は、
前記音声ファイルに含まれた発話区間から抽出された埋め込みと前記基準音声から抽出された埋め込みとの距離が閾値以下であることに基づいて、前記基準音声に対応する発話区間を確認し、
前記話者ダイアライゼーション部は、
前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算し、
前記類似度行列に対して固有値分解を実行して固有値を抽出し、
前記抽出された固有値を大きさによって整列した後、隣接する整列された固有値の差を基準にして選択された固有値の個数をクラスタ数として決定し、
前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行し、
前記話者ダイアライゼーションクラスタリングによるクラスタのインデックスを前記残りの発話区間にマッピングする、コンピュータシステム。
コンピュータシステムであって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する基準設定部、
前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する話者識別部、および
前記音声ファイルで識別されなかった残りの発話区間だけに対して、クラスタリングを利用した話者ダイアライゼーションを実行する話者ダイアライゼーション部
を含み、
前記話者識別部は、
前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認し、
前記話者識別部は、
前記音声ファイルに含まれた発話区間から抽出された埋め込みをクラスタリングした結果である埋め込みクラスタと前記基準音声から抽出された埋め込みとの距離が閾値以下であることに基づいて、前記基準音声に対応する発話区間を確認し、
前記話者ダイアライゼーション部は、
前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算し、
前記類似度行列に対して固有値分解を実行して固有値を抽出し、
前記抽出された固有値を大きさによって整列した後、隣接する整列された固有値の差を基準にして選択された固有値の個数をクラスタ数として決定し、
前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行し、
前記話者ダイアライゼーションクラスタリングによるクラスタのインデックスを前記残りの発話区間にマッピングする、コンピュータシステム。
前記基準設定部は、
前記音声ファイルに属する話者のうちの一部の話者のラベルが含まれた音声データを前記基準音声として設定する
請求項８又は９に記載のコンピュータシステム。
前記基準設定部は、
前記コンピュータシステムと関連するデータベース上に事前に記録された話者音声のうちで前記音声ファイルに属する一部の話者の音声の選択を受けて、前記基準音声として設定する
請求項８又は９に記載のコンピュータシステム。
前記基準設定部は、
録音によって前記音声ファイルに属する話者のうちの一部の話者の音声の入力を受けて、前記基準音声として設定する
請求項８又は９に記載のコンピュータシステム。
前記話者識別部は、
前記基準音声に対応する発話区間に前記基準音声の話者ラベルをマッピングする
請求項８～１２のうちのいずれか一項に記載のコンピュータシステム。