JP6999734B2

JP6999734B2 - オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置

Info

Publication number: JP6999734B2
Application number: JP2020071403A
Authority: JP
Inventors: ジュンソンチョン; ボンジンイ; イクサンハン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-05-10
Filing date: 2020-04-13
Publication date: 2022-01-19
Anticipated expiration: 2040-04-13
Also published as: KR20200129934A; KR102230667B1; JP2020187346A

Description

以下の説明は、複数の話者の映像（ｖｉｄｅｏ）データとオーディオデータを利用して話者を分離する技術に関し、より詳細には、映像データからの話者の口の形状とオーディオデータからのスピーチセグメントとの相関関係によって構築された話者モデルに基づいて話者を特定（すなわち、話者ダイアライゼーション（ｄｉａｒｉｓａｔｉｏｎ））する技術に関する。

近年、機械が読み取り可能なフォーマットを活用しながら、人間のコミュニケーション（例えば、会議など）を記録して検索しようとする要求が高まっている。大規模なデータセットに対する可用性とディープラーニングのフレームワークへの接近性が高まるにつれ、このような人間のコミュニケーションを記録するための自動音声認識は大きく発展した。これにより、トランスクリプト（ｔｒａｎｓｃｒｉｐｔ）に対し、単に文章単語を羅列することを超え、該当の文章を「いつ」、「誰が」発話したかに関する情報を付け加えることが重要となっている。

例えば、特許文献１（公開日２０１０年０５月２６日）は、それぞれの話者識別結果の信頼度を測定する方法に関し、各フレームの話者識別結果の貢献程度を測定し、各フレームの話者識別貢献度に基づいて話者識別結果の信頼度を測定し、これを話者の真偽判断に利用することにより、話者の検証時に提示された話者の真偽を正確に判断することができ、マルチチャンネル環境において話者識別の正確度を高めることができる技術が開示されている。

上述した情報は理解を助けるためのものに過ぎず、従来技術の一部を形成しない内容を含むこともあるし、従来技術が通常の技術者に提示することのできる内容を含まないこともある。

韓国公開特許第１０－２０１０－００５５１６８号公報

複数の話者の映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれるそれぞれのスピーチセグメントとの相関関係を計算し、計算された相関関係に基づき、各話者に対する話者モデルを構築し、構築された話者モデルに基づき、オーディオデータに含まれる音声を発話する話者を特定する、話者ダイアライゼーション方法を提供する。

オーディオデータから特定された話者が発話した音声を抽出してテキストに変換し、変換されたテキストを該当の音声が発話された時間情報と関連付けて記録することにより、話者同士のコミュニケーションを記録できるようにする方法を提供する。

一側面において、コンピュータシステムが実行する、複数の話者の映像（ｖｉｄｅｏ）データとオーディオデータを利用して話者を分離する方法であって、前記映像データに含まれる前記話者それぞれの口の形状と、前記オーディオデータに含まれる前記話者からのスピーチセグメントそれぞれとの相関関係を計算する段階、前記計算された相関関係に基づき、前記話者それぞれの話者モデルを構築する段階、および前記構築された話者モデルに基づき、前記話者のうちで前記オーディオデータに含まれる音声を発話する話者を特定する段階を含む、話者ダイアライゼーション方法が提供される。

前記話者モデルを構築する段階では、前記話者の各話者に対し、前記スピーチセグメントのうちで前記各話者の口の形状との相関関係が高い上位Ｎ個のスピーチセグメントを前記各話者に対する話者モデルを構築するために使用し、Ｎは自然数であってよい。

前記各話者に対する話者モデルの構築には、前記Ｎ個のスピーチセグメントのうちで前記各話者の口の形状との相関関係が所定の閾値以上のスピーチセグメントだけが使用されてよい。

前記オーディオデータに含まれた前記話者のうちの２人以上の発言によって重なった音声は、前記重なった音声の発話時の前記話者の口の形状に基づいて前記重なった音声を発話した話者の発音を抽出し、前記抽出された発音に該当する前記オーディオデータの部分に対するマスクを生成し、前記重なった音声をフィルタリングすることにより、前記重なった音声を発話した話者それぞれの音声に分離してよい。

前記話者それぞれの口の形状は、前記映像データから前記話者それぞれの顔を認識し、前記認識された顔を追跡することによって識別されてよい。

前記話者を特定する段階は、前記映像データから前記話者それぞれの顔を検出し、前記検出された顔を追跡することで、前記各話者の口の形状と前記オーディオデータに含まれる発話された音声との相関関係を計算する段階、および前記計算された相関関係と前記構築された話者モデルを使用することで、前記発話された音声を発話した話者を特定する段階を含んでよい。

前記音声を発話した話者を特定する段階は、前記映像データにおいて、前記話者のうちの特定の話者の顔または前記特定の話者の口が隠れる（ｏｃｃｌｕｄｅｄ）ことによって前記特定の話者と前記オーディオデータの前記発話された音声との相関関係が計算できない場合には、前記特定の話者と前記発話された音声との相関関係は０と見なしてよい。

前記話者を特定する段階は、前記オーディオデータに含まれる発話された音声を発話した話者の位置に関する情報を決定する段階、および前記決定された話者の位置に関する情報と前記構築された話者モデルを使用することで、前記発話された音声を発話した話者を特定する段階を含んでよい。

前記音声を発話した話者の位置に関する情報は、前記発話された音声の方向に関する情報を含み、前記方向に関する情報は、前記発話される音声と関連する方位角情報を含んでよい。

前記複数の話者のうち、前記映像データから顔は認識されたがまったく発話しないと認識された話者は無視してよい。

前記話者モデルを構築する段階は、前記複数の話者のうち、前記映像データから顔または口の形状が認識されないか前記話者モデルを構築するための口の形状とスピーチセグメントとの相関関係がまったく用意されずに前記話者モデルが構築されない特定の話者に対しては、前記相関関係を計算する段階で計算された相関関係が所定の値未満であるスピーチセグメントに対応する埋め込み（ｅｍｂｅｄｄｉｎｇ）をクラスタリングすることにより、前記特定の話者に対する話者モデルを構築してよい。

前記映像データおよびオーディオデータは、前記話者をリアルタイムで撮影した映像に含まれるデータであってよい。

前記話者ダイアライゼーション方法は、前記オーディオデータから前記特定された話者が発話した音声を抽出する段階、前記抽出された音声をテキストに変換する段階、および前記変換されたテキストを前記抽出された音声が発話された時間情報と関連付けて記録する段階をさらに含んでよい。

前記話者ダイアライゼーション方法は、バンドパスフィルタを使用することで、前記オーディオデータから、人間の音声範囲を越える雑音（ｎｏｉｓｅ）をフィルタリングする段階をさらに含んでよい。

他の側面において、複数の話者の映像（ｖｉｄｅｏ）データとオーディオデータを利用して話者を分離するコンピュータシステムであって、メモリ、および前記メモリに連結され、前記メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、前記映像データに含まれる前記話者それぞれの口の形状と、前記オーディオデータに含まれる前記話者からのスピーチセグメントそれぞれとの相関関係を計算し、前記計算された相関関係に基づき、前記話者それぞれに対する話者モデルを構築し、前記構築された話者モデルに基づき、前記オーディオデータから前記話者のうちで発話する話者を特定する、コンピュータシステムを提供する。

映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれる話者からのスピーチセグメントそれぞれとの相関関係に基づいて構築された各話者に対する話者モデルを、音声を発話する話者を特定するために使用することにより、映像データにおいて特定の話者が隠れた場合にも、該当の特定の話者による発話を正確に特定することができる。

構築された各話者に対する話者モデルに加え、音声を発話する話者を特定するために各話者の口の形状と発話される音声との相関関係および／または該当の音声が発話される位置に関する情報をさらに使用することにより、音声を発話する話者をより正確に特定することができる。

オーディオデータから特定された話者が発話した音声を抽出してテキストに変換し、変換されたテキストを該当の音声が発話された時間情報と関連付けて記録することにより、例えば、会議のような話者同士のコミュニケーションを自動で記録することができる。

一実施形態における、話者ダイアライゼーションシステムのパイプラインを簡単に示した図である。一例として試験のために使用された映像データのスチールイメージを示した図である。一例として試験のために使用された映像データとして、公開的なＡＭＩ会議データのスチールイメージを示した図である。一例として試験のために使用された映像データとして、公開的なＡＭＩ会議データのスチールイメージを示した図である。一実施形態における、音声を発話する話者ダイアライゼーションおよび分離（特定）された話者からの発話を記録する方法を示した図である。一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。一例として、話者同士の会議を記録した議事録を示した図である。一実施形態における、話者モデルの構築方法および発話する話者を分離する方法を示したフローチャートである。一例として、発話する話者を特定する方法を示したフローチャートである。一例として、発話する話者を特定する方法を示したフローチャートである。

以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。

以下で説明する実施形態は、実際の会議で「誰が発言したのか」（すなわち、音声を発話した話者）を決定するための技術に関する。実施形態の方法は、ビデオ（例えば、３６０度カメラで撮影したサラウンドビュービデオ）および単一または多重チャンネルオーディオを入力として使用し、これを基に確かな話者ダイアライゼーション（Ｓｐｅａｋｅｒｄｉａｒｉｓａｔｉｏｎ）出力を生成する。

これを達成するために、本開示では、先ず、オーディオビジュアルの関連性（ｃｏｒｒｅｓｐｏｎｄｅｎｃｅ）を利用して話者モデルを登録し、登録されたモデルと視覚的情報を使用することで、アクティブ（ａｃｔｉｖｅ）話者（すなわち、発話する話者）を決定する、反復性のある新たな接近技法を提案する。

実施形態の方法は、実際の会議のデータセットに対して量的および質的に優れた性能を示す。実施形態の方法は、公開的なデータセットを対象として評価したときに、比較可能なすべての他の方法を上回る結果が出た（後述する試験結果を参照）。また、多重チャンネルオーディオを使用することができるときには、音声の位置および／または方向を抽出するためにビデオとともにビームフォーミングを使用する。

以下、実施形態の方法の背景と概要について説明する。

多重話者オーディオを単一話者セグメントに分解する作業である話者ダイアライゼーション（ｓｐｅａｋｅｒｄｉａｒｉｓａｔｉｏｎ）は、数年にわたって活発に研究されてきた分野であった。話者の音声は、オーディオだけが使用されるシングルモダリティ（ｓｉｎｇｌｅ－ｍｏｄａｌｉｔｙ）問題として取り扱われる反面、ビデオのようなモダリティを追加して取り扱われることもある。オーディオとオーディオビジュアルの両方に関する話者ダイアライゼーション技術は、次の２つに分けられる。

１つ目は、個人それぞれは異なる音声特性を持つという仮定による話者モデリング（ＳｐｅａｋｅｒＭｏｄｅｌｉｎｇ：ＳＭ）に基づくものである。

一例として、話者モデルは、混合ガウスモデル（ＧＭＭｓ）とｉ－ベクトルで構成されてよい。また、話者モデリングに対してディープラーニングが効果的であるという立証に基づき、話者モデリングによる話者モデルは、ディープラーニングを通じて構築されてもよい。

多くのシステムにおける話者モデルは、ターゲット話者に対して予めトレーニングされたものが一般的であり、未知の参加者には適用が不可能な場合がある。他のアルゴリズムは、一般モデルおよびクラスタリングを使用することにより、未知の（ｕｎｓｅｅｎ）話者にも適応されるようにしている。さらに、特徴クラスタリングに基づくオーディオビジュアルドメイン作業も多く存在する。

２つ目は、音源位置決定（ＳｏｕｎｄＳｏｕｒｃｅＬｏｃａｌｉｚａｔｉｏｎ：ＳＳＬ）手法を利用するものである。これは、例えば、ＳＲＰ－ＰＨＡＴのような強力なビームフォーミング方法により、ＳＭ基盤の接近法に比べてより優れた性能を実現する。しかし、ＳＳＬ基盤の方法は、話者の位置が固定的であるか知られている場合しか有効でない。したがって、ＳＳＬは、視覚的情報を利用して話者の位置を追跡できる場合など、オーディオビジュアル方法の一部として利用されている。このような接近法は、参加者を効果的に追跡できるか否かの能力に大きく依存する。ＳＳＬは、本開示の実施形態における、動きおよび口の動きを測定する視覚的分析モジュールとの結合が可能である。

観測の各類型に応じて独立的なモデルを利用してＳＭおよびＳＳＬ接近法が結合されてよく、これらの情報は、ビタビアルゴリズムまたはベイジアンフィルタリングに基づいて確率論的フレームワークと融合されてよい。

本開示では、オーディオビジュアルデータを利用して話者の移動とオクルージョン（ｏｃｃｌｕｓｉｏｎｓ）を処理し、確かな話者ダイアライゼーションシステムを実現するシステムを提示する。このようなシステムのために、口または唇の動き（すなわち、口の形状）がはっきりと確認可能であるときに各参加者の言葉を検出するための最先端のディープオーディオビジュアル同期化ネットワークが使用されてよい。

このような情報は各参加者の話者モデルを登録するために使用されてよく、登録された話者モデルに基づき、参加者が隠れた場合であっても誰が発言するかを決定することができるようになる。各参加者に対して話者モデルを生成することにより、教師なし学習（クラスタリング）問題を、すべての参加者に属する音声セグメントの確率を推定する教師あり分類問題（ｓｕｐｅｒｖｉｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｐｒｏｂｌｅｍ）によって作業を再構成することができる。マルチモーダル融合以前に観測の各類型に対する尤度を計算する技術とは異なり、本開示のオーディオビジュアル同期化は、話者登録過程で使用されてよい。

追加の説明として、マルチチャンネルマイクロフォンの可用性が高い場合、ビームフォーミングが音源の位置を推定するために適用されてよく、両方のモダリティからの空間手がかり（ｃｕｅ）がシステムの性能を向上させるために使用されてよい。

以下では、本発明の実施形態に係る、マルチモーダル話者ダイアライゼーションシステム（オーディオビジュアルシステム）について説明する。

オーディオビジュアルシステムのオーディオ処理部分は、周知のオーディオ処理システムの方法を含んで構成されてよい。例えば、音調強調（ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ）システムとしては、シミュレーションされた訓練データに対して訓練された長・短期記憶（ＬＳＴＭ：ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）基盤の雑音除去モデルが使用されてよい。また、話者埋め込み（話者モデル）を抽出するために、事前に訓練されたｘベクトルモデルが使用されてよい。ｘベクトル抽出器およびＰＬＤＡパラメータは、データ増強（相加性雑音（ａｄｄｉｔｉｖｅｎｏｉｓｅ））をもつデータセットに対して学習されたものであってよい。

本発明の実施形態によると、ビデオ内から現在の話者を決定するために少なくとも３種類の情報（オーディオツービデオ（ＡｕｄｉｏｔｏＶｉｄｅｏ）相関関係、話者モデル、オーディオ方向など）が使用されてよい。

図１は、一実施形態における、話者ダイアライゼーションシステムのパイプラインを簡単に示した図である。

前処理段階では、映像データ内から顔部分を検出（Ｆａｃｅｄｅｔｅｃｔｉｏｎ）し、該当の顔部分を追跡（Ｆａｃｅｔｒａｃｋｉｎｇ）し、顔部分に対する顔部分映像を取得してよい。追加で、プロフィール（Ｐｒｏｆｉｌｅ）イメージを利用して顔認識（Ｆａｃｅｒｅｃｏｇｎｉｔｉｏｎ）することにより、該当の顔部分映像が誰であるかを検知してよい。

顔検出および顔追跡においては、例えば、ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉＢｏｘＤｅｔｅｃｔｏｒ）基盤のＣＮＮ顔検出器が、ビデオのすべてのフレームから顔形状を検出するために使用されてよい。このような検出器は、多様なポーズと照明条件に基づいて顔を追跡してよい。位置基盤（ｐｏｓｉｔｉｏｎ－ｂａｓｅｄ）顔追跡器は、個々の顔の検出を顔部分映像としてグループ化するために使用されてよい。

顔認識においては各参加者の顔イメージが求められるが、これにより、会議室内において、これらの位置とは関係なく顔を識別および追跡できるようになる。これは、ユーザ入力またはプロフィールイメージによって構成されてよい。すべての参加者の顔イメージは、一般的に周知の顔認識のための特徴（ｆｅａｔｕｒｅ）、例えば、ＶＧＧＦａｃｅ２ネットワークを利用した埋め込み（ｅｍｂｅｄｄｉｎｇ）で表現され、記録されてよい。

図２のように、複数話者が会話をやり取りする映像内から顔部分を検出し（四角領域で表示）、該当の顔部分映像を順にＦａｃｅｔｒａｃｋ１、Ｆａｃｅｔｒａｃｋ２、・・・Ｆａｃｅｔｒａｃｋｎと命名する。このうち、Ｆａｃｅｔｒａｃｋ１を予め登録された１つ以上のプロフィールイメージと比較してＦａｃｅｔｒａｃｋ１に対応する話者が誰なのかを特定し、具体的な話者の身元を確認してよい。

オーディオデータの前処理方法（図示せず）は、オーディオデータに含まれる人間の音声範囲を超える雑音を減少させるために、２００～７０００Ｈｚをカバーするバンドパスフィルタを通過させることを含んでよい。また、例えば、音声活動検出器は、オーディオ内にスピーチがあるか否かを識別するために使用されてよい。

図１の段階１（Ｐｈａｓｅ１）では、オーディオおよび顔部分映像データに対し、オーディオツービデオ相関関係（ＡＶ相関関係）を利用して話者モデルを登録する。

図１の段階２（Ｐｈａｓｅ２）では、登録された話者モデル、オーディオ、および顔部分映像データを利用し、現在の発話の話者が誰なのかを確認してよい。具体的に、１）オーディオおよび話者モデルを利用して話者検証（Ｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎ）を行い、２）オーディオを利用して発話方向を計算し、３）オーディオおよび顔部分映像を利用してＡＶ相関関係を計算し、１）～３）の結果を利用して最終的に発話者を決定してよい。

本発明の一実施形態では、段階２を実施する前に、オーディオおよびビデオデータ全体に対して段階１を実施して話者モデルを登録する方法を使用し、以下でもこのような実施形態を基準として説明するが、段階２で登録されなかった新たな話者に対しては、話者モデルを登録しながら話者ダイアライゼーションを実行する方法の実施形態でも実現可能である。

以下、実施形態のオーディオビジュアルシステムのオーディオツービデオの相関関係（ＡＶｃｏｒｒｅｌａｔｉｏｎ）について説明する。オーディオおよび口の動きのクロスモーダル（ｃｒｏｓｓ－ｍｏｄａｌ）埋め込み（ｅｍｂｅｄｄｉｎｇ）は、それぞれの信号を示すために使用されてよい。このようなジョイント（ｊｏｉｎｔ）（組み合わされた）埋め込みを訓練するための戦略は、例えば、次に説明するとおりである。

ネットワークは、２つのストリーム（ＭＦＣＣ（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ）入力を５１２次元ベクトルにエンコードするオーディオストリーム、およびクロップされた顔イメージを５１２次元ベクトルにエンコードするビデオストリーム）で構成されてよい。ネットワークは、１つのビデオクリップとＮ個のオーディオクリップのマルチウェイ（ｍｕｌｔｉ－ｗａｙ）マッチング作業によって訓練されてよい。オーディオとビデオ特徴のユークリッド距離が計算され、Ｎ個の距離が結果として算出されてよい。ネットワークは、ソフトマックス（ｓｏｆｔｍａｘ）レイヤを通過した後、このような距離の逆数に対する交差エントロピー誤差によって学習されてよく、したがって、マッチングする対の類似度は非マッチングするものよりも大きくなる。

２つの埋め込みのコサイン距離が２つの入力の関連性（ｃｏｒｒｅｓｐｏｎｄｅｎｃｅ）を測定するために使用されてよい。したがって、顔イメージが現在の話者（発話する話者）に対応すれば特徴の間の小さな距離が期待され、そうでない場合には同調（ｉｎ－ｓｙｎｃ）および遠距離（ｌａｒｇｅｄｉｓｔａｎｃｅ）が期待される。ビデオは、１つの連続的なソースを基にするため、ＡＶオフセットはセッション全体にわたって固定されているものと仮定してよい。埋め込み距離は、アウトライアを取り除くために中間値フィルタ（ｍｅｄｉａｎｆｉｌｔｅｒ）を使用することにより、時間によってスムーズ（ｓｍｏｏｔｈ）になる。

以下では、実施形態のオーディオビジュアルシステムの話者モデルおよびこれを登録する方法について説明する。ＡＶ相関関係は、口の動きが明確に見えるときしか使用することができないため、本開示では、各話者に対する話者モデル、例えば、オクルージョン（隠れ）のせいでオーディオビジュアル同期化が不可能なときでも（または、このような信号の可用性が低い場合でも）アクティブ話者（すなわち、発話する話者）を決定することができるようにする。

本発明の実施形態では、ＡＶ相関関係によって該当のオーディオ区間の発話者が識別されたオーディオデータを使用することで、該当の発話者に対する話者モデル（話者埋め込み）を登録してよい。

一実施形態において、オーディオデータを一定の時間（例えば、それぞれ１．５秒または２秒）間隔に分けた区間であるスピーチセグメントのうち、事前にビデオ全体で実行されて各話者に対する確かなスピーチセグメントを求め、これを利用して話者モデルを取得してよい。

実施形態においては、一例として、Ｎ＝１０（または３）が使用されてよく、ＡＶ相関関係の閾値を超える確信セグメントがＮ個よりも少ない場合には、相関関係が閾値を超えるセグメントだけが話者モデルを登録するために使用されてよい。

セグメントを利用して話者モデルを抽出するためには、ｘ－ｖｅｃｔｏｒやＲｅｓＮｅｔなどのような従来のモデルが使用されてよいが、これに限定されることはない。さらに深いモデルは、小さなｘベクトルモデルよりも難しいデータセットを適切に一般化することができるため、訓練された深いＲｅｓＮｅｔ－５０モデルを使用することが好ましい。

例えば、話者モデルは、１．５秒ウィンドウに基づいて特徴値（ｆｅａｔｕｒｅ）を計算し、基準システムによって１回に０．７５秒ずつ動くことにより（または、１回に１フレームずつ動きながら）抽出されてよい。各タイムステップにおける話者モデルと登録された話者モデルとを比較することにより、任意の話者に属するスピーチセグメントの尤度（ｌｉｋｅｌｉｈｏｏｄ）が推定されてよい。推論時間に視覚的情報がまったくなかったとしても、これは教師なしクラスタリングに比べて一般的により確かな教師あり分類問題となり得る。すなわち、これは、分類または対の確認の問題となり、クラスタリングに比べて一般的に極めて強い性能を生み出すことができる。

以下では、実施形態のオーディオビジュアルシステムが使用する音源位置決定（ＳｏｕｎｄＳｏｕｒｃｅＬｏｃａｌｉｚａｔｉｏｎ：ＳＳＬ）について説明する。話者モデルはもちろんであるが、音源の方向は、誰が発話するかに対する有用な手がかりとなる。音源の方向を決定するためには、例えば、カメラへの４チャンネルマイクロフォンからの記録物のオーディオソースの方向が各オーディオサンプルに対して推定され、すべてのビデオフレームに対する方向は１０度の区間サイズ（ｂｉｎｓｉｚｅ）を有し、±０．５秒間（ｐｅｒｉｏｄ）に対するすべての方位角（ａｚｉｍｕｔｈ）θ値のヒストグラムを生成することによって決定されてよい。

与えられた時間にいずれかの話者に属するオーディオの尤度（ｌｉｋｅｌｉｈｏｏｄ）は、推定されたオーディオソースおよび該当の話者に対するビデオにおける顔検出の角度と相関してよい。

以下では、実施形態に係るオーディオビジュアルシステムにおけるマルチモーダルの融合について説明する。

３種類の情報（ＡＶ相関関係、話者モデル、オーディオ方向）は、各話者およびタイムステップに対する信頼度点数を提供してよい。このような点数は、以下で説明するように、簡単な加重値が適用された融合を利用してすべての話者およびタイムステップに対して単一な信頼度点数（Ｃｏｖｅｒａｌｌ）に結合されてよい。ここで、Ｃ_ｓｍは話者モデルからの信頼度点数であり、Ｃ_ａｖｃはＡＶ対応からの点数であり、θ^*およびφはそれぞれ顔の角度（位置）およびオーディオの推定されたＤｏＡ（ＤｉｒｅｃｔｉｏｎａｌｏｆＡｒｒｉｖａｌ、オーディオが聞こえてくる方向）を意味する。αおよびβはそれぞれ所定の加重値を示し、それぞれの点数の重要度に応じてその値が調節されてよい。一般的には、訓練データのうちで最も優れた性能を与える値を使用する。

以下の数式（１）において、カメラからは特定の話者が見えないとき、２番目および３番目の項は０に設定されてよい。

Ｃ_{ｏｖｅｒａｌｌ}＝Ｃ_ｓｍ＋α＊Ｃ_ａｖｃ＋β＊ｃｏｓｉｎｅ（φ－θ^*）・・・（１）

計算された信頼度点数（Ｃ_{ｏｖｅｒａｌｌ}）に基づき、該当のタイムステップで発話される音声を発話した話者が特定されてよい。

以下では、一般的なオーディオシステムと実施形態のオーディオビジュアルシステムの性能の比較試験について説明する。本開示では、２つの独立的なデータセット（３６０度に録画された会議の内部データセットおよび公開的に可用性の高いＡＭＩ会議コーパス）に対して評価された。それぞれについては、以下でより詳しく説明する。

内部会議データセットは、ビデオ録画に関して参加者から特別な指示のない、定期的な会議のオーディオビジュアル記録で構成される。会議は、作業空間における一日討論の一部を形成したものであり、話者ダイアライゼーションの作業を念頭において設定されたものではない。データセットの相当部分は、話者が頻繁に変わる極めて短い発話で構成されているが、これは話者ダイアライゼーションにおいて極めて困難な条件となる。ビデオは、２つの魚眼レンズをもち、会議の３６０度ビデオをキャプチャするＧｏＰｒｏ（登録商標）Ｆｕｓｉｏｎカメラで録画されたものとする。ビデオは、１秒あたり２５フレームであり、５２２８×２６２４解像度の単一サラウンドビュービデオにともに結合されてよい。オーディオは、４８ｋＨｚで４チャンネルマイクによって録音されてよい。このようなデータセットのスチールイメージは、図２に示すとおりである。図２は、一実施形態に係る試験のために使用された映像データのスチールイメージを示している。

データセットには、約３時間の有効性検証セットと、４０分の慎重に注釈が追加されたテスト（ｔｅｓｔ）セットが含まれてよい。テストビデオには９人の話者が存在する。発言が重なる場合は、主な（最大の音の）発言者のＩＤだけに注釈を付与した。埋め込み抽出器およびＡＶ同期化ネットワークは、外部データセットに対して訓練され、検証セットは、基準システムにおけるＡＨＣ閾値および実施形態のシステムにおける融合加重値をチューニングするためだけに使用されてよい。

ＡＭＩコーパスは、多数の位置から録画した１００時間のビデオで構成されており、実施形態のシステムは、１００時間の分量のビデオのうち、約３０時間および１７時間の分量のビデオをそれぞれ含むＥＳおよびＩＳカテゴリの会議に対して評価した。画質は相対的に低く、ビデオ解像度は２８８×３５２ピクセルである。オーディオは、直径２０ｃｍの８要素円形等間隔（ｅｑｕｉｓｐａｃｅｄ）マイクアレイから録音されたものである。しかし、大部分の本試験においては、アレイのマイクが１つだけ使用されてもよい。ビデオは、会議の参加者それぞれのクローズアップビューを提供する４台のカメラで録画され、上述した内部データセットとは異なり、イメージはともに連結されない。ＥＳビデオは、閾値をチューニングするための検証セットとして使用されてよい。図３ａおよび３ｂは、一例による試験のために使用された映像データであって、公開的なＡＭＩ会議データのスチールイメージを示している。図３ａは、会議の参加者それぞれのクローズアップビューを示した映像データのスチールイメージであり、図３ｂは、会議の参加者とホワイトボードを撮影する遠景映像に対応する映像データのスチールイメージである。

検出された各顔部分映像に対し、顔埋め込みはＶＧＧＦａｃｅ２を利用して抽出し、Ｎ個の記録された顔認識のためのＦｅａｔｕｒｅ（埋め込み）のそれぞれと比較され、したがって、これらはＮ個の話者のうちの１つに分類されてよい。いずれの時点であっても、同時に発生する顔部分映像が同じ話者を示すことはできないという制約条件が適用された。

以下の表１では、基準システムと実施形態のオーディオビジュアルシステムの性能の比較試験による話者ダイアライゼーションの結果を示している。数値が低い収録性能がより優秀であること示している。最後の４行を除いてはＡＭＩデータセットの結果を示している。ＷＢはホワイトボード；ＮＷＢはホワイトボードなし；Ｘｃｈ＋ＶはＸ個のチャンネルオーディオ＋ビデオ；ＳＭは話者モデリング；ＡＶＣはオーディオビジュアル対応；ＳＳＬは音源位置検索；ＭＳは聞き逃したスピーチ；ＦＡはエラーアラーム；ＳＰＫＥは話者エラー；ＤＥＲは：話者ダイアライゼーションのエラー率を示す。

評価指標に関し、性能指標としてＤＥＲを使用した。ＤＥＲは、聞き逃したスピーチ（ＭＳ、参照（ｒｅｆｅｒｅｎｃｅ）話者にはあるが仮定の話者にはない）、エラーアラーム（ＦＡ、仮定の話者にはあるが参照話者にはない）、および話者エラー（ＳＰＫＥ、話者ＩＤが他の話者に割り当てられる）の３つの成分に分解されてよい。

システムを評価するために使用されたツールは、ＮＩＳＴによってＲＴ話者ダイアライゼーションを評価するために開発されたものであり、参照注釈の人的ミスを補うために２５０ｍｓの許容マージンを含んでいる。

ＡＭＩコーパスに対する結果として上記表１を参照する。ホワイトボードが使用される会議の数字は別途提供されるため、その結果が比較される。

すべての試験において同一のＶＡＤシステムが使用されたため、聞き逃したスピーチおよびエラーアラームの割合は、各データセットに対して互いに異なるモデルにおいて同一である。したがって、話者エラー率（ＳＰＫＥ）だけが、話者ダイアライゼーションシステムによって影響を受ける指標となる。

話者モデルオンリーシステム（ＳＭ）は、話者モデルの登録タイミングを検索するためだけに視覚的情報を使用し、使用推論中にはオーディオだけを使用するものであってよい。オーディオ処理パイプラインと埋め込み抽出器として共通なものを利用して実験したとき、性能利得は、クラスタリング問題をダイアライゼーション問題に変更することから発生する。これだけでも、ＥＳおよびＩＳセットにおいて、話者エラーがそれぞれ４８％および２６％と相対的に向上した。

表１の結果から、推論時にＡＶ相関関係（ＡＶＣ）と音源位置決定（ＳＳＬ）を追加すれば、性能が明らかに向上することを確認することができる。全般的な相対性能に対するこのようなモダリティの寄与は、テストセットによってそれぞれ２０～４０％および１９～３９％であることを確認することができる。このような結果は、すべてのテスト条件において、従来技術の結果を大きく上回ることを現わしている。

内部会議データセットで話者エラー率は著しく悪化するようになるが、これは、データセットの困難な特性（ｃｈａｌｌｅｎｇｉｎｇｎａｔｕｒｅ）と話者の人数が多いため起こる。表１の結果から、基準システムは、このようなデータセットで一般化されないが、実施形態のマルチモーダルシステムは、このような「実際のデータ」でも比較的優れた性能を実現することを確認することができる。

上述のような結果から、本開示の実施形態では、話者モデルを登録するためにオーディオビジュアルの相関関係の利点を活用するマルチモーダルシステムを取り入れることにより、話者ダイアライゼーションのために一般的に使用されるクラスタリング方法に比べ、相当な利点を達成することを確認することができる。

追加で、以下では、話者モデルとして登録されていない話者を処理する方法について説明する。多様な理由によって未登録の話者がセッション（会議）に参加することがある。このような場合とは、例えば、会議で（１）まったく発話しない人がいる場合、（２）オクルージョンによってＡＶ相関関係がまったく用意されない場合、または（３）電話で会議に参加する人がいる場合、が挙げられる。

これに関しては、２つの可能な解決策を提案する。先ず、（１）の場合、まったく発話しない人は無視すると仮定してよい。また、（２）および（３）の場合は、図１の段階２（Ｐｈａｓｅ２）を行った後、ＡＶ相関関係と話者認識の両者に対し、信頼度の低いいずれかのアクティブモデルをクラスタリングして（２）および（３）に該当する話者を登録（すなわち、話者モデルを構築）するようにしてよい。

以下では、図４～図９を参照しながら、実施形態のシステムのより具体的な構造および実現方法について説明する。

図４は、一実施形態における、音声を発話する話者ダイアライゼーションおよび分離（特定）された話者からの発話を記録する方法を示している。

図４を参照しながら、上述した実施形態のオーディオビジュアルシステム（マルチモーダルシステム）を利用して音声を発話する話者を分離し、分離された話者の音声を記録する方法について説明する。

図に示した例では、３６０度カメラとマイク（図示せず）により、話者（話者Ａ～Ｄ）に対する映像（ｖｉｄｅｏ）データおよび音声データをそれぞれ取得することを示している。実施形態のオーディオビジュアルシステムは、映像データに含まれる話者Ａ～Ｄそれぞれの口の形状（例えば、口または唇の形状の変化）とオーディオデータに含まれる話者Ａ～Ｄそれぞれからのスピーチセグメントとの相関関係を計算し、これに基づき、話者Ａ～Ｄそれぞれに対する話者モデルを構築（登録）してよい。実施形態のオーディオビジュアルシステムは、構築された話者モデルに基づき、話者Ａ～Ｄのうちからオーディオデータに含まれる音声を発話する話者を特定してよい。すなわち、オーディオビジュアルシステムは、オーディオデータから話者Ａ～Ｄそれぞれの発話を特定してよい。

例えば、話者Ａ～Ｄは会議に参加している一員であってよく、オーディオビジュアルシステムは会議中に発話する話者を特定してよい。

オーディオビジュアルシステムは、オーディオデータから特定された話者が発話した音声を抽出し、抽出された音声をテキストに変換してよく、変換されたテキストと抽出された音声が発話された時間情報とを関連付けて記録してよい。例えば、オーディオビジュアルシステムは、話者Ａ～Ｄが参加する会議の議事録として、前記テキストと時間情報を関連付けて記録してよい。

図６は、一例による、話者同士の会議を記録した議事録を示した図である。

図に示すように、オーディオビジュアルシステムによって特定された話者Ａ～Ｄそれぞれに対し、各話者が発話した音声がテキストに変換され、該当の音声は、発話された時間情報とともに議事録６００として記録されてよい。図に示してはいないが、議事録６００は、各話者と関連するイメージ（例えば、各話者の顔写真またはサムネイル）をさらに含んでよい。

より具体的な話者特定方法とオーディオビジュアルシステムの構成および動作については、図５および図７～図９を参照しながらより詳しく説明する。

以上、図１～図３を参照しながら説明した技術的特徴についての説明は、図４および図６にもそのまま適用されるため、重複する説明は省略する。

図５は、一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。

例えば、本発明の実施形態に係る、音声を発話する話者を特定するための話者ダイアライゼーション装置は、図５のコンピュータシステム５００によって実現されてよい。コンピュータシステム５００は、上述したオーディオビジュアルシステムに対応してよい。図５に示すように、コンピュータシステム５００は、音声を発話する話者を特定する話者ダイアライゼーション方法を実行するための構成要素として、プロセッサ５１０、メモリ５２０、永続的記録装置５３０、バス５４０、入力／出力インタフェース５５０、およびネットワークインタフェース５６０を含んでよい。コンピュータシステム５００は、図に示すものとは異なり、複数のコンピュータシステムで構成されてもよい。コンピュータシステム５００は、例えば、複数の話者同士の会議のようなコミュニケーションを記録するためのシステムまたはその一部であってよい。コンピュータシステム５００は、話者を撮影するカメラが含まれる装置内に含まれるか、カメラが含まれる装置と有線および／または無線通信するコンピュータ、またはその他のサーバであるか、その一部であってもよい。

プロセッサ５１０は、音声を発話する話者を特定する話者ダイアライゼーション方法を実現するための構成要素として、命令語のシーケンスを処理することのできる任意の装置を含むか、その一部であってよい。プロセッサ５１０は、例えば、コンピュータプロセッサ、移動装置、または他の電子装置内のプロセッサおよび／またはデジタルプロセッサを含んでよい。プロセッサ５１０は、例えば、サーバコンピュータデバイス、サーバコンピュータ、一連のサーバコンピュータ、サーバファーム、クラウドコンピュータ、コンテンツプラットフォームなどに含まれてよい。プロセッサ５１０は、バス５４０を介してメモリ５２０に接続されてよい。

メモリ５２０は、コンピュータシステム５００によって使用されるか、これによって出力される情報を記録するための揮発性メモリ、永続的、仮想、またはその他のメモリを含んでよい。メモリ５２０は、例えば、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）および／またはＤＲＡＭ（ｄｙｎａｍｉｃＲＡＭ）を含んでよい。メモリ５２０は、コンピュータシステム５００の状態情報のような任意の情報を記録するために使用されてよい。メモリ５２０は、例えば、音声を発話する話者を特定する話者ダイアライゼーション方法の実行のための命令語を含むコンピュータシステム５００の命令語を記録するために使用されてもよい。コンピュータシステム５００は、必要な場合または適切な場合に１つ以上のプロセッサ５１０を含んでよい。

バス５４０は、コンピュータシステム５００の多様なコンポーネント間の相互作用を可能にする通信基盤構造を含んでよい。バス５４０は、例えば、コンピュータシステム５００のコンポーネント間に、例えば、プロセッサ５１０とメモリ５２０との間にデータを運搬してよい。バス５４０は、コンピュータシステム５００のコンポーネントの間の無線および／または有線通信媒体を含んでよく、並列、直列、または他のトポロジ配列を含んでよい。

永続的記録装置５３０は、（例えば、メモリ５２０に比べて）所定の延長された期間にわたってデータを記録するためにコンピュータシステム５００によって使用されるもののようなメモリ、または他の永続的記録装置のようなコンポーネントを含んでよい。永続的記録装置５３０は、コンピュータシステム５００内のプロセッサ５１０によって使用されるもののような非揮発性メインメモリを含んでよい。永続的記録装置５３０は、例えば、フラッシュメモリ、ハードディスク、オプティカルディスク、または他のコンピュータ読み取り可能媒体を含んでよい。永続的記録装置５３０は、例えば、上述した議事録６００または議事録６００と関連するデータを記録してよい。

入力／出力インタフェース５５０は、キーボード、マウス、音声命令入力、ディスプレイ、または他の入力／出力装置に対するインタフェースを含んでよい。音声を発話する話者を特定する話者ダイアライゼーション方法と関連する命令および／または入力は、入力／出力インタフェース５５０によって受信されてよい。

ネットワークインタフェース５６０は、近距離ネットワークまたはインターネットのようなネットワークに対する１つ以上のインタフェースを含んでよい。ネットワークインタフェース５６０は、有線または無線接続に対するインタフェースを含んでよい。音声を発話する話者を特定する話者ダイアライゼーション方法と関連する命令および／または入力は、ネットワークインタフェース５６０によって受信されてよい。

また、他の実施形態において、コンピュータ装置５００は、図５の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置５００は、上述した入力／出力インタフェース５５０と連結する入／出力装置のうちの少なくとも一部を含むように実現されてもよいし、またはトランシーバ（ｔｒａｎｓｃｅｉｖｅｒ）、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）モジュール、カメラ（例えば、話者を撮影するための３６０度カメラ）、マイクロフォン（例えば、話者の音声を記録するための少なくとも１つのマイクロフォン）、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

このようなコンピュータシステム５００によって実現される実施形態により、映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれる話者からのスピーチセグメントそれぞれとの相関関係を計算し、計算された相関関係に基づき、各話者に対する話者モデルを構築し、構築された話者モデルに基づき、オーディオデータに含まれた音声を発話する話者を特定する話者ダイアライゼーション方法が提供されてよい。

以上、図１～図４を参照しながら上述した技術的特徴についての説明は、図５にもそのまま適用されるため、重複する説明は省略する。

図７は、一実施形態における、話者モデルの構築方法および発話する話者を分離する方法を示したフローチャートである。

図７を参照しながら、コンピュータシステム５００によって実行される、音声を発話する話者を特定する話者ダイアライゼーション方法について詳しく説明する。

話者を分離するためには、複数の話者の映像データおよびオーディオデータが使用されてよい。映像データは、複数の話者がカメラで撮影されたものであってよく、オーディオデータは、該当の映像データに対応してよい。すなわち、映像データおよびオーディオデータは、１つの映像（ｖｉｄｅｏ）を構成してよい。例えば、映像データおよびオーディオデータは、話者をリアルタイムで撮影する映像に含まれるデータであってよく、あるいは、予め撮影された話者の映像に含まれるデータであってもよい。

段階７２０において、プロセッサ５１０は、映像データに含まれる話者それぞれの口の形状（例えば、口の形状の変化）と、オーディオデータに含まれるスピーチセグメントそれぞれとの相関関係を計算してよい。スピーチセグメントは、オーディオデータに含まれた各話者の音声の一部であって、所定の時間（例えば、１．５秒）内の音声に対応してよい。話者それぞれの口の形状は、プロセッサ５１０が映像データから話者それぞれの顔を認識し、認識された顔を追跡することによって識別されてよい。

段階７３０において、プロセッサ５１０は、計算された相関関係に基づき、話者それぞれに対する話者モデルを構築して登録してよい。言い換えれば、段階７３０は、コミュニケーションと関連する（例えば、会議に参加する）話者（話者モデル）それぞれを登録する段階であってよい。

プロセッサ５１０は、一例として、各話者に対し、オーディオデータに含まれるスピーチセグメントのうち、各話者の口の形状との相関関係が高い上位Ｎ個のスピーチセグメントを各話者に対する話者モデルを構築するために利用してよい。Ｎは自然数であってよく、例えば１０であってよい。また、プロセッサ５１０は、Ｎ個のスピーチセグメントのうち、各話者の口の形状との相関関係が所定の閾値以上のスピーチセグメントだけを各話者に対する話者モデルの構築（および登録）のために利用してよい。

段階７４０において、プロセッサ５１０は、構築された話者モデルに基づき、話者のうちからオーディオデータに含まれた音声を発話する話者を特定してよい。例えば、プロセッサ５１０は、オーディオデータ（または、これを含む映像）の再生時に発話される音声がどの話者によって発話されたものであるかを特定してよい。

他の実施形態において、オーディオデータがリアルタイムオーディオデータ（すなわち、話者同士の会議をリアルタイムで撮影する映像に含まれるオーディオデータ）である場合にも、プロセッサ５１０は、発話される音声がどの話者によって発話されたものであるかをリアルタイムで（または、ほぼリアルタイムで）特定してよい。このとき、プロセッサ５１０は、リアルタイムで撮影される映像に対し、リアルタイムで（または、ほぼリアルタイムで）各話者に対するモデルを構築（登録）したり、予め構築（登録）された話者に対するモデルを更新したりしてよい。

一方、オーディオデータが、２人以上の話者の発言によって重なった音声を含む場合、このような重なった音声を分離して処理してよい。例えば、プロセッサ５１０は、重なった音声の発話時の話者の口の形状（唇の動き）に基づき、重なった音声を発話した話者の発音を抽出してよく、前記抽出された発音に該当するオーディオデータで部分に対するマスクを生成し、前記重なった音声をフィルタリングしてよい。これにより、複数人の話者が同時に発話して重なった音声は、発話した話者それぞれの音声に分離されて記録されてよい。

段階７１０に示すように、映像データおよび／またはオーディオデータは、段階７２０の実行に先立って前処理されてよい。例えば、プロセッサ５１０は、バンドパスフィルタ（一例として、２００～７０００Ｈｚ範囲）を使用することにより、オーディオデータから、人間の音声範囲を越える雑音を取り除いてよい。また、プロセッサ５１０は、映像データから特定の人物の顔を認識するための前処理を実行してよい。プロセッサ５１０は、映像データから顔を検出し、検出された顔を追跡することにより、映像データから特定の人物の顔を認識してよい。このとき、予め登録（記録された）話者のプロフィールイメージ（ら）をさらに利用して特定が行われてもよい。

段階７５０において、プロセッサ５１０は、オーディオデータから特定された話者が発話した音声を抽出してよい。

段階７６０において、プロセッサ５１０は、抽出された音声をテキストに変換してよい。音声をテキストに変換するためには、該当のＳＴＴ（ＳｐｅｅｃｈＴｏＴｅｘｔ）技術が利用されてよい。例えば、人工知能、ディープラーニング、またはその他のニューラルネットワークで実現されたモジュールによって音声がテキストに変換されてよい。

段階７７０において、プロセッサ５１０は、変換されたテキストと、抽出された音声が発話された時間情報とを関連付けて記録してよい。例えば、プロセッサ５１０は、図６に示した議事録６００のように、各話者の発言内容とその発言時刻とを関連付けて記録してよい。これにより、コンピュータシステム５００は、話者同士のコミュニケーションを話者別に区分して自動で記録することができる。

実施形態では、映像データ内で特定の話者の口が隠れた状態で前記特定の話者からの発話がある場合であっても、構築された話者モデルに基づき、該当の発話が前記特定の話者によるものであるかを識別することができる。

一方、複数の話者のうち、映像データから顔は認識されるがまったく発話しないと認識される話者は、無視されてよい。すなわち、このような話者に対する話者モデルは、構築されなくてもよい。あるいは、コンピュータシステム５００には、映像データからの顔が認識されることより、会議の参加者としては存在するが発言はまったくなかった話者という点を示す情報が記録されてよい。

段階７３０における話者モデルの構築にあたり、複数の話者のうち、映像データから顔または口の形状が認識されなかったり（例えば、電話で会議に参加した場合など）、または話者モデルを構築するための口の形状とスピーチセグメントとの相関関係がまったく用意されていなかったりすることを理由に、話者モデルが構築されない（すなわち、話者モデルの構築が不可能な）特定の話者に対しては、プロセッサ５１０は、段階７２０における相関関係を計算する段階で計算された相関関係が所定の値未満であるスピーチセグメントに対応する埋め込み（または特徴値）をクラスタリングすることにより、前記特定の話者に対する話者モデルを構築してよい。これにより、映像データを使用する相関関係分析によっては話者モデルが構築されなかった話者に対しても、話者モデルを構築することができる。

以上、図１～図６を参照しながら上述した技術的特徴についての説明は、図７にもそのまま適用されるため、重複する説明は省略する。

図８および図９は、一例による、発話する話者を特定する方法を示したフローチャートである。

図８および図９を参照しながら、段階７４０の音声を発話する話者を特定する方法について詳しく説明する。

段階８１０において、プロセッサ５１０は、映像データから各話者の顔部分を検出し、検出された顔を追跡し、各話者の口の形状とオーディオデータに含まれた音声との相関関係を計算してよい。段階８２０において、プロセッサ５１０は、計算された相関関係と構築された話者モデルを使用し、該当の区間の音声を発話した話者を特定してよい。話者モデルの構築時だけでなく、話者を特定するときにも、映像データを利用して計算された話者の口の形状と音声との相関関係を使用すれば、話者ダイアライゼーションの正確性をより高めることができる。

このとき、映像データにおいて、話者のうち、特定の話者の顔または特定の話者の口が隠れる（ｏｃｃｌｕｄｅｄ）ことによって該当の特定の話者とオーディオデータで発話される音声との相関関係が計算できない場合には、前記特定の話者と発話される音声との相関関係は０と見なされてよい。したがって、特定の話者の口が隠れたときには、プロセッサ５１０は、該当の特定の話者に対しては、前記発話される音声に対する話者を特定するために構築された話者モデルだけを利用してよい。

段階９１０において、プロセッサ５１０は、オーディオデータに含まれた音声が発話される話者の位置に関する情報を決定してよい。音声が発話される話者の位置に関する情報は、発話される音声の方向に関する情報を含んでよい。方向に関する情報は、発話される音声と関連する方位角情報および／または高度情報を含んでよい。あるいは、位置に関する情報は、オーディオデータを記録するために使用されたマイクと話者に該当する音源の位置関係を示すデータを含んでもよい。

段階９２０において、プロセッサ５１０は、決定された話者の位置に関する情報と構築された話者モデルを利用して音声を発話した話者を特定してよい。構築された話者モデルだけでなく、音声が発話される話者の位置に関する情報（すなわち、該当の音声（音声信号）の方向に関する情報）をさらに使用することにより、話者ダイアライゼーションの正確性をより高めることができる。

上述した試験結果に示したように、話者モデルのような、話者の口の形状と音声との相関関係および／または話者の位置に関する情報をさらに使用することにより、話者ダイアライゼーションの正確性をより高めることができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

５００：コンピュータシステム
５１０：プロセッサ
５２０：メモリ
５３０：永続的記録装置
５４０：バス
５５０：入力／出力インタフェース
５６０：ネットワークインタフェース

Claims

コンピュータシステムが実行する、複数の話者の映像データおよびオーディオデータを利用して話者を分離する方法であって、
前記映像データに含まれる前記話者それぞれの口の形状と、前記オーディオデータに含まれる前記話者からのスピーチセグメントそれぞれとの相関関係を計算する段階、
前記計算された相関関係に基づき、前記話者それぞれに対する話者モデルを構築する段階、および
前記構築された話者モデルに基づき、前記話者のうちで前記オーディオデータに含まれる音声を発話する話者を特定する段階
を含み、
前記話者モデルを構築する段階では、
前記話者の各話者に対し、前記スピーチセグメントのうち、前記各話者の口の形状との相関関係が高い上位Ｎ個のスピーチセグメントを前記各話者に対する話者モデルを構築するために使用し、
Ｎは自然数である、話者ダイアライゼーション方法。
前記各話者に対する話者モデルの構築には、前記Ｎ個のスピーチセグメントのうち、前記各話者の口の形状との相関関係が所定の閾値以上であるスピーチセグメントだけが使用される、
請求項１に記載の話者ダイアライゼーション方法。
前記オーディオデータに含まれる前記話者のうちの２人以上の発言が重なった音声は、前記重なった音声の発話時の前記話者の口の形状に基づいて前記重なった音声を発話した話者の発音を抽出し、前記抽出された発音に該当する前記オーディオデータの部分に対するマスクを生成して前記重なった音声をフィルタリングすることにより、前記重なった音声を発話した話者それぞれの音声に分離される、
請求項１に記載の話者ダイアライゼーション方法。
前記話者それぞれの口の形状は、前記映像データから前記話者それぞれの顔を認識し、前記認識された顔を追跡することによって識別される、
請求項１に記載の話者ダイアライゼーション方法。
前記話者を特定する段階は、
前記映像データから前記話者の各話者の顔を検出し、前記検出された顔を追跡し、前記各話者の口の形状と前記オーディオデータに含まれる発話された音声との相関関係を計算する段階、および
前記計算された相関関係と前記構築された話者モデルを使用し、前記発話された音声を発話した話者を特定する段階を含む、
請求項１に記載の話者ダイアライゼーション方法。
前記音声を発話した話者を特定する段階は、
前記映像データにおいて、前記話者のうち、特定の話者の顔または前記特定の話者の口が隠れることによって前記特定の話者と前記オーディオデータの前記発話された音声との相関関係が計算されない場合には、
前記特定の話者と前記発話された音声との相関関係は０と見なす、
請求項５に記載の話者ダイアライゼーション方法。
前記話者を特定する段階は、
前記オーディオデータに含まれる発話された音声を発話した話者の位置に関する情報を決定する段階、および
前記決定された話者の位置に関する情報と前記構築された話者モデルを利用して前記発話された音声を発話した話者を特定する段階を含む、
請求項１に記載の話者ダイアライゼーション方法。
前記音声を発話した話者の位置に関する情報は、前記発話された音声の方向に関する情報を含み、
前記方向に関する情報は、前記発話された音声と関連する方位角情報を含む、
請求項７に記載の話者ダイアライゼーション方法。
前記複数の話者のうち、前記映像データから顔は認識されるがまったく発話しないと認識される話者は無視される、
請求項１に記載の話者ダイアライゼーション方法。
前記話者モデルを構築する段階は、
前記複数の話者のうち、前記映像データから顔または口の形状が認識されないか前記話者モデルを構築するための口の形状とスピーチセグメントとの相関関係がまったく用意されないことによって前記話者モデルが構築されない特定の話者に対しては、
前記相関関係を計算する段階で計算された相関関係が所定の値未満であるスピーチセグメントに対応する埋め込みをクラスタリングすることにより、前記特定の話者に対する話者モデルを構築する、
請求項１に記載の話者ダイアライゼーション方法。
前記映像データおよびオーディオデータは、前記話者をリアルタイムで撮影した映像に含まれるデータである、
請求項１に記載の話者ダイアライゼーション方法。
前記オーディオデータから前記特定された話者が発話した音声を抽出する段階、
前記抽出された音声をテキストに変換する段階、および
前記変換されたテキストを前記抽出された音声が発話された時間情報と関連付けて記録する段階
をさらに含む、請求項１に記載の話者ダイアライゼーション方法。
請求項１～１２のうちのいずれか一項に記載の話者ダイアライゼーション方法をコンピュータで実行させる、コンピュータプログラム。
請求項１～１２のうちのいずれか一項に記載の話者ダイアライゼーション方法をコンピュータで実行させるためのプログラムが記録されている、コンピュータ読み取り可能記録媒体。
複数の話者の映像データおよびオーディオデータを利用して話者を分離するコンピュータシステムであって、
メモリ、および
前記メモリと連結され、前記メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
前記映像データに含まれる前記話者それぞれの口の形状と、前記オーディオデータに含まれる前記話者からのスピーチセグメントそれぞれとの相関関係を計算し、前記計算された相関関係に基づき、前記話者それぞれに対する話者モデルを構築し、前記構築された話者モデルに基づき、前記オーディオデータから前記話者のうちで発話する話者を特定し、
前記話者モデルを構築するのは、前記話者の各話者に対し、前記スピーチセグメントのうち、前記各話者の口の形状との相関関係が高い上位Ｎ個のスピーチセグメントを前記各話者に対する話者モデルを構築するために使用し、
Ｎは自然数である、
コンピュータシステム。
前記少なくとも１つのプロセッサは、
前記映像データから前記話者の各話者の顔を検出し、前記検出された顔を追跡し、前記各話者の口の形状と前記オーディオデータに含まれる発話された音声との相関関係を計算し、前記計算された相関関係と前記構築された話者モデルを利用して前記発話された音声を発話した話者を特定する、
請求項１５に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
前記オーディオデータに含まれる発話された音声を発話した話者の位置に関する情報を決定し、前記決定された話者の位置に関する情報と前記構築された話者モデルを利用して前記発話された音声を発話した話者を特定する、
請求項１５に記載のコンピュータシステム。
前記少なくとも１つのプロセッサは、
前記複数の話者のうち、前記映像データから顔または口の形状が認識されないか前記話者モデルを構築するための口の形状とスピーチセグメントとの相関関係がまったく用意されていないことによって前記話者モデルが構築されない特定の話者に対しては、前記相関関係を計算する段階で計算された相関関係が所定の値未満であるスピーチセグメントに対応する埋め込みをクラスタリングすることにより、前記特定の話者に対する話者モデルを構築する、
請求項１５に記載のコンピュータシステム。