JP6999734B2 - オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 - Google Patents

オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 Download PDF

Info

Publication number
JP6999734B2
JP6999734B2 JP2020071403A JP2020071403A JP6999734B2 JP 6999734 B2 JP6999734 B2 JP 6999734B2 JP 2020071403 A JP2020071403 A JP 2020071403A JP 2020071403 A JP2020071403 A JP 2020071403A JP 6999734 B2 JP6999734 B2 JP 6999734B2
Authority
JP
Japan
Prior art keywords
speaker
voice
correlation
model
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020071403A
Other languages
English (en)
Other versions
JP2020187346A (ja
Inventor
ジュンソン チョン
ボンジン イ
イクサン ハン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2020187346A publication Critical patent/JP2020187346A/ja
Application granted granted Critical
Publication of JP6999734B2 publication Critical patent/JP6999734B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Description

以下の説明は、複数の話者の映像(video)データとオーディオデータを利用して話者を分離する技術に関し、より詳細には、映像データからの話者の口の形状とオーディオデータからのスピーチセグメントとの相関関係によって構築された話者モデルに基づいて話者を特定(すなわち、話者ダイアライゼーション(diarisation))する技術に関する。
近年、機械が読み取り可能なフォーマットを活用しながら、人間のコミュニケーション(例えば、会議など)を記録して検索しようとする要求が高まっている。大規模なデータセットに対する可用性とディープラーニングのフレームワークへの接近性が高まるにつれ、このような人間のコミュニケーションを記録するための自動音声認識は大きく発展した。これにより、トランスクリプト(transcript)に対し、単に文章単語を羅列することを超え、該当の文章を「いつ」、「誰が」発話したかに関する情報を付け加えることが重要となっている。
例えば、特許文献1(公開日2010年05月26日)は、それぞれの話者識別結果の信頼度を測定する方法に関し、各フレームの話者識別結果の貢献程度を測定し、各フレームの話者識別貢献度に基づいて話者識別結果の信頼度を測定し、これを話者の真偽判断に利用することにより、話者の検証時に提示された話者の真偽を正確に判断することができ、マルチチャンネル環境において話者識別の正確度を高めることができる技術が開示されている。
上述した情報は理解を助けるためのものに過ぎず、従来技術の一部を形成しない内容を含むこともあるし、従来技術が通常の技術者に提示することのできる内容を含まないこともある。
韓国公開特許第10-2010-0055168号公報
複数の話者の映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれるそれぞれのスピーチセグメントとの相関関係を計算し、計算された相関関係に基づき、各話者に対する話者モデルを構築し、構築された話者モデルに基づき、オーディオデータに含まれる音声を発話する話者を特定する、話者ダイアライゼーション方法を提供する。
オーディオデータから特定された話者が発話した音声を抽出してテキストに変換し、変換されたテキストを該当の音声が発話された時間情報と関連付けて記録することにより、話者同士のコミュニケーションを記録できるようにする方法を提供する。
一側面において、コンピュータシステムが実行する、複数の話者の映像(video)データとオーディオデータを利用して話者を分離する方法であって、前記映像データに含まれる前記話者それぞれの口の形状と、前記オーディオデータに含まれる前記話者からのスピーチセグメントそれぞれとの相関関係を計算する段階、前記計算された相関関係に基づき、前記話者それぞれの話者モデルを構築する段階、および前記構築された話者モデルに基づき、前記話者のうちで前記オーディオデータに含まれる音声を発話する話者を特定する段階を含む、話者ダイアライゼーション方法が提供される。
前記話者モデルを構築する段階では、前記話者の各話者に対し、前記スピーチセグメントのうちで前記各話者の口の形状との相関関係が高い上位N個のスピーチセグメントを前記各話者に対する話者モデルを構築するために使用し、Nは自然数であってよい。
前記各話者に対する話者モデルの構築には、前記N個のスピーチセグメントのうちで前記各話者の口の形状との相関関係が所定の閾値以上のスピーチセグメントだけが使用されてよい。
前記オーディオデータに含まれた前記話者のうちの2人以上の発言によって重なった音声は、前記重なった音声の発話時の前記話者の口の形状に基づいて前記重なった音声を発話した話者の発音を抽出し、前記抽出された発音に該当する前記オーディオデータの部分に対するマスクを生成し、前記重なった音声をフィルタリングすることにより、前記重なった音声を発話した話者それぞれの音声に分離してよい。
前記話者それぞれの口の形状は、前記映像データから前記話者それぞれの顔を認識し、前記認識された顔を追跡することによって識別されてよい。
前記話者を特定する段階は、前記映像データから前記話者それぞれの顔を検出し、前記検出された顔を追跡することで、前記各話者の口の形状と前記オーディオデータに含まれる発話された音声との相関関係を計算する段階、および前記計算された相関関係と前記構築された話者モデルを使用することで、前記発話された音声を発話した話者を特定する段階を含んでよい。
前記音声を発話した話者を特定する段階は、前記映像データにおいて、前記話者のうちの特定の話者の顔または前記特定の話者の口が隠れる(occluded)ことによって前記特定の話者と前記オーディオデータの前記発話された音声との相関関係が計算できない場合には、前記特定の話者と前記発話された音声との相関関係は0と見なしてよい。
前記話者を特定する段階は、前記オーディオデータに含まれる発話された音声を発話した話者の位置に関する情報を決定する段階、および前記決定された話者の位置に関する情報と前記構築された話者モデルを使用することで、前記発話された音声を発話した話者を特定する段階を含んでよい。
前記音声を発話した話者の位置に関する情報は、前記発話された音声の方向に関する情報を含み、前記方向に関する情報は、前記発話される音声と関連する方位角情報を含んでよい。
前記複数の話者のうち、前記映像データから顔は認識されたがまったく発話しないと認識された話者は無視してよい。
前記話者モデルを構築する段階は、前記複数の話者のうち、前記映像データから顔または口の形状が認識されないか前記話者モデルを構築するための口の形状とスピーチセグメントとの相関関係がまったく用意されずに前記話者モデルが構築されない特定の話者に対しては、前記相関関係を計算する段階で計算された相関関係が所定の値未満であるスピーチセグメントに対応する埋め込み(embedding)をクラスタリングすることにより、前記特定の話者に対する話者モデルを構築してよい。
前記映像データおよびオーディオデータは、前記話者をリアルタイムで撮影した映像に含まれるデータであってよい。
前記話者ダイアライゼーション方法は、前記オーディオデータから前記特定された話者が発話した音声を抽出する段階、前記抽出された音声をテキストに変換する段階、および前記変換されたテキストを前記抽出された音声が発話された時間情報と関連付けて記録する段階をさらに含んでよい。
前記話者ダイアライゼーション方法は、バンドパスフィルタを使用することで、前記オーディオデータから、人間の音声範囲を越える雑音(noise)をフィルタリングする段階をさらに含んでよい。
他の側面において、複数の話者の映像(video)データとオーディオデータを利用して話者を分離するコンピュータシステムであって、メモリ、および前記メモリに連結され、前記メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、前記映像データに含まれる前記話者それぞれの口の形状と、前記オーディオデータに含まれる前記話者からのスピーチセグメントそれぞれとの相関関係を計算し、前記計算された相関関係に基づき、前記話者それぞれに対する話者モデルを構築し、前記構築された話者モデルに基づき、前記オーディオデータから前記話者のうちで発話する話者を特定する、コンピュータシステムを提供する。
映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれる話者からのスピーチセグメントそれぞれとの相関関係に基づいて構築された各話者に対する話者モデルを、音声を発話する話者を特定するために使用することにより、映像データにおいて特定の話者が隠れた場合にも、該当の特定の話者による発話を正確に特定することができる。
構築された各話者に対する話者モデルに加え、音声を発話する話者を特定するために各話者の口の形状と発話される音声との相関関係および/または該当の音声が発話される位置に関する情報をさらに使用することにより、音声を発話する話者をより正確に特定することができる。
オーディオデータから特定された話者が発話した音声を抽出してテキストに変換し、変換されたテキストを該当の音声が発話された時間情報と関連付けて記録することにより、例えば、会議のような話者同士のコミュニケーションを自動で記録することができる。
一実施形態における、話者ダイアライゼーションシステムのパイプラインを簡単に示した図である。 一例として試験のために使用された映像データのスチールイメージを示した図である。 一例として試験のために使用された映像データとして、公開的なAMI会議データのスチールイメージを示した図である。 一例として試験のために使用された映像データとして、公開的なAMI会議データのスチールイメージを示した図である。 一実施形態における、音声を発話する話者ダイアライゼーションおよび分離(特定)された話者からの発話を記録する方法を示した図である。 一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。 一例として、話者同士の会議を記録した議事録を示した図である。 一実施形態における、話者モデルの構築方法および発話する話者を分離する方法を示したフローチャートである。 一例として、発話する話者を特定する方法を示したフローチャートである。 一例として、発話する話者を特定する方法を示したフローチャートである。
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
以下で説明する実施形態は、実際の会議で「誰が発言したのか」(すなわち、音声を発話した話者)を決定するための技術に関する。実施形態の方法は、ビデオ(例えば、360度カメラで撮影したサラウンドビュービデオ)および単一または多重チャンネルオーディオを入力として使用し、これを基に確かな話者ダイアライゼーション(Speaker diarisation)出力を生成する。
これを達成するために、本開示では、先ず、オーディオビジュアルの関連性(correspondence)を利用して話者モデルを登録し、登録されたモデルと視覚的情報を使用することで、アクティブ(active)話者(すなわち、発話する話者)を決定する、反復性のある新たな接近技法を提案する。
実施形態の方法は、実際の会議のデータセットに対して量的および質的に優れた性能を示す。実施形態の方法は、公開的なデータセットを対象として評価したときに、比較可能なすべての他の方法を上回る結果が出た(後述する試験結果を参照)。また、多重チャンネルオーディオを使用することができるときには、音声の位置および/または方向を抽出するためにビデオとともにビームフォーミングを使用する。
以下、実施形態の方法の背景と概要について説明する。
多重話者オーディオを単一話者セグメントに分解する作業である話者ダイアライゼーション(speaker diarisation)は、数年にわたって活発に研究されてきた分野であった。話者の音声は、オーディオだけが使用されるシングルモダリティ(single-modality)問題として取り扱われる反面、ビデオのようなモダリティを追加して取り扱われることもある。オーディオとオーディオビジュアルの両方に関する話者ダイアライゼーション技術は、次の2つに分けられる。
1つ目は、個人それぞれは異なる音声特性を持つという仮定による話者モデリング(Speaker Modeling:SM)に基づくものである。
一例として、話者モデルは、混合ガウスモデル(GMMs)とi-ベクトルで構成されてよい。また、話者モデリングに対してディープラーニングが効果的であるという立証に基づき、話者モデリングによる話者モデルは、ディープラーニングを通じて構築されてもよい。
多くのシステムにおける話者モデルは、ターゲット話者に対して予めトレーニングされたものが一般的であり、未知の参加者には適用が不可能な場合がある。他のアルゴリズムは、一般モデルおよびクラスタリングを使用することにより、未知の(unseen)話者にも適応されるようにしている。さらに、特徴クラスタリングに基づくオーディオビジュアルドメイン作業も多く存在する。
2つ目は、音源位置決定(Sound Source Localization:SSL)手法を利用するものである。これは、例えば、SRP-PHATのような強力なビームフォーミング方法により、SM基盤の接近法に比べてより優れた性能を実現する。しかし、SSL基盤の方法は、話者の位置が固定的であるか知られている場合しか有効でない。したがって、SSLは、視覚的情報を利用して話者の位置を追跡できる場合など、オーディオビジュアル方法の一部として利用されている。このような接近法は、参加者を効果的に追跡できるか否かの能力に大きく依存する。SSLは、本開示の実施形態における、動きおよび口の動きを測定する視覚的分析モジュールとの結合が可能である。
観測の各類型に応じて独立的なモデルを利用してSMおよびSSL接近法が結合されてよく、これらの情報は、ビタビアルゴリズムまたはベイジアンフィルタリングに基づいて確率論的フレームワークと融合されてよい。
本開示では、オーディオビジュアルデータを利用して話者の移動とオクルージョン(occlusions)を処理し、確かな話者ダイアライゼーションシステムを実現するシステムを提示する。このようなシステムのために、口または唇の動き(すなわち、口の形状)がはっきりと確認可能であるときに各参加者の言葉を検出するための最先端のディープオーディオビジュアル同期化ネットワークが使用されてよい。
このような情報は各参加者の話者モデルを登録するために使用されてよく、登録された話者モデルに基づき、参加者が隠れた場合であっても誰が発言するかを決定することができるようになる。各参加者に対して話者モデルを生成することにより、教師なし学習(クラスタリング)問題を、すべての参加者に属する音声セグメントの確率を推定する教師あり分類問題(supervised classification problem)によって作業を再構成することができる。マルチモーダル融合以前に観測の各類型に対する尤度を計算する技術とは異なり、本開示のオーディオビジュアル同期化は、話者登録過程で使用されてよい。
追加の説明として、マルチチャンネルマイクロフォンの可用性が高い場合、ビームフォーミングが音源の位置を推定するために適用されてよく、両方のモダリティからの空間手がかり(cue)がシステムの性能を向上させるために使用されてよい。
以下では、本発明の実施形態に係る、マルチモーダル話者ダイアライゼーションシステム(オーディオビジュアルシステム)について説明する。
オーディオビジュアルシステムのオーディオ処理部分は、周知のオーディオ処理システムの方法を含んで構成されてよい。例えば、音調強調(speech enhancement)システムとしては、シミュレーションされた訓練データに対して訓練された長・短期記憶(LSTM:Long Short-Term Memory)基盤の雑音除去モデルが使用されてよい。また、話者埋め込み(話者モデル)を抽出するために、事前に訓練されたxベクトルモデルが使用されてよい。xベクトル抽出器およびPLDAパラメータは、データ増強(相加性雑音(additive noise))をもつデータセットに対して学習されたものであってよい。
本発明の実施形態によると、ビデオ内から現在の話者を決定するために少なくとも3種類の情報(オーディオツービデオ(Audio to Video)相関関係、話者モデル、オーディオ方向など)が使用されてよい。
図1は、一実施形態における、話者ダイアライゼーションシステムのパイプラインを簡単に示した図である。
前処理段階では、映像データ内から顔部分を検出(Face detection)し、該当の顔部分を追跡(Face tracking)し、顔部分に対する顔部分映像を取得してよい。追加で、プロフィール(Profile)イメージを利用して顔認識(Face recognition)することにより、該当の顔部分映像が誰であるかを検知してよい。
顔検出および顔追跡においては、例えば、SSD(Single Shot MultiBoxDetector)基盤のCNN顔検出器が、ビデオのすべてのフレームから顔形状を検出するために使用されてよい。このような検出器は、多様なポーズと照明条件に基づいて顔を追跡してよい。位置基盤(position-based)顔追跡器は、個々の顔の検出を顔部分映像としてグループ化するために使用されてよい。
顔認識においては各参加者の顔イメージが求められるが、これにより、会議室内において、これらの位置とは関係なく顔を識別および追跡できるようになる。これは、ユーザ入力またはプロフィールイメージによって構成されてよい。すべての参加者の顔イメージは、一般的に周知の顔認識のための特徴(feature)、例えば、VGGFace2ネットワークを利用した埋め込み(embedding)で表現され、記録されてよい。
図2のように、複数話者が会話をやり取りする映像内から顔部分を検出し(四角領域で表示)、該当の顔部分映像を順にFace track 1、Face track 2、・・・Face track nと命名する。このうち、Face track 1を予め登録された1つ以上のプロフィールイメージと比較してFace track 1に対応する話者が誰なのかを特定し、具体的な話者の身元を確認してよい。
オーディオデータの前処理方法(図示せず)は、オーディオデータに含まれる人間の音声範囲を超える雑音を減少させるために、200~7000Hzをカバーするバンドパスフィルタを通過させることを含んでよい。また、例えば、音声活動検出器は、オーディオ内にスピーチがあるか否かを識別するために使用されてよい。
図1の段階1(Phase 1)では、オーディオおよび顔部分映像データに対し、オーディオツービデオ相関関係(AV相関関係)を利用して話者モデルを登録する。
図1の段階2(Phase 2)では、登録された話者モデル、オーディオ、および顔部分映像データを利用し、現在の発話の話者が誰なのかを確認してよい。具体的に、1)オーディオおよび話者モデルを利用して話者検証(Speaker verification)を行い、2)オーディオを利用して発話方向を計算し、3)オーディオおよび顔部分映像を利用してAV相関関係を計算し、1)~3)の結果を利用して最終的に発話者を決定してよい。
本発明の一実施形態では、段階2を実施する前に、オーディオおよびビデオデータ全体に対して段階1を実施して話者モデルを登録する方法を使用し、以下でもこのような実施形態を基準として説明するが、段階2で登録されなかった新たな話者に対しては、話者モデルを登録しながら話者ダイアライゼーションを実行する方法の実施形態でも実現可能である。
以下、実施形態のオーディオビジュアルシステムのオーディオツービデオの相関関係(AV correlation)について説明する。オーディオおよび口の動きのクロスモーダル(cross-modal)埋め込み(embedding)は、それぞれの信号を示すために使用されてよい。このようなジョイント(joint)(組み合わされた)埋め込みを訓練するための戦略は、例えば、次に説明するとおりである。
ネットワークは、2つのストリーム(MFCC(Mel-Frequency Cepstral Coefficients)入力を512次元ベクトルにエンコードするオーディオストリーム、およびクロップされた顔イメージを512次元ベクトルにエンコードするビデオストリーム)で構成されてよい。ネットワークは、1つのビデオクリップとN個のオーディオクリップのマルチウェイ(multi-way)マッチング作業によって訓練されてよい。オーディオとビデオ特徴のユークリッド距離が計算され、N個の距離が結果として算出されてよい。ネットワークは、ソフトマックス(soft max)レイヤを通過した後、このような距離の逆数に対する交差エントロピー誤差によって学習されてよく、したがって、マッチングする対の類似度は非マッチングするものよりも大きくなる。
2つの埋め込みのコサイン距離が2つの入力の関連性(correspondence)を測定するために使用されてよい。したがって、顔イメージが現在の話者(発話する話者)に対応すれば特徴の間の小さな距離が期待され、そうでない場合には同調(in-sync)および遠距離(large distance)が期待される。ビデオは、1つの連続的なソースを基にするため、AVオフセットはセッション全体にわたって固定されているものと仮定してよい。埋め込み距離は、アウトライアを取り除くために中間値フィルタ(median filter)を使用することにより、時間によってスムーズ(smooth)になる。
以下では、実施形態のオーディオビジュアルシステムの話者モデルおよびこれを登録する方法について説明する。AV相関関係は、口の動きが明確に見えるときしか使用することができないため、本開示では、各話者に対する話者モデル、例えば、オクルージョン(隠れ)のせいでオーディオビジュアル同期化が不可能なときでも(または、このような信号の可用性が低い場合でも)アクティブ話者(すなわち、発話する話者)を決定することができるようにする。
本発明の実施形態では、AV相関関係によって該当のオーディオ区間の発話者が識別されたオーディオデータを使用することで、該当の発話者に対する話者モデル(話者埋め込み)を登録してよい。
一実施形態において、オーディオデータを一定の時間(例えば、それぞれ1.5秒または2秒)間隔に分けた区間であるスピーチセグメントのうち、事前にビデオ全体で実行されて各話者に対する確かなスピーチセグメントを求め、これを利用して話者モデルを取得してよい。
実施形態においては、一例として、N=10(または3)が使用されてよく、AV相関関係の閾値を超える確信セグメントがN個よりも少ない場合には、相関関係が閾値を超えるセグメントだけが話者モデルを登録するために使用されてよい。
セグメントを利用して話者モデルを抽出するためには、x-vectorやResNetなどのような従来のモデルが使用されてよいが、これに限定されることはない。さらに深いモデルは、小さなxベクトルモデルよりも難しいデータセットを適切に一般化することができるため、訓練された深いResNet-50モデルを使用することが好ましい。
例えば、話者モデルは、1.5秒ウィンドウに基づいて特徴値(feature)を計算し、基準システムによって1回に0.75秒ずつ動くことにより(または、1回に1フレームずつ動きながら)抽出されてよい。各タイムステップにおける話者モデルと登録された話者モデルとを比較することにより、任意の話者に属するスピーチセグメントの尤度(likelihood)が推定されてよい。推論時間に視覚的情報がまったくなかったとしても、これは教師なしクラスタリングに比べて一般的により確かな教師あり分類問題となり得る。すなわち、これは、分類または対の確認の問題となり、クラスタリングに比べて一般的に極めて強い性能を生み出すことができる。
以下では、実施形態のオーディオビジュアルシステムが使用する音源位置決定(Sound Source Localization:SSL)について説明する。話者モデルはもちろんであるが、音源の方向は、誰が発話するかに対する有用な手がかりとなる。音源の方向を決定するためには、例えば、カメラへの4チャンネルマイクロフォンからの記録物のオーディオソースの方向が各オーディオサンプルに対して推定され、すべてのビデオフレームに対する方向は10度の区間サイズ(bin size)を有し、±0.5秒間(period)に対するすべての方位角(azimuth)θ値のヒストグラムを生成することによって決定されてよい。
与えられた時間にいずれかの話者に属するオーディオの尤度(likelihood)は、推定されたオーディオソースおよび該当の話者に対するビデオにおける顔検出の角度と相関してよい。
以下では、実施形態に係るオーディオビジュアルシステムにおけるマルチモーダルの融合について説明する。
3種類の情報(AV相関関係、話者モデル、オーディオ方向)は、各話者およびタイムステップに対する信頼度点数を提供してよい。このような点数は、以下で説明するように、簡単な加重値が適用された融合を利用してすべての話者およびタイムステップに対して単一な信頼度点数(Coverall)に結合されてよい。ここで、Csmは話者モデルからの信頼度点数であり、CavcはAV対応からの点数であり、θ*およびφはそれぞれ顔の角度(位置)およびオーディオの推定されたDoA(Directional of Arrival、オーディオが聞こえてくる方向)を意味する。αおよびβはそれぞれ所定の加重値を示し、それぞれの点数の重要度に応じてその値が調節されてよい。一般的には、訓練データのうちで最も優れた性能を与える値を使用する。
以下の数式(1)において、カメラからは特定の話者が見えないとき、2番目および3番目の項は0に設定されてよい。
overall=Csm+α*Cavc+β*cosine(φ-θ*)・・・(1)
計算された信頼度点数(Coverall)に基づき、該当のタイムステップで発話される音声を発話した話者が特定されてよい。
以下では、一般的なオーディオシステムと実施形態のオーディオビジュアルシステムの性能の比較試験について説明する。本開示では、2つの独立的なデータセット(360度に録画された会議の内部データセットおよび公開的に可用性の高いAMI会議コーパス)に対して評価された。それぞれについては、以下でより詳しく説明する。
内部会議データセットは、ビデオ録画に関して参加者から特別な指示のない、定期的な会議のオーディオビジュアル記録で構成される。会議は、作業空間における一日討論の一部を形成したものであり、話者ダイアライゼーションの作業を念頭において設定されたものではない。データセットの相当部分は、話者が頻繁に変わる極めて短い発話で構成されているが、これは話者ダイアライゼーションにおいて極めて困難な条件となる。ビデオは、2つの魚眼レンズをもち、会議の360度ビデオをキャプチャするGoPro(登録商標) Fusionカメラで録画されたものとする。ビデオは、1秒あたり25フレームであり、5228×2624解像度の単一サラウンドビュービデオにともに結合されてよい。オーディオは、48kHzで4チャンネルマイクによって録音されてよい。このようなデータセットのスチールイメージは、図2に示すとおりである。図2は、一実施形態に係る試験のために使用された映像データのスチールイメージを示している。
データセットには、約3時間の有効性検証セットと、40分の慎重に注釈が追加されたテスト(test)セットが含まれてよい。テストビデオには9人の話者が存在する。発言が重なる場合は、主な(最大の音の)発言者のIDだけに注釈を付与した。埋め込み抽出器およびAV同期化ネットワークは、外部データセットに対して訓練され、検証セットは、基準システムにおけるAHC閾値および実施形態のシステムにおける融合加重値をチューニングするためだけに使用されてよい。
AMIコーパスは、多数の位置から録画した100時間のビデオで構成されており、実施形態のシステムは、100時間の分量のビデオのうち、約30時間および17時間の分量のビデオをそれぞれ含むESおよびISカテゴリの会議に対して評価した。画質は相対的に低く、ビデオ解像度は288×352ピクセルである。オーディオは、直径20cmの8要素円形等間隔(equispaced)マイクアレイから録音されたものである。しかし、大部分の本試験においては、アレイのマイクが1つだけ使用されてもよい。ビデオは、会議の参加者それぞれのクローズアップビューを提供する4台のカメラで録画され、上述した内部データセットとは異なり、イメージはともに連結されない。ESビデオは、閾値をチューニングするための検証セットとして使用されてよい。図3aおよび3bは、一例による試験のために使用された映像データであって、公開的なAMI会議データのスチールイメージを示している。図3aは、会議の参加者それぞれのクローズアップビューを示した映像データのスチールイメージであり、図3bは、会議の参加者とホワイトボードを撮影する遠景映像に対応する映像データのスチールイメージである。
検出された各顔部分映像に対し、顔埋め込みはVGGFace2を利用して抽出し、N個の記録された顔認識のためのFeature(埋め込み)のそれぞれと比較され、したがって、これらはN個の話者のうちの1つに分類されてよい。いずれの時点であっても、同時に発生する顔部分映像が同じ話者を示すことはできないという制約条件が適用された。
以下の表1では、基準システムと実施形態のオーディオビジュアルシステムの性能の比較試験による話者ダイアライゼーションの結果を示している。数値が低い収録性能がより優秀であること示している。最後の4行を除いてはAMIデータセットの結果を示している。WBはホワイトボード;NWBはホワイトボードなし;Xch+VはX個のチャンネルオーディオ+ビデオ;SMは話者モデリング;AVCはオーディオビジュアル対応;SSLは音源位置検索;MSは聞き逃したスピーチ;FAはエラーアラーム;SPKEは話者エラー;DERは:話者ダイアライゼーションのエラー率を示す。
Figure 0006999734000001
評価指標に関し、性能指標としてDERを使用した。DERは、聞き逃したスピーチ(MS、参照(reference)話者にはあるが仮定の話者にはない)、エラーアラーム(FA、仮定の話者にはあるが参照話者にはない)、および話者エラー(SPKE、話者IDが他の話者に割り当てられる)の3つの成分に分解されてよい。
システムを評価するために使用されたツールは、NISTによってRT話者ダイアライゼーションを評価するために開発されたものであり、参照注釈の人的ミスを補うために250msの許容マージンを含んでいる。
AMIコーパスに対する結果として上記表1を参照する。ホワイトボードが使用される会議の数字は別途提供されるため、その結果が比較される。
すべての試験において同一のVADシステムが使用されたため、聞き逃したスピーチおよびエラーアラームの割合は、各データセットに対して互いに異なるモデルにおいて同一である。したがって、話者エラー率(SPKE)だけが、話者ダイアライゼーションシステムによって影響を受ける指標となる。
話者モデルオンリーシステム(SM)は、話者モデルの登録タイミングを検索するためだけに視覚的情報を使用し、使用推論中にはオーディオだけを使用するものであってよい。オーディオ処理パイプラインと埋め込み抽出器として共通なものを利用して実験したとき、性能利得は、クラスタリング問題をダイアライゼーション問題に変更することから発生する。これだけでも、ESおよびISセットにおいて、話者エラーがそれぞれ48%および26%と相対的に向上した。
表1の結果から、推論時にAV相関関係(AVC)と音源位置決定(SSL)を追加すれば、性能が明らかに向上することを確認することができる。全般的な相対性能に対するこのようなモダリティの寄与は、テストセットによってそれぞれ20~40%および19~39%であることを確認することができる。このような結果は、すべてのテスト条件において、従来技術の結果を大きく上回ることを現わしている。
内部会議データセットで話者エラー率は著しく悪化するようになるが、これは、データセットの困難な特性(challenging nature)と話者の人数が多いため起こる。表1の結果から、基準システムは、このようなデータセットで一般化されないが、実施形態のマルチモーダルシステムは、このような「実際のデータ」でも比較的優れた性能を実現することを確認することができる。
上述のような結果から、本開示の実施形態では、話者モデルを登録するためにオーディオビジュアルの相関関係の利点を活用するマルチモーダルシステムを取り入れることにより、話者ダイアライゼーションのために一般的に使用されるクラスタリング方法に比べ、相当な利点を達成することを確認することができる。
追加で、以下では、話者モデルとして登録されていない話者を処理する方法について説明する。多様な理由によって未登録の話者がセッション(会議)に参加することがある。このような場合とは、例えば、会議で(1)まったく発話しない人がいる場合、(2)オクルージョンによってAV相関関係がまったく用意されない場合、または(3)電話で会議に参加する人がいる場合、が挙げられる。
これに関しては、2つの可能な解決策を提案する。先ず、(1)の場合、まったく発話しない人は無視すると仮定してよい。また、(2)および(3)の場合は、図1の段階2(Phase 2)を行った後、AV相関関係と話者認識の両者に対し、信頼度の低いいずれかのアクティブモデルをクラスタリングして(2)および(3)に該当する話者を登録(すなわち、話者モデルを構築)するようにしてよい。
以下では、図4~図9を参照しながら、実施形態のシステムのより具体的な構造および実現方法について説明する。
図4は、一実施形態における、音声を発話する話者ダイアライゼーションおよび分離(特定)された話者からの発話を記録する方法を示している。
図4を参照しながら、上述した実施形態のオーディオビジュアルシステム(マルチモーダルシステム)を利用して音声を発話する話者を分離し、分離された話者の音声を記録する方法について説明する。
図に示した例では、360度カメラとマイク(図示せず)により、話者(話者A~D)に対する映像(video)データおよび音声データをそれぞれ取得することを示している。実施形態のオーディオビジュアルシステムは、映像データに含まれる話者A~Dそれぞれの口の形状(例えば、口または唇の形状の変化)とオーディオデータに含まれる話者A~Dそれぞれからのスピーチセグメントとの相関関係を計算し、これに基づき、話者A~Dそれぞれに対する話者モデルを構築(登録)してよい。実施形態のオーディオビジュアルシステムは、構築された話者モデルに基づき、話者A~Dのうちからオーディオデータに含まれる音声を発話する話者を特定してよい。すなわち、オーディオビジュアルシステムは、オーディオデータから話者A~Dそれぞれの発話を特定してよい。
例えば、話者A~Dは会議に参加している一員であってよく、オーディオビジュアルシステムは会議中に発話する話者を特定してよい。
オーディオビジュアルシステムは、オーディオデータから特定された話者が発話した音声を抽出し、抽出された音声をテキストに変換してよく、変換されたテキストと抽出された音声が発話された時間情報とを関連付けて記録してよい。例えば、オーディオビジュアルシステムは、話者A~Dが参加する会議の議事録として、前記テキストと時間情報を関連付けて記録してよい。
図6は、一例による、話者同士の会議を記録した議事録を示した図である。
図に示すように、オーディオビジュアルシステムによって特定された話者A~Dそれぞれに対し、各話者が発話した音声がテキストに変換され、該当の音声は、発話された時間情報とともに議事録600として記録されてよい。図に示してはいないが、議事録600は、各話者と関連するイメージ(例えば、各話者の顔写真またはサムネイル)をさらに含んでよい。
より具体的な話者特定方法とオーディオビジュアルシステムの構成および動作については、図5および図7~図9を参照しながらより詳しく説明する。
以上、図1~図3を参照しながら説明した技術的特徴についての説明は、図4および図6にもそのまま適用されるため、重複する説明は省略する。
図5は、一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。
例えば、本発明の実施形態に係る、音声を発話する話者を特定するための話者ダイアライゼーション装置は、図5のコンピュータシステム500によって実現されてよい。コンピュータシステム500は、上述したオーディオビジュアルシステムに対応してよい。図5に示すように、コンピュータシステム500は、音声を発話する話者を特定する話者ダイアライゼーション方法を実行するための構成要素として、プロセッサ510、メモリ520、永続的記録装置530、バス540、入力/出力インタフェース550、およびネットワークインタフェース560を含んでよい。コンピュータシステム500は、図に示すものとは異なり、複数のコンピュータシステムで構成されてもよい。コンピュータシステム500は、例えば、複数の話者同士の会議のようなコミュニケーションを記録するためのシステムまたはその一部であってよい。コンピュータシステム500は、話者を撮影するカメラが含まれる装置内に含まれるか、カメラが含まれる装置と有線および/または無線通信するコンピュータ、またはその他のサーバであるか、その一部であってもよい。
プロセッサ510は、音声を発話する話者を特定する話者ダイアライゼーション方法を実現するための構成要素として、命令語のシーケンスを処理することのできる任意の装置を含むか、その一部であってよい。プロセッサ510は、例えば、コンピュータプロセッサ、移動装置、または他の電子装置内のプロセッサおよび/またはデジタルプロセッサを含んでよい。プロセッサ510は、例えば、サーバコンピュータデバイス、サーバコンピュータ、一連のサーバコンピュータ、サーバファーム、クラウドコンピュータ、コンテンツプラットフォームなどに含まれてよい。プロセッサ510は、バス540を介してメモリ520に接続されてよい。
メモリ520は、コンピュータシステム500によって使用されるか、これによって出力される情報を記録するための揮発性メモリ、永続的、仮想、またはその他のメモリを含んでよい。メモリ520は、例えば、RAM(random access memory)および/またはDRAM(dynamic RAM)を含んでよい。メモリ520は、コンピュータシステム500の状態情報のような任意の情報を記録するために使用されてよい。メモリ520は、例えば、音声を発話する話者を特定する話者ダイアライゼーション方法の実行のための命令語を含むコンピュータシステム500の命令語を記録するために使用されてもよい。コンピュータシステム500は、必要な場合または適切な場合に1つ以上のプロセッサ510を含んでよい。
バス540は、コンピュータシステム500の多様なコンポーネント間の相互作用を可能にする通信基盤構造を含んでよい。バス540は、例えば、コンピュータシステム500のコンポーネント間に、例えば、プロセッサ510とメモリ520との間にデータを運搬してよい。バス540は、コンピュータシステム500のコンポーネントの間の無線および/または有線通信媒体を含んでよく、並列、直列、または他のトポロジ配列を含んでよい。
永続的記録装置530は、(例えば、メモリ520に比べて)所定の延長された期間にわたってデータを記録するためにコンピュータシステム500によって使用されるもののようなメモリ、または他の永続的記録装置のようなコンポーネントを含んでよい。永続的記録装置530は、コンピュータシステム500内のプロセッサ510によって使用されるもののような非揮発性メインメモリを含んでよい。永続的記録装置530は、例えば、フラッシュメモリ、ハードディスク、オプティカルディスク、または他のコンピュータ読み取り可能媒体を含んでよい。永続的記録装置530は、例えば、上述した議事録600または議事録600と関連するデータを記録してよい。
入力/出力インタフェース550は、キーボード、マウス、音声命令入力、ディスプレイ、または他の入力/出力装置に対するインタフェースを含んでよい。音声を発話する話者を特定する話者ダイアライゼーション方法と関連する命令および/または入力は、入力/出力インタフェース550によって受信されてよい。
ネットワークインタフェース560は、近距離ネットワークまたはインターネットのようなネットワークに対する1つ以上のインタフェースを含んでよい。ネットワークインタフェース560は、有線または無線接続に対するインタフェースを含んでよい。音声を発話する話者を特定する話者ダイアライゼーション方法と関連する命令および/または入力は、ネットワークインタフェース560によって受信されてよい。
また、他の実施形態において、コンピュータ装置500は、図5の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置500は、上述した入力/出力インタフェース550と連結する入/出力装置のうちの少なくとも一部を含むように実現されてもよいし、またはトランシーバ(transceiver)、GPS(Global Positioning System)モジュール、カメラ(例えば、話者を撮影するための360度カメラ)、マイクロフォン(例えば、話者の音声を記録するための少なくとも1つのマイクロフォン)、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。
このようなコンピュータシステム500によって実現される実施形態により、映像データに含まれる話者それぞれの口の形状と、オーディオデータに含まれる話者からのスピーチセグメントそれぞれとの相関関係を計算し、計算された相関関係に基づき、各話者に対する話者モデルを構築し、構築された話者モデルに基づき、オーディオデータに含まれた音声を発話する話者を特定する話者ダイアライゼーション方法が提供されてよい。
以上、図1~図4を参照しながら上述した技術的特徴についての説明は、図5にもそのまま適用されるため、重複する説明は省略する。
図7は、一実施形態における、話者モデルの構築方法および発話する話者を分離する方法を示したフローチャートである。
図7を参照しながら、コンピュータシステム500によって実行される、音声を発話する話者を特定する話者ダイアライゼーション方法について詳しく説明する。
話者を分離するためには、複数の話者の映像データおよびオーディオデータが使用されてよい。映像データは、複数の話者がカメラで撮影されたものであってよく、オーディオデータは、該当の映像データに対応してよい。すなわち、映像データおよびオーディオデータは、1つの映像(video)を構成してよい。例えば、映像データおよびオーディオデータは、話者をリアルタイムで撮影する映像に含まれるデータであってよく、あるいは、予め撮影された話者の映像に含まれるデータであってもよい。
段階720において、プロセッサ510は、映像データに含まれる話者それぞれの口の形状(例えば、口の形状の変化)と、オーディオデータに含まれるスピーチセグメントそれぞれとの相関関係を計算してよい。スピーチセグメントは、オーディオデータに含まれた各話者の音声の一部であって、所定の時間(例えば、1.5秒)内の音声に対応してよい。話者それぞれの口の形状は、プロセッサ510が映像データから話者それぞれの顔を認識し、認識された顔を追跡することによって識別されてよい。
段階730において、プロセッサ510は、計算された相関関係に基づき、話者それぞれに対する話者モデルを構築して登録してよい。言い換えれば、段階730は、コミュニケーションと関連する(例えば、会議に参加する)話者(話者モデル)それぞれを登録する段階であってよい。
プロセッサ510は、一例として、各話者に対し、オーディオデータに含まれるスピーチセグメントのうち、各話者の口の形状との相関関係が高い上位N個のスピーチセグメントを各話者に対する話者モデルを構築するために利用してよい。Nは自然数であってよく、例えば10であってよい。また、プロセッサ510は、N個のスピーチセグメントのうち、各話者の口の形状との相関関係が所定の閾値以上のスピーチセグメントだけを各話者に対する話者モデルの構築(および登録)のために利用してよい。
段階740において、プロセッサ510は、構築された話者モデルに基づき、話者のうちからオーディオデータに含まれた音声を発話する話者を特定してよい。例えば、プロセッサ510は、オーディオデータ(または、これを含む映像)の再生時に発話される音声がどの話者によって発話されたものであるかを特定してよい。
他の実施形態において、オーディオデータがリアルタイムオーディオデータ(すなわち、話者同士の会議をリアルタイムで撮影する映像に含まれるオーディオデータ)である場合にも、プロセッサ510は、発話される音声がどの話者によって発話されたものであるかをリアルタイムで(または、ほぼリアルタイムで)特定してよい。このとき、プロセッサ510は、リアルタイムで撮影される映像に対し、リアルタイムで(または、ほぼリアルタイムで)各話者に対するモデルを構築(登録)したり、予め構築(登録)された話者に対するモデルを更新したりしてよい。
一方、オーディオデータが、2人以上の話者の発言によって重なった音声を含む場合、このような重なった音声を分離して処理してよい。例えば、プロセッサ510は、重なった音声の発話時の話者の口の形状(唇の動き)に基づき、重なった音声を発話した話者の発音を抽出してよく、前記抽出された発音に該当するオーディオデータで部分に対するマスクを生成し、前記重なった音声をフィルタリングしてよい。これにより、複数人の話者が同時に発話して重なった音声は、発話した話者それぞれの音声に分離されて記録されてよい。
段階710に示すように、映像データおよび/またはオーディオデータは、段階720の実行に先立って前処理されてよい。例えば、プロセッサ510は、バンドパスフィルタ(一例として、200~7000Hz範囲)を使用することにより、オーディオデータから、人間の音声範囲を越える雑音を取り除いてよい。また、プロセッサ510は、映像データから特定の人物の顔を認識するための前処理を実行してよい。プロセッサ510は、映像データから顔を検出し、検出された顔を追跡することにより、映像データから特定の人物の顔を認識してよい。このとき、予め登録(記録された)話者のプロフィールイメージ(ら)をさらに利用して特定が行われてもよい。
段階750において、プロセッサ510は、オーディオデータから特定された話者が発話した音声を抽出してよい。
段階760において、プロセッサ510は、抽出された音声をテキストに変換してよい。音声をテキストに変換するためには、該当のSTT(Speech To Text)技術が利用されてよい。例えば、人工知能、ディープラーニング、またはその他のニューラルネットワークで実現されたモジュールによって音声がテキストに変換されてよい。
段階770において、プロセッサ510は、変換されたテキストと、抽出された音声が発話された時間情報とを関連付けて記録してよい。例えば、プロセッサ510は、図6に示した議事録600のように、各話者の発言内容とその発言時刻とを関連付けて記録してよい。これにより、コンピュータシステム500は、話者同士のコミュニケーションを話者別に区分して自動で記録することができる。
実施形態では、映像データ内で特定の話者の口が隠れた状態で前記特定の話者からの発話がある場合であっても、構築された話者モデルに基づき、該当の発話が前記特定の話者によるものであるかを識別することができる。
一方、複数の話者のうち、映像データから顔は認識されるがまったく発話しないと認識される話者は、無視されてよい。すなわち、このような話者に対する話者モデルは、構築されなくてもよい。あるいは、コンピュータシステム500には、映像データからの顔が認識されることより、会議の参加者としては存在するが発言はまったくなかった話者という点を示す情報が記録されてよい。
段階730における話者モデルの構築にあたり、複数の話者のうち、映像データから顔または口の形状が認識されなかったり(例えば、電話で会議に参加した場合など)、または話者モデルを構築するための口の形状とスピーチセグメントとの相関関係がまったく用意されていなかったりすることを理由に、話者モデルが構築されない(すなわち、話者モデルの構築が不可能な)特定の話者に対しては、プロセッサ510は、段階720における相関関係を計算する段階で計算された相関関係が所定の値未満であるスピーチセグメントに対応する埋め込み(または特徴値)をクラスタリングすることにより、前記特定の話者に対する話者モデルを構築してよい。これにより、映像データを使用する相関関係分析によっては話者モデルが構築されなかった話者に対しても、話者モデルを構築することができる。
以上、図1~図6を参照しながら上述した技術的特徴についての説明は、図7にもそのまま適用されるため、重複する説明は省略する。
図8および図9は、一例による、発話する話者を特定する方法を示したフローチャートである。
図8および図9を参照しながら、段階740の音声を発話する話者を特定する方法について詳しく説明する。
段階810において、プロセッサ510は、映像データから各話者の顔部分を検出し、検出された顔を追跡し、各話者の口の形状とオーディオデータに含まれた音声との相関関係を計算してよい。段階820において、プロセッサ510は、計算された相関関係と構築された話者モデルを使用し、該当の区間の音声を発話した話者を特定してよい。話者モデルの構築時だけでなく、話者を特定するときにも、映像データを利用して計算された話者の口の形状と音声との相関関係を使用すれば、話者ダイアライゼーションの正確性をより高めることができる。
このとき、映像データにおいて、話者のうち、特定の話者の顔または特定の話者の口が隠れる(occluded)ことによって該当の特定の話者とオーディオデータで発話される音声との相関関係が計算できない場合には、前記特定の話者と発話される音声との相関関係は0と見なされてよい。したがって、特定の話者の口が隠れたときには、プロセッサ510は、該当の特定の話者に対しては、前記発話される音声に対する話者を特定するために構築された話者モデルだけを利用してよい。
段階910において、プロセッサ510は、オーディオデータに含まれた音声が発話される話者の位置に関する情報を決定してよい。音声が発話される話者の位置に関する情報は、発話される音声の方向に関する情報を含んでよい。方向に関する情報は、発話される音声と関連する方位角情報および/または高度情報を含んでよい。あるいは、位置に関する情報は、オーディオデータを記録するために使用されたマイクと話者に該当する音源の位置関係を示すデータを含んでもよい。
段階920において、プロセッサ510は、決定された話者の位置に関する情報と構築された話者モデルを利用して音声を発話した話者を特定してよい。構築された話者モデルだけでなく、音声が発話される話者の位置に関する情報(すなわち、該当の音声(音声信号)の方向に関する情報)をさらに使用することにより、話者ダイアライゼーションの正確性をより高めることができる。
上述した試験結果に示したように、話者モデルのような、話者の口の形状と音声との相関関係および/または話者の位置に関する情報をさらに使用することにより、話者ダイアライゼーションの正確性をより高めることができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
500:コンピュータシステム
510:プロセッサ
520:メモリ
530:永続的記録装置
540:バス
550:入力/出力インタフェース
560:ネットワークインタフェース

Claims (18)

  1. コンピュータシステムが実行する、複数の話者の映像データおよびオーディオデータを利用して話者を分離する方法であって、
    前記映像データに含まれる前記話者それぞれの口の形状と、前記オーディオデータに含まれる前記話者からのスピーチセグメントそれぞれとの相関関係を計算する段階、
    前記計算された相関関係に基づき、前記話者それぞれに対する話者モデルを構築する段階、および
    前記構築された話者モデルに基づき、前記話者のうちで前記オーディオデータに含まれる音声を発話する話者を特定する段階
    を含み、
    前記話者モデルを構築する段階では、
    前記話者の各話者に対し、前記スピーチセグメントのうち、前記各話者の口の形状との相関関係が高い上位N個のスピーチセグメントを前記各話者に対する話者モデルを構築するために使用し、
    Nは自然数である、話者ダイアライゼーション方法。
  2. 前記各話者に対する話者モデルの構築には、前記N個のスピーチセグメントのうち、前記各話者の口の形状との相関関係が所定の閾値以上であるスピーチセグメントだけが使用される、
    請求項1に記載の話者ダイアライゼーション方法。
  3. 前記オーディオデータに含まれる前記話者のうちの2人以上の発言が重なった音声は、前記重なった音声の発話時の前記話者の口の形状に基づいて前記重なった音声を発話した話者の発音を抽出し、前記抽出された発音に該当する前記オーディオデータの部分に対するマスクを生成して前記重なった音声をフィルタリングすることにより、前記重なった音声を発話した話者それぞれの音声に分離される、
    請求項に記載の話者ダイアライゼーション方法。
  4. 前記話者それぞれの口の形状は、前記映像データから前記話者それぞれの顔を認識し、前記認識された顔を追跡することによって識別される、
    請求項1に記載の話者ダイアライゼーション方法。
  5. 前記話者を特定する段階は、
    前記映像データから前記話者の各話者の顔を検出し、前記検出された顔を追跡し、前記各話者の口の形状と前記オーディオデータに含まれる発話された音声との相関関係を計算する段階、および
    前記計算された相関関係と前記構築された話者モデルを使用し、前記発話された音声を発話した話者を特定する段階を含む、
    請求項1に記載の話者ダイアライゼーション方法。
  6. 前記音声を発話した話者を特定する段階は、
    前記映像データにおいて、前記話者のうち、特定の話者の顔または前記特定の話者の口が隠れることによって前記特定の話者と前記オーディオデータの前記発話された音声との相関関係が計算されない場合には、
    前記特定の話者と前記発話された音声との相関関係は0と見なす、
    請求項に記載の話者ダイアライゼーション方法。
  7. 前記話者を特定する段階は、
    前記オーディオデータに含まれる発話された音声を発話した話者の位置に関する情報を決定する段階、および
    前記決定された話者の位置に関する情報と前記構築された話者モデルを利用して前記発話された音声を発話した話者を特定する段階を含む、
    請求項1に記載の話者ダイアライゼーション方法。
  8. 前記音声を発話した話者の位置に関する情報は、前記発話された音声の方向に関する情報を含み、
    前記方向に関する情報は、前記発話された音声と関連する方位角情報を含む、
    請求項に記載の話者ダイアライゼーション方法。
  9. 前記複数の話者のうち、前記映像データから顔は認識されるがまったく発話しないと認識される話者は無視される、
    請求項1に記載の話者ダイアライゼーション方法。
  10. 前記話者モデルを構築する段階は、
    前記複数の話者のうち、前記映像データから顔または口の形状が認識されないか前記話者モデルを構築するための口の形状とスピーチセグメントとの相関関係がまったく用意されないことによって前記話者モデルが構築されない特定の話者に対しては、
    前記相関関係を計算する段階で計算された相関関係が所定の値未満であるスピーチセグメントに対応する埋め込みをクラスタリングすることにより、前記特定の話者に対する話者モデルを構築する、
    請求項1に記載の話者ダイアライゼーション方法。
  11. 前記映像データおよびオーディオデータは、前記話者をリアルタイムで撮影した映像に含まれるデータである、
    請求項1に記載の話者ダイアライゼーション方法。
  12. 前記オーディオデータから前記特定された話者が発話した音声を抽出する段階、
    前記抽出された音声をテキストに変換する段階、および
    前記変換されたテキストを前記抽出された音声が発話された時間情報と関連付けて記録する段階
    をさらに含む、請求項1に記載の話者ダイアライゼーション方法。
  13. 請求項1~12のうちのいずれか一項に記載の話者ダイアライゼーション方法をコンピュータで実行させる、コンピュータプログラム。
  14. 請求項1~12のうちのいずれか一項に記載の話者ダイアライゼーション方法をコンピュータで実行させるためのプログラムが記録されている、コンピュータ読み取り可能記録媒体。
  15. 複数の話者の映像データおよびオーディオデータを利用して話者を分離するコンピュータシステムであって、
    メモリ、および
    前記メモリと連結され、前記メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成される少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    前記映像データに含まれる前記話者それぞれの口の形状と、前記オーディオデータに含まれる前記話者からのスピーチセグメントそれぞれとの相関関係を計算し、前記計算された相関関係に基づき、前記話者それぞれに対する話者モデルを構築し、前記構築された話者モデルに基づき、前記オーディオデータから前記話者のうちで発話する話者を特定し、
    前記話者モデルを構築するのは、前記話者の各話者に対し、前記スピーチセグメントのうち、前記各話者の口の形状との相関関係が高い上位N個のスピーチセグメントを前記各話者に対する話者モデルを構築するために使用し、
    Nは自然数である、
    コンピュータシステム。
  16. 前記少なくとも1つのプロセッサは、
    前記映像データから前記話者の各話者の顔を検出し、前記検出された顔を追跡し、前記各話者の口の形状と前記オーディオデータに含まれる発話された音声との相関関係を計算し、前記計算された相関関係と前記構築された話者モデルを利用して前記発話された音声を発話した話者を特定する、
    請求項15に記載のコンピュータシステム。
  17. 前記少なくとも1つのプロセッサは、
    前記オーディオデータに含まれる発話された音声を発話した話者の位置に関する情報を決定し、前記決定された話者の位置に関する情報と前記構築された話者モデルを利用して前記発話された音声を発話した話者を特定する、
    請求項15に記載のコンピュータシステム。
  18. 前記少なくとも1つのプロセッサは、
    前記複数の話者のうち、前記映像データから顔または口の形状が認識されないか前記話者モデルを構築するための口の形状とスピーチセグメントとの相関関係がまったく用意されていないことによって前記話者モデルが構築されない特定の話者に対しては、前記相関関係を計算する段階で計算された相関関係が所定の値未満であるスピーチセグメントに対応する埋め込みをクラスタリングすることにより、前記特定の話者に対する話者モデルを構築する、
    請求項15に記載のコンピュータシステム。
JP2020071403A 2019-05-10 2020-04-13 オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置 Active JP6999734B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0055094 2019-05-10
KR1020190055094A KR102230667B1 (ko) 2019-05-10 2019-05-10 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2020187346A JP2020187346A (ja) 2020-11-19
JP6999734B2 true JP6999734B2 (ja) 2022-01-19

Family

ID=73221707

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020071403A Active JP6999734B2 (ja) 2019-05-10 2020-04-13 オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置

Country Status (2)

Country Link
JP (1) JP6999734B2 (ja)
KR (1) KR102230667B1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7000547B1 (ja) * 2020-12-22 2022-01-19 株式会社オプティム プログラム、方法、情報処理装置、システム
JPWO2022168297A1 (ja) * 2021-02-08 2022-08-11
KR102462219B1 (ko) * 2021-06-15 2022-11-04 (주)미소정보기술 화자 분리 기술을 이용한 회의록 자동 생성 방법
KR20230031491A (ko) * 2021-08-27 2023-03-07 삼성전자주식회사 발화 대상을 구분하여 음성 처리하는 방법 및 장치
US20230169988A1 (en) * 2021-11-30 2023-06-01 Samsung Electronics Co., Ltd. Method and apparatus for performing speaker diarization based on language identification
US11900961B2 (en) 2022-05-31 2024-02-13 Microsoft Technology Licensing, Llc Multichannel audio speech classification
WO2024085605A1 (ko) * 2022-10-17 2024-04-25 삼성전자 주식회사 동영상을 처리하기 위한 장치 및 이의 동작 방법
CN116312552B (zh) * 2023-05-19 2023-08-15 湖北微模式科技发展有限公司 一种视频说话人日志方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040267521A1 (en) 2003-06-25 2004-12-30 Ross Cutler System and method for audio/video speaker detection
JP2005518031A (ja) 2002-02-14 2005-06-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 映像音声マッチングを用いて人物を識別する方法及びシステム
JP2007528031A (ja) 2004-03-30 2007-10-04 インテル・コーポレーション 音声および映像ソースデータを分離および評価する技術
JP2012234150A (ja) 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
JP2015177490A (ja) 2014-03-18 2015-10-05 株式会社リコー 映像音声処理システム、情報処理装置、映像音声処理方法、及び映像音声処理プログラム
JP2016029468A (ja) 2014-07-16 2016-03-03 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声情報制御方法及び端末装置
US20180039990A1 (en) 2016-08-05 2018-02-08 Nok Nok Labs, Inc. Authentication techniques including speech and/or lip movement analysis
JP2018513991A (ja) 2015-03-23 2018-05-31 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4204541B2 (ja) * 2004-12-24 2009-01-07 株式会社東芝 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
KR101884446B1 (ko) * 2016-12-22 2018-08-30 상명대학교산학협력단 다자간 회의에서의 화자 인식 및 화자 추적 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005518031A (ja) 2002-02-14 2005-06-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 映像音声マッチングを用いて人物を識別する方法及びシステム
US20040267521A1 (en) 2003-06-25 2004-12-30 Ross Cutler System and method for audio/video speaker detection
JP2007528031A (ja) 2004-03-30 2007-10-04 インテル・コーポレーション 音声および映像ソースデータを分離および評価する技術
JP2012234150A (ja) 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
JP2015177490A (ja) 2014-03-18 2015-10-05 株式会社リコー 映像音声処理システム、情報処理装置、映像音声処理方法、及び映像音声処理プログラム
JP2016029468A (ja) 2014-07-16 2016-03-03 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声情報制御方法及び端末装置
JP2018513991A (ja) 2015-03-23 2018-05-31 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム
US20180039990A1 (en) 2016-08-05 2018-02-08 Nok Nok Labs, Inc. Authentication techniques including speech and/or lip movement analysis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊谷章吾,"口唇動作と音声の共起に着目した被写体と話者の不一致検出",情報処理学会研究報告,2011年06月15日

Also Published As

Publication number Publication date
KR20200129934A (ko) 2020-11-18
KR102230667B1 (ko) 2021-03-22
JP2020187346A (ja) 2020-11-19

Similar Documents

Publication Publication Date Title
JP6999734B2 (ja) オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置
US10743107B1 (en) Synchronization of audio signals from distributed devices
US11023690B2 (en) Customized output to optimize for user preference in a distributed system
Yoshioka et al. Advances in online audio-visual meeting transcription
EP3963576B1 (en) Speaker attributed transcript generation
US11138980B2 (en) Processing overlapping speech from distributed devices
US11875796B2 (en) Audio-visual diarization to identify meeting attendees
US10812921B1 (en) Audio stream processing for distributed device meeting
CN112088402A (zh) 用于说话者识别的联合神经网络
Chung et al. Who said that?: Audio-visual speaker diarisation of real-world meetings
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
WO2021017096A1 (zh) 一种将人脸信息录入数据库的方法和装置
Wang et al. The multimodal information based speech processing (misp) 2022 challenge: Audio-visual diarization and recognition
WO2020222931A1 (en) Distributed device meeting initiation
Cabañas-Molero et al. Multimodal speaker diarization for meetings using volume-evaluated SRP-PHAT and video analysis
Motlicek et al. Real-time audio-visual analysis for multiperson videoconferencing
Korchagin et al. Just-in-time multimodal association and fusion from home entertainment
Shivappa Audio Visual Information Fusion for Human Activity Analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210414

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20210412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211222

R150 Certificate of patent or registration of utility model

Ref document number: 6999734

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350