JP7348445B2 - 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム - Google Patents

話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム Download PDF

Info

Publication number
JP7348445B2
JP7348445B2 JP2021189143A JP2021189143A JP7348445B2 JP 7348445 B2 JP7348445 B2 JP 7348445B2 JP 2021189143 A JP2021189143 A JP 2021189143A JP 2021189143 A JP2021189143 A JP 2021189143A JP 7348445 B2 JP7348445 B2 JP 7348445B2
Authority
JP
Japan
Prior art keywords
speaker
speech
diarization
speaker diarization
audio file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021189143A
Other languages
English (en)
Other versions
JP2022109867A (ja
Inventor
ヨンギ クォン
ハンヨン カン
ユジン キム
ハンギュ キム
ボンジン イ
ジョンフン チャン
イクサン ハン
ヒス ホ
ジュンンソン チョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2022109867A publication Critical patent/JP2022109867A/ja
Application granted granted Critical
Publication of JP7348445B2 publication Critical patent/JP7348445B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Pinball Game Machines (AREA)
  • Telephone Function (AREA)

Description

以下の説明は、話者ダイアライゼーション(speaker diarization)技術に関する。
話者ダイアライゼーションとは、多数人の話者が発話した内容が録音された音声ファイルから各話者の発話区間を分離する技術である。
話者ダイアライゼーション技術は、オーディオデータから話者境界区間を検出するものであって、話者に対する先行知識の使用状況に応じて距離基盤方式とモデル基盤方式とに分けられる。
例えば、特許文献1(公開日2020年4月7日)には、話者の位置を追跡し、話者の位置情報に基づいて入力音響から話者の音声を分離する技術が開示されている。
このような話者ダイアライゼーション技術は、会議、インタビュー、取り引き、裁判などのように多人数の話者が不規則に発話する状況において発話内容を話者ごとに分離して自動記録する諸般の技術であって、議事録自動作成などに活用されている。
韓国公開特許第10-2020-0036820号公報
話者ダイアライゼーション技術に話者識別技術を結合することで話者ダイアライゼーション性能を改善する方法およびシステムを提供する。
話者ラベル(speaker label)が含まれた基準音声を利用して話者識別を先行した後に話者ダイアライゼーションを実行する方法およびシステムを提供する。
コンピュータシステムが実行する話者ダイアライゼーション方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記話者ダイアライゼーション方法は、前記少なくとも1つのプロセッサにより、クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する段階、前記少なくとも1つのプロセッサにより、前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する段階、および前記少なくとも1つのプロセッサにより、前記音声ファイルで識別されなかった残りの発話区間に対して、クラスタリングを利用した話者ダイアライゼーションを実行する段階を含む、話者ダイアライゼーション方法を提供する。
一側面によると、前記基準音声を設定する段階は、前記音声ファイルに属する話者のうちの一部の話者のラベルが含まれた音声データを前記基準音声として設定してよい。
他の側面によると、前記基準音声を設定する段階は、前記コンピュータシステムと関連するデータベース上に事前に記録された話者音声のうちから前記音声ファイルに属する一部の話者の音声の選択を受けて、前記基準音声として設定してよい。
また他の側面によると、前記基準音声を設定する段階は、録音によって前記音声ファイルに属する話者のうちの一部の話者の音声の入力を受けて、前記基準音声として設定してよい。
また他の側面によると、前記話者識別を実行する段階は、前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認する段階、および前記基準音声に対応する発話区間に前記基準音声の話者ラベルをマッピングする段階を含んでよい。
また他の側面によると、前記確認する段階は、前記発話区間から抽出された埋め込み(embedding)と前記基準音声から抽出された埋め込みとの距離に基づいて、前記基準音声に対応する発話区間を確認してよい。
また他の側面によると、前記確認する段階は、前記発話区間から抽出された埋め込みをクラスタリングした結果である埋め込みクラスタと前記基準音声から抽出された埋め込みとの距離に基づいて、前記基準音声に対応する発話区間を確認してよい。
また他の側面によると、前記確認する段階は、前記発話区間から抽出された埋め込みとともに前記基準音声から抽出された埋め込みをクラスタリングした結果に基づいて、前記基準音声に対応する発話区間を確認してよい。
また他の側面によると、前記話者ダイアライゼーションを実行する段階は、前記残りの発話区間から抽出された埋め込みをクラスタリングする段階、およびクラスタのインデックスを前記残りの発話区間にマッピングする段階を含んでよい。
さらに他の側面によると、前記クラスタリングする段階は、前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算する段階、前記類似度行列に対して固有値分解(eigen decomposition)を実行して固有値(eigenvalue)を抽出する段階、前記抽出された固有値を整列した後、隣接する固有値の差を基準として選択された固有値の個数をクラスタ数として決定する段階、および前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階を含んでよい。
前記話者ダイアライゼーション方法を前記コンピュータシステムに実行させるためのコンピュータプログラムを提供する。
コンピュータシステムであって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する基準設定部、前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する話者識別部、および前記音声ファイルで識別されなかった残りの発話区間に対して、クラスタリングを利用した話者ダイアライゼーションを実行する話者ダイアライゼーション部を含む、コンピュータシステムを提供する。
本発明の実施形態によると、話者ダイアライゼーション技術に話者識別技術を結合することで、話者ダイアライゼーション性能を改善することができる。
本発明の実施形態によると、話者ラベルが含まれた基準音声を利用して話者識別を先行した後に話者ダイアライゼーションを実行することにより、話者ダイアライゼーション技術の正確度を高めることができる。
本発明の一実施形態における、ネットワーク環境の例を示した図である。 本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。 本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図である。 本発明の一実施形態における、コンピュータシステムが実行することのできる話者ダイアライゼーション方法の例を示したフローチャートである。 本発明の一実施形態における、話者識別過程を説明するための例示図である。 本発明の一実施形態における、話者ダイアライゼーション過程を説明するための例示図である。 本発明の一実施形態における、話者識別を結合した話者ダイアライゼーション過程を説明するための例示図である。 本発明の一実施形態における、基準音声に対応する発話区間を確認する(verify)方法を説明するための例示図である。 本発明の一実施形態における、基準音声に対応する発話区間を確認する(verify)方法を説明するための例示図である。 本発明の一実施形態における、基準音声に対応する発話区間を確認する(verify)方法を説明するための例示図である。
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。
本発明の実施形態は、話者識別技術を結合した話者ダイアライゼーション技術に関する。
本明細書で具体的に開示される事項を含む実施形態は、話者ダイアライゼーション技術に話者識別技術を結合することで話者ダイアライゼーション性能を改善することができる。
図1は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図1のネットワーク環境は、複数の電子機器110、120、130、140、サーバ150、およびネットワーク160を含む例を示している。このような図1は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図1のように限定されることはない。
複数の電子機器110、120、130、140は、コンピュータシステムによって実現される固定端末や移動端末であってよい。複数の電子機器110、120、130、140の例としては、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレット、ゲームコンソール、ウェアラブルデバイス、IoT(Internet of Things)デバイス、VR(Virtual Reality)デバイス、AR(Augmented Reality)デバイスなどがある。一例として、図1では、電子機器110の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器110は、実質的に無線または有線通信方式を利用し、ネットワーク160を介して他の電子機器120、130、140および/またはサーバ150と通信することのできる多様な物理的なコンピュータシステムのうちの1つを意味してよい。
通信方式が限定されることはなく、ネットワーク160が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など)を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク160は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。さらに、ネットワーク160は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでもよいが、これらに限定されることはない。
サーバ150は、複数の電子機器110、120、130、140とネットワーク160を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する1つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ150は、ネットワーク160を介して接続した複数の電子機器110、120、130、140に目的とするサービスを提供するシステムであってよい。より具体的な例として、サーバ150は、複数の電子機器110、120、130、140においてインストールされて実行されるコンピュータプログラムであるアプリケーションを通じ、該当のアプリケーションが目的とするサービス(一例として、音声認識基盤の人工知能議事録サービスなど)を複数の電子機器110、120、130、140に提供してよい。
図2は、本発明の一実施形態における、コンピュータシステムの例を示したブロック図である。図1を参照しながら説明したサーバ150は、図2に示すように構成されたコンピュータシステム200で実現されてよい。
図2に示すように、コンピュータシステム200は、本発明の一実施形態に係る話者ダイアライゼーション方法を実行するための構成要素として、メモリ210、プロセッサ220、通信インタフェース230、および入力/出力インタフェース240を含んでよい。
メモリ210は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてコンピュータシステム200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からメモリ210にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース230を通じてメモリ210にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク160を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータシステム200のメモリ210にロードされてよい。
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信インタフェース230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
通信インタフェース230は、ネットワーク160を介してコンピュータシステム200が他の装置と互いに通信するための機能を提供してよい。一例として、コンピュータシステム200のプロセッサ220がメモリ210のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース230の制御にしたがってネットワーク160を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク160を経てコンピュータシステム200の通信インタフェース230を通じてコンピュータシステム200に受信されてよい。通信インタフェース230を通じて受信された信号や命令、データなどは、プロセッサ220やメモリ210に伝達されてよく、ファイルなどは、コンピュータシステム200がさらに含むことのできる記録媒体(上述した永続的記録装置)に記録されてよい。
通信方式が制限されることはなく、ネットワーク160が含むことのできる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を活用する通信方式だけでなく、機器間の近距離有線/無線通信が含まれてもよい。例えば、ネットワーク160は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークうちの1つ以上の任意のネットワークを含んでよい。また、ネットワーク160は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層的(hierarchical)ネットワークなどを含むネットワークトポロジのうちの任意の1つ以上を含んでよいが、これらに制限されることはない。
入力/出力インタフェース240は、入力/出力装置250とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、カメラ、マウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置250は、コンピュータシステム200と1つの装置で構成されてもよい。
また、他の実施形態において、コンピュータシステム200は、図2の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータシステム200は、上述した入力/出力装置250のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。
以下では、話者識別を結合した話者ダイアライゼーション方法およびシステムの具体的な実施形態について説明する。
図3は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示したブロック図であり、図4は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。
本実施形態に係るサーバ150は、話者ダイアライゼーションを利用して議事録音声ファイルを文書で整理することが可能な人工知能サービスを提供するサービスプラットフォームの役割を担う。
サーバ150には、コンピュータシステム200で実現された話者ダイアライゼーションシステムが構成されてよい。サーバ150は、クライアント(client)である複数の電子機器110、120、130、140を対象にするものであって、電子機器110、120、130、140上にインストールされた専用アプリケーションやサーバ150と関連するウェブ/モバイルサイトへのアクセスにより、音声認識基盤の人工知能議事録サービスを提供してよい。
特に、サーバ150は、話者ダイアライゼーション技術に話者識別技術を結合することで話者ダイアライゼーション性能を改善することができる。
サーバ150のプロセッサ220は、図4に示した話者ダイアライゼーション方法を実行するための構成要素として、図3に示すように、基準設定部310、話者識別部320、および話者ダイアライゼーション部330を含んでよい。
実施形態によって、プロセッサ220の構成要素は、選択的にプロセッサ220に含まれても除外されてもよい。また、実施形態によって、プロセッサ220の構成要素は、プロセッサ220の機能の表現のために分離されても併合されてもよい。
このようなプロセッサ220およびプロセッサ220の構成要素は、図4の話者ダイアライゼーション方法が含む段階410~430を実行するようにサーバ150を制御してよい。例えば、プロセッサ220およびプロセッサ220の構成要素は、メモリ210が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードとによる命令(instruction)を実行するように実現されてよい。
ここで、プロセッサ220の構成要素は、サーバ150に記録されたプログラムコードが提供する命令にしたがってプロセッサ220によって実行される、互いに異なる機能(different functions)の表現であってよい。例えば、サーバ150が基準音声を設定するように上述した命令にしたがってサーバ150を制御するプロセッサ220の機能的表現として、基準設定部310が利用されてよい。
プロセッサ220は、サーバ150の制御と関連する命令がロードされたメモリ210から必要な命令を読み取ってよい。この場合、前記読み取られた命令には、プロセッサ220が以下で説明する段階410~430を実行するように制御するための命令が含まれてよい。
以下で説明する段階410~430は、図4に示した順序とは異なる順序で実行されてもよいし、段階410~430のうちの一部が省略されたり、更なる過程が追加されたりしてもよい。
プロセッサ220は、クライアントから音声ファイルを受信し、受信した音声で話者ごとに発話区間を分離してよく、このための話者ダイアライゼーション技術に話者識別技術を結合する。
図4を参照すると、段階410で、基準設定部310は、クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準となる話者音声(以下、「基準音声」とする)を設定してよい。基準設定部310は、話者ダイアライゼーション対象音声に含まれた話者のうちの一部の話者の音声を基準音声として設定してよい。このとき、基準音声は、話者識別が可能なように、話者ごとに話者ラベルが含まれた音声データを利用してよい。一例として、基準設定部310は、別途の録音によって話者ダイアライゼーション対象音声に属する話者の発話音声と該当の話者情報を含むラベルの入力を受け、基準音声として設定してよい。録音過程では、録音する文章や環境などのような基準音声録音のためのガイドを提供してよく、ガイドに基づいて録音された音声を基準音声として設定してよい。他の例として、基準設定部310は、話者ダイアライゼーション対象音声に属する話者の音声としてデータベース上に事前に記録された話者音声を利用して基準音声を設定してよい。サーバ150の構成要素としてサーバ150に含まれるかサーバ150とは別のシステムで実現されてサーバ150と連動可能なデータベース上に、話者識別が可能な音声、すなわち、ラベルが含まれた音声が記録されてよく、基準設定部310は、クライアントからデータベースに登録された(enrolled)話者音声のうちで話者ダイアライゼーション対象音声に属する一部の話者の音声の選択を受け、選択された話者音声を基準音声として設定してよい。
段階420で、話者識別部320は、段階410で設定された基準音声を利用して、話者ダイアライゼーション対象音声から基準音声の話者を識別する話者識別を実行してよい。話者識別部320は、話者ダイアライゼーション対象音声に含まれた各発話区間を基準音声と比較することによって基準音声に対応する発話区間を確認した(verify)後、該当の区間に基準音声の話者ラベルをマッピングしてよい。
段階430で、話者ダイアライゼーション部330は、話者ダイアライゼーション対象音声に含まれた発話区間のうちで話者が識別された区間以外の残りの区間に対して話者ダイアライゼーションを実行してよい。言い換えれば、話者ダイアライゼーション部330は、話者ダイアライゼーション対象音声で話者識別によって基準音声の話者ラベルがマッピングされ、残りの区間に対してはクラスタリングを利用した話者ダイアライゼーションを実行することにより、クラスタのインデックスを該当の区間にマッピングすることができる。
図5は、話者識別過程の一例を示した図である。
例えば、3人(ホン・ギルドン、ホン・チョルス、ホン・ヨンヒ)の話者音声が事前に登録されていると仮定する。
話者識別部320は、確認不可の未知の話者音声501が受信された場合、登録話者音声502とそれぞれ比較して登録話者との類似度点数を計算してよい。このとき、類似度点数が最も高い未確認話者音声501を登録話者の音声として識別して、該当の話者のラベルをマッピングしてよい。
図5に示すように、3人(ホン・ギルドン、ホン・チョルス、ホン・ヨンヒ)の登録話者のうちでホン・ギルドンとの類似度点数が最も高い場合、未確認話者音声501をホン・ギルドンの音声として識別してよい。
したがって、話者識別技術は、登録話者のうちで音声が最も類似する話者を探索するものであると言える。
図6は、話者ダイアライゼーション過程の一例を示した図である。
図6を参照すると、話者ダイアライゼーション部330は、クライアントから受信された話者ダイアライゼーション対象音声601に対してEPD(end point detection)過程を実行する(S61)。EPDとは、無音区間に該当するフレームの音響特徴を取り除いて各フレームのエネルギーを測定し、音声/無音を区分した発声の始まりと終わりだけを探索するものである。言い換えれば、話者ダイアライゼーション部330は、話者ダイアライゼーションのための音声ファイル601から音声のある領域を見つけ出すEPDを実行する。
話者ダイアライゼーション部330は、EPD結果に対して埋め込み(embedding)抽出過程を実行する(S62)。一例として、話者ダイアライゼーション部330は、ディープニューラルネットワークや長・短期記憶(Long Short Term Memory)(LSTM)などに基づいてEPD結果から話者埋め込みを抽出してよい。音声に内在された生体の特性と独自の個人性をディープラーニングに基づいて学習することによって音声をベクトル化し、これによって音声ファイル601から特定の話者の音声を分離してよい。
話者ダイアライゼーション部330は、埋め込み抽出結果を利用して、話者ダイアライゼーションのためのクラスタリングを実行する(S63)。
話者ダイアライゼーション部330は、EPD結果から埋め込みを抽出して類似度行列(affinity matrix)を計算した後、類似度行列を利用してクラスタ数を計算する。一例として、話者ダイアライゼーション部330は、類似度行列に対して固有値分解(eigen decomposition)を実行して固有値(eigenvalue)と固有ベクトル(eigenvector)を抽出し、抽出された固有値を大きさによって整列し、整列された固有値に基づいてクラスタ数を決定してよい。このとき、話者ダイアライゼーション部330は、整列された固有値で隣接する値の差を基準にし、有効な主成分に該当する固有値の個数をクラスタ数として決定してよい。固有値が高いということは、類似度行列で影響力が大きいことを意味する。すなわち、音声ファイル601に対して類似度行列を構成するとき、発声のある話者のうちで発声比重が高いことを意味する。言い換えれば、話者ダイアライゼーション部330は、整列された固有値のうちで十分に大きな値を有する固有値を選択し、選択された固有値の個数が話者数を示すクラスタ数となるように決定してよい。
話者ダイアライゼーション部330は、類似度行列とクラスタ数を利用して話者ダイアライゼーションクラスタリングを実行してよい。話者ダイアライゼーション部330は、類似度行列に対して固有値分解を実行し、固有値によって整列された固有ベクトルに基づいてクラスタリングを実行してよい。音声ファイル601からm個の話者音声区間が抽出される場合には、m×m個のエレメントを含む行列が生成されるようになる。このとき、各エレメントを示すvi、jは、i番目の音声区間とj番目の音声区間との距離を意味する。このとき、話者ダイアライゼーション部330は、先立って決定されたクラスタ数だけ固有ベクトルを選択する方式により、話者ダイアライゼーションクラスタリングを実行してよい。
クラスタリングのための代表的な方法として、AHC(凝集型階層的クラスタリング(Agglomerative Hierarchical Clustering))、K平均(K-means)、またはスペクトル群集化アルゴリズムなどが適用されてよい。
最後に、話者ダイアライゼーション部330は、クラスタリングによる音声区間にクラスタのインデックスをマッピングすることにより、話者ダイアライゼーションをラベリングする(S64)。話者ダイアライゼーション部330は、音声ファイル601から3つのクラスタが決定される場合、各クラスタのインデックス、例えば、A、B、Cを該当の音声区間にマッピングしてよい。
したがって、話者ダイアライゼーション技術は、複数人の話者が混在する音声から各話者の固有音声特徴を利用して情報を分析し、話者それぞれに対応する音声に分割することができる。すなわち、話者ダイアライゼーション部330は、音声ファイル601から検出された各音声区間から話者の情報を含んでいる特徴を抽出した後、各話者の音声によってクラスタリングして分離することができる。
本実施形態は、図5を参照しながら説明した話者識別技術と図6を参照しながら説明した話者ダイアライゼーション技術を結合することで、話者ダイアライゼーションの性能を改善しようとするものである。
図7は、本発明の一実施形態における、話者識別を結合した話者ダイアライゼーション過程の一例を示した図である。
図7を参照すると、プロセッサ220は、クライアントから話者ダイアライゼーション対象音声601とともに登録された話者音声である基準音声710を受信してよい。基準音声710は、話者ダイアライゼーション対象音声に含まれた話者のうちの一部の話者(以下、「登録話者」とする)の音声であってよく、各登録話者の話者ラベル702が含まれた音声データ701を利用してよい。
話者識別部320は、話者ダイアライゼーション対象音声601に対してEPD過程を実行して発話区間を検出した後、各発話区間から話者埋め込みを抽出してよい(S71)。基準音声710には各登録話者の埋め込みが含まれているか、あるいは話者埋め込み過程S71で話者ダイアライゼーション対象音声601とともに基準音声710の話者埋め込みを抽出してよい。
話者識別部320は、話者ダイアライゼーション対象音声601に含まれた各発話区間の基準音声710と埋め込みとを比較して、基準音声710に対応する発話区間を確認してよい(S72)。このとき、話者識別部320は、話者ダイアライゼーション対象音声601において基準音声710との類似度が設定値以上の発話区間に、基準音声710の話者ラベルをマッピングしてよい。
話者ダイアライゼーション部330は、話者ダイアライゼーション対象音声601において基準音声710を利用した話者識別によって話者が確認された(話者ラベルマッピングが完了した)発話区間と、話者が確認されずに残った発話区間71とを区分してよい(S73)。
話者ダイアライゼーション部330は、話者ダイアライゼーション対象音声601において話者が確認されずに残った発話区間71だけに対して、話者ダイアライゼーションクラスタリングを実行する(S74)。
話者ダイアライゼーション部330は、話者ダイアライゼーションクラスタリングによる各発話区間に該当のクラスタのインデックスをマッピングすることにより、話者ラベリングを完成してよい(S75)。
したがって、話者ダイアライゼーション部330は、話者ダイアライゼーション対象音声601に話者識別を実行し、基準音声710の話者ラベルがマッピングされて残った区間71に対してクラスタリングを利用した話者ダイアライゼーションを実行することで、クラスタのインデックスをマッピングしてよい。
以下では、話者ダイアライゼーション対象音声601で基準音声710に対応する発話区間を確認する方法について説明する。
一例として、図8を参照すると、話者識別部320は、話者ダイアライゼーション対象音声601の各発話区間から抽出された埋め込みE(Embedding E)と基準音声710から抽出された埋め込みS(Embedding S)との距離に基づいて、基準音声710に対応する発話区間を確認してよい。例えば、基準音声710が話者Aと話者Bの音声であると仮定するとき、話者Aの埋め込みS(Embedding S)との距離が閾値(threshold)以下である埋め込みE(Embedding E)の発話区間に対しては話者Aをマッピングし、話者Bの埋め込みS(Embedding S)との距離が閾値以下である埋め込みE(Embedding E)の発話区間に対しては話者Bをマッピングする。残りの区間は、確認不可の未知の発話区間に分類される。
他の例として、図9を参照すると、話者識別部320は、話者ダイアライゼーション対象音声601の各発話区間に対する埋め込みをクラスタリングした結果である埋め込みクラスタ(Embedding Cluster)と基準音声710から抽出された埋め込みS(Embedding S)との距離に基づいて、基準音声710に対応する発話区間を確認してよい。例えば、話者ダイアライゼーション対象音声601に対して5つのクラスタが形成され、基準音声710が話者Aと話者Bの音声であると仮定するとき、話者Aの埋め込みS(Embedding S)との距離が閾値以下であるクラスタ1と5の発話区間に対しては話者Aをマッピングし、話者Bの埋め込みS(Embedding S)との距離が閾値以下であるクラスタ3の発話区間に対しては話者Bをマッピングする。残りの区間は、確認不可の未知の発話区間に分類される。
また他の例として、図10を参照すると、話者識別部320は、話者ダイアライゼーション対象音声601の各発話区間から抽出された埋め込みと基準音声710から抽出された埋め込みをともにクラスタリングして、基準音声710に対応する発話区間を確認してよい。例えば、基準音声710が話者Aと話者Bの音声であると仮定するとき、話者Aの埋め込みS(Embedding S)が属するクラスタ4の発話区間に対しては話者Aをマッピングし、話者Bの埋め込みS(Embedding S)が属するクラスタ1と2に対しては話者Bをマッピングする。話者Aの埋め込みS(Embedding S)と話者Bの埋め込みS(Embedding S)が共通して含まれるか2つのうちの1つも含まれない残りの区間は、確認不可の未知の発話区間に分類される。
基準音声710との類似度を判断するためには、クラスタリング技法に適用可能なSingle、complete、average、weighted、centroid、median、wardなどの多様な距離関数が利用されてよい。
上述した確認方式を利用した話者識別によって基準音声710の話者ラベルがマッピングされた後に残った発話区間、すなわち、未知の発話区間に分類された区間に対して、クラスタリングを利用した話者ダイアライゼーションを実行する。
このように、本発明の実施形態によると、話者ダイアライゼーション技術に話者識別技術を結合することで話者ダイアライゼーション性能を改善することができる。言い換えれば、話者ラベルが含まれた基準音声を利用して話者識別を先行した後、未識別区間に対して話者ダイアライゼーションを実行することにより、話者ダイアライゼーション技術の正確度を高めることができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
220:プロセッサ
310:基準設定部
320:話者識別部
330:話者ダイアライゼーション部

Claims (13)

  1. コンピュータシステムが実行する話者ダイアライゼーション方法であって、
    前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
    前記話者ダイアライゼーション方法は、
    前記少なくとも1つのプロセッサにより、クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する段階、
    前記少なくとも1つのプロセッサにより、前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する段階、および
    前記少なくとも1つのプロセッサにより、前記音声ファイルで識別されなかった残りの発話区間だけに対して、クラスタリングを利用した話者ダイアライゼーションを実行する段階
    を含み、
    前記話者識別を実行する段階は、
    前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認する段階、を含み、
    前記確認する段階は、
    前記音声ファイルに含まれた発話区間から抽出された埋め込みと前記基準音声から抽出された埋め込みとの距離が閾値以下であることに基づいて、前記基準音声に対応する発話区間を確認することを含み、
    前記話者ダイアライゼーションを実行する段階は、
    前記残りの発話区間から抽出された埋め込みをクラスタリングする段階、および
    クラスタのインデックスを前記残りの発話区間にマッピングする段階
    を含み、
    前記クラスタリングする段階は、
    前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算する段階、
    前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、
    前記抽出された固有値を大きさによって整列した後、隣接する整列された固有値の差を基準にして選択された固有値の個数をクラスタ数として決定する段階、および
    前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階
    を含む、話者ダイアライゼーション方法。
  2. コンピュータシステムが実行する話者ダイアライゼーション方法であって、
    前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサを含み、
    前記話者ダイアライゼーション方法は、
    前記少なくとも1つのプロセッサにより、クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する段階、
    前記少なくとも1つのプロセッサにより、前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する段階、および
    前記少なくとも1つのプロセッサにより、前記音声ファイルで識別されなかった残りの発話区間だけに対して、クラスタリングを利用した話者ダイアライゼーションを実行する段階
    を含み、
    前記話者識別を実行する段階は、
    前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認する段階、を含み、
    前記確認する段階は、
    前記音声ファイルに含まれた発話区間から抽出された埋め込みをクラスタリングした結果である埋め込みクラスタと前記基準音声から抽出された埋め込みとの距離が閾値以下であることに基づいて、前記基準音声に対応する発話区間を確認することを含み、
    前記話者ダイアライゼーションを実行する段階は、
    前記残りの発話区間から抽出された埋め込みをクラスタリングする段階、および
    クラスタのインデックスを前記残りの発話区間にマッピングする段階
    を含み、
    前記クラスタリングする段階は、
    前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算する段階、
    前記類似度行列に対して固有値分解を実行して固有値を抽出する段階、
    前記抽出された固有値を大きさによって整列した後、隣接する整列された固有値の差を基準にして選択された固有値の個数をクラスタ数として決定する段階、および
    前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行する段階
    を含む、話者ダイアライゼーション方法。
  3. 前記基準音声を設定する段階は、
    前記音声ファイルに属する話者のうちの一部の話者のラベルが含まれた音声データを前記基準音声として設定すること
    を含む、請求項1又は2に記載の話者ダイアライゼーション方法。
  4. 前記基準音声を設定する段階は、
    前記コンピュータシステムと関連するデータベース上に事前に記録された話者音声のうちで前記音声ファイルに属する一部の話者の音声の選択を受けて、前記基準音声として設定すること
    を含む、請求項1又は2に記載の話者ダイアライゼーション方法。
  5. 前記基準音声を設定する段階は、
    録音によって前記音声ファイルに属する話者のうちの一部の話者の音声の入力を受けて、前記基準音声として設定すること
    を含む、請求項1又は2に記載の話者ダイアライゼーション方法。
  6. 前記話者識別を実行する段階は、
    前記基準音声に対応する発話区間に前記基準音声の話者ラベルをマッピングする段階
    を含む、請求項1~5のうちのいずれか一項に記載の話者ダイアライゼーション方法。
  7. 請求項1~のうちのいずれか一項に記載の話者ダイアライゼーション方法を前記コンピュータシステムに実行させるためのコンピュータプログラム。
  8. コンピュータシステムであって、
    メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する基準設定部、
    前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する話者識別部、および
    前記音声ファイルで識別されなかった残りの発話区間だけに対して、クラスタリングを利用した話者ダイアライゼーションを実行する話者ダイアライゼーション部
    を含み、
    前記話者識別部は、
    前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認し、
    前記話者識別部は、
    前記音声ファイルに含まれた発話区間から抽出された埋め込みと前記基準音声から抽出された埋め込みとの距離が閾値以下であることに基づいて、前記基準音声に対応する発話区間を確認し、
    前記話者ダイアライゼーション部は、
    前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算し、
    前記類似度行列に対して固有値分解を実行して固有値を抽出し、
    前記抽出された固有値を大きさによって整列した後、隣接する整列された固有値の差を基準にして選択された固有値の個数をクラスタ数として決定し、
    前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行し、
    前記話者ダイアライゼーションクラスタリングによるクラスタのインデックスを前記残りの発話区間にマッピングする、コンピュータシステム。
  9. コンピュータシステムであって、
    メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも1つのプロセッサ
    を含み、
    前記少なくとも1つのプロセッサは、
    クライアントから話者ダイアライゼーション対象音声として受信された音声ファイルと関連して基準音声を設定する基準設定部、
    前記基準音声を利用して前記音声ファイルから前記基準音声の話者を識別する話者識別を実行する話者識別部、および
    前記音声ファイルで識別されなかった残りの発話区間だけに対して、クラスタリングを利用した話者ダイアライゼーションを実行する話者ダイアライゼーション部
    を含み、
    前記話者識別部は、
    前記音声ファイルに含まれた発話区間のうちから前記基準音声に対応する発話区間を確認し、
    前記話者識別部は、
    前記音声ファイルに含まれた発話区間から抽出された埋め込みをクラスタリングした結果である埋め込みクラスタと前記基準音声から抽出された埋め込みとの距離が閾値以下であることに基づいて、前記基準音声に対応する発話区間を確認し、
    前記話者ダイアライゼーション部は、
    前記残りの発話区間から抽出された埋め込みに基づいて類似度行列を計算し、
    前記類似度行列に対して固有値分解を実行して固有値を抽出し、
    前記抽出された固有値を大きさによって整列した後、隣接する整列された固有値の差を基準にして選択された固有値の個数をクラスタ数として決定し、
    前記類似度行列と前記クラスタ数を利用して話者ダイアライゼーションクラスタリングを実行し、
    前記話者ダイアライゼーションクラスタリングによるクラスタのインデックスを前記残りの発話区間にマッピングする、コンピュータシステム。
  10. 前記基準設定部は、
    前記音声ファイルに属する話者のうちの一部の話者のラベルが含まれた音声データを前記基準音声として設定する
    請求項又はに記載のコンピュータシステム。
  11. 前記基準設定部は、
    前記コンピュータシステムと関連するデータベース上に事前に記録された話者音声のうちで前記音声ファイルに属する一部の話者の音声の選択を受けて、前記基準音声として設定する
    請求項又はに記載のコンピュータシステム。
  12. 前記基準設定部は、
    録音によって前記音声ファイルに属する話者のうちの一部の話者の音声の入力を受けて、前記基準音声として設定する
    請求項又はに記載のコンピュータシステム。
  13. 前記話者識別部は、
    前記基準音声に対応する発話区間に前記基準音声の話者ラベルをマッピングする
    請求項12のうちのいずれか一項に記載のコンピュータシステム。
JP2021189143A 2021-01-15 2021-11-22 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム Active JP7348445B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210006190A KR102560019B1 (ko) 2021-01-15 2021-01-15 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램
KR10-2021-0006190 2021-01-15

Publications (2)

Publication Number Publication Date
JP2022109867A JP2022109867A (ja) 2022-07-28
JP7348445B2 true JP7348445B2 (ja) 2023-09-21

Family

ID=82405264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021189143A Active JP7348445B2 (ja) 2021-01-15 2021-11-22 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム

Country Status (3)

Country Link
US (1) US20220230648A1 (ja)
JP (1) JP7348445B2 (ja)
KR (1) KR102560019B1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538481B2 (en) * 2020-03-18 2022-12-27 Sas Institute Inc. Speech segmentation based on combination of pause detection and speaker diarization
KR102560019B1 (ko) * 2021-01-15 2023-07-27 네이버 주식회사 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램
US20230169981A1 (en) * 2021-11-30 2023-06-01 Samsung Electronics Co., Ltd. Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals
US20230283496A1 (en) * 2022-03-02 2023-09-07 Zoom Video Communications, Inc. Engagement analysis for remote communication sessions

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010175614A (ja) 2009-01-27 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2011059500A (ja) 2009-09-11 2011-03-24 Yahoo Japan Corp 話者クラスタリング装置および話者クラスタリング方法
US20160283185A1 (en) 2015-03-27 2016-09-29 Sri International Semi-supervised speaker diarization
JP2018063313A (ja) 2016-10-12 2018-04-19 日本電信電話株式会社 話者数推定装置、話者数推定方法、およびプログラム
WO2019198265A1 (en) 2018-04-13 2019-10-17 Mitsubishi Electric Corporation Speech recognition system and method using speech recognition system
WO2020068056A1 (en) 2018-09-25 2020-04-02 Google Llc Speaker diarization using speaker embedding(s) and trained generative model
WO2020117639A2 (en) 2018-12-03 2020-06-11 Google Llc Text independent speaker recognition
WO2020188724A1 (ja) 2019-03-18 2020-09-24 富士通株式会社 話者識別プログラム、話者識別方法、および話者識別装置
JP2021001988A (ja) 2019-06-24 2021-01-07 株式会社日立製作所 音声認識装置、音声認識方法及び記憶媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009109712A (ja) * 2007-10-30 2009-05-21 National Institute Of Information & Communication Technology オンライン話者逐次区別システム及びそのコンピュータプログラム
WO2012175094A1 (en) * 2011-06-20 2012-12-27 Agnitio, S.L. Identification of a local speaker
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
KR101616112B1 (ko) * 2014-07-28 2016-04-27 (주)복스유니버스 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
US9584946B1 (en) * 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
US10559311B2 (en) * 2017-03-31 2020-02-11 International Business Machines Corporation Speaker diarization with cluster transfer
US10867610B2 (en) * 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences
US11031017B2 (en) * 2019-01-08 2021-06-08 Google Llc Fully supervised speaker diarization
CN112204657B (zh) * 2019-03-29 2023-12-22 微软技术许可有限责任公司 利用提前停止聚类的讲话者分离
WO2021045990A1 (en) * 2019-09-05 2021-03-11 The Johns Hopkins University Multi-speaker diarization of audio input using a neural network
KR102396136B1 (ko) * 2020-06-02 2022-05-11 네이버 주식회사 멀티디바이스 기반 화자분할 성능 향상을 위한 방법 및 시스템
US11468900B2 (en) * 2020-10-15 2022-10-11 Google Llc Speaker identification accuracy
KR102560019B1 (ko) * 2021-01-15 2023-07-27 네이버 주식회사 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010175614A (ja) 2009-01-27 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2011059500A (ja) 2009-09-11 2011-03-24 Yahoo Japan Corp 話者クラスタリング装置および話者クラスタリング方法
US20160283185A1 (en) 2015-03-27 2016-09-29 Sri International Semi-supervised speaker diarization
JP2018063313A (ja) 2016-10-12 2018-04-19 日本電信電話株式会社 話者数推定装置、話者数推定方法、およびプログラム
WO2019198265A1 (en) 2018-04-13 2019-10-17 Mitsubishi Electric Corporation Speech recognition system and method using speech recognition system
WO2020068056A1 (en) 2018-09-25 2020-04-02 Google Llc Speaker diarization using speaker embedding(s) and trained generative model
WO2020117639A2 (en) 2018-12-03 2020-06-11 Google Llc Text independent speaker recognition
WO2020188724A1 (ja) 2019-03-18 2020-09-24 富士通株式会社 話者識別プログラム、話者識別方法、および話者識別装置
JP2021001988A (ja) 2019-06-24 2021-01-07 株式会社日立製作所 音声認識装置、音声認識方法及び記憶媒体

Also Published As

Publication number Publication date
KR102560019B1 (ko) 2023-07-27
KR20220103507A (ko) 2022-07-22
JP2022109867A (ja) 2022-07-28
TW202230342A (zh) 2022-08-01
US20220230648A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
JP7348445B2 (ja) 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム
JP6771805B2 (ja) 音声認識方法、電子機器、及びコンピュータ記憶媒体
JP2003177778A (ja) 音声抄録抽出方法、音声データ抄録抽出システム、音声抄録抽出システム、プログラム、及び、音声抄録選択方法
EP3682443B1 (en) Voice-controlled management of user profiles
Sidiropoulos et al. On the use of audio events for improving video scene segmentation
CN108615532A (zh) 一种应用于声场景的分类方法及装置
CN114465737A (zh) 一种数据处理方法、装置、计算机设备及存储介质
US20160210988A1 (en) Device and method for sound classification in real time
KR20170136200A (ko) 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
KR102215082B1 (ko) Cnn 기반 이미지 검색 방법 및 장치
JP7453733B2 (ja) マルチデバイスによる話者ダイアライゼーション性能の向上のための方法およびシステム
Bhati et al. Unsupervised Acoustic Segmentation and Clustering Using Siamese Network Embeddings.
CN104239372B (zh) 一种音频数据分类方法及装置
Royo-Letelier et al. Disambiguating music artists at scale with audio metric learning
TWI834102B (zh) 與說話者識別結合的說話者分離方法、系統及電腦程式
KR102399673B1 (ko) 어휘 트리에 기반하여 객체를 인식하는 방법 및 장치
US20230169988A1 (en) Method and apparatus for performing speaker diarization based on language identification
CN113420178A (zh) 一种数据处理方法以及设备
CN112735432B (zh) 音频识别的方法、装置、电子设备及存储介质
Karlos et al. Speech recognition combining MFCCs and image features
KR102482827B1 (ko) 화자 임베딩 기반 음성 활동 검출을 이용한 화자 분할 방법, 시스템, 및 컴퓨터 프로그램
CN110852206A (zh) 一种联合全局特征和局部特征的场景识别方法及装置
Zhang et al. A two phase method for general audio segmentation
WO2023175841A1 (ja) マッチング装置、マッチング方法、及びコンピュータ読み取り可能な記録媒体
US20230169981A1 (en) Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230613

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230710

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20230809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230810

R150 Certificate of patent or registration of utility model

Ref document number: 7348445

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350