JP7295284B2 - 適応ダイアライゼーションモデルおよびユーザインタフェース - Google Patents
適応ダイアライゼーションモデルおよびユーザインタフェース Download PDFInfo
- Publication number
- JP7295284B2 JP7295284B2 JP2021577103A JP2021577103A JP7295284B2 JP 7295284 B2 JP7295284 B2 JP 7295284B2 JP 2021577103 A JP2021577103 A JP 2021577103A JP 2021577103 A JP2021577103 A JP 2021577103A JP 7295284 B2 JP7295284 B2 JP 7295284B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- utterance
- model
- determining
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003044 adaptive effect Effects 0.000 title description 3
- 239000013598 vector Substances 0.000 claims description 174
- 238000000034 method Methods 0.000 claims description 50
- 238000012549 training Methods 0.000 claims description 41
- 230000000007 visual effect Effects 0.000 claims description 22
- 238000013145 classification model Methods 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 14
- 238000013519 translation Methods 0.000 description 61
- 238000004891 communication Methods 0.000 description 17
- 238000009826 distribution Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 230000000704 physical effect Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 238000003825 pressing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001668 ameliorated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000002329 infrared spectrum Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000001429 visible spectrum Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Description
ダイアライゼーションモデルは、音声波形に基づいて、音声波形内の特定の期間中に複数の話者のうちのどの話者が話したかを決定するために使用され得る。従って、異なる話者による複数の発話を含む音声波形は、各発話の話者に応じて区分され得る。ダイアライゼーションモデルは、訓練波形における各発話に関連する話者を示すヒントデータ/識別データに関連付けられた訓練波形に基づいて訓練され得る。一旦訓練されると、ダイアライゼーションモデルを使用して、追加の識別データとは無関係に、および/または依存することなく、特定の発話に関連する話者を決定することができる。ダイアライゼーションモデルは、様々な発話の話者を識別するように動作するため、モデルは、これらの話者の識別情報(identification)に基づいて更新され得る。即ち、ダイアライゼーションモデルは、モデルが時間の経過とともに行う教師なし予測に基づいて成長、適応、および発展し得る。
図1は、コンピューティングシステム100の例示的なフォームファクタを示す。コンピューティングシステム100は、例えば、携帯電話、タブレットコンピュータ、またはウェアラブルコンピューティングデバイスであり得る。しかしながら、他の実施形態も可能である。コンピューティングシステム100は、本体102、ディスプレイ106、およびボタン108および110などの様々な要素を含み得る。コンピューティングシステム100は、前面カメラ104、背面カメラ112、前面赤外線カメラ114、第1の赤外線パターンプロジェクタ116、および第2の赤外線パターンプロジェクタ118をさらに含み得る。
図3A、図3B、および図3Cは、翻訳ソフトウェアアプリケーション(「翻訳アプリケーション」)の例示的なユーザインタフェースを示す。具体的には、翻訳アプリケーションは、2人以上のユーザが2つの異なる言語で互いに通信するときに、2つの異なる言語間の翻訳を提供するように構成される。図3Aのユーザインタフェース(UI)300は、翻訳アプリケーションが、第1の言語に対応する第1のボタン306と、第2の言語に対応する第2のボタン308とを含むことを示している。図3A、図3B、および図3Cに示す例では、第1の言語は英語であり、第2の言語はスペイン語である。しかしながら、任意の2つの言語間の翻訳は、翻訳アプリケーションによって提供され得る。また、UI300は、第1の言語でテキストを表示するように構成された第1の表示領域302と、第2の言語でテキストを表示するように構成された第2の表示領域304とを含む。
図4は、発話の元話者402を決定、予測、および/または推定するために使用される例示的なダイアライゼーションモデル400を示す。ダイアライゼーションモデル400は、訓練音声波形410および識別データ420を使用して、元話者402を識別するように訓練され得る。訓練音声波形410は、例えば、第1および第2の話者がボタン306および308を使用して会話中に交互に話す間に捕捉された音声、初期較正期間中に捕捉された音声、および/または元話者を示す画像データが捕捉されている間に捕捉された音声を表し得る。
図5A、図5B、および図5Cは、ダイアライゼーションモデル400の例示的な波形処理パイプラインを示す。具体的には、ダイアライゼーションモデルは、波形埋め込みモデル500およびベクトル分類モデル520を含み得る。波形埋め込みモデル500は、音声波形を構成する(かつ、波形空間を定義すると言うことができる)サンプルのN次元ベクトル空間への数学的変換を定義する。従って、波形埋め込みモデル500は、音声波形502に基づいて埋め込みベクトル504を生成するように構成され得る。音声波形502は、所定の持続時間および/または所定の数のサンプルを有する単一の発話を表し得る。埋め込みベクトル504は、N次元ベクトル空間における音声波形502を表す複数の値X1~XN(即ち、X1、X2、X3、X4、X5、X6、X7、X8、X9、およびX10~XN)を含み得る。
図7は、特定の時間に話す話者の決定に関連する動作のフローチャートを示す。動作は、他の可能性の中でもとりわけ、コンピューティングシステム100、コンピューティングデバイス200、および/またはコンピューティングデバイス342によって実行され得る。しかしながら、このプロセスは、他のタイプのデバイスまたはデバイスサブシステムによって実行することができる。例えば、このプロセスは、ラップトップまたはタブレットデバイスなどのポータブルコンピュータによって実行することができる。
ブロック702は、コンピューティングデバイスが、(i)第1の発話が第1の話者に対応すること、および(ii)第2の発話が第2の話者に対応することを示す第1のタイプの識別データを受信することを含み得る。
いくつかの実施形態では、コンピューティングデバイスは、識別データおよび第1の音声波形を受信する前に、コンピューティングデバイスのユーザインタフェースを介して識別データの入力に関する視覚的プロンプトを表示するように構成され得る。
いくつかの実施形態では、第1の音声波形は、第1の話者による第1の複数の発話および第2の話者による第2の複数の発話を表し得る。コンピューティングデバイスは、第1の複数の発話と第2の複数の発話とを区別する際のダイアライゼーションモデルの精度を決定するように構成され得る。コンピューティングデバイスはまた、精度が閾値精度を超えると判定し、精度が閾値精度を超えると判定することに基づいて、視覚的プロンプトをユーザインタフェースから取り除くようにユーザインタフェースを変更するように構成され得る。
本開示は、本願に記載されている特定の実施形態の観点から限定されるべきものではなく、様々な態様の例示として意図されるものである。当業者には明らかなように、本開示の範囲から逸脱することなく、多くの修正および変形を行うことが可能である。本明細書に記載されたものに加えて、本開示の範囲内の機能的に同等の方法および装置は、前述の説明から当業者には明らかであろう。そのような修正および変形は、添付の特許請求の範囲内に含まれることが意図される。
Claims (20)
- 方法であって、
コンピューティングデバイスのユーザインタフェースを介して識別データの入力に関する視覚的プロンプトを表示するステップと、
前記コンピューティングデバイスが、初期時間ウィンドウの間に捕捉され、かつ第1の発話および第2の発話を表す第1の音声波形を受信するステップと、
前記コンピューティングデバイスが、(i)前記第1の発話が第1の話者に対応すること、および(ii)前記第2の発話が第2の話者に対応することを示す第1のタイプの識別データを受信するステップと、
前記コンピューティングデバイスが、前記第1の発話、前記第2の発話、および前記第1のタイプの識別データに基づいて、前記第1の話者による発話と前記第2の話者による発話とを区別するように構成されたダイアライゼーションモデルを決定するステップと、
前記コンピューティングデバイスが、第3の発話の元話者を示す第1のタイプのさらなる識別データを受信することを含まずに、後続の時間ウィンドウ中に捕捉され、かつ前記第3の発話を表す第2の音声波形を受信するステップと、
前記コンピューティングデバイスが、前記ダイアライゼーションモデルによって、かつ第1のタイプのさらなる識別データとは無関係に、前記第3の発話の元話者を決定するステップと、ここで、前記元話者は、前記第1の話者または前記第2の話者であると決定され、
前記コンピューティングデバイスが、前記第3の発話および決定された前記元話者に基づいて前記ダイアライゼーションモデルを更新するステップと、
ここで、前記第1の音声波形は、前記第1の話者による第1の複数の発話および前記第2の話者による第2の複数の発話を表し、
前記第2の音声波形を受信する前に、
前記第1の音声波形および前記識別データを用いて前記ダイアライゼーションモデルを訓練することにより前記第1の複数の発話と前記第2の複数の発話とを区別する際の前記ダイアライゼーションモデルの精度を決定するステップと、
前記精度が閾値精度を超えると判定するステップと、
前記精度が閾値精度を超えると判定することに基づいて、視覚的プロンプトを前記ユーザインタフェースから取り除くように前記ユーザインタフェースを変更するステップと、を含む方法。 - 前記第2の音声波形は、さらなる識別データに関する視覚的プロンプトを表示することなく受信される、請求項1に記載の方法。
- 視覚的プロンプトは、(i)前記第1の話者が前記初期時間ウィンドウの間に少なくとも第1の期間話すことを示し、かつ(ii)前記第2の話者が前記初期時間ウィンドウの間に少なくとも第2の期間話すことを示す指示を含み、前記第1の期間および前記第2の期間は相互に排他的であり、前記識別データを受信するステップは、
前記第1の期間中に前記第1の発話を表す前記第1の音声波形の第1の部分を捕捉すること、
前記第2の期間中に前記第2の発話を表す前記第1の音声波形の第2の部分を捕捉すること、を含む、請求項1または2に記載の方法。 - 前記識別データを受信するステップは、
前記コンピューティングデバイスのユーザインタフェースを介して、前記第1の話者に対応する第1のボタンの選択を受信すること、ここで、前記第1のボタンの選択に応答して、前記第1の発話を表す前記第1の音声波形の第1の部分が捕捉され、
前記ユーザインタフェースを介して、前記第2の話者に対応する第2のボタンの選択を受信すること、を含み、前記第2のボタンの選択に応答して、前記第2の発話を表す前記第1の音声波形の第2の部分が捕捉される、請求項1または2に記載の方法。 - 前記識別データを受信するステップは、
カメラデバイスから、前記第1の発話を表現する前記第1の話者を表す第1の画像フレームを受信すること、ここで、前記第1の発話を表す前記第1の音声波形の第1の部分は、前記第1の発話を表現する前記第1の話者を表す前記第1の画像フレームに基づいて、前記第1の話者に関連付けられ、
前記カメラデバイスから、前記第2の発話を表現する前記第2の話者を表す第2の画像フレームを受信すること、を含み、前記第2の発話を表す前記第1の音声波形の第2の部分は、前記第2の発話を表現する前記第2の話者を表す前記第2の画像フレームに基づいて、前記第2の話者に関連付けられる、請求項1乃至4のいずれか一項に記載の方法。 - 前記ダイアライゼーションモデルは、
(i)波形の一部を入力として受信して、(ii)前記波形の一部の特性を表す複数の値を含む埋め込みベクトルを生成するように構成された波形埋め込みモデルと、
(i)前記埋め込みベクトルに基づく最近傍重心モデル、(ii)前記埋め込みベクトルに基づくk最近傍モデル、または(iii)前記埋め込みベクトルに基づくガウス型ナイーブベイズモデルのうちの1つまたは複数を含むベクトル分類モデルと、を含む、請求項1乃至5のいずれか一項に記載の方法。 - 前記ベクトル分類モデルは最近傍重心モデルを含み、前記ダイアライゼーションモデルを決定するステップは、
前記波形埋め込みモデルによって、前記第1の発話を表す前記第1の音声波形の個々の第1の部分に対応する第1の複数の埋め込みベクトルを生成すること、
前記波形埋め込みモデルによって、前記第2の発話を表す前記第1の音声波形の個々の第2の部分に対応する第2の複数の埋め込みベクトルを生成すること、
(i)前記第1の複数の埋め込みベクトルに基づく第1の重心、および(ii)前記第2の複数の埋め込みベクトルに基づく第2の重心を決定すること、を含む、請求項6に記載の方法。 - 前記第3の発話の元話者を決定するステップは、
前記波形埋め込みモデルによって、前記第3の発話を表す第2の音声波形の第3の部分に対応する第3の埋め込みベクトルを生成すること、
(i)前記第3の埋め込みベクトルと前記第1の重心との間の第1の距離、および(ii)前記第3の埋め込みベクトルと前記第2の重心との間の第2の距離を決定すること、
前記第1の距離が前記第2の距離よりも小さいと判定すること、
前記第1の距離が前記第2の距離よりも小さいと判定することに基づいて、前記第1の話者が前記第3の発話の元話者であることを決定すること、を含む、請求項7に記載の方法。 - 前記ベクトル分類モデルはガウス型ナイーブベイズモデルを含み、前記ダイアライゼーションモデルを決定するステップは、
前記波形埋め込みモデルによって、前記第1の発話を表す前記第1の音声波形の個々の第1の部分に対応する第1の複数の埋め込みベクトルを生成すること、
前記波形埋め込みモデルによって、前記第2の発話を表す前記第1の音声波形の個々の第2の部分に対応する第2の複数の埋め込みベクトルを生成すること、
(i)前記第1の複数の埋め込みベクトルに基づいて第1の平均値および第1の標準偏差、および(ii)前記第2の複数の埋め込みベクトルに基づいて第2の平均値および第2の標準偏差を決定すること、を含む、請求項6に記載の方法。 - 前記第3の発話の元話者を決定するステップは、
前記波形埋め込みモデルによって、前記第3の発話を表す第2の音声波形の第3の部分に対応する第3の埋め込みベクトルを生成すること、
(i)前記第1の平均値および前記第1の標準偏差に基づいて前記第3の埋め込みベクトルが前記第1の複数の埋め込みベクトルに属する第1の確率、および(ii)前記第2の平均値および前記第2の標準偏差に基づいて前記第3の埋め込みベクトルが前記第2の複数の埋め込みベクトルに属する第2の確率を決定すること、
前記第1の確率が前記第2の確率よりも高いと判定すること、
前記第1の確率が前記第2の確率よりも高いと判定することに基づいて、前記第1の話者が前記第3の発話の元話者であることを決定すること、を含む、請求項9に記載の方法。 - 前記ダイアライゼーションモデルを決定するステップは、(i)前記波形埋め込みモデルによって、前記第1の発話を表す前記第1の音声波形の個々の第1の部分に対応する第1の複数の埋め込みベクトルを生成すること、(ii)前記波形埋め込みモデルによって、前記第2の発話を表す前記第1の音声波形の個々の第2の部分に対応する第2の複数の埋め込みベクトルを生成すること、を含み、前記ベクトル分類モデルは、k最近傍モデルを含み、前記第3の発話の元話者を決定するステップは、
前記波形埋め込みモデルによって、前記第3の発話を表す第2の音声波形の第3の部分に対応する第3の埋め込みベクトルを生成すること、
前記第3の埋め込みベクトルに対して最近傍のk個の点を決定すること、
前記k個の点の各個々の点に関して、個々の点が前記第1の複数の埋め込みベクトルに属するか、または前記第2の複数の埋め込みベクトルに属するかを決定すること、
前記第1の複数の埋め込みベクトルまたは前記第2の複数の埋め込みベクトルに属する個々の点に基づいて元話者を決定すること、を含む、請求項6に記載の方法。 - 前記ダイアライゼーションモデルを更新するステップは、
前記第3の発話の第3の複数の埋め込みを決定すること、
前記第3の複数の埋め込みの少なくとも一部を含むように前記ベクトル分類モデルを更新すること、を含む、請求項6乃至11のいずれか一項に記載の方法。 - 前記ダイアライゼーションモデルを更新するステップは、
前記第3の発話の元話者を決定する際の前記ダイアライゼーションモデルの信頼度を決定すること、
信頼度が閾値信頼度を超えると判定すること、
前記信頼度が前記閾値信頼度を超えと判定することに基づいて前記ダイアライゼーションモデルを更新すること、を含む、請求項1乃至12のいずれか一項に記載の方法。 - 前記ダイアライゼーションモデルを形成する各発話にはモデル内で対応する重みが割り当てられ、前記ダイアライゼーションモデルを更新するステップは、
(i)前記第1の発話に割り当てられた第1の重み、または(ii)前記第2の発話に割り当てられた第2の重みのうちの少なくとも1つよりも低い第3の重みを前記第3の発話に割り当てることを含む、請求項1乃至13のいずれか一項に記載の方法。 - (i)前記第1の発話が第1の話者に対応すること、および(ii)前記第2の発話が第2の話者に対応することを示す第2のタイプの識別データを受信するステップと、
前記第3の発話の元話者を示す第2のタイプのさらなる識別データを受信するステップと、
前記第2のタイプのさらなる識別データに基づいて、前記ダイアライゼーションモデルによる元話者の決定を検証するステップと、をさらに含む、請求項1乃至14のいずれか一項に記載の方法。 - 前記第1のタイプの識別データは、前記コンピューティングデバイスのユーザインタフェースを介して提供される入力を表し、前記第2のタイプの識別データは、前記コンピューティングデバイスに接続されたカメラによって捕捉された画像データを含む、請求項15に記載の方法。
- システムであって、
マイクと
プロセッサと、を備え、前記プロセッサは、
ユーザインタフェースを介して識別データの入力に関する視覚的プロンプトを表示すること、
前記マイクから、初期時間ウィンドウの間に捕捉され、かつ第1の発話および第2の発話を表す第1の音声波形を受信すること、
(i)前記第1の発話が第1の話者に対応すること、および(ii)前記第2の発話が第2の話者に対応することを示す第1のタイプの識別データを受信すること、
前記第1の発話、前記第2の発話、および前記第1のタイプの識別データに基づいて、前記第1の話者による発話と前記第2の話者による発話とを区別するように構成されたダイアライゼーションモデルを決定すること、
前記マイクから、第3の発話の元話者を示す第1のタイプのさらなる識別データを受信することを含まずに、後続の時間ウィンドウ中に捕捉され、かつ前記第3の発話を表す第2の音声波形を受信すること、
前記ダイアライゼーションモデルによって、かつ第1のタイプのさらなる識別データとは無関係に、前記第3の発話の元話者を決定すること、ここで、前記元話者は、前記第1の話者または前記第2の話者であると決定され、
前記第3の発話および決定された前記元話者に基づいて前記ダイアライゼーションモデルを更新すること、
ここで、前記第1の音声波形は、前記第1の話者による第1の複数の発話および前記第2の話者による第2の複数の発話を表し、
前記第2の音声波形を受信する前に、
前記第1の音声波形および前記識別データを用いて前記ダイアライゼーションモデルを訓練することにより前記第1の複数の発話と前記第2の複数の発話とを区別する際の前記ダイアライゼーションモデルの精度を決定すること、
前記精度が閾値精度を超えると判定すること、
前記精度が閾値精度を超えると判定することに基づいて、視覚的プロンプトを前記ユーザインタフェースから取り除くように前記ユーザインタフェースを変更すること、を含む動作を実行するように構成されている、システム。 - 命令が格納された非一時的なコンピュータ可読記憶媒体であって、前記命令は、コンピューティングデバイスによる実行時に、前記コンピューティングデバイスに
前記コンピューティングデバイスのユーザインタフェースを介して識別データの入力に関する視覚的プロンプトを表示すること、
初期時間ウィンドウの間に捕捉され、かつ第1の発話および第2の発話を表す第1の音声波形を受信すること、
(i)前記第1の発話が第1の話者に対応すること、および(ii)前記第2の発話が第2の話者に対応することを示す第1のタイプの識別データを受信すること、
前記第1の発話、前記第2の発話、および前記第1のタイプの識別データに基づいて、前記第1の話者による発話と前記第2の話者による発話とを区別するように構成されたダイアライゼーションモデルを決定すること、
後続の時間ウィンドウ中に捕捉され、かつ第3の発話を表す第2の音声波形を受信すること、ここで、前記第2の音声波形は、第3の発話の元話者を示す第1のタイプのさらなる識別データを受信することを含まずに受信され、
前記ダイアライゼーションモデルによって、かつ第1のタイプのさらなる識別データとは無関係に、前記第3の発話の元話者を決定すること、ここで、前記元話者は、前記第1の話者または前記第2の話者であると決定され、
前記第3の発話および決定された前記元話者に基づいて前記ダイアライゼーションモデルを更新すること、
ここで、前記第1の音声波形は、前記第1の話者による第1の複数の発話および前記第2の話者による第2の複数の発話を表し、
前記第2の音声波形を受信する前に、
前記第1の音声波形および前記識別データを用いて前記ダイアライゼーションモデルを訓練することにより前記第1の複数の発話と前記第2の複数の発話とを区別する際の前記ダイアライゼーションモデルの精度を決定すること、
前記精度が閾値精度を超えると判定すること、
前記精度が閾値精度を超えると判定することに基づいて、視覚的プロンプトを前記ユーザインタフェースから取り除くように前記ユーザインタフェースを変更すること、を含む動作を実行させる、非一時的なコンピュータ可読記憶媒体。 - 前記識別データを受信することは、
前記コンピューティングデバイスのユーザインタフェースを介して、前記第1の話者に対応する第1のボタンの選択を受信すること、ここで、前記第1のボタンの選択に応答して、前記第1の発話を表す前記第1の音声波形の第1の部分が捕捉され、
前記ユーザインタフェースを介して、前記第2の話者に対応する第2のボタンの選択を受信すること、を含み、前記第2のボタンの選択に応答して、前記第2の発話を表す前記第1の音声波形の第2の部分が捕捉される、請求項18に記載の非一時的なコンピュータ可読記憶媒体。 - 前記ダイアライゼーションモデルを更新することは、
前記第3の発話の元話者を決定する際の前記ダイアライゼーションモデルの信頼度を決定すること、
信頼度が閾値信頼度を超えると判定すること、
前記信頼度が前記閾値信頼度を超えと判定することに基づいて前記ダイアライゼーションモデルを更新すること、を含む、請求項18または19に記載の非一時的なコンピュータ可読記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2019/040111 WO2021002838A1 (en) | 2019-07-01 | 2019-07-01 | Adaptive diarization model and user interface |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022539355A JP2022539355A (ja) | 2022-09-08 |
JP7295284B2 true JP7295284B2 (ja) | 2023-06-20 |
Family
ID=67439408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021577103A Active JP7295284B2 (ja) | 2019-07-01 | 2019-07-01 | 適応ダイアライゼーションモデルおよびユーザインタフェース |
Country Status (6)
Country | Link |
---|---|
US (1) | US11710496B2 (ja) |
EP (1) | EP3788621B1 (ja) |
JP (1) | JP7295284B2 (ja) |
KR (1) | KR20220025058A (ja) |
CN (1) | CN114175149A (ja) |
WO (1) | WO2021002838A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113498517A (zh) * | 2020-02-06 | 2021-10-12 | 谷歌有限责任公司 | 音频流的稳定实时翻译 |
US20240070251A1 (en) * | 2021-08-04 | 2024-02-29 | Q (Cue) Ltd. | Using facial skin micromovements to identify a user |
CN114822005B (zh) * | 2022-06-28 | 2022-09-20 | 深圳市矽昊智能科技有限公司 | 基于人工智能的遥控意图预测方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011248002A (ja) | 2010-05-25 | 2011-12-08 | Fujitsu Toshiba Mobile Communications Ltd | 翻訳装置 |
JP2012093641A (ja) | 2010-10-28 | 2012-05-17 | Toshiba Corp | 携帯型電子機器 |
JP2017182397A (ja) | 2016-03-30 | 2017-10-05 | 株式会社リクルートライフスタイル | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム |
JP2017530387A (ja) | 2015-03-20 | 2017-10-12 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 人工知能に基づく声紋ログイン方法と装置 |
WO2018009969A1 (en) | 2016-07-11 | 2018-01-18 | Ftr Pty Ltd | Method and system for automatically diarising a sound recording |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6424946B1 (en) * | 1999-04-09 | 2002-07-23 | International Business Machines Corporation | Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering |
US9300790B2 (en) | 2005-06-24 | 2016-03-29 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
JP2008077601A (ja) * | 2006-09-25 | 2008-04-03 | Toshiba Corp | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
US8543402B1 (en) * | 2010-04-30 | 2013-09-24 | The Intellisis Corporation | Speaker segmentation in noisy conversational speech |
US8306814B2 (en) * | 2010-05-11 | 2012-11-06 | Nice-Systems Ltd. | Method for speaker source classification |
US9257115B2 (en) * | 2012-03-08 | 2016-02-09 | Facebook, Inc. | Device for extracting information from a dialog |
US10134400B2 (en) * | 2012-11-21 | 2018-11-20 | Verint Systems Ltd. | Diarization using acoustic labeling |
US9514753B2 (en) * | 2013-11-04 | 2016-12-06 | Google Inc. | Speaker identification using hash-based indexing |
US9600474B2 (en) | 2013-11-08 | 2017-03-21 | Google Inc. | User interface for realtime language translation |
KR20150093482A (ko) * | 2014-02-07 | 2015-08-18 | 한국전자통신연구원 | 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치 |
KR102545764B1 (ko) | 2016-04-01 | 2023-06-20 | 삼성전자주식회사 | 음성 번역을 위한 장치 및 방법 |
US9584946B1 (en) * | 2016-06-10 | 2017-02-28 | Philip Scott Lyren | Audio diarization system that segments audio input |
WO2018106971A1 (en) * | 2016-12-07 | 2018-06-14 | Interactive Intelligence Group, Inc. | System and method for neural network based speaker classification |
US20180197548A1 (en) * | 2017-01-09 | 2018-07-12 | Onu Technology Inc. | System and method for diarization of speech, automated generation of transcripts, and automatic information extraction |
WO2019048062A1 (en) * | 2017-09-11 | 2019-03-14 | Telefonaktiebolaget Lm Ericsson (Publ) | MANAGING USER PROFILES WITH VOICE COMMAND |
EP3619708B1 (en) * | 2018-04-23 | 2022-06-08 | Google LLC | Speaker diarization using an end-to-end model |
US11152013B2 (en) * | 2018-08-02 | 2021-10-19 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for a triplet network with attention for speaker diartzation |
WO2020068056A1 (en) * | 2018-09-25 | 2020-04-02 | Google Llc | Speaker diarization using speaker embedding(s) and trained generative model |
US11507759B2 (en) * | 2019-03-25 | 2022-11-22 | Panasonic Holdings Corporation | Speech translation device, speech translation method, and recording medium |
US20220122615A1 (en) * | 2019-03-29 | 2022-04-21 | Microsoft Technology Licensing Llc | Speaker diarization with early-stop clustering |
US11322148B2 (en) * | 2019-04-30 | 2022-05-03 | Microsoft Technology Licensing, Llc | Speaker attributed transcript generation |
US11651767B2 (en) * | 2020-03-03 | 2023-05-16 | International Business Machines Corporation | Metric learning of speaker diarization |
US20220115019A1 (en) * | 2020-10-12 | 2022-04-14 | Soundhound, Inc. | Method and system for conversation transcription with metadata |
-
2019
- 2019-07-01 KR KR1020227003287A patent/KR20220025058A/ko not_active Application Discontinuation
- 2019-07-01 EP EP19744997.8A patent/EP3788621B1/en active Active
- 2019-07-01 US US17/596,861 patent/US11710496B2/en active Active
- 2019-07-01 WO PCT/US2019/040111 patent/WO2021002838A1/en unknown
- 2019-07-01 CN CN201980098126.8A patent/CN114175149A/zh active Pending
- 2019-07-01 JP JP2021577103A patent/JP7295284B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011248002A (ja) | 2010-05-25 | 2011-12-08 | Fujitsu Toshiba Mobile Communications Ltd | 翻訳装置 |
JP2012093641A (ja) | 2010-10-28 | 2012-05-17 | Toshiba Corp | 携帯型電子機器 |
JP2017530387A (ja) | 2015-03-20 | 2017-10-12 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 人工知能に基づく声紋ログイン方法と装置 |
JP2017182397A (ja) | 2016-03-30 | 2017-10-05 | 株式会社リクルートライフスタイル | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム |
WO2018009969A1 (en) | 2016-07-11 | 2018-01-18 | Ftr Pty Ltd | Method and system for automatically diarising a sound recording |
Also Published As
Publication number | Publication date |
---|---|
KR20220025058A (ko) | 2022-03-03 |
WO2021002838A1 (en) | 2021-01-07 |
EP3788621A1 (en) | 2021-03-10 |
US11710496B2 (en) | 2023-07-25 |
US20220310109A1 (en) | 2022-09-29 |
EP3788621B1 (en) | 2023-03-22 |
JP2022539355A (ja) | 2022-09-08 |
CN114175149A (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11031000B2 (en) | Method and device for transmitting and receiving audio data | |
US11769492B2 (en) | Voice conversation analysis method and apparatus using artificial intelligence | |
JP7295284B2 (ja) | 適応ダイアライゼーションモデルおよびユーザインタフェース | |
US11508378B2 (en) | Electronic device and method for controlling the same | |
CN113168227A (zh) | 执行电子装置的功能的方法以及使用该方法的电子装置 | |
KR102304701B1 (ko) | 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치 | |
US20200020327A1 (en) | Method and apparatus for recognizing a voice | |
US9870521B1 (en) | Systems and methods for identifying objects | |
CN111126079B (zh) | 用于机器翻译的神经网络模型压缩方法、装置及存储介质 | |
CN110162598B (zh) | 一种数据处理方法和装置、一种用于数据处理的装置 | |
US11830502B2 (en) | Electronic device and method for controlling the same | |
KR20210044475A (ko) | 대명사가 가리키는 객체 판단 방법 및 장치 | |
US11942077B2 (en) | Electronic device and operating method thereof | |
WO2019026617A1 (ja) | 情報処理装置、及び情報処理方法 | |
CN113689879A (zh) | 实时驱动虚拟人的方法、装置、电子设备及介质 | |
KR20180054362A (ko) | 사용자의 음성 입력을 인식하는 방법 및 장치 | |
US11164341B2 (en) | Identifying objects of interest in augmented reality | |
CN112036174B (zh) | 一种标点标注方法及装置 | |
CN111147914A (zh) | 一种视频处理的方法、存储介质及电子设备 | |
CN115039169A (zh) | 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质 | |
US11687317B2 (en) | Wearable computing device audio interface | |
US20200410978A1 (en) | Cognitive modification of verbal communications from an interactive computing device | |
US10649725B1 (en) | Integrating multi-channel inputs to determine user preferences | |
US20230186036A1 (en) | Method and apparatus for providing interpretation situation information | |
US11997445B2 (en) | Systems and methods for live conversation using hearing devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230523 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230608 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7295284 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |