JP7505584B2 - 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム - Google Patents

話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム Download PDF

Info

Publication number
JP7505584B2
JP7505584B2 JP2022569345A JP2022569345A JP7505584B2 JP 7505584 B2 JP7505584 B2 JP 7505584B2 JP 2022569345 A JP2022569345 A JP 2022569345A JP 2022569345 A JP2022569345 A JP 2022569345A JP 7505584 B2 JP7505584 B2 JP 7505584B2
Authority
JP
Japan
Prior art keywords
speaker
frame
diarization
speaker diarization
array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022569345A
Other languages
English (en)
Other versions
JPWO2022130471A1 (ja
Inventor
厚志 安藤
有実子 村田
岳至 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2022130471A1 publication Critical patent/JPWO2022130471A1/ja
Application granted granted Critical
Publication of JP7505584B2 publication Critical patent/JP7505584B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)

Description

本発明は、話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラムに関する。
近年、音響信号を入力とし、音響信号に含まれる全ての話者の発話区間を同定する話者ダイアライゼーション技術が期待されている。話者ダイアライゼーション技術によれば、例えば、会議において誰がいつ発言したかを記録する自動書き起こしや、コンタクトセンタにおいて通話からオペレータと顧客との発話の自動切り出し等、様々な応用が可能となる。
従来、話者ダイアライゼーション技術として、深層学習に基づくEEND(End-to-End Neural Diarization)と呼ばれる技術が開示されている(非特許文献1参照)。EENDでは、音響信号をフレームごとに分割し、各フレームから抽出した音響特徴から、当該フレームにおいて特定の話者が存在するか否かを表す話者ラベルをフレームごとに推定する。音響信号内の最大話者数Sである場合に、フレームごとの話者ラベルはS次元のベクトルであり、当該フレームにおいて、ある話者が発話している場合に1、発話していない場合に0となる。すなわち、EENDでは、話者数のマルチラベル二値分類を行うことにより、話者ダイアライゼーションを実現している。
EENDでフレームごとの話者ラベル系列の推定に用いられるEENDモデルは、誤差逆伝搬可能な層で構成される深層学習に基づくモデルであって、音響特徴系列からフレームごとの話者ラベル系列を一気通貫で推定できる。EENDモデルには、時系列モデル化を行うRNN(Recurrent Neural Network)層が含まれる。これにより、EENDでは当該フレームだけでなく周囲のフレームの音響特徴量を用いて、フレームごとの話者ラベルを推定することが可能となる。このRNN層には、双方向LSTM(Long Short-Term Memory)-RNNやTransformer Encoderが用いられる。
なお、非特許文献2には、RNN Transducerについて記載されている。また、非特許文献3には、音響特徴量について記載されている。
Yusuke Fujita, Naoyuki Kanda, Shota Horiguchi, Yawen Xue, Kenji Nagamatsu, Shinji Watanabe, "END-TO-END NEURAL SPEAKER DIARIZATION WITH SELF-ATTENTION", Proc. ASRU, 2019年, pp. 296-303 Yi Luo, Zhuo Chen, Takuya Yoshioka, "DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATION", ICASSP, 2020年 鹿野 清宏, 伊藤 克亘, 河原 達也, 武田 一哉, 山本 幹雄, "音声認識システム", オーム社, 2001年, pp.13-14
しかしながら、従来技術では、長い音響信号に対する話者ダイアライゼーションを高精度に行うことが困難であった。つまり、従来のEENDモデルは、RNN層が非常に長い音響特徴系列を取り扱うことが困難であるため、非常に長い音響信号が入力された場合には、話者ダイアライゼーションの誤りが増加する恐れがある。
例えば、RNNにBLSTM-RNNを用いる場合には、BLSTM-RNNは入力されたフレームとこれに隣接するフレームの内部状態とを用いて当該フレームの話者ラベルを推定する。そのため、当該フレームから離れたフレームほど、その音響特徴を話者ラベルの推定に利用することが困難である。
また、RNNにTransformer Encoderを用いる場合には、当該フレームの話者ラベルの推定に役立つ情報が、どのフレームにあるかを推定するように、EENDモデルを学習する。そのため、音響特徴系列が長くなるほど、フレーム推定の選択肢が増加して、話者ラベルの推定が困難となる。
本発明は、上記に鑑みてなされたものであって、長い音響信号に対する話者ダイアライゼーションを高精度に行うことを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る話者ダイアライゼーション方法は、音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する生成工程と、前記配列を用いて、各フレームの話者ベクトルの話者ラベルを推定するモデルを学習により生成する学習工程と、を含んだことを特徴とする。
本発明によれば、長い音響信号に対する話者ダイアライゼーションを高精度に行うことが可能となる。
図1は、話者ダイアライゼーション装置の概要を説明するための図である。 図2は、話者ダイアライゼーション装置の概略構成を例示する模式図である。 図3は、話者ダイアライゼーション装置の処理を説明するための図である。 図4は、話者ダイアライゼーション装置の処理を説明するための図である。 図5は、話者ダイアライゼーション処理手順を示すフローチャートである。 図6は、話者ダイアライゼーション処理手順を示すフローチャートである。 図7は、話者ダイアライゼーションプログラムを実行するコンピュータを例示する図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[話者ダイアライゼーション装置の概要]
図1は、話者ダイアライゼーション装置の概要を説明するための図である。図1に示すように、本実施形態の話者ダイアライゼーション装置は、入力される二次元の音響特徴系列をセグメントに分割し、三次元の音響特徴配列に変換する。そして、この音響特徴配列を、列向きRNNと行向きRNNとの2つの系列モデルを含む話者ダイアライゼーションモデルに入力する。
具体的には、話者ダイアライゼーション装置は、Tフレーム×D次元の二次元の音響特徴系列をLフレームのセグメントにシフト幅Nフレームで分割する。そして、各セグメントを各行とし、各行の先頭を列方向にそろえるように結合することにより、(T-L)/N行×L列×D次元の三次元の音響特徴配列を生成する。
このようにして生成した配列を、各行に対してRNN処理を行う行向きRNN層を適用して、各セグメント内の音響特徴系列を用いて隠れ層出力を得る。続けて、配列を各列に対してRNN処理を行う列向きRNN層を適用して、複数のセグメントにまたがる隠れ層出力系列を得て、フレームごとの話者ラベルの推定に用いられる埋め込み系列が得られる。そして、フレームごとの埋め込み系列の各行をオーバーラップ加算して、Tフレームのフレームごとの話者ラベル埋め込み系列を得る。
その後、話者ダイアライゼーション装置は、Linear(線形)層とsigmoid層とを用いて、フレームごとの話者ラベル系列を得る。
このように、話者ダイアライゼーション装置は、行向きRNN層を適用することにより、局所的な文脈情報を用いて話者ダイアライゼーションを行うことが可能となる。この場合には、隣接するフレームで同じ話者ラベルを出力する傾向になる。また、話者ダイアライゼーション装置は、列向きRNN層を適用することにより、大局的な文脈情報を用いて話者ダイアライゼーションを行うことが可能となる。これにより、時間的に離れた同一の話者の発話を話者ダイアライゼーションの対象とすることが可能となる。
[話者ダイアライゼーション装置の構成]
図2は、話者ダイアライゼーション装置の概略構成を例示する模式図である。また、図3および図4は、話者ダイアライゼーション装置の処理を説明するための図である。まず、図2に例示するように、本実施形態の話者ダイアライゼーション装置10は、パソコン等の汎用コンピュータで実現され、入力部11、出力部12、通信制御部13、記憶部14、および制御部15を備える。
入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、実施者による入力操作に対応して、制御部15に対して処理開始などの各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現される。通信制御部13は、NIC(Network Interface Card)等で実現され、サーバや、音響信号を取得する装置等の外部の装置と制御部15とのネットワークを介した通信を制御する。
記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。なお、記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。本実施形態において、記憶部14には、例えば、後述する話者ダイアライゼーション処理に用いられる話者ダイアライゼーションモデル14a等が記憶される。
制御部15は、CPU(Central Processing Unit)やNP(Network Processor)やFPGA(Field Programmable Gate Array)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部15は、図2に例示するように、音響特徴抽出部15a、配列生成部15b、話者ラベル生成部15c、学習部15d、推定部15eおよび発話区間推定部15fとして機能する。なお、これらの機能部は、それぞれが異なるハードウェアに実装されてもよい。例えば、学習部15dは学習装置として実装され、推定部15eは、推定装置として実装されてもよい。また、制御部15は、その他の機能部を備えてもよい。
音響特徴抽出部15aは、話者の発話を含む音響信号のフレームごとの音響特徴を抽出する。例えば、音響特徴抽出部15aは、入力部11を介して、あるいは音響信号を取得する装置等から通信制御部13を介して、音響信号の入力を受け付ける。また、音響特徴抽出部15aは、音響信号をフレームごとに分割し、各フレームからの信号に対して離散フーリエ変換やフィルタバンク乗算を行うことにより音響特徴ベクトルを抽出し、フレーム方向に結合した音響特徴系列を出力する。本実施形態では、フレーム長は25ms、フレームシフト幅は10msとする。
ここで、音響特徴ベクトルは、例えば、24次元のMFCC(Mel Frequency Cepstral Coefficient)であるが、これに限定されず、例えば、メルフィルタバンク出力等の他のフレームごとの音響特徴量でもよい。
配列生成部15bは、音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する。具体的には、配列生成部15bは、図1に示したように、入力される二次元の音響特徴系列をセグメントに分割し、三次元の音響特徴配列に変換する。
すなわち、配列生成部15bは、Tフレーム×D次元の二次元の音響特徴系列をLフレームのセグメントにシフト幅Nフレームで分割する。そして、各セグメントを各行とし、各行の先頭を列方向にそろえるように結合することにより、(T-L)/N行×L列×D次元の三次元の音響特徴配列を生成する。本実施形態では、例えば、L=500、N=250とする。
なお、配列生成部15bは、後述する学習部15dおよび推定部15eに内包されてもよい。例えば、後述する図3および図4には、学習部15dおよび推定部15eが配列生成部15bの処理を行う例が示されている。
話者ラベル生成部15cは、音響特徴系列を用いて、各フレームの話者ラベルを生成する。具体的には、話者ラベル生成部15cは、図3に示すように、音響特徴系列と話者の発話区間の正解ラベルとを用いて、フレームごとの話者ラベルを生成する。これにより、後述する学習部15dの処理に用いられる教師データとして、音響特徴系列とフレームごとの話者ラベルとの組が生成される。
ここで、話者数がSである(話者1、話者2、…、話者S)場合に、tフレーム目(t=0,1,…,T)の話者ラベルはS次元のベクトルとなる。例えば、時刻t×フレームシフト幅のフレームがいずれかの話者の発話区間に含まれる場合には、当該話者に対応する次元の値が1、それ以外の次元の値が0となる。したがって、フレームごとの話者ラベルは、T×S次元の二値[0,1]のマルチラベルとなる。
図2の説明に戻る。学習部15dは、生成された配列を用いて、各フレームの話者ベクトルの話者ラベルを推定する話者ダイアライゼーションモデル14aを学習により生成する。具体的には、学習部15dは、図3および図4に示すように、音響特徴系列とフレームごとの話者ラベルとの組を教師データとして用いて、双方向RNNに基づく話者ダイアライゼーションモデル14aの学習を行う。
ここで、図4には、本実施形態の双方向RNNに基づく話者ダイアライゼーションモデル14aの構成が例示されている。図4に示すように、話者ダイアライゼーションモデル14aは、配列生成部15bの処理であるセグメント分割・配列化層の他、行向きRNN層および列向きRNN層を含む複数の層で構成される。行向きRNN層および列向きRNN層では、入力される三次元の音響特徴配列の行方向および列方向の双方向の処理が行われる。本実施形態において、行向きRNN層としては行向きBLSTM-RNNが適用され、列向きRNN層としては列向きBLSTM-RNNが適用される。
また、話者ダイアライゼーションモデル14aは、オーバーラップ加算層を有する。オーバーラップ加算層は、図1に示したように、三次元の音響特徴配列の各行をセグメント分割前の音響特徴系列と同様に配置して、オーバーラップありで加算する。これにより、音響特徴系列と同様のT×D次元の話者ラベル埋め込み系列が得られる。
また、話者ダイアライゼーションモデル14aは、線形変換を行うLinear(線形)層およびシグモイド関数を適用するsigmoid層を有する。図1に示したように、Linear層およびsigmoid層にT×D次元の話者ラベル埋め込み系列を入力することにより、T×S次元のフレームごとの話者ラベル事後確率が出力される。
学習部15dは、フレームごとの話者ラベルの事後確率と、フレームごとの話者ラベルとのマルチラベル二値交差エントロピーを損失関数として、誤差逆伝搬法により、話者ダイアライゼーションモデル14aの線形層、行向きBLSTM-RNN層および列向きBLSTM-RNN層のパラメータの最適化を行う。学習部15dは、パラメータの最適化には、確率的勾配降下法を用いたオンライン最適化アルゴリズムを用いる。
このように、学習部15dは、配列を行方向に処理を行うRNNと、列方向に処理を行うRNNとを含む話者ダイアライゼーションモデル14aを生成する。これにより、局所的な文脈情報を用いた話者ダイアライゼーションと、大局的な文脈情報を用いた話者ダイアライゼーションとが可能となる。したがって、学習部15dは、時間的に離れた同一の話者の発話を話者ダイアライゼーションの対象として学習することが可能となる。
図2の説明に戻る。推定部15eは、生成された話者ダイアライゼーションモデル14aを用いて、音響信号のフレームごとの話者ラベルを推定する。具体的には、推定部15eは、図3に示すように、配列生成部15bが音響特徴列から生成した配列を、話者ダイアライゼーションモデル14aに順伝搬させることにより、音響特徴系列のフレームごとの話者ラベル事後確率(話者ラベルの推定値)を得る。
発話区間推定部15fは、出力された話者ラベル事後確率を用いて、音響信号中の話者の発話区間を推定する。具体的には、発話区間推定部15fは、複数のフレームの移動平均を用いて、話者ラベルを推定する。すなわち、発話区間推定部15fは、まず、フレームごとの話者ラベル事後確率に対し、自フレームとその前後の5フレームとの長さ11での移動平均を算出する。これにより、1フレームしかない発話等、現実的ではない短い発話区間の誤検出を防止することが可能となる。
次に、発話区間推定部15fは、算出した移動平均の値が0.5より大きい場合に、当該フレームが、当該次元の話者の発話区間と推定する。また、発話区間推定部15fは、各話者について、連続する発話区間フレーム群を1つの発話とみなし、所定の時刻までの発話区間の開始時刻と終了時刻とをフレームから逆算する。これにより、話者ごとの発話ごとの所定の時刻までの発話開始時刻と発話終了時刻とを得ることができる。
[話者ダイアライゼーション処理]
次に、話者ダイアライゼーション装置10による話者ダイアライゼーション処理について説明する。図5よび図6は、話者ダイアライゼーション処理手順を示すフローチャートである。本実施形態の話者ダイアライゼーション処理は、学習処理と推定処理とを含む。まず、図4は、学習処理手順を示す。図5のフローチャートは、例えば、学習処理の開始を指示する入力があったタイミングで開始される。
まず、音響特徴抽出部15aが、話者の発話を含む音響信号のフレームごとの音響特徴を抽出し、音響特徴系列を出力する(ステップS1)。
次に、配列生成部15bが、音響信号のフレームごとの二次元の音響特徴系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した三次元の音響特徴配列を生成する(ステップS2)。
そして、学習部15dが、生成された音響特徴配列を用いて、各フレームの話者ベクトルの話者ラベルを推定する話者ダイアライゼーションモデル14aを、学習により生成する(ステップS3)。その際に、学習部15dは、配列を行方向に処理を行うRNNと、列方向に処理を行うRNNとを含む話者ダイアライゼーションモデル14aを生成する。これにより、一連の学習処理が終了する。
次に、図6は、推定処理手順を示す。図6のフローチャートは、例えば、推定処理の開始を指示する入力があったタイミングで開始される。
まず、音響特徴抽出部15aが、話者の発話を含む音響信号のフレームごとの音響特徴を抽出し、音響特徴系列を出力する(ステップS1)。
また、配列生成部15bが、音響信号のフレームごとの二次元の音響特徴系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した三次元の音響特徴配列を生成する(ステップS2)。
次に、推定部15eが、生成された話者ダイアライゼーションモデル14aを用いて、音響信号のフレームごとの話者ラベルを推定する(ステップS4)。具体的には、推定部15eは、音響特徴系列のフレームごとの話者ラベル事後確率(話者ラベルの推定値)を出力する。
そして、発話区間推定部15fが、出力された話者ラベル事後確率を用いて、音響信号中の話者の発話区間を推定する(ステップS5)。これにより、一連の推定処理が終了する。
以上、説明したように、本実施形態の話者ダイアライゼーション装置10において、配列生成部15bが、音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する。また、学習部15dが、生成された配列を用いて、各フレームの話者ベクトルの話者ラベルを推定する話者ダイアライゼーションモデル14aを学習により生成する。
具体的には、学習部15dは、配列を行方向に処理を行うRNNと、列方向に処理を行うRNNとを含む話者ダイアライゼーションモデル14aを生成する。これにより、局所的な文脈情報を用いた話者ダイアライゼーションと、大局的な文脈情報を用いた話者ダイアライゼーションとが可能となる。したがって、学習部15dは、時間的に離れた同一の話者の発話を話者ダイアライゼーションの対象として学習することが可能となる。これにより、話者ダイアライゼーション装置10は、長い音響信号に対する話者ダイアライゼーションを高精度に行うことが可能となる。
また、推定部15eが、生成された話者ダイアライゼーションモデル14aを用いて、音響信号のフレームごとの話者ラベルを推定する。これにより、長い音響信号に対する高精度な話者ダイアライゼーションが可能となる。
また、発話区間推定部15fが、複数のフレームの移動平均を用いて、話者ラベルを推定する。これにより、現実的ではない短い発話区間の誤検出を防止することが可能となる。
[プログラム]
上記実施形態に係る話者ダイアライゼーション装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、話者ダイアライゼーション装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の話者ダイアライゼーション処理を実行する話者ダイアライゼーションプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の話者ダイアライゼーションプログラムを情報処理装置に実行させることにより、情報処理装置を話者ダイアライゼーション装置10として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。また、話者ダイアライゼーション装置10の機能を、クラウドサーバに実装してもよい。
図7は、話者ダイアライゼーションプログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
また、話者ダイアライゼーションプログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した話者ダイアライゼーション装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、話者ダイアライゼーションプログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、話者ダイアライゼーションプログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、話者ダイアライゼーションプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
10 話者ダイアライゼーション装置
11 入力部
12 出力部
13 通信制御部
14 記憶部
14a 話者ダイアライゼーションモデル
15 制御部
15a 音響特徴抽出部
15b 配列生成部
15c 話者ラベル生成部
15d 学習部
15e 推定部
15f 発話区間推定部

Claims (6)

  1. 話者ダイアライゼーション装置が実行する話者ダイアライゼーション方法であって、
    音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する生成工程と、
    前記配列を用いて、各フレームの話者ベクトルの話者ラベルを推定するモデルを学習により生成する学習工程と、
    を含んだことを特徴とする話者ダイアライゼーション方法。
  2. 前記学習工程は、前記配列を行方向に処理を行うRNNと、列方向に処理を行うRNNとを含む前記モデルを生成することを特徴とする請求項1に記載の話者ダイアライゼーション方法。
  3. 生成された前記モデルを用いて、音響信号のフレームごとの話者ラベルを推定する推定工程を、さらに含んだことを特徴とする請求項1に記載の話者ダイアライゼーション方法。
  4. 前記推定工程は、複数のフレームの移動平均を用いて、前記話者ラベルを推定することを特徴とする請求項3に記載の話者ダイアライゼーション方法。
  5. 音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する生成部と、
    前記配列を用いて、各フレームの話者ベクトルの話者ラベルを推定するモデルを学習により生成する学習部と、
    を有することを特徴とする話者ダイアライゼーション装置。
  6. 音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する生成ステップと、
    前記配列を用いて、各フレームの話者ベクトルの話者ラベルを推定するモデルを学習により生成する学習ステップと、
    をコンピュータに実行させるための話者ダイアライゼーションプログラム。
JP2022569345A 2020-12-14 2020-12-14 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム Active JP7505584B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/046585 WO2022130471A1 (ja) 2020-12-14 2020-12-14 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム

Publications (2)

Publication Number Publication Date
JPWO2022130471A1 JPWO2022130471A1 (ja) 2022-06-23
JP7505584B2 true JP7505584B2 (ja) 2024-06-25

Family

ID=82057429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022569345A Active JP7505584B2 (ja) 2020-12-14 2020-12-14 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム

Country Status (3)

Country Link
US (1) US20240105182A1 (ja)
JP (1) JP7505584B2 (ja)
WO (1) WO2022130471A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019086679A (ja) 2017-11-08 2019-06-06 株式会社東芝 対話システム、対話方法および対話プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019086679A (ja) 2017-11-08 2019-06-06 株式会社東芝 対話システム、対話方法および対話プログラム

Also Published As

Publication number Publication date
US20240105182A1 (en) 2024-03-28
WO2022130471A1 (ja) 2022-06-23
JPWO2022130471A1 (ja) 2022-06-23

Similar Documents

Publication Publication Date Title
US11776531B2 (en) Encoder-decoder models for sequence to sequence mapping
US10332510B2 (en) Method and apparatus for training language model and recognizing speech
US20210272551A1 (en) Speech recognition apparatus, speech recognition method, and electronic device
JP6686154B2 (ja) 発話認識方法及び装置
US20200013390A1 (en) Speech wakeup method, apparatus, and electronic device
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
US8484022B1 (en) Adaptive auto-encoders
WO2018118442A1 (en) Acoustic-to-word neural network speech recognizer
CN108885870A (zh) 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法
JP2017097162A (ja) キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
JP7418991B2 (ja) 音声認識方法及び装置
Karmakar et al. Thank you for attention: a survey on attention-based artificial neural networks for automatic speech recognition
CN111798840A (zh) 语音关键词识别方法和装置
KR20220130565A (ko) 키워드 검출 방법 및 장치
AU2021246985B2 (en) Training of model for processing sequence data
US20210073645A1 (en) Learning apparatus and method, and program
EP3910625A2 (en) Method and apparatus for utterance time estimation
KR102409873B1 (ko) 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템
JP7505584B2 (ja) 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム
US20230076073A1 (en) Method and apparatus for speech recognition
JP7505582B2 (ja) 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム
CN112420075B (zh) 一种基于多任务的音素检测方法及装置
KR102292921B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
WO2023281717A1 (ja) 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム
Chen et al. Recognizing zero-resourced languages based on mismatched machine transcriptions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240527