JP2022121643A5

JP2022121643A5 -

Info

Publication number: JP2022121643A5
Application number: JP2022106669A
Authority: JP
Filing date: 2022-06-30
Publication date: 2023-12-25

Claims

コンピュータに、
音声ファイルに含まれる話者別の話者人数を推定し、
予め用意された話者別の学習済モデルを参照し、推定した前記話者人数のそれぞれの話者を認識し、
前記音声ファイルに含まれる話者をタグ付けし、
前記推定の処理は、
推定した前記話者人数をユーザに提示し、
前記ユーザによる前記話者人数の変更操作に基づき、前記音声ファイルに含まれる話者人数の推定を再度実行する、
処理を実行させることを特徴とする音声認識プログラム。
さらに、前記タグ付け後の話者の情報の学習および蓄積を行い、
前記認識の処理は、
前記学習済モデルに基づき、推定した前記話者人数のそれぞれの話者を認識する、
ことを特徴とする請求項１に記載の音声認識プログラム。
前記音声ファイルの録音時あるいは再生時に、前記音声ファイルに含まれる文字をリアルタイムに生成することを特徴とする請求項１または２に記載の音声認識プログラム。
コンピュータが、
音声ファイルに含まれる話者別の話者人数を推定し、
予め用意された話者別の学習済モデルを参照し、推定した前記話者人数のそれぞれの話者を認識し、
前記音声ファイルに含まれる話者をタグ付けし、
前記推定の処理は、
推定した前記話者人数をユーザに提示し、
前記ユーザによる前記話者人数の変更操作に基づき、前記音声ファイルに含まれる話者人数の推定を再度実行する、
処理を実行することを特徴とする音声認識方法。
音声ファイルに含まれる話者人数と話者を認識する制御部、を備え、
前記制御部は、
音声ファイルに含まれる話者別の話者人数を推定し、
予め用意された話者別の学習済モデルを参照し、推定した前記話者人数のそれぞれの話者を認識し、
前記音声ファイルに含まれる話者をタグ付けし、
前記制御部は、前記推定の処理として、
推定した前記話者人数をユーザに提示し、
前記ユーザによる前記話者人数の変更操作に基づき、前記音声ファイルに含まれる話者人数の推定を再度実行する、
ことを特徴とする音声認識装置。
端末と、クラウドが通信接続された音声認識システムにおいて、
前記端末は、
音声の録音部と、
録音あるいは再生した音声ファイルを前記クラウドにアップロードする通信部と、を有し、
前記クラウドは、
前記音声ファイルに含まれる話者別の話者人数を推定し、
予め用意された話者別の学習済モデルを参照し、推定した前記話者人数のそれぞれの話者を認識し、
前記音声ファイルに含まれる話者をタグ付けした情報を前記端末に通知し、
前記端末は、
前記クラウドが推定した前記話者人数を表示部によりユーザに提示し、
前記クラウドは、
前記端末から受信した前記ユーザによる前記話者人数の変更操作に基づき、前記音声ファイルに含まれる話者人数の推定を再度実行した結果を前記端末に送信する、
ことを特徴とする音声認識システム。
前記クラウドは、
前記端末からアップロードされた前記音声ファイルを保存する保存部を有することを特徴とする請求項６に記載の音声認識システム。