JP2022121643A5 - - Google Patents

Download PDF

Info

Publication number
JP2022121643A5
JP2022121643A5 JP2022106669A JP2022106669A JP2022121643A5 JP 2022121643 A5 JP2022121643 A5 JP 2022121643A5 JP 2022106669 A JP2022106669 A JP 2022106669A JP 2022106669 A JP2022106669 A JP 2022106669A JP 2022121643 A5 JP2022121643 A5 JP 2022121643A5
Authority
JP
Japan
Prior art keywords
speakers
speaker
audio file
user
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022106669A
Other languages
English (en)
Other versions
JP2022121643A (ja
Filing date
Publication date
Priority claimed from JP2020210074A external-priority patent/JP7103681B2/ja
Application filed filed Critical
Priority to JP2022106669A priority Critical patent/JP2022121643A/ja
Publication of JP2022121643A publication Critical patent/JP2022121643A/ja
Publication of JP2022121643A5 publication Critical patent/JP2022121643A5/ja
Pending legal-status Critical Current

Links

Claims (7)

  1. コンピュータに、
    音声ファイルに含まれる話者別の話者人数を推定し、
    予め用意された話者別の学習済モデルを参照し、推定した前記話者人数のそれぞれの話者を認識し、
    前記音声ファイルに含まれる話者をタグ付けし、
    前記推定の処理は、
    推定した前記話者人数をユーザに提示し、
    前記ユーザによる前記話者人数の変更操作に基づき、前記音声ファイルに含まれる話者人数の推定を再度実行する、
    処理を実行させることを特徴とする音声認識プログラム。
  2. さらに、前記タグ付け後の話者の情報の学習および蓄積を行い、
    前記認識の処理は、
    前記学習済モデルに基づき、推定した前記話者人数のそれぞれの話者を認識する、
    ことを特徴とする請求項1に記載の音声認識プログラム。
  3. 前記音声ファイルの録音時あるいは再生時に、前記音声ファイルに含まれる文字をリアルタイムに生成することを特徴とする請求項1または2に記載の音声認識プログラム。
  4. コンピュータが、
    音声ファイルに含まれる話者別の話者人数を推定し、
    予め用意された話者別の学習済モデルを参照し、推定した前記話者人数のそれぞれの話者を認識し、
    前記音声ファイルに含まれる話者をタグ付けし、
    前記推定の処理は、
    推定した前記話者人数をユーザに提示し、
    前記ユーザによる前記話者人数の変更操作に基づき、前記音声ファイルに含まれる話者人数の推定を再度実行する、
    処理を実行することを特徴とする音声認識方法。
  5. 音声ファイルに含まれる話者人数と話者を認識する制御部、を備え、
    前記制御部は、
    音声ファイルに含まれる話者別の話者人数を推定し、
    予め用意された話者別の学習済モデルを参照し、推定した前記話者人数のそれぞれの話者を認識し、
    前記音声ファイルに含まれる話者をタグ付けし、
    前記制御部は、前記推定の処理として、
    推定した前記話者人数をユーザに提示し、
    前記ユーザによる前記話者人数の変更操作に基づき、前記音声ファイルに含まれる話者人数の推定を再度実行する、
    ことを特徴とする音声認識装置。
  6. 端末と、クラウドが通信接続された音声認識システムにおいて、
    前記端末は、
    音声の録音部と、
    録音あるいは再生した音声ファイルを前記クラウドにアップロードする通信部と、を有し、
    前記クラウドは、
    前記音声ファイルに含まれる話者別の話者人数を推定し、
    予め用意された話者別の学習済モデルを参照し、推定した前記話者人数のそれぞれの話者を認識し、
    前記音声ファイルに含まれる話者をタグ付けした情報を前記端末に通知し、
    前記端末は、
    前記クラウドが推定した前記話者人数を表示部によりユーザに提示し、
    前記クラウドは、
    前記端末から受信した前記ユーザによる前記話者人数の変更操作に基づき、前記音声ファイルに含まれる話者人数の推定を再度実行した結果を前記端末に送信する、
    ことを特徴とする音声認識システム。
  7. 前記クラウドは、
    前記端末からアップロードされた前記音声ファイルを保存する保存部を有することを特徴とする請求項6に記載の音声認識システム。
JP2022106669A 2020-12-18 2022-06-30 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム Pending JP2022121643A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022106669A JP2022121643A (ja) 2020-12-18 2022-06-30 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020210074A JP7103681B2 (ja) 2020-12-18 2020-12-18 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム
JP2022106669A JP2022121643A (ja) 2020-12-18 2022-06-30 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020210074A Division JP7103681B2 (ja) 2020-12-18 2020-12-18 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム

Publications (2)

Publication Number Publication Date
JP2022121643A JP2022121643A (ja) 2022-08-19
JP2022121643A5 true JP2022121643A5 (ja) 2023-12-25

Family

ID=82165077

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020210074A Active JP7103681B2 (ja) 2020-12-18 2020-12-18 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム
JP2022106669A Pending JP2022121643A (ja) 2020-12-18 2022-06-30 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020210074A Active JP7103681B2 (ja) 2020-12-18 2020-12-18 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム

Country Status (1)

Country Link
JP (2) JP7103681B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3980988B2 (ja) * 2002-10-28 2007-09-26 日本電信電話株式会社 音声発生区間検索方法,音声発生区間検索装置,並びにそのプログラムおよびそのプログラムの記録媒体
JP2010060850A (ja) * 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
JP6350148B2 (ja) * 2014-09-09 2018-07-04 富士通株式会社 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
JP2017021672A (ja) * 2015-07-14 2017-01-26 村田機械株式会社 検索装置
JP6594839B2 (ja) * 2016-10-12 2019-10-23 日本電信電話株式会社 話者数推定装置、話者数推定方法、およびプログラム
JP2018097239A (ja) * 2016-12-15 2018-06-21 カシオ計算機株式会社 音声再生装置及びプログラム

Similar Documents

Publication Publication Date Title
JP6688340B2 (ja) 表情アイコンを入力するための方法及び装置
CN107452372A (zh) 远场语音识别模型的训练方法和装置
CN110910891B (zh) 基于长短时记忆深度神经网络的说话人分段标注方法
CN111339806B (zh) 唇语识别模型的训练方法、活体识别方法及装置
CN109448460A (zh) 一种背诵检测方法及用户设备
CN104766608A (zh) 一种语音控制方法及装置
WO2017080239A1 (zh) 录音标记方法及录音装置
CN109935226A (zh) 一种基于深度神经网络的远场语音识别增强系统及方法
CN113947376B (zh) 基于多重生物特征的c/s打卡方法和装置
US20190371309A1 (en) Systems and methods for identifying voice
CN109065036A (zh) 语音识别的方法、装置、电子设备及计算机可读存储介质
CN116312552B (zh) 一种视频说话人日志方法及系统
CN108364656A (zh) 一种用于语音重放检测的特征提取方法及装置
CN112883932A (zh) 员工异常行为检测方法、装置及系统
CN102509548B (zh) 一种基于多距离声传感器的音频索引方法
CN115988164A (zh) 一种会议室多媒体控制方法、系统及计算机设备
JP2022121643A5 (ja)
CN112185422B (zh) 提示信息生成方法及其语音机器人
CN107886959B (zh) 一种提取蜜蜂访花视频片段的方法和装置
Imoto et al. Acoustic scene analysis from acoustic event sequence with intermittent missing event
CN109584877A (zh) 语音交互控制方法和装置
KR102573186B1 (ko) 동물의 음성 분석정보를 제공하는 장치, 방법 및 기록매체
CN113380244A (zh) 一种设备播放音量的智能调节方法和系统
CN111986657A (zh) 音频识别方法和装置、录音终端及服务器、存储介质
CN114242120B (zh) 一种基于dtmf技术的音频剪辑方法及音频标记方法