JP7218601B2 - 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム - Google Patents
学習データ取得装置、モデル学習装置、それらの方法、およびプログラム Download PDFInfo
- Publication number
- JP7218601B2 JP7218601B2 JP2019022516A JP2019022516A JP7218601B2 JP 7218601 B2 JP7218601 B2 JP 7218601B2 JP 2019022516 A JP2019022516 A JP 2019022516A JP 2019022516 A JP2019022516 A JP 2019022516A JP 7218601 B2 JP7218601 B2 JP 7218601B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- data
- noise
- learning
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 26
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000012545 processing Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 description 24
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Machine Translation (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本実施形態では、学習データに使用するデータは、良い影響、悪い影響を含め、どの程度音声認識率に影響するかを捉えた上で用意する。そこで、音声認識の誤り傾向から適切な雑音重畳レベル(SN比)を算出し、そのレベルに合わせクリーン音声に雑音を重畳し、学習データを構築する。
図1は第一実施形態に係るモデル学習装置の機能ブロック図を、図2はその処理フローを示す。
雑音重畳音声生成部101は、学習用のクリーン音声データと学習用の雑音データとを入力とし、クリーン音声データに所定の雑音データの信号対雑音比(以下、SN比ともいう)をK段階に変えて重畳して、K個の雑音重畳音声データを生成し(S101)、出力する。なお、Kを2以上の整数の何れかとする。たとえば、-30dBから+30dB程度まで5dB刻みなどで設定すると良い(この場合、K=13)。ここで用意する雑音データには、人混みなど雑音データ自体に音声データが含まれている場合もあるが、そういった音声データは雑音データ(非音声データ)として扱う。これは、学習結果のモデルが、検出対象となる話者の話す音声のみを発話区間として扱い、検出対象以外の話者の話す音声や背景音声を非発話区間として扱うためである。
音声認識影響度算出部102は、SN比の異なるK個の雑音重畳音声データを入力とし、k番目の雑音重畳音声データに対する音声認識の結果と、k-1番目の雑音重畳音声データに対する音声認識の結果とに基づき、SN比の変化による音声認識精度への影響の度合いを算出する(S102-1)。ただし、k=2,3,…,Kとし、k番目の雑音重畳音声データのSN比はk-1番目の雑音重畳音声データのSN比よりも小さいものとする。例えば、音声認識影響度算出部102は、SN比の異なるK個の雑音重畳音声データに対して、音声認識精度を算出する。発話区間検出精度は主に、音声認識の削除誤りED(音声区間を取りこぼしてしまった時に生じる誤り)及び挿入誤りEI(音声区間を取り過ぎてしまった時に生じる誤り)に影響し、置換誤りES(正しい発話区間内での誤り)への影響は小さい。そこで、SN比の変更による発話区間検出の音声認識精度への影響の度合いを削除誤りED及び挿入誤りEIを用いて次式で定式化する。
学習データ取得部103は、SN比SNRapplyを入力とし、SN比SNRapply以上のSN比である雑音重畳音声データを学習データとして取得し(S103)、出力する。
モデル学習部104は、正解データと学習データとを入力とし、正解データと学習データを用いて、音声または非音声を検出するためのモデルを学習し(S104)、学習したモデルを出力する。モデル学習の枠組みとしては、二値分類出来る手法であれば良い。たとえば、長時間の時系列情報も考慮可能なLSTMなどの深層学習技術(参考文献1参照)ベースの手法などを用いると良い。
また、モデル学習の枠組みは、DNNやLSTMに限定されるものではなく、SVM(support vector machine)等を適用してもよい。
以上の構成により、適切なSN比でクリーン音声データに雑音データを重畳して学習データを取得することでき、その学習データを用いることで検出精度の良いモデルを学習することができる。
第一実施形態のモデル学習装置から雑音重畳音声生成部101、音声認識影響度算出部102と、学習データ取得部103とを取り出し、学習データ取得装置として機能させてもよい。そのような構成であっても、適切なSN比でクリーン音声データに雑音データを重畳して学習データを取得することできる。さらに、取得した学習データを用いて、別の装置でモデルを学習すればよい。
第一実施形態と異なる部分を中心に説明する。
学習データ取得部103は、SN比SNRapplyを入力とし、SN比SNRapply以上のSN比である雑音重畳音声データを学習データとして取得し(S103)、出力する。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、クリーン音声に雑音重畳を行うコストを削減することができる。
第二実施形態と異なる部分を中心に説明する。
モデル学習部104は、正解データと学習データを用いて、音声または非音声を検出するためのモデルを学習する(S104)。
音声認識影響度算出部102は、一度もモデル学習をしていない場合、第二実施形態と同様の処理S102-1,S102-2を行う。
このような構成とすることで、モデル学習のコストを削減することができる。なお、本実施形態を第一実施形態と組合せてもよい。
音声認識影響度算出部102において、影響の度合いが与えられた閾値条件に合致するk-1番目の雑音重畳音声データのSN比を複数得た場合とする。閾値条件に合致するk-1番目の雑音重畳音声データのSN比の数、j=1,2,…,Jとし、SN比の大きいものから順に、SNRapply[1],SNRapply[2],…SNRapply[J]として学習データ取得部103に出力・記憶しておき、j=1から順にSN比SNRapply[j]以上のSN比の雑音重畳音声データの学習データを用いてSNRモデル学習部104で学習した結果、収束条件を満たさなかった場合には、学習データ取得部103で、次に大きいSN比であるSN比SNRapply[j+1]以上のSN比の雑音重畳音声データの学習データを取得し、モデル学習を繰り返す。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (8)
- Kを2以上の整数の何れかとし、k=2,3,…,Kとし、k番目の雑音重畳音声データの信号対雑音比はk-1番目の雑音重畳音声データの信号対雑音比よりも小さいものとし、k番目の雑音重畳音声データに対する音声認識の結果と、k-1番目の雑音重畳音声データに対する音声認識の結果とに基づき、信号対雑音比の変化による音声認識精度への影響の度合いを算出し、影響の度合いが与えられた閾値条件に合致するときのk-1番目の雑音重畳音声データの信号対雑音比のうち最も大きい信号対雑音比SNRapplyを得る音声認識影響度算出部と
前記信号対雑音比SNRapply以上の信号対雑音比である雑音重畳音声データを学習データとして取得する学習データ取得部とを含む、
学習データ取得装置。 - 請求項1の学習データ取得装置であって、
前記学習データ取得部は、
前記信号対雑音比SNRapply以上の信号対雑音比になるようにクリーン音声データに所定の雑音データを重畳し、学習データとして生成し、取得する、
学習データ取得装置。 - 請求項1の学習データ取得装置であって、
クリーン音声データに所定の雑音データの信号対雑音比をK段階に変えて重畳して、K個の前記雑音重畳音声データを生成する雑音重畳音声生成部を含み、
前記学習データ取得部は、
前記K個の雑音重畳音声データの中から前記信号対雑音比SNRapply以上の信号対雑音比である雑音重畳音声データを選択し、学習データとして取得する、
学習データ取得装置。 - 請求項1から請求項3の何れかの学習データ取得装置で取得した学習データを用いるモデル学習装置であって、
前記学習データを用いて、音声または非音声を検出するためのモデルを学習するモデル学習部を含む、
モデル学習装置。 - 請求項1から請求項3の何れかの学習データ取得装置を含むモデル学習装置であって、
前記学習データを用いて、音声または非音声を検出するためのモデルを学習するモデル学習部を含み、
学習したモデルが予め定めた収束条件を満たさない場合、前記音声認識影響度算出部、前記学習データ取得部、前記モデル学習部における処理を繰り返し、
前記音声認識影響度算出部では音声認識を行う際に前記モデル学習部で学習したモデルを用いる、
モデル学習装置。 - Kを2以上の整数の何れかとし、k=2,3,…,Kとし、k番目の雑音重畳音声データの信号対雑音比はk-1番目の雑音重畳音声データの信号対雑音比よりも小さいものとし、k番目の雑音重畳音声データに対する音声認識の結果と、k-1番目の雑音重畳音声データに対する音声認識の結果とに基づき、信号対雑音比の変化による音声認識精度への影響の度合いを算出し、影響の度合いが与えられた閾値条件に合致するときのk-1番目の雑音重畳音声データの信号対雑音比のうち最も大きい信号対雑音比SNRapplyを得る音声認識影響度算出ステップと
前記信号対雑音比SNRapply以上の信号対雑音比である雑音重畳音声データを学習データとして取得する学習データ取得ステップとを含む、
学習データ取得方法。 - 請求項6の学習データ取得方法で取得した学習データを用いるモデル学習方法であって、
前記学習データを用いて、音声または非音声を検出するためのモデルを学習するモデル学習ステップを含む、
モデル学習方法。 - 請求項1から請求項3の何れかに記載の学習データ取得装置、または、請求項4もしくは請求項5のモデル学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019022516A JP7218601B2 (ja) | 2019-02-12 | 2019-02-12 | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム |
US17/429,737 US11942074B2 (en) | 2019-02-12 | 2020-01-29 | Learning data acquisition apparatus, model learning apparatus, methods and programs for the same |
PCT/JP2020/003062 WO2020166322A1 (ja) | 2019-02-12 | 2020-01-29 | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019022516A JP7218601B2 (ja) | 2019-02-12 | 2019-02-12 | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020129094A JP2020129094A (ja) | 2020-08-27 |
JP7218601B2 true JP7218601B2 (ja) | 2023-02-07 |
Family
ID=72044897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019022516A Active JP7218601B2 (ja) | 2019-02-12 | 2019-02-12 | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11942074B2 (ja) |
JP (1) | JP7218601B2 (ja) |
WO (1) | WO2020166322A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7218601B2 (ja) * | 2019-02-12 | 2023-02-07 | 日本電信電話株式会社 | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム |
US11663494B2 (en) | 2019-12-05 | 2023-05-30 | Uchicago Argonne, Llc | Systems and methods for hierarchical multi-objective optimization |
US11651839B2 (en) | 2020-03-02 | 2023-05-16 | Uchicago Argonne, Llc | Systems and methods for generating phase diagrams for metastable material states |
US11710038B2 (en) * | 2020-04-13 | 2023-07-25 | Uchicago Argonne, Llc | Systems and methods for active learning from sparse training data |
CN116210050A (zh) * | 2021-09-30 | 2023-06-02 | 华为技术有限公司 | 语音质量评估、语音识别质量预测与提高的方法及装置 |
WO2024106830A1 (ko) * | 2022-11-17 | 2024-05-23 | 삼성전자 주식회사 | 폰북 기반의 성문 운용 방법 및 이를 지원하는 전자 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004117624A (ja) | 2002-09-25 | 2004-04-15 | Ntt Docomo Inc | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
JP2007065491A (ja) | 2005-09-01 | 2007-03-15 | Asahi Kasei Corp | パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945813B (zh) * | 2012-08-29 | 2021-10-26 | 日本电信电话株式会社 | 解码方法、解码装置、和计算机可读取的记录介质 |
US10540957B2 (en) * | 2014-12-15 | 2020-01-21 | Baidu Usa Llc | Systems and methods for speech transcription |
US10332509B2 (en) * | 2015-11-25 | 2019-06-25 | Baidu USA, LLC | End-to-end speech recognition |
US20200074997A1 (en) * | 2018-08-31 | 2020-03-05 | CloudMinds Technology, Inc. | Method and system for detecting voice activity in noisy conditions |
CN109473123B (zh) * | 2018-12-05 | 2022-05-31 | 百度在线网络技术(北京)有限公司 | 语音活动检测方法及装置 |
JP7218601B2 (ja) * | 2019-02-12 | 2023-02-07 | 日本電信電話株式会社 | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム |
-
2019
- 2019-02-12 JP JP2019022516A patent/JP7218601B2/ja active Active
-
2020
- 2020-01-29 WO PCT/JP2020/003062 patent/WO2020166322A1/ja active Application Filing
- 2020-01-29 US US17/429,737 patent/US11942074B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004117624A (ja) | 2002-09-25 | 2004-04-15 | Ntt Docomo Inc | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
JP2007065491A (ja) | 2005-09-01 | 2007-03-15 | Asahi Kasei Corp | パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020166322A1 (ja) | 2020-08-20 |
US20220101828A1 (en) | 2022-03-31 |
JP2020129094A (ja) | 2020-08-27 |
US11942074B2 (en) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7218601B2 (ja) | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム | |
US20180005628A1 (en) | Speech Recognition | |
JP6987378B2 (ja) | ニューラルネットワークの学習方法及びコンピュータプログラム | |
WO2018161763A1 (zh) | 语音数据集训练方法、计算机设备和计算机可读存储介质 | |
JP6594839B2 (ja) | 話者数推定装置、話者数推定方法、およびプログラム | |
WO2020045313A1 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
US10089977B2 (en) | Method for system combination in an audio analytics application | |
CN113488023B (zh) | 一种语种识别模型构建方法、语种识别方法 | |
JP6244297B2 (ja) | 音響スコア算出装置、その方法及びプログラム | |
JP6216809B2 (ja) | パラメータ調整システム、パラメータ調整方法、プログラム | |
JP6716513B2 (ja) | 音声区間検出装置、その方法、及びプログラム | |
WO2020015546A1 (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
JP2020126141A (ja) | 音響モデル学習装置、音響モデル学習方法、プログラム | |
JP5914119B2 (ja) | 音響モデル性能評価装置とその方法とプログラム | |
Heymans et al. | Multi-style training for South African call centre audio | |
US11621015B2 (en) | Learning speech data generating apparatus, learning speech data generating method, and program | |
JP2021135314A (ja) | 学習装置、音声認識装置、学習方法、および、学習プログラム | |
JP2010250161A (ja) | 相違度利用型識別的学習装置とその方法、そのプログラム | |
JP2020129051A (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
JP7021437B2 (ja) | 学習データ生成装置、学習データ生成方法、及びプログラム | |
JP5647159B2 (ja) | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム | |
JP5651567B2 (ja) | 音響モデル適応装置、音響モデル適応方法、およびプログラム | |
US11894017B2 (en) | Voice/non-voice determination device, voice/non-voice determination model parameter learning device, voice/non-voice determination method, voice/non-voice determination model parameter learning method, and program | |
KR102017173B1 (ko) | 강화학습 기반의 음성 향상 방법 및 시스템 | |
RU2744063C1 (ru) | Способ и система определения говорящего пользователя управляемого голосом устройства |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7218601 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |