JP7279800B2 - 学習装置、推定装置、それらの方法、およびプログラム - Google Patents
学習装置、推定装置、それらの方法、およびプログラム Download PDFInfo
- Publication number
- JP7279800B2 JP7279800B2 JP2021543909A JP2021543909A JP7279800B2 JP 7279800 B2 JP7279800 B2 JP 7279800B2 JP 2021543909 A JP2021543909 A JP 2021543909A JP 2021543909 A JP2021543909 A JP 2021543909A JP 7279800 B2 JP7279800 B2 JP 7279800B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- speech
- value
- learning
- value label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 19
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 230000006870 function Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 31
- 238000012549 training Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Description
本実施形態では、二値分類を目的としたモデルの学習において、各分類の教師データのデータ量に偏りがある場合に、分類対象の中間の特性(特徴量)をもつデータに両分類の中間の分類の属性(ソフトラベル)を付与して学習データに加えて学習することで、モデルの識別精度を向上させる。
(参考文献1) P. Zelinka, M. Sigmund, J. Schimmel, "Impact of vocal effort variability on automatic speech recognition", Speech Communication, 2012.
(参考文献2)H. Zhang, M. Cisse, Y. N. Dauphin, D. Lopez-Paz, "mixup: Beyond Empirical Risk Minimization", ICLR (2018)
図1は第一実施形態に係る推定システムの概要を示すための図である。推定システムは、学習装置100と推定装置200とを含む。
入力:学習用の音声信号s(L)(t)
出力:学習用の音声デジタル信号s(L)(i)
処理:AD変換部110は、アナログの音声信号s(L)(t)をデジタルの音声デジタル信号s(L)(i)に変換する(S110)。なお、tは時刻を示すインデックスであり、iはサンプル番号(サンプル時刻)を示すインデックスである。
入力:学習用の音声デジタル信号s(L)(i)
処理:音声デジタル信号蓄積部120は、音声デジタル信号の系列s(L)(i),s(L)(i-1),…を蓄積する。
入力:学習用の音声デジタル信号s(L)(i)
出力:学習用の特徴量S(L)(n)
処理:特徴量分析部130は、音声デジタル信号蓄積部120から音声デジタル信号s(L)(i)を取り出し、特徴量分析を行い(S130)、(音響)特徴量S(L)(n)を抽出する。
入力: 学習用の特徴量S(L)(n)
処理:特徴量蓄積部140は、特徴量の系列S(L)(n),S(L)(n-1),…を蓄積する。
入力:学習用の特徴量の系列S(L)(n),S(L)(n-1),…、学習用のラベル
出力:ラベル付与済み学習データ(S(L)(n),r(L)(n)),(S(L)(n-1),r(L)(n-1)),…
処理:音声ラベル付与部150は、特徴量蓄積部140から特徴量の系列S(L)(n),S(L)(n-1),…を取り出し、特徴量の系列S(L)(n),S(L)(n-1),…に対し、対応するラベルr(L)(n),r(L)(n-1),…を付与し(S150)、ラベル付与済み学習データ(S(L)(n),r(L)(n)),(S(L)(n-1),r(L)(n-1)),…を得る。例えば、通常発話についてはaを、ささやき発話についてはbを、ソフト発話音声についてはc(a<c<bまたはb<c<a)を、教師ラベルとして付与する。例えば、a=0,b=1またはa=1,b=0とする。なお、ラベルの付与は、所定の単位(音声ファイル単位、発話単位、単語単位、フレーム単位等)で人手により行う。
入力:ラベル付与済み学習データ(S(L)(n),r(L)(n)),(S(L)(n-1),r(L)(n-1)),…
出力:学習済み識別モデル
処理:識別モデル学習部160は、特徴量系列に対しラベル付与されたラベル付与済み学習データ(S(L)(n),r(L)(n)),(S(L)(n-1),r(L)(n-1)),…を用いて、ささやき発話音声と通常発話音声とを識別するモデルを学習する(S160)。
入力:特徴量の系列S(n),S(n-1),…
出力:推定結果(ラベル)
処理:推定部260は、学習済みのモデルを推定処理に先立ち受け取る。
以上の構成により、ソフト発話音声を両発話音声の中間の属性をもつ教師データとして学習データに加えて、ささやき発話音声と通常発話音声を識別するモデルの学習を行うことで、学習したモデルの識別精度を向上させることができる。
本実施形態では、通常発話音声から抽出した特徴量とその教師ラベル(例えばa)と、ささやき発話音声から抽出した特徴量とその教師ラベル(例えばb)と、ソフト発話音声から抽出した特徴量(通常発話音声から抽出した特徴量とささやき発話音声から抽出した特徴量との中間の特徴量)とその教師ラベル(a<c<bまたはa>c>b)とを教師データとして、モデルを学習している。しかし、ある特徴(以下、第1の特徴ともいう)を有し、その第1の特徴に対応する第1の値ラベルを付与された第1特徴量と、第1の特徴とは異なる特徴(以下、第2の特徴ともいう)を有し、その第2の特徴に対応する第2の値ラベルを付与された第2特徴量と、第1の特徴と第2の特徴との中間の特徴(以下、第三の特徴ともいう)を有し、第1の値ラベルと第2の値ラベルの中間の値をもつ値ラベルを付与された第3の特徴量とを教師データとして、入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定するモデルを学習する学習装置であれば、本発明を適用することができる。つまり、第1の特徴は通常発話音声の特徴に限るものではなく、第2の特徴はささやき発話音声の特徴に限るものではなく、第3の特徴はソフト発話音声に限るものではない。例えば、第2の特徴として、通常発話以外の発話である非通常発話の特徴を用いてもよく、第3の特徴は通常発話と非通常発話の中間の特徴を用いてもよい。より具体的には、第1の特徴を通常(normal)発話音声の特徴とし、第2の特徴を叫び(shouted)発話音声の特徴とし、第3の特徴を大声(Loud)発話音声の特徴として、本発明を適用してもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
上述の各種の処理は、図6に示すコンピュータの記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
Claims (7)
- 第1の特徴を有し第1の値ラベルを付与された第1特徴量と、第2の特徴を有し第2の値ラベルを付与された第2特徴量と、第1の特徴と第2の特徴の中間の特徴である第3の特徴を有し第1の値ラベルと第2の値ラベルの中間の値をもつ値ラベルを付与された第3の特徴量とを教師データとして、入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定するモデルを学習する学習部を備える、
学習装置。 - 請求項1の学習装置であって、
前記第1の特徴は通常発話の特徴であり、前記第2の特徴は非通常発話の特徴であり、前記第3の特徴は通常発話と非通常発話の中間の特徴である、
学習装置。 - 請求項1の学習装置であって、
前記第1の特徴は通常発話の特徴であり、前記第2の特徴はささやき発話の特徴であり、前記第3の特徴はソフト発話の特徴である、
学習装置。 - 第1の特徴を有し第1の値ラベルを付与された第1特徴量と、第2の特徴を有し第2の値ラベルを付与された第2特徴量と、第1の特徴と第2の特徴の中間の特徴を有し第1の値ラベルと第2の値ラベルの中間の値をもつ値ラベルを付与された第3の特徴量とを教師データとして、学習した、入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定するモデルを用いて、推定用入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定する推定部を備える、
推定装置。 - 学習装置が、第1の特徴を有し第1の値ラベルを付与された第1特徴量と、第2の特徴を有し第2の値ラベルを付与された第2特徴量と、第1の特徴と第2の特徴の中間の特徴を有し第1の値ラベルと第2の値ラベルの中間の値をもつ値ラベルを付与された第3の特徴量とを教師データとして、入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定するモデルを学習する学習ステップを備える、
学習方法。 - 推定装置が、第1の特徴を有し第1の値ラベルを付与された第1特徴量と、第2の特徴を有し第2の値ラベルを付与された第2特徴量と、第1の特徴と第2の特徴の中間の特徴を有し第1の値ラベルと第2の値ラベルの中間の値をもつ値ラベルを付与された第3の特徴量とを教師データとして、学習した、入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定するモデルを用いて、推定用入力特徴量系列に対して第1の特徴または第2の特徴のいずれを有するかを推定する推定ステップを備える、
推定方法。 - 請求項1から請求項3の何れかの学習装置、または、請求項4の推定装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/035105 WO2021044606A1 (ja) | 2019-09-06 | 2019-09-06 | 学習装置、推定装置、それらの方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021044606A1 JPWO2021044606A1 (ja) | 2021-03-11 |
JP7279800B2 true JP7279800B2 (ja) | 2023-05-23 |
Family
ID=74853094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021543909A Active JP7279800B2 (ja) | 2019-09-06 | 2019-09-06 | 学習装置、推定装置、それらの方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7279800B2 (ja) |
WO (1) | WO2021044606A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114429766A (zh) * | 2022-01-29 | 2022-05-03 | 北京百度网讯科技有限公司 | 调整播放音量的方法、装置、设备以及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016186516A (ja) | 2015-03-27 | 2016-10-27 | 日本電信電話株式会社 | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム |
-
2019
- 2019-09-06 WO PCT/JP2019/035105 patent/WO2021044606A1/ja active Application Filing
- 2019-09-06 JP JP2021543909A patent/JP7279800B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016186516A (ja) | 2015-03-27 | 2016-10-27 | 日本電信電話株式会社 | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2021044606A1 (ja) | 2021-03-11 |
JPWO2021044606A1 (ja) | 2021-03-11 |
US20220335927A1 (en) | 2022-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP7332024B2 (ja) | 認識装置、学習装置、それらの方法、およびプログラム | |
JP7409381B2 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
JP2018004947A (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
US9697825B2 (en) | Audio recording triage system | |
WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP7279800B2 (ja) | 学習装置、推定装置、それらの方法、およびプログラム | |
CN114220419A (zh) | 一种语音评价方法、装置、介质及设备 | |
JP7176629B2 (ja) | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
CN112837688B (zh) | 语音转写方法、装置、相关系统及设备 | |
JP7111017B2 (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
US12125474B2 (en) | Learning apparatus, estimation apparatus, methods and programs for the same | |
JP5496945B2 (ja) | 話者分類装置、話者分類方法、プログラム | |
JP4981850B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP6728083B2 (ja) | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム | |
JP4843646B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP7093081B2 (ja) | 学習装置、推定装置、推定方法、およびプログラム | |
JP7216348B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP2012118441A (ja) | 音響モデル作成方法とその装置とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230424 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7279800 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |