JP2019074580A - 音声認識方法、装置およびプログラム - Google Patents
音声認識方法、装置およびプログラム Download PDFInfo
- Publication number
- JP2019074580A JP2019074580A JP2017198997A JP2017198997A JP2019074580A JP 2019074580 A JP2019074580 A JP 2019074580A JP 2017198997 A JP2017198997 A JP 2017198997A JP 2017198997 A JP2017198997 A JP 2017198997A JP 2019074580 A JP2019074580 A JP 2019074580A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- waveform
- voice
- speech recognition
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000008569 process Effects 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 20
- 230000001131 transforming effect Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 abstract description 44
- 238000004364 calculation method Methods 0.000 abstract description 16
- 238000000605 extraction Methods 0.000 abstract description 8
- 238000012986 modification Methods 0.000 abstract description 2
- 230000004048 modification Effects 0.000 abstract description 2
- 230000001755 vocal effect Effects 0.000 abstract 1
- 238000006243 chemical reaction Methods 0.000 description 25
- 238000001228 spectrum Methods 0.000 description 18
- 230000000737 periodic effect Effects 0.000 description 12
- 230000009466 transformation Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
Claims (10)
- 入力音声の声質を音声認識前に変形する音声認識装置において、
入力音声から特徴量を抽出する手段と、
前記特徴量を変形する手段と、
前記変形した特徴量に基づいて音声波形を生成する手段とを具備し、
前記音声波形を生成する手段は、音声認識プロセスで考慮されない特徴量を再現しないことを特徴とする音声認識装置。 - 前記生成された音声波形に基づいて音声認識を実行する手段をさらに具備したことを特徴とする請求項1に記載の音声認識装置。
- 前記音声波形を生成する手段は、基本周期が入力音声と異なる音声波形を生成することを特徴とする請求項1または2に記載の音声認識装置。
- 前記音声波形を生成する手段は、基本周期が、波形生成処理の処理区間長と等しい又はその整数分の1となる音声波形を生成することを特徴とする請求項1ないし3のいずれかに記載の音声認識装置。
- 前記音声波形を生成する手段は、複数の正弦関数の足し合わせに相当する処理により音声波形を生成することを特徴とする請求項1ないし4のいずれかに記載の音声認識装置。
- 前記音声波形を生成する手段は、1周期の音声波形を所定回数繰り返す音声波形を生成することを特徴とする請求項1ないし5のいずれかに記載の音声認識装置。
- コンピュータが、入力音声の声質を音声認識前に変形する音声認識方法において、
入力音声から特徴量を抽出し、
前記特徴量を変形し、
前記変形した特徴量に基づいて音声波形を生成し、
前記音声波形を生成する際に、音声認識プロセスで考慮されない特徴量を再現しないことを特徴とする音声認識方法。 - 前記生成された音声波形に基づいて音声認識を実行することを特徴とする請求項7に記載の音声認識方法。
- 入力音声の声質を音声認識前に変形する音声認識プログラムにおいて、
入力音声から特徴量を抽出する手順と、
前記特徴量を変形する手順と、
前記変形した特徴量に基づいて音声波形を生成する手順とをコンピュータに実行させ、
前記音声波形を生成する手順では、音声認識プロセスで考慮されない特徴量を再現しないことを特徴とする音声認識プログラム。 - 前記生成された音声波形に基づいて音声認識を実行する手順をさらに含むことを特徴とする請求項9に記載の音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017198997A JP6831767B2 (ja) | 2017-10-13 | 2017-10-13 | 音声認識方法、装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017198997A JP6831767B2 (ja) | 2017-10-13 | 2017-10-13 | 音声認識方法、装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019074580A true JP2019074580A (ja) | 2019-05-16 |
JP6831767B2 JP6831767B2 (ja) | 2021-02-17 |
Family
ID=66544730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017198997A Active JP6831767B2 (ja) | 2017-10-13 | 2017-10-13 | 音声認識方法、装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6831767B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113611314A (zh) * | 2021-08-03 | 2021-11-05 | 成都理工大学 | 一种说话人识别方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
JP2001042889A (ja) * | 1999-05-21 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 音声認識入力音声の音程正規化装置 |
JP2004279768A (ja) * | 2003-03-17 | 2004-10-07 | Mitsubishi Heavy Ind Ltd | 気導音推定装置及び気導音推定方法 |
JP2007010822A (ja) * | 2005-06-29 | 2007-01-18 | Toshiba Corp | 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム |
WO2007015489A1 (ja) * | 2005-08-01 | 2007-02-08 | Kyushu Institute Of Technology | 音声検索装置及び音声検索方法 |
WO2008015800A1 (fr) * | 2006-08-02 | 2008-02-07 | National University Corporation NARA Institute of Science and Technology | procédé de traitement de la parole, programme de traitement de la parole et dispositif de traitement de la parole |
JP2011247921A (ja) * | 2010-05-24 | 2011-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 信号合成方法、信号合成装置及びプログラム |
-
2017
- 2017-10-13 JP JP2017198997A patent/JP6831767B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
JP2001042889A (ja) * | 1999-05-21 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 音声認識入力音声の音程正規化装置 |
JP2004279768A (ja) * | 2003-03-17 | 2004-10-07 | Mitsubishi Heavy Ind Ltd | 気導音推定装置及び気導音推定方法 |
JP2007010822A (ja) * | 2005-06-29 | 2007-01-18 | Toshiba Corp | 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム |
WO2007015489A1 (ja) * | 2005-08-01 | 2007-02-08 | Kyushu Institute Of Technology | 音声検索装置及び音声検索方法 |
WO2008015800A1 (fr) * | 2006-08-02 | 2008-02-07 | National University Corporation NARA Institute of Science and Technology | procédé de traitement de la parole, programme de traitement de la parole et dispositif de traitement de la parole |
JP2011247921A (ja) * | 2010-05-24 | 2011-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 信号合成方法、信号合成装置及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113611314A (zh) * | 2021-08-03 | 2021-11-05 | 成都理工大学 | 一种说话人识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP6831767B2 (ja) | 2021-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6903611B2 (ja) | 信号生成装置、信号生成システム、信号生成方法およびプログラム | |
JP5958866B2 (ja) | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム | |
JP6791258B2 (ja) | 音声合成方法、音声合成装置およびプログラム | |
JP6724932B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP2015040903A (ja) | 音声処理装置、音声処理方法、及び、プログラム | |
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
CN108269579B (zh) | 语音数据处理方法、装置、电子设备及可读存储介质 | |
CN105957515A (zh) | 声音合成方法、声音合成装置和存储声音合成程序的介质 | |
JP6876642B2 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JP6821970B2 (ja) | 音声合成装置および音声合成方法 | |
JP2015161774A (ja) | 音合成方法及び音合成装置 | |
JP2018077283A (ja) | 音声合成方法 | |
JP2019074580A (ja) | 音声認識方法、装置およびプログラム | |
JP4455701B2 (ja) | 音声信号処理装置および音声信号処理方法 | |
WO2020241641A1 (ja) | 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法 | |
JP6977818B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
JP7103390B2 (ja) | 音響信号生成方法、音響信号生成装置およびプログラム | |
CN112908351A (zh) | 一种音频变调方法、装置、设备及存储介质 | |
JP6834370B2 (ja) | 音声合成方法 | |
JP6213217B2 (ja) | 音声合成装置及び音声合成用コンピュータプログラム | |
JP6683103B2 (ja) | 音声合成方法 | |
Hanna et al. | Time scale modification of noises using a spectral and statistical model | |
WO2023068228A1 (ja) | 音響処理方法、音響処理システムおよびプログラム | |
US11756558B2 (en) | Sound signal generation method, generative model training method, sound signal generation system, and recording medium | |
JP4419486B2 (ja) | 音声分析生成装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6831767 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |