JP6793422B1 - 音声補正装置、歌唱システム、音声補正方法、およびプログラム - Google Patents
音声補正装置、歌唱システム、音声補正方法、およびプログラム Download PDFInfo
- Publication number
- JP6793422B1 JP6793422B1 JP2020017438A JP2020017438A JP6793422B1 JP 6793422 B1 JP6793422 B1 JP 6793422B1 JP 2020017438 A JP2020017438 A JP 2020017438A JP 2020017438 A JP2020017438 A JP 2020017438A JP 6793422 B1 JP6793422 B1 JP 6793422B1
- Authority
- JP
- Japan
- Prior art keywords
- vocal
- melody
- data
- frequency
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000001755 vocal effect Effects 0.000 claims abstract description 546
- 238000012937 correction Methods 0.000 claims abstract description 74
- 238000000605 extraction Methods 0.000 claims abstract description 64
- 238000001228 spectrum Methods 0.000 claims abstract description 44
- 239000000284 extract Substances 0.000 claims abstract description 29
- 238000013459 approach Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 26
- 238000013075 data extraction Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000033764 rhythmic process Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 20
- 238000010586 diagram Methods 0.000 abstract description 13
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000010835 comparative analysis Methods 0.000 description 3
- 239000011295 pitch Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000872198 Serjania polyphylla Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/04—Sound-producing devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
つまり、第2の方法では、ヴォーカル旋律抽出部13は、ヴォーカル周波数データ内の時刻ごとの基本周波数f0を求め、求められた基本周波数f0を含む所定の周波数幅の範囲の時系列を、ヴォーカル旋律データとする。
2 ユーザー端末装置
9 通信ネットワーク
11 入力部
12 ヴォーカル周波数データ抽出部
13 ヴォーカル旋律抽出部
14 比較部
15 旋律チューニング部
16 ヴォーカル音声データ復元部
17 ミキシング部
18 出力部
101 ヴォーカル旋律データベース
102 演奏音データベース
200 歌唱システム
Claims (12)
- ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出部と、
前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング部と、
を備え、
前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出し、
前記旋律チューニング部は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように、前記基本周波数の近傍の前記周波数スペクトルを変形させるとともに、前記基本周波数の近傍の前記周波数スペクトルの変形と同様に前記基本周波数の倍音成分を含む周波数スペクトルを変形させるものであり、
前記旋律チューニング部は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記基本周波数の近傍の前記周波数スペクトルを変形させる処理の前処理として、前記参照ヴォーカル旋律の周波数レベルが前記ヴォーカル旋律の周波数レベルに合うように、前記参照ヴォーカル旋律を周波数方向にシフトさせる、
音声補正装置。 - ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出部と、
前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング部と、
を備え、
前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出するものであり、
前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数を含む所定の周波数幅の範囲の時系列を、前記ヴォーカル旋律データとする、
音声補正装置。 - ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出部と、
前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング部と、
を備え、
前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出するものであり、
前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数におけるパワーから所定の正定数を引いた結果であるパワー閾値以上のパワーを有する、前記基本周波数の近傍の領域の時系列を、前記ヴォーカル旋律データとする、
音声補正装置。 - 前記参照ヴォーカル旋律のデータを、楽曲を識別するための曲IDと関連付ける形で記憶するヴォーカル旋律データベース、
をさらに備え、
前記ヴォーカル周波数データは、前記曲IDと関連付けられており、
前記旋律チューニング部は、前記曲IDに基づいて前記ヴォーカル旋律データベースに記憶されている前記参照ヴォーカル旋律のデータを参照する、
請求項1から3までのいずれか一項に記載の音声補正装置。 - 前記ヴォーカル音声の信号波形を表すヴォーカル音声データを基に、前記ヴォーカル周波数データを抽出して、抽出した前記ヴォーカル周波数データを前記ヴォーカル旋律抽出部に渡すヴォーカル周波数データ抽出部と、
前記旋律チューニング部が変更した後の前記ヴォーカル周波数データを基に、ヴォーカル音声の信号波形を表すチューニング後ヴォーカル音声データを生成するヴォーカル音声データ復元部と、
をさらに備える請求項1から4までのいずれか一項に記載の音声補正装置。 - 前記ヴォーカル音声データ復元部が生成した前記チューニング後ヴォーカル音声データと、予め記憶されていた演奏音データとをミキシングして、完成音声データを生成するミキシング部、
をさらに備える請求項5に記載の音声補正装置。 - 前記チューニング後ヴォーカル音声データは、楽曲を識別するための曲IDと関連付けられており、
前記演奏音データは、前記曲IDと関連付ける形で予め演奏音データベースに記録されている、
請求項6に記載の音声補正装置。 - ヴォーカル音声データを送信するユーザー端末装置と、
前記ヴォーカル音声データを受信する請求項1から4までのいずれか一項に記載の音声補正装置と、
を備える歌唱システムであって、
前記音声補正装置は、
ヴォーカル音声の信号波形を表す前記ヴォーカル音声データを基に、ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを抽出するヴォーカル周波数データ抽出部と、
前記旋律チューニング部が変更した後の前記ヴォーカル周波数データを基に、ヴォーカル音声の信号波形を表すチューニング後ヴォーカル音声データを生成するヴォーカル音声データ復元部と、
前記ヴォーカル音声データ復元部が生成した前記チューニング後ヴォーカル音声データと、予め記憶されていた演奏音データとをミキシングして、完成音声データを生成するミキシング部と、
前記完成音声データを前記ユーザー端末装置に送信する出力部と、
をさらに備え、
前記ヴォーカル旋律抽出部は、前記ヴォーカル周波数データ抽出部が抽出した前記ヴォーカル周波数データを基に前記ヴォーカル旋律データを抽出するものであり、
前記ユーザー端末装置は、送信した前記ヴォーカル音声データに対応して、前記音声補正装置から前記完成音声データを受信する、
歌唱システム。 - ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出過程と、
前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング過程と、
を含み、
前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出し、
前記旋律チューニング過程は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように、前記基本周波数の近傍の前記周波数スペクトルを変形させるとともに、前記基本周波数の近傍の前記周波数スペクトルの変形と同様に前記基本周波数の倍音成分を含む周波数スペクトルを変形させるものであり、
前記旋律チューニング過程は、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記基本周波数の近傍の前記周波数スペクトルを変形させる処理の前処理として、前記参照ヴォーカル旋律の周波数レベルが前記ヴォーカル旋律の周波数レベルに合うように、前記参照ヴォーカル旋律を周波数方向にシフトさせる、
音声補正方法。 - ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出過程と、
前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング過程と、
を含み、
前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出するものであり、
前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数を含む所定の周波数幅の範囲の時系列を、前記ヴォーカル旋律データとする、
音声補正方法。 - ヴォーカル音声が有する周波数スペクトルの時系列を表すヴォーカル周波数データを基に、当該ヴォーカル音声が含むヴォーカル旋律を表す周波数情報の時系列であるヴォーカル旋律データを抽出するヴォーカル旋律抽出過程と、
前記ヴォーカル旋律データに対応する参照情報である参照ヴォーカル旋律のデータを参照することにより、前記ヴォーカル旋律が前記参照ヴォーカル旋律に近づくように前記ヴォーカル周波数データを変更する旋律チューニング過程と、
を含み、
前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データが持つ各時刻の周波数スペクトルにおけるパワーの極大点のうち、所定の閾値以上のパワーを有する極大点の中の、最も周波数の低い点を基本周波数として、前記基本周波数に基づいて前記ヴォーカル旋律データを抽出するものであり、
前記ヴォーカル旋律抽出過程は、前記ヴォーカル周波数データ内の時刻ごとの前記基本周波数を求め、求められた前記基本周波数におけるパワーから所定の正定数を引いた結果であるパワー閾値以上のパワーを有する、前記基本周波数の近傍の領域の時系列を、前記ヴォーカル旋律データとする、
音声補正方法。 - コンピューターを、
請求項1から7までのいずれか一項に記載の音声補正装置、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020017438A JP6793422B1 (ja) | 2020-02-04 | 2020-02-04 | 音声補正装置、歌唱システム、音声補正方法、およびプログラム |
PCT/JP2021/003941 WO2021157615A1 (ja) | 2020-02-04 | 2021-02-03 | 音声補正装置、歌唱システム、音声補正方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020017438A JP6793422B1 (ja) | 2020-02-04 | 2020-02-04 | 音声補正装置、歌唱システム、音声補正方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6793422B1 true JP6793422B1 (ja) | 2020-12-02 |
JP2021124588A JP2021124588A (ja) | 2021-08-30 |
Family
ID=73544783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020017438A Expired - Fee Related JP6793422B1 (ja) | 2020-02-04 | 2020-02-04 | 音声補正装置、歌唱システム、音声補正方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6793422B1 (ja) |
WO (1) | WO2021157615A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3179468B2 (ja) * | 1990-07-25 | 2001-06-25 | ソニー株式会社 | カラオケ装置及びカラオケ装置における歌い手の歌唱の補正方法 |
JP3613859B2 (ja) * | 1995-11-21 | 2005-01-26 | ヤマハ株式会社 | カラオケ装置 |
JP4124247B2 (ja) * | 2006-07-05 | 2008-07-23 | ヤマハ株式会社 | 楽曲練習支援装置、制御方法及びプログラム |
JP6075314B2 (ja) * | 2014-03-24 | 2017-02-08 | ブラザー工業株式会社 | プログラム,情報処理装置,及び評価方法 |
-
2020
- 2020-02-04 JP JP2020017438A patent/JP6793422B1/ja not_active Expired - Fee Related
-
2021
- 2021-02-03 WO PCT/JP2021/003941 patent/WO2021157615A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2021124588A (ja) | 2021-08-30 |
WO2021157615A1 (ja) | 2021-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9847078B2 (en) | Music performance system and method thereof | |
EP1688912B1 (en) | Voice synthesizer of multi sounds | |
US11087727B2 (en) | Auto-generated accompaniment from singing a melody | |
US9892758B2 (en) | Audio information processing | |
CN111370024B (zh) | 一种音频调整方法、设备及计算机可读存储介质 | |
CN111667803B (zh) | 一种音频处理方法及相关产品 | |
Müller et al. | Interactive fundamental frequency estimation with applications to ethnomusicological research | |
JP5598516B2 (ja) | カラオケ用音声合成システム,及びパラメータ抽出装置 | |
Sako et al. | Ryry: A real-time score-following automatic accompaniment playback system capable of real performances with errors, repeats and jumps | |
JP6793422B1 (ja) | 音声補正装置、歌唱システム、音声補正方法、およびプログラム | |
RU2393548C1 (ru) | Устройство для изменения входящего голосового сигнала в выходящий голосовой сигнал в соответствии с целевым голосовым сигналом | |
JP6252420B2 (ja) | 音声合成装置、及び音声合成システム | |
Song et al. | Implementation of a practical query-by-singing/humming (QbSH) system and its commercial applications | |
CN114664277A (zh) | 音频评估方法及装置 | |
JP3540159B2 (ja) | 音声変換装置及び音声変換方法 | |
JP6260565B2 (ja) | 音声合成装置、及びプログラム | |
Tang et al. | Melody Extraction from Polyphonic Audio of Western Opera: A Method based on Detection of the Singer's Formant. | |
KR20150018194A (ko) | 모창 평가 방법 및 시스템 | |
JP2023013684A (ja) | 歌唱声質変換プログラム及び歌唱声質変換装置 | |
Driedger | Time-scale modification algorithms for music audio signals | |
JP2017138359A (ja) | カラオケ装置,及びプログラム | |
CN114005461B (zh) | 音乐伴奏的分离方法和装置 | |
JP2000010595A (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP2000003200A (ja) | 音声信号処理装置及び音声信号処理方法 | |
Santacruz et al. | VOICE2TUBA: transforming singing voice into a musical instrument |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200204 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200204 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200603 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200609 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6793422 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |