JP7069386B1 - 音声変換装置、音声変換方法、プログラム、および記録媒体 - Google Patents
音声変換装置、音声変換方法、プログラム、および記録媒体 Download PDFInfo
- Publication number
- JP7069386B1 JP7069386B1 JP2021108707A JP2021108707A JP7069386B1 JP 7069386 B1 JP7069386 B1 JP 7069386B1 JP 2021108707 A JP2021108707 A JP 2021108707A JP 2021108707 A JP2021108707 A JP 2021108707A JP 7069386 B1 JP7069386 B1 JP 7069386B1
- Authority
- JP
- Japan
- Prior art keywords
- voice
- conversion
- pitch
- phonemes
- destination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 185
- 239000011295 pitch Substances 0.000 claims abstract description 100
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 17
- 230000002194 synthesizing Effects 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 11
- 230000000875 corresponding Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 9
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000001058 adult Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 230000003287 optical Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Abstract
Description
以下、本発明の実施の形態について図面を用いて説明する。
次に、図5のフローチャートを参照し、音声変換装置1による音声変換の動作について説明する。
次に、図6を参照し、本実施形態の音声変換装置1の変形例の構成の一例について説明する。図6に示す音声変換装置1は、入力部11、調整部13、生成部14、音素取得部16、および音高生成部17を備える。図6の音声変換装置1は、図1の音声変換装置1とは、抽出部12の代わりに音素取得部16と音高生成部17を備える点で相違し、音声データではなくテキストを入力して、指定の変換先の声の音声信号を出力する。
次に、本実施形態の音声変換装置1を利用した実施例について説明する。
11 入力部
12 抽出部
13 調整部
14 生成部
15 学習部
16 音素取得部
17 音高生成部
3 速度変換装置
Claims (8)
- 変換先の声の指定を入力する入力部と、
変換元の声の音声データを解析して音素と音高を含む時系列データを抽出する抽出部と、
前記音高の高さを指定された前記変換先の声の高さに合わせる調整部と、
多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに前記音素と前記変換先の声の高さに合わせた前記音高を時系列順に入力して指定された前記変換先の声を合成した音声データを生成する生成部を備える
音声変換装置。 - 請求項1に記載の音声変換装置であって、
変換先の声となる多人数の音声データから音素および音高を抽出し、音素と音高から前記多人数の音声のそれぞれを合成できる深層学習モデルを学習する学習部を備える
音声変換装置。 - 請求項1または2に記載の音声変換装置であって、
前記抽出部は、前記変換元の声の音声データとともに前記変換元の声の発話内容と同じ文章を入力し、当該文章を解析して音素を抽出する
音声変換装置。 - 請求項1または2に記載の音声変換装置であって、
前記抽出部は、前記変換元の声の音声データの代わりに文章を解析して音素を抽出し、音素に対応する音高を記憶装置から読み出して前記調整部へ送信する
音声変換装置。 - 請求項1ないし3のいずれかに記載の音声変換装置であって、
前記抽出部は、前記音素それぞれの発声区間を抽出し、圧縮または伸長した発声区間を前記生成部に入力し、
前記調整部は、前記発声区間の圧縮または伸長に合わせて前記音高を時間方向に圧縮または伸長する
音声変換装置。 - コンピュータが、
変換先の声の指定を入力し、
変換元の声の音声データを解析して音素と音高を含む時系列データを抽出し、
前記音高の高さを指定された前記変換先の声の高さに合わせ、
多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに前記音素と前記変換先の声の高さに合わせた前記音高を時系列順に入力して指定された前記変換先の声を合成した音声データを生成する
音声変換方法。 - 変換先の声の指定を入力する処理と、
変換元の声の音声データを解析して音素と音高を含む時系列データを抽出する処理と、
前記音高の高さを指定された前記変換先の声の高さに合わせる処理と、
多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに前記音素と前記変換先の声の高さに合わせた前記音高を時系列順に入力して指定された前記変換先の声を合成した音声データを生成する処理を
コンピュータに実行させるプログラム。 - 変換先の声の指定を入力する処理と、
変換元の声の音声データを解析して音素と音高を含む時系列データを抽出する処理と、
前記音高の高さを指定された前記変換先の声の高さに合わせる処理と、
多人数の音声データを学習して指定の人の音声を合成できる深層学習モデルに前記音素と前記変換先の声の高さに合わせた前記音高を時系列順に入力して指定された前記変換先の声を合成した音声データを生成する処理を
コンピュータに実行させるプログラムを記録した記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021108707A JP7069386B1 (ja) | 2021-06-30 | 2021-06-30 | 音声変換装置、音声変換方法、プログラム、および記録媒体 |
PCT/JP2022/022364 WO2023276539A1 (ja) | 2021-06-30 | 2022-06-01 | 音声変換装置、音声変換方法、プログラム、および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021108707A JP7069386B1 (ja) | 2021-06-30 | 2021-06-30 | 音声変換装置、音声変換方法、プログラム、および記録媒体 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022075805A Division JP2023007405A (ja) | 2022-05-02 | 音声変換装置、音声変換方法、プログラム、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7069386B1 true JP7069386B1 (ja) | 2022-05-17 |
JP2023006218A JP2023006218A (ja) | 2023-01-18 |
Family
ID=81607980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021108707A Active JP7069386B1 (ja) | 2021-06-30 | 2021-06-30 | 音声変換装置、音声変換方法、プログラム、および記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7069386B1 (ja) |
WO (1) | WO2023276539A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7179216B1 (ja) | 2022-07-29 | 2022-11-28 | 株式会社ドワンゴ | 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002258885A (ja) * | 2001-02-27 | 2002-09-11 | Sharp Corp | テキスト音声合成装置およびプログラム記録媒体 |
JP2007193139A (ja) * | 2006-01-19 | 2007-08-02 | Toshiba Corp | 音声処理装置及びその方法 |
JP2008040431A (ja) * | 2006-08-10 | 2008-02-21 | Yamaha Corp | 音声加工装置 |
JP2008203543A (ja) * | 2007-02-20 | 2008-09-04 | Toshiba Corp | 声質変換装置及び音声合成装置 |
JP2018005048A (ja) * | 2016-07-05 | 2018-01-11 | クリムゾンテクノロジー株式会社 | 声質変換システム |
US10249314B1 (en) * | 2016-07-21 | 2019-04-02 | Oben, Inc. | Voice conversion system and method with variance and spectrum compensation |
JP2021508859A (ja) * | 2018-02-16 | 2021-03-11 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 発話スタイル転移 |
-
2021
- 2021-06-30 JP JP2021108707A patent/JP7069386B1/ja active Active
-
2022
- 2022-06-01 WO PCT/JP2022/022364 patent/WO2023276539A1/ja unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002258885A (ja) * | 2001-02-27 | 2002-09-11 | Sharp Corp | テキスト音声合成装置およびプログラム記録媒体 |
JP2007193139A (ja) * | 2006-01-19 | 2007-08-02 | Toshiba Corp | 音声処理装置及びその方法 |
JP2008040431A (ja) * | 2006-08-10 | 2008-02-21 | Yamaha Corp | 音声加工装置 |
JP2008203543A (ja) * | 2007-02-20 | 2008-09-04 | Toshiba Corp | 声質変換装置及び音声合成装置 |
JP2018005048A (ja) * | 2016-07-05 | 2018-01-11 | クリムゾンテクノロジー株式会社 | 声質変換システム |
US10249314B1 (en) * | 2016-07-21 | 2019-04-02 | Oben, Inc. | Voice conversion system and method with variance and spectrum compensation |
JP2021508859A (ja) * | 2018-02-16 | 2021-03-11 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 発話スタイル転移 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7179216B1 (ja) | 2022-07-29 | 2022-11-28 | 株式会社ドワンゴ | 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
WO2023276539A1 (ja) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
US8793133B2 (en) | Systems and methods document narration | |
US5884267A (en) | Automated speech alignment for image synthesis | |
US8954328B2 (en) | Systems and methods for document narration with multiple characters having multiple moods | |
JPH10153998A (ja) | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 | |
JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
US20190130894A1 (en) | Text-based insertion and replacement in audio narration | |
CN110867177A (zh) | 音色可选的人声播放系统、其播放方法及可读记录介质 | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
WO2023276539A1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP2023006218A (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
JP2002108382A (ja) | リップシンクを行うアニメーション方法および装置 | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
JP3706112B2 (ja) | 音声合成装置及びコンピュータプログラム | |
JP2023007405A (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
JP2006030609A (ja) | 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム | |
JP2006162760A (ja) | 語学学習装置 | |
JP5471138B2 (ja) | 音素符号変換装置および音声合成装置 | |
KR101348906B1 (ko) | 음성 합성기의 화속변경방법 | |
JPH0950286A (ja) | 音声合成装置及びこれに使用する記録媒体 | |
JPH05224689A (ja) | 音声合成装置 | |
JP3830200B2 (ja) | 人物画像合成装置 | |
JP6274470B1 (ja) | 上下発声母音表記方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210630 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210630 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20210713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220502 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7069386 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |