JP2020505652A - 音声変換方法、コンピュータ機器、及び記憶媒体 - Google Patents
音声変換方法、コンピュータ機器、及び記憶媒体 Download PDFInfo
- Publication number
- JP2020505652A JP2020505652A JP2019542154A JP2019542154A JP2020505652A JP 2020505652 A JP2020505652 A JP 2020505652A JP 2019542154 A JP2019542154 A JP 2019542154A JP 2019542154 A JP2019542154 A JP 2019542154A JP 2020505652 A JP2020505652 A JP 2020505652A
- Authority
- JP
- Japan
- Prior art keywords
- machine
- voice
- audio
- unit
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 32
- 230000001360 synchronised effect Effects 0.000 claims abstract description 308
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 14
- 230000000875 corresponding effect Effects 0.000 claims description 158
- 238000009826 distribution Methods 0.000 claims description 32
- 230000008859 change Effects 0.000 claims description 18
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 description 22
- 238000003786 synthesis reaction Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 20
- 238000010276 construction Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
コンピュータ機器がターゲットテキストを取得し、
前記コンピュータ機器が、前記ターゲットテキストに対応する第1機械音声を合成し、
前記コンピュータ機器が、非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
前記コンピュータ機器が、同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記コンピュータ機器が、前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し、
前記コンピュータ機器が、前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
前記コンピュータ機器が、話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを含み、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする。
ターゲットテキストを取得し、
前記ターゲットテキストに対応する第1機械音声を合成し、
非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し、
前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを実行させ、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする。
ターゲットテキストを取得し、
前記ターゲットテキストに対応する第1機械音声を合成し、
非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し、
前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを実行させ、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする。
220 テキスト入力ボックス
710、720 話者音声単位
711、721 接続重畳部分
712、722 接続重畳部分のt番目のフレーム
1000 コンピュータ機器
1001 取得モジュール
1002 第1合成モジュール
1003 第1選別モジュール
1004 検索モジュール
1005 第2合成モジュール
1006 第2選別モジュール
1007 接続モジュール
1008 音声ライブラリ構築モジュール
Claims (20)
- 音声変換方法であって、
コンピュータ機器がターゲットテキストを取得し、
前記コンピュータ機器が、前記ターゲットテキストに対応する第1機械音声を合成し、
前記コンピュータ機器が、非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
前記コンピュータ機器が、同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記コンピュータ機器が、前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し、
前記コンピュータ機器が、前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
前記コンピュータ機器が、話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを含み、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする方法。 - 前記コンピュータ機器が、非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別することは、
前記コンピュータ機器が、前記第1機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得し、
前記コンピュータ機器が、前記候補非同期機械音声単位系列と前記第1機械音声との韻律的特徴差異度を決定し、
前記コンピュータ機器が、最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする、
ことを含むことを特徴とする請求項1に記載の方法。 - 前記コンピュータ機器が、前記第1機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得することは、
前記コンピュータ機器が、前記第1機械音声に含まれる機械音声単位の数量を決定し、
前記コンピュータ機器が、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が決定された前記数量に等しい候補非同期機械音声単位系列を取得する、
ことを含むことを特徴とする請求項2に記載の方法。 - 前記コンピュータ機器が、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が決定された前記数量に等しい候補非同期機械音声単位系列を取得することは、
前記コンピュータ機器が、非同期機械音声ライブラリに含まれる非同期機械音声単位系列を走査し、
現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された前記数量より少ない場合、前記コンピュータ機器が前記走査を続け、
現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された前記数量に等しい場合、前記コンピュータ機器が現在走査中の非同期機械音声単位系列を候補非同期機械音声単位系列とし、
現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された前記数量より多い場合、前記コンピュータ機器が、現在走査中の非同期機械音声単位系列から、含まれる非同期機械音声単位の順序及び決定された前記数量に応じて、候補非同期機械音声単位系列を分割する、
ことを含むことを特徴とする請求項3に記載の方法。 - 前記コンピュータ機器が、前記候補非同期機械音声単位系列と前記第1機械音声との韻律的特徴差異度を決定することは、
前記コンピュータ機器が前記第1機械音声から機械音声単位を分割し、
前記コンピュータ機器が、前記候補非同期機械音声単位系列に含まれる各非同期機械音声単位と、それぞれに対応する分割された機械音声単位との韻律的パラメータ差異値に基づいて、前記候補非同期機械音声単位系列と前記第1機械音声との韻律的特徴差異度を生成する、ことを含み、
前記韻律的パラメータ差異値は、時間長差異値、基本周波数変化率差異値、音響パラメータの時間長分布差異、及び基本周波数変化率の確率分布差異の少なくとも1つを含む、
ことを特徴とする請求項2に記載の方法。 - 前記コンピュータ機器が、前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別することは、
前記コンピュータ機器が前記第2機械音声から機械音声単位を分割し、
前記コンピュータ機器が、分割された各機械音声単位の発音特徴を決定し、
前記コンピュータ機器が、前記同期機械音声ライブラリから、発音特徴が前記分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別し、
前記コンピュータ機器が、各前記同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定し、
前記コンピュータ機器が、最小の音響特徴差異度に対応する同期機械音声単位を選別して、前記第2機械音声の音響特徴とマッチングする同期機械音声単位とする、
ことを含むことを特徴とする請求項1に記載の方法。 - 前記コンピュータ機器が、各前記同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定することは、
前記コンピュータ機器が、各前記同期機械音声単位サブセット内の各同期機械音声単位の音響パラメータを決定し、
前記コンピュータ機器が、分割された各前記機械音声単位の音響パラメータを決定し、
前記コンピュータ機器が、各同期機械音声単位及び相応する分割された機械音声単位に対して、相応する音響パラメータの差異値を算出し、
前記コンピュータ機器が、前記差異値に基づいて、前記差異値と正相関する音響特徴差異度を生成する、
ことを含むことを特徴とする請求項6に記載の方法。 - 前記コンピュータ機器が、話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得ることは、
前記コンピュータ機器が、選別された前記同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替え、
前記コンピュータ機器が、並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定し、
前記コンピュータ機器が、話者音声ライブラリにおいて、前記同期機械音声単位に対応する話者音声単位を検索し、
前記コンピュータ機器が、決定された隣接する同期機械音声単位の接続位置に応じて、相応する前記話者音声単位を接続して、話者ターゲット音声を得る、
ことを含むことを特徴とする請求項1に記載の方法。 - 前記コンピュータ機器が、並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定することは、
前記コンピュータ機器が、選別された各前記同期機械音声単位から分割された音声フレームを取得し、
前記コンピュータ機器が、隣接する同期機械音声単位の接続重畳音声フレーム数を決定して、隣接する同期機械音声単位のそれぞれの、前記接続重畳音声フレーム数に対応する音声フレームの間の差異度を最小化し、
前記コンピュータ機器が、前記接続重畳音声フレーム数に基づいて、並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定する、
ことを含むことを特徴とする請求項8に記載の方法。 - 前記コンピュータ機器が話者履歴音声を収集し、
前記コンピュータ機器が、前記話者履歴音声に対応するテキスト内容を認識し、
前記コンピュータ機器が、認識された前記テキスト内容に基づいて、非同期機械音声単位系列を生成し、
前記コンピュータ機器が、生成された前記非同期機械音声単位系列に基づいて、非同期機械音声ライブラリを構築し、
前記コンピュータ機器が、収集された前記話者履歴音声の韻律的特徴を取得し、
前記コンピュータ機器が、認識された前記テキスト内容及び取得された前記韻律的特徴に基づいて、同期機械音声単位系列を生成し、
前記コンピュータ機器が、生成された前記同期機械音声単位系列に基づいて、同期機械音声ライブラリを構築する、
ことをさらに含むことを特徴とする請求項1に記載の方法。 - コンピュータ機器であって、メモリとプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに、
ターゲットテキストを取得し、
前記ターゲットテキストに対応する第1機械音声を合成し、
非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し、
前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを実行させ、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングするコンピュータ機器。 - 前記非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別することは、
前記第1機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得し、
前記候補非同期機械音声単位系列と前記第1機械音声との韻律的特徴差異度を決定し、
最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする、
ことを含むことを特徴とする請求項12に記載のコンピュータ機器。 - 前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別することは、
前記第2機械音声から機械音声単位を分割し、
分割された各機械音声単位の発音特徴を決定し、
前記同期機械音声ライブラリから、発音特徴が前記分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別し、
各前記同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定し、
最小の音響特徴差異度に対応する同期機械音声単位を選別して、前記第2機械音声の音響特徴とマッチングする同期機械音声単位とする、
ことを含むことを特徴とする請求項12に記載のコンピュータ機器。 - 前記話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得ることは、
選別された前記同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替え、
並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定し、
話者音声ライブラリにおいて、前記同期機械音声単位に対応する話者音声単位を検索し、
決定された隣接する同期機械音声単位の接続位置に応じて、相応する前記話者音声単位を接続して、話者ターゲット音声を得る、
ことを含むことを特徴とする請求項12に記載のコンピュータ機器。 - 前記コンピュータ可読命令は、前記プロセッサによって実行されると、さらに、前記プロセッサに、
話者履歴音声を収集し、
前記話者履歴音声に対応するテキスト内容を認識し、
認識された前記テキスト内容に基づいて、非同期機械音声単位系列を生成し、
生成された前記非同期機械音声単位系列に基づいて、非同期機械音声ライブラリを構築し、
収集された前記話者履歴音声の韻律的特徴を取得し、
認識された前記テキスト内容及び取得された前記韻律的特徴に基づいて、同期機械音声単位系列を生成し、
生成された前記同期機械音声単位系列に基づいて、同期機械音声ライブラリを構築する、
ことを実行させることを特徴とする請求項12に記載のコンピュータ機器。 - コンピュータ可読命令を記憶した1つ又は複数の不揮発性記憶媒体であって、前記コンピュータ可読命令は、1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサに、
ターゲットテキストを取得し、
前記ターゲットテキストに対応する第1機械音声を合成し、
非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し、
前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを実行させ、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする記憶媒体。 - 前記非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別することは、
前記第1機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得し、
前記候補非同期機械音声単位系列と前記第1機械音声との韻律的特徴差異度を決定し、
最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする、
ことを含むことを特徴とする請求項17に記載の記憶媒体。 - 前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別することは、
前記第2機械音声から機械音声単位を分割し、
分割された各機械音声単位の発音特徴を決定し、
前記同期機械音声ライブラリから、発音特徴が前記分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別し、
各前記同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定し、
最小の音響特徴差異度に対応する同期機械音声単位を選別して、前記第2機械音声の音響特徴とマッチングする同期機械音声単位とする、
ことを含むことを特徴とする請求項17に記載の記憶媒体。 - 前記話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得ることは、
選別された前記同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替え、
並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定し、
話者音声ライブラリにおいて、前記同期機械音声単位に対応する話者音声単位を検索し、
決定された隣接する同期機械音声単位の接続位置に応じて、相応する前記話者音声単位を接続して、話者ターゲット音声を得る、
ことを含むことを特徴とする請求項17に記載の記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710093860.8A CN106920547B (zh) | 2017-02-21 | 2017-02-21 | 语音转换方法和装置 |
CN201710093860.8 | 2017-02-21 | ||
PCT/CN2018/074435 WO2018153223A1 (zh) | 2017-02-21 | 2018-01-29 | 语音转换方法、计算机设备和存储介质 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020505652A true JP2020505652A (ja) | 2020-02-20 |
JP2020505652A5 JP2020505652A5 (ja) | 2020-04-02 |
JP6893246B2 JP6893246B2 (ja) | 2021-06-23 |
Family
ID=59454008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019542154A Active JP6893246B2 (ja) | 2017-02-21 | 2018-01-29 | 音声変換方法、コンピュータ機器、及びコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US10878803B2 (ja) |
EP (1) | EP3588490B1 (ja) |
JP (1) | JP6893246B2 (ja) |
KR (1) | KR102239650B1 (ja) |
CN (1) | CN106920547B (ja) |
WO (1) | WO2018153223A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106920547B (zh) | 2017-02-21 | 2021-11-02 | 腾讯科技(上海)有限公司 | 语音转换方法和装置 |
US20190019497A1 (en) * | 2017-07-12 | 2019-01-17 | I AM PLUS Electronics Inc. | Expressive control of text-to-speech content |
CN107818795B (zh) * | 2017-11-15 | 2020-11-17 | 苏州驰声信息科技有限公司 | 一种英语口语的测评方法及装置 |
CN107705783B (zh) * | 2017-11-27 | 2022-04-26 | 北京搜狗科技发展有限公司 | 一种语音合成方法及装置 |
CN111317316A (zh) * | 2018-12-13 | 2020-06-23 | 南京硅基智能科技有限公司 | 模拟指定人声进行人机对话的照片框 |
CN109948124B (zh) * | 2019-03-15 | 2022-12-23 | 腾讯科技(深圳)有限公司 | 语音文件切分方法、装置及计算机设备 |
CN110288682B (zh) | 2019-06-28 | 2023-09-26 | 北京百度网讯科技有限公司 | 用于控制三维虚拟人像口型变化的方法和装置 |
CN110689885B (zh) * | 2019-09-18 | 2023-05-23 | 平安科技(深圳)有限公司 | 机器合成语音识别方法、装置、存储介质及电子设备 |
KR102281600B1 (ko) * | 2019-09-19 | 2021-07-29 | 엘지전자 주식회사 | 합성 음성에 대한 보정을 수행하는 인공 지능 장치 및 그 방법 |
CN110782875B (zh) * | 2019-10-16 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音韵律处理方法及装置 |
WO2021134232A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 一种流式语音转换方法、装置、计算机设备及存储介质 |
CN113223513A (zh) * | 2020-02-05 | 2021-08-06 | 阿里巴巴集团控股有限公司 | 语音转换方法、装置、设备和存储介质 |
CN111640456B (zh) * | 2020-06-04 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 叠音检测方法、装置和设备 |
CN111785247A (zh) * | 2020-07-13 | 2020-10-16 | 北京字节跳动网络技术有限公司 | 语音生成方法、装置、设备和计算机可读介质 |
CN112365881A (zh) * | 2020-11-11 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成方法及对应模型的训练方法、装置、设备与介质 |
CN112509552B (zh) * | 2020-11-27 | 2023-09-26 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
CN113470664B (zh) * | 2021-06-30 | 2024-01-30 | 平安科技(深圳)有限公司 | 语音转换方法、装置、设备及存储介质 |
US11605370B2 (en) | 2021-08-12 | 2023-03-14 | Honeywell International Inc. | Systems and methods for providing audible flight information |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0380572B1 (en) * | 1987-10-09 | 1994-07-27 | Sound Entertainment, Inc. | Generating speech from digitally stored coarticulated speech segments |
EP0372734B1 (en) * | 1988-11-23 | 1994-03-09 | Digital Equipment Corporation | Name pronunciation by synthesizer |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5987412A (en) * | 1993-08-04 | 1999-11-16 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
JPH09305197A (ja) | 1996-05-16 | 1997-11-28 | N T T Data Tsushin Kk | 音声変換方法及び装置 |
US6134528A (en) * | 1997-06-13 | 2000-10-17 | Motorola, Inc. | Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations |
JP3576066B2 (ja) | 1999-03-25 | 2004-10-13 | 松下電器産業株式会社 | 音声合成システム、および音声合成方法 |
CN1156819C (zh) | 2001-04-06 | 2004-07-07 | 国际商业机器公司 | 由文本生成个性化语音的方法 |
US6961704B1 (en) * | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
EP1640968A1 (en) * | 2004-09-27 | 2006-03-29 | Multitel ASBL | Method and device for speech synthesis |
US7865365B2 (en) * | 2004-08-05 | 2011-01-04 | Nuance Communications, Inc. | Personalized voice playback for screen reader |
CN101064103B (zh) * | 2006-04-24 | 2011-05-04 | 中国科学院自动化研究所 | 基于音节韵律约束关系的汉语语音合成方法及系统 |
CN101000765B (zh) * | 2007-01-09 | 2011-03-30 | 黑龙江大学 | 基于韵律特征的语音合成方法 |
CN102117614B (zh) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
CN101894547A (zh) * | 2010-06-30 | 2010-11-24 | 北京捷通华声语音技术有限公司 | 一种语音合成方法和系统 |
KR101203188B1 (ko) * | 2011-04-14 | 2012-11-22 | 한국과학기술원 | 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체 |
JP5665780B2 (ja) | 2012-02-21 | 2015-02-04 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
US8744854B1 (en) * | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
US8527276B1 (en) * | 2012-10-25 | 2013-09-03 | Google Inc. | Speech synthesis using deep neural networks |
CN106297765B (zh) * | 2015-06-04 | 2019-10-18 | 科大讯飞股份有限公司 | 语音合成方法及系统 |
US20160365087A1 (en) * | 2015-06-12 | 2016-12-15 | Geulah Holdings Llc | High end speech synthesis |
US10186251B1 (en) * | 2015-08-06 | 2019-01-22 | Oben, Inc. | Voice conversion using deep neural network with intermediate voice training |
CN105206257B (zh) * | 2015-10-14 | 2019-01-18 | 科大讯飞股份有限公司 | 一种声音转换方法及装置 |
CN105551481B (zh) * | 2015-12-21 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音数据的韵律标注方法及装置 |
CN105654940B (zh) * | 2016-01-26 | 2019-12-24 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
CN106356052B (zh) * | 2016-10-17 | 2019-03-15 | 腾讯科技(深圳)有限公司 | 语音合成方法及装置 |
CN106920547B (zh) * | 2017-02-21 | 2021-11-02 | 腾讯科技(上海)有限公司 | 语音转换方法和装置 |
-
2017
- 2017-02-21 CN CN201710093860.8A patent/CN106920547B/zh active Active
-
2018
- 2018-01-29 EP EP18756788.8A patent/EP3588490B1/en active Active
- 2018-01-29 WO PCT/CN2018/074435 patent/WO2018153223A1/zh unknown
- 2018-01-29 JP JP2019542154A patent/JP6893246B2/ja active Active
- 2018-01-29 KR KR1020197013802A patent/KR102239650B1/ko active IP Right Grant
-
2019
- 2019-03-22 US US16/361,654 patent/US10878803B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20190221201A1 (en) | 2019-07-18 |
KR102239650B1 (ko) | 2021-04-12 |
CN106920547A (zh) | 2017-07-04 |
EP3588490B1 (en) | 2023-07-19 |
EP3588490A4 (en) | 2020-04-08 |
EP3588490A1 (en) | 2020-01-01 |
JP6893246B2 (ja) | 2021-06-23 |
KR20190065408A (ko) | 2019-06-11 |
CN106920547B (zh) | 2021-11-02 |
US10878803B2 (en) | 2020-12-29 |
WO2018153223A1 (zh) | 2018-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6893246B2 (ja) | 音声変換方法、コンピュータ機器、及びコンピュータプログラム | |
EP3614376B1 (en) | Speech synthesis method, server and storage medium | |
US7739113B2 (en) | Voice synthesizer, voice synthesizing method, and computer program | |
JP4246790B2 (ja) | 音声合成装置 | |
JP2020505652A5 (ja) | ||
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JPWO2005109399A1 (ja) | 音声合成装置および方法 | |
KR20160058470A (ko) | 음성 합성 장치 및 그 제어 방법 | |
JP2009186820A (ja) | 音声処理システム、音声処理プログラム及び音声処理方法 | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
US20140236597A1 (en) | System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
WO2008147649A1 (en) | Method for synthesizing speech | |
JP4580317B2 (ja) | 音声合成装置および音声合成プログラム | |
JP2013117638A (ja) | 音声合成装置および音声合成プログラム | |
US20230386475A1 (en) | Systems and methods of text to audio conversion | |
JP5181578B2 (ja) | 音声合成装置、音声合成方法及びコンピュータプログラム | |
US20140343934A1 (en) | Method, Apparatus, and Speech Synthesis System for Classifying Unvoiced and Voiced Sound | |
CN115472185A (zh) | 一种语音生成方法、装置、设备及存储介质 | |
JP2016151709A (ja) | 音声合成装置及び音声合成プログラム | |
JP2001249678A (ja) | 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体 | |
JP2003108170A (ja) | 音声合成学習方法および音声合成学習装置 | |
JP2003108180A (ja) | 音声合成方法および音声合成装置 | |
CN116486765A (zh) | 歌声生成方法、计算机设备和存储介质 | |
JPH07181995A (ja) | 音声合成装置及び音声合成方法 | |
CN112927673A (zh) | 一种新型维吾尔语音合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190802 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190802 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210531 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6893246 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |