JP2020505652A - 音声変換方法、コンピュータ機器、及び記憶媒体 - Google Patents

音声変換方法、コンピュータ機器、及び記憶媒体 Download PDF

Info

Publication number
JP2020505652A
JP2020505652A JP2019542154A JP2019542154A JP2020505652A JP 2020505652 A JP2020505652 A JP 2020505652A JP 2019542154 A JP2019542154 A JP 2019542154A JP 2019542154 A JP2019542154 A JP 2019542154A JP 2020505652 A JP2020505652 A JP 2020505652A
Authority
JP
Japan
Prior art keywords
machine
voice
audio
unit
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019542154A
Other languages
English (en)
Other versions
JP2020505652A5 (ja
JP6893246B2 (ja
Inventor
ユアン,ハオレイ
メイ,シャオ
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2020505652A publication Critical patent/JP2020505652A/ja
Publication of JP2020505652A5 publication Critical patent/JP2020505652A5/ja
Application granted granted Critical
Publication of JP6893246B2 publication Critical patent/JP6893246B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)

Abstract

音声変換方法であって、ターゲットテキストを取得し(S302)、前記ターゲットテキストに対応する第1機械音声を合成し(S304)、非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し(S306)、同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し(S308)、前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し(S310)、前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し(S312)、話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る(S314)、ことを含む。

Description

本願は、2017年2月21日に中国特許庁に提出された、出願番号が2017100938608であり、発明の名称が「音声変換方法及び装置」である中国特許出願の優先権を主張し、その全ての内容は参照することにより本願に組み込まれる。
本願は、コンピュータ技術分野に関し、特に、音声変換方法、コンピュータ機器、及び記憶媒体に関する。
コンピュータ技術の発達に伴い、音声内容変換が、例えば、小説音読や音声ナビにおける個性的な声の実現などにますます広く適用されている。生活水準の向上に伴い、人々は、音声内容変換について、ただ単なる音色の変換に満足するのではなく、変換された音声が特定の話者の発話の習慣及び発話のスタイルにより合致することも要求する。
従来の音声内容変換技術では、変換によってターゲット話者の音声を得ることを必要とする場合、主に、音色の変換によって、他の話者の音声をターゲット話者の音声に変換する。しかしながら、従来の音声変換方法によって得られる音声は、話者の音声スタイルを真実に反映できないことで、真実の話者に比べると、音声変換効果に一定の開きがある。
本願により提供される各実施例によれば、音声変換方法、コンピュータ機器、及び記憶媒体が提供される。
音声変換方法であって、
コンピュータ機器がターゲットテキストを取得し、
前記コンピュータ機器が、前記ターゲットテキストに対応する第1機械音声を合成し、
前記コンピュータ機器が、非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
前記コンピュータ機器が、同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記コンピュータ機器が、前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し、
前記コンピュータ機器が、前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
前記コンピュータ機器が、話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを含み、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする。
コンピュータ機器であって、メモリとプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに、
ターゲットテキストを取得し、
前記ターゲットテキストに対応する第1機械音声を合成し、
非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し、
前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを実行させ、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする。
コンピュータ可読命令を記憶した1つ又は複数の不揮発性記憶媒体であって、前記コンピュータ可読命令は、1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサに、
ターゲットテキストを取得し、
前記ターゲットテキストに対応する第1機械音声を合成し、
非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し、
前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを実行させ、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする。
本願の1つ又は複数の実施例の詳細は、次の図面及び説明に示される。本願の他の特徴、目的、及びメリットは、明細書、図面、及び請求の範囲から明らかになる。
本願の実施例の構成をより明確に説明するために、以下、実施例の説明に必要な図面を簡単的に紹介する。明らかに、以下の説明における図面は本願の幾つかの実施例を示しているにすぎず、当業者にとって、創造的な労働をせずに、これらの図面から他の図面を得ることもできる。
一実施例における音声変換方法を実現するためのコンピュータ機器の内部構成の模式図である。 一実施例における端末で音声変換方法を実現する場合の画面の模式図である。 一実施例における音声変換方法のフローの模式図である。 一実施例における非同期機械音声ライブラリから、韻律的特徴が第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別することのフローの模式図である。 一実施例における同期機械音声ライブラリから、第2機械音声の音響特徴とマッチングする同期機械音声単位を選別することのフローの模式図である。 一実施例における話者音声ライブラリにおける同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得ることのフローの模式図である。 一実施例における隣接する話者音声単位の接続の模式図である。 一実施例における音声ライブラリの構築の論理ブロック図である。 一実施例における音声変換方法の論理ブロック図である。 一実施例におけるコンピュータ機器の構成ブロック図である。 他の実施例におけるコンピュータ機器の構成ブロック図である。
本願の目的、構成、及びメリットをより明確にするために、以下、図面および実施例を参照して、本願をさらに詳しく説明する。理解すべきものとして、ここで説明される具体的な実施例は、本発明を解釈するためのものにすぎず、本発明を限定するものではない。
図1は、一実施例における音声変換方法を実現するためのコンピュータ機器の内部構成の模式図である。該コンピュータ機器は、サーバ又は端末であってもよい。該端末は、デスクトップ端末又は移動端末であってもよく、移動端末は、具体的に、携帯電話、タブレットコンピュータ、ラップトップコンピュータなどの少なくとも1つであってもよい。図1に示すように、該コンピュータ機器は、システムバスを介して接続されるプロセッサと、メモリと、ネットワークインターフェースと、を備える。ここで、メモリは、不揮発性記憶媒体及び内部メモリを含む。該コンピュータ機器の不揮発性記憶媒体は、オペレーティングシステム及びコンピュータ可読命令を記憶することができる。該コンピュータ可読命令が実行されると、プロセッサに音声変換方法を実行させることができる。該プロセッサは、計算及び制御の機能を提供し、端末全体の作動をサポートするものである。コンピュータ機器の内部メモリには、コンピュータ可読命令が記憶されてもよい。該コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに音声変換方法を実行させることができる。当業者であれば理解できるように、図1に示された構成は、本願発明に係る一部の構成のブロック図にすぎず、本願発明が適用されるコンピュータ機器を限定するものではない。具体的なコンピュータ機器は、図示よりも多く又は少ない構成要素を含んでもよく、又はいくらかの構成要素を組み合わせたものであってもよく、又は構成要素の異なる配置を有してもよい。
図2は、一実施例における端末で音声変換方法を実現する場合の画面の模式図である。具体的には、端末において、該音声変換方法を実行するためのアプリケーションプログラムを実行可能である。図2の左図に示すように、ユーザは、該アプリケーションプログラムを実行させて、マルチメディアデータを再生することができる。マルチメディアデータに含まれる音声に内容の間違いが存在して修正する必要がある場合、又は、映像画面に応じて音声を再び調整する必要がある場合、ユーザは、再生されるマルチメディアデータのうち、修正又は調整を必要とする音声を特定し、遷移エントリ210によって図2の右図に示す画面に遷移することができる。ユーザは、さらに、該アプリケーションプログラムにより提供されたテキスト入力ボックス220において、テキスト内容を入力することができる。該テキスト内容は、修正又は調整を必要とする音声に対応する正しいテキスト内容である。このように、アプリケーションプログラムは、ユーザがテキスト入力ボックスにおいて入力したテキスト内容を音声に変換すると、修正又は調整を必要とする音声内容を、変換された音声に取り替えることができる。
他のシナリオでは、例えば、該アプリケーションプログラムは、具体的に、ソーシャルアプリケーションプログラムであってもよい。ユーザは、ソーシャルアプリケーションプログラムによってソーシャルトークを行う場合に、ターゲット話者音声を送信したいとき、ソーシャルアプリケーションプログラムにより提供されたテキスト入力ボックスによって、テキスト内容を入力することができる。該テキスト内容は、ユーザの合成したい音声に対応するテキスト内容である。このように、ソーシャルアプリケーションプログラムは、ユーザがテキスト入力ボックスにおいて入力したテキスト内容を音声に変換すると、該変換された音声を送信することができる。
具体的には、端末は、ユーザが入力したテキスト内容を取得すると、該テキスト内容をターゲットテキストとして、該ターゲットテキストに対応する第1機械音声を合成し、非同期機械音声ライブラリから、韻律的特徴が第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、同期機械音声ライブラリから、該非同期機械音声単位系列に対応する同期機械音声単位系列を検索することにより、話者の音声スタイルに合致する韻律的特徴を得る。
さらに、端末は、該同期機械音声単位系列の韻律的特徴に基づいて、ターゲットテキストに対応する第2機械音声を合成し、前記同期機械音声ライブラリから、第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、話者音声ライブラリにおける該同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得るようにしてもよい。端末は、話者ターゲット音声を得た後、得られた該話者ターゲット音声を、現在トークにおける他のトークユーザに対応する端末に送信してもよい。
ここで、同期機械音声ライブラリ、非同期機械音声ライブラリ、及び話者音声ライブラリのテキスト内容が同じであり、話者音声ライブラリと同期機械音声ライブラリとの韻律的特徴がマッチングする。他の実施例では、端末は、非同期機械音声ライブラリ、同期機械音声ライブラリ、及び話者音声ライブラリをサーバにアップロードしてもよい。これにより、サーバも、非同期機械音声ライブラリ、同期機械音声ライブラリ、及び話者音声ライブラリに基づいて、該音声変換方法を実現することができる。
図3に示すように、一実施例では、音声変換方法が提供されている。本実施例では、該方法を上記の図1の端末に適用することを例として説明する。該方法は、具体的に以下のステップを含む。
S302で、ターゲットテキストを取得する。
ここで、ターゲットテキストとは、変換先である話者ターゲット音声に対応するテキスト内容である。テキスト内容とは、1つより多い文字を順に並べて構成した文字列である。本実施例では、変換先である話者ターゲット音声に対応するテキスト内容は、話者が話していない内容であってもよい。
具体的には、端末は、入力画面を提供して、ユーザが入力画面を介して入力した、音声変換を必要とするテキスト内容を取得し、取得されたテキスト内容をターゲットテキストとするようにしてもよい。
S304で、ターゲットテキストに対応する第1機械音声を合成する。
ここで、機械音声とは、自動音声合成システムの処理によって得られる、自動音声合成システムの音声スタイルに合致するオーディオデータである。第1機械音声とは、音色及び韻律的特徴の両方が自動音声合成システムの音声スタイルに合致する機械音声である。音色とは、発音体が発する音の特色である。異なる発音体は、材料、構造が異なるため、発する音の音色も異なる。物理学では、周波数スペクトルパラメータで音色を表現する。韻律的特徴とは、発音体が発する音の基本音調及びリズムである。物理学では、基本周波数パラメータ、時間長分布、及び信号強度で韻律的特徴を表現する。自動音声合成システムは、音声合成を行うためのシステムであり、具体的にテキスト読み上げ(TTS:Text To Speech)パラメータ合成システムであってもよい。
具体的には、端末は、ターゲットテキストを取得した後、TTSパラメータ合成システムに基づいて、音声合成を行ってもよい。端末は、まず、ターゲットテキストに対して、テキストの文分割、単語分割、多音字の処理、数字の処理、略語の処理などを含む言語学的分析を行って、文の階層構造及び各字の音素構成を決定するようにしてもよい。端末は、さらに、処理されたテキストから、自動音声合成システムで音を合成し、TTSの韻律的特徴に応じて音声波形に変換して、第1機械音声を得るようにしてもよい。
S306で、非同期機械音声ライブラリから、韻律的特徴が第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、ここで、同期機械音声ライブラリ、非同期機械音声ライブラリ、及び話者音声ライブラリのテキスト内容が同じであり、話者音声ライブラリと同期機械音声ライブラリとの韻律的特徴がマッチングする。
ここで、話者音声ライブラリには、若干の話者音声単位系列が含まれる。話者音声単位系列とは、少なくとも1つの話者音声単位を順に並べて構成した系列である。話者音声単位ライブラリにおける各話者音声単位系列は、いずれも話者履歴音声から選択され、音色及び韻律的特徴の両方が話者の音声スタイルに合致する。
話者音声ライブラリにおける各話者音声単位系列毎に、それとテキスト内容が同じである1つの機械音声単位系列が存在する。これらの機械音声単位系列は、韻律的特徴が話者の韻律的特徴に合致しないため、非同期機械音声単位系列と呼ばれる。これらの非同期機械音声単位系列によって、非同期機械音声ライブラリが構成される。
話者音声ライブラリにおける各話者音声単位系列毎に、それとテキスト内容が同じであってかつ韻律的特徴がマッチングする1つの機械音声単位系列が存在する。これらの機械音声単位系列は、韻律的特徴が話者の韻律的特徴に合致するため、同期機械音声単位系列と呼ばれる。これらの同期機械音声単位系列によって、同期機械音声ライブラリが構成される。
さらに、テキスト内容に応じて、非同期機械音声ライブラリ、同期機械音声ライブラリ、及び話者音声ライブラリを整列して、平行音声ライブラリとして統合してもよい。非同期機械音声ライブラリ、同期機械音声ライブラリ、及び話者音声ライブラリは、いずれも、ファイル、データベース、又はバッファに記憶され、必要に応じて、ファイル、データベース、又はバッファから取得されるようにしてもよい。
具体的には、端末は、列挙方式によって、非同期機械音声ライブラリにおける非同期機械音声単位系列を順次に取得し、取得された非同期機械音声単位系列と第1機械音声との韻律的特徴の比較を行い、非同期機械音声ライブラリに含まれる各非同期機械音声単位系列と第1機械音声との比較を完了すると、第1機械音声の韻律的特徴に最も近い非同期機械音声単位系列を選択して、マッチングする非同期機械音声単位系列とするようにしてもよい。
ここで、韻律的特徴の比較は、各非同期機械音声単位系列と第1機械音声との対応する基本周波数パラメータの比較、及び、各非同期機械音声単位系列と第1機械音声との対応する時間長分布の比較を含む。
S308で、同期機械音声ライブラリにおいて、非同期機械音声単位系列に対応する同期機械音声単位系列を検索する。
ここで、音声単位は、端末でカスタマイズされた時間尺度である。本実施例では、端末は、漢語ピンインの構築方式によって、話者履歴音声に対して音声単位分割を行う。例を挙げて説明すると、漢字「単元」のピンインは「danyuan」である。それを漢語ピンインの構築方式によって分割して、それぞれ「d」、「an」、「y」、「uan」である4つの音声単位が得られる。他の実施例では、端末は、文字又は音素などに応じて、音声単位分割を行ってもよい。
具体的には、端末は、同期機械音声ライブラリにおいて、テキスト内容を介して非同期機械音声単位系列に対応付けられた同期機械音声単位系列を検索して、該同期機械音声単位系列を取得してもよい。
S310で、同期機械音声単位系列の韻律的特徴に基づいて、ターゲットテキストに対応する第2機械音声を合成する。
ここで、第2機械音声とは、音色が自動音声合成システムの音声スタイルに合致する一方、韻律的特徴が話者の音声スタイルに合致する機械音声である。第2機械音声及び第1機械音声は、いずれも機械音声であるが、異なる機械音声である。
具体的には、端末は、自動音声合成システムで、同期機械音声単位系列の韻律的特徴に応じて、話者の韻律的特徴に合致する第2機械音声を合成してもよい。
例を挙げて説明する。ターゲットテキスト内容が「小橋流水人家」(ピンインは「xiao qiao liu shui ren jia」)であると仮定すると、TTSパラメータ合成システムでTTS自身の韻律的特徴に基づいて合成された第1機械音声が「xiao qiao liu−shui−ren jia」となる。同期機械音声ライブラリにおいて検索された同期機械音声単位系列が「ku teng−lao shu−hun ya」となり、TTSパラメータ合成システムで同期機械音声単位系列の韻律的特徴に基づいて合成された第2機械音声が「xiao qiao−liu shui−ren jia」となる。ここで、「−」は、ポーズを表す。
S312で、同期機械音声ライブラリから、第2機械音声の音響特徴とマッチングする同期機械音声単位を選別する。
ここで、音響特徴とは、発音体の振動によって生じる音波の物理学的な特徴である。音響パラメータは、音響特徴を表現するためのパラメータであり、具体的に、基本周波数パラメータ、周波数スペクトルパラメータ、及び非周期信号パラメータなどを含む。
具体的には、端末は、第2機械音声の生成段階での単位分割に基づいて、相応する機械音声単位系列を得、生成段階での各音声単位の発音注記に基づいて、同期機械音声ライブラリから、発音が同じである同期機械音声単位を検索して、候補同期機械音声単位とするようにしてもよい。
端末は、同期機械音声ライブラリに記憶された、候補同期機械音声単位に対応付けられた単位音響パラメータを検索し、検索された単位音響パラメータを逐一、相応する第2機械音声における音声単位の単位音響パラメータと比較し、単位音響パラメータの比較を完了すると、第2機械音声の音響パラメータに最も近い候補同期機械音声単位を選択して、音響特徴がマッチングする話者音声単位とするようにしてもよい。
S314で、話者音声ライブラリにおける同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る。
具体的には、端末は、話者音声ライブラリにおいて、テキスト内容を介して同期機械音声単位に対応付けられた話者音声単位を検索し、検索された話者音声単位を接続して、話者ターゲット音声を得るようにしてもよい。
上記音声変換方法では、接続して話者ターゲット音声を得るための音声単位が話者音声ライブラリから選択され、接続して変換された音声には、話者の音色が保たれる。また、非同期機械音声ライブラリにおける機械の韻律的特徴に合致する非同期機械音声単位系列と、同期機械音声ライブラリにおける話者の韻律的特徴に合致する同期機械音声単位系列との対応関係が利用され、機械の韻律的特徴に合致する第1機械音声を合成した後、対応関係に基づいて、話者の音声スタイルに合致する韻律的特徴を決定する。また、該韻律的特徴に基づいて第2機械音声を合成し、第2機械音声の音響特徴を根拠として、同期機械音声ライブラリから、第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、さらに、話者音声ライブラリにおける、選択された同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る。これにより、話者の韻律的特徴が保たれる。このように、話者の音色が保たれる上に、話者の韻律的特徴が保たれ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致し、音声変換効果を向上させる。
図4に示すように、一実施例では、ステップS306は、以下のステップを含む。
S402で、第1機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得する。
具体的には、端末は、非同期機械音声ライブラリにおける非同期機械音声単位系列を、非同期機械音声単位系列に含まれる非同期機械音声単位の数量によって、事前に分類してもよい。端末は、第1機械音声を合成した後、第1機械音声の生成時の音声単位分割に基づいて、分割された機械音声単位の数量を統計し、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が統計された数量以上である非同期機械音声単位系列を取得して、候補音声単位系列とするようにしてもよい。
一実施例では、ステップS402は、具体的に、第1機械音声に含まれる機械音声単位の数量を決定し、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が決定された数量に等しい候補非同期機械音声単位系列を取得する、ことを含む。
具体的には、端末は、非同期機械音声単位系列を選択するための候補条件を予め設定してもよい。該候補条件は、含まれる非同期機械音声単位の数量が、第1機械音声に含まれる機械音声単位の数量に等しいことである。非同期機械音声単位系列に含まれる非同期機械音声単位の数量が、第1機械音声に含まれる機械音声単位の数量以上である場合、候補条件が満たされると判定し、該非同期機械音声単位系列、又は該非同期機械音声単位系列に含まれる非同期機械音声単位子系列を候補非同期機械音声単位系列とする。
本実施例では、第1機械音声に含まれる機械音声単位の数量を根拠として、候補非同期機械音声単位系列を選択して韻律的特徴差異度を算出することにより、韻律的特徴差異度の算出結果の信頼性を向上させる。
一実施例では、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が決定された数量に等しい候補非同期機械音声単位系列を取得することは、具体的に、非同期機械音声ライブラリに含まれる非同期機械音声単位系列を走査し、現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された数量より少ない場合、走査を続け、現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された数量に等しい場合、現在走査中の非同期機械音声単位系列を候補非同期機械音声単位系列とし、現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された数量より多い場合、現在走査中の非同期機械音声単位系列から、含まれる非同期機械音声単位の順序及び決定された数量に応じて、候補非同期機械音声単位系列を分割する、ことを含む。
本実施例では、含まれる非同期機械音声単位の数量が、第2機械音声に含まれる機械音声単位の数量より多い非同期機械音声単位系列から、含まれる非同期機械音声単位の順序及び決定された数量に応じて、非同期機械音声単位子系列を分割して、候補非同期機械音声単位系列とする。これは、自然言語の一貫性に適合して、韻律的特徴差異度の算出結果の信頼性を保証する上に、非同期機械音声ライブラリにおける言語資料の利用率を向上させる。
例を挙げて説明する。第1機械音声単位から、a−b−cの3つの機械音声単位が分割されると仮定する。端末は、非同期機械音声ライブラリに含まれる非同期機械音声単位系列を走査する際に、現在走査中の非同期機械音声単位系列がd−eである場合、該非同期機械音声単位系列に2つの非同期機械音声単位が含まれ、候補条件に合致しなく、走査を続ける。現在走査中の非同期機械音声単位系列がf−g−hである場合、該非同期機械音声単位系列に3つの非同期機械音声単位が含まれ、候補条件に合致し、端末は、「f−g−h」を直接に候補非同期機械音声単位系列としてもよい。
現在走査中の非同期機械音声単位系列がi−j−k−lである場合、該非同期機械音声単位系列に4つの非同期機械音声単位が含まれ、候補条件に合致するが、該非同期機械音声単位系列に含まれる非同期機械音声単位の数量が、第1機械音声に含まれる機械音声単位の数量より多いため、該非同期機械音声単位系列から、含まれる非同期機械音声単位の数量が、第1機械音声に含まれる機械音声単位の数量に等しい非同期機械音声単位子系列を分割する必要がある。非同期機械音声単位系列が単方向性を持つので、端末は、非同期機械音声単位子系列「i−j−k」、「j−k−l」、「i−k−l」、「i−j−l」を候補非同期機械音声単位系列としてもよい。
S404で、候補非同期機械音声単位系列と第1機械音声との韻律的特徴差異度を決定する。
具体的には、端末は、候補非同期機械音声単位系列を選択した後、各候補非同期機械音声単位系列と第1機械音声との韻律的特徴差異度を順次に算出してもよい。
一実施例では、ステップS404は、具体的に、第1機械音声から機械音声単位を分割し、候補非同期機械音声単位系列に含まれる各非同期機械音声単位と、それぞれに対応する分割された機械音声単位との韻律的パラメータ差異値に基づいて、候補非同期機械音声単位系列と第1機械音声との韻律的特徴差異度を生成する、ことを含む。ここで、韻律的パラメータ差異値は、時間長差異値、基本周波数変化率差異値、音響パラメータの時間長分布差異、及び基本周波数変化率の確率分布差異の少なくとも1つを含む。
具体的には、端末は、第1機械音声の合成時に得られた第1機械音声の韻律的パラメータ及び相応する機械音声単位分割によって、単位韻律的パラメータを得るようにしてもよい。端末は、さらに、候補非同期機械音声単位系列に含まれる各非同期機械音声単位に対応する単位韻律的パラメータを取得し、非同期機械音声単位に対応する単位韻律的パラメータと、相応する分割された機械音声単位に対応する単位韻律的パラメータとの差異値を算出することにより、候補非同期機械音声単位系列と第1機械音声との韻律的特徴差異度を算出するようにしてもよい。
本実施例では、候補非同期機械音声単位系列に含まれる各非同期機械音声単位と、それぞれに対応する分割された機械音声単位との各韻律的パラメータ差異値によって、韻律的特徴差異度を算出する。韻律的特徴に影響する各パラメータを用いて算出することにより、韻律的特徴のマッチングの正確さを向上させる。
非同期機械音声単位系列と第1機械音声との韻律的特徴差異度は、以下の数式によって算出されてもよい。
Figure 2020505652
ここで、fは、候補非同期機械音声単位系列Aの韻律的特徴パラメータを表し、fは、第1機械音声Bの韻律的特徴パラメータを表し、Nは、韻律的特徴差異度の算出時に選択された韻律的特徴の個数を表し、wは、n番目の韻律的特徴の重みを表し、Cprosodyは、韻律的特徴差異度を表し、Cprosodyの値が小さいほど、候補非同期機械音声単位系列Aと第1機械音声Bとの韻律的特徴がマッチングすることが表される。候補非同期機械音声単位系列Aと第1機械音声Bとの韻律的パラメータ差異値|f−f|は、時間長差異値、基本周波数変化率差異値、音響パラメータの時間長分布差異、及び基本周波数変化率の確率分布差異の少なくとも1つを含む。
時間長差異値は、非同期機械音声単位直前の音声ポーズ時間長と相応する分割された機械音声単位直前の音声ポーズ時間長との差異値ΔThead、非同期機械音声単位の発話時間長と相応する分割された機械音声単位の発話時間長との差異値ΔTcurr、及び非同期機械音声単位直後の音声ポーズ時間長と相応する分割された機械音声単位直後の音声ポーズ時間長との差異値ΔTtailを含む。
ΔF0,Aは、候補非同期機械音声単位系列Aの基本周波数変化率を表し、ΔF0,Bは、第1機械音声Bの基本周波数変化率を表す。基本周波数変化率は、基本周波数の1次導関数である。|ΔF0,A−F0,B|は、候補非同期機械音声単位系列Aと第1機械音声Bとの基本周波数変化率差異値を表す。
T,Aは、候補非同期機械音声単位系列Aに対応する音響パラメータの時間長分布を表し、PT,Bは、第1機械音声Bに対応する音響パラメータの時間長分布を表し、KLD(PT,A,PT,B)は、候補非同期機械音声単位系列A及び第1機械音声Bのそれぞれに対応する音響パラメータの時間長分布のKL発散(KLD:Kullback−Leibler divergence)を求めることを表す。本実施例では、ガウス分布を用いて、音響パラメータの時間長分布をモデル化し、PT,Aを非同期機械音声単位系列Aの時間長分布の平均値及び分散と等価にし、PT,Bを第1機械音声Bの時間長分布の平均値及び分散と等価にする。
Figure 2020505652
は、候補非同期機械音声単位系列Aに対応する基本周波数変化率の確率分布を表し、
Figure 2020505652
は、第1機械音声Bに対応する基本周波数変化率の確率分布を表し、
Figure 2020505652
は、候補非同期機械音声単位系列A及び第1機械音声Bのそれぞれに対応する基本周波数変化率の確率分布のKL発散を求めることを表す。本実施例では、ガウス分布を用いて、基本周波数変化率の確率分布をモデル化し、
Figure 2020505652
を非同期機械音声単位系列Aの基本周波数変化率の確率分布の平均値及び分散と等価にし、
Figure 2020505652
を第1機械音声Bの基本周波数変化率の確率分布の平均値及び分散と等価にする。
一次元単純なガウスモデルの場合、KLDの具体的な定義は、以下の通りである。
Figure 2020505652
ここで、p(x|u,σ)は、非同期機械音声単位系列Aの韻律的パラメータが、平均値がuであり分散がσであるガウス分布に従うことを表す。p(x|u,σ)は、第1機械音声Bの韻律的パラメータが、平均値がuであり分散がσであるガウス分布に従うことを表す。
S406で、最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする。
本実施例では、算出された非同期機械音声ライブラリにおける非同期機械音声単位系列と第1機械音声との韻律的特徴差異度を制約条件として、第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選択することにより、韻律的特徴の選択の正確さを向上させ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。
図5に示すように、一実施例では、ステップS312は、具体的に以下のステップを含む。
S502で、第2機械音声から機械音声単位を分割する。
S504で、分割された各機械音声単位の発音特徴を決定する。
S506で、同期機械音声ライブラリから、発音特徴が分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別する。
具体的には、端末は、同期機械音声ライブラリにおける同期機械音声単位を走査し、走査時に、現在走査中の同期機械音声単位の発音と第2機械音声に注記された発音とを照合し、現在走査中の同期機械音声単位の発音が第2機械音声に注記された発音と一致する場合、該同期機械音声単位を選択して、発音特徴が分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを得るようにしてもよい。
S508で、各同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定する。
具体的には、端末は、各同期機械音声単位サブセット内の各同期機械音声単位を走査し、走査時に、現在走査中の同期機械音声単位に対応する音響パラメータを取得し、取得された音響パラメータと、相応する分割された機械音声単位に対応する音響パラメータとの音響特徴差異度を逐一算出するようにしてもよい。
一実施例では、ステップS508は、具体的に、各同期機械音声単位サブセット内の各同期機械音声単位の音響パラメータを決定し、分割された各機械音声単位の音響パラメータを決定し、各同期機械音声単位と、相応する分割された機械音声単位との相応する音響パラメータの差異値を算出し、算出された差異値に基づいて、該差異値と正相関する音響特徴差異度を生成する、ことを含む。
具体的には、端末は、同期機械音声ライブラリにおいて、同期機械音声単位に対応する単位音響パラメータを検索してもよい。端末は、第2機械音声の合成時に音響モデルによって出力された第2機械音声における各音声単位に対応する単位音響パラメータを取得してもよい。
ここで、同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度は、以下の数式によって算出されてもよい。
Figure 2020505652
数式3において、TCは、音響特徴差異度を表し、Nは、音響特徴差異度の算出時に使用される音響パラメータの個数を表し、fは、同期機械音声単位aに対応する音響パラメータを表し、fは、相応する分割された機械音声単位bに対応する音響パラメータを表し、wは、n番目の韻律的特徴の重みを表す。TCの値が小さいほど、同期機械音声単位aと、相応する分割された機械音声単位bとの音響特徴がマッチングすることが表される。
本実施例では、同期機械音声単位と、それぞれに対応する分割された機械音声単位との各音響パラメータの差異値によって、音響特徴差異度を算出する。音響特徴に影響する各パラメータを用いて算出することにより、音響特徴のマッチングの正確さを向上させる。
S510で、最小の音響特徴差異度に対応する同期機械音声単位を選別して、第2機械音声の音響特徴とマッチングする同期機械音声単位とする。
本実施例では、算出された同期機械音声ライブラリにおける同期機械音声単位と第2機械音声に含まれる機械音声単位との音響特徴差異度を制約条件として、第2機械音声の音響特徴とマッチングする同期機械音声単位を選択することにより、音響特徴の選択の正確さを向上させ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。
図6に示すように、一実施例では、ステップS314は、具体的に以下のステップを含む。
S602で、選別された同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替える。
具体的には、端末は、同期機械音声ライブラリの構築時に、それに応じて、同期機械音声ライブラリにおける各同期機械音声単位と各同期機械音声単位の単位発音とを対応付ける。端末は、同期機械音声単位を選別した後、各同期機械音声単位に対応する単位発音に基づいて、ターゲットテキストにおける発音順序で、選別された同期機械音声単位を並べ替えてもよい。
S604で、並べ替えられた同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定する。
具体的には、端末は、同期機械音声ライブラリから、隣接する同期機械音声単位のそれぞれに対応する単位音響パラメータを取得し、同期機械音声単位のうち隣接する同期機械音声単位に対応する単位音響パラメータの類似度を算出し、算出された類似度に基づいて、並べ替えられた同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定するようにしてもよい。
一実施例では、ステップS604は、具体的に、選別された各同期機械音声単位から分割された音声フレームを取得し、隣接する同期機械音声単位の接続重畳音声フレーム数を決定して、隣接する同期機械音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度を最小化し、接続重畳音声フレーム数に基づいて、並べ替えられた同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定する、ことを含む。
具体的には、端末は、音声フレームの時間長を、例えば、5msや10msなどに予め設定してもよい。端末は、さらに、時間領域において、予め設定された時間長で各同期機械音声単位を分割して、複数の音声フレームを得るようにしてもよい。本実施例では、端末は、列挙方式によって、隣接する同期機械音声単位の接続重畳音声フレーム数を順次に増加させ、接続重畳音声フレーム数の逓増に応じて、隣接する同期機械音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度を逐一算出し、差異度が最小となる場合に対応する接続重畳音声フレーム数を選択して、決定された接続重畳音声フレーム数とするようにしてもよい。
さらに、端末は、隣接する同期機械音声単位の接続重畳音声フレーム数を決定した後、事前に設定された接続関数を取得し、接続関数に基づいて、前に並べた同期機械音声単位に含まれる接続重畳音声フレームのうち保留すべき部分と、後に並べた同期機械音声単位に含まれる接続重畳音声フレームのうち保留すべき部分とを決定してもよい。これにより、接続後の音響パラメータの移行が自然音声により合致する。
本実施例では、隣接する同期機械音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度を制約条件として、隣接する同期機械音声単位の接続位置を選択することにより、接続位置の選択の正確さを向上させ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。
他の実施例では、端末は、選別された各同期機械音声単位から、隠れマルコフモデル(HMM:Hidden Markov Model)に応じて分割された音声状態を取得し、隣接する同期機械音声単位の接続重畳音声状態数を決定して、隣接する同期機械音声単位のそれぞれの、接続重畳音声状態数に対応する音声状態の間の差異度を最小化し、接続重畳音声状態数に基づいて、並べ替えられた同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定するようにしてもよい。
一実施例では、端末は、以下の数式によって、隣接する同期機械音声単位の接続重畳音声フレーム数を決定してもよい。
Figure 2020505652
ここで、Tは、隣接する同期機械音声単位の接続重畳音声フレーム数を表し、tは、隣接する同期機械音声単位の接続重畳音声フレームのt番目のフレームを表し、CCは、隣接する同期機械音声単位の接続重畳音声フレームのt番目のフレームである音声フレームの差異度を表し、
Figure 2020505652
は、
Figure 2020505652
が最小となるTを求めることを表す。
一実施例では、
Figure 2020505652
は、以下の数式によって算出されてもよい。
Figure 2020505652
ここで、CCΔtは、隣接する同期機械音声単位の、接続重畳音声フレーム数がΔtである場合の差異度を表す。fa,tは、隣接する同期機械音声単位のうち前に並べた音声単位aに含まれる接続重畳音声フレームのt番目のフレームの音響パラメータを表し、fb,tは、隣接する同期機械音声単位のうち後に並べた音声単位bに含まれる接続重畳音声フレームのt番目のフレームの音響パラメータを表す。Nは、音声フレームの差異度の算出時に選択された音響パラメータの個数を表し、wは、選択された各音響パラメータに割り当てられた重みを表し、wは、各音声フレームに割り当てられた重みを表す。
本実施例では、隣接する同期機械音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度が最小となる接続重畳フレーム数を求めるための具体的な方法が提供されていることで、接続位置の選択がより正確である。
S606で、話者音声ライブラリにおいて、同期機械音声単位に対応する話者音声単位を検索する。
S608で、決定された隣接する同期機械音声単位の接続位置に応じて、相応する話者音声単位を接続して、話者ターゲット音声を得る。
具体的には、端末は、各同期機械音声単位の接続位置を決定した後、該接続位置を相応する話者音声単位の接続位置として、話者音声単位を接続して、話者ターゲット音声を得る。
本実施例では、決定された接続位置に応じて、隣接する話者音声単位を接続することにより、接続の移行がより自然であり、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。
図7は、一実施例における隣接する話者音声単位の接続の模式図である。図7を参照すると、該模式図は、前に並べた話者音声単位710と、後に並べた話者音声単位720と、を含む。ここで、話者音声単位710は、T個の音声フレームが含まれる接続重畳部分711を含み、音声フレーム712は、話者音声単位710の接続重畳部分のt番目のフレームである。話者音声単位720は、T個の音声フレームが含まれる接続重畳部分721を含み、音声フレーム722は、話者音声単位720の接続重畳部分のt番目のフレームである。音声単位710の接続重畳部分のt番目のフレームと、話者音声単位720の接続重畳部分のt番目のフレームとが重畳する。
一実施例では、端末は、各同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定した後、話者音声ライブラリから、各同期機械音声単位に対応する話者音声単位を取得してもよい。端末は、さらに、取得された話者音声単位を、対応するターゲットテキストにおける発音順序で順列組み合わせして、複数の接続対象話者音声単位系列を得、各接続対象話者音声単位系列における隣接する話者音声単位の間の差異度を決定し、各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を、相応する話者音声単位と、相応する分割された機械音声単位との音響特徴差異度とするようにしてもよい。
端末は、各接続対象話者音声単位系列における各話者音声単位系列と、相応する分割された機械音声単位との音響特徴差異度を重み付け加算して、各接続対象話者音声単位系列に対応するターゲット代価を得、各接続対象話者音声単位系列における隣接する話者音声単位の間の差異度を重み付け加算して、各接続対象話者音声単位系列に対応する接続代価を得るようにしてもよい。
端末は、各接続対象話者音声単位系列に対応するターゲット代価及び接続代価をそれぞれ得た後、動的計画法によって、ターゲット代価と接続代価との和が最小となる接続方式を決定する。ここで、動的計画法は、データ計算方法上、最適解を求めるための手法である。
一実施例では、音声変換方法は、非同期機械音声ライブラリ及び同期機械音声ライブラリを構築することをさらに含む。非同期機械音声ライブラリ及び同期機械音声ライブラリを構築することは、具体的に、話者履歴音声を収集し、話者履歴音声に対応するテキスト内容を認識し、認識されたテキスト内容に基づいて非同期機械音声単位系列を生成し、生成された非同期機械音声単位系列に基づいて非同期機械音声ライブラリを構築し、収集された話者履歴音声の韻律的特徴を取得し、認識されたテキスト内容及び取得された韻律的特徴に基づいて同期機械音声単位系列を生成し、生成された同期機械音声単位系列に基づいて同期機械音声ライブラリを構築する、ことを含む。ここで、非同期機械音声ライブラリ及び同期機械音声ライブラリを構築することは、S302の前に行われてもよい。
図8を参照する。図8は、本実施例における音声ライブラリの構築の論理ブロック図である。具体的には、端末は、話者履歴音声を事前に収集してもよい。収集された話者履歴音声は、音声採取装置によって採取された音声波形であってもよい。端末は、各履歴音声波形に対して、音声認識システムで音声単位分割を行って、相応する話者音声単位系列、及び各単位波形を得、音声認識システムで各話者音声単位系列に対応するテキスト内容を認識し、各話者音声単位系列における各音声単位の発音及び時間長分布を注記して、各音声単位の単位発音を得るようにしてもよい。端末は、得られた単位発音、各単位波形、及び各話者音声単位系列に基づいて、話者音声ライブラリを構築してもよい。
端末は、各音声単位の発音注記に基づいて、自動音声合成システムで、各音声単位とは発音が同じである非同期機械音声単位系列を合成し、非同期機械音声単位系列に対応する音声波形を得、音響モデルによって、非同期機械音声単位系列に対応する音響パラメータを出力するようにしてもよい。さらに、端末は、非同期機械音声単位系列に対応する音声波形及び音響パラメータを、非同期機械音声単位に応じて分割して、各非同期機械音声単位に対応する単位波形及び単位音響パラメータを得、単位発音、各単位波形、各単位音響パラメータ、及び各非同期機械音声単位系列に基づいて、非同期機械音声ライブラリを構築するようにしてもよい。
端末は、さらに、各音声単位の発音注記及び時間長分布注記に基づいて、自動音声合成システムで、各音声単位とは発音及び時間長分布の両方が同じである同期機械音声単位系列を合成し、同期機械音声単位系列に対応する音声波形を得、音響モデルによって、同期機械音声単位系列に対応する音響パラメータを出力するようにしてもよい。さらに、端末は、同期機械音声単位系列に対応する音声波形及び音響パラメータを、同期機械音声単位に応じて分割して、各同期機械音声単位に対応する単位波形及び単位音響パラメータを得、単位発音、各単位波形、各単位音響パラメータ、及び各同期機械音声単位系列に基づいて、同期機械音声ライブラリを構築するようにしてもよい。
さらに、端末は、話者音声ライブラリにおける話者音声単位系列、非同期機械音声ライブラリにおける非同期機械音声単位系列、及び同期機械音声ライブラリにおける同期機械音声単位系列を、対応するテキスト内容に応じて整列して、平行音声ライブラリを統合して構築してもよい。
例を挙げて説明する。話者履歴音声(広東なまり)は「ta−zai hui ji shang−na zhe yi duo−xian fa」であり、認識されたテキスト内容は「ta zai fei ji shang na zhe yi duo xian hua」であり、合成された非同期機械音声単位系列は「ta zai−fei ji shang−na zhe− yi duo xian hua」であり、発音がテキスト内容の発音と同じであり、韻律的特徴が機械の韻律的特徴に合致し、合成された同期機械音声単位系列は「ta−zai fei ji shang−na zhe yi duo−xian hua」であり、発音がテキスト内容の発音と同じであり、韻律的特徴が話者の韻律的特徴に合致する。ここで、「−」は、音声間の韻律的ポーズを表す。
本実施例では、話者音声ライブラリにおける話者音声単位系列とはテキスト内容が同じである非同期機械音声単位系列が含まれる非同期機械音声ライブラリを構築し、話者の音声スタイルと機械の音声スタイルとを対応付けることにより、ターゲットテキストの韻律的特徴の選択がより正確である。話者音声ライブラリにおける話者音声単位系列とはテキスト内容が同じであってかつ韻律的特徴が同じである同期機械音声単位系列が含まれる同期機械音声ライブラリを構築し、韻律的特徴が同じである機械音声と話者音声とを対応付けることにより、接続して話者ターゲット音声を得るための話者音声単位の選択がより正確である。
図9は、一実施例における音声変換方法の論理ブロック図である。図9に示すように、端末は、話者履歴音声を事前に収集し、話者履歴音声に対して音声認識を行って、話者音声ライブラリを得、さらに、各音声単位の発音及び時間長分布を注記し、TTSパラメータ合成システムで、発音注記に基づいて非同期機械音声単位系列を合成し、非同期機械音声ライブラリを構成し、TTSパラメータ合成システムで、発音注記及び時間長分布注記に基づいて同期機械音声単位系列を合成し、同期機械音声ライブラリを構成するようにしてもよい。
端末は、テーゲットテキストを取得し、ターゲットテキストに基づいて第1機械音声を合成し、非同期機械音声ライブラリから、韻律的特徴が第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、同期機械音声ライブラリにおいて、非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、同期機械音声単位系列の韻律的特徴に基づいて、ターゲットテキストに対応する第2機械音声を合成するようにしてもよい。端末は、さらに、第2機械音声の音響特徴に基づいて、同期機械音声ライブラリから、第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、話者音声ライブラリから、同期機械音声単位に対応する話者音声単位を選別し、選別された話者音声単位を接続して、話者ターゲット音声を得るようにしてもよい。ここで、同期機械音声単位系列と話者音声単位系列との時間長分布が同じであるので、同期機械音声単位系列の韻律的特徴を話者音声単位系列の韻律的特徴とすることができる。
理解すべきものとして、本願の各実施例における各ステップは、必ずしも、ステップ番号に示された順序で順次に実行されるとは限らない。本明細書で明確に説明されない限り、これらのステップの実行順序には、厳しい制限がない。これらのステップは、他の順序で実行されてもよい。また、各実施例における少なくとも一部のステップは、複数のサブステップ又は複数のステージを含んでもよい。これらのサブステップ又はステージは、必ずしも同一の時刻に実行完了するとは限らず、異なる時刻に実行されてもよい。これらのサブステップ又はステージの実行順序も、必ずしも順次に実行するとは限らず、他のステップ、或いは、他のステップのサブステップ又はステージの少なくとも一部と代わる代わる又は交代で実行されてもよい。
図10に示すように、一実施例では、コンピュータ機器1000が提供されている。該コンピュータ機器1000の内部構成は、図1に示すような構成を参照することができる。下記の各モジュールは、全部又は一部で、ソフトウェア、ハードウェア、又はそれらの組み合わせによって実現されてもよい。図10を参照すると、該コンピュータ機器1000は、取得モジュール1001と、第1合成モジュール1002と、第1選別モジュール1003と、検索モジュール1004と、第2合成モジュール1005と、第2選別モジュール1006と、接続モジュール1007と、を備える。
取得モジュール1001は、ターゲットテキストを取得する。
第1合成モジュール1002は、ターゲットテキストに対応する第1機械音声を合成する。
第1選別モジュール1003は、非同期機械音声ライブラリから、韻律的特徴が第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別する。
検索モジュール1004は、同期機械音声ライブラリにおいて、非同期機械音声単位系列に対応する同期機械音声単位系列を検索する。
第2合成モジュール1005は、同期機械音声単位系列の韻律的特徴に基づいて、ターゲットテキストに対応する第2機械音声を合成する。
第2選別モジュール1006は、同期機械音声ライブラリから、第2機械音声の音響特徴とマッチングする同期機械音声単位を選別する。
接続モジュール1007は、話者音声ライブラリにおける同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る。
ここで、同期機械音声ライブラリ、非同期機械音声ライブラリ、及び話者音声ライブラリのテキスト内容が同じであり、話者音声ライブラリと同期機械音声ライブラリとの韻律的特徴がマッチングする。
上記コンピュータ機器1000では、接続して話者ターゲット音声を得るための音声単位が話者音声ライブラリから選択され、接続して変換された音声には、話者の音色が保たれる。また、非同期機械音声ライブラリにおける機械の韻律的特徴に合致する非同期機械音声単位系列と、同期機械音声ライブラリにおける話者の韻律的特徴に合致する同期機械音声単位系列との対応関係が利用され、機械の韻律的特徴に合致する第1機械音声を合成した後、対応関係に基づいて、話者の音声スタイルに合致する韻律的特徴を決定する。また、該韻律的特徴に基づいて第2機械音声を合成し、第2機械音声の音響特徴を根拠として、同期機械音声ライブラリから、第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、話者音声ライブラリにおける、選別された同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る。これにより、話者の韻律的特徴が保たれる。このように、話者の音色が保たれる上に、話者の韻律的特徴が保たれ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致し、音声変換効果を向上させる。
一実施例では、第1選別モジュール1003は、さらに、第1機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得し、候補非同期機械音声単位系列と第1機械音声との韻律的特徴差異度を決定し、最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする。
本実施例では、算出された非同期機械音声ライブラリにおける非同期機械音声単位系列と第1機械音声との韻律的特徴差異度を制約条件として、第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選択することにより、韻律的特徴の選択の正確さを向上させ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。
一実施例では、第1選別モジュール1003は、さらに、第1機械音声に含まれる機械音声単位の数量を決定し、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が決定された数量に等しい候補非同期機械音声単位系列を取得する。
本実施例では、第1機械音声に含まれる機械音声単位の数量を根拠として、候補非同期機械音声単位系列を選択して韻律的特徴差異度を算出することにより、韻律的特徴差異度の算出結果の信頼性を向上させる。
一実施例では、第1選別モジュール1003は、さらに、非同期機械音声ライブラリに含まれる非同期機械音声単位系列を走査し、現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された数量より少ない場合、走査を続け、現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された数量に等しい場合、現在走査中の非同期機械音声単位系列を候補非同期機械音声単位系列とし、現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された数量より多い場合、現在走査中の非同期機械音声単位系列から、含まれる非同期機械音声単位の順序及び決定された数量に応じて、候補非同期機械音声単位系列を分割する。
本実施例では、含まれる非同期機械音声単位の数量が、第2機械音声に含まれる機械音声単位の数量より多い非同期機械音声単位系列から、含まれる非同期機械音声単位の順序及び決定された数量に応じて、非同期機械音声単位子系列を分割して、候補非同期機械音声単位系列とする。これは、自然言語の一貫性に適合して、韻律的特徴差異度の算出結果の信頼性を保証する上に、非同期機械音声ライブラリにおける言語資料の利用率を向上させる。
一実施例では、第1選別モジュール1003は、さらに、第1機械音声から機械音声単位を分割し、候補非同期機械音声単位系列に含まれる各非同期機械音声単位と、それぞれに対応する分割された機械音声単位との韻律的パラメータ差異値に基づいて、候補非同期機械音声単位系列と第1機械音声との韻律的特徴差異度を生成する。ここで、韻律的パラメータ差異値は、時間長差異値、基本周波数変化率差異値、音響パラメータの時間長分布差異、及び基本周波数変化率の確率分布差異の少なくとも1つを含む。
本実施例では、候補非同期機械音声単位系列に含まれる各非同期機械音声単位と、それぞれに対応する分割された機械音声単位との各韻律的パラメータ差異値によって、韻律的特徴差異度を算出する。韻律的特徴に影響する各パラメータを用いて算出することにより、韻律的特徴のマッチングの正確さを向上させる。
一実施例では、第2選別モジュール1006は、さらに、第2機械音声から機械音声単位を分割し、分割された各機械音声単位の発音特徴を決定し、同期機械音声ライブラリから、発音特徴が分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別し、各同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定し、最小の音響特徴差異度に対応する同期機械音声単位を選別して、第2機械音声の音響特徴とマッチングする同期機械音声単位とする。
本実施例では、算出された同期機械音声ライブラリにおける同期機械音声単位と第2機械音声に含まれる機械音声単位との音響特徴差異度を制約条件として、第2機械音声の音響特徴とマッチングする同期機械音声単位を選択することにより、音響特徴の選択の正確さを向上させ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。
一実施例では、第2選別モジュール1006は、さらに、各同期機械音声単位サブセット内の各同期機械音声単位の音響パラメータを決定し、分割された各機械音声単位の音響パラメータを決定し、各同期機械音声単位と、相応する分割された機械音声単位との相応する音響パラメータの差異値を算出し、差異値に基づいて、差異値と正相関する音響特徴差異度を生成する。
本実施例では、同期機械音声単位と、それぞれに対応する分割された機械音声単位との各音響パラメータの差異値によって、音響特徴差異度を算出する。音響特徴に影響する各パラメータを用いて算出することにより、音響特徴のマッチングの正確さを向上させる。
一実施例では、接続モジュール1007は、さらに、同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替え、並べ替えられた同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定し、話者音声ライブラリにおいて、同期機械音声単位に対応する話者音声単位を検索し、決定された隣接する同期機械音声単位の接続位置に応じて、相応する話者音声単位を接続して、話者ターゲット音声を得る。
本実施例では、決定された接続位置に応じて、隣接する話者音声単位を接続することにより、接続の移行がより自然であり、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。
一実施例では、接続モジュール1007は、さらに、選別された各同期機械音声単位から分割された音声フレームを取得し、隣接する同期機械音声単位の接続重畳音声フレーム数を決定して、隣接する同期機械音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度を最小化し、接続重畳音声フレーム数に基づいて、並べ替えられた同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定する。
本実施例では、隣接する話者音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度を制約条件として、隣接する話者音声単位の接続位置を選択することにより、接続位置の選択の正確さを向上させ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。
一実施例では、接続モジュール1007は、さらに、以下の数式によって、隣接する同期機械音声単位の接続重畳音声フレーム数を決定する。
Figure 2020505652
ここで、Tは、隣接する同期機械音声単位の接続重畳音声フレーム数を表し、tは、隣接する同期機械音声単位の接続重畳音声フレームのt番目のフレームを表し、CCは、隣接する同期機械音声単位の接続重畳音声フレームのt番目のフレームである音声フレームの差異度を表し、
Figure 2020505652
は、
Figure 2020505652
が最小となるTを求めることを表す。
本実施例では、隣接する同期機械音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度が最小となる接続重畳フレーム数を求めるための具体的な方法が提供されていることで、接続位置の選択がより正確である。
図11に示すように、一実施例では、コンピュータ機器1000は、音声ライブラリ構築モジュール1008をさらに含む。
音声ライブラリ構築モジュール1008は、話者履歴音声を収集し、話者履歴音声に対応するテキスト内容を認識し、認識されたテキスト内容に基づいて非同期機械音声単位系列を生成し、生成された非同期機械音声単位系列に基づいて非同期機械音声ライブラリを構築し、収集された話者履歴音声の韻律的特徴を取得し、認識されたテキスト内容及び取得された韻律的特徴に基づいて同期機械音声単位系列を生成し、生成された同期機械音声単位系列に基づいて同期機械音声ライブラリを構築する。
本実施例では、話者音声ライブラリにおける話者音声単位系列とはテキスト内容が同じである非同期機械音声単位系列が含まれる非同期機械音声ライブラリを構築し、話者の音声スタイルと機械の音声スタイルとを対応付けることにより、ターゲットテキストの韻律的特徴の選択がより正確である。話者音声ライブラリにおける話者音声単位系列とはテキスト内容が同じであってかつ韻律的特徴が同じである同期機械音声単位系列が含まれる同期機械音声ライブラリを構築し、韻律的特徴が同じである機械音声と話者音声とを対応付けることにより、接続して話者ターゲット音声を得るための話者音声単位の選択がより正確である。
当業者であれば理解できるように、上記の実施例に係る方法の手順の全部又は一部は、コンピュータプログラムから関連のハードウェアへ指示することにより実行されてもよい。前記プログラムは、不揮発性コンピュータ可読記憶媒体に記憶されてもよい。このプログラムが実行されると、上記のような各方法の実施例の手順が実行される。ここで、本願で提供された各実施例に使用されたメモリ、ストレージ、データベース、又は他の媒体へのいかなる引用でも、不揮発性及び/又は揮発性メモリを含んでもよい。不揮発性メモリは、読み出し専用メモリ(ROM)、プログラマブルROM(PROM)、電気的プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、又はフラッシュメモリを含んでもよい。揮発性メモリは、ランダムアクセスメモリ(RAM)、又は外部キャッシュを含んでもよい。限定ではなく説明として、RAMは、例えば、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、エンハンスドSDRAM(ESDRAM)、シンクリンク(Synchlink)DRAM(SLDRAM)、ダイレクト・ラムバス(Rambus)RAM(RDRAM)、ダイレクト・ラムバス・ダイナミックRAM(DRDRAM)、及びラムバス・ダイナミックRAM(RDRAM)などの多くの形態で利用可能である。
上述した実施例の各構成要件は、任意に組み合わせされてもよい。説明を簡潔にするために、上記実施例の各構成要件の可能な組み合わせがすべて説明されているわけではない。しかしながら、これらの構成要件の組み合わせは、矛盾がない限り、本明細書に記載された範囲にあると考えられるべきである。
上述した実施例は、本願の幾つかの実施形態を示したものにすぎず、説明が具体的で詳しいが、これによって発明の特許範囲への限定と理解されるわけにはいかない。指摘すべきものとして、当業者にとっては、本願の構想を逸脱しない前提で、若干の変形及び改良が可能である。これらの変形及び改良は、いずれも本願の保護範囲に属する。それゆえ、本願の特許保護範囲は、添付の特許請求の範囲に従うべきである。
210 遷移エントリ
220 テキスト入力ボックス
710、720 話者音声単位
711、721 接続重畳部分
712、722 接続重畳部分のt番目のフレーム
1000 コンピュータ機器
1001 取得モジュール
1002 第1合成モジュール
1003 第1選別モジュール
1004 検索モジュール
1005 第2合成モジュール
1006 第2選別モジュール
1007 接続モジュール
1008 音声ライブラリ構築モジュール

Claims (20)

  1. 音声変換方法であって、
    コンピュータ機器がターゲットテキストを取得し、
    前記コンピュータ機器が、前記ターゲットテキストに対応する第1機械音声を合成し、
    前記コンピュータ機器が、非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
    前記コンピュータ機器が、同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
    前記コンピュータ機器が、前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し、
    前記コンピュータ機器が、前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
    前記コンピュータ機器が、話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを含み、
    前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする方法。
  2. 前記コンピュータ機器が、非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別することは、
    前記コンピュータ機器が、前記第1機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得し、
    前記コンピュータ機器が、前記候補非同期機械音声単位系列と前記第1機械音声との韻律的特徴差異度を決定し、
    前記コンピュータ機器が、最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする、
    ことを含むことを特徴とする請求項1に記載の方法。
  3. 前記コンピュータ機器が、前記第1機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得することは、
    前記コンピュータ機器が、前記第1機械音声に含まれる機械音声単位の数量を決定し、
    前記コンピュータ機器が、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が決定された前記数量に等しい候補非同期機械音声単位系列を取得する、
    ことを含むことを特徴とする請求項2に記載の方法。
  4. 前記コンピュータ機器が、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が決定された前記数量に等しい候補非同期機械音声単位系列を取得することは、
    前記コンピュータ機器が、非同期機械音声ライブラリに含まれる非同期機械音声単位系列を走査し、
    現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された前記数量より少ない場合、前記コンピュータ機器が前記走査を続け、
    現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された前記数量に等しい場合、前記コンピュータ機器が現在走査中の非同期機械音声単位系列を候補非同期機械音声単位系列とし、
    現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された前記数量より多い場合、前記コンピュータ機器が、現在走査中の非同期機械音声単位系列から、含まれる非同期機械音声単位の順序及び決定された前記数量に応じて、候補非同期機械音声単位系列を分割する、
    ことを含むことを特徴とする請求項3に記載の方法。
  5. 前記コンピュータ機器が、前記候補非同期機械音声単位系列と前記第1機械音声との韻律的特徴差異度を決定することは、
    前記コンピュータ機器が前記第1機械音声から機械音声単位を分割し、
    前記コンピュータ機器が、前記候補非同期機械音声単位系列に含まれる各非同期機械音声単位と、それぞれに対応する分割された機械音声単位との韻律的パラメータ差異値に基づいて、前記候補非同期機械音声単位系列と前記第1機械音声との韻律的特徴差異度を生成する、ことを含み、
    前記韻律的パラメータ差異値は、時間長差異値、基本周波数変化率差異値、音響パラメータの時間長分布差異、及び基本周波数変化率の確率分布差異の少なくとも1つを含む、
    ことを特徴とする請求項2に記載の方法。
  6. 前記コンピュータ機器が、前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別することは、
    前記コンピュータ機器が前記第2機械音声から機械音声単位を分割し、
    前記コンピュータ機器が、分割された各機械音声単位の発音特徴を決定し、
    前記コンピュータ機器が、前記同期機械音声ライブラリから、発音特徴が前記分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別し、
    前記コンピュータ機器が、各前記同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定し、
    前記コンピュータ機器が、最小の音響特徴差異度に対応する同期機械音声単位を選別して、前記第2機械音声の音響特徴とマッチングする同期機械音声単位とする、
    ことを含むことを特徴とする請求項1に記載の方法。
  7. 前記コンピュータ機器が、各前記同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定することは、
    前記コンピュータ機器が、各前記同期機械音声単位サブセット内の各同期機械音声単位の音響パラメータを決定し、
    前記コンピュータ機器が、分割された各前記機械音声単位の音響パラメータを決定し、
    前記コンピュータ機器が、各同期機械音声単位及び相応する分割された機械音声単位に対して、相応する音響パラメータの差異値を算出し、
    前記コンピュータ機器が、前記差異値に基づいて、前記差異値と正相関する音響特徴差異度を生成する、
    ことを含むことを特徴とする請求項6に記載の方法。
  8. 前記コンピュータ機器が、話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得ることは、
    前記コンピュータ機器が、選別された前記同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替え、
    前記コンピュータ機器が、並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定し、
    前記コンピュータ機器が、話者音声ライブラリにおいて、前記同期機械音声単位に対応する話者音声単位を検索し、
    前記コンピュータ機器が、決定された隣接する同期機械音声単位の接続位置に応じて、相応する前記話者音声単位を接続して、話者ターゲット音声を得る、
    ことを含むことを特徴とする請求項1に記載の方法。
  9. 前記コンピュータ機器が、並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定することは、
    前記コンピュータ機器が、選別された各前記同期機械音声単位から分割された音声フレームを取得し、
    前記コンピュータ機器が、隣接する同期機械音声単位の接続重畳音声フレーム数を決定して、隣接する同期機械音声単位のそれぞれの、前記接続重畳音声フレーム数に対応する音声フレームの間の差異度を最小化し、
    前記コンピュータ機器が、前記接続重畳音声フレーム数に基づいて、並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定する、
    ことを含むことを特徴とする請求項8に記載の方法。
  10. 前記コンピュータ機器が、隣接する同期機械音声単位の接続重畳音声フレーム数を決定することは、
    Figure 2020505652
    を含み、
    ここで、Tは、隣接する同期機械音声単位の接続重畳音声フレーム数を表し、tは、隣接する同期機械音声単位の接続重畳音声フレームのt番目のフレームを表し、CCは、隣接する同期機械音声単位の接続重畳音声フレームのt番目のフレームである音声フレームの差異度を表し、
    Figure 2020505652
    は、
    Figure 2020505652
    が最小となるTを求めることを表す、
    ことを特徴とする請求項9に記載の方法。
  11. 前記コンピュータ機器が話者履歴音声を収集し、
    前記コンピュータ機器が、前記話者履歴音声に対応するテキスト内容を認識し、
    前記コンピュータ機器が、認識された前記テキスト内容に基づいて、非同期機械音声単位系列を生成し、
    前記コンピュータ機器が、生成された前記非同期機械音声単位系列に基づいて、非同期機械音声ライブラリを構築し、
    前記コンピュータ機器が、収集された前記話者履歴音声の韻律的特徴を取得し、
    前記コンピュータ機器が、認識された前記テキスト内容及び取得された前記韻律的特徴に基づいて、同期機械音声単位系列を生成し、
    前記コンピュータ機器が、生成された前記同期機械音声単位系列に基づいて、同期機械音声ライブラリを構築する、
    ことをさらに含むことを特徴とする請求項1に記載の方法。
  12. コンピュータ機器であって、メモリとプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに、
    ターゲットテキストを取得し、
    前記ターゲットテキストに対応する第1機械音声を合成し、
    非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
    同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
    前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し、
    前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
    話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを実行させ、
    前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングするコンピュータ機器。
  13. 前記非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別することは、
    前記第1機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得し、
    前記候補非同期機械音声単位系列と前記第1機械音声との韻律的特徴差異度を決定し、
    最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする、
    ことを含むことを特徴とする請求項12に記載のコンピュータ機器。
  14. 前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別することは、
    前記第2機械音声から機械音声単位を分割し、
    分割された各機械音声単位の発音特徴を決定し、
    前記同期機械音声ライブラリから、発音特徴が前記分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別し、
    各前記同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定し、
    最小の音響特徴差異度に対応する同期機械音声単位を選別して、前記第2機械音声の音響特徴とマッチングする同期機械音声単位とする、
    ことを含むことを特徴とする請求項12に記載のコンピュータ機器。
  15. 前記話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得ることは、
    選別された前記同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替え、
    並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定し、
    話者音声ライブラリにおいて、前記同期機械音声単位に対応する話者音声単位を検索し、
    決定された隣接する同期機械音声単位の接続位置に応じて、相応する前記話者音声単位を接続して、話者ターゲット音声を得る、
    ことを含むことを特徴とする請求項12に記載のコンピュータ機器。
  16. 前記コンピュータ可読命令は、前記プロセッサによって実行されると、さらに、前記プロセッサに、
    話者履歴音声を収集し、
    前記話者履歴音声に対応するテキスト内容を認識し、
    認識された前記テキスト内容に基づいて、非同期機械音声単位系列を生成し、
    生成された前記非同期機械音声単位系列に基づいて、非同期機械音声ライブラリを構築し、
    収集された前記話者履歴音声の韻律的特徴を取得し、
    認識された前記テキスト内容及び取得された前記韻律的特徴に基づいて、同期機械音声単位系列を生成し、
    生成された前記同期機械音声単位系列に基づいて、同期機械音声ライブラリを構築する、
    ことを実行させることを特徴とする請求項12に記載のコンピュータ機器。
  17. コンピュータ可読命令を記憶した1つ又は複数の不揮発性記憶媒体であって、前記コンピュータ可読命令は、1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサに、
    ターゲットテキストを取得し、
    前記ターゲットテキストに対応する第1機械音声を合成し、
    非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
    同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
    前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第2機械音声を合成し、
    前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
    話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを実行させ、
    前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする記憶媒体。
  18. 前記非同期機械音声ライブラリから、韻律的特徴が前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別することは、
    前記第1機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得し、
    前記候補非同期機械音声単位系列と前記第1機械音声との韻律的特徴差異度を決定し、
    最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、前記第1機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする、
    ことを含むことを特徴とする請求項17に記載の記憶媒体。
  19. 前記同期機械音声ライブラリから、前記第2機械音声の音響特徴とマッチングする同期機械音声単位を選別することは、
    前記第2機械音声から機械音声単位を分割し、
    分割された各機械音声単位の発音特徴を決定し、
    前記同期機械音声ライブラリから、発音特徴が前記分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別し、
    各前記同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定し、
    最小の音響特徴差異度に対応する同期機械音声単位を選別して、前記第2機械音声の音響特徴とマッチングする同期機械音声単位とする、
    ことを含むことを特徴とする請求項17に記載の記憶媒体。
  20. 前記話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得ることは、
    選別された前記同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替え、
    並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定し、
    話者音声ライブラリにおいて、前記同期機械音声単位に対応する話者音声単位を検索し、
    決定された隣接する同期機械音声単位の接続位置に応じて、相応する前記話者音声単位を接続して、話者ターゲット音声を得る、
    ことを含むことを特徴とする請求項17に記載の記憶媒体。
JP2019542154A 2017-02-21 2018-01-29 音声変換方法、コンピュータ機器、及びコンピュータプログラム Active JP6893246B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710093860.8A CN106920547B (zh) 2017-02-21 2017-02-21 语音转换方法和装置
CN201710093860.8 2017-02-21
PCT/CN2018/074435 WO2018153223A1 (zh) 2017-02-21 2018-01-29 语音转换方法、计算机设备和存储介质

Publications (3)

Publication Number Publication Date
JP2020505652A true JP2020505652A (ja) 2020-02-20
JP2020505652A5 JP2020505652A5 (ja) 2020-04-02
JP6893246B2 JP6893246B2 (ja) 2021-06-23

Family

ID=59454008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019542154A Active JP6893246B2 (ja) 2017-02-21 2018-01-29 音声変換方法、コンピュータ機器、及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US10878803B2 (ja)
EP (1) EP3588490B1 (ja)
JP (1) JP6893246B2 (ja)
KR (1) KR102239650B1 (ja)
CN (1) CN106920547B (ja)
WO (1) WO2018153223A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920547B (zh) 2017-02-21 2021-11-02 腾讯科技(上海)有限公司 语音转换方法和装置
US20190019497A1 (en) * 2017-07-12 2019-01-17 I AM PLUS Electronics Inc. Expressive control of text-to-speech content
CN107818795B (zh) * 2017-11-15 2020-11-17 苏州驰声信息科技有限公司 一种英语口语的测评方法及装置
CN107705783B (zh) * 2017-11-27 2022-04-26 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN111317316A (zh) * 2018-12-13 2020-06-23 南京硅基智能科技有限公司 模拟指定人声进行人机对话的照片框
CN109948124B (zh) * 2019-03-15 2022-12-23 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN110288682B (zh) 2019-06-28 2023-09-26 北京百度网讯科技有限公司 用于控制三维虚拟人像口型变化的方法和装置
CN110689885B (zh) * 2019-09-18 2023-05-23 平安科技(深圳)有限公司 机器合成语音识别方法、装置、存储介质及电子设备
KR102281600B1 (ko) * 2019-09-19 2021-07-29 엘지전자 주식회사 합성 음성에 대한 보정을 수행하는 인공 지능 장치 및 그 방법
CN110782875B (zh) * 2019-10-16 2021-12-10 腾讯科技(深圳)有限公司 一种基于人工智能的语音韵律处理方法及装置
WO2021134232A1 (zh) * 2019-12-30 2021-07-08 深圳市优必选科技股份有限公司 一种流式语音转换方法、装置、计算机设备及存储介质
CN113223513A (zh) * 2020-02-05 2021-08-06 阿里巴巴集团控股有限公司 语音转换方法、装置、设备和存储介质
CN111640456B (zh) * 2020-06-04 2023-08-22 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN111785247A (zh) * 2020-07-13 2020-10-16 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质
CN112365881A (zh) * 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质
CN112509552B (zh) * 2020-11-27 2023-09-26 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN113470664B (zh) * 2021-06-30 2024-01-30 平安科技(深圳)有限公司 语音转换方法、装置、设备及存储介质
US11605370B2 (en) 2021-08-12 2023-03-14 Honeywell International Inc. Systems and methods for providing audible flight information

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0380572B1 (en) * 1987-10-09 1994-07-27 Sound Entertainment, Inc. Generating speech from digitally stored coarticulated speech segments
EP0372734B1 (en) * 1988-11-23 1994-03-09 Digital Equipment Corporation Name pronunciation by synthesizer
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5987412A (en) * 1993-08-04 1999-11-16 British Telecommunications Public Limited Company Synthesising speech by converting phonemes to digital waveforms
JPH09305197A (ja) 1996-05-16 1997-11-28 N T T Data Tsushin Kk 音声変換方法及び装置
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations
JP3576066B2 (ja) 1999-03-25 2004-10-13 松下電器産業株式会社 音声合成システム、および音声合成方法
CN1156819C (zh) 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
EP1640968A1 (en) * 2004-09-27 2006-03-29 Multitel ASBL Method and device for speech synthesis
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
CN101064103B (zh) * 2006-04-24 2011-05-04 中国科学院自动化研究所 基于音节韵律约束关系的汉语语音合成方法及系统
CN101000765B (zh) * 2007-01-09 2011-03-30 黑龙江大学 基于韵律特征的语音合成方法
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
KR101203188B1 (ko) * 2011-04-14 2012-11-22 한국과학기술원 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체
JP5665780B2 (ja) 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
CN106297765B (zh) * 2015-06-04 2019-10-18 科大讯飞股份有限公司 语音合成方法及系统
US20160365087A1 (en) * 2015-06-12 2016-12-15 Geulah Holdings Llc High end speech synthesis
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
CN105206257B (zh) * 2015-10-14 2019-01-18 科大讯飞股份有限公司 一种声音转换方法及装置
CN105551481B (zh) * 2015-12-21 2019-05-31 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN105654940B (zh) * 2016-01-26 2019-12-24 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN106356052B (zh) * 2016-10-17 2019-03-15 腾讯科技(深圳)有限公司 语音合成方法及装置
CN106920547B (zh) * 2017-02-21 2021-11-02 腾讯科技(上海)有限公司 语音转换方法和装置

Also Published As

Publication number Publication date
US20190221201A1 (en) 2019-07-18
KR102239650B1 (ko) 2021-04-12
CN106920547A (zh) 2017-07-04
EP3588490B1 (en) 2023-07-19
EP3588490A4 (en) 2020-04-08
EP3588490A1 (en) 2020-01-01
JP6893246B2 (ja) 2021-06-23
KR20190065408A (ko) 2019-06-11
CN106920547B (zh) 2021-11-02
US10878803B2 (en) 2020-12-29
WO2018153223A1 (zh) 2018-08-30

Similar Documents

Publication Publication Date Title
JP6893246B2 (ja) 音声変換方法、コンピュータ機器、及びコンピュータプログラム
EP3614376B1 (en) Speech synthesis method, server and storage medium
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
JP4246790B2 (ja) 音声合成装置
JP2020505652A5 (ja)
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JPWO2005109399A1 (ja) 音声合成装置および方法
KR20160058470A (ko) 음성 합성 장치 및 그 제어 방법
JP2009186820A (ja) 音声処理システム、音声処理プログラム及び音声処理方法
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
US20140236597A1 (en) System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
WO2008147649A1 (en) Method for synthesizing speech
JP4580317B2 (ja) 音声合成装置および音声合成プログラム
JP2013117638A (ja) 音声合成装置および音声合成プログラム
US20230386475A1 (en) Systems and methods of text to audio conversion
JP5181578B2 (ja) 音声合成装置、音声合成方法及びコンピュータプログラム
US20140343934A1 (en) Method, Apparatus, and Speech Synthesis System for Classifying Unvoiced and Voiced Sound
CN115472185A (zh) 一种语音生成方法、装置、设备及存储介质
JP2016151709A (ja) 音声合成装置及び音声合成プログラム
JP2001249678A (ja) 音声出力装置,音声出力方法および音声出力のためのプログラム記録媒体
JP2003108170A (ja) 音声合成学習方法および音声合成学習装置
JP2003108180A (ja) 音声合成方法および音声合成装置
CN116486765A (zh) 歌声生成方法、计算机设备和存储介质
JPH07181995A (ja) 音声合成装置及び音声合成方法
CN112927673A (zh) 一种新型维吾尔语音合成方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190802

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210531

R150 Certificate of patent or registration of utility model

Ref document number: 6893246

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250