JP2021196598A - モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents

モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP2021196598A
JP2021196598A JP2020201661A JP2020201661A JP2021196598A JP 2021196598 A JP2021196598 A JP 2021196598A JP 2020201661 A JP2020201661 A JP 2020201661A JP 2020201661 A JP2020201661 A JP 2020201661A JP 2021196598 A JP2021196598 A JP 2021196598A
Authority
JP
Japan
Prior art keywords
feature
speech synthesis
target
pose
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020201661A
Other languages
English (en)
Other versions
JP7259197B2 (ja
Inventor
ヂォンクン ガオ,
Zhengkun Gao
ジュントン ヂャン,
Junteng Zhang
ウェンフー ワン,
Wenfu Wang
タオ スン,
Tao Sun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021196598A publication Critical patent/JP2021196598A/ja
Application granted granted Critical
Publication of JP7259197B2 publication Critical patent/JP7259197B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

【課題】モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラムの提供。【解決手段】本出願では、自然言語処理とディープラーニング技術分野に関するモデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラムが開示された。モデルトレーニング段階では、サンプルテキストデータの音素特徴および韻律語境界特徴を確定するステップと、前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するステップと、を実行する。本出願の技術により、合成された音声の流暢さを向上できる。【選択図】図1a

Description

本出願は音声技術の分野に関し、特に自然言語処理とディープラーニング技術分野に関し、具体的にはモデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。
人工知能技術の発展に伴い、知能音声インタラクションは、ニュースキャスターが放送するニュースは人工知能(AI,Artificial Intelligence)を介して合成され、スマートスピーカーのサウンドボックスを介して音声メッセージを放送するなど、仕事と生活の様々な分野で幅広く応用されている。
音声合成は文字特徴を音声に変換することにより、知能音声インタラクションの基礎となる。合成された音声の流暢さは知能音声インタラクション効果の鍵である。
本出願は、モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。
本出願の第1態様により、
サンプルテキストデータの音素特徴および韻律語境界特徴を確定するステップと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、
前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するステップと、を含む音声合成モデルのトレーニング方法を提供する。
本出願の第2態様により、
ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するステップと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するステップと、
ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成するステップと、を含む音声合成方法を提供する。
本出願の第3態様により、
サンプルテキストデータの音素特徴および韻律語境界特徴を確定するためのサンプル音素境界モジュールと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプル特徴組合せモジュールと、
前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するためのモデルトレーニングモジュールと、を含む音声合成モデルのトレーニング装置を提供する。
本出願の第4態様により、
ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するためのターゲット音素境界モジュールと、
前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲット特徴組合せモジュールと、
ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成する音声合成モジュールと、を含む音声合成装置を提供する。
本出願の第5態様により、
少なくとも1つのプロセッサおよび前記少なくとも1つのプロセッサに通信接続されたメモリを含む電子機器であって、
前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が格納され、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが本出願の実施形態のいずれかに記載の音声合成モデルのトレーニング方法又は音声合成方法を実行可能にする、電子機器を提供する。
本出願の第6態様により、
コンピュータ命令が格納されている非一時的コンピュータ可読媒体であって、
前記コンピュータ命令が本出願の実施形態のいずれかに記載の音声合成モデルのトレーニング方法又は音声合成方法を前記コンピュータに実行させるためのものである非一時的コンピュータ可読記憶媒体を提供する。
本出願の第7態様により、
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、本出願の実施形態のいずれかに記載の音声合成モデルのトレーニング方法又は音声合成方法を実現するコンピュータプログラムを提供する。
本出願の技術により、合成された音声の流暢さが向上した。
この部分の内容は、本出願の実施形態の鍵や重要な特徴を示すためのものでもなく、本出願の範囲を限定するためのものでもないことを理解されたい。以下の明細書によって、本出願の他の特徴がより理解しやすくなるであろう。
図面は本出願をよりよく理解するために使用されるものであり、本出願を限定するものではない。
本出願の実施形態に係る音声合成モデルのトレーニング方法の概略フローチャートである。 本出願の実施形態に係る韻律語境界の概略図である。 本出願の実施形態に係る音声合成モデルのトレーニング方法の概略フローチャートである。 本出願の実施形態に係る音声合成方法の概略フローチャートである。 本出願の実施形態に係る音声合成方法の概略フローチャートである。 本出願の実施形態に係る音声合成処理方法の概略フローチャートである。 本出願の実施形態に係る音声合成モデル処理装置の構成概略図である。 本出願の実施形態に係る音声合成装置の構成概略図である。 本出願の実施形態に係る音声合成モデルのトレーニング方法または音声合成方法を実施するための電子機器のブロック図である。
本出願の例示的な実施形態は、理解を容易にするために本出願の実施形態の様々な詳細を含む図面に関連して以下に説明され、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、本出願に記載された実施形態について、本出願の範囲および趣旨から逸脱することなく、様々な変更と修正を行うことができることを認識するであろう。同様に、以下の説明では、明確かつ簡略化のために、公知の機能と構造の説明を省略する。
図1aは本出願の実施形態に係る音声合成モデルのトレーニング方法の概略フローチャートである。本実施形態は、音声合成モデルをトレーニングする場合に適用可能である。本実施形態に開示される音声合成モデルのトレーニング方法は、電子機器によって実行することができ、具体的には音声合成モデルのトレーニング装置によって実行することができる。この装置は、電子機器に内蔵され、ソフトウェアおよび/またはハードウェアによって実現することができる。図1aを参照すると、本実施形態に係る音声合成モデルのトレーニング方法は、次のステップ(S110〜130)を含む。
S110:サンプルテキストデータの音素特徴および韻律語境界特徴を確定する。
ここで、音素は音声の自然属性によって分割された最小の音声単位であり、音節における発音動作に応じて分割され、1つの動作が1つの音素を構成する。音素は母音と子音の2種類に大別される。音素特徴は、サンプルテキストデータの音素系列とすることができる。具体的には、サンプルテキストデータのピンインを確定し、音素粒度に応じてピンインを分割してサンプルテキストデータの音素特徴を取得する。「3個好人(3人の善人)」を例にとると、音素特徴はs、an、g、e、h、ao、r、enとすることができる。
ここで、テキストデータにおけるポーズが出現する音節位置は韻律語境界であり、韻律語、韻律句、語調句のうちの少なくとも1種を含むことができる。具体的には、予めトレーニングして得られた韻律境界検出モデルに基づいてサンプルテキストデータに対して韻律語境界予測を行い、サンプルテキストデータの韻律語境界特徴を取得することができる。図1bを参照すると、依然として「3個好人」を例にとると、韻律境界特徴は韻律語「3個」と韻律語「好人」とすることができ、韻律句は「3個好人」である。すなわち「個」の後のポーズ位置を韻律語、「人」の後のポーズ位置を韻律句とすることができる。
S120:前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して、前記サンプルテキストデータの組合せ特徴を取得する。
ここで、ポーズ記号は音節間にポーズを持つことを示すために用いられる。韻律語境界特徴は異なり、ポーズ記号は同じである。韻律語境界特徴に関連付けられたポーズ記号を特殊な音素として音素特徴に挿入することにより、サンプルテキストデータの組合せ特徴を取得する。
韻律語と韻律句はそれぞれポーズ記号bkに関連付けられたことを例にとると、音素特徴s、an、g、e、h、ao、r、enにポーズ記号bkを挿入し、組合せ特徴s、an、g、e、bk、h、ao、r、en、bkを取得する。
S130:前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得する。
ここで、初期音声合成モデルは、音響特徴を出力するためのニューラルネットワークに基づく音声合成モデルであることが可能である。本出願の実施形態は、ニューラルネットワーク構造を特に限定するものでなく、例えば、音響スペクトル予測ネットワークである。具体的には、組合せ特徴のベクトル表現を確定し、組合せ特徴のベクトル表現を初期音声合成モデルの入力として、初期音声合成モデルをトレーニングする。
音素特徴に韻律語境界を表すためのポーズ記号を挿入し、ポーズ記号を特殊な音素特徴とすることにより、音声合成モデルのトレーニング過程において音素特徴だけでなく韻律語境界特徴も学習し、すなわち音声合成モデルに韻律情報が融合されることにより、後に合成される音声がより流暢になる。また、組合せ特徴は音素粒度の特徴であるため、モデルトレーニング過程において文字、語粒度の音声合成と比較してより細かい粒度の処理により、合成される音声の自然さが向上している。さらに、音素は中国語、英語など複数の言語タイプが持つ共通の特徴であるため、音素粒度に基づく音声合成モデルは、中国語、英語など単一の言語の場面で良好な性能を持つだけでなく、特に複数の言語タイプ混合の場面、例えば中国語と英語の混合使用場面で良好な性能を持つ。
オプションの実施形態では、S120は、前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するステップと、前記韻律語位置に前記ポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、を含む。
韻律語境界予測の過程において韻律語の精度が韻律句と語調句の精度よりも高く、韻律句と語調句のポーズ位置が同様に韻律語のポーズ位置であるため、組合せ特徴に韻律句と語調句のポーズ記号を導入せずに韻律語のポーズ記号を導入し、すなわち韻律句と語調句を韻律語と見なすことにより、韻律句と語調句の予測精度が低いことによるモデルの性能低下を回避することができる。
あるいは、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得した後、前記初期音声合成モデルの出力とサンプルオーディオデータを用いて、初期ボコーダをトレーニングしてターゲットボコーダを取得するステップをさらに含む。本出願の実施形態は、ボコーダ構造を具体的に限定するものでなく、例えば、RNN(Cyclic Neural Network,循環型ニューラルネットワーク)ボコーダであることが可能である。音声合成モデルとボコーダを共にトレーニングすることにより、音声合成モデルとボコーダのロバスト性を向上させることができる。
本出願の実施形態の技術案は、韻律語境界特徴を表すポーズ記号を音素特徴に挿入することにより組合せ特徴を取得し、サンプルテキストデータの組合せ特徴に基づいて初期音声合成モデルをトレーニングすることにより、ターゲット音声合成モデルに韻律情報があるようにして、後に合成される音声をより流暢にする。また、音素粒度に基づく音声合成モデルは、汎用性が高く、特に多言語混合の場面で良好な性能を持つ。
図2は本出願の実施形態に係る音声合成モデルのトレーニング方法の概略フローチャートである。本実施形態は、上述した実施形態に基づいて提案されたオプションである。図2を参照すると、本実施形態で提供される音声合成モデルのトレーニング方法は、次のステップ(S210〜230)を含む。
S210:サンプルテキストデータの音素特徴および韻律語境界特徴を確定する。
S220:前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得する。
S230:前記組合せ特徴およびサンプルオーディオデータの音響特徴に基づいて、ポーズ隠れ特徴分布を確定する。
ここで、サンプルオーディオデータはサンプルテキストデータに関連付けられており、すなわち、サンプルオーディオデータは流暢さが要求を満たしたサンプルテキストデータのオーディオデータである。音響特徴は、メルスペクトル特徴、エネルギー特徴などとすることができる。隠れ特徴とは直接獲得できない潜在特徴であり、直接獲得できる顕在特徴に対する相対的概念である。ポーズ隠れ特徴分布はガウス分布であることが可能である。例えば、ポーズは韻律語境界の顕在特徴であり、韻律語境界におけるポーズは直接得られるが、韻律語境界と音響特徴との関係は直接獲得できず、韻律語境界の潜在特徴である。
具体的には、組合せ特徴およびサンプルオーディオデータの音響特徴を処理することにより、オーディオおよびポーズ記号の音響特徴を取得し、ポーズ記号の隠れ特徴がガウス分布に従うと仮定し、ポーズ記号の音響特徴に基づいてポーズ隠れ特徴分布をフィッティングする。
オプションの実施形態では、S230は、前記組合せ特徴と前記サンプルオーディオデータの音響特徴とを整列させて、前記組合せ特徴におけるポーズ記号の音響特徴を取得するステップと、前記ポーズ記号の音響特徴を変分オートエンコーダ(Variational Auto−Encoder、VAE)によって処理して、前記ポーズ隠れ特徴分布を取得するステップと、を含む。
ここで、変分オートエンコーダはポーズ記号の音響特徴を事後分布にマッピングする。事後分布はガウス分布とすることができる。具体的には、整列ツールにより、組合せ特徴における音素とポーズ記号に関連付けられたオーディオフレームを確定し、音素とポーズ記号の音響特徴を取得し、ポーズ記号の音響特徴を変分オートエンコーダによって処理することにより、ポーズ隠れ特徴分布を取得する。ここで、整列ツールは、エンコード層と注意層とを含むことができ、組合せ特徴における音素とポーズ記号をエンコード層の入力とし、エンコード層が出力する意味ベクトルとサンプルオーディオデータの音響特徴を注意層の入力とし、音素とポーズ記号の音響特徴を取得する。サンプルにおける各ポーズ記号の音響特徴をフィッティングすることにより、音響特徴とポーズ記号との間の関係、すなわちポーズ隠れ特徴分布を取得する。
なお、整列ツールにより、ポーズ記号に関連付けられたオーディオフレームを取得することができる。すなわちポーズ記号に関連付けられたポーズ時間を取得することができる。ポーズ隠れ特徴分布に基づいて、ポーズ記号の隠れ特徴を取得することができるほか、ポーズ時間と隠れ特徴の対応関係を取得することもできる。これにより、後のモデル使用段階でポーズ時間と隠れ特徴の対応関係に基づいて必要に応じて異なるポーズ時間の音声を合成しやすくなる。
S240:前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて、初期音声合成モデルに対して教師なしトレーニングを行って、ターゲット音声合成モデルを取得する。
ポーズ隠れ特徴分布を踏まえて初期音声合成モデルをトレーニングすることにより、モデルがポーズ隠れ特徴を学習できるようにし、モデルの性能を向上させ、合成される音声の品質を向上させることができる。また、変分オートエンコーダによりポーズ隠れ特徴分布を取得することにより、音声合成モデルが異なるポーズ時間のポーズ記号の隠れ特徴を学習できるようにし、それによって音声合成過程において必要に応じて異なるポーズ時間のオーディオを合成することをサポートする。
オプションの実施形態では、S240は、前記組合せ特徴に基づいて、組合せ特徴ベクトル表現を確定するステップと、前記ポーズ隠れ特徴分布をサンプリングして、ポーズ隠れ特徴を取得するステップと、前記組合せ特徴ベクトル表現を、前記初期音声合成モデルにおけるデコーダの入力として、前記デコーダの出力と前記ポーズ隠れ特徴とを接続してコンテキストベクトルを取得するステップと、前記初期音声合成モデルにおけるエンコーダにより前記コンテキストベクトルを符号化して、前記初期音声合成モデルが出力する音響特徴を取得するステップと、を含む。
具体的には、候補音素特徴とベクトル表現の第1の対応関係と、ポーズ記号とベクトル表現の第2の対応関係とを予め構築しておくことができる。例えば、音素特徴とポーズ記号のベクトル表現は固定長ベクトル表現であり得、異なる候補音素特徴のベクトル表現は異なり、異なるポーズ記号のベクトル表現は異なる。組合せ特徴における音素特徴、ポーズ記号を第1の対応関係と第2の対応関係にマッチングすることにより、組合せ特徴ベクトル表現を取得する。
前記組合せ特徴ベクトル表現を初期音声合成モデルにおけるデコーダの入力とし、前記デコーダの出力と前記ポーズ隠れ特徴とを接続してデコーダの最終出力を取得し、デコーダの最終出力に基づいて符号化して、組合せ特徴における音素とポーズ記号の音響特徴を取得する。ポーズ隠れ特徴とデコーダ出力とを接続することにより、音声合成モデルがトレーニング過程中においてポーズ隠れ特徴を学習できるようにし、さらに教師なしトレーニングを通じて人工タグ付けに依存せずにすむようにし、モデルトレーニングの効率と精度をよりいっそう向上させる。
さらに、前記初期音声合成モデルがトレーニング過程に出力した音素とポーズ記号の音響特徴およびサンプルオーディオデータに基づいて、初期ボコーダをトレーニングして、ターゲットボコーダを取得する。
本出願の実施形態の技術案は、ポーズ隠れ特徴を導入して初期音声合成モデルをトレーニングすることにより、モデルがポーズ隠れ特徴を学習できるようにし、モデルの性能を向上させ、合成された音声の品質を向上させることができる。また、変分オートエンコーダによりポーズ隠れ特徴分布を取得することにより、音声合成モデルが異なるポーズ時間のポーズ記号の隠れ特徴を学習できるようにし、音声合成過程において必要に応じて異なるポーズ時間のオーディオを合成することをサポートすることができる。
図3は本出願の実施形態に係る音声合成方法の概略フローチャートである。本実施形態は、音声合成の場合に適用可能である。本実施形態に開示される音声合成方法は、電子機器により実行することが可能である。具体的には音声合成装置によって実行することが可能である。音声合成装置は電子機器に内蔵され、ソフトウェアおよび/またはハードウェアによって実現することが可能である。図3を参照すると、本実施形態で提供される音声合成方法は、次のステップ(S310〜330)を含む。
S310:ターゲットテキストデータの音素特徴および韻律語境界特徴を確定する。
ここで、ターゲットテキストデータは、合成すべき音声のテキストデータである。具体的には、ターゲットテキストデータのピンインを確定し、ピンインを音素粒度に応じて分割してターゲットテキストデータの音素特徴を取得する。テキストデータにおけるポーズが出現する音節位置は韻律語境界であり、韻律語境界特徴は、韻律語、韻律句、語調句のうちの少なくとも1つを含むことができる。具体的には、予めトレーニングして得られた韻律境界検出モデルに基づいてターゲットテキストデータに対して韻律語境界予測を行い、ターゲットテキストデータの韻律語境界特徴を取得することができる。
S320:前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得する。
ここで、ポーズ記号は音節間にポーズを持つことを示すために用いられる。韻律語境界特徴が異なると、ポーズ記号は異なっていてもよい。韻律語境界特徴に関連付けられたポーズ記号を特殊な音素として音素特徴に挿入することにより、ターゲットテキストデータの組合せ特徴を取得する。
オプションの実施形態では、S320は、前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するステップと、前記韻律語位置に前記ポーズ記号を挿入して、前記ターゲットテキストデータの組合せ特徴を取得するステップと、を含む。
組合せ特徴に韻律句と語調句のポーズ記号を導入せずに韻律語のポーズ記号を導入することにより、韻律句と語調句の予測の誤りによるモデルトレーニング過程における韻律境界特徴学習の誤りを回避し、音声合成モデルの精度を向上させることができる。
S330:ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成する。
具体的には、ターゲットテキストデータの組合せ特徴をターゲット音声合成モデルの入力とし、ターゲット音声合成モデルが出力する組合せ特徴における音素とポーズ記号の音響特徴を取得する。ターゲットテキストデータの音響特徴をボコーダの入力とすることにより、ボコーダにより合成したターゲット音声を取得する。
本出願の実施形態の技術案は、韻律語境界特徴を表すポーズ記号を音素特徴に挿入することにより組合せ特徴を取得し、ターゲット音声合成モデルに基づいてターゲットテキストデータの組合せ特徴を処理してターゲットテキストデータの音響特徴を取得し、ターゲットテキストデータの音響特徴に基づいてターゲット音声を合成して、ターゲット音声の流暢さを向上させる。また、音素粒度に基づく音声合成モデルは、汎用性が高く、特に多言語混合の場面で良好な性能を持つ。
図4は本出願の実施形態に係る音声合成方法の概略フローチャートである。本実施形態は、上述した実施形態に基づいて提案されたオプションである。図4を参照すると、本実施形態で提供される音声合成方法は、次のステップ(S410〜440)を含む。
S410:ターゲットテキストデータの音素特徴および韻律語境界特徴を確定する。
S420:前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得する。
S430:ユーザが所望するターゲットポーズ時間と、ポーズ時間とポーズ隠れ特徴の対応関係とに基づいて、ターゲットポーズ隠れ特徴を確定する。
ここで、ポーズ時間とポーズ隠れ特徴の対応関係は、前記ターゲット音声合成モデルのトレーニング段階において得られ、少なくとも2つの既知のポーズ時間と既知のポーズ隠れ特徴の対応関係を含むことができる。ターゲットポーズ時間とは、ターゲット音声のポーズ時間に対するユーザの要求であり、ユーザが直接入力した具体的な時間の長さであってもよく、ユーザが選択したポーズレベルに応じて確定されてもよい。
具体的には、ターゲットポーズ時間がいずれかの既知のポーズ時間であれば、直接その既知のポーズ時間に関連付けられた既知のポーズ隠れ特徴をターゲットポーズ隠れ特徴とすることができる。既知のポーズ時間にターゲットポーズ時間が含まれていなければ、ターゲットポーズ時間と既知のポーズ時間との間の数値関係に基づいて、既知のポーズ隠れ特徴を補間し、ターゲットポーズ隠れ特徴を取得することができる。ターゲット音声合成モデルは、トレーニング段階でポーズ隠れ特徴を学習しており、かつポーズ時間とポーズ隠れ特徴の対応関係を構築しているため、ユーザのニーズに応じて異なるポーズ時間の音声を合成することをサポートすることができる。
S440:前記ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴および前記ターゲットポーズ隠れ特徴に基づいて、音響特徴を取得する。
具体的には、ターゲットテキストデータの組合せ特徴ベクトル表現を確定し、この組合せ特徴ベクトル表現をターゲット音声合成モデルにおけるデコーダの入力とし、デコーダの出力とターゲットポーズ隠れ特徴とを接続してデコーダの最終出力とし、デコーダの最終出力をターゲット音声合成モデルにおける注意層の入力とし、かつターゲット音声合成モデルにおけるエンコーダにより処理することにより、ターゲットテキストデータの音響特徴を取得する。ターゲットテキストデータの音響特徴をボコーダの入力とし、ターゲット音声を取得する。
本出願の実施形態の技術案は、ユーザが所望するターゲットポーズ時間および音声合成モデルがトレーニング段階で構築したポーズ時間とポーズ隠れ特徴の対応関係に基づいてターゲットポーズ隠れ特徴を確定し、かつターゲットテキストデータの組合せ特徴とターゲットポーズ隠れ特徴とに基づいてターゲット音声を合成することにより、ユーザのニーズに応じて異なるポーズ時間の音声を合成することを可能にした。
図5は本出願の実施形態に係る音声合成処理方法の概略フローチャートである。図5を参照すると、本出願の実施形態で提供される音声合成モデルの処理方法は、音声合成モデルのトレーニング段階および音声合成モデルの使用段階である音声合成方法を含む。
音声合成モデルのトレーニング段階ではサンプルテキストデータを特徴サンプリングし、使用段階ではターゲットテキストデータを特徴サンプリングする。具体的には、フロントエンド解析によりテキストデータの音素特徴と韻律語境界特徴をそれぞれ確定する。韻律語境界特徴から韻律語位置を確定し、かつ音素特徴の韻律語位置にポーズ記号を挿入して、組合せ特徴を取得する。テキストデータを「3個好人」、韻律語ポーズ記号を「bk」とすると、組合せ特徴はs、an、g、e、bk、h、ao、r、en、bkである。
モデルトレーニング段階では、サンプルテキストデータの組合せ特徴表現を第1デコーダencoder1の入力とし、encoder1の出力とサンプルテキストデータに関連付けられたサンプルオーディオデータのスペクトル特徴を注意層の入力として、組合せ特徴における各音素とポーズ記号のスペクトル特徴を取得する。すべてのサンプルテキストデータにおけるポーズ記号のスペクトル特徴をそれぞれ変分オートエンコーダencoder2の入力として、ポーズ隠れ特徴分布を取得する。具体的には、ポーズ記号の隠れ特徴分布がガウス分布に適合すると仮定し、ポーズ記号のスペクトルに基づいてポーズ隠れ特徴分布をフィッティングする。ポーズ隠れ特徴分布をサンプリングすることにより、隠れ特徴を取得する。サンプルテキストデータの組合せ特徴表現を音声合成モデルにおけるデコーダencoder3の入力とし、encoder3の出力とサンプリングされた隠れ特徴とを接続してencoder3の最終出力とし、注意層とエンコーダにより音響特徴を取得し、音声合成モデルから出力した音響特徴をサンプリングしてボコーダをトレーニングする。
また、サンプルテキストデータとサンプルオーディオデータの音声特徴とを整列させることにより、ポーズ記号に関連付けられたオーディオフレーム、すなわち、ポーズ記号に関連付けられたポーズ時間を取得することができる。ポーズ隠れ特徴分布に基づいて、ポーズ記号の隠れ特徴を取得することができるほか、ポーズ時間と隠れ特徴の対応関係を取得することもできる。これにより、後のモデルの使用段階でポーズ時間と隠れ特徴の対応関係に基づいて必要に応じて異なるポーズ時間の音声を合成しやすくなる。
音声合成段階では、ユーザが所望するターゲットポーズ時間を取得し、ポーズ時間と隠れ特徴の対応関係に基づいて、ターゲットポーズ時間に関連付けられたターゲットポーズ隠れ特徴を確定する。合成すべきターゲットテキストデータの組合せ特徴を音声合成モデルにおけるデコーダencoder3の入力とし、encoder3の出力とターゲット隠れ特徴とを接続してencoder3の最終出力とし、注意層とエンコーダにより音響特徴を取得し、音声合成モデルから出力した音響特徴をボコーダに入力してターゲット音声を取得する。
上記の技術案は、韻律語境界特徴を表すポーズ記号を音素特徴に挿入することにより組合せ特徴を取得し、ターゲット音声の流暢さを向上させる。また、音素粒度に基づく音声合成モデルは、汎用性が高く、特に多言語混合の場面で良好な性能を持つ。ポーズ隠れ特徴を導入して初期音声合成モデルをトレーニングすることにより、モデルがポーズ隠れ特徴を学習できるようにし、モデルの性能を向上させ、合成された音声の品質を向上させることができる。また、音声合成過程において必要に応じて異なるポーズ時間のオーディオを合成することをサポートすることができる。
図6は本出願の実施形態に係る音声合成モデルのトレーニング装置の構成概略図である。図6を参照すると、本出願の実施形態は、サンプルテキストデータの音素特徴および韻律語境界特徴を確定するためのサンプル音素境界モジュール501と、前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプル特徴組合せモジュール502と、前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するためのモデルトレーニングモジュール503と、を含む音声合成モデルのトレーニング装置500を開示する。
あるいは、前記サンプル特徴組合せモジュール502は、前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するためのサンプル韻律語位置ユニットと、前記韻律語位置に前記ポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプルポーズ記号挿入ユニットと、を含む。
あるいは、前記モデルトレーニングモジュール503は、前記組合せ特徴と、前記サンプルテキストデータに関連付けられたサンプルオーディオデータの音響特徴とに基づいて、ポーズ隠れ特徴分布を確定するための隠れ特徴分布ユニットと、前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて初期音声合成モデルに対して教師なしトレーニングを行うためのモデルトレーニングユニットと、を含む。
あるいは、前記隠れ特徴分布ユニットは、前記組合せ特徴と前記サンプルオーディオデータの音響特徴とを整列させて、前記組合せ特徴におけるポーズ記号の音響特徴を取得するための音響特徴サブユニットと、前記ポーズ記号の音響特徴を変分オートエンコーダによって処理して、前記ポーズ隠れ特徴分布を取得するための隠れ特徴分布サブユニットと、を含む。
あるいは、前記モデルトレーニングユニットは、前記組合せ特徴に基づいて組合せ特徴ベクトル表現を確定するための特徴表現サブユニットと、前記ポーズ隠れ特徴分布をサンプリングしてポーズ隠れ特徴を取得するための隠れ特徴サンプリングサブユニットと、前記組合せ特徴ベクトル表現を前記初期音声合成モデルにおけるデコーダの入力として、前記デコーダの出力と前記ポーズ隠れ特徴とを接続してコンテキストベクトルを取得するための復号化サブユニットと、前記初期音声合成モデルにおけるエンコーダにより前記コンテキストベクトルを符号化して、前記初期音声合成モデルが出力する音響特徴を取得するための符号化サブユニットと、を含む。
あるいは、前記装置は、具体的に前記初期音声合成モデルの出力およびサンプルオーディオデータを用いて、初期ボコーダをトレーニングしてターゲットボコーダを取得するためのボコーダモジュールをさらに含む。
本出願の実施形態の技術案は、ポーズ隠れ特徴を導入して初期音声合成モデルをトレーニングすることにより、モデルがポーズ隠れ特徴を学習できるようにし、モデルの性能を向上させ、合成された音声の品質を向上させることができる。また、変分オートエンコーダによりポーズ隠れ特徴分布を取得することにより、音声合成モデルは、異なるポーズ時間のポーズ記号の隠れ特徴を学習できるようにし、音声合成過程において必要に応じて異なるポーズ時間のオーディオを合成することをサポートする。
図7は本実施形態に係る音声合成装置の構成概略図である。図7を参照すると、本出願の実施形態は、ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するためのターゲット音素境界モジュール601と、前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲット特徴組合せモジュール602と、ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成する音声合成モジュール603と、を含む音声合成装置600を開示する。
あるいは、前記ターゲット特徴組合せモジュール602は、前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するためのターゲット韻律語位置ユニットと、前記韻律語位置に前記ポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲットポーズ記号挿入ユニットと、を含む。
あるいは、前記音声合成モジュール603は、ユーザが所望するターゲットポーズ時間と、前記ターゲット音声合成モデルのトレーニング段階で得られた、ポーズ時間とポーズ隠れ特徴の対応関係とに基づいて、ターゲットポーズ隠れ特徴を確定するための隠れ特徴確定ユニットと、前記ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴および前記ターゲットポーズ隠れ特徴に基づいて音響特徴を取得するための音声合成ユニットと、を含む。
本出願の実施形態の技術案は、韻律語境界特徴を表すポーズ記号を音素特徴に挿入することにより組合せ特徴を取得し、ターゲット音声の流暢さを向上させる。また、音素粒度に基づく音声合成モデルは、汎用性が高く、特に多言語混合の場面で良好な性能を持つ。さらに、ユーザのニーズに応じて異なるポーズ時間の音声を合成することをサポートする。
本出願の実施形態によれば、本出願はまた、電子機器および読み取り可能な記憶媒体を提供する。
図8は本出願の実施形態に係る音声合成モデルのトレーニング方法または音声合成方法を実施するための電子機器のブロック図である。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータおよび他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことを意図している。電子機器はまた、個人デジタル処理、携帯電話、スマートフォン、ウェアラブルデバイスおよび他の同様のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すことができる。本出願に示す構成要素、それらの接続および関係、ならびにそれらの機能は、一例に過ぎず、本出願に記載されたおよび/または要求される本出願の実施を限定することは意図していない。
図8に示すように、電子機器は、1つまたは複数のプロセッサ701と、メモリ702と、高速インターフェースおよび低速インターフェースを含む各部を接続するためのインターフェースとを備える。各構成要素は、異なるバスで互いに接続されており、共通マザーボードに実装されていてもよく、必要に応じて他の方法で実装されていてもよい。プロセッサは、インターフェースに結合された表示装置などの外部入出力デバイス上にGUIのグラフィック特徴を表示するために、メモリ内またはメモリ上に格納された命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数のバスは、必要に応じて、複数のメモリおよび複数のメモリと共に使用されてもよい。同様に、複数の電子機器を接続することができ、各機器は一部の必要な動作(例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとして)を行うことができる。図8では、1つのプロセッサ701を例に挙げている。
メモリ702は、本出願に提供される非一時的コンピュータ可読記憶媒体である。前記メモリには、本出願で提供される音声合成モデルのトレーニング方法及び音声合成方法を少なくとも1つのプロセッサに実行させるために、前記少なくとも1つのプロセッサによって実行可能な命令が格納されている。本出願の非一時的コンピュータ可読記憶媒体は、本出願で提供される音声合成モデルのトレーニング方法及び音声合成方法をコンピュータに実行させるためのコンピュータ命令を記憶する。
メモリ702は、非一時的コンピュータ可読記憶媒体として、本実施形態における音声合成モデルのトレーニング方法及び音声合成方法に対応するプログラム命令/モジュール(例えば、図6に示すサンプル音素境界モジュール501、サンプル特徴組合せモジュール502およびモデルトレーニングモジュール503、または図7に示すターゲット音素境界モジュール601、ターゲット特徴組合せモジュール602および音声合成モジュール603)のような非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラムおよびモジュールを格納するために使用することができる。プロセッサ701は、メモリ702に記憶された非一時的ソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行し、すなわち、上述した方法の実施形態における音声合成モデルのトレーニング方法及び音声合成方法を実施する。
メモリ702は、プログラム記憶領域およびデータ記憶領域を含むことができる。前記プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができる。前記データ記憶領域は、音声合成モデルのトレーニング方法及び音声合成方法を実行する電子機器の使用に応じて作成されたデータ等を記憶することができる。さらに、メモリ702は、高速ランダムアクセスメモリを含むことができ、少なくとも1つのディスクメモリ、フラッシュメモリデバイス、または他の非一時的ソリッドステートメモリのような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ702は、あるいは、ネットワークを介して音声合成モデルのトレーニング方法及び音声合成方法を実行する電子機器に接続することができるプロセッサ701に対して遠隔設定されたメモリを含むことができる。上述したネットワークの例は、インターネット、企業内ネットワーク、ローカルエリアネットワーク、移動通信ネットワークおよびそれらの組合せを含むが、これらに限定されない。
音声合成モデルのトレーニング方法及び音声合成方法を実行する電子機器は、入力装置703および出力装置704をさらに含むことができる。プロセッサ701、メモリ702、入力装置703および出力装置704は、バスまたは他の方法で接続することができる。図8は、バスを介して接続されている例である。
入力装置703は、入力された数字または文字特徴を受信し、音声合成モデルのトレーニング方法及び音声合成方法を実行する電子機器のユーザ設定および機能制御に関するキー信号入力、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置を生成することができる。出力装置704は、表示装置、補助照明装置(例えば、LED)および触覚フィードバック装置(例えば、振動モータ)などを含むことができる。前記表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイおよびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。
本出願に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェアおよび/またはそれらの組合せにおいて実施することができる。これらの様々な実施形態は、専用または汎用プログラマブルプロセッサであってもよい少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈することができる1つまたは複数のコンピュータプログラム内において実施され、記憶システム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスからデータおよび命令を受信し、かつデータおよび命令を記憶システム、少なくとも1つの入力デバイスおよび少なくとも1つの出力デバイスに送信することができる実施形態を含むことができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、これらのコンピュータプログラムは、高度なプロセスおよび/またはオブジェクト指向プログラミング言語および/またはアセンブリ/機械言語を使用して実施することができる。本出願で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を意味し、機械可読信号である機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
ユーザとの対話を提供するために、本出願に記載されたシステムおよび技術をコンピュータ上で実施することができる。前記コンピュータは、ユーザに特徴を表示するための表示デバイス(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有し、ユーザは、キーボードおよびポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはまた、ユーザとの対話を提供するために使用することができる。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよい。ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受信することができる。
本出願に記載されたシステムおよび技術は、バックグラウンド構成要素を含むコンピュータシステム(例えば、データサーバとして)、またはミドルウェア構成要素を含むコンピュータシステム(例えば、アプリケーションサーバ)、またはフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ(ユーザは、前記グラフィカルユーザインターフェースまたは前記ウェブブラウザを介して、本出願に記載されたシステムおよび技術の実施形態と相互作用することができる))、または上記したバックグラウンド構成要素、ミドルウェア構成要素またはフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムに実装することができる。システムの構成要素は、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)およびインターネットが挙げられる。
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは一般的に互いに離れており、一般的に通信ネットワークを介して相互作用する。クライアントとサーバの関係は、対応するコンピュータ上で動作し、互いにクライアント−サーバ関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであることが可能である。前記クラウドサーバはクラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系における1つのホスト製品であり、従来の物理ホストとVPSサービスに存在する管理難易度が高く、業務拡張性が弱いという欠陥を克服した。
本出願の実施形態の技術は、韻律語境界特徴を表すポーズ記号を音素特徴に挿入することにより組合せ特徴を取得し、ターゲット音声の流暢さを向上させる。また、音素粒度に基づく音声合成モデルは、汎用性が高く、特に多言語混合の場面で良好な性能を持つ。ポーズ隠れ特徴を導入して初期音声合成モデルをトレーニングすることにより、モデルがポーズ隠れ特徴を学習できるようにし、モデルの性能を向上させ、合成された音声の品質を向上させることができる。また、音声合成過程において必要に応じて異なるポーズ時間のオーディオを合成することをサポートする。
上述した様々な形態のプロセスを使用して、ステップを再順序付け、追加、または削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよい。本出願に開示される技術が所望する技術効果を実現できるものであればよく、ここでは特に限定しない。
上記した具体的な実施形態は、本出願の保護範囲の制限を構成していない。当業者であれば、設計要求および他の要因に応じて様々な修正、組み合わせ、再組合、代替を行うことができると認識できるだろう。本出願の趣旨および原則内で行われる任意の修正、同等の置換および改善などはすべて本出願の保護範囲内に含まれるものとする。

Claims (21)

  1. サンプルテキストデータの音素特徴および韻律語境界特徴を確定するステップと、
    前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、
    前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するステップと、を含む音声合成モデルのトレーニング方法。
  2. 前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップは、
    前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するステップと、
    前記韻律語位置に前記ポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するステップと、を含む請求項1に記載の方法。
  3. 前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングするステップは、
    前記組合せ特徴と前記サンプルテキストデータに関連付けられたサンプルオーディオデータの音響特徴とに基づいて、ポーズ隠れ特徴分布を確定するステップと、
    前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて、初期音声合成モデルに対して教師なしトレーニングを行うステップと、を含む請求項1に記載の方法。
  4. 前記組合せ特徴およびサンプルオーディオデータの音響特徴に基づいて、ポーズ隠れ特徴分布を確定するステップは、
    前記組合せ特徴と前記サンプルオーディオデータの音響特徴とを整列させて、前記組合せ特徴におけるポーズ記号の音響特徴を取得するステップと、
    前記ポーズ記号の音響特徴を変分オートエンコーダによって処理して、前記ポーズ隠れ特徴分布を取得するステップと、を含む請求項3に記載の方法。
  5. 前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて、初期音声合成モデルに対して教師なしトレーニングを行うステップは、
    前記組合せ特徴に基づいて、組合せ特徴ベクトル表現を確定するステップと、
    前記ポーズ隠れ特徴分布をサンプリングして、ポーズ隠れ特徴を取得するステップと、
    前記組合せ特徴ベクトル表現を、前記初期音声合成モデルにおけるデコーダの入力として、前記デコーダの出力と前記ポーズ隠れ特徴とを接続してコンテキストベクトルを取得するステップと、
    前記初期音声合成モデルにおけるエンコーダにより前記コンテキストベクトルを符号化して、前記初期音声合成モデルが出力する音響特徴を取得するステップと、を含む請求項3に記載の方法。
  6. 前記方法は、
    前記初期音声合成モデルの出力とサンプルオーディオデータを用いて、初期ボコーダをトレーニングしてターゲットボコーダを取得するステップをさらに含む請求項1〜5のいずれか1項に記載の方法。
  7. ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するステップと、
    前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するステップと、
    ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成するステップと、を含む音声合成方法。
  8. 前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するステップは、
    前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するステップと、
    前記韻律語位置に前記ポーズ記号を挿入して、前記ターゲットテキストデータの組合せ特徴を取得するステップと、を含む請求項7に記載の方法。
  9. ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得するステップは、
    ユーザが所望するターゲットポーズ時間と、前記ターゲット音声合成モデルのトレーニング段階で得られた、ポーズ時間とポーズ隠れ特徴の対応関係とに基づいて、ターゲットポーズ隠れ特徴を確定するステップと、
    前記ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴および前記ターゲットポーズ隠れ特徴に基づいて、音響特徴を取得するステップと、を含む請求項7に記載の方法。
  10. サンプルテキストデータの音素特徴および韻律語境界特徴を確定するためのサンプル音素境界モジュールと、
    前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプル特徴組合せモジュールと、
    前記サンプルテキストデータの組合せ特徴に基づいて、初期音声合成モデルをトレーニングしてターゲット音声合成モデルを取得するためのモデルトレーニングモジュールと、を含む音声合成モデルのトレーニング装置。
  11. 前記サンプル特徴組合せモジュールは、
    前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するためのサンプル韻律語位置ユニットと、
    前記韻律語位置に前記ポーズ記号を挿入して前記サンプルテキストデータの組合せ特徴を取得するためのサンプルポーズ記号挿入ユニットと、を含む請求項10に記載の装置。
  12. 前記モデルトレーニングモジュールは、
    前記組合せ特徴と、前記サンプルテキストデータに関連付けられたサンプルオーディオデータの音響特徴とに基づいて、ポーズ隠れ特徴分布を確定するための隠れ特徴分布ユニットと、
    前記組合せ特徴および前記ポーズ隠れ特徴分布に基づいて初期音声合成モデルに対して教師なしトレーニングを行うためのモデルトレーニングユニットと、を含む請求項10に記載の装置。
  13. 前記隠れ特徴分布ユニットは、
    前記組合せ特徴と前記サンプルオーディオデータの音響特徴とを整列させて、前記組合せ特徴におけるポーズ記号の音響特徴を取得するための音響特徴サブユニットと、
    前記ポーズ記号の音響特徴を変分オートエンコーダによって処理して、前記ポーズ隠れ特徴分布を取得するための隠れ特徴分布サブユニットと、を含む請求項12に記載の装置。
  14. 前記モデルトレーニングユニットは、
    前記組合せ特徴に基づいて組合せ特徴ベクトル表現を確定するための特徴表現サブユニットと、
    前記ポーズ隠れ特徴分布をサンプリングしてポーズ隠れ特徴を取得するための隠れ特徴サンプリングサブユニットと、
    前記組合せ特徴ベクトル表現を前記初期音声合成モデルにおけるデコーダの入力として、前記デコーダの出力と前記ポーズ隠れ特徴とを接続してコンテキストベクトルを取得するための復号化サブユニットと、
    前記初期音声合成モデルにおけるエンコーダにより前記コンテキストベクトルを符号化して、前記初期音声合成モデルが出力する音響特徴を取得するための符号化サブユニットと、を含む請求項12に記載の装置。
  15. 前記装置は、
    前記初期音声合成モデルの出力およびサンプルオーディオデータを用いて、初期ボコーダをトレーニングしてターゲットボコーダを取得するためのボコーダモジュールをさらに含む請求項10〜14のいずれか1項に記載の装置。
  16. ターゲットテキストデータの音素特徴および韻律語境界特徴を確定するためのターゲット音素境界モジュールと、
    前記韻律語境界特徴に基づいて、前記音素特徴にポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲット特徴組合せモジュールと、
    ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴に基づいて音響特徴を取得し、前記音響特徴を用いてターゲット音声を合成する音声合成モジュールと、を含む音声合成装置。
  17. 前記ターゲット特徴組合せモジュールは、
    前記韻律語境界特徴に基づいて、前記音素特徴における韻律語位置を確定するためのターゲット韻律語位置ユニットと、
    前記韻律語位置に前記ポーズ記号を挿入して前記ターゲットテキストデータの組合せ特徴を取得するためのターゲットポーズ記号挿入ユニットと、を含む請求項16に記載の装置。
  18. 前記音声合成モジュールは、
    ユーザが所望するターゲットポーズ時間と、前記ターゲット音声合成モデルのトレーニング段階で得られた、ポーズ時間とポーズ隠れ特徴の対応関係とに基づいて、ターゲットポーズ隠れ特徴を確定するための隠れ特徴確定ユニットと、
    前記ターゲット音声合成モデルにより、前記ターゲットテキストデータの組合せ特徴および前記ターゲットポーズ隠れ特徴に基づいて音響特徴を取得するための音声合成ユニットと、を含む請求項16に記載の装置。
  19. 少なくとも1つのプロセッサおよび前記少なくとも1つのプロセッサに通信接続されたメモリを含む電子機器であって、
    前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が格納され、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1〜9のいずれか1項に記載の方法を実行可能にする、電子機器。
  20. コンピュータ命令が格納されている非一時的コンピュータ可読媒体であって、
    前記コンピュータ命令が請求項1〜9のいずれか1項に記載の方法を前記コンピュータに実行させるためのものである、非一時的コンピュータ可読記憶媒体。
  21. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜9のいずれか1項に記載の方法を実現するコンピュータプログラム。
JP2020201661A 2020-06-15 2020-12-04 モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム Active JP7259197B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010546704.4A CN111667816B (zh) 2020-06-15 2020-06-15 模型训练方法、语音合成方法、装置、设备和存储介质
CN202010546704.4 2020-06-15

Publications (2)

Publication Number Publication Date
JP2021196598A true JP2021196598A (ja) 2021-12-27
JP7259197B2 JP7259197B2 (ja) 2023-04-18

Family

ID=72387761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020201661A Active JP7259197B2 (ja) 2020-06-15 2020-12-04 モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Country Status (5)

Country Link
US (1) US11769480B2 (ja)
EP (1) EP3879525B1 (ja)
JP (1) JP7259197B2 (ja)
KR (1) KR102496817B1 (ja)
CN (1) CN111667816B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331176B (zh) * 2020-11-03 2023-03-10 北京有竹居网络技术有限公司 语音合成方法、装置、存储介质及电子设备
CN112331177A (zh) * 2020-11-05 2021-02-05 携程计算机技术(上海)有限公司 基于韵律的语音合成方法、模型训练方法及相关设备
CN112071300B (zh) * 2020-11-12 2021-04-06 深圳追一科技有限公司 语音会话方法、装置、计算机设备和存储介质
CN112289305A (zh) * 2020-11-23 2021-01-29 北京有竹居网络技术有限公司 韵律预测方法、装置、设备以及存储介质
CN112735379B (zh) * 2020-12-30 2023-06-13 北京大米科技有限公司 语音合成方法、装置、电子设备和可读存储介质
CN112786005B (zh) * 2020-12-30 2023-12-01 科大讯飞股份有限公司 信息合成方法、装置、电子设备和计算机可读存储介质
CN112927674B (zh) * 2021-01-20 2024-03-12 北京有竹居网络技术有限公司 语音风格的迁移方法、装置、可读介质和电子设备
CN112863484B (zh) * 2021-01-25 2024-04-09 中国科学技术大学 韵律短语边界预测模型训练方法和韵律短语边界预测方法
CN113129862B (zh) * 2021-04-22 2024-03-12 合肥工业大学 一种基于world-tacotron的语音合成方法、系统及服务器
CN113362836A (zh) * 2021-06-02 2021-09-07 腾讯音乐娱乐科技(深圳)有限公司 训练声码器方法、终端及存储介质
CN113506562B (zh) * 2021-07-19 2022-07-19 武汉理工大学 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
KR20230055083A (ko) * 2021-10-18 2023-04-25 삼성전자주식회사 전자 장치, 단말 장치 및 그 제어 방법
CN114420087B (zh) * 2021-12-27 2022-10-21 北京百度网讯科技有限公司 声学特征的确定方法、装置、设备、介质及产品
CN114970666B (zh) * 2022-03-29 2023-08-29 北京百度网讯科技有限公司 一种口语处理方法、装置、电子设备及存储介质
CN115116427B (zh) * 2022-06-22 2023-11-14 马上消费金融股份有限公司 标注方法、语音合成方法、训练方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08508127A (ja) * 1993-10-15 1996-08-27 エイ・ティ・アンド・ティ・コーポレーション システムをトレーニングする方法、その結果得られる装置、およびその使用方法
JP2005345846A (ja) * 2004-06-04 2005-12-15 Advanced Telecommunication Research Institute International 入力テキストのポーズ位置予測装置
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
JP2020034883A (ja) * 2018-08-27 2020-03-05 日本放送協会 音声合成装置及びプログラム
JP2020060642A (ja) * 2018-10-09 2020-04-16 株式会社日立ソリューションズ・テクノロジー 音声合成システム、及び音声合成装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100959494B1 (ko) * 2003-03-06 2010-05-26 주식회사 케이티 미등록어 합성 기능을 이용한 음성합성기 및 그 방법
CN1320482C (zh) * 2003-09-29 2007-06-06 摩托罗拉公司 标识文本串中的自然语音停顿的方法
CN101051458B (zh) * 2006-04-04 2011-02-09 中国科学院自动化研究所 基于组块分析的韵律短语预测方法
CN101051459A (zh) 2006-04-06 2007-10-10 株式会社东芝 基频和停顿预测及语音合成的方法和装置
CN101000764B (zh) * 2006-12-18 2011-05-18 黑龙江大学 基于韵律结构的语音合成文本处理方法
CN102194454B (zh) * 2010-03-05 2012-11-28 富士通株式会社 用于检测连续语音中的关键词的设备和方法
JP5754141B2 (ja) * 2011-01-13 2015-07-29 富士通株式会社 音声合成装置および音声合成プログラム
CN102881282B (zh) * 2011-07-15 2014-08-20 富士通株式会社 一种获取韵律边界信息的方法及系统
TWI573129B (zh) * 2013-02-05 2017-03-01 國立交通大學 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法
CN105185373B (zh) * 2015-08-06 2017-04-05 百度在线网络技术(北京)有限公司 韵律层级预测模型的生成及韵律层级预测方法和装置
CN107039034B (zh) * 2016-02-04 2020-05-01 科大讯飞股份有限公司 一种韵律预测方法及系统
US10475438B1 (en) * 2017-03-02 2019-11-12 Amazon Technologies, Inc. Contextual text-to-speech processing
CN107564511B (zh) * 2017-09-25 2018-09-11 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
US10796686B2 (en) * 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
CN109697973A (zh) * 2019-01-22 2019-04-30 清华大学深圳研究生院 一种韵律层级标注的方法、模型训练的方法及装置
KR102581346B1 (ko) * 2019-05-31 2023-09-22 구글 엘엘씨 다국어 음성 합성 및 언어간 음성 복제
CN110534087B (zh) * 2019-09-04 2022-02-15 清华大学深圳研究生院 一种文本韵律层级结构预测方法、装置、设备及存储介质
CN110782870B (zh) * 2019-09-06 2023-06-16 腾讯科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08508127A (ja) * 1993-10-15 1996-08-27 エイ・ティ・アンド・ティ・コーポレーション システムをトレーニングする方法、その結果得られる装置、およびその使用方法
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
JP2005345846A (ja) * 2004-06-04 2005-12-15 Advanced Telecommunication Research Institute International 入力テキストのポーズ位置予測装置
JP2020034883A (ja) * 2018-08-27 2020-03-05 日本放送協会 音声合成装置及びプログラム
JP2020060642A (ja) * 2018-10-09 2020-04-16 株式会社日立ソリューションズ・テクノロジー 音声合成システム、及び音声合成装置
CN110534089A (zh) * 2019-07-10 2019-12-03 西安交通大学 一种基于音素和韵律结构的中文语音合成方法

Also Published As

Publication number Publication date
KR102496817B1 (ko) 2023-02-06
US20210390943A1 (en) 2021-12-16
EP3879525B1 (en) 2023-05-10
KR20210036883A (ko) 2021-04-05
CN111667816A (zh) 2020-09-15
JP7259197B2 (ja) 2023-04-18
CN111667816B (zh) 2024-01-23
EP3879525A1 (en) 2021-09-15
US11769480B2 (en) 2023-09-26

Similar Documents

Publication Publication Date Title
JP7259197B2 (ja) モデルトレーニング方法、音声合成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7280386B2 (ja) 多言語音声合成およびクロスランゲージボイスクローニング
JP7066349B2 (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
US11373049B2 (en) Cross-lingual classification using multilingual neural machine translation
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
CN107077841B (zh) 用于文本到语音的超结构循环神经网络
US11488577B2 (en) Training method and apparatus for a speech synthesis model, and storage medium
JP2021157193A (ja) 音声合成方法及び対応するモデルのトレーニング方法、装置、電子機器、記憶媒体、並びにコンピュータプログラム
US11282498B2 (en) Speech synthesis method and speech synthesis apparatus
JP2021197133A (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN111341293B (zh) 一种文本语音的前端转换方法、装置、设备和存储介质
JP2022523883A (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
JP7395553B2 (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
KR102619408B1 (ko) 음성 합성 방법, 장치, 전자 기기 및 저장 매체
WO2021034395A1 (en) Data-driven and rule-based speech recognition output enhancement
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
JP2023546930A (ja) 言語間音声合成を改良するための音声認識の使用
CN113191140B (zh) 文本处理方法、装置、电子设备及存储介质
US20220366890A1 (en) Method and apparatus for text-based speech synthesis
Šoić et al. Spoken notifications in smart environments using Croatian language
KR20100069555A (ko) 음성 인식 시스템 및 방법
Barakat et al. Deep learning-based expressive speech synthesis: a systematic review of approaches, challenges, and resources
JP2023006055A (ja) プログラム、情報処理装置、方法
JP2022169012A (ja) 編集装置、音声合成装置及びプログラム
WO2023278065A1 (en) Text-based speech generation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230317

R150 Certificate of patent or registration of utility model

Ref document number: 7259197

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150