JP2023027747A

JP2023027747A - 音声処理方法、装置、機器、及びコンピュータ記憶媒体

Info

Publication number: JP2023027747A
Application number: JP2022075811A
Authority: JP
Inventors: ジャン、リキアン; Liqiang Zhang; ホウ、ジャンカン; Jiankang Hou; スン、タオ; Tao Sun; ジア、レイ; Lei Jia
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2022-05-02
Publication date: 2023-03-02
Anticipated expiration: 2042-05-02
Also published as: KR102611003B1; CN113838453B; KR20230026241A; US20230056128A1; CN113838453A; JP7318161B2

Abstract

【課題】ボコーダ特徴の偏差によって引き起こされる発音誤差を低減し、音声合成の効果を向上させる音声処理方法、装置、機器及びコンピュータ記憶媒体を提供する。【解決手段】音声処理方法は、テキストに対して得られたボコーダ特徴を取得するステップと、ボコーダ特徴におけるエネルギー特徴及び／又は音声スペクトル特徴に基づいて、ボコーダ特徴におけるＵＶ特徴に対して値修正を行うステップと、合成された音声を取得するように、修正後のボコーダ特徴をボコーダに提供するステップと、を含む。【選択図】図２

Description

本開示は、コンピュータアプリケーション技術の分野に関し、特に人工知能技術の分野における音声、深層学習などの技術に関する。

音声合成は，入力されたテキストを自然に理解できる音声に合成する技術である。音声合成の流暢さ、表現力、及び音質はユーザ体験に直接影響する。しかし、音声合成のプロセスでは、予測過程に現れるずれにより、最終的に合成された音声は発音に誤差が生じ、効果を向上する必要がある。

これに鑑みて、本開示は、音声合成後の発音効果を向上させるための音声処理方法、装置、機器、及びコンピュータ記憶媒体を提供する。

本開示の第１の態様によれば、音声処理方法を提供し、
テキストに対して得られたボコーダ特徴を取得するステップと、
前記ボコーダ特徴におけるエネルギー特徴及び／又は音声スペクトル特徴に基づいて、前記ボコーダ特徴におけるＵＶ（有声音及び無声音）特徴に対して値修正を行うステップと、
合成された音声を取得するように、修正後のボコーダ特徴をボコーダに提供するステップと、を含む。

本開示の第２の態様によれば、音声処理装置を提供し、
テキストに対して得られたボコーダ特徴を取得するための特徴取得ユニットと、
前記ボコーダ特徴におけるエネルギー特徴及び／又は音声スペクトル特徴に基づいて、前記ボコーダ特徴におけるＵＶ特徴に対して値修正を行うためのＵＶ修正ユニットと、
合成された音声を取得するように、修正後のボコーダ特徴をボコーダに提供するための特徴送信ユニットと、を含む。

本開示の第３の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。

本開示の第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の方法を実行させる。

本開示の第５の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行される時に上記の方法を実現する。

本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。

図面は、本出願をより良く理解するためのものであり、本出願を限定しない。
本開示に係る基本アーキテクチャの概略図である。本開示の実施例により提供される音声処理方法のフローチャートである。本開示の実施例により提供されるＵＶ修正の方法のフローチャートである。本開示の実施例により提供される音声合成方法のフローチャートである。本開示の実施例により提供される韻律予測モデルの概略構造図である。本開示の実施例により提供される韻律予測モデルの概略構造図である。本開示の実施例により提供される音声合成モデルの概略構造図である。本開示の実施例により提供される後予測ネットワークの概略構造図である。本開示の実施例により提供される第１の音声合成モデルのトレーニング方法のフローチャートである。本開示の実施例により提供される第１の音声合成モデルのトレーニングアーキテクチャの概略図である。本開示の実施例により提供される第２の音声合成モデルのトレーニング方法のフローチャートである。本開示の実施例により提供される第２の音声合成モデルのトレーニングアーキテクチャの概略図である。本開示の実施例により提供される韻律抽出モデルの概略構造図である。本開示の実施例により提供される第３の音声合成モデルのトレーニング方法のフローチャートである。本開示の実施例により提供される第３の音声合成モデルのトレーニングアーキテクチャの概略図である。本開示の実施例により提供される第４の音声合成モデルのトレーニング方法のフローチャートである。本開示の実施例により提供される第４の音声合成モデルのトレーニングアーキテクチャの概略図である。本開示の実施例により提供される音声処理装置の概略構造図である。本開示の実施例により提供される音声合成装置の概略構造図である。本開示の実施例を実現するための電子機器のブロック図である。

以下、図面に基づいて、本出願の例示の実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

本開示により提供される技術的解決策の理解を容易にするために、まず、本開示に係る基本アーキテクチャについて簡単に説明する。図１に示すように、本開示に係る基本アーキテクチャは、音声合成装置、後処理装置、およびボコーダを含む。

音声合成装置は、合成しようとするテキストを処理し、ボコーダ特徴の出力として変換する。後処理装置は、本開示の実施例における音声処理方法の主な実行主体であり、音声合成装置から出力されるボコーダ特徴を最適化処理した後、ボコーダに出力する。ボコーダはボコーダ特徴を使用して最終的に合成された音声を取得する。

図２は本開示の実施例により提供される音声処理方法のフローチャートである。当該方法の実行主体は音声処理装置であり、当該音声処理装置は、図１に示すアーキテクチャの中の後処理装置に設置する。当該装置は、ユーザ端末のアプリケーションに位置することができるか、又は端末のアプリケーションのプラグインまたはソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などの機能ユニットに位置することもできるか、又は、サーバ側に位置することもでき、本発明の実施例はこれについて特に限定しない。図２に示すように、当該方法は、以下のステップを含むことができ、
２０１では、テキストに対して得られたボコーダ特徴を取得する。

２０２では、ボコーダ特徴におけるエネルギー特徴及び／又は音声スペクトル特徴に基づいて、ボコーダ特徴におけるＵＶ特徴に対して値修正を行う。

２０３では、合成された音声を取得するように、修正後のボコーダ特徴をボコーダに提供する。

上記の技術的解決策から分かるように、ボコーダ特徴におけるエネルギー特徴及び／又は音声スペクトル特徴に基づいて、ボコーダ特徴におけるＵＶ特徴に対して値修正を行って、ボコーダ特徴の偏差によって引き起こされる発音誤差を低減し、音声合成の効果を向上させる。

以下は実施例を組み合わせ上記の各ステップに対して詳細に説明する。まず、ステップ２０１では、取得されたボコーダ特徴は、図１に示す音声合成装置から由来することができ、音声合成装置は、音声合成モデルを使用して入力されたテキストからボコーダ特徴を取得する。本開示では任意の形式の音声合成モデルを使用してボコーダ特徴を取得することができ、後続に好ましい実施方式を提供して詳細に説明する。

上記のボコーダ特徴は、様々なタイプの情報を含むことができ、具体的には、多次元の情報として具現されることができる。エネルギー特徴、ＳＰ（Ｓｐｅｃｔｒａｌｅｎｖｅｌｏｐｅ、スペクトルエンベロープ）、ＣＡＰ（Ｃｏａｒｓｅａｐｅｒｉｏｄｉｃｐａｒａｍｅｔｅｒ、非周期的な粗さパラメータ）特徴、ＬＦ０（Ｌｏｇａｒｉｔｈｍｉｃｆｕｎｄａｍｅｎｔａｌｆｒｅｑｕｅｎｃｙ、対数基本周波数）特徴、ＵＶ特徴を含むことができるが、これらに限定しない。本開示では主にＵＶ特徴に対する修正を実現する。

ＵＶ特徴は、すなわちＵｎｖｏｉｃｅｄ（無声音）とＶｏｉｃｅｄ（有声音）特徴である。ボコーダ特徴では、各フレームは、すべて１つのＵＶ特徴を有する値で当該フレームオーディオの発音特性を表す。１つのテキストについて、これに対応するのは、１つのオーディオシーケンスであり、通常、複数のフレームから構成され、従って、ボコーダ特徴におけるＵＶ特徴は、１つのシーケンス、すなわちＵＶ特徴シーケンスとして具現される。ＵＶ特徴シーケンスは、各フレームのＵＶ特徴値を含む。

ＵＶ特徴値は０と１を含み、０はＵｎｖｏｉｃｅｄを表し、１はＶｏｉｃｅｄを表す。

従来の音声合成モデルではボコーダ特徴の予測を行う時、ＵＶ特徴については分類確率に基づいて行われる予測であり、一定の誤差が存在する可能性があり、これらの誤差は、母音と子音の分布が発音法則に符合せず、音声合成の効果が低くなる。

以下は実施例を組み合わせて上記のステップ２０２に対して詳細に説明する。

本ステップでは、ボコーダ特徴におけるエネルギー特徴に基づいてボコーダ特徴におけるＵＶ特徴シーケンスに対して値変化境界の修正を行うことができる。音声スペクトル特徴に基づいてＵＶ特徴シーケンスの各値に対してそれぞれ判断と修正を行うこともできる。すなわち、ボコーダ特徴におけるエネルギー特徴に基づいてボコーダ特徴におけるＵＶ特徴シーケンスに対して値変化境界の修正を行い、音声スペクトル特徴に基づいてＵＶ特徴シーケンスの各値に対してそれぞれ判断と修正を行うこともできる。

以下は１つの好ましい実施方式で上記の２つの方式を使用することを例として説明する。図３に示すように、上記のステップ２０２は、具体的には、以下のステップを含むことができ、
２０２１では、ボコーダ特徴におけるＵＶ特徴シーケンスの値変化境界上の値が１のフレームに対して１つずつ判断し、当該フレームに対応するエネルギー特徴値が０より小さい場合、当該フレームのＵＶ特徴値を０に修正する。

前述のように、ボコーダ特徴にはエネルギー特徴が含まれ、本ステップでは、まず、ボコーダにおけるエネルギー特徴を使用してＵＶ特徴シーケンスの値変化境界上の値が１のフレームを判断する。

値変化境界上の値が１のフレームとは、ＵＶ特徴シーケンスに、隣接する０から１までが存在する場合、値変化境界とみなし、隣接する０と１の値が１のフレームを判断する。

値が１のフレームは、当該フレームが音声合成モデルによって有声音として認識されることを意味する。有声音とは、発音時に声帯が振動する音を指す。無声音とは、発音時に声帯が振動しない音を指す。通常の状況では、有声音の発音は、無声音よりも大きく、無声音は、ボコーダ特徴に対応するエネルギー特徴値が通常、０より小さいため、ＵＶ特徴シーケンスの値変化境界上の値が１のフレームに対応するエネルギー特徴値が０より小さい場合、当該フレームは無声音である可能性が高く、そのＵＶ特徴値を０に修正する。対応するエネルギー特徴値が０以上である場合、当該フレームのＵＶ特徴値は変更しないように保持する。

本ステップでは、ＵＶ特徴シーケンスにおけるすべての値境界上の値が１のフレームをすべて判断する。ＵＶ特徴値の修正を行った後に新しい値境界が生成された場合、新しい値境界上の値が１のフレームに対しても判断する必要がある。例えば、元のＵＶ特徴シーケンスに「…０、１、１…」という１つのセグメントがある。その中の０、１境界上の１を判断し、それを０に修正した後、当該０値と後の値１は、また新しい値境界を構成すると、後の値１に対応するフレームに対して上記の判断を続ける。

２０２２では、ＵＶ特徴シーケンスの値変化境界上の値が０のフレームを１つずつ判断し、当該フレームに対応するエネルギー特徴値と値が１の隣接フレームに対応するエネルギーとの間の比率が予め設定された比例の閾値より大きい場合、当該値が０のフレームのＵＶ特徴値を１に修正する。

値が０のフレームは、当該フレームが音声合成モデルによって無声音として認識されることを意味し、異なるユーザにとって、発音時のエネルギー値が異なる場合がある。しかし、無声音と有声音の発音時には一定の区別がある。値変化境界上の値が０のフレームと値が１のフレームに対応するエネルギー間の比率が予め設定された比例の閾値（例えば５０％）より大きい場合、つまり、当該フレームが隣接する有声音とあまり差がない場合、当該フレームも有声音である可能性が高いとみなすので、当該フレームのＵＶ特徴値を１に修正する。それ以外の場合、当該フレームのＵＶ特徴値は変更しないように保持する。

本ステップでは、ＵＶ特徴シーケンスにおけるすべての値境界上の値が０のフレームをすべて判断することができる。ＵＶ特徴値の修正を行った後に新しい値境界が生成された場合、また、新しい値境界上の値が０のフレームを判断する必要がある。例えば、元のＵＶ特徴シーケンスに「…１、０、０…」という１つのセグメントがある。その中の１、０境界上の０を判断し、それを１に修正した後、当該１値と後の値０は、また新しい値境界を構成すると、後の値０に対応するフレームに対して上記の判断を続ける。本ステップでは１つのｎをパラメータとして設置することができ、１つの値境界での前方または後方に最大にｎフレームを連続的に判断し、すなわちｎフレーム後に新しい値境界が生成されても、判断と修正を継続せず、ｎは予め設定された正の整数であり、例えば、８を取る。異なる人の異なる発音習慣に応じて、異なる話者に対して異なるｎ値を取ることができる。

２０２３では、フレームごとに判断し、当該フレーム音声スペクトル特徴の前のＭ次元の最大値が予め設定された第１の閾値より小さい場合、当該フレームのＵＶ特徴値を１に設置し、当該フレーム音声スペクトル特徴の前のＭ次元の最大値が予め設定された第２の閾値より大きい場合、当該フレームのＵＶ特徴値を０に設置する。

Ｍは予め設定された正の整数であり、例えば、２０と取る。第２の閾値は第１の閾値より大きく、例えば、第１の閾値は２を取り、第２の閾値は２．５を取る。

音声合成モデルはボコーダ特徴を出力する以外、テキストに対応する音響特徴を出力することもでき、音声スペクトル特徴を含む。その中の比較的に汎用的で一般的な音声スペクトル特徴はｍｅｌ（メル）スペクトルである。

ｍｅｌスペクトルを例とし、ｍｅｌスペクトルの値は０～４である。観察と研究した後に、有声音に対応するｍｅｌスペクトルの前の２０次元の値が比較的大きく、無声音に対応するｍｅｌスペクトルの前の２０次元の値が比較的小さい。したがって、ｍｅｌスペクトルの前の２０次元の最大値が２より小さい場合、当該フレームは有声音である可能性が高いため、当該フレームのＵＶ特徴値を１に設置する。当該フレームのＵＶ特徴値自体が１である場合、変更しないように保持し、０である場合、それを１に修正する。ｍｅｌスペクトルの前の２０次元の最大値が２．５より大きい場合、当該フレーム無声音である可能性が高いため、当該フレームのＵＶ特徴値を０に設置する。

ｍｅｌスペクトルの前の２０次元の最大値が２以上であり、且つ２．５以下である場合、当該フレームのＵＶ特徴値は変更しないように保持する。

上記の図３に示す実施例で使用される実行順序は好ましい実行順序であり、最適なＵＶ修正効果に達成することができる。しかし、本開示は上記の実行ステップと実行順序に限定されず、その中の一部または全部のステップのみを実行する場合、又は他の実行順序を使用する場合も、同様に本開示の保護範囲内である。

さらに、いくつかの場合によって、ボコーダの合成能力は音声合成モデルによって出力されたボコーダ特徴より高く、例えば音声合成モジュールは、フレームシフトが１０ｍｓのボコーダ特徴を出力するが、ボコーダが５ｍｓ特徴を合成する音質が１０ｍｓ特徴より高いので、予め設定された補間倍数に従って、上記のステップ１０１で取得されたボコーダ特徴に対して線形補間処理を行うことができる。その中、補間倍数は、ボコーダの合成能力に基づいて予め設定することができ、上記の例では補間倍数を２倍に設置することができる。このような方式は、音声合成モジュールの計算量を減らし、後処理の線形補間によって１０ｍｓの音声合成モジュールも５ｍｓの音声合成モジュールに近い効果に達成できることを実現する。

また、通常、音声合成モデルをトレーニングする時、モデルトレーニングの難易度と精度を低減するために、トレーニング時にいくつかのタイプの特徴に対して正規化処理を行う。これらの正規化は、異なる話者または異なる放送スタイルに対することであってもよい。しかし、実際の音声合成プロセスでは、音声合成モデルによって出力された正規化のボコーダ特徴は、最終的にボコーダによって合成された音声効果に影響を与える。したがって、好ましい実施方式とし、ステップ２０２の後に、さらに、修正後のボコーダ特徴内の予め設定されたタイプの特徴シーケンスに対して逆正規化処理を行うことができる。その中、逆正規化処理は、音声合成モデルのトレーニングプロセス中に予め設定されたタイプの特徴シーケンスに対して行われる正規化に対応する。

それ以外、正規化プロセス中に分散と平均値を適切に調整することもでき、高周波エネルギーと基本周波数の効果を向上させることができる。分散を調整すると、最終的に合成された音声がより透過させることができ、平均値を調整すると、最終的に合成された音声がより大きく明瞭ではっきりすることができる。

上記の処理後のボコーダ特徴はボコーダに提供して音声合成を行った後、合成された音声品質を大幅に向上させることができる。上記のステップ２０３で使用されるボコーダタイプは、本開示に限定されず、例えば、ｗｏｒｌｄボコーダなどを使用することができる。

以下は実施例を組み合わせて図１に示す音声合成装置の実現を詳細に説明する。

図４は本開示の実施例により提供される音声合成方法のフローチャートである。当該方法の実行主体は図１に示す音声合成装置である。当該装置は、ユーザ端末のアプリケーションに位置することができるか、又は端末のアプリケーションのプラグインまたはソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などの機能ユニットに位置することもできるか、又は、サーバ側に位置することもでき、本発明の実施例はこれについて特に限定しない。図４に示すように、当該方法は以下のステップを含むことができ、
４０１では、合成しようとするテキストを取得する。

４０２では、テキストから抽出された韻律特徴を取得する。

４０３では、テキストと韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得する。

本開示により提供される技術的解決策は、テキストから韻律特徴を抽出した後、音声合成モデルは韻律特徴を使用してテキストを組み合わせてボコーダ特徴を取得して、ボコーダがボコーダ特徴を直接使用して音声を合成することによって、音声合成技術の効率を向上させ、次いで高いリアルタイム率を確保することを分かることができる。

以下は実施例を組み合わせ上記の各ステップに対して詳細に説明する。まず、上記のステップ４０１を詳細に説明する。

本開示に関する合成しようとするテキストは、予め設定された内容であってもよく、例えば、起動語の内容、歓迎語の内容、特定のシナリオで固定放送の内容などである。例えば、ユーザ端末がある新しい地域に位置決めする時、「ＸＸ地域へようこそ」（「ＸＸ」はある具体的な地域名を表す）を放送する。また、例えば、ナビゲーションシナリオでのナビゲーションテキスト「前方ＸＸＸで左折」（「ＸＸＸ」はある具体的な建物名を表す）などである。

合成しようとするテキストは、第三者から取得されたテキスト内容であってもよく、例えば、第三者から取得されたニュース内容、文章内容などである。

合成しようとするテキストは、ユーザとインタラクション中に、ユーザが入力した音声に応答して生成されたテキストであってもよい。例えば、ユーザが音声「ＸＸＸＸはどこにありますか」を入力し、ユーザが入力した当該音声に応答して放送テキスト「ＸＸＸＸは建設中路三号にある」を生成する。

以下は実施例を組み合わせて上記のステップ４０２、すなわち「テキストから抽出された韻律特徴を取得する」を詳細に説明する。

本開示の実施例では、韻律特徴は、韻律予測モデルによってテキストから抽出することができる。韻律予測モデルによってテキストから韻律特徴を抽出し、韻律特徴を言語合成モデルに出力する。言語合成モデルでテキストと韻律特徴を使用してボコーダ特徴を出力する。

以下は韻律予測モデルの実現を詳細に説明する。図５ａに示すように、韻律予測モデルは、主に第１のエンコーダと第１のデコーダを含む。なお、本開示に関する「第１」、「第２」などの表現は、例えば「第１のエンコーダ」、「第２のエンコーダ」、「第１のデコーダ」、「第２のデコーダ」、「第１の閾値」、「第２の閾値」などは、名称を区別するためにのみ使用され、追加の限定がない限り、数、順序、及び大きさの制限は備えられない。

その中、第１のエンコーダは、テキストから言語特徴を抽出した後、言語特徴を第１のデコーダに出力する。第１のデコーダは、予測された前のフレームの韻律特徴と前記言語特徴を使用して、現在のフレームの韻律特徴を予測して取得する。

具体的には、第１のエンコーダにテキストを入力し、まず、文字埋め込み処理を経て、次に、畳み込み層と双方向ＬＳＴＭ層を経た後に言語特徴を取得する。第２のデコーダは、１つの自己回帰ネットワークであり、予測された前のフレームの韻律特徴は、まず、Ｐｒｅ－ｎｅｔ（前予測ネットワーク）を通過した後、ｐｒｅ－ｎｅｔの出力結果と言語特徴をスプライシングした後にＬＳＴＭに共に入力し、次に、線形予測層の処理を経て予測された韻律特徴を取得する。

上記の方式に加えて、韻律予測モデルは、さらに、放送スタイルを組み合わせて韻律特徴の抽出を行うこともできる。この場合の韻律予測モデル構造は、図５ｂに示すようにすることができる。この時、第１のエンコーダは、テキストから言語特徴を抽出した後、放送スタイル特徴と言語特徴をスプライシングし、取得された第１のスプライシング特徴を第１のデコーダに入力する。放送スタイル特徴は、話者情報から抽出することができ、例えば、話者情報に対して埋め込み処理を行う。テキストから抽出することもでき、例えば、テキストのセマンティック情報、領域知識などから抽出する（この場合は図には示されていない）。第１のデコーダは、予測された前のフレームの韻律特徴と第１のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得する。このように、音声合成モデルが様々な放送スタイルの音声合成能力を備えることができる。

上記の２つの構造は、本開示により提供される２つの実現方式であり、それ以外、他の方式を使用してテキストから韻律特徴を抽出することもできる。

以下は実施例を組み合わせて上記のステップ４０３、すなわち「テキストと韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得する」を詳細に説明する。

図６は本開示の実施例により提供される音声合成モデルの概略構造図である。図６に示すように、音声合成モデルは、第２のエンコーダ、第２のデコーダ、及び後予測ネットワークを含む。

第２のエンコーダは、テキストから言語特徴を抽出した後、言語特徴と韻律特徴をスプライシングし、又は前記言語特徴、韻律特徴、及び話者特徴をスプライシングし、スプライシングされた第２のスプライシング特徴を第２のデコーダに出力し、
第２のデコーダは、予測された前のフレームの音響特徴、及び第２のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力し、前記音響特徴は音声スペクトル特徴を含む。

後予測ネットワーク（Ｐｏｓｔ－ｎｅｔ）は、音響特徴を使用してボコーダ特徴を予測して取得する。

図６に示すように、第２のエンコーダにテキストを入力し、まず、文字埋め込み処理を経て、次に、畳み込み層と双方向ＬＳＴＭ層を経た後に言語特徴を取得する。当該言語特徴とステップ４０２で取得された韻律特徴は、すなわち韻律予測モデルによって出力された韻律特徴をスプライシングした後に、第２のスプライシング特徴を取得する。さらに、話者情報に対して埋め込み処理を行った後に話者特徴を取得し、言語特徴、話者特徴、及び韻律特徴をスプライシングした後に第２のスプライシング特徴を取得することもでき、図６に示されるのはこのような好ましい方式である。

第２のデコーダは、１つの自己回帰ネットワークであり、前のフレームの音響特徴がＰｒｅ－ｎｅｔ（前予測ネットワーク）を通過した後に取得された特徴と、注意力処理後の第２のスプライシング特徴をスプライシングし、第３のスプライシング特徴を取得する。第３のスプライシング特徴は、ＬＳＴＭ処理後に線形予測層に入力され、線形予測層から現在のフレームの音響特徴を予測して取得する。本開示の実施例に係る音響特徴は音声スペクトル特徴を含む。その中の比較的に汎用的で一般的な音声スペクトル特徴はｍｅｌ（メル）スペクトルである。

第２のデコーダは、実際には、１つの自己回帰ネットワークを使用して時系列予測を行ってｍｅｌスペクトルを取得し、第２のエンコーダでテキストの言語特徴、韻律特徴、話者特徴などを共にスプライシングして文脈特徴とし、次に、前のフレーム予測によって取得されたｍｅｌスペクトルを使用して文脈特徴を組み合わせて現在のフレームのｍｅｌスペクトルを予測し、順次に予測すると１つのｍｅｌスペクトルシーケンスを取得することができる。

後予測ネットワークの構造は、図７に示すことができ、後予測ネットワークは、音響特徴をＣＢＨＧ（Ｃｏｎｖｏｌｕｔｉｏｎｂａｎｋ＋ｈｉｇｈｗａｙｎｅｔｗｏｒｋ＋ｂｉｄｉｒｅｃｔｉｏｎａｌＧＲＵ）モジュールを経て処理した後、次に、Ｎ個の予測モジュールの予測を経て、予測結果からボコーダ特徴を構成する。予測モジュールは、双方向ＧＲＵ（ＧａｔｅＲｅｃｕｒｒｅｎｔＵｎｉｔ、ゲート付き回帰ユニット）と線形投影層を含むことができ、Ｎは正の整数である。例えば、図７に示すように、Ｎは４に設置する。ＳＰエンベロープは、高周波数、中周波数、低周波数に分割され、１つの予測モジュールによってそれぞれ予測して出力され、他のエネルギー特徴、ＣＡＰ特徴、ＬＦ０特徴、ＵＶ特徴などは、残りの１つの予測モジュールによって予測して出力される。最終的に出力されるすべてのこれらの特徴は、ボコーダ特徴を構成する。

上記の音声合成と後処理方法により、音声合成の高いリアルタイム率と少量の計算量を確保し、オフライン音声合成に基礎を提供することができる。実験的な検証を経て、当該音声合成方法のエラー率は１０００分の３より低く、携帯電話オフライン地図ナビゲーションなどの低いリソース要求シナリオの音声合成方法に適する。

以下は実施例を組み合わせて音声合成モデルのトレーニング方法を詳細に説明する。図８ａは本開示の実施例により提供される第１の音声合成モデルのトレーニング方法のフローチャートである。図８ａに示すように、当該方法は、以下のステップを含むことができ、
８０１では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた韻律特徴及びボコーダ特徴を含む。

本実施例では、トレーニングサンプルを取得する方式は、音声から開始し、例えば、いくつかの特定の話者または特定のスタイルなどの音声を標準音声として取得することができる。当該標準音声に対して音声認識を行った後、音声認識結果をテキストサンプルとする。人工的に認識する方式で標準音声に対応するテキストを認識し、当該テキストをテキストサンプルとすることもできる。

次に、標準音声からボコーダ特徴と韻律特徴を抽出し、抽出されたボコーダ特徴と韻律特徴を使用してテキストサンプルをラベリングする。音声からボコーダ特徴と韻律特徴を抽出するのは、現在、比較的成熟した技術であるため、ここでは詳しく説明しない。

８０２では、テキストサンプルと、ラベリングされた韻律特徴を音声合成モデルの入力とし、ラベリングされたボコーダ特徴を音声合成モデルのターゲット出力とし、音声合成モデルをトレーニングする。

このようなトレーニング方式は、図８ｂに示すように、実際には、テキストサンプルの韻律特徴とボコーダ特徴をすべてラベリングする。トレーニングプロセス中に、各反復において、テキストサンプルと韻律特徴を音声合成モデルに入力する。音声合成モデルは予測されたボコーダ特徴を出力した後、予測されたボコーダ特徴とラベリングされたボコーダ特徴との間の差異を最小化してトレーニングターゲットとする。具体的には、学習目標を使用して損失関数を予め設計し、次に、例えば、反復停止条件に達するまで、最急降下法などの方式を使用して音声合成モデルのモデルパラメータを反復的に更新することができる。反復停止条件は、例えば、モデルパラメータ収束と、損失関数の値が予め設定された要求を満たすことと、予め設定された反復回数の閾値に達するなどであってもよい。

音声合成モデルの構造は、依然として、図６に示すように、本実施例のトレーニングプロセス中に、音声合成モデルにおける第２のエンコーダは、テキストサンプルから言語特徴を抽出した後、言語特徴とラベリングされた韻律特徴をスプライシングし、又は言語特徴、韻律特徴、及び話者特徴（話者特徴は標準音声から抽出する）をスプライシングし、スプライシングされた第２のスプライシング特徴を第２のデコーダに出力する。

第２のデコーダは、予測された前のフレームの音響特徴、及び第２のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力し、音響特徴はｍｅｌスペクトルなどの音声スペクトル特徴を含む。

後予測ネットワークは音響特徴を使用してボコーダ特徴を予測して取得する。後予測ネットワークの構造は、図７に示すように、後予測ネットワークが音響特徴をＣＢＨＧモジュールで処理した後、次に、Ｎ個の予測モジュールの予測を経て、予測結果からボコーダ特徴を構成し、予測モジュールは双方向ＧＲＵと線形投影層を含み、Ｎは正の整数であり、例えば、４を取る。ＳＰエンベロープは、高周波数、中周波数、低周波数に分割され、１つの予測モジュールによってそれぞれ予測して出力され、他のエネルギー特徴、ＣＡＰ特徴、ＬＦ０特徴、ＵＶ特徴などは、残りの１つの予測モジュールによって予測して出力される。最終的に出力されるすべてのこれらの特徴は、ボコーダ特徴を構成する。

トレーニング終了後に取得された音声合成モデルは、上記音声合成方法の実施例に使用されて、合成しようとするテキストに対してボコーダ特徴の抽出を行うことを使用されることができる。

図９ａは本開示の実施例により提供される第２の音声合成モデルのトレーニング方法のフローチャートである。図９ａに示すように、当該方法は、以下のステップを含むことができ、
９０１では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた音響特徴及びボコーダ特徴を含む。

本実施例では、トレーニングサンプルを取得する方式は上記実施例と類似し、音声から開始し、例えば、いくつかの特定の話者または特定のスタイルなどの音声を標準音声として取得することができる。当該標準音声に対して音声認識を行った後、音声認識結果をテキストサンプルとする。人工的に認識する方式で標準音声に対応するテキストを認識し、当該テキストをテキストサンプルとすることもできる。

次に、標準音声からボコーダ特徴と音響特徴を抽出し、抽出されたボコーダ特徴と音響特徴を使用してテキストサンプルをラベリングする。音声からボコーダ特徴と音響特徴を抽出するのは、現在、比較的成熟した技術であるため、ここでは詳しく説明しない。

９０２では、ラベリングされた音響特徴を韻律抽出モデルの入力とし、韻律抽出モデルによって出力された韻律特徴とテキストサンプルを言語合成モデルの入力とし、ラベリングされたボコーダ特徴を言語合成モデルのターゲット出力とし、韻律抽出モデルと音声合成モデルをトレーニングし、トレーニングされた音声合成モデルは、合成しようとするテキストのボコーダ特徴を取得するために用いられる。

本実施例では、音声合成モデルをトレーニングするプロセスにおいて韻律抽出モデルを使用して補助トレーニングを行う。韻律抽出モデルは、音響特徴を入力した場合に韻律特徴を出力することができる。図９ｂに示すように、実際には、テキストサンプルの音響特徴とボコーダ特徴をすべてラベリングする。トレーニングプロセス中に、各反復において、すべてのラベリングされた音響特徴を韻律抽出モデルに入力し、韻律抽出モデルによって出力された韻律特徴と上記のテキストサンプルを音声合成モデルに入力する。音声合成モデルは予測されたボコーダ特徴を出力した後、予測されたボコーダ特徴とラベリングされたボコーダ特徴との間の差異を最小化してトレーニングターゲットとする。具体的には、学習目標を使用して損失関数を予め設計することができ、次に、例えば、反復停止条件に達するまで、最急降下法などの方式を使用して音声合成モデルと韻律抽出モデルのモデルパラメータを反復的に更新することができる。反復停止条件は、例えば、モデルパラメータ収束と、損失関数の値が予め設定された要求を満たすことと、予め設定された反復回数の閾値に達するなどであってもよい。

音声合成モデルの構造及び原理は、前の実施例と同じであり、説明は省略する。以下は上記の韻律抽出モデルの構造を説明する。図９ｃは本開示の実施例により提供される韻律抽出モデルの概略構造図である。図９ｃに示すように、韻律抽出モデルは、畳み込み層、双方向ＧＲＵ層、及び注意力層を含む。

ラベリングされた音響特徴、例えばｍｅｌスペクトルは、畳み込み層と双方向ＧＲＵ層を経た後、双方向ＧＲＵ層によって出力された特徴と音声合成モデルの第２のエンコーダによって抽出された言語特徴を注意力層に入力して注意力処理を行い、韻律特徴を取得する。

上記のトレーニングプロセス中に、韻律抽出モデルと音声合成モデルを共に共同トレーニングを行い、最終的にトレーニングされた音声合成モデルは、合成しようとするテキストのボコーダ特徴を取得するために用いられる。

図１０ａは本開示の実施例により提供される第３の音声合成モデルのトレーニング方法のフローチャートである。図１０ａに示すように、当該方法は、以下のステップを含むことができ、
１００１では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされたボコーダ特徴を含む。

次に、標準音声からボコーダ特徴を抽出し、抽出されたボコーダ特徴を使用してテキストサンプルをラベリングする。音声からボコーダ特徴を抽出するのは、現在、比較的成熟した技術であるため、ここでは詳しく説明しない。

１００２では、テキストサンプルを韻律予測モデルの入力とし、韻律予測モデルによって出力された韻律特徴とテキストサンプルを言語合成モデルの入力とし、ラベリングされたボコーダ特徴を言語合成モデルのターゲット出力とし、韻律予測モデルと音声合成モデルをトレーニングし、トレーニングされた音声合成モデルは、合成しようとするテキストのボコーダ特徴を取得するために用いられる。

本実施例では、音声合成モデルをトレーニングするプロセスにおいて韻律予測モデルを使用して共同トレーニングを行う。韻律予測モデルは、テキストを入力する場合に韻律特徴を出力することができる。図１０ｂに示すように、テキストサンプルのボコーダ特徴のみをすべてラベリングする必要がある。トレーニングプロセス中に、各反復において、すべてのテキストサンプルを韻律予測モデルと音声合成モデルに入力する。韻律予測モデルによって出力された韻律特徴も、音声合成モデルに入力する。音声合成モデルは、テキストと韻律特徴を入力した場合に予測されたボコーダ特徴を出力し、予測されたボコーダ特徴とラベリングされたボコーダ特徴との間の差異を最小化してトレーニングターゲットとする。具体的には、学習目標を使用して損失関数を予め設計することができ、次に、例えば、反復停止条件に達するまで、最急降下法などの方式を使用して音声合成モデルと韻律予測モデルのモデルパラメータを反復的に更新する。反復停止条件は、例えば、モデルパラメータ収束と、損失関数の値が予め設定された要求を満たすことと、予め設定された反復回数の閾値に達するなどであってもよい。

音声合成モデルの構造及び原理は、前の実施例と同じであり、韻律予測モデルの構造及び原理は、図５ａ、５ｂに示すように、第１のエンコーダと第１のデコーダを含む。

第１のエンコーダは、テキストサンプルから言語特徴を抽出した後、言語特徴を第１のデコーダに出力し、第１のデコーダは、予測された前のフレームの韻律特徴と言語特徴を使用して、現在のフレームの韻律特徴を予測して取得する。

具体的には、第１のエンコーダにおいてテキストサンプルを入力し、まず、文字埋め込み処理を経て、次に、畳み込み層と双方向ＬＳＴＭ層を経た後に言語特徴を取得する。第２のデコーダは、１つの自己回帰ネットワークであり、予測された前のフレームの韻律特徴は、まず、Ｐｒｅ－ｎｅｔ（前予測ネットワーク）を通過した後、ｐｒｅ－ｎｅｔの出力結果と言語特徴をスプライシングした後にＬＳＴＭに共に入力し、次に、線形予測層の処理を経て予測された韻律特徴を取得する。

又は、第１のデコーダがテキストサンプルから言語特徴を抽出した後、テキストサンプルから抽出された放送スタイル特徴と言語特徴をスプライシングし、取得された第１のスプライシング特徴を第１のデコーダに入力し、第１のデコーダは、予測された前のフレームの韻律特徴と第１のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得する。

上記のトレーニングプロセス中に、韻律予測モデルと音声合成モデルに対して共に共同トレーニングを行い、最終的にトレーニングされた音声合成モデルは、合成しようとするテキストのボコーダ特徴を取得するために用いられる。

図１１ａは本開示の実施例により提供される第４の音声合成モデルのトレーニング方法のフローチャートである。図１１ａに示すように、当該方法は、以下のステップを含むことができ、
１１０１では、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた音響特徴及びボコーダ特徴を含む。

１１０２では、ラベリングされた音響特徴を韻律抽出モデルの入力とし、韻律抽出モデルによって出力された韻律特徴とテキストサンプルを言語合成モデルの入力とし、ラベリングされたボコーダ特徴を言語合成モデルのターゲット出力とし、テキストサンプルを韻律予測モデルの入力とし、韻律抽出モデルによって出力された韻律特徴を韻律予測モデルのターゲット出力とし、韻律予測モデルと、韻律抽出モデルと、音声合成モデルをトレーニングし、トレーニングされた音声合成モデルは、合成しようとするテキストのボコーダ特徴を取得するために用いられる。

本実施例では、音声合成モデルをトレーニングするプロセスにおいて韻律抽出モデルと韻律予測モデルを使用して共同トレーニングを行う。韻律抽出モデルはラベリングされた音響特徴を入力した場合に韻律特徴を出力し、韻律予測モデルはテキストサンプルを入力した場合に韻律特徴を出力することができる。図１１ｂに示すように、テキストサンプルのボコーダ特徴と音響特徴に対してすべてラベリングする必要がある。トレーニングプロセス中に、各反復において、すべてのテキストサンプルを韻律予測モデルと音声合成モデルに入力し、ラベリングされた音響特徴を韻律抽出モデルに入力する。韻律抽出モデルによって出力された韻律特徴も、音声合成モデルに入力する。音声合成モデルは、テキストと韻律特徴を入力した場合に予測されたボコーダ特徴を出力し、予測されたボコーダ特徴とラベリングされたボコーダ特徴との間の差異を最小化し、韻律予測モデルによって予測された韻律特徴と韻律抽出モデルによって抽出された韻律特徴との間の差異を最小化してトレーニングターゲットとする。具体的には、学習目標を使用して２つの損失関数を予め設計することができ、すなわち予測されたボコーダ特徴とラベリングされたボコーダ特徴との間の差異を最小化して損失関数Ｌ１を構築し、韻律予測モデルによって予測された韻律特徴と韻律抽出モデルによって抽出された韻律特徴との間の差異を最小化して損失関数Ｌ２を構築する。Ｌ１とＬ２を使用して全損失関数を構築し、当該全損失関数に基づいて、例えば、反復停止条件に達するまで、最急降下法などの方式を使用して音声合成モデルと韻律予測モデルのモデルパラメータを反復的に更新する。反復停止条件は、例えば、モデルパラメータ収束と、損失関数の値が予め設定された要求を満たすことと、予め設定された反復回数の閾値に達するなどであってもよい。

上記の音声合成モデルは、トレーニングデータに対する要求が低く、通常、数百の文で商業的な安定的効果、表現力、及び流暢さを達成することができる。

以上は、本開示により提供される方法に対する詳細な説明であり、以下は、実施例を組み合わせて本開示により提供される装置を詳細に説明する。

図１２は本開示の実施例により提供される音声処理装置の概略構造図である。当該音声処理装置は図１に示す後処理装置に設置することができ、図１２に示すように、当該装置１２００は、特徴取得ユニット１２０１、ＵＶ修正ユニット１２０２、及び特徴送信ユニット１２０３を含むことができる、線形補間ユニット１２０４、及び逆正規化ユニット１２０５をさらに含むこともできる。各構成ユニットの主な機能は、以下のようである。
特徴取得ユニット１２０１は、テキストに対して得られたボコーダ特徴を取得するために用いられる。

ＵＶ修正ユニット１２０２は、ボコーダ特徴におけるエネルギー特徴及び／又は音声スペクトル特徴に基づいて、ボコーダ特徴におけるＵＶ特徴に対して値修正を行うために用いられる。

特徴送信ユニット１２０３は、合成された音声を取得するように、修正後のボコーダ特徴をボコーダに提供するために用いられる。

１つの実現方式として、ＵＶ修正ユニット１２０２は、具体的には、ボコーダ特徴におけるＵＶ特徴シーケンスの値変化境界上の値が１のフレームに対応するエネルギー特徴値が０より小さいか否かをそれぞれ判断し、そうである場合、当該フレームのＵＶ特徴値を０に修正し、ＵＶ特徴シーケンスの値変化境界上の値が０のフレームに対応するエネルギー特徴値と、値が１の隣接フレームに対応するエネルギー特徴値との間の比率が予め設定された比率の閾値より大きいか否かをそれぞれ判断し、そうである場合、当該値が０のフレームのＵＶ特徴値を１に修正するために用いられる。

別の実現方式として、ＵＶ修正ユニット１２０２は、具体的には、各フレームについて、当該フレーム音声スペクトル特徴の前のＭ次元の最大値が予め設定された第１の閾値より小さい場合、当該フレームのＵＶ特徴値を１に設置し、当該フレーム音声スペクトル特徴の前のＭ次元の最大値が予め設定された第２の閾値より大きい場合、当該フレームのＵＶ特徴値を０に設置するために用いられ、Ｍは予め設定された正の整数であり、第２の閾値は第１の閾値より大きい。

好ましい実施方式として、音声スペクトル特徴はメルスペクトル特徴であり、Ｍは２０であり、第１の閾値は２であり、第２の閾値は２．５である。

線形補間ユニット１２０４は、予め設定された補間倍数に従って、特徴取得ユニット１２０１によって取得されたボコーダ特徴に対して線形補間処理を行い、線形補間処理後のボコーダ特徴をＵＶ修正ユニット１２０２に提供するために用いられる。

逆正規化ユニット１２０５は、ＵＶ修正ユニット１２０２に対して修正した後のボコーダ特徴内の予め設定されたタイプの特徴シーケンスに対して逆正規化処理を行い、処理後のボコーダ特徴を特徴送信ユニット１２０３に提供するために用いられ、逆正規化処理は、音声合成モデルのトレーニングプロセス中に予め設定されたタイプの特徴シーケンスに対して行われる正規化処理に対応し、音声合成モデルは、テキストに対して得られたボコーダ特徴を取得するソースである。

図１３は開示の実施例により提供される音声合成装置の概略構造図である。すなわち図１に示す音声合成装置である。図１３に示すように、当該装置１３００は、テキスト取得ユニット１３０１、韻律抽出ユニット１３０２、及び音声合成ユニット１３０３を含むことができ、モデルトレーニングユニット１３０４をさらに含むこともできる。各構成ユニットの主な機能は、以下のようである。
テキスト取得ユニット１３０１は、合成しようとするテキストを取得するために用いられる。

韻律抽出ユニット１３０２は、テキストから抽出された韻律特徴を取得するために用いられる。

音声合成ユニット１３０３は、テキストと韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得するために用いられる。

韻律抽出ユニット１３０２は、具体的には、テキストを韻律予測モデルに入力して、韻律特徴を取得するために用いられる。韻律予測モデルは、第１のエンコーダと第１のデコーダを含む。

１つの実現方式として、第１のエンコーダは、テキストから言語特徴を抽出した後、言語特徴を第１のデコーダに出力するために用いられ、第１のデコーダは、予測された前のフレームの韻律特徴と言語特徴を使用して、現在のフレームの韻律特徴を予測して取得する。

別の実現方式として、第１のデコーダは、テキストから言語特徴を抽出した後、テキストから抽出された放送スタイル特徴と言語特徴をスプライシングし、取得された第１のスプライシング特徴を第１のデコーダに入力し、第１のデコーダは予測された前のフレームの韻律特徴と第１のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得するために用いられる。

音声合成モデルは、第２のエンコーダ、第２のデコーダ、及び後予測ネットワークを含むことができる。

第２のエンコーダは、テキストから言語特徴を抽出した後、言語特徴と韻律特徴をスプライシングし、又は言語特徴、韻律特徴、及び話者特徴をスプライシングし、スプライシングされた第２のスプライシング特徴を第２のデコーダに出力するために用いられる。

第２のデコーダは、予測された前のフレームの音響特徴と、第２のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して後予測ネットワークに出力するために用いられ、音響特徴は音声スペクトル特徴を含む。

後予測ネットワークは、音響特徴を使用してボコーダ特徴を予測して取得するために用いられる。

１つの実現可能な方式として、第２のデコーダは、前のフレームの音響特徴が前予測ネットワークを通過した後に取得された特徴と、注意力処理後の第２のスプライシング特徴をスプライシングし、第３のスプライシング特徴を取得し、第３のスプライシング特徴は、長短期記憶ネットワークＬＳＴＭを経て処理した後に線形予測層に入力し、線形予測層から現在のフレームの音響特徴を予測して取得する。

１つの実現可能な方式として、後予測ネットワークは、音響特徴がＣＢＨＧモジュールを経て処理した後、次に、Ｎ個の予測モジュールの予測を経て、予測結果からボコーダ特徴を構成し、予測モジュールは、双方向ゲート付き回帰ユニットＧＲＵと線形投影層を含み、Ｎは正の整数である。

上記のモデルトレーニングユニット１３０４は、以下のいくつかのトレーニング方式を使用することができるこれらに限定しない。
第１のトレーニング方式：モデルトレーニングユニット１３０４は、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた韻律特徴及びボコーダ特徴を含み、テキストサンプルと、ラベリングされた韻律特徴を音声合成モデルの入力とし、ラベリングされたボコーダ特徴を音声合成モデルのターゲット出力とし、音声合成モデルをトレーニングする。

第２のトレーニング方式：モデルトレーニングユニット１３０４は、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた音響特徴及びボコーダ特徴を含み、ラベリングされた音響特徴を韻律抽出モデルの入力とし、韻律抽出モデルによって出力された韻律特徴とテキストサンプルを言語合成モデルの入力とし、ラベリングされたボコーダ特徴を言語合成モデルのターゲット出力とし、韻律抽出モデルと音声合成モデルをトレーニングする。

第３のトレーニング方式：モデルトレーニングユニット１３０４は、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされたボコーダ特徴を含み、テキストサンプルを韻律予測モデルの入力とし、韻律予測モデルによって出力された韻律特徴とテキストサンプルを言語合成モデルの入力とし、ラベリングされたボコーダ特徴を言語合成モデルのターゲット出力とし、韻律予測モデルと音声合成モデルをトレーニングする。

第４のトレーニング方式：モデルトレーニングユニット１３０４は、トレーニングサンプルを取得し、各トレーニングサンプルは、テキストサンプルとテキストサンプルにラベリングされた音響特徴及びボコーダ特徴を含み、ラベリングされた音響特徴を韻律抽出モデルの入力とし、韻律抽出モデルによって出力された韻律特徴とテキストサンプルを言語合成モデルの入力とし、ラベリングされたボコーダ特徴を言語合成モデルのターゲット出力とし、テキストサンプルを韻律予測モデルの入力とし、韻律抽出モデルによって出力された韻律特徴を韻律予測モデルのターゲット出力とし、韻律予測モデルと、韻律抽出モデルと、音声合成モデルをトレーニングする。

上記の第２のトレーニング方式と第４のトレーニング方式に関する韻律抽出モデルは、畳み込み層、双方向ＧＲＵ層、及び注意力層を含むことができる。

ラベリングされた音響特徴は、畳み込み層と双方向ＧＲＵ層を経た後、取得された特徴と音声合成モデルにおける第２のエンコーダによって抽出された言語特徴を注意力層に入力して注意力処理を行い、韻律特徴を取得する。

上記の４つの方式では、モデルトレーニングユニット１３０４は、標準音声を取得し、標準音声に対応するテキストをテキストサンプルとして決定することができる。標準音声から音響特徴とボコーダ特徴のうちの少なくとも１つをテキストサンプルとして抽出してラベリングする。テキストサンプルから韻律特徴を抽出してテキストサンプルをラベリングする。

本明細書の各実施例は、すべて漸進的な方式を使用して説明し、各実施例間の同一および類似の部分は、互いに参照すればよく、各実施例は、すべて他の実施例との違いについて重点的に説明する。特に、装置の実施例は、方法の実施例に基本的に類似するため、説明は比較的に簡単であり、関連するところは、方法の実施例の部分の説明を参照すればよい。

本開示の技術案において、関するユーザ個人情報の取得、記憶、応用などは、すべて関連する法律および規定を満たし、公序良俗に違反しない。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。

図１４に示すように、本開示の実施例に係る音声処理方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実現を制限することを意図したものではない。

図１４に示すように、機器１４００は計算ユニット１４０１を含み、計算ユニット１４０１は、読み取り専用メモリ（ＲＯＭ）１４０２に記憶されているコンピュータプログラムまたは記憶ユニット１４０８からランダムアクセスメモリ（ＲＡＭ）１４０３にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。ＲＡＭ１４０３には、機器１４００が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット１４０１、ＲＯＭ１４０２、およびＲＡＭ１４０３は、バス１４０４を介してお互いに接続される。入出力（Ｉ／Ｏ）インターフェース１４０５もバス１４０４に接続される。

機器１４００内の複数のコンポーネントは、Ｉ／Ｏインターフェース１４０５に接続されており、キーボード、マウスなどの入力ユニット１４０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット１４０７と、ディスク、光ディスクなどの記憶ユニット１４０８と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット１４０９と、を含む。通信ユニット１４０９は、機器１４００が、インターネットなどのコンピュータネットワーク、および／または様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット１４０１は、様々な処理と計算能力を備える汎用および／または専用の処理コンポーネントである。計算ユニット１４０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット１４０１は、音声処理方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、音声処理方法は、記憶ユニット１４０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。

いくつかの実施例では、コンピュータプログラムの一部または全部は、ＲＯＭ１４０２および／または通信ユニット１４０９を介して機器１４００にローディングおよび／またはインストールされる。コンピュータプログラムがＲＡＭ１４０３にローディングされて計算ユニット１４０１によって実行される場合、上記の音声処理方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット１４０１は、他の任意の適切な方式（例えば、ファームウェアによって）を介して音声処理方法を実行するように構成されることができる。

本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ローディングプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび／またはブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。

本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークと、を含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストと仮想プライベートサーバ（ＶＰｓ、ＶＩｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスに、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

音声処理方法であって、
テキストに対して得られたボコーダ特徴を取得するステップと、
前記ボコーダ特徴におけるエネルギー特徴及び／又は音声スペクトル特徴に基づいて、前記ボコーダ特徴におけるＵＶ特徴に対して値修正を行うステップと、
合成された音声を取得するように、修正後のボコーダ特徴をボコーダに提供するステップと、を含む、
音声処理方法。
前記ボコーダ特徴におけるエネルギー特徴に基づいて、前記ボコーダ特徴におけるＵＶ特徴に対して値修正を行うステップは、
前記ボコーダ特徴におけるＵＶ特徴シーケンスの値変化境界上の値が１のフレームに対応するエネルギー特徴値が０より小さいか否かをそれぞれ判断し、そうである場合、当該フレームのＵＶ特徴値を０に修正するステップと、
前記ＵＶ特徴シーケンスの値変化境界上の値が０のフレームに対応するエネルギー特徴値と、値が１の隣接フレームに対応するエネルギー特徴値との間の比率が予め設定された比率の閾値より大きいか否かをそれぞれ判断し、そうである場合、当該値が０のフレームのＵＶ特徴値を１に修正するステップと、を含む、
請求項１に記載の音声処理方法。
前記ボコーダ特徴における音声スペクトル特徴に基づいて、前記ボコーダ特徴におけるＵＶ特徴に対して値修正を行うステップは、
各フレームについて、当該フレームにおける前記音声スペクトル特徴の前のＭ次元の最大値が予め設定された第１の閾値より小さい場合、当該フレームのＵＶ特徴値を１に設置するステップと、
当該フレームにおける前記音声スペクトル特徴の前のＭ次元の最大値が予め設定された第２の閾値より大きい場合、当該フレームのＵＶ特徴値を０に設置するステップと、を含み、
前記Ｍは予め設定された正の整数であり、前記第２の閾値は前記第１の閾値より大きい、
請求項１に記載の音声処理方法。
前記音声スペクトル特徴はメルスペクトル特徴であり、
前記Ｍは２０であり、
前記第１の閾値は２であり、
前記第２の閾値は２．５である、
請求項３に記載の音声処理方法。
前記ボコーダ特徴におけるエネルギー特徴及び／又は音声スペクトル特徴に基づいて、前記ボコーダ特徴におけるＵＶ特徴に対して値修正を行うステップの前に、
予め設定された補間倍数に従って、前記ボコーダ特徴に対して線形補間処理を行うステップをさらに含む、
請求項１に記載の音声処理方法。
前記修正後のボコーダ特徴をボコーダに提供するステップの前に、
前記修正後のボコーダ特徴内の予め設定されたタイプの特徴シーケンスに対して逆正規化処理を行うステップをさらに含み、
前記逆正規化処理は、音声合成モデルのトレーニングプロセス中に前記予め設定されたタイプの特徴シーケンスに対して行われる正規化処理に対応し、
前記音声合成モデルは、前記テキストに対して得られたボコーダ特徴を取得するソースである、
請求項１から５のいずれか一項に記載の音声処理方法。
前記テキストに対して得られたボコーダ特徴を取得するステップは、
前記テキストから抽出された韻律特徴を取得するステップと、
前記テキストと前記韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得するステップと、を含み、
前記音声合成モデルは、第２のエンコーダ、第２のデコーダ、及び後予測ネットワークを含み、
前記第２のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴と前記韻律特徴をスプライシングし、又は、前記言語特徴、韻律特徴、及び話者特徴をスプライシングし、スプライシングされた第２のスプライシング特徴を前記第２のデコーダに出力し、
前記第２のデコーダは、予測された前のフレームの音響特徴、及び前記第２のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力し、前記音響特徴は音声スペクトル特徴を含み、
前記後予測ネットワークは音響特徴を使用してボコーダ特徴を予測して取得する、
請求項１から５のいずれか一項に記載の音声処理方法。
前記後予測ネットワークが音響特徴を使用してボコーダ特徴を予測して取得するステップは、
前記後予測ネットワークが音響特徴をＣＢＨＧモジュールで処理した後、次に、Ｎ個の予測モジュールの予測を経て、予測結果からボコーダ特徴を構成するステップを含み、
前記予測モジュールは、双方向ゲート付き回帰ユニット(ＧＲＵ)と線形投影層を含み、
前記Ｎは正の整数である、
請求項７に記載の音声処理方法。
前記テキストから抽出された韻律特徴を取得するステップは、
前記テキストを韻律予測モデルに入力して、前記韻律特徴を取得するステップを含み、
前記韻律予測モデルは、第１のエンコーダと第１のデコーダを含み、
前記第１のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴を前記第１のデコーダに出力し、前記第１のデコーダは、予測された前のフレームの韻律特徴と前記言語特徴を使用して、現在のフレームの韻律特徴を予測して取得し、
又は、
前記第１のデコーダは、前記テキストから言語特徴を抽出した後、前記テキストから抽出された放送スタイル特徴と前記言語特徴をスプライシングし、取得された第１のスプライシング特徴を前記第１のデコーダに入力し、前記第１のデコーダは、予測された前のフレームの韻律特徴と前記第１のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得する、
請求項７に記載の音声処理方法。
音声処理装置であって、
テキストに対して得られたボコーダ特徴を取得するための特徴取得ユニットと、
前記ボコーダ特徴におけるエネルギー特徴及び／又は音声スペクトル特徴に基づいて、前記ボコーダ特徴におけるＵＶ特徴に対して値修正を行うためのＵＶ修正ユニットと、
合成された音声を取得するように、修正後のボコーダ特徴をボコーダに提供するための特徴送信ユニットと、を含む、
音声処理装置。
前記ＵＶ修正ユニットは、具体的には、前記ボコーダ特徴におけるＵＶ特徴シーケンスの値変化境界上の値が１のフレームに対応するエネルギー特徴値が０より小さいか否かをそれぞれ判断し、そうである場合、当該フレームのＵＶ特徴値を０に修正し、
前記ＵＶ特徴シーケンスの値変化境界上の値が０のフレームに対応するエネルギー特徴値と、値が１の隣接フレームに対応するエネルギー特徴値との間の比率が予め設定された比率の閾値より大きいか否かをそれぞれ判断し、そうである場合、当該値が０のフレームのＵＶ特徴値を１に修正するために用いられる、
請求項１０に記載の音声処理装置。
前記ＵＶ修正ユニットは、具体的には、各フレームについて、当該フレームにおける前記音声スペクトル特徴の前のＭ次元の最大値が予め設定された第１の閾値より小さい場合、当該フレームのＵＶ特徴値を１に設置し、
当該フレームにおける前記音声スペクトル特徴の前のＭ次元の最大値が予め設定された第２の閾値より大きい場合、当該フレームのＵＶ特徴値を０に設置するために用いられ、
前記Ｍは予め設定された正の整数であり、
前記第２の閾値は前記第１の閾値より大きい、
請求項１０に記載の音声処理装置。
前記音声スペクトル特徴はメルスペクトル特徴であり、
前記Ｍは２０であり、
前記第１の閾値は２であり、
前記第２の閾値は２．５である、
請求項１２に記載の音声処理装置。
前記音声処理装置は、
予め設定された補間倍数に従って、前記特徴取得ユニットによって取得されたボコーダ特徴に対して線形補間処理を行い、線形補間処理後のボコーダ特徴を前記ＵＶ修正ユニットに提供するための線形補間ユニットをさらに含む、
請求項１０に記載の音声処理装置。
前記音声処理装置は、前記ＵＶ修正ユニットによって修正されたボコーダ特徴内の予め設定されたタイプの特徴シーケンスに対して逆正規化処理を行い、処理後のボコーダ特徴を前記特徴送信ユニットに提供するための逆正規化ユニットをさらに含み、
前記逆正規化処理は、音声合成モデルのトレーニングプロセス中に前記予め設定されたタイプの特徴シーケンスに対して行われる正規化処理に対応し、
前記音声合成モデルは、前記テキストに対して得られたボコーダ特徴を取得するソースである、
請求項１０から１４のいずれか一項に記載の音声処理装置。
前記特徴取得ユニットは、具体的には、前記テキストから抽出された韻律特徴を取得し、前記テキストと前記韻律特徴を音声合成モデルに入力して、ボコーダ特徴を取得するために用いられ、
前記音声合成モデルは、第２のエンコーダ、第２のデコーダ、及び後予測ネットワークを含み、
前記第２のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴と前記韻律特徴をスプライシングし、又は前記言語特徴、韻律特徴、及び話者特徴をスプライシングし、スプライシングされた第２のスプライシング特徴を前記第２のデコーダに出力し、
前記第２のデコーダは、予測された前のフレームの音響特徴、及び前記第２のスプライシング特徴を使用して、現在のフレームの音響特徴を予測して前記後予測ネットワークに出力し、前記音響特徴は音声スペクトル特徴を含み、
前記後予測ネットワークは音響特徴を使用してボコーダ特徴を予測して取得する、
請求項１０から１４のいずれか一項に記載の音声処理装置。
前記特徴取得ユニットは、具体的には、前記テキストを韻律予測モデルに入力して、前記韻律特徴を取得するために用いられ、
前記韻律予測モデルは、第１のエンコーダと第１のデコーダを含み、
前記第１のエンコーダは、前記テキストから言語特徴を抽出した後、前記言語特徴を前記第１のデコーダに出力し、前記第１のデコーダは、予測された前のフレームの韻律特徴と前記言語特徴を使用して、現在のフレームの韻律特徴を予測して取得し、又は、
前記第１のデコーダは、前記テキストから言語特徴を抽出した後、前記テキストから抽出された放送スタイル特徴と前記言語特徴をスプライシングし、取得された第１のスプライシング特徴を前記第１のデコーダに入力し、前記第１のデコーダは、予測された前のフレームの韻律特徴と前記第１のスプライシング特徴を使用して、現在のフレームの韻律特徴を予測して取得する、
請求項１６に記載の音声処理装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項１～５のいずれかの一つに記載の音声処理方法を実行する、
電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～５のいずれかの一つに記載の音声処理方法を実行させる、
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される時に請求項１～５のいずれかの一つに記載の音声処理方法を実現する、
コンピュータプログラム。