JP2022133408A

JP2022133408A - 音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラム

Info

Publication number: JP2022133408A
Application number: JP2022109065A
Authority: JP
Inventors: 懌翔陳; Yixiang Chen; 俊超王; Chun-Chao Wang; 永国康; Yongguo Kang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-09
Filing date: 2022-07-06
Publication date: 2022-09-13
Also published as: CN113571039A; US20220383876A1; CN113571039B

Abstract

【課題】目標話者の音声感情、調子などの音色特徴を保留するとともに、演算コストを低減した音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラムを提供する。【解決手段】音声変換方法は、目標話者の第１の音声を取得することと、元話者の音声を取得することと、目標話者の第１の音声の第１の特徴パラメータを抽出することと、元話者の音声の第２の特徴パラメータを抽出することと、第１の特徴パラメータと第２の特徴パラメータとを処理してメルスペクトラム情報を取得することと、メルスペクトラム情報を変換して、目標話者の第１の音声と音色が同じ、且つ、元話者の音声と内容が同じである目標話者の第２の音声を出力することと、を含む。【選択図】図１

Description

本開示は、音声、ディープラーニングなどの人工知能の技術分野に関し、特に音声変換技術に関する。

音声変換とは、元の語意情報を変更せずに保留する前提で、元話者の音声個性特徴を変更することで、目標話者の音声個性特徴を持たせ、一人の音声が変換された後に別人の音声に聞こえるようにすることである。音声変換の研究は、重要な応用価値と理論価値とを有する。音響特徴パラメータはいずれも、人のすべての個性特徴情報を表すことができないため、我々は、異なる人を最も代表し得る音声個性特徴パラメータを選択することで音声の変換を行う。

本開示は、音声変換効果を向上させ、元音声の音色を保留する音声変換方法、システム、電子機器、読取可能な記憶媒体及びコンピュータプログラムを提供している。

本開示の一局面によれば、音色の点で目標話者により近い音声変換方法であって、
目標話者の第１の音声を取得することと、
元話者の音声を取得することと、
目標話者の第１の音声の第１の特徴パラメータを抽出することと、
元話者の音声の第２の特徴パラメータを抽出することと、
前記第１の特徴パラメータと前記第２の特徴パラメータとを処理して、メルスペクトラム情報を取得することと、
前記メルスペクトラム情報を変換して、目標話者の第１の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第２の音声を出力することと、を含む、
音声変換方法を提供している。

本開示の別の局面によれば、音声変換システムであって、
目標話者の第１の音声を取得するための第１の取得モジュールと、
元話者の音声を取得するための第２の取得モジュールと、
目標話者の第１の音声の第１の特徴パラメータを抽出するための第１の抽出モジュールと、
元話者の音声の第２の特徴パラメータを抽出するための第２の抽出モジュールと、
前記第１の特徴パラメータと前記第２の特徴パラメータとを処理してメルスペクトラム情報を取得するための処理モジュールと、
前記メルスペクトラム情報を変換して、目標話者の第１の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第２の音声を出力するための変換モジュールと、を含む、
音声変換システムを提供している。

本開示の第３の局面によれば、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも１つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサが本開示の第１の局面のいずれかに記載の方法を実行することができる、
電子機器を提供している。

本開示の第４の局面によれば、コンピュータに本開示の第１の局面のいずれかに記載の方法を実行させるためのコンピュータコマンドを記憶している、非一時的なコンピュータ読取可能な記憶媒体を提供している。

本開示の第５の局面によれば、プロセッサにより実行される場合に、本開示の第１の局面のいずれかに記載の方法を実現するコンピュータプログラムを提供している。

本開示が提供した技術案による有益な効果は、
従来の音声変換技術を基礎とし、元話者の音声の基本周波数に対する抽出及び処理を加えることで、該音声変換方法及びシステムは、音声感情、調子等の特質を保留する。

上記方法及びシステムを採用することで、音声変換を処理する時、演算コストがより小さく、ハードウェア要求がより低くなる。

理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。

ここで、図面は、本技術案をよりよく理解するために用いられ、本開示を限定するものではない。
図１は、本開示による音声変換方法の模式図である。図２は、本開示による目標話者の第１の音声の第１の特徴パラメータを抽出する模式図である。図３は、本開示による元話者の音声の第２の特徴パラメータを抽出する模式図である。図４は、本開示による前記テキストライク特徴を処理して第１の基本周波数と第１の基本周波数表現とを取得する模式図である。図５は、本開示による音声変換システムの模式図である。図５-１は、本開示による第１の抽出モジュールの模式図である。図５-２は、本開示による第２の抽出モジュールの模式図である。図５-３は、本開示による処理モジュールの模式図である。図６は、本開示の実施例の音声変換システムを実現するための電子機器のブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。

《用語の解釈》
基本周波数：発音中の周波数が最も低い正弦波であり、基本周波数はこの音の音高を表すことができ、歌唱中の基本周波数はこの音の音高である。
声紋特徴：話者の音色を保存する特徴ベクトルであり、理想的な状況で、各話者は唯一かつ確定された声紋特徴ベクトルを有し、この声紋特徴ベクトルはこの話者を完全に代表することができ、指紋で類比することができる。
メルスペクトラム：周波数の単位はヘルツであり、人の耳に聞こえる周波数範囲は２０～２００００ヘルツであるが、人の耳がヘルツ単位に対して線形に敏感ではなく、低ヘルツに敏感であり、高ヘルツに敏感ではなく、ヘルツ周波数をメル周波数に変換すると、人の耳の周波数への感知度は線形になる。
長・短期記憶ネットワーク：長・短期記憶ネットワーク（ＬＳＴＭ，ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）は、時間循環ニューラルネットワークである。
ボコーダ：メルスペクトラム（ｍｅｌスペクトラム）情報を音声波形信号に合成するために用いられる。

音声変換システム１とは、元話者の音声を目標話者と同じ音色の音声に変換する音響変換器のようなシステムを指す。よりオリジナルな音響変換器との相違点は、音声変換後の音声がよりリアルに聞こえ、同時に音色レベルでより目標話者に近いことにある。同時に、音声変換システムは、テキスト及び感情情報を十分に保留することもでき、それにより目標話者の大幅な代替性を達成する。

図１に示すように、本開示による第１の局面は、以下のステップを含む音声変換方法を提供している。

Ｓ１０１：目標話者の第１の音声を取得する。目標話者とは、音声変換しようとする目標対象を指す。ここで取得されたのはテキスト情報であってもよく、そしてオーディオに変換されて目標話者の第１の音声になる。特定の目標話者が指定されると、計算方法全体は汎化性を考慮する必要がなく、計算の圧縮可能な空間が大きくなり、これによって計算のコストがより小さい。

Ｓ１０２：元話者の音声、即ち、変換される対象の音声を取得する。取得されたのはテキスト情報であってもよく、そしてオーディオに変換されて元話者の音声になる。

Ｓ１０３：目標話者の第１の音声の第１の特徴パラメータを抽出する。人の音声情報特徴パラメータは種々の特徴を含み、各特徴は音声表現において果たす役割が異なる。音色特徴を表す音響パラメータは、大体、声紋特徴、フォルマントの帯域幅、メルケプストラム係数、フォルマントの位置、音声のエネルギー、基本音周期などを含む。基本音周期の逆数は基本周波数である。目標話者の第１の音声から抽出したのは、上記パラメータのうちのいずれか１つ又は複数であり得る。

Ｓ１０４：元話者の音声の第２の特徴パラメータを抽出する。上記第１の特徴パラメータと同様に、第２の特徴パラメータも、大体、上述したような種類を含む。なお、元話者の音声に含まれる情報から抽出したのは、テキストコード、第１の基本周波数、及び第１の基本周波数表現という特徴パラメータをさらに含む。

Ｓ１０５：前記第１の特徴パラメータと前記第２の特徴パラメータとを処理してメルスペクトラム情報を取得する。

Ｓ１０６：前記メルスペクトラム情報を変換して、目標話者の第１の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第２の音声を出力する。元話者の音声を目標話者の音声に変換することは、例えば、音声合成、マルチメディア分野、医学分野、音声通訳分野などの多数の分野に適用することができる。

前記取得された目標話者の第１の音声と取得された元話者の音声とは、いずれもオーディオ情報である。オーディオ情報を直接に音声変換に用いた方がより直接であり、変換後の音声がより明瞭になる。しかも、オーディオ情報は、話者の話し内容、感情、調子などの音素を含む。

前記第１の特徴パラメータは、時間次元情報を有する声紋特徴を含む。

図２に示すように、前記目標話者の第１の音声の第１の特徴パラメータを抽出することは、以下のステップを含む。

Ｓ２０１：目標話者の第１の音声の声紋特徴を抽出する。声紋特徴は、１つの話者が１つだけを有する、唯一且つ確定された特徴であり、人の指紋と類似する。

Ｓ２０２：前記目標話者の第１の音声の声紋特徴に時間次元を付加して第１の特徴パラメータを取得する。上記解釈から、声紋特徴が時間と関連しないパラメータであることを判明した。ここで声紋特徴と時間とを関連付けることは、以降の第１の特徴パラメータと第２の特徴パラメータとを一緒に処理しやすくするためである。ここで、声紋特徴処理を行うのは、畳み込み層のみならず、長・短期記憶ネットワークもある。

前記第２の特徴パラメータは、時間と関連するテキストコード、第１の基本周波数、及び第１の基本周波数表現を含む。ここで時間と関連する「テキストコード」を強調したのは、最後に音声変換のプロセスにおいて、音声が連続であり、且つ時間と関連しており、即ち、一文の各単語には前後があるためである。なお、時間ではなく、各文字のみを介して一文や一段落を区分すると、後で単独文字を組み合わせて目標話者の音声に変換する可能性があり、そうすると、元話者の音声感情、イントネーション、音色情報を持たない一文や一段落が現れることになり、非常に硬くなる。時間に基づいて一文や一段落を区分すれば、後で音声調子、音色情報を持つ一文や一段落を組み合わせて目標話者の声に変換することになる。無論、時間に関連するテキストコードによれば、音声変換後の音声効果により有利である。

図３に示すように、前記元話者の音声の第２の特徴パラメータを抽出することは、以下のステップを含む。

Ｓ３０１：元話者の音声のテキストライク特徴を抽出する。いわゆるテキストライク特徴とは、時間に関連するテキスト特徴である。例えば、元話者が話した一文を抽出して、該テキストライク特徴は、語意のみならず、時間情報も含み、即ち、一文の各文字の出現には時間的前後があり、或いは、一段落の各単語の出現には時間的前後がある。

Ｓ３０２：前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得する。テキストライク特徴と、時間に関連するテキストコードとは、いずれも各フレームの音声ごとに１つのベクトルを有する。テキストライク特徴に対して次元削減処理を行うことは、演算量を低減するためである。ここでは、畳み込み層のみで次元削減処理を行う。

Ｓ３０３：前記テキストライク特徴を処理して第１の基本周波数と第１の基本周波数表現とを取得する。前記テキストライク特徴は、時間に関連しているため、処理された第１の基本周波数及び第１の基本周波数表現も時間に関連している。即ち、第１の基本周波数及び第１の基本周波数表現も、各フレームの音声に対応している。

図４に示すように、前記テキストライク特徴を処理して第１の基本周波数と第１の基本周波数表現とを取得することは、以下のステップを含む。

Ｓ４０１：前記元話者の音声と前記テキストライク特徴とを利用して、ニューラルネットワークによってトレーニングして、前記テキストライク特徴から基本周波数へのマッピングモデルを取得する。

ニューラルネットワークをトレーニングするプロセスにおいて、元話者の音声のうちの基本周波数を抽出し、元話者が話した話しのうち、基本周波数に対応するテキストライク特徴を抽出して、テキストライク特徴から基本周波数へのマッピングモデルが取得されることになる。トレーニングプロセスにおいて、元話者の音声のうちの基本周波数がトレーニング校正のために用いられる。トレーニングプロセスにおいて、２つの損失関数が用いられ、１つは基本周波数の損失関数であり、もう１つは元話者の音声の自己再構成損失関数である。

Ｓ４０２：前記テキストライク特徴から基本周波数へのマッピングモデルを利用して、前記テキストライク特徴を処理して第１の基本周波数と第１の基本周波数表現を取得する。実際の応用段階において、トレーニング段階で取得されたテキストライク特徴から基本周波数へのマッピングモデルを採用して、テキストライク情報によって第１の基本周波数を予測する。さらに、このマッピングモデルの出力の隠蔽層は、第１の基本周波数表現を出力した。なお、テキストライク特徴から基本周波数へのマッピングモデルには、さらに長・短時間記憶ネットワークを付加する。前記長・短時間記憶ネットワークを付加する原因は、基本周波数が時間に関連するだけではなく、コンテキストにも関連する。そのため、長・短時間記憶ネットワークは、テキストライク特徴から基本周波数へのマッピングモデルに時間情報を付加するものである。同様に、ここでも、１つの文字の基本周波数に基づいて処理するわけではなく、一文又は一段落の基本周波数に基づいて処理する。即ち、時間に関連し、コンテキストに関連する基本周波数に基づいて後の音声変換を行う。このようにする利点は、変換後に、元話者の音声感情、調子などの音色要素を保留した。

前記ニューラルネットワークによってトレーニングすることは、畳み込み層と長・短期記憶ネットワークとを利用してトレーニングすることを含む。畳み込み層は、主に次元削減のために用いられ、長・短期記憶ネットワークは、主にテキストライク特徴から基本周波数へのマッピングモデルに時間情報を付加するために用いられる。

ここまで、上記声紋特徴が処理されて時間に関連する声紋特徴が取得される。テキストライク特徴が畳み込み層に次元削減されて時間に関連するテキストコードが取得される。第１の基本周波数も時間に関連している。第１の基本周波数は時間に関連しており、つまりフレームごとに１つの基本周波数があり、テキストライク特徴も時間に関連しており、フレームごとに１つがあるが、基本周波数は数値であり、一方、テキストライク特徴はベクトルであり、そのため、テキストライク特徴を１つの基本周波数へマッピングする。つまり、テキストライク特徴をテキストコードに次元削減する一方、テキストライク特徴から周波数領域へのマッピングを確立する。ここで、畳み込み層で次元削減の目的を達成し、同時に、畳み込み層はデータ空間を変換して、テキストライク特徴を基本周波数へマッピングする目的を果たす。

前記第１の特徴パラメータと前記第２の特徴パラメータとを処理してメルスペクトラム情報を取得することは、以下のことを含む。

前記第１の特徴パラメータと前記第２の特徴パラメータとを統合符号化して音声の各フレームのコード特徴を取得する。ここで前記第１の特徴パラメータは時間に関連する声紋特徴コードを指し、ここで前記第２の特徴パラメータは時間に関連するテキストコードと第１の基本周波数とを指す。時間に関連するテキストコードと第１の基本周波数との統合方式は直接に連結するものであり、一方、声紋特徴コードの付加方式は１つの重み行列とバイアスベクトルとを算出するものであり、つまり、声紋特徴コードを１つの全リンク層ネットワークに変換してから、テキストコードと計算することで、声紋特徴情報が付加される。

前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報が取得される。

その後、取得されたメルスペクトラム情報をボコーダに入力して、ボコーダによってメルスペクトラム情報を音声オーディオに変換する。この時の音声オーディオは、目標話者の音色を保留したが、その内容が元話者の音声内容になる音声である。音声変換の目的を達成した。ボコーダは従来技術に属し、ここでは説明を繰り返さない。

図５に示すように、本開示の第２の局面によれば、
目標話者の第１の音声を取得するための第１の取得モジュール５０１と、
元話者の音声を取得するための第２の取得モジュール５０２と、
目標話者の第１の音声の第１の特徴パラメータを抽出するための第１の抽出モジュール５０３と、
元話者の音声の第２の特徴パラメータを抽出するための第２の抽出モジュール５０４と、
前記第１の特徴パラメータと前記第２の特徴パラメータを処理してメルスペクトラム情報を取得するための処理モジュール５０５と、
前記メルスペクトラム情報を変換して、目標話者の第１の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第２の音声を出力するための変換モジュール５０６と、を含む、
音声変換システム５をさらに提供している。

図５－１に示すように、前記第１の抽出モジュール５０３は、
目標話者の第１の音声の声紋特徴を抽出するための声紋特徴抽出モジュール５０３１と、
前記目標話者の第１の音声の声紋特徴に時間次元を付加して第１の特徴パラメータを取得するための声紋特徴処理モジュール５０３２と、を含む。

図５－２に示すように、前記第２の抽出モジュール５０４は、
元話者の音声のテキストライク特徴を抽出するためのテキストライク特徴抽出モジュール５０４１と、
前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得するためのテキストコードモジュール５０４２と、
前記テキストライク特徴を処理して第１の基本周波数と第１の基本周波数表現とを取得するための基本周波数予測モジュール５０４３と、を含む。基本周波数予測モジュール５０４３は、その入力がテキストライク特徴であり、その出力が基本周波数と基本周波数予測モジュールにおける隠蔽層特徴であり、その目的がテキストライク特徴によって基本周波数を予測することである。トレーニング段階において、実際の基本周波数を目標として使用して、損失関数を算出し、応用段階において、テキストライク特徴によって基本周波数を予測する。基本周波数予測モジュール５０４３は、本質的にニューラルネットワークである。

図５－３に示すように、前記処理モジュール５０５は、
前記第１の特徴パラメータと前記第２の特徴パラメータを統合符号化して音声の各フレームのコード特徴を取得するための統合モジュール５０５１と、
前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報を取得するためのデコーダーモジュール５０５２と、を含む。

図６に示すように、本開示の第３の局面によれば、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも１つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサが第１の局面のいずれか一項に記載の方法を実行することができる、電子機器をさらに提供している。

本開示の第４の局面によれば、コンピュータに本開示の第１の局面のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している、非一時的なコンピュータ読取可能な記憶媒体をさらに提供している。

本開示の第５の局面によれば、プロセッサにより実行される場合に、本開示の第１の局面のいずれか一項に記載の方法を実現するコンピュータプログラムをさらに提供している。

本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供している。

図６は、本開示の実施例を実施することが可能な例示的電子機器６００の模式的ブロック図を示している。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置である。本明細書に示された部材、それらの接続及び関係、並びにそれらの機能は、例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定しない。

図６に示すように、機器６００は、計算手段６０１を含み、計算手段６０１は、リードオンリーメモリ（ＲＯＭ）６０２に記憶されたコンピュータプログラム又は記憶手段６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。ＲＡＭ６０３には、さらに機器６００の操作に必要な様々なプログラム及びデータを記憶してもよい。計算手段６０１、ＲＯＭ６０２、及びＲＡＭ６０３は、バス６０４を介して相互に接続される。入出力（Ｉ／Ｏ）インターフェース６０５も、バス６０４に接続される。

機器６００における複数の部品は、Ｉ／Ｏインターフェース６０５に接続され、例えばキーボード、マウス等の入力手段６０６と、例えば様々な種類のディスプレイ、スピーカ等の出力手段６０７と、例えば磁気ディスク、光ディスク等の記憶手段６０８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段６０９とを含む。通信手段６０９は、機器６００がインターネット等のコンピュータネットワーク及び／又は各種の電気ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。

計算手段６０１は、処理及び演算能力を有する各種の汎用及び／又は専用の処理モジュールであってもよい。計算手段６０１の幾つかの例として、中央処理ユニット（ＣＰＵ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用の人工知能（ＡＩ）演算チップ、各種機械学習モデルアルゴリズムをランニングする演算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算手段６０１は、前文で説明した各方法及び処理、例えば音声変換方法を実行する。例えば、幾つかの実施例において、音声変換方法は、例えば記憶手段６０８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ６０２及び／又は通信手段６０９を介して機器６００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ６０３にロードされて計算手段６０１により実行される場合、前文で説明した音声変換方法の１つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段６０１は、他の任意の適切な方式（例えば、ファームウェアを介する）により音声変換方法を実行するように構成されてもよい。

本明細書で以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラムマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラムマブルプロセッサを含むプログラムマブルシステムで実行され及び／又は解釈されることが可能であり、該プログラムマブルプロセッサは、専用又は汎用のプログラムマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができることを含んでもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び／又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ-ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（音声入力、語音入力又は、触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、クラウドサーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの１つのホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称する）に存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは、分散型システムのサーバであってもよく、又はブロックチェーンを組合せたサーバであってもよい。

理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示に開示された技術案が所望する結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

５音声変換システム
５０１第１の取得モジュール
５０２第２の取得モジュール
５０３第１の抽出モジュール
５０４第２の抽出モジュール
５０３１声紋特徴抽出モジュール
５０３２声紋特徴処理モジュール
５０４１テキストライク特徴抽出モジュール
５０４２テキストコードモジュール
５０４３基本周波数予測モジュール
５０５処理モジュール
５０６変換モジュール
５０５１統合モジュール
５０５２デコーダーモジュール
６００電子機器
６０１計算手段
６０２リードオンリーメモリ
６０３ランダムアクセスメモリ
６０４バス
６０５Ｉ／Ｏインターフェース
６０６入力手段
６０７出力手段
６０８記憶手段
６０９通信手段

Claims

目標話者の第１の音声を取得することと、
元話者の音声を取得することと、
目標話者の第１の音声の第１の特徴パラメータを抽出することと、
元話者の音声の第２の特徴パラメータを抽出することと、
前記第１の特徴パラメータと前記第２の特徴パラメータとを処理して、メルスペクトラム情報を取得することと、
前記メルスペクトラム情報を変換して、目標話者の第１の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第２の音声を出力することと、を含む、
音声変換方法。
前記取得された目標話者の第１の音声と取得された元話者の音声とは、いずれもオーディオ情報である、
請求項１に記載の音声変換方法。
前記第１の特徴パラメータは、時間次元情報を持つ声紋特徴を含む、
請求項１に記載の音声変換方法。
前記目標話者の第１の音声の第１の特徴パラメータを抽出することは、
目標話者の第１の音声の声紋特徴を抽出することと、
前記目標話者の第１の音声の声紋特徴に時間次元を付加して、第１の特徴パラメータを取得することと、を含む、
請求項３に記載の音声変換方法。
前記第２の特徴パラメータは、時間に関連するテキストコード、第１の基本周波数、及び第１の基本周波数表現を含む、
請求項１に記載の音声変換方法。
前記元話者の音声の第２の特徴パラメータを抽出することは、
元話者の音声のテキストライク特徴を抽出することと、
前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得することと、
前記テキストライク特徴を処理して第１の基本周波数と第１の基本周波数表現とを取得することと、を含む、
請求項５に記載の音声変換方法。
前記テキストライク特徴を処理して第１の基本周波数と第１の基本周波数表現とを取得することは、
前記元話者の音声と前記テキストライク特徴とを利用して、ニューラルネットワークによってトレーニングして、前記テキストライク特徴から基本周波数へのマッピングモデルを取得することと、
前記テキストライク特徴から基本周波数へのマッピングモデルを利用して、前記テキストライク特徴を処理して、第１の基本周波数と第１の基本周波数表現とを取得することと、を含む、
請求項６に記載の音声変換方法。
前記ニューラルネットワークによってトレーニングすることは、
畳み込み層と長・短期記憶ネットワークとを利用してトレーニングすることを含む、
請求項７に記載の音声変換方法。
前記第１の特徴パラメータと前記第２の特徴パラメータとを処理してメルスペクトラム情報を取得することは、
前記第１の特徴パラメータと前記第２の特徴パラメータとを統合符号化して、音声の各フレームのコード特徴を取得することと、
前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報を取得すことと、を含む、
請求項１に記載の音声変換方法。
目標話者の第１の音声を取得するための第１の取得モジュールと、
元話者の音声を取得するための第２の取得モジュールと、
目標話者の第１の音声の第１の特徴パラメータを抽出するための第１の抽出モジュールと、
元話者の音声の第２の特徴パラメータを抽出するための第２の抽出モジュールと、
前記第１の特徴パラメータと前記第２の特徴パラメータとを処理してメルスペクトラム情報を取得するための処理モジュールと、
前記メルスペクトラム情報を変換して、目標話者の第１の音声と音色が同じ、且つ元話者の音声と内容が同じである目標話者の第２の音声を出力するための変換モジュールと、を含む、
音声変換システム。
前記第１の抽出モジュールは、
目標話者の第１の音声の声紋特徴を抽出するための声紋特徴抽出モジュールと、
前記目標話者の第１の音声の声紋特徴に時間次元を付加して第１の特徴パラメータを取得するための声紋特徴処理モジュールと、を含む、
請求項１０に記載の音声変換システム。
前記第２の抽出モジュールは、
元話者の音声のテキストライク特徴を抽出するためのテキストライク特徴抽出モジュールと、
前記テキストライク特徴に対して次元削減処理を行って、時間に関連するテキストコードを取得するためのテキストコードモジュールと、
前記テキストライク特徴を処理して第１の基本周波数と第１の基本周波数表現とを取得するための基本周波数予測モジュールと、を含む、
請求項１０に記載の音声変換システム。
前記処理モジュールは、
前記第１の特徴パラメータと前記第２の特徴パラメータとを統合符号化して、音声の各フレームのコード特徴を取得するための統合モジュールと、
前記各フレームのコード特徴からデコーダーによって、メルスペクトラム情報を取得するためのデコーダーモジュールと、を含む、
請求項１０に記載の音声変換システム。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも１つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサが請求項１～９のいずれか一項に記載の音声変換方法を実行することができる、
電子機器。
コンピュータに請求項１～９のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している、
非一時的なコンピュータ読取可能な記憶媒体。
プロセッサにより実行される場合に、請求項１～９のいずれか一項に記載の方法を実現するコンピュータプログラム。