JP7317850B2

JP7317850B2 - オーディオ合成方法、並びにそのコンピュータプログラム、コンピュータ装置及びコンピュータ装置により構成されるコンピュータシステム

Info

Publication number: JP7317850B2
Application number: JP2020549777A
Authority: JP
Inventors: 凌睿崔; ▲芸▼ ▲蘆▼; 怡▲ティン▼ 周; ▲シン▼婉 ▲呉▼; ▲芸▼▲東▼ 梁; ▲暁▼ ▲梅▼; ▲啓▼航 ▲馮▼; 方▲暁▼ 王; 会福江; 尚▲鎮▼ ▲鄭▼; ▲楽▼ 余; ▲勝▼▲飛▼ 夏; 敬▲軒▼ 王; 然 ▲張▼; ▲芸▼帆郭; 震▲雲▼ ▲張▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-07-05
Filing date: 2019-05-31
Publication date: 2023-07-31
Anticipated expiration: 2039-05-31
Also published as: TWI774967B; WO2020007148A1; KR102500087B1; CN110189741A; TW202006534A; EP3736806A1; EP3736806A4; JP2021516787A; US20200372896A1; KR20200115588A

Description

本発明は、２０１８年７月５日に提出された出願番号が２０１８１０７３０２８３.３、発明名称が「オーディオ合成方法および装置、記憶媒体並びにコンピュータ装置」の中国特許出願に基づいた優先権を要求し、その全ての内容は参照により本願に組み込まれる。

本発明は、コンピュータの技術分野に関し、特に、オーディオ合成方法、記憶媒体およびコンピュータ装置に関する。

コンピュータ技術の発展に伴い、例えばスマートフォンやタブレットなどのようにオーディオ再生機能を有するコンピュータ装置が多くなってきている。このような場合、ユーザは、緊張している仕事の意欲を緩和したり、生活の楽しみを増加したりするために、暇な時に歌曲を聴いたり、歌曲を背景オーディオとして使用してビデオを録画したりすることが一般的に行われている。

従来、ユーザは、歌曲ライブラリから歌曲を選択して再生することが一般的である。しかし、著作権等により歌曲ライブラリにおける選択可能な歌曲の数が限られており、ユーザはこれらの歌曲から自分が希望する歌曲を選択することが困難となり、オーディオの再生効果が悪くなってしまう。

本発明は、上記課題に鑑みてなされたものであり、オーディオの再生効果を向上させることができるオーディオ合成方法、記憶媒体およびコンピュータ装置を提供する。

本発明の一方面によれば、
ターゲットテキストを取得するステップと、
選択指令に応じて選択されたターゲット歌曲を確定するステップと、
前記ターゲットテキストを歌詞とする、曲調整制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得するステップと、
前記自製歌曲を再生するステップとを含むオーディオ合成方法を提供する。

本発明の一方面によれば、
ターゲットテキストを取得するための取得モジュールと、
選択指令に応じて選択されたターゲット歌曲を確定するための確定モジュールと、
自製歌曲を再生するための再生モジュールとを備え、
前記取得モジュールは、さらに、前記ターゲットテキストを歌詞とする、曲調整制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得するオーディオ合成装置を提供する。

本発明の一方面によれば、コンピュータプログラムが記憶されるコンピュータ読取可能な記憶媒体であって、
前記コンピュータプログラムは、プロセッサによって実行されるときに、
ターゲットテキストを取得するステップと、
選択指令に応じて選択されたターゲット歌曲を確定するステップと、
曲調整制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成され、前記ターゲットテキストを歌詞とする自製歌曲を取得するステップと、
前記自製歌曲を再生するステップとをプロセッサに実行させるコンピュータ読取可能な記憶媒体を提供する。

本発明の一方面によれば、コンピュータプログラムが記憶されるメモリと、プロセッサとを備えるコンピュータ装置であって、
前記コンピュータプログラムは、前記プロセッサによって実行されるときに、
ターゲットテキストを取得するステップと、
選択指令に応じて選択されたターゲット歌曲を確定するステップと、
曲調整制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成され、前記ターゲットテキストを歌詞とする自製歌曲を取得するステップと、
前記自製歌曲を再生するステップとをプロセッサに実行させるコンピュータ読取可能な記憶媒体を提供する。

１つの実施例におけるオーディオ合成方法の適用環境を示す図である。１つの実施例におけるオーディオ合成方法のフローチャートである。１つの実施例におけるターゲットテキストを取得するインタフェースを示す図である。１つの実施例における自製歌曲を合成する原理を示すブロック図である。１つの実施例におけるビデオを録画するインタフェースを示す図である。１つの実施例における対話入口を提供するインタフェースを示す図である。１つの実施例におけるアナログビデオ通話のインタフェースを示す図である。１つの実施例におけるオーディオ合成装置のモジュール構造を示す図である。他の実施例におけるオーディオ合成装置のモジュール構造を示す図である。１つの実施例におけるコンピュータ装置の内部構造を示す図である。

以下、本発明の目的、技術手段および利点をより明確にするために、本発明について図面および実施例を参照しながらさらに詳細に説明する。なお、ここに記載された具体的な実施例は、本発明を限定するものではなく、あくまでも本発明を解釈するためのものに過ぎない。

図１は、１つの実施例におけるオーディオ合成方法の適用環境を示す図である。図１を参照すると、このオーディオ合成方法は、オーディオ合成システムに適用される。このオーディオ合成システムは、端末１１０と、サーバ１２０とを備える。なお、端末１１０とサーバ１２０とは、ネットワークを介して接続されている。具体的には、端末１１０は、卓上型端末または携帯端末であってもよく、携帯端末は、具体的には携帯電話、タブレット、ノートパソコン等のうちの少なくとも一種であってもよい。サーバ１２０は、具体的には、独立したサーバであってもよいし、複数の独立したサーバからなるサーバクラスタであってもよい。

また、端末１１０は、当該オーディオ合成方法を実行するために利用可能であり、当該端末１１０は、自体のオペレーティングシステムに基づいて各インタフェースを呼び出して当該オーディオ合成方法を実行してもよいし、もちろん、当該端末１１０は、既にインストールされたアプリケーションクライアントによって当該オーディオ合成方法を実行してもよい。

上記の過程において、このアプリケーションクライアントは、オーディオ合成サービスを提供するクライアントであってもよく、例えば、当該アプリケーションクライアントは、短いビデオを再生するためのものであって、ユーザが当該アプリケーションクライアントにログインした後、当該アプリケーションクライアントによって短いビデオを再生可能なクライアントであってもよい。また、ユーザは、当該アプリケーションクライアントによって短いビデオを録画してもよく、録画開始前に、ユーザが録画する短いビデオの背景オーディオを設定することができる。例えば、端末１１０は、ユーザに対して複数の候補歌曲を提供し、ユーザの選択指令に応じて短いビデオの背景オーディオを決定することにより、録画指令を受信した場合に、現在録画されている短いビデオに当該背景オーディオを付加することができる。また、端末１１０は、当該ユーザ以外のユーザが再生するように、録画された短いビデオをサーバ１２０にアップロードすることもできる。もちろん、ユーザは、まずは短いビデオを録画し、録画完了後に当該短いビデオを編集操作し、当該編集操作によって録画済みの短いビデオに背景オーディオを付加し、さらに編集後の短いビデオをサーバ１２０にアップロードするようにしてもよい。

しかしながら、著作権等により背景オーディオの歌曲ライブラリにおける選択可能な歌曲の数が限られており、ユーザは、これらの歌曲から自分が希望する歌曲を選択して再生することが困難であり、これによりオーディオの再生効果が悪くなるため、端末１１０は、本発明の実施例におけるオーディオ合成方法によってオーディオの再生効果を向上させることができる。

また、幾つかの実施例では、端末１１０は、ターゲットテキストを取得し、かつ選択指令に応じて選択されたターゲット歌曲を確定して、曲調制御モデルとターゲットテキストとターゲット歌曲の曲調情報とに基づいて合成され、取得されたターゲットテキストを歌詞とする自製歌曲を取得することができる。また、端末１１０は、自製歌曲を取得した後にこの自製歌曲を再生してもよいし、この自製歌曲を背景オーディオとして設定し、この背景オーディオに基づいてビデオを録画してもよい。

上記の過程において、当該自製歌曲は、端末１１０側でローカルに合成されたものであってもよいし、もちろん、サーバ１２０側で合成された後に端末１１０に送信されるものであってもよく、本発明の実施例ではこの自製歌曲の合成端を具体的に限定しない。

幾つかの実施例では、自製歌曲が端末１１０でローカルに合成されたものである場合、端末１１０は、曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいてこの自製歌曲を合成する。また、ここでの曲調制御モデルは、サーバ１２０でトレーニングされた後に端末１１０に送信されるものであってもよいし、端末１１０でローカルにトレーニングしたものであってもよい。

幾つかの実施例では、自製歌曲がサーバ１２０で合成された後に端末１１０に送信されたものである場合、端末１１０は、ターゲットテキストとターゲット歌曲の歌曲識別子とをサーバ１２０に送信し、サーバ１２０は、曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいて自製歌曲を合成して端末１１０に送信する。

図２は、１つの実施例におけるオーディオ合成方法のフローチャートである。本実施例は、主に当該オーディオ合成方法を図１における端末１１０に適用することを例として説明する。図２を参照すると、この方法は、具体的には、以下のステップを含む。

Ｓ２０２において、端末は、ターゲットテキストを取得する。

ここで、ターゲットテキストは、合成する自製歌曲に対して歌詞を提供するためのものである。具体的には、ターゲットテキストは、ユーザが端末から提供するテキスト入力ボックスを介して入力したテキストであってもよいし、ユーザが選択指令に応じて端末から提供されたテキストテンプレートリストから選択されたテキストであってもよいし、他のコンピュータ装置から伝送されてきたテキストであってもよい。もちろん、ターゲットテキストは、他の方式によって取得されたテキストであってもよく、本発明の実施例ではターゲットテキストのソースおよび取得方式を限定しない。

例を挙げて説明すると、図３は、１つの実施例におけるターゲットテキストを取得するインタフェースを示す図である。図３を参照すると、このインタフェースは、テキスト入力ボックス３１０と、テキストテンプレートリスト３２０とを含む。ユーザがテキスト入力ボックス３１０にテキスト３１１を入力することにより、端末は、ユーザがテキスト入力ボックス３１０に入力したテキスト３１１をターゲットテキストとして取得することができる。また、ユーザがテキストテンプレートリスト３２０からテキストを選択することにより、端末は、ユーザがテキストテンプレートリスト３２０から選択したテキスト３２１をターゲットテキストとして取得するようにしてもよい。

Ｓ２０４において、端末は、選択指令に応じて選択されたターゲット歌曲を確定する。

ここで、ターゲット歌曲は、合成する自製歌曲に対して曲調を提供するためのものである。例えば、ユーザが「私の好きな天安門」という歌曲の曲調を自製歌曲の曲調として歌曲を合成しようとすると、「私の好きな天安門」がターゲット歌曲となる。また、例えば、ユーザが「２匹のトラ」という歌曲の曲調を自製歌曲の曲調として歌曲を合成しようとすると、「２匹のトラ」がターゲット歌曲となる。

１つの実施例では、端末は、候補歌曲を提供して、ユーザによる候補歌曲の選択指令を受信することにより、選択指令に応じて選択された候補歌曲をターゲット歌曲として取得することができる。

具体的には、端末は、インタフェースに候補歌曲を提示し、そして、提示された候補歌曲に対する予め定義されたトリガ操作を検出し、そのトリガ操作が検出されると、対応する選択指令を生成することができる。なお、トリガ操作は、インタフェースに提示された候補歌曲に対するタッチ操作、またはカーソルによるクリック操作とすることができる。また、トリガ操作は、予め定義された物理ボタンに対するクリックであってもよいし、候補歌曲を１つずつ表示または再生する際にトリガされる揺動操作であってもよい。

また、別の実施例では、端末は、候補歌曲から１つの歌曲をランダムに選択してターゲット歌曲とするようにしてもよい。また、端末は、候補歌曲からターゲットテキストとマッチングする歌曲を選択してターゲット歌曲とするようにしてもよい。

例を挙げて説明する。図３を続いて参照すると、このインタフェースは、候補歌曲リスト３３０をさらに含む。ユーザが候補歌曲リスト３３０において歌曲の選択を行うことにより、端末は、ユーザが候補歌曲リスト３３０から選択した歌曲３３１をターゲット歌曲として取得することができる。

Ｓ２０６において、端末は、曲調整制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいて合成され、ターゲットテキストを歌詞とする自製歌曲を取得する。

なお、この曲調制御モデルは、曲調制御能力を有する機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬ）モデルとすることができる。機械学習モデルは、サンプルによる学習によって曲調制御能力を取得することができる。また、機械学習モデルは、ニューラルネットワークモデル、サポートベクターマシンまたは論理回帰モデルなどを採用することができる。ニューラルネットワークモデルとしては、例えば、畳み込みニューラルネットワーク、逆伝播ニューラルネットワーク、フィードバックニューラルネットワーク、ラジアル基底関数ニューラルネットワークまたは自己組織化ニューラルネットワークなどが挙げられる。また、本発明の実施例では、機械学習モデルの類型を限定せず、曲調制御機能を実現可能な機械学習モデルであればよい。

曲調情報は、歌曲の音高が時間的に変化する傾向を反映し得るデータである。曲調は、旋律（または音高と言われる）とリズムとの２つの基本要素を有する。端末は、一連の音高と対応する時間情報との対応関係で曲調情報を表すことができる。ここでの時間情報は、例えば音高の開始時間、音高の持続時間、または異なる音高の間の休止時間等のリズムを反映するためのものである。１つの音高は、１つの音符を表す。１つの音符の音響パラメータは、基本周波数や強度などを含む。

なお、歌曲は、歌詞と曲調とを組み合わせた芸術の表現形式である。ターゲット歌曲は、歌曲の歌唱者が歌曲の創作者が創作した歌詞および曲調に従って歌唱して得られたオーディオデータである。本実施例では、ターゲット歌曲の曲調を維持したまま、歌詞を入れ替えることによって曲調に変化が発生しなかった自製歌曲を合成する。勿論、本発明の実施例では、入れ替えた歌詞に基づいてターゲット歌曲の曲調を調整して自製歌曲を合成することもできる。

ここで、自製歌曲は、歌詞をカスタマイズした歌曲である。自製歌曲の曲調は、既存の歌曲の歌曲をそのまま使用する。もちろん、自製歌曲は、曲調をカスタマイズしてもよい。端末は、既存の歌詞およびカスタム曲調に基づいて自製歌曲を合成し、またはカスタム歌詞およびカスタム曲調に基づいて自製歌曲を合成する。カスタム歌詞およびカスタム曲調に基づいて合成された自製歌曲は、オリジナル歌曲である。

１つの実施例では、ターゲット歌曲の曲調情報は、ターゲット歌曲の歌曲ファイルから抽出されたデータであってもよい。例えば、ターゲット歌曲の歌曲ファイルから、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）ファイルをターゲット歌曲の曲調情報として抽出する。なお、ＭＩＤＩファイルには音高と対応する時間情報とが含まれており、曲調情報は一連の音高と対応する時間情報との対応関係で表すことができるので、ＭＩＤＩファイルに含まれる音高と対応する時間情報とで曲調情報を構成することができる。

１つの実施例では、ターゲット歌曲の曲調情報は、歌曲の歌唱者が歌唱したオーディオデータから抽出されたものであってもよい。歌曲の歌唱者が歌唱したオーディオデータは、背景の伴奏が付いているオーディオデータであってもよいし、歌だけを歌った（以下、「清唱」という）オーディオデータであってもよいし。なお、清唱したオーディオデータは、背景音楽がなく歌曲の歌唱者の歌唱音のみが記録されているデータである。また、端末は、ターゲット歌曲と対応する歌唱者が歌唱したオーディオデータを録画した後、このオーディオデータから曲調情報を抽出することができる。なお、曲調情報は、構築されたモデルによって抽出することができる。もちろん、ターゲット歌曲の曲調情報は、他の方式で取得することもできるが、本発明の実施例では限定されない。

具体的には、端末は、選択指令に応じて選択されたターゲット歌曲を確定した後、当該選択されたターゲット歌曲の曲調情報を検索し、そして、ターゲットテキストを検索した曲調情報とともに曲調制御モデルに入力して、曲調制御モデルによってターゲットテキストを歌詞とするとともにターゲット歌曲の曲調を曲調とする自製歌曲を出力する。

あるいは、端末は、ＴＴＳ（ｔｅｘｔｔｏｓｐｅｅｃｈ）技術に基づいて当該ターゲットテキストに対応する音響スペクトル特徴を生成し、その後、当該音響スペクトル特徴と当該曲調情報とを曲調制御モデルに入力し、当該曲調制御モデルによって当該音響スペクトル特徴の曲調を当該曲調情報とマッチングする曲調に変換して自製歌曲を得られて、自製歌曲の音響スペクトル特徴を出力してもよい。

上記の過程において、曲調が同一であるが歌唱者が異なる歌曲については、通常は同一の曲調情報を有しているので、この場合、当該ターゲットテキストと対応するとともに複数の歌唱者に対応する複数の音響スペクトル特徴を生成し、音響スペクトル特徴毎に１つの自製歌曲を生成することにより、当該複数の音響スペクトル特徴と当該曲調情報とに基づいて複数の自製歌曲を生成することができる。ここで、異なる自製歌曲同士は、曲調が同一であるが音色が異なるので、オーディオ合成の過程がより豊かになる。

１つの実施例では、Ｓ２０６は、端末がターゲットテキストおよびターゲット歌曲の歌曲識別子をサーバに送信することと、端末がサーバからフィードバックされた自製歌曲を受信することとを含む。ここで、ターゲットテキストおよび歌曲識別子は、歌曲識別子に対応する曲調情報を検索した後、曲調制御モデル、ターゲットテキストおよび曲調情報に基づいて自製歌曲を合成するようにサーバを指示するためのものである。

ここで、歌曲識別子は、１つの歌曲を一意に識別するためのものである。具体的には、端末は、選択指令に応じて選択されたターゲット歌曲を確定した後、そのターゲット歌曲の歌曲識別子と取得したターゲットテキストとを一緒にサーバに送信する。このように、サーバは、歌曲識別子を受信すると、この歌曲識別子に対応する曲調情報を検索し、この曲調情報とターゲットテキストとを曲調制御モデルに入力し、曲調制御モデルによってターゲットテキストを歌詞とするとともに曲調がターゲット歌曲と一致するような自製歌曲を出力する。そして、サーバは、当該自製歌曲を端末にフィードバックすることができる。

なお、自製歌曲は、自製の清唱歌曲であってもよいし、背景の伴奏が付いている自製歌曲であってもよい。自製歌曲が自製の清唱歌曲である場合、サーバは、自製の清唱歌曲をそのまま端末にフィードバックしてもよいし、自製の清唱歌曲と背景の伴奏とをミキシングした自製歌曲を端末にフィードバックしてもよいし、両方を端末にフィードバックして、端末が選択のためにユーザに提示するようにしてもよい。

本実施例では、サーバ側でオーディオ合成のステップを実現しているので、サーバの強くて高速な計算能力を利用してオーディオ合成の効率を向上させることができる。

Ｓ２０８において、端末は、自製歌曲を再生する。

具体的には、端末は、自製歌曲を合成したり、サーバからフィードバックされた自製歌曲を受信したりした後、この自製歌曲を再生することができる。これにより、ユーザは、再生された自製歌曲を聞くことによって自分の予想に合致するか否かを判断し、自製歌曲が自分の予期に合致したときに後続の操作を行うことができる。

あるいは、端末は、その自製歌曲を合成した後、上記ステップＳ２０８を実行せずに、その自製歌曲をローカルに記憶したり、サーバにアップロードしたりして、ある時刻で再生指令を受信すると、上記ステップＳ２０８を実行するようにしてもよい。

上記のオーディオ合成方法によれば、ターゲットテキストを取得し、かつ選択指令に応じて選択されたターゲット歌曲を確定した後、曲調整制御モデルによってターゲットテキストを歌詞とするとともにターゲット歌曲の曲調情報と合わせて合成した自製歌曲を取得することができる。このようにして、ユーザは、歌詞や曲調を自主的に選択して、自分の希望に合致する歌曲をカスタマイズすることによって、自分の希望に合致する歌曲を再生することができ、オーディオの再生効果を大幅に向上させることができる。

また、１つの実施例では、当該オーディオ合成方法は、端末が自製歌曲を背景オーディオに設定し、当該背景オーディオに基づいてビデオを録画することをさらに含む。

具体的には、端末は、自製歌曲を合成したり、サーバからフィードバックされた自製歌曲を受信したりした後、自動的に当該自製歌曲を背景オーディオとして設定し、ローカルの画像撮影装置を呼び出してビデオを録画することができる。また、端末は、ユーザがトリガした指令に応じて、合成した自製歌曲を背景オーディオに設定し、その後、ローカルの画像撮影装置を呼び出してビデオを録画するようにしてもよい。これにより、端末は、合成された自製歌曲を背景オーディオとしてビデオを録画することができる。

また、１つの具体的な実施例では、端末には、ビデオ録画アプリケーションがインストールされる。端末は、ユーザーからの指令に応じて当該ビデオ録画アプリケーションを動作させ、かつ、続いてユーザーからの指令に応じて背景オーディオの設定インタフェース（例えば、図３に示すようなインタフェース）に移行することができる。また、端末は、ユーザが入力したターゲットテキストおよびユーザが選択したターゲット歌曲を取得し、さらに、ターゲット歌曲の曲調情報を決定して、ターゲットテキストを歌詞とするとともに決定した曲調情報と合わせて自製歌曲を合成することができる。また、端末は、合成した歌曲を背景オーディオとして設定し、ビデオ録画インタフェースに移行して、ユーザの指令に応じて設定した背景オーディオを再生し、画像を撮影してビデオを録画することができる。

本実施例では、ユーザは、歌詞や曲調を自主的に選択し、自分の希望に合致する歌曲をカスタマイズし、さらに、カスタマイズした歌曲を背景オーディオとしてビデオを録画することにより、背景オーディオのソースが大幅に豊富となり、かつビデオの録画効率が向上される。

また、１つの実施例では、Ｓ２０６は、端末がターゲット歌曲とマッチングする曲調情報を検索することと、ターゲットテキストと曲調情報とを曲調制御モデルに入力し、曲調制御モデルの隠れ層によって、曲調情報に基づいてターゲットテキストにおける各文字のそれぞれに対応する曲調特徴を決定することと、曲調制御モデルの出力層によって、ターゲットテキストにおける各文字を対応する曲調特徴に応じて音声合成した自製歌曲を出力することと、を含む。

具体的には、端末は、選択指令に応じて選択されたターゲット歌曲を確定した後、事前に得られた当該ターゲット歌曲の曲調情報を検索し、さらに、ターゲットテキストを曲調情報と共にトレーニング済みの曲調制御モデルに入力し、曲調制御モデルの隠れ層によってターゲットテキストにおける各文字のそれぞれに対して曲調マッチングを行うことによって、ターゲットテキストにおける各文字のそれぞれに対応する曲調特徴を決定し、さらに、曲調制御モデルの出力層によって、ターゲットテキストにおける各文字を対応する曲調特徴に応じて音声合成した自製歌曲を出力する。

また、１つの実施例では、当該オーディオ合成方法は、曲調制御モデルをトレーニングするステップをさらに含む。曲調制御モデルをトレーニングするステップは、端末が候補歌曲に対応する候補歌曲オーディオを収集することと、収集した候補歌曲オーディオに基づいて、各候補歌曲に対応する候補歌曲曲調を決定することと、テキストサンプルを取得することと、テキストサンプルと候補歌曲曲調とに基づいてトレーニングして前記曲調制御モデルを得ることを含む。

具体的には、端末は、各候補歌曲のそれぞれについてその歌唱者が歌唱したオーディオデータを録音し、オーディオデータに対して曲調特徴の標識を行うことによって、対応する候補歌曲の曲調情報を得ることができる。あるいは、端末は、各候補歌曲のＭＩＤＩファイルを、対応する候補歌曲の曲調情報として取得することができる。また、端末は、テキストサンプルとして文字列をランダムに選択し、テキストサンプルを候補歌曲の曲調情報と共に曲調制御モデルのトレーニングサンプルとして、曲調制御モデルにおける各層によってテキストサンプルおよび候補歌曲を処理して、テキストサンプルを歌詞とするとともに曲調が入力された曲調情報に合致する歌曲サンプルを出力することができる。また、端末は、出力された歌曲サンプルと所望の結果との差異に応じて、曲調制御モデルのモデルパラメータと入力された候補歌曲の曲調情報とを調整することができる。端末は、パラメータを調整した後、曲調制御モデルのトレーニングが完了するまでトレーニングを継続することができる。端末は、トレーニングによって曲調制御モデルを得た後、曲調制御モデルを使用する必要があるときに取得して使用できるように、この曲調制御モデルをローカルに保存することができる。

また、１つの実施例では、曲調制御モデルから出力された歌曲サンプルと所望の結果との差異は、人工的に判断することができる。曲調制御モデルは、各候補歌曲に対して共通のモデルである。

また、１つの実施例では、モデルのトレーニング過程は、サーバで行われ、サーバは、曲調制御モデルのトレーニングが完了した後に、曲調制御モデルを端末に配信して使用させるようにしてもよい。

上記実施例では、機械学習モデルの強い学習能力によって曲調制御の能力を学習し、トレーニングが完了した曲調制御モデルによって音声合成を行うので、従来の音声合成方式に比べて、音声合成効率が向上され、音声合成の正確性が向上された。

また、１つの実施例では、当該オーディオ合成方法は、端末がターゲット話し相手を決定することを含む。Ｓ２０６は、端末がターゲット話し相手に対応する曲調制御モデルを検索することと、端末が検索した曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することとを含む。ここで、自製歌曲の音色は、ターゲット話し相手に適合する。

ここで、ターゲット話し相手は、ターゲット音色が属する対象である。ターゲット音色は、ユーザが合成しようとする自製歌曲または自製音声の声特徴である。ターゲット話し相手は、仮想対象であってもよいし、真実対象であってもよい。仮想対象としては、例えば、ゲームにおける仮想キャラクタまたはアニメにおける仮想キャラクタなどが挙げられる。真実対象としては、例えば、現実シーンにおけるシンガーまたは出演者などが挙げられる。

なお、異なる発音体は、材料や構造が異なるため、発した声音の音色も異なる。例えば、ピアノ、バイオリンと人の音色が異なっているので、発した声音も異なっている。また、各人の音色も異なっている。音色は、声音の特徴である。異なる音色は、音高と声音の強さが同一であっても区別がある。

なお、ターゲット話し相手に対応する曲調制御モデルは、ターゲット話し相手が歌唱したオーディオデータに基づいてトレーニングされた曲調制御モデルであり、このようにトレーニングして得た曲調制御モデルから出力した自製歌曲の音色は、ターゲット話し相手に適合する。また、上記実施例で説明した曲調制御モデルは、トレーニングに用いるオーディオデータの歌唱者を限定するものではなく、すなわち、音色が限定されない。

具体的には、端末は、選択指令に応じて続いて選択されたターゲット話し相手を決定してもよいし、ターゲット歌曲の歌唱者をターゲット話し相手として取得してもよい。さらに、端末は、ターゲットテキストとターゲット歌曲の曲調情報とを、ターゲット話し相手に対応する曲調制御モデルに入力して自製歌曲を合成することができる。

なお、ターゲット話し相手に対応する曲調制御モデルは、ターゲット話し相手の音色情報とマッチングする曲調制御モデルであり、端末は、ターゲットテキストを曲調情報と共にトレーニングが完了しかつターゲット話し相手の音色情報とマッチングする曲調制御モデルに入力し、曲調制御モデルの隠れ層によってターゲットテキストにおける各文字に対して曲調マッチングを行うことによって、各文字のそれぞれに対応する曲調特徴を決定し、そして、曲調制御モデルの出力層によってターゲットテキストにおける各文字を対応する曲調特徴に応じて音声合成した、ターゲット話し相手の音色に適合する自製歌曲を出力する。

もちろん、端末は、この過程をモデルで実現する際に、１つのモデルでエンドツーエンド（ターゲットテキストから自製歌曲まで）の変換を実現してもよいし、複数のモデルを使用し、各モデルが協力してそれぞれ１つの機能を実現するように実現してもよい。例えば、まず、音色制御モデルによってターゲットテキストを音色がターゲット話し相手に適合する自製音声に変換し、さらに、曲調制御モデルによって自製音声を曲調がターゲット歌曲と一致する自製歌曲に変換する。なお、ここでの音色制御モデルは後述するが、ここでの曲調制御モデルのトレーニングの際に入力されたデータは、ターゲットテキストおよび曲調情報ではなく、音色制御モデルから出力される自製音声および曲調情報となる。

なお、本実施例では、ユーザが選択した声でユーザが歌詞をカスタマイズした歌曲を合成することができる。例えば、あるスターの声でユーザの自製歌曲を歌唱することにより、歌曲の創作を完了する。

１つの実施例では、端末は、取得したターゲットテキストに対してセキュリティ検査を行い、ターゲットテキストが規定に合致する場合に、後続の操作を継続するが、ターゲットテキストが規定に合致しない場合に、エラーをフィードバックすることができる。なお、ターゲットテキストのセキュリティ検査ステップは、サーバで行われてもよい。

例を挙げて説明すると、図４は、１つの実施例における自製歌曲を合成する原理を示すブロック図である。図４を参照すると、サーバ（または端末）は、声音素材（候補話し相手のオーディオデータ）を事前に収集し、収集した声音素材（音素、基本周波数、声音の強さおよび時間情報等）を標記し、収集した声音素材および標記データに基づいてモデルをトレーニングすることができる。ここでのモデルは、音色制御モデルや、汎用の曲調制御モデルや、各候補話し相手に対応する曲調制御モデル等である。なお、声音素材から選択されるモデルとして入力されるデータと標記データとによっては、トレーニングして得たモデルが異なる。サーバ（または端末）は、使用に備えてトレーニングされたモデルを保存してもよく、サーバは、モデルを端末が使用するために端末に配信してもよい。

端末は、ターゲットテキストを取得した後、当該ターゲットテキストをサーバにアップロードすることができる。また、端末は、ユーザが選択したターゲット歌曲またはターゲット話し相手の識別子をサーバにアップロードすることもできる。また、サーバは、ターゲットテキストに対してセキュリティ検査を行う。また、セキュリティ検査がＯＫであると、ユーザがターゲット話し相手を選択した場合に、トレーニングにより得られた音色制御モデルがターゲットテキストの音素配列に基づいてターゲットテキストに対応する自製音声を取得し、または、ユーザがターゲット歌曲を選択した場合に、トレーニングにより得られた曲調制御モデルがターゲット歌曲の曲調情報に基づいてターゲットテキストを歌詞とする自製歌曲を取得し、または、ユーザがターゲット歌曲とターゲット話し相手とを選択した場合に、トレーニングにより得られた曲調制御モデルがターゲットテキストの音素配列とターゲット歌曲の曲調情報とに基づいて、ターゲットテキストを歌詞とする自製歌曲を取得する。サーバは、モデルにより自製歌曲または自製音声を取得した後に端末に配信し、または自製歌曲または自制音声を伴奏とミキシングした後に端末に配信する。端末は、ローカルで上記過程を行うこともできる。

上記の実施例では、ユーザは、歌詞、曲調および音色を自主的に選択して、自分の希望に合致する歌曲をカスタマイズし、さらに、カスタマイズした歌曲を背景オーディオとしてビデオを録画することができるので、背景オーディオのソースを大幅に豊富にし、かつビデオの録画効率を向上させた。

１つの実施例では、当該オーディオ合成方法は、端末が選択指令を受信し、かつ、選択指令に応じてターゲット歌曲を選択した場合に、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得するステップを実行し、選択指令に応じてターゲット話し相手を選択した場合に、音色制御モデルとターゲットテキストとに基づいて合成された自製オーディオを取得するステップを実行することをさらに含む。なお、音色制御モデルは、ターゲット話し相手とマッチングしている。

ここで、選択指令は、ユーザの操作に応じてトリガされるコンピュータ読み取り可能な指令であってもよい。選択指令は、ターゲットを選択するためのものである。ターゲットは、ターゲット歌曲またはターゲット話し相手であってもよい。音色制御モデルは、トレーニングされた音色制御能力を有する機械学習モデルである。

具体的には、端末は、インタフェースに候補歌曲リストまたは候補話し相手リストを表示し、表示された候補歌曲または候補話し相手に対する予め定義されたトリガ操作を検出し、そのトリガ操作が検出されると、対応する選択指令を生成することができる。また、端末は、選択指令に応じてターゲット歌曲を選択したと確定すると、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得するステップを実行する。

また、端末は、選択指令に応じてターゲット話し相手を選択したと確定すると、音色制御モデルとターゲットテキストとに基づいて合成された自制オーディオを取得する。ここで、音色制御モデルは、ターゲット話し相手とマッチングしている。本実施例では、ユーザは、ある仮想キャラクタまたは現実の人物の声を選択して自分が話したいことを話し出すことができる。

１つの実施例では、音色制御モデルとターゲットテキストとに基づいて合成された自製オーディオを取得することは、ターゲット話し相手とマッチングする音色制御モデルを検索することと、ターゲットテキストに対応する音素配列を確定することと、音色制御モデルによって音素配列に基づいて自製音声を合成することと、自製音声と背景伴奏とに基づいて自製オーディオを合成することとを含む。

そのうち、ターゲット話し相手とマッチングする音色制御モデルは、ターゲット話し相手のオーディオデータに基づいてトレーニングされた音色制御モデルであり、この音色制御モデルにより出力される音声の音色は、ターゲット話し相手の音色と一致する。

音素は、音声の自然属性に基づいて区画された最小の音声ユニットである。中国語の音節を例として説明すると、

が１つのみの音素を有し、

が２つの音素を有し、

が３つの音素を有する。端末には、文字と音素との対応関係が記憶されていてもよい。

具体的には、端末は、ターゲットテキストを取得した後、文字と音素との対応関係に基づいてターゲットテキストに対応する音素配列を確定し、さらに、ターゲットテキストに対応する音素配列をトレーニングが完了した音色制御モデルに入力し、音色制御モデルの隠れ層によって各音素のそれぞれに対応する音響パラメータを決定し、さらに、音色制御モデルの隠れ層によって各音素のそれぞれに対応する音響パラメータに基づいて、各音素のそれぞれに対応する音声波形ユニットを決定することにより、音色制御モデルの出力層によって各音素のそれぞれに対応する音声波形ユニットに基づいて、ターゲットテキストに対応する音声波形を出力し、自製音声を得ることができる。

ここで、音色制御モデルが出力した自製音声は、背景伴奏のないターゲット話し相手の話し声であり、端末は、自製音声と背景伴奏をミキシングして自製オーディオを得ることができる。

また、本実施例では、機械学習モデルの強い学習能力によって音色制御の能力を学習し、トレーニングが完了した音色制御モデルを用いて音声合成を行うので、従来の音声合成方式と比べて、音声合成効率が向上するとともに、音声合成の正確性が向上した。

また、１つの実施例では、当該オーディオ合成方法は、各候補話し相手とマッチングする音色制御モデルをトレーニングするステップをさらに含む。ここで、ターゲット話し相手は候補話し相手から選択されるものである。また、各候補話し相手とマッチングする音色制御モデルをトレーニングすることは、各候補話し相手に対応するオーディオ素材を収集することと、各オーディオ素材に基づいて対応する候補話し相手に対応する音素素材配列を確定することと、各候補話し相手に対応する音素素材配列を用いてトレーニングして各候補話し相手とマッチングする音色制御モデルを得ることとを含む。

具体的には、端末は、各候補話し相手に対応するオーディオ素材を収集することができる。候補話し相手毎に、その候補話し相手に対応するオーディオ素材を分割して、オーディオ素材に対応する音素配列サンプルを得られ、音素配列サンプルを入力データとして音色制御モデルをトレーニングすることによって、その候補話し相手の音色に合致するオーディオを出力することができる。端末は、出力されたオーディオと入力された音素配列サンプルのソースであるオーディオ素材との差異に基づいて音色制御モデルのモデルパラメータを調整することができる。端末は、パラメータを調整した後、音色制御モデルのトレーニングが完了するまでトレーニングを継続することができる。このようにして、端末は、各候補話し相手毎にそれぞれマッチングする音色制御モデルをトレーニングした。

端末は、トレーニングして音色制御モデルを得られた後、この音色制御モデルを、音色制御モデルを使用する必要があるときに取得して使用するようにローカルに格納してもよい。また、音色制御モデルのトレーニングは、サーバ上で行われ、サーバは、音色制御モデルのトレーニングが完了した後に、音色制御モデルを端末に配信するようにしてもよい。

また、１つの実施例では、端末は、当該音素配列を音色制御モデルに入力する前に、当該ターゲットテキストに対して区切れを行い、区切れの結果に応じて音素配列に区切れ記号を挿入することによって、合成された自制音声そのものが音節分割の効果を持つようにすることができ、さらに再生効果を最適化することができる。

１つの実施例では、端末は、自製音声を合成した後、その自製音声に対して音節の分割を行うことができる。通常、１つの音節は１つの文字を表す。このように、端末は、自製音声のリズムが曲調情報に合致するように、例えば開始時間、持続時間および異なる音節の間の休止時間などの各音節の時間情報を調整することができる。また、端末は、自製音声の旋律が曲調情報に合致するように、例えば基本周波数や声音の強さなどの各音節の音高を調整することができる。これにより、ターゲットテキストを歌詞とし、曲調がターゲット歌曲と一致するとともに音色がターゲット話し相手と一致するような自製歌曲を得ることができる。

上記の本実施例では、ユーザは、歌詞や曲調を自主的に選択し、自分の希望に合致する歌曲をカスタマイズし、さらに、カスタマイズした歌曲を背景オーディオとしてビデオを録画し、またはターゲット音色を自主的に選択して、自己が選択した音色に合致する音声を得ることができる。

また、１つの実施例では、選択指令を受信することは、端末が仮想対象付加元素に対応する選択指令を受信することと、選択指令に応じて選択された仮想対象付加元素に対応するターゲット話し相手を決定することを含む。また、当該オーディオ合成方法は、端末が自製オーディオを背景オーディオに設定することと、撮影した画像に仮想対象付加元素を重畳して動画フレームを取得することと、背景オーディオと重畳して取得した動画フレームとに基づいて録画するビデオを生成することをさらに含む。

そのうち、仮想対象付加元素は、可視コンテンツが仮想対象イメージであるデータである。仮想対象付加元素は、別途画像に添加して画像コンテンツを修飾するために用いられてもよい。例えば、仮想対象のペンダントなどが挙げられる。仮想対象付加元素は、動画などの動的データであってもよいし、静止画などの静的データであってもよい。

具体的には、端末は、インタフェースに仮想対象付加元素リストを表示し、表示された仮想対象付加元素に対する予め定義されたトリガ操作を検出し、当該トリガ操作が検出されると、対応する選択指令をトリガし、選択指令に応じた仮想対象付加元素を選択することができる。そして、端末は、選択された仮想対象付加元素に対応する仮想対象をターゲット話し相手とする。さらに、端末は、ターゲットテキストを取得し、このターゲット話し相手とマッチングする音色制御モデルに基づいて、ターゲットテキストを自製オーディオに変換し、さらに画像撮影装置によって画像を撮影し、撮影した画像に仮想対象付加元素を重畳して動画フレームを取得することができる。端末は、取得した動画フレームをレンダリングしてプレビュー画面を形成し、自製オーディオに基づいてビデオを録画してもよい。

例を挙げて説明すると、図５は、１つの実施例におけるビデオを録画するインタフェースを示す図である。図５の左図を参照すると、このインタフェースは、仮想対象付加元素リスト５１０と、テキスト入力ボックス入口５２０とを含む。ユーザは、仮想対象付加元素リスト５１０において選択することができ、端末は、ユーザが仮想対象付加元素リスト５１０から選択した仮想対象付加元素５１１を取得し、仮想対象付加元素に対応する仮想対象をターゲット話し相手とすることができる。ユーザは、テキスト入力ボックス入口５２０を通じてテキスト入力ボックス５３０を開き、図５の中間図に示すように、テキスト入力ボックスにターゲットテキストを入力し、または図５の右図に示すように、候補テキストテンプレートからターゲットテキストを選択することができる。

具体的な場面では、端末は、ビデオ録画アプリケーションの撮影インタフェースにゲームのヒーロー用ペンダントを提供し、ユーザが一節のテキストをカスタマイズし、その後、このヒーローの声でユーザがカスタマイズしたテキストを話し出すことにより、ユーザが直接ゲームのヒーローを指揮して言いたい言葉を言い出すという効果を達成することができる。また、自製音声を合成した後、自製音声を背景オーディオとしてビデオを録画する場合には、ユーザは、口型に合わせて表演することにより、扮装、声および口型等の複数の方位から模倣の効果を達成することができる。

また、１つの実施例では、選択指令を受信することは、端末がアナログビデオ通話を行うための選択指令を受信することと、選択指令に応じて選択されたターゲット話し相手に対応するピクチャを確定することとを含む。また、当該オーディオ合成方法は、自製オーディオを背景オーディオに設定することと、ピクチャと撮影された画像から通話動画フレームを生成することと、背景オーディオと生成された通話動画フレームとに基づいて録画するビデオを生成することをさらに含む。

具体的には、端末は、ビデオ再生インタフェースに対話入口を提供することができる。端末は、ユーザからの指令に応じて当該対話入口を介して対話型インタフェースを行うことができる。端末は、対話型インタフェースにアナログビデオ通話入口を提供し、アナログビデオ通話入口に作用する選択指令を受信すると、選択指令に応じて選択されたターゲット話し相手が現在再生されているビデオにおける対象であるか、または、当該ビデオを配信したユーザであるかを確定し、さらに、ターゲット話し相手に対応するピクチャを確定して、確定したピクチャと撮影した画像とに基づいて通話動画フレームを生成し、背景オーディオと生成された通話動画フレームとに基づいてターゲット話し相手とのビデオ通話のビデオを生成することができる。

また、端末は、対話型インターフェースにテキスト入力ボックスを提供し、入力されたターゲットテキストを取得し、決定されたターゲット話し相手の音色情報に基づいてターゲットテキストを自製音声に変換し、この自製音声と生成された通話動画フレームとによって録画するビデオを生成してもよい。このようにすれば、ユーザは、ビデオ通話対象が自分に対して話したい言葉を話し出すように通話ビデオ対象を直接的に制御するという効果ことを達成することができる。

例を挙げて説明すると、図６は、１つの実施例における対話入口を提供するインタフェースを示す図である。図６の左図を参照すると、このインタフェースは、現在再生されているビデオの動画フレーム６１０と、対話入口６２０とを含む。端末は、ユーザからの指令に応じて当該対話入口６２０を介して図６の右図に示すような対話型インタフェースを行うことができる。当該対話型インタフェースは、テキスト入力ボックス６３１とアナログビデオ通話入口６３２とを含む。ユーザは、アナログビデオ通話入口６３２によって動画フレーム６１０内の対象とビデオ通話を行うことをシミュレーションすることができる。ユーザは、テキスト入力ボックス６３１を介してテキストを入力し、端末は、ユーザが入力したテキストをターゲットテキストとして取得して、自製音声を合成し、この自製音声をアナログビデオ通話時にアナログビデオ通話の内容として再生することができる。

図７は、１つの実施例におけるアナログビデオ通話のインタフェースを示す図である。図７の左図は、ビデオ通話招待インタフェースである。ビデオ通話招待インタフェースは、ターゲット話し相手に対応するピクチャ７１１を含む。ユーザーは、ビデオ通話応答入口を介してアナログビデオ通話を行うことができる。端末は、ビデオ通話招待インタフェースを予め設定された時間でレンダリングした後にビデオ通話インタフェースに入るようにしてもよい。また、図７の右図は、ターゲット話し相手（ビデオ対象）に対応するピクチャ７２１と、撮影された画像７２２とを含むビデオ通話インタフェースであり、ターゲット話し相手との間でビデオ通話が行われる場面をシミュレーションしている。

具体的な場面では、端末は、ビデオ録画アプリケーションにおいて、「スターの名前を話し出してください」というプレイ方法を提供することができる。ユーザがビデオを見るときに、名前の入力を案内するポップアップが表示され、ユーザは、案内に従って２～４文字のテキストを入力することができる。また、入力されたテキストは、セキュリティ検査を行うためにサーバに送信され、テキストが規定に合致すると、ユーザが入力したテキストとスターコーパスとに対して音声合成処理を行い、合成した自製音声を端末にフィードバックし、端末は、スキップ行為に応えて撮影画面にスキップして、スターが電話を掛けてくる素材をロードする（ビデオ通話招待インタフェース）。素材のロードに成功すると、スターが電話を掛けてくる画面を見え、スターはビデオで先に入力したテキストを読み出す（すなわち、自製音声を再生する）とともに、ユーザは、小窓の形で撮影インタフェースの右上に現れ、スターと同一のインタフェースに現れるという効果を達成し、撮影ボタンを押すと、唯一の明星と同一のインタフェースに現れるビデオを得ることができる。

なお、上記各実施例のフローチャートにおける各ステップは、矢印の指示に従って順次表示されるが、これらのステップは必ずしも矢印で示される順番で実行される必要はない。なお、本明細書に特に説明がない限り、これらのステップの実行順序は、厳密に限定されるものではなく、他の順序で実行されてもよい。そして、上述した各実施例における少なくとも一部のステップは、複数のサブステップまたは複数の段階を含んでもよく、これらのサブステップまたは段階は、必ずしも同一のタイミングで実行される必要がなく、異なるタイミングで実行されてもよく、これらのサブステップまたは段階の実行順序は必ずしも逐次的に行われるものではなく、他のステップまたは他のステップのサブステップまたは段階の少なくとも一部と順番にまたは交互に実行されてもよい。

また、１つの実施例では、図８に示すように、オーディオ合成装置８００を提供する。図８を参照すると、このオーディオ合成装置８００は、取得モジュール８０１と、確定モジュール８０２と、再生モジュール８０３とを備える。

取得モジュール８０１は、ターゲットテキストを取得するためのものである。

確定モジュール８０２は、選択指令に応じて選択されたターゲット歌曲を確定するためのものである。

また、取得モジュール８０１は、曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいて合成され、ターゲットテキストを歌詞とする自製歌曲をさらに取得する。

再生モジュール８０３は、自製歌曲を再生するためのものである。

なお、オーディオ合成装置８００は、この再生モジュール８０３を含まなくてもよい。すなわち、当該オーディオ合成装置８００は、取得モジュール８０１および確定モジュール８０２のみを備えていてもよい。これにより、当該オーディオ合成装置８００によれば、ターゲットテキストを取得し、かつターゲット歌曲を確定した後、自製歌曲を取得することにより、オーディオの合成を実現することができる。

また、１つの実施例では、取得モジュール８０１は、ターゲットテキストとターゲット歌曲の歌曲識別子とをサーバに送信するとともに、サーバからフィードバックされた自製歌曲を受信する。ここで、ターゲットテキストと歌曲識別子とは、歌曲識別子に対応する曲調情報を検索した後、曲調制御モデル、ターゲットテキストおよび曲調情報に基づいて自製歌曲を合成するようにサーバを指示するためのものである。

また、１つの実施例では、取得モジュール８０１は、さらにターゲット歌曲と一致する曲調情報を検索することと、ターゲットテキストと曲調情報とを曲調制御モデルに入力し、曲調制御モデルの隠れ層によって、曲調情報に基づいてターゲットテキストにおける各文字のそれぞれに対応する曲調特徴を決定することと、曲調制御モデルの出力層によって、ターゲットテキストにおける各文字を対応する曲調特徴に応じて音声合成した自製歌曲を出力することをさらに行う。

１つの実施例では、オーディオ合成装置８００は、曲調制御モデルをトレーニングするためのトレーニングモジュール８０４をさらに含む。具体的には、このトレーニングモジュール８０４は、候補歌曲に対応する候補歌曲オーディオを収集することと、収集した候補歌曲オーディオに基づいて、各候補歌曲に対応する候補歌曲曲調を決定することと、テキストサンプルを取得することと、テキストサンプルと候補歌曲曲調とに基づいてトレーニングして曲調制御モデルを得ることを行うためのものである。そのうち、ターゲット歌曲は、候補歌曲から選択されるものである。

また、１つの実施例では、確定モジュール８０２は、さらにターゲット話し相手を決定し、取得モジュール８０１は、さらに、ターゲット話し相手に対応する曲調制御モデルを検索し、検索された曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得する。ここで、自製歌曲の音色は、ターゲット話し相手に適合する。

また、１つの実施例では、図９に示すように、オーディオ合成装置８００は、トレーニングモジュール８０４と録画モジュール８０５とをさらに含む。

録画モジュール８０５は、自製歌曲を背景オーディオに設定して、背景オーディオに基づいてビデオを録画するためのものである。

また、１つの実施例では、取得モジュール８０１は、さらに、選択指令を受信し、かつ、選択指令に応じてターゲット歌曲が選択された場合に、曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得し、選択指令に応じてターゲット話し相手が選択された場合に、音色制御モデルとターゲットテキストとに基づいて合成された自製オーディオを取得する。なお、音色制御モデルは、ターゲット話し相手とマッチングする。

また、１つの実施例では、トレーニングモジュール８０４は、さらに各候補話し相手に対応する音色制御モデルをトレーニングする。具体的には、各候補話し相手に対応するオーディオ素材を収集し、各オーディオ素材に基づいて対応する候補話し相手に対応する音素素材配列を確定し、各候補話し相手に対応する音素素材配列を用いてトレーニングすることにより各候補話し相手とマッチングする音色制御モデルを得る。ここで、ターゲット話し相手は、候補話し相手から選択される。

また、１つの実施例では、取得モジュール８０１は、さらに、ターゲット話し相手とマッチングする音色制御モデルを検索することと、ターゲットテキストに対応する音素配列を確定することと、音色制御モデルにより音素配列に基づいて自制音声を合成することと、自製音声と背景伴奏とに基づいて自製オーディオを合成することを行う。

１つの実施例では、取得モジュール８０１は、さらに、仮想対象付加元素に対応する選択指令を受信し、選択指令に応じて選択された仮想対象付加元素に対応するターゲット話し相手を決定する。また、録画モジュール８０５は、さらに、自製オーディオを背景オーディオに設定することと、撮影した画像に仮想対象付加元素を重畳して動画フレームを生成することと、背景オーディオと重畳して得られた動画フレームとに基づいて録画するビデオを生成することを行う。

また、１つの実施例では、取得モジュール８０１は、さらにアナログビデオ通話を行うための選択指令を受信し、選択指令に応じて選択されたターゲット話し相手に対応するピクチャを確定する。また、録画モジュール８０５は、さらに、自製オーディオを背景オーディオに設定することと、ピクチャおよび撮影した画像に基づいて通話動画フレームを生成することと、背景オーディオと生成された通話動画フレームとに基づいて録画するビデオを生成することを行う。

図１０は、１つの実施例におけるコンピュータ装置の内部構造を示す図である。当該コンピュータ装置は、具体的には、図１における端末１１０であってもよい。図１０に示すように、当該コンピュータ装置は、システムバスを介して接続されたプロセッサと、メモリと、ネットワークインタフェースと、入力装置と、ディスプレイスクリーンとを備えている。そのうち、メモリは、不揮発性記憶媒体と内部メモリとを含む。このコンピュータ装置の不揮発性記憶媒体には、オペレーティングシステムが記憶されており、さらに、プロセッサによって実行される際に、プロセッサにオーディオ合成方法を実現させるためのコンピュータプログラムが記憶されていてもよい。この内部メモリには、プロセッサによって実行される際に、プロセッサにオーディオ合成方法を実行させるためのコンピュータプログラムが記憶されていてもよい。コンピュータ装置のディスプレイスクリーンは、液晶ディスプレイまたは電子インクディスプレイ等とすることができる。また、入力装置は、ディスプレイスクリーンに被覆されるタッチ層であってもよいし、コンピュータ装置のケースに設けられたボタン、トラックボールまたはタッチパッドであってもよいし、外付けのキーボード、タッチパッドまたはマウス等であってもよい。なお、図１０は、本発明の技術方案に係る一部の構造のブロック図に過ぎなく、本願発明に係るコンピュータ装置の構造を限定するためのものではない。具体的なコンピュータ装置は、図示した構成よりも多く、または少ない部材を含んでいてもよいし、一部の部材を組み合わせて構成されていてもよいし、部材の配置が異なっていてもよい。

また、１つの実施例では、本発明が提供するオーディオ合成装置は、図１０に示すようなコンピュータ装置において動作可能なコンピュータプログラムの形態として実現することができ、コンピュータ装置の不揮発性記憶媒体は、例えば図８に示す取得モジュール８０１、確定モジュール８０２、合成モジュール８０３、トレーニングモジュール８０４および録画モジュール８０５等の、当該オーディオ合成装置を構成する各プログラムモジュールを記憶することができる。各プログラムモジュールで構成されるコンピュータプログラムは、本明細書で説明した本発明の各実施例に係るオーディオ合成方法におけるステップをプロセッサに実行させる。

例えば、図１０に示すコンピュータ装置は、図８に示すオーディオ合成装置８００における取得モジュール８０１によってターゲットテキストを取得し、確定モジュール８０２によって選択指令に応じて選択されたターゲット歌曲を確定し、取得部８０１によって曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいて合成され、ターゲットテキストを歌詞とする自製歌曲を取得し、再生モジュール８０３によって自製歌曲を再生することができる。

また、１つの実施例では、コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、当該コンピュータプログラムは、プロセッサによって実行されるときに、ターゲットテキストを取得するステップと、選択指令に応じて選択されたターゲット歌曲を確定するステップと、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成され、ターゲットテキストを歌詞とする自製歌曲を取得するステップと、自製歌曲を再生するステップとをプロセッサに実行させるコンピュータ読み取り可能な記憶媒体を提供する。

また、１つの実施例では、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することは、ターゲットテキストとターゲット歌曲の歌曲識別子とをサーバに送信することと、サーバからフィードバックされた自製歌曲を受信することを含む。ここで、ターゲットテキストと歌曲識別子とは、歌曲識別子に対応する曲調情報を検索した後、曲調制御モデル、ターゲットテキストおよび曲調情報に基づいて自製歌曲を合成するようにサーバを指示するためのものである。

また、１つの実施例では、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することは、ターゲット歌曲とマッチングする曲調情報を検索することと、ターゲットテキストと曲調情報とを曲調制御モデルに入力し、曲調制御モデルの隠れ層によって、曲調情報に基づいてターゲットテキストにおける各文字のそれぞれに対応する曲調特徴を決定することと、曲調制御モデルの出力層によって、ターゲットテキストにおける各文字を対応する曲調特徴に応じて音声合成した自製歌曲を出力することを含む。

１つの実施例では、当該コンピュータプログラムは、さらに、曲調制御モデルをトレーニングするステップをプロセッサに実行させる。ここで、ターゲット歌曲は、候補歌曲から選択されるものである。曲調制御モデルをトレーニングすることは、候補歌曲に対応する候補歌曲オーディオを収集することと、収集した候補歌曲オーディオに基づいて、各候補歌曲に対応する候補歌曲曲調を決定することと、テキストサンプルを取得することと、テキストサンプルと候補歌曲曲調とに基づいてトレーニングして曲調制御モデルを得ることを含む。

また、１つの実施例では、当該コンピュータプログラムは、さらに、ターゲット話し相手を決定するステップをプロセッサに実行させる。曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することは、ターゲット話し相手に対応する曲調制御モデルを検索することと、検索した曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することとを含む。ここで、自製歌曲の音色は、ターゲット話し相手に適合する。

また、１つの実施例では、当該コンピュータプログラムは、さらに、自製歌曲を背景オーディオに設定し、背景オーディオに基づいてビデオを録画するステップをプロセッサに実行させる。

１つの実施例では、当該コンピュータプログラムは、さらに、選択指令を受信し、選択指令に応じてターゲット歌曲を選択した場合に、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得するステップを実行し、選択指令に応じてターゲット話し相手を選択した場合に、音色制御モデルとターゲットテキストとに基づいて合成された自製オーディオを取得するというステップをプロセッサに実行させる。なお、音色制御モデルは、ターゲット話し相手に適合する。

１つの実施例では、当該コンピュータプログラムは、さらに、各候補話し相手に対応する音色制御モデルをトレーニングするステップをプロセッサに実行させる。なお、ターゲット話し相手は、候補話し相手から選択されるものである。各候補話し相手に対応する音色制御モデルをトレーニングすることは、各候補話し相手に対応するオーディオ素材を収集することと、各オーディオ素材に基づいて対応する候補話し相手に対応する音素素材配列を確定することと、各候補話し相手に対応する音素素材配列を用いてトレーニングすることによって各候補話し相手とマッチングする音色制御モデルを得ることとを含む。

１つの実施例では、音色制御モデルとターゲットテキストとに基づいて合成された自製オーディオを取得することは、ターゲット話し相手とマッチングする音色制御モデルを検索することと、ターゲットテキストに対応する音素配列を確定することと、音色制御モデルによって音素配列に基づいて自製音声を合成することと、自製音声と背景伴奏とに基づいて自製オーディオを合成することを含む。

１つの実施例では、選択指令を受信することは、仮想対象付加元素に対応する選択指令を受信し、選択指令に応じて選択された仮想対象付加元素に対応するターゲット話し相手を決定することを含む。また、当該コンピュータプログラムは、自製オーディオを背景オーディオに設定するステップと、撮影した画像に仮想対象付加元素を重畳して動画フレームを生成するステップと、背景オーディオと重畳して得られた動画フレームとに基づいて録画するビデオを生成するステップとをプロセッサに実行させる。

１つの実施例では、選択指令を受信することは、アナログビデオ通話を行うための選択指令を受信することと、選択指令に応じて選択されたターゲット話し相手に対応するピクチャを決定することを含む。また、当該コンピュータプログラムは、自製オーディオを背景オーディオに設定するステップと、ピクチャおよび撮影した画像に基づいて通話動画フレームを生成するステップと、背景オーディオと生成された通話動画フレームとに基づいて録画するビデオを生成するステップとをプロセッサに実行させる。

また、１つの実施例では、メモリとプロセッサとを備え、メモリにはコンピュータプログラムが記憶されており、コンピュータプログラムは、プロセッサによって実行されるときに、ターゲットテキストを取得するステップと、選択指令に応じて選択されたターゲット歌曲を確定するステップと、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成され、ターゲットテキストを歌詞とする自製歌曲を取得するステップと、自製歌曲を再生するステップとをプロセッサに実行させるコンピュータ装置を提供する。

当業者は、上記の実施例の方法を実施するための手順の全部または一部は、コンピュータプログラムによって関連するハードウェアが完了するように指示することができることを理解することができ、当該プログラムは、不揮発性のコンピュータ読取可能な記憶媒体に記憶することができ、当該プログラムが実行されると、上記の各方法の実施例の手順を含み得る。なお、本発明が提供する各実施例に用いられるメモリ、記憶、データベースまたはその他の媒体のいずれについても、不揮発性および/または揮発性のメモリを含むことができる。不揮発性メモリは、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）またはフラッシュメモリを含んでもよい。揮発性メモリは、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）または外部キャッシュメモリを含んでもよい。なお、ＲＡＭは、特に限定されるものではなく、例えばＳＲＡＭ（ＳｔａｔｉｃＲＡＭ）、ＤＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）、ＳＤＲＡＭ（ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲＡＭ）、ＤＤＲＳＤＲＡＭ（ＤｏｕｂｌｅＤａｔａＲａｔｅＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲＡＭ）、ＥＳＤＲＡＭ（ＥｎｈａｎｃｅｄＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲＡＭ）、ＳＬＤＲＡＭ（ＳｙｎｃｈｌｉｎｋＤｙｎａｍｉｃＲＡＭ）、ＲＤＲＡＭ（ＲａｍｂｕｓＤｉｒｅｃｔＲＡＭ）、ＤＲＤＲＡＭ（ＤｉｒｅｃｔＲａｍｂｕｓＤｙｎａｍｉｃＲＡＭ）、及びＲＤＲＡＭ（ＲａｍｂｕｓＤｙｎａｍｉｃＲＡＭ）等の種々の形態で実現することができる。

以上の実施例の各技術特徴は任意に組み合わせが可能であり、説明を簡潔にするために、上記実施例における各技術特徴の全ての組み合わせについて説明していないが、これらの技術特徴の組み合わせに矛盾がない限り、本明細書に記載された範囲に含まれると考えられるべきである。

以上の実施例は本発明のいくつかの実施例を示したに過ぎず、具体的かつ詳細に説明したが、本発明の特許請求の範囲を限定するものであると理解すべきではない。なお、当業者であれば、本発明の要旨を逸脱しない範囲において種々の変形、改良が可能であり、それらはいずれも本発明の保護範囲に含まれる。したがって、本発明の保護範囲は添付の特許請求の範囲を参酌すべきである。

１１０端末
１２０サーバ
３１０テキスト入力ボックス
３１１テキスト
３２０テキストテンプレートリスト
３２１テキスト
３３０候補歌曲リスト
３３１歌曲
６１０動画フレーム
６２０対話エントリ
６３１テキスト入力ボックス
６３２アナログビデオ通話エントリ
７１１ピクチャ
７２１ピクチャ
７２２画像
８００オーディオ合成装置
８０１取得モジュール
８０２確定モジュール
８０３再生モジュール
８０４トレーニングモジュール
８０５録画モジュール

Claims

コンピュータ装置システムが実行するオーディオ合成方法であって、
ターゲットテキストを取得するステップと、
選択指令に応じて選択されたターゲット歌曲を確定するステップと、
曲調制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得するステップであって、前記自製歌曲は前記ターゲットテキストを歌詞とする、ステップであって、前記曲調制御モデルは、テキストサンプルおよび候補歌曲曲調に基づいてトレーニングされて得られた、ステップと、を含み、
前記曲調制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得する前記ステップは、
前記ターゲット歌曲とマッチングする曲調情報を検索するステップと、
前記ターゲットテキストと前記曲調情報とを曲調制御モデルに入力し、前記曲調制御モデルの隠れ層によって、前記曲調情報に基づいて前記ターゲットテキストにおける各文字のそれぞれに対応する曲調特徴を決定するステップと、
前記曲調制御モデルの出力層によって、前記ターゲットテキストにおける各文字に対応する曲調特徴に基づいて音声合成された自製歌曲を出力するステップと、を含む、オーディオ合成方法。
曲調制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得する前記ステップは、
端末が前記ターゲットテキストおよび前記ターゲット歌曲の歌曲識別子をサーバに送信するステップと、
端末が前記サーバからフィードバックされた自製歌曲を受信するステップと、を含み、
前記ターゲットテキストおよび前記歌曲識別子とは、前記歌曲識別子に対応する曲調情報を検索した後、曲調制御モデル、前記ターゲットテキストおよび前記曲調情報に基づいて自製歌曲を合成するようにサーバに指示するためのものである、
ことを特徴とする請求項１に記載の方法。
曲調制御モデルをトレーニングするステップをさらに含み、
前記ターゲット歌曲は、候補歌曲から選択されるものであり、
前記曲調制御モデルをトレーニングするステップは、
候補歌曲に対応する候補歌曲オーディオを収集するステップと、
収集した候補歌曲オーディオに基づいて、各候補歌曲に対応する候補歌曲曲調を決定するステップと、
テキストサンプルを取得するステップと、
前記テキストサンプルおよび前記候補歌曲曲調に基づいてトレーニングすることによって前記曲調制御モデルを得るステップと、を含む、
ことを特徴とする請求項１に記載の方法。
ターゲット話し相手を決定するステップをさらに含み、
曲調制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得する前記ステップは、
前記ターゲット話し相手に対応する曲調制御モデルを検索するステップと、
検索した前記曲調制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得するステップとを含み、
前記自製歌曲の音色は、前記ターゲット話し相手に適合する、
ことを特徴とする請求項１に記載の方法。
請求項１から４のいずれか一項に記載の方法を実行させるコンピュータプログラム。
コンピュータプログラムが記憶されるメモリと、プロセッサとを備えるコンピュータ装置により構成されるコンピュータ装置システムであって、
請求項１、２、および４のいずれか一項に記載の方法を実行させる
ことを特徴とするコンピュータ装置システム。