JP7317850B2 - オーディオ合成方法、並びにそのコンピュータプログラム、コンピュータ装置及びコンピュータ装置により構成されるコンピュータシステム - Google Patents

オーディオ合成方法、並びにそのコンピュータプログラム、コンピュータ装置及びコンピュータ装置により構成されるコンピュータシステム Download PDF

Info

Publication number
JP7317850B2
JP7317850B2 JP2020549777A JP2020549777A JP7317850B2 JP 7317850 B2 JP7317850 B2 JP 7317850B2 JP 2020549777 A JP2020549777 A JP 2020549777A JP 2020549777 A JP2020549777 A JP 2020549777A JP 7317850 B2 JP7317850 B2 JP 7317850B2
Authority
JP
Japan
Prior art keywords
song
target
melody
control model
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020549777A
Other languages
English (en)
Other versions
JP2021516787A (ja
Inventor
凌睿 崔
▲芸▼ ▲蘆▼
怡▲ティン▼ 周
▲シン▼婉 ▲呉▼
▲芸▼▲東▼ 梁
▲暁▼ ▲梅▼
▲啓▼航 ▲馮▼
方▲暁▼ 王
会福 江
尚▲鎮▼ ▲鄭▼
▲楽▼ 余
▲勝▼▲飛▼ 夏
敬▲軒▼ 王
然 ▲張▼
▲芸▼帆 郭
震▲雲▼ ▲張▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2021516787A publication Critical patent/JP2021516787A/ja
Application granted granted Critical
Publication of JP7317850B2 publication Critical patent/JP7317850B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/021Background music, e.g. for video sequences, elevator music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/106Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters using icons, e.g. selecting, moving or linking icons, on-screen symbols, screen regions or segments representing musical elements or parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Description

本発明は、2018年7月5日に提出された出願番号が201810730283.3、発明名称が「オーディオ合成方法および装置、記憶媒体並びにコンピュータ装置」の中国特許出願に基づいた優先権を要求し、その全ての内容は参照により本願に組み込まれる。
本発明は、コンピュータの技術分野に関し、特に、オーディオ合成方法、記憶媒体およびコンピュータ装置に関する。
コンピュータ技術の発展に伴い、例えばスマートフォンやタブレットなどのようにオーディオ再生機能を有するコンピュータ装置が多くなってきている。このような場合、ユーザは、緊張している仕事の意欲を緩和したり、生活の楽しみを増加したりするために、暇な時に歌曲を聴いたり、歌曲を背景オーディオとして使用してビデオを録画したりすることが一般的に行われている。
従来、ユーザは、歌曲ライブラリから歌曲を選択して再生することが一般的である。しかし、著作権等により歌曲ライブラリにおける選択可能な歌曲の数が限られており、ユーザはこれらの歌曲から自分が希望する歌曲を選択することが困難となり、オーディオの再生効果が悪くなってしまう。
本発明は、上記課題に鑑みてなされたものであり、オーディオの再生効果を向上させることができるオーディオ合成方法、記憶媒体およびコンピュータ装置を提供する。
本発明の一方面によれば、
ターゲットテキストを取得するステップと、
選択指令に応じて選択されたターゲット歌曲を確定するステップと、
前記ターゲットテキストを歌詞とする、曲調整制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得するステップと、
前記自製歌曲を再生するステップとを含むオーディオ合成方法を提供する。
本発明の一方面によれば、
ターゲットテキストを取得するための取得モジュールと、
選択指令に応じて選択されたターゲット歌曲を確定するための確定モジュールと、
自製歌曲を再生するための再生モジュールとを備え、
前記取得モジュールは、さらに、前記ターゲットテキストを歌詞とする、曲調整制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得するオーディオ合成装置を提供する。
本発明の一方面によれば、コンピュータプログラムが記憶されるコンピュータ読取可能な記憶媒体であって、
前記コンピュータプログラムは、プロセッサによって実行されるときに、
ターゲットテキストを取得するステップと、
選択指令に応じて選択されたターゲット歌曲を確定するステップと、
曲調整制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成され、前記ターゲットテキストを歌詞とする自製歌曲を取得するステップと、
前記自製歌曲を再生するステップとをプロセッサに実行させるコンピュータ読取可能な記憶媒体を提供する。
本発明の一方面によれば、コンピュータプログラムが記憶されるメモリと、プロセッサとを備えるコンピュータ装置であって、
前記コンピュータプログラムは、前記プロセッサによって実行されるときに、
ターゲットテキストを取得するステップと、
選択指令に応じて選択されたターゲット歌曲を確定するステップと、
曲調整制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成され、前記ターゲットテキストを歌詞とする自製歌曲を取得するステップと、
前記自製歌曲を再生するステップとをプロセッサに実行させるコンピュータ読取可能な記憶媒体を提供する。
1つの実施例におけるオーディオ合成方法の適用環境を示す図である。 1つの実施例におけるオーディオ合成方法のフローチャートである。 1つの実施例におけるターゲットテキストを取得するインタフェースを示す図である。 1つの実施例における自製歌曲を合成する原理を示すブロック図である。 1つの実施例におけるビデオを録画するインタフェースを示す図である。 1つの実施例における対話入口を提供するインタフェースを示す図である。 1つの実施例におけるアナログビデオ通話のインタフェースを示す図である。 1つの実施例におけるオーディオ合成装置のモジュール構造を示す図である。 他の実施例におけるオーディオ合成装置のモジュール構造を示す図である。 1つの実施例におけるコンピュータ装置の内部構造を示す図である。
以下、本発明の目的、技術手段および利点をより明確にするために、本発明について図面および実施例を参照しながらさらに詳細に説明する。なお、ここに記載された具体的な実施例は、本発明を限定するものではなく、あくまでも本発明を解釈するためのものに過ぎない。
図1は、1つの実施例におけるオーディオ合成方法の適用環境を示す図である。図1を参照すると、このオーディオ合成方法は、オーディオ合成システムに適用される。このオーディオ合成システムは、端末110と、サーバ120とを備える。なお、端末110とサーバ120とは、ネットワークを介して接続されている。具体的には、端末110は、卓上型端末または携帯端末であってもよく、携帯端末は、具体的には携帯電話、タブレット、ノートパソコン等のうちの少なくとも一種であってもよい。サーバ120は、具体的には、独立したサーバであってもよいし、複数の独立したサーバからなるサーバクラスタであってもよい。
また、端末110は、当該オーディオ合成方法を実行するために利用可能であり、当該端末110は、自体のオペレーティングシステムに基づいて各インタフェースを呼び出して当該オーディオ合成方法を実行してもよいし、もちろん、当該端末110は、既にインストールされたアプリケーションクライアントによって当該オーディオ合成方法を実行してもよい。
上記の過程において、このアプリケーションクライアントは、オーディオ合成サービスを提供するクライアントであってもよく、例えば、当該アプリケーションクライアントは、短いビデオを再生するためのものであって、ユーザが当該アプリケーションクライアントにログインした後、当該アプリケーションクライアントによって短いビデオを再生可能なクライアントであってもよい。また、ユーザは、当該アプリケーションクライアントによって短いビデオを録画してもよく、録画開始前に、ユーザが録画する短いビデオの背景オーディオを設定することができる。例えば、端末110は、ユーザに対して複数の候補歌曲を提供し、ユーザの選択指令に応じて短いビデオの背景オーディオを決定することにより、録画指令を受信した場合に、現在録画されている短いビデオに当該背景オーディオを付加することができる。また、端末110は、当該ユーザ以外のユーザが再生するように、録画された短いビデオをサーバ120にアップロードすることもできる。もちろん、ユーザは、まずは短いビデオを録画し、録画完了後に当該短いビデオを編集操作し、当該編集操作によって録画済みの短いビデオに背景オーディオを付加し、さらに編集後の短いビデオをサーバ120にアップロードするようにしてもよい。
しかしながら、著作権等により背景オーディオの歌曲ライブラリにおける選択可能な歌曲の数が限られており、ユーザは、これらの歌曲から自分が希望する歌曲を選択して再生することが困難であり、これによりオーディオの再生効果が悪くなるため、端末110は、本発明の実施例におけるオーディオ合成方法によってオーディオの再生効果を向上させることができる。
また、幾つかの実施例では、端末110は、ターゲットテキストを取得し、かつ選択指令に応じて選択されたターゲット歌曲を確定して、曲調制御モデルとターゲットテキストとターゲット歌曲の曲調情報とに基づいて合成され、取得されたターゲットテキストを歌詞とする自製歌曲を取得することができる。また、端末110は、自製歌曲を取得した後にこの自製歌曲を再生してもよいし、この自製歌曲を背景オーディオとして設定し、この背景オーディオに基づいてビデオを録画してもよい。
上記の過程において、当該自製歌曲は、端末110側でローカルに合成されたものであってもよいし、もちろん、サーバ120側で合成された後に端末110に送信されるものであってもよく、本発明の実施例ではこの自製歌曲の合成端を具体的に限定しない。
幾つかの実施例では、自製歌曲が端末110でローカルに合成されたものである場合、端末110は、曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいてこの自製歌曲を合成する。また、ここでの曲調制御モデルは、サーバ120でトレーニングされた後に端末110に送信されるものであってもよいし、端末110でローカルにトレーニングしたものであってもよい。
幾つかの実施例では、自製歌曲がサーバ120で合成された後に端末110に送信されたものである場合、端末110は、ターゲットテキストとターゲット歌曲の歌曲識別子とをサーバ120に送信し、サーバ120は、曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいて自製歌曲を合成して端末110に送信する。
図2は、1つの実施例におけるオーディオ合成方法のフローチャートである。本実施例は、主に当該オーディオ合成方法を図1における端末110に適用することを例として説明する。図2を参照すると、この方法は、具体的には、以下のステップを含む。
S202において、端末は、ターゲットテキストを取得する。
ここで、ターゲットテキストは、合成する自製歌曲に対して歌詞を提供するためのものである。具体的には、ターゲットテキストは、ユーザが端末から提供するテキスト入力ボックスを介して入力したテキストであってもよいし、ユーザが選択指令に応じて端末から提供されたテキストテンプレートリストから選択されたテキストであってもよいし、他のコンピュータ装置から伝送されてきたテキストであってもよい。もちろん、ターゲットテキストは、他の方式によって取得されたテキストであってもよく、本発明の実施例ではターゲットテキストのソースおよび取得方式を限定しない。
例を挙げて説明すると、図3は、1つの実施例におけるターゲットテキストを取得するインタフェースを示す図である。図3を参照すると、このインタフェースは、テキスト入力ボックス310と、テキストテンプレートリスト320とを含む。ユーザがテキスト入力ボックス310にテキスト311を入力することにより、端末は、ユーザがテキスト入力ボックス310に入力したテキスト311をターゲットテキストとして取得することができる。また、ユーザがテキストテンプレートリスト320からテキストを選択することにより、端末は、ユーザがテキストテンプレートリスト320から選択したテキスト321をターゲットテキストとして取得するようにしてもよい。
S204において、端末は、選択指令に応じて選択されたターゲット歌曲を確定する。
ここで、ターゲット歌曲は、合成する自製歌曲に対して曲調を提供するためのものである。例えば、ユーザが「私の好きな天安門」という歌曲の曲調を自製歌曲の曲調として歌曲を合成しようとすると、「私の好きな天安門」がターゲット歌曲となる。また、例えば、ユーザが「2匹のトラ」という歌曲の曲調を自製歌曲の曲調として歌曲を合成しようとすると、「2匹のトラ」がターゲット歌曲となる。
1つの実施例では、端末は、候補歌曲を提供して、ユーザによる候補歌曲の選択指令を受信することにより、選択指令に応じて選択された候補歌曲をターゲット歌曲として取得することができる。
具体的には、端末は、インタフェースに候補歌曲を提示し、そして、提示された候補歌曲に対する予め定義されたトリガ操作を検出し、そのトリガ操作が検出されると、対応する選択指令を生成することができる。なお、トリガ操作は、インタフェースに提示された候補歌曲に対するタッチ操作、またはカーソルによるクリック操作とすることができる。また、トリガ操作は、予め定義された物理ボタンに対するクリックであってもよいし、候補歌曲を1つずつ表示または再生する際にトリガされる揺動操作であってもよい。
また、別の実施例では、端末は、候補歌曲から1つの歌曲をランダムに選択してターゲット歌曲とするようにしてもよい。また、端末は、候補歌曲からターゲットテキストとマッチングする歌曲を選択してターゲット歌曲とするようにしてもよい。
例を挙げて説明する。図3を続いて参照すると、このインタフェースは、候補歌曲リスト330をさらに含む。ユーザが候補歌曲リスト330において歌曲の選択を行うことにより、端末は、ユーザが候補歌曲リスト330から選択した歌曲331をターゲット歌曲として取得することができる。
S206において、端末は、曲調整制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいて合成され、ターゲットテキストを歌詞とする自製歌曲を取得する。
なお、この曲調制御モデルは、曲調制御能力を有する機械学習(Machine Learning、ML)モデルとすることができる。機械学習モデルは、サンプルによる学習によって曲調制御能力を取得することができる。また、機械学習モデルは、ニューラルネットワークモデル、サポートベクターマシンまたは論理回帰モデルなどを採用することができる。ニューラルネットワークモデルとしては、例えば、畳み込みニューラルネットワーク、逆伝播ニューラルネットワーク、フィードバックニューラルネットワーク、ラジアル基底関数ニューラルネットワークまたは自己組織化ニューラルネットワークなどが挙げられる。また、本発明の実施例では、機械学習モデルの類型を限定せず、曲調制御機能を実現可能な機械学習モデルであればよい。
曲調情報は、歌曲の音高が時間的に変化する傾向を反映し得るデータである。曲調は、旋律(または音高と言われる)とリズムとの2つの基本要素を有する。端末は、一連の音高と対応する時間情報との対応関係で曲調情報を表すことができる。ここでの時間情報は、例えば音高の開始時間、音高の持続時間、または異なる音高の間の休止時間等のリズムを反映するためのものである。1つの音高は、1つの音符を表す。1つの音符の音響パラメータは、基本周波数や強度などを含む。
なお、歌曲は、歌詞と曲調とを組み合わせた芸術の表現形式である。ターゲット歌曲は、歌曲の歌唱者が歌曲の創作者が創作した歌詞および曲調に従って歌唱して得られたオーディオデータである。本実施例では、ターゲット歌曲の曲調を維持したまま、歌詞を入れ替えることによって曲調に変化が発生しなかった自製歌曲を合成する。勿論、本発明の実施例では、入れ替えた歌詞に基づいてターゲット歌曲の曲調を調整して自製歌曲を合成することもできる。
ここで、自製歌曲は、歌詞をカスタマイズした歌曲である。自製歌曲の曲調は、既存の歌曲の歌曲をそのまま使用する。もちろん、自製歌曲は、曲調をカスタマイズしてもよい。端末は、既存の歌詞およびカスタム曲調に基づいて自製歌曲を合成し、またはカスタム歌詞およびカスタム曲調に基づいて自製歌曲を合成する。カスタム歌詞およびカスタム曲調に基づいて合成された自製歌曲は、オリジナル歌曲である。
1つの実施例では、ターゲット歌曲の曲調情報は、ターゲット歌曲の歌曲ファイルから抽出されたデータであってもよい。例えば、ターゲット歌曲の歌曲ファイルから、MIDI(Musical Instrument Digital Interface)ファイルをターゲット歌曲の曲調情報として抽出する。なお、MIDIファイルには音高と対応する時間情報とが含まれており、曲調情報は一連の音高と対応する時間情報との対応関係で表すことができるので、MIDIファイルに含まれる音高と対応する時間情報とで曲調情報を構成することができる。
1つの実施例では、ターゲット歌曲の曲調情報は、歌曲の歌唱者が歌唱したオーディオデータから抽出されたものであってもよい。歌曲の歌唱者が歌唱したオーディオデータは、背景の伴奏が付いているオーディオデータであってもよいし、歌だけを歌った(以下、「清唱」という)オーディオデータであってもよいし。なお、清唱したオーディオデータは、背景音楽がなく歌曲の歌唱者の歌唱音のみが記録されているデータである。また、端末は、ターゲット歌曲と対応する歌唱者が歌唱したオーディオデータを録画した後、このオーディオデータから曲調情報を抽出することができる。なお、曲調情報は、構築されたモデルによって抽出することができる。もちろん、ターゲット歌曲の曲調情報は、他の方式で取得することもできるが、本発明の実施例では限定されない。
具体的には、端末は、選択指令に応じて選択されたターゲット歌曲を確定した後、当該選択されたターゲット歌曲の曲調情報を検索し、そして、ターゲットテキストを検索した曲調情報とともに曲調制御モデルに入力して、曲調制御モデルによってターゲットテキストを歌詞とするとともにターゲット歌曲の曲調を曲調とする自製歌曲を出力する。
あるいは、端末は、TTS(text to speech)技術に基づいて当該ターゲットテキストに対応する音響スペクトル特徴を生成し、その後、当該音響スペクトル特徴と当該曲調情報とを曲調制御モデルに入力し、当該曲調制御モデルによって当該音響スペクトル特徴の曲調を当該曲調情報とマッチングする曲調に変換して自製歌曲を得られて、自製歌曲の音響スペクトル特徴を出力してもよい。
上記の過程において、曲調が同一であるが歌唱者が異なる歌曲については、通常は同一の曲調情報を有しているので、この場合、当該ターゲットテキストと対応するとともに複数の歌唱者に対応する複数の音響スペクトル特徴を生成し、音響スペクトル特徴毎に1つの自製歌曲を生成することにより、当該複数の音響スペクトル特徴と当該曲調情報とに基づいて複数の自製歌曲を生成することができる。ここで、異なる自製歌曲同士は、曲調が同一であるが音色が異なるので、オーディオ合成の過程がより豊かになる。
1つの実施例では、S206は、端末がターゲットテキストおよびターゲット歌曲の歌曲識別子をサーバに送信することと、端末がサーバからフィードバックされた自製歌曲を受信することとを含む。ここで、ターゲットテキストおよび歌曲識別子は、歌曲識別子に対応する曲調情報を検索した後、曲調制御モデル、ターゲットテキストおよび曲調情報に基づいて自製歌曲を合成するようにサーバを指示するためのものである。
ここで、歌曲識別子は、1つの歌曲を一意に識別するためのものである。具体的には、端末は、選択指令に応じて選択されたターゲット歌曲を確定した後、そのターゲット歌曲の歌曲識別子と取得したターゲットテキストとを一緒にサーバに送信する。このように、サーバは、歌曲識別子を受信すると、この歌曲識別子に対応する曲調情報を検索し、この曲調情報とターゲットテキストとを曲調制御モデルに入力し、曲調制御モデルによってターゲットテキストを歌詞とするとともに曲調がターゲット歌曲と一致するような自製歌曲を出力する。そして、サーバは、当該自製歌曲を端末にフィードバックすることができる。
なお、自製歌曲は、自製の清唱歌曲であってもよいし、背景の伴奏が付いている自製歌曲であってもよい。自製歌曲が自製の清唱歌曲である場合、サーバは、自製の清唱歌曲をそのまま端末にフィードバックしてもよいし、自製の清唱歌曲と背景の伴奏とをミキシングした自製歌曲を端末にフィードバックしてもよいし、両方を端末にフィードバックして、端末が選択のためにユーザに提示するようにしてもよい。
本実施例では、サーバ側でオーディオ合成のステップを実現しているので、サーバの強くて高速な計算能力を利用してオーディオ合成の効率を向上させることができる。
S208において、端末は、自製歌曲を再生する。
具体的には、端末は、自製歌曲を合成したり、サーバからフィードバックされた自製歌曲を受信したりした後、この自製歌曲を再生することができる。これにより、ユーザは、再生された自製歌曲を聞くことによって自分の予想に合致するか否かを判断し、自製歌曲が自分の予期に合致したときに後続の操作を行うことができる。
あるいは、端末は、その自製歌曲を合成した後、上記ステップS208を実行せずに、その自製歌曲をローカルに記憶したり、サーバにアップロードしたりして、ある時刻で再生指令を受信すると、上記ステップS208を実行するようにしてもよい。
上記のオーディオ合成方法によれば、ターゲットテキストを取得し、かつ選択指令に応じて選択されたターゲット歌曲を確定した後、曲調整制御モデルによってターゲットテキストを歌詞とするとともにターゲット歌曲の曲調情報と合わせて合成した自製歌曲を取得することができる。このようにして、ユーザは、歌詞や曲調を自主的に選択して、自分の希望に合致する歌曲をカスタマイズすることによって、自分の希望に合致する歌曲を再生することができ、オーディオの再生効果を大幅に向上させることができる。
また、1つの実施例では、当該オーディオ合成方法は、端末が自製歌曲を背景オーディオに設定し、当該背景オーディオに基づいてビデオを録画することをさらに含む。
具体的には、端末は、自製歌曲を合成したり、サーバからフィードバックされた自製歌曲を受信したりした後、自動的に当該自製歌曲を背景オーディオとして設定し、ローカルの画像撮影装置を呼び出してビデオを録画することができる。また、端末は、ユーザがトリガした指令に応じて、合成した自製歌曲を背景オーディオに設定し、その後、ローカルの画像撮影装置を呼び出してビデオを録画するようにしてもよい。これにより、端末は、合成された自製歌曲を背景オーディオとしてビデオを録画することができる。
また、1つの具体的な実施例では、端末には、ビデオ録画アプリケーションがインストールされる。端末は、ユーザーからの指令に応じて当該ビデオ録画アプリケーションを動作させ、かつ、続いてユーザーからの指令に応じて背景オーディオの設定インタフェース(例えば、図3に示すようなインタフェース)に移行することができる。また、端末は、ユーザが入力したターゲットテキストおよびユーザが選択したターゲット歌曲を取得し、さらに、ターゲット歌曲の曲調情報を決定して、ターゲットテキストを歌詞とするとともに決定した曲調情報と合わせて自製歌曲を合成することができる。また、端末は、合成した歌曲を背景オーディオとして設定し、ビデオ録画インタフェースに移行して、ユーザの指令に応じて設定した背景オーディオを再生し、画像を撮影してビデオを録画することができる。
本実施例では、ユーザは、歌詞や曲調を自主的に選択し、自分の希望に合致する歌曲をカスタマイズし、さらに、カスタマイズした歌曲を背景オーディオとしてビデオを録画することにより、背景オーディオのソースが大幅に豊富となり、かつビデオの録画効率が向上される。
また、1つの実施例では、S206は、端末がターゲット歌曲とマッチングする曲調情報を検索することと、ターゲットテキストと曲調情報とを曲調制御モデルに入力し、曲調制御モデルの隠れ層によって、曲調情報に基づいてターゲットテキストにおける各文字のそれぞれに対応する曲調特徴を決定することと、曲調制御モデルの出力層によって、ターゲットテキストにおける各文字を対応する曲調特徴に応じて音声合成した自製歌曲を出力することと、を含む。
具体的には、端末は、選択指令に応じて選択されたターゲット歌曲を確定した後、事前に得られた当該ターゲット歌曲の曲調情報を検索し、さらに、ターゲットテキストを曲調情報と共にトレーニング済みの曲調制御モデルに入力し、曲調制御モデルの隠れ層によってターゲットテキストにおける各文字のそれぞれに対して曲調マッチングを行うことによって、ターゲットテキストにおける各文字のそれぞれに対応する曲調特徴を決定し、さらに、曲調制御モデルの出力層によって、ターゲットテキストにおける各文字を対応する曲調特徴に応じて音声合成した自製歌曲を出力する。
また、1つの実施例では、当該オーディオ合成方法は、曲調制御モデルをトレーニングするステップをさらに含む。曲調制御モデルをトレーニングするステップは、端末が候補歌曲に対応する候補歌曲オーディオを収集することと、収集した候補歌曲オーディオに基づいて、各候補歌曲に対応する候補歌曲曲調を決定することと、テキストサンプルを取得することと、テキストサンプルと候補歌曲曲調とに基づいてトレーニングして前記曲調制御モデルを得ることを含む。
具体的には、端末は、各候補歌曲のそれぞれについてその歌唱者が歌唱したオーディオデータを録音し、オーディオデータに対して曲調特徴の標識を行うことによって、対応する候補歌曲の曲調情報を得ることができる。あるいは、端末は、各候補歌曲のMIDIファイルを、対応する候補歌曲の曲調情報として取得することができる。また、端末は、テキストサンプルとして文字列をランダムに選択し、テキストサンプルを候補歌曲の曲調情報と共に曲調制御モデルのトレーニングサンプルとして、曲調制御モデルにおける各層によってテキストサンプルおよび候補歌曲を処理して、テキストサンプルを歌詞とするとともに曲調が入力された曲調情報に合致する歌曲サンプルを出力することができる。また、端末は、出力された歌曲サンプルと所望の結果との差異に応じて、曲調制御モデルのモデルパラメータと入力された候補歌曲の曲調情報とを調整することができる。端末は、パラメータを調整した後、曲調制御モデルのトレーニングが完了するまでトレーニングを継続することができる。端末は、トレーニングによって曲調制御モデルを得た後、曲調制御モデルを使用する必要があるときに取得して使用できるように、この曲調制御モデルをローカルに保存することができる。
また、1つの実施例では、曲調制御モデルから出力された歌曲サンプルと所望の結果との差異は、人工的に判断することができる。曲調制御モデルは、各候補歌曲に対して共通のモデルである。
また、1つの実施例では、モデルのトレーニング過程は、サーバで行われ、サーバは、曲調制御モデルのトレーニングが完了した後に、曲調制御モデルを端末に配信して使用させるようにしてもよい。
上記実施例では、機械学習モデルの強い学習能力によって曲調制御の能力を学習し、トレーニングが完了した曲調制御モデルによって音声合成を行うので、従来の音声合成方式に比べて、音声合成効率が向上され、音声合成の正確性が向上された。
また、1つの実施例では、当該オーディオ合成方法は、端末がターゲット話し相手を決定することを含む。S206は、端末がターゲット話し相手に対応する曲調制御モデルを検索することと、端末が検索した曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することとを含む。ここで、自製歌曲の音色は、ターゲット話し相手に適合する。
ここで、ターゲット話し相手は、ターゲット音色が属する対象である。ターゲット音色は、ユーザが合成しようとする自製歌曲または自製音声の声特徴である。ターゲット話し相手は、仮想対象であってもよいし、真実対象であってもよい。仮想対象としては、例えば、ゲームにおける仮想キャラクタまたはアニメにおける仮想キャラクタなどが挙げられる。真実対象としては、例えば、現実シーンにおけるシンガーまたは出演者などが挙げられる。
なお、異なる発音体は、材料や構造が異なるため、発した声音の音色も異なる。例えば、ピアノ、バイオリンと人の音色が異なっているので、発した声音も異なっている。また、各人の音色も異なっている。音色は、声音の特徴である。異なる音色は、音高と声音の強さが同一であっても区別がある。
なお、ターゲット話し相手に対応する曲調制御モデルは、ターゲット話し相手が歌唱したオーディオデータに基づいてトレーニングされた曲調制御モデルであり、このようにトレーニングして得た曲調制御モデルから出力した自製歌曲の音色は、ターゲット話し相手に適合する。また、上記実施例で説明した曲調制御モデルは、トレーニングに用いるオーディオデータの歌唱者を限定するものではなく、すなわち、音色が限定されない。
具体的には、端末は、選択指令に応じて続いて選択されたターゲット話し相手を決定してもよいし、ターゲット歌曲の歌唱者をターゲット話し相手として取得してもよい。さらに、端末は、ターゲットテキストとターゲット歌曲の曲調情報とを、ターゲット話し相手に対応する曲調制御モデルに入力して自製歌曲を合成することができる。
なお、ターゲット話し相手に対応する曲調制御モデルは、ターゲット話し相手の音色情報とマッチングする曲調制御モデルであり、端末は、ターゲットテキストを曲調情報と共にトレーニングが完了しかつターゲット話し相手の音色情報とマッチングする曲調制御モデルに入力し、曲調制御モデルの隠れ層によってターゲットテキストにおける各文字に対して曲調マッチングを行うことによって、各文字のそれぞれに対応する曲調特徴を決定し、そして、曲調制御モデルの出力層によってターゲットテキストにおける各文字を対応する曲調特徴に応じて音声合成した、ターゲット話し相手の音色に適合する自製歌曲を出力する。
もちろん、端末は、この過程をモデルで実現する際に、1つのモデルでエンドツーエンド(ターゲットテキストから自製歌曲まで)の変換を実現してもよいし、複数のモデルを使用し、各モデルが協力してそれぞれ1つの機能を実現するように実現してもよい。例えば、まず、音色制御モデルによってターゲットテキストを音色がターゲット話し相手に適合する自製音声に変換し、さらに、曲調制御モデルによって自製音声を曲調がターゲット歌曲と一致する自製歌曲に変換する。なお、ここでの音色制御モデルは後述するが、ここでの曲調制御モデルのトレーニングの際に入力されたデータは、ターゲットテキストおよび曲調情報ではなく、音色制御モデルから出力される自製音声および曲調情報となる。
なお、本実施例では、ユーザが選択した声でユーザが歌詞をカスタマイズした歌曲を合成することができる。例えば、あるスターの声でユーザの自製歌曲を歌唱することにより、歌曲の創作を完了する。
1つの実施例では、端末は、取得したターゲットテキストに対してセキュリティ検査を行い、ターゲットテキストが規定に合致する場合に、後続の操作を継続するが、ターゲットテキストが規定に合致しない場合に、エラーをフィードバックすることができる。なお、ターゲットテキストのセキュリティ検査ステップは、サーバで行われてもよい。
例を挙げて説明すると、図4は、1つの実施例における自製歌曲を合成する原理を示すブロック図である。図4を参照すると、サーバ(または端末)は、声音素材(候補話し相手のオーディオデータ)を事前に収集し、収集した声音素材(音素、基本周波数、声音の強さおよび時間情報等)を標記し、収集した声音素材および標記データに基づいてモデルをトレーニングすることができる。ここでのモデルは、音色制御モデルや、汎用の曲調制御モデルや、各候補話し相手に対応する曲調制御モデル等である。なお、声音素材から選択されるモデルとして入力されるデータと標記データとによっては、トレーニングして得たモデルが異なる。サーバ(または端末)は、使用に備えてトレーニングされたモデルを保存してもよく、サーバは、モデルを端末が使用するために端末に配信してもよい。
端末は、ターゲットテキストを取得した後、当該ターゲットテキストをサーバにアップロードすることができる。また、端末は、ユーザが選択したターゲット歌曲またはターゲット話し相手の識別子をサーバにアップロードすることもできる。また、サーバは、ターゲットテキストに対してセキュリティ検査を行う。また、セキュリティ検査がOKであると、ユーザがターゲット話し相手を選択した場合に、トレーニングにより得られた音色制御モデルがターゲットテキストの音素配列に基づいてターゲットテキストに対応する自製音声を取得し、または、ユーザがターゲット歌曲を選択した場合に、トレーニングにより得られた曲調制御モデルがターゲット歌曲の曲調情報に基づいてターゲットテキストを歌詞とする自製歌曲を取得し、または、ユーザがターゲット歌曲とターゲット話し相手とを選択した場合に、トレーニングにより得られた曲調制御モデルがターゲットテキストの音素配列とターゲット歌曲の曲調情報とに基づいて、ターゲットテキストを歌詞とする自製歌曲を取得する。サーバは、モデルにより自製歌曲または自製音声を取得した後に端末に配信し、または自製歌曲または自制音声を伴奏とミキシングした後に端末に配信する。端末は、ローカルで上記過程を行うこともできる。
上記の実施例では、ユーザは、歌詞、曲調および音色を自主的に選択して、自分の希望に合致する歌曲をカスタマイズし、さらに、カスタマイズした歌曲を背景オーディオとしてビデオを録画することができるので、背景オーディオのソースを大幅に豊富にし、かつビデオの録画効率を向上させた。
1つの実施例では、当該オーディオ合成方法は、端末が選択指令を受信し、かつ、選択指令に応じてターゲット歌曲を選択した場合に、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得するステップを実行し、選択指令に応じてターゲット話し相手を選択した場合に、音色制御モデルとターゲットテキストとに基づいて合成された自製オーディオを取得するステップを実行することをさらに含む。なお、音色制御モデルは、ターゲット話し相手とマッチングしている。
ここで、選択指令は、ユーザの操作に応じてトリガされるコンピュータ読み取り可能な指令であってもよい。選択指令は、ターゲットを選択するためのものである。ターゲットは、ターゲット歌曲またはターゲット話し相手であってもよい。音色制御モデルは、トレーニングされた音色制御能力を有する機械学習モデルである。
具体的には、端末は、インタフェースに候補歌曲リストまたは候補話し相手リストを表示し、表示された候補歌曲または候補話し相手に対する予め定義されたトリガ操作を検出し、そのトリガ操作が検出されると、対応する選択指令を生成することができる。また、端末は、選択指令に応じてターゲット歌曲を選択したと確定すると、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得するステップを実行する。
また、端末は、選択指令に応じてターゲット話し相手を選択したと確定すると、音色制御モデルとターゲットテキストとに基づいて合成された自制オーディオを取得する。ここで、音色制御モデルは、ターゲット話し相手とマッチングしている。本実施例では、ユーザは、ある仮想キャラクタまたは現実の人物の声を選択して自分が話したいことを話し出すことができる。
1つの実施例では、音色制御モデルとターゲットテキストとに基づいて合成された自製オーディオを取得することは、ターゲット話し相手とマッチングする音色制御モデルを検索することと、ターゲットテキストに対応する音素配列を確定することと、音色制御モデルによって音素配列に基づいて自製音声を合成することと、自製音声と背景伴奏とに基づいて自製オーディオを合成することとを含む。
そのうち、ターゲット話し相手とマッチングする音色制御モデルは、ターゲット話し相手のオーディオデータに基づいてトレーニングされた音色制御モデルであり、この音色制御モデルにより出力される音声の音色は、ターゲット話し相手の音色と一致する。
音素は、音声の自然属性に基づいて区画された最小の音声ユニットである。中国語の音節を例として説明すると、
Figure 0007317850000001
が1つのみの音素を有し、
Figure 0007317850000002
が2つの音素を有し、
Figure 0007317850000003
が3つの音素を有する。端末には、文字と音素との対応関係が記憶されていてもよい。
具体的には、端末は、ターゲットテキストを取得した後、文字と音素との対応関係に基づいてターゲットテキストに対応する音素配列を確定し、さらに、ターゲットテキストに対応する音素配列をトレーニングが完了した音色制御モデルに入力し、音色制御モデルの隠れ層によって各音素のそれぞれに対応する音響パラメータを決定し、さらに、音色制御モデルの隠れ層によって各音素のそれぞれに対応する音響パラメータに基づいて、各音素のそれぞれに対応する音声波形ユニットを決定することにより、音色制御モデルの出力層によって各音素のそれぞれに対応する音声波形ユニットに基づいて、ターゲットテキストに対応する音声波形を出力し、自製音声を得ることができる。
ここで、音色制御モデルが出力した自製音声は、背景伴奏のないターゲット話し相手の話し声であり、端末は、自製音声と背景伴奏をミキシングして自製オーディオを得ることができる。
また、本実施例では、機械学習モデルの強い学習能力によって音色制御の能力を学習し、トレーニングが完了した音色制御モデルを用いて音声合成を行うので、従来の音声合成方式と比べて、音声合成効率が向上するとともに、音声合成の正確性が向上した。
また、1つの実施例では、当該オーディオ合成方法は、各候補話し相手とマッチングする音色制御モデルをトレーニングするステップをさらに含む。ここで、ターゲット話し相手は候補話し相手から選択されるものである。また、各候補話し相手とマッチングする音色制御モデルをトレーニングすることは、各候補話し相手に対応するオーディオ素材を収集することと、各オーディオ素材に基づいて対応する候補話し相手に対応する音素素材配列を確定することと、各候補話し相手に対応する音素素材配列を用いてトレーニングして各候補話し相手とマッチングする音色制御モデルを得ることとを含む。
具体的には、端末は、各候補話し相手に対応するオーディオ素材を収集することができる。候補話し相手毎に、その候補話し相手に対応するオーディオ素材を分割して、オーディオ素材に対応する音素配列サンプルを得られ、音素配列サンプルを入力データとして音色制御モデルをトレーニングすることによって、その候補話し相手の音色に合致するオーディオを出力することができる。端末は、出力されたオーディオと入力された音素配列サンプルのソースであるオーディオ素材との差異に基づいて音色制御モデルのモデルパラメータを調整することができる。端末は、パラメータを調整した後、音色制御モデルのトレーニングが完了するまでトレーニングを継続することができる。このようにして、端末は、各候補話し相手毎にそれぞれマッチングする音色制御モデルをトレーニングした。
端末は、トレーニングして音色制御モデルを得られた後、この音色制御モデルを、音色制御モデルを使用する必要があるときに取得して使用するようにローカルに格納してもよい。また、音色制御モデルのトレーニングは、サーバ上で行われ、サーバは、音色制御モデルのトレーニングが完了した後に、音色制御モデルを端末に配信するようにしてもよい。
また、1つの実施例では、端末は、当該音素配列を音色制御モデルに入力する前に、当該ターゲットテキストに対して区切れを行い、区切れの結果に応じて音素配列に区切れ記号を挿入することによって、合成された自制音声そのものが音節分割の効果を持つようにすることができ、さらに再生効果を最適化することができる。
1つの実施例では、端末は、自製音声を合成した後、その自製音声に対して音節の分割を行うことができる。通常、1つの音節は1つの文字を表す。このように、端末は、自製音声のリズムが曲調情報に合致するように、例えば開始時間、持続時間および異なる音節の間の休止時間などの各音節の時間情報を調整することができる。また、端末は、自製音声の旋律が曲調情報に合致するように、例えば基本周波数や声音の強さなどの各音節の音高を調整することができる。これにより、ターゲットテキストを歌詞とし、曲調がターゲット歌曲と一致するとともに音色がターゲット話し相手と一致するような自製歌曲を得ることができる。
上記の本実施例では、ユーザは、歌詞や曲調を自主的に選択し、自分の希望に合致する歌曲をカスタマイズし、さらに、カスタマイズした歌曲を背景オーディオとしてビデオを録画し、またはターゲット音色を自主的に選択して、自己が選択した音色に合致する音声を得ることができる。
また、1つの実施例では、選択指令を受信することは、端末が仮想対象付加元素に対応する選択指令を受信することと、選択指令に応じて選択された仮想対象付加元素に対応するターゲット話し相手を決定することを含む。また、当該オーディオ合成方法は、端末が自製オーディオを背景オーディオに設定することと、撮影した画像に仮想対象付加元素を重畳して動画フレームを取得することと、背景オーディオと重畳して取得した動画フレームとに基づいて録画するビデオを生成することをさらに含む。
そのうち、仮想対象付加元素は、可視コンテンツが仮想対象イメージであるデータである。仮想対象付加元素は、別途画像に添加して画像コンテンツを修飾するために用いられてもよい。例えば、仮想対象のペンダントなどが挙げられる。仮想対象付加元素は、動画などの動的データであってもよいし、静止画などの静的データであってもよい。
具体的には、端末は、インタフェースに仮想対象付加元素リストを表示し、表示された仮想対象付加元素に対する予め定義されたトリガ操作を検出し、当該トリガ操作が検出されると、対応する選択指令をトリガし、選択指令に応じた仮想対象付加元素を選択することができる。そして、端末は、選択された仮想対象付加元素に対応する仮想対象をターゲット話し相手とする。さらに、端末は、ターゲットテキストを取得し、このターゲット話し相手とマッチングする音色制御モデルに基づいて、ターゲットテキストを自製オーディオに変換し、さらに画像撮影装置によって画像を撮影し、撮影した画像に仮想対象付加元素を重畳して動画フレームを取得することができる。端末は、取得した動画フレームをレンダリングしてプレビュー画面を形成し、自製オーディオに基づいてビデオを録画してもよい。
例を挙げて説明すると、図5は、1つの実施例におけるビデオを録画するインタフェースを示す図である。図5の左図を参照すると、このインタフェースは、仮想対象付加元素リスト510と、テキスト入力ボックス入口520とを含む。ユーザは、仮想対象付加元素リスト510において選択することができ、端末は、ユーザが仮想対象付加元素リスト510から選択した仮想対象付加元素511を取得し、仮想対象付加元素に対応する仮想対象をターゲット話し相手とすることができる。ユーザは、テキスト入力ボックス入口520を通じてテキスト入力ボックス530を開き、図5の中間図に示すように、テキスト入力ボックスにターゲットテキストを入力し、または図5の右図に示すように、候補テキストテンプレートからターゲットテキストを選択することができる。
具体的な場面では、端末は、ビデオ録画アプリケーションの撮影インタフェースにゲームのヒーロー用ペンダントを提供し、ユーザが一節のテキストをカスタマイズし、その後、このヒーローの声でユーザがカスタマイズしたテキストを話し出すことにより、ユーザが直接ゲームのヒーローを指揮して言いたい言葉を言い出すという効果を達成することができる。また、自製音声を合成した後、自製音声を背景オーディオとしてビデオを録画する場合には、ユーザは、口型に合わせて表演することにより、扮装、声および口型等の複数の方位から模倣の効果を達成することができる。
また、1つの実施例では、選択指令を受信することは、端末がアナログビデオ通話を行うための選択指令を受信することと、選択指令に応じて選択されたターゲット話し相手に対応するピクチャを確定することとを含む。また、当該オーディオ合成方法は、自製オーディオを背景オーディオに設定することと、ピクチャと撮影された画像から通話動画フレームを生成することと、背景オーディオと生成された通話動画フレームとに基づいて録画するビデオを生成することをさらに含む。
具体的には、端末は、ビデオ再生インタフェースに対話入口を提供することができる。端末は、ユーザからの指令に応じて当該対話入口を介して対話型インタフェースを行うことができる。端末は、対話型インタフェースにアナログビデオ通話入口を提供し、アナログビデオ通話入口に作用する選択指令を受信すると、選択指令に応じて選択されたターゲット話し相手が現在再生されているビデオにおける対象であるか、または、当該ビデオを配信したユーザであるかを確定し、さらに、ターゲット話し相手に対応するピクチャを確定して、確定したピクチャと撮影した画像とに基づいて通話動画フレームを生成し、背景オーディオと生成された通話動画フレームとに基づいてターゲット話し相手とのビデオ通話のビデオを生成することができる。
また、端末は、対話型インターフェースにテキスト入力ボックスを提供し、入力されたターゲットテキストを取得し、決定されたターゲット話し相手の音色情報に基づいてターゲットテキストを自製音声に変換し、この自製音声と生成された通話動画フレームとによって録画するビデオを生成してもよい。このようにすれば、ユーザは、ビデオ通話対象が自分に対して話したい言葉を話し出すように通話ビデオ対象を直接的に制御するという効果ことを達成することができる。
例を挙げて説明すると、図6は、1つの実施例における対話入口を提供するインタフェースを示す図である。図6の左図を参照すると、このインタフェースは、現在再生されているビデオの動画フレーム610と、対話入口620とを含む。端末は、ユーザからの指令に応じて当該対話入口620を介して図6の右図に示すような対話型インタフェースを行うことができる。当該対話型インタフェースは、テキスト入力ボックス631とアナログビデオ通話入口632とを含む。ユーザは、アナログビデオ通話入口632によって動画フレーム610内の対象とビデオ通話を行うことをシミュレーションすることができる。ユーザは、テキスト入力ボックス631を介してテキストを入力し、端末は、ユーザが入力したテキストをターゲットテキストとして取得して、自製音声を合成し、この自製音声をアナログビデオ通話時にアナログビデオ通話の内容として再生することができる。
図7は、1つの実施例におけるアナログビデオ通話のインタフェースを示す図である。図7の左図は、ビデオ通話招待インタフェースである。ビデオ通話招待インタフェースは、ターゲット話し相手に対応するピクチャ711を含む。ユーザーは、ビデオ通話応答入口を介してアナログビデオ通話を行うことができる。端末は、ビデオ通話招待インタフェースを予め設定された時間でレンダリングした後にビデオ通話インタフェースに入るようにしてもよい。また、図7の右図は、ターゲット話し相手(ビデオ対象)に対応するピクチャ721と、撮影された画像722とを含むビデオ通話インタフェースであり、ターゲット話し相手との間でビデオ通話が行われる場面をシミュレーションしている。
具体的な場面では、端末は、ビデオ録画アプリケーションにおいて、「スターの名前を話し出してください」というプレイ方法を提供することができる。ユーザがビデオを見るときに、名前の入力を案内するポップアップが表示され、ユーザは、案内に従って2~4文字のテキストを入力することができる。また、入力されたテキストは、セキュリティ検査を行うためにサーバに送信され、テキストが規定に合致すると、ユーザが入力したテキストとスターコーパスとに対して音声合成処理を行い、合成した自製音声を端末にフィードバックし、端末は、スキップ行為に応えて撮影画面にスキップして、スターが電話を掛けてくる素材をロードする(ビデオ通話招待インタフェース)。素材のロードに成功すると、スターが電話を掛けてくる画面を見え、スターはビデオで先に入力したテキストを読み出す(すなわち、自製音声を再生する)とともに、ユーザは、小窓の形で撮影インタフェースの右上に現れ、スターと同一のインタフェースに現れるという効果を達成し、撮影ボタンを押すと、唯一の明星と同一のインタフェースに現れるビデオを得ることができる。
なお、上記各実施例のフローチャートにおける各ステップは、矢印の指示に従って順次表示されるが、これらのステップは必ずしも矢印で示される順番で実行される必要はない。なお、本明細書に特に説明がない限り、これらのステップの実行順序は、厳密に限定されるものではなく、他の順序で実行されてもよい。そして、上述した各実施例における少なくとも一部のステップは、複数のサブステップまたは複数の段階を含んでもよく、これらのサブステップまたは段階は、必ずしも同一のタイミングで実行される必要がなく、異なるタイミングで実行されてもよく、これらのサブステップまたは段階の実行順序は必ずしも逐次的に行われるものではなく、他のステップまたは他のステップのサブステップまたは段階の少なくとも一部と順番にまたは交互に実行されてもよい。
また、1つの実施例では、図8に示すように、オーディオ合成装置800を提供する。図8を参照すると、このオーディオ合成装置800は、取得モジュール801と、確定モジュール802と、再生モジュール803とを備える。
取得モジュール801は、ターゲットテキストを取得するためのものである。
確定モジュール802は、選択指令に応じて選択されたターゲット歌曲を確定するためのものである。
また、取得モジュール801は、曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいて合成され、ターゲットテキストを歌詞とする自製歌曲をさらに取得する。
再生モジュール803は、自製歌曲を再生するためのものである。
なお、オーディオ合成装置800は、この再生モジュール803を含まなくてもよい。すなわち、当該オーディオ合成装置800は、取得モジュール801および確定モジュール802のみを備えていてもよい。これにより、当該オーディオ合成装置800によれば、ターゲットテキストを取得し、かつターゲット歌曲を確定した後、自製歌曲を取得することにより、オーディオの合成を実現することができる。
また、1つの実施例では、取得モジュール801は、ターゲットテキストとターゲット歌曲の歌曲識別子とをサーバに送信するとともに、サーバからフィードバックされた自製歌曲を受信する。ここで、ターゲットテキストと歌曲識別子とは、歌曲識別子に対応する曲調情報を検索した後、曲調制御モデル、ターゲットテキストおよび曲調情報に基づいて自製歌曲を合成するようにサーバを指示するためのものである。
また、1つの実施例では、取得モジュール801は、さらにターゲット歌曲と一致する曲調情報を検索することと、ターゲットテキストと曲調情報とを曲調制御モデルに入力し、曲調制御モデルの隠れ層によって、曲調情報に基づいてターゲットテキストにおける各文字のそれぞれに対応する曲調特徴を決定することと、曲調制御モデルの出力層によって、ターゲットテキストにおける各文字を対応する曲調特徴に応じて音声合成した自製歌曲を出力することをさらに行う。
1つの実施例では、オーディオ合成装置800は、曲調制御モデルをトレーニングするためのトレーニングモジュール804をさらに含む。具体的には、このトレーニングモジュール804は、候補歌曲に対応する候補歌曲オーディオを収集することと、収集した候補歌曲オーディオに基づいて、各候補歌曲に対応する候補歌曲曲調を決定することと、テキストサンプルを取得することと、テキストサンプルと候補歌曲曲調とに基づいてトレーニングして曲調制御モデルを得ることを行うためのものである。そのうち、ターゲット歌曲は、候補歌曲から選択されるものである。
また、1つの実施例では、確定モジュール802は、さらにターゲット話し相手を決定し、取得モジュール801は、さらに、ターゲット話し相手に対応する曲調制御モデルを検索し、検索された曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得する。ここで、自製歌曲の音色は、ターゲット話し相手に適合する。
また、1つの実施例では、図9に示すように、オーディオ合成装置800は、トレーニングモジュール804と録画モジュール805とをさらに含む。
録画モジュール805は、自製歌曲を背景オーディオに設定して、背景オーディオに基づいてビデオを録画するためのものである。
また、1つの実施例では、取得モジュール801は、さらに、選択指令を受信し、かつ、選択指令に応じてターゲット歌曲が選択された場合に、曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得し、選択指令に応じてターゲット話し相手が選択された場合に、音色制御モデルとターゲットテキストとに基づいて合成された自製オーディオを取得する。なお、音色制御モデルは、ターゲット話し相手とマッチングする。
また、1つの実施例では、トレーニングモジュール804は、さらに各候補話し相手に対応する音色制御モデルをトレーニングする。具体的には、各候補話し相手に対応するオーディオ素材を収集し、各オーディオ素材に基づいて対応する候補話し相手に対応する音素素材配列を確定し、各候補話し相手に対応する音素素材配列を用いてトレーニングすることにより各候補話し相手とマッチングする音色制御モデルを得る。ここで、ターゲット話し相手は、候補話し相手から選択される。
また、1つの実施例では、取得モジュール801は、さらに、ターゲット話し相手とマッチングする音色制御モデルを検索することと、ターゲットテキストに対応する音素配列を確定することと、音色制御モデルにより音素配列に基づいて自制音声を合成することと、自製音声と背景伴奏とに基づいて自製オーディオを合成することを行う。
1つの実施例では、取得モジュール801は、さらに、仮想対象付加元素に対応する選択指令を受信し、選択指令に応じて選択された仮想対象付加元素に対応するターゲット話し相手を決定する。また、録画モジュール805は、さらに、自製オーディオを背景オーディオに設定することと、撮影した画像に仮想対象付加元素を重畳して動画フレームを生成することと、背景オーディオと重畳して得られた動画フレームとに基づいて録画するビデオを生成することを行う。
また、1つの実施例では、取得モジュール801は、さらにアナログビデオ通話を行うための選択指令を受信し、選択指令に応じて選択されたターゲット話し相手に対応するピクチャを確定する。また、録画モジュール805は、さらに、自製オーディオを背景オーディオに設定することと、ピクチャおよび撮影した画像に基づいて通話動画フレームを生成することと、背景オーディオと生成された通話動画フレームとに基づいて録画するビデオを生成することを行う。
図10は、1つの実施例におけるコンピュータ装置の内部構造を示す図である。当該コンピュータ装置は、具体的には、図1における端末110であってもよい。図10に示すように、当該コンピュータ装置は、システムバスを介して接続されたプロセッサと、メモリと、ネットワークインタフェースと、入力装置と、ディスプレイスクリーンとを備えている。そのうち、メモリは、不揮発性記憶媒体と内部メモリとを含む。このコンピュータ装置の不揮発性記憶媒体には、オペレーティングシステムが記憶されており、さらに、プロセッサによって実行される際に、プロセッサにオーディオ合成方法を実現させるためのコンピュータプログラムが記憶されていてもよい。この内部メモリには、プロセッサによって実行される際に、プロセッサにオーディオ合成方法を実行させるためのコンピュータプログラムが記憶されていてもよい。コンピュータ装置のディスプレイスクリーンは、液晶ディスプレイまたは電子インクディスプレイ等とすることができる。また、入力装置は、ディスプレイスクリーンに被覆されるタッチ層であってもよいし、コンピュータ装置のケースに設けられたボタン、トラックボールまたはタッチパッドであってもよいし、外付けのキーボード、タッチパッドまたはマウス等であってもよい。なお、図10は、本発明の技術方案に係る一部の構造のブロック図に過ぎなく、本願発明に係るコンピュータ装置の構造を限定するためのものではない。具体的なコンピュータ装置は、図示した構成よりも多く、または少ない部材を含んでいてもよいし、一部の部材を組み合わせて構成されていてもよいし、部材の配置が異なっていてもよい。
また、1つの実施例では、本発明が提供するオーディオ合成装置は、図10に示すようなコンピュータ装置において動作可能なコンピュータプログラムの形態として実現することができ、コンピュータ装置の不揮発性記憶媒体は、例えば図8に示す取得モジュール801、確定モジュール802、合成モジュール803、トレーニングモジュール804および録画モジュール805等の、当該オーディオ合成装置を構成する各プログラムモジュールを記憶することができる。各プログラムモジュールで構成されるコンピュータプログラムは、本明細書で説明した本発明の各実施例に係るオーディオ合成方法におけるステップをプロセッサに実行させる。
例えば、図10に示すコンピュータ装置は、図8に示すオーディオ合成装置800における取得モジュール801によってターゲットテキストを取得し、確定モジュール802によって選択指令に応じて選択されたターゲット歌曲を確定し、取得部801によって曲調制御モデル、ターゲットテキストおよびターゲット歌曲の曲調情報に基づいて合成され、ターゲットテキストを歌詞とする自製歌曲を取得し、再生モジュール803によって自製歌曲を再生することができる。
また、1つの実施例では、コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、当該コンピュータプログラムは、プロセッサによって実行されるときに、ターゲットテキストを取得するステップと、選択指令に応じて選択されたターゲット歌曲を確定するステップと、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成され、ターゲットテキストを歌詞とする自製歌曲を取得するステップと、自製歌曲を再生するステップとをプロセッサに実行させるコンピュータ読み取り可能な記憶媒体を提供する。
また、1つの実施例では、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することは、ターゲットテキストとターゲット歌曲の歌曲識別子とをサーバに送信することと、サーバからフィードバックされた自製歌曲を受信することを含む。ここで、ターゲットテキストと歌曲識別子とは、歌曲識別子に対応する曲調情報を検索した後、曲調制御モデル、ターゲットテキストおよび曲調情報に基づいて自製歌曲を合成するようにサーバを指示するためのものである。
また、1つの実施例では、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することは、ターゲット歌曲とマッチングする曲調情報を検索することと、ターゲットテキストと曲調情報とを曲調制御モデルに入力し、曲調制御モデルの隠れ層によって、曲調情報に基づいてターゲットテキストにおける各文字のそれぞれに対応する曲調特徴を決定することと、曲調制御モデルの出力層によって、ターゲットテキストにおける各文字を対応する曲調特徴に応じて音声合成した自製歌曲を出力することを含む。
1つの実施例では、当該コンピュータプログラムは、さらに、曲調制御モデルをトレーニングするステップをプロセッサに実行させる。ここで、ターゲット歌曲は、候補歌曲から選択されるものである。曲調制御モデルをトレーニングすることは、候補歌曲に対応する候補歌曲オーディオを収集することと、収集した候補歌曲オーディオに基づいて、各候補歌曲に対応する候補歌曲曲調を決定することと、テキストサンプルを取得することと、テキストサンプルと候補歌曲曲調とに基づいてトレーニングして曲調制御モデルを得ることを含む。
また、1つの実施例では、当該コンピュータプログラムは、さらに、ターゲット話し相手を決定するステップをプロセッサに実行させる。曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することは、ターゲット話し相手に対応する曲調制御モデルを検索することと、検索した曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することとを含む。ここで、自製歌曲の音色は、ターゲット話し相手に適合する。
また、1つの実施例では、当該コンピュータプログラムは、さらに、自製歌曲を背景オーディオに設定し、背景オーディオに基づいてビデオを録画するステップをプロセッサに実行させる。
1つの実施例では、当該コンピュータプログラムは、さらに、選択指令を受信し、選択指令に応じてターゲット歌曲を選択した場合に、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得するステップを実行し、選択指令に応じてターゲット話し相手を選択した場合に、音色制御モデルとターゲットテキストとに基づいて合成された自製オーディオを取得するというステップをプロセッサに実行させる。なお、音色制御モデルは、ターゲット話し相手に適合する。
1つの実施例では、当該コンピュータプログラムは、さらに、各候補話し相手に対応する音色制御モデルをトレーニングするステップをプロセッサに実行させる。なお、ターゲット話し相手は、候補話し相手から選択されるものである。各候補話し相手に対応する音色制御モデルをトレーニングすることは、各候補話し相手に対応するオーディオ素材を収集することと、各オーディオ素材に基づいて対応する候補話し相手に対応する音素素材配列を確定することと、各候補話し相手に対応する音素素材配列を用いてトレーニングすることによって各候補話し相手とマッチングする音色制御モデルを得ることとを含む。
1つの実施例では、音色制御モデルとターゲットテキストとに基づいて合成された自製オーディオを取得することは、ターゲット話し相手とマッチングする音色制御モデルを検索することと、ターゲットテキストに対応する音素配列を確定することと、音色制御モデルによって音素配列に基づいて自製音声を合成することと、自製音声と背景伴奏とに基づいて自製オーディオを合成することを含む。
1つの実施例では、選択指令を受信することは、仮想対象付加元素に対応する選択指令を受信し、選択指令に応じて選択された仮想対象付加元素に対応するターゲット話し相手を決定することを含む。また、当該コンピュータプログラムは、自製オーディオを背景オーディオに設定するステップと、撮影した画像に仮想対象付加元素を重畳して動画フレームを生成するステップと、背景オーディオと重畳して得られた動画フレームとに基づいて録画するビデオを生成するステップとをプロセッサに実行させる。
1つの実施例では、選択指令を受信することは、アナログビデオ通話を行うための選択指令を受信することと、選択指令に応じて選択されたターゲット話し相手に対応するピクチャを決定することを含む。また、当該コンピュータプログラムは、自製オーディオを背景オーディオに設定するステップと、ピクチャおよび撮影した画像に基づいて通話動画フレームを生成するステップと、背景オーディオと生成された通話動画フレームとに基づいて録画するビデオを生成するステップとをプロセッサに実行させる。
また、1つの実施例では、メモリとプロセッサとを備え、メモリにはコンピュータプログラムが記憶されており、コンピュータプログラムは、プロセッサによって実行されるときに、ターゲットテキストを取得するステップと、選択指令に応じて選択されたターゲット歌曲を確定するステップと、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成され、ターゲットテキストを歌詞とする自製歌曲を取得するステップと、自製歌曲を再生するステップとをプロセッサに実行させるコンピュータ装置を提供する。
また、1つの実施例では、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することは、ターゲットテキストとターゲット歌曲の歌曲識別子とをサーバに送信することと、サーバからフィードバックされた自製歌曲を受信することを含む。ここで、ターゲットテキストと歌曲識別子とは、歌曲識別子に対応する曲調情報を検索した後、曲調制御モデル、ターゲットテキストおよび曲調情報に基づいて自製歌曲を合成するようにサーバを指示するためのものである。
また、1つの実施例では、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することは、ターゲット歌曲とマッチングする曲調情報を検索することと、ターゲットテキストと曲調情報とを曲調制御モデルに入力し、曲調制御モデルの隠れ層によって、曲調情報に基づいてターゲットテキストにおける各文字のそれぞれに対応する曲調特徴を決定することと、曲調制御モデルの出力層によって、ターゲットテキストにおける各文字を対応する曲調特徴に応じて音声合成した自製歌曲を出力することを含む。
1つの実施例では、当該コンピュータプログラムは、さらに、曲調制御モデルをトレーニングするステップをプロセッサに実行させる。ここで、ターゲット歌曲は、候補歌曲から選択されるものである。曲調制御モデルをトレーニングすることは、候補歌曲に対応する候補歌曲オーディオを収集することと、収集した候補歌曲オーディオに基づいて、各候補歌曲に対応する候補歌曲曲調を決定することと、テキストサンプルを取得することと、テキストサンプルと候補歌曲曲調とに基づいてトレーニングして曲調制御モデルを得ることを含む。
また、1つの実施例では、当該コンピュータプログラムは、さらに、ターゲット話し相手を決定するステップをプロセッサに実行させる。曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することは、ターゲット話し相手に対応する曲調制御モデルを検索することと、検索した曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得することとを含む。ここで、自製歌曲の音色は、ターゲット話し相手に適合する。
また、1つの実施例では、当該コンピュータプログラムは、さらに、自製歌曲を背景オーディオに設定し、背景オーディオに基づいてビデオを録画するステップをプロセッサに実行させる。
1つの実施例では、当該コンピュータプログラムは、さらに、選択指令を受信し、選択指令に応じてターゲット歌曲を選択した場合に、曲調制御モデルと、ターゲットテキストと、ターゲット歌曲の曲調情報とに基づいて合成された自製歌曲を取得するステップを実行し、選択指令に応じてターゲット話し相手を選択した場合に、音色制御モデルとターゲットテキストとに基づいて合成された自製オーディオを取得するというステップをプロセッサに実行させる。なお、音色制御モデルは、ターゲット話し相手に適合する。
1つの実施例では、当該コンピュータプログラムは、さらに、各候補話し相手に対応する音色制御モデルをトレーニングするステップをプロセッサに実行させる。なお、ターゲット話し相手は、候補話し相手から選択されるものである。各候補話し相手に対応する音色制御モデルをトレーニングすることは、各候補話し相手に対応するオーディオ素材を収集することと、各オーディオ素材に基づいて対応する候補話し相手に対応する音素素材配列を確定することと、各候補話し相手に対応する音素素材配列を用いてトレーニングすることによって各候補話し相手とマッチングする音色制御モデルを得ることとを含む。
1つの実施例では、音色制御モデルとターゲットテキストとに基づいて合成された自製オーディオを取得することは、ターゲット話し相手とマッチングする音色制御モデルを検索することと、ターゲットテキストに対応する音素配列を確定することと、音色制御モデルによって音素配列に基づいて自製音声を合成することと、自製音声と背景伴奏とに基づいて自製オーディオを合成することを含む。
1つの実施例では、選択指令を受信することは、仮想対象付加元素に対応する選択指令を受信し、選択指令に応じて選択された仮想対象付加元素に対応するターゲット話し相手を決定することを含む。また、当該コンピュータプログラムは、自製オーディオを背景オーディオに設定するステップと、撮影した画像に仮想対象付加元素を重畳して動画フレームを生成するステップと、背景オーディオと重畳して得られた動画フレームとに基づいて録画するビデオを生成するステップとをプロセッサに実行させる。
1つの実施例では、選択指令を受信することは、アナログビデオ通話を行うための選択指令を受信することと、選択指令に応じて選択されたターゲット話し相手に対応するピクチャを決定することを含む。また、当該コンピュータプログラムは、自製オーディオを背景オーディオに設定するステップと、ピクチャおよび撮影した画像に基づいて通話動画フレームを生成するステップと、背景オーディオと生成された通話動画フレームとに基づいて録画するビデオを生成するステップとをプロセッサに実行させる。
当業者は、上記の実施例の方法を実施するための手順の全部または一部は、コンピュータプログラムによって関連するハードウェアが完了するように指示することができることを理解することができ、当該プログラムは、不揮発性のコンピュータ読取可能な記憶媒体に記憶することができ、当該プログラムが実行されると、上記の各方法の実施例の手順を含み得る。なお、本発明が提供する各実施例に用いられるメモリ、記憶、データベースまたはその他の媒体のいずれについても、不揮発性および/または揮発性のメモリを含むことができる。不揮発性メモリは、ROM(Read Only Memory)、PROM(Programmable Read Only Memory)、EPROM(Electrical Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)またはフラッシュメモリを含んでもよい。揮発性メモリは、RAM(Random Access Memory)または外部キャッシュメモリを含んでもよい。なお、RAMは、特に限定されるものではなく、例えばSRAM(Static RAM)、DRAM(Dynamic RAM)、SDRAM(Synchronous Dynamic RAM)、DDRSDRAM(Double Data Rate Synchronous Dynamic RAM)、ESDRAM(Enhanced Synchronous Dynamic RAM)、SLDRAM(Synchlink Dynamic RAM)、RDRAM(Rambus Direct RAM)、DRDRAM(Direct Rambus Dynamic RAM)、及びRDRAM(Rambus Dynamic RAM)等の種々の形態で実現することができる。
以上の実施例の各技術特徴は任意に組み合わせが可能であり、説明を簡潔にするために、上記実施例における各技術特徴の全ての組み合わせについて説明していないが、これらの技術特徴の組み合わせに矛盾がない限り、本明細書に記載された範囲に含まれると考えられるべきである。
以上の実施例は本発明のいくつかの実施例を示したに過ぎず、具体的かつ詳細に説明したが、本発明の特許請求の範囲を限定するものであると理解すべきではない。なお、当業者であれば、本発明の要旨を逸脱しない範囲において種々の変形、改良が可能であり、それらはいずれも本発明の保護範囲に含まれる。したがって、本発明の保護範囲は添付の特許請求の範囲を参酌すべきである。
110 端末
120 サーバ
310 テキスト入力ボックス
311 テキスト
320 テキストテンプレートリスト
321 テキスト
330 候補歌曲リスト
331 歌曲
610 動画フレーム
620 対話エントリ
631 テキスト入力ボックス
632 アナログビデオ通話エントリ
711 ピクチャ
721 ピクチャ
722 画像
800 オーディオ合成装置
801 取得モジュール
802 確定モジュール
803 再生モジュール
804 トレーニングモジュール
805 録画モジュール

Claims (6)

  1. コンピュータ装置システムが実行するオーディオ合成方法であって、
    ターゲットテキストを取得するステップと、
    選択指令に応じて選択されたターゲット歌曲を確定するステップと、
    曲調制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得するステップであって、前記自製歌曲は前記ターゲットテキストを歌詞とする、ステップであって、前記曲調制御モデルは、テキストサンプルおよび候補歌曲曲調に基づいてトレーニングされて得られた、ステップと、を含み、
    前記曲調制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得する前記ステップは、
    前記ターゲット歌曲とマッチングする曲調情報を検索するステップと、
    前記ターゲットテキストと前記曲調情報とを曲調制御モデルに入力し、前記曲調制御モデルの隠れ層によって、前記曲調情報に基づいて前記ターゲットテキストにおける各文字のそれぞれに対応する曲調特徴を決定するステップと、
    前記曲調制御モデルの出力層によって、前記ターゲットテキストにおける各文字に対応する曲調特徴に基づいて音声合成された自製歌曲を出力するステップと、を含む、オーディオ合成方法。
  2. 曲調制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得する前記ステップは、
    端末が前記ターゲットテキストおよび前記ターゲット歌曲の歌曲識別子をサーバに送信するステップと、
    端末が前記サーバからフィードバックされた自製歌曲を受信するステップと、を含み、
    前記ターゲットテキストおよび前記歌曲識別子とは、前記歌曲識別子に対応する曲調情報を検索した後、曲調制御モデル、前記ターゲットテキストおよび前記曲調情報に基づいて自製歌曲を合成するようにサーバに指示するためのものである、
    ことを特徴とする請求項1に記載の方法。
  3. 曲調制御モデルをトレーニングするステップをさらに含み、
    前記ターゲット歌曲は、候補歌曲から選択されるものであり、
    前記曲調制御モデルをトレーニングするステップは、
    候補歌曲に対応する候補歌曲オーディオを収集するステップと、
    収集した候補歌曲オーディオに基づいて、各候補歌曲に対応する候補歌曲曲調を決定するステップと、
    テキストサンプルを取得するステップと、
    前記テキストサンプルおよび前記候補歌曲曲調に基づいてトレーニングすることによって前記曲調制御モデルを得るステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  4. ターゲット話し相手を決定するステップをさらに含み、
    曲調制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得する前記ステップは、
    前記ターゲット話し相手に対応する曲調制御モデルを検索するステップと、
    検索した前記曲調制御モデル、前記ターゲットテキストおよび前記ターゲット歌曲の曲調情報に基づいて合成された自製歌曲を取得するステップとを含み、
    前記自製歌曲の音色は、前記ターゲット話し相手に適合する、
    ことを特徴とする請求項1に記載の方法。
  5. 請求項1からのいずれか一項に記載の方法を実行させるコンピュータプログラム。
  6. コンピュータプログラムが記憶されるメモリと、プロセッサとを備えるコンピュータ装置により構成されるコンピュータ装置システムであって、
    請求項1、2、および4のいずれか一項に記載の方法を実行させる
    ことを特徴とするコンピュータ装置システム。
JP2020549777A 2018-07-05 2019-05-31 オーディオ合成方法、並びにそのコンピュータプログラム、コンピュータ装置及びコンピュータ装置により構成されるコンピュータシステム Active JP7317850B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810730283.3A CN110189741A (zh) 2018-07-05 2018-07-05 音频合成方法、装置、存储介质和计算机设备
CN201810730283.3 2018-07-05
PCT/CN2019/089678 WO2020007148A1 (zh) 2018-07-05 2019-05-31 音频合成方法、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
JP2021516787A JP2021516787A (ja) 2021-07-08
JP7317850B2 true JP7317850B2 (ja) 2023-07-31

Family

ID=67713854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020549777A Active JP7317850B2 (ja) 2018-07-05 2019-05-31 オーディオ合成方法、並びにそのコンピュータプログラム、コンピュータ装置及びコンピュータ装置により構成されるコンピュータシステム

Country Status (7)

Country Link
US (1) US20200372896A1 (ja)
EP (1) EP3736806A4 (ja)
JP (1) JP7317850B2 (ja)
KR (1) KR102500087B1 (ja)
CN (1) CN110189741A (ja)
TW (1) TWI774967B (ja)
WO (1) WO2020007148A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910917B (zh) * 2019-11-07 2021-08-31 腾讯音乐娱乐科技(深圳)有限公司 音频片段的拼接方法及装置
CN111161695B (zh) * 2019-12-26 2022-11-04 北京百度网讯科技有限公司 歌曲生成方法和装置
CN111429881B (zh) * 2020-03-19 2023-08-18 北京字节跳动网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN111415399B (zh) * 2020-03-19 2023-12-22 北京奇艺世纪科技有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN111445892B (zh) * 2020-03-23 2023-04-14 北京字节跳动网络技术有限公司 歌曲生成方法、装置、可读介质及电子设备
CN111477199B (zh) * 2020-04-02 2021-11-30 北京瑞迪欧文化传播有限责任公司 一种嵌入式音乐控制系统
CN111653265B (zh) * 2020-04-26 2023-08-18 北京大米科技有限公司 语音合成方法、装置、存储介质和电子设备
CN111583972B (zh) * 2020-05-28 2022-03-25 北京达佳互联信息技术有限公司 歌唱作品生成方法、装置及电子设备
CN111757163B (zh) * 2020-06-30 2022-07-01 北京字节跳动网络技术有限公司 视频播放的控制方法、装置、电子设备和存储介质
CN111899706A (zh) * 2020-07-30 2020-11-06 广州酷狗计算机科技有限公司 音频制作方法、装置、设备及存储介质
CN112331222A (zh) * 2020-09-23 2021-02-05 北京捷通华声科技股份有限公司 一种转换歌曲音色的方法、系统、设备及存储介质
CN112509538A (zh) * 2020-12-18 2021-03-16 咪咕文化科技有限公司 音频处理方法、装置、终端及存储介质
CN113223486B (zh) * 2021-04-29 2023-10-17 北京灵动音科技有限公司 信息处理方法、装置、电子设备及存储介质
CN113436601A (zh) * 2021-05-27 2021-09-24 北京达佳互联信息技术有限公司 音频合成方法、装置、电子设备及存储介质
CN113591489B (zh) * 2021-07-30 2023-07-18 中国平安人寿保险股份有限公司 语音交互方法、装置及相关设备
CN113946254B (zh) * 2021-11-01 2023-10-20 北京字跳网络技术有限公司 内容显示方法、装置、设备及介质
CN113763924B (zh) * 2021-11-08 2022-02-15 北京优幕科技有限责任公司 声学深度学习模型训练方法、语音生成方法及设备
CN113920979B (zh) * 2021-11-11 2023-06-02 腾讯科技(深圳)有限公司 语音数据的获取方法、装置、设备及计算机可读存储介质
CN117012169A (zh) * 2022-04-29 2023-11-07 脸萌有限公司 一种音乐生成方法、装置、系统以及存储介质
CN117012170A (zh) * 2022-04-29 2023-11-07 脸萌有限公司 一种音乐生成方法、装置、系统及存储介质
CN117059052A (zh) * 2022-05-07 2023-11-14 脸萌有限公司 歌曲生成方法、装置、系统及存储介质
CN116153338B (zh) * 2023-04-23 2023-06-20 深圳市声菲特科技技术有限公司 一种调音参数的加载方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132281A (ja) 2000-10-26 2002-05-09 Nippon Telegr & Teleph Corp <Ntt> 歌声メッセージ生成・配信方法及びその装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9711339D0 (en) * 1997-06-02 1997-07-30 Isis Innovation Method and apparatus for reproducing a recorded voice with alternative performance attributes and temporal properties
JP2003195876A (ja) * 2001-12-26 2003-07-09 Funai Electric Co Ltd カラオケシステム
TW200515186A (en) * 2003-10-24 2005-05-01 Inventec Multimedia & Telecom System and method for integrating multimedia data for editing and playing
JP2005321706A (ja) * 2004-05-11 2005-11-17 Nippon Telegr & Teleph Corp <Ntt> 電子書籍の再生方法及びその装置
KR100731761B1 (ko) * 2005-05-02 2007-06-22 주식회사 싸일런트뮤직밴드 인터넷을 통한 음악제작 시스템 및 방법
TWI394142B (zh) * 2009-08-25 2013-04-21 Inst Information Industry 歌聲合成系統、方法、以及裝置
CN101789255A (zh) * 2009-12-04 2010-07-28 康佳集团股份有限公司 一种基于手机原有歌曲更改歌词的处理方法及手机
US20110219940A1 (en) * 2010-03-11 2011-09-15 Hubin Jiang System and method for generating custom songs
JP5598056B2 (ja) * 2010-03-30 2014-10-01 ヤマハ株式会社 カラオケ装置およびカラオケ曲紹介プログラム
JP5974436B2 (ja) * 2011-08-26 2016-08-23 ヤマハ株式会社 楽曲生成装置
JP6083764B2 (ja) * 2012-12-04 2017-02-22 国立研究開発法人産業技術総合研究所 歌声合成システム及び歌声合成方法
CN103117057B (zh) * 2012-12-27 2015-10-21 安徽科大讯飞信息科技股份有限公司 一种特定人语音合成技术在手机漫画配音中的应用方法
WO2016029217A1 (en) * 2014-08-22 2016-02-25 Zya, Inc. System and method for automatically converting textual messages to musical compositions
US9305530B1 (en) * 2014-09-30 2016-04-05 Amazon Technologies, Inc. Text synchronization with audio
JP6728754B2 (ja) * 2015-03-20 2020-07-22 ヤマハ株式会社 発音装置、発音方法および発音プログラム
JP6622505B2 (ja) * 2015-08-04 2019-12-18 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN105068748A (zh) * 2015-08-12 2015-11-18 上海影随网络科技有限公司 触屏智能设备的摄像头实时画面中用户界面交互方法
CN106131475A (zh) * 2016-07-28 2016-11-16 努比亚技术有限公司 一种视频处理方法、装置及终端
CN107799119A (zh) * 2016-09-07 2018-03-13 中兴通讯股份有限公司 音频制作方法、装置及系统
CN106652984B (zh) * 2016-10-11 2020-06-02 张文铂 一种使用计算机自动创作歌曲的方法
CN106971703A (zh) * 2017-03-17 2017-07-21 西北师范大学 一种基于hmm的歌曲合成方法及装置
US10818308B1 (en) * 2017-04-28 2020-10-27 Snap Inc. Speech characteristic recognition and conversion
CN109716326A (zh) * 2017-06-21 2019-05-03 微软技术许可有限责任公司 在自动聊天中提供个性化歌曲
US11475867B2 (en) * 2019-12-27 2022-10-18 Spotify Ab Method, system, and computer-readable medium for creating song mashups
WO2023058173A1 (ja) * 2021-10-06 2023-04-13 ヤマハ株式会社 音制御装置およびその制御方法、電子楽器、プログラム
CN115346503A (zh) * 2022-08-11 2022-11-15 杭州网易云音乐科技有限公司 歌曲创作方法、歌曲创作装置、存储介质及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132281A (ja) 2000-10-26 2002-05-09 Nippon Telegr & Teleph Corp <Ntt> 歌声メッセージ生成・配信方法及びその装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Masanari Nishimura et al.,"Singing voice synthesis based on deep neural networks",Proceedings of the INTERSPEECH 2016,2016年9月8日,pp.2478-2482
徳田、南角、大浦、「歌い手の声質・歌い方を自動で学習・再現できる統計モデルに基づく歌声合成システム」、公益財団法人電気通信普及財団 調査研究助成報告書、2017年、第32号

Also Published As

Publication number Publication date
TWI774967B (zh) 2022-08-21
WO2020007148A1 (zh) 2020-01-09
KR102500087B1 (ko) 2023-02-16
CN110189741A (zh) 2019-08-30
TW202006534A (zh) 2020-02-01
EP3736806A1 (en) 2020-11-11
EP3736806A4 (en) 2021-10-06
JP2021516787A (ja) 2021-07-08
US20200372896A1 (en) 2020-11-26
KR20200115588A (ko) 2020-10-07

Similar Documents

Publication Publication Date Title
JP7317850B2 (ja) オーディオ合成方法、並びにそのコンピュータプログラム、コンピュータ装置及びコンピュータ装置により構成されるコンピュータシステム
US10964298B2 (en) Network musical instrument
CN108806656B (zh) 歌曲的自动生成
JP2021507309A (ja) モジュラー自動音楽制作サーバー
US20140006031A1 (en) Sound synthesis method and sound synthesis apparatus
JP6665446B2 (ja) 情報処理装置、プログラム及び音声合成方法
JP2010518459A (ja) 配布オーディオファイル編集用ウェブポータル
US11120782B1 (en) System, method, and non-transitory computer-readable storage medium for collaborating on a musical composition over a communication network
CN110675886A (zh) 音频信号处理方法、装置、电子设备及存储介质
JP6977323B2 (ja) 歌唱音声の出力方法、音声応答システム、及びプログラム
WO2019000054A1 (en) SYSTEMS, METHODS, AND APPLICATIONS FOR MODULATING AUDIBLE PERFORMANCE
JP2022092032A (ja) 歌唱合成システム及び歌唱合成方法
CN114125543B (zh) 弹幕处理方法、计算设备及弹幕处理系统
CN113407275A (zh) 音频编辑方法、装置、设备及可读存储介质
Bacot et al. The creative process of sculpting the air by Jesper Nordin: conceiving and performing a concerto for conductor with live electronics
Furduj Virtual orchestration: a film composer's creative practice
Furduj Acoustic instrument simulation in film music contexts
Kokoras AUDIOVISUAL CONCATENATIVE SYNTHESIS AND REPLICA
CN113703882A (zh) 歌曲处理方法、装置、设备及计算机可读存储介质
JP2009244607A (ja) デュエットパート歌唱生成システム
Gullö et al. Innovation in Music: Technology and Creativity
Puckette et al. Between the Tracks: Musicians on Selected Electronic Music
Bakke Nye lyder, nye kreative muligheter. Akustisk trommesett utvidet med live elektronikk
Cleland Sound and Vision: Developing a Method of Audiovisual Composition and Improvisation for Drum Set
from Hell Sounds from The Garden

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200916

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221028

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221028

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221115

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20221121

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230113

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20230123

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230719

R150 Certificate of patent or registration of utility model

Ref document number: 7317850

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150