JP7465992B2 - Audio data processing method, device, equipment, storage medium, and program - Google Patents

Audio data processing method, device, equipment, storage medium, and program Download PDF

Info

Publication number
JP7465992B2
JP7465992B2 JP2022560146A JP2022560146A JP7465992B2 JP 7465992 B2 JP7465992 B2 JP 7465992B2 JP 2022560146 A JP2022560146 A JP 2022560146A JP 2022560146 A JP2022560146 A JP 2022560146A JP 7465992 B2 JP7465992 B2 JP 7465992B2
Authority
JP
Japan
Prior art keywords
fundamental frequency
determining
electroacoustic
audio
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022560146A
Other languages
Japanese (ja)
Other versions
JP2023542760A (en
Inventor
芸鵬 王
雲峰 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023542760A publication Critical patent/JP2023542760A/en
Application granted granted Critical
Publication of JP7465992B2 publication Critical patent/JP7465992B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/005Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/021Background music, e.g. for video sequences, elevator music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • G10H2210/331Note pitch correction, i.e. modifying a note pitch or replacing it by the closest one in a given scale
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Description

本願は、2021年8月24日に提出され、出願番号が202110978065.3である中国特許出願の優先権を要求し、その全ての内容は引用により本願に組み込まれる。 This application claims priority to a Chinese patent application filed on August 24, 2021, bearing application number 202110978065.3, the entire contents of which are incorporated herein by reference.

本開示は、オーディオ処理技術分野に関し、特に音声合成技術分野に関する。 This disclosure relates to the field of audio processing technology, and in particular to the field of voice synthesis technology.

電気音響効果は、音声フィルタとして、音声を調整して美化するために用いられ、KTV作品又は小動画作品などのシーンに広い応用がある。良質な電気音響効果は、作品の音声品質を向上させることができる。アプリケーション製品に対して、良質な電気音響効果を提供することができれば、製品の競争力を向上させ、製品の遊び方を豊かにし、ユーザの面白味を増加させることができる。 As an audio filter, electric acoustic effects are used to adjust and beautify audio, and are widely used in scenes such as KTV works and short video works. Good electric acoustic effects can improve the audio quality of the works. If good electric acoustic effects can be provided for application products, it can improve the competitiveness of the products, enrich the play of the products, and increase the fun for users.

本開示は、オーディオデータ処理方法、装置、機器、記憶媒体及びプログラムを提供する。 The present disclosure provides an audio data processing method, device, apparatus, storage medium, and program .

本開示の一態様によれば、オーディオデータ処理方法を提供し、オリジナルオーディオデータを分解し、人声オーディオデータ及び背景オーディオデータを取得することと、前記人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを取得することと、前記電気音響人声データと前記背景オーディオデータを合成して、目標オーディオデータを取得することと、を含む。 According to one aspect of the present disclosure, there is provided an audio data processing method, comprising: decomposing original audio data to obtain voice audio data and background audio data; performing electroacoustic processing on the voice audio data to obtain electroacoustic voice data; and synthesizing the electroacoustic voice data and the background audio data to obtain target audio data.

本開示の別の態様によれば、オーディオデータ処理装置を提供し、オリジナルオーディオデータを分解し、人声オーディオデータ及び背景オーディオデータを取得するための分解モジュールと、前記人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを取得するための電気音響処理モジュールと、前記電気音響人声データと前記背景オーディオデータを合成し、目標オーディオデータを取得するための合成モジュールと、を含む。 According to another aspect of the present disclosure, an audio data processing device is provided, comprising: a decomposition module for decomposing original audio data to obtain voice audio data and background audio data; an electroacoustic processing module for performing electroacoustic processing on the voice audio data to obtain electroacoustic voice data; and a synthesis module for synthesizing the electroacoustic voice data and the background audio data to obtain target audio data.

本開示の他の態様は、電子機器を提供し、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続されたメモリとを含み、前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記少なくとも一つのプロセッサが本開示の実施例に示す方法を実行することができるように、前記命令は前記少なくとも一つのプロセッサにより実行される。 Another aspect of the present disclosure provides an electronic device, comprising at least one processor and a memory communicatively coupled to the at least one processor, the memory storing instructions executable by the at least one processor, the instructions being executed by the at least one processor such that the at least one processor can perform a method as illustrated in an embodiment of the present disclosure.

本開示の実施例の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに本開示の実施例に示す方法を実行させるために用いられる。 According to another aspect of an embodiment of the present disclosure, a non-transitory computer-readable storage medium is provided having computer instructions stored thereon, the computer instructions being used to cause the computer to perform a method as set forth in an embodiment of the present disclosure.

本開示の実施例の別の態様によれば、コンピュータプログラムを提供し、プロセッサにより実行される時に本開示の実施例に示す方法を実現するコンピュータプログラム/命令を含む。 According to another aspect of an embodiment of the present disclosure, a computer program is provided, comprising computer programs/instructions which, when executed by a processor, implement the methods illustrated in the embodiments of the present disclosure.

理解すべきこととして、本部分に記載された内容は本開示の実施例のキーポイント又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。 It should be understood that the contents described in this section are not intended to identify key or important features of the embodiments of the present disclosure, and are not intended to limit the scope of the present disclosure. Other features of the present disclosure will be readily understood from the following description.

図面は、本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。 The drawings are used to provide a better understanding of the present solution and are not intended to limit the present disclosure.

図1は、本開示の実施例に係るオーディオデータ処理方法のフローチャートを概略的に示す。FIG. 1 shows a schematic flow chart of an audio data processing method according to an embodiment of the present disclosure. 図2は、本開示の実施例に係るオリジナルオーディオデータを分解する方法のフローチャートを概略的に示す。FIG. 2 illustrates a schematic flow chart of a method for decomposing original audio data according to an embodiment of the present disclosure. 図3は、本開示の実施例に係る人声オーディオデータに対して電気音響化処理を行う方法のフローチャートを概略的に示す。FIG. 3 shows a schematic flow chart of a method for performing electrosonification processing on voice audio data according to an embodiment of the present disclosure. 図4は、本開示の他の実施例に係るオーディオデータ処理方法のフローチャートを概略的に示す。FIG. 4 illustrates a schematic flow chart of an audio data processing method according to another embodiment of the present disclosure. 図5は、本開示の実施例に係るオーディオデータ処理装置のブロック図を概略的に示す。FIG. 5 shows a schematic block diagram of an audio data processing apparatus according to an embodiment of the present disclosure. 図6は、本発明の実施例を実施するための例示的な電子機器のブロック図を概略的に示す。FIG. 6 illustrates generally a block diagram of an exemplary electronic device for implementing an embodiment of the present invention.

以下、図面を参照して本開示の例示的な実施例を説明し、理解しやすくするように、ここで本開示の実施例の様々な詳細を含み、それらを例示的なものと考えるべきである。したがって、当業者として理解できるように、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知機能及び構造に対する説明を省略する。 Hereinafter, exemplary embodiments of the present disclosure will be described with reference to the drawings, which include various details of the embodiments of the present disclosure for ease of understanding and should be considered as illustrative. Therefore, as can be understood by those skilled in the art, various changes and modifications can be made to the embodiments described herein without departing from the scope and spirit of the present disclosure. Similarly, for clarity and simplicity, descriptions of known functions and structures are omitted in the following description.

以下、本開示の実施例のオーディオデータ処理方法について、図1を用いて説明する。説明すべきものとして、本開示の技術的解決手段において、関連するオーディオデータ等のデータの収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法規則の規定に適合し、かつ公序良俗に反するものではない。 The audio data processing method of the embodiment of the present disclosure will be described below with reference to FIG. 1. It should be noted that in the technical solution of the present disclosure, the collection, storage, use, processing, transmission, provision, disclosure, etc. of related data such as audio data all comply with the provisions of the relevant law rules and are not contrary to public order and morals.

図1は、本開示の実施例に係るオーディオデータ処理方法のフローチャートである。 Figure 1 is a flowchart of an audio data processing method according to an embodiment of the present disclosure.

図1に示すように、このオーディオデータ処理方法100は、以下のことを含む。 As shown in FIG. 1, this audio data processing method 100 includes the following:

操作S110において、オリジナルオーディオデータを分解し、人声オーディオデータ及び背景オーディオデータを取得する。 In operation S110, the original audio data is decomposed to obtain voice audio data and background audio data.

操作S120において、人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを取得する。 In operation S120, electroacoustic processing is performed on the human voice audio data to obtain electroacoustic human voice data.

操作S130において、電気音響人声データと背景オーディオデータを合成し、目標オーディオデータを取得する。 In operation S130, the electroacoustic voice data and the background audio data are synthesized to obtain the target audio data.

本開示の実施例によれば、オリジナルオーディオデータは例えば人声情報及び背景音声情報を含むことができ、ここで、人声は例えば歌唱声であってもよく、背景音声は例えば伴奏音楽であってもよい。本実施例において、例えば音源分離アルゴリズムを利用してオリジナルオーディオデータにおける人声情報と背景情報を分離し、人声情報を含む人声オーディオデータと背景音声情報を含む背景オーディオデータを取得することができる。 According to an embodiment of the present disclosure, the original audio data may include, for example, human voice information and background audio information, where the human voice may be, for example, a singing voice, and the background audio may be, for example, accompaniment music. In this embodiment, for example, a sound source separation algorithm may be used to separate the human voice information and the background information in the original audio data, and human voice audio data including the human voice information and background audio data including the background audio information may be obtained.

本開示の実施例によれば、オリジナルオーディオデータにおける人声情報と背景音声情報を分離することにより、人声情報を電気音声化して、電気音声化された人声情報と背景音声情報とを合成し、背景音声情報と人声情報を同時に有するオーディオデータに対する電気音響化を実現する。 According to an embodiment of the present disclosure, by separating the voice information and background audio information in the original audio data, the voice information is converted into an electric voice, and the electric voice information is synthesized with the background audio information, thereby achieving electroacoustization of audio data that simultaneously contains background audio information and voice information.

本開示の実施例によれば、ニューラルネットワークを利用して音源分離アルゴリズムを実現することにより、オリジナルオーディオデータを分解することができる。該ニューラルネットワークの入力は、背景音声情報及び人声情報を有するオーディオデータであってもよく、該ニューラルネットワークの出力は、人声情報を含む人声オーディオデータ及び背景音声情報を含む背景オーディオデータであることができる。 According to an embodiment of the present disclosure, the original audio data can be decomposed by implementing a sound source separation algorithm using a neural network. The input of the neural network can be audio data having background sound information and voice information, and the output of the neural network can be voice audio data including voice information and background audio data including background sound information.

本開示の実施例によれば、音楽ファイルと人声ファイルを予め取得し、音楽ファイルと人声ファイルを等長セグメントに切断し、複数の音楽セグメントX及び複数の人声セグメントYを取得することができる。各音楽セグメントXと一つの対応する人声セグメントYをそれぞれ合成し、オリジナルオーディオデータZを取得することができる。それぞれ各オリジナルオーディオデータZをニューラルネットワークの入力とし、オリジナルオーディオデータZに対応する音楽セグメントX及び人声セグメントYを期待出力として、ニューラルネットワークをトレーニングする。また、トレーニング効果を向上させ、ネットワークの収束を加速するために、音楽セグメントX、人声セグメントY及びオリジナルオーディオデータZはいずれもメルスペクトルに前処理されることができる。それに応じて、ニューラルネットワークの出力結果もメルスペクトルに基づくものである。例示的に、該メルスペクトル形式の出力結果はGriffin-Lim(グリフィン-林)アルゴリズムなどのアルゴリズムにより対応するオリジナルオーディオデータを合成することができる。 According to an embodiment of the present disclosure, a music file and a voice file can be obtained in advance, and the music file and the voice file can be cut into equal-length segments to obtain a plurality of music segments X and a plurality of voice segments Y. Each music segment X can be synthesized with a corresponding voice segment Y to obtain original audio data Z. Each original audio data Z is used as the input of a neural network, and the music segment X and the voice segment Y corresponding to the original audio data Z are used as the expected output to train the neural network. In addition, in order to improve the training effect and accelerate the convergence of the network, the music segment X, the voice segment Y, and the original audio data Z can all be preprocessed into a Mel spectrum. Accordingly, the output result of the neural network is also based on the Mel spectrum. For example, the output result in the Mel spectrum format can be synthesized into the corresponding original audio data by an algorithm such as the Griffin-Lim algorithm.

これに基づいて、以下に図2を参照し、具体的な実施例を組み合わせ、上記オリジナルオーディオデータを分解する方法をさらに説明する。当業者であれば理解されるように、以下の例示的な実施例は、本開示を理解するために用いられ、本開示を制限するものではない。 Based on this, the method for decomposing the above original audio data is further described below with reference to FIG. 2 and by combining specific examples. As can be understood by those skilled in the art, the following exemplary examples are used to understand the present disclosure, and do not limit the present disclosure.

図2は、本開示の実施例に係るオリジナルオーディオデータを分解する方法のフローチャートを概略的に示す。 Figure 2 shows a schematic flow chart of a method for decomposing original audio data according to an embodiment of the present disclosure.

図2に示すように、オリジナルオーディオデータを分解する方法210は以下のことを含む。 As shown in FIG. 2, a method 210 for decomposing original audio data includes:

操作S211において、オリジナルオーディオデータに対応するオリジナルメルスペクトルデータを決定する。 In operation S211, the original mel spectrum data corresponding to the original audio data is determined.

次に、操作S212において、ニューラルネットワークを用いてオリジナルメルスペクトルデータに対応する背景メルスペクトルデータ及び人声メルスペクトルデータを決定する。 Next, in operation S212, background mel spectrum data and voice mel spectrum data corresponding to the original mel spectrum data are determined using a neural network.

本開示の実施例によれば、背景メルスペクトルデータは、オリジナルメルスペクトルデータにおける背景音声情報を含むことができ、人声メルスペクトルデータは、オリジナルメルスペクトルデータにおける人声情報を含むことができる。 According to an embodiment of the present disclosure, the background mel spectrum data can include background audio information in the original mel spectrum data, and the voice mel spectrum data can include voice information in the original mel spectrum data.

操作S213において、背景メルスペクトルデータに基づいて、背景オーディオデータを生成し、人声メルスペクトルデータに基づいて、人声オーディオデータを生成する。 In operation S213, background audio data is generated based on the background mel spectrum data, and human voice audio data is generated based on the human voice mel spectrum data.

本開示の実施例によれば、Griffin-Limアルゴリズムなどのアルゴリズムにより背景メルスペクトルデータに基づいて、背景オーディオデータを生成し、かつ人声メルスペクトルデータに基づいて、人声オーディオデータを生成することができる。 According to an embodiment of the present disclosure, background audio data can be generated based on background mel spectrum data using an algorithm such as the Griffin-Lim algorithm, and human voice audio data can be generated based on human voice mel spectrum data.

本開示の実施例によれば、人声データの基本周波数を量子化することにより人声オーディオデータに対する電気音響化処理を実現することができる。例えば、人声データの基本周波数、スペクトルエンベロープ及び非周期パラメータを決定することができる。ここで、基本周波数は、発音時の声帯の振動周波数を示し、オーディオに具現化されたらトーンの高さである。次に、基本周波数を量子化し、量子化された基本周波数、スペクトルエンベロープ及び非周期パラメータに基づいて、人声データを再合成することにより、人声オーディオデータに対する電気音響化処理を実現する。ここで、この再合成された人声データは、電気音響人声データであり、電気音効果を有する人声情報を含む。 According to an embodiment of the present disclosure, electro-acoustic processing of human voice audio data can be realized by quantizing the fundamental frequency of the human voice data. For example, the fundamental frequency, spectral envelope, and aperiodic parameters of the human voice data can be determined. Here, the fundamental frequency indicates the vibration frequency of the vocal cords when pronouncing a sound, and is the pitch of the tone when embodied in audio. Next, the fundamental frequency is quantized, and the human voice data is resynthesized based on the quantized fundamental frequency, spectral envelope, and aperiodic parameters, thereby realizing electro-acoustic processing of the human voice audio data. Here, this resynthesized human voice data is electro-acoustic human voice data, and includes human voice information having electro-sound effects.

以下、図3を参照し、具体的な実施例を組み合わせて、上記した人声オーディオデータに対する電気音響化処理の方法をさらに説明する。当業者であれば理解されるように、以下の例示的な実施例は、本開示を理解するために用いられ、本開示はこれに限定されるものではない。 The method of electroacoustic processing of the above-mentioned human voice audio data will be further described below with reference to FIG. 3 and in combination with specific examples. As will be understood by those skilled in the art, the following exemplary examples are used to understand the present disclosure, and the present disclosure is not limited thereto.

図3は、本開示の実施例に係る人声オーディオデータに対して電気音響化処理を行う方法のフローチャートを概略的に示す。 Figure 3 is a schematic flow chart of a method for performing electrosonification processing on human voice audio data according to an embodiment of the present disclosure.

図3に示すように、この人声オーディオデータに対して電気音響化処理を行う方法320は、以下のことを含むことができる。 As shown in FIG. 3, a method 320 for performing electrosonification processing on this human voice audio data can include:

操作S321において、人声オーディオデータのオリジナルの基本周波数を抽出する。 In operation S321, the original fundamental frequency of the voice audio data is extracted.

本開示の実施例によれば、例えばDIO、Harvest等のアルゴリズムに基づいて人声オーディオデータからオリジナルの基本周波数を抽出することができる。 According to an embodiment of the present disclosure, the original fundamental frequency can be extracted from human voice audio data based on algorithms such as DIO and Harvest.

操作S322において、オリジナルの基本周波数を補正し、第一基本周波数を取得する。 In operation S322, the original fundamental frequency is corrected to obtain the first fundamental frequency.

本開示の実施例によれば、基本周波数を補正することにより、電気音響効果を向上させることができる。例えば、本実施例において、人声オーディオデータを複数のオーディオセグメントに分けることができる。次に、複数のオーディオセグメントにおける各オーディオセグメントに対して、オーディオセグメントのエネルギー及びゼロクロスレートを決定する。エネルギー及びゼロクロスレートに基づいて、オーディオセグメントが濁音オーディオセグメントであるか否かを決定する。次に線形補間アルゴリズムを利用して、濁音オーディオセグメントの基本周波数を補正する。 According to an embodiment of the present disclosure, the electroacoustic effect can be improved by correcting the fundamental frequency. For example, in this embodiment, human voice audio data can be divided into a plurality of audio segments. Then, for each audio segment in the plurality of audio segments, an energy and a zero cross rate of the audio segment are determined. Based on the energy and the zero cross rate, it is determined whether the audio segment is a dull audio segment. Then, a linear interpolation algorithm is used to correct the fundamental frequency of the dull audio segment.

本開示の実施例によれば、予め定められた単位長さで人声オーディオデータを複数のオーディオセグメントに分け、各オーディオセグメントの長さは、一つの予め定められた単位長さである。ここで、予め定められた単位長さは、実際の需要に応じて設定することができる。例示的に、本実施例において、予め定められた単位長さは、10ms~40msのうちのいずれかの値であってもよい。 According to an embodiment of the present disclosure, the voice audio data is divided into a plurality of audio segments with a predetermined unit length, and the length of each audio segment is one predetermined unit length. Here, the predetermined unit length can be set according to actual needs. For example, in this embodiment, the predetermined unit length may be any value between 10 ms and 40 ms.

本開示の実施例によれば、各オーディオセグメントに複数のサンプリングポイントが設置される。オーディオセグメントにおける各サンプリングポイントの数値に基づいて、オーディオセグメントのエネルギーを決定することができる。例えば、以下の式に基づいてオーディオセグメントのエネルギーを計算することができる。 According to an embodiment of the present disclosure, multiple sampling points are provided in each audio segment. Based on the numerical values of each sampling point in the audio segment, the energy of the audio segment can be determined. For example, the energy of the audio segment can be calculated based on the following formula:

Figure 0007465992000001
ここで、xはi番目のサンプリングポイントの数値を示し、nはサンプリングポイントの数である。
Figure 0007465992000001
Here, x i denotes the numerical value of the i-th sampling point, and n is the number of sampling points.

本開示の実施例によれば、サンプリングポイントの数nは、オーディオセグメントの長さ及びサンプリングレートに基づいて決定することができる。予め定められた単位長さが10msであることを例として、以下の式に基づいてサンプリングポイントの数nを計算することができる:

Figure 0007465992000002
ここで、srは、オーディオのサンプリングレートを表す。 According to an embodiment of the present disclosure, the number of sampling points n can be determined based on the length and sampling rate of the audio segment. Taking the predetermined unit length as an example of 10 ms, the number of sampling points n can be calculated based on the following formula:
Figure 0007465992000002
Here, sr represents the audio sampling rate.

本開示の実施例によれば、オーディオセグメントにおける隣接する二つのサンプリングポイント毎の数値が互いに符号逆であるか否かを決定することができる。次にオーディオセグメントの隣接するサンプリングポイントが符号逆である回数が全てのサンプリングポイントの数を占める比率をゼロクロスレートとして決定する。 According to an embodiment of the present disclosure, it is possible to determine whether the numerical values of every two adjacent sampling points in an audio segment are opposite in sign to each other. Next, the ratio of the number of times adjacent sampling points in the audio segment have opposite signs to the number of all sampling points is determined as the zero cross rate.

本開示の実施例によれば、以下の式に基づいてオーディオセグメントのゼロクロスレートを計算することができる。

Figure 0007465992000003
ここで、ZCRは、オーディオセグメントのゼロクロスレートであり、nは、オーディオセグメントにおけるサンプリングポイントの数であり、xは、オーディオセグメントにおけるi番目のサンプルポイントの数値を表し、xi-1 は、オーディオセグメントにおけるi-1番目のサンプリングポイントの数値を表す。 According to an embodiment of the present disclosure, the zero crossing rate of an audio segment can be calculated based on the following formula:
Figure 0007465992000003
where ZCR is the zero crossing rate of the audio segment, n is the number of sampling points in the audio segment, x i represents the numerical value of the i-th sample point in the audio segment, and x i-1 represents the numerical value of the i-1-th sampling point in the audio segment.

本開示の実施例によれば、サンプリングポイントの数nはオーディオセグメントの長さ及びサンプリングレートに基づいて決定することができる。予め定められた単位長さが10msであることを例として、以下の式に基づいてサンプリングポイントの数nを計算することができる:

Figure 0007465992000004
ここで、srはオーディオのサンプリングレートを表す。 According to an embodiment of the present disclosure, the number of sampling points n can be determined based on the length and sampling rate of the audio segment. Taking the predetermined unit length as an example of 10 ms, the number of sampling points n can be calculated based on the following formula:
Figure 0007465992000004
Here, sr represents the audio sampling rate.

人体が発音する時に、清音の発声に対して、声帯が振動しないため、対応する基本周波数は0である。濁音の発声に対して、声帯が振動するため、対応する基本周波数は0ではない。これに基づいて、本実施例において、上記特性を利用して基本周波数を補正することができる。 When the human body produces sound, the vocal cords do not vibrate for the production of clear sounds, so the corresponding fundamental frequency is 0. For the production of voiced sounds, the vocal cords vibrate, so the corresponding fundamental frequency is not 0. Based on this, in this embodiment, the fundamental frequency can be corrected by utilizing the above characteristics.

例えば、各オーディオセグメントに対して、該オーディオセグメントのエネルギーEが閾値e_minよりも小さく、かつ該オーディオセグメントのゼロクロスレートZCRが閾値zcr_maxより大きい場合、該オーディオセグメントは、清音オーディオセグメントであり、その基本周波数は0である。そうでなければ、該オーディオセグメントは、濁音オーディオセグメントであり、その基本周波数は0ではない。ここで、e_minとzcr_maxは実際の需要に応じて設定することができる。 For example, for each audio segment, if the energy E of the audio segment is less than the threshold e_min and the zero cross rate ZCR of the audio segment is greater than the threshold zcr_max, then the audio segment is a clear audio segment and its fundamental frequency is 0; otherwise, the audio segment is a voiced audio segment and its fundamental frequency is not 0. Here, e_min and zcr_max can be set according to actual needs.

各清音オーディオセグメントに対して、該オーディオセグメントの基本周波数を0に設定することができる。濁音オーディオセグメントに対して、DIO、Harvest等のアルゴリズムに基づいて各濁音オーディオセグメントの基本周波数を抽出し、次に各濁音オーディオセグメントの基本周波数値が0であるか否かを一つずつ検出することができる。基本周波数値が0である濁音オーディオセグメントに対して、線形補間アルゴリズムに基づいて、該濁音オーディオセグメントの近傍の濁音オーディオセグメント値に基づいて線形補間を行うことにより、0ではない基本周波数値を該濁音オーディオセグメントの基本周波数値として取得することができる。 For each clear sound audio segment, the fundamental frequency of the audio segment can be set to 0. For the dull sound audio segments, the fundamental frequency of each dull sound audio segment can be extracted based on an algorithm such as DIO or Harvest, and then it can be detected one by one whether the fundamental frequency value of each dull sound audio segment is 0 or not. For a dull sound audio segment whose fundamental frequency value is 0, a non-zero fundamental frequency value can be obtained as the fundamental frequency value of the dull sound audio segment by performing linear interpolation based on the dull sound audio segment values in the vicinity of the dull sound audio segment based on a linear interpolation algorithm.

例えば、濁音オーディオセグメントは6つあり、基本周波数値は、それぞれ、100、100、0、0、160、100である。すなわち3番目と4番目の濁音オーディオセグメントの基本周波数値は0である。したがって、3番目及び4番目の濁音オーディオセグメントの基本周波数値の近傍のゼロではない基本周波数値に基づいて線形補間を行うことができ、すなわち2番目の基本周波数値100及び5番目の基本周波数値160に基づいて、線形補間を行い、3番目及び4番目の濁音オーディオセグメントの基本周波数値が120及び140であることを得る。すなわち、補正後の6つの基本周波数値は、100、100、120、140、160、100である。 For example, there are six dull sound audio segments, and the fundamental frequency values are 100, 100, 0, 0, 160, and 100, respectively. That is, the fundamental frequency value of the third and fourth dull sound audio segments is 0. Therefore, linear interpolation can be performed based on non-zero fundamental frequency values near the fundamental frequency values of the third and fourth dull sound audio segments, that is, based on the second fundamental frequency value 100 and the fifth fundamental frequency value 160, linear interpolation is performed to obtain that the fundamental frequency values of the third and fourth dull sound audio segments are 120 and 140. That is, the six fundamental frequency values after correction are 100, 100, 120, 140, 160, and 100.

次に、操作S323において、予め定められた電気音響パラメータに基づいて、第一基本周波数を調整し、第二基本周波数を取得する。 Next, in operation S323, the first fundamental frequency is adjusted based on the predetermined electroacoustic parameters to obtain the second fundamental frequency.

本開示の実施例によれば、予め定められた電気音響パラメータは、例えば電気音響程度パラメータ及び/又は電気音響トーンパラメータを含むことができる。ここで、電気音響程度パラメータは、電気音響の程度を制御するために用いられてもよい。電気音響トーンパラメータは、トーンを制御するために用いられてもよい。例示的に、本実施例において、電気音響程度パラメータは例えば1、1.2、1.4を含むことができ、電気音響程度パラメータが大きいほど電気音効果が顕著となる。電気音響トーンパラメータは、例えば、-3、-2、-1、+1、+2、+3を含んでもよい。ここで、-1、-2、-3はそれぞれトーンを1つ、2つ、3つ低下することを示し、+1、+2、+3はそれぞれトーンを1つ、2つ、3つ向上することを示す。 According to an embodiment of the present disclosure, the predetermined electroacoustic parameters may include, for example, an electroacoustic degree parameter and/or an electroacoustic tone parameter. Here, the electroacoustic degree parameter may be used to control the degree of electroacoustic. The electroacoustic tone parameter may be used to control the tone. Exemplarily, in this embodiment, the electroacoustic degree parameter may include, for example, 1, 1.2, 1.4, and the larger the electroacoustic degree parameter, the more prominent the electroacoustic effect. The electroacoustic tone parameter may include, for example, -3, -2, -1, +1, +2, +3, where -1, -2, -3 indicate a decrease in tone by one, two, and three, respectively, and +1, +2, and +3 indicate an increase in tone by one, two, and three, respectively.

関連技術において、電気音響効果は、パラメータを調整することができず、効果が単一である。本開示の実施例によれば、電気音響の特性に基づいて、電気音響程度パラメータ及び電気音響トーンパラメータという二つのパラメータを設定し、電気音響効果を制御するために用いられ、異なるユーザのニーズを満たすことができる。 In the related art, the electroacoustic effect has a single effect, with no adjustable parameters. According to the embodiment of the present disclosure, two parameters, an electroacoustic degree parameter and an electroacoustic tone parameter, are set based on the characteristics of the electroacoustic effect and are used to control the electroacoustic effect, which can meet the needs of different users.

本開示の実施例によれば、全ての濁音オーディオセグメントの基本周波数に基づいて、基本周波数分散及び/又は基本周波数平均値を決定することができる。電気音響程度パラメータ及び基本周波数分散に基づいて、補正基本周波数分散を決定し、及び/又は、電気音響程度パラメータ及び基本周波数平均値に基づいて、補正基本周波数平均値を決定する。次に補正基本周波数分散及び/又は補正基本周波数平均値に基づいて、第一基本周波数を調整し、第二基本周波数を得る。 According to an embodiment of the present disclosure, a fundamental frequency variance and/or a fundamental frequency mean value can be determined based on the fundamental frequencies of all the dull audio segments. A corrected fundamental frequency variance is determined based on the electroacoustic degree parameter and the fundamental frequency variance, and/or a corrected fundamental frequency mean value is determined based on the electroacoustic degree parameter and the fundamental frequency mean value. Then, a first fundamental frequency is adjusted based on the corrected fundamental frequency variance and/or the corrected fundamental frequency mean value to obtain a second fundamental frequency.

例示的に、本実施例において、全ての濁音オーディオセグメントの基本周波数の分散を計算することができ、基本周波数分散として、全ての濁音オーディオセグメントの基本周波数の平均値を計算し、基本周波数平均値とする。 For example, in this embodiment, the variance of the fundamental frequencies of all the voiced audio segments can be calculated, and the average value of the fundamental frequencies of all the voiced audio segments is calculated as the fundamental frequency variance, which is the fundamental frequency average value.

次に、以下の式に基づいて補正基本周波数分散を計算することができる:

Figure 0007465992000005
ここで、new_varは、補正基本周波数分散であり、varは、基本周波数分散であり、aは、電気音響程度パラメータである。 The corrected fundamental dispersion can then be calculated based on the following formula:
Figure 0007465992000005
where new_var is the corrected fundamental frequency variance, var is the fundamental frequency variance, and a is the electroacoustic degree parameter.

以下の式に基づいて補正基本周波数平均値を計算することができる:

Figure 0007465992000006
ここで、new_meanは、補正基本周波数平均値であり、meanは、基本周波数平均値であり、bは電気音響トーンパラメータである。 The corrected mean fundamental frequency can be calculated based on the following formula:
Figure 0007465992000006
where new_mean is the corrected fundamental frequency mean value, mean is the fundamental frequency mean value, and b is an electroacoustic tone parameter.

次に、以下の式に基づいて第二基本周波数を計算することができる:

Figure 0007465992000007
ここで、F0’ は、第二基本周波数である。 The second fundamental frequency can then be calculated based on the following formula:
Figure 0007465992000007
Here, F0' is the second fundamental frequency.

操作S324において、第二基本周波数に対して量子化処理を行い、第三基本周波数を取得する。 In operation S324, a quantization process is performed on the second fundamental frequency to obtain a third fundamental frequency.

自然なオーディオにおいて、音声トーンは抑揚であり、徐々に変化しており、電気音響は、トーンを特定の音階に量子化し、トーンが不連続的に変化し、電子楽器から送信されたトーンに類似する。これに基づいて、本開示の実施例によれば、ピアノの各キー頻度を目標周波数として人声データの基本周波数を量子化することができる。 In natural audio, voice tones are inflected and change gradually, whereas electroacoustics quantizes tones into specific scales, where the tones change discontinuously, similar to the tones transmitted from electronic musical instruments. Based on this, according to an embodiment of the present disclosure, the fundamental frequency of human voice data can be quantized with each key frequency of a piano as a target frequency.

例示的に、本実施例において、以下の式に基づいて周波数範囲を決定することができる:

Figure 0007465992000008
ここで、 scaleは、周波数範囲であり、F0´は、第二基本周波数である。 Illustratively, in this embodiment, the frequency range can be determined based on the following formula:
Figure 0007465992000008
where scale is the frequency range and F0' is the second fundamental frequency.

次に、周波数範囲に基づいて、以下の式に基づいて第三基本周波数を決定することができる:

Figure 0007465992000009
ここで、F0’’ は、第三基本周波数である。 Then, based on the frequency range, the third fundamental frequency can be determined based on the following formula:
Figure 0007465992000009
Here, F0'' is the third fundamental frequency.

操作S325において、第三基本周波数に基づいて、電気音響人声データを決定する。 In operation S325, electroacoustic voice data is determined based on the third fundamental frequency.

本開示の実施例によれば、人声オーディオデータ及び第一基本周波数に基づいて、スペクトルエンベロープ及び非周期パラメータを決定することができる。次に第三基本周波数、スペクトルエンベロープ及び非周期パラメータに基づいて、電気音響人声データを決定することができる。 According to an embodiment of the present disclosure, a spectral envelope and aperiodic parameters can be determined based on the voice audio data and the first fundamental frequency. Electroacoustic voice data can then be determined based on the third fundamental frequency, the spectral envelope and the aperiodic parameters.

以下に図4を参照し、具体的な実施例を組み合わせて、上記したオーディオデータ処理方法をさらに説明する。当業者であれば理解されるように、以下の例示的な実施例は本開示を理解するために用いられ、本開示はこれに限定されるものではない。 The above-mentioned audio data processing method will be further described below with reference to FIG. 4 in combination with specific examples. As will be understood by those skilled in the art, the following exemplary examples are used to understand the present disclosure, and the present disclosure is not limited thereto.

図4は、本開示の他の実施例に係るオーディオデータ処理方法のフローチャートを概略的に示す。 Figure 4 shows a schematic flow chart of an audio data processing method according to another embodiment of the present disclosure.

図4に示すように、このオーディオデータ処理方法400は、以下のことを含む。操作S401において、オーディオデータ(オーディオと略称する)に伴奏音楽(伴奏と略称する)が含まれるか否かを判断する。伴奏を含む場合、操作S402を実行する。人声のみを含み伴奏を含まない場合、操作S403を実行する。 As shown in FIG. 4, this audio data processing method 400 includes the following: In operation S401, it is determined whether or not the audio data (abbreviated as audio) includes accompaniment music (abbreviated as accompaniment). If the audio data includes accompaniment, operation S402 is executed. If the audio data includes only human voices and does not include accompaniment, operation S403 is executed.

操作S402において、音源分離アルゴリズムを利用して人声と伴奏を分離する。そして、分離して得られる人声について操作S403を実行する。 In operation S402, a sound source separation algorithm is used to separate the human voice from the accompaniment. Then, operation S403 is performed on the human voice obtained by the separation.

操作S403において、人声に対してゼロクロース率、基本周波数f0及びエネルギーを抽出する。 In operation S403, the zero-crossing rate, fundamental frequency f0, and energy are extracted for the human voice.

操作S404において、ゼロクロスレートとエネルギーに基づいて基本周波数を補正してF0を取得する。 In operation S404, the fundamental frequency is corrected based on the zero cross rate and energy to obtain F0.

操作S405において、人声と補正された基本周波数F0を利用してスペクトルエンベロープSP及び非周期パラメータAPを計算する。 In operation S405, the spectral envelope SP and the aperiodic parameters AP are calculated using the voice and the corrected fundamental frequency F0.

操作S406において、ユーザの設定された電気音響程度パラメータa及び電気音響トーンパラメータbに基づいて、基本周波数を調整してF0’を取得する。 In operation S406, the fundamental frequency is adjusted to obtain F0' based on the electroacoustic degree parameter a and electroacoustic tone parameter b set by the user.

操作S407において、基本周波数F0’を量子化してF0’’を取得する。 In operation S407, the fundamental frequency F0' is quantized to obtain F0''.

操作S408において、基本周波数F0’’、スペクトルエンベロープSP及び非周期パラメータAPを用いて電気音効果付きの人声を共に合成する。 In operation S408, the fundamental frequency F0'', the spectral envelope SP and the aperiodic parameters AP are used to synthesize a human voice with electrical sound effects.

操作S409において、オーディオが伴奏を有する場合、操作S410を実行する。そうでなければ、操作S411を実行する。 In operation S409, if the audio has accompaniment, perform operation S410. Otherwise, perform operation S411.

操作S410において、伴奏も人声に合わせ、最終的な電気音響効果付きのオーディオを生成する。 In operation S410, the accompaniment is also matched to the human voice to generate the final audio with electronic sound effects.

操作S411において、電気音響効果付きのオーディオを出力する。 In operation S411, audio with electric sound effects is output.

本開示の実施例に係るオーディオデータ処理方法によれば、オーディオデータに電気音響効果を柔軟かつ効率的に増加し、ユーザの娯楽の興趣性を向上させることができる。 The audio data processing method according to the embodiment of the present disclosure can flexibly and efficiently increase the electric acoustic effects in the audio data, thereby improving the entertainment enjoyment of the user.

図5は、本発明の実施例に係るオーディオデータ処理装置のブロック図を概略的に示す。 Figure 5 shows a schematic block diagram of an audio data processing device according to an embodiment of the present invention.

図5に示すように、このオーディオデータ処理装置500は、分解モジュール510、電気音響処理モジュール520及び合成モジュール530を含む。 As shown in FIG. 5, the audio data processing device 500 includes a decomposition module 510, an electroacoustic processing module 520, and a synthesis module 530.

分解モジュール510は、オリジナルオーディオデータを分解し、人声オーディオデータ及び背景オーディオデータを得るために用いられる。 The decomposition module 510 is used to decompose the original audio data to obtain voice audio data and background audio data.

電気音響処理モジュール520は、人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを得るために用いられる。 The electroacoustic processing module 520 is used to perform electroacoustic processing on the human voice audio data to obtain electroacoustic human voice data.

合成モジュール530は、電気音響人声データと背景オーディオデータを合成し、目標オーディオデータを得るために用いられる。 The synthesis module 530 is used to synthesize the electroacoustic voice data and the background audio data to obtain the target audio data.

本開示の実施例によれば、分解モジュールは、メルスペクトル決定サブモジュール、分解サブモジュール及び生成サブモジュールを含むことができる。ここで、メルスペクトル決定サブモジュールは、オリジナルオーディオデータに対応するオリジナルメルスペクトルデータを決定するために用いられる。分解サブモジュールは、ニューラルネットワークを用いてオリジナルメルスペクトルデータに対応する背景メルスペクトルデータ及び人声メルスペクトルデータを決定するために用いられる。生成サブモジュールは、背景メルスペクトルデータに基づいて、背景オーディオデータを生成し、かつ人声メルスペクトルデータに基づいて、人声オーディオデータを生成するために用いられる。 According to an embodiment of the present disclosure, the decomposition module may include a mel spectrum determination submodule, a decomposition submodule, and a generation submodule. Here, the mel spectrum determination submodule is used to determine original mel spectrum data corresponding to the original audio data. The decomposition submodule is used to determine background mel spectrum data and voice mel spectrum data corresponding to the original mel spectrum data using a neural network. The generation submodule is used to generate background audio data based on the background mel spectrum data, and generate voice audio data based on the voice mel spectrum data.

本開示の実施例によれば、電気音響処理モジュールは、抽出サブモジュール、補正サブモジュール、調整サブモジュール、量子化サブモジュール及び電気音響決定サブモジュールを含むことができる。ここで、抽出サブモジュールは、人声オーディオデータのオリジナル基本周波数を抽出するために用いられる。補正サブモジュールは、オリジナル基本周波数を補正し、第一基本周波数を得るために用いられる。調整サブモジュールは、予め定められた電気音響パラメータに基づいて、第一基本周波数を調整し、第二基本周波数を得るために用いられる。量子化サブモジュールは、第二基本周波数に対して量子化処理を行い、第三基本周波数を得るために用いられる。電気音響決定サブモジュールは、第三基本周波数に基づいて、電気音響人声データを決定するために用いられる。 According to an embodiment of the present disclosure, the electroacoustic processing module may include an extraction submodule, a correction submodule, an adjustment submodule, a quantization submodule, and an electroacoustic determination submodule. Here, the extraction submodule is used to extract an original fundamental frequency of the human voice audio data. The correction submodule is used to correct the original fundamental frequency to obtain a first fundamental frequency. The adjustment submodule is used to adjust the first fundamental frequency based on a predetermined electroacoustic parameter to obtain a second fundamental frequency. The quantization submodule is used to perform a quantization process on the second fundamental frequency to obtain a third fundamental frequency. The electroacoustic determination submodule is used to determine the electroacoustic human voice data based on the third fundamental frequency.

本開示の実施例によれば、補正サブモジュールは、セグメント化ユニット、エネルギー決定ユニット、ゼロクロスレート決定ユニット、濁音判断ユニット及び補正ユニットを含むことができる。ここで、セグメント化ユニットは、人声オーディオデータを複数のオーディオセグメントに分けるために用いられる。エネルギー決定ユニットは、複数のオーディオセグメントにおける各オーディオセグメントに対して、オーディオセグメントのエネルギーを決定するために用いられる。ゼロクロスレート決定ユニットは、複数のオーディオセグメントにおける各オーディオセグメントに対して、オーディオセグメントのゼロクロスレートを決定するために用いられる。濁音判断ユニットは、エネルギー及びゼロクロスレートに基づいて、オーディオセグメントのタイプが濁音オーディオセグメントであるか否かを決定するために用いられる。補正ユニットは、線形補間アルゴリズムを用いて、濁音オーディオセグメントの基本周波数を補正するために用いられる。 According to an embodiment of the present disclosure, the correction submodule may include a segmentation unit, an energy determination unit, a zero cross rate determination unit, a dullness judgment unit, and a correction unit. Here, the segmentation unit is used to divide the voice audio data into a plurality of audio segments. The energy determination unit is used for each audio segment in the plurality of audio segments to determine an energy of the audio segment. The zero cross rate determination unit is used for each audio segment in the plurality of audio segments to determine a zero cross rate of the audio segment. The dullness judgment unit is used to determine whether a type of the audio segment is a dullness audio segment based on the energy and the zero cross rate. The correction unit is used to correct the fundamental frequency of the dullness audio segment using a linear interpolation algorithm.

本開示の実施例によれば、オーディオセグメントに複数のサンプリングポイントが設置される。エネルギー決定ユニットは、さらに、オーディオセグメントにおける各サンプリングポイントの数値に基づいて、オーディオセグメントのエネルギーを決定するために用いられる。 According to an embodiment of the present disclosure, a plurality of sampling points are provided in the audio segment. The energy determination unit is further used to determine an energy of the audio segment based on a numerical value of each sampling point in the audio segment.

本開示の実施例によれば、ゼロクロスレート決定ユニットは、さらに、オーディオセグメントにおける隣接する二つのサンプリングポイント毎の数値が互いに符号逆であるか否かを決定するために用いられ、次にオーディオセグメントにおける隣接するサンプリングポイントが符号逆である回数が全てのサンプリングポイントの数を占める比率をゼロクロスレートとして決定する。 According to an embodiment of the present disclosure, the zero-cross rate determination unit is further used to determine whether the numerical values of every two adjacent sampling points in the audio segment are opposite in sign to each other, and then determines the ratio of the number of times that adjacent sampling points in the audio segment are opposite in sign to the number of all sampling points as the zero-cross rate.

本開示の実施例によれば、予め定められた電気音響パラメータは、電気音響程度パラメータ及び/又は電気音響トーンパラメータを含むことができる。調整サブモジュールは、第一決定ユニット、第二決定ユニット及び調整ユニットを含むことができる。ここで、第一決定ユニットは、濁音オーディオセグメントの基本周波数に基づいて、基本周波数分散及び/又は基本周波数平均値を決定するために用いられる。第二決定ユニットは、電気音響程度パラメータ及び基本周波数分散に基づいて、補正基本周波数分散を決定し、及び/又は、電気音響程度パラメータ及び基本周波数平均値に基づいて、補正基本周波数平均値を決定するために用いられる。調整ユニットは、補正基本周波数分散及び/又は補正基本周波数平均値に基づいて、第一基本周波数を調整し、第二基本周波数を得るために用いられる。 According to an embodiment of the present disclosure, the predetermined electroacoustic parameters may include an electroacoustic degree parameter and/or an electroacoustic tone parameter. The adjustment submodule may include a first determination unit, a second determination unit, and an adjustment unit. Here, the first determination unit is used to determine a fundamental frequency variance and/or a fundamental frequency average value based on a fundamental frequency of the dull audio segment. The second determination unit is used to determine a corrected fundamental frequency variance based on the electroacoustic degree parameter and the fundamental frequency variance, and/or to determine a corrected fundamental frequency average value based on the electroacoustic degree parameter and the fundamental frequency average value. The adjustment unit is used to adjust the first fundamental frequency based on the corrected fundamental frequency variance and/or the corrected fundamental frequency average value to obtain a second fundamental frequency.

本開示の実施例によれば、量子化サブモジュールは、周波数範囲決定ユニット及び第三基本周波数決定ユニットを含むことができる。 According to an embodiment of the present disclosure, the quantization submodule may include a frequency range determination unit and a third fundamental frequency determination unit.

ここで、周波数範囲決定ユニットは、以下の式に基づいて周波数範囲を決定するために用いられる:

Figure 0007465992000010
ここで、scale は、周波数範囲であり、F0’ は、第二基本周波数である。 Here, the frequency range determination unit is used to determine the frequency range based on the following formula:
Figure 0007465992000010
where scale is the frequency range and F0' is the second fundamental frequency.

第三基本周波数決定ユニットは、周波数範囲に基づいて、以下の式に基づいて第三基本周波数を決定するために用いられる:

Figure 0007465992000011
ここで、F0’’ は、第三基本周波数である。 The third fundamental frequency determining unit is used to determine the third fundamental frequency based on the frequency range and according to the following formula:
Figure 0007465992000011
Here, F0'' is the third fundamental frequency.

本開示の実施例によれば、上記オーディオデータ処理装置は、さらに決定モジュールを含むことができ、人声オーディオデータ及び第一基本周波数に基づいて、スペクトルエンベロープ及び非周期パラメータを決定するために用いられる。 According to an embodiment of the present disclosure, the audio data processing device may further include a determination module, which is used to determine the spectral envelope and the aperiodic parameters based on the voice audio data and the first fundamental frequency.

本開示の実施例によれば、電気音決定サブモジュールは、さらに、第三基本周波数、スペクトルエンベロープ及び非周期パラメータに基づいて、電気音響人声データを決定するために用いられる。 According to an embodiment of the present disclosure, the electroacoustic voice determination submodule is further used to determine electroacoustic voice data based on the third fundamental frequency, the spectral envelope and the non-periodic parameters.

本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラムを提供する。 According to an embodiment of the present disclosure, the present disclosure further provides an electronic device, a readable storage medium, and a computer program .

図6は、本開示の実施例を実施することが可能な電子機器600の一例を示す概略ブロック図である。電子機器は様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子機器はさらに様々な形式の移動装置を表示することができ、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。 FIG. 6 is a schematic block diagram illustrating an example of an electronic device 600 capable of implementing embodiments of the present disclosure. The electronic device is intended to represent various types of digital computers, such as laptop computers, desktop computers, workbenches, personal digital assistants, servers, blade servers, mainframe computers, and other suitable computers. The electronic device can also represent various types of mobile devices, such as personal digital assistants, mobile phones, smart phones, wearable devices, and other similar computing devices. The components, their connections and relationships, and their functions shown herein are merely exemplary and are not intended to limit the implementation of the present disclosure as described and/or claimed herein.

図6に示すように、機器600は計算ユニット601を含み、それはリードオンリーメモリ(ROM)602に記憶されたコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 603には、さらに機器600の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット601、ROM 602、およびRAM 603は、バス604を介して相互に接続されている。バス604には、入出力インタフェース605も接続されている。 As shown in FIG. 6, the device 600 includes a computing unit 601, which can perform various appropriate operations and processes based on a computer program stored in a read-only memory (ROM) 602 or loaded from a storage unit 608 into a random access memory (RAM) 603. The RAM 603 can further store various programs and data required for the operation of the device 600. The computing unit 601, the ROM 602, and the RAM 603 are interconnected via a bus 604. An input/output interface 605 is also connected to the bus 604.

機器600における複数の部品は、I/Oインタフェース605に接続され、例えばキーボード、マウス等の入力ユニット606と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット607と、例えば磁気ディスク、光ディスク等の記憶ユニット608と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット609とを含む。通信ユニット609は、機器600がインターネット等のコンピュータネットワーク及び/又は各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。 The components of the device 600 are connected to an I/O interface 605, and include an input unit 606, such as a keyboard, a mouse, etc., an output unit 607, such as various types of displays, speakers, etc., a storage unit 608, such as a magnetic disk, an optical disk, etc., and a communication unit 609, such as a network card, a modem, a wireless communication transceiver, etc. The communication unit 609 enables the device 600 to exchange information/data with other devices via a computer network such as the Internet and/or various types of electrical communication networks.

計算ユニット601は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算ユニット601の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種動作機械学習モデルアルゴリズムの計算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット601は、例えばオーディオデータ処理方法のような上記記載された各方法と処理を実行する。例えば、いくつかの実施例において、オーディオデータ処理方法は、例えば記憶ユニット608のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信ユニット609を介して電子機器600にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM603にロードされて計算ユニット601により実行される場合、上記記載されたオーディオデータ処理方法の1つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算ユニット601は、他の任意の適切な方式(例えば、ファームウェアを介する)によりオーディオデータ処理方法を実行するように構成されてもよい。 The computing unit 601 may be any of a variety of general-purpose and/or dedicated processing modules having processing and computing capabilities. Some examples of the computing unit 601 include, but are not limited to, a central processing unit (CPU), a graphics processing unit (GPU), various dedicated artificial intelligence (AI) computing chips, various operational machine learning model algorithm computing units, a digital signal processor (DSP), and any suitable processor, controller, microcontroller, and the like. The computing unit 601 performs each of the methods and processes described above, such as the audio data processing method. For example, in some embodiments, the audio data processing method may be realized as a computer software program tangibly included in a machine-readable medium, such as the storage unit 608. In some embodiments, some or all of the computer program may be loaded and/or installed in the electronic device 600 via the ROM 602 and/or the communication unit 609. When the computer program is loaded into RAM 603 and executed by the computing unit 601, it may perform one or more steps of the audio data processing method described above. Alternatively, in other embodiments, the computing unit 601 may be configured to perform the audio data processing method in any other suitable manner (e.g., via firmware).

本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムブルプロセッサを含むプログラムブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムブルプロセッサは、専用又は汎用のプログラムブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。 Various embodiments of the systems and techniques described herein may be implemented in digital electronic circuit systems, integrated circuit systems, field programmable gate arrays (FPGAs), application specific integrated circuits (ASICs), application specific standard products (ASSPs), systems on chips (SOCs), complex programmable logic devices (CPLDs), computer hardware, firmware, software, and/or combinations thereof. These various embodiments may be implemented in one or more computer programs that may be executed and/or interpreted by a programmable system that includes at least one programmable processor, which may be a dedicated or general purpose programmable processor, and may include a processor that may receive data and instructions from and transmit data and instructions to a storage system, at least one input device, and at least one output device.

本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。 Program codes for implementing the methods of the present disclosure may be written in any combination of one or more programming languages. These program codes may be provided to a processor or controller of a general purpose computer, a special purpose computer, or other programmable data processing apparatus, so that when the program code is executed by the processor or controller, the functions/operations specified in the flowcharts and/or block diagrams are implemented. The program codes may be fully executed on the device, partially executed on the device, partially executed on the device as a separate software package and partially executed on a remote device, or fully executed on a remote device or server.

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。 In the context of this disclosure, a machine-readable medium may be a tangible medium, and may contain or store a program for use in or in combination with an instruction execution system, device, or appliance. A machine-readable medium may be a machine-readable signal medium or a machine-readable storage medium. A machine-readable medium may include, but is not limited to, an electronic, magnetic, optical, electromagnetic, infrared, or semiconductor system, device, or appliance, or any suitable combination of the foregoing. More specific examples of machine-readable storage media include electrical connections by one or more wires, portable computer disks, hard disks, random access memories (RAMs), read-only memories (ROMs), erasable programmable read-only memories (EPROMs or flash memories), optical fibers, portable compact disk read-only memories (CD-ROMs), optical storage devices, magnetic storage devices, or any suitable combination of the foregoing.

ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(声入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。 A computer may implement the systems and techniques described herein to provide interaction with a user, and the computer may include a display device (e.g., a CRT (cathode ray tube) or LCD (liquid crystal display) monitor) for displaying information to a user, and a keyboard and pointing device (e.g., a mouse or trackball) through which the user may provide input to the computer. Other types of devices may also provide interaction with a user, for example, the feedback provided to the user may be any form of sensing feedback (e.g., visual feedback, auditory feedback, or tactile feedback) and may receive input from the user in any form (including voice input, audio input, or tactile input).

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。 The systems and techniques described herein may be implemented in a computing system that includes background components (e.g., a data server), or a computing system that includes middleware components (e.g., an application server), or a computing system that includes front-end components (e.g., a user computer having a graphical user interface or a web browser through which a user can interact with embodiments of the systems and techniques described herein), or a computing system that includes any combination of such background, middleware, or front-end components. The components of the system may be connected to each other by any form or medium of digital data communication (e.g., a communications network). Examples of communications networks illustratively include a local area network (LAN), a wide area network (WAN), and the Internet.

コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであってもよく、分布システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。 The computer system may include clients and servers. The clients and servers are generally remote and typically interact via a communications network. The relationship between the clients and servers is created by computer programs running on the corresponding computers and having a client-server relationship. The servers may be cloud servers, servers in a distributed system, or servers coupled to a blockchain.

理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、ステップを改めてソーティングしたり、追加したり又は削除してもよい。例えば、本発明に記載の各ステップは、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。 It should be understood that various types of flows shown above may be used, and steps may be rearranged, added, or removed. For example, each step described in the present invention may be performed in parallel, sequentially, or in a different order, and the present specification is not limited thereto, as long as the desired results of the technical proposal of the present disclosure can be achieved.

前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。 The specific embodiments described above do not limit the scope of protection of the present disclosure. Those skilled in the art should understand that various modifications, combinations, subcombinations and substitutions can be made according to design requirements and other factors. Any modifications, equivalent replacements and improvements made within the spirit and principles of the present disclosure should be included within the scope of protection of the present disclosure.

Claims (17)

オーディオデータ処理装置によるオーディオデータ処理方法であって、
オリジナルオーディオデータを分解し、人声オーディオデータ及び背景オーディオデータを取得することと、
前記人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを取得することと、
前記電気音響人声データと前記背景オーディオデータを合成して、目標オーディオデータを取得することと、を含
前記人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを取得することは、
前記人声オーディオデータのオリジナルの基本周波数を抽出することと、
前記オリジナル基本周波数を補正し、第一基本周波数を取得することと、
予め定められた電気音響パラメータに基づいて、前記第一基本周波数を調整し、第二基本周波数を取得することと、
前記第二基本周波数に対して量子化処理を行い、第三基本周波数を取得することと、
前記第三基本周波数に基づいて、前記電気音響人声データを決定することと、を含み、
前記オリジナル基本周波数を補正し、第一基本周波数を取得することは、
前記人声オーディオデータを複数のオーディオセグメントに分けることと、
前記複数のオーディオセグメントにおける各オーディオセグメントに対して、前記オーディオセグメントのエネルギー及びゼロクロスレートを決定することと、
前記エネルギー及びゼロクロスレートに基づいて、前記オーディオセグメントが濁音オーディオセグメントであるか否かを決定することと、
線形補間アルゴリズムを利用して、前記濁音オーディオセグメントの基本周波数を補正することと、を含む
オーディオデータ処理方法。
1. An audio data processing method by an audio data processing device, comprising:
Decomposing the original audio data to obtain voice audio data and background audio data;
performing electroacoustic processing on the human voice audio data to obtain electroacoustic human voice data;
and combining the electroacoustic voice data and the background audio data to obtain target audio data.
performing electroacoustic processing on the voice audio data to obtain electroacoustic voice data;
Extracting an original fundamental frequency of the voice audio data;
correcting the original fundamental frequency to obtain a first fundamental frequency;
adjusting the first fundamental frequency based on a predetermined electroacoustic parameter to obtain a second fundamental frequency;
performing a quantization process on the second fundamental frequency to obtain a third fundamental frequency;
determining the electroacoustic voice data based on the third fundamental frequency;
correcting the original fundamental frequency to obtain a first fundamental frequency,
Segmenting the voice audio data into a plurality of audio segments;
For each audio segment in the plurality of audio segments, determining an energy and a zero crossing rate for the audio segment;
determining whether the audio segment is a dull audio segment based on the energy and the zero crossing rate;
and compensating for the fundamental frequency of the voiced audio segment utilizing a linear interpolation algorithm.
A method for processing audio data.
前記オリジナルオーディオデータを分解し、背景オーディオデータ及び人声オーディオデータを取得することは、
前記オリジナルオーディオデータに対応するオリジナルメルスペクトルデータを決定することと、
ニューラルネットワークを用いて前記オリジナルメルスペクトルデータに対応する背景メルスペクトルデータ及び人声メルスペクトルデータを決定することと、
前記背景メルスペクトルデータに基づいて、前記背景オーディオデータを生成し、かつ前記人声メルスペクトルデータに基づいて、前記人声オーディオデータを生成することと、を含む
請求項1に記載の方法。
Decomposing the original audio data to obtain background audio data and voice audio data includes:
determining original mel spectrum data corresponding to the original audio data;
determining background mel spectrum data and voice mel spectrum data corresponding to the original mel spectrum data using a neural network;
The method of claim 1 , further comprising: generating the background audio data based on the background mel spectrum data; and generating the voice audio data based on the voice mel spectrum data.
前記オーディオセグメントに複数のサンプリングポイントが設置され、前記オーディオセグメントのエネルギーを決定することは、
前記オーディオセグメントにおける各サンプリングポイントの数値に基づいて、前記オーディオセグメントのエネルギーを決定することを含む
請求項に記載のオーディオデータ処理方法。
A plurality of sampling points are provided in the audio segment, and determining an energy of the audio segment comprises:
2. A method as claimed in claim 1 , comprising determining an energy of the audio segment based on the numerical values of each sampling point in the audio segment.
前記オーディオセグメントは複数のサンプリングポイントを含み、前記オーディオセグメントのゼロクロスレートを決定することは、
前記オーディオセグメントにおける隣接する二つのサンプリングポイント毎の数値の符号が互いに逆であるか否かを決定することと、
前記オーディオセグメントにおける隣接するサンプリングポイントが異なる符号である回数が全てのサンプリングポイントの個数を占める割合を決定し、前記ゼロクロスレートとすることと、を含む
請求項に記載の方法。
The audio segment includes a plurality of sampling points, and determining a zero crossing rate for the audio segment includes:
determining whether the signs of the numerical values of two adjacent sample points in the audio segment are opposite to each other;
2. The method of claim 1 , further comprising: determining a percentage of the total number of sample points in the audio segment that have different codes for adjacent sample points; and determining the zero crossing rate as the percentage of the total number of sample points in the audio segment that have different codes.
前記予め定められた電気音響パラメータは、電気音響程度パラメータ及び/又は電気音響トーンパラメータを含み、前記予め定められた電気音響パラメータに基づいて、前記第一基本周波数を調整し、第二基本周波数を取得することは、
前記濁音オーディオセグメントの基本周波数に基づいて、基本周波数分散及び/又は基本周波数平均値を決定することと、
前記電気音響程度パラメータ及び前記基本周波数分散に基づいて、補正基本周波数分散を決定し、及び/又は、前記電気音響トーンパラメータ及び前記基本周波数平均値に基づいて、補正基本周波数平均値を決定することと、
前記補正基本周波数分散及び/又は補正基本周波数平均値に基づいて、前記第一基本周波数を調整し、前記第二基本周波数を取得することと、を含む
請求項に記載の方法。
The predetermined electroacoustic parameter includes an electroacoustic degree parameter and/or an electroacoustic tone parameter, and adjusting the first fundamental frequency based on the predetermined electroacoustic parameter to obtain a second fundamental frequency includes:
determining a fundamental frequency variance and/or a fundamental frequency mean based on a fundamental frequency of the dull audio segment;
determining a corrected fundamental frequency variance based on said electroacoustic degree parameter and said fundamental frequency variance and/or determining a corrected fundamental frequency mean value based on said electroacoustic tone parameter and said fundamental frequency mean value;
and adjusting the first fundamental frequency based on the corrected fundamental frequency variance and/or the corrected fundamental frequency average value to obtain the second fundamental frequency.
前記第二基本周波数に対して量子化処理を行い、第三基本周波数を取得することは、以下の式に基づいて周波数範囲を決定することを含み、
Figure 0007465992000012
ここで、前記scale は、前記周波数範囲であり、前記F0’ は、前記第二基本周波数であり、
前記周波数範囲に基づいて、以下の式に基づいて前記第三基本周波数を決定し、
Figure 0007465992000013
ここで、前記F0’’ は、前記第三基本周波数である
請求項1、3~のいずれか一項に記載の方法。
Performing a quantization process on the second fundamental frequency to obtain a third fundamental frequency includes determining a frequency range based on the following formula:
Figure 0007465992000012
where scale is the frequency range, F0′ is the second fundamental frequency,
determining the third fundamental frequency based on the frequency range according to the following formula:
Figure 0007465992000013
The method according to any one of claims 1 to 5 , wherein F0'' is the third fundamental frequency.
前記人声オーディオデータ及び前記第一基本周波数に基づいて、スペクトルエンベロープ及び非周期パラメータを決定することをさらに含み、
ここで、前記第三基本周波数に基づいて、前記電気音響人声データを決定することは、
前記第三基本周波数、前記スペクトルエンベロープ及び前記非周期パラメータに基づいて、前記電気音響人声データを決定することを含む
請求項1、3~のいずれか一項に記載の方法。
determining a spectral envelope and aperiodic parameters based on the voice audio data and the first fundamental frequency;
wherein determining the electroacoustic voice data based on the third fundamental frequency comprises:
The method of claim 1 , 3 or 5 , comprising determining the electroacoustic voice data based on the third fundamental frequency, the spectral envelope and the non-periodic parameters.
オリジナルオーディオデータを分解し、人声オーディオデータ及び背景オーディオデータを取得するための分解モジュールと、
前記人声オーディオデータに対して電気音響化処理を行い、電気音響人声データを取得するための電気音響処理モジュールと、
前記電気音響人声データと前記背景オーディオデータを合成し、目標オーディオデータを取得するための合成モジュールと、を含
前記電気音響処理モジュールは、
前記人声オーディオデータのオリジナル基本周波数を抽出するための抽出サブモジュールと、
前記オリジナル基本周波数を補正し、第一基本周波数を取得するための補正サブモジュールと、
予め定められた電気音響パラメータに基づいて、前記第一基本周波数を調整し、第二基本周波数を取得するための調整サブモジュールと、
前記第二基本周波数に対して量子化処理を行い、第三基本周波数を取得するための量子化サブモジュールと、
前記第三基本周波数に基づいて、前記電気音響人声データを決定するための電気音響決定サブモジュールと、を含み、
前記補正サブモジュールは、
前記人声オーディオデータを複数のオーディオセグメントに分けるためのセグメント化ユニットと、
前記複数のオーディオセグメントにおける各オーディオセグメントに対して、前記オーディオセグメントのエネルギーを決定するためのエネルギー決定ユニットと、
前記複数のオーディオセグメントにおける各オーディオセグメントに対して、前記オーディオセグメントのゼロクロスレートを決定するためのゼロクロスレート決定ユニットと、
前記エネルギー及びゼロクロスレートに基づいて、前記オーディオセグメントのタイプが濁音オーディオセグメントであるか否かを決定するための濁音判断ユニットと、
線形補間アルゴリズムを用いて、前記濁音オーディオセグメントの基本周波数を補正するための補正ユニットと、を含む
オーディオデータ処理装置。
A decomposition module for decomposing the original audio data to obtain voice audio data and background audio data;
an electroacoustic processing module for performing electroacoustic processing on the human voice audio data to obtain electroacoustic human voice data;
a synthesis module for synthesizing the electroacoustic voice data and the background audio data to obtain target audio data.
The electroacoustic processing module includes:
an extraction sub-module for extracting an original fundamental frequency of the voice audio data;
a correction sub-module for correcting the original fundamental frequency to obtain a first fundamental frequency;
an adjusting sub-module for adjusting the first fundamental frequency based on a predetermined electroacoustic parameter to obtain a second fundamental frequency;
a quantization submodule for performing a quantization process on the second fundamental frequency to obtain a third fundamental frequency;
an electroacoustic determination submodule for determining the electroacoustic voice data based on the third fundamental frequency;
The correction submodule:
a segmentation unit for dividing the voice audio data into a plurality of audio segments;
an energy determination unit for determining, for each audio segment in the plurality of audio segments, an energy of the audio segment;
a zero cross rate determination unit for determining, for each audio segment in the plurality of audio segments, a zero cross rate determination unit for determining a zero cross rate for the audio segment;
a voiced sound determining unit for determining whether a type of the audio segment is a voiced sound audio segment based on the energy and the zero cross rate;
a correction unit for correcting the fundamental frequency of the dull audio segment using a linear interpolation algorithm.
Audio data processing device.
前記分解モジュールは、
前記オリジナルオーディオデータに対応するオリジナルメルスペクトルデータを決定するためのメルスペクトル決定サブモジュールと、
ニューラルネットワークを用いて前記オリジナルメルスペクトルデータに対応する背景メルスペクトルデータ及び人声メルスペクトルデータを決定するための分解サブモジュールと、
前記背景メルスペクトルデータに基づいて、前記背景オーディオデータを生成し、前記人声メルスペクトルデータに基づいて、前記人声オーディオデータを生成するための生成サブモジュールと、を含む
請求項に記載の装置。
The decomposition module includes:
a mel spectrum determination sub-module for determining original mel spectrum data corresponding to the original audio data;
a decomposition submodule for determining background mel-spectrum data and voice mel-spectrum data corresponding to the original mel-spectrum data using a neural network;
The apparatus of claim 8 , further comprising: a generating sub-module for generating the background audio data based on the background mel spectrum data, and for generating the voice audio data based on the voice mel spectrum data.
前記オーディオセグメントに複数のサンプリングポイントが設置され、前記エネルギー決定ユニットは、さらに、
前記オーディオセグメントにおける各サンプリングポイントの数値に基づいて、前記オーディオセグメントのエネルギーを決定する
請求項に記載の装置。
A plurality of sampling points are provided in the audio segment, and the energy determining unit further comprises:
The apparatus of claim 8 , further comprising: determining an energy of the audio segment based on a numerical value of each sampling point in the audio segment.
前記オーディオセグメントは複数のサンプリングポイントを含み、前記ゼロクロスレート決定ユニットは、さらに、
前記オーディオセグメントにおける隣接する二つのサンプリングポイント毎の数値の符号が互いに逆であるか否かを決定し、
前記オーディオセグメントにおける隣接するサンプリングポイントが異なる符号である回数が全てのサンプリングポイントの個数を占める割合を決定し、前記ゼロクロスレートとする
請求項に記載の装置。
The audio segment includes a plurality of sampling points, and the zero crossing rate determination unit further comprises:
determining whether the signs of the numerical values of every two adjacent sample points in the audio segment are opposite to each other;
The apparatus of claim 8 , further comprising: determining a ratio of the number of times adjacent sample points in the audio segment have different codes to the total number of sample points, and determining the zero crossing rate as the ratio.
前記予め定められた電気音響パラメータは、電気音響程度パラメータ及び/又は電気音響トーンパラメータを含み、前記調整サブモジュールは、
前記濁音オーディオセグメントの基本周波数に基づいて、基本周波数分散及び/又は基本周波数平均値を決定するための第一決定ユニットと、
前記電気音響程度パラメータ及び前記基本周波数分散に基づいて、補正基本周波数分散を決定し、及び/又は、前記電気音響程度パラメータ及び前記基本周波数平均値に基づいて、補正ベース周波数平均値を決定するための第二決定ユニットと、
前記補正基本周波数分散及び/又は補正基本周波数平均値に基づいて、前記第一基本周波数を調整し、前記第二基本周波数を取得するための調整ユニットと、を含む
請求項に記載の装置。
The predetermined electroacoustic parameters include electroacoustic degree parameters and/or electroacoustic tone parameters, and the adjustment sub-module
a first determining unit for determining a fundamental frequency variance and/or a fundamental frequency mean value based on a fundamental frequency of the dull audio segment;
a second determination unit for determining a corrected fundamental frequency variance based on said electroacoustic degree parameter and said fundamental frequency variance and/or for determining a corrected fundamental frequency mean value based on said electroacoustic degree parameter and said fundamental frequency mean value;
The apparatus according to claim 8 , further comprising: an adjusting unit for adjusting the first fundamental frequency based on the corrected fundamental frequency variance and/or the corrected fundamental frequency average value to obtain the second fundamental frequency.
前記量子化サブモジュールは、周波数範囲決定ユニットおよび第三基本周波数決定ユニットを含み、
前記周波数範囲決定ユニットは、以下の式に基づいて周波数範囲を決定するために用いられ、
Figure 0007465992000014
ここで、前記scale は、前記周波数範囲であり、前記F0’ は、前記第二基本周波数であり、
前記第三基本周波数決定ユニットは、前記周波数範囲に基づいて、以下の式に基づいて前記第三基本周波数を決定するために用いられ、
Figure 0007465992000015
ここで、前記F0’’ は、前記第三基本周波数である
請求項8、1012のいずれか一項に記載の装置。
The quantization sub-module includes a frequency range determining unit and a third fundamental frequency determining unit;
The frequency range determining unit is used to determine a frequency range according to the following formula:
Figure 0007465992000014
where scale is the frequency range, F0′ is the second fundamental frequency,
The third fundamental frequency determining unit is used to determine the third fundamental frequency based on the frequency range according to the following formula:
Figure 0007465992000015
13. The apparatus according to claim 8 , wherein F0'' is the third fundamental frequency.
前記人声オーディオデータ及び前記第一基本周波数に基づいて、スペクトルエンベロープ及び非周期パラメータを決定するための決定モジュールをさらに含み、
ここで、前記電気音響決定サブモジュールは、さらに、
前記第三基本周波数、前記スペクトルエンベロープ及び前記非周期パラメータに基づいて、前記電気音響人声データを決定する
請求項8、1012のいずれか一項に記載の装置。
a determining module for determining a spectral envelope and a non-periodic parameter based on the voice audio data and the first fundamental frequency;
wherein the electroacoustic determination submodule further comprises:
13. Apparatus according to any one of claims 8, 10 to 12 , further comprising: determining the electroacoustic voice data based on the third fundamental frequency, the spectral envelope and the non-periodic parameters.
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリとを含み、
前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記少なくとも一つのプロセッサが請求項1-のいずれか一項に記載の方法を実行することができるように、前記命令は前記少なくとも一つのプロセッサにより実行される、
電子機器。
At least one processor;
a memory in communication with the at least one processor;
The memory stores instructions executable by the at least one processor, the instructions being executed by the at least one processor such that the at least one processor can perform the method according to any one of claims 1 to 7 .
Electronics.
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1-のいずれか一項に記載の方法を実行させるために用いられる
記憶媒体。
A non-transitory computer-readable storage medium having computer instructions stored thereon, comprising:
A storage medium in which the computer instructions are used to cause a computer to carry out the method according to any one of claims 1 to 7 .
プロセッサにより実行される時に請求項1-のいずれか一項に記載の方法を実現する命令を含む
コンピュータプログラム。
A computer program comprising instructions which, when executed by a processor, implements the method according to any one of claims 1 to 7 .
JP2022560146A 2021-08-24 2022-03-22 Audio data processing method, device, equipment, storage medium, and program Active JP7465992B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110978065.3 2021-08-24
CN202110978065.3A CN113689837B (en) 2021-08-24 2021-08-24 Audio data processing method, device, equipment and storage medium
PCT/CN2022/082305 WO2023024501A1 (en) 2021-08-24 2022-03-22 Audio data processing method and apparatus, and device and storage medium

Publications (2)

Publication Number Publication Date
JP2023542760A JP2023542760A (en) 2023-10-12
JP7465992B2 true JP7465992B2 (en) 2024-04-11

Family

ID=78582118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022560146A Active JP7465992B2 (en) 2021-08-24 2022-03-22 Audio data processing method, device, equipment, storage medium, and program

Country Status (4)

Country Link
EP (1) EP4167226A1 (en)
JP (1) JP7465992B2 (en)
CN (1) CN113689837B (en)
WO (1) WO2023024501A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689837B (en) * 2021-08-24 2023-08-29 北京百度网讯科技有限公司 Audio data processing method, device, equipment and storage medium
CN114449339B (en) * 2022-02-16 2024-04-12 深圳万兴软件有限公司 Background sound effect conversion method and device, computer equipment and storage medium
CN116312431B (en) * 2023-03-22 2023-11-24 广州资云科技有限公司 Electric tone key control method, apparatus, computer device, and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098318A (en) 2010-10-29 2012-05-24 Yamaha Corp Voice processor
JP2013117556A (en) 2011-12-01 2013-06-13 Nippon Hoso Kyokai <Nhk> Rhythm conversion device and program thereof
WO2019116889A1 (en) 2017-12-12 2019-06-20 ソニー株式会社 Signal processing device and method, learning device and method, and program
WO2020145353A1 (en) 2019-01-10 2020-07-16 グリー株式会社 Computer program, server device, terminal device, and speech signal processing method
JP2021516786A (en) 2018-08-09 2021-07-08 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 Methods, devices, and computer programs to separate the voices of multiple people

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04340600A (en) * 1991-05-17 1992-11-26 Mitsubishi Electric Corp Voice decoder device
JP3266819B2 (en) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 Periodic signal conversion method, sound conversion method, and signal analysis method
KR0176623B1 (en) * 1996-10-28 1999-04-01 삼성전자주식회사 Automatic extracting method and device for voiced sound and unvoiced sound part in continuous voice
US6078880A (en) * 1998-07-13 2000-06-20 Lockheed Martin Corporation Speech coding system and method including voicing cut off frequency analyzer
JP2004212473A (en) * 2002-12-27 2004-07-29 Matsushita Electric Ind Co Ltd Karaoke machine and karaoke reproducing method
JP5085700B2 (en) * 2010-08-30 2012-11-28 株式会社東芝 Speech synthesis apparatus, speech synthesis method and program
CN103440862B (en) * 2013-08-16 2016-03-09 北京奇艺世纪科技有限公司 A kind of method of voice and music synthesis, device and equipment
CN108417228B (en) * 2018-02-02 2021-03-30 福州大学 Human voice tone similarity measurement method under musical instrument tone migration
CN108922506A (en) * 2018-06-29 2018-11-30 广州酷狗计算机科技有限公司 Song audio generation method, device and computer readable storage medium
CN109166593B (en) * 2018-08-17 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 Audio data processing method, device and storage medium
CN109346109B (en) * 2018-12-05 2020-02-07 百度在线网络技术(北京)有限公司 Fundamental frequency extraction method and device
CN110706679B (en) * 2019-09-30 2022-03-29 维沃移动通信有限公司 Audio processing method and electronic equipment
CN111243619B (en) * 2020-01-06 2023-09-22 平安科技(深圳)有限公司 Training method and device for speech signal segmentation model and computer equipment
CN111370019B (en) * 2020-03-02 2023-08-29 字节跳动有限公司 Sound source separation method and device, and neural network model training method and device
CN111724757A (en) * 2020-06-29 2020-09-29 腾讯音乐娱乐科技(深圳)有限公司 Audio data processing method and related product
CN111899706A (en) * 2020-07-30 2020-11-06 广州酷狗计算机科技有限公司 Audio production method, device, equipment and storage medium
CN112086085B (en) * 2020-08-18 2024-02-20 珠海市杰理科技股份有限公司 Audio signal sound processing method, device, electronic equipment and storage medium
CN212660311U (en) * 2020-08-27 2021-03-05 深圳市十盏灯科技有限责任公司 K sings earphone with ear return function
CN113178183A (en) * 2021-04-30 2021-07-27 杭州网易云音乐科技有限公司 Sound effect processing method and device, storage medium and computing equipment
CN113689837B (en) * 2021-08-24 2023-08-29 北京百度网讯科技有限公司 Audio data processing method, device, equipment and storage medium
CN114360587A (en) * 2021-12-27 2022-04-15 北京百度网讯科技有限公司 Method, apparatus, device, medium and product for identifying audio

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098318A (en) 2010-10-29 2012-05-24 Yamaha Corp Voice processor
JP2013117556A (en) 2011-12-01 2013-06-13 Nippon Hoso Kyokai <Nhk> Rhythm conversion device and program thereof
WO2019116889A1 (en) 2017-12-12 2019-06-20 ソニー株式会社 Signal processing device and method, learning device and method, and program
JP2021516786A (en) 2018-08-09 2021-07-08 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 Methods, devices, and computer programs to separate the voices of multiple people
WO2020145353A1 (en) 2019-01-10 2020-07-16 グリー株式会社 Computer program, server device, terminal device, and speech signal processing method

Also Published As

Publication number Publication date
EP4167226A1 (en) 2023-04-19
CN113689837B (en) 2023-08-29
JP2023542760A (en) 2023-10-12
WO2023024501A1 (en) 2023-03-02
CN113689837A (en) 2021-11-23

Similar Documents

Publication Publication Date Title
JP7465992B2 (en) Audio data processing method, device, equipment, storage medium, and program
US11361751B2 (en) Speech synthesis method and device
CN105957515A (en) Voice Synthesis Method, Voice Synthesis Device, Medium for Storing Voice Synthesis Program
US20230178067A1 (en) Method of training speech synthesis model and method of synthesizing speech
CN111883100B (en) Voice conversion method, device and server
JP2022133408A (en) Speech conversion method and system, electronic apparatus, readable storage medium, and computer program
JP7124373B2 (en) LEARNING DEVICE, SOUND GENERATOR, METHOD AND PROGRAM
CN111261177A (en) Voice conversion method, electronic device and computer readable storage medium
CN113963679A (en) Voice style migration method and device, electronic equipment and storage medium
JP7412483B2 (en) Audio processing methods, devices, electronic devices and storage media
US20230206943A1 (en) Audio recognizing method, apparatus, device, medium and product
KR102611024B1 (en) Voice synthesis method and device, equipment and computer storage medium
CN113781996B (en) Voice synthesis model training method and device and electronic equipment
CN115910032A (en) Phoneme alignment model training method, computer equipment and computer storage medium
CN115862590A (en) Text-driven speech synthesis method based on characteristic pyramid
CN114783409A (en) Training method of speech synthesis model, speech synthesis method and device
CN114495956A (en) Voice processing method, device, equipment and storage medium
CN113066472A (en) Synthetic speech processing method and related device
CN112164387A (en) Audio synthesis method and device, electronic equipment and computer-readable storage medium
CN114051105B (en) Multimedia data processing method and device, electronic equipment and storage medium
KR102611003B1 (en) Voice processing method and device, equipment and computer storage medium
CN113223486B (en) Information processing method, information processing device, electronic equipment and storage medium
CN114420106A (en) Acoustic modeling method, acoustic modeling apparatus, acoustic modeling device, and storage medium
US20140343934A1 (en) Method, Apparatus, and Speech Synthesis System for Classifying Unvoiced and Voiced Sound
CN115831090A (en) Speech synthesis method, apparatus, device and storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220930

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240401