JP6790732B2 - Signal processing method and signal processing device - Google Patents
Signal processing method and signal processing device Download PDFInfo
- Publication number
- JP6790732B2 JP6790732B2 JP2016214891A JP2016214891A JP6790732B2 JP 6790732 B2 JP6790732 B2 JP 6790732B2 JP 2016214891 A JP2016214891 A JP 2016214891A JP 2016214891 A JP2016214891 A JP 2016214891A JP 6790732 B2 JP6790732 B2 JP 6790732B2
- Authority
- JP
- Japan
- Prior art keywords
- singing voice
- singing
- correction
- signal processing
- formant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、歌唱音声についての信号処理技術に関する。 The present invention relates to a signal processing technique for singing voice.
近年、プロ歌手ではない者が自らの歌唱する様子を動画に収録して動画投稿サイト等にアップロードすることが一般に行われている。このような動画は「歌ってみた動画」と呼ばれ、動画投稿サイトにおける人気ジャンルの1つとなっている。 In recent years, it has been common practice to record a video of a person who is not a professional singer singing and upload it to a video posting site or the like. Such videos are called "singing videos" and are one of the popular genres on video posting sites.
歌ってみた動画の投稿者はカラオケ曲の歌唱と同じような感覚で動画投稿を行っている場合が多い。しかし、動画投稿サイトへ投稿された動画は、カラオケ曲の歌唱とは異なり、不特定多数のユーザが閲覧し得るものである。このため、歌唱技術が十分ではなく、聴くに堪えない歌唱となっている場合には動画を視聴したユーザに不快感を抱かせ、遠慮のない手厳しいコメントが殺到し「炎上」と呼ばれる状態になることがある。このような状態になると以後の動画投稿が困難になるため、歌ってみた動画の投稿者の中には上手く歌っているという印象を聴き手に与える歌唱音声に修正して投稿することを望む者がいる。しかし、従来、このようなニーズに応える技術は無かった。 In many cases, the poster of the video that I tried to sing is posting the video in the same way as singing a karaoke song. However, unlike the singing of karaoke songs, the videos posted on the video posting site can be viewed by an unspecified number of users. For this reason, if the singing technique is not sufficient and the singing is unbearable to listen to, the user who watched the video will feel uncomfortable, and will be flooded with harsh comments without hesitation, resulting in a state called "flaming". Sometimes. In such a situation, it will be difficult to post the video after that, so some of the posters of the video that I tried to sing want to correct it to a singing voice that gives the listener the impression that they are singing well. There is. However, conventionally, there has been no technology that meets such needs.
例えば、歌唱音声の印象を変える技術の一例としては特許文献1に開示の技術が挙げられる。特許文献1には、男性の音声にピッチ変換を施し、さらに変換後の音声のフォルマントに応じた気息性雑音を付加することで自然な女性の音声に変換する技術が開示されている。しかし、特許文献1に開示の技術では、歌唱の巧拙に関する印象を変えることはできない。 For example, as an example of a technique for changing the impression of a singing voice, a technique disclosed in Patent Document 1 can be mentioned. Patent Document 1 discloses a technique of performing pitch conversion on a male voice and further adding breathing noise according to the formant of the converted voice to convert it into a natural female voice. However, the technique disclosed in Patent Document 1 cannot change the impression of singing skill.
本発明は以上に説明した課題に鑑みて為されたものであり、歌唱者の個性を残しつつ、歌唱音声の巧拙に関する印象を変えることを可能にする技術を提供することを目的とする。 The present invention has been made in view of the above-described problems, and an object of the present invention is to provide a technique capable of changing the impression of singing voice skill while retaining the individuality of the singer.
上記課題を解決するために本発明は、以下の特定ステップおよび修正ステップを有する信号処理方法を提供する。特定ステップは、歌唱音声を表す歌唱音声データから当該歌唱音声における有声音区間を修正対象区間として特定するステップである。修正ステップは、特定ステップにて特定された修正対象区間について、第3フォルマント周辺のスペクトル包絡の形状を変えない範囲で第3フォルマント周辺の周波数成分の振幅を引き上げるまたは引き下げる修正を上記歌唱音声データに施す。 In order to solve the above problems, the present invention provides a signal processing method having the following specific steps and modification steps. The specific step is a step of specifying a voiced sound section in the singing voice as a correction target section from the singing voice data representing the singing voice. In the correction step, for the correction target section specified in the specific step, the correction to raise or lower the amplitude of the frequency component around the third formant within the range that does not change the shape of the spectral envelope around the third formant is applied to the above singing voice data. Give.
下手な歌唱であるとの印象を聴き手に与える原因の1つとして、有声音区間における第3フォルマント周辺の周波数成分の不足(すなわち、当該周波数成分の振幅が小さいこと)が挙げられる。第3フォルマント周辺の周波数成分が十分であれば、オペラ歌手が歌っているかのようなボリューム感のある歌唱音声(ハリのある歌唱音声、朗々と響く歌唱音声、豊で深みのある歌唱音声などと表現される場合もある)、すなわち上手な歌唱と感じられるが、第3フォルマント周辺の周波数成分が不足すると、ハリや深みのない貧相な歌唱、すなわち下手な歌唱と感じられるからである。 One of the causes that gives the listener the impression that the song is poorly sung is the lack of frequency components around the third formant in the voiced sound section (that is, the amplitude of the frequency components is small). If the frequency component around the 3rd formant is sufficient, the singing voice with a sense of volume as if an opera singer is singing (a singing voice with elasticity, a singing voice that resonates cheerfully, a singing voice with richness and depth, etc.) It may be expressed), that is, it feels like a good singing, but if the frequency component around the third formant is insufficient, it feels like a poor singing with no tension or depth, that is, a poor singing.
本発明によれば、有声音区間における第3フォルマント周辺の周波数成分の振幅を引き上げることで、修正前に比較してより上手な歌唱であるという印象を聴き手に与えることが可能になり、逆に有声音区間における第3フォルマント周辺の周波数成分の振幅を引き下げることで、修正前に比較してより下手な歌唱音声(換言すれば、素人っぽい歌唱音声)であるという印象を聴き手に与えることが可能になる。また、本発明によれば有声音区間についてのみ修正が施され、有音区間であっても無声音区間には修正は施されず、歌い手の個性が残る。また、有声音区間についても修正前のスペクトル包絡の形状を変えない範囲で第3フォルマント周辺の周波数成分の振幅を引き上げる(または引き下げる)ため、有声音区間についても当該スペクトル包絡の形状に起因する歌い手の個性が完全に消え去る訳ではない。このように、本発明によれば、歌唱者の個性を残しつつ、歌唱音声の巧拙に関する印象を変えることが可能になる。 According to the present invention, by increasing the amplitude of the frequency component around the third formant in the voiced sound section, it is possible to give the listener the impression that the singing is better than before the correction, and vice versa. By lowering the amplitude of the frequency component around the third formant in the voiced sound section, the listener is given the impression that the singing voice is worse than before the correction (in other words, an amateurish singing voice). Will be possible. Further, according to the present invention, only the voiced sound section is modified, and even if it is the voiced section, the unvoiced sound section is not modified, and the individuality of the singer remains. In addition, since the amplitude of the frequency component around the third formant is raised (or lowered) within the range that does not change the shape of the spectral envelope before modification for the voiced sound section, the singer due to the shape of the spectral envelope is also used for the voiced sound section. Does not completely eliminate the individuality of. In this way, according to the present invention, it is possible to change the impression regarding the skill of the singing voice while retaining the individuality of the singer.
また、上記課題を解決するために本発明は、以下の特定手段と修正手段とを有する信号処理装置を提供する。特定手段は、歌唱音声を表す歌唱音声データから当該歌唱音声における有声音区間を修正対象区間として特定する。修正手段は、特定手段により特定された修正対象区間について、第3フォルマント周辺のスペクトル包絡の形状を変えない範囲で第3フォルマント周辺の周波数成分の振幅を引き上げるまたは引き下げる修正を上記歌唱音声データに施す。このような信号処理装置によっても、歌い手の個性を残しつつ、歌唱音声の巧拙についての印象を変えることが可能になる。 Further, in order to solve the above problems, the present invention provides a signal processing device having the following specific means and correction means. The specific means specifies a voiced sound section in the singing voice as a correction target section from the singing voice data representing the singing voice. The correction means applies a correction to the singing voice data to increase or decrease the amplitude of the frequency component around the third formant within a range that does not change the shape of the spectral envelope around the third formant for the correction target section specified by the specific means. .. Even with such a signal processing device, it is possible to change the impression of the skill of the singing voice while retaining the individuality of the singer.
また、本発明の別の態様としては、CPU(Central Processing Unit)などの一般的なコンピュータに上記信号処理方法を実行させるプログラム(換言すれば、コンピュータを上記特定手段および上記修正手段として機能させるプログラム)を提供する態様が考えられる。このような態様によれば一般的なコンピュータを本発明の信号処理装置として機能させることが可能になり、このような態様によっても、歌い手の個性を残しつつ、歌唱音声の巧拙についての印象を変えることが可能になる。なお、上記プログラムの具体的な提供(配布)態様としては、CD−ROM(Compact Disk-Read Only Memory)やフラッシュROMなどのコンピュータ読み取り可能な記録媒体に上記プログラムを書き込んで配布する態様や、インターネットなどの電気通信回線経由のダウンロードにより配布する態様が挙げられる。 Further, as another aspect of the present invention, a program for causing a general computer such as a CPU (Central Processing Unit) to execute the signal processing method (in other words, a program for causing the computer to function as the specific means and the modification means). ) Is conceivable. According to such an aspect, a general computer can function as the signal processing device of the present invention, and even such an aspect changes the impression of the skill of the singing voice while retaining the individuality of the singer. Will be possible. Specific provision (distribution) modes of the above program include writing and distributing the above program on a computer-readable recording medium such as a CD-ROM (Compact Disk-Read Only Memory) or a flash ROM, or the Internet. The mode of distribution by downloading via a telecommunication line such as.
以下、図面を参照しつつ本発明の実施形態を説明する。
(A:実施形態)
図1は、本発明の一実施形態による信号処理装置10Aの構成例を示す図である。信号処理装置10Aは、例えばパーソナルコンピュータであり、図1に示すように、制御部100、外部機器インタフェース(以下、「I/F」と略記)部110、通信I/F部120、記憶部130、およびこれら各構成要素間のデータ授受を仲介するバス140を有する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(A: Embodiment)
FIG. 1 is a diagram showing a configuration example of a
信号処理装置10Aは、動画投稿サイトへの歌ってみた動画の投稿の際にその投稿者によって使用される。歌ってみた動画とは、その動画の投稿者等が自らの歌唱する様子を収録して得られた動画である。また、動画投稿サイトへの動画の投稿とは、動画投稿サイトのサーバ装置へ動画データをアップロードすることを言う。歌ってみた動画の動画データには、歌唱対象となった歌唱曲全体の歌唱音声(例えば、1曲分の歌唱音声)を表す歌唱音声データが含まれている。なお、このような歌唱音声データの具体例としては、歌唱音声の音波形を所定のサンプリング周期でサンプリングして得られるサンプル列が挙げられる。
The
信号処理装置10Aは、歌唱音声データを処理対象として本実施形態の特徴を顕著に示す信号処理である歌唱音声修正処理を実行する装置である。歌唱音声修正処理とは、歌唱音声データの表す歌唱音声の歌い手の個性を残しつつ、上手な歌唱であるとの印象が聴き手に与えられるように当該歌唱音声データを修正する処理である。歌ってみた動画の投稿者は、動画データのアップロードに先立ってその動画データに含まれている歌唱音声データに対して上記歌唱音声修正処理を施すことで、上手な歌唱であるという印象を聴き手に与える歌唱音声に修正して投稿することができる。以下、信号処理装置10Aを構成する各部の役割について説明する。
The
制御部100は、例えばCPUである。制御部100は、記憶部130(正確には、不揮発性記憶部134)に予め記憶されているプログラムにしたがって作動することにより信号処理装置10Aの制御中枢として機能する。不揮発性記憶部134に予め記憶されている各種プログラムにしたがって制御部100が実行する処理の詳細については後に明らかにする。
The
外部機器I/F部110は、USB(Universal Serial
Bus)インタフェースやシリアルインタフェース、パラレルインタフェースなどの他の電子機器を接続するためのインタフェースの集合体である。外部機器I/F部110は、自身に接続された他の電子機器から受け取ったデータを制御部100へ引き渡す一方、制御部100から与えられたデータを当該他の電子機器へ出力する。本実施形態では、歌ってみた動画における歌唱音声を表す歌唱音声データを格納した記録媒体が外部機器I/F部110に接続され、制御部100は当該記録媒体に格納されている歌唱音声データを処理対象として読み出し、歌唱音声修正処理を実行する。
The external device I /
Bus) A collection of interfaces for connecting other electronic devices such as interfaces, serial interfaces, and parallel interfaces. The external device I /
通信I/F部120は例えばNIC(Network Interface Card)である。通信I/F部120は、例えばLAN(Local Area Network)ケーブルなどの通信線およびルータ等の中継装置を介して、インターネットなどの電気通信回線に接続されている。通信I/F部120は、自身の接続先の電気通信回線から送信されてくるデータを受信して制御部100へ引き渡す一方、制御部100から引き渡されたデータを当該電気通信回線へと送出する。例えば、制御部100は、ユーザの指示に応じて、歌唱音声修正処理を経た歌唱音声データを含む動画データを通信I/F部120を介して動画投稿サイトのサーバ装置へ送信する。これにより歌ってみた動画の投稿が実現される。
The communication I /
記憶部130は、図1に示すように、揮発性記憶部132と不揮発性記憶部134とを有する。揮発性記憶部132は、例えばRAM(Random Access Memory)である。揮発性記憶部132は、プログラムを実行する際のワークエリアとして制御部100により利用される。不揮発性記憶部134は、例えばフラッシュROM(Read Only Memory)やハードディスクである。不揮発性記憶部134には、歌唱音声修正処理を制御部100に実行させるための歌唱音声修正プログラム1340Aが予め格納されている。また、図1では詳細な図示を省略したが、不揮発性記憶部134には、カーネルプログラムと通信制御プログラムが予め格納されている。カーネルプログラムは、OS(Operating System)を制御部100に実現させるためのプログラムである。通信制御プログラムは、例えばFTP(File Transfer
Protocol)などの所定の通信プロトコルにしたがって、動画データを動画投稿サイトのサーバ装置へアップロードする処理を制御部100に実行させるプログラムである。
As shown in FIG. 1, the
This is a program that causes the
信号処理装置10Aの電源(図1では図示略)が投入されると、制御部100は、まず、カーネルプログラムを不揮発性記憶部134から揮発性記憶部132へ読み出し、当該カーネルプログラムの実行を開始する。カーネルプログラムにしたがって作動し、OSを実現している状態の制御部100は、外部機器I/F部110に接続された操作入力装置(例えば、マウスやキーボード、図1では図示略)に対する操作により実行を指示されたプログラムを、不揮発性記憶部134から揮発性記憶部132へ読み出し、当該プログラムの実行を開始する。
When the power of the
操作入力装置に対する操作により、歌唱音声修正プログラム1340Aの実行を指示された場合には、制御部100は歌唱音声修正プログラム1340Aを不揮発性記憶部134から揮発性記憶部132へ読み出して当該プログラムの実行を開始する。歌唱音声修正プログラム1340Aにしたがって作動している制御部100は、歌唱音声修正処理を実行する。図2は、歌唱音声修正処理の流れを示すフローチャートである。図2に示すように、歌唱音声修正処理は、特定ステップSA100と、修正ステップSA110の2つのステップを含む。
When the execution of the singing
特定ステップSA100は、歌唱音声修正処理の処理対象の歌唱音声データの表す歌唱音声から、上手な歌唱であるとの印象を聴き手に与えるための修正を施す区間である修正対象区間を特定するステップである。本実施形態では、制御部100は、上記歌唱音声における有声音区間を修正対象区間として特定する。有声音区間とは有声音の発音されている区間のことであり、本実施形態における有声音とは母音のことである。本実施形態では、母音のみを有声音として扱うが、母音の他に特定の子音(破裂音のうち[b][d][g]、摩擦音のうち[v][z]、鼻音 [m][n]、および流音[l][r])を含めても良い。
The specific step SA100 is a step of specifying a correction target section, which is a section for making corrections to give the listener an impression of good singing from the singing voice represented by the singing voice data to be processed in the singing voice correction processing. Is. In the present embodiment, the
歌唱音声における有声音区間を特定するために、制御部100は、処理対象の歌唱音声データを所定時間長のフレームに区切って時間周波数変換を施し、周波数領域のデータに変換し、フレーム毎にピッチ(基本周波数)抽出を試みる。有声音であればピッチが存在する一方、無声音或いは無音であればピッチは存在しないからである。次いで、制御部100は、上記の要領で特定した有声音区間を修正対象区間とし、処理対象の歌唱音声データの先頭を時刻の起算点とした場合における修正対象区間の開始時刻および終了時刻を示すデータを修正対象区間毎に揮発性記憶部132へ書き込む。
In order to specify the voiced sound section in the singing voice, the
修正ステップSA110は、特定ステップSA100にて特定された修正対象区間の各々について、第3フォルマント周辺の周波数成分の振幅を、当該修正対象区間におけるスペクトル包絡線の形状を包絡の形状を変えない範囲で引き上げるステップである。フォルマントとは、言葉を発している人の音声のスペクトルに現れる時間的に移動している複数のピークのことをいい、第3フォルマントとは、3番目に周波数の低いピークのことを言う。一般に、第3フォルマントおよびその周辺(両者をまとめて「第3フォルマント周辺」と呼ぶ)の周波数成分の振幅が十分であれば、オペラ歌手が歌っているかのようなボリューム感のある歌唱音声(ハリのある歌唱音声、朗々と響く歌唱音声、豊で深みのある歌唱音声などと表現される場合もある)、すなわち上手な歌唱と感じられるが、第3フォルマント周辺の周波数成分が不足すると、ハリや深みのない貧相な歌唱、すなわち下手な歌唱と感じられる。このため、本実施形態では修正対象区間における第3フォルマント周辺の周波数成分の振幅を引き上げるのである。また、第3フォルマント周辺の各周波数成分の振幅の修正量をスペクトル包絡の形状を変えない範囲に限定するのは、スペクトル包絡の形状に起因した歌い手の個性が損なわれないようにするためである。 The correction step SA110 determines the amplitude of the frequency component around the third formant for each of the correction target sections specified in the specific step SA100, and the shape of the spectral envelope in the correction target section within a range that does not change the shape of the envelope. It is a step to pull up. The formant refers to a plurality of temporally moving peaks appearing in the spectrum of the voice of the person speaking the word, and the third formant refers to the peak having the third lowest frequency. In general, if the amplitude of the frequency component of the third formant and its surroundings (collectively referred to as the "third formant periphery") is sufficient, the singing voice has a voluminous feel as if an opera singer is singing. It may be expressed as a singing voice with a certain sound, a singing voice that resonates cheerfully, a rich and deep singing voice, etc.), that is, it seems to be a good singing, but if the frequency component around the third formant is insufficient, it will become firm. It feels like a poor singing with no depth, that is, a poor singing. Therefore, in the present embodiment, the amplitude of the frequency component around the third formant in the correction target section is increased. Further, the amount of correction of the amplitude of each frequency component around the third formant is limited to the range in which the shape of the spectral envelope is not changed in order to prevent the individuality of the singer from being impaired due to the shape of the spectral envelope. ..
本実施形態の歌唱音声修正プログラムには、第3フォルマント周辺のスペクトル包絡線の形状を変えない範囲で各周波数成分の振幅を引き上げる際の補正量(元々の振幅に対する比率)を規定する補正量データ(図3参照)が予め埋め込まれている。なお、図3における周波数範囲Qおよび各周波数成分の補正量Gについては適宜実験等を行って好適な値を設定すれば良い。制御部100は、修正対象区間毎にその修正対象区間の波形データを周波数領域のデータに変換し、当該周波数区間における第3フォルマントを上記周波数範囲Qの中心周波数Fに対応させ、第3フォルマント周辺の周波数成分に補正量データに応じたEQ処理(音声の調和成分と非調和成分の両方の振幅を修正する処理)を施して各周波数成分の振幅を引き上げる。
In the singing voice correction program of the present embodiment, correction amount data that defines a correction amount (ratio to the original amplitude) when raising the amplitude of each frequency component within a range that does not change the shape of the spectral envelope around the third formant. (See FIG. 3) is pre-embedded. The frequency range Q and the correction amount G of each frequency component in FIG. 3 may be appropriately set by conducting experiments and the like. The
図4は、本実施形態の効果を説明するための図である。図4では、ある修正対象区間についての修正前のスペクトル包絡線が点線で描画されており、同修正後のスペクトル包絡線が実線で描画されている。また、図4では、修正対象の歌唱音声の楽譜を構成する音符が矩形で描画されており、図4における周波数f3sからf3eの周波数区間が第3フォルマント周辺の周波数区間であり、当該周波数区間の中心周波数が第3フォルマントである。本実施形態の信号処理装置10Aによれば、当該周波数区間に属する周波数成分の振幅が補正量データに応じて補正され、図4にて実線で示すスペクトル包絡線に修正される。その結果、オペラ歌手が歌っているかのようなボリューム感のある上手な歌唱音声に修正される。なお、図4では修正対象区間以外については第3フォルマント周辺の周波数成分の振幅の修正が行われないため、実線のスペクトル包絡線と点線のスペクトル包絡線が重なっている。
FIG. 4 is a diagram for explaining the effect of the present embodiment. In FIG. 4, the spectrum envelope before the correction for a certain correction target section is drawn with a dotted line, and the spectrum envelope after the correction is drawn with a solid line. Further, in FIG. 4, the notes constituting the score of the singing voice to be corrected are drawn in a rectangular shape, and the frequency section of the frequencies f3s to f3e in FIG. 4 is the frequency section around the third formant, and the frequency section of the frequency section. The center frequency is the third formant. According to the
本実施形態の信号処理装置10Aによれば動画投稿サイトへ投稿する「歌ってみた動画」の歌唱音声データを、より上手な印象を聴き手に与えるものに修正して動画投稿を行うことが可能になる。加えて、本実施形態では、有声音区間にのみ修正が施され、修正が施されない区間には歌い手の個性が残っている。また、修正が施された区間についても、歌い手の個性が完全に消え去る訳ではない。第3フォルマント周辺のスペクトル包絡線の形状は修正の前後で維持されているからである。このように、本実施形態によれば、歌い手の個性を残しつつ、歌唱音声の巧拙についての印象を変えることが可能になる。なお、本実施形態では音声の調和成分と非調和成分の両方を振幅を修正したが、調和成分と非調和成分とを分離し、前者の振幅のみを修正することで、より高い効果(より上手な印象を聴き手に与えること)を実現しても良い。
According to the
(B:その他の実施形態)
以上、本発明の実施形態について説明したが、この実施形態に以下の変形を加えても勿論良い。
(1)上記実施形態では、歌唱の後に歌唱音声修正処理を実行する態様、すなわち、歌唱に対して歌唱音声修正処理を非リアルタイム処理として実行する場合について説明したが、歌唱と歌唱音声修正処理を並列に、すなわち歌唱に対して歌唱音声修正処理をリアルタイム処理として実行するようにしても良い。具体的には、信号処理装置10Aの外部機器I/F部110にマイクロホンを接続し、当該マイクロホンを介して処理対象の歌唱音声データを信号処理装置10Aに入力するようにすれば良い。また、この場合、当該歌唱音声データの表す歌唱音声(すなわち、未修正の歌唱音声)または修正後の歌唱音声を、歌唱者へフィードバックするためのヘッドホンスピーカを外部機器I/F部110に接続しても良い。
(B: Other embodiments)
Although the embodiment of the present invention has been described above, it is of course possible to add the following modifications to this embodiment.
(1) In the above embodiment, a mode in which the singing voice correction processing is executed after singing, that is, a case where the singing voice correction processing is executed as a non-real-time processing for the singing has been described, but the singing and singing voice correction processing are performed. In parallel, that is, the singing voice correction process may be executed as a real-time process for the singing. Specifically, a microphone may be connected to the external device I /
(2)上記実施形態では、特定ステップにて特定された修正対象区間については修正ステップによる修正を常に施す場合について説明した。しかし、特定ステップにて特定された修正対象区間のうちから第3フォルマント周辺の周波数成分の振幅を修正する修正対象区間(或いは修正しない修正対象区間)を操作入力手段に対する操作等によってユーザに選択させても良く、また、修正対象区間毎に修正の程度をユーザに指定させても良い。 (2) In the above embodiment, the case where the correction target section specified in the specific step is always corrected by the correction step has been described. However, the user is allowed to select a correction target section (or a correction target section that is not corrected) for correcting the amplitude of the frequency component around the third formant from the correction target sections specified in the specific step by operating the operation input means or the like. Alternatively, the user may be allowed to specify the degree of correction for each correction target section.
(3)上記実施形態では、歌い手の個性を残しつつ、上手な歌唱であるとの印象を聴き手に与えるように歌唱音声データを修正する場合について説明したが、下手な歌唱であるとの印象を与えるように歌唱音声データを修正しても良い。例えば、修正対象区間における第3フォルマント周辺の周波数成分の振幅を、スペクトル包絡線の形状を変えない範囲で引き下げても良い。敢えて下手な歌唱音声に修正することで素人っぽさを強調するなど、演出の幅が広がるからである。 (3) In the above embodiment, the case where the singing voice data is modified so as to give the listener the impression that the singing is good while retaining the individuality of the singer has been described, but the impression that the singing is poor. The singing voice data may be modified so as to give. For example, the amplitude of the frequency component around the third formant in the section to be corrected may be reduced within a range that does not change the shape of the spectral envelope. This is because the range of production is widened, such as emphasizing the amateurishness by deliberately modifying the singing voice to be poor.
(4)上記実施形態では、歌ってみた動画の投稿者の使用するパーソナルコンピュータを本発明の信号処理装置として機能させたが、動画投稿サイトにおけるサーバ装置に歌唱音声修正プログラムをインストールしておき、当該サーバ装置を本発明の信号処理装置として機能させても良い。また、上記実施形態では、本発明の特徴を顕著に示す歌唱音声修正処理を制御部100に実行させる歌唱音声修正プログラムが不揮発性記憶部134に予めインストールされていたが、歌唱音声修正プログラムを単体で提供しても良い。また、特定ステップにおける処理を実行する特定手段と修正ステップにおける処理を実行する修正手段の各々を電子回路等のハードウェアで実現し、これらハードウェアを組み合わせて本発明の信号処理装置を構成しても良い。
(4) In the above embodiment, the personal computer used by the poster of the singing video is made to function as the signal processing device of the present invention, but the singing voice modification program is installed in the server device at the video posting site. The server device may function as the signal processing device of the present invention. Further, in the above embodiment, the singing voice correction program for causing the
(5)上記各実施形態では、動画投稿サイトへ投稿する「歌ってみた動画」の動画データに含まれる歌唱音声データの修正への本発明の適用例を説明した。しかし、本発明による修正対象は動画データに含まれる歌唱音声データに限定されるものではない。例えば、歌唱音声のみの投稿サイトへ投稿する歌手音声データの修正に本発明を適用しても良い。要は、本発明の信号処理装置は、歌唱音声を表す歌唱音声データから当該歌唱音声における有声音区間を修正対象区間として特定する特定手段と、特定手段により特定された修正対象区間について、第3フォルマント周辺のスペクトル包絡の形状を変えない範囲で当該第3フォルマント周辺の周波数成分の振幅を引き上げるまたは引き下げる修正を上記歌唱音声データに施す修正手段と、を有するものであれば良い。 (5) In each of the above embodiments, an example of application of the present invention to the modification of the singing audio data included in the video data of the "sung video" posted on the video posting site has been described. However, the modification target by the present invention is not limited to the singing audio data included in the moving image data. For example, the present invention may be applied to a modification of singer voice data posted on a posting site containing only singing voice. In short, the signal processing device of the present invention has a specific means for specifying a voiced sound section in the singing voice as a correction target section from the singing voice data representing the singing voice, and a third correction target section specified by the specific means. Any one having a correction means for increasing or decreasing the amplitude of the frequency component around the third formant within the range that does not change the shape of the spectral envelope around the formant is applied to the singing voice data.
10A…信号処理装置、100…制御部、110…外部機器I/F部、120…通信I/F部、130…記憶部、132…揮発性記憶部、134…不揮発性記憶部、1340A…歌唱音声修正プログラム、140…バス。 10A ... signal processing device, 100 ... control unit, 110 ... external device I / F unit, 120 ... communication I / F unit, 130 ... storage unit, 132 ... volatile storage unit, 134 ... non-volatile storage unit, 1340A ... singing Voice modifier, 140 ... bus.
Claims (2)
前記特定ステップにて特定された修正対象区間について、第3フォルマント周辺のスペクトル包絡の凸形状を変えない範囲で前記第3フォルマント周辺の周波数成分の振幅を引き上げるまたは引き下げる修正を前記歌唱音声データに施す修正ステップと、
を有することを特徴とする信号処理方法。 A specific step for specifying a voiced sound section in the singing voice as a correction target section from the singing voice data representing the singing voice, and
For the correction target section specified in the specific step, the singing voice data is corrected to increase or decrease the amplitude of the frequency component around the third formant within a range that does not change the convex shape of the spectral envelope around the third formant. Correction steps and
A signal processing method characterized by having.
前記特定手段により特定された修正対象区間について、第3フォルマント周辺のスペクトル包絡の凸形状を変えない範囲で前記第3フォルマント周辺の周波数成分の振幅を引き上げるまたは引き下げる修正を前記歌唱音声データに施す修正手段と、
を有することを特徴とする信号処理装置。
A specific means for specifying a voiced sound section in the singing voice as a correction target section from the singing voice data representing the singing voice, and
For the correction target section specified by the specific means, a correction is made to the singing voice data to raise or lower the amplitude of the frequency component around the third formant within a range that does not change the convex shape of the spectral envelope around the third formant. Means and
A signal processing device characterized by having.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016214891A JP6790732B2 (en) | 2016-11-02 | 2016-11-02 | Signal processing method and signal processing device |
US15/800,462 US10134374B2 (en) | 2016-11-02 | 2017-11-01 | Signal processing method and signal processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016214891A JP6790732B2 (en) | 2016-11-02 | 2016-11-02 | Signal processing method and signal processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018072699A JP2018072699A (en) | 2018-05-10 |
JP6790732B2 true JP6790732B2 (en) | 2020-11-25 |
Family
ID=62115433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016214891A Active JP6790732B2 (en) | 2016-11-02 | 2016-11-02 | Signal processing method and signal processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6790732B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0549053A (en) * | 1991-08-15 | 1993-02-26 | Fujitsu Ltd | Pb signal detection/identification system |
GB9714001D0 (en) * | 1997-07-02 | 1997-09-10 | Simoco Europ Limited | Method and apparatus for speech enhancement in a speech communication system |
JP6087731B2 (en) * | 2013-05-30 | 2017-03-01 | 日本電信電話株式会社 | Voice clarifying device, method and program |
JP6171711B2 (en) * | 2013-08-09 | 2017-08-02 | ヤマハ株式会社 | Speech analysis apparatus and speech analysis method |
-
2016
- 2016-11-02 JP JP2016214891A patent/JP6790732B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018072699A (en) | 2018-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106898340B (en) | Song synthesis method and terminal | |
CN106057208B (en) | A kind of audio modification method and device | |
Başkent et al. | Musician advantage for speech-on-speech perception | |
US10325581B2 (en) | Singing voice edit assistant method and singing voice edit assistant device | |
US20190385578A1 (en) | Music synthesis method, system, terminal and computer-readable storage medium | |
US10134374B2 (en) | Signal processing method and signal processing apparatus | |
CN110675886A (en) | Audio signal processing method, audio signal processing device, electronic equipment and storage medium | |
CN105957515A (en) | Voice Synthesis Method, Voice Synthesis Device, Medium for Storing Voice Synthesis Program | |
US10497347B2 (en) | Singing voice edit assistant method and singing voice edit assistant device | |
JP4959861B1 (en) | Signal processing method, signal processing apparatus, reproduction apparatus, and program | |
JP6790732B2 (en) | Signal processing method and signal processing device | |
Vos et al. | The perception of formant tuning in soprano voices | |
JP6798253B2 (en) | Signal processing method and signal processing device | |
Bunton et al. | Identification of synthetic vowels based on a time-varying model of the vocal tract area function | |
JP2006139162A (en) | Language learning system | |
Bradford | Vocal resonance: Optimising source-filter interactions in voice training | |
CN112825245A (en) | Real-time sound modification method and device and electronic equipment | |
JP5962925B2 (en) | Speech synthesis device, music playback device, speech synthesis program, and music playback program | |
Story et al. | Identification of stop consonants produced by an acoustically-driven model of a child-like vocal tract | |
Cha et al. | Can a natural singing voice be enhanced through digital processing? Implications of voice training and vocology in singers | |
JP2008275836A (en) | Document processing method and device for reading aloud | |
Roebel | Between physics and perception: Signal models for high level audio processing | |
Rajan et al. | A continuous time model for Karnatic flute music synthesis | |
Janer | Feature extraction for voice-driven synthesis | |
Ding et al. | Multimodal training using pitch gesture improves Mandarin tone recognition for children with cochlear implant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190920 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200714 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201019 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6790732 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |