JP6790732B2 - Signal processing method and signal processing device - Google Patents

Signal processing method and signal processing device Download PDF

Info

Publication number
JP6790732B2
JP6790732B2 JP2016214891A JP2016214891A JP6790732B2 JP 6790732 B2 JP6790732 B2 JP 6790732B2 JP 2016214891 A JP2016214891 A JP 2016214891A JP 2016214891 A JP2016214891 A JP 2016214891A JP 6790732 B2 JP6790732 B2 JP 6790732B2
Authority
JP
Japan
Prior art keywords
singing voice
singing
correction
signal processing
formant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016214891A
Other languages
Japanese (ja)
Other versions
JP2018072699A (en
Inventor
嘉山 啓
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2016214891A priority Critical patent/JP6790732B2/en
Priority to US15/800,462 priority patent/US10134374B2/en
Publication of JP2018072699A publication Critical patent/JP2018072699A/en
Application granted granted Critical
Publication of JP6790732B2 publication Critical patent/JP6790732B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、歌唱音声についての信号処理技術に関する。 The present invention relates to a signal processing technique for singing voice.

近年、プロ歌手ではない者が自らの歌唱する様子を動画に収録して動画投稿サイト等にアップロードすることが一般に行われている。このような動画は「歌ってみた動画」と呼ばれ、動画投稿サイトにおける人気ジャンルの1つとなっている。 In recent years, it has been common practice to record a video of a person who is not a professional singer singing and upload it to a video posting site or the like. Such videos are called "singing videos" and are one of the popular genres on video posting sites.

特開2000−003200号公報Japanese Unexamined Patent Publication No. 2000-003200

歌ってみた動画の投稿者はカラオケ曲の歌唱と同じような感覚で動画投稿を行っている場合が多い。しかし、動画投稿サイトへ投稿された動画は、カラオケ曲の歌唱とは異なり、不特定多数のユーザが閲覧し得るものである。このため、歌唱技術が十分ではなく、聴くに堪えない歌唱となっている場合には動画を視聴したユーザに不快感を抱かせ、遠慮のない手厳しいコメントが殺到し「炎上」と呼ばれる状態になることがある。このような状態になると以後の動画投稿が困難になるため、歌ってみた動画の投稿者の中には上手く歌っているという印象を聴き手に与える歌唱音声に修正して投稿することを望む者がいる。しかし、従来、このようなニーズに応える技術は無かった。 In many cases, the poster of the video that I tried to sing is posting the video in the same way as singing a karaoke song. However, unlike the singing of karaoke songs, the videos posted on the video posting site can be viewed by an unspecified number of users. For this reason, if the singing technique is not sufficient and the singing is unbearable to listen to, the user who watched the video will feel uncomfortable, and will be flooded with harsh comments without hesitation, resulting in a state called "flaming". Sometimes. In such a situation, it will be difficult to post the video after that, so some of the posters of the video that I tried to sing want to correct it to a singing voice that gives the listener the impression that they are singing well. There is. However, conventionally, there has been no technology that meets such needs.

例えば、歌唱音声の印象を変える技術の一例としては特許文献1に開示の技術が挙げられる。特許文献1には、男性の音声にピッチ変換を施し、さらに変換後の音声のフォルマントに応じた気息性雑音を付加することで自然な女性の音声に変換する技術が開示されている。しかし、特許文献1に開示の技術では、歌唱の巧拙に関する印象を変えることはできない。 For example, as an example of a technique for changing the impression of a singing voice, a technique disclosed in Patent Document 1 can be mentioned. Patent Document 1 discloses a technique of performing pitch conversion on a male voice and further adding breathing noise according to the formant of the converted voice to convert it into a natural female voice. However, the technique disclosed in Patent Document 1 cannot change the impression of singing skill.

本発明は以上に説明した課題に鑑みて為されたものであり、歌唱者の個性を残しつつ、歌唱音声の巧拙に関する印象を変えることを可能にする技術を提供することを目的とする。 The present invention has been made in view of the above-described problems, and an object of the present invention is to provide a technique capable of changing the impression of singing voice skill while retaining the individuality of the singer.

上記課題を解決するために本発明は、以下の特定ステップおよび修正ステップを有する信号処理方法を提供する。特定ステップは、歌唱音声を表す歌唱音声データから当該歌唱音声における有声音区間を修正対象区間として特定するステップである。修正ステップは、特定ステップにて特定された修正対象区間について、第3フォルマント周辺のスペクトル包絡の形状を変えない範囲で第3フォルマント周辺の周波数成分の振幅を引き上げるまたは引き下げる修正を上記歌唱音声データに施す。 In order to solve the above problems, the present invention provides a signal processing method having the following specific steps and modification steps. The specific step is a step of specifying a voiced sound section in the singing voice as a correction target section from the singing voice data representing the singing voice. In the correction step, for the correction target section specified in the specific step, the correction to raise or lower the amplitude of the frequency component around the third formant within the range that does not change the shape of the spectral envelope around the third formant is applied to the above singing voice data. Give.

下手な歌唱であるとの印象を聴き手に与える原因の1つとして、有声音区間における第3フォルマント周辺の周波数成分の不足(すなわち、当該周波数成分の振幅が小さいこと)が挙げられる。第3フォルマント周辺の周波数成分が十分であれば、オペラ歌手が歌っているかのようなボリューム感のある歌唱音声(ハリのある歌唱音声、朗々と響く歌唱音声、豊で深みのある歌唱音声などと表現される場合もある)、すなわち上手な歌唱と感じられるが、第3フォルマント周辺の周波数成分が不足すると、ハリや深みのない貧相な歌唱、すなわち下手な歌唱と感じられるからである。 One of the causes that gives the listener the impression that the song is poorly sung is the lack of frequency components around the third formant in the voiced sound section (that is, the amplitude of the frequency components is small). If the frequency component around the 3rd formant is sufficient, the singing voice with a sense of volume as if an opera singer is singing (a singing voice with elasticity, a singing voice that resonates cheerfully, a singing voice with richness and depth, etc.) It may be expressed), that is, it feels like a good singing, but if the frequency component around the third formant is insufficient, it feels like a poor singing with no tension or depth, that is, a poor singing.

本発明によれば、有声音区間における第3フォルマント周辺の周波数成分の振幅を引き上げることで、修正前に比較してより上手な歌唱であるという印象を聴き手に与えることが可能になり、逆に有声音区間における第3フォルマント周辺の周波数成分の振幅を引き下げることで、修正前に比較してより下手な歌唱音声(換言すれば、素人っぽい歌唱音声)であるという印象を聴き手に与えることが可能になる。また、本発明によれば有声音区間についてのみ修正が施され、有音区間であっても無声音区間には修正は施されず、歌い手の個性が残る。また、有声音区間についても修正前のスペクトル包絡の形状を変えない範囲で第3フォルマント周辺の周波数成分の振幅を引き上げる(または引き下げる)ため、有声音区間についても当該スペクトル包絡の形状に起因する歌い手の個性が完全に消え去る訳ではない。このように、本発明によれば、歌唱者の個性を残しつつ、歌唱音声の巧拙に関する印象を変えることが可能になる。 According to the present invention, by increasing the amplitude of the frequency component around the third formant in the voiced sound section, it is possible to give the listener the impression that the singing is better than before the correction, and vice versa. By lowering the amplitude of the frequency component around the third formant in the voiced sound section, the listener is given the impression that the singing voice is worse than before the correction (in other words, an amateurish singing voice). Will be possible. Further, according to the present invention, only the voiced sound section is modified, and even if it is the voiced section, the unvoiced sound section is not modified, and the individuality of the singer remains. In addition, since the amplitude of the frequency component around the third formant is raised (or lowered) within the range that does not change the shape of the spectral envelope before modification for the voiced sound section, the singer due to the shape of the spectral envelope is also used for the voiced sound section. Does not completely eliminate the individuality of. In this way, according to the present invention, it is possible to change the impression regarding the skill of the singing voice while retaining the individuality of the singer.

また、上記課題を解決するために本発明は、以下の特定手段と修正手段とを有する信号処理装置を提供する。特定手段は、歌唱音声を表す歌唱音声データから当該歌唱音声における有声音区間を修正対象区間として特定する。修正手段は、特定手段により特定された修正対象区間について、第3フォルマント周辺のスペクトル包絡の形状を変えない範囲で第3フォルマント周辺の周波数成分の振幅を引き上げるまたは引き下げる修正を上記歌唱音声データに施す。このような信号処理装置によっても、歌い手の個性を残しつつ、歌唱音声の巧拙についての印象を変えることが可能になる。 Further, in order to solve the above problems, the present invention provides a signal processing device having the following specific means and correction means. The specific means specifies a voiced sound section in the singing voice as a correction target section from the singing voice data representing the singing voice. The correction means applies a correction to the singing voice data to increase or decrease the amplitude of the frequency component around the third formant within a range that does not change the shape of the spectral envelope around the third formant for the correction target section specified by the specific means. .. Even with such a signal processing device, it is possible to change the impression of the skill of the singing voice while retaining the individuality of the singer.

また、本発明の別の態様としては、CPU(Central Processing Unit)などの一般的なコンピュータに上記信号処理方法を実行させるプログラム(換言すれば、コンピュータを上記特定手段および上記修正手段として機能させるプログラム)を提供する態様が考えられる。このような態様によれば一般的なコンピュータを本発明の信号処理装置として機能させることが可能になり、このような態様によっても、歌い手の個性を残しつつ、歌唱音声の巧拙についての印象を変えることが可能になる。なお、上記プログラムの具体的な提供(配布)態様としては、CD−ROM(Compact Disk-Read Only Memory)やフラッシュROMなどのコンピュータ読み取り可能な記録媒体に上記プログラムを書き込んで配布する態様や、インターネットなどの電気通信回線経由のダウンロードにより配布する態様が挙げられる。 Further, as another aspect of the present invention, a program for causing a general computer such as a CPU (Central Processing Unit) to execute the signal processing method (in other words, a program for causing the computer to function as the specific means and the modification means). ) Is conceivable. According to such an aspect, a general computer can function as the signal processing device of the present invention, and even such an aspect changes the impression of the skill of the singing voice while retaining the individuality of the singer. Will be possible. Specific provision (distribution) modes of the above program include writing and distributing the above program on a computer-readable recording medium such as a CD-ROM (Compact Disk-Read Only Memory) or a flash ROM, or the Internet. The mode of distribution by downloading via a telecommunication line such as.

本発明の一実施形態による信号処理装置10Aの構成例を示す図である。It is a figure which shows the structural example of the signal processing apparatus 10A by one Embodiment of this invention. 同信号処理装置10Aの制御部100が歌唱音声修正プログラム1340Aにしたがって実行する歌唱音声修正処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the singing voice correction processing which the control unit 100 of the signal processing apparatus 10A executes according to a singing voice correction program 1340A. 補正量データの一例を示す図である。It is a figure which shows an example of the correction amount data. 本実施形態の効果を説明するための図である。It is a figure for demonstrating the effect of this embodiment.

以下、図面を参照しつつ本発明の実施形態を説明する。
(A:実施形態)
図1は、本発明の一実施形態による信号処理装置10Aの構成例を示す図である。信号処理装置10Aは、例えばパーソナルコンピュータであり、図1に示すように、制御部100、外部機器インタフェース(以下、「I/F」と略記)部110、通信I/F部120、記憶部130、およびこれら各構成要素間のデータ授受を仲介するバス140を有する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(A: Embodiment)
FIG. 1 is a diagram showing a configuration example of a signal processing device 10A according to an embodiment of the present invention. The signal processing device 10A is, for example, a personal computer, and as shown in FIG. 1, the control unit 100, the external device interface (hereinafter abbreviated as “I / F”) unit 110, the communication I / F unit 120, and the storage unit 130. , And a bus 140 that mediates the transfer of data between each of these components.

信号処理装置10Aは、動画投稿サイトへの歌ってみた動画の投稿の際にその投稿者によって使用される。歌ってみた動画とは、その動画の投稿者等が自らの歌唱する様子を収録して得られた動画である。また、動画投稿サイトへの動画の投稿とは、動画投稿サイトのサーバ装置へ動画データをアップロードすることを言う。歌ってみた動画の動画データには、歌唱対象となった歌唱曲全体の歌唱音声(例えば、1曲分の歌唱音声)を表す歌唱音声データが含まれている。なお、このような歌唱音声データの具体例としては、歌唱音声の音波形を所定のサンプリング周期でサンプリングして得られるサンプル列が挙げられる。 The signal processing device 10A is used by the poster when posting a sung video to a video posting site. The video that I tried to sing is a video that was obtained by recording how the posters of the video sang. Posting a video to a video posting site means uploading video data to the server device of the video posting site. The moving image data of the moving image of the singing includes singing sound data representing the singing sound of the entire singing song to be sung (for example, the singing sound of one song). As a specific example of such singing voice data, there is a sample sequence obtained by sampling the sound wave shape of the singing voice at a predetermined sampling cycle.

信号処理装置10Aは、歌唱音声データを処理対象として本実施形態の特徴を顕著に示す信号処理である歌唱音声修正処理を実行する装置である。歌唱音声修正処理とは、歌唱音声データの表す歌唱音声の歌い手の個性を残しつつ、上手な歌唱であるとの印象が聴き手に与えられるように当該歌唱音声データを修正する処理である。歌ってみた動画の投稿者は、動画データのアップロードに先立ってその動画データに含まれている歌唱音声データに対して上記歌唱音声修正処理を施すことで、上手な歌唱であるという印象を聴き手に与える歌唱音声に修正して投稿することができる。以下、信号処理装置10Aを構成する各部の役割について説明する。 The signal processing device 10A is a device that executes a singing voice correction process, which is a signal processing that remarkably shows the characteristics of the present embodiment, with the singing voice data as a processing target. The singing voice correction process is a process of correcting the singing voice data so as to give the listener the impression that the singing is good while retaining the individuality of the singing voice represented by the singing voice data. The poster of the video that I tried to sing gives the impression that the singing voice is good by applying the above singing voice correction processing to the singing voice data included in the video data prior to uploading the video data. It can be modified and posted to the singing voice given to. Hereinafter, the roles of the respective parts constituting the signal processing device 10A will be described.

制御部100は、例えばCPUである。制御部100は、記憶部130(正確には、不揮発性記憶部134)に予め記憶されているプログラムにしたがって作動することにより信号処理装置10Aの制御中枢として機能する。不揮発性記憶部134に予め記憶されている各種プログラムにしたがって制御部100が実行する処理の詳細については後に明らかにする。 The control unit 100 is, for example, a CPU. The control unit 100 functions as a control center of the signal processing device 10A by operating according to a program stored in advance in the storage unit 130 (more precisely, the non-volatile storage unit 134). The details of the processing executed by the control unit 100 according to various programs stored in advance in the non-volatile storage unit 134 will be clarified later.

外部機器I/F部110は、USB(Universal Serial
Bus)インタフェースやシリアルインタフェース、パラレルインタフェースなどの他の電子機器を接続するためのインタフェースの集合体である。外部機器I/F部110は、自身に接続された他の電子機器から受け取ったデータを制御部100へ引き渡す一方、制御部100から与えられたデータを当該他の電子機器へ出力する。本実施形態では、歌ってみた動画における歌唱音声を表す歌唱音声データを格納した記録媒体が外部機器I/F部110に接続され、制御部100は当該記録媒体に格納されている歌唱音声データを処理対象として読み出し、歌唱音声修正処理を実行する。
The external device I / F unit 110 is a USB (Universal Serial).
Bus) A collection of interfaces for connecting other electronic devices such as interfaces, serial interfaces, and parallel interfaces. The external device I / F unit 110 delivers the data received from another electronic device connected to itself to the control unit 100, and outputs the data given by the control unit 100 to the other electronic device. In the present embodiment, a recording medium that stores singing voice data representing the singing voice in the moving image that has been sung is connected to the external device I / F unit 110, and the control unit 100 uses the singing voice data stored in the recording medium. Read as a processing target and execute singing voice correction processing.

通信I/F部120は例えばNIC(Network Interface Card)である。通信I/F部120は、例えばLAN(Local Area Network)ケーブルなどの通信線およびルータ等の中継装置を介して、インターネットなどの電気通信回線に接続されている。通信I/F部120は、自身の接続先の電気通信回線から送信されてくるデータを受信して制御部100へ引き渡す一方、制御部100から引き渡されたデータを当該電気通信回線へと送出する。例えば、制御部100は、ユーザの指示に応じて、歌唱音声修正処理を経た歌唱音声データを含む動画データを通信I/F部120を介して動画投稿サイトのサーバ装置へ送信する。これにより歌ってみた動画の投稿が実現される。 The communication I / F unit 120 is, for example, a NIC (Network Interface Card). The communication I / F unit 120 is connected to a telecommunication line such as the Internet via a communication line such as a LAN (Local Area Network) cable and a relay device such as a router. The communication I / F unit 120 receives the data transmitted from the telecommunication line to which it is connected and delivers it to the control unit 100, while transmitting the data delivered from the control unit 100 to the telecommunication line. .. For example, the control unit 100 transmits video data including singing voice data that has undergone singing voice correction processing to the server device of the video posting site via the communication I / F unit 120 in response to a user's instruction. This makes it possible to post a video that I tried to sing.

記憶部130は、図1に示すように、揮発性記憶部132と不揮発性記憶部134とを有する。揮発性記憶部132は、例えばRAM(Random Access Memory)である。揮発性記憶部132は、プログラムを実行する際のワークエリアとして制御部100により利用される。不揮発性記憶部134は、例えばフラッシュROM(Read Only Memory)やハードディスクである。不揮発性記憶部134には、歌唱音声修正処理を制御部100に実行させるための歌唱音声修正プログラム1340Aが予め格納されている。また、図1では詳細な図示を省略したが、不揮発性記憶部134には、カーネルプログラムと通信制御プログラムが予め格納されている。カーネルプログラムは、OS(Operating System)を制御部100に実現させるためのプログラムである。通信制御プログラムは、例えばFTP(File Transfer
Protocol)などの所定の通信プロトコルにしたがって、動画データを動画投稿サイトのサーバ装置へアップロードする処理を制御部100に実行させるプログラムである。
As shown in FIG. 1, the storage unit 130 includes a volatile storage unit 132 and a non-volatile storage unit 134. The volatile storage unit 132 is, for example, a RAM (Random Access Memory). The volatile storage unit 132 is used by the control unit 100 as a work area when executing a program. The non-volatile storage unit 134 is, for example, a flash ROM (Read Only Memory) or a hard disk. The non-volatile storage unit 134 stores in advance a singing voice correction program 1340A for causing the control unit 100 to execute the singing voice correction processing. Further, although detailed illustration is omitted in FIG. 1, a kernel program and a communication control program are stored in advance in the non-volatile storage unit 134. The kernel program is a program for realizing the OS (Operating System) in the control unit 100. The communication control program is, for example, FTP (File Transfer).
This is a program that causes the control unit 100 to execute a process of uploading video data to a server device of a video posting site according to a predetermined communication protocol such as Protocol).

信号処理装置10Aの電源(図1では図示略)が投入されると、制御部100は、まず、カーネルプログラムを不揮発性記憶部134から揮発性記憶部132へ読み出し、当該カーネルプログラムの実行を開始する。カーネルプログラムにしたがって作動し、OSを実現している状態の制御部100は、外部機器I/F部110に接続された操作入力装置(例えば、マウスやキーボード、図1では図示略)に対する操作により実行を指示されたプログラムを、不揮発性記憶部134から揮発性記憶部132へ読み出し、当該プログラムの実行を開始する。 When the power of the signal processing device 10A (not shown in FIG. 1) is turned on, the control unit 100 first reads the kernel program from the non-volatile storage unit 134 to the volatile storage unit 132, and starts executing the kernel program. To do. The control unit 100, which operates according to the kernel program and realizes the OS, operates by operating an operation input device (for example, a mouse or keyboard, not shown in FIG. 1) connected to the external device I / F unit 110. The program instructed to be executed is read from the non-volatile storage unit 134 to the volatile storage unit 132, and the execution of the program is started.

操作入力装置に対する操作により、歌唱音声修正プログラム1340Aの実行を指示された場合には、制御部100は歌唱音声修正プログラム1340Aを不揮発性記憶部134から揮発性記憶部132へ読み出して当該プログラムの実行を開始する。歌唱音声修正プログラム1340Aにしたがって作動している制御部100は、歌唱音声修正処理を実行する。図2は、歌唱音声修正処理の流れを示すフローチャートである。図2に示すように、歌唱音声修正処理は、特定ステップSA100と、修正ステップSA110の2つのステップを含む。 When the execution of the singing voice modification program 1340A is instructed by the operation on the operation input device, the control unit 100 reads the singing voice modification program 1340A from the non-volatile storage unit 134 to the volatile storage unit 132 and executes the program. To start. The control unit 100 operating according to the singing voice correction program 1340A executes the singing voice correction processing. FIG. 2 is a flowchart showing the flow of the singing voice correction process. As shown in FIG. 2, the singing voice correction process includes two steps, a specific step SA100 and a correction step SA110.

特定ステップSA100は、歌唱音声修正処理の処理対象の歌唱音声データの表す歌唱音声から、上手な歌唱であるとの印象を聴き手に与えるための修正を施す区間である修正対象区間を特定するステップである。本実施形態では、制御部100は、上記歌唱音声における有声音区間を修正対象区間として特定する。有声音区間とは有声音の発音されている区間のことであり、本実施形態における有声音とは母音のことである。本実施形態では、母音のみを有声音として扱うが、母音の他に特定の子音(破裂音のうち[b][d][g]、摩擦音のうち[v][z]、鼻音 [m][n]、および流音[l][r])を含めても良い。 The specific step SA100 is a step of specifying a correction target section, which is a section for making corrections to give the listener an impression of good singing from the singing voice represented by the singing voice data to be processed in the singing voice correction processing. Is. In the present embodiment, the control unit 100 specifies the voiced sound section in the singing voice as the correction target section. The voiced sound section is a section in which a voiced sound is pronounced, and the voiced sound in the present embodiment is a vowel. In this embodiment, only vowels are treated as voiced sounds, but in addition to vowels, specific consonants ([b] [d] [g] among plosives, [v] [z] among fricatives, and nasal sounds [m] [n], and liquid consonants [l] [r]) may be included.

歌唱音声における有声音区間を特定するために、制御部100は、処理対象の歌唱音声データを所定時間長のフレームに区切って時間周波数変換を施し、周波数領域のデータに変換し、フレーム毎にピッチ(基本周波数)抽出を試みる。有声音であればピッチが存在する一方、無声音或いは無音であればピッチは存在しないからである。次いで、制御部100は、上記の要領で特定した有声音区間を修正対象区間とし、処理対象の歌唱音声データの先頭を時刻の起算点とした場合における修正対象区間の開始時刻および終了時刻を示すデータを修正対象区間毎に揮発性記憶部132へ書き込む。 In order to specify the voiced sound section in the singing voice, the control unit 100 divides the singing voice data to be processed into frames having a predetermined time length, performs time-frequency conversion, converts the data into frequency domain data, and pitches each frame. (Fundamental frequency) Try to extract. This is because if it is a voiced sound, there is a pitch, but if it is unvoiced or silent, there is no pitch. Next, the control unit 100 indicates the start time and end time of the correction target section when the voiced sound section specified in the above procedure is set as the correction target section and the beginning of the singing voice data to be processed is the start point of the time. Data is written to the volatile storage unit 132 for each correction target section.

修正ステップSA110は、特定ステップSA100にて特定された修正対象区間の各々について、第3フォルマント周辺の周波数成分の振幅を、当該修正対象区間におけるスペクトル包絡線の形状を包絡の形状を変えない範囲で引き上げるステップである。フォルマントとは、言葉を発している人の音声のスペクトルに現れる時間的に移動している複数のピークのことをいい、第3フォルマントとは、3番目に周波数の低いピークのことを言う。一般に、第3フォルマントおよびその周辺(両者をまとめて「第3フォルマント周辺」と呼ぶ)の周波数成分の振幅が十分であれば、オペラ歌手が歌っているかのようなボリューム感のある歌唱音声(ハリのある歌唱音声、朗々と響く歌唱音声、豊で深みのある歌唱音声などと表現される場合もある)、すなわち上手な歌唱と感じられるが、第3フォルマント周辺の周波数成分が不足すると、ハリや深みのない貧相な歌唱、すなわち下手な歌唱と感じられる。このため、本実施形態では修正対象区間における第3フォルマント周辺の周波数成分の振幅を引き上げるのである。また、第3フォルマント周辺の各周波数成分の振幅の修正量をスペクトル包絡の形状を変えない範囲に限定するのは、スペクトル包絡の形状に起因した歌い手の個性が損なわれないようにするためである。 The correction step SA110 determines the amplitude of the frequency component around the third formant for each of the correction target sections specified in the specific step SA100, and the shape of the spectral envelope in the correction target section within a range that does not change the shape of the envelope. It is a step to pull up. The formant refers to a plurality of temporally moving peaks appearing in the spectrum of the voice of the person speaking the word, and the third formant refers to the peak having the third lowest frequency. In general, if the amplitude of the frequency component of the third formant and its surroundings (collectively referred to as the "third formant periphery") is sufficient, the singing voice has a voluminous feel as if an opera singer is singing. It may be expressed as a singing voice with a certain sound, a singing voice that resonates cheerfully, a rich and deep singing voice, etc.), that is, it seems to be a good singing, but if the frequency component around the third formant is insufficient, it will become firm. It feels like a poor singing with no depth, that is, a poor singing. Therefore, in the present embodiment, the amplitude of the frequency component around the third formant in the correction target section is increased. Further, the amount of correction of the amplitude of each frequency component around the third formant is limited to the range in which the shape of the spectral envelope is not changed in order to prevent the individuality of the singer from being impaired due to the shape of the spectral envelope. ..

本実施形態の歌唱音声修正プログラムには、第3フォルマント周辺のスペクトル包絡線の形状を変えない範囲で各周波数成分の振幅を引き上げる際の補正量(元々の振幅に対する比率)を規定する補正量データ(図3参照)が予め埋め込まれている。なお、図3における周波数範囲Qおよび各周波数成分の補正量Gについては適宜実験等を行って好適な値を設定すれば良い。制御部100は、修正対象区間毎にその修正対象区間の波形データを周波数領域のデータに変換し、当該周波数区間における第3フォルマントを上記周波数範囲Qの中心周波数Fに対応させ、第3フォルマント周辺の周波数成分に補正量データに応じたEQ処理(音声の調和成分と非調和成分の両方の振幅を修正する処理)を施して各周波数成分の振幅を引き上げる。 In the singing voice correction program of the present embodiment, correction amount data that defines a correction amount (ratio to the original amplitude) when raising the amplitude of each frequency component within a range that does not change the shape of the spectral envelope around the third formant. (See FIG. 3) is pre-embedded. The frequency range Q and the correction amount G of each frequency component in FIG. 3 may be appropriately set by conducting experiments and the like. The control unit 100 converts the waveform data of the correction target section into frequency domain data for each correction target section, associates the third formant in the frequency section with the center frequency F of the frequency range Q, and surrounds the third formant. The frequency component of is subjected to EQ processing (processing for correcting the amplitudes of both the harmonic component and the non-harmonious component of the voice) according to the correction amount data, and the amplitude of each frequency component is raised.

図4は、本実施形態の効果を説明するための図である。図4では、ある修正対象区間についての修正前のスペクトル包絡線が点線で描画されており、同修正後のスペクトル包絡線が実線で描画されている。また、図4では、修正対象の歌唱音声の楽譜を構成する音符が矩形で描画されており、図4における周波数f3sからf3eの周波数区間が第3フォルマント周辺の周波数区間であり、当該周波数区間の中心周波数が第3フォルマントである。本実施形態の信号処理装置10Aによれば、当該周波数区間に属する周波数成分の振幅が補正量データに応じて補正され、図4にて実線で示すスペクトル包絡線に修正される。その結果、オペラ歌手が歌っているかのようなボリューム感のある上手な歌唱音声に修正される。なお、図4では修正対象区間以外については第3フォルマント周辺の周波数成分の振幅の修正が行われないため、実線のスペクトル包絡線と点線のスペクトル包絡線が重なっている。 FIG. 4 is a diagram for explaining the effect of the present embodiment. In FIG. 4, the spectrum envelope before the correction for a certain correction target section is drawn with a dotted line, and the spectrum envelope after the correction is drawn with a solid line. Further, in FIG. 4, the notes constituting the score of the singing voice to be corrected are drawn in a rectangular shape, and the frequency section of the frequencies f3s to f3e in FIG. 4 is the frequency section around the third formant, and the frequency section of the frequency section. The center frequency is the third formant. According to the signal processing device 10A of the present embodiment, the amplitude of the frequency component belonging to the frequency section is corrected according to the correction amount data, and is corrected to the spectral envelope shown by the solid line in FIG. As a result, it is corrected to a good singing voice with a sense of volume as if an opera singer is singing. In FIG. 4, since the amplitude of the frequency component around the third formant is not corrected except for the section to be corrected, the solid line spectrum envelope and the dotted line spectrum envelope overlap.

本実施形態の信号処理装置10Aによれば動画投稿サイトへ投稿する「歌ってみた動画」の歌唱音声データを、より上手な印象を聴き手に与えるものに修正して動画投稿を行うことが可能になる。加えて、本実施形態では、有声音区間にのみ修正が施され、修正が施されない区間には歌い手の個性が残っている。また、修正が施された区間についても、歌い手の個性が完全に消え去る訳ではない。第3フォルマント周辺のスペクトル包絡線の形状は修正の前後で維持されているからである。このように、本実施形態によれば、歌い手の個性を残しつつ、歌唱音声の巧拙についての印象を変えることが可能になる。なお、本実施形態では音声の調和成分と非調和成分の両方を振幅を修正したが、調和成分と非調和成分とを分離し、前者の振幅のみを修正することで、より高い効果(より上手な印象を聴き手に与えること)を実現しても良い。 According to the signal processing device 10A of the present embodiment, it is possible to modify the singing audio data of the "sung video" to be posted to the video posting site to give a better impression to the listener and post the video. become. In addition, in the present embodiment, only the voiced sound section is modified, and the individuality of the singer remains in the unmodified section. In addition, the individuality of the singer does not completely disappear even in the modified section. This is because the shape of the spectral envelope around the third formant is maintained before and after the modification. In this way, according to the present embodiment, it is possible to change the impression of the skill of the singing voice while retaining the individuality of the singer. In this embodiment, the amplitudes of both the harmonious component and the anharmonic component of the voice are corrected, but by separating the harmonious component and the anharmonic component and correcting only the former amplitude, a higher effect (better) is achieved. (To give the listener an impression) may be realized.

(B:その他の実施形態)
以上、本発明の実施形態について説明したが、この実施形態に以下の変形を加えても勿論良い。
(1)上記実施形態では、歌唱の後に歌唱音声修正処理を実行する態様、すなわち、歌唱に対して歌唱音声修正処理を非リアルタイム処理として実行する場合について説明したが、歌唱と歌唱音声修正処理を並列に、すなわち歌唱に対して歌唱音声修正処理をリアルタイム処理として実行するようにしても良い。具体的には、信号処理装置10Aの外部機器I/F部110にマイクロホンを接続し、当該マイクロホンを介して処理対象の歌唱音声データを信号処理装置10Aに入力するようにすれば良い。また、この場合、当該歌唱音声データの表す歌唱音声(すなわち、未修正の歌唱音声)または修正後の歌唱音声を、歌唱者へフィードバックするためのヘッドホンスピーカを外部機器I/F部110に接続しても良い。
(B: Other embodiments)
Although the embodiment of the present invention has been described above, it is of course possible to add the following modifications to this embodiment.
(1) In the above embodiment, a mode in which the singing voice correction processing is executed after singing, that is, a case where the singing voice correction processing is executed as a non-real-time processing for the singing has been described, but the singing and singing voice correction processing are performed. In parallel, that is, the singing voice correction process may be executed as a real-time process for the singing. Specifically, a microphone may be connected to the external device I / F unit 110 of the signal processing device 10A, and the singing voice data to be processed may be input to the signal processing device 10A via the microphone. Further, in this case, a headphone speaker for feeding back the singing voice represented by the singing voice data (that is, the uncorrected singing voice) or the corrected singing voice to the singer is connected to the external device I / F unit 110. You may.

(2)上記実施形態では、特定ステップにて特定された修正対象区間については修正ステップによる修正を常に施す場合について説明した。しかし、特定ステップにて特定された修正対象区間のうちから第3フォルマント周辺の周波数成分の振幅を修正する修正対象区間(或いは修正しない修正対象区間)を操作入力手段に対する操作等によってユーザに選択させても良く、また、修正対象区間毎に修正の程度をユーザに指定させても良い。 (2) In the above embodiment, the case where the correction target section specified in the specific step is always corrected by the correction step has been described. However, the user is allowed to select a correction target section (or a correction target section that is not corrected) for correcting the amplitude of the frequency component around the third formant from the correction target sections specified in the specific step by operating the operation input means or the like. Alternatively, the user may be allowed to specify the degree of correction for each correction target section.

(3)上記実施形態では、歌い手の個性を残しつつ、上手な歌唱であるとの印象を聴き手に与えるように歌唱音声データを修正する場合について説明したが、下手な歌唱であるとの印象を与えるように歌唱音声データを修正しても良い。例えば、修正対象区間における第3フォルマント周辺の周波数成分の振幅を、スペクトル包絡線の形状を変えない範囲で引き下げても良い。敢えて下手な歌唱音声に修正することで素人っぽさを強調するなど、演出の幅が広がるからである。 (3) In the above embodiment, the case where the singing voice data is modified so as to give the listener the impression that the singing is good while retaining the individuality of the singer has been described, but the impression that the singing is poor. The singing voice data may be modified so as to give. For example, the amplitude of the frequency component around the third formant in the section to be corrected may be reduced within a range that does not change the shape of the spectral envelope. This is because the range of production is widened, such as emphasizing the amateurishness by deliberately modifying the singing voice to be poor.

(4)上記実施形態では、歌ってみた動画の投稿者の使用するパーソナルコンピュータを本発明の信号処理装置として機能させたが、動画投稿サイトにおけるサーバ装置に歌唱音声修正プログラムをインストールしておき、当該サーバ装置を本発明の信号処理装置として機能させても良い。また、上記実施形態では、本発明の特徴を顕著に示す歌唱音声修正処理を制御部100に実行させる歌唱音声修正プログラムが不揮発性記憶部134に予めインストールされていたが、歌唱音声修正プログラムを単体で提供しても良い。また、特定ステップにおける処理を実行する特定手段と修正ステップにおける処理を実行する修正手段の各々を電子回路等のハードウェアで実現し、これらハードウェアを組み合わせて本発明の信号処理装置を構成しても良い。 (4) In the above embodiment, the personal computer used by the poster of the singing video is made to function as the signal processing device of the present invention, but the singing voice modification program is installed in the server device at the video posting site. The server device may function as the signal processing device of the present invention. Further, in the above embodiment, the singing voice correction program for causing the control unit 100 to execute the singing voice correction processing that remarkably shows the feature of the present invention is pre-installed in the non-volatile storage unit 134, but the singing voice correction program is used alone. May be provided at. Further, each of the specific means for executing the processing in the specific step and the correction means for executing the processing in the correction step are realized by hardware such as an electronic circuit, and these hardwares are combined to form the signal processing device of the present invention. Is also good.

(5)上記各実施形態では、動画投稿サイトへ投稿する「歌ってみた動画」の動画データに含まれる歌唱音声データの修正への本発明の適用例を説明した。しかし、本発明による修正対象は動画データに含まれる歌唱音声データに限定されるものではない。例えば、歌唱音声のみの投稿サイトへ投稿する歌手音声データの修正に本発明を適用しても良い。要は、本発明の信号処理装置は、歌唱音声を表す歌唱音声データから当該歌唱音声における有声音区間を修正対象区間として特定する特定手段と、特定手段により特定された修正対象区間について、第3フォルマント周辺のスペクトル包絡の形状を変えない範囲で当該第3フォルマント周辺の周波数成分の振幅を引き上げるまたは引き下げる修正を上記歌唱音声データに施す修正手段と、を有するものであれば良い。 (5) In each of the above embodiments, an example of application of the present invention to the modification of the singing audio data included in the video data of the "sung video" posted on the video posting site has been described. However, the modification target by the present invention is not limited to the singing audio data included in the moving image data. For example, the present invention may be applied to a modification of singer voice data posted on a posting site containing only singing voice. In short, the signal processing device of the present invention has a specific means for specifying a voiced sound section in the singing voice as a correction target section from the singing voice data representing the singing voice, and a third correction target section specified by the specific means. Any one having a correction means for increasing or decreasing the amplitude of the frequency component around the third formant within the range that does not change the shape of the spectral envelope around the formant is applied to the singing voice data.

10A…信号処理装置、100…制御部、110…外部機器I/F部、120…通信I/F部、130…記憶部、132…揮発性記憶部、134…不揮発性記憶部、1340A…歌唱音声修正プログラム、140…バス。 10A ... signal processing device, 100 ... control unit, 110 ... external device I / F unit, 120 ... communication I / F unit, 130 ... storage unit, 132 ... volatile storage unit, 134 ... non-volatile storage unit, 1340A ... singing Voice modifier, 140 ... bus.

Claims (2)

歌唱音声を表す歌唱音声データから前記歌唱音声における有声音区間を修正対象区間として特定する特定ステップと、
前記特定ステップにて特定された修正対象区間について、第3フォルマント周辺のスペクトル包絡の形状を変えない範囲で前記第3フォルマント周辺の周波数成分の振幅を引き上げるまたは引き下げる修正を前記歌唱音声データに施す修正ステップと、
を有することを特徴とする信号処理方法。
A specific step for specifying a voiced sound section in the singing voice as a correction target section from the singing voice data representing the singing voice, and
For the correction target section specified in the specific step, the singing voice data is corrected to increase or decrease the amplitude of the frequency component around the third formant within a range that does not change the convex shape of the spectral envelope around the third formant. Correction steps and
A signal processing method characterized by having.
歌唱音声を表す歌唱音声データから前記歌唱音声における有声音区間を修正対象区間として特定する特定手段と、
前記特定手段により特定された修正対象区間について、第3フォルマント周辺のスペクトル包絡の形状を変えない範囲で前記第3フォルマント周辺の周波数成分の振幅を引き上げるまたは引き下げる修正を前記歌唱音声データに施す修正手段と、
を有することを特徴とする信号処理装置。
A specific means for specifying a voiced sound section in the singing voice as a correction target section from the singing voice data representing the singing voice, and
For the correction target section specified by the specific means, a correction is made to the singing voice data to raise or lower the amplitude of the frequency component around the third formant within a range that does not change the convex shape of the spectral envelope around the third formant. Means and
A signal processing device characterized by having.
JP2016214891A 2016-11-02 2016-11-02 Signal processing method and signal processing device Active JP6790732B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016214891A JP6790732B2 (en) 2016-11-02 2016-11-02 Signal processing method and signal processing device
US15/800,462 US10134374B2 (en) 2016-11-02 2017-11-01 Signal processing method and signal processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016214891A JP6790732B2 (en) 2016-11-02 2016-11-02 Signal processing method and signal processing device

Publications (2)

Publication Number Publication Date
JP2018072699A JP2018072699A (en) 2018-05-10
JP6790732B2 true JP6790732B2 (en) 2020-11-25

Family

ID=62115433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016214891A Active JP6790732B2 (en) 2016-11-02 2016-11-02 Signal processing method and signal processing device

Country Status (1)

Country Link
JP (1) JP6790732B2 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0549053A (en) * 1991-08-15 1993-02-26 Fujitsu Ltd Pb signal detection/identification system
GB9714001D0 (en) * 1997-07-02 1997-09-10 Simoco Europ Limited Method and apparatus for speech enhancement in a speech communication system
JP6087731B2 (en) * 2013-05-30 2017-03-01 日本電信電話株式会社 Voice clarifying device, method and program
JP6171711B2 (en) * 2013-08-09 2017-08-02 ヤマハ株式会社 Speech analysis apparatus and speech analysis method

Also Published As

Publication number Publication date
JP2018072699A (en) 2018-05-10

Similar Documents

Publication Publication Date Title
CN106898340B (en) Song synthesis method and terminal
CN106057208B (en) A kind of audio modification method and device
Başkent et al. Musician advantage for speech-on-speech perception
US10325581B2 (en) Singing voice edit assistant method and singing voice edit assistant device
US20190385578A1 (en) Music synthesis method, system, terminal and computer-readable storage medium
US10134374B2 (en) Signal processing method and signal processing apparatus
CN110675886A (en) Audio signal processing method, audio signal processing device, electronic equipment and storage medium
CN105957515A (en) Voice Synthesis Method, Voice Synthesis Device, Medium for Storing Voice Synthesis Program
US10497347B2 (en) Singing voice edit assistant method and singing voice edit assistant device
JP4959861B1 (en) Signal processing method, signal processing apparatus, reproduction apparatus, and program
JP6790732B2 (en) Signal processing method and signal processing device
Vos et al. The perception of formant tuning in soprano voices
JP6798253B2 (en) Signal processing method and signal processing device
Bunton et al. Identification of synthetic vowels based on a time-varying model of the vocal tract area function
JP2006139162A (en) Language learning system
Bradford Vocal resonance: Optimising source-filter interactions in voice training
CN112825245A (en) Real-time sound modification method and device and electronic equipment
JP5962925B2 (en) Speech synthesis device, music playback device, speech synthesis program, and music playback program
Story et al. Identification of stop consonants produced by an acoustically-driven model of a child-like vocal tract
Cha et al. Can a natural singing voice be enhanced through digital processing? Implications of voice training and vocology in singers
JP2008275836A (en) Document processing method and device for reading aloud
Roebel Between physics and perception: Signal models for high level audio processing
Rajan et al. A continuous time model for Karnatic flute music synthesis
Janer Feature extraction for voice-driven synthesis
Ding et al. Multimodal training using pitch gesture improves Mandarin tone recognition for children with cochlear implant

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200714

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201019

R151 Written notification of patent or utility model registration

Ref document number: 6790732

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151