JP2014035436A - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP2014035436A
JP2014035436A JP2012176366A JP2012176366A JP2014035436A JP 2014035436 A JP2014035436 A JP 2014035436A JP 2012176366 A JP2012176366 A JP 2012176366A JP 2012176366 A JP2012176366 A JP 2012176366A JP 2014035436 A JP2014035436 A JP 2014035436A
Authority
JP
Japan
Prior art keywords
resonance
sound
voice
degree
difference amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012176366A
Other languages
English (en)
Inventor
Akiyuki Nagai
亮行 永井
Masahiro Enami
正廣 榎並
Kenji Higuchi
健司 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2012176366A priority Critical patent/JP2014035436A/ja
Publication of JP2014035436A publication Critical patent/JP2014035436A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】目標とする音声に近づける指針として、共鳴の程度の差分量を分かり易く提示する。
【解決手段】受付部410は、音声データの入力を受け付ける。周波数特性取得部420は、音声データにより表される音声の周波数特性を取得する。共鳴度取得部430は、取得した周波数特性に基づいて、音声の共鳴の度合いを取得する。差分量取得部450は、目標音声の共鳴の度合いと取得された音声の共鳴の度合いとの差分量を取得する。表示部460は、取得した共鳴の度合いの差分量を示す情報を表示する。
【選択図】図3

Description

本発明は、音声処理装置に関する。
現在、歌唱技術を評価する種々の技術が知られている。例えば、特許文献1には、歌唱音声から抽出した基本周波数特性と倍音周波数特性に基づいて採点する歌唱音声評価装置が開示されている。また、特許文献2には、音色を構成する基音と倍音の状態を視覚的に確認できるように、基音と倍音の強度特性をグラフ表示するカラオケ装置が開示されている。
特許文献1や特許文献2などに示唆されているように、歌唱音声の基音と倍音の構成バランスが重視されて、歌唱技術が評価されることが一般的である。つまり、歌唱の巧拙は、歌唱音声の基音と倍音の構成バランスの適切さであると考えることができる。なお、歌唱音声の基音と倍音の構成バランスは、声の共鳴の程度によって決まる。
特開2005−107088号公報 特開2010−85710号公報
特許文献1が開示する歌唱音声評価装置は、歌唱音声の基音と倍音のバランスを評価する装置ではあるが、基音と倍音のバランスをどのようにすれば上手に歌唱できるのかを提示する装置ではない。また、特許文献2が開示するカラオケ装置は、基音と倍音の強度特性をグラフ表示するものの、音色を良くするためどのように発声すればよいのかを提示する装置ではない。このため、上手に歌唱するための指針を分かり易く提示することが可能な装置が望まれている。
本発明は、上述の事情に鑑みてなされたものであり、目標とする音声に近づける指針として、基音の強度に対する倍音の強度の比で表される共鳴の程度の差分量を分かり易く提示することが可能な音声処理装置を提供することを目的とする。
上記の目的を達成するために、本発明の第1の観点に係る音声処理装置は、
音声データの入力を受け付ける受付部と、
前記音声データに基づいて音声の周波数特性を取得する周波数特性取得部と、
前記周波数特性取得部が取得した前記音声の周波数特性に基づいて、前記音声の基音の強度に対する倍音の強度の比で表される共鳴の度合いを取得する共鳴度取得部と、
目標音声の共鳴の度合いと前記音声の共鳴の度合いとの差分量を取得する差分量取得部と、
前記差分量取得部が取得した前記差分量を示す情報を表示する表示部と、を備える、
ことを特徴とする。
前記共鳴度取得部は、前記音声の周波数特性に基づいて、所定の音域毎の前記音声の基音成分に対する倍音成分の比で表される共鳴の度合いを取得し、
前記差分量取得部は、前記所定の音域毎に前記目標音声の共鳴の度合いと前記音声の共鳴の度合いとの差分量を取得し、
前記表示部は、前記差分量取得部が取得した前記音域毎の差分量を表示してもよい。
前記周波数特性取得部は、前記目標音声の周波数特性を目標音声データに基づいてさらに取得し、
前記共鳴度取得部は、前記目標音声の周波数特性に基づいて、前記目標音声の共鳴の度合いをさらに取得してもよい。
本発明によれば、目標とする音声に近づける指針として、共鳴の程度の差分量を分かり易く提示することができる。
実施形態に係るボイスレコーダのハードウェア構成を示すブロック図である。 実施形態に係るボイスレコーダの外観図を示す図である。 実施形態に係るボイスレコーダの機能構成を示すブロック図である。 (a)は、声の共鳴が理想的な状態の基音及び倍音の特性を示す図である。(b)は、声の共鳴が理想的でない状態の基音及び倍音の特性を示す図である。(c)は、(a)と(b)を重ね合わせたグラフである。 (a)〜(c)は、共鳴度評価データの選択画面の例を示す図である。 共鳴度の差分量を取得する処理を示すフローチャートである。 共鳴度の差分量を音域毎に表示する例を示す図である。 共鳴度の差分量を時系列のデータとして表示する例を示す図である。
以下、本発明の実施の形態に係る音声処理装置を、ボイスレコーダに適用した例を説明する。
(第1の実施形態)
本実施形態に係るボイスレコーダ100は、ユーザが発声した音声を、ユーザの指示に従って収音し記録する、即ち録音する。ボイスレコーダ100は、リニアPCM(Pulse Code Modulation)、MP3(MPEG Audio Layer-3)等のフォーマットで音声を録音することが可能であり、歌唱音声等の録音に好適な装置である。また、ボイスレコーダ100は、録音した音声を再生することもできる。さらに、ボイスレコーダ100はカラオケ演奏機能も備えており、カラオケ演奏の処理と、ユーザが発声した音声の録音の処理を同時に並行して行うことが可能である。
なお、本実施形態では、カラオケ演奏に合わせて発声された歌唱音声を録音し、その歌唱音声の共鳴度を算出することを想定している。
以下、ボイスレコーダ100のハードウェア構成を、図1、図2を参照して説明する。なお、ここでは、本実施形態に係る特徴的な機能を実現するための構成を中心に説明する。
ボイスレコーダ100は、図1に示すように、CPU110、記憶部120、音声処理部130、収音部140、放音部150、表示制御部160、表示部170、操作部180、通信モジュール190及びバス300を備える。また、各部は、バス300により相互に接続されている。
CPU(Central Processing Unit)110は、記憶部120に記憶されたプログラムを実行して、ボイスレコーダ100の各部を制御する。
記憶部120は、ROM(Read Only Memory)、RAM(Random Access Memory)、補助記憶装置等から構成される。
記憶部120は、CPU110の動作を制御する各種プログラム及びデータ等を格納する。本実施形態では、記憶部120は、音声信号の共鳴度を算出するプログラムを格納する。記憶部120は、CPU110の動作に必要なデータや動作プログラムを記憶することで、CPU110のワークメモリとしての役割を果たす。記憶部120は、CPU110の制御により、例えば、収音により生成された音声データ等を記録してもよい。
また、記憶部120は、CPU110の制御により、例えば、収音により生成された音声データや、音声データを評価するための共鳴度評価データを記録する。補助記憶装置として、例えば、メモリカードを使用してもよい。
共鳴度評価データとは、目標音声の共鳴の度合い(以下、適宜「共鳴度」という)を示すデータである。目標音声とは、良い音色で発声された音声、つまり、共鳴が理想的な状態で発声された音声である。また、共鳴度とは、音声の基音の音量レベルに対する倍音の音量レベルの比である。ここでは、基音の音量レベルは、基音の強度を意味し、また倍音の音量レベルは、倍音の強度を意味する。
本実施形態では、収音された音声の共鳴度と、共鳴度評価データが示す共鳴度とを比較して、収音された音声の共鳴度が、共鳴度評価データが示す共鳴度に対して、どの程度適切であるかが提示される。
本実施形態では、複数の共鳴度評価データが、あらかじめ記憶部120に格納されている。
ここで、一曲につき1つの共鳴度評価データが用意されていてもよい。あるいは、同一の曲について属性毎に複数の共鳴度評価データが用意されていてもよい。例えば、同一の曲について、性別毎に共鳴度評価データが用意されていてもよい。あるいは、同一の曲について、曲調毎に共鳴度評価データが用意されていてもよい。あるいは、同一の曲について、歌手毎に共鳴度評価データが用意されていてもよい。あるいは、同一の曲について、上記属性の組み合わせ毎に共鳴度評価データが用意されていてもよい。
音声処理部130は、収音部140が収音したアナログ音声信号をA/D変換してデジタル音声信号を生成する。生成された信号を示す音声データは記憶部120に記憶される。また、音声処理部130は、CPU110の制御に従って、記憶部120に格納された音声データに基づくデジタル音声信号をD/A変換してアナログ音声信号を生成し、放音部150へ供給する。音声処理部130は、放音部150へ供給するアナログ音声信号の音量、左右バランスなどを適切に調整してもよい。
収音部140は、収音した音声からアナログ音声信号を生成し、生成したアナログ音声信号を音声処理部130へ供給する。収音部140は、ステレオマイク141a、141b、コンタクトマイク(図示せず)等を含む。図2に示すように、ステレオマイク141a、141bは、ボイスレコーダ100の本体前面に配置されている。また、コンタクトマイク等は、本体側面に設けられた入力端子143に接続される。
放音部150は、音声処理部130から供給されたアナログ音声信号を物理振動に変えて放音する。放音部150は、スピーカ151、ヘッドフォン(図示せず)を含む。図2に示すようにスピーカ151はボイスレコーダ100の本体前面に配置されている。また、ヘッドフォン等は、本体上部に設けられた出力端子152に接続される。
表示制御部160は、CPU110の制御のもとで、表示部170に表示させる画像を生成する。表示制御部160は、生成した画像を表示部170に供給する。表示制御部160が生成する画像は、例えば、ボイスレコーダ100の機能を示すメニューや、発声された音声の共鳴度を評価した結果等の画像等である。
表示部170は、表示制御部160から供給された画像を表示する。表示部170は、LCD(Liquid Crystal Display)等である。
操作部180は、ユーザの操作を受け付ける。操作部180は、ボタン等を含む。図2に示すように、ボイスレコーダ100は、本体の前面にメニューボタン181、再生または一時停止ボタン182、録音ボタン183、停止ボタン184、早戻しボタン185、早送りボタン186、カーソルボタン187を備える。また、ボイスレコーダ100は、本体の側面に音量調節ボタン188、再生スピード調節ボタン189a、189bを備え、さらに、もう一方の側面に、ボイスレコーダ100の電源を入れる、または切るための電源スイッチ(図示せず)を備える。
あるボタンが押されると、当該ボタンが押されたことを示す制御信号が、操作部180からCPU110に供給される。一方、CPU110は、操作部180から供給された制御信号に対応した処理を実行する。
メニューボタン181は、表示部170にボイスレコーダ100の機能一覧を示すメニュー画面を表示させるための指示を受け付けるボタンである。例えば、メニュー画面以外の画面が表示部170に表示されている状態で、メニューボタン181が押されると、メニュー画面が表示部170に再び表示される。
再生または一時停止ボタン182は、CPU110に現在選択されている曲等を再生させるための指示を受け付けるボタンである。また、再生または一時停止ボタン182は、曲等の再生中に、CPU110にその再生を一時停止させるための指示を受け付けるボタンである。
録音ボタン183は、CPU110に収音部140が収音した音声等を録音させるための指示を受け付けるボタンである。
停止ボタン184は、曲等の再生中や音声等の録音中に、CPU110に再生や録音を停止させるための指示を受け付けるボタンである。
早戻しボタン185は、曲等の再生中に、CPU110に再生中の曲の頭出しや、再生中の曲の早戻しをさせるための指示を受け付けるボタンである。
早送りボタン186は、曲等の再生中に、CPU110に次の曲の頭出しや、再生中の曲の早送りをさせるための指示を受け付けるボタンである。
カーソルボタン187は、例えば、メニュー画面を表示している際に、CPU110にカーソルを移動させるための指示を受け付けるボタンである。
音量調節ボタン188は、CPU110に曲等を再生する際の音量を調節させるための指示を受け付けるボタンである。
再生スピード調節ボタン189a、189bは、CPU110に曲等を再生する際の再生スピードを調整させるための指示を受け付けるボタンである。
再び、図1を参照する。通信モジュール190は、ボイスレコーダ100と、他の装置(例えば、コンピュータ)等との間で通信するためのインターフェースである。通信モジュール190は、例えば、USB(Universal Serial Bus)等の通信規格により、他のコンピュータ等と通信することができる。
通信モジュール190は、例えば、他のコンピュータから音声データ等を取得する。通信モジュール190により取得された音声データは、CPU110が、記憶部120等に格納する。
次に、図3を参照して、上述のハードウエア構成により実現される本実施の形態に特徴的な機能を説明する。
ボイスレコーダ100は、機能的には、受付部410、周波数特性取得部420、共鳴度取得部430、記憶部440、差分量取得部450、表示部460を備える。
なお、ボイスレコーダ100の構成は、図3に示す例に限定されない。例えば、ボイスレコーダ100は、図3に示されていない構成要素を備えていてもよいし、図3に示す構成要素の一部を備えていなくてもよい。
受付部410は、音声データの入力を受け付け、受け付けた音声データを周波数特性取得部420へ出力する。本実施形態では、受付部410は、収音された音声を基に生成された音声データを受け付ける。また、受付部410は、他のコンピュータ等から供給される音声データを受け付けてもよい。受付部410は、例えば、音声処理部130、通信モジュール190により実現される。
周波数特性取得部420は、受付部410が受け付けた音声データの周波数特性を取得し、取得した周波数特性を共鳴度取得部430へ出力する。周波数特性取得部420は、例えば、CPU110、記憶部120により実現される。
共鳴度取得部430は、周波数特性取得部420が取得した周波数特性を基に、受付部410が受け付けた音声データの基音成分に対する倍音成分の比で表される共鳴度を取得し、取得した共鳴度を差分量取得部450へ出力する。共鳴度取得部430は、例えば、CPU110、記憶部120により実現される。
記憶部440は、目標音声の共鳴度を示す共鳴度評価データを格納する。また、後述する差分量取得部450が求めた収音された音声の共鳴度と共鳴度評価データが示す共鳴度との比較による音声の共鳴度の差分量等も格納する。記憶部440は、例えば、CPU110、記憶部120により実現される。
差分量取得部450は、共鳴度取得部430が取得した音声の共鳴度の、記憶部440に格納される共鳴度評価データが示す目標音声の共鳴度に対する差分量を取得する。差分量取得部450は、取得した音声の共鳴度の差分量を表示部460へ出力し、さらに、記憶部440に記憶させる。差分量取得部450は、例えば、CPU110、記憶部120により実現される。
表示部460は、差分量取得部450が取得した音声の共鳴度の差分量を表示する。表示部460は、例えば、表示部170により実現される。
次に、声の共鳴度について説明する。
一般に、声の共鳴により、倍音成分が増加して、基音成分と倍音成分の構成のバランスが変化することが知られている。また、声の共鳴により基音成分は変化しない。
図4に、2つの発声音声に含まれた基音成分と倍音成分を示す。図4(a)〜図4(c)では、横軸が周波数を、縦軸が基音成分または倍音成分の強度である音量レベルを示す。
図4(a)は、声の共鳴の状態が理想的な歌唱者Aの発声音声の基音成分と倍音成分を示す図である。一方、図4(b)に示す音声は、声の共鳴が理想的でない歌唱者Bの発声音声の基音成分と倍音成分を示す図である。それぞれの発声音声の音色を分かりやすくするため、図4(a)では、歌唱者Aの発声音声の基音成分及び倍音成分の音量レベルを破線で結んでいる。図4(b)では、歌唱者Bの発声音声の基音成分及び倍音成分の音量レベルを実線で結んでいる。ここでは、歌唱者Aの音声が、歌唱者Bが目標とする模範的な音声であるとする。
図4(c)は、歌唱者Aの発声音声の倍音成分と、歌唱者Bの発声音声の倍音成分とを比較するため、図4(a)、図4(b)に示すグラフを重ねあわせて表示したものである。図4(c)では、図4(a)、図4(b)と同様に、歌唱者Aの発声音声の基音成分及び倍音成分の音量レベルを破線で結び、歌唱者Bの発声音声の基音成分及び倍音成分の音量レベルを実線B1で結んでいる。また、実線B2は、歌唱者Bの発声音声の基音成分の音量レベルが、歌唱者Aの発声音声の基音成分の音量レベルと同じになるよう、実線B1で示す歌唱者Bの発声音声の基音成分及び倍音成分の音量レベルをシフトしたものである。シフト前の音量レベルを実線B1で示し、シフト後の音量レベルを実線B2で示す。
図4(c)に示されるように、実線B2で示す歌唱者Bの第3倍音〜第5倍音のそれぞれの音量レベルは、破線Aで示す歌唱者Aの第3倍音〜第5倍音のそれぞれの音量レベルより、小さい。つまり、歌唱者Bの発声音声の第3倍音〜第5倍音については、歌唱者Aによる模範音声より共鳴が不足しているといえる。図4(c)で示す一例では、歌唱者Aの第6倍音の音量レベルと歌唱者Bの第6倍音のシフト後の音量レベルは、同じである。
また、実線B2で示す歌唱者Bの第1倍音と第2倍音のそれぞれの音量レベルは、破線Aで示す歌唱者Aの第1倍音と第2倍音のそれぞれの音量レベルより、大きい。つまり、歌唱者Bの発声音声が第1倍音と第2倍音については、歌唱者Aによる模範音声より共鳴が過剰であるといえる。この場合、共鳴が不足しているわけではないが、他の倍音とのバランスを考慮して、共鳴を調整する必要があると言える。
また、発声においては、胸腔共鳴は低周波数の倍音成分に、口腔共鳴は中間の周波数の倍音成分に、鼻腔共鳴は高周波数の倍音成分に、影響を与える。つまり、共鳴の過不足が認められた倍音成分の周波数により、過多または不足している共鳴がどの共鳴腔によるものであるかを特定できる。
図4(c)に示す例では、歌唱者Bの発声音声の第1倍音、第3倍音、第5倍音をつくる共鳴は、それぞれ、胸腔共鳴、口腔共鳴、鼻腔共鳴によるものである。例えば、中間の周波数の倍音成分である第3倍音の共鳴の差分量は、他の倍音の共鳴の差分量より相対的に大きい。これは、特に喉の共鳴が理想の状態とかけ離れていることを示している。なお、倍音成分の音域と、共鳴腔との対応付けは、適宜設定すればよい。
以上のように、理想的な歌唱音声の倍音成分を基準として、歌唱の練習者等の発声音声の倍音成分を評価すると、歌唱の練習者等の発声音声について、共鳴が不足している倍音を特定することができる。
なお、理解を容易にするために、図4(a)〜図4(c)では、歌唱者Aの発声音声の基音及び倍音の周波数と、歌唱者Bの発声音声の基音及び倍音の周波数とが同じである例を示している。従って、図4(a)〜図4(c)では、歌唱者Aの発声音声の基音及び倍音の周波数を示す横軸と、歌唱者Bの発声音声の基音及び倍音の周波数を示す横軸との間隔は同じ幅である。
しかし、実際は、評価する音声の基音及び倍音の周波数と共鳴度評価データに含まれる基音及び倍音の周波数が異なることが一般的である。この場合であっても、対応する次数の倍音の音量レベルの差が共鳴の差分量となることに変わりはない。
以下に説明する共鳴度の差分量を取得する処理においては、音声毎に、基本周波数を取得し、取得した基本周波数を整数倍したものを当該音声の倍音の周波数として取得し、取得した基本周波数及び各倍音の音量レベルから共鳴度を取得するものとする。
次に、共鳴度の差分量を取得する一連の処理について以下に説明する。
本実施形態において、ボイスレコーダ100は、音声の録音のメニューとして、「通常モード」と「歌唱音声評価モード」とを有する。また、ボイスレコーダ100の記憶部120には、あらかじめ目標音声の共鳴度を示す共鳴度評価データが格納されている。
「通常モード」では、収音部140が収音した音声(以下、適宜「収音音声」という)を録音するのみで、収音音声の評価は行わない。
一方、「歌唱音声評価モード」では、収音部140が収音した音声に所定の処理を施して、その音声の共鳴度を取得し、さらに、取得した共鳴度とあらかじめ記憶部120に格納されている共鳴度評価データが示す共鳴度を比較する。
ユーザは、「歌唱音声評価モード」で音声の録音を行う場合、次のような操作を行う。
まず、ユーザはボイスレコーダ100の電源を入れ、表示部170に表示されたメニュー画面から、カーソルボタン187を操作して「歌唱音声評価モード」を選択する。
CPU110は、ユーザの操作に応答して、あらかじめ記憶部120に記憶されている選択可能な共鳴度評価データの選択肢を表示部170に表示する。共鳴度評価データの選択肢の表示態様の例を図5に示す。
具体的には、CPU110は、まず、表示部170に図5(a)に示すような曲目リストを表示させる。
ユーザは、カーソルボタン187を操作して曲目リストから「さくら」を選択する。
CPU110は、曲目として「さくら」が選択されたと判別すると、表示部170に図5(b)に示すような歌唱者タイプのリスト、例えば、「男声歌唱」、「女声歌唱」等を表示させる。
ユーザは、カーソルボタン187を操作して、例えば、「男声歌唱」を選択する。
CPU110は、「男声歌唱」が選択されたと判別すると、表示部170に図5(c)に示すような曲調のリスト、例えば、「歌謡曲調」、「ポップス調」、「ロック調」等を表示させる。
ユーザは、カーソルボタン187を操作して、例えば、「歌謡曲調」を選択する。
CPU110は、曲調として「歌謡曲調」が選択されたと判別すると、曲目として「さくら」を、歌唱者タイプとして「男声歌唱」を、曲調として「歌謡曲調」を、記憶部120に記憶する。
共鳴度評価データの選択肢の表示態様は、上述の例に限らない。例えば、まず、歌手リストを表示し、任意の歌手が選択された場合に、当該歌手の曲の一覧を表示するようにしてもよい。
ユーザは、共鳴度評価データを選択した後、再生ボタン182を押し、続けて、録音ボタン183を押す。ここでは、ユーザは、ボイスレコーダ100の出力端子152に接続したヘッドフォンから曲の伴奏のカラオケ演奏を聞くものとする。
CPU110は、再生が指示されたと判別すると、記憶部120に記憶したユーザが選択した共鳴度評価データの情報に基づき、選択された共鳴度評価データの曲目の伴奏曲のカラオケ演奏を開始する。CPU110は、伴奏曲を全て演奏したときにカラオケ演奏を停止する。
CPU110は、録音の開始が指示されたと判別すると、収音部140が収音した収音音声の録音を開始し、つまり、音声処理部130が収音音声を基に生成したデジタル音声信号を記憶部120に記録し始める。また、CPU110は、後述する共鳴度の取得の処理のため、記憶部120に記録したデジタル音声信号のデータの累計量、例えば、録音開始時からカウントしたフレーム数の累計数等を記憶部120に記憶させる。
CPU110は、録音の処理と同時に、収音音声に所定の処理を施して、収音音声の共鳴度の目標音声の共鳴度に対する差分量を取得する処理を開始する。なお、共鳴度の差分量を取得する処理は、上述の音声の録音処理と並行して実行される。CPU110は、ユーザから操作ボタンの操作により録音停止の指示が出されたと判別するまで、収音音声の録音と、収音音声の共鳴度を評価する処理を継続する。
以下、図6を参照して「共鳴度差分量取得処理」について説明する。
まず、CPU110は、共鳴度評価データを読み出す(ステップS501)。具体的には、CPU110は、記憶部120に記憶されているユーザが選択した共鳴度評価データの情報に基づいて、該当する共鳴度評価データを記憶部120からワークメモリへ読み出す。例えば、ユーザが、曲目として「さくら」を、歌唱者タイプとして「男声歌唱」を、曲調として「歌謡曲調」を、選択した場合、該当する音声データの共鳴度評価データを記憶部120からワークメモリへ読み出す。
CPU110は、ステップS501の処理を完了すると、録音停止が指示されたか否かを判別する(ステップS502)。具体的には、CPU110は、操作部180の再生または一時停止ボタン182あるいは停止ボタン184等から、録音停止の指示を示す信号が入力されたか否かを判別する。
CPU110は、録音停止が指示されていないとした場合(ステップS502;No)、カラオケ演奏がすべて終了したか判別する(ステップS503)。具体的には、CPU110は、音声処理部130にカラオケ演奏状態を問い合わせる信号を送信する。CPU110は、音声処理部130から、カラオケ演奏処理を継続中であるという信号を受信した場合、カラオケ演奏が継続中であると判別する。一方、CPU110は、音声処理部130から、カラオケ演奏処理を停止中であるという信号を受信した場合、カラオケ演奏が終了したと判別する。
CPU110は、カラオケ演奏が継続中であると判別した場合(ステップS503;No)、1フレーム分の音声信号データを収音したか判別する(ステップS504)。具体的には、CPU110は、記憶部120に記憶されている録音音声データのフレームの累計数を取得し、別途、記憶部120に記録されている、共鳴度の取得の処理が済んでいるフレーム数も取得する。CPU110は、録音音声データのフレーム累計数と共鳴度の取得の処理が済んでいるフレーム数とを基に未処理の収音音声の音声データが記憶部120にあるか否かを判別する。
CPU110は、1フレーム分の音声データを収音していないと判別した場合(ステップS504;No)、再度、ステップS502の処理を実行する。
一方、CPU110は、1フレーム分の音声データを収音したと判別した場合(ステップS504;Yes)、収音音声の音声データを読み出す(ステップS505)具体的には、CPU110は、記憶部120に記録されている、共鳴度の取得の処理が済んでいるフレーム数を基に、共鳴度の取得の処理の対象となる1フレーム分の収音音声の音声データを記憶部120からワークメモリへ読み出す。
CPU110は、ステップS505の処理を完了すると、収音音声の音声データの基音・倍音特性を取得する(ステップS506)。具体的には、CPU110は、ステップS505で、読み出した音声データに対して、1フレーム単位でFFT(Fast Fourier Transform)処理を施し、音声データの周波数分布のスペクトルのデータを取得し、取得した周波数分布のスペクトルのデータを記憶部120に記録する。続いて、CPU110は、取得した周波数分布のスペクトルのデータから音声データの基本周波数(基音)と第1倍〜第n倍音(nは自然数)の周波数と、それぞれの音量レベルとを取得し、それらを記憶部120に記録する。なお、倍音の周波数の上限は、適宜設定すればよい。また、CPU110は、共鳴度の取得の処理が済んだフレームの累計数を記憶部120に記録する。
CPU110は、ステップS506の処理を完了すると、共鳴度を取得する(ステップS507)。具体的には、CPU110は、FFT処理により取得した音声の周波数特性から基本周波数とその音量レベルを取得する。CPU110は、取得した基本周波数を基音の周波数として、第1倍音〜第n倍音の周波数、基音の音量レベルに対する第1倍音〜第n倍音の各音量レベルの比とをそれぞれ取得する。基音の音量レベルに対する各倍音の音量レベルの比がそれぞれの倍音の共鳴度となる。CPU110は、取得した共鳴度を記憶部120に記録する。
CPU110は、ステップS507の処理を完了すると、共鳴度の差分量を取得する(ステップS508)。具体的には、CPU110は、ステップS507で取得した共鳴度の、ステップS501で記憶部120に読み出しておいた共鳴度評価データが示す共鳴度に対する差分量を取得する。例えば、CPU110は、収音音声の倍音の音量レベルが評価用音声の倍音の音量レベルに比べて小さいと判定した場合、倍音が足りないとして、不足分を算出する。また、収音音声の倍音の音量レベルが評価用音声の倍音の音量レベルに比べて大きいと判定した場合、倍音が過多であるとして、過多分を算出する。この算出した倍音の差分量が、共鳴度の差分を示す。CPU110は、取得した差分量を表示制御部160に出力する。
共鳴度差分量は次のように取得する。例えば、第1倍音についての共鳴度差分量を取得する場合、まず、ステップS507で取得した第1倍音〜第n倍音の共鳴度のうち第1倍音の共鳴度を記憶部120から読み出す。次に、読み出した第1倍音の共鳴度の、共鳴度評価データに含まれる第1倍音の共鳴度に対する差分量を求める。なお、共鳴度評価データは、ステップS501で記憶部120へ読み出されたものである。第2倍音〜第n倍音についても同様に処理する。
上述の処理では、基音の音量レベルと各倍音の音量レベルの比を2つの音声で比較したときの差を求めている。これは、図4(c)を参照して説明した、2つの音声の倍音の音量レベルを比べる際に、両者の基音の音量レベルが同一となるように、あらかじめ一方の音声の基音と倍音の音量レベルをシフトさせることに相当する。
CPU110は、ステップS508の処理を完了すると、取得した共鳴度の差分量を表示する(ステップS509)。具体的には、CPU110は、取得した共鳴度の差分量を表示制御部160に出力し、表示制御部160は、CPU110から供給された差分量を示すグラフを表示部170に表示する。
表示制御部160は、共鳴度の差分量については、次のように表示する。
ユーザの発声による収音音声と共鳴度評価音声のそれぞれの基音と倍音の特性が図4(c)に示されるようなものである場合の、共鳴度の差分量の表示態様の一例を図7に示す。図7に示すグラフは、ステップS505で読み出した1フレームの音声データの共鳴度のうち、周波数の低い倍音成分、中間の倍音成分、高い倍音成分について、共鳴度の差分量を示している。ここでは、第1倍音をつくる共鳴の共鳴腔として、胸腔共鳴を割り当てている。第3倍音をつくる共鳴の共鳴腔として、口腔共鳴を割り当てている。さらに、第5倍音をつくる共鳴の共鳴腔として、鼻腔共鳴を割り当てている。
CPU110は、カラオケ演奏が終了した、あるいは録音の停止が指示された、と判別するまで、上述の処理を繰り返す。
一方、CPU110は、ステップS502で、「録音停止」ボタンや、「一時停止」ボタンにより、録音の停止を指示されたと判別した場合(ステップS502;Yes)、「歌唱音声評価モード」の録音の処理を終了する。
また、CPU110は、ステップS503でカラオケ演奏が終了したと判別した場合(ステップS503;Yes)、「歌唱音声評価モード」の録音の処理を終了する。
以上の処理により、ユーザが音声を録音している間は、図7に示すような、入力された音声の共鳴の差分量を示すグラフがリアルタイムで表示される。また、収音音声と共鳴度評価音声の基音の音量レベルを合わせた上で、各倍音について音量レベルの差を取得することで、定量的に共鳴の差分量を表すことができる。
従って、ユーザは、目標とする音声の共鳴の程度に対するユーザ自身の音声の共鳴程度の差分量を、録音中にリアルタイムで知ることができる。さらに、胸腔、口腔、鼻腔のそれぞれの共鳴について、共鳴度評価音声との差がどの程度であるか知ることができ、1人で歌唱の練習を行う場合でも、どこの共鳴を改善すべきかが判断しやすくなる。
以上、本発明の実施形態について説明したが、本発明は実施形態によって限定されるものではない。
本実施形態では、周波数分析の手法として、FFT処理により、音声の周波数特性を取得したが、周波数特性の取得方法は、別の方法でもよい。例えば、オクターブ分析等である。
上述の実施形態では、1フレームの音声データの共鳴度を取得し、取得した1フレームの共鳴度の差分量を、その差分量を取得する毎に表示した。しかし、共鳴度の差分量の表示は、1フレームの音声データの共鳴度の差分量を取得する毎に表示するものに限らず、別の表示態様であってもよい。
例えば、取得した共鳴度の差分量のデータを蓄積し、蓄積した差分量のデータを時系列に表示するようにしてもよい。図8に、共鳴度の差分量を時系列グラフに表したものを示す。図8では、縦軸が、共鳴度の差分量を示し、横軸が時間を示す。図8に示す時系列グラフでは、共鳴度の胸腔共鳴、口腔共鳴、及び鼻腔共鳴のそれぞれの共鳴度の差分量の時系列のデータを示している。この時系列グラフは、例えば、「共鳴度差分量取得処理」の終了時、つまり「歌唱音声評価モード」での音声の録音の処理の終了時に、表示部170に表示してもよい。
また、図8に示すような時系列グラフに表示する共鳴については、あらかじめユーザが表示する共鳴を指定できるようにし、胸腔共鳴、口腔共鳴、鼻腔共鳴のうち指定された共鳴についての結果のみを表示するようにしてもよい。
さらに、「歌唱音声評価モード」で記録した音声を再生する際に、図8に示すような時系列グラフを表示してもよい。また、再生音声に合わせて、現在の再生位置を示す再生位置表示バー等を表示するようにしてもよい。
上述の実施形態では、目標音声の共鳴の度合いを示す共鳴度評価データが、あらかじめ記憶部120に記憶されている例を示した。しかし、本発明において、共鳴度の差分量の取得のための共鳴度評価データは、あらかじめ記憶部120に記憶されているものに限られない。
例えば、CPU110は、収音部140により収音された理想的な共鳴状態である音声データを基に、共鳴度評価データを生成してもよい。あるいは、CPU110は、通信モジュール190を介して、例えば、USBにより接続された他のコンピュータ等から供給された音声データを基に、共鳴度評価データを生成してもよい。
また、生成した共鳴度評価データは、繰り返し使用できるよう記憶部120に記憶させてもよいし、あるいは、生成した共鳴度評価データは記憶させず、収音した音声のデータや他のコンピュータから供給された音声データのみを記憶部120に記憶させてもよい。
生成した共鳴度評価データは、ユーザが選択可能なように、例えば、選択可能な共鳴度評価データの選択肢として表示部170に表示させてもよい。
上述したように、CPU110が、収音した音声のデータや他のコンピュータから供給された音声データを基に共鳴度評価データを生成する場合は、共鳴度評価データの生成のタイミングは次のようなものであってもよい。
例えば、ユーザにより「歌唱音声評価モード」が選択された場合、選択可能な共鳴度評価データの選択肢として表示部170に収音した音声のデータや他のコンピュータから供給された音声データを表示させる。表示された選択肢のうち任意の音声データが共鳴度評価用データとしてユーザにより選択されたタイミングで、共鳴度評価用データを生成してもよい。
あるいは、収音した音声または他のコンピュータ等から供給された音声データを記憶部120に記憶させるタイミングで、共鳴度評価用データを生成してもよい。
上述の実施形態では、倍音の差分量を表示する際に、周波数の低い倍音成分、中間の倍音成分、高い倍音成分として特定の倍音成分を割り当てていたが、複数の倍音についての平均値、例えば、第1倍音と第2倍音の差分量の平均値等を表示するようにしてもよい。
上述の実施形態では、共鳴の差分量を示すグラフを表示するだけだったが、例えば、録音終了後に、具体的なアドバイス、例えば、「全体的に、鼻腔共鳴が不足しています」等を表示してもよい。このようなアドバイスの表示は、共鳴の差分量の時系列グラフを表示とする代わりに表示しても良い。あるいは、アドバイスと時系列グラフを順に表示してもよい。
また、周波数分析を行う際の処理対象となるフレームの長さは、ユーザが設定できるようにしてもよい。
上述の実施形態では、収音音声の基音成分の音量レベルと評価用音声の基音成分の音量レベルが同じレベルになるように、収音音声の基音成分と倍音成分の音量レベルをシフトした。しかし、収音音声の基音成分の音量レベルと評価用音声の基音成分の音量レベルを合わせるため、評価用音声の基音成分と倍音成分の音量レベルをシフトしてもよい。
上述の実施形態では、ボイスレコーダ100がCPU110と記憶部120とを備え、CPU110が、記憶部120に記憶されているプログラムに従って、ソフトウェアにより歌唱評価処理が実現される例を示した。しかし、ボイスレコーダ100が実行する歌唱評価処理は、ソフトウェアにより実現されるものに限定されない。例えば、ボイスレコーダ100は、マイクロコンピュータ、FPGA(Field Programmable Gate Array)、PLD(Programmable Logic Device)、DSP(Digital Signal Processor)などにより構成されてもよい。
なお、本発明に係る音声処理装置は、専用のシステムによらず、通常のコンピュータシステムを用いても実現可能である。例えば、コンピュータに、上記動作を実行するためのプログラムを、フレキシブルディスク、CD−ROM(Compact Disk-Read Only Memory)、DVD(Digital Versatile Disk)、MO(Magnet Optical Disk)などのコンピュータ読み取り可能な記録媒体に記憶して配布し、これをコンピュータシステムにインストールすることにより、上述の処理を実行する表示制御装置もしくは制御装置を構成しても良い。さらに、インターネット上のサーバ装置が有するディスク装置等にプログラムを記憶しておき、例えば、搬送波に重畳させて、コンピュータにダウンロード等するものとしてもよい。
100 ボイスレコーダ
110 CPU
120 記憶部
130 音声処理部
140 収音部
141a、141b ステレオマイク
143 入力端子
150 放音部
151 スピーカ
152 出力端子
160 表示制御部
170 表示部
180 操作部
181 メニューボタン
182 再生または一時停止ボタン
183 録音ボタン
184 停止ボタン
185 早戻しボタン
186 早送りボタン
187 カーソルボタン
188 音量調節ボタン
189a、189b 再生スピード調節ボタン
190 通信モジュール
300 バス
410 受付部
420 周波数特性取得部
430 共鳴度取得部
440 記憶部
450 差分量取得部
460 表示部

Claims (3)

  1. 音声データの入力を受け付ける受付部と、
    前記音声データに基づいて音声の周波数特性を取得する周波数特性取得部と、
    前記周波数特性取得部が取得した前記音声の周波数特性に基づいて、前記音声の基音の強度に対する倍音の強度の比で表される共鳴の度合いを取得する共鳴度取得部と、
    目標音声の共鳴の度合いと前記音声の共鳴の度合いとの差分量を取得する差分量取得部と、
    前記差分量取得部が取得した前記差分量を示す情報を表示する表示部と、を備える、
    ことを特徴とする音声処理装置。
  2. 前記共鳴度取得部は、前記音声の周波数特性に基づいて、所定の音域毎の前記音声の基音成分に対する倍音成分の比で表される共鳴の度合いを取得し、
    前記差分量取得部は、前記所定の音域毎に前記目標音声の共鳴の度合いと前記音声の共鳴の度合いとの差分量を取得し、
    前記表示部は、前記差分量取得部が取得した前記音域毎の差分量を表示する、
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 前記周波数特性取得部は、前記目標音声の周波数特性を目標音声データに基づいてさらに取得し、
    前記共鳴度取得部は、前記目標音声の周波数特性に基づいて、前記目標音声の共鳴の度合いをさらに取得する、
    ことを特徴とする請求項1または2に記載の音声処理装置。
JP2012176366A 2012-08-08 2012-08-08 音声処理装置 Pending JP2014035436A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012176366A JP2014035436A (ja) 2012-08-08 2012-08-08 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012176366A JP2014035436A (ja) 2012-08-08 2012-08-08 音声処理装置

Publications (1)

Publication Number Publication Date
JP2014035436A true JP2014035436A (ja) 2014-02-24

Family

ID=50284455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012176366A Pending JP2014035436A (ja) 2012-08-08 2012-08-08 音声処理装置

Country Status (1)

Country Link
JP (1) JP2014035436A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3007282A1 (en) 2014-10-08 2016-04-13 Teac Corporation Connector structure
WO2019176029A1 (ja) * 2018-03-14 2019-09-19 ヤマハ株式会社 音検出装置
CN111508523A (zh) * 2019-01-30 2020-08-07 沪江教育科技(上海)股份有限公司 一种语音训练提示方法及系统
CN116884437A (zh) * 2023-09-07 2023-10-13 北京惠朗时代科技有限公司 基于人工智能的语音识别处理器

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3007282A1 (en) 2014-10-08 2016-04-13 Teac Corporation Connector structure
CN105514702A (zh) * 2014-10-08 2016-04-20 蒂雅克股份有限公司 连接器结构
US9444206B2 (en) 2014-10-08 2016-09-13 Teac Corporation Connector structure
WO2019176029A1 (ja) * 2018-03-14 2019-09-19 ヤマハ株式会社 音検出装置
CN111508523A (zh) * 2019-01-30 2020-08-07 沪江教育科技(上海)股份有限公司 一种语音训练提示方法及系统
CN116884437A (zh) * 2023-09-07 2023-10-13 北京惠朗时代科技有限公司 基于人工智能的语音识别处理器
CN116884437B (zh) * 2023-09-07 2023-11-17 北京惠朗时代科技有限公司 基于人工智能的语音识别处理器

Similar Documents

Publication Publication Date Title
US8492637B2 (en) Information processing apparatus, musical composition section extracting method, and program
JP4702071B2 (ja) 音楽再生制御装置及び音楽再生装置
JP2008020798A (ja) 歌唱指導装置
JP2014035436A (ja) 音声処理装置
JPWO2006003848A1 (ja) 楽曲情報算出装置及び楽曲再生装置
JP2007271977A (ja) 評価基準判定装置、制御方法及びプログラム
JP2007264569A (ja) 検索装置、制御方法及びプログラム
JP6501344B2 (ja) 聴取者評価を考慮したカラオケ採点システム
JP6288197B2 (ja) 評価装置及びプログラム
JP6708537B2 (ja) カラオケシステム
JP7367835B2 (ja) 録音再生装置、録音再生装置の制御方法及び制御プログラム並びに電子楽器
JP2007256619A (ja) 評価装置、制御方法及びプログラム
JP2006251697A (ja) カラオケ装置
JP6944357B2 (ja) 通信カラオケシステム
JP2013213907A (ja) 評価装置
JP5704368B2 (ja) 楽音演奏装置及び楽音演奏処理プログラム
JP5454802B2 (ja) カラオケ装置
JP5109426B2 (ja) 電子楽器及びプログラム
JP2007304489A (ja) 楽曲練習支援装置、制御方法及びプログラム
JP2014123085A (ja) カラオケにおいて歌唱に合わせて視聴者が行う身体動作等をより有効に演出し提供する装置、方法、およびプログラム
JP4891135B2 (ja) 評価装置
JP2007236826A (ja) 音楽テンポ判別機能を備えたゲーム機
JP6144593B2 (ja) 歌唱採点システム
JP2015031711A (ja) 楽音演奏装置及び楽音演奏処理プログラム
JP5375869B2 (ja) 楽曲再生装置、楽曲再生方法及びプログラム