JP2015031729A

JP2015031729A - 情報処理装置、及びプログラム

Info

Publication number: JP2015031729A
Application number: JP2013159240A
Authority: JP
Inventors: 典昭阿瀬見; Noriaki Asemi
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2015-02-16
Anticipated expiration: 2033-07-31
Also published as: JP6098422B2

Abstract

【課題】適切に発声可能な音高を特定すること。
【解決手段】安定域特定処理では、制御部は、歌唱旋律を構成する各楽音における母音を発声した波形である母音発声波形それぞれを抽出すると共に、その母音発声波形にて発声された母音の内容を対応付ける（Ｓ２２０）。制御部は、各母音の内容に対する平均ベクトル（即ち、発声ケプストラムの一例）と、母音の内容ごとに予め用意された母音標準ケプストラムとの相関係数を声質評価として導出する（Ｓ２６０）。制御部は、ユーザが安定して発声可能な音域である安定発声域を特定する（Ｓ２８０）。この安定発声域の特定では、制御部が、予め規定された規定閾値以上である声質評価に対応する音高の中で、最も低い音高から最も高い音高までの音域を母音安定発声域として特定する。
【選択図】図２

Description

本発明は、音声処理を実行する情報処理装置、及びプログラムに関する。

従来、楽曲の伴奏を演奏し、その演奏された伴奏にあわせて利用者が歌唱するカラオケ装置が知られている。この種のカラオケ装置として、利用者の声域を特定し、利用者に報知するものが提案されている（特許文献１参照）。

特許文献１に記載された技術では、マイクを介して入力された音声（即ち、利用者が一度でも発声した音声）の中で、最高音高（最高音程）を歌唱可能最高音とし、最低音高（最低音程）を歌唱可能最低音として検出する。そして、それらの検出した歌唱可能最低音から歌唱可能最高音までの音高範囲を、利用者が歌唱可能な音域（即ち、声域）としている。

特開２００２−７３０５８号公報

しかしながら、特許文献１に記載された技術では、利用者が無理をして発声した場合（例えば、利用者が声帯を痛めかねないような発声をした場合）の音高であっても、その音高を歌唱可能最高音もしくは歌唱可能最低音として検出してしまう。

つまり、特許文献１に記載の技術では、利用者が適切に発声可能な音高を特定できないという課題があった。
そこで、本発明は、適切に発声可能な音高を特定することを目的とする。

上記目的を達成するためになされた本発明は、内容データ取得手段と、音声データ取得手段と、声質評価手段と、音高特定手段とを備えた情報処理装置である。
本発明において、内容データ取得手段は、所定の音高と、所定の音高にて発声される少なくとも２つの音の母音を含む文字列を表す発声内容データを取得する。音声データ取得手段は、発声内容データによって表される文字列について発声された音声波形を表す音声データを取得する。

そして、音声データ取得手段により取得された音声データによって表される音声波形において、文字列が含む母音で発声された波形を示す母音発声波形と、文字列が含む母音を構成する音に用意され、かつ、文字列が含む母音の基準とから、声質評価手段が、母音発声波形の声質評価を所定の音高について決定する。さらに、音高特定手段は、声質評価手段で所定の音高について決定された声質評価の中で所定の条件を満たす声質評価を特定し、その特定された声質評価に対応する母音発声波形の音高を安定発声音高として特定する。

本発明における母音の基準は、母音それぞれについて模範となるように発声した際の音声波形に基づくものである。このため、本発明によれば、母音発声波形と母音の基準との一致度合い（即ち、相関係数）を、声質評価（発声の安定性を表す指標）とすることができる。

一般的に、安定した発声が不可能な音高であれば、利用者にとって適切な発声が困難となり、安定した発声が可能な音高であれば、利用者にとって適切な発声が可能となる。
したがって、本発明の情報処理装置によれば、適切な発声が可能であるかを、所定の音高ごとに評価できる。この結果、本発明の情報処理装置によれば、安定発声音高を特定でき、適切に発声可能な音高を特定できる。

ここで言う「所定の条件」には、安定して発声しているものとみなせる評価の範囲として予め規定された適正評価基準内であることを含む。
さらに、本発明においては、第一表示手段が、声質評価手段により評価された声質評価を、所定の音高における声質評価手段の評価に合わせて、所定の表示部に表示させても良い。

このような情報処理装置によれば、声質評価を当該評価に合わせて表示することができる。この結果、情報処理装置の利用者は、適切に発声可能な音高を認識できる。
また、本発明においては、内容データ取得手段が、複数の音高と、複数の音高にて発声される少なくとも２つの音の母音を含む文字列を表す発声内容データを取得し、音声データ取得手段が、発声内容データによって表される文字列について発声された音声波形を表す音声データを取得しても良い。この場合、声質評価手段は、音声データ取得手段により取得された音声データによって表される音声波形において、文字列が含む母音で発声された波形を示す母音発声波形と、文字列が含む母音を構成する音に用意され、かつ、文字列が含む母音の基準とから、母音発声波形の声質評価を複数の音高ごとに決定し、音高特定手段は、声質評価手段で決定された複数の音高ごとの声質評価の中で所定の条件を満たす声質評価を特定し、その特定された声質評価に対応する母音発声波形の音高を安定発声音高として特定しても良い。

さらに、本発明においては、声域特定手段が、音高特定手段にて特定された安定発声音高の中で、所定の条件を満たす音高の音域を、安定発声域として特定しても良い。
このような情報処理装置によれば、利用者が適切に発声可能な音域、即ち、安定発声域を特定できる。

また、本発明においては、第二表示手段が、声域特定手段で特定した安定発声域を、所定の表示部に表示させても良い。
このような情報処理装置によれば、安定発声域を所定の表示部に表示することができる。この結果、情報処理装置の利用者は、安定発声域を認識できる。

さらに、本発明における音高特定手段は、声質評価手段で決定された声質評価の中で所定の条件を満たす声質評価を特定し、その特定された声質評価に対応する母音発声波形の音高を安定発声音高として母音ごとに特定しても良い。この場合、声域特定手段は、音高特定手段にて特定された母音ごとの安定発声音高の中で、所定の条件を満たす音高の音域を安定発声域として、母音ごとに特定しても良い。

このような情報処理装置によれば、母音（の内容）ごとに安定発声域を特定できる。
本発明における声域特定手段は、安定発声音高の中から、母音ごとに特定された所定の条件を満たす音高の音域を数値処理することにより、一つの発声内容データを通して一つの安定発声域を特定しても良い。

このような情報処理装置によれば、一つの発声内容データを通して一つの安定発声域を特定できる。
そして、本発明においては、所定の楽曲における歌唱旋律を構成する各楽音の音の高さを複数の音高とし、所定の楽曲において歌唱すべき歌詞を文字列とした発声内容データを取得しても良い。この場合、情報処理装置によれば、利用者が安定して歌唱可能であるか否かを、一つの楽曲を通して特定できる。

なお、ここで言う「数値処理」とは、母音ごとに特定された最も低い音高から最も高い音高までの音域を平均することでも良い。また、「数値処理」とは、母音ごとに特定された最も低い音高の中で、最も低い音高を安定発声域における最低音高とし、母音ごとに特定された最も高い音高の中で、最も高い音高を安定発声域における最高音高とすることでも良い。さらに、「数値処理」とは、母音ごとに特定された最も低い音高の中で、最も高い音高を安定発声域における最低音高とし、母音ごとに特定された最も高い音高の中で、最も低い音高を安定発声域における最高音高とすることでも良い。

本発明においては、不安定特定手段が、声質評価手段で決定された複数の音高ごとの声質評価の中で所定の条件を満たさない声質評価を特定し、その特定された声質評価に対応する母音発声波形の音高を不安定発声音高として特定しても良い。この場合、不安域特定手段が、不安定特定手段にて特定された不安定発声音高の中で、所定の条件を満たさない音高の音域を特定し、その特定された音域の中で安定発声域と異なる音域を不安定発声域として特定しても良い。

このような情報処理装置によれば、不安定発声音高や不安定発声域を特定できる。
さらに、本発明においては、第三表示手段が、音高特定手段にて特定された安定発声音高、及び声域特定手段で特定した安定発声域の少なくとも一方と、不安定特定手段にて特定された不安定発声音高、及び声域特定手段で特定した不安定発声域の少なくとも一方とを識別可能な態様で所定の表示部に表示させても良い。

このような情報処理装置によれば、安定発声音高及び安定発声域の少なくとも一方と、不安定発声音高及び不安定発声域の少なくとも一方とを識別可能な態様で表示することができる。この結果、情報処理装置の利用者は、自身が発声した音高について、少なくとも、安定発声音高であるのか、安定発声域内であるのか、不安定発声音高であるのか、不安定発声域内であるのかを認識できる。

そして、本発明における声質評価手段は、母音発声波形それぞれにおけるケプストラムである発声ケプストラムそれぞれを導出し、発声ケプストラムそれぞれと、各母音のフォルマント構造におけるスペクトル包絡から導出したケプストラムそれぞれである基準値との相関係数を声質評価として導出しても良い。

本発明における基準値の各々は、各母音のフォルマント構造におけるスペクトル包絡から導出したケプストラムである。このような基準値（ケプストラム）と発声ケプストラムとの相関係数（即ち、声質評価）は、対応する母音を発声する際の声質を表す。

一般的に、母音に対する発声の声質が低ければ、当該母音に対応する音高を利用者が苦しそうに歌唱しており、発声の声質が高ければ、当該母音に対応する音高を利用者が余裕を持って歌唱できていると言える。つまり、母音に対する発声の声質が低ければ、当該母音に対応する音高を利用者が安定して発声することができず、発声の声質が高ければ、当該母音に対応する音高を利用者が安定して発声できていると言える。

したがって、本発明の情報処理装置によれば、利用者が安定して発声可能な音高を特定でき、より適切な音高、ひいては、安定発声域を特定できる。
なお、本発明における音声データ取得手段は、発声内容データについて発声されている音声波形に基づく音声データを順次取得し、声質評価手段が、音声データ取得手段で音声データを取得するごとに、その取得された音声データによって表される音声波形における母音発声波形と、母音の基準とから、母音発声波形の声質評価を所定の音高ごとに決定しても良い。この場合、音高特定手段は、声質評価手段にて声質評価が決定されるごとに、その決定された声質評価が所定の条件を満たすかを判定し、判定の結果、所定の条件を満たしていれば、当該声質評価に対応する母音発声波形の音高を安定発声音高として特定しても良い。

このような情報処理装置によれば、利用者が発声した音高が、その利用者の安定発声音高であるか否かをリアルタイムに特定できる。
ところで、本発明は、情報処理装置が備えるコンピュータが実行するプログラムとしてなされていても良い。

この場合、本発明のプログラムは、所定の音高と文字列とを表す発声内容データを取得する内容データ取得手順と、音声データを取得する音声データ取得手順と、母音発声波形の声質評価を前記所定の音高について決定する声質評価手順と、安定発声音高として特定する音高特定手順とをコンピュータに実行させるプログラムであることが好ましい。

このようなプログラムであれば、記録媒体から必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項１に記載された情報処理装置として機能させることができる。

なお、ここで言う記録媒体には、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な電子媒体を含む。

カラオケシステムの概略構成を示すブロック図である。安定域特定処理の処理手順を示すフローチャートである。安定域特定処理において母音列の特定を説明する説明図である。安定域特定処理において母音発声波形の抽出を説明する説明図である。安定発声域の表示例を説明する説明図である。安定発声域の表示の変形例を説明する説明図である。

以下に本発明の実施形態を図面と共に説明する。
〈カラオケシステムについて〉
図１に示すように、カラオケシステム１は、ユーザ（利用者）が指定した楽曲を演奏し、その演奏に合わせてユーザが歌唱するシステムである。

これを実現するために、カラオケシステム１は、情報処理装置１０と、情報格納サーバ２５とを備えている。
情報処理装置１０は、カラオケの用途に用いられる音楽データＭＤに基づいて楽曲を演奏すると共に、その楽曲の演奏中に音声の入力を受け付ける。情報格納サーバ２５は、楽曲ごとに用意された音楽データＭＤそれぞれを格納すると共に、情報処理装置１０を介して入力された音声それぞれの音声波形を表すデータである音声データＳＶを格納する。

なお、図１における「−ｎ」は、音楽データＭＤを識別する符号であり、“ｎ”は、１以上の数値である。また、「−ｍ」は、音声データを識別する符号であり、“ｍ”は、１以上の数値である。
〈情報格納サーバ〉
情報格納サーバ２５は、記憶装置２７と、制御装置２９とを備え、通信網を介して、情報処理装置１０に接続されている。

制御装置２９は、周知のマイクロコンピュータを中心に構成された周知の制御装置であり、情報格納サーバ２５を構成する各部を制御すると共に、情報処理装置１０との間のデータ通信を実行する。

記憶装置２７は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶装置２７には、少なくとも、音楽データＭＤと、音声データＳＶとが格納される。
音楽データＭＤは、楽曲ＭＩＤＩデータＤＭと、歌詞データＤＬとを有し、それぞれ対応する楽曲ごとに対応付けられている。

楽曲ＭＩＤＩデータＤＭは、周知のＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）規格にて、一つの楽曲の楽譜を表したデータである。この楽曲ＭＩＤＩデータＤＭの各々は、楽曲を区別するデータである識別データと、当該楽曲にて用いられる楽器ごとの楽譜を表す楽譜トラックとを少なくとも有している。本実施形態における楽譜トラックには、少なくとも、当該楽曲における歌唱旋律の楽譜が含まれる。以下、歌唱旋律に対応する楽譜トラックをメロノート情報とも称す。

そして、各楽譜トラックには、音源モジュールから出力される個々の出力音について、少なくとも、音高（いわゆるノートナンバー）と、音源モジュールが出力音を出力する期間（以下、音符長）とが規定されている。ただし、音符長は、当該出力音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミング（いわゆるノートオンタイミング）と、当該出力音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミング（いわゆるノートオフタイミング）とによって規定されている。

歌詞データＤＬは、歌詞テロップデータＤＴと、歌詞出力データＤＯとを備えている。
このうち、歌詞テロップデータＤＴは、楽曲において歌唱されるべき歌詞を表すデータであり、周知のカラオケ装置を構成する表示装置に表示されるテロップに関するデータである。歌詞出力データＤＯは、歌詞出力タイミングを楽曲ＭＩＤＩデータＤＭの演奏と対応付けたタイミング対応関係が規定されたデータである。ここで言う歌詞出力タイミングとは、歌詞構成文字の出力タイミングであり、歌詞構成文字とは、歌詞テロップデータＤＴによって表される歌詞を構成する文字である。

具体的に、本実施形態におけるタイミング対応関係は、楽曲ＭＩＤＩデータＤＭの演奏を開始するタイミングに、歌詞テロップデータＤＴの出力を開始するタイミングが対応付けられている。さらに、タイミング対応関係では、特定楽曲の時系列に沿った各歌詞構成文字の歌詞出力タイミングが、楽曲ＭＩＤＩデータＤＭの演奏開始からの経過時間によって規定されている。なお、ここで言う経過時間とは、例えば、表示された歌詞構成文字の色替えを実行するタイミングを表す時間であり、色替えの速度によって規定されている。
〈情報処理装置〉
情報処理装置１０は、通信部１１と、入力受付部１２と、音源モジュール１６と、記憶部１７と、制御部２０とを備えている。この情報処理装置１０には、表示部１３と、音声入力部１４と、音声出力部１５とが接続されている。

すなわち、本実施形態における情報処理装置１０は、いわゆる周知のカラオケ装置として構成されている。
表示部１３は、制御部２０からの信号に従って、少なくとも、画像を表示する表示装置である。本実施形態における表示装置とは、例えば、液晶ディスプレイやＣＲＴなどである。また、音声入力部１４は、音を電気信号に変換して制御部２０に入力する装置（いわゆるマイクロホン）である。音声出力部１５は、制御部２０からの電気信号を音に変換して出力する装置（いわゆるスピーカ）である。

このうち、通信部１１は、通信網を介して、情報処理装置１０が外部との間で通信を行う。本実施形態における通信網とは、例えば、公衆無線通信網やネットワーク回線である。

入力受付部１２は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。本実施形態における入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。

さらに、音源モジュール１６は、楽曲ＭＩＤＩデータＤＭに基づいて、音源からの音を模擬した音（即ち、出力音）を出力する装置、例えば、ＭＩＤＩ音源である。
記憶部１７は、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。本実施形態における記憶装置とは、例えば、ハードディスク装置や、フラッシュメモリなどである。

また、制御部２０は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するＲＯＭ２１と、処理プログラムやデータを一時的に格納するＲＡＭ２２と、ＲＯＭ２１やＲＡＭ２２に記憶された処理プログラムに従って各処理（各種演算）を実行するＣＰＵ２３とを少なくとも有した周知のコンピュータを中心に構成されている。

そして、ＲＯＭ２１には、ユーザによって指定された楽曲（以下、対象楽曲と称す）を演奏するカラオケ演奏処理を制御部２０が実行する処理プログラムが格納されている。本実施形態におけるカラオケ演奏処理では、対象楽曲が演奏されている期間中に、音声入力部１４を介して入力された音声を音声データＳＶとして、当該対象楽曲を識別する楽曲ＩＤ及び対象楽曲を歌唱したユーザ識別するユーザＩＤと対応付けて、情報格納サーバ２５に格納する。

つまり、情報処理装置１０では、カラオケ演奏処理に従って、対象楽曲に対応する楽曲ＭＩＤＩデータＤＭに基づいて楽曲を演奏すると共に、対象楽曲に対応する歌詞データＤＬに基づいて歌詞を表示部１３に表示する。そして、カラオケ演奏処理の実行中に、音声入力部１４を介して入力された音声を音声データＳＶとして、楽曲ＩＤ及びユーザＩＤと対応付けて、情報格納サーバ２５に格納する。

さらに、ＲＯＭ２１には、対象楽曲に対する音声データＳＶを解析し、ユーザが安定して発声可能な音域である安定発声域を特定する安定域特定処理を、制御部２０が実行する処理プログラムが格納されている。
〈安定域特定処理〉
制御部２０が実行する安定域特定処理は、起動指令が入力されると起動される。なお、起動指令は、カラオケ演奏処理の終了後に自動的に入力されても良いし、カラオケ演奏処理の終了後に入力されるようにユーザが予め設定した場合に入力されても良い。または、安定域特定処理を実行するためのアプリケーションが、情報処理装置１０で実行された場合に起動されても良い。

この安定域特定処理では、起動されると、制御部２０が、図２に示すように、まず、対象楽曲の歌詞データＤＬを情報格納サーバ２５から取得する（Ｓ１１０）。制御部２０は、当該対象楽曲のメロノート情報を情報格納サーバ２５から取得する（Ｓ１２０）。

続いて、制御部２０は、Ｓ１１０で取得した歌詞データＤＬに含まれている歌詞テロップデータＤＴを分析し、当該歌詞テロップデータＤＴによって表される歌詞を音節データに変換する（Ｓ１３０）。このＳ１３０では、制御部２０は、具体的には、歌詞に対して形態素解析を実行する。そして、制御部２０は、歌詞を構成する各形態素を、読みデータベース（ＤＢ）に格納されている読み情報に基づいて、当該形態素の読み（即ち、音節）に変換する。

なお、本実施形態における形態素解析は、周知の手法（例えば、“ＭｅＣａｂ”）を用いれば良い。また、読み情報とは、各形態素と当該形態素の音節とを予め対応付けた情報であり、読みデータベースに予め格納されている。

そして、制御部２０は、Ｓ１３０にて変換された音節データ及びＳ１２０にて取得したメロノート情報に基づいて、対象楽曲の歌唱旋律における楽音の音高それぞれと歌詞の音節とを時系列に沿って対応付ける時間対応付けを実行する（Ｓ１４０）。このＳ１４０では、制御部２０は、具体的には、歌詞出力データＤＯに規定された歌詞構成文字の出力タイミング及び対象楽曲の歌唱旋律における楽音のノートオン（オフ）タイミングに従って、当該楽音のそれぞれの音高に、歌詞の音節それぞれを割り当てることを、時間対応付けとして実施する。

そして、制御部２０は、Ｓ１４０にて時間対応付けされた歌詞の音節に基づいて、各歌詞の音節に含まれる母音を抽出した母音データを生成する（Ｓ１５０）。ここで言う母音データは、図３に示すように、歌詞の音節に含まれ、かつ抽出された母音を対象楽曲の時系列に沿って並べたものである。

続いて、制御部２０は、カラオケ演奏処理にて対象楽曲を歌唱したユーザのユーザＩＤが割り当てられ、かつ、対象楽曲を歌唱することで生成された音声データＳＶを情報格納サーバ２５から取得する（Ｓ１６０）。なお、ユーザＩＤは、当該ユーザが情報処理装置１０にログインする際に、入力受付部１２を介して取得されたものを用いれば良い。

制御部２０は、その取得した音声データＳＶによって表される音声波形（以下、「対象歌唱波形」と称す）のパワーを分析し、パワー時間変化を導出する（Ｓ１７０）。このＳ１７０では、制御部２０は、例えば、対象歌唱波形における各時刻の振幅値を二乗し、その二乗した値の時系列に沿った推移をパワー時間変化として導出する。

そして、制御部２０は、対象歌唱波形を周波数解析する（Ｓ１８０）。このＳ１８０における周波数解析として、対象歌唱波形に対して設定される分析時間窓を時系列に沿って順次スライドさせつつ、各分析時間窓にて離散フーリエ変換（ＤＦＴ）することが考えられる。

さらに、制御部２０は、対象歌唱波形に基づいて各時刻における基本周波数（Ｆ０）を推定し、基本周波数が時系列に沿って推移した基本周波数推移を導出する（Ｓ１９０）。このＳ１９０における基本周波数の推定方法としては、周知の手法を用いれば良い。この基本周波数の推定方法の具体例としては、時系列に沿った自己相関を用いる方法や、周波数解析の結果に対する周波数軸上での自己相関を用いる方法などが考えられる。

さらに、制御部２０は、歌唱旋律を構成する各楽音における母音の発声開始タイミングΔｃｔｓそれぞれを特定する（Ｓ２００）。
具体的にＳ２００では、制御部２０が、Ｓ１８０での分析時間窓ごとの周波数解析の結果（即ち、周波数スペクトル）それぞれについて周波数軸上での自己相関を導出する。この自己相関の導出は、時系列に沿って順次実施される。そして、制御部２０は、自己相関の導出の結果、ピークの存在が未検出である状態から検出された状態へと切り替わった分析時間窓に対応する時刻を発声開始タイミングΔｃｔｓとして特定する。

すなわち、母音に対して発声された音声の周波数スペクトルは調波構造である。このため、周波数軸上における自己相関関数の「最大値／平均値」は、値が大きくなる。一方、子音に対して発声された音声の周波数スペクトルは、非調波構造である。このため、周波数軸上における自己相関関数の「最大値／平均値」は、値が小さくなる。

本実施形態の安定域特定処理では、制御部２０が、例えば、自己相関関数の「最大値／平均値」が予め規定された閾値以上である場合にピークが存在するものと判定し、自己相関関数の「最大値／平均値」が閾値未満である場合にピークの存在を未検出であるものと判定すれば良い。

続いて、制御部２０は、歌唱旋律を構成する各楽音における母音の発声終了タイミングΔｃｔｅそれぞれを特定する（Ｓ２１０）。
具体的にＳ２１０では、制御部２０が、Ｓ２００にて自己相関を導出した結果に基づいて、各発声開始タイミングΔｃｔｓ以降に、所定の条件を満たす最初の時刻を発声終了タイミングΔｃｔｅとして特定しても良い。ここで言う所定の条件とは、例えば、ピークの存在を検出した状態から未検出である状態へと切り替わった分析時間窓に対応することである。

また、発声終了タイミングΔｃｔｅを特定する方法として、各発声開始タイミングΔｃｔｓ以降に、所定の条件を満たす最初のタイミングそれぞれを発声終了タイミングΔｃｔｅとして特定することが考えられる。ここで言う所定の条件とは、Ｓ１７０にて算出したパワー時間変化におけるパワーが予め規定されたパワー閾値未満となることである。

そして、制御部２０は、歌唱旋律を構成する各楽音における母音を発声した波形である母音発声波形それぞれを抽出すると共に、その母音発声波形にて発声された母音の内容を対応付ける（Ｓ２２０）。具体的にＳ２２０では、制御部２０が、Ｓ２００にて特定された各発声開始タイミングΔｃｔｓと、Ｓ２１０にて特定された発声終了タイミングΔｃｔｅとを対応する楽音ごとに組み合わせることで、母音発声区間それぞれを特定する。ここで言う母音発声区間とは、歌唱旋律を構成する各楽音における母音を発声した期間である。

そして、制御部２０は、図４に示すように、対象歌唱波形における各母音発声区間の波形それぞれを、母音発声波形として抽出する。
さらに、Ｓ２２０では、制御部２０が、母音データに基づいて、各母音発声波形にて発声された母音の内容を対応付ける。

制御部２０は、その母音発声波形それぞれについてケプストラム分析を実行する（Ｓ２３０）。このＳ２３０におけるケプストラム分析では、制御部２０が、母音発声波形それぞれに対して一つのメル周波数ケプストラムを導出する。

具体的な手法としては、母音発声波形それぞれに対して時系列に沿って時間窓を順次設定し、各時間窓に対して、メル周波数ケプストラムを導出する周知のケプストラム分析を実行し、その結果として導出されたメル周波数ケプストラムを母音発声波形ごとに平均することが考えられる。また、その他の手法として、各母音発声区間に含まれる分析時間窓の周波数解析の結果（周波数スペクトル）に対してケプストラム分析を実行し、そのケプストラム分析の結果を母音発声区間ごとに平均することが考えられる。

さらに、制御部２０は、各母音波形のそれぞれについて、平均の基本周波数（即ち、平均基本音高）、平均の音声パワーを導出する（Ｓ２４０）。続いて、制御部２０は、各母音発声波形について母音の内容と音高と組み合わせごとに統計処理を実行する（Ｓ２５０）。

このＳ２５０における統計処理では、制御部２０が、母音の内容と音高と組み合わせごとに、ケプストラムベクトルを平均した平均ベクトルを導出する。これと共に、Ｓ２５０における統計処理では、制御部２０が、母音の内容と音高との組み合わせごとに、平均基本音高、及び音声パワーを平均した各平均値を導出する。さらに、Ｓ２５０における統計処理では、制御部２０が、平均基本音高の平均値と、その平均基本音高において発声の対象とした楽音の音高とのズレ量（以下、平均発声音高差と称す）を導出する。

続いて、制御部２０は、各母音に対する発声の声質を評価した指標である声質評価を導出する（Ｓ２６０）。このＳ２６０では、制御部２０が、各母音の内容に対する平均ベクトル（即ち、発声ケプストラムの一例）と、母音の内容ごとに予め用意された母音標準ケプストラムとの相関係数を声質評価として導出する。ここで言う「母音標準ケプストラム」は、各内容の母音について安定して発声したとみなせる音声のフォルマント構造におけるスペクトル包絡から導出したメル周波数ケプストラム（ＭＦＣＣ）である。なお、本実施形態における母音標準ケプストラムは、特許請求の範囲に記載された「母音の基準」の一例である。

さらに、制御部２０は、対象楽曲において安定して発声可能な音高とみなせる基準音高でのメル周波数ケプストラムを表す基準ケプストラムを抽出する（Ｓ２７０）。この基準ケプストラムは、例えば、対象楽曲を構成する楽音の音高の中で、中間値に相当する音高を発声した場合のフォルマント構造におけるスペクトル包絡から導出したメル周波数ケプストラムを、基準ケプストラムとすることで生成される。なお、本実施形態における基準ケプストラムは、母音ごとに予め用意され、情報格納サーバ２５に格納されている。

さらに、制御部２０は、ユーザが安定して発声可能な音域である安定発声域を特定する（Ｓ２８０）。このＳ２８０における安定発声域には、母音ごとの安定発声域である母音安定発声域と、総合的な安定発声域である総合安定発声域とを含む。

このうち、本実施形態における母音安定発声域は、予め規定された規定閾値以上である声質評価に対応する音高の中で、最も低い音高から最も高い音高までの音域を母音安定発声域とすることで特定する。また、本実施形態における総合安定発声域は、各母音安定発声域を平均することで特定する。

そして、制御部２０は、Ｓ２５０にて導出した音声パワーの平均値及び平均発声音高差に基づいて、歌唱可能な音域である歌唱可能帯域を特定する（Ｓ２９０）。このＳ２９０にて特定する歌唱可能帯域には、母音ごとの歌唱可能帯域である母音歌唱域と、総合的な歌唱可能域である総合歌唱域とを含む。

具体的には、制御部２０は、Ｓ２５０にて導出した音声パワーの平均値が閾値以上であり、かつ平均発声音高差が許容範囲内となる音高の中で、最も低い音高から最も高い音高までの音域を、母音ごとに母音歌唱域として特定する。また、制御部２０は、各母音歌唱域を平均することで総合歌唱域として特定する。

続いて、制御部２０は、Ｓ２８０にて特定した安定発声域、及びＳ２９０にて特定した歌唱可能帯域（不安定発声域の一例）を識別可能な態様で報知する（Ｓ３００）。このＳ３００での報知は、制御部２０が、表示部１３に対して制御信号を出力することで実現する。制御信号が入力された表示部１３は、例えば、図５に示すように、各母音の母音安定発声域、及び母音歌唱域を表示すると共に、総合安定発声域及び総合歌唱域をピアノロールに重畳して表示する。

なお、安定発生域及び歌唱可能帯域の報知は、音声出力部１５により音声出力されても良い。この場合、母音安定発声域、及び母音歌唱域と共に、総合安定発声域及び総合歌唱域を表す信号を、制御部２０が、音声出力部１５に出力することが考えられる。信号が入力された音声出力部１５は、母音安定発声域、母音歌唱域、総合安定発声域及び総合歌唱域を音声にて出力する。

その後、本安定域特定処理を終了する。
つまり、本実施形態の安定域特定処理では、制御部２０が、対象楽曲に対する音声データＳＶを解析し、ユーザが安定して発声可能な音域である安定発声域、及び歌唱可能帯域を特定する。そして、制御部２０は、それらの特定した安定発声域及び歌唱可能帯域を表示部１３に表示させる。
［実施形態の効果］
本実施形態における母音標準ケプストラムは、母音それぞれについて模範となるように発声した際の音声波形に基づくものである。よって、本実施形態における声質評価は、母音に対する発声の声質が低いと、その値が小さくなる。この場合、情報処理装置のユーザは、当該母音に対応する音高を苦しそうに歌唱していることが多い。

一方、本実施形態における声質評価は、発声の声質が高ければ、その値が大きくなる。この場合、情報処理装置のユーザは、当該母音に対応する音高を余裕を持って歌唱できていると言える。

つまり、安定した発声が不可能な音高であれば、ユーザにとって適切な発声が困難となり、安定した発声が可能な音高であれば、ユーザにとって適切な発声が可能となる。
以上のことから、情報処理装置１０によれば、各音高に対してユーザが発声した音声波形に基づいて、所定の音高ごとに適切な発声が可能であるかを評価できる。さらに、情報処理装置１０によれば、適切な発声が可能な音域を安定発声域として特定できる。

換言すれば、情報処理装置によれば、安定発声音高を特定でき、適切に発声可能な音高を特定できる。
しかも、情報処理装置１０の安定域特定処理によれば、その特定した安定発声域を表示部１３に表示させるため、情報処理装置のユーザは安定発声域を認識できる。

ところで、安定域特定処理にて特定した安定発声域を利用して、様々な処理を実行することが考えられる。ここで言う様々な処理には、例えば、ユーザが安定して歌唱可能な楽曲を検索して推薦するレコメンド処理や、楽曲の音域を当該ユーザの安定発声域内に収めるキーシフトを実行するキー自動設定処理などが含まれる。

これらの処理を実行すれば、カラオケシステム１の利便性をより向上させることができる。
また、様々な処理には、ユーザが安定して発声することが可能な音域（即ち、安定発声域）を広げるためのトレーニング処理を含んでいても良い。この場合、楽曲における一部の楽音の音高を、歌唱可能帯域内にシフトすることが考えられる。

このような処理を実行すれば、カラオケシステム１において、ユーザが安定して発声することが可能な音域（即ち、安定発声域）を広げることが可能となる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態の安定域特定処理におけるＳ２７０では、対象楽曲を構成する楽音の音高の中で、中間値に相当する音高を発声した場合のフォルマント構造におけるスペクトル包絡から導出したメル周波数ケプストラムを、基準ケプストラムとして生成していたが、基準ケプストラムの生成方法は、これに限るものではない。すなわち、メル周波数ケプストラムの音高方向（周波数方向）の隣接差分が予め規定された閾値よりも小さい音高のメル周波数ケプストラムを基準ケプストラムとしても良い。

さらに、基準ケプストラムの生成は、ユーザの歌唱履歴に基づいて実行しても良い。この場合、ユーザが過去に歌唱した楽曲における音域の中間値に相当する音高を発声した場合のフォルマント構造におけるスペクトラム包絡から導出したメル周波数ケプストラムを基準ケプストラムとして生成すれば良い。

また、上記実施形態においては、対象楽曲の歌唱が完了した後に、当該対象楽曲について歌唱した音声データに基づいて、安定域特定処理を実行していたが、安定域特定処理は、対象楽曲の演奏中に歌唱されている音声データに基づいて実行しても良い。この場合、母音安定発声域、母音歌唱域、総合安定発声域、及び総合歌唱域の表示は、図６に示すように、対象楽曲の時系列に沿って、歌詞構成文字が割り当てられ、かつ歌唱が完了した楽音が、母音安定発声域、母音歌唱域、総合安定発声域、及び総合歌唱域のいずれに該当するのかを示すことが考えられる。

また、上記実施形態では、母音発声区間を、対象歌唱波形から導出した周波数スペクトルから検出した発声開始タイミングΔｃｔｓ及び発声終了タイミングΔｃｔｅに基づいて特定していたが、母音発声区間の特定方法は、これに限るものではない。例えば、各楽音に対する発声タイミングのずれを考慮して特定しても良い。この場合、発声タイミングのずれを特定する方法としては、歌唱旋律を構成する楽音の音高の時系列に沿った推移と、対象歌唱波形の基本周波数の時系列に沿った推移との相互相関係数が最大となる時間ずれを、発声タイミングのずれとして特定することが考えられる。

さらに、上記実施形態の安定域特定処理では、ユーザが安定して発声可能な音域を安定発声域として特定していたが、特定する内容は、ユーザが安定して発声可能な音域に限るものではない。ユーザが安定して発声可能なものとして特定する内容は、例えば、ユーザが安定して発声可能な音高そのものでも良い。この場合、安定域特定処理のＳ３００では、ユーザが安定して発声可能な音高を、当該音高に対応する声質評価に応じて表示部１３に表示させても良い。

なお、上記実施形態の安定域特定処理では、各母音安定発声域を平均することで総合安定発声域を特定していたが、総合安定発声域の特定方法は、これに限るものではない。総合安定発声域は、母音ごとに特定された最も低い音高の中で、最も低い音高を安定発声域における最低音高とし、母音ごとに特定された最も高い音高の中で、最も高い音高を安定発声域における最高音高とすることでも良い。さらに、総合安定発声域は、母音ごとに特定された最も低い音高の中で、最も高い音高を安定発声域における最低音高とし、母音ごとに特定された最も高い音高の中で、最も低い音高を安定発声域における最高音高とすることでも良い。

また、上記実施形態の安定域特定処理では、歌唱可能な音域である歌唱可能帯域を不安定発声域の一例として特定していたが、特定する内容は、これに限るものではない。ユーザが歌唱可能なものとして特定する内容は、例えば、ユーザが歌唱可能な音高そのものであっても良い。この場合、安定域特定処理のＳ３００では、ユーザが歌唱可能な音高（即ち、不安定発声音高の一例）を表示部１３に表示しても良い。

ところで、上記実施形態の安定域特定処理では、安定発声域を特定するための情報として、歌詞データＤＬ及び楽曲ＭＩＤＩデータＤＭを用いていたが、安定発声域を特定するための情報は、これに限るものではない。すなわち、安定発声域を特定するための情報は、所定の音高と、所定の音高にて発声される少なくとも２つの音の母音を含む文字列を表す発声内容データであれば、どのような情報であっても良い。

上記実施形態における表示部１３、音声入力部１４、音声出力部１５は、情報処理装置１０に接続されていたが、表示部１３、音声入力部１４、音声出力部１５は、情報処理装置１０が備えていても良い。すなわち、本発明における情報処理装置は、カラオケ装置に限定されるものではなく、携帯端末であっても良いし、その他の情報処理機器であっても良い。

なお、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態の安定域特定処理におけるＳ１１０を実行することで得られる機能が、特許請求の範囲の記載における内容データ取得手段に相当し、Ｓ１６０を実行することで得られる機能が、音声データ取得手段に相当する。また、安定域特定処理におけるＳ２６０を実行することで得られる機能が、特許請求の範囲の記載における声質評価手段に相当し、Ｓ２８０を実行することで得られる機能が、音高特定手段に相当する。

さらに、安定域特定処理におけるＳ３００を実行することで得られる機能が、特許請求の範囲の記載における第一表示手段，第二表示手段，及び第三表示手段に相当する。そして、Ｓ２８０を実行することで得られる機能には、特許請求の範囲の記載における声域特定手段を含む。また、Ｓ２９０を実行することで得られる機能が、特許請求の範囲の記載における不安定特定手段、及び不安域特定手段に相当する。

１…カラオケシステム１０…情報処理装置１１…通信部１２…入力受付部１３…表示部１４…音声入力部１５…音声出力部１６…音源モジュール１７…記憶部２０…制御部２１…ＲＯＭ２２…ＲＡＭ２３…ＣＰＵ２５…情報格納サーバ２７…記憶装置２９…制御装置

Claims

所定の音高と、前記所定の音高にて発声される少なくとも２つの音の母音を含む文字列を表す発声内容データを取得する内容データ取得手段と、
前記発声内容データによって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手段と、
前記音声データ取得手段により取得された音声データによって表される音声波形において、前記文字列が含む母音で発声された波形を示す母音発声波形と、前記文字列が含む母音を構成する音に用意され、かつ、前記文字列が含む母音の基準とから、前記母音発声波形の声質評価を前記所定の音高について決定する声質評価手段と、
前記声質評価手段で前記所定の音高について決定された声質評価の中で所定の条件を満たす声質評価を特定し、その特定された声質評価に対応する母音発声波形の音高を安定発声音高として特定する音高特定手段と、
を備えることを特徴とする情報処理装置。
前記声質評価手段により評価された前記声質評価を、前記所定の音高における前記声質評価手段の評価に合わせて、所定の表示部に表示させる第一表示手段と
を備えることを特徴とする請求項１に記載の情報処理装置。
前記内容データ取得手段は、複数の音高と、前記複数の音高にて発声される少なくとも２つの音の母音を含む文字列を表す発声内容データを取得し、
前記音声データ取得手段は、前記発声内容データによって表される文字列について発声された音声波形を表す音声データを取得し、
前記声質評価手段は、前記音声データ取得手段により取得された音声データによって表される音声波形において、前記文字列が含む母音で発声された波形を示す母音発声波形と、前記文字列が含む母音を構成する音に用意され、かつ、前記文字列が含む母音の基準とから、前記母音発声波形の声質評価を前記複数の音高ごとに決定し、
前記音高特定手段は、前記声質評価手段で決定された前記複数の音高ごとの声質評価の中で所定の条件を満たす声質評価を特定し、その特定された声質評価に対応する母音発声波形の音高を前記安定発声音高として特定し、
さらに、
前記音高特定手段にて特定された安定発声音高の中で、所定の条件を満たす音高の音域を、安定発声域として特定する声域特定手段と
を備えることを特徴とする請求項１または請求項２に記載の情報処理装置。
前記声域特定手段で特定した安定発声域を、所定の表示部に表示させる第二表示手段と、
を備えることを特徴とする請求項３に記載の情報処理装置。
前記音高特定手段は、前記声質評価手段で決定された声質評価の中で所定の条件を満たす声質評価を特定し、その特定された声質評価に対応する母音発声波形の音高を前記安定発声音高として前記母音ごとに特定し、
前記声域特定手段は、前記音高特定手段にて特定された前記母音ごとの安定発声音高の中で、所定の条件を満たす音高の音域を前記安定発声域として、前記母音ごとに特定する
ことを特徴とする請求項３または請求項４に記載の情報処理装置。
前記声域特定手段は、前記安定発声音高の中から、母音ごとに特定された所定の条件を満たす音高の音域を数値処理することにより、一つの前記発声内容データを通して一つの前記安定発声域を特定する
ことを特徴とする請求項５に記載の情報処理装置。
前記声質評価手段で決定された前記複数の音高ごとの声質評価の中で前記所定の条件を満たさない声質評価を特定し、その特定された声質評価に対応する母音発声波形の音高を不安定発声音高として特定する不安定特定手段と、
前記不安定特定手段にて特定された不安定発声音高の中で、前記所定の条件を満たさない音高の音域を特定し、その特定された音域の中で前記安定発声域と異なる音域を不安定発声域として特定する不安域特定手段と
を備えることを特徴とする請求項３から請求項６までのいずれか一項に記載の情報処理装置。
前記音高特定手段にて特定された安定発声音高、及び前記声域特定手段で特定した安定発声域の少なくとも一方と、前記不安定特定手段にて特定された不安定発声音高、及び前記声域特定手段で特定した不安定発声域の少なくとも一方とを識別可能な態様で所定の表示部に表示させる第三表示手段と
を備えることを特徴とする請求項７に記載の情報処理装置。
前記声質評価手段は、前記母音発声波形それぞれにおけるケプストラムである発声ケプストラムそれぞれを導出し、前記発声ケプストラムそれぞれと、各母音のフォルマント構造におけるスペクトル包絡から導出したケプストラムそれぞれである基準値との相関係数を前記声質評価として導出する
ことを特徴とする請求項１から請求項８までのいずれか一項に記載の情報処理装置。
前記音声データ取得手段は、前記発声内容データについて発声されている音声波形に基づく音声データを順次取得し、
前記声質評価手段は、前記音声データ取得手段で音声データを取得するごとに、その取得された音声データによって表される音声波形において前記文字列が含む母音で発声された波形を示す母音発声波形と、前記母音の基準とから、前記母音発声波形の声質評価を前記所定の音高ごとに決定し、
前記音高特定手段は、前記声質評価手段にて声質評価が決定されるごとに、その決定された声質評価が所定の条件を満たすかを判定し、判定の結果、前記所定の条件を満たしていれば、当該声質評価に対応する母音発声波形の音高を前記安定発声音高として特定する
ことを特徴とする請求項１から請求項９までのいずれか一項に記載の情報処理装置。
所定の音高と、前記所定の音高にて発声される少なくとも２つの音の母音を含む文字列を表す発声内容データを取得する内容データ取得手順と、
前記発声内容データによって表される文字列について発声された音声波形を表す音声データを取得する音声データ取得手順と、
前記音声データ取得手順により取得された音声データによって表される音声波形において、前記文字列が含む母音で発声された波形を示す母音発声波形と、前記文字列が含む母音を構成する音に用意され、かつ、前記文字列が含む母音の基準とから、前記母音発声波形の声質評価を前記所定の音高について決定する声質評価手順と、
前記声質評価手順で前記所定の音高について決定された声質評価の中で所定の条件を満たす声質評価を特定し、その特定された声質評価に対応する母音発声波形の音高を安定発声音高として特定する音高特定手順と、
をコンピュータに実行させることを特徴とするプログラム。