JP2011065044A - 音声処理装置、プログラム - Google Patents
音声処理装置、プログラム Download PDFInfo
- Publication number
- JP2011065044A JP2011065044A JP2009217173A JP2009217173A JP2011065044A JP 2011065044 A JP2011065044 A JP 2011065044A JP 2009217173 A JP2009217173 A JP 2009217173A JP 2009217173 A JP2009217173 A JP 2009217173A JP 2011065044 A JP2011065044 A JP 2011065044A
- Authority
- JP
- Japan
- Prior art keywords
- note
- period
- timing
- start timing
- sound pressure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
【解決手段】開始・終了タイミング推定処理では、入力音声の音圧推移に基づいて、発音開始タイミングと発音終了タイミングとを検出する(S610,S640)と共に、入力音声における周波数軌跡から、ビブラート期間を特定する(S730:YES)。その特定されたビブラート期間内に対応する発音開始タイミングを消去し(S750)、ビブラート期間外に対応する発音開始タイミングのみを残す。残された発音開始タイミングと、その発音開始タイミングと対となるべき発音終了タイミングとが存在すれば、その対となる発音開始タイミングと発音終了タイミングとの間の期間を音符期間とし、一方、残された2つの発音開始タイミングが、それらの発音開始タイミングの間に発音終了タイミングを挟むことなく存在すれば、2つの発音開始タイミングの間を音符期間とする。
【選択図】図10
Description
この特許文献1に記載の音声処理装置では、時間進行に沿って連続する2つの分析区間における平均音圧が、予め規定された規定値以上増加していれば、その連続する2つの分析区間のうち、時間進行において先の分析区間を音符開始タイミングとして特定する。そして、それら特定された音符開始タイミングに基づき、入力音声の時間進行に沿って連続する2つの音符開始タイミングの間を音符期間として推定している(以下、このような音符期間の推定技術を従来推定技術と称す)。
そこで、本発明は、音符期間を推定する技術において、推定精度を向上させることを目的とする。
その本発明の音声処理装置では、音圧推移特定手段が、入力音声から、その入力音声における音圧の時間進行に沿った推移を表す音圧推移を特定し、開始タイミング検出手段が、その特定された音圧推移が単調増加である区間にて、音圧推移に規定された第1規定期間における音圧の増加率が、時間進行に沿って最初に、予め規定された規定値以上となった時点それぞれを、音符開始タイミングとして検出する。ただし、ここでいう音符開始タイミングとは、音符期間の開始タイミングそれぞれである。
なお、ここでいう第1規定期間とは、音圧推移が単調増加である区間全体よりも短い期間であってもよいし、単調増加である区間全体でもよい。
複数によって音高推移の全体にわたって、かつ時間進行に沿って互いに連続するように規定された第2規定期間での音高推移である。
なお、音符期間推定手段が請求項3に記載のように構成されている場合、音符終了タイミングを表す時間進行上の時点は、期間内タイミングを除去する前に推定されたものでも良いし、期間内タイミングを除去した後に推定されたものでも良い。
このため、本発明の音符期間推定手段は、請求項6に記載のように、入力音声の時間進行に沿った終端を、期間内タイミングが除去された後の音符開始タイミングのうち、時間進行に沿った最後の音符開始タイミングと対となる音符終了タイミングとして特定するように構成されていても良い。
ただし、本発明のプログラムは、請求項7に記載のように、入力音声から、その入力音声の音圧推移を特定する音圧推移特定手順と、その特定された音圧推移が単調増加である区間での第1規定期間における音圧の増加率が、時間進行に沿って最初に規定値以上となった時点それぞれを、音符開始タイミングとして検出する開始タイミング検出手順と、音高推移に基づいて、ビブラート期間を特定するビブラート期間特定手順とをコンピュータに実行させる。さらに、本発明のプログラムは、開始タイミング検出手順にて検出された音符開始タイミングの中で、ビブラート期間内に対応する音符開始タイミングを期間内タイミングとし、開始タイミング検出手順での検出結果の中から、期間内タイミングを除去する期間内タイミング除去手順と、期間内タイミング除去手順にて、期間内タイミングが除去された後の前記音符開始タイミングそれぞれと対となる音符終了タイミングを特定すると共に、該対となる音符開始タイミングと音符終了タイミングとの間の期間それぞれを音符期間として推定する音符期間推定手順とをコンピュータに実行させる必要がある。
まず、図1は、本発明が適用された音声処理装置を備えた楽曲検索システムの概略構成を示すブロック図である。
〈楽曲検索システムについて〉
楽曲検索システム1は、利用者が発声することで入力された入力音声から、その音声を入力する際に利用者が意図したと推定される楽曲(以下、意図予想曲と称す)を検索するものである。
〈楽曲データについて〉
次に、記憶装置41に格納される楽曲データについて説明する。
また、ガイドメロディは、楽曲の主旋律(以下、基準旋律と称す)を形成する各構成音について、それぞれの音高及び音価が表された周知のデータである。具体的に、本実施形態における構成音の音長は、楽音出力開始時間及び楽音出力終了時間によって表されている。ただし、ここで言う楽音出力開始時間とは、その構成音の出力を開始するまでの当該楽曲の演奏開始からの時間であり、楽音出力終了時間とは、その構成音の出力を終了するまでの当該楽曲の演奏開始からの時間である。つまり、楽音出力開始時間と楽音出力終了時間との間の時間長が、当該構成音の音長となる。
〈音声処理装置について〉
次に、音声処理装置20について説明する。
このうち、ROM31は、電源が切断されても記憶内容を保持する必要のあるプログラムやデータを格納するものである。また、RAM32は、プログラムやデータを一時的に格納するものであり、記憶部28からの処理プログラムが転送されて格納されるものである。
〈楽曲検索処理について〉
次に、制御部30が実行する楽曲検索処理について説明する。
この楽曲検索処理は、マイクロホン24を介して入力された入力音声に基づく音声データが、少なくとも1つ記憶部28に格納された後、操作受付部23介して起動指令を受け付けると起動される。ここでの入力音声は、時間の進行に沿って、一定時間以上連続(継続)したものである。
続く、S120では、S110にて取得した音声データに対して、それぞれ周知のダウンサンプリング、直流成分の除去、ノイズ除去処理、コンプレッサ処理、及びノーマライズを事前処理として実行する。以下、S120にて事前処理が完了した音声データを処理済音声データと称す。
〈音高推定処理について〉
次に、楽曲検索処理のS130にて起動される音高推定処理について説明する。
この音高推定処理は、図3に示すように、起動されると、S310にて、処理済音声データを周波数解析する。この周波数解析として、本実施形態では、処理済音声データにおける予め規定されたサンプリング数の標本値をFFT(Fast Fourier Transform)する。なお、サンプリング数分の標本値は、処理済音声データの開始から終了までの間を、時間進行に沿った一部を重複させながら繰り返し取得される。これにより、入力音声の振幅スペクトル(即ち、周波数成分の分布)が、サンプリング数に対応する単位区間毎に導出される。
具体的には、1つの振幅スペクトルの各周波数成分における振幅値と、その振幅スペクトルにおける各周波数成分から規定周波数幅だけ増加させた周波数成分における振幅値との積和を、自己相関値として導出している。このため、規定周波数幅だけ変位させる毎に導出される自己相関値は、規定周波数幅だけ変位させた際に、基本周波数成分、またはその基本周波数の倍音成分が一致すると大きな値となる。
さらに、S350では、先のS330にて導出された自己相関値を平滑化微分することで、各単位区間における音声基本周波数f0の候補となる周波数を表す区間f0候補を検出する。
続くS370では、S350にて検出された区間f0候補それぞれの音声基本周波数f0としての尤度を表すf0候補信頼度を算出する信頼度算出処理を実行する。この信頼度算出処理にて導出されるf0候補信頼度は、尤度が高いほど大きな値となる。
そのS410での判定の結果、全ての単位区間について、S370及びS390を実行していなければ、S370へと戻る。そのようにして移行したS370では、前回のS370にてf0候補信頼度を算出した単位区間から、処理済音声データにおける時間進行に沿って次の単位区間を対象としてf0候補信頼度を算出し、その後、S390へと進む。
そのS430では、S390にて決定された単位区間毎の音声基本周波数f0を補正するf0補正処理を実行する。このf0補正処理は、単位区間毎の音声基本周波数f0を、入力音声における時間進行に沿って配置してなる周波数推移分布において、音声基本周波数f0が不連続とみなせる不連続領域に対して実行される。
〈信頼度算出処理について〉
次に、音高推定処理のS370にて起動される信頼度算出処理について説明する。
この信頼度算出処理は、図6に示すように、音高推定処理のS370にて起動されると、S3710では、1つの単位区間における全ての区間f0候補の中から、特定周波数帯に含まれる区間f0候補(以下、特定f0候補と称す)の自己相関値を抽出する。ただし、本実施形態における特定f0候補は、特定周波数帯に含まれる区間f0候補の中で、最低周波数に対応するものである。なお、特定周波数帯とは、自己相関値の導出によって自動的に規定される下限周波数から上限周波数までの周波数帯である。
その後、本信頼度算出処理を終了して、音高推定処理のS390へと戻る。
〈f0補正処理について〉
次に、音高推定処理のS430にて起動されるf0補正処理について説明する。
このf0補正処理は、図8に示すように、起動されると、まず、S4310では、先の音高推定処理のS310にて周波数解析を実行した全ての単位区間の中から、1つの単位区間を選択する。このS4310では、単位区間は、S4310に移行する毎に、処理済音声データの開始から、処理済音声データにおける時間進行に沿って1つずつ選択される。
その判定の結果、音声基本周波数f0が0[Hz]であれば、S4330へと進む。そのS4330では、区間カウンタを1つインクリメントして、S4310へと戻る。
そのS4340では、今回S4340に移行するまでの間、第1区間f0としていた音声基本周波数f0を第2区間f0とし、今回S4340へと移行する契機となり、かつS4310で選択された単位区間における音声基本周波数f0を第1区間f0として設定する。つまり、このS4340へと移行すると、処理済音声データの時間進行に沿って取得済みである音声基本周波数f0の中で、音声開始に近い単位区間における音声基本周波数f0を第2区間f0とし、音声終了に近い単位区間における音声基本周波数f0を第1区間f0としている。
そして、S4350での判定の結果、カウント値が第1規定値以上であれば、S4360へと進む。すなわち、処理済音声データの時間進行に沿って連続する非正規周波数区間の数が、第1規定値以上であれば、その連続する非正規周波数区間を、周波数推移分布における不連続領域として検出する。以下、第1規定値以上連続する非正規周波数区間を、長期不連続領域と称す。
ところで、S4350での判定の結果、カウント値が第1規定値未満であれば、S4370へと進む。そのS4370では、カウント値が1以上であるか否かを判定する。その判定の結果、カウント値が1以上であれば、S4380へと進む。つまり、入力音声の時間進行に沿って連続する非正規周波数区間の数が、1つ以上であり、かつ第1規定値未満であれば、その連続する非正規周波数区間を、周波数推移分布における不連続領域として検出する。以下、1つ以上かつ第1規定値未満連続する非正規周波数区間を、短期不連続領域と称す。
その後、S4400にて、処理済音声データに規定された全ての単位区間を、S4310にて選択済みであるか否かを判定する。その判定の結果、未選択の単位区間が存在すれば、S4310へと戻る。
なお、S4420での判定の結果、第1周波数比率が特別範囲以内であれば、周波数推移分布において、倍音誤検出領域が開始されていないものと判定して、S4400へと進む。そのS4400では、全ての単位区間の中に、未選択の単位区間が存在すれば(S4400:NO)、S4310へと戻る。
ここで、図9(A)は、f0補正処理を実行する前の周波数推移分布を示した図面であり、図9(B)は、f0補正処理を実行した後の周波数推移分布を示した図面である。
このため、S4310にて単位区間t2が選択されると、S4420にて否定判定され、音飛フラグが設定される。次に、S4310にて選択された単位区間t3における音声基本周波数f0_t3は、音声基本周波数f0_t1との比率が特別範囲を超える。このため、S4460にて肯定判定され、しかも、この時点での音飛値が第2規定値未満(このf0補正処理の動作の説明では、第2規定値を2以上とする)であることから、S4470では、否定判定となる。
そして、不連続領域として倍音誤検出領域や短期不連続領域が検出されると、f0補正処理では、それらの倍音誤検出領域や短期不連続領域を時間進行に沿って挟む直前の単位区間における音声基本周波数f0から、一定の変動幅で変動しながら順に、直後の単位区間における音声基本周波数f0へと到達するように補正する。一方、不連続領域として長期不連続領域が検出されると、f0補正処理では、その長期不連続領域に対して時間進行上直前の単位区間における音声基本周波数f0を、長期不連続領域を形成する単位区間における音声基本周波数f0とする。
〈開始・終了タイミング推定処理について〉
次に、楽曲検索処理のS150にて起動される開始・終了タイミング推定処理について説明する。
この開始・終了タイミング推定処理は、図10に示すように、起動されると、まず、S510にて、先の音高推定処理のS310にて周波数解析を実行した単位区間それぞれについて、各単位区間における音圧を導出する。その導出される音圧は、先のS310にて導出された振幅スペクトルにおけるスペクトル振幅値の総和である。
続く、S570では、S560にて導出された音圧増加率が、予め規定された規定閾値Th以上であるか否かを判定する。そのS570での判定の結果、音圧増加率が規定閾値Th以上であれば、S580へと進む。そして、S580では、発音カウンタを1つインクリメントする。
そのS770では、処理済音声データに設定された全ての単位区間を、判定対象区間として規定したか否かを判定する。その判定の結果、全ての単位区間が判定対象区間として規定されていなければ、S680へと戻り、新たな判定対象区間を設定して、S680へと進む。そして、全ての単位区間が判定対象区間として規定されるまで、S680〜S770を繰り返す。
つまり、本実施形態の開始・終了タイミング推定処理では、入力音声の音圧推移に基づいて、発音開始タイミングと発音終了タイミングとを検出すると共に、入力音声における音声基本周波数f0の時間進行に沿った推移(即ち、周波数軌跡)から、ビブラート期間を特定する。そして、開始・終了タイミング推定処理では、特定されたビブラート期間内に対応する発音開始タイミングを消去し、ビブラート期間外に対応する発音開始タイミングのみを残す。
〈採譜処理について〉
次に、楽曲検索処理のS190にて起動される採譜処理について説明する。
この採譜処理は、図13に示すように、起動されると、まず、S910にて、先の音高推定処理のS310にて周波数解析を実行した全ての単位区間の中から、1つの単位区間を選択する。このS910では、単位区間は、S910へと移行する毎に、処理済音声データの開始から、処理済音声データの時間進行に沿って順次選択される。
具体的に、本実施形態では、S930にて肯定判定されることで、S980へと進んだ場合には、第1開始タイミングを音符開始タイミングとし、発音終了タイミングを音符終了タイミングとする。一方、S950にて否定判定されることで、S980へと進んだ場合には、第2開始タイミングを音符開始タイミングとし、第1開始タイミングよりも処理済音声データの時間進行に沿って第1開始タイミングよりも設定時間長だけ前の時点を音符終了タイミングとする。そして、何れの場合にも、それら音符開始タイミングと音符終了タイミングとの間の期間を、音符期間として特定する。なお、本実施形態におけるS980では、特定した音符期間の期間長を音長として導出する。
続く、S1050では、処理済音声データに規定された全ての単位区間について、S910にて選択済みであるか否かを判定する。その判定の結果、未選択の単位区間が存在すれば、S910へと戻り、S910〜S1050を繰り返す。
つまり、本採譜処理では、処理済音声データの時間進行に沿って、発音開始タイミングと、その発音開始タイミングと対となるべき発音終了タイミングとが存在する場合には、その発音開始タイミングを音符開始タイミングとし、その発音終了タイミングを音符終了タイミングとする。また、処理済音声データの時間進行に沿って、2つの発音開始タイミングが、それらの発音開始タイミングの間に発音終了タイミングを挟むことなく存在する場合には、時間進行に沿った前の発音開始タイミングを音符開始タイミングとし、時間進行に沿った後の発音開始タイミングを音符終了タイミングとする。そして、何れの場合にも、それら音符開始タイミングと音符終了タイミングとの間の期間を、音符期間として特定する。
〈採譜結果照合処理について〉
次に、楽曲検索処理のS210にて起動される採譜結果照合処理について説明する。
この採譜結果照合処理は、図15に示すように、起動されると、S1210では、先の採譜処理にて生成された音声音符データを、処理済音声データの時間進行に沿って連続する予め規定された音符規定数毎に単語化(即ち、グループ化)する。この単語化に際しては、音声音符データの一部が互いに重複するように実施する。以下、単語化された音声音符データそれぞれを、単語音符データと称す。
そのS1280では、全ての基準音符データを単語化して、その単語化によって生成された比較音符データに、S1230にて取得した単語音符データを照合したか否かを判定する。その判定の結果、全ての比較音符データに単語音符データを照合していなければ、S1240へと戻る。そのようにして移行したS1240では、前回のS1240にて単語化した基準音符データと、基準旋律の時間進行に沿った一部が重複するように音符規定数分だけ、基準音符データを単語化して取得する。すなわち、新たな比較音符データを生成して、S1250へと進む。
なお、S1280での判定の結果、全ての基準音符データを単語化して、その単語化によって生成された比較音符データに、単語音符データを照合していれば、S1290へと進む。そのS1290では、全ての単語音符データを取得して、比較音符データに照合済みであるか否かを判定する。
なお、S1290にて肯定判定されると、S1300へと進む。そのS1300では、先のS1220にて決定された音符照合楽曲に対する楽曲内累積一致度の中で、値が最大のものを、その音符照合楽曲に対応する曲名データと対応付けて、記憶部28に記憶する。つまり、S1300にて曲名データと対応付けられる楽曲内累積一致度は、一つの音符照合楽曲に対する別音符照合サイクルの繰り返しにて導出された全楽曲内累積一致度の中で、値が最大のものである。
そのS1320では、S1300にて記憶部28に記憶された楽曲内累積一致度の中で、値が最大である楽曲内累積一致度に対応する楽曲を意図予想曲として特定する。さらに、S1320では、その特定された意図予想曲についての曲名データを取得し、取得された曲名データに対応する曲名を表示部22に表示すると共に、その曲名をスピーカ27から音声にて出力する。すなわち、意図予想曲の曲名が報知される。
つまり、本実施形態の採譜結果照合処理では、採譜処理にて生成された音声音符データを、楽曲毎に予め用意された基準音符データに照合する。そして、その照合結果として、処理済音声データの時間進行に沿って連続する音声音符データが、音符照合楽曲の基準旋律における時間進行に沿って連続して一致する比較音符データの数が多いほど、大きな値の楽曲内累積一致度を導出する。そして、本実施形態の採譜結果照合処理では、導出された楽曲内累積一致度の中で、値が最も高いものに対応する楽曲を、意図予想曲として検出している。
[実施形態の効果]
以上説明したように、本実施形態の開始・終了タイミング推定処理では、検出された発音開始タイミングの中から、ビブラート期間内に対応する発音開始タイミングを消去し、ビブラート期間外に対応する発音開始タイミングのみを残す。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
なお、上記実施形態では、音声処理装置20にて楽曲検索処理を実行していたが、楽曲検索処理は、サーバ40にて実行されていても良い。この場合、音声データが、音声処理装置20からサーバ40に転送される必要がある。
上記実施形態における楽曲検索処理では、S210にて採譜結果照合処理を実行していたが、楽曲検索処理として実行される内容として、このS210は省略されていても良い。つまり、上記実施形態における音声処理装置20は、いわゆる採譜装置として構成されたものでも良い。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との対応関係について説明する。
Claims (7)
- 時間進行に沿って連続した入力音声から、1つの音符とみなせる期間それぞれを表す音符期間を推定する音声処理装置であって、
前記入力音声における音圧の時間進行に沿った推移を表す音圧推移を、前記入力音声から特定する音圧推移特定手段と、
前記音符期間の開始タイミングそれぞれを音符開始タイミングとし、前記音圧推移特定手段にて特定された音圧推移が単調増加である区間にて、前記音圧推移に規定された第1規定期間における音圧の増加率が、時間進行に沿って最初に、予め規定された規定値以上となった時点それぞれを、前記音符開始タイミングとして検出する開始タイミング検出手段と、
前記入力音声中にてビブラートにより発声された期間をビブラート期間とし、前記入力音声における音高の時間進行に沿った推移を表す音高推移に基づいて、前記ビブラート期間を特定するビブラート期間特定手段と、
前記開始タイミング検出手段にて検出された音符開始タイミングの中で、前記ビブラート特定手段にて特定されたビブラート期間内に対応する音符開始タイミングを期間内タイミングとし、前記開始タイミング検出手段での検出結果の中から、前記期間内タイミングを除去する期間内タイミング除去手段と、
前記期間内タイミング除去手段にて前記期間内タイミングが除去された後の前記音符開始タイミングそれぞれと対となる音符終了タイミングを特定すると共に、該対となる音符開始タイミングと音符終了タイミングとの間の期間それぞれを前記音符期間として推定する音符期間推定手段と
を備えることを特徴とする音声処理装置。 - 前記ビブラート期間特定手段は、
前記音高推移の全体にわたって、かつ時間進行に沿って互いに連続するように規定された複数の期間それぞれを第2規定期間とし、前記第2規定期間での前記音高推移を期間音高推移とし、前記期間音高推移における音高の変動幅が、予め規定された規定幅以下であれば、該期間音高推移にて音高が増加する増加区間、及び音高が減少する減少区間を検出する増減検出手段と、
前記増減検出手段にて検出された増加区間及び減少区間の数が、予め規定された規定数以上であれば、該期間音高推移に対応する第2規定期間を前記ビブラート期間として特定する期間特定手段と
を備えることを特徴とする請求項1に記載の音声処理装置。 - 前記音符期間推定手段は、
前記音圧推移における音圧が、前記期間内タイミングが除去された後の前記音符開始タイミング以降、最初に、該音符開始タイミングにおける音圧以下となった音圧変動時点を、該音符開始タイミングと対となる前記音符終了タイミングとして特定する
ことを特徴とする請求項1または請求項2に記載の音声処理装置。 - 前記音符期間推定手段は、
前記期間内タイミングが除去された後の時間進行に沿って隣接する前記音符開始タイミングのうち、時間進行上、前の音符開始タイミングを前開始タイミングとし、後の音符開始タイミングを後開始タイミングとし、該後開始タイミングから予め設定された設定時間長だけ前の時点を、該前開始タイミングと対となる前記音符終了タイミングとして特定する
ことを特徴とする請求項1ないし請求項3のいずれか一項に記載の音声処理装置。 - 前記音符期間推定手段は、
前記後開始タイミングよりも時間進行上、前に、前記音圧推移における音圧が、前記前開始タイミングにおける音圧以下となった音圧変動時点が存在すれば、該音圧変動時点を前記前開始タイミングと対となる前記音符終了タイミングとして特定する
ことを特徴とする請求項4に記載の音声処理装置。 - 前記音符期間推定手段は、
前記入力音声の時間進行に沿った終端を、前記期間内タイミングが除去された後の前記音符開始タイミングのうち、時間進行に沿った最後の音符開始タイミングと対となる前記音符終了タイミングとして特定する
ことを特徴とする請求項1ないし請求項5のいずれか一項に記載の音声処理装置。 - 時間進行に沿って連続した入力音声から、1つの音符とみなせる期間を表す音符期間を推定する音声処理装置として、コンピュータを機能させるためのプログラムであって、
前記入力音声における音圧の時間進行に沿った推移を表す音圧推移を、前記入力音声から特定する音圧推移特定手順と、
前記音符期間それぞれの開始タイミングを音符開始タイミングとし、前記音圧推移特定手順にて特定された音圧推移が単調増加である区間にて、前記音圧推移に規定された第1規定期間における音圧の増加率が、時間進行に沿って最初に予め規定された規定値以上となった時点それぞれを、前記音符開始タイミングとして検出する開始タイミング検出手順と、
前記入力音声中にてビブラートにより発声された期間をビブラート期間とし、前記入力音声における音高の時間進行に沿った推移を表す音高推移に基づいて、前記ビブラート期間を特定するビブラート期間特定手順と、
前記開始タイミング検出手順にて検出された音符開始タイミングの中で、前記ビブラート特定手順にて特定されたビブラート期間内に対応する音符開始タイミングを期間内タイミングとし、前記開始タイミング検出手順での検出結果の中から、前記期間内タイミングを除去する期間内タイミング除去手順と、
前記期間内タイミング除去手順にて前記期間内タイミングが除去された後の前記音符開始タイミングそれぞれと対となる音符終了タイミングを特定すると共に、該対となる音符開始タイミングと音符終了タイミングとの間の期間それぞれを前記音符期間として推定する音符期間推定手順とを
コンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009217173A JP5549166B2 (ja) | 2009-09-18 | 2009-09-18 | 音声処理装置、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009217173A JP5549166B2 (ja) | 2009-09-18 | 2009-09-18 | 音声処理装置、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011065044A true JP2011065044A (ja) | 2011-03-31 |
JP5549166B2 JP5549166B2 (ja) | 2014-07-16 |
Family
ID=43951327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009217173A Active JP5549166B2 (ja) | 2009-09-18 | 2009-09-18 | 音声処理装置、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5549166B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014002217A (ja) * | 2012-06-15 | 2014-01-09 | Nippon Telegr & Teleph Corp <Ntt> | 発生音感知装置、方法、プログラム |
CN106997769A (zh) * | 2017-03-25 | 2017-08-01 | 腾讯音乐娱乐(深圳)有限公司 | 颤音识别方法及装置 |
US11205416B2 (en) * | 2018-12-04 | 2021-12-21 | Fujitsu Limited | Non-transitory computer-read able storage medium for storing utterance detection program, utterance detection method, and utterance detection apparatus |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01219636A (ja) * | 1988-02-29 | 1989-09-01 | Nec Home Electron Ltd | 自動採譜方法及び装置 |
JPH01219624A (ja) * | 1988-02-29 | 1989-09-01 | Nec Home Electron Ltd | 自動採譜方法及び装置 |
JPH10149160A (ja) * | 1996-11-20 | 1998-06-02 | Yamaha Corp | 音信号分析装置及び演奏情報発生装置 |
JP2004334240A (ja) * | 1996-11-20 | 2004-11-25 | Yamaha Corp | 音信号分析装置及び方法 |
JP2008268371A (ja) * | 2007-04-17 | 2008-11-06 | Yamaha Corp | リファレンスデータ編集装置、こぶし評価装置、リファレンスデータ編集方法、こぶし評価方法及びプログラム |
JP2008268369A (ja) * | 2007-04-17 | 2008-11-06 | Yamaha Corp | ビブラート検出装置、ビブラート評価装置、ビブラート検出方法、ビブラート評価方法およびプログラム |
-
2009
- 2009-09-18 JP JP2009217173A patent/JP5549166B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01219636A (ja) * | 1988-02-29 | 1989-09-01 | Nec Home Electron Ltd | 自動採譜方法及び装置 |
JPH01219624A (ja) * | 1988-02-29 | 1989-09-01 | Nec Home Electron Ltd | 自動採譜方法及び装置 |
JPH10149160A (ja) * | 1996-11-20 | 1998-06-02 | Yamaha Corp | 音信号分析装置及び演奏情報発生装置 |
JP2004334240A (ja) * | 1996-11-20 | 2004-11-25 | Yamaha Corp | 音信号分析装置及び方法 |
JP2008268371A (ja) * | 2007-04-17 | 2008-11-06 | Yamaha Corp | リファレンスデータ編集装置、こぶし評価装置、リファレンスデータ編集方法、こぶし評価方法及びプログラム |
JP2008268369A (ja) * | 2007-04-17 | 2008-11-06 | Yamaha Corp | ビブラート検出装置、ビブラート評価装置、ビブラート検出方法、ビブラート評価方法およびプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014002217A (ja) * | 2012-06-15 | 2014-01-09 | Nippon Telegr & Teleph Corp <Ntt> | 発生音感知装置、方法、プログラム |
CN106997769A (zh) * | 2017-03-25 | 2017-08-01 | 腾讯音乐娱乐(深圳)有限公司 | 颤音识别方法及装置 |
US11205416B2 (en) * | 2018-12-04 | 2021-12-21 | Fujitsu Limited | Non-transitory computer-read able storage medium for storing utterance detection program, utterance detection method, and utterance detection apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP5549166B2 (ja) | 2014-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110808039B (zh) | 信息处理装置、信息处理方法以及记录介质 | |
JP6024180B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP4738697B2 (ja) | 音声認識システムのための分割アプローチ | |
JP5621783B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
US20030200086A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
WO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
JP6699748B2 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
JP4205824B2 (ja) | 歌唱評価装置およびカラオケ装置 | |
JP2018040982A (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP5549166B2 (ja) | 音声処理装置、プログラム | |
JP5451982B2 (ja) | 支援装置、プログラムおよび支援方法 | |
JP6481939B2 (ja) | 音声認識装置および音声認識プログラム | |
JP4986028B2 (ja) | 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 | |
JPH11184491A (ja) | 音声認識装置 | |
JP5532880B2 (ja) | 音声認識装置 | |
JP2007233148A (ja) | 発話区間検出装置及び発話区間検出プログラム | |
JP2011065043A (ja) | 音高推定装置、プログラム | |
JP2011065041A (ja) | 基本周波数推定装置、採譜装置、及びプログラム | |
JP3578587B2 (ja) | 音声認識装置および音声認識方法 | |
JP6098422B2 (ja) | 情報処理装置、及びプログラム | |
JP2011065042A (ja) | 音声処理装置、プログラム | |
JP2002189487A (ja) | 音声認識装置および音声認識方法 | |
JP4807261B2 (ja) | 音声処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140422 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140505 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5549166 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |