JP2019060942A - 音声処理プログラム、音声処理方法および音声処理装置 - Google Patents

音声処理プログラム、音声処理方法および音声処理装置 Download PDF

Info

Publication number
JP2019060942A
JP2019060942A JP2017183588A JP2017183588A JP2019060942A JP 2019060942 A JP2019060942 A JP 2019060942A JP 2017183588 A JP2017183588 A JP 2017183588A JP 2017183588 A JP2017183588 A JP 2017183588A JP 2019060942 A JP2019060942 A JP 2019060942A
Authority
JP
Japan
Prior art keywords
band
input spectrum
input
speech
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017183588A
Other languages
English (en)
Other versions
JP6907859B2 (ja
Inventor
紗友梨 中山
Sayuri Nakayama
紗友梨 中山
太郎 外川
Taro Togawa
太郎 外川
猛 大谷
Takeshi Otani
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017183588A priority Critical patent/JP6907859B2/ja
Priority to US16/136,487 priority patent/US11069373B2/en
Publication of JP2019060942A publication Critical patent/JP2019060942A/ja
Application granted granted Critical
Publication of JP6907859B2 publication Critical patent/JP6907859B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)

Abstract

【課題】ピッチ周波数の推定精度を向上させること。【解決手段】音声処理装置100は、入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出する。音声処理装置100は、入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出する。音声処理装置100は、帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、入力スペクトルと選択帯域とを基にして、ピッチ周波数を検出する。【選択図】図3

Description

本発明は、音声処理プログラム等に関する。
近年、多くの企業では、顧客の満足度等を推定し、マーケティングを有利に進めるために、応答者と顧客との会話から、顧客(あるいは、応答者)の感情等に関する情報を獲得したいというニーズがある。人の感情は声に現れることが多く、たとえば、声の高さ(ピッチ周波数)は、人の感情を捉える場合に重要な要素の一つとなる。
ここで、音声の入力スペクトルに関する用語について説明する。図16は、入力スペクトルに関する用語を説明するための図である。図16に示すように、一般的に、人間の音声の入力スペクトル4は、極大値が等間隔に表れる。入力スペクトル4の横軸は周波数に対応する軸であり、縦軸は入力スペクトル4の大きさに対応する軸である。
最も低い周波数成分の音を「基音」とする。基音のある周波数をピッチ周波数とする。図16に示す例では、ピッチ周波数はfとなる。ピッチ周波数の整数倍に当たる各周波数成分(2f、3f、4f)の音を倍音とする。入力スペクトル4には、基音4a、倍音4b,4c,4dが含まれる。
続いて、ピッチ周波数を推定する従来技術の一例について説明する。図17は、従来技術を説明するための図(1)である。図17に示すように、この従来技術では、周波数変換部10と、相関算出部11と、探索部12とを有する。
周波数変換部10は、入力音声をフーリエ変換することで、入力音声の周波数スペクトルを算出する処理部である。周波数変換部10は、入力音声の周波数スペクトルを、相関算出部11に出力する。以下の説明では、入力音声の周波数スペクトルを、入力スペクトルと表記する。
相関算出部11は、様々な周波数のコサイン波と、入力スペクトルとの相関値を周波数毎にそれぞれ算出する処理部である。相関算出部11は、コサイン波の周波数と相関値とを対応づけた情報を、探索部12に出力する。
探索部12は、複数の相関値の内、最大の相関値に対応づけられたコサイン波の周波数を、ピッチ周波数として出力する処理部である。
図18は、従来技術を説明するための図(2)である。図18において、入力スペクトル5aは、周波数変換部10から出力された入力スペクトルである。入力スペクトル5aの横軸は周波数に対応する軸であり、縦軸はスペクトルの大きさに対応する軸である。
コサイン波6a,6bは、相関算出部11が受け付けるコサイン波の一部である。コサイン波6aは、周波数軸上で周波数f[Hz]とその倍数にピークを持つコサイン波である。コサイン波6bは、周波数軸上で周波数2f[Hz]とその倍数にピークを持つコサイン波である。
相関算出部11は、入力スペクトル5aと、コサイン波6aとの相関値「0.95」を算出する。相関算出部11は、入力スペクトル5aと、コサイン波6bとの相関値「0.40」を算出する。
探索部12は、各相関値を比較し、最大値となる相関値を探索する。図18に示す例では、相関値「0.95」が最大値となるため、探索部12は、相関値「0.95」に対応する周波数f「Hz」を、ピッチ周波数として出力する。なお、探索部12は、最大値が所定の閾値未満となる場合には、ピッチ周波数がないと判定する。
国際公開第2010/098130号 国際公開第2005/124739号
しかしながら、上述した従来技術では、ピッチ周波数の推定精度を向上させることができないという問題がある。
図19は、従来技術の問題を説明するための図である。たとえば、収録環境により、基音や倍音の一部が明瞭でない場合、コサイン波との相関値が小さくなり、ピッチ周波数を検出することが難しい。図19において、入力スペクトル5bの横軸は周波数に対応する軸であり、縦軸はスペクトルの大きさに対応する軸である。雑音等の影響により、入力スペクトル5bでは、基音3aが小さく、倍音3bが大きくなっている。
たとえば、相関算出部11は、入力スペクトル5bと、コサイン波6aとの相関値「0.30」を算出する。相関算出部11は、入力スペクトル5bと、コサイン波6bとの相関値「0.10」を算出する。
探索部12は、各相関値を比較し、最大値となる相関値を探索する。また、閾値を「0.4」とする。そうすると、探索部12は、最大値「0.30」が閾値未満なるため、ピッチ周波数がないと判定する。
1つの側面では、本発明は、ピッチ周波数の推定精度を向上させることができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。
第1の案では、コンピュータに次の処理を実行させる。コンピュータは、入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出する。コンピュータは、入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出する。コンピュータは、帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、入力スペクトルと選択帯域とを基にして、ピッチ周波数を検出する。
ピッチ周波数の推定精度を向上させることができる。
図1は、本実施例1に係る音声処理装置の処理を説明するための図である。 図2は、本実施例1に係る音声処理装置の効果の一例を説明するための図である。 図3は、本実施例1に係る音声処理装置の構成を示す機能ブロック図である。 図4は、表示画面の一例を示す図である。 図5は、本実施例1に係る選択部の処理を説明するための図である。 図6は、本実施例1に係る音声処理装置の処理手順を示すフローチャートである。 図7は、本実施例2に係る音声処理システムの一例を示す図である。 図8は、本実施例2に係る音声処理装置の構成を示す機能ブロック図である。 図9は、本実施例2に係る算出部の処理を補足するための図である。 図10は、本実施例2に係る音声処理装置の処理手順を示すフローチャートである。 図11は、本実施例3に係る音声処理システムの一例を示す図である。 図12は、本実施例3に係る収録サーバの構成を示す機能ブロック図である。 図13は、本実施例3に係る音声処理装置の構成を示す機能ブロック図である。 図14は、本実施例3に係る音声処理装置の処理手順を示すフローチャートである。 図15は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 図16は、入力スペクトルに関する用語を説明するための図である。 図17は、従来技術を説明するための図(1)である。 図18は、従来技術を説明するための図(2)である。 図19は、従来技術の問題を説明するための図である。
以下に、本願の開示する音声処理プログラム、音声処理方法および音声処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図1は、本実施例1に係る音声処理装置の処理を説明するための図である。音声処理装置は、入力信号を複数のフレームに分割し、フレームの入力スペクトルを算出する。入力スペクトル7aは、あるフレーム(過去のフレーム)から算出された入力スペクトルである。図1において、入力スペクトル7aの横軸は周波数に対応する軸であり、縦軸は入力スペクトルの大きさに対応する軸である。音声処理装置は、入力スペクトル7aを基にして、音声らしさの特徴量を算出し、音声らしさの特徴量を基にして、音声らしい帯域7bを学習する。音声処理装置は、他のフレームについても上記処理を繰り返し実行することで、音声らしい帯域7bを学習、更新する(ステップS10)。
音声処理装置は、ピッチ周波数の検出対象となるフレームを受け付けると、フレームの入力スペクトル8aを算出する。図1において、入力スペクトル8aの横軸は周波数に対応する軸であり、縦軸は入力スペクトルの大きさに対応する軸である。音声処理装置は、対象帯域8bのうち、ステップS10で学習した音声らしい帯域7bに対応する入力スペクトル8aに基づいて、ピッチ周波数を算出する(ステップS11)。
図2は、本実施例1に係る音声処理装置の効果の一例を説明するための図である。図2の各入力スペクトル9の横軸は周波数に対応する軸であり、縦軸は入力スペクトルの大きさに対応する軸である。
従来技術では、対象帯域8aの入力スペクトル9と、コサイン波との相関値を算出する。そうすると、収録環境の影響により、相関値(最大値)が小さくなり、検出漏れが発生する。図2に示す例では、相関値が0.30[Hz]となり、閾値以上とならず、推定値が「なし」となる。ここでは、一例として、閾値を「0.4」とする。
一方、本実施例1に係る音声処理装置は、図1で説明したように、収録環境の影響を受けにくい、音声らしい帯域7bを学習しておく。音声処理装置は、音声らしい帯域7bの入力スペクトル9と、コサイン波との相関値を算出する。そうすると、収録環境の影響を受けず、適切な相関値(最大値)が得られ、検出漏れを抑止し、ピッチ周波数の推定精度を向上させることができる。図2に示す例では、相関値が0.60[Hz]となり、閾値以上となり、適切な推定f[Hz]が検出される。
次に、本実施例1に係る音声処理装置の構成の一例について説明する。図3は、本実施例1に係る音声処理装置の構成を示す機能ブロック図である。図3に示すように、この音声処理装置100は、マイク50a、表示装置50bに接続される。
マイク50aは、話者から集音した音声(または音声以外)の信号を、音声処理装置100に出力する。以下の説明では、マイク50aが集音した信号を「入力信号」と表記する。たとえば、話者が発話している間に集音した入力信号には、音声が含まれる。また、音声には、背景雑音等が含まれる場合もある。
表示装置50bは、音声処理装置100が検出したピッチ周波数の情報を表示する表示装置である。表示装置50bは、液晶ディスプレイやタッチパネル等に対応する。図4は、表示画面の一例を示す図である。たとえば、表示装置50bは、時間とピッチ周波数との関係を示す表示画面60を表示する。図4において、横軸は時間に対応する軸であり、縦軸はピッチ周波数に対応する軸である。
図3の説明に戻る。音声処理装置100は、AD変換部110、周波数変換部120、算出部130、選択部140、検出部150を有する。
AD変換部110は、マイク50aから入力信号を受け付け、AD(Analog to Digital)変換を実行する処理部である。具体的には、AD変換部110は、入力信号(アナログ信号)を、入力信号(デジタル信号)に変換する。AD変換部110は、入力信号(デジタル信号)を、周波数変換部120に出力する。以下の説明では、AD変換部110から出力される入力信号(デジタル信号)を単に入力信号と表記する。
周波数変換部120は、入力信号x(n)を所定長の複数のフレームに分割し、各フレームに対してFFT(Fast Fourier Transform)を行うことで、各フレームのスペクトルX(f)を算出する。ここで、「x(n)」はサンプル番号nの入力信号を示す。「X(f)」は、周波数(周波数番号)fのスペクトルを示す。
周波数変換部120は、式(1)に基づいて、フレームのパワースペクトルP(l,k)を算出する。式(1)において、変数「l」はフレーム番号を示し、変数「f」は周波数番号を示す。以下の説明では、パワースペクトルを「入力スペクトル」と表記する。周波数変換部120は、入力スペクトルの情報を、算出部130および検出部150に出力する。
Figure 2019060942
算出部130は、入力スペクトルの情報を基にして、対象領域に含まれる各帯域の音声らしさの特徴量を算出する処理部である。算出部130は、式(2)に基づいて、平滑化パワースペクトルP’(m,f)を算出する。式(2)において、変数「m」はフレーム番号を示し、変数「f」は周波数番号を示す。算出部130は、各フレーム番号および各周波数番号に対応する平滑化パワースペクトルの情報を、選択部140に出力する。
Figure 2019060942
選択部140は、平滑化パワースペクトルの情報を基にして、全帯域(対象帯域)のうち、音声らしい帯域を選択する処理部である。以下の説明では、選択部140が選択した音声らしい帯域を「選択帯域」と表記する。以下において、選択部140の処理について説明する。
選択部140は、平滑化パワースペクトルの全帯域の平均値PAを、式(3)に基づいて算出する。式(3)において、Nは全帯域数を示すものである。Nの値は予め設定される。
Figure 2019060942
選択部140は、全帯域の平均値PAと、平滑化パワースペクトルとを比較することで、選択帯域を選択する。図5は、本実施例1に係る選択部の処理を説明するための図である。図5では、フレーム番号「m」のフレームから算出された平滑化パワースペクトルP’(m,f)を示す。図5の横軸は周波数に対応する軸であり、縦軸は平滑化パワースペクトルP’(m,f)の大きさに対応する軸である。
選択部140は、「平均値PA−20dB」の値と、平滑化パワースペクトルP’(m,f)とを比較し、「平滑化パワースペクトルP’(m,f)>平均値PA−20dB」となる帯域のうち、下限FLおよび上限FHを特定する。選択部140は、他のフレーム番号に対応する平滑化パワースペクトルP’(m,f)についても、同様に、下限FLおよび上限FHを特定する処理を繰り返し、下限FLの平均値、上限FHの平均値を特定する。
たとえば、選択部140は、式(4)に基づいて、FLの平均値FL’(m)を算出する。選択部140は、式(5)に基づいて、FHの平均値FH’(m)を算出する。式(4)、式(5)に含まれるαは、予め設定される値である。
FL’(m)=(1−α)×FL’(m−1)+α×FL(m)・・・(4)
FH’(m)=(1−α)×FH’(m−1)+α×FH(m)・・・(5)
選択部140は、FLの平均値FL’(m)から上限FH’(m)までの帯域を、選択帯域として選択する。選択部140は、選択帯域の情報を、検出部150に出力する。
検出部150は、入力スペクトルと、選択帯域の情報とを基にして、ピッチ周波数を検出する処理部である。以下において、検出部150の処理の一例について説明する。
検出部150は、式(6)および式(7)を基にして、入力スペクトルを正規化する。式(6)において、Pmaxは、P(f)の最大値を示すものである。Pn(f)は、正規化スペクトルを示すものである。
Figure 2019060942
Figure 2019060942
検出部150は、選択帯域での正規化スペクトルと、COS(コサイン)波形との一致度J(g)を、式(8)に基づいて算出する。式(8)において、変数「g」は、COS波形の周期を示す。FLは、選択部140に選択された平均値FL’(m)に対応するものである。FHは、選択部140に選択された平均値FH’(m)に対応するものである。
Figure 2019060942
検出部150は、式(9)に基づいて、最も一致度(相関)が大きくなる周期gを、ピッチ周波数F0として検出する。
Figure 2019060942
検出部150は、上記処理を繰り返し実行することで、各フレームのピッチ周波数を検出する。検出部150は、時間とピッチ周波数とを対応づけた表示画面の情報を生成し、表示装置50bに表示させてもよい。たとえば、検出部150は、フレーム番号「m」から、時間を推定する。
次に、本実施例1に係る音声処理装置100の処理手順について説明する。図6は、本実施例1に係る音声処理装置の処理手順を示すフローチャートである。図6に示すように、音声処理装置100は、マイク50aから入力信号を取得する(ステップS101)。
音声処理装置100の周波数変換部120は、入力スペクトルを算出する(ステップS102)。音声処理装置100の算出部130は、入力スペクトルを基にして、平滑化パワースペクトルを算出する(ステップS103)。
音声処理装置100の選択部140は、平滑化パワースペクトルの全帯域の平均値PAを算出する(ステップS104)。選択部140は、平均値PAと各帯域の平滑化パワースペクトルとを基にして、選択帯域を選択する(ステップS105)。
音声処理装置100の検出部150は、選択帯域に対応する入力スペクトルを基にして、ピッチ周波数を検出する(ステップS106)。検出部150は、ピッチ周波数を表示装置50bに出力する(ステップS107)。
音声処理装置100は、入力信号が終了しない場合には(ステップS108,No)、ステップS101に移行する。一方、音声処理装置100は、入力信号が終了した場合には(ステップS108,Yes)、処理を終了する。
次に、本実施例1に係る音声処理装置100の効果について説明する。音声処理装置100は、音声らしさの特徴量を基にして、収録環境の影響を受けにくい選択帯域を、対象帯域(全帯域)から選択しておき、選択した選択帯域の入力スペクトルを用いて、ピッチ周波数を検出する。これにより、ピッチ周波数の推定精度を向上させることができる。
音声処理装置100は、各フレームの入力スペクトルを平滑化した平滑化パワースペクトルを算出し、平滑化パワースペクトルの全帯域の平均値PAと、平滑化パワースペクトルとの比較により、選択帯域を選択する。これにより、音声らしい帯域を、選択帯域として精度よく選択することができる。なお、本実施例では一例として、入力スペクトルを用いて処理を行ったが、入力スペクトルの代わりに、SNRを用いて、選択帯域を選択してもよい。
図7は、本実施例2に係る音声処理システムの一例を示す図である。図7に示すように、この音声処理システムは、端末装置2a,2b、GW(Gate Way)15、収録機器20、クラウド網30を有する。端末装置2aは、電話網15aを介して、GW15に接続される。収録機器20は、個別網15bを介して、GW15、端末装置2b、クラウド網30に接続される。
クラウド網30は、音声DB(Data Base)30aと、DB30bと、音声処理装置200とを有する。音声処理装置200は、音声DB30aと、DB30bとに接続される。なお、音声処理装置200の処理は、クラウド網30上の複数のサーバ(図示略)によって実行されてもよい。
端末装置2aは、マイク(図示略)により集音された話者1aの音声(または音声以外)の信号を、GW15を介して、収録機器20に送信する。以下の説明では、端末装置2aから送信される信号を、第1信号と表記する。
端末装置2bは、マイク(図示略)により集音された話者1bの音声(または音声以外)の信号を、収録機器20に送信する。以下の説明では、端末装置2bから送信される信号を、第2信号と表記する。
収録機器20は、端末装置2aから受信する第1信号を収録し、収録した第1信号の情報を、音声DB30aに登録する。収録機器20は、端末装置2bから受信する第2信号を収録し、収録した第2信号の情報を、音声DB30aに登録する。
音声DB30aは、第1バッファ(図示略)と、第2バッファ(図示略)とを有する。たとえば、音声DB30aは、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
第1バッファは、第1信号の情報を保持するバッファである。第2バッファは、第2信号の情報を保持するバッファである。
DB30bは、音声処理装置200による、ピッチ周波数の推定結果を格納する。たとえば、DB30bは、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
音声処理装置200は、音声DB30aから第1信号を取得し、話者1aの発話のピッチ周波数を推定し、推定結果をDB30bに登録する。音声処理装置200は、音声DB30aから第2信号を取得し、話者1bの発話のピッチ周波数を推定し、推定結果をDB30bに登録する。以下の音声処理装置200に関する説明では、音声処理装置200が、音声DB30aから第1信号を取得し、話者1aの発話のピッチ周波数を推定する処理について説明する。なお、音声処理装置200が、音声DB30aから第2信号を取得し、話者1bの発話のピッチ周波数を推定する処理は、音声DB30aから第1信号を取得し、話者1aの発話のピッチ周波数を推定する処理に対応するため、説明を省略する。以下の説明では、第1信号を「入力信号」と表記する。
図8は、本実施例2に係る音声処理装置の構成を示す機能ブロック図である。図8に示すように、この音声処理装置200は、取得部205、AD変換部210、周波数変換部220、算出部230、選択部240、検出部250、登録部260を有する。
取得部205は、音声DB30aから入力信号を取得する処理部である。取得部205は、取得した入力信号をAD変換部210に出力する。
AD変換部210は、取得部205から入力信号を取得し、取得した入力信号に対してAD変換を実行する処理部である。具体的には、AD変換部210は、入力信号(アナログ信号)を、入力信号(デジタル信号)に変換する。AD変換部210は、入力信号(デジタル信号)を、周波数変換部220に出力する。以下の説明では、AD変換部210から出力される入力信号(デジタル信号)を単に入力信号と表記する。
周波数変換部220は、入力信号を基にして、フレームの入力スペクトルを算出する処理部である。周波数変換部220が、フレームの入力スペクトルを算出する処理は、周波数変換部120の処理に対応するため、説明を省略する。周波数変換部220は、入力スペクトルの情報を、算出部230および検出部250に出力する。
算出部230は、入力スペクトルの対象帯域(全帯域)を複数のサブ帯域に分割し、サブ帯域毎の変化量を算出する処理部である。算出部230は、時間方向の入力スペクトルの変化量を算出する処理、周波数方向の入力スペクトルの変化量を算出する処理を行う。
算出部230が、時間方向の入力スペクトルの変化量を算出する処理について説明する。算出部230は、前フレームの入力スペクトルと、現フレームの入力スペクトルとを基にして、サブ帯域における、時間方向の変化量を算出する。
たとえば、算出部130は、式(10)を基にして、時間方向の入力スペクトルの変化量Δを算出する。式(10)において、「NSUB」は、サブ帯域の全帯域数を示す。「m」は、現フレームのフレーム番号を示す。「l」は、サブ帯域番号である。
Figure 2019060942
図9は、本実施例2に係る算出部の処理を補足するための図である。たとえば、図9に示す入力スペクトル21は、フレーム番号mのフレームから検出された入力スペクトルを示す。横軸は周波数に対応する軸であり、縦軸は入力スペクトル21の大きさに対応する軸である。図9に示す例では、対象帯域が、複数のサブ帯域NSUB1〜NSUB5に分割されている。たとえば、サブ帯域NSUB1、NSUB2、NSUB3、NSUB4、NSUB5が、サブ帯域番号l=1〜5のサブ帯域に対応する。
続いて、算出部230が、周波数方向の入力スペクトルの変化量を算出する処理について説明する。算出部230は、現フレームの入力スペクトルを基にして、サブ帯域における入力スペクトルの変化量を算出する。
たとえば、算出部230は、式(11)を基にして、周波数方向の入力スペクトルの変化量Δを算出する。算出部230は、図9で説明した、各サブ帯域について、上記処理を繰り返し実行する。
Figure 2019060942
算出部230は、サブ帯域毎の、時間方向の入力スペクトルの変化量Δおよび周波数の入力スペクトルの変化量Δの情報を、選択部240に出力する。
選択部240は、サブ帯域毎の、時間方向の入力スペクトルの変化量Δおよび周波数の入力スペクトルの変化量Δの情報を基にして、選択帯域を選択する処理部である。選択部240は、選択帯域の情報を、検出部250に出力する。
選択部240は、式(12)を基にして、サブ帯域番号「l」のサブ帯域が、選択帯域であるか否かを判定する。式(12)において、SL(l)は、選択帯域フラグであり、SL(l)=1の場合には、サブ帯域番号「l」のサブ帯域が、選択帯域であることを示す。
Figure 2019060942
式(12)に示すように、たとえば、選択部240は、変化量Δが閾値THより大きく、かつ、変化量Δが閾値THより大きい場合には、サブ帯域番号「l」のサブ帯域が選択帯域であると判定し、SL(l)=1に設定する。選択部240は、各サブ帯域番号についても同様の処理を実行することで、選択帯域を特定する。たとえば、SL(2)およびSL(3)の値が1で、他のSL(1)、SL(4)、SL(5)の値が0である場合には、図9に示すNSUB2、NSUB3が選択帯域となる。
検出部250は、入力スペクトルと、選択帯域の情報とを基にして、ピッチ周波数を検出する処理部である。以下において、検出部250の処理の一例について説明する。
検出部250は、検出部150と同様にして、式(6)、式(7)を基にして、入力スペクトルを正規化する。正規化した入力スペクトルを、正規化スペクトルと表記する。
検出部250は、選択帯域と判定されたサブ帯域の正規化スペクトルと、COS(コサイン)波形との一致度JSUB(g,l)を、式(13)に基づいて算出する。式(13)の「L」は、サブ帯域の総数を示す。なお、式(13)に示すように、選択帯域に対応しないサブ帯域の正規化スペクトルと、COS(コサイン)波形との一致度JSUB(g,l)は0となる。
Figure 2019060942
検出部250は、式(14)を基にして、各サブ帯域の一致度JSUB(g,k)のうち、最大となる一致度J(g)を検出する。
Figure 2019060942
検出部250は、式(15)を基にして、一致度が最大となるサブ帯域(選択帯域)の正規化スペクトルとCOS波形との周期gを、ピッチ周波数F0として検出する。
Figure 2019060942
検出部250は、上記処理を繰り返し実行することで、各フレームのピッチ周波数を検出する。検出部250は、検出した各フレームのピッチ周波数の情報を、登録部260に出力する。
登録部260は、検出部250により検出された各フレームのピッチ周波数の情報を、DB30bに登録する処理部である。
次に、本実施例2に係る音声処理装置200の処理手順について説明する。図10は、本実施例2に係る音声処理装置の処理手順を示すフローチャートである。図10に示すように、この音声処理装置200の取得部205は、入力信号を取得する(ステップS201)。
音声処理装置200の周波数変換部220は、入力スペクトルを算出する(ステップS202)。音声処理装置200の算出部230は、時間方向の入力スペクトルの変化量Δを算出する(ステップS203)。算出部230は、周波数方向の入力スペクトルの変化量Δを算出する(ステップS204)。
音声処理装置200の選択部240は、選択帯域となるサブ帯域を選択する(ステップS205)。音声処理装置200の検出部250は、選択帯域に対応する入力スペクトルを基にして、ピッチ周波数を検出する(ステップS206)。登録部260は、ピッチ周波数をDB30bに出力する(ステップS207)。
音声処理装置200は、入力信号が終了した場合には(ステップS208,Yes)、処理を終了する。一方、音声処理装置200は、入力信号が終了していない場合には(ステップS208,No)、ステップS201に移行する。
次に、本実施例2に係る音声処理装置200の効果について説明する。音声処理装置200は、入力スペクトルの時間方向の変化量Δおよび周波数方向の変化量Δを基にして、選択帯域となる帯域を、複数のサブ帯域から選択し、選択した選択帯域の入力スペクトルを用いて、ピッチ周波数を検出する。これにより、ピッチ周波数の推定精度を向上させることができる。
また、音声処理装置200は、サブ帯域毎に、入力スペクトルの時間方向の変化量Δおよび周波数方向の変化量Δを算出し、音声らしい選択帯域を選択するため、音声らしい帯域を精度よく選択することができる。
図11は、本実施例3に係る音声処理システムの一例を示す図である。図11に示すように、この音声処理システムは、端末装置2a,2b、GW15、収録サーバ40、クラウド網50を有する。端末装置2aは、電話網15aを介して、GW15に接続される。端末装置2bは、個別網15bを介してGW15に接続される。GW15は、収録サーバ40に接続される。収録サーバ40は、保守網45を介して、クラウド網50に接続される。
クラウド網50は、音声処理装置300と、DB50cとを有する。音声処理装置300は、DB50cに接続される。なお、音声処理装置300の処理は、クラウド網50上の複数のサーバ(図示略)によって実行されてもよい。
端末装置2aは、マイク(図示略)により集音された話者1aの音声(または音声以外)の信号を、GW15に送信する。以下の説明では、端末装置2aから送信される信号を、第1信号と表記する。
端末装置2bは、マイク(図示略)により集音された話者1bの音声(または音声以外)の信号を、GW15に送信する。以下の説明では、端末装置2bから送信される信号を、第2信号と表記する。
GW15は、端末装置2aから受信した第1信号を、GW15の記憶部(図示略)の第1バッファに格納するとともに、第1信号を、端末装置2bに送信する。GW15は、端末装置2bから受信した第2信号を、GW15の記憶部の第2バッファに格納するとともに、第2信号を、端末装置2aに送信する。また、GW15は、収録サーバ40との間でミラーリングを行い、GW15の記憶部の情報を、収録サーバ40の記憶部に登録する。
収録サーバ40は、GW15との間でミラーリングを行うことで、収録サーバ40の記憶部(後述する記憶部42)に第1信号の情報と、第2信号の情報とを登録する。収録サーバ40は、第1信号を周波数変換することで、第1信号の入力スペクトルを算出し、算出した第1信号の入力スペクトルの情報を、音声処理装置300に送信する。収録サーバ40は、第2信号を周波数変換することで、第2信号の入力スペクトルを算出し、算出した第2信号の入力スペクトルの情報を、音声処理装置300に送信する。
DB50cは、音声処理装置300による、ピッチ周波数の推定結果を格納する。たとえば、DB50cは、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
音声処理装置300は、収録サーバ40から受け付ける第1信号の入力スペクトルを基にして、話者1aのピッチ周波数を推定し、推定結果をDB50cに格納する。収録サーバ40から受け付ける第2信号の入力スペクトルを基にして、話者1bのピッチ周波数を推定し、推定結果をDB50cに格納する。
図12は、本実施例3に係る収録サーバの構成を示す機能ブロック図である。図12に示すように、この収録サーバ40は、ミラーリング処理部41と、記憶部42と、周波数変換部43と、送信部44とを有する。
ミラーリング処理部41は、GW15とデータ通信を実行することでミラーリングを行う処理部である。たとえば、ミラーリング処理部41は、GW15から、GW15の記憶部の情報を取得し、取得した情報を、記憶部42に登録および更新する。
記憶部42は、第1バッファ42aと第2バッファ42bとを有する。記憶部42は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
第1バッファ42aは、第1信号の情報を保持するバッファである。第2バッファ42bは、第2信号の情報を保持するバッファである。第1バッファ42aに格納された第1信号および第2バッファ42bに格納された第2信号は、AD変換済みの信号であるものとする。
周波数変換部43は、第1バッファ42aから第1信号を取得し、第1信号を基にして、フレームの入力スペクトルを算出する。また、周波数変換部43は、第2バッファ42bから第2信号を取得し、第2信号を基にして、フレームの入力スペクトルを算出する。以下の説明では、第1信号または第2信号をとくに区別する場合を除いて「入力信号」と表記する。周波数変換部43が、入力信号のフレームの入力スペクトルを算出する処理は、周波数変換部120の処理に対応するため、説明を省略する。周波数変換部43は、入力信号の入力スペクトルの情報を、送信部44に出力する。
送信部44は、入力信号の入力スペクトルの情報を、保守網45を介して、音声処理装置300に送信する。
続いて、図11で説明した音声処理装置300の構成について説明する。図13は、本実施例3に係る音声処理装置の構成を示す機能ブロック図である。図13に示すように、この音声処理装置300は、受信部310と、検出部320と、選択部330と、登録部340とを有する。
受信部310は、収録サーバ40の送信部44から、入力信号の入力スペクトルの情報を受信する処理部である。受信部310は、入力スペクトルの情報を、検出部320に出力する。
検出部320は、選択部330と協働して、ピッチ周波数を検出する処理部である。検出部320は、検出したピッチ周波数の情報を、登録部340に出力する。以下において、検出部320の処理の一例について説明する。
検出部320は、検出部150と同様にして、式(6)、式(7)を基にして、入力スペクトルを正規化する。正規化した入力スペクトルを、正規化スペクトルと表記する。
検出部320は、式(16)を基にして、正規化スペクトルとCOS波形の相関をサブ帯域毎に算出する。式(16)において、RSUB(g,l)は、周期「g」のCOS波形と、サブ帯域番号「l」のサブ帯域の正規化スペクトルとの相関である。
Figure 2019060942
検出部320は、式(17)に基づいて、サブ帯域の相関が閾値TH以上の場合にのみ、全帯域の相関R(g)に加算する処理を行う。
Figure 2019060942
説明の便宜上、COS波形の周期を「g、g、g」として、検出部320の説明を行う。たとえば、式(16)に基づく計算により、RSUB(g,l)(l=1、2、3、4、5)のうち、閾値TH以上となるものが、RSUB(g,1)、RSUB(g,2)、RSUB(g,3)であるとする。この場合には、相関R(g)=RSUB(g,1)+RSUB(g,2)+RSUB(g,3)となる。
式(16)に基づく計算により、RSUB(g,l)(l=1、2、3、4、5)のうち、閾値TH以上となるものが、RSUB(g,2)、RSUB(g,3)、RSUB(g,4)であるとする。この場合には、相関R(g)=RSUB(g,2)+RSUB(g,3)+RSUB(g,4)となる。
式(16)に基づく計算により、RSUB(g,l)(l=1、2、3、4、5)のうち、閾値TH以上となるものが、RSUB(g,3)、RSUB(g,4)、RSUB(g,5)であるとする。この場合には、相関R(g)=RSUB(g,3)+RSUB(g,4)+RSUB(g,5)となる。
検出部320は、各相関R(g)の情報を選択部330に出力する。選択部330は、各相関R(g)を基にして、選択帯域を選択する。選択部330は、各相関R(g)のうち、最大となる相関R(g)に対応するサブ帯域が選択帯域となる。たとえば、上記の相関R(g)、相関R(g)、相関R(g)のうち、相関R(g)が最大となる場合には、選択帯域は、サブ帯域番号「2、3、4」のサブ帯域が、選択帯域となる。
検出部320は、式(18)を基にして、ピッチ周波数F0を算出する。式(18)に示す例では、各相関R(g)のうち、最大となる相関R(g)の周期「g」を、ピッチ周波数F0として算出する。
Figure 2019060942
なお、検出部320は、選択部330から、選択帯域の情報を受け付け、かかる選択帯域から算出した相関R(g)を、各相関R(g)から検出し、検出した相関R(g)の周期「g」を、ピッチ周波数F0として検出してもよい。
登録部340は、検出部330により検出された各フレームのピッチ周波数の情報を、DB50cに登録する処理部である。
次に、本実施例3に係る音声処理装置300の処理手順について説明する。図14は、本実施例3に係る音声処理装置の処理手順を示すフローチャートである。図14に示すように、音声処理装置300の受信部310は、収録サーバ40から入力スペクトルの情報を受信する(ステップS301)。
音声処理装置300の検出部320は、正規化パワースペクトルとCOS波形との相関RSUBを、周期およびサブ帯域毎に算出する(ステップS302)。検出部320は、サブ帯域の相関RSUBが、閾値THより大きい場合において、全帯域の相関R(g)に加算する(ステップS303)。
検出部320は、各相関R(g)のうち、最も大きくなる相関R(g)に対応する周期をピッチ周波数として検出する(ステップS304)。音声処理装置300の登録部340は、ピッチ周波数を登録する(ステップS305)。
検出部320は、入力スペクトルが終了しない場合には(ステップS306,No)、ステップS301に移行する。一方、検出部320は、入力スペクトルが終了した場合には(ステップS306,Yes)、処理を終了する。
次に、本実施例3に係る音声処理装置300の効果について説明する。音声処理装置300は、周期の異なる複数のコサイン波形と、前記各帯域に対する入力スペクトルと各相関を算出し、各相関のうち、最も大きくなる相関を算出する際に用いたコサイン波形の周期を、前記ピッチ周波数として検出する。これにより、ピッチ周波数の推定精度を向上させることができる。
次に、上記実施例に示した音声処理装置100,200,300と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図15は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図15に示すように、コンピュータ400は、各種演算処理を実行するCPU401と、ユーザからのデータの入力を受け付ける入力装置402と、ディスプレイ403とを有する。また、コンピュータ400は、記憶媒体からプログラム等を読み取る読み取り装置404と、有線または無線ネットワークを介して収録機器等との間でデータの授受を行うインターフェース装置405とを有する。また、コンピュータ400は、各種情報を一時記憶するRAM406と、ハードディスク装置407とを有する。そして、各装置401〜407は、バス408に接続される。
ハードディスク装置407は、周波数変換プログラム407a、算出プログラム407b、選択プログラム407c、検出プログラム407dを有する。CPU401は、各プログラム407a〜407dを読み出してRAM406に展開する。
周波数変換プログラム407aは、周波数変換プロセス406aとして機能する。算出プログラム407bは、算出プロセス406bとして機能する。選択プログラム407cは、選択プロセス406cとして機能する。検出プログラム407dは、検出プロセス406dとして機能する。
周波数変換プロセス406aの処理は、周波数変換部120,220の処理に対応する。算出プロセス406bの処理は、算出部130,230の処理に対応する。選択プロセス406cの処理は、選択部140、240、330の処理に対応する。検出プロセス406dの処理は、検出部150,250,320の処理に対応する。
なお、各プログラム407a〜407dについては、必ずしも最初からハードディスク装置407に記憶させておかなくても良い。例えば、コンピュータ400に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ400が各プログラム407a〜407dを読み出して実行するようにしても良い。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)コンピュータに、
入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出し、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出し、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する
処理を実行させることを特徴とする音声処理プログラム。
(付記2)前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、各フレームの入力スペクトルのパワーまたはSNR(Signal Noise Ratio)を基に前記特徴量を算出することを特徴とする付記1に記載の音声処理プログラム。
(付記3)前記選択帯域を選択する処理は、前記対象帯域に対応する前記特徴量の平均値と、各帯域の前記特徴量とを基にして、前記選択帯域を選択することを特徴とする付記1または2に記載の音声処理プログラム。
(付記4)前記音声らしさの特徴量を算出する処理は、前記入力スペクトルの周波数方向の変化量を、前記特徴量として算出することを特徴とする付記1に記載の音声処理プログラム。
(付記5)前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、第1フレームの入力スペクトルと、前記第1フレームの後の第2フレームの入力スペクトルとの変化量を、前記特徴量として算出することを特徴とする付記4に記載の音声処理プログラム。
(付記6)前記選択帯域を選択する処理は、前記周波数方向の変化量と、前記第1フレームの入力スペクトルおよび前記第2フレームの入力スペクトルとの変化量とを基にして、前記選択帯域を選択することを特徴とする付記5に記載の音声処理プログラム。
(付記7)前記ピッチ周波数を検出する処理は、周期の異なる複数のコサイン波形と、前記各帯域に対する入力スペクトルと各相関を算出し、前記各相関のうち、最も大きくなる相関を算出する際に用いたコサイン波形の周期を、前記ピッチ周波数として検出することを特徴とする付記1に記載の音声処理プログラム。
(付記8)コンピュータが実行する音声処理方法であって、
入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出し、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出し、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する
処理を実行することを特徴とする音声処理方法。
(付記9)前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、各フレームの入力スペクトルのパワーまたはSNR(Signal Noise Ratio)を基に前記特徴量を算出することを特徴とする付記8に記載の音声処理方法。
(付記10)前記選択帯域を選択する処理は、前記対象帯域に対応する前記特徴量の平均値と、各帯域の前記特徴量とを基にして、前記選択帯域を選択することを特徴とする付記8または9に記載の音声処理方法。
(付記11)前記音声らしさの特徴量を算出する処理は、前記入力スペクトルの周波数方向の変化量を、前記特徴量として算出することを特徴とする付記8に記載の音声処理方法。
(付記12)前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、第1フレームの入力スペクトルと、前記第1フレームの後の第2フレームの入力スペクトルとの変化量を、前記特徴量として算出することを特徴とする付記11に記載の音声処理方法。
(付記13)前記選択帯域を選択する処理は、前記周波数方向の変化量と、前記第1フレームの入力スペクトルおよび前記第2フレームの入力スペクトルとの変化量とを基にして、前記選択帯域を選択することを特徴とする付記12に記載の音声処理方法。
(付記14)前記ピッチ周波数を検出する処理は、周期の異なる複数のコサイン波形と、前記各帯域に対する入力スペクトルと各相関を算出し、前記各相関のうち、最も大きくなる相関を算出する際に用いたコサイン波形の周期を、前記ピッチ周波数として検出することを特徴とする付記8に記載の音声処理方法。
(付記15)入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出する周波数変換部と、
前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出する算出部と、
前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択する選択部と、
前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する検出部と
を有することを特徴とする音声処理装置。
(付記16)前記周波数変換部は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記算出部は、各フレームの入力スペクトルのパワーまたはSNR(Signal Noise Ratio)を基に前記特徴量を算出することを特徴とする付記15に記載の音声処理装置。
(付記17)前記選択部は、前記対象帯域に対応する前記特徴量の平均値と、各帯域の前記特徴量とを基にして、前記選択帯域を選択することを特徴とする付記15または16に記載の音声処理装置。
(付記18)前記算出部は、前記入力スペクトルの周波数方向の変化量を、前記特徴量として算出することを特徴とする付記15に記載の音声処理装置。
(付記19)前記周波数変換部は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記算出部は、第1フレームの入力スペクトルと、前記第1フレームの後の第2フレームの入力スペクトルとの変化量を、前記特徴量として算出することを特徴とする付記18に記載の音声処理装置。
(付記20)前記選択部は、前記周波数方向の変化量と、前記第1フレームの入力スペクトルおよび前記第2フレームの入力スペクトルとの変化量とを基にして、前記選択帯域を選択することを特徴とする付記19に記載の音声処理装置。
(付記21)前記検出部は、周期の異なる複数のコサイン波形と、前記各帯域に対する入力スペクトルと各相関を算出し、前記各相関のうち、最も大きくなる相関を算出する際に用いたコサイン波形の周期を、前記ピッチ周波数として検出することを特徴とする付記1に記載の音声処理プログラム。
100,200,300 音声処理装置
120,220 周波数変換部
130,230 算出部
140、240、330 選択部
150,250,320 検出部

Claims (9)

  1. コンピュータに、
    入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出し、
    前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出し、
    前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、
    前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する
    処理を実行させることを特徴とする音声処理プログラム。
  2. 前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、各フレームの入力スペクトルのパワーまたはSNR(Signal Noise Ratio)を基に前記特徴量を算出することを特徴とする請求項1に記載の音声処理プログラム。
  3. 前記選択帯域を選択する処理は、前記対象帯域に対応する前記特徴量の平均値と、各帯域の前記特徴量とを基にして、前記選択帯域を選択することを特徴とする請求項1または2に記載の音声処理プログラム。
  4. 前記音声らしさの特徴量を算出する処理は、前記入力スペクトルの周波数方向の変化量を、前記特徴量として算出することを特徴とする請求項1に記載の音声処理プログラム。
  5. 前記入力スペクトルを算出する処理は、前記入力信号に含まれる各フレームから、前記入力スペクトルをそれぞれ算出し、前記音声らしさの特徴量を算出する処理は、第1フレームの入力スペクトルと、前記第1フレームの後の第2フレームの入力スペクトルとの変化量を、前記特徴量として算出することを特徴とする請求項4に記載の音声処理プログラム。
  6. 前記選択帯域を選択する処理は、前記周波数方向の変化量と、前記第1フレームの入力スペクトルおよび前記第2フレームの入力スペクトルとの変化量とを基にして、前記選択帯域を選択することを特徴とする請求項5に記載の音声処理プログラム。
  7. 前記ピッチ周波数を検出する処理は、周期の異なる複数のコサイン波形と、前記各帯域に対する入力スペクトルと各相関を算出し、前記各相関のうち、最も大きくなる相関を算出する際に用いたコサイン波形の周期を、前記ピッチ周波数として検出することを特徴とする請求項1に記載の音声処理プログラム。
  8. コンピュータが実行する音声処理方法であって、
    入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出し、
    前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出し、
    前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択し、
    前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する
    処理を実行することを特徴とする音声処理方法。
  9. 入力信号を周波数変換することで、前記入力信号から入力スペクトルを算出する周波数変換部と、
    前記入力スペクトルを基にして、対象帯域に含まれる各帯域に対する音声らしさの特徴量を算出する算出部と、
    前記帯域毎の音声らしさの特徴量を基にして、前記対象帯域から選択帯域を選択する選択部と、
    前記入力スペクトルと前記選択帯域とを基にして、ピッチ周波数を検出する検出部と
    を有することを特徴とする音声処理装置。
JP2017183588A 2017-09-25 2017-09-25 音声処理プログラム、音声処理方法および音声処理装置 Active JP6907859B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017183588A JP6907859B2 (ja) 2017-09-25 2017-09-25 音声処理プログラム、音声処理方法および音声処理装置
US16/136,487 US11069373B2 (en) 2017-09-25 2018-09-20 Speech processing method, speech processing apparatus, and non-transitory computer-readable storage medium for storing speech processing computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017183588A JP6907859B2 (ja) 2017-09-25 2017-09-25 音声処理プログラム、音声処理方法および音声処理装置

Publications (2)

Publication Number Publication Date
JP2019060942A true JP2019060942A (ja) 2019-04-18
JP6907859B2 JP6907859B2 (ja) 2021-07-21

Family

ID=65808468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017183588A Active JP6907859B2 (ja) 2017-09-25 2017-09-25 音声処理プログラム、音声処理方法および音声処理装置

Country Status (2)

Country Link
US (1) US11069373B2 (ja)
JP (1) JP6907859B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005037617A (ja) * 2003-07-18 2005-02-10 Fujitsu Ltd 音声信号の雑音低減装置
WO2005124739A1 (ja) * 2004-06-18 2005-12-29 Matsushita Electric Industrial Co., Ltd. 雑音抑圧装置および雑音抑圧方法
WO2006006366A1 (ja) * 2004-07-13 2006-01-19 Matsushita Electric Industrial Co., Ltd. ピッチ周波数推定装置およびピッチ周波数推定方法
JP2008209546A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2009086476A (ja) * 2007-10-02 2009-04-23 Sony Corp 音声処理装置、音声処理方法、およびプログラム
JP2013140234A (ja) * 2011-12-29 2013-07-18 Yamaha Corp 音響処理装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
TW589618B (en) * 2001-12-14 2004-06-01 Ind Tech Res Inst Method for determining the pitch mark of speech
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
WO2006120829A1 (ja) * 2005-05-13 2006-11-16 Matsushita Electric Industrial Co., Ltd. 混合音分離装置
KR101248353B1 (ko) 2005-06-09 2013-04-02 가부시키가이샤 에이.지.아이 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램
JP4961565B2 (ja) 2005-08-01 2012-06-27 国立大学法人九州工業大学 音声検索装置及び音声検索方法
US8184676B2 (en) * 2008-06-27 2012-05-22 Csr Technology Inc. Method and apparatus for mitigating the effects of CW interference via post correlation processing in a GPS receiver
CN101430882B (zh) * 2008-12-22 2012-11-28 无锡中星微电子有限公司 一种抑制风噪声的方法及装置
BRPI1008915A2 (pt) 2009-02-27 2018-01-16 Panasonic Corp dispositivo de determinação de tom e método de determinação de tom
KR101606598B1 (ko) * 2009-09-30 2016-03-25 한국전자통신연구원 특이값 분해를 이용한 백색가우시안 잡음대역 결정 시스템 및 그 방법
JP5746974B2 (ja) * 2009-11-13 2015-07-08 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置およびこれらの方法
WO2013125257A1 (ja) * 2012-02-20 2013-08-29 株式会社Jvcケンウッド 雑音信号抑制装置、雑音信号抑制方法、特殊信号検出装置、特殊信号検出方法、報知音検出装置、および、報知音検出方法
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US9183849B2 (en) * 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
MX352099B (es) * 2013-06-21 2017-11-08 Fraunhofer Ges Forschung Método y aparato para obtener coeficientes de espectro para un cuadro de reemplazo de una señal de audio, decodificador de audio, receptor de audio y sistema para transmitir señales de audio.
CN106409300B (zh) * 2014-03-19 2019-12-24 华为技术有限公司 用于信号处理的方法和装置
CN105530565B (zh) * 2014-10-20 2021-02-19 哈曼国际工业有限公司 自动声音均衡装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005037617A (ja) * 2003-07-18 2005-02-10 Fujitsu Ltd 音声信号の雑音低減装置
WO2005124739A1 (ja) * 2004-06-18 2005-12-29 Matsushita Electric Industrial Co., Ltd. 雑音抑圧装置および雑音抑圧方法
WO2006006366A1 (ja) * 2004-07-13 2006-01-19 Matsushita Electric Industrial Co., Ltd. ピッチ周波数推定装置およびピッチ周波数推定方法
JP2008209546A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP2009086476A (ja) * 2007-10-02 2009-04-23 Sony Corp 音声処理装置、音声処理方法、およびプログラム
JP2013140234A (ja) * 2011-12-29 2013-07-18 Yamaha Corp 音響処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
茂木 沙織 他: "基本周波数抽出のための帯域制限の効果について", 日本音響学会 2010年 春季研究発表会講演論文集CD−ROM, JPN6021020416, 10 March 2010 (2010-03-10), pages 307 - 308, ISSN: 0004519632 *

Also Published As

Publication number Publication date
US20190096431A1 (en) 2019-03-28
US11069373B2 (en) 2021-07-20
JP6907859B2 (ja) 2021-07-21

Similar Documents

Publication Publication Date Title
EP3723080B1 (en) Music classification method and beat point detection method, storage device and computer device
KR101153093B1 (ko) 다감각 음성 향상을 위한 방법 및 장치
RU2373584C2 (ru) Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков
RU2376722C2 (ru) Способ многосенсорного улучшения речи на мобильном ручном устройстве и мобильное ручное устройство
CN110164467A (zh) 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN104485117B (zh) 一种录音设备检测的方法及其系统
US20140337021A1 (en) Systems and methods for noise characteristic dependent speech enhancement
WO2016008311A1 (zh) 一种根据频域能量对音频信号进行检测的方法和装置
CN104685903A (zh) 用于音频干扰估计的方法和设备
JP2013222113A (ja) 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
JP2012155339A (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
WO2013142652A2 (en) Harmonicity estimation, audio classification, pitch determination and noise estimation
KR20080018163A (ko) 깨끗한 음성 사전 확률을 이용한 멀티센서 음성 향상
WO2013022918A1 (en) System and method for tracking sound pitch across an audio signal
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
CN113314147A (zh) 音频处理模型的训练方法及装置、音频处理方法及装置
JP2010097084A (ja) 携帯端末、拍位置推定方法および拍位置推定プログラム
JP5077847B2 (ja) 残響時間推定装置及び残響時間推定方法
CN104036785A (zh) 语音信号的处理方法和装置、以及语音信号的分析系统
JP2019060942A (ja) 音声処理プログラム、音声処理方法および音声処理装置
US11004463B2 (en) Speech processing method, apparatus, and non-transitory computer-readable storage medium for storing a computer program for pitch frequency detection based upon a learned value
JP2019146965A (ja) 生体情報測定装置、生体情報測定方法及びプログラム
JP6891736B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
US10825469B2 (en) System and method for voice activity detection and generation of characteristics respective thereof
Meissner The discrete Hilbert transform and its application to the analysis of reverberant decay of modal vibrations in enclosures

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210614

R150 Certificate of patent or registration of utility model

Ref document number: 6907859

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150