JP7000773B2 - 音声処理プログラム、音声処理方法および音声処理装置 - Google Patents

音声処理プログラム、音声処理方法および音声処理装置 Download PDF

Info

Publication number
JP7000773B2
JP7000773B2 JP2017186584A JP2017186584A JP7000773B2 JP 7000773 B2 JP7000773 B2 JP 7000773B2 JP 2017186584 A JP2017186584 A JP 2017186584A JP 2017186584 A JP2017186584 A JP 2017186584A JP 7000773 B2 JP7000773 B2 JP 7000773B2
Authority
JP
Japan
Prior art keywords
calculated
frame
voice
audio signal
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017186584A
Other languages
English (en)
Other versions
JP2019061129A (ja
Inventor
太郎 外川
紗友梨 中山
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017186584A priority Critical patent/JP7000773B2/ja
Priority to US16/139,291 priority patent/US10885931B2/en
Publication of JP2019061129A publication Critical patent/JP2019061129A/ja
Application granted granted Critical
Publication of JP7000773B2 publication Critical patent/JP7000773B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声処理プログラム等に関する。
近年、多くの企業が顧客満足度を重視する傾向にあり、対応者と顧客との会話における、応対者の印象や顧客の感情を把握したいというニーズが高まっている。応対者の印象や、顧客の感情は、音声に現れることが多い。
たとえば、従来技術には、通話中の音声のピッチ周波数を検出し、音声の印象を判定するものがある。
特開2006-267465号公報 特開2006-227564号公報
しかしながら、上述した従来技術では、発話に関する印象を正確に推定することができない場合がある。
1つの側面では、本発明は、発話に関する印象を正確に推定することができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。
一態様では、音声処理プログラムは、音声信号を取得し、前記音声信号に関する音響特徴量を算出し、前記音声信号のフレームに関する音声パラメータを算出し、前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出し、前記相対値に応じて前記音声信号のフレームに重みを付与し、前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する、処理をコンピュータに実行させる。
発話に関する印象を正確に推定することができる。
図1は、参考技術によるピッチ周波数のヒストグラムの一例を示す図である。 図2は、参考技術の問題点を説明するための図である。 図3は、参考技術の問題点を説明するための図である。 図4は、音声らしさおよび重み係数の対応関係のグラフの一例を示す図である。 図5は、実施例1に係るシステムの構成を示す図である。 図6は、実施例1に係る音声処理装置の機能的構成の一例を示すブロック図である。 図7は、実施例1に係る音声処理の手順を示すフローチャートである。 図8は、ピッチ周波数の最頻値の一例を示す図である。 図9は、音声らしさおよび重み係数の対応関係のグラフの一例を示す図である。 図10は、音声らしさおよび重み係数の対応関係のグラフの一例を示す図である。 図11は、印象の評価値の時系列変化の一例を示す図である。 図12は、他の実装形態の一例を示す図である。 図13は、他の実装形態の一例を示す図である。 図14は、収録機器の機能的構成の一例を示すブロック図である。 図15は、他の実装形態の一例を示す図である。 図16は、実施例1及び実施例2に係る音声処理プログラムを実行するコンピュータのハードウェア構成例を示す図である。
以下に添付図面を参照して本願に係る音声処理プログラム、音声処理方法および音声処理装置について説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
実施例1の説明を行う前に、参考技術について説明する。この参考技術は、従来技術ではない。参考技術では、音声信号から所定の区間毎にピッチ周波数を検出し、各ピッチ周波数に基づくヒストグラムを生成する。参考技術は、生成したヒストグラムの広がりを基にして、声の明るさを評価する。ピッチ周波数は、基本周波数に対応するものである。
図1は、参考技術によるピッチ周波数のヒストグラムの一例を示す図である。図1に示すヒストグラムにおいて、横軸はピッチ周波数に対応する軸であり、縦軸は頻度に対応する軸である。参考技術では、頻度が所定頻度よりも大きくなる範囲を分布の広がりとして検出し、分布の広がりの広い、狭いにより、声の明るさを評価する。
図1に示す例において、参考技術は、範囲Aを、分布の広がりとして検出する。たとえば、参考技術は、範囲Aが、所定範囲よりも広い場合には、声が明るいと評価する。一方、参考技術は、範囲Aが、所定範囲よりも狭い場合には、声が暗いと評価する。
続いて、上述した参考技術の問題点について説明する。参考技術では、音声信号に話者の周囲から発せられる雑音、例えば話者以外の別の人物の話し声等が含まれる場合があり、これが原因となって分布の広がりの範囲を適切に特定できず、発話に関する印象を正確に推定できない場合がある。
図2および図3は、参考技術の問題点を説明するための図である。図2および図3には、女性の話者が発話する音声以外に、話者の周囲で発話する男性の音声が信号に含まれる場合が例示されている。
図2には、ピッチ周波数の時間変化のグラフが示されている。このグラフの縦軸は、ピッチ周波数を指し、横軸は、時間を指す。このグラフの下部には、音声信号から検出される発話区間T1及びT2が併せて示されている。
図2に示すように、発話区間T1では、話者のピッチ周波数の変化が観測される一方で、発話区間T2では、周囲雑音のピッチ雑音が観測される。このように、話者の音声だけでなく、周囲雑音も含まれるピッチ周波数からヒストグラムを生成する場合、図3に示すように、ヒストグラムの形状も周囲雑音の影響を受ける。
図3には、ピッチ周波数のヒストグラムの一例が示されている。図3に示すグラフの縦軸は、頻度を指し、横軸は、ピッチ周波数を指す。図3に示すように、発話区間T1で算出されるピッチ周波数だけを用いてヒストグラムが生成された場合、分布H1が形成される。この場合、分布H1の広がりは範囲W1となる。ところが、発話区間T1および発話区間T2で算出されるピッチ周波数を用いてヒストグラムが生成される場合、発話区間T2のピッチ周波数の影響を受ける結果、分布H2が形成される。一般に、女性の話者よりも低い声で発話する男性の話し声に対応する発話区間T2のピッチ周波数がヒストグラムの度数として計上されるので、女性の話者により単独で発話される場合よりもピッチ周波数が観測される帯域が広がる。この結果、分布H2の広がりは範囲W2となる。
これら範囲W1および範囲W2を比較すると、範囲W2の方が広くなるので、話者が同じピッチで発話を行ったとしても、周囲雑音が含まれる場合、声が明るいと評価されやすくなる。これにより、参考技術では、暗い声を、明るい声と誤判定する場合がある。
そこで、本実施例に係る音声処理装置には、音声信号のフレームから求まる音声パラメータと、その統計値との間の相対値を話者の音声らしさとして算出し、その音声らしさに応じて当該フレームに付与する度数の重みを変えてピッチ周波数の分布を生成する音声処理機能が実装される。
ここで言う「音声パラメータ」とは、音声信号に関する各種のパラメータを指す。例えば、音声信号の強度を始め、SNR(Signal Noise Ratio)、スペクトルパワー、自己相関などが挙げられる。
例えば、音声パラメータの一例としてフレームパワーが用いられる場合、音声信号の入力が開始されてから観測されるフレームパワーのうち最大値に対する相対値を算出することにより、話者の音声らしさが求められる。このように最大値に対するフレームパワーの相対値を求めるのは、音声信号に含まれる話者の成分および周囲雑音の成分の強度を比較すると、話者の成分の強度の方が十分に大きいと評価できるからである。つまり、フレームパワーが最大値に近づくほどそのフレームパワーが算出されたフレームは話者により発話された可能性が高まり、また、フレームパワーが最大値から遠ざかるほどそのフレームパワーが算出されたフレームが周囲雑音である可能性が高まると評価できる。
このような話者の音声らしさにしたがってヒストグラムを生成する場合、必ずしもヒストグラムの生成に用いるフレームの間でピッチ周波数が属する階級に対応する度数に加算する値を均一としない。すなわち、話者により発話が行われた可能性が高いフレームほど高い重みを付与する一方で、周囲雑音である可能性が高いフレームほど低い重みを付与する。例えば、図4に示す対応関係に基づいて、ピッチ周波数が算出されたフレームに重み係数が付与される。
図4は、音声らしさおよび重み係数の対応関係のグラフの一例を示す図である。図4に示すグラフの縦軸は、重み係数を指し、例えば、0から1までに正規化された値が用いられる。図4に示すグラフの横軸は、フレームパワーの最大値に対する相対値を指し、例えば、最大値からフレームパワーを減算することにより求められる。
図4に示すように、閾値TH3、例えば0dB以上の相対値が算出された場合、過去最大のフレームパワーと同値のフレームパワーが算出されたか、あるいは過去最大のフレームパワーの記録が更新されたフレームであると判明する。この場合、話者により発話が行われた可能性が高いフレームと言えるので、当該フレームには、重み係数「1」が付与される。一方、閾値TH2、例えば-15dB未満の相対値が算出された場合、過去の話者の発話と推定されるフレームパワーに比べて十分に小さいフレームパワーが計測されるフレームと判明する。この場合、周囲雑音である可能性が高いフレームと言えるので、当該フレームには、重み係数「0」が付与される。また、閾値TH2以上閾値TH3未満の相対値が算出された場合、当該フレームには、閾値TH3に近づくほど重み係数の最大値「1」に近く、閾値TH2に近づくほど重み係数の最小値「0」に近づく重み係数が付与される。
このようにフレームに付与された重み係数にしたがって、当該フレームで算出されたピッチ周波数の階級に対応する度数に加算する値の大きさを変えてピッチ周波数のヒストグラムが生成される。これによって、発話区間T1でピッチ周波数が算出されるフレームに大きい重みを付与すると共に発話区間T2でピッチ周波数が算出されるフレームに小さい重みを付与してピッチ周波数のヒストグラムを生成できる。この結果、図2に示す発話区間T2のピッチ周波数が図3に示すヒストグラムに与える影響を低減できるので、ヒストグラムの形状を分布H2から分布H1へ補正することができる。このようなヒストグラムの広がりに基づいて声の明るさを評価することにより、発話に関する印象を正確に推定することが可能になる。
続いて、本実施例に係る音声処理装置を含むシステムの構成の一例にいて説明する。図5は、実施例1に係るシステムの構成を示す図である。図5には、実施例1に係る音声処理装置の機能がコンピュータシステムに実装されるユースケースのあくまで一例として、コールセンタや銀行窓口などの顧客対応現場で運用されるシステムに音声処理装置の機能が実装される場合を例示する。
図5に示すシステムは、一側面として、顧客等に対応する話者1aおよびオペレータ等の応対者に対応する話者1bの間の通話において話者1aの声の明るさから話者1aに対する話者1bの印象、例えば顧客満足度を評価する機能を有する。
図5に示すように、システムは、電話機50と、交換機30a,30bと、音声処理装置100とを有する。電話機50は、スピーカ20aおよびマイク25aに接続される。音声処理装置100は、スピーカ20bおよびマイク25bに接続される。なお、スピーカ20aおよびマイク25a、あるいはスピーカ20bおよびマイク25bは、一体化することによりヘッドセットとして実装することもできる。
交換機30aと交換機30bとは、ネットワーク35を介して相互に接続される。交換機30aおよび交換機30bは、電話機50または音声処理装置100から送信される音声信号を中継する装置である。
電話機50は、話者1aの音声信号を、マイク25aを介して取得する。電話機50は、取得した話者1aの音声信号を、音声処理装置100に送信する。音声処理装置100に送信された音声信号は、スピーカ20bから出力される。
音声処理装置100は、上述した発話に関する印象を評価する機能の他に、通話機能を有する。音声処理装置100は、話者1bの音声信号を、マイク25bを介して取得する。音声処理装置100は、取得した話者1bの音声信号を、電話機50に送信する。電話機50に送信された音声信号は、スピーカ20aから出力される。
続いて、本実施例に係る音声処理装置100の機能的構成の一例について説明する。図6は、実施例1に係る音声処理装置の機能的構成の一例を示すブロック図である。図6に示すように、音声処理装置100は、受信部110、音声データ記憶部120、取得部130A、強度算出部130B、発話区間検出部130C、音響特徴量算出部130D、導出部130E、統計値記憶部130F、更新部130G、音声らしさ算出部130H、重み付与部130I、分布算出部130J、印象評価部130Kおよび表示部140を有する。なお、音声処理装置100は、図5で説明したような通話機能を有するが、この通話機能は、公知の通話機能と同様であるため、説明を省略する。
図6に示す受信部110、取得部130A、強度算出部130B、発話区間検出部130C、音響特徴量算出部130D、導出部130E、更新部130G、音声らしさ算出部130H、重み付与部130I、分布算出部130Jおよび印象評価部130Kなどの処理部は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などのハードウェアプロセッサにより仮想的に実現される。
すなわち、プロセッサは、図示しない記憶装置、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等の補助記憶装置からOS(Operating System)の他、上記の音声処理機能を実現する音声処理プログラムなどのプログラムを読み出す。ここでは、プログラムが補助記憶装置から読み出される例を示したが、EEPROM(Electrically Erasable Programmable Read-Only Memory)に代表されるフラッシュメモリ等の内部ストレージからプログラムを読み出すこととしてもかまわない。その上で、プロセッサは、上記の音声処理プログラムを実行することにより、RAM(Random Access Memory)等のメモリ上に上記の音声処理プログラムの機能に対応するプロセスを展開する。この結果、上記の音声処理の機能がプロセスとして仮想的に実現される。ここでは、プロセッサの一例として、CPUやMPUを例示したが、汎用型および特化型を問わず、任意のプロセッサにより上記の機能部が実現されることとしてもかまわない。この他、上記の機能部は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによって実現されることとしてもかまわない。
また、音声データ記憶部120および統計値記憶部130Fなどの記憶部は、上記の処理部がアクセス可能な主記憶装置として実装される。例えば、RAM、フラッシュメモリなどの半導体メモリ素子などの主記憶装置により実装できる。このような主記憶装置の他、音声データ記憶部120がSSDやHDDなどの補助記憶装置により実装されることを妨げない。
受信部110は、電話機50から、話者1aの音声信号を受信する処理部である。受信部110は、受信した音声信号を、音声データ記憶部120の音声バッファ120Aに記録する。
音声データ記憶部120は、話者1aの音声信号を保持する音声バッファ120Aを有する。
一実施形態として、音声バッファ120Aには、電話機50から受信された音声信号が所定のフォーマットにしたがって変換された音声ファイルが保存される。ここで言う「音声信号」とは、音声の振幅が時系列に並ぶデジタルデータを指す。また、以下で言う「フレーム」とは、音声信号が所定の時間長、例えば20msec等の間隔で分割された区間であってもよいし、所定の時間長のウィンドウを当該時間長よりも短いシフト幅ずつスライドさせることにより前後で音声信号の一部が重複する状態で区切られた区間であってもよい。
取得部130Aは、音声信号を取得する処理部である。
一実施形態として、取得部130Aは、音声バッファ120Aから音声信号をフレーム、例えば20msec等の単位で取得する。ここで取得部130Aが取得を開始するタイミングは、音声バッファ120Aに音声信号のフレームが格納される度に当該フレームをリアルタイムで取得することとしてもよいし、話者1aおよび話者1bの通話終了後に音声バッファ120Aから音声信号のフレームを先頭から順番にバッチ処理で取得することとしてもよい。このように取得部130Aにより取得された音声信号のフレームは、強度算出部130Bへ出力される。
強度算出部130Bは、音声信号のフレームの強度を算出する処理部である。
一実施形態として、強度算出部130Bは、取得部130Aにより音声信号のフレームが取得される度に、下記の式(1)にしたがって、当該フレームのパワーS(n)を算出する。ここで、下記の式(1)における「C(t)」は、音声信号Cにおける時刻tの振幅を指す。また、「n」は、フレーム番号を指す。また、「M」は、1つのフレームの時間長を指し、例えば、20msとすることができる。
Figure 0007000773000001
発話区間検出部130Cは、音声信号から発話区間を検出する処理部である。
一実施形態として、発話区間検出部130Cは、強度算出部130Bにより算出されたフレームパワーが所定の閾値TH1以上であるか否かを判定する。ここで、フレームパワーが閾値TH1以上である場合、発話区間検出部130Cは、取得部130Aにより取得された現フレームの1つ前のフレームで閾値TH1以上のフレームパワーが観測されたか否かを判定する。このとき、1つ前のフレームで閾値TH1以上のフレームパワーが観測されていない場合、現フレームが発話区間の開始フレームと識別される。一方、1つ前のフレームから連続して閾値TH1以上のフレームパワーが観測されている場合、発話区間検出部130Cは、発話区間が継続中と識別し、発話区間の終了フレームを待機する。ここで、発話区間の終了フレームが待機された状態で閾値TH1未満のフレームパワーが観測された場合、発話区間検出部130Cは、現フレームを発話区間の終了フレームと識別する。このように開始フレームおよび終了フレームが識別された場合、発話区間検出部130Cは、開始フレームから終了フレームまでに含まれるフレームを発話区間として検出する。
音響特徴量算出部130Dは、音響特徴量を算出する処理部である。この音響特徴量算出部130Dは、第1算出部の一例である。
一実施形態として、音響特徴量算出部130Dは、発話区間検出部130Cにより検出された発話区間に含まれるフレームごとに、当該フレームのピッチ周波数を算出する。このピッチ周波数は、音響特徴量の一例である。例えば、音響特徴量算出部130Dは、文献(D.Talkin,"A Robust Algorithm for Pitch Tracking (RAPT),"in Speech Coding & Synthesis, W.B.Kleijn and K.K.Pailwal (Eds.), Elsevier,pp.495-518,1995)に基づいて、ピッチ周波数を算出できる。この他、波形包絡法や零交差法、ケプストラム法などを含む他の方法を用いてピッチ周波数を算出することとしてもかまわない。
導出部130Eは、音声パラメータを導出する処理部である。この導出部130Eは、第2算出部の一例である。ここでは、音声パラメータのあくまで一例として、フレームパワーが用いられる場合を例示する。
一実施形態として、導出部130Eは、発話区間検出部130Cにより発話区間が検出された場合、当該発話区間に含まれるフレームの中からフレームを1つ選択する。以下、発話区間に含まれるフレームの中でも選択中のフレームのことを「選択フレーム」と記載する場合がある。その上で、導出部130Eは、選択フレームのフレームパワーを導出する。すなわち、フレームパワーは、強度算出部130Bによりフレームごとに算出済みであるので、選択フレームに対応するフレームパワーを強度算出部130Bが算出結果を格納するワークエリア等から呼び出すこととすればよい。
統計値記憶部130Fは、音声パラメータの統計値を記憶する記憶領域を有する。あくまで一例として、フレームパワーが音声パラメータとして用いられる場合、統計値記憶部130Fには、フレームパワーの最大値S_maxと、当該最大値が観測されたフレームのフレーム番号とが対応付けて記憶される。ここで言う「最大値」とは、一例として、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されるフレームパワーを母集団とする集合における最大値を指す。この母集団には、必ずしも発話区間に対応しないフレームは含まれずともかまわない。
更新部130Gは、統計値記憶部130Fに記憶される音声パラメータの統計値を更新する処理部である。
一実施形態として、更新部130Gは、導出部130Eにより選択フレームのフレームパワーが導出される度に、当該選択フレームのフレームパワーの値S(n)と、統計値記憶部130Fに記憶されたフレームパワーの最大値S_maxとを比較する。ここで、選択フレームのフレームパワーの値S(n)がフレームパワーの最大値S_maxを超える場合、更新部130Gは、選択フレームのフレームパワーの値と、当該選択フレームのフレーム番号と対応付けて統計値記憶部130Fへ上書き保存する。これにより、S_max←S(n)の更新が実行される。
音声らしさ算出部130Hは、話者の音声らしさを示す指標を算出する処理部である。この音声らしさ算出部130Hは、第3算出部の一例である。
一実施形態として、音声らしさ算出部130Hは、最大値に対する選択フレームのフレームパワーの相対値を話者の音声らしさとして算出する。例えば、音声らしさ算出部130Hは、統計値記憶部130Fに記憶されたフレームパワーの最大値S_maxと、選択フレームのフレームパワーS(n)との差、すなわちS_max-S(n)[dB]を計算することにより、選択フレームにおける話者の音声らしさを算出する。
重み付与部130Iは、発話区間に含まれるフレームに重みを付与する処理部である。
一実施形態として、重み付与部130Iは、音声らしさ算出部130Hにより算出された選択フレームの話者の音声らしさに基づいて当該選択フレームに付与する重み係数を算出する。例えば、重み付与部130Iは、選択フレームの話者の音声らしさとして算出された相対値を引数とし、図4に示す音声らしさおよび重み係数の対応関係が定義された関数、あるいは該対応関係に関するルックアップテーブル等を参照することにより、当該選択フレームに付与する重み係数w(n)を算出する。このように算出された重み係数w(n)が選択フレームnに付与される。
図4に示す例で言えば、閾値TH3、例えば0dB以上の相対値が算出される場合、選択フレームの重み係数として「1」が算出される。一方、閾値TH2、例えば-15dB未満の相対値が算出される場合、選択フレームの重み係数として「0」が算出される。また、閾値TH2以上閾値TH3未満の相対値が算出される場合、選択フレームの重み係数として、相対値が閾値TH3に近づくほど重み係数の最大値「1」に近い重み係数が算出される一方で、相対値が閾値TH2に近づくほど重み係数の最小値「0」に近い重み係数が算出される。
ここで、閾値TH2は、一側面として、選択フレームで観測される音声が話者のものであるか、あるいは周囲雑音であるかを分類する閾値として機能する。この閾値TH2の設定には、一例として、音声信号の取得が開始された最初のフレームから選択フレームまでの各フレームで算出されたフレームパワーから生成されるヒストグラムを用いることができる。例えば、フレームパワーのヒストグラムのうち最上位の階級から順番に当該階級に属する度数を累計する。そして、度数の累計値が所定の割合、例えば総度数の80%に達する階級の階級値を閾値TH2として設定することができる。このように音声信号で観測されるフレームパワーの上位から所定の割合が含まれる値を閾値TH2として設定することにより、次のような効果が得られる。すなわち、話者の音声である余地が残される選択フレームには、ゼロより大きい重みを付与できる可能性を高めると共に、周囲雑音である可能性が高い選択フレームには、重みとしてゼロを付与できる可能性を高めることができる。
なお、ここでは、音響特徴量に関するヒストグラムの広がりなどの分布情報の算出が実行される局面と、重み付けに用いられる局面との間で音声信号の分析単位が同一である場合を例示したが、2つの局面で音声信号の分析単位、例えばフレームの区間長などを変えることもできる。
分布算出部130Jは、音響特徴量に関する分布情報を算出する処理部である。この分布算出部130Jは、第4算出部の一例である。
一実施形態として、分布算出部130Jは、発話区間に含まれる全てのフレームについて重みが算出された場合、各フレームに付与された重み係数に基づいて当該フレームで算出されたピッチ周波数のヒストグラムを生成する。例えば、分布算出部130Jは、発話区間に含まれるフレームごとに、当該フレームで算出されたピッチ周波数が属する階級に対応する度数に、当該フレームに付与された重み係数を加算する。これによって、ピッチ周波数のヒストグラムが生成される。その上で、分布算出部130Jは、ピッチ周波数のヒストグラムの広がりを算出する。例えば、分布算出部130Jは、ヒストグラムの度数を参照し、度数が所定値以上となる階級の部分をヒストグラムの広がりとして算出する。このように算出されたヒストグラムの広がりが音響特徴量に関する分布情報として印象評価部130Kへ出力される。なお、ここでは、分布情報の一例として、ヒストグラム(度数分布)の広がりを算出する場合を例示したが、ヒストグラムの平均値、最小値または最大値などを分布情報として算出することとしてもかまわない。
印象評価部130Kは、音響特徴量の分布情報に基づいて発話の印象を評価する処理部である。
一実施形態として、印象評価部130Kは、分布算出部130Jにより算出されるヒストグラムの広がりの比較対象とする平常時のヒストグラムの広がりを印象評価部130Kがアクセス可能なワークエリア等に保持しておく。例えば、平常時のヒストグラムの広がりの一例として、音声信号の取得が開始されてから当該発話区間が検出されるまでに検出されていた複数の発話区間におけるヒストグラムの間で広がりの統計値、例えば最頻値や平均値、中央値などが保持される。このような平常時のヒストグラムの広がりを参照して、印象評価部130Kは、平常時のヒストグラムの広がりよりも、分布算出部130Jにより算出されたヒストグラムの広がりの方が広い場合、「印象がよい」と評価する。また、印象評価部130Kは、平常時のヒストグラムの広がりと、分布算出部130Jにより算出されたヒストグラムの広がりとが等しい場合、「普通」と評価する。また、印象評価部130Kは、平常時のヒストグラムの広がりよりも、分布算出部130Jにより算出されたヒストグラムの広がりの方が狭い場合、「印象悪い」と評価する。このように評価された評価結果が表示部140に表示される。
表示部140は、各種の情報を表示する機能部である。
一実施形態として、表示部140は、液晶ディスプレイや有機EL(electroluminescence)ディスプレイなどのハードウェアにより実装することができる他、図示しない入力部と一体化することにより、タッチパネルとして実装することもできる。このような発光により表示を実現するものの他にも、表示部140は、投影により表示を実現するプロジェクタとして実装することもできる。例えば、表示部140には、音声処理プログラムからの指示にしたがって、発話の印象に関する評価結果が表示される。
次に、本実施例に係る音声処理装置の処理の流れについて説明する。図7は、実施例1に係る音声処理の手順を示すフローチャートである。この音声処理は、一例として、通話開始に伴って音声バッファ120Aへの音声信号の蓄積が開始された場合などに実行することができる。
図7に示すように、受信部110により音声信号が音声バッファ120Aに記録されると(ステップS101)、取得部130Aは、音声バッファ120Aから音声信号のフレームを取得する(ステップS102)。続いて、強度算出部130Bは、ステップS102で取得された音声信号のフレームのフレームパワーS(n)を算出する(ステップS103)。
続いて、発話区間検出部130Cにより発話区間が検出された場合(ステップS104Yes)、当該発話区間に含まれるフレームのうち1つが選択される(ステップS105)。続いて、音響特徴量算出部130Dは、ステップS105で選択されたフレームのピッチ周波数を算出する(ステップS106)。なお、発話区間が検出されるまで(ステップS104No)、上記のステップS102および上記のステップS103の処理が実行される。
また、導出部130Eは、ステップS105で選択されたフレームに対応するフレームパワーを強度算出部130Bが算出結果を格納するワークエリア等から呼び出すことにより導出する(ステップS107)。
そして、更新部130Gは、ステップS107で導出された選択フレームのフレームパワーの値S(n)と、統計値記憶部130Fに記憶されたフレームパワーの最大値S_maxとを比較する(ステップS108)。
このとき、選択フレームのフレームパワーの値S(n)がフレームパワーの最大値S_maxを超える場合(ステップS108Yes)、更新部130Gは、選択フレームのフレームパワーの値S(n)と、当該選択フレームのフレーム番号と対応付けて統計値記憶部130Fへ上書き保存する(ステップS109)。なお、選択フレームのフレームパワーの値S(n)がフレームパワーの最大値S_maxを超えない場合(ステップS108No)、ステップS109の処理はスキップされる。
その後、音声らしさ算出部130Hは、統計値記憶部130Fに記憶されたフレームパワーの最大値S_maxと、選択フレームのフレームパワーS(n)との差、すなわちS_max-S(n)[dB]を計算することにより、選択フレームにおける話者の音声らしさを算出する(ステップS110)。
続いて、重み付与部130Iは、ステップS110で選択フレームの話者の音声らしさとして算出された相対値に応じて当該選択フレームに重み係数w(n)を付与する(ステップS111)。
そして、発話区間に含まれる全てのフレームが選択されるまで(ステップS112No)、上記のステップS105から上記のステップS111までの処理を繰り返し実行する。その後、発話区間に含まれる全てのフレームが選択されると(ステップS112Yes)、分布算出部130Jは、発発話区間に含まれるフレームごとに、当該フレームで算出されたピッチ周波数が属する階級に対応する度数に当該フレームに付与された重み係数を加算することにより、ピッチ周波数のヒストグラムを算出する(ステップS113)。
続いて、印象評価部130Kは、ステップS113で算出されたヒストグラムの広がりに基づいて、発話の印象を評価する(ステップS114)。そして、印象評価部130Kは、ステップS114で評価された印象の評価結果を表示部140に表示させる(ステップS115)。
その後、音声信号のフレームが終了するまで(ステップS116No)、分析開始位置とするフレームを更新し(ステップS117)、ステップS102からステップS115までの処理を実行する。そして、音声信号のフレームが終了すると(ステップS116Yes)、処理を終了する。
上述してきたように、本実施例に係る音声処理装置100は、音声信号のフレームから求まる音声パラメータの統計値に対する相対値を話者の音声らしさとして算出し、その音声らしさに応じて当該フレームに付与する度数の重みを変えてピッチ周波数の分布を生成する。これによって、周囲雑音が原因となってピッチ周波数の検出誤りを抑制できる結果、話者から観測される発話が実状よりも明るい声と誤判定する事態を抑制することができる。したがって、本実施例に係る音声処理装置100によれば、発話に関する印象を正確に推定することが可能になる。
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
(1)音声パラメータの応用例
上記の実施例1では、音声パラメータの一例として、音声信号から導出されるフレームパワーを用いて話者の音声らしさを算出する場合を例示したが、フレームパワー以外の他の音声パラメータを用いて話者の音声らしさを算出することができる。
(1.1)SNR
音声パラメータの他の一例として、音声処理装置100は、SNRを用いて話者の音声らしさを算出することができる。例えば、導出部130Eは、取得部130Aにより音声信号のフレームnが取得される度に、フレームごとに雑音レベルを更新しながら各フレームのSNRを算出する。
これを具体的に説明すると、導出部130Eは、発話区間検出部130Cによる発話区間の検出結果に応じて、雑音レベルN(n)を更新する。例えば、導出部130Eは、発話区間検出部130CによりフレームパワーS(n)が閾値TH1以上であると判定されたフレームnの雑音レベルN(n)を更新する場合、下記の式(2)にしたがって雑音レベルN(n)を更新する。また、導出部130Eは、発話区間検出部130CによりフレームパワーS(n)が閾値TH1以上でないと判定されたフレームnの雑音レベルN(n)を更新する場合、下記の式(3)にしたがって雑音レベルN(n)を更新する。なお、下記の式(2)および下記の式(3)における「coef」は、忘却係数を指し、例えば、0.9などの値が採用される。
N(n)=N(n-1)*coef+S(n)*(1-coef)・・・(2)
N(n)=N(n-1)・・・(3)
つまり、発話区間に対応するフレームnでは、フレームnのフレームパワーS(1)と、フレームnの1つ前のフレームn-1における雑音レベルN(n-1)との間で忘却係数にしたがって平滑化が実行される。このとき、1つ前のフレームn-1における雑音レベルN(n-1)の方がフレームnのフレームパワーS(1)よりも更新に占める比重が大きいので、急峻なフレームパワーの変化を滑らかに出力できる。一方、発話区間に対応しないフレームnでは、1つ前のフレームn-1における雑音レベルN(n-1)がそのまま引き継がれる。
その後、導出部130Eは、下記の式(4)にしたがってフレームパワーS(n)および雑音レベルN(n)の差を計算することにより、フレームnのSNR(n)を算出する。なお、ここでは、SNRがフレームごとに算出される場合を例示したが、雑音レベルの更新をフレームごとに実行しつつ、SNRの算出は、発話区間に含まれるフレームに絞って実行することもできる。
SNR(n)=S(n)-N(n)・・・(4)
このようにSNR(n)が算出された後、音声らしさ算出部130Hは、最大値に対する選択フレームのSNRの相対値を話者の音声らしさとして算出する。ここで、音声パラメータとしてSNRを用いる場合、統計値記憶部130Fには、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されるSNRの最大値SNR_maxと、当該最大値が観測されたフレームのフレーム番号とが対応付けて記憶される。このような統計値記憶部130Fを参照して、音声らしさ算出部130Hは、統計値記憶部130Fに記憶されたSNRの最大値SNR_maxと、選択フレームのSNR(n)との差、すなわちSNR_max-SNR(n)を計算することにより、選択フレームにおける話者の音声らしさを算出する。
なお、音声らしさが算出された後、音声処理装置100は、上記の実施例1で説明した処理と同様の処理を実行することとすればよい。ここで、上記の実施例1では、重み係数の付与時にフレームパワーの相対値および重み係数の対応関係を参照する場合を例示したが、SNRの相対値および重み係数の対応関係を参照して発話区間に含まれるフレームごとに重み係数を付与することとすればよい。
(1.2)スペクトルパワー
音声パラメータの他の一例として、音声処理装置100は、音声信号から導出されるスペクトルパワーを用いて話者の音声らしさを算出することができる。例えば、導出部130Eは、取得部130Aにより音声信号のフレームnが取得される度に、フレームごとにスペクトルパワーを算出する。
これを具体的に説明すると、導出部130Eは、音声信号CのフレームnにFFT(Fast Fourier Transform)に代表されるフーリエ変換を適用することにより、スペクトルP(f,n)を算出する。続いて、導出部130Eは、下記の式(5)にしたがって、所定帯域におけるスペクトルの平均パワーP_ave(n)を算出する。ここで、下記の式(5)における「f」は、周波数を指す。また、上記の帯域には、音声に対応する周波数範囲が設定される。例えば、周波数範囲の境界値のうち、下限値Fminには、100Hzが設定されると共に、上限値Fmaxには、2000Hzが設定される。なお、スペクトルの平均パワーP_ave(n)の算出は、必ずしも音声信号の全てのフレームに実行されずともよく、発話区間に含まれるフレームに絞って実行することもできる。
Figure 0007000773000002
このようにスペクトルの平均パワーP_ave(n)が算出された後、音声らしさ算出部130Hは、最大値に対する選択フレームのスペクトルの平均パワーの相対値を話者の音声らしさとして算出する。ここで、音声パラメータとしてスペクトルの平均パワーを用いる場合、統計値記憶部130Fには、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されるスペクトルの平均パワーの最大値P_ave_maxと、当該最大値が観測されたフレームのフレーム番号とが対応付けて記憶される。このような統計値記憶部130Fを参照して、音声らしさ算出部130Hは、統計値記憶部130Fに記憶されたスペクトルの平均パワーの最大値P_ave_maxと、選択フレームのP_ave(n)との差、すなわちP_ave_max-P_ave(n)を計算することにより、選択フレームにおける話者の音声らしさを算出する。
なお、音声らしさが算出された後、音声処理装置100は、上記の実施例1で説明した処理と同様の処理を実行することとすればよい。ここで、上記の実施例1では、重み係数の付与時にフレームパワーの相対値および重み係数の対応関係を参照する場合を例示したが、スペクトルの平均パワーの相対値および重み係数の対応関係を参照して発話区間に含まれるフレームごとに重み係数を付与することとすればよい。
(1.3)自己相関係数
音声パラメータの他の一例として、音声処理装置100は、音声信号から導出される自己相関係数を用いて話者の音声らしさを算出することができる。例えば、導出部130Eは、取得部130Aにより音声信号のフレームnが取得される度に、フレームごとに自己相関係数を算出する。
これを具体的に説明すると、導出部130Eは、下記の式(6)にしたがって、音声信号Cのフレームnにおける自己相関係数を算出する。すなわち、導出部130Eは、フレームnのオリジナル波形に対してフレームNの波形が複製された複製波形をシフトさせつつ、当該フレームnにおけるオリジナル波形と当該フレームnにおける複製波形との相関係数、すなわち自己相関係数をシフト幅jごとに算出する。その上で、導出部130Eは、シフト幅jごとに算出された自己相関係数のうちフレームn内で最大である自己相関係数AC(n)を抽出する。なお、最大の自己相関係数AC(n)の算出は、必ずしも音声信号の全てのフレームに実行されずともよく、発話区間に含まれるフレームに絞って実行することもできる。
Figure 0007000773000003
このように最大の自己相関係数AC(n)が算出された後、音声らしさ算出部130Hは、最大値に対する選択フレームの最大の自己相関係数の相対値を話者の音声らしさとして算出する。ここで、音声パラメータとして選択フレーム内で最大である自己相関係数を用いる場合、統計値記憶部130Fには、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測される最大の自己相関係数の中でも観測履歴上でもさらに最大となる観測最大値AC_maxと、当該観測最大値が観測されたフレームのフレーム番号とが対応付けて記憶される。このような統計値記憶部130Fを参照して、音声らしさ算出部130Hは、統計値記憶部130Fに記憶されたフレーム最大の自己相関係数の観測最大値AC_maxと、選択フレームの最大の自己相関係数AC(n)との差、すなわちAC_max-AC(n)を計算することにより、選択フレームにおける話者の音声らしさを算出する。
なお、音声らしさが算出された後、音声処理装置100は、上記の実施例1で説明した処理と同様の処理を実行することとすればよい。ここで、上記の実施例1では、重み係数の付与時にフレームパワーの相対値および重み係数の対応関係を参照する場合を例示したが、最大の自己相関係数の相対値および重み係数の対応関係を参照して発話区間に含まれるフレームごとに重み係数を付与することとすればよい。
(1.4)ピッチ周波数
音声パラメータの他の一例として、音声処理装置100は、音声信号から導出されるピッチ周波数を用いて話者の音声らしさを算出することができる。例えば、導出部130Eは、取得部130Aにより音声信号のフレームnが取得される度に、ピッチ周波数の最頻値を算出する。ここで言う「最頻値」とは、一例として、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されるピッチ周波数を母集団とする集合における最頻値を指す。この母集団には、必ずしも発話区間に対応しないフレームは含まれずともよく、発話区間に含まれるフレームに絞って実行することもできる。
これを具体的に説明すると、導出部130Eは、一例として、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されたピッチ周波数を母集団とし、ヒストグラムを生成する。すなわち、導出部130Eは、フレームごとに当該フレームから算出されたピッチ周波数Pit(n)が属する階級の度数をインクリメントすることにより、ヒストグラムを生成する。図8は、ピッチ周波数の最頻値の一例を示す図である。図8に示すグラフの縦軸は、度数、例えばフレーム数を指し、横軸は、ピッチ周波数(Hz)の階級を指す。図8に示すように、ヒストグラムに含まれる階級のうち最高値の度数が属する階級のピッチ周波数が最頻値Pit_modeとして算出される。
このようにスペクトルのピッチ周波数の最頻値Pit_modeが算出された後、音声らしさ算出部130Hは、最頻値に対する選択フレームのピッチ周波数の相対値を話者の音声らしさとして算出する。ここで、音声パラメータとしてピッチ周波数を用いる場合、統計値記憶部130Fには、導出部130Eによりピッチ周波数の最頻値が算出される度に、最新のピッチ周波数の最頻値が上書き保存される。このような統計値記憶部130Fを参照して、音声らしさ算出部130Hは、統計値記憶部130Fに記憶されたピッチ周波数の最頻値Pit_modeと、選択フレームnのピッチ周波数Pit(n)との比、すなわち「Pit(n)/Pit_mode」を計算することにより、選択フレームにおける話者の音声らしさを算出する。
続いて、重み付与部130Iは、音声らしさ算出部130Hにより算出された選択フレームの話者の音声らしさに基づいて当該選択フレームに付与する重み係数を算出する。例えば、重み付与部130Iは、選択フレームの話者の音声らしさとして算出された相対値を引数とし、図9に示す音声らしさおよび重み係数の対応関係が定義された関数、あるいは該対応関係に関するルックアップテーブル等を参照することにより、当該選択フレームnに付与する重み係数w(n)を算出する。
図9は、音声らしさおよび重み係数の対応関係のグラフの一例を示す図である。図9に示すグラフの縦軸は、重み係数を指し、例えば、0から1までに正規化された値が用いられる。図9に示すグラフの横軸は、ピッチ周波数の相対値を指す。図9に示す対応関係は、音声信号において話者に対応するピッチ周波数が観測される頻度の方が周囲雑音に対応するピッチ周波数が観測される頻度に比べて十分に大きいという知見にしたがって設定される。言い換えれば、相対値Pit(n)/Pit_modeが「1」に近づくほど選択フレームnで算出されるピッチ周波数が話者に対応する成分である可能性が高まる一方で、相対値Pit(n)/Pit_modeが「1」から離れるほど選択フレームnで算出されるピッチ周波数が周囲雑音に対応する成分である可能性が高まるという定性的な関係が設定の基準とされる。
図9に示す例で言えば、閾値TH4、例えば0.5未満の相対値が算出される場合、選択フレームの重み係数として「0」が算出される。さらに、閾値TH7、例えば2.0以上の相対値が算出される場合にも、選択フレームの重み係数として「0」が算出される。一方、閾値TH5以上閾値TH6未満の範囲の相対値、すなわち0.7≦相対値<1.3が算出される場合、選択フレームの重み係数として「1」が算出される。また、閾値TH4以上閾値TH5未満の相対値、すなわち0.5≦相対値<0.7が算出される場合、選択フレームの重み係数として、相対値が閾値TH4に近づくほど重み係数の最小値「0」に近い重み係数が算出される一方で、相対値が閾値TH5に近づくほど重み係数の最大値「1」に近い重み係数が算出される。さらに、閾値TH6以上閾値TH7未満の相対値、すなわち1.3≦相対値<2.0が算出される場合、選択フレームの重み係数として、相対値が閾値TH6に近づくほど重み係数の最大値「1」に近い重み係数が算出される一方で、相対値が閾値TH7に近づくほど重み係数の最小値「0」に近い重み係数が算出される。このように算出された重み係数w(n)が選択フレームnに付与される。
その後、分布算出部130Jは、発話区間に含まれる全てのフレームについて重みが算出された場合、各フレームに付与された重み係数に基づいて当該フレームで算出されたピッチ周波数のヒストグラムを生成する。これ以降の処理については、上記の実施例1で説明した処理と同様の処理が実行される。
(1.5)フォルマント
音声パラメータの他の一例として、音声処理装置100は、音声信号から導出されるフォルマント周波数を用いて話者の音声らしさを算出することができる。例えば、導出部130Eは、取得部130Aにより音声信号のフレームnが取得される度に、フォルマント周波数の平均値を算出する。ここで言う「平均値」とは、一例として、音声信号の取得が開始された最初のフレームから選択フレームまでの間で観測されるフォルマント周波数を母集団とする集合における平均値を指す。この母集団には、必ずしも発話区間に対応しないフレームは含まれずともよく、発話区間に含まれるフレームに絞って実行することもできる。
これを具体的に説明すると、導出部130Eは、取得部130Aにより音声信号のフレームnが取得される度に、線形予測(Liner Prediction Coding)分析を行うことで、複数のピークを抽出することができる。これらのピークのうち、周波数の低いものから順に、第1フォルマント周波数:F1、第2フォルマント周波数:F2とする。このようなフォルマント周波数の算出には、一例として、特許文献(特開昭62-54297号公報)に記載の技術を用いることができる。なお、ここでは、あくまで一例として、2つのフォルマント周波数を算出する場合を例示したが、3つの以上のフォルマント周波数を算出することもできる。
このように算出されたフレームnの第1フォルマント周波数F1(n)および第2フォルマント周波数F2(n)と共に、音声信号の取得が開始されてからフレームnが取得されるまでのフレーム1~n-1で算出されてきた第1フォルマント周波数F1および第2フォルマント周波数F2を母集団とし、導出部130Eは、下記の式(7)および下記の式(8)にしたがって、第1フォルマント周波数の平均値F1_aveおよび第2フォルマント周波数の平均値F2_aveを算出する。このように音声パラメータとしてフォルマント周波数を用いる場合、統計値記憶部130Fには、導出部130Eにより第1フォルマント周波数の平均値F1_aveおよび第2フォルマント周波数の平均値F2_aveが算出される度に、最新の第1フォルマント周波数の平均値F1_aveおよび第2フォルマント周波数の平均値F2_aveが上書き保存される。
Figure 0007000773000004
Figure 0007000773000005
このように第1フォルマント周波数の平均値F1_aveおよび第2フォルマント周波数の平均値F2_aveが算出された後、音声らしさ算出部130Hは、統計値記憶部130Fを参照して、平均値に対する選択フレームの第1フォルマント周波数の相対値、すなわち(F1(n)/F1_ave)を算出すると共に、平均値に対する選択フレームの第2フォルマント周波数の相対値、すなわち(F2(n)/F2_ave)を算出する。その上で、音声らしさ算出部130Hは、選択フレームの第1フォルマント周波数の相対値と、選択フレームの平均値に対する選択フレームの第2フォルマント周波数の相対値とのフォルマント相対値の比、すなわち{[(F1(n)/F1_ave)+(F2(n)/F2_ave)]×1/2}を話者の音声らしさとして算出する。
続いて、重み付与部130Iは、音声らしさ算出部130Hにより算出された選択フレームの話者の音声らしさに基づいて当該選択フレームに付与する重み係数を算出する。例えば、重み付与部130Iは、選択フレームの話者の音声らしさとして算出されたフォルマント相対値の比を引数とし、図10に示す音声らしさおよび重み係数の対応関係が定義された関数、あるいは該対応関係に関するルックアップテーブル等を参照することにより、当該選択フレームnに付与する重み係数w(n)を算出する。
図10は、音声らしさおよび重み係数の対応関係のグラフの一例を示す図である。図10に示すグラフの縦軸は、重み係数を指し、例えば、0から1までに正規化された値が用いられる。図10に示すグラフの横軸は、ピッチ周波数の相対値を指す。図10に示す対応関係は、音声信号において話者に対応するフォルマント周波数が観測される頻度の方が周囲雑音に対応するフォルマント周波数が観測される頻度に比べて十分に大きいという知見にしたがって設定される。言い換えれば、フォルマント相対値の比が「1」に近づくほど選択フレームnで算出されるピッチ周波数が話者に対応する成分である可能性が高まる一方で、フォルマント相対値の比が「1」から離れるほど選択フレームnで算出されるピッチ周波数が周囲雑音に対応する成分である可能性が高まるという定性的な関係が設定の基準とされる。
図10に示す例で言えば、閾値TH8、例えば0.2未満のフォルマント相対値の比が算出される場合、選択フレームの重み係数として「0」が算出される。さらに、閾値TH12、例えば3.0以上のフォルマント相対値の比が算出される場合にも、選択フレームの重み係数として「0」が算出される。一方、閾値TH9以上閾値TH11未満の範囲のフォルマント相対値の比、すなわち0.4≦フォルマント相対値の比<1.6が算出される場合、選択フレームの重み係数として「1」が算出される。また、閾値TH8以上閾値TH9未満のフォルマント相対値の比、すなわち0.2≦フォルマント相対値の比<0.4が算出される場合、選択フレームの重み係数として、フォルマント相対値の比が閾値TH8に近づくほど重み係数の最小値「0」に近い重み係数が算出される一方で、フォルマント相対値の比が閾値TH9に近づくほど重み係数の最大値「1」に近い重み係数が算出される。さらに、閾値TH11以上閾値TH12未満のフォルマント相対値の比、すなわち1.6≦フォルマント相対値の比<3.0が算出される場合、選択フレームの重み係数として、フォルマント相対値の比が閾値TH11に近づくほど重み係数の最大値「1」に近い重み係数が算出される一方で、フォルマント相対値の比が閾値TH12に近づくほど重み係数の最小値「0」に近い重み係数が算出される。このように算出された重み係数w(n)が選択フレームnに付与される。
その後、分布算出部130Jは、発話区間に含まれる全てのフレームについて重みが算出された場合、各フレームに付与された重み係数に基づいて当該フレームで算出されたピッチ周波数のヒストグラムを生成する。これ以降の処理については、上記の実施例1で説明した処理と同様の処理が実行される。
(2)評価結果の表示の応用例
上記の実施例1では、印象の評価結果を「印象がよい」、「普通」、「印象が悪い」のいずれかの評価結果として表示する場合を例示したが、評価結果を評価値として出力してもよい。例えば、印象評価部130Kは、平常時のヒストグラムの広がりよりも、統計量の情報に含まれる広がりの方が広い場合、「評価値=1」と評価する。また、印象評価部130Kは、平常時のヒストグラムの広がりと、統計量の情報に含まれる広がりとが等しい場合、「評価値=0」と評価する。さらに、印象評価部130Kは、平常時のヒストグラムの広がりよりも、統計量の情報に含まれる広がりの方が狭い場合、「評価値=-1」と評価する。
さらに、上記の実施例1では、発話区間単位で印象の評価結果を表示部140に表示させる例を説明したが、印象の評価結果の時系列変化を表示させることもできる。具体的には、印象評価部130Kは、発話区間の印象の評価値を算出する度に、当該発話区間の印象の評価値と、当該発話区間が評価される前に評価されていた評価値との間で平滑化を実行する。例えば、印象評価部130Kは、下記の式(9)にしたがって、評価値を平滑化する。ここで、下記の式(9)における「score(n)」は、平滑化前の評価値を指す。また、「score’(n)」は、平滑化後の評価値を指す。また、「score’(n-1)」は、1つ前の発話で算出された平滑化後の評価値を指す。
Figure 0007000773000006
このように平滑化後の評価値が算出される度に、印象評価部130Kは、当該評価値を表示部140に表示させる。図11は、印象の評価値の時系列変化の一例を示す図である。図11に示すグラフの横軸は、時間を指し、縦軸は、平滑化後の評価値を指す。図11に示すように、印象の評価値の時系列変化を曲線グラフで表示することにより、評価値が時間とともにどのように推移するかを話者1b等に把握させることができる。
(3)他の実装形態
上記の実施例1で説明した実装形態は、実施例1に係る音声処理装置の機能がコンピュータシステムに実装される一例であり、他の実装形態を採用することもできる。
(3.1)クライアントサーバシステム
図12は、他の実装形態の一例を示す図である。図12に示すように、他の実装形態では、システムは、電話機50と、交換機30a,30bと、オペレータ端末60と、音声処理装置200とを有する。電話機50は、スピーカ20aおよびマイク25aに接続される。オペレータ端末60は、スピーカ20bおよびマイク25bに接続される。
交換機30aと交換機30bとは、ネットワーク35を介して相互に接続される。交換機30aおよび交換機30bは、電話機50またはオペレータ端末60から送信される音声信号を中継する装置である。
電話機50は、話者1aの音声信号を、マイク25aを介して取得する。電話機50は、取得した話者1aの音声信号を、オペレータ端末60に送信する。このようにオペレータ端末60を宛先とする音声信号は、オペレータ端末60をクライアント端末として収容する音声処理装置200にも送信される。オペレータ端末60に送信された音声信号は、スピーカ20bから出力される。
オペレータ端末60は、話者1bの音声信号を、マイク25bを介して取得する。オペレータ端末60は、取得した話者1bの音声信号を、電話機50に送信する。電話機50に送信された音声信号は、スピーカ20aから出力される。オペレータ端末60は、音声処理装置200からの指示にしたがって発話に関する印象の評価結果を表示できる。
図12に示す音声処理装置200は、オペレータ端末60をクライアント端末として収容し、オペレータ端末60を宛先とする通話に関する話者1aの音声信号を交換機30bから取得し、発話に関する印象の評価結果をオペレータ端末60に表示させる音声処理サービスを提供するサーバ装置として実装することができる。
このように、上記の実施例1と同様の機能が提供されるクライアントサーバシステムとして実装することもできる。この場合においても、音声処理装置200は、図6に示す音声処理装置100と同様の機能部を有することにより、上記の音声処理サービスを提供できる。
(3.2)会議システムへの実装
図13、他の実装形態の一例を示す図である。図13に示すように、他の実装形態では、システムは、マイク40a、40b、40c、収録機器300、表示装置350、音声処理装置400を有する。収録機器300は、ネットワーク35を介して、音声処理装置400に接続される。図示を省略するが、音声処理装置400は、クラウド上の単数または複数のサーバによって構成されていてもよい。
話者1Aによる音声は、マイク40aにより集音され、集音された音声信号は、収録機器300に出力される。話者1Bによる音声は、マイク40bにより集音され、集音された音声信号は、収録機器300に出力される。話者1Cによる音声は、マイク40cにより集音され、集音された音声信号は、収録機器300に出力される。
以下の説明では、特に区別する場合に、話者1Aの音声信号を「第1音声信号」と表記する。話者1Bの音声信号を「第2音声信号」と表記する。話者1Cの音声信号を「第3音声信号」と表記する。
たとえば、第1音声信号には、話者1Aの話者情報が付与される。話者情報は、話者を一意に識別する情報である。第2音声信号には、話者1Bの話者情報が付与される。第3音声信号には、話者1Cの話者情報が付与される。
収録機器300は、第1音声信号、第2音声信号、第3音声信号を収録する装置である。また、収録機器300は、第1音声信号、第2音声信号、第3音声信号を、音声処理装置400に送信する。
図14は、収録機器の機能的構成の一例を示すブロック図である。図14に示すように、収録機器300は、受付部310と、記憶部320と、送信部330とを有する。
受付部310は、マイク40a、40b、40cから、第1~第3音声信号を受信する処理部である。受付部310は、第1音声信号を、第1音声バッファ320aに記録する。受付部310は、第2音声信号を、第2音声バッファ320bに記録する。受付部310は、第3音声信号を、第3音声バッファ320cに記録する。
記憶部320は、第1音声バッファ320a、第2音声バッファ320b、第3音声バッファ320cを有する。記憶部320は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
第1音声バッファ320aは、第1音声信号を保持する。第2音声バッファ320bは、第2音声信号を保持する。第3音声バッファ320cは、第3音声信号を保持する。
送信部330は、第1音声バッファ320aの第1音声信号と、第2音声バッファ320bの第2音声信号と、第3音声バッファ320cの第3音声信号を、音声処理装置400に送信する処理部である。送信部330は、第1~第3音声信号を、まとめて、音声処理装置400に送信してもよいし、別々に送信してもよい。
表示装置350は、ネットワーク35を介して、音声処理装置400に接続される。表示装置350は、液晶ディスプレイ等に対応する。表示装置350は、音声処理装置400から、各話者1A~1Cの発話の印象の評価結果を受信し、表示する。
これら収録機器300から第1音声信号、第2音声信号、第3音声信号が収集される音声処理装置400では、第1音声信号、第2音声信号および第3音声信号ごとにそれぞれの音声信号に対応する話者以外の音声を分離する。すなわち、音声処理装置400は、第2音声信号および第3音声信号をリファレンスとして、第1音声信号に含まれる話者1A~1Cの発話音声のうち話者1Bおよび1Cの発話音声を分離して話者1Aの発話音声を抽出する。また、音声処理装置400は、第1音声信号および第3音声信号をリファレンスとして、第2音声信号に含まれる話者1A~1Cの発話音声のうち話者1Aおよび1Cの発話音声を分離して話者1Bの発話音声を抽出する。さらに、音声処理装置400は、第1音声信号および第2音声信号をリファレンスとして、第3音声信号に含まれる話者1A~1Cの発話音声のうち話者1Aおよび1Bの発話音声を分離して話者1Cの発話音声を抽出する。
これら分離後の第1音声信号、第2音声信号および第3音声信号の入力系統ごとに、音声処理装置400は、図7に示す音声処理を実行する。このとき、音声処理装置400は、入力系統ごとに図6に示す音声処理装置100と同様の機能部を起動することにより、図7に示す音声処理を並列して実行することもできる。このように、上記の実施例1と同様の機能が提供される会議システムとして実装することもできる。なお、ここでは、話者1A~1Cの会議が1つの場所で実行される場合を例示したが、一部または全部の参加者が遠隔地から参加する会議システムにも図7に示す音声処理を適用できる。
(3.3)エンドユーザ間の通話
図15は、他の実装形態の一例を示す図である。図15に示すように、他の実装形態では、システムは、携帯端末65と、基地局60a,60bと、音声処理装置500とを有する。携帯端末65は、スピーカ20aおよびマイク25aに接続される。音声処理装置500は、スピーカ20bおよびマイク25bに接続される。
基地局60aと基地局60bとは、ネットワーク35を介して相互に接続される。基地局60aおよび基地局60bは、携帯端末65または音声処理装置500から送信される音声信号を中継する装置である。たとえば、基地局60bは、携帯端末65から送信される音声信号を、音声処理装置500に送信する。
携帯端末65は、携帯電話、スマートフォン、タブレット端末、ノートPC(Personal Computer)等に対応する。携帯端末65は、話者1aの音声信号を、マイク25aを介して取得する。携帯端末65は、無線により基地局60aに接続し、取得した話者1aの音声信号を、音声処理装置500に送信する。音声処理装置500に送信された音声信号は、スピーカ20bから出力される。
音声処理装置500は、携帯電話、スマートフォン、タブレット端末、ノートPC(Personal Computer)等に対応する。音声処理装置500は、通話機能に加えて、話者1aの発話の評価を行い、評価結果を表示する。
このように、エンドユーザが利用する携帯端末上で音声処理プログラムを実行させることにより図6に示す機能部を仮想的に実現することで、コールセンタや会議システムなどの利用に限定されず、一般の通話にも図7に示す音声処理を適用できる。
[音声処理プログラム]
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図16を用いて、上記の実施例と同様の機能を有する音声処理プログラムを実行するコンピュータの一例について説明する。
図16は、実施例1及び実施例2に係る音声処理プログラムを実行するコンピュータのハードウェア構成例を示す図である。図16に示すように、コンピュータ1000は、操作部1100aと、スピーカ1100bと、マイク1100cと、ディスプレイ1200と、通信部1300とを有する。さらに、このコンピュータ1000は、CPU1500と、ROM1600と、HDD1700と、RAM1800とを有する。これら1100~1800の各部はバス1400を介して接続される。
HDD1700には、図16に示すように、上記の実施例1で示した取得部130A、強度算出部130B、発話区間検出部130C、音響特徴量算出部130D、導出部130E、更新部130G、音声らしさ算出部130H、重み付与部130I及び分布算出部130Jと同様の機能を発揮する音声処理プログラム1700aが記憶される。この音声処理プログラム1700aは、図6に示す各構成要素と同様、統合又は分離してもかまわない。すなわち、HDD1700には、必ずしも上記の実施例1で示した全てのデータが格納されずともよく、処理に用いるデータがHDD1700に格納されればよい。
このような環境の下、CPU1500は、HDD1700から音声処理プログラム1700aを読み出した上でRAM1800へ展開する。この結果、音声処理プログラム1700aは、図16に示すように、音声処理プロセス1800aとして機能する。この音声処理プロセス1800aは、RAM1800が有する記憶領域のうち音声処理プロセス1800aに割り当てられた領域にHDD1700から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、音声処理プロセス1800aが実行する処理の一例として、図7に示す処理などが含まれる。なお、CPU1500では、必ずしも上記の実施例1で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。
なお、上記の音声処理プログラム1700aは、必ずしも最初からHDD1700やROM1600に記憶されておらずともかまわない。例えば、コンピュータ1000に挿入されるフレキシブルディスク、いわゆるFD、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に音声処理プログラム1700aを記憶させる。そして、コンピュータ1000がこれらの可搬用の物理媒体から音声処理プログラム1700aを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ1000に接続される他のコンピュータまたはサーバ装置などに音声処理プログラム1700aを記憶させておき、コンピュータ1000がこれらから音声処理プログラム1700aを取得して実行するようにしてもよい。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)音声信号を取得し、
前記音声信号に関する音響特徴量を算出し、
前記音声信号のフレームに関する音声パラメータを算出し、
前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出し、
前記相対値に応じて前記音声信号のフレームに重みを付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
(付記2)前記音響特徴量の分布に基づいて、前記音声信号から検出される発話の印象を評価する処理を前記コンピュータにさらに実行させることを特徴とする付記1に記載の音声処理プログラム。
(付記3)前記重みを付与する処理は、前記相対値が前記統計値から離れるにしたがって小さい重みを前記音声信号のフレームに付与することを特徴とする付記1または付記2に記載の音声処理プログラム。
(付記4)前記音声パラメータを算出する処理は、前記音声信号のフレームに関するフレームパワー、スペクトルパワー、信号雑音比もしくは自己相関係数を前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最大値と、前記取得されたフレームから算出された音声パラメータとの差を前記相対値として算出することを特徴とする付記1または付記2に記載の音声処理プログラム。
(付記5)前記音声パラメータを算出する処理は、前記音声信号のフレームに関するピッチ周波数を前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最頻値と、前記取得されたフレームから算出された音声パラメータとの比を前記相対値として算出することを特徴とする付記1または付記2に記載の音声処理プログラム。
(付記6)前記音声パラメータを算出する処理は、前記音声信号のフレームに関するフォルマント周波数をフォルマントごとに前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームの間でフォルマント周波数の平均値をフォルマントごとに算出し、該算出されたフォルマント周波数の平均値と、前記取得されたフレームから算出されたフォルマント周波数との比をフォルマントごとに算出し、該算出されたフォルマントごとの比が合成された合成比を前記相対値として算出することを特徴とする付記1または付記2に記載の音声処理プログラム。
(付記7)音声信号を取得し、
前記音声信号に関する音響特徴量を算出し、
前記音声信号のフレームに関する音声パラメータを算出し、
前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出し、
前記相対値に応じて前記音声信号のフレームに重みを付与し、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する、
処理をコンピュータが実行することを特徴とする音声処理方法。
(付記8)前記音響特徴量の分布に基づいて、前記音声信号から検出される発話の印象を評価する処理を前記コンピュータがさらに実行することを特徴とする付記7に記載の音声処理方法。
(付記9)前記重みを付与する処理は、前記相対値が前記統計値から離れるにしたがって小さい重みを前記音声信号のフレームに付与することを特徴とする付記7または付記8に記載の音声処理方法。
(付記10)前記音声パラメータを算出する処理は、前記音声信号のフレームに関するフレームパワー、スペクトルパワー、信号雑音比もしくは自己相関係数を前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最大値と、前記取得されたフレームから算出された音声パラメータとの差を前記相対値として算出することを特徴とする付記7または付記8に記載の音声処理方法。
(付記11)前記音声パラメータを算出する処理は、前記音声信号のフレームに関するピッチ周波数を前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最頻値と、前記取得されたフレームから算出された音声パラメータとの比を前記相対値として算出することを特徴とする付記7または付記8に記載の音声処理方法。
(付記12)前記音声パラメータを算出する処理は、前記音声信号のフレームに関するフォルマント周波数をフォルマントごとに前記音声パラメータとして算出し、
前記相対値を算出する処理は、前記音声信号に含まれる複数のフレームの間でフォルマント周波数の平均値をフォルマントごとに算出し、該算出されたフォルマント周波数の平均値と、前記取得されたフレームから算出されたフォルマント周波数との比をフォルマントごとに算出し、該算出されたフォルマントごとの比が合成された合成比を前記相対値として算出することを特徴とする付記7または付記8に記載の音声処理方法。
(付記13)音声信号を取得する取得部と、
前記音声信号に関する音響特徴量を算出する第1算出部と、
前記音声信号のフレームに関する音声パラメータを算出する第2算出部と、
前記算出された音声パラメータと、音声パラメータの統計値との間で相対値を算出する第3算出部と、
前記相対値に応じて前記音声信号のフレームに重みを付与する重み付与部と、
前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出する第4算出部と、
を有することを特徴とする音声処理装置。
(付記14)前記音響特徴量の分布に基づいて、前記音声信号から検出される発話の印象を評価する印象評価部をさらに有することを特徴とする付記13に記載の音声処理装置。
(付記15)前記重み付与部は、前記相対値が前記統計値から離れるにしたがって小さい重みを前記音声信号のフレームに付与することを特徴とする付記13または付記14に記載の音声処理装置。
(付記16)前記第2算出部は、前記音声信号のフレームに関するフレームパワー、スペクトルパワー、信号雑音比もしくは自己相関係数を前記音声パラメータとして算出し、
前記第3算出部は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最大値と、前記取得されたフレームから算出された音声パラメータとの差を前記相対値として算出することを特徴とする付記13または付記14に記載の音声処理装置。
(付記17)前記第2算出部は、前記音声信号のフレームに関するピッチ周波数を前記音声パラメータとして算出し、
前記第3算出部は、前記音声信号に含まれる複数のフレームで算出される音声パラメータのうち音声パラメータの最頻値と、前記取得されたフレームから算出された音声パラメータとの比を前記相対値として算出することを特徴とする付記13または付記14に記載の音声処理装置。
(付記18)前記第2算出部は、前記音声信号のフレームに関するフォルマント周波数をフォルマントごとに前記音声パラメータとして算出し、
前記第3算出部は、前記音声信号に含まれる複数のフレームの間でフォルマント周波数の平均値をフォルマントごとに算出し、該算出されたフォルマント周波数の平均値と、前記取得されたフレームから算出されたフォルマント周波数との比をフォルマントごとに算出し、該算出されたフォルマントごとの比が合成された合成比を前記相対値として算出することを特徴とする付記13または付記14に記載の音声処理装置。
100 音声処理装置
110 受信部
120 音声データ記憶部
120a 音声バッファ
130A 取得部
130B 強度算出部
130C 発話区間検出部
130D 音響特徴量算出部
130E 導出部
130F 統計値記憶部
130G 更新部
130H 音声らしさ算出部
130I 重み付与部
130J 分布算出部
130K 印象評価部
140 表示部

Claims (9)

  1. 音声信号を取得し、
    前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
    前記音声信号のフレームに関する音声パラメータとしてパワーを算出し、
    前記フレームで算出された前記パワーと、前記音声信号におけるパワーの最大値との相対値を算出し、
    算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が大きいほど大きい係数を、重みとして付与し、
    前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
    処理をコンピュータに実行させることを特徴とする音声処理プログラム。
  2. 前記音響特徴量の分布の広がりに基づいて、前記音声信号から検出される発話の印象を評価する処理を前記コンピュータにさらに実行させることを特徴とする請求項1に記載の音声処理プログラム。
  3. 音声信号を取得し、
    前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
    前記音声信号のフレームに関する音声パラメータとして信号雑音比を算出し、
    前記フレームで算出された前記信号雑音比と、前記音声信号における信号雑音比の最大値との相対値を算出し、
    算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が大きいほど大きい係数を、重みとして付与し、
    前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
    処理をコンピュータに実行させることを特徴とする音声処理プログラム。
  4. 音声信号を取得し、
    前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
    前記音声信号のフレームに関する音声パラメータとしてスペクトルの平均パワーを算出し、
    前記フレームで算出された前記スペクトルの平均パワーと、前記音声信号におけるスペクトルの平均パワーの最大値との相対値を算出し、
    算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が大きいほど大きい係数を、重みとして付与し、
    前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
    処理をコンピュータに実行させることを特徴とする音声処理プログラム。
  5. 音声信号を取得し、
    前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
    前記音声信号のフレームに関する音声パラメータとして自己相関係数を算出し、
    前記フレームで算出された前記自己相関係数と、前記音声信号における自己相関係数の最大値との相対値を算出し、
    算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が大きいほど大きい係数を、重みとして付与し、
    前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
    処理をコンピュータに実行させることを特徴とする音声処理プログラム。
  6. 音声信号を取得し、
    前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
    前記音声信号のフレームに関する音声パラメータとしてピッチ周波数を算出し、
    前記フレームで前記音声パラメータとして算出された前記ピッチ周波数と、前記音声信号におけるピッチ周波数の最頻値との相対値を算出し、
    算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が前記最頻値に近いほど大きい係数を、重みとして付与し、
    前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
    処理をコンピュータに実行させることを特徴とする音声処理プログラム。
  7. 音声信号を取得し、
    前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
    前記音声信号のフレームに関する音声パラメータとして、第1フォルマント周波数と、第2フォルマント周波数とを算出し、
    前記音声信号における第1フォルマント周波数の平均に対する前記第1フォルマント周波数の相対値と、前記音声信号における第2フォルマント周波数の平均に対する前記第2フォルマント周波数の相対値とのフォルマント相対値の比を算出し、
    算出された前記フォルマント相対値の比に応じて、前記音声信号のフレームに、前記フォルマント相対値の比が特定の値に近づくほど大きい係数を、重みとして付与し、
    前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
    処理をコンピュータに実行させることを特徴とする音声処理プログラム。
  8. 音声信号を取得し、
    前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
    前記音声信号のフレームに関する音声パラメータとしてパワーを算出し、
    前記フレームで算出された前記パワーと、前記音声信号におけるパワーの最大値との相対値を算出し、
    算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が大きいほど大きい係数を、重みとして付与し、
    前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
    処理をコンピュータが実行することを特徴とする音声処理方法。
  9. 音声信号を取得し、
    前記音声信号のフレームに関する音響特徴量としてピッチ周波数を算出し、
    前記音声信号のフレームに関する音声パラメータとしてパワーを算出し、
    前記フレームで算出された前記パワーと、前記音声信号におけるパワーの最大値との相対値を算出し、
    算出された前記相対値に応じて、前記音声信号のフレームに、前記相対値が大きいほど大きい係数を、重みとして付与し、
    前記音声信号のフレームに付与された重みに基づいて前記音響特徴量の分布を算出し、前記分布の広がりを算出する、
    処理を実行する制御部を含む音声処理装置。
JP2017186584A 2017-09-27 2017-09-27 音声処理プログラム、音声処理方法および音声処理装置 Active JP7000773B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017186584A JP7000773B2 (ja) 2017-09-27 2017-09-27 音声処理プログラム、音声処理方法および音声処理装置
US16/139,291 US10885931B2 (en) 2017-09-27 2018-09-24 Voice processing method, voice processing apparatus, and non-transitory computer-readable storage medium for storing voice processing computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017186584A JP7000773B2 (ja) 2017-09-27 2017-09-27 音声処理プログラム、音声処理方法および音声処理装置

Publications (2)

Publication Number Publication Date
JP2019061129A JP2019061129A (ja) 2019-04-18
JP7000773B2 true JP7000773B2 (ja) 2022-01-19

Family

ID=65806777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017186584A Active JP7000773B2 (ja) 2017-09-27 2017-09-27 音声処理プログラム、音声処理方法および音声処理装置

Country Status (2)

Country Link
US (1) US10885931B2 (ja)
JP (1) JP7000773B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220277761A1 (en) * 2019-07-29 2022-09-01 Nippon Telegraph And Telephone Corporation Impression estimation apparatus, learning apparatus, methods and programs for the same
CN112562687B (zh) * 2020-12-11 2023-08-04 天津讯飞极智科技有限公司 音视频处理方法、装置、录音笔和存储介质
CN113593527B (zh) 2021-08-02 2024-02-20 北京有竹居网络技术有限公司 一种生成声学特征、语音模型训练、语音识别方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118192A1 (ja) 2012-02-10 2013-08-15 三菱電機株式会社 雑音抑圧装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0638199B2 (ja) 1985-09-02 1994-05-18 日本電気株式会社 音声認識装置
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
JP4883750B2 (ja) 2005-01-20 2012-02-22 株式会社国際電気通信基礎技術研究所 音響評定装置、およびプログラム
JP2006267465A (ja) 2005-03-23 2006-10-05 Tokyo Electric Power Co Inc:The 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
JP5716595B2 (ja) * 2011-01-28 2015-05-13 富士通株式会社 音声補正装置、音声補正方法及び音声補正プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118192A1 (ja) 2012-02-10 2013-08-15 三菱電機株式会社 雑音抑圧装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
外川太郎 他,"感性デジタルマーケティングを支えるメディア処理技術",FUJITSU,2017年09月01日,Vol.68,No.5,pp.43-51

Also Published As

Publication number Publication date
JP2019061129A (ja) 2019-04-18
US20190096433A1 (en) 2019-03-28
US10885931B2 (en) 2021-01-05

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
JP4307557B2 (ja) 音声活性度検出器
CN109036460B (zh) 基于多模型神经网络的语音处理方法和装置
JP7000773B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
US10783899B2 (en) Babble noise suppression
KR101260938B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
JP5542206B2 (ja) オーディオ・システムの知覚品質を判定する方法およびシステム
CN105118522B (zh) 噪声检测方法及装置
EP2363852A1 (en) Computer-based method and system of assessing intelligibility of speech represented by a speech signal
KR101317813B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR20180056281A (ko) 키워드 인식 장치 및 방법
Morales-Cordovilla et al. Feature extraction based on pitch-synchronous averaging for robust speech recognition
KR101335417B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
JP6268916B2 (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
RU2611973C2 (ru) Ослабление шума в сигнале
Lu Noise reduction using three-step gain factor and iterative-directional-median filter
CN113593604A (zh) 检测音频质量方法、装置及存储介质
JP7000757B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
CN115995234A (zh) 音频降噪方法、装置、电子设备及可读存储介质
RU2230375C2 (ru) Метод распознавания диктора и устройство для его осуществления
CN113450812A (zh) 一种啸叫检测方法、语音通话方法以及相关装置
JP2019060976A (ja) 音声処理プログラム、音声処理方法および音声処理装置
CN117995193B (zh) 一种基于自然语言处理的智能机器人语音交互方法
JP6907859B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
CN115662475A (zh) 音频数据处理方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211207

R150 Certificate of patent or registration of utility model

Ref document number: 7000773

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150