JP5088050B2 - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP5088050B2
JP5088050B2 JP2007222669A JP2007222669A JP5088050B2 JP 5088050 B2 JP5088050 B2 JP 5088050B2 JP 2007222669 A JP2007222669 A JP 2007222669A JP 2007222669 A JP2007222669 A JP 2007222669A JP 5088050 B2 JP5088050 B2 JP 5088050B2
Authority
JP
Japan
Prior art keywords
voice
index value
male
female
input sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007222669A
Other languages
English (en)
Other versions
JP2009053618A (ja
Inventor
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007222669A priority Critical patent/JP5088050B2/ja
Priority to EP08014938A priority patent/EP2031582B1/en
Priority to US12/198,232 priority patent/US8214211B2/en
Publication of JP2009053618A publication Critical patent/JP2009053618A/ja
Application granted granted Critical
Publication of JP5088050B2 publication Critical patent/JP5088050B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、収音機器が収音した音響(以下「入力音」という)を当該入力音の音響的な特性に応じて区別する技術に関する。
入力音が男声および女声の何れであるかを判別する技術が従来から提案されている。例えば特許文献1には、入力音と男声標準パターンとの距離および入力音と女声標準パターンとの距離を比較した結果に応じて入力音を男声および女声の何れであるかを判定する技術が開示されている。
特開昭60−129795号公報
しかし、実際の入力音には、収音時の環境音など人声以外の音声(以下「非人声」という)が含まれる。したがって、男声標準パターンおよび女声パターンの各々を入力音と単純に対比するだけでは、男声と女声とを高精度に判別することは困難である。以上の事情に鑑みて、本発明は、入力音が非人声を含む場合であっても男声と女声とを適切に区別するという課題の解決をひとつの目的としている。
以上の課題を解決するために、本発明に係る音声処理装置は、入力音を男声と女声と非人声とに区別する装置であって、複数の男性の発声音から生成された男性話者モデルと複数の女性の発声音から生成された女性話者モデルとを記憶する記憶手段と、入力音と男性話者モデルとの類似度を示す男声指標値を算定する男声指標算定手段と、入力音と女性話者モデルとの類似度を示す女声指標値を算定する女声指標算定手段と、入力音のピッチを特定するピッチ特定手段と、ピッチが第1所定値を下回る場合に男声指標値を類似側に変化させ、第1所定値よりも高い第2所定値をピッチが上回る場合に女声指標値を類似側に変化させる調整手段と、入力音を人声と非人声とに判別する第1判別手段と、第1判別手段が人声と判別した場合に、調整手段による調整後の男声指標値と女声指標値とに基づいて入力音を男声と女声とに判別する第2判別手段とを具備する。以上の構成においては、第1判別手段が人声と判別した場合に入力音が男声と女声とに区別されるから、入力音が非人声を含む場合であっても男声と女声とを適切に判別することが可能である。また、入力音のピッチに応じて男声指標値や女声指標値が調整(補正)されるから、男声と女声との判別の確実性を向上することが可能である。なお、男声指標値や女声指標値を「類似側に変化させる」とは、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が増加する構成においては男声指標値や女声指標値を増加させることを意味し、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が減少する構成においては男声指標値や女声指標値を減少させることを意味する。また、記憶手段は、ひとつの記憶装置に画定された記憶領域であっても複数の記憶装置にわたって分散的に画定された記憶領域であってもよい。
本発明の好適な態様において、調整手段は、ピッチが第1所定値を下回る場合に、ピッチが低いほど男声指標値の類似側への変化量を増加させ、ピッチが第2所定値を上回る場合に、ピッチが高いほど女声指標値の類似側への変化量を増加させる。また、調整手段は、ピッチが第1所定値を下回る場合に男声指標値を類似側に変化させ、第1所定値よりも高い第2所定値をピッチが上回る場合に女声指標値を類似側に変化させ、ピッチが第1所定値第2所定値との間の数値である場合には男声指標値および女声指標値を調整しない構成も採用され得る。
本発明の好適な態様に係る音声処理装置は、入力音における特徴量の経時的な安定性の指標となる安定指標値を算定する安定指標算定手段を具備し、第1判別手段は、安定指標値に基づいて入力音を人声と非人声とに判別する。以上の態様によれば、入力音における特徴量の安定性に応じて入力音を人声と非人声とに区別することが可能である。
例えば、人声の安定性が非人声と比較して高いことを前提とすれば、第1判別手段は、安定指標値が閾値に対して安定側にある場合に入力音を人声と判定し、安定指標値が閾値に対して不安定側にある場合に入力音を非人声と判定する。「安定指標値が閾値に対して安定側にある場合」とは、入力音の安定性が高いほど安定指標値が増加するように安定指標値を算定する構成においては安定指標値が閾値を上回る場合を意味し、入力音における特徴量の安定性が高いほど安定指標値が減少するように安定指標値を算定する構成においては安定指標値が閾値を下回る場合を意味する。例えば、安定指標算定手段が、入力音を区分した複数のフレームのうち相前後する各フレーム間の特徴量の相違を複数のフレームについて平均化することで安定指標値を算定する構成において、第1判別手段は、安定指標値が閾値を下回る場合に入力音を人声と判定し、安定指標値が閾値を上回る場合に入力音を非人声と判定する。
本発明の好適な態様に係る音声処理装置は、入力音を区分した複数のフレームのうち有声音のフレームの個数の割合に応じた有声指標値を算定する有声指標算定手段を具備し、第1判別手段は、有声指標値に基づいて入力音を人声と非人声とに判別する。以上の態様によれば、入力音における有声音のフレームの個数の割合(換言すると無声音のフレームの個数の割合)に応じて入力音を人声と非人声とに区別することが可能である。
例えば、人声における有声音のフレームの割合が非人声と比較して高いことを前提とすれば、第1判別手段は、有声指標値が閾値に対して有声音のフレームの割合の上昇側にある場合に入力音を人声と判定し、有声指標値が当該閾値に対して有声音のフレームの割合の低下側にある場合に入力音を非人声と判定する。「有声指標値が閾値に対して有声音のフレームの割合の上昇側にある場合」とは、有声音のフレームの割合が上昇するほど有声指標値が増加するように有声指標値を算定する構成においては有声指標値が閾値を上回る場合を意味し、有声音のフレームの割合が上昇するほど有声指標値が減少するように有声指標値を算定する構成においては有声指標値が閾値を下回る場合を意味する。
本発明の好適な態様に係る音声処理装置において、第1判別手段は、男声指標値および女声指標値の何れかが閾値に対して類似側にある場合に入力音を人声と判定し、男声指標値および女声指標値の双方が当該閾値に対して非類似側にある場合に入力音を非人声と判定する。以上の態様によれば、入力音と男性話者モデルおよび女性話者モデルとの類否に応じて入力音を人声と非人声とに区別することが可能である。
男声指標値や女声指標値が閾値に対して「類似側にある場合」とは、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が増加する構成においては男声指標値や女声指標値が閾値を上回る場合を意味し、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が減少する構成においては男声指標値や女声指標値が閾値を下回る場合を意味する。前者の構成としては、ガウス混合モデルなどの確率モデルと入力音との平均尤度を男声指標値や女声指標値として算定する構成が典型的であり、後者の構成としては、VQ符号帳と入力音とのVQ歪を男声指標値や女声指標値として算定する構成が典型的である。
本発明の好適な態様に係る音声処理装置は、第1判別手段および第2判別手段による判別の結果に応じて異なる処理を入力音に実行する信号処理手段を具備する。例えば、信号処理手段は、第1判別手段が入力音を非人声と判別した場合に入力音の音量を低下させ、第2判別手段が入力音を男声と判別した場合に入力音の高域を強調し、第2判別手段が入力音を女声と判別した場合に入力音を処理せずに出力する。本態様によれば、入力音の判別の結果(非人声と男声と女声との何れに区別されたか)に応じて入力音に対する処理が制御されるから、入力音の特性にとって適切な処理を実行することが可能である。
以上の各態様に係る音声処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、入力音と複数の男性の発声音から生成された男性話者モデルとの類似度を示す男声指標値を算定する男声指標算定処理と、入力音と複数の女性の発声音から生成された女性話者モデルとの類似度を示す女声指標値を算定する女声指標算定処理と、入力音のピッチを特定するピッチ特定処理と、ピッチが第1所定値を下回る場合に男声指標値を類似側に変化させ、第1所定値よりも高い第2所定値をピッチが上回る場合に女声指標値を類似側に変化させる調整処理と、入力音を人声と非人声とに判別する第1判別処理と、第1判別処理で人声と判別した場合に、調整処理後の男声指標値と女声指標値とに基づいて入力音を男声と女声とに判別する第2判別処理とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る遠隔会議システムのブロック図である。遠隔会議システム100は、地理的に離間した空間R1と空間R2とで複数の利用者U(会議の参加者)が相互に音声を授受するシステムである。各空間R(R1,R2)には、収音機器12と音声処理装置14と音声処理装置16と放音機器18とが設置される。
収音機器12は、空間R内の音声(以下「入力音」という)VINの波形を表す音声信号SINを生成する装置(マイクロホン)である。空間R1および空間R2の各々の音声処理装置14は、音声信号SINから音声信号SOUTを生成して空間R1および空間R2の他方の音声処理装置16に送信する。音声処理装置16は、音声信号SOUTを増幅して放音機器18に出力する。放音機器18は、音声処理装置16から供給される増幅後の音声信号SOUTに応じた音波を放射する装置(スピーカ)である。以上の構成により、空間R1内の各利用者Uの発声音が空間R2内の放音機器18から出力され、空間R2内の各利用者Uの発声音が空間R1内の放音機器18から出力される。
図2は、空間R1および空間R2の各々に設置される音声処理装置14の構成を示すブロック図である。同図に示すように、音声処理装置14は制御装置22と記憶装置24とを具備する。制御装置22は、プログラムを実行する演算処理装置である。記憶装置24は、制御装置22が実行するプログラムや制御装置22が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記憶媒体が記憶装置24として任意に採用される。
記憶装置24は、男性話者モデルMMと女性話者モデルMFとを記憶する。男性話者モデルMMは、複数の男性による発声音の平均的な音響特性をモデル化する。女性話者モデルMFは、複数の女性による発声音の平均的な音響特性をモデル化する。本形態の男性話者モデルMMおよび女性話者モデルMFは、音声の特徴量(例えばMFCC(Mel-Frequency Cepstrum Coefficient)に代表される特徴ベクトル)の分布を確率分布の加重和としてモデル化する確率モデルである。例えば、M個(Mは自然数)の正規分布の加重和として以下の式(1)で表現されるガウス混合モデルλが男性話者モデルMMや女性話者モデルMFとして好適に採用される。
λ={pi,μi,Σi} (i=1〜M) ……(1)
式(1)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1となる。式(1)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。
制御装置22は、プログラムを実行することで図2の各要素として機能する。さらに詳述すると、制御装置22は、入力音VINが男性の発声音(男声)と女性の発声音(女声)と人声以外の音声(非人声)とのなかの何れであるかを判別する機能と、入力音VINについて判別された属性(男声と女声と非人声との何れであるか)に応じた処理を音声信号SINに対して実行する機能とを実現する。なお、制御装置22の各要素はDSPなどの電子回路によっても実現される。また、別個の集積回路に分散して各要素が実装されてもよい。
図2の分割部32は、音声信号SIN(入力音VIN)を時間軸に沿って複数のブロックに区分する。音声信号SINの属性はブロック毎に判定される。各ブロックは、相互に重複しないように画定された所定長(例えば1秒)の区間である。さらに、分割部32は、音声信号SINを複数のフレームに区分する。各ブロックはN個(Nは自然数)のフレームを含む。ただし、フレームの総数がブロック毎に相違する(すなわち各ブロックが可変長である)構成も採用される。
特徴抽出部34は、音声信号SINの各フレームについて入力音VINの音響的な特徴量をベクトル(以下「特徴ベクトル」という)Xとして抽出する。男性話者モデルMMや女性話者モデルMFの生成に利用された特徴量と同種の特徴量(例えばMFCC)が特徴ベクトルXとして抽出される。ピッチ検出部36は、音声信号SINの各フレームについてピッチ(基本周波数)P0を検出する。特徴抽出部34による特徴ベクトルXの抽出やピッチ検出部36によるピッチP0の検出には公知の技術が任意に採用される。平均ピッチ算定部42は、各ブロックのN個のフレームについてピッチ検出部36が検出したピッチP0の平均値(以下「平均ピッチ」という)PAをブロック毎に算定する。
有声指標算定部44は、音声信号SINの各ブロックについて有声指標値RVを算定する。有声指標値RVは、ブロック内のN個のフレームのうち有声音のフレームの個数NVの割合(RV=NV/N)である。有声指標算定部44は、ピッチ検出部36が有意なピッチP0を検出できたフレームを有声音のフレームと判断して有声指標値RVを算定する。ただし、各フレームの入力音VINが有声音か無声音かの判断には公知の技術が任意に採用される。人声は非人声と比較して有声音の割合が高いという傾向がある。したがって、人声の有声指標値RVは非人声の有声指標値RVと比較して大きい。
図2の安定指標算定部46は、特徴抽出部34が抽出した特徴ベクトルXに基づいて各ブロックの安定指標値STを算定する。安定指標値STは、ブロック内における入力音VINの特徴量の経時的な安定性(変動の多少や変動量)の指標となる数値である。安定指標値STの算定には例えば以下の式(2)が利用される。
Figure 0005088050

式(2)におけるX[t]は、ブロックを構成するN個のフレームのうち第t番目のフレームから抽出された特徴ベクトルXである。また、式(2)におけるd(X[t+1],X[t])は、特徴ベクトルX[t+1]と特徴ベクトルX[t]との距離(例えばユークリッド距離)である。式(2)から理解されるように、ブロック内で相前後する各フレームの特徴ベクトルXの相違が大きい(すなわちブロック内の入力音VINが不安定である)ほど安定指標値STは増加する。非人声は人声と比較して特性が不安定である場合が多いから、非人声の安定指標値STは人声の安定指標値STと比較して大きいという傾向がある。
図2の男声指標算定部52は、入力音VINと男性話者モデルMMとの類否の指標となる数値(以下「男声指標値」という)LM0を音声信号SINの各ブロックについて算定する。同様に、女声指標算定部54は、入力音VINと女性話者モデルMFとの類否の指標となる数値(以下「女声指標値」という)LF0を音声信号SINの各ブロックについて算定する。
さらに詳述すると、男声指標算定部52は、ブロック内の各フレームについて抽出されたN個の特徴ベクトルXが男性話者モデルMMから発生する確率(尤度)を当該ブロック内の総ての特徴ベクトルXについて平均化した数値を男声指標値LM0として算定する。同様に、女声指標算定部54は、ブロック内のN個の特徴ベクトルXが女性話者モデルMFから発生する確率をブロック内で平均化した数値を女声指標値LF0として算定する。
例えば、特徴ベクトルXをD次元のベクトルとすると、男性話者モデルMMから特徴ベクトルXが出現する尤度p(X|λ)は以下の式(3)で算定される。
Figure 0005088050

男声指標算定部52は、ブロック内のN個の特徴ベクトルX(X[1]〜X[N])を式(4)に代入することで男声指標値LM0を算定する。
Figure 0005088050
式(4)から理解されるように、男性話者モデルMMとブロック内の入力音VINとで特徴量が類似するほど男声指標値LM0は増加する。女声指標算定部54は、男声指標算定部52と同様の方法で女声指標値LF0を算定する。したがって、女性話者モデルMFとブロック内の入力音VINとで特徴量が類似するほど女声指標値LF0は増加する。
調整部56は、平均ピッチ算定部42が算定した各ブロックの平均ピッチPAに基づいて当該ブロックの男声指標値LM0および女声指標値LF0を調整することで新たな男声指標値LMおよび女声指標値LFをブロック毎に算定する。さらに詳述すると、調整部56は、入力音VINが男声および女声の何れであるかを平均ピッチPAから推定し、男声と推定した場合には男声指標値LM0を増加させることで男声指標値LMを決定し、女声と推定した場合には女声指標値LF0を増加させることで女声指標値LFを決定する。平均ピッチPAに応じた男女の推定は、女声の平均ピッチPAと比較して男声の平均ピッチPAが低いという一般的な傾向に基づいている。
図3は、調整部56による処理の内容を示すフローチャートである。同図の処理は音声信号SINの各ブロックについて実行される。図3のステップSA1において、調整部56は、平均ピッチPAが男声基準ピッチPMを下回るか否か(当該ブロックの入力音VINが男声と推定できるか否か)を判定する。男声基準ピッチPMは、平均的な男声のピッチを上回る数値(例えば100Hz)に設定される。
ステップSA1の結果が肯定である場合(平均ピッチPAからは当該ブロックの入力音VINが男声であると推定される場合)、調整部56は、男声指標値LM0および平均ピッチPAについて以下の式(5)の演算を実行することで男声指標値LMを算定する(ステップSA2)。
LM=LM0+α・(PM−PA)/PM ……(5)
式(5)における係数αは所定の正数である。式(5)から理解されるように、平均ピッチPAが男声基準ピッチPMと比較して低いほど(すなわち当該ブロックの入力音VINが男声である可能性が高いほど)男声指標値LMは大きい数値となる。ステップSA2に続くステップSA3において、調整部56は、女声指標値LF0を女声指標値LFとして図3の処理を終了する。
一方、ステップSA1の結果が否定である場合、調整部56は、平均ピッチPAが女声基準ピッチPFを上回るか否か(当該ブロックの入力音VINが女声と推定できるか否か)を判定する(ステップSA4)。女声基準ピッチPFは、平均的な女声のピッチを下回る数値(例えば200Hz)に設定される。
ステップSA4の結果が肯定である場合(平均ピッチPAからは当該ブロックの入力音VINが女声であると推定される場合)、調整部56は、女声指標値LF0および平均ピッチPAについて以下の式(6)の演算を実行することで女声指標値LFを算定する(ステップSA5)。
LF=LF0+β・(PA−PF)/PF ……(6)
式(6)における係数βは所定の正数である。式(6)から理解されるように、平均ピッチPAが女声基準ピッチPFと比較して高いほど(すなわち当該ブロックの入力音VINが女声である可能性が高いほど)、女声指標値LFは大きい数値となる。ステップSA5に続くステップSA6において、調整部56は、男声指標値LM0を男声指標値LMとして図3の処理を終了する。
ステップSA1およびステップSA4の何れの結果も否定である場合、ブロックの入力音VINが男声および女声の何れであるかを平均ピッチPAのみからは推定できない。したがって、調整部56は、男声指標値LMを男声指標値LM0に設定するとともに女声指標値LFを女声指標値LF0に設定して図3の処理を終了する(ステップSA7)。すなわち、男声指標値LM0および女声指標値LF0の何れも調整されない。以上が調整部56による具体的な処理である。
図2の判別部62は、以上に説明した複数種の指標値(LM,LF,ST,RV)に基づいて各ブロックの入力音VINが男声と女声と非人声との何れであるかを判定し、入力音VINの種別を示す識別データDをブロック毎に出力する。図4は、判別部62による具体的な処理の内容を示すフローチャートである。ひとつのブロックについて4種類の指標値(LM,LF,ST,RV)が算定されるたびに図4の処理が実行される。図4のステップSB1からステップSB5は、入力音VINを人声と非人声とに判別する処理であり、ステップSB6は入力音VINを男声と女声とに判別する処理である。
ステップSB1において、判別部62は、安定指標算定部46の算定した安定指標値STが閾値STHを上回るか否かを判定する。非人声の安定指標値STは人声の安定指標値STと比較して大きいから、ステップSB1の結果が肯定である場合、判別部62は、当該ブロックの入力音VINが非人声(VN)であることを示す識別データDを生成して図4の処理を終了する(ステップSB2)。
ステップSB1の結果が否定である場合、判別部62は、有声指標算定部44の算定した有声指標値RVが閾値RTHを下回るか否かを判定する(ステップSB3)。非人声の有声指標値RVは人声の有声指標値RVと比較して低いから、ステップSB3の結果が肯定である場合、判別部62は、非人声(VN)を示す識別データDをステップSB2にて生成する。ステップSB1やステップSB3の判定が、人間の標準的な発声音について否定されるとともに各種の非人声(例えば空間R内の空調音や扉の開閉音など)について肯定されるように、閾値STHおよび閾値RTHは実験的または統計的に選定される。
ステップSB3の結果が否定である場合、判別部62は、調整部56の算定した男声指標値LMおよび女声指標値LFのうちの大きい方を人声指標値LVに設定する(ステップSB4)。次いで、判別部62は、人声指標値LVが閾値LTHを下回るか否かを判定する(ステップSB5)。男性話者モデルMMおよび女性話者モデルMFの何れにも類似しない非人声の人声指標値LVは小さいから、ステップSB5の結果が肯定である場合、判別部62は、非人声(VN)を示す識別データDをステップSB2にて生成する。人間の標準的な発声音についてステップSB5の判定が否定されるとともに非人声について肯定されるように、閾値LTHは実験的または統計的に選定される。
ステップSB5の結果が否定である場合、ブロック内の入力音VINが人声であることが確定される。ステップSB5に続くステップSB6において、判別部62は、人声指標値LVが男声指標値LMであるか否か(すなわち男声指標値LMが女声指標値LFを上回るか否か)を判定する。ステップSB6の結果が肯定である場合(LM>LF)、判別部62は、当該ブロックの入力音VINを男声と判断する。すなわち、判別部62は、男声(VM)を示す識別データDを生成したうえで図4の処理を終了する(ステップSB7)。一方、ステップSB6の結果が否定である場合(LM<LF)、判別部62は、女声(VF)を示す識別データDを生成したうえで図4の処理を終了する(ステップSB8)。
図2の信号処理部66は、識別データDに応じた処理を各ブロックの音声信号SINに実行することで音声信号SOUTを生成する。音声信号SINに対する処理の内容は、各ブロックの入力音VINの属性(男声と女声と非人声との何れであるか)に応じてブロック毎に個別に選定される。
例えば、男声は一般的に女声よりも高周波成分に乏しく聴き取り難い。したがって、ブロックの識別データDが男声(VM)を示す場合、信号処理部66は、高周波成分を強調するフィルタ処理(高域強調フィルタ)を当該ブロックの音声信号SINに対して実施した信号を音声信号SOUTとして生成する。また、非人声の音量が大きいと本来の音声(人間の発声音)を聴き取り難い。したがって、ブロックの識別データDが非人声(VN)である場合、信号処理部66は、当該ブロックの音声信号SINの音量を低下させた信号を音声信号SOUTとして生成する。女声はそのままでも聴き易い場合が多いから、ブロックの識別データDが女声(VF)を示す場合、信号処理部66は、当該ブロックの音声信号SINを処理せずに音声信号SOUTとして出力する。したがって、空間R1および空間R2の各々においては、男声の高周波成分が強調されるとともに非人声が抑制された明瞭な音声が音声処理装置16を介して放音機器18から放射される。
以上に説明したように、本形態においては、入力音VINが非人声であるか否かが判定され、非人声ではないと判定された場合(図4のステップSB5:NO)に男声と女声とに区別されるから、入力音VINが非人声を含む場合であっても男声と女声とが適切に区別されるという利点がある。
さらに、人声と非人声との判別に複数の指標値(ST,RV,LV)が使用されるから、ひとつの指標値のみが使用される構成と比較して高い精度で人声と非人声とを判別することが可能である。例えば、有声音が豊富で人声に類似する入力音VINであっても安定指標値STが高い場合には非人声と判定することができ(ステップSB1)、特徴量が時間的に安定で人声に類似する入力音VINであっても有声指標値RVが低い場合には非人声と判定することができる(ステップSB3)。さらに、特徴量が時間的に安定で有声音が豊富な入力音VINであっても人声指標値LVが低い場合には非人声と判定することができる(ステップSB5)。
また、平均ピッチPAから入力音VINを男声と推定できる場合には男声指標値LMが増加し、平均ピッチPAから入力音VINを女声と推定できる場合には女声指標値LFが増加するように、調整部56が男声指標値LM0および女声指標値LF0を調整(補正)する。したがって、男声と女声とを高い精度で明確に判別できるという利点がある。
<B:第2実施形態>
以上の各形態においてはガウス混合モデルλを男性話者モデルMMおよび女性話者モデルMFとして利用した。本形態における男性話者モデルMMおよび女性話者モデルMFは、VQ(Vector Quantization)符号帳である。すなわち、男性話者モデルMMは、複数の男性による平均的な発声音から抽出された多数の特徴ベクトルの分布に対応したnA個のコードベクトルCA[1]〜CA[nA]を定義する。女性話者モデルMFは、複数の女性による平均的な発声音の特徴ベクトルの分布に対応したnB個のコードベクトルCB[1]〜CB[nB]を定義する。VQ符号帳(コードブック)の生成には、k-means法やLBGアルゴリズムなど公知の技術が任意に採用される。
男声指標値LM0は、男性話者モデルMMとブロックのN個の特徴ベクトルXとから算定されるVQ歪である。同様に、女声指標値LF0は、女性話者モデルMFとN個の特徴ベクトルXとから算定されるVQ歪である。男声指標算定部52は、例えば以下の式(7)に基づいて男声指標値LM0を算定する。なお、式(7)のd(CA[i],X[j])は、コードベクトルCA[i]と特徴ベクトルX[j]との距離(例えばユークリッド距離)である。
Figure 0005088050

すなわち、VQ歪は、男性話者モデルMMが定義するnA個のコードベクトルCA[1]〜CA[nA]とブロック内の特徴ベクトルXとの距離の最小値(min)をN個の特徴ベクトルX[1]〜X[N]について平均化した数値である。したがって、本形態においては、各ブロックの入力音VINが男性話者モデルMMに類似するほど男声指標値LM0は減少する。女声指標値LF0は、nB個のコードベクトルCB[1]〜CB[nB]とN個の特徴ベクトルXとについて式(7)と同様の演算を実行することで算定される。したがって、各ブロックの入力音VINが女性話者モデルMFに類似するほど女声指標値LF0は減少する。
図3の処理において、平均ピッチPAが男声基準ピッチPMを下回る場合(ステップSA1:YES)、調整部56は、男声指標値LM0を平均ピッチPAに応じて減少させることで男声指標値LMを算定する(図3のステップSA2)。同様に、平均ピッチPAが女声基準ピッチPFを上回る場合(ステップSA4)、調整部56は、女声指標値LF0を平均ピッチPAに応じて減少させることで女声指標値LFを算定する(図3のステップSA5)。
判別部62は、図4のステップSB4において男声指標値LMおよび女声指標値LFのうちの小さい方を人声指標値LVに設定し、ステップSB5においては、人声指標値LVが閾値LTHを上回る場合に入力音VINを非人声と判定するとともに人声指標値LVが閾値LTHを下回る場合に入力音VINを人声と判定する。また、ステップSB6において、判別部62は、男声指標値LMが女声指標値LFを下回る場合には入力音VINを男声と判定し、男声指標値LMが女声指標値LFを上回る場合には入力音VINを女声と判定する。以上の構成によっても第1実施形態と同様の効果が奏される。
<C:変形例>
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
(1)変形例1
以上の各形態においては、入力音VINを収音した空間R内の音声処理装置14にて識別データDおよび音声信号SOUTを生成したが、識別データDを生成する位置や音声信号SOUTを生成する位置は適宜に変更される。
例えば、図5の遠隔会議システム100において、空間R1および空間R2の各々に設置された音声処理装置14は、図2の信号処理部66を持たず、収音機器12から供給される音声信号SINと判別部62が音声信号SINの各ブロックについて生成した識別データDとを出力する。空間R1および空間R2の各々の音声処理装置16は図2と同様の信号処理部66(図5では図示略)を具備する。音声処理装置16の信号処理部66は、他の空間Rから受信した音声信号SINと識別データDとから音声信号SOUTを生成して放音機器18に出力する。音声信号SOUTは、第1実施形態と同様に、音声信号SINを識別データDに応じて処理した信号である。
また、図6の遠隔会議システム100において、空間R1および空間R2の各々に設置された音声処理装置14は、収音機器12から供給される音声信号SINを他の空間Rに送信する。空間R1および空間R2の各々に設置された音声処理装置16は、図2と同様の構成を具備し、他の空間Rから受信した音声信号SINから音声信号SOUTを生成して放音機器18に出力する。
(2)変形例2
以上の各形態においては、平均ピッチPAに応じて男声指標値LM0や女声指標値LF0を調整したが、調整の要否や調整量を決定する要素は平均ピッチPAに限定されない。例えば、ブロック内のN個のフレームについてピッチ検出部36が検出した何れかのピッチP0に基づいて男声指標値LM0や女声指標値LF0を調整する構成も採用される。また、調整部56や平均ピッチ算定部42は省略され得る。調整部56を省略した構成において、判別部62は、図4のステップSB4にて男声指標値LM0および女声指標値LF0のうち大きい方を人声指標値LVに設定し、ステップSB6では、男声指標値LM0が女声指標値LF0を上回る場合に入力音VINを男声と判定する一方、男声指標値LM0が女声指標値LF0を下回る場合に入力音VINを女声と判定する。
(3)変形例3
入力音VINを人声と非人声とに判別する方法は任意である。例えば、図4のステップSB1とステップSB3とステップSB5とのなかの1以上の処理を省略した構成も採用される。また、人声の音量が非人声の音量を上回る場合が多いという傾向を前提とすれば、音量が閾値を上回るブロックの入力音VINを人声と判定するとともに音量が閾値を下回るブロックの入力音VINを非人声と判定するといった構成も採用される。
(4)変形例4
人声指標値LVの大小と人声/非人声の区別との関係は第1実施形態と第2実施形態とで逆転する。すなわち、第1実施形態においては人声指標値LVが大きい場合に入力音VINが人声と判定されるのに対し、第2実施形態においては人声指標値LVが小さい場合に入力音VINが人声と判定される。以上の各形態に例示した他の指標値(ST,RV)についても同様に、当該指標値の大小と人声/非人声の区別との関係は適宜に変更される。
例えば、ブロック内の入力音VINの安定性が高いほど安定指標値STが増加するように安定指標値STを算定する構成を想定する。例えば式(2)の右辺の逆数が安定指標値STとして算定される。判別部62は、第1実施形態とは逆に、安定指標値STが閾値STHを下回る場合に入力音VINを非人声と判定し、安定指標値STが閾値STHを上回る場合に入力音VINを人声と判定する。安定指標値STの大小と入力音VINの安定性の高低とが第1実施形態および本変形例の何れの関係にあっても、安定指標値STが閾値STHに対して安定側にある場合に入力音VINを人声と判定し、安定指標値STが閾値STHに対して不安定側にある場合に入力音VINを非人声と判定するという関係は同様である。
次に、ブロックのうち有声音のフレームの割合が高いほど有声指標値RVが減少するように有声指標値RVが算定される構成を想定する。例えば、ブロック内のN個のフレームのうち無声音のフレームの個数NNの割合(RV=NN/N)が有声指標値RVとして算定される。したがって、人声の有声指標値RVは非人声の有声指標値RVと比較して小さい数値となる。判別部62は、有声指標値RVが閾値RTHを上回る場合に入力音VINを非人声と判定し、有声指標値RVが閾値RTHを下回る場合に入力音VINを人声と判定する。有声指標値RVの大小と人声/非人声の区別とが第1実施形態および本変形例の何れの関係にあっても、有声指標値RVが閾値RTHに対して有声音のフレームの減少側(無声音のフレームの増加側)にある場合に入力音VINを非人声と判定し、有声指標値RVが閾値RTHに対して有声音のフレームの増加側(無声音のフレームの減少側)にある場合に入力音VINを人声と判定するという関係は同様である。
(5)変形例5
信号処理部66による処理の内容は任意である。例えば、男声(VM)と判断されたブロックについて音声信号SINの音量を増加させる構成や、女声(VF)と判断されたブロックについて音声信号SINの音量を減少させる構成も採用される。また、例えば音声信号SINの各ブロックを例えば男声と女声とで別個のクラスタに分類する構成や音声信号SINを発声者毎に別個のクラスタに分類する構成において、非人声に判別されたブロックを分類の対象から除外するといった構成も好適である。
(6)変形例6
以上の各形態においては音声信号SINを3種類の音声(男声,女声,非人声)に分類したが、音声信号SINをさらに多種に分類する構成も採用される。例えば、複数の子供の平均的な音声から生成された話者モデルとN個の特徴ベクトルXとの対比に基づいて両者の類否の指標値(以下「子供指標値」という)を算定する。判別部62は、図4のステップSB4にて設定した人声指標値LVが当該子供指標値である場合に入力音VINを子供の発声音と判定する。
本発明の第1実施形態に係る遠隔会議システムの構成を示すブロック図である。 音声処理装置の構成を示すブロック図である。 調整部による具体的な処理の内容を示すフローチャートである。 判別部による具体的な処理の内容を示すフローチャートである。 変形例に係る遠隔会議システムの構成を示すブロック図である。 変形例に係る遠隔会議システムの構成を示すブロック図である。
符号の説明
100……遠隔会議システム、12……収音機器、14……音声処理装置、16……音声処理装置、18……放音機器、22……制御装置、24……記憶装置、32……分割部、34……特徴抽出部、36……ピッチ検出部、42……平均ピッチ算定部、44……有声指標算定部、46……安定指標算定部、52……男声指標算定部、54……女声指標算定部、56……調整部、62……判別部、66……信号処理部、R1,R2……空間、VIN……入力音、SIN,SOUT……音声信号、ST……安定指標値、RV……有声指標値、LM0,LM……男声指標値、LF0,LF……女声指標値、LV……人声指標値、X(X[1]〜X[N])……特徴ベクトル、D……識別データ。

Claims (8)

  1. 入力音を男声と女声と非人声とに区別する装置であって、
    複数の男性の発声音から生成された男性話者モデルと複数の女性の発声音から生成された女性話者モデルとを記憶する記憶手段と、
    前記入力音と前記男性話者モデルとの類似度を示す男声指標値を算定する男声指標算定手段と、
    前記入力音と前記女性話者モデルとの類似度を示す女声指標値を算定する女声指標算定手段と、
    前記入力音のピッチを特定するピッチ特定手段と、
    前記ピッチが第1所定値を下回る場合に前記男声指標値を類似側に変化させ、前記第1所定値よりも高い第2所定値を前記ピッチが上回る場合に前記女声指標値を類似側に変化させる調整手段と、
    前記入力音を人声と非人声とに判別する第1判別手段と、
    前記第1判別手段が人声と判別した場合に、前記調整手段による調整後の前記男声指標値と前記女声指標値とに基づいて前記入力音を男声と女声とに判別する第2判別手段と
    を具備する音声処理装置。
  2. 前記調整手段は、前記ピッチが前記第1所定値を下回る場合に、前記ピッチが低いほど前記男声指標値の類似側への変化量を増加させ、前記ピッチが前記第2所定値を上回る場合に、前記ピッチが高いほど前記女声指標値の類似側への変化量を増加させる
    請求項1の音声処理装置。
  3. 前記調整手段は、前記ピッチが前記第1所定値を下回る場合に前記男声指標値を類似側に変化させ、前記ピッチが前記第2所定値を上回る場合に前記女声指標値を類似側に変化させ、前記ピッチが前記第1所定値と前記第2所定値との間の数値である場合には前記男声指標値および前記女声指標値を調整しない
    請求項1または請求項2の音声処理装置。
  4. 前記入力音における特徴量の経時的な安定性の指標となる安定指標値を算定する安定指標算定手段を具備し、
    前記第1判別手段は、前記安定指標値に基づいて前記入力音を人声と非人声とに判別する
    請求項1から請求項3の何れかの音声処理装置。
  5. 前記入力音を区分した複数のフレームのうち有声音のフレームの個数の割合に応じた有声指標値を算定する有声指標算定手段を具備し、
    前記第1判別手段は、前記有声指標値に基づいて前記入力音を人声と非人声とに判別する
    請求項1から請求項4の何れかの音声処理装置。
  6. 前記第1判別手段は、前記男声指標値および前記女声指標値の何れかが閾値に対して類似側にある場合に前記入力音を人声と判定し、前記男声指標値および前記女声指標値の双方が当該閾値に対して非類似側にある場合に前記入力音を非人声と判定する
    請求項1から請求項5の何れかの音声処理装置。
  7. 前記第1判別手段が前記入力音を非人声と判別した場合に前記入力音の音量を低下させ、前記第2判別手段が前記入力音を男声と判別した場合に前記入力音の高域を強調し、前記第2判別手段が前記入力音を女声と判別した場合に前記入力音を処理せずに出力する信号処理手段
    を具備する請求項1から請求項6の何れかの音声処理装置。
  8. 入力音と複数の男性の発声音から生成された男性話者モデルとの類似度を示す男声指標値を算定する男声指標算定処理と、
    前記入力音と複数の女性の発声音から生成された女性話者モデルとの類似度を示す女声指標値を算定する女声指標算定処理と、
    前記入力音のピッチを特定するピッチ特定処理と、
    前記ピッチが第1所定値を下回る場合に前記男声指標値を類似側に変化させ、前記第1所定値よりも高い第2所定値を前記ピッチが上回る場合に前記女声指標値を類似側に変化させる調整処理と、
    前記入力音を人声と非人声とに判別する第1判別処理と、
    前記第1判別処理で人声と判別した場合に、前記調整処理後の前記男声指標値と前記女声指標値とに基づいて前記入力音を男声と女声とに判別する第2判別処理と
    をコンピュータに実行させるプログラム。
JP2007222669A 2007-08-29 2007-08-29 音声処理装置およびプログラム Expired - Fee Related JP5088050B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007222669A JP5088050B2 (ja) 2007-08-29 2007-08-29 音声処理装置およびプログラム
EP08014938A EP2031582B1 (en) 2007-08-29 2008-08-22 Discrimination of speaker gender of a voice input
US12/198,232 US8214211B2 (en) 2007-08-29 2008-08-26 Voice processing device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007222669A JP5088050B2 (ja) 2007-08-29 2007-08-29 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009053618A JP2009053618A (ja) 2009-03-12
JP5088050B2 true JP5088050B2 (ja) 2012-12-05

Family

ID=39761040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007222669A Expired - Fee Related JP5088050B2 (ja) 2007-08-29 2007-08-29 音声処理装置およびプログラム

Country Status (3)

Country Link
US (1) US8214211B2 (ja)
EP (1) EP2031582B1 (ja)
JP (1) JP5088050B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392189B2 (en) * 2009-09-28 2013-03-05 Broadcom Corporation Speech recognition using speech characteristic probabilities
US8831942B1 (en) * 2010-03-19 2014-09-09 Narus, Inc. System and method for pitch based gender identification with suspicious speaker detection
US8756062B2 (en) * 2010-12-10 2014-06-17 General Motors Llc Male acoustic model adaptation based on language-independent female speech data
JP5342629B2 (ja) * 2011-10-11 2013-11-13 日本電信電話株式会社 男女声識別方法、男女声識別装置及びプログラム
US9865253B1 (en) * 2013-09-03 2018-01-09 VoiceCipher, Inc. Synthetic speech discrimination systems and methods
GB2552723A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
GB2552722A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
US10878479B2 (en) * 2017-01-05 2020-12-29 Microsoft Technology Licensing, Llc Recommendation through conversational AI
US10755708B2 (en) 2018-06-20 2020-08-25 International Business Machines Corporation Operating a voice response system based on non-human audio sources
US20220215834A1 (en) * 2021-01-01 2022-07-07 Jio Platforms Limited System and method for speech to text conversion
US11848019B2 (en) * 2021-06-16 2023-12-19 Hewlett-Packard Development Company, L.P. Private speech filterings

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
JPS60129795A (ja) 1983-12-16 1985-07-11 沖電気工業株式会社 音声認識方式
JPS6143798A (ja) * 1984-08-08 1986-03-03 ヤマハ株式会社 音声認識装置
JPH05173594A (ja) * 1991-12-25 1993-07-13 Oki Electric Ind Co Ltd 有声音区間検出方法
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US6081660A (en) * 1995-12-01 2000-06-27 The Australian National University Method for forming a cohort for use in identification of an individual
US5960391A (en) * 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
WO1998002223A1 (fr) * 1996-07-11 1998-01-22 Sega Enterprises, Ltd. Systeme de reconnaissance vocale, procede de reconnaissance vocale et jeu les mettant en pratique
JPH10282991A (ja) * 1997-04-02 1998-10-23 Matsushita Graphic Commun Syst Inc 音声速度変換装置
JPH11338496A (ja) * 1998-05-21 1999-12-10 Seiko Epson Corp 話速変換方法および話速変換処理プログラムを記録した記録媒体
JP3266124B2 (ja) * 1999-01-07 2002-03-18 ヤマハ株式会社 アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置
JP4173940B2 (ja) * 1999-03-05 2008-10-29 松下電器産業株式会社 音声符号化装置及び音声符号化方法
JP2001056699A (ja) * 1999-08-19 2001-02-27 Casio Comput Co Ltd 音声処理装置及び記憶媒体
US6934684B2 (en) * 2000-03-24 2005-08-23 Dialsurf, Inc. Voice-interactive marketplace providing promotion and promotion tracking, loyalty reward and redemption, and other features
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体
US6510410B1 (en) * 2000-07-28 2003-01-21 International Business Machines Corporation Method and apparatus for recognizing tone languages using pitch information
US20030110038A1 (en) * 2001-10-16 2003-06-12 Rajeev Sharma Multi-modal gender classification using support vector machines (SVMs)
US7054817B2 (en) * 2002-01-25 2006-05-30 Canon Europa N.V. User interface for speech model generation and testing
US20030233233A1 (en) * 2002-06-13 2003-12-18 Industrial Technology Research Institute Speech recognition involving a neural network
US20040024598A1 (en) * 2002-07-03 2004-02-05 Amit Srivastava Thematic segmentation of speech
US7574352B2 (en) * 2002-09-06 2009-08-11 Massachusetts Institute Of Technology 2-D processing of speech
KR100513175B1 (ko) * 2002-12-24 2005-09-07 한국전자통신연구원 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법
US7389230B1 (en) * 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
US7232948B2 (en) * 2003-07-24 2007-06-19 Hewlett-Packard Development Company, L.P. System and method for automatic classification of music
JP4433734B2 (ja) * 2003-09-11 2010-03-17 カシオ計算機株式会社 音声分析合成装置、音声分析装置、及びプログラム
US7881934B2 (en) * 2003-09-12 2011-02-01 Toyota Infotechnology Center Co., Ltd. Method and system for adjusting the voice prompt of an interactive system based upon the user's state
JP2005241833A (ja) * 2004-02-25 2005-09-08 Toshiba Corp 音声認識装置、音声認識方法および音声認識プログラム
US8078465B2 (en) * 2007-01-23 2011-12-13 Lena Foundation System and method for detection and analysis of speech
EP1805753A1 (en) * 2004-10-18 2007-07-11 Koninklijke Philips Electronics N.V. Data-processing device and method for informing a user about a category of a media content item
JP2006133284A (ja) * 2004-11-02 2006-05-25 Kddi Corp 音声情報抽出装置
US8078464B2 (en) * 2007-03-30 2011-12-13 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication to determine the gender of the communicant

Also Published As

Publication number Publication date
US8214211B2 (en) 2012-07-03
EP2031582A2 (en) 2009-03-04
EP2031582A3 (en) 2011-10-26
US20090063146A1 (en) 2009-03-05
EP2031582B1 (en) 2013-03-06
JP2009053618A (ja) 2009-03-12

Similar Documents

Publication Publication Date Title
JP5088050B2 (ja) 音声処理装置およびプログラム
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
JP5229219B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
JP3913772B2 (ja) 音識別装置
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
US9959886B2 (en) Spectral comb voice activity detection
EP2083417B1 (en) Sound processing device and program
EP2351020A1 (en) Methods and apparatus for noise estimation in audio signals
JP2010032792A (ja) 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体
JP5050698B2 (ja) 音声処理装置およびプログラム
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
KR100770896B1 (ko) 음성 신호에서 음소를 인식하는 방법 및 그 시스템
WO2020013296A1 (ja) 精神・神経系疾患を推定する装置
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
JP2009020459A (ja) 音声処理装置およびプログラム
JPH06110488A (ja) 音声検出方法および音声検出装置
JP5157474B2 (ja) 音処理装置およびプログラム
JPH11212588A (ja) 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP5936378B2 (ja) 音声区間検出装置
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
JP2006010739A (ja) 音声認識装置
JP6653687B2 (ja) 音響信号処理装置、方法及びプログラム
JP5157475B2 (ja) 音処理装置およびプログラム
JP5272141B2 (ja) 音声処理装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120814

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120827

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees