JP5088050B2 - 音声処理装置およびプログラム - Google Patents
音声処理装置およびプログラム Download PDFInfo
- Publication number
- JP5088050B2 JP5088050B2 JP2007222669A JP2007222669A JP5088050B2 JP 5088050 B2 JP5088050 B2 JP 5088050B2 JP 2007222669 A JP2007222669 A JP 2007222669A JP 2007222669 A JP2007222669 A JP 2007222669A JP 5088050 B2 JP5088050 B2 JP 5088050B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- index value
- male
- female
- input sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 64
- 238000000034 method Methods 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 27
- 230000008859 change Effects 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 38
- 239000013598 vector Substances 0.000 description 33
- 230000004048 modification Effects 0.000 description 13
- 238000012986 modification Methods 0.000 description 13
- 238000009826 distribution Methods 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
本発明の好適な態様において、調整手段は、ピッチが第1所定値を下回る場合に、ピッチが低いほど男声指標値の類似側への変化量を増加させ、ピッチが第2所定値を上回る場合に、ピッチが高いほど女声指標値の類似側への変化量を増加させる。また、調整手段は、ピッチが第1所定値を下回る場合に男声指標値を類似側に変化させ、第1所定値よりも高い第2所定値をピッチが上回る場合に女声指標値を類似側に変化させ、ピッチが第1所定値と第2所定値との間の数値である場合には男声指標値および女声指標値を調整しない構成も採用され得る。
例えば、人声の安定性が非人声と比較して高いことを前提とすれば、第1判別手段は、安定指標値が閾値に対して安定側にある場合に入力音を人声と判定し、安定指標値が閾値に対して不安定側にある場合に入力音を非人声と判定する。「安定指標値が閾値に対して安定側にある場合」とは、入力音の安定性が高いほど安定指標値が増加するように安定指標値を算定する構成においては安定指標値が閾値を上回る場合を意味し、入力音における特徴量の安定性が高いほど安定指標値が減少するように安定指標値を算定する構成においては安定指標値が閾値を下回る場合を意味する。例えば、安定指標算定手段が、入力音を区分した複数のフレームのうち相前後する各フレーム間の特徴量の相違を複数のフレームについて平均化することで安定指標値を算定する構成において、第1判別手段は、安定指標値が閾値を下回る場合に入力音を人声と判定し、安定指標値が閾値を上回る場合に入力音を非人声と判定する。
例えば、人声における有声音のフレームの割合が非人声と比較して高いことを前提とすれば、第1判別手段は、有声指標値が閾値に対して有声音のフレームの割合の上昇側にある場合に入力音を人声と判定し、有声指標値が当該閾値に対して有声音のフレームの割合の低下側にある場合に入力音を非人声と判定する。「有声指標値が閾値に対して有声音のフレームの割合の上昇側にある場合」とは、有声音のフレームの割合が上昇するほど有声指標値が増加するように有声指標値を算定する構成においては有声指標値が閾値を上回る場合を意味し、有声音のフレームの割合が上昇するほど有声指標値が減少するように有声指標値を算定する構成においては有声指標値が閾値を下回る場合を意味する。
男声指標値や女声指標値が閾値に対して「類似側にある場合」とは、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が増加する構成においては男声指標値や女声指標値が閾値を上回る場合を意味し、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が減少する構成においては男声指標値や女声指標値が閾値を下回る場合を意味する。前者の構成としては、ガウス混合モデルなどの確率モデルと入力音との平均尤度を男声指標値や女声指標値として算定する構成が典型的であり、後者の構成としては、VQ符号帳と入力音とのVQ歪を男声指標値や女声指標値として算定する構成が典型的である。
図1は、本発明の第1実施形態に係る遠隔会議システムのブロック図である。遠隔会議システム100は、地理的に離間した空間R1と空間R2とで複数の利用者U(会議の参加者)が相互に音声を授受するシステムである。各空間R(R1,R2)には、収音機器12と音声処理装置14と音声処理装置16と放音機器18とが設置される。
λ={pi,μi,Σi} (i=1〜M) ……(1)
式(1)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1となる。式(1)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。
式(2)におけるX[t]は、ブロックを構成するN個のフレームのうち第t番目のフレームから抽出された特徴ベクトルXである。また、式(2)におけるd(X[t+1],X[t])は、特徴ベクトルX[t+1]と特徴ベクトルX[t]との距離(例えばユークリッド距離)である。式(2)から理解されるように、ブロック内で相前後する各フレームの特徴ベクトルXの相違が大きい(すなわちブロック内の入力音VINが不安定である)ほど安定指標値STは増加する。非人声は人声と比較して特性が不安定である場合が多いから、非人声の安定指標値STは人声の安定指標値STと比較して大きいという傾向がある。
男声指標算定部52は、ブロック内のN個の特徴ベクトルX(X[1]〜X[N])を式(4)に代入することで男声指標値LM0を算定する。
LM=LM0+α・(PM−PA)/PM ……(5)
式(5)における係数αは所定の正数である。式(5)から理解されるように、平均ピッチPAが男声基準ピッチPMと比較して低いほど(すなわち当該ブロックの入力音VINが男声である可能性が高いほど)男声指標値LMは大きい数値となる。ステップSA2に続くステップSA3において、調整部56は、女声指標値LF0を女声指標値LFとして図3の処理を終了する。
LF=LF0+β・(PA−PF)/PF ……(6)
式(6)における係数βは所定の正数である。式(6)から理解されるように、平均ピッチPAが女声基準ピッチPFと比較して高いほど(すなわち当該ブロックの入力音VINが女声である可能性が高いほど)、女声指標値LFは大きい数値となる。ステップSA5に続くステップSA6において、調整部56は、男声指標値LM0を男声指標値LMとして図3の処理を終了する。
以上の各形態においてはガウス混合モデルλを男性話者モデルMMおよび女性話者モデルMFとして利用した。本形態における男性話者モデルMMおよび女性話者モデルMFは、VQ(Vector Quantization)符号帳である。すなわち、男性話者モデルMMは、複数の男性による平均的な発声音から抽出された多数の特徴ベクトルの分布に対応したnA個のコードベクトルCA[1]〜CA[nA]を定義する。女性話者モデルMFは、複数の女性による平均的な発声音の特徴ベクトルの分布に対応したnB個のコードベクトルCB[1]〜CB[nB]を定義する。VQ符号帳(コードブック)の生成には、k-means法やLBGアルゴリズムなど公知の技術が任意に採用される。
すなわち、VQ歪は、男性話者モデルMMが定義するnA個のコードベクトルCA[1]〜CA[nA]とブロック内の特徴ベクトルXとの距離の最小値(min)をN個の特徴ベクトルX[1]〜X[N]について平均化した数値である。したがって、本形態においては、各ブロックの入力音VINが男性話者モデルMMに類似するほど男声指標値LM0は減少する。女声指標値LF0は、nB個のコードベクトルCB[1]〜CB[nB]とN個の特徴ベクトルXとについて式(7)と同様の演算を実行することで算定される。したがって、各ブロックの入力音VINが女性話者モデルMFに類似するほど女声指標値LF0は減少する。
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
以上の各形態においては、入力音VINを収音した空間R内の音声処理装置14にて識別データDおよび音声信号SOUTを生成したが、識別データDを生成する位置や音声信号SOUTを生成する位置は適宜に変更される。
以上の各形態においては、平均ピッチPAに応じて男声指標値LM0や女声指標値LF0を調整したが、調整の要否や調整量を決定する要素は平均ピッチPAに限定されない。例えば、ブロック内のN個のフレームについてピッチ検出部36が検出した何れかのピッチP0に基づいて男声指標値LM0や女声指標値LF0を調整する構成も採用される。また、調整部56や平均ピッチ算定部42は省略され得る。調整部56を省略した構成において、判別部62は、図4のステップSB4にて男声指標値LM0および女声指標値LF0のうち大きい方を人声指標値LVに設定し、ステップSB6では、男声指標値LM0が女声指標値LF0を上回る場合に入力音VINを男声と判定する一方、男声指標値LM0が女声指標値LF0を下回る場合に入力音VINを女声と判定する。
入力音VINを人声と非人声とに判別する方法は任意である。例えば、図4のステップSB1とステップSB3とステップSB5とのなかの1以上の処理を省略した構成も採用される。また、人声の音量が非人声の音量を上回る場合が多いという傾向を前提とすれば、音量が閾値を上回るブロックの入力音VINを人声と判定するとともに音量が閾値を下回るブロックの入力音VINを非人声と判定するといった構成も採用される。
人声指標値LVの大小と人声/非人声の区別との関係は第1実施形態と第2実施形態とで逆転する。すなわち、第1実施形態においては人声指標値LVが大きい場合に入力音VINが人声と判定されるのに対し、第2実施形態においては人声指標値LVが小さい場合に入力音VINが人声と判定される。以上の各形態に例示した他の指標値(ST,RV)についても同様に、当該指標値の大小と人声/非人声の区別との関係は適宜に変更される。
信号処理部66による処理の内容は任意である。例えば、男声(VM)と判断されたブロックについて音声信号SINの音量を増加させる構成や、女声(VF)と判断されたブロックについて音声信号SINの音量を減少させる構成も採用される。また、例えば音声信号SINの各ブロックを例えば男声と女声とで別個のクラスタに分類する構成や音声信号SINを発声者毎に別個のクラスタに分類する構成において、非人声に判別されたブロックを分類の対象から除外するといった構成も好適である。
以上の各形態においては音声信号SINを3種類の音声(男声,女声,非人声)に分類したが、音声信号SINをさらに多種に分類する構成も採用される。例えば、複数の子供の平均的な音声から生成された話者モデルとN個の特徴ベクトルXとの対比に基づいて両者の類否の指標値(以下「子供指標値」という)を算定する。判別部62は、図4のステップSB4にて設定した人声指標値LVが当該子供指標値である場合に入力音VINを子供の発声音と判定する。
Claims (8)
- 入力音を男声と女声と非人声とに区別する装置であって、
複数の男性の発声音から生成された男性話者モデルと複数の女性の発声音から生成された女性話者モデルとを記憶する記憶手段と、
前記入力音と前記男性話者モデルとの類似度を示す男声指標値を算定する男声指標算定手段と、
前記入力音と前記女性話者モデルとの類似度を示す女声指標値を算定する女声指標算定手段と、
前記入力音のピッチを特定するピッチ特定手段と、
前記ピッチが第1所定値を下回る場合に前記男声指標値を類似側に変化させ、前記第1所定値よりも高い第2所定値を前記ピッチが上回る場合に前記女声指標値を類似側に変化させる調整手段と、
前記入力音を人声と非人声とに判別する第1判別手段と、
前記第1判別手段が人声と判別した場合に、前記調整手段による調整後の前記男声指標値と前記女声指標値とに基づいて前記入力音を男声と女声とに判別する第2判別手段と
を具備する音声処理装置。 - 前記調整手段は、前記ピッチが前記第1所定値を下回る場合に、前記ピッチが低いほど前記男声指標値の類似側への変化量を増加させ、前記ピッチが前記第2所定値を上回る場合に、前記ピッチが高いほど前記女声指標値の類似側への変化量を増加させる
請求項1の音声処理装置。 - 前記調整手段は、前記ピッチが前記第1所定値を下回る場合に前記男声指標値を類似側に変化させ、前記ピッチが前記第2所定値を上回る場合に前記女声指標値を類似側に変化させ、前記ピッチが前記第1所定値と前記第2所定値との間の数値である場合には前記男声指標値および前記女声指標値を調整しない
請求項1または請求項2の音声処理装置。 - 前記入力音における特徴量の経時的な安定性の指標となる安定指標値を算定する安定指標算定手段を具備し、
前記第1判別手段は、前記安定指標値に基づいて前記入力音を人声と非人声とに判別する
請求項1から請求項3の何れかの音声処理装置。 - 前記入力音を区分した複数のフレームのうち有声音のフレームの個数の割合に応じた有声指標値を算定する有声指標算定手段を具備し、
前記第1判別手段は、前記有声指標値に基づいて前記入力音を人声と非人声とに判別する
請求項1から請求項4の何れかの音声処理装置。 - 前記第1判別手段は、前記男声指標値および前記女声指標値の何れかが閾値に対して類似側にある場合に前記入力音を人声と判定し、前記男声指標値および前記女声指標値の双方が当該閾値に対して非類似側にある場合に前記入力音を非人声と判定する
請求項1から請求項5の何れかの音声処理装置。 - 前記第1判別手段が前記入力音を非人声と判別した場合に前記入力音の音量を低下させ、前記第2判別手段が前記入力音を男声と判別した場合に前記入力音の高域を強調し、前記第2判別手段が前記入力音を女声と判別した場合に前記入力音を処理せずに出力する信号処理手段
を具備する請求項1から請求項6の何れかの音声処理装置。 - 入力音と複数の男性の発声音から生成された男性話者モデルとの類似度を示す男声指標値を算定する男声指標算定処理と、
前記入力音と複数の女性の発声音から生成された女性話者モデルとの類似度を示す女声指標値を算定する女声指標算定処理と、
前記入力音のピッチを特定するピッチ特定処理と、
前記ピッチが第1所定値を下回る場合に前記男声指標値を類似側に変化させ、前記第1所定値よりも高い第2所定値を前記ピッチが上回る場合に前記女声指標値を類似側に変化させる調整処理と、
前記入力音を人声と非人声とに判別する第1判別処理と、
前記第1判別処理で人声と判別した場合に、前記調整処理後の前記男声指標値と前記女声指標値とに基づいて前記入力音を男声と女声とに判別する第2判別処理と
をコンピュータに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007222669A JP5088050B2 (ja) | 2007-08-29 | 2007-08-29 | 音声処理装置およびプログラム |
EP08014938A EP2031582B1 (en) | 2007-08-29 | 2008-08-22 | Discrimination of speaker gender of a voice input |
US12/198,232 US8214211B2 (en) | 2007-08-29 | 2008-08-26 | Voice processing device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007222669A JP5088050B2 (ja) | 2007-08-29 | 2007-08-29 | 音声処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009053618A JP2009053618A (ja) | 2009-03-12 |
JP5088050B2 true JP5088050B2 (ja) | 2012-12-05 |
Family
ID=39761040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007222669A Expired - Fee Related JP5088050B2 (ja) | 2007-08-29 | 2007-08-29 | 音声処理装置およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8214211B2 (ja) |
EP (1) | EP2031582B1 (ja) |
JP (1) | JP5088050B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8392189B2 (en) * | 2009-09-28 | 2013-03-05 | Broadcom Corporation | Speech recognition using speech characteristic probabilities |
US8831942B1 (en) * | 2010-03-19 | 2014-09-09 | Narus, Inc. | System and method for pitch based gender identification with suspicious speaker detection |
US8756062B2 (en) * | 2010-12-10 | 2014-06-17 | General Motors Llc | Male acoustic model adaptation based on language-independent female speech data |
JP5342629B2 (ja) * | 2011-10-11 | 2013-11-13 | 日本電信電話株式会社 | 男女声識別方法、男女声識別装置及びプログラム |
US9865253B1 (en) * | 2013-09-03 | 2018-01-09 | VoiceCipher, Inc. | Synthetic speech discrimination systems and methods |
GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
GB2552723A (en) | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
US10878479B2 (en) * | 2017-01-05 | 2020-12-29 | Microsoft Technology Licensing, Llc | Recommendation through conversational AI |
US10755708B2 (en) | 2018-06-20 | 2020-08-25 | International Business Machines Corporation | Operating a voice response system based on non-human audio sources |
US20220215834A1 (en) * | 2021-01-01 | 2022-07-07 | Jio Platforms Limited | System and method for speech to text conversion |
US11848019B2 (en) * | 2021-06-16 | 2023-12-19 | Hewlett-Packard Development Company, L.P. | Private speech filterings |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58140798A (ja) * | 1982-02-15 | 1983-08-20 | 株式会社日立製作所 | 音声ピツチ抽出方法 |
JPS60129795A (ja) | 1983-12-16 | 1985-07-11 | 沖電気工業株式会社 | 音声認識方式 |
JPS6143798A (ja) * | 1984-08-08 | 1986-03-03 | ヤマハ株式会社 | 音声認識装置 |
JPH05173594A (ja) * | 1991-12-25 | 1993-07-13 | Oki Electric Ind Co Ltd | 有声音区間検出方法 |
US5765127A (en) * | 1992-03-18 | 1998-06-09 | Sony Corp | High efficiency encoding method |
US6081660A (en) * | 1995-12-01 | 2000-06-27 | The Australian National University | Method for forming a cohort for use in identification of an individual |
US5960391A (en) * | 1995-12-13 | 1999-09-28 | Denso Corporation | Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system |
WO1998002223A1 (fr) * | 1996-07-11 | 1998-01-22 | Sega Enterprises, Ltd. | Systeme de reconnaissance vocale, procede de reconnaissance vocale et jeu les mettant en pratique |
JPH10282991A (ja) * | 1997-04-02 | 1998-10-23 | Matsushita Graphic Commun Syst Inc | 音声速度変換装置 |
JPH11338496A (ja) * | 1998-05-21 | 1999-12-10 | Seiko Epson Corp | 話速変換方法および話速変換処理プログラムを記録した記録媒体 |
JP3266124B2 (ja) * | 1999-01-07 | 2002-03-18 | ヤマハ株式会社 | アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 |
JP4173940B2 (ja) * | 1999-03-05 | 2008-10-29 | 松下電器産業株式会社 | 音声符号化装置及び音声符号化方法 |
JP2001056699A (ja) * | 1999-08-19 | 2001-02-27 | Casio Comput Co Ltd | 音声処理装置及び記憶媒体 |
US6934684B2 (en) * | 2000-03-24 | 2005-08-23 | Dialsurf, Inc. | Voice-interactive marketplace providing promotion and promotion tracking, loyalty reward and redemption, and other features |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
US6510410B1 (en) * | 2000-07-28 | 2003-01-21 | International Business Machines Corporation | Method and apparatus for recognizing tone languages using pitch information |
US20030110038A1 (en) * | 2001-10-16 | 2003-06-12 | Rajeev Sharma | Multi-modal gender classification using support vector machines (SVMs) |
US7054817B2 (en) * | 2002-01-25 | 2006-05-30 | Canon Europa N.V. | User interface for speech model generation and testing |
US20030233233A1 (en) * | 2002-06-13 | 2003-12-18 | Industrial Technology Research Institute | Speech recognition involving a neural network |
US20040024598A1 (en) * | 2002-07-03 | 2004-02-05 | Amit Srivastava | Thematic segmentation of speech |
US7574352B2 (en) * | 2002-09-06 | 2009-08-11 | Massachusetts Institute Of Technology | 2-D processing of speech |
KR100513175B1 (ko) * | 2002-12-24 | 2005-09-07 | 한국전자통신연구원 | 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법 |
US7389230B1 (en) * | 2003-04-22 | 2008-06-17 | International Business Machines Corporation | System and method for classification of voice signals |
US7232948B2 (en) * | 2003-07-24 | 2007-06-19 | Hewlett-Packard Development Company, L.P. | System and method for automatic classification of music |
JP4433734B2 (ja) * | 2003-09-11 | 2010-03-17 | カシオ計算機株式会社 | 音声分析合成装置、音声分析装置、及びプログラム |
US7881934B2 (en) * | 2003-09-12 | 2011-02-01 | Toyota Infotechnology Center Co., Ltd. | Method and system for adjusting the voice prompt of an interactive system based upon the user's state |
JP2005241833A (ja) * | 2004-02-25 | 2005-09-08 | Toshiba Corp | 音声認識装置、音声認識方法および音声認識プログラム |
US8078465B2 (en) * | 2007-01-23 | 2011-12-13 | Lena Foundation | System and method for detection and analysis of speech |
KR20070070217A (ko) * | 2004-10-18 | 2007-07-03 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 미디어 콘텐트 아이템의 카테고리에 대하여 사용자에게통지하는 데이터 프로세싱 장치 및 방법 |
JP2006133284A (ja) * | 2004-11-02 | 2006-05-25 | Kddi Corp | 音声情報抽出装置 |
US8078464B2 (en) * | 2007-03-30 | 2011-12-13 | Mattersight Corporation | Method and system for analyzing separated voice data of a telephonic communication to determine the gender of the communicant |
-
2007
- 2007-08-29 JP JP2007222669A patent/JP5088050B2/ja not_active Expired - Fee Related
-
2008
- 2008-08-22 EP EP08014938A patent/EP2031582B1/en not_active Not-in-force
- 2008-08-26 US US12/198,232 patent/US8214211B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8214211B2 (en) | 2012-07-03 |
EP2031582A2 (en) | 2009-03-04 |
JP2009053618A (ja) | 2009-03-12 |
EP2031582A3 (en) | 2011-10-26 |
EP2031582B1 (en) | 2013-03-06 |
US20090063146A1 (en) | 2009-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5088050B2 (ja) | 音声処理装置およびプログラム | |
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
JP5229219B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム | |
JP3913772B2 (ja) | 音識別装置 | |
US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
EP2083417B1 (en) | Sound processing device and program | |
WO2010045450A1 (en) | Methods and apparatus for noise estimation in audio signals | |
WO2020013296A1 (ja) | 精神・神経系疾患を推定する装置 | |
JP2010032792A (ja) | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 | |
JP5050698B2 (ja) | 音声処理装置およびプログラム | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
KR100770896B1 (ko) | 음성 신호에서 음소를 인식하는 방법 및 그 시스템 | |
KR100744288B1 (ko) | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
JP5936378B2 (ja) | 音声区間検出装置 | |
JP2009020459A (ja) | 音声処理装置およびプログラム | |
JPH06110488A (ja) | 音声検出方法および音声検出装置 | |
JP5157474B2 (ja) | 音処理装置およびプログラム | |
JPH11212588A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP6633579B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP2006010739A (ja) | 音声認識装置 | |
JP5157475B2 (ja) | 音処理装置およびプログラム | |
JP2019029861A (ja) | 音響信号処理装置、方法及びプログラム | |
JP5272141B2 (ja) | 音声処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100622 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120306 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120502 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120814 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120827 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150921 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |