JP2005055668A - 音声処理装置 - Google Patents
音声処理装置 Download PDFInfo
- Publication number
- JP2005055668A JP2005055668A JP2003286256A JP2003286256A JP2005055668A JP 2005055668 A JP2005055668 A JP 2005055668A JP 2003286256 A JP2003286256 A JP 2003286256A JP 2003286256 A JP2003286256 A JP 2003286256A JP 2005055668 A JP2005055668 A JP 2005055668A
- Authority
- JP
- Japan
- Prior art keywords
- microphone
- data
- speaker
- voiceprint
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
Abstract
【解決手段】双方向通話部2は、複数のマイクロフォンを通して、該マイクロフォンからそれぞれ音声信号を入力し、入力した音声信号に基づいて一のマイクロフォンを選択し、そのマイクロフォンからの音声信号を出力する。声紋認識部322は、声紋認識可能な時間単位で、入力した音声信号に基づいて声紋認識を行い、声紋データを順次バッファに格納する。CPU321は、該バッファから順次声紋データを取り出し、声紋レジスタ4に格納された声紋データと照合し、発話者を特定する。そして、該発話者と関連付けて、双方向通話部2が出力する音声信号を処理する。
【選択図】図5
Description
すなわち、2人以上の参加者が同時に発話している状態では、両者の発話がミックスされた状態で、マイクを通して音声処理装置に入力されるため、複数の発話者の中から主として話をしている会議参加者を特定して、精度の良い声紋認識結果を得ることは不可能であった。
そこで、上述の声紋認識技術により本人認証を行い、発話者別に発話データを整理することが考えられるが、会議等において複数の参加者の発言が重なった場合に、誰が話をしているか特定をすることがが難しいため、上述の声紋認識技術をそのまま適用して、話者の本人認証をすることが不可能である。
また、司会者等が資料の提示をするためPCの操作を行ったり、音声で説明を加えたりするため、非常に面倒であり、会議の効率上も望ましくない。
そのような場合に、複数の参加者が同時に発言を行った場合でも、主の話者を精度良く特定して、その話者の属性データ等を同時に画面上や音声により出力して会議参加者全員に知らせたいという要望がある。
声紋認識手段は、マイクロフォン選択手段から入力した音声信号を、声紋認識可能な時間単位で逐次処理を行う。
信号処理手段は、声紋認識手段の処理結果に応じて、マイクロフォン選択手段が出力する音声信号を処理する。
信号処理手段は、該バッファから順次声紋データを取り出し、声紋データ記憶手段に格納された声紋データと照合し、発話者を特定する。そして、該発話者と関連付けて、マイクロフォン選択手段が出力する音声信号を処理する。
声紋認識手段は、マイクロフォン選択手段から入力した音声信号を、声紋認識可能な時間単位で逐次処理を行う。
属性データ記憶手段は、発話者データと属性データを対応付けて格納する。
属性データ処理手段は、声紋処理手段の処理結果に基づいて発話者を特定し、属性データ記憶手段により、その特定された発話者に対応する属性データを参照し、処理する。
図1は、双方向通話部2の回路ブロック図である。
図1のとおり、双方向通話部2の回路ブロック図は、A/D変換器ブロック21と、DSP(Digtal Signal Proccessor)22と、DSP23と、CPU(Central Processing Unit) 24と、コーデック25と、D/A変換器ブロック26(D/A変換器261,262)と、A/D変換器263と、増幅器ブロック27とを備えて構成されている。
コーデック25は、音声を符号化する。
DSP22が詳細を後述する各種の信号処理、例えば、フィルタ処理、マイク選択処理などを行う。
DSP23は、エコーキャンセラーとして機能する。
図1においては、A/D変換器ブロック21の1例として、A/D変換器211〜213を例示し、A/D変換器の1例としてA/D変換器263を例示し、D/A変換器ブロック26の1例として、D/A変換器261〜262を例示し、増幅器ブロック27の1例として、増幅器271〜272を例示している。
A/D変換器211〜213で変換したマイクMC1〜MC6の集音信号はDSP22に入力されて、後述する各種の信号処理が行われる。
DSP22の処理結果の1つとして、マイクMC1〜MC6のうちの1つが選択される。DSP22では、上述したマイクの単一指向特性を利用して、マイクの選択を行う。
また、D/A変換器262からの出力は、増幅器272を介してこの双方向通話部2のスピーカ28から音として出力される。すなわち、双方向通話部2を使用する会議参加者等は、その会議室にいる発言者が発した音声を、スピーカ28を介して聞くことができる。
双方向通話部2は、相手方の音声をA/D変換器263を介してDSP23に入力し、エコーキャンセル処理を行う。また、相手方の音声は、図示しない径路でスピーカ28に印加されて音として出力される。
DSP22で行われる主な処理は、マイクの選択・切替え処理である。すなわち、双方向通話部2を使用する複数の会議参加者が同時に話をすると、音声が入り交じり相手方にとって聞きにくくなるため、選択されたマイクからの音声信号のみが、図1における信号S271として出力される。
本処理を正確に行うため、下記に例示する各種の信号処理を行う。
(a)マイク信号の帯域分離とレベル変換処理
(b)発言の開始、終了の判定処理
(c)発言者方向マイクの検出処理
各マイクの集音信号を分析し、発言者に対向しているマイクを判定する。
(d)発言者方向マイクの切替えタイミング判定処理、及び、
検出された発言者に対向したマイク信号の選択切替え処理
(a)マイク信号の帯域分離とレベル変換処理
マイク選択処理の開始のトリガの1つに発言の開始、終了の判定を行う。そのために、各マイク信号に対して、バンドパス・フィルタ(以下、BPF)処理及びレベル変換処理を施す。
図2は、BPF処理及びレベル変換処理について6つのマイクMC1〜6のうち、1チャンネル(CH)についてのみ示した図である。
BPF処理及びレベル変換処理回路は、マイクの集音信号を、ぞれぞれ100〜600Hz,100〜250Hz,250〜600Hz,600〜1500Hz,1500〜4000Hz,4000〜7500Hzの帯域通過特性を持つBPF221a〜221f(総称してBPFブロック221)と、元のマイク集音信号及び上記帯域通過集音信号をレベル変換するレベル変換器222a〜222g(総称してレベル変換ブロック222)とを有する。
各レベル変換器は、信号絶対値処理部223とピークホールド処理部224とを有する。したがって、波形図を例示したように、信号絶対値処理部223は、破線で示した負の信号が入力されたとき符号を反転して正の信号に変換する。そして、ピークホールド処理部224は、信号絶対値処理部223の出力信号の絶対値を保持する。
DSP22は、図2に図解したマイク信号レベル変換処理部222bで音圧レベル変換された100〜600HzのBPFを通過した音圧レベルデータが所定値以上になった場合に発言開始と判定し、一定時間(例えば、0.5秒間)所定値以下になった場合に発言終了と判定する。
発言者方向の検出には、図3に例示した単一指向性マイクの特性を利用する。
単一指向性マイクは、発言者からマイクへの音声の到達角度により図3に例示したように、周波数特性やレベル特性が変化する。図3では、双方向通話部2の1.5メートルの距離にスピーカを置いて、各マイクが集音した音声を一定時間間隔でFFTした結果を示す。X軸が周波数を、Y軸が時間を、Z軸が信号レベルを表している。XY平面上に特定の周波数毎に引かれた線は、図2を用いて説明したBPF処理のカットオフ周波数を表し、各線に挟まれた周波数帯域のレベルが、図2におけるBPF221b〜221fを通してデータとなる。
1サンプルクロック毎に、上記の重み付け処理を実行し、各マイクの重み付けされた得点を加算し、一定サンプル数で平均して合計点の小さい(または大きい)マイク信号を発言者に対向したマイクと判定する。この結果をイメージ化したものが表1である。
表1の例では、一番合計点が小さいのはMIC1なので、マイク1方向に音源があると判定する。その結果を音源方向マイク番号という形で保持する。
検出された発言者に対向したマイク信号の選択切替え処理
ある発言者(例えば、マイクMC1)からの発言が終了し、新たに別の方向から発言(例えば、マイクMC2)があった場合には、(b)発言の開始、終了の判定処理において説明したように、前の発言者のマイク(MC1)信号レベルが所定値以下になってから一定時間(例えば、0.5秒間)経過後に、その発言者の発言は終了したと判断する。
そして、後の発言者の発言が開始されてマイク(MC2)信号レベルが所定値以上になった時には、後の発言者に対向したマイクを集音マイクと決定し、マイク信号選択切替え処理を開始する。
マイクの切替え判定処理は、以下のように行う。
すなわち、前の発言者(マイクMC1)の発言終了前に、現在選択されている発言者よりも大声で発言している発言者(マイクMC2)がいた場合は、マイクMC2からの音圧レベルが高くなるため、(c)発言者方向マイクの検出処理において、MC1とMC2の上記表1における得点が逆転し、音源方向マイク番号がマイクMC1→2のとおり変更になると同時に、マイク信号選択切替え処理が行われる。
なお、マイクが切り替わるときの前後のチャンネルゲイン(例えば、CH1 GainとCH2 Gain)の変化は、例えば10msの間に徐々に行われる。
以下、第1の実施の形態における音声処理装置について説明する。
図5は、第1の実施の形態における音声処理装置1のブロック図である。
図5のとおり、音声処理装置1は、上述した双方向通話部2と、音声認識処理部3と、声紋レジスタ4とを備えて構成される。
音声認識処理部3は、A/D変換器31と認識処理部32を備え、認識処理部32は、CPU321と声紋認識部322とを備えて構成される。
本発明における声紋処理手段は、第1の実施の形態における声紋認識部322に対応する。
本発明における信号処理手段は、第1の実施の形態におけるCPU321に対応する。
双方向通話部2は、上述したように、各会議出席者に対向する複数本、例えば6本のマイクを備え、各会議出席者の音声を入力し、1本のマイク信号を選択して音声認識処理部3に対して出力するとともに、選択したマイク番号を通知する。
音声認識処理部3は、A/D変換器31において双方向通話部2で選択されたマイクの信号を処理して、発話者を特定し、発話者コードを出力する。
声紋レジスタ4は、発話者を識別する発話者コードと、発話者の声紋データが対応付けられて格納されており、CPU321から声紋照合のため、参照される。
また、上述したように、選択されたマイク情報(1〜6のマイク番号)は、MC_SELとして音声認識処理部3に供給される。
A/D変換器31は、双方向通話部2で選択されたアナログ信号であるマイク信号(S261)を入力し、ディジタル信号に変換する。
音声認識処理部32は、A/D変換器31からディジタル化されたマイク信号を入力するとともに、双方向通話部2により選択されたマイク信号を取り込む。
したがって、音声認識処理部32には、双方向通話部2でマイクが切り替わった場合、それに応じて順次更新したマイク信号及びそのマイク情報(1〜6のマイク番号)MC_SELが供給される。
声紋認識部322は、CPU321からの指示に基づいて、A/D変換器31によりディジタル変換されたマイク信号を、声紋認識可能な時間単位で声紋処理し、声紋データを生成する。
例えば、3秒間という短い所定の時間でも良いし、声紋認識部322の声紋認証能力に応じて声紋認証可能な最小の時間を設定しても良い。また、1フレーズより短い時間に設定しておくこともできる。
したがって、声紋認証可能な時間は、音声処理装置1に適用される声紋認識エンジンである声紋認識部322の声紋認識能力と、音声処理装置1が使用される用途や状況に応じて柔軟に設定することができ、その用途や状況の許容する範囲で声紋認識が可能な最小の時間を設定すればよい。
本実施形態においては、かかる声紋認証可能な時間単位を3秒間としている。
図6(A)〜(G)は、順にA氏,B氏,C氏が発話したときの音声処理装置1の処理動作を示す図である。
まず、図6(A)において、上向きの矢印は声紋認証の開始を意味し、下向きの矢印は声紋認証の終了を意味している。ここでは、声紋認証の開始と終了が3秒間であり、声紋認識部322は、3秒間単位で声紋認証処理し、声紋データの生成を行う。
声紋認識部322では、声紋認証単位である3秒間毎に、A氏の発話データに基づいて声紋データを生成し、認識処理部32内の図示しないバッファに格納する。
図6(C)において、A氏の発話データのうち発話終了直前のデータは、声紋処理に必要な3秒間に満たないため、声紋処理ができない。
CPU321では、バッファに格納された声紋データを順次、あらかじめ声紋レジスタ4に格納された声紋データと照合する。声紋レジスタ4には、発話者データに対応する声紋データが格納されているので、照合した結果、発話者データに基づいて発話者がA氏であることを知ることができる。
すなわち、マイク番号と発話者データとが対応付けられたデータが、あらかじめ認識処理部32に格納されていれば、マイク切替え信号MC_SELのデータ(1〜6)と、マイク番号に対応付けられた発話者データを照合することにより、発話者を特定することができる。
例えば、このマイク切替え信号MC_SELに基づいて特定された発話者データと、上述した声紋照合により特定された発話者データとを比較して、一致した場合にのみ、マイク信号の処理を行うように構成することができる。
また、マイク切替え信号MC_SELに基づいて特定された発話者データと、上述した声紋照合により特定された発話者データが一致しない場合は、声紋照合結果の精度がより高いと判断して、声紋照合により特定された発話者データに基づいて、マイク信号を処理するように構成することもできる。
このように、本人認証が終了した発話データ(マイク信号)を、順次、図5における信号S3として出力し、図示しないHDD(Hard Disk Drive) 等の外部メモリに、初話者データ毎に蓄積していくことができる。
ここで、A氏の発話データのうち、発話終了直前のデータは3秒以内であるため、認証処理ができないデータであるが、A氏の発話データとして付加して出力してもよい。
また、図5における信号S3の出力として、CPU321により特定された初話者データのみ(この場合はA氏を示すデータ)を出力してもよい。
図6に示すB氏の発話においては、発話の終了だけではなく、発話の開始時においてもサンプリングされたデータの時間長さが声紋認証処理単位である3秒未満であるため、本人認証できない部分が存在する。この場合も、B氏の発話として出力に付加するように処理を行う。
第1の実施の形態における音声処理装置1によれば、複数の会議出席者のそれぞれに対向したマイクを通して、複数人が重なって音声処理装置1に対して音声を発している場合でも、音声処理装置1が有する双方向通話部2の特徴により、各音声の帯域毎の音圧レベルを分析して、主の話者のマイク信号を特定して音声認識処理部3にその音声信号を引き渡す。
したがって、音声認識処理部3において、複数の音声が同時に入力された場合でも誤認識処理を起こす可能性を極力回避することができ、主に発話している音声を適切に判断・処理を行うことが可能である。
音声認識処理部3は、引き渡された音声信号(マイク信号)を声紋認証可能な時間単位で声紋認識処理し、声紋レジスタ4に格納される声紋データと照合して、合致する発話者データを特定して処理する。
したがって、本人認証がなされた発話者のデータとして、マイク信号を処理することが可能となる。
図7は、図5に示す本実施形態の音声処理装置1の構成を変更した図である。
図7に示すように、CPU321と声紋認識部322と声紋レジスタ4を一体で構成してもよい。
以下、第2の実施形態について説明する。
図8は、第2の実施形態における音声処理装置1aのブロック図である。
第1の実施形態における音声処理装置1と比較して、音声処理装置1aは、さらに、属性データ処理部5を有することで異なる。
なお、本発明における属性データ記憶手段は、本実施の形態における属性データメモリ51に対応する。
本発明における属性データ処理手段は、本実施の形態における属性データ処理部5に対応する。
属性データ処理部5は、この発話者データS3を入力し、属性データメモリ51に格納されている属性データと照合して、属性データS5を出力する。
属性データメモリ51には、各発話者データと属性データが関連付けられて格納されている。
属性データは、例えば、各発話者の氏名,グループ,性別,趣味…といった個人情報であるが、外部から属性データメモリ51にアクセスすることで、属性データが更新できることは言うまでもない。
図9に示すように、図示しない外部の表示装置を用いて、発話者の属性データを表示出力することが可能となる。また、音声出力させてもよい。
したがって、音声認識処理部3において、複数の音声が同時に入力された場合でも誤認識処理を起こす可能性を極力回避することができ、主に発話している音声を適切に判断・処理を行うことが可能である。
音声認識処理部3は、引き渡された音声信号(マイク信号)を声紋認証可能な時間単位で声紋認識処理し、声紋レジスタ4に格納される声紋データと照合して、合致する発話者データを属性データ処理部5へ引き渡す。
以下、第3の実施形態について説明する。
図10は、第3の実施形態における音声処理装置1bのブロック図である。
第1の実施形態における音声処理装置1と比較して、音声処理装置1bは、さらに、認識処理部32bに音声認識部323を有することで異なる。
なお、本発明における音声変換手段は、本実施の形態における音声認識部323に対応する。
音声認識部323は、双方向通話部2およびA/D変換器31を通して取り込んだマイク信号を、音声認識することにより、文字列データ(テキストデータ)に変換する。
変換した文字列データは、信号S3bとして出力する。
したがって、本実施形態によれば、複数の会議出席者のそれぞれに対向したマイクを通して、複数人が重なって音声処理装置1に対して音声を発している場合でも、音声処理装置1が有する双方向通話部2の特徴により、各音声の帯域毎の音圧レベルを分析して、主の話者のマイク信号を特定して音声認識処理部3にその音声信号を引き渡す。
したがって、音声認識処理部3において、複数の音声が同時に入力された場合でも誤認識処理を起こす可能性を極力回避することができ、主に発話している音声を適切に判断・処理を行うことが可能である。
音声認識処理部3は、引き渡された音声信号(マイク信号)を声紋認証可能な時間単位で声紋認識処理し、声紋レジスタ4に格納される声紋データと照合して、合致する発話者データを特定する。
したがって、例えば、会議後に議事録を作成する等の場合において、各発話者毎に発話データが記憶されているので、データ整理が容易である。
図11は、図10に示す本実施形態の音声処理装置1bの構成を変更した図である。
図10に示す音声処理装置1bでは、CPU321bと声紋認識部322と音声認識部323と声紋レジスタ4を一体で構成され、さらに各発話者データの出力先として、発話者データ格納部6を備えている。
発話者データ格納部6は、図11に示すように、複数の発話者毎に発話データを格納できるように構成されている。
Claims (10)
- 複数のマイクロフォンから音声信号を入力して処理する音声処理装置であって、
前記音声信号に基づいて、一のマイクロフォンを選択するマイクロフォン選択手段と、 前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を、声紋認識可能な時間単位で逐次処理する声紋処理手段と、
前記声紋処理手段の処理結果に応じて、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を処理する信号処理手段と
を有する音声処理装置。 - 発話者データと声紋データが対応付けて格納された声紋データ記憶手段
をさらに有し、
前記信号処理手段は、前記声紋処理手段の処理結果を、前記声紋データ記憶手段に格納された声紋データと照合し、合致した声紋データに対応する前記発話者データと関連付けて、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を処理する
請求項1記載の音声処理装置。 - 前記発話者データと前記マイクロフォンが対応付けられ、
前記信号処理手段は、
合致した声紋データに対応する前記発話者データと、
前記マイクロフォン選択手段により選択されたマイクロフォンに対応する発話者データと
を比較した結果に基づいて、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を処理する
請求項2記載の音声処理装置。 - 前記信号処理手段は、
合致した声紋データに対応する前記発話者データと、
前記マイクロフォン選択手段により選択されたマイクロフォンに対応する発話者データと
を比較して、一致した場合に限り、前記発話者データと関連付けて、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を処理する
請求項3記載の音声処理装置。 - 前記信号処理手段は、
合致した声紋データに対応する前記発話者データと、
前記マイクロフォン選択手段により選択されたマイクロフォンに対応する発話者データと
を比較して、一致しない場合は、合致した声紋データに対応する前記発話者データと関連付けて、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を処理する
請求項3記載の音声処理装置。 - 音声信号を文字列データに変換する音声変換手段をさらに有し、
前記音声変換手段は、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を、文字列データに変換し、
前記信号処理手段は、変換された前記文字列データを前記発話者データと関連付けて処理する
請求項1記載の音声処理装置。 - 複数のマイクロフォンから音声信号を入力して処理する音声処理装置であって、
前記音声信号に基づいて、一のマイクロフォンを選択するマイクロフォン選択手段と、 前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を、声紋認識可能な時間単位で逐次処理する声紋処理手段と、
発話者データと属性データが対応付けて格納された属性データ記憶手段と、
前記声紋処理手段の処理結果に応じて発話者データを特定し、属性データ記憶手段に基づいて、特定された前記発話者データに対応する属性データを処理する属性データ処理手段と
を有する音声処理装置。 - 前記発話者データと前記マイクロフォンが対応付けられ、
前記属性データ処理手段は、
合致した声紋データに対応する前記発話者データと、
前記マイクロフォン選択手段により選択されたマイクロフォンに対応する発話者データと
を比較した結果に基づいて、属性データを処理する
請求項7記載の音声処理装置。 - 前記属性データ処理手段は、
合致した声紋データに対応する前記発話者データと、
前記マイクロフォン選択手段により選択されたマイクロフォンに対応する発話者データと
を比較して、一致した場合に限り、前記発話者データに対応する属性データを処理する 請求項8記載の音声処理装置。 - 前記属性データ処理手段は、
合致した声紋データに対応する前記発話者データと、
前記マイクロフォン選択手段により選択されたマイクロフォンに対応する発話者データと
を比較して、一致しない場合は、合致した声紋データに対応する前記発話者データに対応する属性データを処理する
請求項9記載の音声処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003286256A JP4085924B2 (ja) | 2003-08-04 | 2003-08-04 | 音声処理装置 |
US10/910,672 US7672844B2 (en) | 2003-08-04 | 2004-08-03 | Voice processing apparatus |
CNB2004100794591A CN1287353C (zh) | 2003-08-04 | 2004-08-04 | 语音处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003286256A JP4085924B2 (ja) | 2003-08-04 | 2003-08-04 | 音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005055668A true JP2005055668A (ja) | 2005-03-03 |
JP4085924B2 JP4085924B2 (ja) | 2008-05-14 |
Family
ID=34269029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003286256A Expired - Lifetime JP4085924B2 (ja) | 2003-08-04 | 2003-08-04 | 音声処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7672844B2 (ja) |
JP (1) | JP4085924B2 (ja) |
CN (1) | CN1287353C (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016053598A (ja) * | 2014-09-02 | 2016-04-14 | 株式会社Kddiテクノロジー | 通話装置、声紋登録方法およびプログラム |
JP2021026540A (ja) * | 2019-08-06 | 2021-02-22 | 株式会社サークル・ワン | 監視システム |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7995713B2 (en) * | 2006-04-03 | 2011-08-09 | Agere Systems Inc. | Voice-identification-based signal processing for multiple-talker applications |
JP2007318438A (ja) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム |
CN101039359B (zh) * | 2007-04-30 | 2011-11-16 | 华为技术有限公司 | 电话会议中提示发言人信息的方法、设备和系统 |
US20090023479A1 (en) * | 2007-07-17 | 2009-01-22 | Broadcom Corporation | Method and system for routing phone call audio through handset or headset |
CN101287044B (zh) * | 2008-05-14 | 2012-04-25 | 华为技术有限公司 | 声音处理的方法、设备及系统 |
US20090287489A1 (en) * | 2008-05-15 | 2009-11-19 | Palm, Inc. | Speech processing for plurality of users |
WO2013016161A1 (en) * | 2011-07-22 | 2013-01-31 | Social Communications Company | Communicating between a virtual area and a physical space |
CN102263643B (zh) * | 2011-08-22 | 2014-04-23 | 盛乐信息技术(上海)有限公司 | 基于声纹识别的数据通信系统及方法 |
JP5772448B2 (ja) * | 2011-09-27 | 2015-09-02 | 富士ゼロックス株式会社 | 音声解析システムおよび音声解析装置 |
CN102436812B (zh) * | 2011-11-01 | 2013-05-01 | 展讯通信(上海)有限公司 | 会议记录装置及利用该装置对会议进行记录的方法 |
CN102572372B (zh) * | 2011-12-28 | 2018-10-16 | 中兴通讯股份有限公司 | 会议纪要的提取方法和装置 |
US9401058B2 (en) | 2012-01-30 | 2016-07-26 | International Business Machines Corporation | Zone based presence determination via voiceprint location awareness |
KR101325867B1 (ko) * | 2012-02-24 | 2013-11-05 | 주식회사 팬택 | 음성 인식을 이용한 사용자 인증 방법, 이를 위한 장치 및 시스템 |
US9245527B2 (en) * | 2013-10-11 | 2016-01-26 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
US9742573B2 (en) * | 2013-10-29 | 2017-08-22 | Cisco Technology, Inc. | Method and apparatus for calibrating multiple microphones |
US20150149173A1 (en) * | 2013-11-26 | 2015-05-28 | Microsoft Corporation | Controlling Voice Composition in a Conference |
US10348724B2 (en) * | 2014-04-07 | 2019-07-09 | Barco N.V. | Ad hoc one-time pairing of remote devices using online audio fingerprinting |
US10210885B1 (en) * | 2014-05-20 | 2019-02-19 | Amazon Technologies, Inc. | Message and user profile indications in speech-based systems |
US20160163331A1 (en) * | 2014-12-04 | 2016-06-09 | Kabushiki Kaisha Toshiba | Electronic device and method for visualizing audio data |
CN107464570A (zh) * | 2016-06-06 | 2017-12-12 | 中兴通讯股份有限公司 | 一种语音过滤方法、装置及系统 |
CN106782571A (zh) * | 2017-01-19 | 2017-05-31 | 广东美的厨房电器制造有限公司 | 一种控制界面的显示方法和装置 |
CN107135443B (zh) * | 2017-03-29 | 2020-06-23 | 联想(北京)有限公司 | 一种信号处理方法及电子设备 |
CN109859749A (zh) * | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 一种语音信号识别方法和装置 |
CN109299324B (zh) * | 2018-10-19 | 2022-03-04 | 四川巧夺天工信息安全智能设备有限公司 | 一种标签式视频文件的检索方法 |
CN111429914B (zh) * | 2020-03-30 | 2023-04-18 | 招商局金融科技有限公司 | 麦克风控制方法、电子装置及计算机可读存储介质 |
CN113965853B (zh) * | 2021-10-19 | 2024-01-05 | 深圳市广和通无线股份有限公司 | 模组设备、音频处理方法及相关设备 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62163445A (ja) * | 1986-01-14 | 1987-07-20 | Mitsubishi Electric Corp | 電話切換装置 |
JPS6415880A (en) | 1987-07-09 | 1989-01-19 | Easel Kk | Arithmetic circuit |
JPH04122184A (ja) | 1990-09-13 | 1992-04-22 | Nec Corp | テレビ会議システム |
JPH10276417A (ja) | 1997-03-31 | 1998-10-13 | Matsushita Electric Works Ltd | テレビ会議システム |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
JP2000029486A (ja) | 1998-07-09 | 2000-01-28 | Hitachi Ltd | 音声認識システムおよび方法 |
JP2000080828A (ja) | 1998-09-07 | 2000-03-21 | Denso Corp | 車両制御装置 |
US6967682B1 (en) | 1999-03-29 | 2005-11-22 | Minolta Co., Ltd. | Photoelectric converting device |
IL129451A (en) * | 1999-04-15 | 2004-05-12 | Eli Talmor | System and method for authentication of a speaker |
US6434520B1 (en) * | 1999-04-16 | 2002-08-13 | International Business Machines Corporation | System and method for indexing and querying audio archives |
US6542600B1 (en) * | 1999-06-22 | 2003-04-01 | At&T Corp. | Method for improved resource management in a telecommunication application platform |
JP2001051694A (ja) | 1999-08-10 | 2001-02-23 | Fujitsu Ten Ltd | 音声認識装置 |
US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
US6453290B1 (en) * | 1999-10-04 | 2002-09-17 | Globalenglish Corporation | Method and system for network-based speech recognition |
JP3548706B2 (ja) | 2000-01-18 | 2004-07-28 | 日本電信電話株式会社 | ゾーン別収音装置 |
US6230138B1 (en) * | 2000-06-28 | 2001-05-08 | Visteon Global Technologies, Inc. | Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system |
US6647368B2 (en) * | 2001-03-30 | 2003-11-11 | Think-A-Move, Ltd. | Sensor pair for detecting changes within a human ear and producing a signal corresponding to thought, movement, biological function and/or speech |
TWI278782B (en) * | 2001-08-24 | 2007-04-11 | Toshiba Corp | Personal recognition apparatus |
JP2003122394A (ja) | 2001-10-16 | 2003-04-25 | Yamatake Corp | 識別対象を認識する方法と装置及び該装置を搭載したロボット |
US7054811B2 (en) * | 2002-11-06 | 2006-05-30 | Cellmax Systems Ltd. | Method and system for verifying and enabling user access based on voice parameters |
US6996526B2 (en) * | 2002-01-02 | 2006-02-07 | International Business Machines Corporation | Method and apparatus for transcribing speech when a plurality of speakers are participating |
US7310517B2 (en) * | 2002-04-03 | 2007-12-18 | Ricoh Company, Ltd. | Techniques for archiving audio information communicated between members of a group |
US6882971B2 (en) * | 2002-07-18 | 2005-04-19 | General Instrument Corporation | Method and apparatus for improving listener differentiation of talkers during a conference call |
US6931113B2 (en) * | 2002-11-08 | 2005-08-16 | Verizon Services Corp. | Facilitation of a conference call |
US7617094B2 (en) * | 2003-02-28 | 2009-11-10 | Palo Alto Research Center Incorporated | Methods, apparatus, and products for identifying a conversation |
US7734025B2 (en) * | 2003-02-28 | 2010-06-08 | Grape Technology Group, Inc. | Methods and systems for providing on-line bills for use in communications services |
US20040186724A1 (en) * | 2003-03-19 | 2004-09-23 | Philippe Morin | Hands-free speaker verification system relying on efficient management of accuracy risk and user convenience |
JP3859612B2 (ja) | 2003-04-10 | 2006-12-20 | 株式会社アドバンスト・メディア | 会議録音・書き起こしシステム |
JP2005055666A (ja) | 2003-08-04 | 2005-03-03 | Sony Corp | 音声処理装置 |
JP2005055667A (ja) | 2003-08-04 | 2005-03-03 | Sony Corp | 音声処理装置 |
US7305078B2 (en) * | 2003-12-18 | 2007-12-04 | Electronic Data Systems Corporation | Speaker identification during telephone conferencing |
KR20050081470A (ko) * | 2004-02-13 | 2005-08-19 | 주식회사 엑스텔테크놀러지 | 음성인식 가능한 메시지 녹음/재생방법 |
-
2003
- 2003-08-04 JP JP2003286256A patent/JP4085924B2/ja not_active Expired - Lifetime
-
2004
- 2004-08-03 US US10/910,672 patent/US7672844B2/en not_active Expired - Fee Related
- 2004-08-04 CN CNB2004100794591A patent/CN1287353C/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016053598A (ja) * | 2014-09-02 | 2016-04-14 | 株式会社Kddiテクノロジー | 通話装置、声紋登録方法およびプログラム |
JP2021026540A (ja) * | 2019-08-06 | 2021-02-22 | 株式会社サークル・ワン | 監視システム |
Also Published As
Publication number | Publication date |
---|---|
US7672844B2 (en) | 2010-03-02 |
JP4085924B2 (ja) | 2008-05-14 |
CN1584982A (zh) | 2005-02-23 |
CN1287353C (zh) | 2006-11-29 |
US20050060148A1 (en) | 2005-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4085924B2 (ja) | 音声処理装置 | |
US11699456B2 (en) | Automated transcript generation from multi-channel audio | |
US10678501B2 (en) | Context based identification of non-relevant verbal communications | |
CN110049270B (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
JP5533854B2 (ja) | 音声認識処理システム、および音声認識処理方法 | |
US9270817B2 (en) | Method for determining the on-hold status in a call | |
CN104123115B (zh) | 一种音频信息处理方法及电子设备 | |
US20170287482A1 (en) | Identifying speakers in transcription of multiple party conversations | |
CN114097027A (zh) | 讲话者归属的记录稿生成 | |
US20120290297A1 (en) | Speaker Liveness Detection | |
JP2010060850A (ja) | 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム | |
JP2013195823A (ja) | 対話支援装置、対話支援方法および対話支援プログラム | |
KR20160108874A (ko) | 대화록 자동 생성 방법 및 장치 | |
JP2009301125A (ja) | 会議音声録音システム | |
JP2010109898A (ja) | 撮影制御装置、撮影制御方法及びプログラム | |
Gallardo et al. | Comparison of human speaker identification of known voices transmitted through narrowband and wideband communication systems | |
JP2005055667A (ja) | 音声処理装置 | |
CN112908336A (zh) | 一种用于语音处理装置的角色分离方法及其语音处理装置 | |
JP2005055666A (ja) | 音声処理装置 | |
JP2021076715A (ja) | 音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム | |
JP2019176375A (ja) | 動画出力装置、動画出力方法および動画出力プログラム | |
JP2005308950A (ja) | 音声処理装置および音声処理システム | |
JP2008124597A (ja) | 音声会議システム | |
JP2006154484A (ja) | 音声処理装置,音声処理方法,プログラム及び記録媒体 | |
KR102471678B1 (ko) | 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070416 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070720 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070801 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080211 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110228 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120229 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130228 Year of fee payment: 5 |