JP3364487B2 - 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体 - Google Patents

複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体

Info

Publication number
JP3364487B2
JP3364487B2 JP2001191289A JP2001191289A JP3364487B2 JP 3364487 B2 JP3364487 B2 JP 3364487B2 JP 2001191289 A JP2001191289 A JP 2001191289A JP 2001191289 A JP2001191289 A JP 2001191289A JP 3364487 B2 JP3364487 B2 JP 3364487B2
Authority
JP
Japan
Prior art keywords
speaker
data
voice data
voice
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001191289A
Other languages
English (en)
Other versions
JP2003005790A (ja
Inventor
隆義 山本
Original Assignee
隆義 山本
浦田 隆之
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 隆義 山本, 浦田 隆之 filed Critical 隆義 山本
Priority to JP2001191289A priority Critical patent/JP3364487B2/ja
Application granted granted Critical
Publication of JP3364487B2 publication Critical patent/JP3364487B2/ja
Publication of JP2003005790A publication Critical patent/JP2003005790A/ja
Application status is Expired - Fee Related legal-status Critical
Anticipated expiration legal-status Critical

Links

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、複数発言者の複合
音声データの音声を分離する方法、分離したそれぞれの
音声データの発言者を特定する方法、複数発言者の複合
音声データの音声を分離する装置、分離したそれぞれの
音声データの発言者を特定する装置、コンピュータプロ
グラム、及び、記録媒体に関する。 【0002】 【従来の技術】複数の発言者の音声が混合されて記録さ
れている、音声記録媒体中の複合音声データを、発言者
毎に正確に分離する技術が切望されている。具体的に
は、複合音声データを、音声の入力と同時進行的に発言
者毎に分離し特定することで、会議の議事録作成を自動
的に行うことのできるような技術が切望されている。 【0003】従来、長時間にわたる会議の議事録を作成
するには、各種の音声記録機器に記録した会議の音声デ
ータを、議事録作成担当者が全て聞きなおし、要約する
などして議事録を作成していた。この作業は、音声記録
機器の再生と一時停止を何度も繰り返しつつ行う必要が
あり、手間と時間がかかる。 【0004】また、もう1つの問題は、発言者の特定が
困難であることである。本人が会議に出席した担当者な
らまだしも、そうでない担当者が議事録を作成するの
は、どの音声がどの発言者によるものなのかを判断する
のは非常に困難なことであった。 【0005】従来、混合音声データからの音声分離、発
言者特定に関する技術は幾つか存在してはいるが、1本
のマイクに複数人の音声やノイズが混合されて入力され
る場合でも分離、特定を正確に行い、さらに、複合音声
の入力と同時進行的に高速な分離・特定処理を行うこと
は、時間的に連続な音素データのセグメンテーション、
及び調音結合の点で非常に難しい課題であった。 【0006】特開2001-27895には、複数の信
号源からの音響信号を分離し、所望の信号を合成出力す
るための信号分離方法が記載されている。この発明は、
解析対象の混合音声・音響信号に対し時間・周波数解析
を行い、周波数成分の倍音構成を得る。倍音周波数成分
のうち、立上がり時間及び立下り時間の少なくとも一方
が共通であるか否かで、同一信号源からの周波数成分で
あるかどうかを同定する。その周波数成分を抽出・再構
成することにより、単一信号源からの信号を分離する。 【0007】この発明は、混合された信号の相関性や独
立性といった事項を考慮していないので、同じ周波数帯
域に属する混合信号、あるいは同時間帯に存在する混合
信号を分離することは困難である。 【0008】また、特開2000−97758に記載さ
れた音源信号推定装置では、複数の音響信号がそれぞれ
混在して複数のチャンネルを介して入力されたときに、
各音源信号が混合係数ベクトルと内積演算されて他の音
源信号に加算される混合過程モデルに基づき、混合係数
ベクトルに対応する分離係数ベクトルを逐次修正しなが
ら求め、この分離係数ベクトルを用いて音源信号の推
定、分離を行う(ICAの手法)にあたり、分離係数ベ
クトルの逐次修正に用いる修正ベクトルを正規化する音
声信号とそれ以外の信号が相互に混在している信号から
それぞれの信号を推定し、分離するに際し、それぞれの
信号パワー変動による推定、分離への影響を軽減するこ
とができ、さらに、収束係数を大きくすることができる
ことから安定かつ高速の信号分離が可能となる、とされ
ている。 【0009】この発明は、独立成分解析(ICA)をベ
ースとして分離係数ベクトルを逐次修正しながら行うの
で、信号パワーの変動影響を軽減でき、高速分離を実現
するものであるが、様々な信号源からの音源信号はお互
いに独立性を保持しているとは限らない。一般に、たと
え独立した信号源からの音源信号であっても混合される
と相関性を有してしまっていることが多いが、その点が
考慮されていない。 【0010】また、特開平9−258788には、基本
周波数の近接した混合音声を適切に区別分離し、音源の
数に制限されず、高品質の分離音声を得ることを目的と
した音声分離方法および装置が記載されている。この発
明では、入力音響信号中に含まれる音声信号の有声音部
分と無声音部分の内の有声音部分は有声音の音源方向の
情報を加味しながら個別に抽出し、抽出された有声音部
分を複数の有声音に分化して有声音の群として抽出し、
音声信号の無声音部分は入力音響信号から有声音部分を
減算して抽出した残差から各有声音の群の無声音に相当
する音響信号の成分として抽出し、各別に抽出された有
声音の群に無声音を補充して音声信号を抽出することに
よって上記目的を実現する。 【0011】この発明は、音源方位の情報を抽出する音
源定位部を有しているが、同じ方向から異なる音声が発
せられた場合は分離が困難となる。また、複数の発言者
が同じ母音、あるいは有声音を発したときはそれらの分
離が困難であると思われる。 【0012】 【発明が解決しようとする課題】以上のような従来技術
が有する種々の問題点を解決すべく、本発明は、複数の
発言者の音声データが混在する混在音声データを、発言
者毎の音声に分離する方法及び装置、さらに分離された
各音声データの発言者を特定することを、正確にかつ高
速に行うことができる方法及び装置の提供を主たる目的
とする。 【0013】 【課題を解決するための手段】上記の課題を解決するた
めに、本出願に係る第1の発明は、複数発言者の音声デ
ータが混在している混在音声データを、発言者毎の音声
データに分離する音声データ分離方法において、(1)
前記混在音声データを互いに無相関化するための無相関
化処理を行うステップと、(2)前記無相関化処理の行
われたデータを独立成分に分離するための独立成分分離
処理を行うステップとを有し、前記独立成分分離の行わ
れたデータの分離性が不十分な場合には、分離性が十分
になるまで、前記独立成分分離処理の行われたデータに
ついて、前記無相関化処理及び前記独立成分分離処理を
繰り返し行うことを特徴とする音声分離方法である。こ
のような第1の発明によれば、入力される混在音声デー
タ(生データ)に含まれる各音声データの相関性、及び
独立性の両性質をともに考慮し、複数の音声データや混
入する雑音などの有する相関性や独立性が、時間的・空
間的に変動する場合でも、発言者毎の音声に正確に分離
することができる。さらに加えて、このような第1の発
明によれば、混在音声データを音源毎の音声データに充
分に分離させることができる。 【0014】また、本出願に係る第2の発明は、第1の
発明である音声分離方法において、前記独立成分分離処
理として、非ガウス性のデータを独立成分に分離するた
めの非ガウス性独立成分分離処理と、非定常性のデータ
を独立成分に分離するための非定常性独立成分分離処理
と、有色性のデータを独立成分に分離するための有色性
独立成分分離処理とを準備し、データの性質により、前
記非ガウス性独立成分分離処理、前記非定常性独立成分
分離処理、及び、前記有色性独立成分分離処理のうちの
いずれかの処理を行うことを特徴とする音声分離方法で
ある。このような第2の発明によれば、無相関化処理の
行われたデータの性質に応じて最適な独立成分分離処理
を行うことができるから、混在音声データを音源毎の音
声データにより効果的に分離させることができる。 【0015】また、本出願に係る第3の発明は、第2の
発明である音声分離方法において、最初に行われる独立
成分分離処理は、非ガウス性のデータを独立成分に分離
するための非ガウス性独立成分分離処理であることを特
徴とする音声分離方法である。非ガウス性独立成分分離
処理は他の独立成分分処理方法に比べてその前処理とし
ての無相関化処理の影響を受けやすいから、このような
第3の発明によれば、最初に非ガウス性独立成分分離処
理を行うことにより、無相関化処理がうまく実行された
かどうかを、該無相関化処理に引き続く非ガウス性独立
成分分離処理によって効果的に評価することが可能とな
る。 【0016】また、本出願に係る第4の発明は、第1乃
至第3の発明である音声分離方法において、前記無相関
化処理は、少なくとも主成分分析及び因子分析を行うこ
とを特徴とする音声分離方法である。このような第4の
発明によれば、各主成分の寄与率を求めて累積寄与率が
所定のしきい値を越えるところの成分数を次数とするこ
となどにより、採用する主成分データの数(次数)を決
定した上で、効果的に無相関化処理を行うことが可能と
なる。 【0017】また、本出願に係る第5の発明は、複数発
言者の音声データが混在している混在音声データを、発
言者毎の音声データに分離し、該発言者毎の音声データ
につき発言者を特定する発言者特定方法において、
(1)第1乃第4のいずれかの発明の音声分離方法によ
り、複数発言者の音声データが混在している混在音声デ
ータを、発言者毎の音声データに分離するステップと、
(2)発言者毎に該発言者を特定するための特定パラメ
ータを準備するステップと、(3)分離された前記発言
者毎の音声データにつき、前記特定パラメータを参照し
て、発言者を特定するステップとを有することを特徴と
する発言者特定方法である。このような第5の発明によ
れば、例えば、会議の録音データなどに記録された、複
数発言者の音声や雑音などが含まれたの混在音声データ
を音源ごとに分離し、各分離されたの音声データの発言
者を特定することによって、例えば、自動的に会議記録
データの作成などを行うことができる。 【0018】また、本出願に係る第6の発明は、第5の
発明である発言者特定方法において、前記特定パラメー
タは、発言者が母音を発音した際のホルマント周波数で
あり、分離された前記発言者毎の音声データにつき、ホ
ルマント周波数を求め、求められたホルマント周波数に
関して、前記特定パラメータとしてのホルマント周波数
を参照して、発言者を特定することを特徴とする発言者
特定方法である。このような第6の発明によれば、フー
リエ変換などの容易な処理で抽出できる特徴量であるホ
ルマント周波数を用いて、各分離された音声データの発
言者特定を容易に行うことができる。 【0019】また、本出願に係る第7の発明は、第6の
発明である発言者特定方法において、前記特定パラメー
タは、発言者が母音を発音した際の第1ホルマント周波
数及び第2ホルマント周波数であり、分離された前記発
言者毎の音声データにつき、第1ホルマント周波数及び
第2ホルマント周波数を求め、求められた第1ホルマン
ト周波数及び第2ホルマント周波数に関して、前記特定
パラメータとしての第1ホルマント周波数及び第2ホル
マント周波数を参照して、発言者を特定することを特徴
とする発言者特定方法である。このような第7の発明に
よれば、第1と第2のスペクトルピークである2つのホ
ルマント周波数を用いて発言者の特定を行うことによっ
て、容易に、かつより正確に特定を行うことができる。 【0020】また、本出願に係る第8の発明は、第5の
発明乃至第7の発明のいずれかに記載の発言者特定方法
において、分離された前記発言者毎の音声データにつ
き、前記特定パラメータを参照して発言者を特定するス
テップにて発言者を特定できなかった場合には、該音声
データから複数の時点のホルマント周波数を求め、求め
られた複数時点のホルマント周波数に関して、前記特定
パラメータとしての複数時点のホルマント周波数を参照
して、発言者を特定することを特徴とする発言者特定方
法である。このような第8の発明によれば、ある音声の
発声者を特定する上での特徴量であるホルマント周波数
の、時間的変動をも考慮することにより、より正確に発
言者の特定を行うことができる。 【0021】また、本出願に係る第9の発明は、複数発
言者の音声データが混在している混在音声データから、
議事録を作成する議事録作成方法において、第5の発明
乃至第8のいずれかの発明の発言者特定方法により、分
離された前記発言者毎の音声データにつき、発言者を特
定するステップと、特定された発言者と、該発言者の発
言とを対応付けて記録媒体に出力することにより、議事
録を作成するステップとを有することを特徴とする議事
録作成方法である。このような第9の発明によれば、発
言者の特定が自動的に正確に行われるため、長時間にわ
たる会議の議事録作成を自動的に行うことができ便利で
ある。 【0022】また、本出願に係る第10の発明は、複数
発言者の音声データが混在している混在音声データを、
発言者毎の音声データに分離する音声データ分離装置に
おいて、前記混在音声データを互いに無相関化するため
に無相関化処理を行い、前記無相関化処理の行われたデ
ータを独立成分に分離するために独立成分分離処理を行
い、前記独立成分分離の行われたデータの分離性が不十
分な場合には、分離性が十分になるまで、前記独立成分
分離処理の行われたデータについて、前記無相関化処理
及び前記独立成分分離処理を繰り返し行うことを特徴と
する音声分離装置である。このような第10の発明によ
れば、入力される混在音声データ(生データ)に含まれ
る各音声データの相関性、及び独立性の両性質をともに
考慮し、複数の音声データや混入する雑音などの有する
相関性や独立性が、時間的・空間的に変動する場合で
も、発言者毎の音声に正確に分離することが可能な音声
分離装置を実現できる。さらに加えて、このような第1
0の発明によれば、混在音声データを音源毎の音声デー
タに充分に分離させることの可能な音声分離装置を実現
できる。 【0023】また、本出願に係る第11の発明は、第1
0の発明である音声分離装置において、データの性質に
より、前記独立成分分離処理として、非ガウス性のデー
タを独立成分に分離するための非ガウス性独立成分分離
処理、非定常性のデータを独立成分に分離するための非
定常性独立成分分離処理、有色性のデータを独立成分に
分離するための有色性独立成分分離処理、のうちのいず
れかの処理を行うことを特徴とする音声分離装置であ
る。このような第11の発明によれば、無相関化処理の
行われたデータの性質に応じて最適な独立成分分離処理
を行うことができるから、混在音声データを音源毎の音
声データにより効果的に分離させることの可能な音声分
離装置を実現できる。 【0024】また、本出願に係る第12の発明は、第1
1の発明である音声分離装置において、最初に行われる
独立成分分離処理は、非ガウス性のデータを独立成分に
分離するための非ガウス性独立成分分離処理であること
を特徴とする音声分離装置である。非ガウス性独立成分
分離処理は他の独立成分分処理方法に比べてその前処理
としての無相関化処理の影響を受けやすいから、このよ
うな第12の発明によれば、最初に非ガウス性独立成分
分離処理を行うことにより、無相関化処理がうまく実行
されたかどうかを、該無相関化処理に引き続く非ガウス
性独立成分分離処理によって効果的に評価することが可
能な音声分離装置を実現できる。 【0025】また、本出願に係る第13の発明は、第1
0乃至第12の発明である音声分離装置において、前記
無相関化処理は、少なくとも主成分分析及び因子分析を
行うことを特徴とする音声分離装置である。このような
第13の発明によれば、各主成分の寄与率を求めて累積
寄与率が所定のしきい値を越えるところの成分数を次数
とすることなどにより、採用する主成分データの数(次
数)を決定した上で、効果的に無相関化処理を行うこと
が可能な音声分離装置を実現できる。 【0026】また、本出願に係る第14の発明は、複数
発言者の音声データが混在している混在音声データを、
発言者毎の音声データに分離し、該発言者毎の音声デー
タにつき発言者を特定する発言者特定装置において、第
10乃至第13のいずれかの発明の音声分離装置によ
り、複数発言者の音声データが混在している混在音声デ
ータを、発言者毎の音声データに分離し、分離された前
記発言者毎の音声データにつき、発言者毎に該発言者を
特定するための特定パラメータを参照して発言者を特定
することを特徴とする発言者特定装置である。このよう
な第14の発明によれば、例えば、会議の録音データな
どに記録された、複数発言者の音声や雑音などが含まれ
たの混在音声データを音源ごとに分離し、各分離された
の音声データの発言者を特定することによって、例え
ば、自動的に会議記録データの作成などを行うことの可
能な発言者特定装置が実現できる。 【0027】また、本出願に係る第15の発明は、第1
4の発明である発言者特定装置において、前記特定パラ
メータは、発言者が母音を発音した際のホルマント周波
数であり、分離された前記発言者毎の音声データにつ
き、ホルマント周波数を求め、求められたホルマント周
波数に関して、前記特定パラメータとしてのホルマント
周波数を参照して、発言者を特定することを特徴とする
発言者特定装置である。このような第15の発明によれ
ば、フーリエ変換などの容易な処理で抽出できる特徴量
であるホルマント周波数を用いて、各分離された音声デ
ータの発言者特定を容易に行うことの可能な発言者特定
装置が実現できる。 【0028】また、本出願に係る第16の発明は、第1
5の発明である発言者特定装置において、前記特定パラ
メータは、発言者が母音を発音した際の第1ホルマント
周波数及び第2ホルマント周波数であり、分離された前
記発言者毎の音声データにつき、第1ホルマント周波数
及び第2ホルマント周波数を求め、求められた第1ホル
マント周波数及び第2ホルマント周波数に関して、前記
特定パラメータとしての第1ホルマント周波数及び第2
ホルマント周波数を参照して、発言者を特定することを
特徴とする発言者特定装置である。このような第16の
発明によれば、第1と第2のスペクトルピークである2
つのホルマント周波数を用いて発言者の特定を行うこと
によって、容易に、かつより正確に特定を行うことの可
能な発言者特定装置が実現できる。 【0029】また、本出願に係る第17の発明は、第1
4の発明乃至第16の発明のいずれかに記載の発言者特
定装置において、分離された前記発言者毎の音声データ
につき、前記特定パラメータを参照して発言者を特定で
きなかった場合には、該音声データから複数の時点のホ
ルマント周波数を求め、求められた複数時点のホルマン
ト周波数に関して、前記特定パラメータとしての複数時
点のホルマント周波数を参照して、発言者を特定するこ
とを特徴とする発言者特定装置である。このような第1
7の発明によれば、ある音声の発声者を特定する上での
特徴量であるホルマント周波数の、時間的変動をも考慮
することにより、より正確に発言者の特定を行うことの
可能な発言者特定装置が実現できる。 【0030】また、本出願に係る第18の発明は、複数
発言者の音声データが混在している混在音声データか
ら、議事録を作成する議事録作成装置において、第14
乃至第17のいずれかの発明の発言者特定装置により、
分離された前記発言者毎の音声データにつき、発言者を
特定し、特定された発言者と、該発言者の発言とを対応
付けて記録媒体に出力することにより、議事録を作成す
ることを特徴とする議事録作成装置である。このような
第18の発明によれば、発言者の特定が自動的に正確に
行われるため、長時間にわたる会議の議事録作成を自動
的に行うことの可能な議事録作成装置が実現できる。 【0031】また、第1乃至第4のいずれかの発明の音
声分離方法を音声分離装置に実行させるためのコンピュ
ータプログラムも実現可能である。 【0032】また、第5乃至第8のいずれかの発明の発
言者特定方法を発言者特定装置に実行させるためのコン
ピュータプログラムも実現可能である。 【0033】また、そのようなコンピュータプログラム
を記録したコンピュータ読み取り可能な記録媒体も実現
可能である。 【0034】 【発明の実施の形態】 ==混在音声データの音声分離== 以下、図面を参照しつつ、本発明のより具体的な実施形
態につき、詳細に説明する。まず、本発明の方法の前半
部分である、混在音声データの音声分離ステップについ
て説明する。 【0035】本実施形態では、2人で行われたある会議
の発言内容の音声データを2本のマイク(マイク1、マ
イク2)で拾う。図1は、そのうちマイク1から入力さ
れた音声データ(生データ)Xの波形である。この混在
音声データには、複数の発言者の音声データが混在して
いるのみならず、音楽や、さらには雑音などが混ざって
いてもよい。2人の発声をそれぞれ音源S1、S2と呼
ぶことにする。 【0036】図2は、音声分離処理のサイクルを示す図
である。マイク1及びマイク2から入力された混在音声
データは、まず無相関化処理W1にかけられる。無相関
化処理W1に渡される音声データは、図1の[1]、[2]
のようにセグメント化されて1つずつ渡される。最も効
率がよいように、各セグメントは互いに1/2周期ずつ
オーバーラップしている。 【0037】図2において、無相関化処理W1の次のス
テップであるICチューナーは、独立成分解析(IC
A)の手法を3種類のうちから選択するためのチューナ
ーである。その次のステップである独立成分分離処理W
2は、非ガウス性に基づく分離処理W2(α)、非定常
性に基づく分離処理W2(β)、有色性に基づく分離処
理W(γ)の3種類のうちいずれかの方式の処理を行
う。W2の後のステップの評価器Eでは、W2にて分離
されたデータの分離性の評価を行う。マイクから入力さ
れた混在音声データの音声分離性能が充分になるまで、
以上のW1→ICチューナー→W2→Eというサイクル
を繰り返し回す。ただし、1回目のサイクルでは、独立
成分分離処理W2として、非ガウス性に基づく独立成分
分離処理W2(α)を行い、2回目以降のサイクルで
は、ICチューナの選択に従って、W2(α)、W2
(β)、W2(γ)の3種類のうちから適切な方式の独
立成分分離処理を行う。 【0038】図3は、1回目の音声分離サイクルを示し
ている。図1における前記[1]の時間セグメントの、マ
イク1及びマイク2からの混在音声データx1、x2
が、まず無相関化処理W1に入力される。 【0039】図7及び図8は、それぞれx1及びx2の
デジタル化波形図データ(縦軸は音の強さで、単位はミ
リボルト)を示す。各時点のx1、x2データを、横軸
をx1の強さ、縦軸をx2の強さとして散布図を描くと
図9のようになる。散布図は、第1象限から第3象限に
かけて若干直線的な分布を呈し、x1とx2のデータは
互いに相関性を有することを示している。これら生デー
タであるx1、x2が無相関化処理W1にかけられる
と、互いに相関性を有しないデータf1、f2に変換さ
れる。 【0040】f1及びf2の散布図を図10に示す。図
10の横軸は因子得点Fの第1因子f1、縦軸は因子得
点Fの第2因子f2を示している。図9が軸に対してい
びつな平行四辺形状に分布していたのに対し、軸に対し
てまっすぐで形の整ったひし形状に分布しており、f1
とf2はもはや互いに相関性を有していないことがわか
る。 【0041】ここで、無相関化処理の内容について説明
する。図6は、無相関化処理W1の一例のフローチャー
トを示したものである。まず、図7及び図8に示した音
声生データx1、x2を(1)式により標準化する。標
準化の結果、平均が0、標準偏差1のデータとなる。 【数1】 【0042】生データx1、x2の相関行列(ベクトル
C)を(2)式より求める。(2)式において(x1、
x2)はベクトルの内積を表す。 【数2】 【0043】上記相関行列に対する固有値λiと固有ベ
クトルAを(3)より求める。 【数3】 【0044】今、因子分析によって、互いに無相関な因
子得点を求めようとしているのだが、その際、第1番目
の因子から始めて、何番目の因子までを採用するのかが
重要な点である。m番目の因子までを採用する場合を、
m次元と呼ぶ。先に求めた固有ベクトルAにより、
(4)式によって主成分Zが求まる。 【数4】 【0045】次にm個の因子に対して、(5)式の形の
定義式にて因子分析を実行する。(5)式におけるe
は、特殊因子と呼ばれるものである。 【数5】 【0046】この因子モデルが(6)式の表現をとる。
(6)式における因子負荷量bij、因子得点Fは、
(7)式及び(8)式によって求める。そして、図6の
フローチャートの最終ステップで、結局音声生データ
は、互いに無相関な因子得点(ベクトルF)に変換され
る。 【0047】 【数6】 【数7】 【数8】【0048】以上説明したW1の主な特徴は、主成分分
析と因子分析とを組み合わせている点である。その効果
は、主成分分析を実行すると各主成分の寄与率を同時に
求めることができるので、例えば、第1次主成分から第
m次主成分までの累積寄与率が80%を超えるまでの主
成分を採用するようにすることで、次数mを決定するこ
とにある。分離すべき音声生データは、時間的変動が大
きく、混合による相関の度合いが大きく変化するので、
何個の因子を採用するかは無相関化処理において重要な
点である。 【0049】発話者の人数があらかじめ判明している場
合には、次数mを発話者の人数に固定してしまえばよい
が、人数が不明なときは、例えば、累積寄与率が所定の
しきい値を超えたときの主成分数を次数mとする。次数
mの決定方法は、システムに応じて様々な方法を準備し
ておき、臨機応変に変化させる(チューニングする)こ
とが好ましい。次にこのチューニングの一実施例につい
て詳しく説明する。 【0050】図21は、システムに応じた方法で次数m
を決定する手順を示すフローチャートである。図21
で、RK0は累積寄与率の初期しきい値、Mは採用し得
る最大次数(次数の上側しきい値)、△RKは累積寄与
率の変化量である。主成分分析を実行すると、図19の
ような、次数m(第m主成分まで採用したということを
示す)とその累積寄与率との関係を示すグラフが得られ
る。図19にはA、B、C3種類のグラフの例を描いて
いる。 【0051】まず、第1の処理ステップとして、累積寄
与率RKにしきい値RK0(この実施例では80%)を
設定しておき、このしきい値RK0を超える次数mを求
める。ところが、次数があまりに大きいとその後の処理
が煩雑に過ぎるので、あらかじめ次数の上限値Mを決め
ておく。図19の例では、M=4とすると、Aの場合は
しきい値RK0を超える次数m=2であるので、m=2
<4=Mとなって、次数mは2に決定される。Bの例で
はRK0を超える次数mは5であるので、m=5>4=
Mとなってしまい、次数mはまだ決定されない。Cの例
でも同様に次数mは決定されない。 【0052】そのような場合は図20に示す、第2のス
テップを実行する。すなわち、次数mの増加に対する、
RKの差分変化量△RKを調べる。これは要するに、累
積寄与率の変化が最大となる次数mをもって採用すべき
次数とするという処理方法である。この実施例では、B
の例ではm=2、Cの例ではm=4において△RKが最
大値をとる。この場合も次数mが上限値Mよりも下なら
ば、その次数mを採用とするが、Mを上回る場合は、そ
の処理が次のステップに送られる。 【0053】第2のステップでも次数mが上限値Mを超
えてしまう場合であれば、次に累積寄与率のしきい値R
K0を引き下げて、例えば60%(=RK1)とし、上
記第1のステップと同じように比較する。新しいしきい
値RK1を超えるところの次数がM=4以下であれば、
これを次数mとして採用とし、Mを超える場合は、所定
の下げ幅で順次RK2、RK3、・・・RKnの値を下
げる。ただし、累積寄与率RKが50%を下回るという
ことは、半分以上の情報が失われてしまうことを意味す
るので、RKnの下限値は50%とする。 【0054】次数mがRKn=50%以上で、かつM以
下の値で発見されない場合は、再び上記第2のステップ
と同様の処理、すなわち△RKが最大になる次数を求め
て、その値を次数mとして採用してしまう。これは、累
積寄与率が大きく変化するということは、その次数の前
後で情報がより多く保存されるということを意味するの
で、少なくともその次数までは採用したい、という考え
に基づくものである。 【0055】以上のようにして、図3において、無相関
化されたデータf1、f2は、ただちに独立成分分離処
理W2に送られる。1回目の音声分離サイクルでは、こ
れらの無相関化データf1、f2に対し、非ガウス性に
基づく独立成分分離処理W2(α)を実行する。 【0056】以上、図3におけるW1及びW2(α)の処
理により、分離信号aおよびbが得られ、これらの分離
性(充分に分離されているか否か)を評価器Eで評価
し、分離が不十分なとき(図の*1)はこれらa、bの
データに対して、2回目のサイクルを実行する。 【0057】2回目のサイクルの例を図4に示す。図3
に示した1回目のサイクルと似ているが、ICチューナ
ーにおける処理が加わっている。独立成分分離処理W2
を行う前に、ICチューナーで2回目の無相関化処理さ
れたデータf1´、f2´の信号特性を解析し、非ガウ
ス性に基づく処理W2(α)、非定常性に基づく処理W2
(β)、有色性に基づく処理W2(γ)のいずれをW2と
して実行するかを選択する。この例ではW2(β)を実
行している。処理W2(β)の後のデータy1、y2の
分離性は、評価器Eで評価され、不十分なとき(図4の
*2)は3回目のサイクルが実行される。 【0058】ここで、ICチューナーの機能について説
明する。ICチューナーは、次のように無相関化処理さ
れた入力データのガウス性、定常性、及び有色性を評価
し、3種のうちから最適な独立成分分離処理を選択す
る。 【0059】まず、ICチューナーは、二つの入力デー
タのガウス性を評価する。詳しくは、それぞれの入力デ
ータについて、入力時系列データの頻度分布がガウス関
数(正規分布関数)型か、非ガウス関数型かを調べる。
入力データをgs、ガウス関数をg0とすると、両者の
差分の絶対値、すなわち|gs−g0|を、当該区間に
おいて積分した値△gが、所定のしきい値δgより大き
ければ非ガウス型、小さければガウス型と評価する。無
相関化処理された入力データのいずれもが非ガウス型で
あれば、ICチューナーは、独立成分分離処理W2とし
て非ガウス性に基づく処理W2(α)を選択する。 【0060】無相関化処理された入力データのいずれか
がガウス型と評価された場合には、次に、ICチューナ
ーは、二つの入力データの定常性を評価する。この評価
にあたっては、複数の不規則波形の集合平均をとり、こ
の集合平均の時間変化に着目する。集合平均が時間軸に
対して一定であれば、「完全定常」とする。時間的に変
動している場合は、ある時間幅における確率密度分布を
求めて分散、歪度、及び尖度から非定常性を数値化す
る。非定常性の強さは、分散の大きさ、歪度の大きさ、
尖度の大きさの順に影響を強く受けやすいため、その強
さに応じた重み付けを施した上で評価することが好まし
い。無相関化処理された入力データのいずれもが非定常
性を有すると評価された場合、ICチューナーは、独立
成分分離処W2として非定常性に基づく処理W2(β)を
選択する。 【0061】無相関化処理された入力データのいずれか
が定常性を有すると評価された場合には、次に、ICチ
ューナーは、二つの入力データの有色性を評価する。有
色性を評価するには、不規則波形の自己相関関数を求め
る。時間のずれτの大きさについての自己相関関数のグ
ラフを求め、そのグラフの重心位置が原点(τ=0)か
らどれだけ乖離しているかを調べる。重心位置が原点
(τ=0)から所定値以上乖離している場合には、有色
性を有していると評価する。なお、白色雑音の場合は、
自己相関関数はτ=0にのみ値を有する。無相関化処理
された入力データのいずれもが有色性を有すると評価さ
れた場合、ICチューナーは、独立成分分離処W2とし
て有色性に基づく処理W2(γ)を選択する。 【0062】図5は3回目のサイクルを示している。各
処理は2回目のサイクルと同様であるが、3回目の独立
成分分離処理は、この例では有色性に基づくW2(γ)を
実行している。 【0063】ここで、前述した3種の独立分離処理W2
(α)、W2(β)、及びW2(γ)の内容についてよ
り詳しく説明する。第1に、非ガウス性に基づく独立成
分分離処理W2(α)による信号源推定手順であるが、
まず、分離係数(行列)Wtを適宜に仮定する(初期値
をW0とする)。 【0064】次に(9)式の様に無相関化処理後のデー
タF(t)に対する信号源y(t)を推定する。 【数9】 このy(t)と、Wtを用いて、(10)式に示す式か
ら△Wtを求める。 【数10】 【0065】(11)式により、次の収束計算ステップ
でのWt+1を求める。このWt+1を新たなWtとし
て、以上のステップを繰り返す。そして、△Wtがほぼ
ゼロになった時点、すなわちWtが十分に収束したと考
えられる時点のy(t)が、混在音声生データx(t)
から求められた信号源s(t)の推定信号となる。 【数11】 【0066】第2に、非定常性に基づく独立成分分離処
理W2(β)による信号源推定手順であるが、まず、分
離係数(行列)Ctと系の時定数T´のオーダーの時間
におけるy2(t)の移動平均Φの初期値を求める。ま
た、y(t)を(12)式により求める。(12)式に
おいて、Iは単位行列である。 【数12】 次に(12)式に示す微分方程式を解いて、Φを求め
る。(13)式において、T´は系の時定数である。 【数13】 次に、(12)式におけるΦ、Ct、y(t)より(1
4)式に示す微分方程式を用いて新たなCt+1を求め
る。(14)式において、Tは系の時定数である。 【数14】 求められたCt+1と、無相関化処理後データF(t)
とから(15)式を用いて次のステップのy(t)を推
定する。 【数15】 このy(t)とCt+1とを用いて、以上のステップを
繰り返す。そして、Ctが十分収束したと考えられる時
点のy(t)が混在音声生データx(t)から求められ
た信号源s(t)の推定信号となる。 【0067】第3に、有色性に基づく独立成分分離処理
W2(γ)による信号源推定手順であるが、まず、分離
係数行列CtとΨ1、Ψ2の初期値を与える。ここで、
Ψ1、Ψ2は、y(t)に2種類の線形フィルタをかけ
たものy1(t)、及びy2(t)から作られる2つの
積(y1*y1T)、及び(y2*y2T)の時間平均
である。また、y(t)を無相関化処理後データF
(t)から(16)式を用いて推定する。 【数16】 このy(t)に、2種類の線形フィルタG1、G2をか
けて、(17)式によりy1(t)、y2(t)を求め
る。 【数17】 【0068】上記のΨ1、Ψ2の初期値、及びy1、y
2とから、(18)式に示す微分方程式を用いて新たに
Ψ1、Ψ2を求める。 【数18】 Ct、Ψ1、Ψ2とから、(19)式によって、新たな
Ct+1を求める。 【0069】 【数19】 このCt+1とデータF(t)とから、前記の(16)
式によって新たなy(t)が求められる。そして、この
Ctの変化、すなわちy(t)の変化が十分に小さくな
り、収束したと考えられる時点におけるy(t)が、混
在音声生データx(t)から求められた信号源s(t)
の推定信号となる。まだ収束していない場合は、(1
7)式によりy1(t)、y2(t)を求め、以上のス
テップを繰り返す。 【0070】図5に戻って、ここでは3回目の分離サイ
クルの出力データy1´、y2´が充分な分離性を有し
ていると評価器Eにて判断された。すなわち、y1´、
y2´がそれぞれ音源S1、S2のどちらかの音声に相
当すると思われる。これらのデータのデジタル化波形図
を図11及び図12に示す。振幅が一定以下の点は発話
でなくノイズとみなすことによって解析すると、y1´
には「あ」(〜)、及び「か」(〜)の音声デ
ータが見られる。同様にy2´には「し」(〜)の
音声データが見られる。 【0071】図13は、y1´とy2´の大きさをそれ
ぞれ横軸、縦軸にプロットした散布図である。この図か
ら分かるように、、、、、、の点はいずれ
もy2´の値がほぼゼロであり、逆に、、の各点
はy1´の値がほぼゼロであり、2つの独立した音源か
らの音声にきっちりと分離されたことが分かる。 【0072】なお、評価器Eにおいて、処理W2を実行
した後のデータの分離性を評価するには、図13のグラ
フにおけるのような点を調べればよい。つまり、散布
図の中でもっとも横軸または縦軸から乖離している点を
選び、その軸までの距離が一定値以上であれば、いまだ
分離性が不十分とし、もう一度図4、図5のような分離
サイクルを実行するのである。 【0073】 ==分離音声データの発言者特定== 次に、本発明の後半部分である、分離された各音声デー
タの発言者を特定するステップについて説明する。図1
4は、上記音声分離ステップで得られた分離データy1
´の波形図と、そのフーリエ変換によるスペクトル分布
図である。ここで、スペクトル分布の求め方としては、
フィルタバンク、またはLPC法などが使用できる。 【0074】同様に図15は、分離データy2´の波形
図と、そのフーリエ変換によるスペクトル分布図であ
る。この実施例では発話者として2人(AさんとBさん
とする)を想定しているので、この2つの波形データy
1´、y2´に分離されたが、この時点ではどちらがA
さんの音声で、どちらがBさんの音声であるかはわかっ
ていない。それをこれから特定する。 【0075】まず、発言者を特定するための第1の方法
として、ホルマント周波数を発言者特定パラメータとし
て利用する方法を実行する。図14におけるfo1とf
o2が、y1´データの第1ホルマント周波数と第2ホ
ルマント周波数であり、図15におけるgo1、go2
が、y2´データの第1ホルマント周波数と第2ホルマ
ント周波数である。あらかじめ、会議参加者AさんとB
さんの第1及び第2ホルマント周波数データを、発言者
特定のための特定パラメータとしてデータベースに準備
しておく。そして上記の分離データy1´、y2´のホ
ルマント周波数と照会することによって各分離音声デー
タの発言者を特定するのである。 【0076】図16は、特定パラメータであるAさんと
Bさんの5母音全てのホルマント周波数と、得られた分
離音声データであるy1´及びy2´の第1及び第2ホ
ルマント周波数をマッチングする処理の概念図である。
横軸は第1ホルマント周波数、縦軸は第2ホルマント周
波数である。まず、Aさんの母音の発音のホルマント周
波数の広がり領域(図の実線で囲んだ領域)、及びBさ
んの母音の発音のホルマント周波数の広がり領域(図の
点線で囲んだ領域)を示し、その上に、図14及び図1
5の分離音声データのホルマント周波数をプロットして
いる。 【0077】y1´及びy2´のホルマント周波数が、
AさんまたはBさんのホルマント周波数領域内に収まれ
ば、これをもって発言者が特定できたとすることができ
る。しかし、AさんとBさんのいずれのホルマント周波
数領域にも納まらない場合(図16のC部分)、また
は、AさんとBさんの領域に重なり部分Dに収まってし
まう場合は、この第1の方法では発言者を特定すること
ができないため、以下に説明する第2の特定方法を実行
する。 【0078】第2の発言者特定方法は、複数時点のホル
マント周波数を発言者特定パラメータとして用いる方法
である。図17は、本発明の前半段階である音声分離ス
テップによって分離されたある音声データ(「あ」の音
声)を、n個のサンプリング時刻に分けてフーリエ変換
し、スペクトル分解したことを示す図である。それぞれ
に対して第1及び第2ピークである第1ホルマント周波
数(f11、f12、・・・f1n)及び第2ホルマン
ト周波数(f21、f22、・・・f2n)を求める。 【0079】次に、これらのホルマント周波数データに
対して主成分分析を実行し、主成分得点Z1、Z2、・
・・Znを求め、これを発言者の音声の特徴量として用
いる。従って、あらかじめデータベースに準備しておく
発言者特定パラメータとしては、会議参加者の様々な音
声(全母音など)の主成分得点Z1、Z2、・・・を準
備しておく。 【0080】図18は、第2の発言者特定方法による結
果を示すグラフである。図18(a)は、比較のために
掲げた第1の発言者特定方法による結果である。図18
(a)では、「あ」の音に対して5つのサンプリング時
刻における第1及び第2ホルマント周波数をプロットし
ているが、Aさんの領域、Bさんの領域のどちらに属す
るかいずれとも言えない。 【0081】これに対して、図18(b)は、第2の方
法による、第1及び第2主成分得点Z1、Z2を2次元
の座標軸とした分布図である。まず、この図の例のよう
に、Aさんの領域(図の実線)とBさんの領域(図の点
線)がこの主成分得点平面では明確に離れていることが
多いので、判定が容易である。図17の結果から求めた
分離データの主成分得点(Z1、Z2)をプロットする
と明らかにAさんの領域に近いので、この場合の「あ」
はAさんの発音であることがわかる。 【0082】以上で、図1におけるタイムセグメント
[1]の混在音声データを分離し、各分離データの発言者
を特定することができた。同様の処理をタイムセグメン
ト[2]、[3]以降についても行えば連続した混在音声デ
ータを全て発言者ごとの音声に分離・特定できる。 【0083】 ==発明の変形例や具体的用途== 上記実施形態では、グラフを描く上での便宜上などか
ら、会議の参加者を2人としたが、参加者が3人以上の
場合であっても全く同様に音声を分離し、発言者を特定
することができる。 【0084】本発明の具体的用途の1つとして、特定さ
れた発言者と、該発言者の発言とを対応付け、公知の各
種音声認識ソフトウェアを利用して文字データなどに変
換した上で、記録媒体に出力することによる、自動議事
録作成がある。長時間にわたる会議の議事録作成が簡便
であり、かつ発言者の特定が自動的に正確に行われる。 【0085】その他にも、音質の悪い状況下での携帯電
話通話の発言者特定や、CTI(コンピュータ・テレフ
ォニー・インテグレイティッド)における発言者特定、
騒音下の自動車の中でのカーナビや口元にマイクロフォ
ンを設置できない状況でのパソコン等への音声入力及び
発明者特定など、様々な用途への応用が考えられる。さ
らにまた、情報家電、携帯電話やPDA等の携帯端末、
及び、身につけて携帯可能なウェアラブルコンピュータ
(Wearable Computer)などへの音声入力手段への応用等
も考えられる。 【0086】 【発明の効果】本発明の複合音声データの音声分離方法
及び発言者特定方法によれば、複数の発言者の音声デー
タが混在する混在音声データの、分離及び発言者特定
を、正確にかつ高速に行うことができる。 【0087】このような本発明は、音声データ入力と同
時進行的かつ自動的な、会議議事録作成、及び、実環境
下でのさまざまな音声入力インターフェースなどに応用
することができる。

【図面の簡単な説明】 【図1】 マイク1から入力された音声データ(生デー
タ)Xの波形を示す図である。 【図2】 音声分離処理のサイクルを示す図である。 【図3】 1回目の音声分離サイクルを示すフロー図で
ある。 【図4】 2回目の音声分離サイクルを示すフロー図で
ある。 【図5】 3回目の音声分離サイクルを示すフロー図で
ある。 【図6】 無相関化処理W1の一例のフローチャートで
ある。 【図7】 x1のデジタル化波形図データのグラフであ
る。 【図8】 x2のデジタル化波形図データのグラフであ
る。 【図9】 x1、x2データを、横軸をx1の強さ、縦
軸をx2の強さとした散布図のグラフである。 【図10】 互いに相関性を有しないデータf1、f2
の散布図のグラフである。 【図11】 y1´のデジタル化波形図データのグラフ
である。 【図12】 y2´のデジタル化波形図データのグラフ
である。 【図13】 y1´とy2´の大きさをそれぞれ横軸、
縦軸にプロットした散布図である。 【図14】 音声分離ステップで得られた分離データy
1´の波形図と、そのフーリエ変換によるスペクトル分
布図である。 【図15】 音声分離ステップで得られた分離データy
2´の波形図と、そのフーリエ変換によるスペクトル分
布図である。 【図16】 特定パラメータとしてのホルマント周波数
と、分離音声データのホルマント周波数とのマッチング
処理の概念図である。 【図17】 分離されたある音声データを、n個のサン
プリング時刻に分けたスペクトル分布図である。 【図18】 (a)は、比較のために掲げた第1の発言
者特定方法によるホルマント周波数によるマッチング処
理の分布図である。(b)は第2の発言者特定方法によ
る、第1及び第2主成分得点Z1、Z2を2次元の座標
軸とした分布図である。 【図19】 次数mとその累積寄与率との関係を示すグ
ラフである。 【図20】 次数mと累積寄与率の変化量との関係を示
すグラフである。 【図21】 システムに応じた方法で次数mを決定する
手順を示すフローチャートである。

フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 21/02 G10L 3/00 551Z 9/00 A 9/02 A 9/08 A (56)参考文献 特開2002−149190(JP,A) 特開2000−181499(JP,A) 特開 平11−83613(JP,A) 特開 平6−175683(JP,A) 鈴木、河野,アレーマイクロフォンを 用いた多次元ラティスフィルタによる混 交音声の空間的分離法,電子情報通信学 会技術研究報告,日本,CAS98−95, DSP98−185,CS98−148,77−83 中川、中迫,非定常ICAを用いた遮 音システムの同定と応答予測の試み,日 本音響学会春季研究発表会講演論文集, 日本,2001年 3月,3−7−9,577 −578 Anthony J.Bell et al,Blind separati on and blind decon volution : an info rmation−theoretic approach,ICASSP−95, 米国,Vol.5,3415−3418 Yuchang Cao et a l,Multichannel spe ech separation by eigendecomposition and its applicati on to co−talker in terference r,IEEE Transactions on Sp eech and Audio Pro cessing,米国,Vol.5,N o.3,209−219

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1】 複数発言者の音声データが混在している
    混在音声データを、発言者毎の音声データに分離する音
    声データ分離方法において、 (1)前記混在音声データを互いに無相関化するための
    無相関化処理を行うステップと、 (2)前記無相関化処理の行われたデータを独立成分に
    分離するための独立成分分離処理を行うステップと、 を有し、 前記独立成分分離の行われたデータの分離性が不十分な
    場合には、分離性が十分になるまで、前記独立成分分離
    処理の行われたデータについて、前記無相関化処理及び
    前記独立成分分離処理を繰り返し行うことを特徴とする
    音声分離方法。 【請求項2】 請求項1に記載の音声分離方法におい
    て、 前記独立成分分離処理として、非ガウス性のデータを独
    立成分に分離するための非ガウス性独立成分分離処理
    と、非定常性のデータを独立成分に分離するための非定
    常性独立成分分離処理と、有色性のデータを独立成分に
    分離するための有色性独立成分分離処理とを準備し、デ
    ータの性質により、前記非ガウス性独立成分分離処理、
    前記非定常性独立成分分離処理、及び、前記有色性独立
    成分分離処理のうちのいずれかの処理を行うことを特徴
    とする音声分離方法。 【請求項3】 請求項2に記載の音声分離方法におい
    て、 最初に行われる独立成分分離処理は、非ガウス性のデー
    タを独立成分に分離するための非ガウス性独立成分分離
    処理であることを特徴とする音声分離方法。 【請求項4】 請求項1乃至請求項3に記載の音声分離
    方法において、 前記無相関化処理は、少なくとも主成分分析及び因子分
    析を行うことを特徴とする音声分離方法。 【請求項5】 複数発言者の音声データが混在している
    混在音声データを、発言者毎の音声データに分離し、該
    発言者毎の音声データにつき発言者を特定する発言者特
    定方法において、 (1)請求項1乃至請求項4のいずれかに記載の音声分
    離方法により、複数発言者の音声データが混在している
    混在音声データを、発言者毎の音声データに分離するス
    テップと、 (2)発言者毎に該発言者を特定するための特定パラメ
    ータを準備するステップと、 (3)分離された前記発言者毎の音声データにつき、前
    記特定パラメータを参照して、発言者を特定するステッ
    プと、 を有することを特徴とする発言者特定方法。 【請求項6】 請求項5に記載の発言者特定方法におい
    て、 前記特定パラメータは、発言者が母音を発音した際のホ
    ルマント周波数であり、 分離された前記発言者毎の音声データにつき、ホルマン
    ト周波数を求め、求められたホルマント周波数に関し
    て、前記特定パラメータとしてのホルマント周波数を参
    照して、発言者を特定することを特徴とする発言者特定
    方法。 【請求項7】 請求項6に記載の発言者特定方法におい
    て、 前記特定パラメータは、発言者が母音を発音した際の第
    1ホルマント周波数及び第2ホルマント周波数であり、 分離された前記発言者毎の音声データにつき、第1ホル
    マント周波数及び第2ホルマント周波数を求め、求めら
    れた第1ホルマント周波数及び第2ホルマント周波数に
    関して、前記特定パラメータとしての第1ホルマント周
    波数及び第2ホルマント周波数を参照して、発言者を特
    定することを特徴とする発言者特定方法。 【請求項8】 請求項5乃至請求項7のいずれかに記載
    の発言者特定方法において、 分離された前記発言者毎の音声データにつき、前記特定
    パラメータを参照して発言者を特定するステップにて発
    言者を特定できなかった場合には、 該音声データから複数の時点のホルマント周波数を求
    め、求められた複数時点のホルマント周波数に関して、
    前記特定パラメータとしての複数時点のホルマント周波
    数を参照して、発言者を特定することを特徴とする発言
    者特定方法。 【請求項9】 複数発言者の音声データが混在している
    混在音声データから、議事録を作成する議事録作成方法
    において、 請求項5乃至請求項8のいずれかに記載の発言者特定方
    法により、分離された前記発言者毎の音声データにつ
    き、発言者を特定するステップと、 特定された発言者と、該発言者の発言とを対応付けて記
    録媒体に出力することにより、議事録を作成するステッ
    プと、 を有することを特徴とする議事録作成方法。 【請求項10】 複数発言者の音声データが混在してい
    る混在音声データを、発言者毎の音声データに分離する
    音声データ分離装置において、 前記混在音声データを互いに無相関化するために無相関
    化処理を行い、 前記無相関化処理の行われたデータを独立成分に分離す
    るために独立成分分離処理を行い、 前記独立成分分離の行われたデータの分離性が不十分な
    場合には、分離性が十分になるまで、前記独立成分分離
    処理の行われたデータについて、前記無相関化処理及び
    前記独立成分分離処理を繰り返し行うことを特徴とする
    音声分離装置。 【請求項11】 請求項10に記載の音声分離装置にお
    いて、 データの性質により、前記独立成分分離処理として、非
    ガウス性のデータを独立成分に分離するための非ガウス
    性独立成分分離処理、非定常性のデータを独立成分に分
    離するための非定常性独立成分分離処理、有色性のデー
    タを独立成分に分離するための有色性独立成分分離処
    理、のうちのいずれかの処理を行うことを特徴とする音
    声分離装置。 【請求項12】 請求項11に記載の音声分離装置にお
    いて、 最初に行われる独立成分分離処理は、非ガウス性のデー
    タを独立成分に分離するための非ガウス性独立成分分離
    処理であることを特徴とする音声分離装置。 【請求項13】 請求項10乃至請求項12に記載の音
    声分離装置において、 前記無相関化処理は、少なくとも主成分分析及び因子分
    析を行うことを特徴とする音声分離装置。 【請求項14】 複数発言者の音声データが混在してい
    る混在音声データを、発言者毎の音声データに分離し、
    該発言者毎の音声データにつき発言者を特定する発言者
    特定装置において、 請求項10乃至請求項13のいずれかに記載の音声分離
    装置により、複数発言者の音声データが混在している混
    在音声データを、発言者毎の音声データに分離し、 分離された前記発言者毎の音声データにつき、発言者毎
    に該発言者を特定するための特定パラメータを参照して
    発言者を特定することを特徴とする発言者特定装置。 【請求項15】 請求項14に記載の発言者特定装置に
    おいて、 前記特定パラメータは、発言者が母音を発音した際のホ
    ルマント周波数であり、 分離された前記発言者毎の音声データにつき、ホルマン
    ト周波数を求め、求められたホルマント周波数に関し
    て、前記特定パラメータとしてのホルマント周波数を参
    照して、発言者を特定することを特徴とする発言者特定
    装置。 【請求項16】 請求項15に記載の発言者特定装置に
    おいて、 前記特定パラメータは、発言者が母音を発音した際の第
    1ホルマント周波数及び第2ホルマント周波数であり、 分離された前記発言者毎の音声データにつき、第1ホル
    マント周波数及び第2ホルマント周波数を求め、求めら
    れた第1ホルマント周波数及び第2ホルマント周波数に
    関して、前記特定パラメータとしての第1ホルマント周
    波数及び第2ホルマント周波数を参照して、発言者を特
    定することを特徴とする発言者特定装置。 【請求項17】 請求項14乃至請求項16のいずれか
    に記載の発言者特定装置において、 分離された前記発言者毎の音声データにつき、前記特定
    パラメータを参照して発言者を特定できなかった場合に
    は、 該音声データから複数の時点のホルマント周波数を求
    め、求められた複数時点のホルマント周波数に関して、
    前記特定パラメータとしての複数時点のホルマント周波
    数を参照して、発言者を特定することを特徴とする発言
    者特定装置。 【請求項18】 複数発言者の音声データが混在してい
    る混在音声データから、議事録を作成する議事録作成装
    置において、 請求項14乃至請求項17のいずれかに記載の発言者特
    定装置により、分離された前記発言者毎の音声データに
    つき、発言者を特定し、 特定された発言者と、該発言者の発言とを対応付けて記
    録媒体に出力することにより、議事録を作成することを
    特徴とする議事録作成装置。 【請求項19】 請求項1乃至請求項4のいずれかに記
    載の音声分離方法を音声分離装置に実行させるためのコ
    ンピュータプログラム。 【請求項20】 請求項5乃至請求項8のいずれかに記
    載の発言者特定方法を発言者特定装置に実行させるため
    のコンピュータプログラム。 【請求項21】 請求項19又は請求項20に記載のコ
    ンピュータプログラムを記録したコンピュータ読み取り
    可能な記録媒体。
JP2001191289A 2001-06-25 2001-06-25 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体 Expired - Fee Related JP3364487B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001191289A JP3364487B2 (ja) 2001-06-25 2001-06-25 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001191289A JP3364487B2 (ja) 2001-06-25 2001-06-25 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体

Publications (2)

Publication Number Publication Date
JP3364487B2 true JP3364487B2 (ja) 2003-01-08
JP2003005790A JP2003005790A (ja) 2003-01-08

Family

ID=19029937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001191289A Expired - Fee Related JP3364487B2 (ja) 2001-06-25 2001-06-25 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体

Country Status (1)

Country Link
JP (1) JP3364487B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005108230A (ja) 2003-09-25 2005-04-21 Ricoh Co Ltd オーディオ/ビデオコンテンツ認識・処理機能内蔵印刷システム
JP2005100413A (ja) * 2003-09-25 2005-04-14 Ricoh Co Ltd オーディオ/ビデオ・ローカライゼーション機能を有するプリンタ
US8077341B2 (en) 2003-09-25 2011-12-13 Ricoh Co., Ltd. Printer with audio or video receiver, recorder, and real-time content-based processing logic
US8274666B2 (en) 2004-03-30 2012-09-25 Ricoh Co., Ltd. Projector/printer for displaying or printing of documents
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法
US7970564B2 (en) * 2006-05-02 2011-06-28 Qualcomm Incorporated Enhancement techniques for blind source separation (BSS)
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
JP5353835B2 (ja) 2010-06-28 2013-11-27 ブラザー工業株式会社 情報処理プログラムおよび情報処理装置
CN103077719B (zh) * 2012-12-27 2015-01-07 安徽科大讯飞信息科技股份有限公司 一种基于矩阵离线预计算的快速全空间因子处理方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Anthony J.Bell et al,Blind separation and blind deconvolution : an information−theoretic approach,ICASSP−95,米国,Vol.5,3415−3418
Yuchang Cao et al,Multichannel speech separation by eigendecomposition and its application to co−talker interference r,IEEE Transactions on Speech and Audio Processing,米国,Vol.5,No.3,209−219
中川、中迫,非定常ICAを用いた遮音システムの同定と応答予測の試み,日本音響学会春季研究発表会講演論文集,日本,2001年 3月,3−7−9,577−578
鈴木、河野,アレーマイクロフォンを用いた多次元ラティスフィルタによる混交音声の空間的分離法,電子情報通信学会技術研究報告,日本,CAS98−95,DSP98−185,CS98−148,77−83

Also Published As

Publication number Publication date
JP2003005790A (ja) 2003-01-08

Similar Documents

Publication Publication Date Title
Emiya et al. Subjective and objective quality assessment of audio source separation
RU2373584C2 (ru) Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков
US8131551B1 (en) System and method of providing conversational visual prosody for talking heads
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
Girin et al. Audio-visual enhancement of speech in noise
CN1306472C (zh) 分布式语音识别系统中用于发送语音活动的系统和方法
Srinivasan et al. Codebook-based Bayesian speech enhancement for nonstationary environments
EP1168305A2 (de) Verfahren zur mehrkanaligen Merkmalextraktion für die Spracherkennung
Roman et al. Speech segregation based on sound localization
US9025782B2 (en) Systems, methods, apparatus, and computer-readable media for multi-microphone location-selective processing
US7383178B2 (en) System and method for speech processing using independent component analysis under stability constraints
EP1443498A1 (en) Noise reduction and audio-visual speech activity detection
Vaseghi Multimedia signal processing: theory and applications in speech, music and communications
EP1691344A1 (en) Speech recognition device
CA2436318C (fr) Procede et dispositif de reduction de bruit
CN1168069C (zh) 识别系统和识别方法
Mammone et al. Robust speaker recognition: A feature-based approach
Mysore et al. A non-negative approach to semi-supervised separation of speech from noise with the use of temporal dynamics
Rivet et al. Mixing audiovisual speech processing and blind source separation for the extraction of speech signals from convolutive mixtures
Shi et al. On the importance of phase in human speech recognition
Drugman et al. A deterministic plus stochastic model of the residual signal for improved parametric speech synthesis
Burshtein et al. Speech enhancement using a mixture-maximum model
Nakamura et al. AURORA-2J: An evaluation framework for Japanese noisy speech recognition
Hu et al. A perceptually motivated approach for speech enhancement
Valin et al. Robust recognition of simultaneous speech by a mobile robot

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees