JP4595364B2 - Information processing apparatus and method, program, and recording medium - Google Patents
Information processing apparatus and method, program, and recording medium Download PDFInfo
- Publication number
- JP4595364B2 JP4595364B2 JP2004084814A JP2004084814A JP4595364B2 JP 4595364 B2 JP4595364 B2 JP 4595364B2 JP 2004084814 A JP2004084814 A JP 2004084814A JP 2004084814 A JP2004084814 A JP 2004084814A JP 4595364 B2 JP4595364 B2 JP 4595364B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice data
- processing
- sound source
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本発明は、情報処理装置および方法、プログラム、並びに記録媒体に関し、特に、撮影して得られた画像から認識された話者方位に基づいて、それぞれの話者の音声データを精度よく抽出し、例えば、話者を精度よく識別することができるようにする情報処理装置および方法、プログラム、並びに記録媒体に関する。 The present invention relates to an information processing apparatus and method, a program, and a recording medium, and in particular, based on a speaker orientation recognized from an image obtained by photographing, accurately extracts voice data of each speaker, For example, the present invention relates to an information processing apparatus and method, a program, and a recording medium that can accurately identify a speaker.
近年、会議などに参加している複数の話者の発話を議事録として自動的に記録する電子会議システムがある。この電子会議システムにより記録された発話の再生時には、再生された音にノイズが少ないことはもとより、聴いている人が、話者(発話主)を識別することができることも望まれる。 In recent years, there are electronic conference systems that automatically record the utterances of a plurality of speakers participating in a conference as minutes. When the utterance recorded by the electronic conference system is reproduced, it is desired that the person who is listening can identify the speaker (speaker) as well as the reproduced sound has little noise.
そこで、再生時にそれぞれの話者を識別することができるように、例えば、それぞれの話者用のものとしてマイク(マイクロフォン)を予め設置し、各話者に割り当てられたマイクを電子会議システムに登録しておくことにより、音声が入力されたマイクから、話者を識別するものが提案されている。 Therefore, for example, a microphone (microphone) is installed in advance for each speaker so that each speaker can be identified during playback, and the microphone assigned to each speaker is registered in the electronic conference system. Thus, there has been proposed a method for identifying a speaker from a microphone to which a voice is input.
また、例えば、それぞれの話者に向けてマイクの指向性を固定し、話者の方位を電子会議システムに登録しておくことにより、音源の方位から、話者を識別するものも提案されている。 In addition, for example, it has been proposed to identify the speaker from the direction of the sound source by fixing the microphone directivity to each speaker and registering the speaker's orientation in the electronic conference system. Yes.
ところで、特許文献1には、マイクアレイから入力された発話の音声データに基づいて音源方位を推定し、その音源方位に、カメラおよび高指向性集音マイクを向けて、発話を行っている話者の画像と音声とを合わせて取得する撮像システムが開示されている。
By the way, in
また、特許文献2には、話者を認識して追跡するロボットが開示されている。
上述したような従来の電子会議システムによっては、マイクに入力された発話から話者を識別させるためには、マイクやその指向性と、それぞれの話者との対応関係が既知であることが前提になっていることから、それらの関係が未知の場合、話者識別を行わせることができないという課題があった。 In some conventional electronic conferencing systems as described above, in order to identify a speaker from an utterance input to a microphone, it is assumed that the correspondence between the microphone and its directivity and each speaker is known. Therefore, there is a problem that speaker identification cannot be performed when the relationship between them is unknown.
すなわち、ユーザは、マイクと話者、或いはマイクの指向性と話者の関係について、電子会議システムに予め登録しておく必要がある。 That is, the user needs to register the relationship between the microphone and the speaker or the microphone directivity and the speaker in advance in the electronic conference system.
また、特許文献1に記載されている技術によっては、話者のいる方位を推定するための元になる音声を集音するためのマイクアレイと、方位を推定した後、それぞれの話者の音声を集音するための高指向性集音マイクとの2種類のマイクが必要になる。
In addition, depending on the technique described in
さらに、特許文献2に記載されている技術によっては、マイクとカメラを制御して特定の話者を追跡することを目的としており、複数の話者それぞれを識別することは考慮されていない。
Furthermore, according to the technique described in
また、予め登録した話者それぞれの音声の標準パターン(モデル)と、会議などにおける発話の音声データの音声特徴量とを用いて話者識別を行う方法がある。しかしながら、この方法では、予め登録する標準パターンを作成するのに用いる音声を得るときの環境と、会議などにおいて音声特徴量を抽出する音声を得るときの環境とが異なることに起因して、話者識別の精度が劣化することがあった。 In addition, there is a method of performing speaker identification using a standard pattern (model) of speech of each speaker registered in advance and a speech feature amount of speech data of speech in a conference or the like. However, in this method, because the environment for obtaining the voice used to create the standard pattern to be registered in advance is different from the environment for obtaining the voice for extracting the voice feature amount in a conference, etc. The accuracy of person identification sometimes deteriorated.
本発明は、このような状況に鑑みてなされたものであり、撮影して得られた画像から認識された話者方位に基づいて、それぞれの話者の音声データを精度よく抽出し、例えば、話者を精度よく識別することができるようにするものである。 The present invention has been made in view of such a situation, and based on the speaker orientation recognized from the image obtained by shooting, the voice data of each speaker is accurately extracted, for example, This makes it possible to accurately identify the speaker.
本発明の情報処理装置は、1以上の話者を撮像し、画像を出力する撮像手段と、撮像手段が出力する画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出手段と、話者による発話の音声データのうちの、抽出範囲算出手段により算出された抽出範囲内の音声データを抽出する音声データ抽出手段と、音声データ抽出手段により抽出された音声データに基づく話者識別用の標準パターンを、話者ごとに記憶する記憶手段と、音声データ抽出手段により新たに抽出された音声データと、記憶手段に記憶された標準パターンとを用いて話者識別を行う話者識別手段と、音声データ抽出手段により新たに抽出された音声データに基づいて、音源方位を推定する音源方位推定手段と、音源方位推定手段により推定された音源方位に存在する話者と、話者識別手段による話者識別により識別された話者とが一致するか否かを判定する判定手段とを備えることを特徴とする。 The information processing apparatus of the present invention images one or more speakers, and extracts voice data of each speaker based on an imaging unit that outputs an image and a positional relationship between the speakers in an image output by the imaging unit. An extraction range calculation unit that calculates an extraction range that is a range of azimuth; a voice data extraction unit that extracts voice data within the extraction range calculated by the extraction range calculation unit out of voice data of an utterance by a speaker ; The storage unit stores a standard pattern for speaker identification based on the voice data extracted by the voice data extraction unit, the voice data newly extracted by the voice data extraction unit, and the storage unit. Speaker identification means for performing speaker identification using the standard pattern, and sound source direction estimation for estimating the sound source direction based on the voice data newly extracted by the voice data extraction means Further comprising the step, and a speaker to present the sound source direction estimated by the sound source direction estimation means, a determining means for determining whether the speaker identified by the speaker identification using speaker identification means match It is characterized by.
本発明の情報処理装置には、撮像手段が出力する画像から話者の顔を検出する顔検出手段をさらに設けることができ、抽出範囲算出手段には、顔検出手段により検出された顔の位置関係に基づいて、抽出範囲を算出させるようにすることができる。 The information processing apparatus according to the present invention may further include a face detection unit that detects a speaker's face from an image output by the imaging unit, and the extraction range calculation unit includes a face position detected by the face detection unit. The extraction range can be calculated based on the relationship.
本発明の情報処理方法は、1以上の話者を撮像し、画像を出力する撮像ステップと、撮像ステップの処理により出力される画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、話者による発話の音声データのうちの、抽出範囲算出ステップの処理により算出された抽出範囲内の音声データを抽出する音声データ抽出ステップと、音声データ抽出ステップの処理により抽出された音声データに基づく話者識別用の標準パターンを、話者ごとに記憶する記憶ステップと、音声データ抽出ステップの処理により新たに抽出された音声データと、記憶ステップの処理で記憶された標準パターンとを用いて話者識別を行う話者識別ステップと、音声データ抽出ステップの処理により新たに抽出された音声データに基づいて、音源方位を推定する音源方位推定ステップと、音源方位推定ステップの処理により推定された音源方位に存在する話者と、話者識別ステップの処理による話者識別により識別された話者とが一致するか否かを判定する判定ステップとを含むことを特徴とする。 The information processing method of the present invention captures one or more speakers, outputs an image, and voice data of each speaker based on the positional relationship of the speakers in the image output by the processing of the imaging step. An extraction range calculation step for calculating an extraction range that is a range of azimuths for extracting voices, and a voice for extracting voice data within the extraction range calculated by the processing of the extraction range calculation step from the voice data of the utterance by the speaker A data extraction step , a storage step for storing a speaker identification standard pattern based on the voice data extracted by the voice data extraction step for each speaker, and a new extraction by the voice data extraction step processing A speaker identification step for performing speaker identification using the voice data and the standard pattern stored in the processing of the storage step; and a voice data extraction step. A sound source azimuth estimation step for estimating the sound source azimuth based on the voice data newly extracted by the processing of the step, a speaker existing in the sound source azimuth estimated by the processing of the sound source azimuth estimation step, and a speaker identification step And a determination step of determining whether or not the speaker identified by the speaker identification by the process is matched .
本発明のプログラムは、1以上の話者を撮像し、画像を出力する撮像ステップと、撮像ステップの処理により出力される画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、話者による発話の音声データのうちの、抽出範囲算出ステップの処理により算出された抽出範囲内の音声データを抽出する音声データ抽出ステップと、音声データ抽出ステップの処理により抽出された音声データに基づく話者識別用の標準パターンを、話者ごとの記憶を制御する記憶制御ステップと、音声データ抽出ステップの処理により新たに抽出された音声データと、記憶制御ステップの処理で記憶された標準パターンとを用いて話者識別を行う話者識別ステップと、音声データ抽出ステップの処理により新たに抽出された音声データに基づいて、音源方位を推定する音源方位推定ステップと、音源方位推定ステップの処理により推定された音源方位に存在する話者と、話者識別ステップの処理による話者識別により識別された話者とが一致するか否かを判定する判定ステップとを含むことを特徴とする。 The program of the present invention picks up one or more speakers and outputs the image, and extracts voice data of each speaker based on the positional relationship of the speakers in the image output by the processing of the imaging step. An extraction range calculation step for calculating an extraction range that is a range of azimuths to be extracted, and voice data extraction for extracting voice data within the extraction range calculated by the processing of the extraction range calculation step from the speech data of the utterance by the speaker The standard pattern for speaker identification based on the voice data extracted by the step of the voice data extraction step is newly extracted by the storage control step for controlling the storage for each speaker and the voice data extraction step processing. A speaker identification step for performing speaker identification using the recorded voice data and the standard pattern stored in the process of the storage control step; Based on the voice data newly extracted by the data extraction step processing, the sound source direction estimation step for estimating the sound source direction, the speakers existing in the sound source direction estimated by the processing of the sound source direction estimation step, and the speakers And a determination step of determining whether or not the speaker identified by the speaker identification by the identification step processing matches .
本発明の記録媒体に記録されているプログラムは、1以上の話者を撮像し、画像を出力する撮像ステップと、撮像ステップの処理により出力される画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、話者による発話の音声データのうちの、抽出範囲算出ステップの処理により算出された抽出範囲内の音声データを抽出する音声データ抽出ステップと、音声データ抽出ステップの処理により抽出された音声データに基づく話者識別用の標準パターンを、話者ごとの記憶を制御する記憶制御ステップと、音声データ抽出ステップの処理により新たに抽出された音声データと、記憶制御ステップの処理で記憶された標準パターンとを用いて話者識別を行う話者識別ステップと、音声データ抽出ステップの処理により新たに抽出された音声データに基づいて、音源方位を推定する音源方位推定ステップと、音源方位推定ステップの処理により推定された音源方位に存在する話者と、話者識別ステップの処理による話者識別により識別された話者とが一致するか否かを判定する判定ステップとを含むことを特徴とする。 The program recorded on the recording medium of the present invention captures one or more speakers, outputs an image, and based on the speaker's positional relationship in the image output by the processing of the imaging step. Voice within the extraction range calculated by the extraction range calculation step of the extraction range calculation step for calculating the extraction range that is the range of the direction in which each voice data is extracted and the speech range of the speaker's utterance A voice data extraction step for extracting data; a storage control step for controlling storage for each speaker of a standard pattern for speaker identification based on the voice data extracted by the processing of the voice data extraction step; and a voice data extraction step. Speaker identification is performed using the voice data newly extracted by the process of step S4 and the standard pattern stored by the process of the storage control step. Based on the voice data newly extracted by the person identification step and the voice data extraction step, and the speech existing in the voice source direction estimated by the voice source direction estimation step and the voice source direction estimation step And a determination step of determining whether or not the speaker and the speaker identified by the speaker identification by the speaker identification step process coincide with each other.
本発明の情報処理装置および方法、プログラム、並びに記録媒体においては、1以上の話者が撮像されて、画像が出力される。また、その画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する抽出範囲が算出される。そして、話者による発話の音声データのうちの、抽出範囲内の音声データが抽出され、抽出された音声データに基づく話者識別用の標準パターンが、話者ごとに記憶され、新たに抽出された音声データと、記憶された標準パターンとを用いて話者識別が行われ、新たに抽出された音声データに基づいて、音源方位が推定され、推定された音源方位に存在する話者と、話者識別により識別された話者とが一致するか否かが判定される。 In the information processing apparatus and method, the program, and the recording medium of the present invention, one or more speakers are captured and an image is output. Further, an extraction range for extracting the voice data of each speaker is calculated based on the positional relationship of the speakers in the image. Then, the voice data within the extraction range is extracted from the voice data of the utterance by the speaker, and a standard pattern for speaker identification based on the extracted voice data is stored for each speaker and newly extracted. Speaker identification is performed using the stored voice pattern and the stored standard pattern, and the sound source direction is estimated based on the newly extracted voice data, and the speaker existing in the estimated sound source direction, It is determined whether the speaker identified by speaker identification matches .
本発明によれば、撮影して得られた画像から認識された話者方位に基づいて、それぞれの話者の音声データを精度よく抽出することができる。 According to the present invention, it is possible to accurately extract voice data of each speaker based on the speaker orientation recognized from an image obtained by photographing.
また、本発明によれば、話者を精度よく識別することができる。 Further, according to the present invention, a speaker can be identified with high accuracy.
以下に本発明の最良の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。 BEST MODE FOR CARRYING OUT THE INVENTION The best mode of the present invention will be described below. Correspondences between constituent features described in the claims and specific examples in the embodiments of the present invention are exemplified as follows. This description is to confirm that specific examples supporting the invention described in the claims are described in the embodiments of the invention. Therefore, even if there are specific examples that are described in the embodiment of the invention but are not described here as corresponding to the configuration requirements, the specific examples are not included in the configuration. It does not mean that it does not correspond to a requirement. On the contrary, even if a specific example is described here as corresponding to a configuration requirement, this means that the specific example does not correspond to a configuration requirement other than the configuration requirement. not.
さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項にすべて記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割されたり、補正により出現し、追加される発明の存在を否定するものではない。 Further, this description does not mean that all the inventions corresponding to the specific examples described in the embodiments of the invention are described in the claims. In other words, this description is an invention corresponding to the specific example described in the embodiment of the invention, and the existence of an invention not described in the claims of this application, that is, it may be divided in the future. It does not deny the existence of an invention which appears by amendment and is added.
請求項1に記載の情報処理装置は、1以上の話者を撮像し、画像を出力する撮像手段(例えば、図2のカメラモジュール2)と、前記撮像手段が出力する画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出手段(例えは、図4のビーム幅算出部122)と、前記話者による発話の音声データのうちの、前記抽出範囲算出手段により算出された前記抽出範囲内の音声データを抽出する音声データ抽出手段(例えば、図4のビームフォーミング処理部143)と、前記音声データ抽出手段により抽出された音声データに基づく話者識別用の標準パターンを、前記話者ごとに記憶する記憶手段(例えば、図4の話者情報DB132)と、前記音声データ抽出手段により新たに抽出された音声データと、前記記憶手段に記憶された標準パターンとを用いて話者識別を行う話者識別手段(例えば、図4の音声識別処理部151)と、前記音声データ抽出手段により新たに抽出された音声データに基づいて、音源方位を推定する音源方位推定手段(例えば、図4の音源定位検出部142)と、前記音源方位推定手段により推定された音源方位に存在する話者と、前記話者識別手段による話者識別により識別された話者とが一致するか否かを判定する判定手段(例えば、図4の識別情報付与部152)とを備えることを特徴とする。
The information processing apparatus according to
請求項2に記載の情報処理装置は、前記撮像手段が出力する画像から前記話者の顔を検出する顔検出手段(例えば、図4の顔検出部121)をさらに含むことができ、前記抽出範囲算出手段は、前記顔検出手段により検出された顔の位置関係に基づいて、前記抽出範囲を算出するようにすることができる。
The information processing apparatus according to
請求項3に記載の情報処理方法は、1以上の話者を撮像し、画像を出力する撮像ステップ(例えば、図6のステップS1の処理)と、前記撮像ステップの処理により出力される画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップ(例えは、図6のステップS4の処理)と、前記話者による発話の音声データのうちの、前記抽出範囲算出ステップの処理により算出された前記抽出範囲内の音声データを抽出する音声データ抽出ステップ(例えば、図7のステップS45の処理や図8のステップS74の処理)と、前記音声データ抽出ステップの処理により抽出された音声データに基づく話者識別用の標準パターンを、前記話者ごとに記憶する記憶ステップ(例えは、図7のステップS47の処理)と、前記音声データ抽出ステップの処理により新たに抽出された音声データと、前記記憶ステップの処理で記憶された標準パターンとを用いて話者識別を行う話者識別ステップ(例えは、図8のステップS76の処理)と、前記音声データ抽出ステップの処理により新たに抽出された音声データに基づいて、音源方位を推定する音源方位推定ステップ(例えは、図8のステップS72の処理)と、前記音源方位推定ステップの処理により推定された音源方位に存在する話者と、前記話者識別ステップの処理による話者識別により識別された話者とが一致するか否かを判定する判定ステップ(例えは、図8のステップS77の処理)とを含むことを特徴とする。 An information processing method according to a third aspect of the present invention relates to an imaging step of imaging one or more speakers and outputting an image (for example, the processing of step S1 in FIG. 6), and an image output by the processing of the imaging step. An extraction range calculation step (for example, the process of step S4 in FIG. 6) for calculating an extraction range that is a range of azimuths for extracting voice data of each speaker based on the positional relationship between the speakers, and the speaker The voice data extraction step (for example, the process in step S45 in FIG. 7 or the step S74 in FIG. 8) extracts the voice data in the extraction range calculated by the processing in the extraction range calculation step from the voice data of the utterance by and processing), storing stearyl the standard pattern for speaker identification based on the audio data extracted by the processing of the voice data extracting step is stored in each of the speaker (For example, the process of step S47 of FIG. 7), the voice data newly extracted by the process of the voice data extraction step, and the standard pattern stored by the process of the storage step A speaker identification step (for example, the process of step S76 in FIG. 8) and a sound source direction estimating step (for example, estimating a sound source direction based on the voice data newly extracted by the voice data extracting step) 8 in step S72 of FIG. 8), a speaker existing in the sound source direction estimated by the processing of the sound source direction estimation step, and a speaker identified by speaker identification by the processing of the speaker identification step And a determination step (for example, the process of step S77 in FIG. 8) for determining whether or not the two match .
請求項4に記載のプログラム、および、請求項5に記載の記録媒体に記録されているプログラムにおいても、各ステップが対応する実施の形態(但し一例)は、請求項3に記載の情報処理方法と同様である。
In the program according to
以下、図を参照して本発明の実施の形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本発明を適用したテーブルトップ型話者識別装置1の利用例の一実施の形態を示す図である。
FIG. 1 is a diagram showing an embodiment of an example of use of a tabletop
図1は、3人の話者が会議室やリビングルームなどでテーブルを囲んで会議等を行っている様子を示している。なお、話者の数は3人に限定されるものではなく、1人以上の何人であってもよい。 FIG. 1 shows a state in which three speakers are holding a conference in a conference room, living room, or the like, surrounding a table. Note that the number of speakers is not limited to three, and may be any number of one or more.
テーブルのほぼ中央に置かれているテーブルトップ型話者識別装置1は、話者を識別し、話者と発話内容とを対応付けて議事録として記録するものである。このテーブルトップ型話者識別装置1の外観を図2に拡大して示す。
The table-top type
図2に示されるように、テーブルトップ型話者識別装置1は、円筒状の形状を有しており、カメラモジュール2、カメラモジュール2の上面に設けられるマイクアレイ(マイクロフォンアレイ)3、カメラモジュール2の下に配置される情報処理部4、および、情報処理部4の表面に設けられる表示部5から構成される。
As shown in FIG. 2, the table top type
カメラモジュール2は、360度の全周囲を撮像可能な、例えば、双曲面ミラー(カメラモジュール2の上方にある半球体)の真下に1つのカメラ2Aがセットされたモジュールである。カメラモジュール2により撮像された全周囲画像データは情報処理部4に供給される。
The
なお、カメラモジュール2は、例えば、カメラの撮像方向を機械的に回転させて全周囲を撮像するものであってもよいし、それぞれの方位を撮像する複数のカメラから構成されるものであってもよい。
Note that the
マイクアレイ3は、例えば、コンデンサマイクなどの4つのマイク3−1,3−2,3−3,3−4から構成される。マイク3−1乃至3−4により集音された音声は図示せぬケーブルなどを介して情報処理部4に供給される。当然、マイクアレイ3は、4つ以外の複数のマイクから構成されるようにしてもよい。
The
情報処理部4は、カメラモジュール2から供給される全周囲画像データに基づいて、テーブルトップ型話者識別装置1を囲む話者の方位を検出し、それぞれの話者の位置関係に基づいて、音声データをビームフォーミングする方位の幅であるビームフォーミング幅をそれぞれの話者について算出する。
The
また、情報処理部4は、算出したビームフォーミング幅を用いて、マイクアレイ3に入力された音声からそれぞれの話者の発話を抽出して話者識別を行い、その識別結果と発話の内容を対応付けて記録する。
In addition, the
後に詳述するように、ビームフォーミングによれば、それぞれの話者による発話が精度よく(ノイズが少ないものとして)抽出されることから、ビームフォーミングを行わずに発話を集音する場合に較べて、より好適な話者を識別するための標準パターンを得ることができるとともに、標準パターンを得た後の話者識別を精度よく行うことができる。 As will be described in detail later, according to beamforming, utterances by each speaker are extracted with high accuracy (assuming less noise), so that compared to collecting utterances without performing beamforming. Thus, a standard pattern for identifying a more suitable speaker can be obtained, and speaker identification after obtaining the standard pattern can be performed with high accuracy.
表示部5はLCD(Liquid Crystal Display)などよりなり、ここには、例えば、カメラモジュール2で撮像された話者の画像データや、情報処理部4による話者識別の結果などが表示される。
The
図3は、図2のテーブルトップ型話者識別装置1のハードウェア構成例を示すブロック図である。
FIG. 3 is a block diagram illustrating a hardware configuration example of the tabletop
CPU(Central Processing Unit)51は、ROM(Read Only Memory)52に記憶されているプログラム、または記憶部58からRAM(Random Access Memory)53にロードされたプログラムに従って各種の処理を実行する。RAM53にはまた、CPU51が各種の処理を実行する上において必要なデータなども適宜記憶される。
A CPU (Central Processing Unit) 51 executes various processes according to a program stored in a ROM (Read Only Memory) 52 or a program loaded from a storage unit 58 to a RAM (Random Access Memory) 53. The RAM 53 also appropriately stores data necessary for the
CPU51,ROM52、およびRAM53は、バス54を介して相互に接続される。バス54にはまた、入出力インタフェース55も接続される。
The
入出力インタフェース55には、カメラモジュール2、マイクアレイ3や図示せぬ各種のボタンなどよりなる入力部56、表示部5やスピーカ(図示せず)などよりなる出力部57、ハードディスクなどにより構成される記憶部58、モデムやLAN(Local Area Network)アダプタなどにより構成される通信部59が接続される。
The input /
記憶部58は、CPU51により制御され、通信部59を介して供給されたプログラムなどのデータを保存し、必要に応じて、保存してあるデータをRAM53、出力部57、通信部59等に供給する。
The storage unit 58 is controlled by the
通信部59は、ネットワークを介して他の装置(図示せず)と通信を行う。また、通信部59は、モデム等を用いた通信の他にも、例えば、USB(Universal Serial Bus),IEEE(Institute of Electrical and Electronic Engineers)1394、またはSCSI(Small Computer System Interface)等の各種の規格に準拠した通信処理を行う機能を有している。
The
入出力インタフェース55にはまた、ドライブ60が接続され、磁気ディスク61(フレキシブルディスクを含む)、光ディスク62(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク63(MD(Mini-Disk)(商標)を含む)、或いは半導体メモリ64などが適宜装着され、それらから読み出されたプログラムが、必要に応じて記憶部58にインストールされる。
A
図4は、図2の情報処理部4の機能的な構成例を示す図である。
FIG. 4 is a diagram illustrating a functional configuration example of the
図4の構成の少なくとも一部は、例えば、図3のCPU51により所定のプログラムが実行されることにより実現される。
At least a part of the configuration in FIG. 4 is realized, for example, by executing a predetermined program by the
情報処理装置4には、顔検出部121とビーム幅算出部122から構成される画像データ処理部111、DB(Data Base)管理部131と話者情報DB132から構成される登録部112、マイクアレイI/F(Interface)141、音源定位検出部142、およびビームフォーミング処理部143から構成される音声データ処理部113、並びに、音声識別処理部151、識別情報付与部152、出力制御部153、および議事録DB154から構成される話者識別部114が実現される。
The
画像データ処理部111の顔検出部121は、カメラモジュール2から供給される全周囲画像データのうちの話者の顔に対応する領域の顔画像データを検出し、顔の方位を、話者の方位として検出する。顔検出部121は、検出した各話者の話者方位と顔画像データに、その話者を識別するための話者ID(Identification)を対応付け、話者IDが対応付けられた話者方位と顔画像データをビーム幅算出部122に供給する。
The
なお、顔検出部121においては、顔画像データにおける、例えば、目や鼻などに対応する領域の重心や、肌色の領域の重心が検出され、カメラモジュール2から、その重心に向かう方位が話者方位として検出される。
The
ビーム幅算出部122は、顔検出部121から供給される話者方位から得られる話者の位置関係に基づいて、話者それぞれについてビームフォーミング幅を算出し、話者方位と、算出したビームフォーミング幅を話者IDに対応付けて音源定位検出部142に供給する。また、ビームフォーミング幅算出部122は、顔検出部121から供給される顔画像データをDB管理部131に供給する。ビーム幅算出部122によるビームフォーミング幅の算出については図5を用いて後述する。
The beam
登録部112のDB管理部131は、ビーム幅算出部122から供給される顔画像データや、話者識別部114から供給される、各話者の音声の標準パターンを話者情報DB132に記憶させる。話者情報DB132に登録された顔画像データや標準パターンは、必要に応じて、音声識別処理部151に提供される。
The
音声データ処理部113のマイクアレイI/F141は、マイクアレイ3から供給されるアナログ音声信号をA/D(Analog/Digital)変換し、得られたディジタルの音声データを音源定位検出部142とビームフォーミング処理部143に供給する。
The microphone array I /
音源定位検出部142は、マイクアレイI/F141から供給される音声データから音源方位を推定し、その推定した音源方位(推定方位)に最も近い方位にいる話者を、ビーム幅算出部122から供給される話者方位に基づいて検出する。
The sound source
ここで、音源定位検出部142では、例えば、マイク3−1乃至3−4のそれぞれにより集音された音声データの相関性が最も大きくなるときの時間差(位相差)が求められ、その時間差に基づいて、発話の音源(話者)の音源方位が推定される。また、音源定位検出部142では、マイク3−1乃至3−4それぞれからの音声データを解析することにより、例えば、同時に発話された複数の音声データそれぞれの音源方位を推定することも行われる。
Here, in the sound source
また、音源定位検出部142は、検出した話者のビームフォーミング幅を、ビーム幅算出部122から供給される全ての話者のビームフォーミング幅の中から選択し、選択したビームフォーミング幅を、その話者の話者方位とともにビームフォーミング処理部143に供給する。
Further, the sound source
さらに、音源定位検出部142は、検出した話者の話者ID(話者方位に対応付けられている話者ID)を、話者識別部114の音声識別処理部151と識別情報付与部152に供給することも行う。
Furthermore, the sound source
ビームフォーミング処理部143は、音源定位検出部142から供給される話者方位とビームフォーミング幅を用いて、マイクアレイI/F141から供給される音声データのビームフォーミングを行う。
The
即ち、ビームフォーミング処理部143は、音源定位検出部142から供給される話者方位を基準とし、ビームフォーミング幅により表される範囲の方位からの音声データを、マイクアレイI/F141から供給される全ての方位からの音声データから強調することにより、その範囲の方位からの音声データを抽出する。
In other words, the beam forming
従って、ここで抽出される音声データは、ある1人の話者による音声データのみが強調されたものとなり(他の話者の音声や反射音の音声データなどが除去(抑制)されたものとなる)、精度の高い話者識別などが実現可能となる標準パターン、或いは、話者識別の対象とする音声を得ることが可能になる。 Therefore, the voice data extracted here is the one in which only the voice data of one speaker is emphasized (the voice data of other speakers, the voice data of reflected sound, etc. are removed (suppressed). Therefore, it is possible to obtain a standard pattern that enables high-accuracy speaker identification or the like, or a voice for speaker identification.
ビームフォーミング処理部143は、ビームフォーミングにより抽出された音声データを音声識別処理部151に供給する。
The beam forming
なお、ビームフォーミング処理部143は、音源定位検出部142において複数の音源方位が推定された場合には、その複数の音源方位に対応するそれぞれの話者方位とビームフォーミング幅の供給を受け、その複数の話者方位とビームフォーミング幅それぞれに対して、マイクアレイI/F141から供給される音声データから音声データを抽出する。
In addition, when a plurality of sound source azimuths are estimated by the sound source
話者識別部114の音声識別処理部151は、ビームフォーミング処理部143から供給される音声データ(音源定位検出部142から供給される話者方位とビームフォーミング幅に対して行われたビームフォーミングにより得られた音声データ)を離散フーリエ変換(DFT(Discrete Fourier Transform))するなどして音声特徴量を抽出し、その音声特徴量に基づき、話者識別のために用いられる、例えば、HMM(Hidden Makov Model)などの標準パターン(モデル)を生成する。
The voice
また、音声識別処理部151は、その標準パターンに、音源定位検出部142から供給される話者ID(標準パターンを生成するのに用いられた音声データを得るためのビームフォーミングに使用された話者方位とビームフォーミング幅に対応付けられた話者ID)を対応付け、それらのデータをDB管理部131に供給する。DB管理部131に供給された、話者IDに対応付けられた標準パターンは話者情報DB132に記憶される。
In addition, the voice
マイクアレイ3に入力された音声の話者識別を行うとき、音声識別処理部151は、ビームフォーミング処理部143から供給される音声データから抽出された音声特徴量と、話者情報DB132に登録されている標準パターンを用いて、例えば、HMM法に基づく話者識別を行う。HMM法に基づく話者識別により得られる、ビームフォーミング処理部143からの音声データが観測される尤度が最も高い標準パターン(モデル)に対応付けられている話者IDは、話者の識別結果として、ビームフォーミング処理部143から供給された音声データとともに識別情報付与部152に供給される。
When performing speaker identification of the voice input to the
識別情報付与部152は、音源定位検出部142から供給される話者IDと、音声識別処理部151から供給される話者IDが一致するか否かの判定を行う。識別情報付与部152は、それらの話者IDが一致すると判定した場合、即ち、音声識別処理部151における話者識別の結果得られる話者と、音源定位検出部142で推定された音源の推定方位に最も近い方位にいる話者が一致すると判定した場合、その話者IDに対応付けられている顔画像データをDB管理部131を介して話者情報DB132から読み出し、音声識別処理部151から供給される音声データとともに出力制御部153に供給する。
The identification
音声識別処理部151における話者識別の結果得られる話者と、音源定位検出部142で推定された音源の推定方位に最も近い方位にいる話者が一致する場合に出力制御部153に供給されるようにしたため、より精度の高い話者識別結果を得ることが可能になる。
When the speaker obtained as a result of the speaker identification in the speech
出力制御部153は、識別情報付与部152から供給される顔画像データより得られる画像を表示部5に表示させる。従って、表示部5には、識別された話者の顔画像が表示されることになる。なお、話者識別の結果である顔画像が表示部5に表示されるだけでなく、識別された話者の音声がスピーカから出力制御部153により出力されるようにしてもよい。
The
また、出力制御部153は、識別情報付与部152から供給される音声データと顔画像データを話者IDなどに対応付けて議事録DB154に記憶させる。
Further, the
ここで、以上のような構成を有する情報処理部4によるビームフォーミングについて説明する。
Here, beam forming by the
情報処理部4において行われる遅延和ビームフォーミング(遅延和方式によるビームフォーミング)は、マイク3−1乃至3−4それぞれからの音声データを、マイク間の距離に対応する時間遅延に基づいて同相化し、所定の方位からの音声データのみを、その位相を合わせることによって強調させるものである。
Delay sum beam forming (beam forming by the delay sum method) performed in the
従って、遅延和ビームフォーミングによれば、所定の方位以外の、他の方位からの音声データや、マイク間の距離に無関係な、例えば、マイク自身の雑音などが除去されることになる。 Therefore, according to the delay sum beamforming, voice data from other azimuth other than a predetermined azimuth and noise, for example, irrelevant to the distance between the mics are removed.
ところで、ビームフォーミング時のビームフォーミング幅は、それが狭いほど、ある1人の話者の音声データを、他の話者の音声データから分離することができる。しかしながら、ビームフォーミング幅が狭いと、マイクアレイ3で得られた音声データの情報量が低減し、さらに、ビームフォーミングによって抽出される音声データが、こもった音となってしまう。
By the way, as the beam forming width at the time of beam forming is narrower, the voice data of one speaker can be separated from the voice data of another speaker. However, if the beam forming width is narrow, the information amount of the audio data obtained by the
一方、ビームフォーミング幅を単に広くしてしまうと、マイクアレイ3からの音声データから、ある1人の話者の音声データを精度良く抽出することが困難となる。即ち、ビームフォーミング幅を単に広くした場合、ある1人の話者の音声データを抽出するときに、その話者に隣接する話者の音声データも抽出してしまうことになる。
On the other hand, if the beam forming width is simply widened, it becomes difficult to accurately extract the voice data of a single speaker from the voice data from the
そこで、情報処理部4では、各話者の音声データを、他の話者の音声データと精度良く区別して抽出することができる、より広い幅のビームフォーミング幅を、話者同士の位置関係に基づいて算出することが行われる。これにより、話者それぞれに最適なビームフォーミング幅を得ることができる。
Therefore, the
話者同士の位置関係に基づくビームフォーミング幅の算出について、図5A,Bを参照して説明する。 Calculation of the beam forming width based on the positional relationship between speakers will be described with reference to FIGS. 5A and 5B.
図5Aは、図5Bに示されるように、4人の話者X−1乃至X+2がテーブルトップ型話者識別装置1を囲んでいる状態において、カメラモジュール2により撮像された全周囲の画像を展開したものの例を示している。
FIG. 5A shows an image of the entire periphery imaged by the
なお、図5Aでは、カメラモジュール2を中心とする360度の周囲の全周囲画像データを、横方向を円周方向(角度方向)とするとともに、縦方向を半径方向として、長方形状の画像データとして示してある。従って、図5の上の全周囲画像データの左端の方位を例えば0度とすると、その右端の方位は360度である。
In FIG. 5A, the 360-degree peripheral image data around the
また、図5Aでは、話者X+iが位置する方位(話者方位)をDX+iで表している(i=−1,0,1,2)。 In FIG. 5A, the direction (speaker direction) where the speaker X + i is located is represented by D X + i (i = −1, 0, 1, 2).
図4のビーム幅算出部122は、話者Xのビームフォーミング幅BXを算出する場合、話者Xの方位DXと、話者Xの反時計回り方向に隣接する話者X−1の方位DX-1の方位の差(角度)|DX-1−DX|を算出するとともに、話者Xの方位DXと、話者Xの時計回り方向に隣接する話者X+1の方位DX+1の方位の差|DX+1−DX|を算出する。 4 calculates the beamforming width B X of the speaker X, the direction D X of the speaker X and the speaker X-1 adjacent to the speaker X in the counterclockwise direction. The difference (angle) | D X-1 −D X | of the direction D X-1 is calculated, and the direction D of the speaker X and the direction of the speaker X + 1 adjacent to the speaker X in the clockwise direction are calculated. D X + 1 of the difference between orientation | D X + 1 -D X | is calculated.
そして、ビーム幅算出部122は、話者Xと話者X−1の方位の差|DX-1−DX|と、話者Xと話者X+1の方位の差|DX+1−DX|のうちの小さい方を、話者Xのビームフォーミング幅BX(図5Bの斜線が付されている部分)とする。
The beam
同様に、ビーム幅算出部122は、話者X+1と話者Xの方位の差|DX−DX+1|と、話者X+1と話者X+2の方位の差|DX+2−DX+1|のうちの小さい方を、話者X+1のビームフォーミング幅BX+1とする。
Similarly, the beam
さらに、ビーム幅算出部122は、話者X+2と話者X+1の方位の差|DX+1−DX+2|と、話者X+2と話者X−1の方位の差|DX-1−DX+2|のうちの小さい方を、話者X+2のビームフォーミング幅BX+2とし、話者X−1と話者X+2の方位の差|DX+2−DX-1|と、話者X−1と話者Xの方位の差|DX−DX-1|のうちの小さい方を、話者X−1のビームフォーミング幅BX-1とする。
Further, the beam
なお、話者と反時計回り方向に隣接する他の話者との方位差と、話者と時計回り方向に隣接する他の話者との方位差のうちの小さい方を、その話者のビームフォーミング幅とすることで、話者の方位に最も近い方位にいる他の話者の方位の中心までが、話者のビームフォーミング幅とされる。従って、話者それぞれにとって、最も近い方位にいる他の話者の方位の中心までがビームフォーミングされることとなる。 Note that the smaller of the heading difference between the speaker and another speaker adjacent in the counterclockwise direction and the heading difference between the speaker and another speaker adjacent in the clockwise direction is the speaker's By setting the beam forming width, the beam forming width of the speaker is set up to the center of the direction of the other speaker in the direction closest to the direction of the speaker. Therefore, for each speaker, beam forming is performed up to the center of the direction of the other speaker in the closest direction.
上述のように、ビーム幅算出部122は、所定の話者のビームフォーミング幅を、所定の話者の方位と、反時計回り方向に隣接する他の話者の方位との差、もしくは、所定の話者の方位と、時計回り方向に隣接する他の話者の方位との差のうちの小さい方とする。これにより、所定の話者の音声データが、他の話者の音声データと分離されて最適なビームフォーミング幅でビームフォーミングされることとなる。
As described above, the beam
なお、その他、例えば、話者Xについて、(DX-1+DX)/2から(DX+1+DX)/2までの範囲の角度を、ビームフォーミング幅とすることが可能である。他の話者X−1,X+1、およびX+2についても同様である。 In addition, for the speaker X, for example, an angle in a range from (D X-1 + D X ) / 2 to (D X + 1 + D X ) / 2 can be set as the beam forming width. The same applies to the other speakers X-1, X + 1, and X + 2.
このように、話者同士の位置関係に基づいて、ビームフォーミング幅が求められ、そのビームフォーミング幅を用いて、話者それぞれに適したビームフォーミングがなされるので、マイクアレイ3が出力する音声データから他の話者の発話や、マイク自身のノイズなどが除かれた音声データを抽出することができる。 Thus, the beam forming width is obtained based on the positional relationship between the speakers, and the beam forming width is used to perform beam forming suitable for each speaker. It is possible to extract speech data from which other speakers' utterances and noise of the microphone itself are removed.
次に、以上の構成を有するテーブルトップ型話者識別装置1の動作について説明する。
Next, the operation of the tabletop
始めに、図6のフローチャートを参照して、話者方位とビームフォーミング幅を求めるとともに、顔画像データを話者情報DB132に登録するテーブルトップ型話者識別装置1の処理について説明する。
First, with reference to the flowchart of FIG. 6, the process of the table top type
例えば、テーブルトップ型話者識別装置1の電源が投入され、所定のボタンが操作されたとき、ステップS1において、カメラモジュール2は、テーブルトップ型話者識別装置1を囲む全周囲を撮像し、全周囲画像データを取得して、それを顔検出部121に供給する。
For example, when the table top type
ステップS2において、顔検出部121は、カメラモジュール2から供給される全周囲画像データから話者の顔に対応する顔画像データを抽出し、抽出した顔画像データのそれぞれに固有の話者IDを付与する。
In step S <b> 2, the
ステップS3において、顔検出部121は、話者のそれぞれについて、その話者の顔画像データからカメラモジュール2を中心とした実世界での話者の位置の方位である話者方位を検出する。検出された話者方位は、顔画像データとともに話者IDに対応付けられて、ビーム幅算出部122に供給される。
In step S <b> 3, for each speaker, the
ステップS4において、ビーム幅算出部122は、顔検出部121から供給される、話者IDに対応付けられた話者方位に基づいてビームフォーミング幅を算出する。即ち、ビーム幅算出部122は、ある話者IDに注目し、その注目している話者IDに対応付けられている話者方位と、その話者IDの話者の両隣にいる2人の話者の話者IDに対応付けられた話者方位を認識し、その2人の話者の一方または他方の話者方位それぞれと、注目している話者IDの話者の話者方位との差を求め、小さい方の差を、注目している話者IDの話者のビームフォーミング幅とする。同様に、ビーム幅算出部122は、すべての話者(話者ID)についてビームフォーミング幅を算出する。
In step S <b> 4, the beam
また、ビーム幅算出部122は、ステップS5において、話者IDに対応付けられている話者方位と、その話者IDの話者のビームフォーミング幅を対応付け、各話者IDと、話者IDに対応付けられている話者方位とビームフォーミング幅を、音源定位検出部142に供給する。
In step S5, the beam
ステップS6において、ビーム幅算出部122は、各話者IDに対応付けた顔画像データをDB管理部131に供給する。DB管理部131においては、話者IDに対応付けられている顔画像データが話者情報DB132に登録され、処理が終了する。
In step S <b> 6, the beam
なお、ビーム幅算出部122は、話者が一人の場合、即ち、顔検出部121から供給された話者IDが1つの場合には、話者のビームフォーミング幅を、例えば、所定のデフォルトのビームフォーミング幅とする。
Note that the beam
以上のようにして、カメラモジュール2により取得された全周囲画像データに基づいて、話者方位、顔画像データ、およびビームフォーミング幅が得られ、話者IDに対応付けられた話者方位とビームフォーミング幅が音源定位検出部142に供給される。また、話者IDに対応付けられた顔画像データが話者情報DB132に登録される。
As described above, the speaker orientation, the face image data, and the beamforming width are obtained based on the all-around image data acquired by the
次に、図7のフローチャートを参照して、話者の音声データの標準パターンを話者情報DB132に登録する処理について説明する。
Next, processing for registering a standard pattern of speaker voice data in the
この処理は、図6を参照して説明した処理の後に行われるものである。従って、音源定位検出部142には、各話者の話者IDに対応付けられた話者方位とビームフォーミング幅がビーム幅算出部122から供給されている。
This process is performed after the process described with reference to FIG. Therefore, the sound source
ステップS41において、音源定位検出部142は、ビーム幅算出部122から供給される話者IDに対応付けられた話者方位とビームフォーミング幅を受信し、その内蔵するメモリ(図示せず)に記憶する。
In step S41, the sound source
話者方位とビームフォーミング幅をメモリに記憶した後、音源定位検出部142は、ステップS42に進み、マイクアレイI/F141から音声データが供給されたか否かを判定する。
After storing the speaker orientation and the beamforming width in the memory, the sound source
ステップS42において、マイクアレイI/F141から音声データが供給されていないと判定された場合、即ち、いずれの話者も発話を行っていない場合、音源定位検出部142は、音声データが供給されるまで待機する。
In step S42, when it is determined that no sound data is supplied from the microphone array I /
一方、ステップS42において、マイクアレイI/F141から音声データが供給されたと判定された場合、即ち、発話がマイクアレイ3に入力され、マイクアレイI/F141により得られたディジタルの音声データが音源定位検出部142とビームフォーミング処理部143に供給された場合、ステップS43に進み、音源定位検出部142は、マイクアレイ3を構成するマイク3−1乃至3−4それぞれからの音声データに基づいて、発話の音源方位を推定する。
On the other hand, when it is determined in step S42 that the voice data is supplied from the microphone array I /
音源定位検出部142は、ステップS43において、ステップS41でビーム幅算出部122から供給され、メモリに記憶しておいた全ての話者方位に基づいて、ステップS42で推定した音源方位に最も近い方位の話者を検出し、その話者の方位(撮像画像から得られた方位)に対応付けられている話者IDを、同じくメモリに記憶しておいた全ての話者の話者IDの中から選択する。選択された話者IDは音声識別処理部151に供給される。
In step S43, the sound source
ステップS44において、音源定位検出部142は、ステップS43の処理で選択した話者IDに対応付けられている話者方位とビームフォーミング幅をビームフォーミング処理部143に供給する。ここで供給される話者方位とビームフォーミング幅は、音声データをビームフォーミングする方位とビームフォーミング幅としてビームフォーミング処理部143により設定される。
In step S44, the sound source
ステップS45において、ビームフォーミング処理部143は、マイクアレイI/F141から供給される音声データを、音源定位検出部142から供給される話者方位とビームフォーミング幅に基づいてビームフォーミングし、これにより、音源定位検出部142からの話者方位を中心とする、ビームフォーミング幅が表す範囲の方位(話者方位から、ビームフォーミング幅が表す範囲(角度)の+1/2の角度から−1/2の角度までの方位)からの音声データを強調し、強調して得られた音声データを音声識別処理部151に供給する。
In step S45, the beam forming
ステップS46において、音声識別処理部151は、ビームフォーミング処理部143から供給される音声データ(ビームフォーミングされた音声データ)から音声特徴量を抽出し、その音声特徴量から標準パターンを生成する。さらに、音声識別処理部151は、その標準パターンに対して、音源定位検出部142からの話者IDを対応付けてDB管理部131に供給する。
In step S46, the voice
ステップS47において、DB管理部131は、音声識別処理部151から供給される話者IDに対応付けられた標準パターンを、話者情報DB132に登録されている話者IDのうちの同一の話者IDに対応付けて登録し、処理を終了させる。
In step S47, the
なお、ステップS42乃至S47の処理は、話者それぞれについて少なくとも1回以上行われ、話者情報DB132には、話者それぞれの顔画像データおよび標準パターンが、話者IDに対応付けられて登録される。この話者情報DB132に登録された情報に基づいて、図8の話者識別処理が行われる。
The processes in steps S42 to S47 are performed at least once for each speaker. In the
次に、図8のフローチャートを参照して、話者情報DB132に登録されている情報に基づいて行われる話者識別処理について説明する。
Next, speaker identification processing performed based on information registered in the
ステップS71において、音源定位検出部142は、マイクアレイI/F141から音声データが供給されたか否かを判定し、音声データが供給されるまで待機する。
In step S71, the sound source
音源定位検出部142は、ステップS71において、マイクアレイI/F141から音声データが供給されたと判定した場合、ステップS72に進み、マイクアレイ3を構成するマイク3−1乃至3−4それぞれからの音声データに基づいて発話の音源方位を推定する。
If the sound source
ステップS72において、音源定位検出部142は、図7のステップS41の処理でビーム幅算出部122から供給された話者方位のうちの、推定方位に最も近い方位の話者を検出し、その話者の方位に対応付けられている話者IDを識別情報付与部152に供給する。
In step S72, the sound source
また、音源定位検出部142は、ステップS73において、ステップS72の処理で識別情報付与部152に供給した話者IDに対応付けられている話者方位とビームフォーミング幅をビームフォーミング処理部143に供給する。ビームフォーミング処理部143は、音源定位検出部142から供給される話者方位とビームフォーミング幅を、ビームフォーミングする方位とビームフォーミング幅として設定する。
In step S73, the sound source
ステップS74において、ビームフォーミング処理部143は、マイクアレイI/F141から供給される音声データを、音源定位検出部142から供給される話者方位とビームフォーミング幅に基づいてビームフォーミングし、これにより、音源定位検出部142からの話者方位を中心とする、ビームフォーミング幅が表す範囲の方位(話者方位から、ビームフォーミング幅が表す範囲(角度)の+1/2の角度から−1/2の角度までの方位)からの音声データを強調し、音声識別処理部151に供給する。
In step S74, the
ステップS75において、音声識別処理部151は、ビームフォーミング処理部143から供給されるビームフォーミングされた音声データから音声特徴量を抽出する。
In step S <b> 75, the voice
音声識別処理部151は、ステップS76において、DB管理部131を介して得られる、話者情報DB132に登録されている話者の標準パターンを参照し、発話を行った話者の話者識別を行う。
In step S76, the voice
即ち、音声識別処理部151は、話者情報DB132に登録されている標準パターンのうちの、ビームフォーミング処理部143からの音声データの音声特徴量が観測される尤度が高い標準パターンに対応付けられている話者IDを特定する。さらに、音声識別処理部151は、その話者IDと、ビームフォーミング処理部143からの音声データを識別情報付与部152に供給する。
That is, the speech
ステップS77に進み、識別情報付与部152は、音源定位検出部142からの話者ID(ステップS72で音源定位検出部142が推定した推定方位に最も近い話者方位に対応付けられている話者ID)と、ステップS76で音声識別処理部151から供給された話者識別の結果得られた話者IDが一致するか否かを判定する。
In step S77, the identification
識別情報付与部152は、ステップS77において、音源定位検出部142からの話者IDと、音声識別処理部151から供給された話者識別の結果得られた話者IDが一致しないと判定した場合、ステップS78に進み、所定のエラー処理を行う。
When the identification
ステップS78において行われるエラー処理としては、例えば、カメラモジュール2によって全周囲画像データを取得して、話者方位およびビームフォーミング幅を再算出することができる。この場合、話者が移動して話者方位や最適なビームフォーミング幅が変化したときなどに、話者方位やビームフォーミング幅をリアルタイムに変更することができる。
As the error processing performed in step S78, for example, all-around image data can be acquired by the
一方、ステップS77において、音源定位検出部142からの話者IDと、音声識別処理部151から供給された話者識別の結果得られた話者IDが一致すると判定した場合、ステップS79に進み、識別情報付与部152は、その一致する話者IDを、最終的な話者識別結果とし、その話者IDに対応付けられている顔画像データを、DB管理部131を介して話者情報DB132から取得する。その後、識別情報付与部152は、音声識別処理部151から供給された音声データとともに顔画像データを出力制御部153に供給し、話者識別処理を終了させる。
On the other hand, if it is determined in step S77 that the speaker ID from the sound source
出力制御部153においては、顔画像の表示や、音声の出力が行われる。
In the
以上のように、テーブルトップ型話者識別装置1においては、推定された音源の方位に最も近い方位の話者の話者IDと、音声識別処理部151による話者識別の結果得られた話者IDとが一致した場合のみ、その話者IDが最終的な話者識別結果とされることから、このような判定を行わない場合に較べて、その結果は精度の高いものとなる。
As described above, in the table top type
また、標準パターンを生成するときの音声データと、話者を識別するときの音声データとが、同一の環境で取得されるので、音声識別処理部151における話者識別の精度を向上させることができる。
In addition, since the voice data for generating the standard pattern and the voice data for identifying the speaker are acquired in the same environment, the accuracy of speaker identification in the voice
なお、図8のステップS72において、音源定位検出部142では、マイク3−1乃至3−4それぞれからの音声データに基づいて複数の発話の音源方位が推定された場合、即ち、複数の話者が同時に発話し、これにより、複数の音源方位が推定された場合、後段のビームフォーミング処理部143では、音源定位検出部142から供給される複数の話者それぞれの話者IDに対応付けられている話者方位とビームフォーミング幅が用いられてビームフォーミングが行われ、それぞれの音声データに基づいて音声識別処理部151により話者識別が行われることから、複数の話者が同時に発話を行った場合でも、それぞれの話者を識別することができる。
In step S72 of FIG. 8, the sound source
また、全周囲画像データから顔を検出するようにしたので、例えば、話者識別結果として表示される話者の顔画像データを登録する作業を省くことができる。なお、カメラモジュール2では、全周囲画像データを得るようにしたが、全周囲のうちの一部の範囲の画像データを得るようにすることも可能である。
Further, since the face is detected from the all-around image data, for example, the task of registering the speaker face image data displayed as the speaker identification result can be omitted. Although the
さらに、本発明は、テーブルトップ型話者識別装置1に適用するのみならず、例えば、ロボットの視聴覚技術に適用することができる。本発明をロボットの視聴覚技術に適用した場合、ロボットの視覚内で同時に複数の話者が発話した場合でも、話者それぞれを識別することができる。
Furthermore, the present invention can be applied not only to the table top type
また、本実施の形態では、音声識別処理部151において離散フーリエ変換によって音声特徴量を抽出することとしたが、音声特徴量の抽出方法は、離散フーリエ変換に限定されるものではない。
In the present embodiment, the speech
さらに、音声識別処理部151での話者識別は、HMM法以外で行うことも可能である。
Furthermore, speaker identification in the voice
また、図7のステップS42の処理、および図8のステップS71の処理において音源定位検出部142に音声データが供給されたか否かを判定する場合、マイクアレイ3が出力する音の信号から話者が発話をした区間である発話区間を検出し、発話区間が検出されたときに音声データが供給されたと判定することができる。
When determining whether or not the sound data is supplied to the sound source
なお、図3のCPU51が行う、上述した一連の処理を実行するためのプログラムは、ダウンロードサイトからダウンロードしてインストールすることができる。また、プログラムは、記録媒体からインストールすることができる。
Note that the program for executing the above-described series of processing performed by the
このプログラムが記録された記録媒体は、磁気ディスク61、光ディスク62、光磁気ディスク63、もしくは半導体メモリ64などよりなるパッケージメディアとして配布することができる。 The recording medium on which the program is recorded can be distributed as a package medium including the magnetic disk 61, the optical disk 62, the magneto-optical disk 63, or the semiconductor memory 64.
ここで、本明細書において、説明したフローチャートに記述された各ステップの処理は、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。 Here, in the present specification, the processing of each step described in the flow chart described is not limited to processing performed in time series according to the described order, but may be performed in parallel or individually even if not necessarily performed in time series. This includes the processing to be executed.
また、上述した一連の処理は、ソフトウェアにより実行することとしたが、専用のハードウェアにより実行することもできる。 The series of processes described above is executed by software, but can also be executed by dedicated hardware.
1 テーブルトップ型話者識別装置, 2 カメラモジュール, 3 マイクアレイ, 4 情報処理部, 5 表示部, 51 CPU, 52 ROM, 53 RAM, 54 バス, 55 入出力インタフェース, 56 入力部, 57 出力部, 58 記憶部, 59 通信部, 60 ドライブ, 61 磁気ディスク, 62 光ディスク, 63 光磁気ディスク, 64 半導体メモリ, 121 顔検出部, 122 ビーム幅算出部, 131 DB管理部, 132 話者情報DB, 141 マイクアレイI/F, 142 音源定位検出部, 143 ビームフォーミング処理部, 151 音声識別処理部, 152 識別情報付与部, 153 出力制御部, 154 議事録DB 1 table top type speaker identification device, 2 camera module, 3 microphone array, 4 information processing section, 5 display section, 51 CPU, 52 ROM, 53 RAM, 54 bus, 55 input / output interface, 56 input section, 57 output section , 58 storage unit, 59 communication unit, 60 drive, 61 magnetic disk, 62 optical disk, 63 magneto-optical disk, 64 semiconductor memory, 121 face detection unit, 122 beam width calculation unit, 131 DB management unit, 132 speaker information DB, 141 microphone array I / F, 142 sound source localization detection unit, 143 beamforming processing unit, 151 voice identification processing unit, 152 identification information adding unit, 153 output control unit, 154 minutes DB
Claims (5)
前記撮像手段が出力する画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出手段と、
前記話者による発話の音声データのうちの、前記抽出範囲算出手段により算出された前記抽出範囲内の音声データを抽出する音声データ抽出手段と、
前記音声データ抽出手段により抽出された音声データに基づく話者識別用の標準パターンを、前記話者ごとに記憶する記憶手段と、
前記音声データ抽出手段により新たに抽出された音声データと、前記記憶手段に記憶された標準パターンとを用いて話者識別を行う話者識別手段と、
前記音声データ抽出手段により新たに抽出された音声データに基づいて、音源方位を推定する音源方位推定手段と、
前記音源方位推定手段により推定された音源方位に存在する話者と、前記話者識別手段による話者識別により識別された話者とが一致するか否かを判定する判定手段と
を備えることを特徴とする情報処理装置。 Imaging means for imaging one or more speakers and outputting the images;
Extraction range calculation means for calculating an extraction range that is a range of orientations for extracting voice data of each speaker based on the positional relationship of the speakers in the image output by the imaging means;
Voice data extraction means for extracting voice data within the extraction range calculated by the extraction range calculation means, out of voice data of speech by the speaker ;
Storage means for storing a standard pattern for speaker identification based on the voice data extracted by the voice data extraction means for each speaker;
Speaker identification means for performing speaker identification using voice data newly extracted by the voice data extraction means and a standard pattern stored in the storage means;
Based on the voice data newly extracted by the voice data extraction means, the sound source direction estimation means for estimating the sound source direction;
Determining means for determining whether or not a speaker existing in the sound source direction estimated by the sound source direction estimating means matches a speaker identified by speaker identification by the speaker identifying means ; A characteristic information processing apparatus.
前記抽出範囲算出手段は、前記顔検出手段により検出された顔の位置関係に基づいて、前記抽出範囲を算出する
ことを特徴とする請求項1に記載の情報処理装置。 Further comprising face detection means for detecting the face of the speaker from the image output by the imaging means;
The information processing apparatus according to claim 1, wherein the extraction range calculation unit calculates the extraction range based on a positional relationship of faces detected by the face detection unit.
前記撮像ステップの処理により出力される画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、
前記話者による発話の音声データのうちの、前記抽出範囲算出ステップの処理により算出された前記抽出範囲内の音声データを抽出する音声データ抽出ステップと、
前記音声データ抽出ステップの処理により抽出された音声データに基づく話者識別用の標準パターンを、前記話者ごとに記憶する記憶ステップと、
前記音声データ抽出ステップの処理により新たに抽出された音声データと、前記記憶ステップの処理で記憶された標準パターンとを用いて話者識別を行う話者識別ステップと、
前記音声データ抽出ステップの処理により新たに抽出された音声データに基づいて、音源方位を推定する音源方位推定ステップと、
前記音源方位推定ステップの処理により推定された音源方位に存在する話者と、前記話者識別ステップの処理による話者識別により識別された話者とが一致するか否かを判定する判定ステップと
を含むことを特徴とする情報処理方法。 An imaging step of imaging one or more speakers and outputting the images;
An extraction range calculating step for calculating an extraction range that is a range of orientations for extracting voice data of each speaker based on the positional relationship of the speakers in the image output by the processing of the imaging step;
A voice data extraction step of extracting voice data within the extraction range calculated by the processing of the extraction range calculation step of the voice data of the utterance by the speaker ;
A storage step of storing a standard pattern for speaker identification based on the voice data extracted by the voice data extraction step for each speaker,
A speaker identification step of performing speaker identification using the voice data newly extracted by the processing of the voice data extraction step and the standard pattern stored by the processing of the storage step;
A sound source direction estimation step for estimating a sound source direction based on the voice data newly extracted by the processing of the voice data extraction step;
A determination step for determining whether or not a speaker existing in the sound source direction estimated by the processing of the sound source direction estimation step matches a speaker identified by speaker identification by the processing of the speaker identification step; An information processing method comprising:
1以上の話者を撮像し、画像を出力する撮像ステップと、
前記撮像ステップの処理により出力される画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、
前記話者による発話の音声データのうちの、前記抽出範囲算出ステップの処理により算出された前記抽出範囲内の音声データを抽出する音声データ抽出ステップと、
前記音声データ抽出ステップの処理により抽出された音声データに基づく話者識別用の標準パターンを、前記話者ごとの記憶を制御する記憶制御ステップと、
前記音声データ抽出ステップの処理により新たに抽出された音声データと、前記記憶制御ステップの処理で記憶された標準パターンとを用いて話者識別を行う話者識別ステップと、
前記音声データ抽出ステップの処理により新たに抽出された音声データに基づいて、音源方位を推定する音源方位推定ステップと、
前記音源方位推定ステップの処理により推定された音源方位に存在する話者と、前記話者識別ステップの処理による話者識別により識別された話者とが一致するか否かを判定する判定ステップと
を含むことを特徴とするプログラム。 A computer executable program,
An imaging step of imaging one or more speakers and outputting the images;
An extraction range calculating step for calculating an extraction range that is a range of orientations for extracting voice data of each speaker based on the positional relationship of the speakers in the image output by the processing of the imaging step;
A voice data extraction step of extracting voice data within the extraction range calculated by the processing of the extraction range calculation step of the voice data of the utterance by the speaker ;
A storage control step for controlling storage for each speaker, a standard pattern for speaker identification based on the voice data extracted by the processing of the voice data extraction step;
A speaker identification step of performing speaker identification using the voice data newly extracted by the processing of the voice data extraction step and the standard pattern stored by the processing of the storage control step;
A sound source direction estimation step for estimating a sound source direction based on the voice data newly extracted by the processing of the voice data extraction step;
A determination step for determining whether or not a speaker existing in the sound source direction estimated by the processing of the sound source direction estimation step matches a speaker identified by speaker identification by the processing of the speaker identification step; The program characterized by including.
1以上の話者を撮像し、画像を出力する撮像ステップと、
前記撮像ステップの処理により出力される画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、
前記話者による発話の音声データのうちの、前記抽出範囲算出ステップの処理により算出された前記抽出範囲内の音声データを抽出する音声データ抽出ステップと、
前記音声データ抽出ステップの処理により抽出された音声データに基づく話者識別用の標準パターンを、前記話者ごとの記憶を制御する記憶制御ステップと、
前記音声データ抽出ステップの処理により新たに抽出された音声データと、前記記憶制御ステップの処理で記憶された標準パターンとを用いて話者識別を行う話者識別ステップと、
前記音声データ抽出ステップの処理により新たに抽出された音声データに基づいて、音源方位を推定する音源方位推定ステップと、
前記音源方位推定ステップの処理により推定された音源方位に存在する話者と、前記話者識別ステップの処理による話者識別により識別された話者とが一致するか否かを判定する判定ステップと
を含むことを特徴とするプログラムが記録された記録媒体。 A recording medium on which a computer executable program is recorded,
An imaging step of imaging one or more speakers and outputting the images;
An extraction range calculating step for calculating an extraction range that is a range of orientations for extracting voice data of each speaker based on the positional relationship of the speakers in the image output by the processing of the imaging step;
A voice data extraction step of extracting voice data within the extraction range calculated by the processing of the extraction range calculation step of the voice data of the utterance by the speaker ;
A storage control step for controlling storage for each speaker, a standard pattern for speaker identification based on the voice data extracted by the processing of the voice data extraction step;
A speaker identification step of performing speaker identification using the voice data newly extracted by the processing of the voice data extraction step and the standard pattern stored by the processing of the storage control step;
A sound source direction estimation step for estimating a sound source direction based on the voice data newly extracted by the processing of the voice data extraction step;
A determination step for determining whether or not a speaker existing in the sound source direction estimated by the processing of the sound source direction estimation step matches a speaker identified by speaker identification by the processing of the speaker identification step; A recording medium on which a program is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004084814A JP4595364B2 (en) | 2004-03-23 | 2004-03-23 | Information processing apparatus and method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004084814A JP4595364B2 (en) | 2004-03-23 | 2004-03-23 | Information processing apparatus and method, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005274707A JP2005274707A (en) | 2005-10-06 |
JP4595364B2 true JP4595364B2 (en) | 2010-12-08 |
Family
ID=35174485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004084814A Expired - Fee Related JP4595364B2 (en) | 2004-03-23 | 2004-03-23 | Information processing apparatus and method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4595364B2 (en) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4892927B2 (en) * | 2005-10-26 | 2012-03-07 | ヤマハ株式会社 | Imaging apparatus and communication conference system |
JP4953137B2 (en) * | 2008-07-29 | 2012-06-13 | 独立行政法人産業技術総合研究所 | Display technology for all-round video |
JP5246790B2 (en) * | 2009-04-13 | 2013-07-24 | Necカシオモバイルコミュニケーションズ株式会社 | Sound data processing apparatus and program |
JP2011066467A (en) * | 2009-09-15 | 2011-03-31 | Brother Industries Ltd | Television conference terminal apparatus, method for controlling voice of the same, and voice control program |
US8265341B2 (en) * | 2010-01-25 | 2012-09-11 | Microsoft Corporation | Voice-body identity correlation |
JP4945675B2 (en) | 2010-11-12 | 2012-06-06 | 株式会社東芝 | Acoustic signal processing apparatus, television apparatus, and program |
JP5866505B2 (en) * | 2012-12-27 | 2016-02-17 | パナソニックIpマネジメント株式会社 | Voice processing system and voice processing method |
JP2014143678A (en) | 2012-12-27 | 2014-08-07 | Panasonic Corp | Voice processing system and voice processing method |
JP2016010010A (en) * | 2014-06-24 | 2016-01-18 | 日立マクセル株式会社 | Imaging apparatus with voice input and output function and video conference system |
JP6467736B2 (en) * | 2014-09-01 | 2019-02-13 | 株式会社国際電気通信基礎技術研究所 | Sound source position estimating apparatus, sound source position estimating method, and sound source position estimating program |
US10909384B2 (en) | 2015-07-14 | 2021-02-02 | Panasonic Intellectual Property Management Co., Ltd. | Monitoring system and monitoring method |
JP6651989B2 (en) | 2015-08-03 | 2020-02-19 | 株式会社リコー | Video processing apparatus, video processing method, and video processing system |
JP2017108240A (en) * | 2015-12-08 | 2017-06-15 | シャープ株式会社 | Information processing apparatus and information processing method |
US20170330564A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing Simultaneous Speech from Distributed Microphones |
JP6835205B2 (en) * | 2017-03-22 | 2021-02-24 | ヤマハ株式会社 | Shooting sound pickup device, sound pick-up control system, shooting sound pick-up device control method, and shooting sound pick-up control system control method |
CN108305615B (en) * | 2017-10-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | Object identification method and device, storage medium and terminal thereof |
JP6975755B2 (en) * | 2018-01-16 | 2021-12-01 | ハイラブル株式会社 | Voice analyzer, voice analysis method, voice analysis program and voice analysis system |
WO2019142232A1 (en) * | 2018-01-16 | 2019-07-25 | ハイラブル株式会社 | Voice analysis device, voice analysis method, voice analysis program, and voice analysis system |
JP7098561B2 (en) * | 2019-03-20 | 2022-07-11 | Tis株式会社 | Distribution system, distribution system control method, program |
JP6886118B2 (en) * | 2019-08-27 | 2021-06-16 | 富士通クライアントコンピューティング株式会社 | Information processing equipment and programs |
JP2021105688A (en) * | 2019-12-27 | 2021-07-26 | 株式会社イトーキ | Conference support device |
JP7111206B2 (en) * | 2021-02-17 | 2022-08-02 | 日本電信電話株式会社 | Speaker direction enhancement device, speaker direction enhancement method, and program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352996A (en) * | 1999-03-26 | 2000-12-19 | Canon Inc | Information processing device |
JP2001067098A (en) * | 1999-08-25 | 2001-03-16 | Sanyo Electric Co Ltd | Person detecting method and device equipped with person detecting function |
JP2003018561A (en) * | 2001-07-04 | 2003-01-17 | Ricoh Co Ltd | Pantoscopic video image recording/reproducing system, conference recording/reproducing system, pantoscopic video image transmitting apparatus, conference video image transmitting apparatus, pantoscopic video image reproducing apparatus, conference video image reproducing apparatus, pantoscopic video image recording/reproducing method, conference video image reproducing method, pantoscopic video image transmitting method, conference video image transmitting method, pantoscopic video image reproducing method, conference video image reproducing method and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11331827A (en) * | 1998-05-12 | 1999-11-30 | Fujitsu Ltd | Television camera |
-
2004
- 2004-03-23 JP JP2004084814A patent/JP4595364B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352996A (en) * | 1999-03-26 | 2000-12-19 | Canon Inc | Information processing device |
JP2001067098A (en) * | 1999-08-25 | 2001-03-16 | Sanyo Electric Co Ltd | Person detecting method and device equipped with person detecting function |
JP2003018561A (en) * | 2001-07-04 | 2003-01-17 | Ricoh Co Ltd | Pantoscopic video image recording/reproducing system, conference recording/reproducing system, pantoscopic video image transmitting apparatus, conference video image transmitting apparatus, pantoscopic video image reproducing apparatus, conference video image reproducing apparatus, pantoscopic video image recording/reproducing method, conference video image reproducing method, pantoscopic video image transmitting method, conference video image transmitting method, pantoscopic video image reproducing method, conference video image reproducing method and program |
Also Published As
Publication number | Publication date |
---|---|
JP2005274707A (en) | 2005-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4595364B2 (en) | Information processing apparatus and method, program, and recording medium | |
CN108369811B (en) | Distributed audio capture and mixing | |
US10785565B2 (en) | Distributed audio capture and mixing controlling | |
US10820120B2 (en) | Distributed audio capture and mixing controlling | |
CN102447697B (en) | Method and system of semi-private communication in open environments | |
CN107820037B (en) | Audio signal, image processing method, device and system | |
JP6467736B2 (en) | Sound source position estimating apparatus, sound source position estimating method, and sound source position estimating program | |
KR20120116446A (en) | Voice-body identity correlation | |
O'Donovan et al. | Microphone arrays as generalized cameras for integrated audio visual processing | |
WO2000077537A1 (en) | Method and apparatus for determining sound source | |
JP7469235B2 (en) | Sound source location | |
US20170162195A1 (en) | Information processing apparatus, information processing method, and recording medium | |
KR101508092B1 (en) | Method and system for supporting video conference | |
JP4669150B2 (en) | Main subject estimation apparatus and main subject estimation method | |
JP5660362B2 (en) | Sound source localization apparatus and computer program | |
CN109145853A (en) | The method and apparatus of noise for identification | |
CN105979469B (en) | recording processing method and terminal | |
JP6881267B2 (en) | Controls, converters, control methods, conversion methods, and programs | |
US11107476B2 (en) | Speaker estimation method and speaker estimation device | |
JP2017108240A (en) | Information processing apparatus and information processing method | |
Li et al. | Multiple active speaker localization based on audio-visual fusion in two stages | |
Kim et al. | Auditory and visual integration based localization and tracking of humans in daily-life environments | |
CN112578338A (en) | Sound source positioning method, device, equipment and storage medium | |
CN110730378A (en) | Information processing method and system | |
WO2023276701A1 (en) | Speaker diarization system, communication analysis system, and utterance amount estimation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100824 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100906 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131001 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |