JP6395558B2

JP6395558B2 - 第１の録音装置、第２の録音装置、録音システム、第１の録音方法、第２の録音方法、第１の録音プログラム、および第２の録音プログラム

Info

Publication number: JP6395558B2
Application number: JP2014214421A
Authority: JP
Inventors: 龍一清重
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2014-10-21
Filing date: 2014-10-21
Publication date: 2018-09-26
Anticipated expiration: 2034-10-21
Also published as: US10356518B2; US20170223453A1; JP2016080968A; WO2016063651A1

Description

本発明は、複数の録音装置を用いて録音を行う技術に関する。

楽器教室の発表会のような小規模な演奏会などでＩＣレコーダーを使用した録音が行われることがある。観客席においてＩＣレコーダーのマイクがステージ上の演者に向けられ、録音が行われる。このとき、演者の演奏のみがクリアに録音されるように、指向性を有するズーム機能が使用される。

しかし、ＩＣレコーダーに内蔵されているマイクの性能では、完全な指向性を得ることが難しい。例えば、観客がパンフレットを開く音または咳の音などの雑音が所望の音声に混入することがある。このため、良好な録音結果を得ることが難しい。

一般的な指向性マイクの原理について説明する。指向性マイクは複数のマイクで構成されている。複数のマイクは、録音の対象である音声を発生する音源の方向と、その反対の方向とへそれぞれ向けられて配置されている。音源の方向からの音声に対して、音源方向の反対の方向からの音声の位相を反転してその音声を重ね合わせることにより、音源からの音声以外の音声が打ち消される。

マイクの指向性をより高めるためには音波の伝播特性などを考慮した高度な設計が必要である。各マイクが適切な位置に配置されなければ高い性能を得ることが難しい。このため、装置の大きさ、形状、各マイクの配置などの設計の自由度が制限される。これらの条件により、高い指向性を得るための設計と製作とのコストが大きい。このため、一般的に、高い性能を持つ指向性マイク機能は、特定の用途に使用されるプロ用のＩＣレコーダーに実装されている。一方、プロ以外のユーザが使用する汎用的なＩＣレコーダーには、ズームマイクと呼ばれる指向性マイク機能が実装されている。しかし、コスト、汎用性、持ち運びの利便性などのバランスを保つために、高い指向性を得るマイクは実装されていない。

特許文献１では、音声信号に含まれるノイズ成分を低減する方法が開示されている。特許文献１に開示された方法では、装置が備える複数のマイクによって得られる音声信号の位相差を利用することにより、主となる音声用マイクと、雑音を集音する参照用マイクとが決定される。

特開２０１３−７８１１８号公報

しかしながら、特許文献１に開示された方法では、音声用マイクと参照用マイクとを決定するためには、位相差が発生する間隔で複数のマイクが配置される必要がある。したがって装置設計の自由度が低い。また、音声用マイクと参照用マイクとはノイズ低減装置の一部であり、各マイクが独立しているシステムにおいてノイズ低減を行う方法は開示されていない。

本発明は、複数の独立した録音装置が存在するシステムにおいて、雑音が低減された２つの音声データを得ることができる技術を提供する。

本発明は、第１の録音装置であって、第１の音声が入力され、入力された前記第１の音声から第１の音声データを生成する第１の音声入力部と、第１の通信部と、前記第１の音声データに対する第１の周波数解析を複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成する第１の周波数解析部と、第１の開始位置と第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、第２の周波数解析が開始される第２の音声データの位置である条件決定部と、前記第１の結果情報と第２の結果情報とに基づいて、雑音帯域を前記複数の解析範囲毎に検出する雑音帯域検出部と、前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを生成する第１のフィルタ処理部と、前記第３の音声データを記録する第１の記録部と、を有し、前記第１の通信部は、前記第２の開始位置と前記解析範囲とに関する情報を第２の録音装置に送信し、前記第１の通信部はさらに、前記第２の結果情報を前記複数の解析範囲毎に前記第２の録音装置から受信し、前記第１の通信部はさらに、前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第２の録音装置に送信し、前記第２の録音装置は、第２の音声から前記第２の音声データを生成し、前記第２の音声データに対する前記第２の周波数解析を前記複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す前記第２の結果情報を前記複数の解析範囲毎に生成し、前記雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する第１の録音装置である。

また、本発明は、第２の録音装置であって、第２の音声が入力され、入力された前記第２の音声から第２の音声データを生成する第２の音声入力部と、第２の通信部と、前記第２の音声データに対する第２の周波数解析を複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す第２の結果情報を前記複数の解析範囲毎に生成する第２の周波数解析部と、雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する第２のフィルタ処理部と、前記第４の音声データを記録する第２の記録部と、を有し、前記第２の通信部はさらに、第２の開始位置と前記解析範囲とに関する情報を第１の録音装置から受信し、前記第２の通信部はさらに、前記第２の結果情報を前記複数の解析範囲毎に前記第１の録音装置に送信し、前記第２の通信部はさらに、前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第１の録音装置から受信し、前記第１の録音装置は、第１の音声から第１の音声データを生成し、第１の音声データに対する第１の周波数解析を前記複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成し、第１の開始位置と前記第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の結果情報と前記第２の結果情報とに基づいて、前記雑音帯域を前記複数の解析範囲毎に検出し、前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを前記複数の解析範囲毎に生成し、前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、前記第２の周波数解析が開始される前記第２の音声データの位置である第２の録音装置である。

また、本発明は、第１の録音装置と第２の録音装置とを有する録音システムであって、前記第１の録音装置は、第１の音声が入力され、入力された前記第１の音声から第１の音声データを生成する第１の音声入力部と、第１の通信部と、前記第１の音声データに対する第１の周波数解析を複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成する第１の周波数解析部と、第１の開始位置と第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、第２の周波数解析が開始される第２の音声データの位置である条件決定部と、前記第１の結果情報と第２の結果情報とに基づいて、雑音帯域を前記複数の解析範囲毎に検出する雑音帯域検出部と、前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを生成する第１のフィルタ処理部と、前記第３の音声データを記録する第１の記録部と、を有し、前記第１の通信部は、前記第２の開始位置と前記解析範囲とに関する情報を前記第２の録音装置に送信し、前記第１の通信部はさらに、前記第２の結果情報を前記複数の解析範囲毎に前記第２の録音装置から受信し、前記第１の通信部はさらに、前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第２の録音装置に送信し、前記第２の録音装置は、第２の音声が入力され、入力された前記第２の音声から前記第２の音声データを生成する第２の音声入力部と、第２の通信部と、前記第２の音声データに対する前記第２の周波数解析を複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す第２の結果情報を前記複数の解析範囲毎に生成する第２の周波数解析部と、前記雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する第２のフィルタ処理部と、前記第４の音声データを記録する第２の記録部と、を有し、前記第２の通信部は、前記第２の開始位置と前記解析範囲とに関する情報を前記第１の録音装置から受信し、前記第２の通信部はさらに、前記第２の結果情報を前記複数の解析範囲毎に前記第１の録音装置に送信し、前記第２の通信部はさらに、前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第１の録音装置から受信する録音システムである。

また、本発明は、第１の録音装置が行う第１の録音方法であって、第１の音声が入力され、入力された前記第１の音声から第１の音声データを生成する第１の音声入力ステップと、前記第１の音声データに対する第１の周波数解析を複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成する第１の周波数解析ステップと、第１の開始位置と第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、第２の周波数解析が開始される第２の音声データの位置である条件決定ステップと、前記第１の結果情報と第２の結果情報とに基づいて、雑音帯域を前記複数の解析範囲毎に検出する雑音帯域検出ステップと、前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを生成する第１のフィルタ処理ステップと、前記第３の音声データを記録する第１の記録ステップと、前記第２の開始位置と前記解析範囲とに関する情報を第２の録音装置に送信する第１の送信ステップと、前記第２の結果情報を前記複数の解析範囲毎に前記第２の録音装置から受信する受信ステップと、前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第２の録音装置に送信する第２の送信ステップと、を有し、前記第２の録音装置は、第２の音声から前記第２の音声データを生成し、前記第２の音声データに対する前記第２の周波数解析を前記複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す前記第２の結果情報を前記複数の解析範囲毎に生成し、前記雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する第１の録音方法である。

また、本発明は、第２の録音装置が行う第２の録音方法であって、第２の音声が入力され、入力された前記第２の音声から第２の音声データを生成する第２の音声入力ステップと、前記第２の音声データに対する第２の周波数解析を複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す第２の結果情報を前記複数の解析範囲毎に生成する第２の周波数解析ステップと、雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する第２のフィルタ処理ステップと、前記第４の音声データを記録する第２の記録ステップと、第２の開始位置と前記解析範囲とに関する情報を第１の録音装置から受信する第１の受信ステップと、前記第２の結果情報を前記複数の解析範囲毎に前記第１の録音装置に送信する送信ステップと、前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第１の録音装置から受信する第２の受信ステップと、を有し、前記第１の録音装置は、第１の音声から第１の音声データを生成し、第１の音声データに対する第１の周波数解析を前記複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成し、第１の開始位置と前記第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の結果情報と前記第２の結果情報とに基づいて、前記雑音帯域を前記複数の解析範囲毎に検出し、前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを前記複数の解析範囲毎に生成し、前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、前記第２の周波数解析が開始される前記第２の音声データの位置である第２の録音方法である。

また、本発明は、第１の録音装置のコンピュータに、第１の音声が入力され、入力された前記第１の音声から第１の音声データを生成する第１の音声入力ステップと、前記第１の音声データに対する第１の周波数解析を複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成する第１の周波数解析ステップと、第１の開始位置と第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、第２の周波数解析が開始される第２の音声データの位置である条件決定ステップと、前記第１の結果情報と第２の結果情報とに基づいて、雑音帯域を前記複数の解析範囲毎に検出する雑音帯域検出ステップと、前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを生成する第１のフィルタ処理ステップと、前記第３の音声データを記録する第１の記録ステップと、前記第２の開始位置と前記解析範囲とに関する情報を第２の録音装置に送信する第１の送信ステップと、前記第２の結果情報を前記複数の解析範囲毎に前記第２の録音装置から受信する受信ステップと、前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第２の録音装置に送信する第２の送信ステップと、を実行させるための第１の録音プログラムであって、前記第２の録音装置は、第２の音声から前記第２の音声データを生成し、前記第２の音声データに対する前記第２の周波数解析を前記複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す前記第２の結果情報を前記複数の解析範囲毎に生成し、前記雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する第１の録音プログラムである。

また、本発明は、第２の録音装置のコンピュータに、第２の音声が入力され、入力された前記第２の音声から第２の音声データを生成する第２の音声入力ステップと、前記第２の音声データに対する第２の周波数解析を複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す第２の結果情報を前記複数の解析範囲毎に生成する第２の周波数解析ステップと、雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する第２のフィルタ処理ステップと、前記第４の音声データを記録する第２の記録ステップと、第２の開始位置と前記解析範囲とに関する情報を第１の録音装置から受信する第１の受信ステップと、前記第２の結果情報を前記複数の解析範囲毎に前記第１の録音装置に送信する送信ステップと、前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第１の録音装置から受信する第２の受信ステップと、を実行させるための第２の録音プログラムであって、前記第１の録音装置は、第１の音声から第１の音声データを生成し、第１の音声データに対する第１の周波数解析を前記複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成し、第１の開始位置と前記第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の結果情報と前記第２の結果情報とに基づいて、前記雑音帯域を前記複数の解析範囲毎に検出し、前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを前記複数の解析範囲毎に生成し、前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、前記第２の周波数解析が開始される前記第２の音声データの位置である第２の録音プログラムである。

本発明によれば、複数の独立した録音装置が存在するシステムにおいて、雑音が低減された２つの音声データを得ることができる。

本発明の実施形態の録音システムの構成を示す概略図である。本発明の実施形態の第１の録音装置の構成を示すブロック図である。本発明の実施形態の第２の録音装置の構成を示すブロック図である。本発明の実施形態の第１の録音装置が行う全体処理の手順を示すフローチャートである。本発明の実施形態の第１の録音装置が行う全体処理の手順を示すフローチャートである。本発明の実施形態の第２の録音装置が行う全体処理の手順を示すフローチャートである。本発明の実施形態の第２の録音装置が行う全体処理の手順を示すフローチャートである。本発明の実施形態の第１の録音装置が行う第１の音声品質決定処理の手順を示すフローチャートである。本発明の実施形態の第１の録音装置が行う第１の音声品質決定処理の手順を示すフローチャートである。本発明の実施形態の第２の録音装置が行う第２の音声品質決定処理の手順を示すフローチャートである。本発明の実施形態の第２の録音装置が行う第２の音声品質決定処理の手順を示すフローチャートである。本発明の実施形態の第１の録音装置が行う第１の録音処理の手順を示すフローチャートである。本発明の実施形態の第２の録音装置が行う第２の録音処理の手順を示すフローチャートである。本発明の実施形態の第１の録音装置が行う解析条件決定処理の手順を示すフローチャートである。本発明の実施形態の第１の録音装置が行う位相合わせ処理の手順を示すフローチャートである。本発明の実施形態の第１の録音装置と第２の録音装置とが行う解析データ量調整処理の手順を示すフローチャートである。本発明の実施形態におけるパワースペクトルを示すグラフである。

（システム構成）
以下、図面を参照し、本発明の実施形態を説明する。図１は、本発明の実施形態の録音システム１０の構成を示している。図１に示すように、録音システム１０は、第１の録音装置１０１と第２の録音装置１０２とを有する。第１の録音装置１０１と第２の録音装置１０２とは、会議および講演会などにおける話者の声、音楽イベントおよび楽器演奏などで演者が演奏する音楽などの様々な音声を記録する。また、第１の録音装置１０１と第２の録音装置１０２とは、他の通信端末との間でデータ通信を行う。

第１の録音装置１０１と第２の録音装置１０２との周辺には、第１の音源ＳＳ１と第２の音源ＳＳ２，ＳＳ３，ＳＳ４とが存在している。第１の音源ＳＳ１は、録音の対象である音声を発生する。第２の音源ＳＳ２，ＳＳ３，ＳＳ４は、録音の対象である音声以外の雑音を発生する。

第１の録音装置１０１は、第１の音源ＳＳ１の方向にマイクを向けている。また、第１の録音装置１０１は、録音の対象である音声を発生する音源（目的音源）の方向からの音声を主に集音可能な指向性機能を有する。第１の録音装置１０１はマイクの指向性／無指向性を切り替えることができる。第１の録音装置１０１の性能は、高い指向性を得ることができるマイク性能に特化していない。つまり、第１の録音装置１０１が有する指向性機能が有効である場合でも、第１の録音装置１０１は目的音源以外の音源からの音声を完全には遮断できない。第１の録音装置１０１の指向性機能は、主に範囲Ｒ１に存在する目的音源である第１の音源ＳＳ１からの音声を集音することができる。また、第１の録音装置１０１の指向性機能は、目的音源ではない第２の音源ＳＳ２，ＳＳ３，ＳＳ４からの音声を集音する。第２の音源ＳＳ２，ＳＳ３，ＳＳ４からの音声の音量は、目的音源からの音声の音量と比較して小さい。

第２の録音装置１０２は第１の録音装置１０１の近傍に配置されている。第１の録音装置１０１と第２の録音装置１０２との距離は１ｍ以内であることが望ましい。第２の録音装置１０２は無指向性マイクを有する。このため、第２の録音装置１０２は、範囲Ｒ２に存在する第１の音源ＳＳ１と第２の音源ＳＳ２，ＳＳ３，ＳＳ４とからの音声を区別なく集音する。

第１の録音装置１０１と第２の録音装置１０２とは、互いに通信可能な状態にある。第１の録音装置１０１と第２の録音装置１０２とは、各々が集音した音声に音声信号解析を行った結果を通信相手に通知する。これによって、第１の録音装置１０１と第２の録音装置１０２とは、互いに協調しながら目的音源からの音声とそれ以外の音源からの音声とを判別し、雑音を抑制した良好な音声データを得る。良好な音声データを得る詳細な方法については以下で説明する。

本発明の実施形態では、第１の録音装置１０１と第２の録音装置１０２とによって、異なる音声品質の２つの音声データが得られる。例えば、第１の録音装置１０１では、高品質の音声が記録された音声データが得られ、第２の録音装置１０２では、低品質の音声が記録された音声データが得られる。例えば、第２の録音装置１０２で得られた音声データは、インターネット上のＷｅｂサイトへの掲示等に使用できる。

（第１の録音装置１０１の構成）
図２は第１の録音装置１０１の構成を示している。図２に示すように、第１の録音装置１０１は、第１のマイク部２０１と、第１のＡ／Ｄ変換部２０２と、第１のフィルタ処理部２０３と、第１の周波数解析部２０４と、第１の表示部２０５と、第１の制御部２０６と、第１の音声品質決定部２０７と、第１のメモリ２０８と、第１のクロック発生部２０９と、第１の記録部２１０と、第１の通信部２１１と、第１の入力部２１２と、雑音帯域検出部２１３と、時刻差分算出部２１４と、条件決定部２１５とを有する。

第１のマイク部２０１は、指向性／無指向性機能を実現するために複数のコンデンサマイクによって構成されたマイクアレイを有する。マイクアレイの各コンデンサマイクに対して主マイクまたは副マイクの役割が決められている。各コンデンサマイクは互いに異なる方向の音声を集音するように配置されている。各コンデンサマイクは、集音された各音声をアナログ信号に変換する。第１のマイク部２０１は、副マイクで得られたアナログ信号の位相を反転し、そのアナログ信号を、主マイクで得られたアナログ信号に重ね合わせることによって、特定方向からの音声以外の影響を減少させた第１のアナログ信号を得る。以下の説明では、第１のマイク部２０１の指向性機能が有効である。前述したように、第１のマイク部２０１は、第１の音源ＳＳ１以外の音源からの音声を完全には遮断できない。

第１のＡ／Ｄ変換部２０２は、第１のマイク部２０１で得られる第１のアナログ信号をサンプリング周波数と量子化ビット数とに基づいてデジタルデータすなわち第１の音声データに変換する。サンプリング条件の１つであるサンプリング周波数は、４８ｋＨｚ／９６ｋＨｚ／１９２ｋＨｚなど、予め準備されているパラメータ値である。サンプリング条件の１つである量子化ビット数は、１６ｂｉｔ／３２ｂｉｔなど、予め準備されているパラメータ値である。

第１のマイク部２０１と第１のＡ／Ｄ変換部２０２とは、第１の音声入力部２１６を構成する。第１の音声が第１の音声入力部２１６に入力される。第１の音声入力部２１６は、入力された第１の音声から第１の音声データを生成する。

時刻差分算出部２１４は、第１の音声データと第２の音声データとを比較する比較処理により第１の音声と第２の音声との位相差を検出する。第２の音声データは、第２の録音装置１０２によって第２の音声から生成される。時刻差分算出部２１４は、検出された位相差に基づいて第１の録音装置１０１と第２の録音装置１０２とのシステム時刻の差分（時刻差分）を算出する。

第１の周波数解析部２０４は、第１の音声データに対する第１の周波数解析を複数の解析範囲毎に行い、第１の周波数解析の結果を示す第１の結果情報を複数の解析範囲毎に生成する。具体的には、第１の周波数解析部２０４は、第１の音声データにフーリエ変換を行うことにより、第１の音声データに含まれる音声の周波数特性を解析する。第１の周波数解析部２０４は、第１の音声データに含まれる音声の周波数情報と、周波数毎の振幅情報および位相情報とを含む第１の結果情報を得る。解析範囲は、所定の期間に得られる第１の音声データの範囲である。第１の周波数解析部２０４は、複数の解析範囲のそれぞれの第１の音声データに対して第１の周波数解析を行う。

条件決定部２１５は、第１の開始位置と第２の開始位置とを決定する。例えば、条件決定部２１５は、第１の録音装置１０１と第２の録音装置１０２とのシステム時刻の差に基づいて第１の開始位置と第２の開始位置とを決定する。また、条件決定部２１５は、第１の音声データにおける第１の音声品質を考慮して解析範囲を決定する。第１の開始位置は、第１の周波数解析が開始される第１の音声データの位置である。第２の開始位置は、第２の周波数解析が開始される第２の音声データの位置である。第２の周波数解析は、第２の録音装置１０２によって第２の音声データに対して行われる。第２の周波数解析は、第１の周波数解析と同様の処理である。解析範囲が決定されるときに考慮される第１の音声品質は、第１の音声入力部２１６が第１の音声データを生成するときの条件、すなわち第１のＡ／Ｄ変換部２０２がアナログ信号をデジタルデータに変換するときのサンプリング周波数である。

雑音帯域検出部２１３は、第１の結果情報と第２の結果情報とに基づいて雑音帯域を複数の解析範囲毎に検出する。第１の結果情報は、第１の周波数解析の結果を示す。第２の結果情報は、第２の周波数解析の結果を示す。具体的には、雑音帯域検出部２１３は、第１の結果情報と第２の結果情報とに基づいて、第１の音声データと第２の音声データとに含まれる、目的音源以外の音源からの音声に対応する部分を推定する。雑音帯域検出部２１３は、推定した部分を表す周波数情報と、周波数毎の振幅情報および位相情報とを含む雑音帯域情報を生成する。

第１のフィルタ処理部２０３は、雑音帯域のデータをフィルタリングする第１のフィルタを複数の解析範囲毎に生成する。第１のフィルタ処理部２０３は、第１のフィルタによる第１のフィルタ処理を第１の音声データに複数の解析範囲毎に施す。これによって、第１のフィルタ処理部２０３は、第３の音声データを複数の解析範囲毎に生成する。つまり、第１のフィルタ処理部２０３は、複数の解析範囲のそれぞれの第１の音声データから第３の音声データを生成する。

第１の音声品質決定部２０７は、第１の音声データにおける第１の音声品質に基づいて、第２の音声データにおける第２の音声品質を決定する。第２の音声品質は第１の音声品質と異なる。アナログ信号がデジタルデータに変換されるとき、サンプリング周波数と量子化ビット数との値に応じてデジタルデータの品質が変わる。つまり、第１の音声品質と第２の音声品質とは、サンプリング周波数と量子化ビット数とを含むサンプリング条件である。第２の音声品質は、第１の音声品質よりも低音質であってもよい。

第１のメモリ２０８は、録音実行時にシステム内部の動作状態を管理するための時刻差分情報などの情報と、第１のＡ／Ｄ変換部２０２によって生成された第１の音声データとを一時記憶する。第１のクロック発生部２０９は、第１の録音装置１０１の内部で使用される基準時刻すなわちシステム時刻をカウントするシステムクロックを発生する。第１の記録部２１０は、第１のフィルタ処理部２０３によって生成された第３の音声データを記録する。第１の記録部２１０は、第３の音声データが記録される記録媒体を有する。あるいは、第３の音声データが記録される記録媒体が第１の記録部２１０に接続される。

第１の通信部２１１は、他の録音装置である第２の録音装置１０２と有線ネットワークまたは無線ネットワークを構成する。例えば、有線ネットワークはＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）またはイーサネット（登録商標）である。例えば、無線ネットワークは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）である。第１の通信部２１１は、第２の音声データ、様々な情報、要求メッセージおよびその応答メッセージなどの通信を行う。具体的には、第１の通信部２１１は、第２の音声から生成された第２の音声データを第２の録音装置１０２から受信する。第１の通信部２１１はさらに、第２の音声品質に関する音声品質情報を第２の録音装置１０２に送信する。第１の通信部２１１はさらに、第２の開始位置と解析範囲とに関する情報を第２の録音装置１０２に送信する。第１の通信部２１１はさらに、第２の結果情報を複数の解析範囲毎に第２の録音装置１０２から受信する。第１の通信部２１１はさらに、雑音帯域に関する情報を複数の解析範囲毎に第２の録音装置１０２に送信する。

第１の表示部２０５は、第１の録音装置１０１に設定可能な第１の音声品質の情報の一覧を表示する。第１の入力部２１２は、ユーザからの入力を受け付けるユーザインターフェイスである。第１の入力部２１２は、第１の音声品質の情報の一覧が表示された後、ユーザからの第１の音声品質の情報の選択を受け付ける。

第１の制御部２０６は、第１の録音装置１０１の各部を制御する。例えば、第１の制御部２０６は、第１の制御部２０６の動作を規定する命令を含むプログラムを読み込み、読み込まれたプログラムを実行する。このプログラムは、フラッシュメモリのような「コンピュータ読み取り可能な記録媒体」により提供されてもよい。また、上述したプログラムは、このプログラムが保存された記憶装置等を有するコンピュータから、伝送媒体を介して、あるいは伝送媒体中の伝送波により第１の録音装置１０１に伝送されてもよい。プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように、情報を伝送する機能を有する媒体である。また、上述したプログラムは、前述した機能の一部を実現してもよい。さらに、上述したプログラムは、前述した機能をコンピュータに既に記録されているプログラムとの組合せで実現できる、いわゆる差分ファイル（差分プログラム）であってもよい。

（第２の録音装置１０２の構成）
図３は第２の録音装置１０２の構成を示している。図３に示すように、第２の録音装置１０２は、第２のマイク部３０１と、第２のＡ／Ｄ変換部３０２と、第２のフィルタ処理部３０３と、第２の周波数解析部３０４と、第２の表示部３０５と、第２の制御部３０６と、第２の音声品質決定部３０７と、第２のメモリ３０８と、第２のクロック発生部３０９と、第２の記録部３１０と、第２の通信部３１１と、第２の入力部３１２とを有する。

第２のマイク部３０１は、周辺に存在する音源からの音声を無指向に集音し、第２のアナログ信号を得る。

第２のＡ／Ｄ変換部３０２は、第２のマイク部３０１で得られる第２のアナログ信号をサンプリング周波数と量子化ビット数とに基づいてデジタルデータすなわち第２の音声データに変換する。サンプリング条件の１つであるサンプリング周波数は、４８ｋＨｚ／９６ｋＨｚ／１９２ｋＨｚなど、予め準備されているパラメータ値である。サンプリング条件の１つである量子化ビット数は、１６ｂｉｔ／３２ｂｉｔなど、予め準備されているパラメータ値である。

第２のマイク部３０１と第２のＡ／Ｄ変換部３０２とは、第２の音声入力部３１３を構成する。第２の音声が第２の音声入力部３１３に入力される。第２の音声入力部３１３は、入力された第２の音声から第２の音声データを生成する。第２の音声入力部３１３の音声入力の第２の指向性は第１の音声入力部２１６の第１の指向性よりも広い。この例では、第２の音声入力部３１３の音声入力の第２の指向性は無指向性である。

第２の周波数解析部３０４は、第２の音声データに対する第２の周波数解析を複数の解析範囲毎に行い、第２の周波数解析の結果を示す第２の結果情報を複数の解析範囲毎に生成する。具体的には、第２の周波数解析部３０４は、第２の音声データにフーリエ変換を行うことにより、第２の音声データに含まれる音声の周波数特性を解析する。第２の周波数解析部３０４は、第２の音声データに含まれる音声の周波数情報と、周波数毎の振幅情報および位相情報とを含む第２の結果情報を得る。解析範囲は、所定の期間に得られる第２の音声データの範囲である。第２の周波数解析部３０４は、複数の解析範囲のそれぞれの第２の音声データに対して第２の周波数解析を行う。

第２のフィルタ処理部３０３は、雑音帯域のデータをフィルタリングする第２のフィルタを複数の解析範囲毎に生成する。第２のフィルタ処理部３０３は、第２のフィルタによる第２のフィルタ処理を第２の音声データに複数の解析範囲毎に施す。これによって、第２のフィルタ処理部３０３は、第４の音声データを複数の解析範囲毎に生成する。つまり、第２のフィルタ処理部３０３は、複数の解析範囲のそれぞれの第２の音声データから第４の音声データを生成する。

第２の音声品質決定部３０７は、第１の録音装置１０１から受信される音声品質情報に基づいて第２の音声データにおける第２の音声品質を決定する。アナログ信号がデジタルデータに変換されるとき、サンプリング周波数と量子化ビット数との値に応じてデジタルデータの品質が変わる。第２の音声品質決定部３０７は、このときのサンプリング条件を決定する。音声品質情報は、第１の録音装置１０１から受信される。

第２のメモリ３０８は、録音実行時にシステム内部の動作状態を管理するための情報と、第２のＡ／Ｄ変換部３０２によって生成された第２の音声データとを一時記憶する。第２のクロック発生部３０９は、第２の録音装置１０２の内部で使用される基準時刻すなわちシステム時刻をカウントするシステムクロックを発生する。第２の記録部３１０は、第２のフィルタ処理部３０３によって生成された第４の音声データを記録する。第２の記録部３１０は、第４の音声データが記録される記録媒体を有する。あるいは、第４の音声データが記録される記録媒体が第２の記録部３１０に接続される。

第２の通信部３１１は、他の録音装置である第１の録音装置１０１と有線ネットワークまたは無線ネットワークを構成する。具体的には、第２の通信部３１１は、第２の音声データを第１の録音装置１０１に送信する。第２の通信部３１１はさらに、音声品質情報を第１の録音装置１０１から受信する。第２の通信部３１１はさらに、第２の開始位置と解析範囲とに関する情報を複数の解析範囲毎に第１の録音装置１０１から受信する。第２の通信部３１１はさらに、第２の結果情報を複数の解析範囲毎に第１の録音装置１０１に送信する。第２の通信部３１１はさらに、雑音帯域に関する情報を複数の解析範囲毎に第１の録音装置１０１から受信する。

第２の表示部３０５は、第２の録音装置１０２に設定可能な第２の音声品質の情報の一覧を表示する。第２の入力部３１２は、ユーザからの入力を受け付けるユーザインターフェイスである。第２の入力部３１２は、第２の音声品質の情報の一覧が表示された後、ユーザからの第２の音声品質の情報の選択を受け付ける。

第２の制御部３０６は、第２の録音装置１０２の各部を制御する。例えば、第２の制御部３０６は、第２の制御部３０６の動作を規定する命令を含むプログラムを読み込み、読み込まれたプログラムを実行する。このプログラムの実現形態は、図１に示す第１の制御部２０６の機能を実現するプログラムの実現形態と同様である。

（全体処理）
図４と図５とは、第１の録音装置１０１が行う全体処理の手順を示している。図６と図７とは、第２の録音装置１０２が行う全体処理の手順を示している。以下では第１の例と第２の例とを説明する。図４と図６とが第１の例に対応する。図５と図７とが第２の例に対応する。

（第１の例）
図４は、第１の例における第１の録音装置１０１が行う全体処理の手順を示している。第１の通信部２１１は第２の録音装置１０２との間でネットワーク接続を行う（ステップＳ４０１）。これによって、第１の録音装置１０１と第２の録音装置１０２とは、互いにデータ通信可能な状態になる。例えば、無線ＬＡＮを介して無線ネットワーク接続が行われる場合、第１の録音装置１０１には第２の録音装置１０２と共通のネットワーク情報が設定されている。第１の通信部２１１は、そのネットワーク情報に基づいて無線ネットワーク接続を行う。

第１の録音装置１０１がネットワークに接続され、第２の録音装置１０２とデータ通信可能な状態になった後、第１の制御部２０６は、音声品質情報要求を生成し、生成された音声品質情報要求を第１の通信部２１１に出力する。第１の通信部２１１は音声品質情報要求を第２の録音装置１０２に送信する（ステップＳ４０２）。音声品質情報要求は、音声品質情報の要求を示すメッセージである。音声品質情報は、各録音装置がサポートしているサンプリング条件を示す。例えば、音声品質情報は、サンプリング周波数と量子化ビット数との組み合わせである。音声品質情報は、４８ｋＨｚ／１６ｂｉｔと、９６ｋＨｚ／１６ｂｉｔと、１９２ｋＨｚ／３２ｂｉｔとのいずれか１つを示す情報である。例えば、４８ｋＨｚ／１６ｂｉｔは、サンプリング周波数が４８ｋＨｚに設定され、量子化ビット数が１６ｂｉｔに設定されてサンプリングが行われることを示している。９６ｋＨｚ／１６ｂｉｔと、１９２ｋＨｚ／３２ｂｉｔとの意味は上記と同様である。

第１の録音装置１０１は、音声品質情報要求が送信された後、第２の録音装置１０２からの応答を待つ。第１の通信部２１１は、第２の録音装置１０２がサポートしている全ての音声品質に関する複数の音声品質情報を受信する（ステップＳ４０３）。受信された複数の音声品質情報は、第１の制御部２０６を介して第１の音声品質決定部２０７に出力される。

第１の録音装置１０１は、第１の録音装置１０１がサポートしている複数のサンプリング条件を示す複数の音声品質情報と、第２の録音装置１０２から受信された複数の音声品質情報とに基づいて、第１の音声品質決定処理を行う（ステップＳ４０４）。第１の音声品質決定処理では、第１の録音装置１０１と第２の録音装置１０２とが録音を行うときの第１の音声品質と第２の音声品質とが決定される。ステップＳ４０４では、第１の録音装置１０１は、第２の録音装置１０２が録音を行うときの第２の音声品質が、第１の録音装置１０１が録音を行うときの第１の音声品質と異なるように、第１の音声品質と第２の音声品質とを決定する。

図８と図９とを用いて第１の音声品質決定処理について説明する。図８は、録音処理が開始される前にユーザが第１の録音装置１０１を用いて第１の音声品質と第２の音声品質とを選択する場合の第１の音声品質決定処理の手順を示している。

第１の制御部２０６は、第１の録音装置１０１がサポートしている複数の第１の音声品質の一覧を第１の表示部２０５に表示させる（ステップＳ８０１）。例えば、第１の録音装置１０１がサポートしている複数の第１の音声品質に対応する複数の音声品質情報は、第１の録音装置１０１の不揮発性メモリに保存されている。ステップＳ８０１では、第１の制御部２０６は、複数の音声品質情報を不揮発性メモリから読み出し、読み出された複数の音声品質情報を第１の表示部２０５に出力する。第１の表示部２０５は、複数の音声品質情報に基づいて複数の第１の音声品質を表示する。４８ｋＨｚ／１６ｂｉｔ、９６ｋＨｚ／１６ｂｉｔ、１９２ｋＨｚ／３２ｂｉｔなどの複数の第１の音声品質をユーザが理解できるように、リスト上に並べられた文字列が表示される。

第１の表示部２０５に表示された複数の第１の音声品質の一覧からユーザが所望の第１の音声品質を選択する。選択された第１の音声品質を示す情報が第１の入力部２１２に入力される。第１の音声品質決定部２０７は、第１の制御部２０６を介して、第１の入力部２１２に入力された情報を取得する。第１の音声品質決定部２０７は、取得された情報が示す音声品質を第１の音声品質に決定する（ステップＳ８０２）。

第１の音声品質が決定された後、第１の制御部２０６は、第２の録音装置１０２がサポートしている複数の第２の音声品質の一覧を第１の表示部２０５に表示させる（ステップＳ８０３）。ステップＳ８０３では、第１の制御部２０６は、ステップＳ４０３で受信された複数の音声品質情報を第１の表示部２０５に出力する。第１の表示部２０５は、複数の音声品質情報に基づいて複数の第２の音声品質を表示する。４８ｋＨｚ／１６ｂｉｔ、９６ｋＨｚ／１６ｂｉｔ、１９２ｋＨｚ／３２ｂｉｔなどの複数の第２の音声品質をユーザが理解できるように、リスト上に並べられた文字列が表示される。

第１の表示部２０５に表示された複数の第２の音声品質の一覧からユーザが所望の第２の音声品質を選択する。選択された第２の音声品質を示す情報が第１の入力部２１２に入力される。第１の音声品質決定部２０７は、第１の制御部２０６を介して、第１の入力部２１２に入力された情報を取得する。第１の音声品質決定部２０７は、取得された情報が示す音声品質を第２の音声品質に決定する（ステップＳ８０４）。

第２の録音装置１０２が録音を行うときの第２の音声品質は、第１の録音装置１０１に設定された第１の音声品質と異なる。第１の音声品質と異なる第２の音声品質が選択されるために、第１の録音装置１０１は以下のように構成されてもよい。

ステップＳ８０３では、第１の表示部２０５は、第２の録音装置１０２がサポートしている第２の音声品質のうち第１の録音装置１０１に対して選択された第１の音声品質と同じ第２の音声品質を表示しなくてもよい。あるいは、ステップＳ８０３では、第１の表示部２０５は、第２の録音装置１０２がサポートしている第２の音声品質のうち、第１の録音装置１０１に対して選択された第１の音声品質よりも低音質の第２の音声品質のみを表示してもよい。例えば、第１の録音装置１０１に対する第１の音声品質として１９２ｋＨｚ／３２ｂｉｔが選択された場合、第２の音声品質として９６ｋＨｚ／１６ｂｉｔと４８ｋＨｚ／１６ｂｉｔとのみが表示されてもよい。

第１の音声品質決定部２０７は第２の音声品質を選択し、選択された第２の音声品質はステップＳ８０１で第１の表示部２０５に表示されてもよい。第１の音声品質よりも低音質の第２の音声品質のみが表示される場合、ステップＳ８０４では、第１の音声品質決定部２０７は、第１の音声品質よりも低音質の第２の音声品質を決定することが可能である。また、特に条件は設けられず、ステップＳ８０３では、第１の表示部２０５は、第２の録音装置１０２がサポートしている全ての第２の音声品質を表示してもよい。

以上の処理により、第１の録音装置１０１は、ユーザが希望する第１の音声品質と第２の音声品質とを決定することができる。

図８に示す処理ではユーザによって第１の音声品質と第２の音声品質とが選択される。別の方法として、図９に示すように、第１の録音装置１０１に設定される第１の音声品質と、第２の録音装置１０２に設定される第２の音声品質とを決定する方法が予め決められており、ユーザがそれらを選択することなく第１の録音装置１０１がそれらを決定してもよい。

図９に示す第１の音声品質決定処理について説明する。第１の音声品質決定部２０７は、第１の録音装置１０１がサポートしている複数の第１の音声品質から条件に合う第１の音声品質を選択する（ステップＳ９０１）。例えば、第１の録音装置１０１がサポートしている複数の第１の音声品質に対応する複数の音声品質情報は、第１の録音装置１０１の不揮発性メモリに保存されている。ステップＳ９０１では、第１の音声品質決定部２０７は、第１の制御部２０６を介して、複数の音声品質情報を不揮発性メモリから読み出し、読み出された複数の音声品質情報が示す複数の第１の音声品質から条件に合う第１の音声品質を選択する。これによって、第１の音声品質決定部２０７は、第１の音声品質を決定する。

第１の音声品質が決定された後、第１の音声品質決定部２０７は、第２の録音装置１０２がサポートしている複数の第２の音声品質から条件に合う第２の音声品質を選択する（ステップＳ９０２）。例えば、第２の録音装置１０２がサポートしている複数の第２の音声品質に対応する複数の音声品質情報は、第１の録音装置１０１の不揮発性メモリに保存されている。ステップＳ９０２では、第１の音声品質決定部２０７は、第１の制御部２０６を介して、複数の音声品質情報を不揮発性メモリから読み出し、読み出された複数の音声品質情報が示す複数の第２の音声品質から条件に合う第２の音声品質を選択する。これによって、第１の音声品質決定部２０７は、第２の音声品質を決定する。

上記の処理では、第１の音声品質に応じて第２の音声品質が選択される。例えば、ステップＳ９０１では、第１の音声品質決定部２０７は、選択可能な第１の音声品質のうち最高品質を選択する。また、ステップＳ９０２では、第１の音声品質決定部２０７は、選択可能な第２の音声品質のうちステップＳ９０１で選択された第１の音声品質よりも低音質の第２の音声品質を選択する。例えば、サンプリング周波数が第１の音声品質におけるサンプリング周波数の半分であり、量子化ビット数が最小である第２の音声品質が選択される。あるいは、ステップＳ９０２では、第１の音声品質決定部２０７は、選択可能な第２の音声品質のうちステップＳ９０１で選択された第１の音声品質と同一の第２の音声品質を選択してもよい。選択の条件は、工場出荷時に第１の録音装置１０１に予め記録されていてもよい。あるいは、第１の録音装置１０１に初期設定メニューが用意され、ユーザが任意のタイミングで初期設定メニューから第１の音声品質と第２の音声品質との設定を変更してもよい。いずれにせよ、録音処理が開始される一連の処理において、上記のように既に設定されている条件に従って第１の音声品質と第２の音声品質とが決定される。

再び、図４について説明する。第１の音声品質決定処理が行われ後、第１の音声品質決定部２０７は、第１の音声品質決定処理によって決定された第１の音声品質すなわちサンプリング条件を第１のＡ／Ｄ変換部２０２に設定する（ステップＳ４０５）。さらに、第１の音声品質決定部２０７は、第１の音声品質決定処理によって決定された第２の音声品質を示す音声品質情報を生成する。第１の音声品質決定部２０７は、第１の制御部２０６を介して、音声品質情報を第１の通信部２１１に出力する。第１の通信部２１１は、音声品質情報を第２の録音装置１０２に送信する（ステップＳ４０６）。

音声品質情報が送信された後、第１の制御部２０６は、ユーザの指示あるいは第２の録音装置１０２からの通知により録音開始を判断する（ステップＳ４０７）。録音開始に関するユーザの指示は、第１の入力部２１２に入力される。ステップＳ４０７では、第１の制御部２０６は、第１の入力部２１２に入力された指示または第１の通信部２１１によって受信された情報に基づいて録音開始を判断する。

録音開始の指示が第１の入力部２１２に入力された場合、または録音開始を指示する録音開始通知が第１の通信部２１１によって受信された場合、第１の制御部２０６は録音開始が指示されたと判断する。録音開始の指示が第１の入力部２１２に入力されず、かつ録音開始を指示する録音開始通知が第１の通信部２１１によって受信されていない場合、第１の制御部２０６は録音開始が指示されていないと判断する。録音開始が指示されていない場合、第１の制御部２０６は録音開始の判断を繰り返す。

録音開始が指示された場合、第１の制御部２０６は録音開始通知を生成し、生成された録音開始通知を第１の通信部２１１に出力する。第１の通信部２１１は、録音開始通知を第２の録音装置１０２に送信する（ステップＳ４０８）。第１の録音装置１０１が録音開始通知を送信した後に第２の録音装置１０２から録音開始通知が受信された場合、第１の録音装置１０１は、受信された録音開始通知を無視してもよい。

録音開始通知が送信された後、第１の録音装置１０１は第１の録音処理を行う（ステップＳ４０９）。第１の録音処理の詳細については後述する。第１の録音処理が行われた後、第１の制御部２０６は、ユーザの指示あるいは第２の録音装置１０２からの通知により録音終了を判断する（ステップＳ４１０）。録音終了に関するユーザの指示は、第１の入力部２１２に入力される。ステップＳ４１０では、第１の制御部２０６は、第１の入力部２１２に入力された指示または第１の通信部２１１によって受信された情報に基づいて録音終了を判断する。

録音終了の指示が第１の入力部２１２に入力された場合、または録音終了を指示する録音終了通知が第１の通信部２１１によって受信された場合、第１の制御部２０６は録音終了が指示されたと判断する。録音終了の指示が第１の入力部２１２に入力されず、かつ録音終了を指示する録音終了通知が第１の通信部２１１によって受信されていない場合、第１の制御部２０６は録音終了が指示されていないと判断する。録音終了が指示されていない場合、第１の制御部２０６は第１の録音処理を繰り返す。

録音終了が指示されている場合、第１の制御部２０６は、録音終了通知を生成し、生成された録音終了通知を第１の通信部２１１に出力する。第１の通信部２１１は、録音終了通知を第２の録音装置１０２に送信する（ステップＳ４１１）。第１の録音装置１０１が録音終了通知を送信した後に第２の録音装置１０２から録音終了通知が受信された場合、第１の録音装置１０１は、受信された録音終了通知を無視してもよい。録音終了通知が送信された後、第１の録音装置１０１が行う全体処理が終了する。

図６は、第１の例における第２の録音装置１０２が行う全体処理の手順を示している。図６に示す処理は、図４に示す処理に対応する。

第２の通信部３１１は第１の録音装置１０１との間でネットワーク接続を行う（ステップＳ６０１）。これによって、第１の録音装置１０１と第２の録音装置１０２とは、互いにデータ通信可能な状態になる。例えば、無線ＬＡＮを介して無線ネットワーク接続が行われる場合、第２の録音装置１０２には第１の録音装置１０１と共通のネットワーク情報が設定されている。第２の通信部３１１は、そのネットワーク情報に基づいて無線ネットワーク接続を行う。

第２の録音装置１０２がネットワークに接続され、第１の録音装置１０１とデータ通信可能な状態になった後、第２の通信部３１１は音声品質情報要求を第１の録音装置１０１から受信する（ステップＳ６０２）。受信された音声品質情報要求は第２の制御部３０６に出力される。

第２の制御部３０６は、音声品質情報要求に基づいて、第２の録音装置１０２がサポートしている全ての音声品質に対応する複数の音声品質情報を第２の通信部３１１に出力する。例えば、第２の録音装置１０２がサポートしている複数の第２の音声品質に対応する複数の音声品質情報は、第２の録音装置１０２の不揮発性メモリに保存されている。第２の制御部３０６は、複数の音声品質情報を不揮発性メモリから読み出し、読み出された複数の音声品質情報を第２の通信部３１１に出力する。第２の通信部３１１は、複数の音声品質情報を第１の録音装置１０１に送信する（ステップＳ６０３）。

前述したように、第１の録音装置１０１は、第２の録音装置１０２からの複数の音声品質情報に基づいて、第２の録音装置１０２に設定される第２の音声品質を決定する。また、第１の録音装置１０１は、決定された第２の音声品質を示す音声品質情報を送信する。第２の録音装置１０２の第２の通信部３１１は、音声品質情報を第１の録音装置１０１から受信する（ステップＳ６０４）。受信された音声品質情報は、第２の制御部３０６を介して第２の音声品質決定部３０７に出力される。

第２の音声品質決定部３０７は、音声品質情報に基づいて、第２の録音装置１０２が録音を行うときの第２の音声品質を決定する（ステップＳ６０５）。第１の録音装置１０１から受信された音声品質情報が示す第２の音声品質と、ステップＳ６０５で決定される第２の音声品質とは同一である。第２の音声品質が決定された後、第２の音声品質決定部３０７は、決定された第２の音声品質すなわちサンプリング条件を第２のＡ／Ｄ変換部３０２に設定する（ステップＳ６０６）。

第２の音声品質が設定された後、第２の制御部３０６は、ユーザの指示あるいは第１の録音装置１０１からの通知により録音開始を判断する（ステップＳ６０７）。録音開始に関するユーザの指示は、第２の入力部３１２に入力される。ステップＳ６０７では、第２の制御部３０６は、第２の入力部３１２に入力された指示または第２の通信部３１１によって受信された情報に基づいて録音開始を判断する。

録音開始の指示が第２の入力部３１２に入力された場合、または録音開始を指示する録音開始通知が第２の通信部３１１によって受信された場合、第２の制御部３０６は録音開始が指示されたと判断する。録音開始の指示が第２の入力部３１２に入力されず、かつ録音開始を指示する録音開始通知が第２の通信部３１１によって受信されていない場合、第２の制御部３０６は録音開始が指示されていないと判断する。録音開始が指示されていない場合、第２の制御部３０６は録音開始の判断を繰り返す。

録音開始が指示された場合、第２の制御部３０６は録音開始通知を生成し、生成された録音開始通知を第２の通信部３１１に出力する。第２の通信部３１１は、録音開始通知を第１の録音装置１０１に送信する（ステップＳ６０８）。第２の録音装置１０２が録音開始通知を送信した後に第１の録音装置１０１から録音開始通知が受信された場合、第２の録音装置１０２は、受信された録音開始通知を無視してもよい。

録音開始通知が送信された後、第２の録音装置１０２は第２の録音処理を行う（ステップＳ６０９）。第２の録音処理の詳細については後述する。第２の録音処理が行われた後、第２の制御部３０６は、ユーザの指示あるいは第１の録音装置１０１からの通知により録音終了を判断する（ステップＳ６１０）。録音終了に関するユーザの指示は、第２の入力部３１２に入力される。ステップＳ６１０では、第２の制御部３０６は、第２の入力部３１２に入力された指示または第２の通信部３１１によって受信された情報に基づいて録音終了を判断する。

録音終了の指示が第２の入力部３１２に入力された場合、または録音終了を指示する録音終了通知が第２の通信部３１１によって受信された場合、第２の制御部３０６は録音終了が指示されたと判断する。録音終了の指示が第２の入力部３１２に入力されず、かつ録音終了を指示する録音終了通知が第２の通信部３１１によって受信されていない場合、第２の制御部３０６は録音終了が指示されていないと判断する。録音終了が指示されていない場合、第２の制御部３０６は第２の録音処理を繰り返す。

録音終了が指示されている場合、第２の制御部３０６は、録音終了通知を生成し、生成された録音終了通知を第２の通信部３１１に出力する。第２の通信部３１１は、録音終了通知を第１の録音装置１０１に送信する（ステップＳ６１１）。第２の録音装置１０２が録音終了通知を送信した後に第１の録音装置１０１から録音終了通知が受信された場合、第２の録音装置１０２は、受信された録音終了通知を無視してもよい。録音終了通知が送信された後、第２の録音装置１０２が行う全体処理が終了する。

（第２の例）
図５は、第２の例における第１の録音装置１０１が行う全体処理の手順を示している。図４に示す処理では、録音処理の直前に録音時の第１の音声品質が決定される。しかし、第１の録音装置１０１に対して録音時の第１の音声品質が予め設定されている場合がある。つまり、第１の録音装置１０１は単独でも録音装置として使用することができるため、録音時の第１の音声品質が既に設定されている場合がある。この場合の処理について図５を用いて説明する。

第１の通信部２１１は第２の録音装置１０２との間でネットワーク接続を行う（ステップＳ５０１）。これによって、第１の録音装置１０１と第２の録音装置１０２とは、互いにデータ通信可能な状態になる。例えば、無線ＬＡＮを介して無線ネットワーク接続が行われる場合、第１の録音装置１０１には第２の録音装置１０２と共通のネットワーク情報が設定されている。第１の通信部２１１は、そのネットワーク情報に基づいて無線ネットワーク接続を行う。

第１の録音装置１０１がネットワークに接続され、第２の録音装置１０２とデータ通信可能な状態になった後、第１の音声品質決定部２０７は、第１のＡ／Ｄ変換部２０２に設定されている第１の音声品質を確認する（ステップＳ５０２）。第１の音声品質決定部２０７は、ステップＳ５０２で確認された第１の音声品質を示す音声品質情報を生成する。第１の音声品質決定部２０７は、第１の制御部２０６を介して、音声品質情報を第１の通信部２１１に出力する。第１の通信部２１１は、音声品質情報を第２の録音装置１０２に送信する（ステップＳ５０３）。

音声品質情報が送信された後、ステップＳ５０４〜Ｓ５０８の処理が行われる。ステップＳ５０４〜Ｓ５０８の処理は、図４のステップＳ４０７〜Ｓ４１１の処理と同様である。ステップＳ５０８の処理が行われた後、第１の録音装置１０１が行う全体処理が終了する。

図７は、第２の例における第２の録音装置１０２が行う全体処理の手順を示している。図７に示す処理は、図５に示す処理に対応する。

第２の通信部３１１は第１の録音装置１０１との間でネットワーク接続を行う（ステップＳ７０１）。これによって、第１の録音装置１０１と第２の録音装置１０２とは、互いにデータ通信可能な状態になる。例えば、無線ＬＡＮを介して無線ネットワーク接続が行われる場合、第２の録音装置１０２には第１の録音装置１０１と共通のネットワーク情報が設定されている。第２の通信部３１１は、そのネットワーク情報に基づいて無線ネットワーク接続を行う。

第２の録音装置１０２がネットワークに接続され、第１の録音装置１０１とデータ通信可能な状態になった後、第２の通信部３１１は音声品質情報を第１の録音装置１０１から受信する（ステップＳ７０２）。受信された音声品質情報は、第２の制御部３０６を介して第２の音声品質決定部３０７に出力される。

第２の録音装置１０２は、第２の録音装置１０２がサポートしている複数のサンプリング条件を示す複数の音声品質情報と、第１の録音装置１０１から受信された音声品質情報とに基づいて、第２の音声品質決定処理を行う（ステップＳ７０３）。第２の音声品質決定処理では、第２の録音装置１０２が録音を行うときの第２の音声品質が決定される。ステップＳ７０３では、第２の録音装置１０２は、第２の録音装置１０２が録音を行うときの第２の音声品質が、第１の録音装置１０１が録音を行うときの第１の音声品質と異なるように、第２の音声品質を決定する。

図１０と図１１とを用いて第２の音声品質決定処理について説明する。図１０は、録音処理が開始される前にユーザが第２の録音装置１０２を用いて第２の音声品質を選択する場合の第２の音声品質決定処理の手順を示している。

第２の音声品質決定部３０７は、第２の録音装置１０２がサポートしている複数の第２の音声品質から、条件を満たす第２の音声品質を抽出する（ステップＳ１００１）。例えば、第２の録音装置１０２がサポートしている複数の第２の音声品質に対応する複数の音声品質情報は、第２の録音装置１０２の不揮発性メモリに保存されている。ステップＳ１００１では、第２の音声品質決定部３０７は、第２の制御部３０６を介して、複数の音声品質情報を不揮発性メモリから読み出し、読み出された複数の音声品質情報が示す複数の第２の音声品質から条件に合う第２の音声品質を選択する。これによって、第２の音声品質決定部３０７は、第２の音声品質を抽出する。抽出された第２の音声品質を示す音声品質情報は第２の制御部３０６に出力される。

第２の制御部３０６は、ステップＳ１００１で抽出された第２の音声品質の一覧を第２の表示部３０５に表示させる（ステップＳ１００２）。ステップＳ１００２では、第２の制御部３０６は、ステップＳ１００１で抽出された第２の音声品質を示す音声品質情報を第２の表示部３０５に出力する。第２の表示部３０５は、音声品質情報に基づいて第２の音声品質を表示する。

第２の表示部３０５に表示された第２の音声品質の一覧からユーザが所望の第２の音声品質を選択する。選択された第２の音声品質を示す情報が第１の入力部２１２に入力される。第２の音声品質決定部３０７は、第２の制御部３０６を介して、第２の入力部３１２に入力された情報を取得する。第２の音声品質決定部３０７は、取得された情報が示す音声品質を第２の音声品質に決定する（ステップＳ１００３）。

第２の録音装置１０２が録音を行うときの第２の音声品質は、第１の録音装置１０１に設定された第１の音声品質と異なる。第１の音声品質と異なる第２の音声品質が選択されるために、第２の録音装置１０２は以下のように構成されてもよい。

ステップＳ１００１では、第２の音声品質決定部３０７は、第２の録音装置１０２がサポートしている第２の音声品質のうち第１の録音装置１０１に対して選択された第１の音声品質と同じ第２の音声品質を抽出しなくてもよい。あるいは、ステップＳ１００１では、第２の音声品質決定部３０７は、第２の録音装置１０２がサポートしている第２の音声品質のうち、第１の録音装置１０１に対して選択された第１の音声品質よりも低音質の第２の音声品質のみを抽出してもよい。例えば、第１の録音装置１０１に対する第１の音声品質として１９２ｋＨｚ／３２ｂｉｔが選択された場合、第２の音声品質として９６ｋＨｚ／１６ｂｉｔと４８ｋＨｚ／１６ｂｉｔとのみが抽出されてもよい。

第１の音声品質よりも低音質の第２の音声品質のみが抽出される場合、ステップＳ１００３では、第２の音声品質決定部３０７は、第１の音声品質よりも低音質の第２の音声品質を決定することが可能である。また、特に条件は設けられず、ステップＳ１００１では、第２の録音装置１０２がサポートしている全ての第２の音声品質が選択されてもよい。

以上の処理により、第２の録音装置１０２は、ユーザが希望する第２の音声品質を決定することができる。

図１０に示す処理ではユーザによって第２の音声品質が選択される。別の方法として、図１１に示すように、第２の録音装置１０２に設定される第２の音声品質を決定する方法が予め決められており、ユーザがそれを選択することなく第２の録音装置１０２がそれを決定してもよい。

図１１に示す第２の音声品質決定処理について説明する。第２の音声品質決定部３０７は、第２の録音装置１０２がサポートしている複数の第２の音声品質から条件に合う第２の音声品質を選択する（ステップＳ１１０１）。例えば、第２の録音装置１０２がサポートしている複数の第２の音声品質に対応する複数の音声品質情報は、第２の録音装置１０２の不揮発性メモリに保存されている。ステップＳ１１０１では、第２の音声品質決定部３０７は、第２の制御部３０６を介して、複数の音声品質情報を不揮発性メモリから読み出し、読み出された複数の音声品質情報が示す複数の第２の音声品質から条件に合う第２の音声品質を選択する。これによって、第２の音声品質決定部３０７は、第２の音声品質を決定する。

上記の処理では、第１の音声品質に応じて第２の音声品質が選択される。例えば、ステップＳ１１０１では、第２の音声品質決定部３０７は、選択可能な第２の音声品質のうち第１の録音装置１０１から受信された音声品質情報が示す第１の音声品質よりも低音質の第２の音声品質を選択する。例えば、サンプリング周波数が第１の音声品質におけるサンプリング周波数の半分であり、量子化ビット数が最小である第２の音声品質が選択される。あるいは、ステップＳ１１０１では、第２の音声品質決定部３０７は、選択可能な第２の音声品質のうち第１の録音装置１０１から受信された音声品質情報が示す第１の音声品質と同一の第２の音声品質を選択してもよい。選択の条件は、工場出荷時に第２の録音装置１０２に予め記録されていてもよい。あるいは、第２の録音装置１０２に初期設定メニューが用意され、ユーザが任意のタイミングで初期設定メニューから第２の音声品質の設定を変更してもよい。いずれにせよ、録音処理が開始される一連の処理において、上記のように既に設定されている条件に従って第２の音声品質が決定される。

再び、図７について説明する。第２の音声品質決定処理が行われ後、第２の音声品質決定部３０７は、第２の音声品質決定処理によって決定された第２の音声品質すなわちサンプリング条件を第２のＡ／Ｄ変換部３０２に設定する（ステップＳ７０４）。

第２の音声品質が設定された後、ステップＳ７０８〜Ｓ７１２の処理が行われる。ステップＳ７０８〜Ｓ７１２の処理は、図６のステップＳ６０７〜Ｓ６１１の処理と同様である。ステップＳ７１２の処理が行われた後、第２の録音装置１０２が行う全体処理が終了する。

（第１の録音処理）
図１２は、第１の録音装置１０１が行う第１の録音処理の手順を示している。第１の録音装置１０１は、第１の録音処理において、複数の独立した処理を並行的に実行する。一部の処理は、第１の音声の入力と第１の音声データの生成とを含む第１の音声入力処理である。残りの処理は、第１の音声データに対する処理である。これらの処理はマルチタスクで、かつ非同期に実行される。

第１の音声入力処理について説明する。第１の録音処理が開始された後、第１の音声入力処理が行われる（ステップＳ１２００）。第１の音声入力処理では以下の処理が行われる。

第１のマイク部２０１に第１の音声が入力され、第１のマイク部２０１は第１の音声に基づく第１のアナログ信号を出力する（ステップＳ１２０１）。第１のＡ／Ｄ変換部２０２は、第１のアナログ信号をＡ／Ｄ変換することにより第１の音声データを生成する（ステップＳ１２０２）。ステップＳ１２０２でＡ／Ｄ変換が行われるときのサンプリング条件は、第１の音声品質の設定値に従う。また、第１の音声データが生成されるとき、第１の音声の集音時刻を示す時刻情報が第１の音声データに付加される。

第１のＡ／Ｄ変換部２０２によって生成された第１の音声データは第１のメモリ２０８に一次記憶される（ステップＳ１２０３）。第１のメモリ２０８に一時記憶された第１の音声データは、必要な処理が実行されるときに第１のメモリ２０８から読み出される。処理が実行された第１の音声データは第１のメモリ２０８から削除される。

ステップＳ１２１９の処理が終了するまで、ステップＳ１２０１の処理と、ステップＳ１２０２の処理と、ステップＳ１２０３の処理とは並行的に繰り返し実行される。

第１の音声データに対する処理について説明する。第１の録音処理が開始された後、第１の制御部２０６は、時刻差分の算出が終了しているか否かを判断する（ステップＳ１２０４）。時刻差分は、第１の録音装置１０１と第２の録音装置１０２とのシステム時刻の差分を示す。第１のメモリ２０８に時刻差分が一時記憶されている場合、時刻差分の算出は終了している。第１のメモリ２０８に時刻差分が一時記憶されていない場合、時刻差分の算出は終了していない。時刻差分の算出が終了している場合、ステップＳ１２０９の処理が行われる。

時刻差分の算出が終了していない場合、第１の制御部２０６は、第２の音声データの送信を要求する音声データ要求を生成し、生成された音声データ要求を第１の通信部２１１に出力する。第１の通信部２１１は、音声データ要求を第２の録音装置１０２に送信する（ステップＳ１２０５）。音声データ要求が送信された後、第１の通信部２１１は、第２の音声データを第２の録音装置１０２から受信する（ステップＳ１２０６）。第２の音声データが受信された後、第１の録音装置１０１は、第２の録音装置１０２から受信された第２の音声データと、第１の録音装置１０１で生成された第１の音声データとに基づいて、位相合わせ処理を行う（ステップＳ１２０７）。

図１５を参照し、位相合わせ処理について説明する。位相合わせ処理では、第１のメモリ２０８に一時記憶されている第１の音声データのうち先頭のデータを含み、かつ所定時間に生成されたデータが使用される。また、第２の録音装置１０２から受信された第２の音声データのうち先頭のデータを含み、かつ所定時間に生成されたデータが使用される。

２つのデジタルデータの位相を合わせる方法として、デジタルデータの正規化が行われる。時刻差分算出部２１４は、サンプリング周波数に基づく正規化を行う（ステップＳ１５０１）。第１の録音装置１０１と第２の録音装置１０２とがそれぞれ録音を実行するときのサンプリング周波数が異なる場合、第１の録音装置１０１と第２の録音装置１０２とが同じ１秒間の音声に対して生成した音声データのデータ数が異なる。位相合わせ処理が容易になるように、このデータ数を合わせる処理が行われる。

例えば、第１の録音装置１０１のサンプリング周波数が９６ｋＨｚであり、第２の録音装置１０２のサンプリング周波数が４８ｋＨｚである場合、第１の音声データのデータ数が第２の音声データのデータ数と一致するように、第１の音声データのデータ数が変更される。サンプリング周波数が９６ｋＨｚである場合、１秒間の音声データに含まれるデータ数は９６０００である。同様にサンプリング周波数が４８ｋＨｚである場合、１秒間の音声データに含まれるデータ数は４８０００である。９６０００／４８０００＝２であるため、時刻差分算出部２１４は、第１の音声データのデータ数を半分にする。具体的には、時刻差分算出部２１４は、第１の音声データにおいて時間的に隣接する２つのデータを平均化し、１つのデータとする。

サンプリング周波数に基づく正規化が行われた後、時刻差分算出部２１４は、量子化ビット数に基づく正規化を行う（ステップＳ１５０２）。例えば、第１の録音装置１０１の量子化ビット数が３２ｂｉｔであり、第２の録音装置１０２の量子化ビット数が１６ｂｉｔである場合、時刻差分算出部２１４は音声信号の振幅を単純に比較することはできない。このため、時刻差分算出部２１４は、３２ｂｉｔと１６ｂｉｔとの比である係数すなわち２を求め、求めた係数を第２の音声データに乗算する。

量子化ビット数に基づく正規化が行われた後、時刻差分算出部２１４は、第１の音声データと第２の音声データとに基づいて相関係数を算出する（ステップＳ１５０３）。ステップＳ１５０３における相関係数の算出は、第１の音声データと第２の音声データとを比較する比較処理に対応する。ステップＳ１５０３では、一般的に知られている相関係数の算出方法が使用される。第１の音声データを構成するデータ列をＸ、第２の音声データを構成するデータ列をＹとし、ＸとＹとがｎ個のデータを含む場合、相関係数Ｒは以下の（１）式により求めることができる。つまり、相関係数Ｒは、データ列Ｘとデータ列Ｙとの共分散変数を、データ列Ｘの標準偏差とデータ列Ｙの標準偏差との積で割ることにより得られる。
Ｒ＝（データ列Ｘとデータ列Ｙとの共分散変数）／（データ列Ｘの標準偏差 × データ列Ｙの標準偏差）・・・（１）

相関係数が算出された後、時刻差分算出部２１４は、相関係数の算出が所定の回数行われたか否かを判断することにより、相関係数の算出が完了したか否かを判断する（ステップＳ１５０４）。相関係数の算出が完了していない場合、時刻差分算出部２１４は、相関係数の算出に使用される第１の音声データまたは第２の音声データの範囲を変更する（ステップＳ１５０５）。第１の音声データまたは第２の音声データの範囲が変更された後、ステップＳ１５０３で相関係数が算出される。

例えば、第１の音声データと第２の音声データとが１秒間の音声に対応するデータである場合の相関係数の算出方法を説明する。第１の録音装置１０１のサンプリング周波数が９６ｋＨｚであり、第２の録音装置１０２のサンプリング周波数が４８ｋＨｚである場合の例では、第１の音声データと第２の音声データとはそれぞれ４８０００個のデータを有する。便宜のため、４８０００個のデータは、各データが生成された時刻の順に１〜４８０００の番号を有する。

時刻差分算出部２１４は、第１の音声データの番号１〜２４０００のデータと、第２の音声データの番号２４００１〜４８０００のデータとについて相関係数を算出する。続いて、時刻差分算出部２１４は、使用される第１の音声データと第２の音声データとのデータ数を１データずつ増やしながら、または減らしながら相関係数を算出する。使用される第１の音声データと第２の音声データとのデータ数が１データ増加する、または減少する処理がステップＳ１５０５の処理に対応する。

具体的には、時刻差分算出部２１４は、第１の音声データの番号１〜２４００１のデータと、第２の音声データの番号２４０００〜４８０００のデータとについて相関係数を算出する。続いて、時刻差分算出部２１４は、第１の音声データの番号１〜２４０００２のデータと、第２の音声データの番号２３９９９〜４８０００のデータとについて相関係数を算出する。

第１の音声データと第２の音声データとのデータ数が１ずつ増加しながら同様の処理が繰り返される。同様の処理が繰り返された後、時刻差分算出部２１４は、第１の音声データの番号１〜４８００００のデータと、第２の音声データの番号１〜４８０００のデータとについて相関係数を算出する。続いて、時刻差分算出部２１４は、第１の音声データの番号２〜４８００００のデータと、第２の音声データの番号１〜４７９９９のデータとについて相関係数を算出する。

第１の音声データと第２の音声データとのデータ数が１ずつ減少しながら同様の処理が繰り返される。同様の処理が繰り返された後、時刻差分算出部２１４は、第１の音声データの番号２４００１〜４８００００のデータと、第２の音声データの番号１〜２４０００のデータとについて相関係数を算出する。これによって、相関係数の算出が完了する。

相関係数の算出が完了した場合、時刻差分算出部２１４は、複数の相関係数のうち最大の相関係数の算出に使用された第１の音声データと第２の音声データとの時間方向のずれ量を位相差として検出する（ステップＳ１５０６）。例えば、最大の相関係数の算出に使用された第１の音声データと第２の音声データとの先頭位置の時間方向のずれ量が位相差として検出される。例えば、第１の音声データの番号１〜２４００１のデータと、第２の音声データの番号２４０００〜４８０００のデータとの先頭位置の時間方向のずれ量は、２３９９９個のデータに相当する時間である。サンプリング周波数が４８ｋＨｚである場合を基準に音声データの正規化が行われた場合、２３９９９個のデータに相当する時間は約５００ｍｓである。

ステップＳ１５０６で検出される位相差は、第１の録音装置１０１に入力される第１の音声と第２の録音装置１０２に入力される第２の音声との位相差を含む。第１の音声データにおける第１の音声の位相の基準は第１の音声データの先頭位置である。第２の音声データにおける第２の音声の位相の基準は第２の音声データの先頭位置である。第１の録音装置１０１と第２の録音装置１０２との位置がほぼ同一であるため、同一の音源からの音声が第１の録音装置１０１と第２の録音装置１０２とに入力されるタイミングの差分は無視できる。このため、ステップＳ１５０６で検出される位相差は、第１の音声データの先頭位置に対する第１の音声の相対的な位置と、第２の音声データの先頭位置に対する第２の音声の相対的な位置との差分である。この差分は、第１の録音装置１０１と第２の録音装置１０２との録音開始タイミングの差分に相当する。サンプリング周波数が４８ｋＨｚである場合を基準に音声データの正規化が行われた場合、約２０μｓの精度で位相差が求まる。

以上の処理により、第１の録音装置１０１で得られる第１の音声データと、第２の録音装置１０２で得られる第２の音声データとの位相差を求めることができる。

再び、図１２について説明する。位相合わせ処理が行われた後、時刻差分算出部２１４は、第１の音声データに付加されている時刻情報と、第２の音声データに付加されている時刻情報と、ステップＳ１５０６で検出された位相差とに基づいて、第１の録音装置１０１と第２の録音装置１０２とのシステム時刻の差分すなわち時刻差分を算出する（ステップＳ１２０８）。第１の音声データに付加されている時刻情報（例えば、第１の音声データの先頭データの時刻情報）と、第２の音声データに付加されている時刻情報（例えば、第２の音声データの先頭データの時刻情報）との差分が第１の録音装置１０１と第２の録音装置１０２との録音開始タイミングの差分である。ステップＳ１５０６で検出された位相差から第１の録音装置１０１と第２の録音装置１０２との録音開始タイミングの差分を引くことにより、第１の録音装置１０１と第２の録音装置１０２とのシステム時刻の差分が得られる。

時刻差分が算出された後、時刻差分算出部２１４は、第１の制御部２０６を介して、第１のメモリ２０８から第１の音声データを読み込む（ステップＳ１２０９）。続いて、時刻差分算出部２１４は解析条件決定処理を行う（ステップＳ１２１０）。

図１４を参照し、解析条件決定処理について説明する。時刻差分算出部２１４は、現在、第１の録音装置１０１に設定されている第１の音声品質を確認する（ステップＳ１４０１）。第１の音声品質が高音質（例えば、サンプリング周波数が１９２ｋＨｚ）である場合、時刻差分算出部２１４は相対的に広い解析範囲を設定する（ステップＳ１４０２）。また、第１の音声品質が低音質（例えば、サンプリング周波数が４８ｋＨｚ）である場合、時刻差分算出部２１４は相対的に狭い解析範囲を設定する（ステップＳ１４０３）。

解析範囲は、第１の録音装置１０１の第１の周波数解析部２０４によって第１の周波数解析が行われる第１の音声データの範囲と、第２の録音装置１０２の第２の周波数解析部３０４によって第２の周波数解析が行われる第２の音声データの範囲とを示している。第１の録音装置１０１に設定されている第１の音声品質が所定の音声品質よりも高い場合、相対的に広い解析範囲が設定される。また、第１の録音装置１０１に設定されている第１の音声品質が所定の音声品質よりも低い場合、相対的に狭い解析範囲が設定される。

本発明の実施形態では、デジタルデータに対する周波数解析の方法として、一般的に知られているフーリエ変換が使用される。フーリエ変換の特性により、データ量が増えると分解能が上がり、データ量が減ると分解能が下がる。したがって、高音質の音声データに対する周波数解析が行われる場合、できるだけ良い精度で周波数解析を行うために広い解析範囲が設定され、データ量が増える。一方、データ量が増加すると計算量が増える。さらに、システムの負荷が高くなり、システムのレスポンスが低下する。このため、低音質の音声データに対する周波数解析が行われる場合、解析計算のための処理時間が優先される。つまり、狭い解析範囲が設定され、データ量が減る。例えば、第１の音声品質が高音質（例えば、サンプリング周波数が１９２ｋＨｚ）である場合、１０秒の解析範囲が設定される。例えば、第１の音声品質が低音質（例えば、サンプリング周波数が４８ｋＨｚ）である場合、１秒の解析範囲が設定される。０．１秒のデータに対するフーリエ変換の分解能は１０Ｈｚである。１秒のデータに対するフーリエ変換の分解能は１Ｈｚである。１０秒のデータに対するフーリエ変換の分解能は０．１Ｈｚである。

解析範囲が設定された後、時刻差分算出部２１４は、解析開始位置を算出する（ステップＳ１４０４）。解析開始位置は、第１の開始位置と第２の開始位置とを含む。第１の開始位置は、第１の周波数解析が開始される第１の音声データの位置である。第２の開始位置は、第２の周波数解析が開始される第２の音声データの位置である。

例えば、１回目の第１の周波数解析における第１の開始位置は、第１のメモリ２０８に一時記憶されている第１の音声データの先頭位置である。第１の録音装置１０１が第１の録音処理を開始するタイミングと、第２の録音装置１０２が第２の録音処理を開始するタイミングとが一致しなくてもよい。このため、１回目の第１の周波数解析における第１の開始位置は、第１のメモリ２０８に一時記憶されている第１の音声データの先頭位置から所定時間に相当する範囲だけずれた位置であってもよい。この所定時間は、第１の録音処理の開始タイミングと第２の録音処理の開始タイミングとのずれとして想定される時間よりも長ければよい。

２回目の第１の周波数解析における第１の開始位置は、１回目の第１の周波数解析における第１の開始位置から解析範囲だけずれた位置である。例えば、１回目の第１の周波数解析における第１の開始位置における第１の音声データに付加されている時刻情報が時刻Ｔ１を示し、解析範囲がＲ秒に相当する範囲である場合、２回目の第１の周波数解析における第１の開始位置は、時刻（Ｔ１＋Ｒ）に対応するデータ位置である。３回目以後の第１の周波数解析における第１の開始位置は同様に算出される。

例えば、１回目の第２の周波数解析における第２の開始位置は、上記の時刻Ｔ１から時刻差分だけずれた時刻に対応するデータ位置である。２回目の第２の周波数解析における第２の開始位置は、１回目の第２の周波数解析における第２の開始位置から解析範囲だけずれた位置である。３回目以後の第２の周波数解析における第２の開始位置は同様に算出される。

以上の処理により、第１の周波数解析と第２の周波数解析との解析条件が決定される。第１の録音装置１０１は、第１の音声品質に適した解析範囲を設定することができる。

再び、図１２について説明する。解析条件が決定された後、第１の周波数解析部２０４は、解析データ量調整処理を行う（ステップＳ１２１１）。システムに応じて解析計算の処理時間が異なる。このため、解析データ量調整処理では、システムへの負荷とレスポンス性能とが考慮され、処理時間が適当な時間となるようにデータ量が調整される。解析データ量調整処理については後述する。

解析データ量調整処理が行われた後、第１の周波数解析部２０４は、第１の開始位置を基準とする解析範囲の第１の音声データに対して第１の周波数解析を行い、第１の周波数解析の結果を示す第１の結果情報を生成する（ステップＳ１２１２）。第１の録音処理が繰り返し行われるため、異なる複数の解析範囲毎に第１の周波数解析が行われる。また、異なる複数の解析範囲毎に第１の結果情報が生成される。

第１の周波数解析では、一般的に知られているフーリエ変換が使用され、デジタルデータに対して解析の計算が行われる。解析条件としてデータ量の低減が指定されている場合、第１の周波数解析部２０４は、第１の音声データに対して１秒当たりのデータ量を減らして第１の周波数解析を行う。

第１の周波数解析が行われた後、第１の制御部２０６は、結果情報要求を生成し、生成された結果情報要求を第１の通信部２１１に出力する。結果情報要求は、第２の録音装置１０２が行う第２の周波数解析の結果を示す第２の結果情報の要求を示す。結果情報要求は、解析条件決定処理によって決定された解析条件、すなわち解析範囲と第２の開始位置とに関する情報を含む。第１の通信部２１１は、結果情報要求を第２の録音装置１０２に送信する（ステップＳ１２１３）。結果情報要求が送信された後、第１の通信部２１１は、第２の結果情報を第２の録音装置１０２から受信する（ステップＳ１２１４）。

第２の結果情報が受信された後、雑音帯域検出部２１３は、第１の結果情報と第２の結果情報とを比較する（ステップＳ１２１５）。続いて、雑音帯域検出部２１３は、ステップＳ１２１５の処理の結果に基づいて、雑音帯域を検出する（ステップＳ１２１６）。第１の録音処理が繰り返し行われるため、異なる複数の解析範囲毎に雑音帯域が検出される。

図１７を参照し、ステップＳ１２１５とステップＳ１２１６との処理の内容を説明する。第１の結果情報と第２の結果情報とは、音声の周波数情報と、周波数毎の振幅情報および位相情報とを含む。図１７は、音声の周波数情報と周波数毎の振幅情報とを含むパワースペクトルをグラフで示している。図１７（ａ）は、第１の結果情報に対応するパワースペクトルを示している。図１７（ｂ）は、第２の結果情報に対応するパワースペクトルを示している。

第１の結果情報と第２の結果情報とは、同一の時刻に集音された音声のデータに対する周波数解析の結果を含む。このため、図１７（ａ）と図１７（ｂ）とでは同一の周波数帯域にピークが現れている。また、同一の周波数帯域における振幅１７０１は振幅１７００よりも大きい。

第１の録音装置１０１は主に目的音源からの音声を集音する。一方、第２の録音装置１０２は、目的音源以外の音源からの音声を目的音源からの音声と同等のレベルで集音する。したがって、目的音源からの音声に関して、第１の周波数解析により得られるパワースペクトルに現れるピークが、第２の周波数解析により得られるパワースペクトルに現れるピークよりも大きくなる。また、目的音源以外の音源からの音声に関して、第２の周波数解析により得られるパワースペクトルに現れるピークが、第１の周波数解析により得られるパワースペクトルに現れるピークよりも大きくなる。つまり、振幅１７００と振幅１７０１との比較により、雑音帯域検出部２１３は、この振幅１７００と振幅１７０１とに対応する周波数帯域が目的音源以外の音源からの音声に基づくと推定できる。つまり、雑音帯域検出部２１３は、この周波数帯域が雑音帯域であると推定できる。

ステップＳ１２１５では、雑音帯域検出部２１３は、第１の結果情報に対応する周波数毎の振幅と、第２の結果情報に対応する周波数毎の振幅とを比較する。ステップＳ１２１６では、雑音帯域検出部２１３は、比較の結果に基づいて、各周波数帯域が雑音帯域であるか否かを判断する。

再び、図１２の説明を行う。雑音帯域が検出された後、雑音帯域検出部２１３は、検出された雑音帯域を示す雑音帯域情報を生成する。雑音帯域検出部２１３は、第１の制御部２０６を介して、雑音帯域情報を第１の通信部２１１と第１のフィルタ処理部２０３とに出力する。第１の通信部２１１は、雑音帯域情報を第２の録音装置１０２に送信する（ステップＳ１２１７）。雑音帯域情報には、推定された周波数と、振幅と、位相との情報が含まれる。

雑音帯域情報が送信された後、第１のフィルタ処理部２０３は、雑音帯域のデータをフィルタリングする第１のフィルタを生成する。第１のフィルタ処理部２０３はさらに、第１のフィルタによる第１のフィルタ処理を第１の音声データに施し、第３の音声データを生成する（ステップＳ１２１８）。第３の音声データは、雑音が除去された第１の音声のデジタルデータである。第１のフィルタ処理は、雑音帯域の周波数と、振幅と、位相とに基づいて、一般的に知られている方法によって行われる。周波数と、振幅と、位相とが分かっているため、第１の音声データのうち雑音帯域に相当する部分のデジタルデータの位相を反転し、位相が反転されたデジタルデータを第１の音声データに重ね合わせることにより、第１の音声データから雑音帯域のデータを取り除くことができる。第１の録音処理が繰り返し行われるため、異なる複数の解析範囲毎に第１のフィルタが生成される。また、異なる複数の解析範囲毎に第１のフィルタ処理が行われる。

生成された第３の音声データは、第１の制御部２０６を介して第１の記録部２１０に出力される。第１の記録部２１０は、第３の音声データを記録する（ステップＳ１２１９）。

以上の処理により、第１の録音装置１０１は、目的音源以外の音源からの雑音が取り除かれた良好な音声のデジタルデータを得ることができる。

（第２の録音処理）
図１３は、第２の録音装置１０２が行う第２の録音処理の手順を示している。第２の録音装置１０２は、第２の録音処理において、複数の独立した処理を並行的に実行する。一部の処理は、第２の音声の入力と第２の音声データの生成とを含む第２の音声入力処理である。残りの処理は、第２の音声データに対する処理である。これらの処理はマルチタスクで、かつ非同期に実行される。

第２の音声入力処理について説明する。第２の録音処理が開始された後、第２の音声入力処理が行われる（ステップＳ１３００）。第２の音声入力処理では以下の処理が行われる。

第２のマイク部３０１に第２の音声が入力され、第２のマイク部３０１は第２の音声に基づく第２のアナログ信号を出力する（ステップＳ１３０１）。第２のＡ／Ｄ変換部３０２は、第２のアナログ信号をＡ／Ｄ変換することにより第２の音声データを生成する（ステップＳ１３０２）。ステップＳ１３０２でＡ／Ｄ変換が行われるときのサンプリング条件は、第２の音声品質の設定値に従う。また、第２の音声データが生成されるとき、第２の音声の集音時刻を示す時刻情報が第２の音声データに付加される。

第２のＡ／Ｄ変換部３０２によって生成された第２の音声データは第２のメモリ３０８に一次記憶される（ステップＳ１３０３）。第２のメモリ３０８に一時記憶された第２の音声データは、必要な処理が実行されるときに第２のメモリ３０８から読み出される。処理が実行された第２の音声データは第２のメモリ３０８から削除される。

ステップＳ１３１４の処理が終了するまで、ステップＳ１３０１の処理と、ステップＳ１３０２の処理と、ステップＳ１３０３の処理とは並行的に繰り返し実行される。

第２の音声データに対する処理について説明する。第２の録音処理が開始された後、第２の制御部３０６は、音声データ要求が受信されたか否かを判断する（ステップＳ１３０４）。音声データ要求が受信されていない場合、ステップＳ１３０７の処理が行われる。

音声データ要求が受信された場合、第２の制御部３０６は、第２のメモリ３０８から第２の音声データを読み込む（ステップＳ１３０５）。ステップＳ１３０５では、第２のメモリ３０８に一時記憶されている全ての第２の音声データが読み込まれる。続いて、第２の制御部３０６は、第２の音声データを第２の通信部３１１に出力する。第２の通信部３１１は、第２の音声データを第１の録音装置１０１に送信する（ステップＳ１３０６）。

第２の音声データが送信された後、第２の制御部３０６は、結果情報要求が受信されたか否かを判断する（ステップＳ１３０７）。結果情報要求が受信されていない場合、ステップＳ１３１２の処理が行われる。結果情報要求が受信された場合、第２の周波数解析部３０４は、第２の制御部３０６を介して、第２のメモリ３０８から第２の音声データを読み込む（ステップＳ１３０８）。

続いて、第２の周波数解析部３０４は、解析データ量調整処理を行う（ステップＳ１３０９）。システムに応じて解析計算の処理時間が異なる。このため、解析データ量調整処理では、システムへの負荷とレスポンス性能とが考慮され、処理時間が適当な時間となるようにデータ量が調整される。解析データ量調整処理については後述する。

解析データ量調整処理が行われた後、第２の周波数解析部３０４は、第２の開始位置を基準とする解析範囲の第２の音声データに対して第２の周波数解析を行い、第２の周波数解析の結果を示す第２の結果情報を生成する（ステップＳ１３１０）。第１の録音装置１０１から受信される結果情報要求は、解析範囲と第２の開始位置とに関する情報を含む。ステップＳ１３１０では、この情報が使用される。第２の録音処理が繰り返し行われるため、異なる複数の解析範囲毎に第２の周波数解析が行われる。また、異なる複数の解析範囲毎に第２の結果情報が生成される。

第２の周波数解析では、第１の周波数解析と同様にフーリエ変換が使用され、デジタルデータに対して解析の計算が行われる。解析条件としてデータ量の低減が指定されている場合、第２の周波数解析部３０４は、第２の音声データに対して１秒当たりのデータ量を減らして第２の周波数解析を行う。

第２の周波数解析が行われた後、第２の周波数解析部３０４は、第２の制御部３０６を介して第２の結果情報を第２の通信部３１１に出力する。第２の通信部３１１は、第２の結果情報を第１の録音装置１０１に送信する（ステップＳ１３１１）。第２の結果情報が送信された後、第２の通信部３１１は、雑音帯域情報を第１の録音装置１０１から受信する（ステップＳ１３１２）。受信された雑音帯域情報は、第２の制御部３０６を介して第２のフィルタ処理部３０３に出力される。

第２のフィルタ処理部３０３は、雑音帯域のデータをフィルタリングする第２のフィルタを生成する。第２のフィルタ処理部３０３はさらに、第２のフィルタによる第２のフィルタ処理を第２の音声データに施し、第４の音声データを生成する（ステップＳ１３１３）。第４の音声データは、雑音が除去された第２の音声のデジタルデータである。周波数と、振幅と、位相とが分かっているため、第２の音声データのうち雑音帯域に相当する部分のデジタルデータの位相を反転し、位相が反転されたデジタルデータを第２の音声データに重ね合わせることにより、第２の音声データから雑音帯域のデータを取り除くことができる。第２の録音処理が繰り返し行われるため、異なる複数の解析範囲毎に第２のフィルタが生成される。また、異なる複数の解析範囲毎に第２のフィルタ処理が行われる。

生成された第４の音声データは、第２の制御部３０６を介して第２の記録部３１０に出力される。第２の記録部３１０は、第４の音声データを記録する（ステップＳ１３１４）。

以上の処理により、第２の録音装置１０２は、目的音源以外の音源からの雑音が取り除かれた良好な音声のデジタルデータを得ることができる。また、第２の録音装置１０２は、第１の録音装置１０１で得られる第１の音声データにおける第１の音声品質と異なる第２の音声品質のデジタルデータを得ることができる。

（解析データ量調整処理）
図１６を参照し、解析データ量調整処理について説明する。第１の周波数解析部２０４または第２の周波数解析部３０４は、デジタルデータに対して周波数解析を行うときのフーリエ変換に伴う計算時間を算出する（ステップＳ１６０１）。周波数解析に高速フーリエ変換（ＦＦＴ）が使用される場合、データ量がＮであるデータに対する計算回数は２Ｎｌｏｇ２Ｎにより求まる。例えば、ＣＰＵが演算を行い、ＣＰＵクロックが１ＧＨｚである場合、１命令の実行時間は１ｎｓである。例えば、高速フーリエ変換の計算に２０命令が必要である場合、１回の計算時間は２０ｎｓである。デジタルデータが、４８ｋＨｚのサンプリング周波数で１秒間に取得されたデータである場合、高速フーリエ変換の計算回数は、上記の式により１４９２８７２回となる。この計算時間は約３００ｍｓである。

システムによって計算時間が異なる。録音処理のレスポンス性能を確保するために、第１の周波数解析部２０４または第２の周波数解析部３０４は、計算時間がデジタルデータの実時間を超えるか否かを確認する（ステップＳ１６０２）。計算時間がデジタルデータの実時間を超えない場合、解析データ量調整処理は終了する。計算時間がデジタルデータの実時間を超える場合、第１の周波数解析部２０４または第２の周波数解析部３０４は、データ量を調整するための条件を決定する（ステップＳ１６０３）。

例えば、高音質のデータに要求される分解能が０．１Ｈｚである場合、１０秒程度のデータ量が必要である。ＣＰＵクロックが１ＧＨｚである場合、１９２ｋＨｚのサンプリング周波数でサンプリングされた１０秒間のデータの計算時間は約１．６秒である。計算時間が実時間を超えないため、問題はない。

一方、上記の条件でＣＰＵクロックが１００ＭＨｚである場合、計算時間は約１６秒である。この場合、計算時間が実時間を超えるため、データ量を調整する必要がある。この場合、高速フーリエ変換による周波数解析が行われるとき、第１の周波数解析部２０４または第２の周波数解析部３０４は、デジタルデータの１秒あたりのデータ数を減らす。具体的には、第１の周波数解析部２０４または第２の周波数解析部３０４は、１秒当たりのデータ量を１／２倍または１／４倍等する。このようにデータ量が減らされた後、第１の周波数解析部２０４または第２の周波数解析部３０４は、計算時間を再計算し、計算時間が実時間を超えるか否かを再度確認する。データ量は、隣り合うデータを平均化することにより減らされる。上記の条件の場合、１秒当たりのデータ量が１／２になれば計算時間が約７．６秒となる。この計算時間は実時間を超えない。

第１の周波数解析部２０４または第２の周波数解析部３０４は、周波数解析を行うとき、必要に応じてこの処理を行う。これによって、データ量が減り、計算時間が短縮される。

以上の処理により、第１の録音装置１０１または第２の録音装置１０２は、計算時間がデジタルデータの実時間を超えないように第１の音声データまたは第２の音声データのデータ量を調整することができる。

本発明の実施形態では、第１の録音装置１０１が時刻差分算出部２１４を有する。しかし、第２の録音装置１０２が、時刻差分算出部２１４と同様の構成を有していてもよい。第２の録音装置１０２が、時刻差分算出部２１４と同様の構成を有する場合、図１２に示す第１の録音処理と、図１３に示す第２の録音処理とは、以下のように変更される。

例えば、第１の録音処理では、ステップＳ１２０４〜Ｓ１２０８の処理は行われない。また、ステップＳ１２０９の処理が行われる前に、ステップＳ１３０４〜Ｓ１３０６の処理と同様の処理が行われる。また、時刻差分に関する情報が第２の録音装置１０２から受信される。

例えば、第２の録音処理では、ステップＳ１３０４〜Ｓ１３０６の処理は行われない。また、ステップＳ１３０７の処理が行われる前に、ステップＳ１２０４〜Ｓ１２０８の処理と同様の処理が行われる。また、時刻差分に関する情報が第１の録音装置１０１に送信される。

本発明の実施形態によれば、第１の音声入力部２１６と、第１の通信部２１１と、第１の周波数解析部２０４と、条件決定部２１５と、雑音帯域検出部２１３と、第１のフィルタ処理部２０３と、第１の記録部２１０と、を有する第１の録音装置１０１が構成される。

また、本発明の実施形態によれば、第２の音声入力部３１３と、第２の通信部３１１と、第２の周波数解析部３０４と、第２のフィルタ処理部３０３と、第２の記録部３１０と、を有する第２の録音装置１０２が構成される。

また、本発明の実施形態によれば、第１の録音装置１０１と第２の録音装置１０２とを有する録音システム１０が構成される。

また、本発明の実施形態によれば、第１の音声入力ステップ（ステップＳ１２００）と、第１の周波数解析ステップ（ステップＳ１２１２）と、条件決定ステップ（ステップＳ１２１０）と、雑音帯域検出ステップ（ステップＳ１２１６）と、第１のフィルタ処理ステップ（ステップＳ１２１８）と、第１の記録ステップ（ステップＳ１２１９）と、第１の送信ステップ（ステップＳ１２１３）と、受信ステップ（ステップＳ１２１４）と、第２の送信ステップ（ステップＳ１２１７）と、を有する第１の録音方法が構成される。

また、本発明の実施形態によれば、第２の音声入力ステップ（ステップＳ１３００）と、第２の周波数解析ステップ（ステップＳ１３１０）と、第２のフィルタ処理ステップ（ステップＳ１３１３）と、第２の記録ステップ（ステップＳ１３１４）と、第１の受信ステップ（ステップＳ１３０７）と、送信ステップ（ステップＳ１３１１）と、第２の受信ステップ（ステップＳ１３１２）と、を有する第２の録音方法が構成される。

また、本発明の実施形態によれば、第１の録音装置１０１のコンピュータに、第１の音声入力ステップ（ステップＳ１２００）と、第１の周波数解析ステップ（ステップＳ１２１２）と、条件決定ステップ（ステップＳ１２１０）と、雑音帯域検出ステップ（ステップＳ１２１６）と、第１のフィルタ処理ステップ（ステップＳ１２１８）と、第１の記録ステップ（ステップＳ１２１９）と、第１の送信ステップ（ステップＳ１２１３）と、受信ステップ（ステップＳ１２１４）と、第２の送信ステップ（ステップＳ１２１７）と、を実行させるための第１の録音プログラムが構成される。

また、本発明の実施形態によれば、第２の録音装置１０２のコンピュータに、第２の音声入力ステップ（ステップＳ１３００）と、第２の周波数解析ステップ（ステップＳ１３１０）と、第２のフィルタ処理ステップ（ステップＳ１３１３）と、第２の記録ステップ（ステップＳ１３１４）と、第１の受信ステップ（ステップＳ１３０７）と、送信ステップ（ステップＳ１３１１）と、第２の受信ステップ（ステップＳ１３１２）と、を実行させるための第２の録音プログラムが構成される。

本発明の実施形態では、複数の独立した録音装置が存在するシステムにおいて、雑音が低減された２つの音声データを得ることができる。また、第１の録音装置１０１と第２の録音装置１０２とにおいて、異なる音声品質のデジタルデータを得ることができる。

また、システム時刻の差分に基づいて、第１の周波数解析の第１の開始位置と第２の周波数解析の第２の開始位置とが決定される。このため、第１の録音装置１０１と第２の録音装置１０２とのシステム時刻が一致していない場合であっても、同一の期間に対応する第１の音声データと第２の音声データとに第１の周波数解析と第２の周波数解析とが行われる。この結果、第１の録音装置１０１は、雑音を精度良く低減するための雑音帯域を検出することができる。

以上、図面を参照して本発明の実施形態について詳述してきたが、具体的な構成は上記の実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。

１０録音システム
１０１第１の録音装置
１０２第２の録音装置
２０１第１のマイク部
２０２第１のＡ／Ｄ変換部
２０３第１のフィルタ処理部
２０４第１の周波数解析部
２０５第１の表示部
２０６第１の制御部
２０７第１の音声品質決定部
２０８第１のメモリ
２０９第１のクロック発生部
２１０第１の記録部
２１１第１の通信部
２１２第１の入力部
２１３雑音帯域検出部
２１４時刻差分算出部
２１５条件決定部
２１６第１の音声入力部
３０１第２のマイク部
３０２第２のＡ／Ｄ変換部
３０３第２のフィルタ処理部
３０４第２の周波数解析部
３０５第２の表示部
３０６第２の制御部
３０７第２の音声品質決定部
３０８第２のメモリ
３０９第２のクロック発生部
３１０第２の記録部
３１１第２の通信部
３１２第２の入力部
３１３第２の音声入力部

Claims

第１の録音装置であって、
第１の音声が入力され、入力された前記第１の音声から第１の音声データを生成する第１の音声入力部と、
第１の通信部と、
前記第１の音声データに対する第１の周波数解析を複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成する第１の周波数解析部と、
第１の開始位置と第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、第２の周波数解析が開始される第２の音声データの位置である条件決定部と、
前記第１の結果情報と第２の結果情報とに基づいて、雑音帯域を前記複数の解析範囲毎に検出する雑音帯域検出部と、
前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを生成する第１のフィルタ処理部と、
前記第３の音声データを記録する第１の記録部と、
を有し、
前記第１の通信部は、前記第２の開始位置と前記解析範囲とに関する情報を第２の録音装置に送信し、
前記第１の通信部はさらに、前記第２の結果情報を前記複数の解析範囲毎に前記第２の録音装置から受信し、
前記第１の通信部はさらに、前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第２の録音装置に送信し、
前記第２の録音装置は、第２の音声から前記第２の音声データを生成し、前記第２の音声データに対する前記第２の周波数解析を前記複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す前記第２の結果情報を前記複数の解析範囲毎に生成し、前記雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する
第１の録音装置。
前記第１の音声品質に基づいて、前記第２の音声データにおける第２の音声品質を決定し、前記第２の音声品質は前記第１の音声品質と異なる第１の音声品質決定部をさらに有し、
前記第１の通信部はさらに、前記第２の音声品質に関する音声品質情報を前記第２の録音装置に送信する
請求項１に記載の第１の録音装置。
前記第１の音声データと前記第２の音声データとを比較する比較処理により前記第１の音声と前記第２の音声との位相差を検出し、検出された前記位相差に基づいて前記第１の録音装置と前記第２の録音装置とのシステム時刻の差分を算出する時刻差分算出部をさらに有し、
前記条件決定部は、前記システム時刻の差分に基づいて前記第１の開始位置と前記第２の開始位置とを決定し、
前記第１の通信部はさらに、前記第２の音声データを第２の録音装置から受信する
請求項１に記載の第１の録音装置。
第２の録音装置であって、
第２の音声が入力され、入力された前記第２の音声から第２の音声データを生成する第２の音声入力部と、
第２の通信部と、
前記第２の音声データに対する第２の周波数解析を複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す第２の結果情報を前記複数の解析範囲毎に生成する第２の周波数解析部と、
雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する第２のフィルタ処理部と、
前記第４の音声データを記録する第２の記録部と、
を有し、
前記第２の通信部はさらに、第２の開始位置と前記解析範囲とに関する情報を第１の録音装置から受信し、
前記第２の通信部はさらに、前記第２の結果情報を前記複数の解析範囲毎に前記第１の録音装置に送信し、
前記第２の通信部はさらに、前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第１の録音装置から受信し、
前記第１の録音装置は、第１の音声から第１の音声データを生成し、第１の音声データに対する第１の周波数解析を前記複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成し、第１の開始位置と前記第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の結果情報と前記第２の結果情報とに基づいて、前記雑音帯域を前記複数の解析範囲毎に検出し、前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを前記複数の解析範囲毎に生成し、
前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、前記第２の周波数解析が開始される前記第２の音声データの位置である
第２の録音装置。
音声品質情報に基づいて前記第２の音声データにおける第２の音声品質を決定する第２の音声品質決定部をさらに有し、
前記第２の通信部はさらに、前記音声品質情報を前記第１の録音装置から受信する
請求項４に記載の第２の録音装置。
第１の録音装置と第２の録音装置とを有する録音システムであって、
前記第１の録音装置は、
第１の音声が入力され、入力された前記第１の音声から第１の音声データを生成する第１の音声入力部と、
第１の通信部と、
前記第１の音声データに対する第１の周波数解析を複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成する第１の周波数解析部と、
第１の開始位置と第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、第２の周波数解析が開始される第２の音声データの位置である条件決定部と、
前記第１の結果情報と第２の結果情報とに基づいて、雑音帯域を前記複数の解析範囲毎に検出する雑音帯域検出部と、
前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを生成する第１のフィルタ処理部と、
前記第３の音声データを記録する第１の記録部と、
を有し、
前記第１の通信部は、前記第２の開始位置と前記解析範囲とに関する情報を前記第２の録音装置に送信し、
前記第１の通信部はさらに、前記第２の結果情報を前記複数の解析範囲毎に前記第２の録音装置から受信し、
前記第１の通信部はさらに、前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第２の録音装置に送信し、
前記第２の録音装置は、
第２の音声が入力され、入力された前記第２の音声から前記第２の音声データを生成する第２の音声入力部と、
第２の通信部と、
前記第２の音声データに対する前記第２の周波数解析を複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す第２の結果情報を前記複数の解析範囲毎に生成する第２の周波数解析部と、
前記雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する第２のフィルタ処理部と、
前記第４の音声データを記録する第２の記録部と、
を有し、
前記第２の通信部は、前記第２の開始位置と前記解析範囲とに関する情報を前記第１の録音装置から受信し、
前記第２の通信部はさらに、前記第２の結果情報を前記複数の解析範囲毎に前記第１の録音装置に送信し、
前記第２の通信部はさらに、前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第１の録音装置から受信する
録音システム。
第１の録音装置が行う第１の録音方法であって、
第１の音声が入力され、入力された前記第１の音声から第１の音声データを生成する第１の音声入力ステップと、
前記第１の音声データに対する第１の周波数解析を複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成する第１の周波数解析ステップと、
第１の開始位置と第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、第２の周波数解析が開始される第２の音声データの位置である条件決定ステップと、
前記第１の結果情報と第２の結果情報とに基づいて、雑音帯域を前記複数の解析範囲毎に検出する雑音帯域検出ステップと、
前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを生成する第１のフィルタ処理ステップと、
前記第３の音声データを記録する第１の記録ステップと、
前記第２の開始位置と前記解析範囲とに関する情報を第２の録音装置に送信する第１の送信ステップと、
前記第２の結果情報を前記複数の解析範囲毎に前記第２の録音装置から受信する受信ステップと、
前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第２の録音装置に送信する第２の送信ステップと、
を有し、
前記第２の録音装置は、第２の音声から前記第２の音声データを生成し、前記第２の音声データに対する前記第２の周波数解析を前記複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す前記第２の結果情報を前記複数の解析範囲毎に生成し、前記雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する
第１の録音方法。
第２の録音装置が行う第２の録音方法であって、
第２の音声が入力され、入力された前記第２の音声から第２の音声データを生成する第２の音声入力ステップと、
前記第２の音声データに対する第２の周波数解析を複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す第２の結果情報を前記複数の解析範囲毎に生成する第２の周波数解析ステップと、
雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する第２のフィルタ処理ステップと、
前記第４の音声データを記録する第２の記録ステップと、
第２の開始位置と前記解析範囲とに関する情報を第１の録音装置から受信する第１の受信ステップと、
前記第２の結果情報を前記複数の解析範囲毎に前記第１の録音装置に送信する送信ステップと、
前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第１の録音装置から受信する第２の受信ステップと、
を有し、
前記第１の録音装置は、第１の音声から第１の音声データを生成し、第１の音声データに対する第１の周波数解析を前記複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成し、第１の開始位置と前記第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の結果情報と前記第２の結果情報とに基づいて、前記雑音帯域を前記複数の解析範囲毎に検出し、前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを前記複数の解析範囲毎に生成し、
前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、前記第２の周波数解析が開始される前記第２の音声データの位置である
第２の録音方法。
第１の録音装置のコンピュータに、
第１の音声が入力され、入力された前記第１の音声から第１の音声データを生成する第１の音声入力ステップと、
前記第１の音声データに対する第１の周波数解析を複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成する第１の周波数解析ステップと、
第１の開始位置と第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、第２の周波数解析が開始される第２の音声データの位置である条件決定ステップと、
前記第１の結果情報と第２の結果情報とに基づいて、雑音帯域を前記複数の解析範囲毎に検出する雑音帯域検出ステップと、
前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを生成する第１のフィルタ処理ステップと、
前記第３の音声データを記録する第１の記録ステップと、
前記第２の開始位置と前記解析範囲とに関する情報を第２の録音装置に送信する第１の送信ステップと、
前記第２の結果情報を前記複数の解析範囲毎に前記第２の録音装置から受信する受信ステップと、
前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第２の録音装置に送信する第２の送信ステップと、
を実行させるための第１の録音プログラムであって、
前記第２の録音装置は、第２の音声から前記第２の音声データを生成し、前記第２の音声データに対する前記第２の周波数解析を前記複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す前記第２の結果情報を前記複数の解析範囲毎に生成し、前記雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する
第１の録音プログラム。
第２の録音装置のコンピュータに、
第２の音声が入力され、入力された前記第２の音声から第２の音声データを生成する第２の音声入力ステップと、
前記第２の音声データに対する第２の周波数解析を複数の解析範囲毎に行い、前記第２の周波数解析の結果を示す第２の結果情報を前記複数の解析範囲毎に生成する第２の周波数解析ステップと、
雑音帯域のデータをフィルタリングする第２のフィルタを前記複数の解析範囲毎に生成し、前記第２のフィルタによる第２のフィルタ処理を前記第２の音声データに前記複数の解析範囲毎に施し、第４の音声データを前記複数の解析範囲毎に生成する第２のフィルタ処理ステップと、
前記第４の音声データを記録する第２の記録ステップと、
第２の開始位置と前記解析範囲とに関する情報を第１の録音装置から受信する第１の受信ステップと、
前記第２の結果情報を前記複数の解析範囲毎に前記第１の録音装置に送信する送信ステップと、
前記雑音帯域に関する情報を前記複数の解析範囲毎に前記第１の録音装置から受信する第２の受信ステップと、
を実行させるための第２の録音プログラムであって、
前記第１の録音装置は、第１の音声から第１の音声データを生成し、第１の音声データに対する第１の周波数解析を前記複数の解析範囲毎に行い、前記第１の周波数解析の結果を示す第１の結果情報を前記複数の解析範囲毎に生成し、第１の開始位置と前記第２の開始位置とを決定し、前記第１の音声データにおける第１の音声品質を考慮して前記解析範囲を決定し、前記第１の結果情報と前記第２の結果情報とに基づいて、前記雑音帯域を前記複数の解析範囲毎に検出し、前記雑音帯域のデータをフィルタリングする第１のフィルタを前記複数の解析範囲毎に生成し、前記第１のフィルタによる第１のフィルタ処理を前記第１の音声データに前記複数の解析範囲毎に施し、第３の音声データを前記複数の解析範囲毎に生成し、
前記第１の開始位置は、前記第１の周波数解析が開始される前記第１の音声データの位置であり、前記第２の開始位置は、前記第２の周波数解析が開始される前記第２の音声データの位置である
第２の録音プログラム。