JP6003472B2

JP6003472B2 - 音声解析装置、音声解析システムおよびプログラム

Info

Publication number: JP6003472B2
Application number: JP2012211177A
Authority: JP
Inventors: 原田　陽雄; 陽雄原田; 洋平西野; 靖飯田; 啓下谷; 米山　博人; 博人米山; 藤居　徹; 徹藤居
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2012-09-25
Filing date: 2012-09-25
Publication date: 2016-10-05
Anticipated expiration: 2032-09-25
Also published as: JP2014066579A; US9368118B2; US20140088966A1

Description

本発明は、音声解析装置、音声解析システム、プログラムに関する。

特許文献１には、互いに離間して配置された複数の無指向性マイクロフォンによってそれぞれ取得された音声信号のうち、任意の周波数帯域成分を出力する音声信号出力部と、音声信号の周波数帯域成分間の位相差に基づいて音声の到来方向を判別する到来方向判別部と、音声の到来方向に応じて音声信号に対する音量の補正量を導出する音声補正量導出部と、導出した補正量を用いて音声信号の音量を補正する音量補正実行部とを備える音声処理装置が開示されている。
特許文献２には、互いに離間して配置された複数のマイクロフォンと、マイクロフォンで収音された音声情報の位相差に基づいて、マイクロフォンへの音声の入射角θを算出する音方向情報算出部と、入射角θに基づいて、音源から発せられた音声の方向性を判別する音方向性判別部と、マイクロフォンで収音された音声情報から、方向性が確定していると判断される音声情報のみを検出する音声検出部と、を備える音声検出装置が開示されている。

特開２０１１−２０５３２４号公報特開２０１０−２８３６７６号公報

音声取得手段を装着する複数の装着者が対峙する距離を、絶対的な位相や時間の精密な測定をせずに把握することが望まれている。

請求項１に記載の発明は、音声を取得し第１の装着者に装着された第１の音声取得手段および音声を取得し第２の装着者に装着された第２の音声取得手段によりそれぞれ取得された音声について、当該それぞれの音声に関する情報をそれぞれの装着者から取得する音声情報取得手段と、前記第１の音声取得手段で取得した音声および当該第１の音声取得手段で取得した音声と同じ音声を前記第２の音声取得手段で取得した場合の音声がそれぞれの装着者の発話音声であるか他者の発話音声であるかを識別した情報である自他識別の情報と、当該第１の音声取得手段で取得した音声および当該第１の音声取得手段で取得した音声と同じ音声を当該第２の音声取得手段で取得した場合の音声に含まれる複数の周波数の正弦波間の位相差とに基づき、前記第１の装着者と前記第２の装着者との間の距離を導出する距離導出手段と、を備えたことを特徴とする音声解析装置である。

請求項２に記載の発明は、前記距離導出手段は、音声を第１の音声取得手段が自己の発話音声として取得し、当該第１の音声取得手段で取得した音声と同じ音声を第２の音声取得手段が他者の発話音声として取得した場合に、当該音声についてそれぞれ導出された前記位相差の位相によって、前記第１の装着者と前記第２の装着者との間の距離を導出することを特徴とする請求項１に記載の音声解析装置である。
請求項３に記載の発明は、前記距離導出手段は、複数の前記位相差によって前記第１の装着者と前記第２の装着者との間の仮の距離をそれぞれ導出し、複数の当該仮の距離の平均を前記第１の装着者と前記第２の装着者との間の距離とすることを特徴とする請求項１または２に記載の音声解析装置である。
請求項４に記載の発明は、前記距離導出手段は、複数の前記位相差によって前記第１の装着者と前記第２の装着者との間の仮の距離をそれぞれ導出し、複数の当該仮の距離の中から最も確度の高いものを選択して前記第１の装着者と前記第２の装着者との間の距離とすることを特徴とする請求項１乃至３の何れか１項に記載の音声解析装置である。

請求項５に記載の発明は、音声を取得し装着者に装着された音声取得手段と、前記音声取得手段で取得した音声が装着者の発話音声であるか他者の発話音声であるかを識別する自他識別手段と、前記音声取得手段で取得した音声に含まれる複数の周波数の正弦波間の位相差を導出する位相差導出手段と、前記自他識別手段からの自他識別の情報および前記位相差導出手段により導出された前記位相差の情報を含む音声に関する情報を送出する音声情報送出手段と、を備えたことを特徴とする音声解析装置である。

請求項６に記載の発明は、音声を取得し第１の装着者に装着された第１の音声取得手段と、音声を取得し第２の装着者に装着された第２の音声取得手段と、前記第１の音声取得手段で取得した音声および当該第１の音声取得手段で取得した音声と同じ音声を前記第２の音声取得手段で取得した場合の音声がそれぞれの装着者の発話音声であるか他者の発話音声であるかを識別した情報である自他識別の情報と、当該第１の音声取得手段で取得した音声および当該第１の音声取得手段で取得した音声と同じ音声を当該第２の音声取得手段で取得した場合の音声に含まれる複数の周波数の正弦波間の位相差とに基づき、前記第１の装着者と前記第２の装着者との間の距離を導出する距離導出手段と、を備えたことを特徴とする音声解析システムである。

請求項７に記載の発明は、コンピュータに、音声を取得し第１の装着者に装着された第１の音声取得手段および音声を取得し第２の装着者に装着された第２の音声取得手段によりそれぞれ取得された音声について、当該それぞれの音声に関する情報をそれぞれの装着者から取得する機能と、前記第１の音声取得手段で取得した音声および当該第１の音声取得手段で取得した音声と同じ音声を前記第２の音声取得手段で取得した場合の音声がそれぞれの装着者の発話音声であるか他者の発話音声であるかを識別した情報である自他識別の情報と、当該第１の音声取得手段で取得した音声および当該第１の音声取得手段で取得した音声と同じ音声を当該第２の音声取得手段で取得した場合の音声に含まれる複数の周波数の正弦波間の位相差とに基づき、前記第１の装着者と前記第２の装着者との間の距離を導出する機能と、を実現させるプログラムである。

請求項１の発明によれば、音声取得手段を装着する複数の装着者が対峙する距離を、絶対的な位相や時間の精密な測定をせずに把握することができる音声解析装置を提供できる。
請求項２の発明によれば、一方が自発話・他方が他発話とした音声について、複数の周波数の音波間の位相差を位相として用いて、装着者の間の距離を導出することができる。
請求項３の発明によれば、平均化効果が期待できる。
請求項４の発明によれば、本構成を採用しない場合に比較して、精度よく装着者の間の距離を導出することができる。
請求項５の発明によれば、音声取得手段を装着する複数の装着者が対峙する距離を、絶対的な位相や時間の精密な測定をせずに把握するために必要な情報を得られる音声解析装置を提供できる。
請求項６の発明によれば、音声取得手段を装着する複数の装着者が対峙する距離を、絶対的な位相や時間の精密な測定をせずに把握することができる音声解析システムを提供できる。
請求項７の発明によれば、音声取得手段を装着する複数の装着者が対峙する距離を、絶対的な位相や時間の精密な測定をせずに把握することができる機能をコンピュータにより実現できる。

本実施形態による音声解析システムの構成例を示す図である。本実施形態における端末装置の構成例を示す図である。装着者および他者の口（発声部位）と、マイクロフォンとの位置の関係を示す図である。マイクロフォンと音源との間の距離と音圧（入力音量）との関係を示す図である。装着者自身の発話音声と他者の発話音声の識別方法を示す図である。音声に含まれる種々の周波数の音波について説明した図である。２つの周波数の音波を選択し、この２つの周波数における音波の位相差の概念について説明した図である。本実施形態における端末装置の動作を示すフローチャートである。二人の装着者が会話を行なっているときに、この二人の装着者の間の距離を導出する方法について説明した図である。本実施形態におけるホスト装置の動作を示すフローチャートである。発話音声の中から３つ以上の異なる周波数の音波を選択し、それぞれの周波数の音波を使用して、音波の位相差を複数求める第１の例について説明した図である。周期解について説明した図である。発話音声の中から３つ以上の異なる周波数の音波を選択し、それぞれの周波数の音波を使用して、音波の位相差を複数求める第２の例について説明した図である。（ａ）は、導出される周期解について説明した図である。（ｂ）は、（ａ）の一部を拡大した図である。端末装置間との距離と、実際に導出される距離との関係について説明した図である。実施例の結果について示した図である。

＜システム構成例＞
図１は、本実施形態による音声解析システムの構成例を示す図である。
図１に示すように、本実施形態の音声解析システム１は、音声解析装置の一例である端末装置１０と、同様に音声解析装置の一例であるホスト装置２０とを備えて構成される。端末装置１０とホスト装置２０とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Ｗｉ−Ｆｉ（Wireless Fidelity）（登録商標）、Bluetooth（登録商標）、ZigBee（登録商標）、ＵＷＢ（Ultra Wideband）等の既存の方式による回線を用いて良い。また、図示の例では、端末装置１０が１台のみ記載されているが、詳しくは後述するように、端末装置１０は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置１０が用意される。以下、端末装置１０を装着した使用者を装着者と呼ぶ。

端末装置１０は、音声を取得し装着者に装着された音声取得手段としての複数のマイクロフォン（第１マイクロフォン１１および第２マイクロフォン１２）と、増幅器（第１増幅器１３および第２増幅器１４）とを備える。また、端末装置１０は、取得した音声を解析する音声解析部１５と、解析結果をホスト装置２０に送信するためのデータ送信部１６とを備え、さらに電源部１７とを備える。

第１マイクロフォン１１と第２マイクロフォン１２（以下、第１マイクロフォン１１と第２マイクロフォン１２とを区別しない場合には、マイクロフォン１１、１２と記載することがある）は、装着者の口（発声部位）からの距離が異なる位置に配される。ここでは、第１マイクロフォン１１は装着者の口（発声部位）から遠い位置（例えば、３５ｃｍ程度）に配置され、第２マイクロフォン１２は装着者の口（発声部位）に近い位置（例えば、１０ｃｍ程度）に配置されるものとする。本実施形態のマイクロフォン１１、１２として用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いて良い。とくに無指向性のＭＥＭＳ（Micro Electro Mechanical Systems）型マイクロフォンが好ましい。

第１増幅器１３および第２増幅器１４は、それぞれ第１マイクロフォン１１および第２マイクロフォン１２が取得した音声に応じて出力する電気信号（音声信号）を増幅する。本実施形態の第１増幅器１３および第２増幅器１４として用いられる増幅器としては、既存のオペアンプ等を用いて良い。

音声解析部１５は、第１増幅器１３および第２増幅器１４から出力された音声信号を解析する。そして、第１マイクロフォン１１および第２マイクロフォン１２で取得した音声が端末装置１０を装着した装着者自身の発話した音声か、他者の発話による音声かを識別する。また音声に含まれる複数の周波数の音波間の位相差を算出する。詳しくは後述するが、音声解析部１５は、マイクロフォン１１、１２が取得した音声が、装着者の発話音声であるか装着者以外の他者の発話音声であるかを識別する自他識別手段として機能する。さらにマイクロフォン１１、１２で取得した音声に含まれる複数の周波数の音波間の位相差を導出する位相差導出手段として機能する。

データ送信部１６は、音声解析部１５による解析結果を含む取得データと端末ＩＤを、上記の無線通信回線を介してホスト装置２０へ送信する。ホスト装置２０へ送信する情報としては、ホスト装置２０において行われる処理の内容に応じて、上記の解析結果の他、例えば、第１マイクロフォン１１および第２マイクロフォン１２による音声の取得時刻、取得音声の音圧等の情報を含めて良い。また端末装置１０に音声解析部１５による解析結果を蓄積するデータ蓄積部を設け、一定期間の保存データを一括送信しても良い。なお有線回線で送信しても良い。本実施形態ではデータ送信部１６は、自他識別手段からの自他識別の情報（自他識別情報）および位相差導出手段により導出された位相差の情報を含む音声に関する情報を送出する音声情報送出手段として機能する。

電源部１７は、上記の第１マイクロフォン１１、第２マイクロフォン１２、第１増幅器１３、第２増幅器１４、音声解析部１５およびデータ送信部１６に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部１７は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。

ホスト装置２０は、端末装置１０から送信されたデータを受信するデータ受信部２１と、受信したデータを蓄積するデータ蓄積部２２と、蓄積したデータを解析するデータ解析部２３と、解析結果を出力する出力部２４とを備える。このホスト装置２０は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、上記のように本実施形態では複数台の端末装置１０が使用され、ホスト装置２０は、その複数台の端末装置１０の各々からデータを受信する。

データ受信部２１は、上記の無線回線に対応しており、各端末装置１０からデータを受信してデータ蓄積部２２へ送る。詳しくは後述するが、本実施形態ではデータ受信部２１は、音声を取得し第１の装着者に装着されたマイクロフォン１１、１２および音声を取得し第２の装着者に装着されたマイクロフォン１１、１２によりそれぞれ取得された音声について、それぞれの音声に関する情報をそれぞれの装着者から取得する音声情報取得手段として機能する。データ蓄積部２２は、例えばパーソナルコンピュータの磁気ディスク装置等の記憶装置により実現され、データ受信部２１から取得した受信データを発話者別に蓄積する。ここで、発話者の識別は、端末装置１０から送信される端末ＩＤと、あらかじめホスト装置２０に登録されている発話者情報と端末ＩＤの照合により行う。また、端末装置１０から端末ＩＤのかわりに装着者の名前などの装着者情報を送信するようにしてもよい。

データ解析部２３は、例えばパーソナルコンピュータのプログラム制御されたＣＰＵにより実現され、データ蓄積部２２に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、端末装置１０の装着者どうしの対話頻度や各装着者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。詳しくは後述するが、本実施の形態では、データ解析部２３は、第１の装着者に装着されたマイクロフォン１１、１２で取得した音声および第１の装着者に装着されたマイクロフォン１１、１２で取得した音声と同じ音声を第２の装着者に装着されたマイクロフォン１１、１２で取得した場合の音声が、それぞれの装着者の発話音声であるか他者の発話音声であるかを識別した情報である自他識別の情報と、音声に含まれる複数の周波数の音波間の位相差とに基づき、第１の装着者と第２の装着者との間の距離を導出する距離導出手段として機能する。

出力部２４は、データ解析部２３による解析結果を出力したり、解析結果に基づく出力を行ったりする。この解析結果等を出力する手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。

＜端末装置の構成例＞
図２は、端末装置１０の構成例を示す図である。
上記のように、端末装置１０は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置１０は、図２に示すように、装置本体３０と、装置本体３０に接続された提げ紐４０とを備えた構成とする。図示の構成において、使用者は、提げ紐４０に首を通し、装置本体３０を首から提げて装着する。

装置本体３０は、金属や樹脂等で形成された薄い直方体のケース３１に、少なくとも第１増幅器１３、第２増幅器１４、音声解析部１５、データ送信部１６および電源部１７を実現する回路と電源部１７の電源（電池）とを収納して構成される。ケース３１には、装着者の氏名や所属等のＩＤ情報を表示したＩＤカード等を挿入するポケットを設けても良い。また、ケース３１自体の表面にそのようなＩＤ情報等を印刷したり、ＩＤ情報等を記載したシールを貼り付けたりしても良い。

提げ紐４０には、マイクロフォン１１、１２が設けられる。マイクロフォン１１、１２は、提げ紐４０の内部を通るケーブル（電線等）により、装置本体３０に収納された第１増幅器１３、第２増幅器１４に接続される。提げ紐４０の材質としては、革、合成皮革、木綿その他の天然繊維や樹脂等による合成繊維、金属等、既存の種々の材質を用いて良い。また、シリコン樹脂やフッ素樹脂等を用いたコーティング処理が施されていても良い。

この提げ紐４０は、筒状の構造を有し、提げ紐４０の内部にマイクロフォン１１、１２を収納している。マイクロフォン１１、１２を提げ紐４０の内部に設けることにより、マイクロフォン１１、１２の損傷や汚れを防ぎ、対話者がマイクロフォン１１、１２の存在を意識することが抑制される。なお、装着者の口（発声部位）から遠い位置に配置される第１マイクロフォン１１は、装置本体３０に設けても良い。本実施形態では、第１マイクロフォン１１が提げ紐４０に設けられる場合を例として説明する。

図２を参照すると、第１マイクロフォン１１は、提げ紐４０の装置本体３０に接続される端部（例えば、接続部位から１０ｃｍ以内の位置）に設けられている。これにより、装着者が提げ紐４０を首に掛けて装置本体３０を下げた状態で、第１マイクロフォン１１は、装着者の口（発声部位）から約３０ｃｍから４０ｃｍ程度離れた位置に配置される。なお、第１マイクロフォン１１が装置本体３０に設けられた場合も、装着者の口（発声部位）から第１マイクロフォン１１までの距離は同程度である。

第２マイクロフォン１２は、提げ紐４０の装置本体３０に接続される端部から離れた位置（例えば、接続部位から２０ｃｍ〜３０ｃｍ程度の位置）に設けられている。これにより、装着者が提げ紐４０を首に掛けて装置本体３０を下げた状態で、第２マイクロフォン１２は、装着者の首元（例えば鎖骨に当たる位置）に位置し、装着者の口（発声部位）から約１０ｃｍから２０ｃｍ程度離れた位置に配置される。

なお、本実施形態の端末装置１０は、図２に示す構成に限定されるものではない。例えば、マイクロフォン１１、１２は、第１マイクロフォン１１から装着者の口（発声部位）までの音波到達経路の距離が第２マイクロフォン１２から装着者の口（発声部位）までの音波到達経路の距離の数倍程度となるように、第１マイクロフォン１１と第２マイクロフォン１２の位置関係が特定されれば良い。したがって、第１マイクロフォン１１を首の後ろ側の提げ紐４０に設けても良い。また、マイクロフォン１１、１２は、上記のように提げ紐４０に設ける構成に限らず、種々の方法で装着者に装着して良い。例えば、第１マイクロフォン１１と第２マイクロフォン１２の各々を、個別にピン等を用いて衣服に固定するように構成しても良い。また、第１マイクロフォン１１と第２マイクロフォン１２の位置関係が所望の位置で固定されるようにデザインされた専用の装着具を用意して装着しても良い。

また、装置本体３０は、図２に示したように、提げ紐４０に接続されて装着者の首から提げられる構成に限らず、携帯することが容易な装置として構成されていれば良い。例えば、本実施形態のような提げ紐４０ではなく、クリップやベルトにより衣服や体に装着するように構成しても良いし、単にポケット等に納めて携帯するような構成としても良い。また、携帯電話機その他の既存の携帯型電子情報端末に、マイクロフォン１１、１２からの音声信号を受け付けて増幅し、解析する機能を実現させても良い。

さらにまた、マイクロフォン１１、１２と装置本体３０（あるいは音声解析部１５）を有線で接続するのではなく、無線通信により接続しても良い。第１増幅器１３、第２増幅器１４、音声解析部１５、データ送信部１６および電源部１７は、上記の構成例では単一のケース３１に収納されることとしたが、複数の個体として構成しても良い。例えば、電源部１７をケース３１に収納せず、外部電源に接続して使用する構成としても良い。

＜取得音声の非言語情報に基づく発話者（自他）の識別＞
次に、本実施形態における発話者の識別方法について説明する。
本実施形態のシステムは、端末装置１０に設けられた２つのマイクロフォン１１、１２により取得された音声の情報を用いて、端末装置１０の装着者自身の発話音声（自己の発話音声）と他者の発話音声とを識別する。言い換えれば、本実施形態は、取得音声の発話者に関して自他の別を識別する。また、本実施形態では、取得音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧（マイクロフォン１１、１２への入力音量）等の非言語情報に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。

図１および図２を参照して説明したように、本実施形態において、端末装置１０の第１マイクロフォン１１は装着者の口（発声部位）から遠い位置に配置され、第２マイクロフォン１２は装着者の口（発声部位）に近い位置に配置される。すなわち、装着者の口（発声部位）を音源とすると、第１マイクロフォン１１と音源との間の距離と、第２マイクロフォン１２と音源との間の距離が大きく異なる。具体的には、第１マイクロフォン１１と音源との間の距離は、第２マイクロフォン１２と音源との間の距離の１．５〜４倍程度である。ここで、マイクロフォン１１、１２における取得音声の音圧は、マイクロフォン１１、１２と音源との間の距離が大きくなるにしたがって減衰（距離減衰）する。したがって、装着者の発話音声に関して、第１マイクロフォン１１における取得音声の音圧と第２マイクロフォン１２における取得音声の音圧とは大きく異なる。

一方、装着者以外の者（他者）の口（発声部位）を音源とした場合を考えると、その他者が装着者から離れているため、第１マイクロフォン１１と音源との間の距離と、第２マイクロフォン１２と音源との間の距離は、大きく変わらない。装着者に対する他者の位置によっては、両距離の差は生じ得るが、装着者の口（発声部位）を音源とした場合のように、第１マイクロフォン１１と音源との間の距離が第２マイクロフォン１２と音源との間の距離の数倍となることはない。したがって、他者の発話音声に関して、第１マイクロフォン１１における取得音声の音圧と第２マイクロフォン１２における取得音声の音圧とは、装着者の発話音声の場合のように大きく異なることはない。

図３は、装着者および他者の口（発声部位）と、マイクロフォン１１、１２との位置の関係を示す図である。
図３に示す関係において、装着者の口（発声部位）である音源ａと第１マイクロフォン１１との間の距離をＬａ１、音源ａと第２マイクロフォン１２との間の距離をＬａ２とする。また、他者の口（発声部位）である音源ｂと第１マイクロフォン１１との間の距離をＬｂ１、音源ｂと第２マイクロフォン１２との間の距離をＬｂ２とする。この場合、次の関係が成り立つ。
Ｌａ１＞Ｌａ２（Ｌａ１≒１．５×Ｌａ２〜４×Ｌａ２）
Ｌｂ１≒Ｌｂ２

図４は、マイクロフォン１１、１２と音源との間の距離と音圧（入力音量）との関係を示す図である。
上述したように、音圧は、マイクロフォン１１、１２と音源との間の距離に応じて距離減衰する。図４において、距離Ｌａ１の場合の音圧Ｇａ１と距離Ｌａ２の場合の音圧Ｇａ２とを比較すると、音圧Ｇａ２は、音圧Ｇａ１の４倍程度となっている。一方、距離Ｌｂ１と距離Ｌｂ２とが近似するため、距離Ｌｂ１の場合の音圧Ｇｂ１と距離Ｌｂ２の場合の音圧Ｇｂ２とは、ほぼ等しい。そこで、本実施形態では、この音圧比の差を用いて、取得音声における装着者自身の発話音声と他者の発話音声とを識別する。なお、図４に示した例では、距離Ｌｂ１、Ｌｂ２を６０ｃｍとしたが、ここでは音圧Ｇｂ１と音圧Ｇｂ２とがほぼ等しくなることに意味があり、距離Ｌｂ１、Ｌｂ２は図示の値に限定されない。

図５は、装着者自身の発話音声と他者の発話音声の識別方法を示す図である。
図４を参照して説明したように、装着者自身の発話音声に関して、第２マイクロフォン１２の音圧Ｇａ２は、第１マイクロフォン１１の音圧Ｇａ１の数倍（例えば４倍程度）である。また、他者の発話音声に関して、第２マイクロフォン１２の音圧Ｇａ２は、第１マイクロフォン１１の音圧Ｇａ１とほぼ等しい（１倍程度）。そこで、本実施形態では、第２マイクロフォン１２の音圧と第１マイクロフォン１１の音圧との比に閾値を設定する。そして、音圧比が閾値よりも大きい音声は装着者自身の発話音声と判断し、音圧比が閾値よりも小さい音声は他者の発話音声と判断する。図５に示す例では、閾値を２とし、音圧比Ｇａ２／Ｇａ１は閾値２を超えるので装着者自身の発話音声と判断され、音圧比Ｇｂ２／Ｇｂ１は閾値２よりも小さいので他者の発話音声と判断されている。

ところで、マイクロフォン１１、１２により取得される音声には、発話音声の他に、環境音等のいわゆる雑音（ノイズ）が含まれる。この雑音の音源とマイクロフォン１１、１２との間の距離の関係は、他者の発話音声の場合と類似する。すなわち、図４、図５に示した例に類似し、雑音の音源ｃと第１マイクロフォン１１との間の距離をＬｃ１とし、雑音の音源ｃと第２マイクロフォン１２との間の距離をＬｃ２とすると、距離Ｌｃ１と距離Ｌｃ２とは近似する。そして、雑音の音源は他者より装着者から離れている場合が多く、マイクロフォン１１、１２の取得音声における音圧比Ｇｃ２／Ｇｃ１は、第２の閾値よりも小さくなる。しかし、このような雑音は、バンドパスフィルタやゲインフィルタ等を用いた既存の技術によるフィルタリング処理を行うことにより発話音声から分離され、除去される。

＜音声に含まれる複数の周波数の音波間の位相差＞
次に、本実施形態において、音声に含まれる複数の周波数の音波間の位相差を算出する方法について説明する。
図６は、音声に含まれる種々の周波数の音波について説明した図である。図６は、音声の一例として、「あ」の音を発声したときのパワースペクトルを示している。ここで図中横軸は、音声をフーリエ変換した後の周波数（Ｈｚ）であり、縦軸は、振幅を表わす。
図６に示すパワースペクトルによれば、このとき音声に含まれる音波は、約１１７Ｈｚである基本周波数の音波の成分と、この基本周波数に対し整数倍の周波数となる倍音の音波の成分が含まれていることがわかる。なお図では、基本周波数となる音波の成分を図中（i）で示し、倍音となる音波の成分を、（ii）、（iii）、（iv）、（v）、（vi）、（vii）、（viii）、(ix)でそれぞれ示している。なおこの場合（i）〜（ix）で示した音波の周波数は、それぞれ約１１７Ｈｚ刻みとなる。

本実施の形態では、音声に含まれる複数の周波数を選択する。そしてそれぞれの周波数における音波間の位相差を算出する。
図７（ａ）〜（ｃ）は、２つの周波数の音波を選択し、この２つの周波数における音波の位相差の概念について説明した図である。
図７（ａ）は、図６で示したパワースペクトルである。そして図７（ｂ）は、横軸を時間とし、縦軸を振幅としたときの音波の波形を表わす。このうち「ω１」で示す音波は、図６において（i）で示した基本周波数の音波の波形である。そして「ω２」で示す音波は、図６において（ii）で示した倍音の周波数の音波の波形である。図示するように「ω１」と「ω２」は、ともに正弦波となる。

そして「ω２−ω１」は、「ω１」で示す音波と「ω２」で示す音波の位相差を表わしたものである。つまり「ω１」で示す音波と「ω２」で示す音波とは、周波数が異なるため、その位相差は、時間の経過により一定の割合で変化していく。そしてその結果、図７（ｃ）に示すように位相差は０〜２πの間で周期的に変化し、「ω２−ω１」で示すような仮想的な正弦波として図示できる。即ち、「ω２−ω１」で示した波は、２つの周波数の音波の位相差が時間の経過によりどのように変化するかを示している。

なお上述した例では、図６において（i）で示した周波数の音波と（ii）で示した周波数の音波の組み合わせで、音波の位相差を考えたが、この組み合わせについては、例えば、図６における（i）〜（ix）で示した周波数の音波のうち２つを選択することで行なう。即ち、本実施の形態では、図７において、ピークを形成する周波数のうち２つを選択する。ただしこれに限られるものではなく、ピークを形成しない任意の周波数を選択することもできる。

＜端末装置の動作例＞
図８は、本実施形態における端末装置１０の動作を示すフローチャートである。
図８に示すように、端末装置１０のマイクロフォン１１、１２が音声を取得すると、各マイクロフォン１１、１２から取得音声に応じた電気信号（音声信号）が第１増幅器１３および第２増幅器１４へ送られる（ステップ１０１）。第１増幅器１３および第２増幅器１４は、マイクロフォン１１、１２からの音声信号を取得すると、信号を増幅して音声解析部１５へ送る（ステップ１０２）。

音声解析部１５は、第１増幅器１３および第２増幅器１４で増幅された信号に対してフィルタリング処理を行い、信号から環境音等の雑音（ノイズ）の成分を除去する（ステップ１０３）。次に、音声解析部１５は、雑音成分が除かれた信号に対し、一定の時間単位（例えば、数十分の一秒〜数百分の一秒）毎に、各マイクロフォン１１、１２の取得音声における平均音圧を求める（ステップ１０４）。そして、平均音圧がある閾値以上であるか否か（利得が有るか否か）を判断する（ステップ１０５）。

次に、音声解析部１５は、ステップ１０４で求めた各マイクロフォン１１、１２における平均音圧の利得が有る場合（ステップ１０５でＹｅｓ）、発話音声が有る（発話が行われた）と判断する。そして、第１マイクロフォン１１における平均音圧と第２マイクロフォン１２における平均音圧との比（音圧比）を求める（ステップ１０６）。ステップ１０６で求めた音圧比が閾値よりも大きい場合（ステップ１０７でＹｅｓ）、音声解析部１５は、発話音声は装着者自身の発話による音声であると判断する（ステップ１０８）。また、ステップ１０６で求めた音圧比が閾値よりも小さい場合（ステップ１０７でＮｏ）、音声解析部１５は、発話音声は他者の発話による音声であると判断する（ステップ１０９）。一方、ステップ１０４で求めた各マイクロフォン１１、１２における平均音圧の利得が無い場合（ステップ１０５でＮｏ）、音声解析部１５は、発話音声が無い（発話が行われていない）と判断する（ステップ１１０）。

そして音声解析部１５は、発話音声を高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）し、図６に示したようなパワースペクトルを作成する（ステップ１１１）。さらに音声解析部１５は、パワースペクトルから複数の周波数を選択し（ステップ１１２）、そして選択したそれぞれの周波数における音波間の位相差を算出する（ステップ１１３）。

この後、音声解析部１５は、データ送信部１６を介して、ステップ１０４〜ステップ１１３の処理で得られた情報を解析結果としてホスト装置２０へ送信する（ステップ１１４）。この解析結果としては、例えば、発話の有無、装着者の情報（端末ＩＤ）、マイクロフォン１１、１２により取得された音声が装着者の発話音声であるか装着者以外の他者の発話音声であるかを識別した情報である自他識別情報、ステップ１１２で選択した音声の周波数、ステップ１１３で算出した音波間の位相差等である。またこのとき、発話者毎（装着者自身または他者）の発話時間の長さや平均音圧の利得の値、その他の付加情報を解析結果と共にホスト装置２０へ送信させても良い。

なお、本実施形態では、第１マイクロフォン１１の音圧と第２マイクロフォン１２の音圧とを比較することにより、発話音声が装着者自身の発話による音声か他者の発話による音声かを判断した。本実施形態はこれに限定されるものではないが、発話者の識別は言語情報を解析せずに行えることが好ましい。非言語情報に基づいて発話者を識別する手法としては音圧の比較には限定されず、例えば、第１マイクロフォン１１における音声取得時刻（音声信号の出力時刻）と第２マイクロフォン１２における音声取得時刻とを比較しても良い。この場合、装着者自身の発話音声は、装着者の口（発声部位）から第１マイクロフォン１１までの距離と、装着者の口（発声部位）から第２マイクロフォン１２までの距離との差が大きいため、音声取得時刻にある程度の差（時間差）が生じる。一方、他者の発話音声は、装着者の口（発声部位）から第１マイクロフォン１１までの距離と、装着者の口（発声部位）から第２マイクロフォン１２までの距離との差が小さいため、装着者の発話音声の場合よりも音声取得時刻の時間差が小さい。そこで、音声取得時刻の時間差に対して閾値を設定し、音声取得時刻の時間差が閾値よりも大きい場合には装着者自身の発話と判断し、音声取得時刻の時間差が閾値よりも小さい場合には他者の発話と判断するようにしても良い。

＜装着者の間の距離の導出−第１の実施形態＞
ホスト装置２０のデータ受信部２１では、上述した解析結果の情報を含む音声に関する情報を受信する。
音声に関する情報を受信したホスト装置２０では、データ解析部２３において複数の端末装置１０から送られた音声が解析され、装着者の間の距離が導出される。
以下に本実施の形態における装着者の間の距離を導出する具体的な方法について説明を行なう。ここでは二人の装着者が会話を行なっている場合について考える。

図９は、二人の装着者が会話を行なっているときに、この二人の装着者の間の距離を導出する方法について説明した図である。
図では、二人の装着者として、装着者Ａ（第１の装着者）と装着者Ｂ（第２の装着者）がおり、そして装着者Ａが発声している場合を示している。なお説明の便宜上、ここでは装着者Ａが装着する端末装置１０を端末装置１０Ａとする。また装着者Ｂが装着する端末装置１０を端末装置１０Ｂとする。このとき端末装置１０Ａに備えられるマイクロフォン１１、１２は第１の音声取得手段として捉えることができ、端末装置１０Ｂに備えられるマイクロフォン１１、１２は第２の音声取得手段として捉えることができる。

このとき装着者Ａの発話音声には、異なる周波数の音波である、「ω１」で示す音波と、「ω２」で示す音波が含まれているとし、これらの音波が、端末装置１０Ａおよび端末装置１０Ｂに向けて進行する様子を図示している。さらにこの場合、図７で説明したように、「ω１」で示す音波と「ω２」で示す音波から、「ω２−ω１」で示すような仮想的な正弦波が得られる。
この状況において、装着者Ａの発話音声は、時間の経過に従い、まず装着者Ａの端末装置１０Ａにより捉えることができる。さらにその後、装着者Ｂの端末装置１０Ｂより捉えることができる。
そして端末装置１０Ａおよび端末装置１０Ｂでは、それぞれ「ω１」で示す音波と「ω２」で示す音波の位相差を得ることができる。これは「ω２−ω１」で示す正弦波の位相を得ることができると言い換えることもできる。

この「ω２−ω１」で示す正弦波の位相は、データ受信部２１により受信され、データ解析部２３に送られる。この「ω２−ω１」で示す正弦波の周波数は、「ω１」で示す音波と「ω２」で示す音波のそれぞれの周波数の差となる。また音速は、装着者Ａおよび装着者Ｂが存在する空間の温度や圧力等から求めることができる。よって「ω２−ω１」で示す正弦波の波長がわかるので、「ω２−ω１」で示す正弦波の位相を基にして、端末装置１０Ａと端末装置１０Ｂとの距離が導出できることになる。この距離は、装着者Ａと装着者Ｂとの距離とほぼ同じであるため、この距離を装着者の間の距離（第１の装着者と第２の装着者との間の距離）とすることができる。
即ち、ここでは、複数の装着者の中の１人（装着者Ａ）の発話音声を自己の発話音声として取得した場合に導出された位相差の位相と、これと同じ音声を他者の発話音声として取得した場合に導出された位相差の位相とを比較することで、装着者の間の距離を導出している。これは、音声を装着者Ａのマイクロフォン１１、１２が自己の発話音声として取得し、装着者Ａのマイクロフォン１１、１２で取得した音声と同じ音声を装着者Ｂのマイクロフォン１１、１２が他者の発話音声として取得した場合に、この音声についてそれぞれ導出された位相差の位相によって、装着者Ａと装着者Ｂとの間の距離を導出すると言い換えることもできる。

＜ホスト装置の動作例＞
図１０は、本実施形態におけるホスト装置２０の動作を示すフローチャートである。
以下、図１、図１０を使用して本実施形態のホスト装置２０の動作を説明する。
まずデータ受信部２１が、複数の端末装置１０から自他識別情報、図８のステップ１１２で選択した音声の周波数、ステップ１１３で算出した音波間の位相差を含む音声に関する情報を受信する（ステップ２０１）。そしてこの情報は、いったんデータ蓄積部２２に蓄積される（ステップ２０２）。

次にデータ解析部２３が、複数の装着者の端末装置１０から送られた音声を解析し、装着者の間の距離を導出する。
装着者の会話関係を判定には、まずデータ解析部２３は、端末装置１０から送信された自他識別情報を基にして、自己発話であると識別したものを検知する（ステップ２０３）。
次にデータ解析部２３は、自己発話であると検知した発話音声に対し、音波間の位相差を取得する（ステップ２０４）。

またデータ解析部２３は、自己発話であると検知した発話音声に対応し、この発話音声を他者の発話であるとしたものを検知する（ステップ２０５）。ここでは、例えば、ステップ２０３の自己発話とオン・オフのタイミングがほぼ同期している他者発話のデータを検知すればよい。
さらにデータ解析部２３は、他者の発話であると検知したこの発話音声に対し、音波間の位相差を取得する（ステップ２０６）。

そしてこの位相差を取得したときの音声の周波数と、ステップ２０４とステップ２０６で取得した位相差の差と、音速とから装着者の間の距離を導出する（ステップ２０７）。

以上のようにして端末装置１０を装着する装着者の間の距離を導出することができる。そしてこれを基にして、それぞれの装着者におけるコミュニケーションの傾向を分析することができる。

なお単に装着者Ａから装着者Ｂに伝搬する音波の位相を見ることにより、装着者の間の距離を求める従来の方法では、この音波の絶対的な位相を知る必要がある。さらに音波の位相を取得した際の時間を厳密に知る必要がある。つまり予め定められた周波数の音波について、装着者Ａの端末装置１０Ａに捉えられた音声の取得時刻およびこの音波の絶対的な位相と、装着者Ｂの端末装置１０Ｂに捉えられた音声の取得時刻およびこの音波の絶対的な位相が必要となる。しかしながら、絶対的な位相の取得には精密な測定が必要になる。また取得時刻については、正確に測定することは、一般に困難であることが多い。音声の取得時刻は、例えば、端末装置１０Ａと端末装置１０Ｂに時計を内蔵させ、この時計により計測することができるが、端末装置１０Ａと端末装置１０Ｂのそれぞれの時計を厳密に同期させる必要があるためである。

一方、本実施の形態では、自他識別情報の他に、２つの周波数の音波について、装着者Ａの端末装置１０Ａに捉えられた音声の位相差と装着者Ｂの端末装置１０Ｂに捉えられた音声の位相差を知ることができればよい。そのため音声の取得時刻や絶対的な位相は、知る必要はない。一方、音声の位相差は、引き算というシンプルな計算で取得することができる。

なお上述した例では、音声の自他識別や音波の位相差を求めるのを、端末装置１０の側で行なっていたが、これに限られるものではなく、ホスト装置２０の側で行なってもよい。この形態における音声解析システム１としては、図１のものに対し、音声解析部１５で行なっていた音声の自他識別を、例えば、ホスト装置２０のデータ解析部２３で行なう。

また上述した例では、音声の自他識別を行なうのに端末装置１０を例に挙げたが、これに限られるものではなく、音声の自他識別を行なうことができるものであればよい。例えば、指向性のマイクロフォンを使用し、発話音声が来る方向に対し、指向性のマイクロフォンで取得される音圧が異なることを利用して、発話音声の自他識別を行なうこともできる。この場合、指向性のマイクロフォンが音声取得手段として機能する。

＜装着者の間の距離の導出−第２の実施形態＞
また上述した例では、説明をわかりやすくするため、発話音声の中から２つの異なる周波数の音波を選択し、この２つの音波の位相差を１つ求めていたが、これに限られるものではない。
図１１は、発話音声の中から３つ以上の異なる周波数の音波を選択し、それぞれの周波数の音波を使用して、音波の位相差を複数求める第１の例について説明した図である。
図１１では、（i）〜（ix）で示した周波数の音波について、隣接する周波数の音波をそれぞれ選択する場合を示している。即ちこの場合は、（i）と（ii）、（ii）と（iii）、（iii）と（iv）、（iv）と（v）、（v）と（vi）、（vi）と（vii）、（vii）と（viii）、および（viii）と（ix）で示した８組の周波数の音波を選択し、これらの位相差を求める。なおこれらの周波数の差は、図６で説明したように、約１１７Ｈｚでほぼ一定となる。
そしてこれら８組の組毎に音波の位相差を使用することで、装着者の間の距離を求める。つまり８組の周波数の音波を選択することで、位相差も８通り得られる。さらにこれにより得られる装着者の間の距離も８通り導出できる。本実施の形態では、この導出された８通りの距離を装着者の間の仮の距離とし、そして仮の距離の平均を、最終的な装着者の間の距離とする。
このように平均化を行なうことで、装着者の間の距離をより精度よく求めることができる。

なお単に装着者Ａから装着者Ｂに伝搬する音波の位相を見ることにより、装着者の間の距離を求める従来の方法においても、複数の周波数の音波の位相を見ることで、装着者の間の距離の精度を向上させることは、可能である。しかしながらこの場合、選択できる音波の周波数の帯域は、広くない。つまり、より高い周波数を使用して装着者の間の距離を求める場合、次に説明する周期解の問題が生ずる。より具体的には、周期解のピッチが小さくなりすぎることにより、どれが正解であるかを判断することが困難となる。よって選択できる周波数の数は少なくならざるを得ないので、装着者の間の距離を求める際に、精度を向上させるのには限度がある。
対して、本実施の形態では、異なる周波数の音波の周波数の差を利用するため、より高い周波数のものも組み合わせることができ、多様な組み合わせが可能である。よってこのような問題は生じにくい。

＜周期解の説明＞
次に周期解について説明を行なう。
図１２は、周期解について説明した図である。ここで横軸は、実際の装着者の間の距離である。また縦軸は、本実施の形態の方法により導出された装着者の間の距離である。ここでは例えば、実際の装着者の間の距離が２ｍであった場合に、本実施の形態の方法により得られた装着者の間の距離は、２ｍのみならず、−３．８ｍ、−０．９ｍ、４．９ｍ、７．８ｍの場合もあることになっている。これは、上記２つの異なる周波数の音波の位相差は０〜２πの間を採るが、この位相差は、１周期ずれれば、また元の値に戻る。よって位相差が１周期ずれる毎にそれぞれ解が得られることになる。図１２の場合では、この１周期の長さが２．９ｍであるため、２．９ｍピッチで周期的な解（周期解）が得られる。
本実施の形態では、この複数得られる解の中から正解を選択することが必要となる。正解を選択の方法の一例としては、装着者同士が会話をするための距離として、近すぎたり遠すぎたりする距離を排除することによって求める方法を採用することができる。そしてこれにより、２ｍを適切な距離として選択することができる。

＜装着者の間の距離の導出−第３の実施形態＞
また本実施の形態では、周期解の中から正解を選択する方法として、以下の方法を用いることができる。ここでは、発話音声の音波の中から選択する周波数を、図１１の場合とは別の方法とすることで、周期解の中から正解をより選択しやすくする。
図１３および図１４（ａ）〜（ｂ）は、周期解の中から正解を選択する方法の一例を説明した図である。
このうち図１３は、発話音声の中から３つ以上の異なる周波数の音波を選択し、それぞれの周波数の音波を使用して、音波の位相差を複数求める第２の例について説明した図である。また図１４（ａ）は、これにより導出される周期解について説明した図である。そして図１４（ｂ）は、図１４（ａ）の一部を拡大した図である。
図１３に示すように、ここでは、３組の周波数の音波を選択している。つまり（i）と（ii）で示した組（組１）、（iii）と（x）で示した組（組２）、および（v）と（xi）で示した組（組３）の周波数の音波を選択する。これらの３組の周波数の差は、それぞれ１１７Ｈｚ、１９．５Ｈｚ、５８．６Ｈｚとなる。そしてこれらの組毎に、装着者の間の距離を求める。

上記３組の周波数を使用して装着者の間の距離を求めた場合、図１４（ａ）に示すように、上記組毎の周波数の差は異なるため、得られる解の周期も異なるものとなる。具体的には、（i）と（ii）の組の場合は、その周期は、２．９ｍとなる。さらに（iii）と（x）の組の場合は、１７．４ｍとなり、（v）と（xi）の組の場合は、５．８ｍとなる。

そして本実施の形態では、この３組の周期解がほぼ一致する箇所が正解であるとすることができる。つまり図１４（ａ）において、グループ（I）〜グループ（V）で示した５つのグループのうち、３組の周期解がほぼ一致するグループ（III）が正解であると判断する。

なお図１４（ｂ）に正解と判断された箇所において、得られた解と許容誤差を示している。ここで許容範囲は、実際の距離に対し、±５０ｃｍとしている。図１４（ｂ）によれば、（v）と（xi）の組の場合のみこの許容範囲から外れることがわかる。これは、選択した周波数の差が小さすぎることから生ずると考えられる。また選択した周波数の差が、大きすぎる場合は、周期解のピッチが小さくなりすぎ、どれが正解であるかを判断することが困難となる。よって本実施の形態の場合、選択する周波数の差は、１０Ｈｚ〜３００Ｈｚとすることが好ましく、５０Ｈｚ〜１５０Ｈｚとすることがさらに好ましい。

なお（v）と（xi）の組は、導出された距離の誤差が大きいため、この組についての値を「確からしくない値」として使用せずに正解を選択することも考えられる。また他の「確からしくない値」を排除する例としては、次のようなものがある。図１４（ａ）の場合では、グループ（I）、グループ（III）、グループ（V）が（i）と（ii）と（iii）と（x）の組の周期解が一致する。そしてこのうちグループ（I）は、装着者同士が会話をするための距離として遠すぎ、グループ（V）の解は、負の値であり実際にはないものとして排除できる。よってグループ（III）を正解と判断することができる。

このように本実施の形態では、異なる値となる複数の位相差を使用し、「確からしくない値」を排除することで、導出された複数の仮の距離の中から確度の高いものを選択し、装着者の間の距離とする。

＜装着者の間の距離の導出−第４の実施形態＞
また上述した例では、装着者Ａと装着者Ｂとの距離を端末装置１０Ａと端末装置１０Ｂとの距離を測定することで求めていたが、厳密には、導出される距離は、端末装置１０Ａと端末装置１０Ｂとの距離にはならない。
図１５は、端末装置１０Ａと端末装置１０Ｂとの距離と、実際に導出される距離との関係について説明した図である。
装着者Ａの口（発声部位）からの発話音声は、距離Ｌ１を伝搬し、装着者Ａの端末装置１０Ａのマイクロフォン１１に捉えられる。一方、装着者Ａの発話音声は、距離Ｌ２を伝搬し、装着者Ｂの端末装置１０Ｂのマイクロフォン１１に捉えられる。よって、これらのマイクロフォン１１により捉えられる装着者Ａの発話音声を基にして、導出される距離は、Ｌ２−Ｌ１となる。これは、端末装置１０Ａと端末装置１０Ｂとの距離（マイクロフォン１１同士の距離）ΔＬとは異なる。ただし、Ｌ２−Ｌ１とΔＬとの差はわずかであるため、Ｌ２−Ｌ１≒ΔＬとしても、問題が生じることは少ない。

ただし、この差を補正したい場合は、次のような方法が考えられる。
まず装着者Ａの口（発声部位）と、端末装置１０Ａのマイクロフォン１１と、端末装置１０Ａのマイクロフォン１１とを結ぶことで形成される三角形を考える。そしてこの三角形において、端末装置１０Ａのマイクロフォン１１の箇所の角度をθとする。この場合、θ＝９０°と近似できるため、下記の（１）式が成り立つ。
ΔＬ＝（Ｌ２^２―Ｌ１^２）^１／２ …（１）

Ｌ１の距離は、ほぼ固定であり、予め測定できる。そして導出される距離であるＬ２−Ｌ１にＬ１を加算すれば、Ｌ２も求まる。よってＬ１およびＬ２を、上記（１）式に適用することにより、ΔＬを求めることができる。
そしてこのような方法により求められたΔＬを、補正後の装着者の間の距離とすることができる。

＜プログラムの説明＞
なお図１０で説明を行った本実施形態におけるホスト装置２０が行なう処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、ホスト装置２０に設けられた制御用コンピュータ内部の図示しないＣＰＵが、ホスト装置２０の各機能を実現するプログラムを実行し、これらの各機能を実現させる。

よって図１０で説明を行ったホスト装置２０が行なう処理は、コンピュータに、音声を取得し第１の装着者に装着されたマイクロフォン１１、１２および音声を取得し第２の装着者に装着されたマイクロフォン１１、１２によりそれぞれ取得された音声について、それぞれの音声に関する情報をそれぞれの装着者から取得する機能と、第１の装着者に装着されたマイクロフォン１１、１２で取得した音声および第１の装着者に装着されたマイクロフォン１１、１２で取得した音声と同じ音声を第２の装着者に装着されたマイクロフォン１１、１２で取得した場合の音声が、それぞれの装着者の発話音声であるか他者の発話音声であるかを識別した情報である自他識別の情報と、音声に含まれる複数の周波数の音波間の位相差とに基づき、第１の装着者と第２の装着者との間の距離を導出する機能と、を実現させるプログラムとして捉えることもできる。

以下、本発明を実施例を用いてより詳細に説明するが、本発明は、その要旨を越えない限りこれらの実施例により限定されるものではない。

〔評価方法〕
装着者Ａおよび装着者Ｂに端末装置１０Ａおよび端末装置１０Ｂをそれぞれ装着させ、装着者Ａおよび装着者Ｂの距離を変更しつつ、装着者の間の距離を導出した。具体的には、図１１における（i）と（ii）で示す１１７Ｈｚと２３４Ｈｚの周波数の音波用い、この２つの周波数の音波の位相差を使用して、装着者Ａと装着者Ｂの間の距離を導出した。

〔評価結果〕
結果を図１６に示す。
図１６では、横軸を実際の距離、縦軸を上記の方法により導出された距離として、この２つの間の関係を図示している。これによれば、装着者Ａと装着者Ｂとの距離は、１ｍ〜３ｍまでについて、ほぼ正確に測定できることがわかる。なおこの導出された装着者Ａと装着者Ｂとの距離の誤差は、１８．２ｃｍ以内であった。

１…音声解析システム、１０…端末装置、１５…音声解析部、１６…データ送信部、２０…ホスト装置、２１…データ受信部、２３…データ解析部、３０…装置本体

Claims

音声を取得し第１の装着者に装着された第１の音声取得手段および音声を取得し第２の装着者に装着された第２の音声取得手段によりそれぞれ取得された音声について、当該それぞれの音声に関する情報をそれぞれの装着者から取得する音声情報取得手段と、
前記第１の音声取得手段で取得した音声および当該第１の音声取得手段で取得した音声と同じ音声を前記第２の音声取得手段で取得した場合の音声がそれぞれの装着者の発話音声であるか他者の発話音声であるかを識別した情報である自他識別の情報と、当該第１の音声取得手段で取得した音声および当該第１の音声取得手段で取得した音声と同じ音声を当該第２の音声取得手段で取得した場合の音声に含まれる複数の周波数の正弦波間の位相差とに基づき、前記第１の装着者と前記第２の装着者との間の距離を導出する距離導出手段と、
を備えたことを特徴とする音声解析装置。
前記距離導出手段は、音声を第１の音声取得手段が自己の発話音声として取得し、当該第１の音声取得手段で取得した音声と同じ音声を第２の音声取得手段が他者の発話音声として取得した場合に、当該音声についてそれぞれ導出された前記位相差の位相によって、前記第１の装着者と前記第２の装着者との間の距離を導出することを特徴とする請求項１に記載の音声解析装置。
前記距離導出手段は、複数の前記位相差によって前記第１の装着者と前記第２の装着者との間の仮の距離をそれぞれ導出し、複数の当該仮の距離の平均を前記第１の装着者と前記第２の装着者との間の距離とすることを特徴とする請求項１または２に記載の音声解析装置。
前記距離導出手段は、複数の前記位相差によって前記第１の装着者と前記第２の装着者との間の仮の距離をそれぞれ導出し、複数の当該仮の距離の中から最も確度の高いものを選択して前記第１の装着者と前記第２の装着者との間の距離とすることを特徴とする請求項１乃至３の何れか１項に記載の音声解析装置。
音声を取得し装着者に装着された音声取得手段と、
前記音声取得手段で取得した音声が装着者の発話音声であるか他者の発話音声であるかを識別する自他識別手段と、
前記音声取得手段で取得した音声に含まれる複数の周波数の正弦波間の位相差を導出する位相差導出手段と、
前記自他識別手段からの自他識別の情報および前記位相差導出手段により導出された前記位相差の情報を含む音声に関する情報を送出する音声情報送出手段と、
を備えたことを特徴とする音声解析装置。
音声を取得し第１の装着者に装着された第１の音声取得手段と、
音声を取得し第２の装着者に装着された第２の音声取得手段と、
前記第１の音声取得手段で取得した音声および当該第１の音声取得手段で取得した音声と同じ音声を前記第２の音声取得手段で取得した場合の音声がそれぞれの装着者の発話音声であるか他者の発話音声であるかを識別した情報である自他識別の情報と、当該第１の音声取得手段で取得した音声および当該第１の音声取得手段で取得した音声と同じ音声を当該第２の音声取得手段で取得した場合の音声に含まれる複数の周波数の正弦波間の位相差とに基づき、前記第１の装着者と前記第２の装着者との間の距離を導出する距離導出手段と、
を備えたことを特徴とする音声解析システム。
コンピュータに、
音声を取得し第１の装着者に装着された第１の音声取得手段および音声を取得し第２の装着者に装着された第２の音声取得手段によりそれぞれ取得された音声について、当該それぞれの音声に関する情報をそれぞれの装着者から取得する機能と、
前記第１の音声取得手段で取得した音声および当該第１の音声取得手段で取得した音声と同じ音声を前記第２の音声取得手段で取得した場合の音声がそれぞれの装着者の発話音声であるか他者の発話音声であるかを識別した情報である自他識別の情報と、当該第１の音声取得手段で取得した音声および当該第１の音声取得手段で取得した音声と同じ音声を当該第２の音声取得手段で取得した場合の音声に含まれる複数の周波数の正弦波間の位相差とに基づき、前記第１の装着者と前記第２の装着者との間の距離を導出する機能と、
を実現させるプログラム。