JP6007487B2

JP6007487B2 - 情報処理装置、情報処理システムおよびプログラム

Info

Publication number: JP6007487B2
Application number: JP2011268288A
Authority: JP
Inventors: 洋平西野; 原田　陽雄; 陽雄原田; 米山　博人; 博人米山; 啓下谷; 靖飯田; 孝雄内藤
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2011-12-07
Filing date: 2011-12-07
Publication date: 2016-10-12
Anticipated expiration: 2031-12-07
Also published as: JP2013121078A

Description

本発明は、対面角度出力装置、対面角度出力システムおよびプログラムに関する。

特許文献１には、ミラー部とミラー部を可動に支えて自動車内に設けられるミラー支持部とを含むルームミラーと、ミラー部の背後に隠れることなくミラー支持部に設けられた第１のマイクロフォンと、ミラー部に設けられた第２のマイクロフォンとを含み、第１のマイクロフォンは、マイクロフォン支持部を介してミラー支持部に設けられる自動車用マイクロフォンアレイ装置が開示されている。
特許文献２には、複数のマイクロホンで受音した信号を処理し、音源の位置を推定する方法において、まず、受音信号の相互相関関数を全てのマイクロホンの組について計算し、次に、上記相互相関関数について、基準マイクロホンと他のマイクロホンとの間の相互相関関数の最大値を与える時間差を求め、これを予備推定時間差とし、そして、全てのマイクロホンについての遅延和のパワーを最大にする時間差を上記予備推定時間差の近傍で探索して、これを推定時間差とし、最後に、上記推定時間差に基づいて音源位置を計算する音源位置推定方法が開示されている。

特開２００９−１８４４８０号公報特開平１１―３０４９０６号公報

本発明は、装着者の音声か他者の音声かを識別し、他者の音声の場合に、装着者と音声を発生する話者との向き合う角度である対面角度を、把握することを目的とする。

請求項１に記載の発明は、話者の音声を取得する少なくとも２以上の音声取得手段が取得した話者の音声の情報に基づいて、話者が端末装置を装着する装着者か当該装着者とは異なる人である他者かを識別した自他識別情報と、当該装着者と当該他者との向き合う角度である対面角度の情報とを取得する取得手段と、前記取得手段が取得した前記自他識別情報と前記対面角度の情報とに基づいて、前記装着者と前記他者との対話状況を特定する特定手段と、を備えたことを特徴とする情報処理装置である。

請求項２に記載の発明は、前記特定手段は、前記装着者と前記他者とが会話を行なっているか否かを特定することを特徴とする請求項１記載の情報処理装置である。
請求項３に記載の発明は、話者の音声を取得する少なくとも２以上の音声取得手段と、
前記少なくとも２以上の音声取得手段が取得した話者の音声の情報に基づいて、話者が本対面角度出力手段を装着する装着者か当該装着者とは異なる人である他者かを識別した自他識別情報と、当該装着者と当該話者との向き合う角度である対面角度の情報とを取得する取得手段と、前記取得手段により取得された前記自他識別情報と前記対面角度の情報とを送信する送信手段と、を備える対面角度出力手段と、前記対面角度出力手段の前記送信手段により送信された前記自他識別情報と前記対面角度の情報とを受信する受信手段と、前記受信手段が受信した前記自他識別情報と前記対面角度の情報とに基づいて、前記装着者と前記他者との対話状況を特定する特定手段と、を備えることを特徴とする情報処理システムである。

請求項４に記載の発明は、話者の音声を取得する少なくとも２以上の音声取得手段と、前記少なくとも２以上の音声取得手段により取得された前記音声の情報を送信する送信手段と、前記送信手段により送信された前記音声の情報を受信する受信手段と、前記受信手段により受信された複数の前記音声の情報に基づいて、話者が端末装置を装着する装着者か当該装着者とは異なる人である他者かを識別した自他識別情報と、当該装着者と当該他者との向き合う角度である対面角度の情報とを取得する取得手段と、前記取得手段が取得した前記自他識別情報と前記対面角度の情報とに基づいて、前記装着者と前記他者との対話状況を特定する特定手段と、を備えることを特徴とする情報処理システムである。

請求項５に記載の発明は、コンピュータに、話者の音声を取得する少なくとも２以上の音声取得手段が取得した話者の音声の情報に基づいて、話者が端末装置を装着する装着者か当該装着者とは異なる人である他者かを識別した自他識別情報と、当該装着者と当該他者との向き合う角度である対面角度の情報とを取得する機能と、取得した前記自他識別情報と前記対面角度の情報とに基づいて、前記装着者と前記他者との対話状況を特定する機能と、を実現させるプログラムである。

請求項１の発明によれば、装着者と他者の対話状況を特定することができる情報処理を提供できる。
請求項３の発明によれば、装着者と他者の対話状況を特定することができるシステムを構築できる。
請求項４の発明によれば、装着者と他者の対話状況を特定することができるシステムを構築できる。
請求項５の発明によれば、装着者と他者の対話状況を特定することができる機能をコンピュータにより実現できる。

本実施形態による対面角度出力システムの構成例を示す図である。端末装置の構成例を示す図である。本実施の形態における対面角度について説明した図である。第１マイクロフォンおよび第２マイクロフォンを使用して対面角度を求める方法について説明した図である。（ａ）〜（ｃ）は、本実施の形態において時間差を求める方法を説明した図である。対面角度と第１マイクロフォンと第２マイクロフォンに話者との音声が到達する時間差との関係を示した図である。端末装置の動作について説明したフローチャートである。（ａ）〜（ｂ）は、実際に使用される端末装置の具体例を示した図である。

以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
＜システム構成例＞
図１は、本実施形態による対面角度出力システムの構成例を示す図である。
図１に示すように、本実施形態の対面角度出力システム１は、対面角度出力装置の一例である端末装置１０とホスト装置２０とを備えて構成される。端末装置１０とホスト装置２０とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Ｗｉ−Ｆｉ（Wireless Fidelity）、Bluetooth（登録商標）、ZigBee、ＵＷＢ（Ultra Wideband）等の既存の方式による回線を用いて良い。また、図示の例では、端末装置１０が１台のみ記載されているが、詳しくは後述するように、端末装置１０は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置１０が用意される。

端末装置１０は、話者の音声を取得する音声取得手段として、話者の音声を取得する複数のマイクロフォン（第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、第３マイクロフォン１１ｃ）と、増幅器（第１増幅器１３ａ、第２増幅器１３ｂ、および第３増幅器１３ｃ）とを備える。また、端末装置１０は、収録音声を解析する音声解析部１５と、解析結果をホスト装置２０に送信するためのデータ送信部１６とを備え、さらに電源部１７とを備える。

本実施の形態において、第１マイクロフォン１１ａと第２マイクロフォン１１ｂとは、水平方向に予め定められた距離だけ離間して配される。ここでは、第１マイクロフォン１１ａと第２マイクロフォン１１ｂとは装着者の口に近い位置に水平方向に並んで配置され、この間の距離は例えば、１０ｃｍ〜２０ｃｍである。また第３マイクロフォン１１ｃは、第１マイクロフォン１１ａ、第２マイクロフォン１１ｂに対し装着者の口（発声部位）からの距離が遠い位置に配置される。ここでは、第３マイクロフォン１１ｃは、第１マイクロフォン１１ａ、第２マイクロフォン１１ｂから、例えば３５ｃｍ程度の距離をおいて下方に配置される。つまり本実施の形態では、端末装置１０に配されるマイクロフォンは、装着者の口からの距離が互いに異なる２つ、および水平方向の距離が離れた２つの双方を選択可能となっている。ここでは前者として、第１マイクロフォン１１ａと第３マイクロフォン１１ｃの組、および第２マイクロフォン１１ｂと第３マイクロフォン１１ｃの組が選択できる。さらに後者として、第１マイクロフォン１１ａと第２マイクロフォン１１ｂの組が選択できる。
本実施形態の第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、第３マイクロフォン１１ｃとして用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いて良い。とくに無指向性のＭＥＭＳ（Micro Electro Mechanical Systems）型マイクロフォンが好ましい。

第１増幅器１３ａ、第２増幅器１３ｂ、および第３増幅器１３ｃは、それぞれ第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、第３マイクロフォン１１ｃが取得音声に応じて出力する電気信号を増幅する。本実施形態の第１増幅器１３ａ、第２増幅器１３ｂ、第３増幅器１３ｃとして用いられる増幅器としては、既存のオペアンプ等を用いて良い。

音声解析部１５は、第１増幅器１３ａ、第２増幅器１３ｂ、第３増幅器１３ｃから出力された電気信号を解析する。そして詳しくは後述するが、話者が装着者か他者かを識別し、話者が他者と識別されたときに装着者と話者との向き合う角度である対面角度を出力する。即ち、音声解析部１５は、話者が装着者か他者かを識別する識別手段として機能するとともに、装着者と話者との向き合う角度である対面角度を出力する出力手段として機能する。

データ送信部１６は、音声解析部１５による解析結果を含む取得データと端末ＩＤを、上記の無線通信回線を介してホスト装置２０へ送信する。ホスト装置２０へ送信する情報としては、ホスト装置２０において行われる処理の内容に応じて、上記の解析結果の他、例えば、第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、第３マイクロフォン１１ｃによる音声の取得時刻、取得音声の音圧等の情報を含めて良い。また端末装置１０に音声解析部１５による解析結果を蓄積するデータ蓄積部を設け、一定期間の保存データを一括送信しても良い。なお有線回線で送信しても良い。本実施の形態では、データ送信部１６は、対面角度の情報を送信する送信手段として機能する。

電源部１７は、上記の第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、第３マイクロフォン１１ｃ、第１増幅器１３ａ、第２増幅器１３ｂ、第３増幅器１３ｃ、音声解析部１５およびデータ送信部１６に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部１７は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。

ホスト装置２０は、端末装置１０から送信されたデータを受信するデータ受信部２１と、受信したデータを蓄積するデータ蓄積部２２と、蓄積したデータを解析するデータ解析部２３と、解析結果を出力する出力部２４とを備える。このホスト装置２０は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、上記のように本実施形態では複数台の端末装置１０が使用され、ホスト装置２０は、その複数台の端末装置１０の各々からデータを受信する。

データ受信部２１は、上記の無線回線に対応しており、各端末装置１０からデータを受信してデータ蓄積部２２へ送る。本実施の形態では、データ受信部２１は、データ送信部１６により出力された対面角度の情報を受信する受信手段として機能する。データ蓄積部２２は、データ受信部２１から取得した受信データを発話者別に蓄積する。ここで、発話者の識別は、端末装置１０から送信される端末ＩＤと、あらかじめホスト装置２０に登録されている発話者名と端末ＩＤの照合により行う。また、端末装置１０から端末ＩＤのかわりに装着者状態を送信するようにしてもよい。

データ解析部２３は、データ蓄積部２２に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、端末装置１０の装着者どうしの対話頻度や各装着者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。

出力部２４は、データ解析部２３による解析結果を出力したり、解析結果に基づく出力を行ったりする。この解析結果等を出力する手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。

＜端末装置の構成例＞
図２は、端末装置１０の構成例を示す図である。
上記のように、端末装置１０は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置１０は、図２に示すように、装置本体３０と、装置本体３０に両端が接続することにより環形状をなす提げ紐４０とを備えた構成とする。図示の構成において、使用者は、提げ紐４０に首を通し、装置本体３０を首から提げて装着する。そのため本実施の形態では、装置本体３０および提げ紐４０を「人間の首に掛けられる部材」と表現できる。また本実施の形態では、端末装置１０を装着する使用者を装着者として表現することがある。

装置本体３０は、金属や樹脂等で形成された薄い直方体のケース３１に、少なくとも第１増幅器１３ａ、第２増幅器１３ｂ、第３増幅器１３ｃ、音声解析部１５、データ送信部１６および電源部１７を実現する回路と電源部１７の電源（電池）とを収納して構成される。また本実施の形態では、ケース３１に第３マイクロフォン１１ｃが設けられる。さらにケース３１には、装着者の氏名や所属等のＩＤ情報を表示したＩＤカード等を挿入するポケットを設けても良い。また、ケース３１自体の表面にそのようなＩＤ情報等を記載しても良い。

提げ紐４０には、第１マイクロフォン１１ａ、第２マイクロフォン１１ｂが設けられる（以下、第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、および第３マイクロフォン１１ｃをそれぞれ区別しない場合には、マイクロフォン１１ａ、１１ｂ、１１ｃと記載）。提げ紐４０の材質としては、革、合成皮革、木綿その他の天然繊維や樹脂等による合成繊維、金属等、既存の種々の材質を用いて良い。また、シリコン樹脂やフッ素樹脂等を用いたコーティング処理が施されていても良い。

この提げ紐４０は、筒状の構造を有し、提げ紐４０の内部にマイクロフォン１１ａ、１１ｂを収納している。マイクロフォン１１ａ、１１ｂを挙げ紐４０の内部に設けることにより、マイクロフォン１１ａ、１１ｂの損傷や汚れを防ぎ、対話者がマイクロフォン１１ａ、１１ｂの存在を意識することが抑制される。

＜話者が装着者か他者であるかを識別する方法の説明＞
以上の構成において、話者が装着者か装着者以外の者である他者であるかを識別（自他識別）する方法について説明する。
本実施形態のシステムは、端末装置１０に設けられたマイクロフォンのうち、例えば、第１マイクロフォン１１ａと第３マイクロフォン１１ｃにより収録された音声の情報を用いて、端末装置１０の装着者自身の発話音声と他者の発話音声とを識別する。言い換えれば、本実施形態は、収録音声の発話者に関して自他の別を識別する。また、本実施形態では、収録音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧（第１マイクロフォン１１ａと第３マイクロフォン１１ｃへの入力音量）等の非言語情報に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。

図１および図２を参照して説明したように、本実施形態において、端末装置１０の第３マイクロフォン１１ｃは装着者の口（発声部位）から遠い位置に配置され、第１マイクロフォン１１ａは装着者の口（発声部位）に近い位置に配置される。すなわち、装着者の口（発声部位）を音源とすると、第１マイクロフォン１１ａと音源との間の距離と、第３マイクロフォン１１ｃと音源との間の距離が大きく異なる。例えば、第１マイクロフォン１１ａと音源との間の距離は、第３マイクロフォン１１ｃと音源との間の距離の１．５〜４倍程度に設定することができる。ここで、マイクロフォン１１ａ、１１ｃにおける収録音声の音圧は、マイクロフォン１１ａ、１１ｃと音源との間の距離が大きくなるにしたがって減衰（距離減衰）する。したがって、装着者の発話音声に関して、第１マイクロフォン１１ａにおける収録音声の音圧と第３マイクロフォン１１ｃにおける収録音声の音圧とは大きく異なる。

一方、装着者以外の者（他者）の口（発声部位）を音源とした場合を考えると、その他者が装着者から離れているため、第１マイクロフォン１１ａと音源との間の距離と、第３マイクロフォン１１ｃと音源との間の距離は、大きく変わらない。装着者に対する他者の位置によっては、両距離の差は生じ得るが、装着者の口（発声部位）を音源とした場合のように、第１マイクロフォン１１ａと音源との間の距離が第３マイクロフォン１１ｃと音源との間の距離の数倍となることはない。したがって、他者の発話音声に関して、第１マイクロフォン１１ａにおける収録音声の音圧と第３マイクロフォン１１ｃにおける収録音声の音圧とは、装着者の発話音声の場合のように大きく異なることはない。

そこで、本実施形態では、第１マイクロフォン１１ａにおける収録音声の音圧と第３マイクロフォン１１ｃにおける収録音声の音圧の比である音圧比を求める。そしてこの音圧比の差を用いて、収録音声における装着者自身の発話音声と他者の発話音声とを識別する。より具体的には、本実施形態では、第３マイクロフォン１１ｃの音圧と第１マイクロフォン１１ａの音圧との比に閾値を設定する。そして、音圧比が閾値よりも大きい音声は装着者自身の発話音声と判断し、音圧比が閾値よりも小さい音声は他者の発話音声と判断する。

なお上述した例では、第１マイクロフォン１１ａと第３マイクロフォン１１ｃを使用して自他識別の判断を行なったが、これに限られるものではなく、第２マイクロフォン１１ｂと第３マイクロフォン１１ｃを使用しても同様であることは勿論である。
また上述した例では、第１マイクロフォン１１ａおよび第３マイクロフォン１１ｃによる収録音声の音圧を基に自他識別の判断を行なったが、これに収録音声の位相差の情報を加味することも考えられる。つまり装着者の口（発声部位）を音源とすると、上述した通り、第１マイクロフォン１１ａと音源との間の距離と、第３マイクロフォン１１ｃと音源との間の距離は大きく異なる。そのため第１マイクロフォン１１ａによる収録音声と、第３マイクロフォン１１ｃによる収録音声の位相差は大きくなる。一方、装着者以外の者（他者）の口（発声部位）を音源とした場合は、上述の通り、他者が装着者から離れているため、第１マイクロフォン１１ａと音源との間の距離と、第３マイクロフォン１１ｃと音源との間の距離は、大きく変わらない。そのため第１マイクロフォン１１ａによる収録音声と、第３マイクロフォン１１ｃによる収録音声の位相差は小さくなる。よって第１マイクロフォン１１ａおよび第３マイクロフォン１１ｃによる収録音声の位相差を考慮することで自他識別の判断の精度が向上する。

＜対面角度の説明＞
図３は、本実施の形態における対面角度について説明した図である。
本実施の形態において対面角度とは、端末装置１０の装着者と話者との向き合う角度である。そして本実施の形態で定義される対面角度の一例として図３では、水平方向の対面角度を示している。つまり図３は、装着者と話者を頭上から見た図である。そして本実施の形態は、本実施の形態では、対面角度αとして、２個の音声取得手段である第１マイクロフォン１１ａと第２マイクロフォン１１ｂとを結ぶ線分と、この線分の中点および話者を結ぶ線分との角度を採用する。これにより対面角度の数学的取り扱いがより簡単になる。そしてこの定義を採用した場合、例えば、装着者と話者とがそれぞれ正面を向いて対向しているときは、この二人の対面角度αは、９０°となる。

＜対面角度を求める方法の説明＞
図４は、第１マイクロフォン１１ａおよび第２マイクロフォン１１ｂを使用して対面角度αを求める方法について説明した図である。
ここで、点Ｓが話者の位置、より正確には、話者の音声の音源である発声点の位置であるとする。そして発声点から発した音声は、点Ｓから同心円状に広がる。ただし音声は有限の速度である音速で広がるため音声が第１マイクロフォン１１ａに到達した時間と第２マイクロフォン１１ｂに到達した時間とは異なり、音声の行路差δに対応した時間差Δｔが生じる。そして第１マイクロフォン１１ａと第２マイクロフォン１１ｂとの間の距離をＤ、中点Ｃと点Ｓの間の距離をＬとするとこれらの間には次の（１）式が成立する。

δ＝（Ｌ^２＋ＬＤcosα＋Ｄ^２／４）^０．５−（Ｌ^２−ＬＤcosα＋Ｄ^２／４）^０．５ …（１）

この（１）式は、Ｌ＞Ｄの場合、Ｌによる影響が小さいため、下記（２）式に近似できる。

δ≒Ｄcosα …（２）

また音速ｃと時間差Δｔを使用すると、下記（３）式が成立する。

δ＝ｃΔｔ …（３）

つまりこの（２）式および（３）式を使用することで、対面角度αが求まる。つまり２つの音声取得手段である第１マイクロフォン１１ａと第２マイクロフォン１１ｂに話者の音声が到達する時間差Δｔおよび第１マイクロフォン１１ａと第２マイクロフォン１１ｂが離間する距離Ｄに基づいて、装着者と話者との向き合う角度である対面角度αを計算することができる。

また第１マイクロフォン１１ａと第２マイクロフォン１１ｂに話者の音声が到達する時間差Δｔは、以下のようにして求めることができる。
図５（ａ）〜（ｃ）は、本実施の形態において時間差Δｔを求める方法を説明した図である。このうち図５（ａ）は、第１マイクロフォン１１ａと第２マイクロフォン１１ｂに到達する話者の音声をサンプリング周波数１ＭＨｚでサンプリングし、そのデータの中から連続する５０００ポイントを抜き出した図である。
ここで横軸は５０００ポイントのデータにそれぞれに付けられたデータ番号を表わし、縦軸は、話者の音声の振幅を表わす。そして実線は、第１マイクロフォン１１ａに到達した話者の音声の波形信号であり、点線は、第２マイクロフォン１１ｂに到達した話者の音声の波形信号である。

本実施の形態では、この２つの波形信号の相互相関関数を求める。つまり一方の波形信号を固定し、他方の波形信号をシフトしつつ積和をとる計算を行なう。図５（ｂ）〜（ｃ）は、この２つの波形信号に対する相互相関関数を示した図である。このうち図５（ｂ）は、サンプリングした５０００ポイントのデータ全体の相互相関関数であり、図５（ｃ）は、図５（ｂ）に示した相互相関関数のピーク付近を拡大した図である。なお図５（ｂ）〜（ｃ）では、第１マイクロフォン１１ａに到達した話者の音声の波形信号を固定し、第２マイクロフォン１１ｂに到達した話者の音声の波形信号をシフトして相互相関関数を求めた場合を示している。
図５（ｃ）に示すようにデータ番号０を基準にしてピーク位置は、−２２７ポイントずれている。これは第１マイクロフォン１１ａを基準にして第２マイクロフォン１１ｂに到達する話者の音声が、この分遅延して到達することを意味する。本実施の形態においてサンプリング周波数は、上述の通り１ＭＨｚなので、サンプリングした各データ間の時間は、１×１０^−６（ｓ）である。よってこの遅延時間としては２２７×１×１０^−６（ｓ）＝２２７（μｓ）となる。つまりこの場合、時間差Δｔは、２２７（μｓ）である。

また本実施の形態では、振幅を予め定められた周波数帯毎に分け、最も振幅が大きい周波数帯について大きい重み付けをして相互相関関数を求めている。これにより求められる時間差Δｔがより正確になる。またこの時間差Δｔをより正確に求めるために第１マイクロフォン１１ａと第２マイクロフォン１１ｂの距離は１ｃｍ〜１００ｃｍの範囲内になることが好ましい。第１マイクロフォン１１ａと第２マイクロフォン１１ｂの距離が１ｃｍ未満であると時間差Δｔが小さくなりすぎ、この後導出される対面角度の誤差が大きくなりやすい。また１００ｃｍより大きいと時間差Δｔを導出する際に、反射音の影響を受けやくなる。また相互相関関数を求める際に、より長い時間幅について計算を行なう必要があるため計算に要する負荷が大きくなる。

図６は、対面角度αと第１マイクロフォン１１ａと第２マイクロフォン１１ｂに話者の音声が到達する時間差Δｔとの関係を示した図である。図６において、横軸は対面角度α（°）を表わし、縦軸は、時間差Δｔを表わす。
図６により例えば、装着者と話者とが正面同士で向き合っているとき、つまり対面角度αが９０°の場合は、時間差Δｔは、０であり、対面角度αが９０°の場合からずれるに従い時間差Δｔは大きくなることがわかる。
なお対面角度αは、上述のようにして算出してもよいが、例えば、図６を基にして時間差Δｔに対する対面角度αをＬＵＴ（Look up Table）として、端末装置１０内に保持しておき、Δｔを求めた後、このＬＵＴを参照することにより対面角度αを求めてもよい。

図７は、端末装置１０の動作について説明したフローチャートである。以下、図２および図７を使用して端末装置１０の動作について説明を行なう。
まずマイクロフォン１１ａ、１１ｂ、１１ｃが、話者の音声を取得する（ステップ１０１）。そして第１増幅器１３ａ、第２増幅器１３ｂ、第３増幅器１３ｃがそれぞれマイクロフォン１１ａ、１１ｂ、１１ｃからの音声信号を増幅する（ステップ１０２）。
次に増幅された音声信号は、音声解析部１５に送られ、上述した手法により話者が他者であるか否かを判断する（ステップ１０３）。話者が装着者であると識別（即ち他者ではないと識別）された場合（ステップ１０３でＮｏ）は、ステップ１０１に戻る。一方、話者が他者であると識別された場合（ステップ１０３でＹｅｓ）は、図５で説明した手法により、まず第１マイクロフォン１１ａと第２マイクロフォン１１ｂに話者の音声が到達する時間差Δｔが求められる（ステップ１０４）。さらに図４で説明した手法により、この時間差Δｔおよび第１マイクロフォン１１ａと第２マイクロフォン１１ｂが離間する距離Ｄに基づいて、装着者と話者との向き合う角度である対面角度αを求める（ステップ１０５）。この対面角度αの情報は、データ送信部１６によりホスト装置２０に出力する（ステップ１０６）。

＜端末装置の具体例＞
図８（ａ）〜（ｂ）は、実際に使用される端末装置１０の具体例を示した図である。
このうち図８（ａ）は、図２に示した端末装置１０と同様のものであり、第１マイクロフォン１１ａ、第２マイクロフォン１１ｂ、第３マイクロフォン１１ｃの３つのマイクロフォンを配したものである。そして第１マイクロフォン１１ａと第２マイクロフォン１１ｂとの距離Ｄ_１２を１０ｃｍとし、第２マイクロフォン１１ｂと第３マイクロフォン１１ｃの距離Ｄ_２３および第３マイクロフォン１１ｃと第１マイクロフォン１１ａの距離Ｄ_３１を共に３５ｃｍとしている。

図８（ａ）のようにマイクロフォンが３箇所以上に配された端末装置１０を使用することで、別々のマイクロフォンの組を使用して、上述した自他識別の判断、および対面角度の出力を行なうことができる。これにより音声解析部１５で自他識別の判断や対面角度の出力を行なうためのアルゴリズムをより簡略化することができる。
さらにこの形態によれば、複数の対面角度αを出力することができる。つまり３つのマイクロフォンにより２つのマイクロフォンからなる組を３つ構成することができるため、これにより３通りの対面角度αが出力できることになる。よって本実施の形態では、水平方向の角度のみならず、第２マイクロフォン１１ｂと第３マイクロフォン１１ｃの組または第３マイクロフォン１１ｃと第１マイクロフォン１１ａの組を使用することで、上下方向の対面角度αが可能となる。つまり本構成によれば、音声解析部１５（図１参照）は、２つのマイクロフォンからなる組を２組以上使用することにより複数の対面角度を出力することができる。

なお、上述した自他識別の判断、および対面角度の出力を行なうために、必要なマイクロフォンの個数は、３つであるとは限らず、３つ以上でもよい。さらに２つでもよい。
図８（ｂ）は、マイクロフォンが２箇所に配された端末装置１０について説明した図である。
図８（ｂ）に示した端末装置１０では、図８（ａ）に示した端末装置１０に対し、第１マイクロフォン１１ａは同様の位置に配置されている。一方、第２マイクロフォン１１ｂは、図８（ａ）における第３マイクロフォン１１ｃがあった位置に配置されている。つまり第２マイクロフォン１１ｂは、ケース３１に設けられ、第１マイクロフォン１１ａとの距離Ｄ_１２を３５ｃｍとしている。さらに図８（ａ）における第２マイクロフォン１１ｂがあった位置には、マイクロフォンは配置されていない。この端末装置１０では、第１マイクロフォン１１ａと第２マイクロフォン１１ｂは、装着者の口からの距離が互いに異なる２つのマイクロフォン、および水平方向の距離が離れた２つのマイクロフォンの双方を兼ねている。

この構成において自他識別の判断を行なうには、第１マイクロフォン１１ａと第２マイクロフォン１１ｂを使用し、上述した場合と同様に行なうことができる。
一方、対面角度についても同様に出力することができる。ただしこの対面角度は、第１マイクロフォン１１ａと第２マイクロフォン１１ｂとを結ぶ線を通る面を基準としたものとなる。よって水平面を基準とした対面角度を求めるためには、第１マイクロフォン１１ａと第２マイクロフォン１１ｂとを結ぶ線と水平面との角度を予め把握しておき、それを基に角度の補正をすればよい。ただし、この補正は必ずしも行なう必要はない。

以上詳述したような対面角度出力システム１により、対面角度の情報を装着者と話者との関係を判定する情報として利用できる。
ここで装着者と話者との関係として判定を行なう事項としては、例えば、装着者と他者とのコミュニケーション関係である。例えば、装着者と話者が近い距離に位置し、さらに対面角度の情報により向き合っていることがわかれば、装着者と話者が会話を行なっている可能性が高い。また装着者と話者が反対方向を向いていれば、会話を行なっていない可能性が高い。実際には、他に話者や装着者の音声が取得されるタイミングや、間合いなど他の情報も使用して判定が行なわれる。また装着者と話者との関係として、上下方向の対面角度を使用して、一方が他方を上から見下ろしている関係にあるなどの判定も可能である。また複数の端末装置１０からの情報をもとに、会話を行っている複数人の間での位置の相互関係などの処理をしても良い。

また上述した例では、自他識別の判断や対面角度の出力を端末装置１０で行なっていたが、これに限られるものではなく、ホスト装置２０の方で行なってもよい。この形態における対面角度出力システム１としては、図１のものに対し、音声解析部１５で行なっていた自他識別の判定および対面角度の出力を、例えば、ホスト装置２０のデータ解析部２３で行なう。この対面角度出力システム１においては、音声解析部１５は不要となる。そしてこの場合データ解析部２３は、話者が装着者か他者かを識別する識別手段として機能するとともに、装着者と話者との向き合う角度である対面角度を出力する出力手段として機能することになる。さらにこの場合、端末装置１０のデータ送信部１６は、マイクロフォン１１ａ、１１ｂ、１１ｃにより取得された音声の情報を、音声解析部１５を介さずに受け、データ送信部２１に対し送信する。またホスト装置２０のデータ受信部２１は、データ送信部１６により送信された音声の情報を受信する。即ちデータ送信部１６は、マイクロフォン１１ａ、１１ｂ、１１ｃにより取得された音声の情報を送信する送信手段として機能し、データ受信部２１は、データ送信部１６により送信された音声の情報を受信する受信手段として機能する。

＜プログラムの説明＞
なお図７で説明を行った本実施の形態における端末装置１０が行なう処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、端末装置１０に設けられた制御用コンピュータ内部の図示しないＣＰＵが、端末装置１０の各機能を実現するプログラムを実行し、これらの各機能を実現させる。

よって図７で説明を行った端末装置１０が行なう処理は、コンピュータに、装着者の口からの距離が互いに異なる２つおよび水平方向の距離が離れた２つを少なくとも含む、話者の音声を取得するための複数のマイクロフォンから音声の情報を取得する機能と、複数のマイクロフォンのうち、装着者の口からの距離が互いに異なる２つのマイクロフォンで取得される音声の音圧差に基づいて、話者が装着者か他者かを識別する機能と、話者が他者と識別された場合に、複数のマイクロフォンのうち水平方向の距離が離れた２つのマイクロフォンに話者の音声が到達する時間差を導出する機能と、導出された時間差および水平方向の距離が離れた２つのマイクロフォン間の距離に基づいて、装着者と話者との向き合う角度である対面角度を出力する機能と、を実現させるプログラムとして捉えることもできる。

１…対面角度出力システム、１０…端末装置、１１ａ…第１マイクロフォン、１１ｂ…第２マイクロフォン、１１ｃ…第３マイクロフォン、１５…音声解析部、１６…データ送信部、２０…ホスト装置、３０…装置本体、４０…提げ紐

Claims

話者の音声を取得する少なくとも２以上の音声取得手段が取得した話者の音声の情報に基づいて、話者が端末装置を装着する装着者か当該装着者とは異なる人である他者かを識別した自他識別情報と、当該装着者と当該他者との向き合う角度である対面角度の情報とを取得する取得手段と、
前記取得手段が取得した前記自他識別情報と前記対面角度の情報とに基づいて、前記装着者と前記他者との対話状況を特定する特定手段と、
を備えたことを特徴とする情報処理装置。
前記特定手段は、前記装着者と前記他者とが会話を行なっているか否かを特定することを特徴とする請求項１記載の情報処理装置。
話者の音声を取得する少なくとも２以上の音声取得手段と、
前記少なくとも２以上の音声取得手段が取得した話者の音声の情報に基づいて、話者が本対面角度出力手段を装着する装着者か当該装着者とは異なる人である他者かを識別した自他識別情報と、当該装着者と当該話者との向き合う角度である対面角度の情報とを取得する取得手段と、
前記取得手段により取得された前記自他識別情報と前記対面角度の情報とを送信する送信手段と、
を備える対面角度出力手段と、
前記対面角度出力手段の前記送信手段により送信された前記自他識別情報と前記対面角度の情報とを受信する受信手段と、
前記受信手段が受信した前記自他識別情報と前記対面角度の情報とに基づいて、前記装着者と前記他者との対話状況を特定する特定手段と、
を備えることを特徴とする情報処理システム。
話者の音声を取得する少なくとも２以上の音声取得手段と、
前記少なくとも２以上の音声取得手段により取得された前記音声の情報を送信する送信手段と、
前記送信手段により送信された前記音声の情報を受信する受信手段と、
前記受信手段により受信された複数の前記音声の情報に基づいて、話者が端末装置を装着する装着者か当該装着者とは異なる人である他者かを識別した自他識別情報と、当該装着者と当該他者との向き合う角度である対面角度の情報とを取得する取得手段と、
前記取得手段が取得した前記自他識別情報と前記対面角度の情報とに基づいて、前記装着者と前記他者との対話状況を特定する特定手段と、
を備えることを特徴とする情報処理システム。
コンピュータに、
話者の音声を取得する少なくとも２以上の音声取得手段が取得した話者の音声の情報に基づいて、話者が端末装置を装着する装着者か当該装着者とは異なる人である他者かを識別した自他識別情報と、当該装着者と当該他者との向き合う角度である対面角度の情報とを取得する機能と、
取得した前記自他識別情報と前記対面角度の情報とに基づいて、前記装着者と前記他者との対話状況を特定する機能と、
を実現させるプログラム。