JP5867066B2

JP5867066B2 - 音声解析装置

Info

Publication number: JP5867066B2
Application number: JP2011283452A
Authority: JP
Inventors: 啓下谷; 洋平西野; 米山　博人; 博人米山; 靖飯田; 藤居　徹; 徹藤居; 原田　陽雄; 陽雄原田
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2011-12-26
Filing date: 2011-12-26
Publication date: 2016-02-24
Anticipated expiration: 2031-12-26
Also published as: US9153244B2; US20130166299A1; JP2013134312A

Description

本発明は、音声解析装置に関する。

特許文献１には、次の従来技術が開示されている。この従来技術は、マイクロホンの設置場所の相違による音声認識率の低下を低減する。そして、この従来技術は、音声を集音するマイクロホンから得られた音声信号をＡ／Ｄ変換し、そのスペクトルを算出する分析部と、雑音を集音するマイクロホンから得られた雑音信号をＡ／Ｄ変換し、そのスペクトルを算出する分析部と、この音声側スペクトル及び雑音側スペクトルの差をとることによって前記音声側スペクトルを補正する音声補償部と、登録処理時に、補正された音声信号を標準パタンとして記憶する登録処理部と、音声認識時に、補正された音声信号を前記登録処理部に記憶された標準パタンと比較するにより音声を認識する認識処理部とを有する音声認識装置において、登録処理を行う前に、前記マイクロホン及びマイクロホンの最適な設置位置を設定する位置設定部を有する。

また、特許文献２には、次の従来技術が開示されている。この従来技術は、複数の音声パターンを平均化することで行う標準パターン作成方法において、各音声パターン中に、音声生成上の不安定性分を、該音声パターン平均化の際の必然的要素として存在させたことを特徴とする標準パターン作成方式である。そして、この突発性のノイズの直後に発生された音声や、音声の末尾が欠落したパターンから正常な音声信号のみを平均化して標準パターンを作成する。

特開平７−１９１６８８号公報特開昭６３−２２６６９１号公報

本発明は、音声取得手段により取得される音声のうち、装置本体が衝突することで生じる衝突音を含む音を識別することを目的とする。

請求項１に記載の発明は、装置本体と、前記装置本体に接続され、当該装置本体を使用者の首から提げるのに用いられる提げ紐と、前記提げ紐または前記装置本体に設けられ音声を取得する第１音声取得手段と、前記提げ紐を首に掛けたときに、前記装置本体から前記第１音声取得手段までの音波伝搬経路の距離より、当該装置本体からの音波伝搬経路の距離が大きくなる位置に設けられ音声を取得する第２音声取得手段と、前記装置本体に設けられ、前記第１音声取得手段により取得された音声の音圧である第１音圧と前記第２音声取得手段により取得された音声の音圧である第２音圧との比較結果に基づき、当該第１音圧が、当該第２音圧よりも予め定められた値以上大きい音を識別する識別部とを備えることを特徴とする音声解析装置である。
請求項２に記載の発明は、前記第１音声取得手段は前記装置本体に設けられており、前記第２音声取得手段は前記提げ紐に設けられていることを特徴とする、請求項１記載の音声解析装置である。
請求項３に記載の発明は、前記識別部は、前記第１音圧と前記第２音圧との比較結果に基づき、前記第１音声取得手段および前記第２音声取得手段により取得された音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別することを特徴とする請求項１または２記載の音声解析装置である。
請求項４に記載の発明は、前記識別部は、当該識別部によって識別された音以外の音についての前記第１音圧と前記第２音圧との比較結果に基づき、前記第１音声取得手段および前記第２音声取得手段により取得された音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別することを特徴とする請求項１から３のいずれかに記載の音声解析装置である。

請求項１の発明によれば、音声取得手段により取得される音声のうち、装置本体が衝突することで生じる衝突音を含む音を識別できる。
請求項２の発明によれば、本発明を用いない場合を比べて、音声取得手段により取得される音声のうち、装置本体が衝突することで生じる衝突音を含む音をより正確に識別できる。
請求項３の発明によれば、取得した音声の非言語情報に基づいて発話者が装着者か否かを識別することができる。
請求項４の発明によれば、音声取得手段により取得される音声のうち、少なくとも一部の雑音を除去した状態で、発話者が装着者か否かの識別を行うことができる。

本実施形態による音声解析システムの構成例を示す図である。本実施形態における端末装置の構成例を示す図である。装着者および他者の口（発声部位）と、マイクロフォンとの位置の関係を示す図である。マイクロフォンと音源との間の音波伝搬経路の距離と音圧（入力音量）との関係を示す図である。装着者自身の発話音声と他者の発話音声の識別方法を示す図である。マイクロフォンの音圧と衝突音との関係を示した図である。装置本体と、マイクロフォンとの位置の関係を示す図である。マイクロフォンと音源との間の音波伝搬経路の距離と音圧（入力音量）との関係を示す図である。発話者の識別方法と取得した音声が衝突音を含むことの識別方法との関係を示す図である。本実施形態における端末装置の動作を示すフローチャートである。本実施形態における端末装置が衝突音を含む発話音声を取得した際の音声データを示す図である。本実施形態の端末装置をそれぞれ装着した複数の装着者が会話している状況を示す図である。図１２の会話状況における各端末装置の発話情報の例を示す図である。本実施形態におけるホスト装置の機能構成例を示す図である。

以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
＜システム構成例＞
図１は、本実施形態による音声解析システムの構成例を示す図である。
図１に示すように、本実施形態のシステムは、端末装置１０とホスト装置２０とを備えて構成される。端末装置１０とホスト装置２０とは、無線通信回線を介して接続されている。無線通信回線の種類としては、Ｗｉ−Ｆｉ（登録商標）（Wireless Fidelity）、Bluetooth（登録商標）、ZigBee（登録商標）、ＵＷＢ（Ultra Wideband）等の既存の方式による回線を用いて良い。また、図示の例では、端末装置１０が１台のみ記載されているが、詳しくは後述するように、端末装置１０は、使用者各人が装着して使用するものであり、実際には使用者数分の端末装置１０が用意される。以下、端末装置１０を装着した使用者を装着者と呼ぶ。

端末装置１０は、音声取得手段として、少なくとも、１組のマイクロフォン（第１マイクロフォン１１および第２マイクロフォン１２）と、増幅器（第１増幅器１３および第２増幅器１４）とを備える。また、端末装置１０は、処理手段として、取得音声を解析する音声解析部１５と、解析結果をホスト装置２０に送信するためのデータ送信部１６とを備え、さらに電源部１７を備える。

第１マイクロフォン１１と第２マイクロフォン１２とは、装着者の口（発声部位）からの音波伝搬経路の距離（以下、単に「距離」と記す）が異なる位置に配置される。ここでは、第１マイクロフォン１１は装着者の口（発声部位）から遠い位置（例えば、３５ｃｍ程度）に配置され、第２マイクロフォン１２は装着者の口（発声部位）に近い位置（例えば、１０ｃｍ程度）に配置されるものとする。本実施形態の第１マイクロフォン１１および第２マイクロフォン１２として用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いて良い。特に無指向性のＭＥＭＳ（Micro Electro Mechanical Systems）型マイクロフォンを用いることが好ましい。

第１増幅器１３および第２増幅器１４は、第１マイクロフォン１１および第２マイクロフォン１２が取得音声に応じて出力する電気信号（音声信号）を増幅する。本実施形態の第１増幅器１３および第２増幅器１４として用いられる増幅器としては、既存のオペアンプ等を用いて良い。

音声解析部１５は、第１増幅器１３および第２増幅器１４から出力された音声信号を解析する。そして、第１マイクロフォン１１および第２マイクロフォン１２で取得した音声が端末装置１０を装着した装着者自身が発話した音声か、他者の発話による音声かを識別する。すなわち、音声解析部１５は、第１マイクロフォン１１および第２マイクロフォン１２で取得した音声に基づき、音声の発話者を識別する識別部として機能する。発話者識別のための具体的な処理の内容については後述する。

データ送信部１６は、音声解析部１５による解析結果を含む取得データと端末装置１０のＩＤを、上記の無線通信回線を介してホスト装置２０へ送信する。ホスト装置２０へ送信する情報としては、ホスト装置２０において行われる処理の内容に応じて、上記の解析結果の他、例えば、第１マイクロフォン１１および第２マイクロフォン１２による音声の取得時刻、取得音声の音圧等の情報を含めて良い。なお、端末装置１０に音声解析部１５による解析結果を蓄積するデータ蓄積部を設け、一定期間の保存データを一括送信しても良い。有線回線で送信しても良い。

電源部１７は、上記の第１マイクロフォン１１、第２マイクロフォン１２、第１増幅器１３、第２増幅器１４、音声解析部１５およびデータ送信部１６に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部１７は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。

ホスト装置２０は、端末装置１０から送信されたデータを受信するデータ受信部２１と、受信したデータを蓄積するデータ蓄積部２２と、蓄積したデータを解析するデータ解析部２３と、解析結果を出力する出力部２４とを備える。このホスト装置２０は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、上記のように本実施形態では複数台の端末装置１０が使用され、ホスト装置２０は、その複数台の端末装置１０の各々からデータを受信する。

データ受信部２１は、上記の無線通信回線に対応しており、各端末装置１０からデータを受信してデータ蓄積部２２へ送る。データ蓄積部２２は、例えばパーソナルコンピュータの磁気ディスク装置等の記憶装置により実現され、データ受信部２１から取得した受信データを発話者別に蓄積する。ここで、発話者の識別は、端末装置１０から送信される端末ＩＤと、予めホスト装置２０に登録されている発話者名と端末ＩＤの照合により行う。また、端末装置１０から端末ＩＤの代わりに、装着者名を送信するようにしておいても良い。

データ解析部２３は、例えばパーソナルコンピュータのプログラム制御されたＣＰＵにより実現され、データ蓄積部２２に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、端末装置１０の装着者どうしの対話頻度や各装着者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。

出力部２４は、データ解析部２３による解析結果を出力したり、解析結果に基づく出力を行ったりする。出力手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。

＜端末装置の構成例＞
図２は、端末装置１０の構成例を示す図である。
上記のように、端末装置１０は、各使用者に装着されて使用される。使用者が装着可能とするため、本実施形態の端末装置１０は、図２に示すように、装置本体３０と、装置本体３０に接続された提げ紐４０とを備えた構成とする。図示の構成において、使用者は、提げ紐４０に首を通し、装置本体３０を首から提げて装着する。

装置本体３０は、金属や樹脂等で形成された薄い直方体のケース３１に、少なくとも第１増幅器１３、第２増幅器１４、音声解析部１５、データ送信部１６および電源部１７を実現する回路と電源部１７の電源（電池）とを収納して構成される。ケース３１には、装着者の氏名や所属等のＩＤ情報を表示したＩＤカード等を挿入するポケットを設けても良い。また、ケース３１自体の表面にそのようなＩＤ情報等を印刷したり、ＩＤ情報等を記載したシールを貼り付けたりしても良い。

提げ紐４０には、第１マイクロフォン１１および第２マイクロフォン１２が設けられる（以下、第１マイクロフォン１１と第２マイクロフォン１２とを区別しない場合には、マイクロフォン１１、１２と記載）。マイクロフォン１１、１２は、提げ紐４０の内部を通るケーブル（電線等）により、装置本体３０に収納された第１増幅器１３、第２増幅器１４に接続される。提げ紐４０の材質としては、革、合成皮革、木綿その他の天然繊維や樹脂等による合成繊維、金属等、既存の種々の材質を用いて良い。また、シリコン樹脂やフッ素樹脂等を用いたコーティング処理が施されていても良い。

この提げ紐４０は、筒状の構造を有し、提げ紐４０の内部にマイクロフォン１１、１２を収納している。マイクロフォン１１、１２を提げ紐４０の内部に設けることにより、マイクロフォン１１、１２の損傷や汚れを防ぎ、対話者がマイクロフォン１１、１２の存在を意識することが抑制される。なお、装着者の口（発声部位）から遠い位置に配置される第１マイクロフォン１１は、ケース３１に内蔵して装置本体３０に設けても良い。本実施形態では、第１マイクロフォン１１が提げ紐４０に設けられる場合を例として説明する。

図２を参照すると、第１音声取得手段の一例である第１マイクロフォン１１は、提げ紐４０の装置本体３０に接続される端部（例えば、装置本体３０の中心から１０ｃｍ以内の位置）に設けられている。これにより、装着者が提げ紐４０を首に掛けて装置本体３０を下げた状態で、第１マイクロフォン１１は、装着者の口（発声部位）から約３０ｃｍから４０ｃｍ程度離れた位置に配置される。なお、第１マイクロフォン１１が装置本体３０に設けられた場合も、装着者の口（発声部位）から第１マイクロフォン１１までの距離は同程度である。

第２音声取得手段の一例である第２マイクロフォン１２は、提げ紐４０の装置本体３０に接続される端部から離れた位置（例えば、装置本体３０の中心から２５ｃｍ〜３５ｃｍ程度の位置）に設けられている。これにより、装着者が提げ紐４０を首に掛けて装置本体３０を下げた状態で、第２マイクロフォン１２は、装着者の首元（例えば鎖骨に当たる位置）に位置し、装着者の口（発声部位）から約１０ｃｍから２０ｃｍ程度離れた位置に配置される。

なお、本実施形態の端末装置１０は、図２に示す構成に限定されるものではない。例えば、マイクロフォン１１、１２は、第１マイクロフォン１１から装着者の口（発声部位）までの（音波伝搬経路の）距離が第２マイクロフォン１２から装着者の口（発声部位）までの（音波伝搬経路の）距離の数倍程度となるように、第１マイクロフォン１１と第２マイクロフォン１２の位置関係が特定されれば良い。また、マイクロフォン１１、１２は、上記のように提げ紐４０に設ける構成に限らず、種々の方法で装着者に装着して良い。例えば、第１マイクロフォン１１および第２マイクロフォン１２の各々を、個別にピン等を用いて衣服に固定するように構成しても良い。また、第１マイクロフォン１１および第２マイクロフォン１２の位置関係が所望の位置で固定されるようにデザインされた専用の装着具を用意して装着しても良い。

また、装置本体３０は、図２に示したように、提げ紐４０に接続されて装着者の首から提げられる構成に限らず、携帯することが容易な装置として構成されていれば良い。例えば、本実施形態のような提げ紐ではなく、クリップやベルトにより衣服や体に装着するように構成しても良いし、単にポケット等に納めて携帯するような構成としても良い。また、携帯電話その他の既存の携帯型電子情報端末に、マイクロフォン１１、１２からの音声信号を受け付けて増幅し、解析する機能を実現させても良い。ただし、第１マイクロフォン１１が装置本体３０に設けられる場合は、第１マイクロフォン１１と第２マイクロフォン１２との位置関係を上記のように保持する必要があるため、携帯時の装置本体３０の位置は特定される。

さらにまた、マイクロフォン１１、１２と装置本体３０（あるいは音声解析部１５）を有線で接続するのではなく、無線通信により接続しても良い。第１増幅器１３、第２増幅器１４、音声解析部１５、データ送信部１６および電源部１７は、上記の構成例では単一のケース３１に収納されることとしたが、複数の個体に分けて構成しても良い。例えば、電源部１７をケース３１に収納せず、外部電源に接続して使用する構成としても良い。

＜取得音声の非言語情報に基づく発話者（自他）の識別＞
次に、本実施形態における発話者の識別方法について説明する。
本実施形態のシステムは、端末装置１０に設けられた２つのマイクロフォン１１、１２により取得された音声の情報を用いて、端末装置１０の装着者自身の発話音声と他者の発話音声とを識別する。言い換えれば、本実施形態は、取得音声の発話者に関して自他の別を識別する。また、本実施形態では、取得音声の情報のうち、形態素解析や辞書情報を用いて得られる言語情報ではなく、音圧（マイクロフォン１１、１２への入力音量）等の非言語情報に基づいて発話者を識別する。言い換えれば、言語情報により特定される発話内容ではなく、非言語情報により特定される発話状況から音声の発話者を識別する。

図１および図２を参照して説明したように、本実施形態において、端末装置１０の第１マイクロフォン１１は装着者の口（発声部位）から遠い位置に配置され、第２マイクロフォン１２は装着者の口（発声部位）に近い位置に配置される。すなわち、装着者の口（発声部位）を音源とすると、第１マイクロフォン１１と音源との間の距離と、第２マイクロフォン１２と音源との間の距離が大きく異なる。具体的には、第１マイクロフォン１１と音源との間の距離は、第２マイクロフォン１２と音源との間の距離の１．５〜４倍程度である。ここで、マイクロフォン１１、１２における取得音声の音圧は、マイクロフォン１１、１２と音源との間の距離が大きくなるにしたがって減衰（距離減衰）する。したがって、装着者の発話音声に関して、第１マイクロフォン１１における取得音声の音圧と第２マイクロフォン１２における取得音声の音圧とは大きく異なる。

一方、装着者以外の者（他者）の口（発声部位）を音源とした場合を考えると、その他者が装着者から離れているため、第１マイクロフォン１１と音源との間の距離と、第２マイクロフォン１２と音源との間の距離は、大きく変わらない。装着者に対する他者の位置によっては、両距離の差は生じ得るが、装着者の口（発声部位）を音源とした場合のように、第１マイクロフォン１１と音源との間の距離が第２マイクロフォン１２と音源との間の距離の数倍となることはない。したがって、他者の発話音声に関して、第１マイクロフォン１１における取得音声の音圧と第２マイクロフォン１２における取得音声の音圧とは、装着者の発話音声の場合のように大きく異なることはない。

図３は、装着者および他者の口（発声部位）と、マイクロフォン１１、１２との位置の関係を示す図である。
図３に示す関係において、装着者の口（発声部位）である音源ａと第１マイクロフォン１１との間の距離をＬａ１、音源ａと第２マイクロフォン１２との間の距離をＬａ２とする。また、他者の口（発声部位）である音源ｂと第１マイクロフォン１１との間の距離をＬｂ１、音源ｂと第２マイクロフォン１２との間の距離をＬｂ２とする。この場合、次の関係が成り立つ。
Ｌａ１＞Ｌａ２（Ｌａ１≒１．５×Ｌａ２〜４×Ｌａ２）
Ｌｂ１≒Ｌｂ２

図４は、マイクロフォン１１、１２と音源との間の距離と音圧（入力音量）との関係を示す図である。
上述したように、音圧は、マイクロフォン１１、１２と音源との間の距離に応じて距離減衰する。図４において、距離Ｌａ１の場合の音圧（第１音圧）Ｇａ１と距離Ｌａ２の場合の音圧（第２音圧）Ｇａ２とを比較すると、音圧Ｇａ２は、音圧Ｇａ１の４倍程度となっている。一方、距離Ｌｂ１と距離Ｌｂ２とが近似するため、距離Ｌｂ１の場合の音圧Ｇｂ１と距離Ｌｂ２の場合の音圧Ｇｂ２とは、ほぼ等しい。そこで、本実施形態では、この音圧比の差を用いて、取得音声における装着者自身の発話音声と他者の発話音声とを識別する。なお、図４に示した例では、距離Ｌｂ１、Ｌｂ２を６０ｃｍとしたが、ここでは音圧Ｇｂ１と音圧Ｇｂ２とがほぼ等しくなることに意味があり、距離Ｌｂ１、Ｌｂ２は図示の値に限定されない。

図５は、装着者自身の発話音声と他者の発話音声の識別方法を示す図である。
図４を参照して説明したように、装着者自身の発話音声に関して、第２マイクロフォン１２の音圧Ｇａ２は、第１マイクロフォン１１の音圧Ｇａ１の数倍（例えば４倍程度）である。また、他者の発話音声に関して、第２マイクロフォン１２の音圧Ｇｂ２は、第１マイクロフォン１１の音圧Ｇｂ１とほぼ等しい（１倍程度）。そこで、本実施形態では、第２マイクロフォン１２の音圧と第１マイクロフォン１１の音圧との比に閾値（第１の閾値）を設定する。第１の閾値は、装着者自身の発話音声における音圧比の値と他者の発話音声における音圧比の値との間の値に設定される。そして、音圧比が第１の閾値よりも大きい音声は装着者自身の発話音声と判断し、音圧比が第１の閾値よりも小さい音声は他者の発話音声と判断する。図５に示す例では、第１の閾値を２とし、音圧比Ｇａ２／Ｇａ１は第１の閾値２を超えるので装着者自身の発話音声と判断され、音圧比Ｇｂ２／Ｇｂ１は第１の閾値２よりも小さいので他者の発話音声と判断されている。

＜衝撃音が含まれる取得音声の識別＞
上記のように、端末装置１０の使用者は、提げ紐４０に首を通し、装置本体３０を首から提げて装着する。そして、使用者がこの端末装置１０を首から提げている状態において、例えば使用者が動くと、端末装置１０が揺れ、端末装置１０の装置本体３０が他の部材と衝突することがある。このように、装置本体３０が他の部材と衝突すると衝突音が発生する。例えば、装置本体３０が、端末装置１０の使用者の体の一部や、机、あるいは端末装置１０以外に使用者が首から提げるＩＤカードや携帯電話にぶつかることにより、衝突音が発生する。そして、この衝突音は、装着者や他者の発話音声とともに、マイクロフォン１１、１２によって取得音声として取得される。

さて、装置本体３０が他の部材と衝突することにより生じる衝突音をマイクロフォン１１、１２が取得すると、取得音声における装着者自身の発話音声が他者の発話音声と認識され得る。
以下で、衝突音を取得することと、装着者の発話が他者の発話と認識されることとの関係を説明する。
図６は、マイクロフォン１１、１２の音圧と衝突音との関係を示した図である。具体的には、図６（ａ）は衝突音を含む発話音声を取得したマイクロフォン１１、１２の音圧の変化を示した図であり、図６（ｂ）は、図６（ａ）に示すマイクロフォン１１、１２の音圧比の変化を示した図である。

本実施形態の端末装置１０においては、第１マイクロフォン１１が取得する衝突音の大きさは、第２マイクロフォン１２が取得する衝突音の大きさよりも大きくなる。さらに説明すると、この第１マイクロフォン１１が取得する衝突音は、発話音声と比較して短時間（例えば０．３ｍｓ程度）において発生している。
例えば、図６（ａ）において、端末装置１０が他の部材と衝突した際（一点鎖線内）における第１マイクロフォン１１の平均音圧（平均ゲイン）Ｇａ１と、第２マイクロフォン１２の平均音圧（平均ゲイン）Ｇａ２との関係を比較すると、音圧Ｇａ１が音圧Ｇａ２よりも大きい。これは、第１マイクロフォン１１が、第２マイクロフォン１２よりも、衝突音を生じさせる装置本体３０に近いためである。
さらに、図６（ｂ）において、端末装置１０が他の部材と衝突した際（一点鎖線内）における第１マイクロフォン１１の平均音圧Ｇａ１と、第２マイクロフォン１２の平均音圧Ｇａ２との音圧比は、他の部材と衝突した際（一点鎖線内）以外の音圧比よりも小さい。

さて、第１マイクロフォン１１が取得する衝突音が、第２マイクロフォン１２が取得する衝突音よりも大きくなることをより詳細に説明する。
図７は、装置本体３０と、マイクロフォン１１、１２との位置の関係を示す図である。
図７に示す関係において、装置本体３０の中心である音源Ｓと第１マイクロフォン１１との間の距離をＬｓ１、音源Ｓと第２マイクロフォン１２との間の距離をＬｓ２とする。そして、上記のように、例えば、第１マイクロフォン１１は装置本体３０の中心から１０ｃｍ以内の位置に設けられ、第２マイクロフォン１２は、装置本体３０の中心から２５ｃｍ〜３５ｃｍ程度の位置に設けられる。この場合、次の関係が成り立つ。
Ｌｓ１＜Ｌｓ２（２．５×Ｌｓ１〜３．５×Ｌｓ１≒Ｌｓ２）
なお、第１マイクロフォン１１が装置本体３０に設けられた場合には、距離Ｌｓ１はさらに小さくなる。

図８は、マイクロフォン１１、１２と音源との間の音波伝搬経路の距離と音圧（入力音量）との関係を示す図である。
上述したように、音圧は、マイクロフォン１１、１２と音源との間の距離に応じて距離減衰する。図８において、距離Ｌｓ１の場合の音圧Ｇｓ１と距離Ｌｓ２の場合の音圧Ｇｓ２とを比較すると、音圧Ｇｓ２は、音圧Ｇｓ１の０．３倍程度となっている。なお、第１マイクロフォン１１が装置本体３０に設けられた場合には、距離Ｌｓ１はさらに小さくなり、これにともない音圧Ｇｓ１はさらに大きくなる。したがって、この場合、音圧Ｇｓ２は音圧Ｇｓ１の０．３倍よりもさらに小さくなる。

図９は、発話者の識別方法と取得した音声が衝突音を含むことの識別方法との関係を示す図である。
図９に示すように、本実施形態では、音圧比が第１の閾値よりも大きい場合（すなわち第２マイクロフォン１２の音圧Ｇａ２が第１マイクロフォン１１の音圧Ｇａ１の２倍よりも大きい場合）を装着者の発話音声とする。しかし、装着者が発話している区間であっても、衝突音の影響を受け第１マイクロフォン１１の音圧Ｇａ１が大きくなると、音圧比が第１の閾値よりも小さくなり、他者が発話している区間と識別され得る。
なお、装着者が発話しているときには、多くの場合身振り手振りを伴うことから、装置本体３０による衝突音がより発生しやすい。したがって、この場合、装着者が発話している区間であるにもかかわらず、他者が発話している区間と識別される頻度が高まる。

そこで、本実施形態では、次のような構成とすることにより、取得音声が衝突音を含むか否かを識別し、装着者の発話音声と他者の発話音声との識別に衝突音が与える影響を抑制する。具体的には、本実施形態では、第２マイクロフォン１２の音圧と第１マイクロフォン１１の音圧との比に閾値（第２の閾値）を設定する。

これは、第２マイクロフォン１２の音圧と第１マイクロフォン１１の音圧との比が、衝突音を含む取得音声と衝突音を含まない取得音声とでは異なる傾向となることを利用したものである。
さらに説明をすると、図８を参照して説明したように、衝突音が発生した際の取得音声に関して、第２マイクロフォン１２の音圧Ｇｓ２は第１マイクロフォン１１の音圧Ｇｓ１の数分の一（例えば０．３倍程度）となり得る。一方で、上記のように、装着者の発話音声に関して第２マイクロフォン１２の音圧Ｇａ２が第１マイクロフォン１１の音圧Ｇａ１の数倍（例えば４倍程度）であり、他者の発話音声に関して第２マイクロフォン１２の音圧Ｇｂ２は第１マイクロフォン１１の音圧Ｇｂ１とほぼ等しい（例えば１倍程度）。

そこで、他者の発話音声における音圧比と衝突音が発生した際の取得音声における音圧比との間の適当な値を第２の閾値として設定する。そして、音圧比が第２の閾値よりも小さい音声は衝突音を含む取得音声と判断し、音圧比が第２の閾値よりも大きい音声は衝突音を含まない取得音声と判断する。なお、本実施形態では、衝突音を含む取得音声と判断した際には、装着者の発話音声と他者の発話音声との識別を行わない。
図９に示す例では、第２の閾値を０．４とし、音圧比Ｇａ２／Ｇａ１及び音圧比Ｇｂ２／Ｇｂ１は第２の閾値０．４よりも大きいので衝突音を含まない音声と判断され、音圧比Ｇｓ２／Ｇｓ１は第２の閾値０．４よりも小さいので衝突音を含む音声と判断されている。
なお、上記の第１の閾値及び第２の閾値は、単なる例示であり、本実施形態のシステムを使用する環境等に応じて、変更可能である。

さて、マイクロフォン１１、１２により取得される音声には、発話音声および衝突音の他に、空調の作動音や、装着者の歩行に伴う足音等、端末装置１０を使用する環境の音（環境音）が含まれる。この環境音の音源とマイクロフォン１１、１２との間の距離の関係は、他者の発話音声の場合と類似する。すなわち、図４、図５に示した例によれば、雑音の音源ｃと第１マイクロフォン１１との間の距離をＬｃ１とし、雑音の音源ｃと第２マイクロフォン１２との間の距離をＬｃ２とすると、距離Ｌｃ１と距離Ｌｃ２とは近似する。そして、マイクロフォン１１、１２の取得音声における音圧比Ｇｃ２／Ｇｃ１は、第１の閾値２よりも小さくなる。しかし、このような環境音は、バンドパスフィルタやゲインフィルタ等を用いた既存の技術によるフィルタリング処理を行うことにより発話音声から分離され、除去される。

＜端末装置の動作例＞
図１０は、本実施形態における端末装置１０の動作を示すフローチャートである。
図１０に示すように、端末装置１０のマイクロフォン１１、１２が音声を取得すると、各マイクロフォン１１、１２から取得音声に応じた電気信号（音声信号）が第１増幅器１３および第２増幅器１４へ送られる（ステップ１００１）。第１増幅器１３および第２増幅器１４は、マイクロフォン１１、１２からの音声信号を取得すると、信号を増幅して音声解析部１５へ送る（ステップ１００２）。

音声解析部１５は、第１増幅器１３および第２増幅器１４で増幅された信号に対してフィルタリング処理を行い、信号から環境音の成分を除去する（ステップ１００３）。次に、音声解析部１５は、雑音成分が除かれた信号に対し、一定の時間単位（例えば、数十分の一秒〜数百分の一秒）毎に、各マイクロフォン１１、１２の取得音声における平均音圧を求める（ステップ１００４）。

ステップ１００４で求めた各マイクロフォン１１、１２における平均音圧の利得が有る場合（ステップ１００５でＹｅｓ）、音声解析部１５は、発話音声が有る（発話が行われた）と判断し、次に、第１マイクロフォン１１における平均音圧と第２マイクロフォン１２における平均音圧との比（音圧比）を求める（ステップ１００６）。
そして、ステップ１００６で求めた音圧比が第１の閾値よりも大きい場合（ステップ１００７でＹｅｓ）、音声解析部１５は、発話音声は装着者自身の発話による音声であると判断する（ステップ１００８）。また、ステップ１００６で求めた音圧比が第１の閾値よりも小さい場合（ステップ１００７でＮｏ）であって、かつステップ１００６で求めた音圧比が第２の閾値よりも大きい場合（ステップ１００９でＹｅｓ）、音声解析部１５は、発話音声は他者の発話による音声であると判断する（ステップ１０１０）。さらに、ステップ１００６で求めた音圧比が第１の閾値よりも小さい場合（ステップ１００７でＮｏ）であって、かつステップ１００６で求めた音圧比が第２の閾値よりも小さい場合（ステップ１００９でＮｏ）、音声解析部１５は、衝突音を含む取得音であると判断する。いわば、音声解析部１５は、衝突音を含む取得音を雑音として認識する。なお、本実施形態では、衝突音を含む取得音と判断した場合には、上記のように音声解析部１５は装着者の発話音声と他者の発話音声との識別を行わない。

また、ステップ１００４で求めた各マイクロフォン１１、１２における平均音圧の利得が無い場合（ステップ１００５でＮｏ）、音声解析部１５は、発話音声が無い（発話が行われていない）と判断する（ステップ１０１１）。

この後、音声解析部（識別部）１５は、データ送信部１６を介して、ステップ１００４〜ステップ１０１１の処理で得られた情報（発話の有無、発話者の情報）を解析結果としてホスト装置２０へ送信させる（ステップ１０１２）。発話者毎（装着者自身または他者）の発話時間の長さや平均音圧の利得の値、その他の付加情報を解析結果と共にホスト装置２０へ送信させても良い。このとき、ステップ１００９でＮｏと判断された場合、すなわち衝突音を含む取得音声であると判断された場合、音声解析部１５は、発話者の識別を行わずに解析結果を送信させる。

なお、本実施形態では、第１マイクロフォン１１の音圧と第２マイクロフォン１２の音圧とを比較することにより、発話音声が装着者自身の発話による音声か他者の発話による音声かを判断した。しかし、本実施形態による発話者の識別は、マイクロフォン１１、１２により取得された音声信号そのものから抽出される非言語情報に基づいて行うものであれば良く、音圧の比較には限定されない。

例えば、第１マイクロフォン１１における音声取得時刻（音声信号の出力時刻）と第２マイクロフォン１２における音声取得時刻とを比較しても良い。
この場合、装着者自身の発話音声は、装着者の口（発声部位）から第１マイクロフォン１１までの距離と、装着者の口（発声部位）から第２マイクロフォン１２までの距離との差が大きいため、音声取得時刻にある程度の差（時間差）が生じる。一方、他者の発話音声は、装着者の口（発声部位）から第１マイクロフォン１１までの距離と、装着者の口（発声部位）から第２マイクロフォン１２までの距離との差が小さいため、装着者の発話音声の場合よりも音声取得時刻の時間差が小さい。そこで、音声取得時刻の時間差に対して第１の閾値を設定し、音声取得時刻の時間差が第１の閾値よりも大きい場合には装着者自身の発話と判断し、音声取得時刻の時間差が第１の閾値よりも小さい場合には他者の発話と判断するようにしても良い。

また、第１マイクロフォン１１における音声取得時刻と第２マイクロフォン１２における音声取得時刻とを比較する場合、衝突音を発生する装置本体３０から第１マイクロフォン１１までの距離と、衝突音を発生する装置本体３０から第２マイクロフォン１２までの距離との差が大きいため、衝突音を含む音声取得音声の音声取得時刻にある程度の差（時間差）が生じる。さらに説明すると、第１マイクロフォン１１の音声取得時刻が、第２マイクロフォン１２の音声取得時刻よりも。一方で、衝突音を含まない（装着者自身の発話音声あるいは他者の発話音声）場合は、第１マイクロフォン１１の音声取得時刻が、第２マイクロフォン１２の音声取得時刻よりも遅いか、第１マイクロフォン１１の音声取得時刻と第２マイクロフォン１２の音声取得時刻とがほぼ同じ時刻である。そこで、音声取得時刻の時間差に対して第２の閾値を設定し、音声取得時刻の時間差が第２の閾値よりも小さい音声は衝突音を含む取得音声と判断し、音声取得時刻の時間差が第２の閾値よりも大きい音声は衝突音を含まない取得音声と判断するようにしても良い。

＜衝突音を含む音声を取得した音声解析部１５の動作例＞
ここで、衝突音を含む発話音声を取得した際の音声解析部１５の動作例について説明をする。図１１は、本実施形態における端末装置１０が衝突音を含む発話音声を取得した際の音声データを示す図である。具体的には、図１１（ａ）は本実施形態とは異なり衝突音を含むことを識別しない場合のマイクロフォン１１、１２のマイク入力の変化を示した図であり、図１１（ｂ）は、衝突音を含むことを識別した場合のマイクロフォン１１、１２のマイク入力の変化を示した図である。また、図１１（ａ）および図１１（ｂ）においては、装着者自身の発話音声と識別された場合をマイク入力１として表し、他者の発話音声と識別された場合をマイク入力０として表している。

まず、本実施形態のシステムとは異なり、音声解析部１５が衝突音を含む取得音声か否かを識別しない場合について説明をする。この場合において、装着者自身が発話している区間に衝突音が発生した際の取得音声を音声解析部１５が解析すると、その解析結果は図１１（ａ）に示すようになる。図１１（ａ）に示すように、衝突音を含む取得音声か否かを識別しない場合、衝突音の影響を受け第１マイクロフォン１１の音圧Ｇａ１が大きくなることにより、装着者が発話している区間（図中符号α参照）であるにも関わらず、他者の発話音声と識別されている区間（マイク入力が０の区間）が生じる。さらに説明をすると、装着者が発話している区間であるにも関わらず、装着者の発話がない区間（無音区間）として識別されてしまう。

一方で、本実施形態の音声解析部１５により、衝突音を含む取得音声か否かを識別すると、その解析結果は図１１（ｂ）に示すようになる。すなわち、図１１（ｂ）に示すように、装着者が発話している区間（図中符号α参照）に取得した音声を、衝突音の影響を受けることなく、装着者の発話音声として認識する。ここで、上記のように本実施形態の音声解析部１５は、衝突音を含む取得音声と識別した際には、装着者自身の発話音声と他者の発話音声との識別を行わない。そして、衝突音を含むと識別された取得音声の直前に取得された取得音声において、装着者自身の発話音声と他者の発話音声とを識別した識別結果が継続している状態となる。

＜システムの適用例とホスト装置の機能＞
本実施形態のシステムでは、複数の端末装置１０により上記のようにして得られた発話に関する情報（以下、発話情報）がホスト装置２０に集められる。ホスト装置２０は、複数の端末装置１０から得られた情報を用いて、システムの利用目的や利用態様等に応じて種々の解析を行う。以下、複数の装着者のコミュニケーションに関する情報を取得するシステムとして本実施形態を用いる例を説明する。

図１２は、本実施形態の端末装置１０をそれぞれ装着した複数の装着者が会話している状況を示す図である。図１３は、図１２の会話状況における各端末装置１０Ａ、１０Ｂの発話情報の例を示す図である。
図１２に示すように、端末装置１０をそれぞれ装着した二人の装着者Ａ、装着者Ｂが会話している場合を考える。このとき、装着者Ａの端末装置１０Ａにおいて装着者の発話として認識される音声は、装着者Ｂの端末装置１０Ｂでは他者の発話として認識される。反対に、端末装置１０Ｂにおいて装着者の発話として認識される音声は、端末装置１０Ａでは他者の発話として認識される。

端末装置１０Ａおよび端末装置１０Ｂからは、それぞれ独立に、発話情報がホスト装置２０に送られる。このとき、端末装置１０Ａから取得した発話情報と、端末装置１０Ｂから取得した発話情報とは、図１３に示すように、発話者（装着者と他者）の識別結果は反対になるが、発話時間の長さや発話者が切り替わったタイミング等の発話状況を示す情報は近似する。そこで、本適用例のホスト装置２０は、端末装置１０Ａから取得した情報と端末装置１０Ｂから取得した情報とを比較することにより、これらの情報が同じ発話状況を示していると判断し、装着者Ａと装着者Ｂとが会話していることを認識する。ここで、発話状況を示す情報としては、少なくとも、上述した発話者ごとの個々の発話における発話時間の長さ、個々の発話の開始時刻と終了時刻、発話者が切り替わった時刻（タイミング）等のように、発話に関する時間情報が用いられる。なお、特定の会話に係る発話状況を判断するために、これらの発話に関する時間情報の一部のみを用いても良いし、他の情報を付加的に用いても良い。

図１４は、本適用例におけるホスト装置２０の機能構成例を示す図である。
本適用例において、ホスト装置２０は、端末装置１０から取得した発話情報のうち、会話を行っている装着者の端末装置１０からの発話情報（以下、会話情報）を検出する会話情報検出部２０１と、検出された会話情報を解析する会話情報解析部２０２とを備える。この会話情報検出部２０１および会話情報解析部２０２は、データ解析部２３の機能として実現される。

ホスト装置２０には、端末装置１０Ａ、端末装置１０Ｂ以外の端末装置１０からも発話情報が送られる。データ受信部２１により受信された各端末装置１０からの発話情報は、データ蓄積部２２に蓄積される。そして、データ解析部２３の会話情報検出部２０１が、データ蓄積部２２に蓄積された各端末装置１０の発話情報を読み出し、特定の会話に係る発話情報である会話情報を検出する。

上記の図１３に示したように、端末装置１０Ａの発話情報と端末装置１０Ｂの発話情報は、他の端末装置１０の発話情報とは異なる特徴的な対応関係が抽出される。会話情報検出部２０１は、データ蓄積部２２に蓄積されている各端末装置１０から取得した発話情報を比較し、複数の端末装置１０から取得した発話情報の中から、上記のような対応関係を有する発話情報を検出し、同一の会話に係る会話情報として識別する。ホスト装置２０には、複数の端末装置１０から発話情報が随時送られているので、会話情報検出部２０１は、例えば、一定時間分の発話情報を順次区切りながら上記の処理を行い、特定の会話に係る会話情報が含まれているか否かを判断する。

なお、会話情報検出部２０１が複数の端末装置１０の発話情報から特定の会話に係る会話情報を検出するための条件は、上述した図１３に示す対応関係に限定されない。複数の発話情報の中から特定の会話に係る会話情報を識別し得る、いかなる手法にて検出しても良い。

また、上記の例では、端末装置１０をそれぞれ装着した二人の装着者が会話している例を示したが、会話に参加する人数は二人に限定されない。三人以上の装着者が会話している場合、各装着者が装着している端末装置１０において、自装置の装着者の発話音声が装着者自身の発話音声として認識され、他者（二人以上）の発話音声と区別される。しかし、発話時間や発話者が切り替わったタイミング等の発話状況を示す情報は、各端末装置１０における取得情報どうしの間で近似する。そこで、会話情報検出部２０１は、上記の二人の会話の場合と同様に、同一の会話に参加している装着者の端末装置１０から取得した発話情報を検出し、会話に参加していない装着者の端末装置１０から取得した発話情報と区別する。

次に、会話情報解析部２０２は、会話情報検出部２０１により検出された会話情報を解析して、その会話の特徴を抽出する。本実施形態では、具体例として、対話度、傾聴度、会話活性度の３種類の評価基準により会話の特徴を抽出する。ここで、対話度とは、会話参加者の発言頻度のバランスを表すものとする。傾聴度とは、個々の会話参加者における他者の発言を聴く度合いを表すものとする。会話活性度とは、会話全体における発言の密度を表すものとする。

対話度は、会話が行われている間における発話者の交代回数と、発話者が交代するまでの時間（一人の発話者が連続して発話している時間）のばらつきによって特定される。これは、一定時間の会話情報において、話者が切り替わった回数および切り替わったときの時刻から得られる。そして、発話者の交代回数が多く、各発話者の連続発話時間のばらつきが小さいほど、対話度の値（レベル）が大きいものとする。この評価基準は、同一の会話に係る全ての会話情報（各端末装置１０の発話情報）において共通する。

傾聴度は、会話情報における会話参加者ごとの自身の発話時間と他者の発話時間との比率によって特定される。例えば、下式の場合、値が大きいほど傾聴度の値（レベル）が大きいものとする。
傾聴度＝（他者の発話時間）÷（装着者自身の発話時間）
この評価基準は、同一の会話に係る会話情報であっても、各会話参加者の端末装置１０から取得した発話情報ごとに異なるものとなる。

会話活性度は、いわゆる会話の盛り上がりを表す指標であり、会話情報全体に対する無言時間（会話参加者の誰も発言していない時間）の比率によって特定される。無言時間の総和が短いほど、会話において会話参加者のいずれかが発言していることを意味し、会話活性度の値（レベル）が大きいものとする。この評価基準は、同一の会話に係る全ての会話情報（各端末装置１０の発話情報）において共通する。

以上のようにして、会話情報解析部２０２による会話情報の解析により、その会話情報に係る会話の特徴が抽出される。また、上記の解析により、その会話における各参加者の参加の仕方が特定される。なお、上記の評価基準は、会話の特徴を表す情報の一例に過ぎず、他の評価項目を採用したり、項目毎に重み付けを加えたりすることにより、本実施形態のシステムの利用目的や利用態様に応じた評価基準を設定して良い。

上記のような解析を、データ蓄積部２２に蓄積された発話情報の中から会話情報検出部２０１により検出された種々の会話情報に対して行うことにより、端末装置１０の装着者のグループ全体におけるコミュニケーションの傾向を分析することができる。具体的には、例えば、会話参加者の数、会話が行われた時間、対話度、活性度などの値と会話の発生頻度との相関関係を調べることで、装着者のグループにおいてどのような態様の会話が行われる傾向があるかが判断される。

また、特定の装着者の複数の会話情報に対して上記のような解析を行うことにより、装着者個人のコミュニケーションの傾向を分析することができる。特定の装着者による会話への参加の仕方は、会話の相手や会話参加者の数といった条件に応じて、一定の傾向を持つ場合がある。そこで、特定の装着者における複数の会話情報を調べることにより、例えば、特定の相手との会話では対話レベルが大きい、会話参加者の数が多くなると傾聴度が大きくなる等のような特徴が検出されることが期待される。

なお、上記の発話情報の識別処理および会話情報解析処理は、本実施形態によるシステムの適用例を示すに過ぎず、本実施形態によるシステムの利用目的や利用態様、ホスト装置２０の機能等を限定するものではない。本実施形態の端末装置１０により取得した発話情報に対して種々の解析や調査を実行するための処理機能が、ホスト装置２０の機能として実現され得る。

さて、上記では、音声解析部１５が、装着者自身が発話した音声か他者の発話による音声かを識別した後に、取得音声が衝突音を含むか否かを識別することを説明したが、装着者自身が発話した音声か他者の発話による音声かを識別するとともに取得音声が衝突音を含むか否かを識別する構成であれば、これに限定されない。例えば、取得音声が衝突音を含むか否かを識別した後に、装着者自身が発話した音声か他者の発話による音声かを識別する構成であってもよい。

また、上記では、音声解析部１５が衝突音を含む取得音声と判断した際には、装着者の発話音声と他者の発話音声との識別を行わないことを説明したが、これに限定されない。例えば、音声解析部１５が衝突音を含む取得音声と判断した後に、音声解析部１５がこの第１マイクロフォン１１および第２マイクロフォン１２による取得音声を分離除去（ノイズを除去）する（フィルタリング処理を行う）とともに、この取得音声を取得した時刻に装着者の発話音声を取得したと識別する構成であってもよい。このことにより、装着者の発話音声である取得音声を、他者の発話音声と識別することが抑制される。

１０…端末装置、１１…第１マイクロフォン、１２…第２マイクロフォン、１３…第１増幅器、１４…第２増幅器、１５…音声解析部、１６…データ送信部、１７…電源部、２０…ホスト装置、２１…データ受信部、２２…データ蓄積部、２３…データ解析部、２４…出力部、３０…装置本体、４０…提げ紐、２０１…会話情報検出部、２０２…会話情報解析部

Claims

装置本体と、
前記装置本体に接続され、当該装置本体を使用者の首から提げるのに用いられる提げ紐と、
前記提げ紐または前記装置本体に設けられ音声を取得する第１音声取得手段と、
前記提げ紐を首に掛けたときに、前記装置本体から前記第１音声取得手段までの音波伝搬経路の距離より、当該装置本体からの音波伝搬経路の距離が大きくなる位置に設けられ音声を取得する第２音声取得手段と、
前記装置本体に設けられ、前記第１音声取得手段により取得された音声の音圧である第１音圧と前記第２音声取得手段により取得された音声の音圧である第２音圧との比較結果に基づき、当該第１音圧が、当該第２音圧よりも予め定められた値以上大きい音を識別する識別部と
を備えることを特徴とする音声解析装置。
前記第１音声取得手段は前記装置本体に設けられており、前記第２音声取得手段は前記提げ紐に設けられていることを特徴とする、請求項１記載の音声解析装置。
前記識別部は、前記第１音圧と前記第２音圧との比較結果に基づき、前記第１音声取得手段および前記第２音声取得手段により取得された音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別することを特徴とする請求項１または２記載の音声解析装置。
前記識別部は、当該識別部によって識別された音以外の音についての前記第１音圧と前記第２音圧との比較結果に基づき、前記第１音声取得手段および前記第２音声取得手段により取得された音声が前記提げ紐を首に掛けた前記使用者の発話音声か、他者の発話音声かを識別することを特徴とする請求項１から３のいずれかに記載の音声解析装置。