JP2016163230A

JP2016163230A - 音声解析装置、音声解析システムおよびプログラム

Info

Publication number: JP2016163230A
Application number: JP2015041710A
Authority: JP
Inventors: 誓哉稲木; Seiya Inagi; 原田　陽雄; Haruo Harada; 陽雄原田; 米山　博人; Hiroto Yoneyama; 博人米山; 啓下谷; Hiroshi Shitaya; 藤居　徹; Toru Fujii; 徹藤居; 靖飯田; Yasushi Iida
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2015-03-03
Filing date: 2015-03-03
Publication date: 2016-09-05
Anticipated expiration: 2035-03-03
Also published as: US20160260439A1; JP6515591B2; US9704504B2

Abstract

【課題】同時発話を判定することができる音声解析装置等を提供する。
【解決手段】話者の発声部位から異なる距離にて配され話者の音声を取得する複数のマイクロフォンにより生成された音声信号を取得する音声情報取得手段と、予め定められた対象話者の音声信号を強調した目的音強調波形および対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別手段と、を備えることを特徴とする端末装置１０。
【選択図】図２

Description

本発明は、音声解析装置、音声解析システム、プログラムに関する。

従来、マイクロフォンを利用し、マイクロフォンにより捉えられた音の発生方向を推定する技術が存在する。

特許文献１には、各受信装置の受音信号について、第１の方向に指向性を形成するフィルタ処理を行って第１の出力信号を求める第１ビームフォーマと、各受信装置の受音信号について、第１の方向とは異なる第２の方向に指向性を形成するフィルタ処理を行って第２の出力信号を求める第２ビームフォーマと、第１の出力信号の強度と第２の出力信号の強度との強度比を求めるパワー比算出部と、強度比に基づいて音源方向を推定する方向推定部とを有する音響処理装置が開示されている。

特開２００９−２８８２１５号公報

例えば、話者の発声部位からの距離が異なる複数のマイクロフォンを配置する。そしてそれぞれのマイクロフォンで取得される音声の音圧を基に、音声が何れの話者のものであるかを識別することができる。
しかしながら複数の話者が同時発話等の場合、同時発話であることを判別できない。また、何れかの話者の発話であるとの誤判定により話者識別の精度が低下する可能性がある。
本発明は、同時発話の判定を可能とする音声解析装置等を提供することを目的とする。

請求項１に記載の発明は、話者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段により生成された音声信号を取得する音声情報取得手段と、予め定められた対象話者の音声信号を強調した目的音強調波形および当該対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別手段と、を備えることを特徴とする音声解析装置である。
請求項２に記載の発明は、前記識別手段は、前記音声情報取得手段が取得した音声信号の波形、前記目的音強調波形および前記目的外音強調波形のそれぞれの周波数スペクトルの少なくとも２つについて共通する位置にあるピークを求め、共通する位置にあるピークの強度から取得された音声が何れの話者の発話音声であるかを識別することを特徴とする請求項１に記載の音声解析装置である。
請求項３に記載の発明は、前記識別手段は、共通する位置にあるピークの強度の大小関係により取得された音声が何れの話者の発話音声であるかを識別することを特徴とする請求項２に記載の音声解析装置である。
請求項４に記載の発明は、話者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段と、予め定められた対象話者の音声信号を強調した目的音強調波形および当該対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別手段と、を備えることを特徴とする音声解析システムである。
請求項５に記載の発明は、コンピュータに、話者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段により生成された音声信号を取得する音声情報取得機能と、予め定められた対象話者の音声信号を強調した目的音強調波形および当該対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別機能と、を実現させるプログラムである。

請求項１に記載の発明は、同時発話を判定することができる音声解析装置を提供できる。
請求項２に記載の発明は、話者を識別する際に周波数スペクトルの一部を用いることによって、簡易な方法で行うことができる。
請求項３に記載の発明は、話者を識別する際に周波数スペクトルの大小関係を用いることによって、簡単な方法で行うことができる。
請求項４に記載の発明は、同時発話を判定することができる音声解析システムを提供できる。
請求項５に記載の発明は、同時発話を判定することができる機能をコンピュータにより実現できる。

本実施形態による音解析システムの構成例を示す図である。本実施形態における端末装置およびホスト装置の機能構成例を示した図である。端末装置と話者の口（発声部位）との位置関係を説明した図である。（ａ）は、目的音強調波形および目的外音強調波形を求めるために使用される音声信号の波形について示した図である。（ｂ）は、図４（ａ）に示した音声信号を基に目的音強調波形を求めたものである。（ｃ）は、図４（ａ）に示した音声信号を基に目的音強調波形を求めたものである。目的音強調波形および目的外音強調波形の強度の比を示した図である。（ａ）〜（ｃ）は、図４（ａ）〜（ｃ）に示した元波形、目的音強調波形および目的外音強調波形のそれぞれについてフーリエ変換を行い、周波数スペクトルとしたものである。時間フレームを説明した図である。本実施形態における端末装置の動作を示すフローチャートである。図８のステップ１０７において行われる話者の判定についてさらに詳しく説明したフローチャートである。他の話者が２人以上だったときに、図８のステップ１０７において行われる話者の判定についてさらに詳しく説明したフローチャートである。会話状況における発話情報の例を示す図である。

＜システム構成例＞
図１は、本実施形態による音解析システムの構成例を示す図である。
図１に示すように、本実施形態の音声解析システム１は、音声解析装置の一例である端末装置１０と、音解析装置の一例であるホスト装置２０とを備えて構成される。端末装置１０とホスト装置２０とは、予め定められた通信回線を介して接続されている。この通信回線は、有線通信回線でも無線通信回線でも良い。無線通信回線を使用する場合、Ｗｉ−Ｆｉ（Wireless Fidelity）、Bluetooth（登録商標）、ZigBee、ＵＷＢ（Ultra Wideband）等の既存の方式による回線を用いることができる。なお端末装置１０は、図１では１台のみ図示しているが、複数台設置してもよい。

図２は、本実施形態における端末装置１０およびホスト装置２０の機能構成例を示した図である。
図示するように端末装置１０は、話者の音声を取得する音声取得手段として複数のマイクロフォン１１、１２、１３（第１マイクロフォン１１、第２マイクロフォン１２、第３マイクロフォン１３）と、増幅器１４とを備える。また、端末装置１０は、取得した音声を解析する音声解析部１５と、解析結果をホスト装置２０に送信するためのデータ送信部１６とを備え、さらに電源部１７とを備える。

第１マイクロフォン１１、第２マイクロフォン１２、および第３マイクロフォン１３は、詳しくは図３で説明するが、正三角形の頂点位置に配される。また第１マイクロフォン１１、第２マイクロフォン１２、および第３マイクロフォン１３は、例えば、水平面に沿って配される。本実施形態の第１マイクロフォン１１、第２マイクロフォン１２、および第３マイクロフォン１３として用いられるマイクロフォンの種類としては、ダイナミック型、コンデンサ型等、既存の種々のものを用いて良い。とくに無指向性のＭＥＭＳ（Micro Electro Mechanical Systems）型マイクロフォンが好ましい。

増幅器１４は、それぞれ第１マイクロフォン１１、第２マイクロフォン１２、および第３マイクロフォン１３が取得した音に応じて出力する電気信号（音声信号）を増幅する。本実施形態の増幅器１４として用いられる増幅器としては、既存のオペアンプ等を用いて良い。

音声解析部１５は、増幅器１４から出力された音声信号を解析する。そして、第１マイクロフォン１１、第２マイクロフォン１２、および第３マイクロフォン１３で取得した音声が何れの話者の発話音声であるかを識別する。音声識別のための具体的な処理の内容については後述する。音声解析部１５は、音声情報取得手段および識別手段の一例として機能する。

データ送信部１６は、音声解析部１５による解析結果を含む取得データを、上記の無線通信回線を介して、あるいは無線通信回線に加えてインターネット等の有線通信回線を経由してホスト装置２０へ送信する。ホスト装置２０へ送信する情報としては、ホスト装置２０において行われる処理の内容に応じて、上記の解析結果の他、例えば、第１マイクロフォン１１、第２マイクロフォン１２、および第３マイクロフォン１３による音声の取得時刻、取得音声の音圧等の情報を含めて良い。また端末装置１０に音声解析部１５による解析結果を蓄積するデータ蓄積部を設け、一定期間の保存データを一括送信しても良い。なお有線通信回線のみで送信しても良い。

電源部１７は、上記の第１マイクロフォン１１、第２マイクロフォン１２、第３マイクロフォン１３、増幅器１４、音声解析部１５およびデータ送信部１６に電力を供給する。電源としては、例えば乾電池や充電池等の既存の電源が用いられる。また、電源部１７は、必要に応じて、電圧変換回路および充電制御回路等の周知の回路を含む。

ホスト装置２０は、端末装置１０から送信されたデータを受信するデータ受信部２１と、受信したデータを蓄積するデータ蓄積部２２と、蓄積したデータを解析するデータ解析部２３と、解析結果を出力する出力部２４とを備える。このホスト装置２０は、例えばパーソナルコンピュータ等の情報処理装置により実現される。また、本実施形態では複数台の端末装置１０が使用された場合には、ホスト装置２０は、その複数台の端末装置１０の各々からデータを受信する。なお、端末装置１０とホスト装置２０の間にデータ転送を中継する中継装置を介しても良く、この中継装置が解析、演算、時刻や中継装置ＩＤ等のデータを加える機能を有してもよい。

データ受信部２１は、各端末装置１０、あるいは中継装置からデータを受信してデータ蓄積部２２へ送る。
データ蓄積部２２は、例えばパーソナルコンピュータの磁気ディスク装置等の記憶装置により実現され、データ受信部２１から取得した受信データを蓄積する。

データ解析部２３は、例えばパーソナルコンピュータのプログラム制御されたＣＰＵにより実現され、データ蓄積部２２に蓄積されたデータを解析する。具体的な解析内容および解析手法は、本実施形態のシステムの利用目的や利用態様に応じて種々の内容および手法を取り得る。例えば、話者どうしの対話頻度や話者の対話相手の傾向を分析したり、対話における個々の発話の長さや音圧の情報から対話者の関係を類推したりすることが行われる。詳しくは後述するが、本実施形態では、データ解析部２３は、対象話者と他の話者との会話関係を判定する。

出力部２４は、データ解析部２３による解析結果を出力したり、解析結果に基づく出力を行ったりする。この解析結果等を出力する手段は、システムの利用目的や利用態様、解析結果の内容や形式等に応じて、ＷＥＢ表示、ディスプレイ表示、プリンタによる印刷出力、音声出力等、種々の手段を取り得る。

＜２つのマイクロフォンの組と音声信号の位相差についての説明＞
図３は、端末装置１０と話者の口（発声部位）との位置関係を説明した図である。
本実施形態では、１人の話者を選択し、これを対象話者とする。そして端末装置１０は、マイクロフォン１１、１２、１３が取得した話者の音声が、対象話者の発話音声であるか、対象話者以外の話者の発話音声であるかを識別する。

図３では、対象話者Ｘと対象話者以外の話者である話者Ｙとが端末装置１０の周囲で会話している状況を示している。このとき例えば、第１マイクロフォン１１、第２マイクロフォン１２、対象話者Ｘの発声部位である音源ａ、および話者Ｙの発声部位である音源ｂのそれぞれの位置関係を考える。

図３に示す関係において、音源ａと第１マイクロフォン１１との間の距離をＬａ１、音源ａと第２マイクロフォン１２との間の距離をＬａ２とする。また、音源ｂと第１マイクロフォン１１との間の距離をＬｂ１、音源ｂと第２マイクロフォン１２との間の距離をＬｂ２とする。

この場合、音源ａから発した対象話者Ｘの発話音声は、音速で空気中を伝播し、第１マイクロフォン１１および第２マイクロフォン１２にそれぞれ到達する。しかしながらＬａ１とＬａ２が異なると、この距離差に応じて第１マイクロフォン１１および第２マイクロフォン１２に到達する時間に時間差が生じることになる。同様のことは話者Ｙについても言うことができる。即ち、音源ｂから発した話者Ｙの音声は、Ｌｂ１とＬｂ２との距離差に応じて第１マイクロフォン１１および第２マイクロフォン１２に到達する時間に時間差が生じる。

そして第１マイクロフォン１１および第２マイクロフォン１２から出力される音声信号は、対象話者Ｘおよび話者Ｙのそれぞれについて、波形はほぼ同一となるが、時間差に応じた位相差が生じる。

＜発話音声の識別についての説明＞
本実施形態では、この音声信号の位相差を利用して、マイクロフォン１１、１２、１３が取得した話者の音声が、何れの話者の発話音声であるかを識別する。

具体的には、対象話者Ｘの音声信号を強調した目的音強調波形と対象話者Ｘ以外の話者Ｙの音声信号を強調した目的外音強調波形をまず求める。目的音の強調としては、ある方向（目的音が発せられる方向）からの信号を増幅したり、ある方向からの信号を増幅する一方でその他の方向からの信号を抑圧したり、ある方向からの信号には処理せずにその他の方向からの信号を抑圧したり、ある方向からの音声のみを抽出したり、といったことが考えられる。
目的音強調波形や目的外音強調波形は、既知の方法に求めることができる。具体的には、例えば、上記位相差を利用した空間フィルタを用いる方法により求めることができる。

図４（ａ）は、目的音強調波形および目的外音強調波形を求めるために使用される音声信号の波形について示した図である。ここで横軸は、時間を表し、縦軸は、音声信号の強度を表す。これは、第１マイクロフォン１１または第２マイクロフォン１２から出力される音声信号の波形であり、ここでは、元波形と言うことにする。なお実際の音声信号の波形は、鋸歯形状となるが、説明を簡単にするため、紡錘形状に簡略化して図示している。

図４（ａ）では、まず対象話者Ｘが発話し、次に話者Ｙが発話した後に、対象話者Ｘと話者Ｙが同時に発話した場合の音声信号を示す。つまり図４（ａ）では、まず対象話者Ｘの発話区間があり、次に話者Ｙの発話区間がある。そして最後に対象話者Ｘの発話区間でもあり、話者Ｙの発話期間でもある同時発話区間がある。

図４（ｂ）は、図４（ａ）に示した音声信号を基に目的音強調波形を求めたものである。
図示するように図４（ａ）に比較して、対象話者Ｘの発話区間の音声信号の強度が大きくなるとともに、話者Ｙの発話区間の音声信号の強度は小さくなる。つまり対象話者Ｘの音声が強調された波形となる。
なお対象話者Ｘと話者Ｙの同時発話区間における音声信号は、対象話者Ｘの音声信号を大きくしたものと話者Ｙの音声信号を小さくしたものの合成波形となる。

また図４（ｃ）は、図４（ａ）に示した音声信号を基に目的音強調波形を求めたものである。
図示するように図４（ａ）に比較して、対象話者Ｘの発話区間の音声信号の強度が小さくなるとともに、話者Ｙの発話区間の音声信号の強度は大きくなる。つまり対象話者Ｘの音声が強調された波形となる。
なお対象話者Ｘと話者Ｙの同時発話区間における音声信号は、対象話者Ｘの音声信号を小さくしたものと話者Ｙの音声信号を大きくしたものの合成波形となる。

ここで、例えば、目的音強調波形および目的外音強調波形の強度の比から、対象話者Ｘの発話音声であるか、話者Ｙの発話音声であるかを識別する方法がある。
図５は、目的音強調波形および目的外音強調波形の強度の比を示した図である。この場合、（図４（ａ）の目的音強調波形の強度）／（図４（ｂ）の目的外音強調波形の強度）により強度の比を求めている。

上述したように対象話者Ｘの発話区間では、目的音強調波形では、音声信号の強度は大きくなり、目的外音強調波形では、音声信号の強度は小さくなる。そのため強度の比は、１より大きくなる。
対して話者Ｙの発話区間では、目的音強調波形では、音声信号の強度は小さくなり、目的外音強調波形では、音声信号の強度は大きくなる。そのため強度の比は、１より小さくなる。
よって例えば、閾値として予め定められた値を定め、強度の比がこの閾値より大きくなったときは、対象話者Ｘの発話音声であると判断でき、強度の比がこの閾値より小さくなったときは、話者Ｙの発話音声であると判断できる。なお図５では、この閾値として約１．２を設定している。

しかしながら対象話者Ｘと話者Ｙの同時発話区間では、強度の比は、対象話者Ｘの発話区間の場合と話者Ｙの発話区間の場合の間となる。そして同時発話の場合、この強度の比は、対象話者Ｘまたは話者Ｙが単独で発話した場合に比較して、その値は、不安定である。よって大きな幅でその値が振れやすく、そのため閾値を設定する方法で、同時発話を判断することは困難である。また対象話者Ｘまたは話者Ｙの何れかの発話区間であると判断され、誤判定が生ずる。

そこで本実施形態では、以下の方法により対象話者Ｘの発話音声であるか、話者Ｙの発話音声であるかを識別することで、この問題の抑制を図っている。
本実施形態では、目的音強調波形および目的外音強調波形のそれぞれについてフーリエ変換を行い、周波数スペクトルを求める。そしてそれぞれの周波数スペクトルのピークの強度を基に取得された音声の話者を識別する。

図６（ａ）〜（ｃ）は、図４（ａ）〜（ｃ）に示した元波形、目的音強調波形および目的外音強調波形のそれぞれについてフーリエ変換を行い、周波数スペクトルとしたものである。図６（ａ）〜（ｃ）において、横軸は周波数を表し、縦軸は、強度を表す。なおこのフーリエ変換は、図７で示すように対象話者Ｘと話者Ｙの同時発話区間において、時間フレームＦを設定し、この時間フレームＦの間の元波形、目的音強調波形および目的外音強調波形について行っている。

そして図６（ａ）〜（ｃ）の周波数スペクトルの波形からピークを検出する。ここでは、検出したピークをＩ〜ＶＩＩで示している。
次にそれぞれの波形で共通する位置にあるピークを見つける。ここでは、図６（ａ）と図６（ｂ）についてピークＩ〜ＩＩＩ、Ｖが共通する位置にある。また、図６（ａ）と図６（ｃ）についてピークＶ〜ＶＩＩが共通する位置にある。なおピークＩＶは、他と共通する位置にないため、ここでは対象とならない。

そして共通する位置にあるそれぞれのピークについて強度の比を取る。
この場合、例えば、（元波形についてのピークの強度）／（目的音強調波形についてのピークの強度）を算出し、比を求める。
そして予め定められた閾値（第１の閾値）を超えるピークがある場合には、取得された音声が対象話者Ｘの発話音声であると判断する。この例では、ピークＩ〜ＩＩＩ、Ｖの何れかが、第１の閾値を超えた場合、取得された音声が対象話者Ｘの発話音声であると判断する。この例では、ピークＩ〜ＩＩＩについて第１の閾値を超える。

また（元波形のピークの強度）／（目的外音強調波形のピークの強度）を算出し、比を求める。
そして予め定められた閾値（第２の閾値）を超えるピークがある場合には、取得された音声が話者Ｙの発話音声であると判断する。この例では、ピークＶ〜ＶＩＩの何れかが、第２の閾値を超えた場合、取得された音声が話者Ｙの発話音声であると判断する。この例では、ピークＶ〜ＶＩＩが全て第２の閾値を超える。

よってこの場合は、時間フレームＦの箇所は、対象話者Ｘの発話区間でもあり、話者Ｙの発話区間でもあると判断される。即ち、対象話者Ｘと話者Ｙの同時発話区間と判断される。

なおこの例では、共通する位置にあるそれぞれのピークについて、強度の比により何れの話者の発話音声であるかの判断を行ったが、これに限られるものではなく、強度の差により判断してもよい。
このように本実施形態では、元波形、目的音強調波形および目的外音強調波形のそれぞれの周波数スペクトルの少なくとも２つについて共通する位置にあるピークを求める。そして共通する位置にあるピークの強度から取得された音声が何れの話者の発話音声であるかを識別する。さらに具体的には、共通する位置にあるピークの強度の大小関係により取得された音声が何れの話者の発話音声であるかを識別する。

周波数スペクトルは、話者毎に異なり、周波数スペクトルのピークの位置が話者毎に異なる。よって同時発話をしても周波数スペクトル上では、ピークが分離される。そのためこのピークの位置を基にして、何れの話者が発話しているのかが識別できる。
つまり対象話者Ｘの発話音声についての周波数スペクトル上のピークの位置は、元波形の周波数スペクトルでも目的音強調波形の周波数スペクトルでも変わらない。そして目的音強調波形の周波数スペクトルの強度は、元波形の周波数スペクトルに対して強調される。なお目的外音強調波形の周波数スペクトルでは、このピークは小さくなる。
よって目的音強調波形の波数スペクトルと元波形の周波数スペクトルのそれぞれのピークの強度を比較することで対象話者Ｘが発話しているか否かがわかる。

また同様に話者Ｙの発話音声についての周波数スペクトル上のピークの位置は、元波形の周波数スペクトルでも目的外音強調波形の周波数スペクトルでも変わらない。そして目的外音強調波形の周波数スペクトルの強度は、元波形の周波数スペクトルに対して強調される。なお目的音強調波形の周波数スペクトルでは、このピークは小さくなる。
よって目的外音強調波形の波数スペクトルと元波形の周波数スペクトルのそれぞれのピークの強度を比較することで話者Ｙが発話しているか否かがわかる。

この方法によれば、対象話者Ｘが発話しているか否か、また話者Ｙが発話しているか否かは、対象話者Ｘや話者Ｙが単独で発話している場合はもちろん、対象話者Ｘと話者Ｘとが同時発話していても判別可能である。

＜端末装置の動作例＞
図８は、本実施形態における端末装置１０の動作を示すフローチャートである。
図８に示すように、端末装置１０のマイクロフォン１１、１２、１３が音声を取得する（ステップ１０１）と、各マイクロフォン１１、１２、１３から取得音声に応じた電気信号（音声信号）が増幅器１４へ送られる。増幅器１４は、マイクロフォン１１、１２、１３からの音声信号を取得すると、音声信号を増幅して音声解析部１５へ送る（ステップ１０２）。

音声解析部１５は、送られた音声信号（元波形）を基に、位相差を利用した空間フィルタを使用して目的音強調波形および目的外音強調波形を求める（ステップ１０３）。
次に音声解析部１５は、一定の時間単位（例えば、数十分の一秒〜数百分の一秒）毎に時間フレームＦを設定し、元波形、目的音強調波形および目的外音強調波形に対してフーリエ変換を行うことで、周波数スペクトルを求める（ステップ１０４）。
さらに音声解析部１５は、それぞれの周波数スペクトルの波形からピークを検出する（ステップ１０５）。
次にそれぞれの波形で共通する位置にあるピークを見つける（ステップ１０６）。
そして共通する位置にあるピークの強度を基にして、時間フレームＦの箇所が、何れの話者の発話区間であるかを判定する（ステップ１０７）。

この後、音声解析部１５は、データ送信部１６を介して、ステップ１０３〜ステップ１０７の処理で得られた情報（発話の有無、話者の情報）を解析結果としてホスト装置２０へ送信する（ステップ１０８）。このとき、話者毎の発話時間の長さやその他の付加情報を解析結果と共にホスト装置２０へ送信させても良い。

また図９は、図８のステップ１０７において行われる話者の判定についてさらに詳しく説明したフローチャートである。
ここでは、ステップ１０６において、共通する位置にあるピークがｎ個見つかったとし、このｎ個のピークの周波数λの値を、λ＝｛λ_１、λ_２、λ_３、…、λ_ｎ｝で表す。また目的音強調波形、目的外音強調波形、元波形のそれぞれの周波数スペクトルについて、このｎ個のピークの周波数λの位置の強度を、それぞれＡ＝｛ａ_１、ａ_２、ａ_３、…、ａ_ｎ｝、Ｂ＝｛ｂ_１、ｂ_２、ｂ_３、…、ｂ_ｎ｝、Ｃ＝｛ｃ_１、ｃ_２、ｃ_３、…、ｃ_ｎ｝で表す。

図示するように、音声解析部１５は、まずカウンタｉを１にセットする（ステップ２０１）。
次に音声解析部１５は、ａ_ｉ＞ｃ_ｉ＞ｂ_ｉであるか否かを判定する（ステップ２０２）。つまりここでは、強度の差により何れの話者の発話音声であるかの判断を行う。
そしてａ_ｉ＞ｃ_ｉ＞ｂ_ｉであったとき（ステップ２０２でＹｅｓ）、発話フラグｆ_ｉを「対象話者」に設定する（ステップ２０３）。

対してａ_ｉ＞ｃ_ｉ＞ｂ_ｉでなかったとき（ステップ２０２でＮｏ）、音声解析部１５は、ｂ_ｉ＞ｃ_ｉ＞ａ_ｉであるか否かを判定する（ステップ２０４）。
そしてｂ_ｉ＞ｃ_ｉ＞ａ_ｉであったとき（ステップ２０４でＹｅｓ）、発話フラグｆ_ｉを「他の話者」に設定する（ステップ２０５）。

対してｂ_ｉ＞ｃ_ｉ＞ａ_ｉでなかったとき（ステップ２０４でＮｏ）、このピークについては、判定の対象外として、ステップ２０６に進む。
次に音声解析部１５は、カウンタｉに１を加算する（ステップ２０６）。そして音声解析部１５は、ｉ＞ｎであるかを判定する（ステップ２０７）。そしてｉ＞ｎでなかったとき（ステップ２０７でＮｏ）、ステップ２０２に戻る。

一方、ｉ＞ｎだったとき（ステップ２０７でＹｅｓ）、つまり発話フラグｆ_ｉがｎ個のピークの周波数λに対して全て設定されたとき、音声解析部１５は、発話フラグｆ＝｛ｆ_１、ｆ_２、ｆ_３、…、ｆ_ｎ｝の何れかに「対象話者」であるものが含むか否かを判定する（ステップ２０８）。
そして何れかに「対象話者」を含む場合（ステップ２０８でＹｅｓ）、音声解析部１５は、発話フラグｆ＝｛ｆ_１、ｆ_２、ｆ_３、…、ｆ_ｎ｝の何れかに「他の話者」であるものを含むか否かを判定する（ステップ２０９）。
その結果、何れかに「他の話者」を含む場合（ステップ２０９でＹｅｓ）、音声解析部１５は、時間フレームＦの箇所が、対象話者Ｘと話者Ｙの同時発話区間であると判定する（ステップ２１０）。
一方、何れかに「他の話者」を含まない場合（ステップ２０９でＮｏ）、音声解析部１５は、時間フレームＦの箇所が、対象話者Ｘ単独の発話区間であると判定する（ステップ２１１）。

また何れかに「対象話者」を含まなかった場合（ステップ２０８でＮｏ）、音声解析部１５は、発話フラグｆ＝｛ｆ_１、ｆ_２、ｆ_３、…、ｆ_ｎ｝の何れかに「他の話者」であるものを含むか否かを判定する（ステップ２１２）。
その結果、何れかに「他の話者」を含む場合（ステップ２１２でＹｅｓ）、音声解析部１５は、時間フレームＦの箇所が、話者Ｙ単独の発話区間であると判定する（ステップ２１３）。

さらに何れかに「他の話者」を含まない場合（ステップ２１２でＮｏ）、音声解析部１５は、時間フレームＦの箇所が、対象話者Ｘ、話者Ｙの何れも発話していない話者なしの区間であると判定する（ステップ２１４）。

なお上述した例では、話者は対象話者Ｘと他の話者である話者Ｙとの２人であったが、これに限られるものではなく、３人以上であってもよい。このとき他の話者は、２人以上となる。この場合、ステップ１０３において、目的音強調波形の他に目的外音強調波形を他の話者の人数分求める。そしてステップ１０４〜１０７で同様の処理を行うことで、時間フレームＦの箇所が、何れの話者の発話区間であるかを判定する。

このときステップ１０７において行われる話者の判定は、次のようにして行う。
図１０は、他の話者が２人以上だったときに、図８のステップ１０７において行われる話者の判定についてさらに詳しく説明したフローチャートである。
ここでは、対象話者Ｘと他の話者との合計はｍ人である。つまり他の話者は、ｍ−１人であるとする。
ここでもステップ１０６において、共通する位置にあるピークがｎ個見つかったとし、このｎ個のピークの周波数λの値を、λ＝｛λ_１、λ_２、λ_３、…、λ_ｎ｝で表す。また目的音強調波形の周波数スペクトルについて、このｎ個のピークの周波数λの位置の強度を、｛ａ_１１、ａ_１２、ａ_１３、…、ａ_１ｎ｝で表す。また目的外音強調波形の周波数スペクトルは、他の話者のそれぞれの音声信号を強調したものを他の話者の人数分求める。そしてこの目的外音強調波形の周波数スペクトルについて、このｎ個のピークの周波数λの位置の強度を、｛ａ_２１、ａ_２２、ａ_２３、…、ａ_２ｎ｝、｛ａ_３１、ａ_３２、ａ_３３、…、ａ_３ｎ｝、…、｛ａ_ｍ１、ａ_ｍ２、ａ_ｍ３、…、ａ_ｍｎ｝で表す。そしてこれらを総括したものとして下記の強度Ａを考える。なおこれは、ｍ行ｎ列の行列とみなすこともできる。

Ａ＝｛ａ_１１、ａ_１２、ａ_１３、…、ａ_１ｎ、
ａ_２１、ａ_２２、ａ_２３、…、ａ_２ｎ、
ａ_３１、ａ_３２、ａ_３３、…、ａ_３ｎ、
・・・・・・・・・・・・・・・・・
ａ_ｍ１、ａ_ｍ２、ａ_ｍ３、…、ａ_ｍｎ｝

また元波形のそれぞれの周波数スペクトルについて、このｎ個のピークの周波数λの位置の強度を、Ｂ＝｛ｂ_１、ｂ_２、ｂ_３、…、ｂ_ｎ｝で表す。

そして図示するように、音声解析部１５は、まずカウンタｉを１にセットする（ステップ３０１）。

そしてＡ’＝｛ａ_１ｉ、ａ_２ｉ、ａ_３ｉ、…、ａ_ｎｉ｝を考え、この中に含まれる強度と、Ｂ＝｛ｂ_１、ｂ_２、ｂ_３、…、ｂ_ｎ｝に含まれる強度を順に比較して大小関係を求める。つまりまずａ_１ｉとｂ_１とを比較し、次にａ_２ｉとｂ_２とを比較する。そしてさらにこの処理を続け、最後にａ_ｎｉとｂ_ｎとを比較する。そしてＢよりＡ’の方が大きくなった場合のＡ’の要素の集合としてＴを求める（ステップ３０２）。
例えば、ＢよりＡ’の方が大きくなった場合が、ａ_１ｉ＞ｂ_１、ａ_３ｉ＞ｂ_３、ａ_ｎｉ＞ｂ_ｎの３個であり、他はＡ’よりＢの方が大きくなった場合、Ｔ＝｛ａ_１ｉ、ａ_３ｉ、ａ_ｎｉ｝となる。

次にＴの要素の数が１以上であるか否かを判定する（ステップ３０３）。
そしてＴの要素の数が１以上であったとき（ステップ３０３でＹｅｓ）、発話フラグｆ＝｛ｆ_１、ｆ_２、ｆ_３、…、ｆ_ｎ｝のｉ番目（ｆ_ｉ）を行番号とする（ステップ３０４）。上述した例では、ｆ_１が、１、３、ｎとなる。

またＴの要素の数が１未満（つまり０）であったとき（ステップ３０３でＮｏ）、ステップ３０５に進む。
次に音声解析部１５は、カウンタｉに１を加算する（ステップ３０５）。そして音声解析部１５は、ｉ＞ｎであるかを判定する（ステップ３０６）。そしてｉ＞ｎでなかったとき（ステップ３０６でＮｏ）、ステップ３０２に戻る。

一方、ｉ＞ｎだったとき（ステップ３０６でＹｅｓ）、つまり発話フラグｆ_ｉがｎ個のピークの周波数λに対して全て設定されたとき、音声解析部１５は、発話フラグｆ＝｛ｆ_１、ｆ_２、ｆ_３、…、ｆ_ｎ｝の何れかに含まれる行番号を抽出する（ステップ３０７）。そして音声解析部１５は、抽出された行番号に対応する話者が時間フレームＦにおいて発話していると判定する。例えば、行番号として、１が抽出されたときは、対象話者Ｘが発話している。また行番号として、例えば、ｍが抽出されたときは、この番号に対応する話者が発話している。音声解析部１５は、抽出された行番号により、時間フレームＦの箇所が、何れの話者の発話区間であるかを判定する（ステップ３０８）。

以上詳述した端末装置１０では、複数の話者が同時発話した場合でも、同時発話であることを判別でき、何れかの話者が発話したかを識別している。そのため話者識別の精度が低下しにくい。

＜装着者の会話関係の判定についての説明＞
音声に関する情報を受信した端末装置１０では、データ解析部２３において複数の端末装置１０から送られた音声が解析され、装着者の会話関係が判定される。
以下に本実施形態における話者の会話関係を判定する具体的な方法について説明を行なう。ここではまず同一の部屋内等の同一のエリアにおいて対象話者Ｘと話者Ｙが会話を行なっている場合に、この二人の話者が会話をしていることを判定する場合について説明する。

図１１は、会話状況における発話情報の例を示す図である。
このとき、発話情報は、図１１に示すように、発話時間の長さや発話者が切り替わったタイミング等の発話状況を示す情報は近似し、同調性があることがわかる。そこで、本実施例のホスト装置２０は、端末装置１０から取得した情報を分析し、同調性を判定することにより、これらの情報が同じ発話状況を示していると判断し、対象話者Ｘと話者Ｙとが会話していることを認識する。ここで、発話状況を示す情報としては、少なくとも、上述した発話者ごとの個々の発話における発話時間の長さ、個々の発話の開始時刻と終了時刻、発話者が切り替わった時刻（タイミング）等のように、発話に関する時間情報が用いられる。なお、特定の会話に係る発話状況を判断するために、これらの発話に関する時間情報の一部のみを用いても良いし、他の情報を付加的に用いても良い。

このように装着者同士の会話関係を判断することで、話者のコミュニケーション関係が把握できるシステムを構築できる。

なお上述した例では、音声の話者の識別を行なうのを端末装置１０の側で行なっていたが、これに限られるものではなく、ホスト装置２０の側で行なってもよい。この形態における音声解析システム１としては、図１のものに対し、音声解析部１５で行なっていた音声信号の話者識別を、例えば、ホスト装置２０のデータ解析部２３で行なう。この場合、データ解析部２３が音声情報取得手段および識別手段として機能する。さらに図１１で説明した会話状況の判定をデータ解析部２３ではなく、端末装置１０の音声解析部１５で行ってもよい。

また上述した例では、第１マイクロフォン１１、第２マイクロフォン１２を使用して話者の識別を行っていたが、これに限られるものではなく、第３マイクロフォン１３を使用してもよい。また第１マイクロフォン１１、第２マイクロフォン１２、第３マイクロフォン１３の中から適切なものを２個選択するようにしてもよい。

＜プログラムの説明＞
なお本実施形態における端末装置１０が行なう処理は、ソフトウェアとハードウェア資源とが協働することにより実現される。即ち、端末装置１０に設けられた制御用コンピュータ内部の図示しないＣＰＵが、端末装置１０の各機能を実現するプログラムを実行し、これらの各機能を実現させる。

よって端末装置１０が行なう処理は、コンピュータに、話者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段により生成された音声信号を取得する音声情報取得機能と、予め定められた対象話者の音声信号を強調した目的音強調波形および対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別機能と、を実現させるプログラムとして捉えることもできる。

１…音声解析システム、１０…端末装置、１５…音声解析部、１６…データ送信部、２０…ホスト装置、２１…データ受信部、２３…データ解析部

Claims

話者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段により生成された音声信号を取得する音声情報取得手段と、
予め定められた対象話者の音声信号を強調した目的音強調波形および当該対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別手段と、
を備えることを特徴とする音声解析装置。
前記識別手段は、前記音声情報取得手段が取得した音声信号の波形、前記目的音強調波形および前記目的外音強調波形のそれぞれの周波数スペクトルの少なくとも２つについて共通する位置にあるピークを求め、共通する位置にあるピークの強度から取得された音声が何れの話者の発話音声であるかを識別することを特徴とする請求項１に記載の音声解析装置。
前記識別手段は、共通する位置にあるピークの強度の大小関係により取得された音声が何れの話者の発話音声であるかを識別することを特徴とする請求項２に記載の音声解析装置。
話者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段と、
予め定められた対象話者の音声信号を強調した目的音強調波形および当該対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別手段と、
を備えることを特徴とする音声解析システム。
コンピュータに、
話者の発声部位から異なる距離にて配され話者の音声を取得する複数の音声取得手段により生成された音声信号を取得する音声情報取得機能と、
予め定められた対象話者の音声信号を強調した目的音強調波形および当該対象話者以外の話者の音声信号を強調した目的外音強調波形のそれぞれの周波数スペクトルのピークの強度を基に、取得された音声の話者を識別する識別機能と、
を実現させるプログラム。