JP5740575B2

JP5740575B2 - 音声処理装置および音声処理方法

Info

Publication number: JP5740575B2
Application number: JP2012536174A
Authority: JP
Inventors: 麻紀山田; 遠藤　充; 充遠藤
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2010-09-28
Filing date: 2011-09-14
Publication date: 2015-06-24
Anticipated expiration: 2031-09-14
Also published as: US20130144622A1; EP2624252B1; EP2624252A1; WO2012042768A1; CN103155036A; EP2624252A4; JPWO2012042768A1; US9064501B2; CN103155036B

Description

本発明は、複数の話者から発話音声を検出する音声処理装置および音声処理方法に関する。

従来、補聴器や電話会議装置における指向性制御等を目的として、複数の話者の中から、会話を形成するグループ（以下「会話グループ」という）を抽出する技術が存在している（例えば特許文献１参照）。

特許文献１記載の技術（以下「従来技術」という）は、２人の話者が会話を行っているとき、それぞれの話者から有音区間が交互に検出される、という現象を前提としている。従来技術は、この前提の下、有音区間／無音区間が交互となっているか否かに基づいて、２人の話者の会話成立度合いを算出する。

具体的には、従来技術は、単位時間ごとに、２人の一方が有音であり他方が無音であれば、会話成立度合いを加点し、両方が有音または両方が無音であれば、会話成立度合いを減点する。そして、従来技術は、判定対象区間における加点減点の累積結果が閾値以上となっている場合に、該当する２人の間で会話が成立していると判定する。

このような従来技術を用いることにより、複数の話者の中から、互いに会話を行っている２人を抽出することができる。

特開２００４−１３３４０３号公報

しかしながら、従来技術は、３人以上から成る会話グループが存在する場合、会話グループの抽出の精度が低くなるという課題がある。

なぜなら、３人以上の会話の場合は、ほぼ全ての単位時間において、１人の発話している話者と、複数人の無言の話者とが存在することになるが、この複数人の無言の話者の間で、会話成立度が低くなるためである。また、３人以上の会話の場合は、聞き役で発話をほとんど行わない話者が存在すると、その無言の話者と他の話者との間で、会話成立度が低くなるためである。

本発明の目的は、３人以上から成る会話グループが存在する場合でも、複数の話者の中から高い精度で会話グループを抽出することができる音声処理装置および音声処理方法を提供することである。

本発明の音声処理装置は、音響信号から複数の話者の発話音声を個別に検出する音声検出部と、検出された前記発話音声に基づいて、前記複数の話者のうちの２人の組み合わせの全てについて、判定対象時間を区切ったセグメントごとに会話成立度を算出する会話成立度計算部と、前記組み合わせごとに、前記判定対象時間における前記会話成立度の長時間特徴量を算出する長時間特徴量計算部と、算出された前記長時間特徴量に基づいて、前記複数の話者の中から、会話を形成する会話グループを抽出する会話相手判定部とを有する。

本発明の音声処理方法は、音響信号から複数の話者の発話音声を個別に検出するステップと、検出された前記発話音声に基づいて、前記複数の話者のうちの２人の組み合わせの全てについて、判定対象時間を区切ったセグメントごとに会話成立度を算出するステップと、前記組み合わせごとに、前記判定対象時間における前記会話成立度の長時間特徴量を算出するステップと、算出された前記長時間特徴量に基づいて、前記複数の話者の中から、会話を形成する会話グループを抽出するステップとを有する。

本発明によれば、３人以上から成る会話グループが存在する場合でも、複数の話者の中から高い精度で会話グループを抽出することができる。

本発明の一実施の形態に係る音声処理装置を含む補聴器の構成を示す図本実施の形態に係る補聴器が使用される環境の例を示す図本実施の形態に係る音声処理装置の構成を示すブロック図本実施の形態における会話成立度と会話グループとの関係を説明するための第１の図本実施の形態における会話成立度と会話グループとの関係を説明するための第２の図本実施の形態に係る音声処理装置の動作を示すフローチャート本実施の形態におけるマイクロホンアレイの指向性のパターンの例を示す図本実施の形態における会話相手判定処理を示すフローチャート本発明の実験のために簡略化した会話相手判定処理を示すフローチャート本発明の実験結果を示すプロット図

以下、本発明の一実施の形態について、図面を参照して詳細に説明する。本実施の形態は、本発明を、補聴器の指向性制御のための会話相手特定手段に適用した例である。

図１は、本発明に係る音声処理装置を含む補聴器の構成を示す図である。

図１に示すように、補聴器１００は、両耳型の補聴器であり、ユーザの左右の外耳に掛けるための補聴器筐体１１０Ｌ、１１０Ｒを有する。

左右の筐体１１０Ｌ、１１０Ｒのそれぞれの上部には、周囲の音を拾う２つずつのマイクロホンが前後に並べて設置されている。左右２個ずつあわせて４個から成るこれらのマイクロホンは、マイクロホンアレイ１２０を構成している。４個のマイクロフォンは、補聴器１００を装着したユーザに対して、それぞれ所定の位置に配置される。

また、左右の筐体１１０Ｌ、１１０Ｒのそれぞれには、補聴した音を出力するスピーカ１３０Ｌ、１３０Ｒが設置されている。左右のスピーカ１３０Ｌ、１３０Ｒには、それぞれ内耳に嵌めるためのイヤーチップ１４０Ｌ、１４０Ｒが、チューブを介して接続されている。

また、補聴器１００は、補聴器マイクロホンアレイ１２０およびスピーカ１３０Ｌ、１３０Ｒと有線で接続された、リモートコントロール（以下「リモコン」という）装置１５０を有する。

リモコン装置１５０には、ＣＰＵ１６０およびメモリ１７０が内蔵されている。ＣＰＵ１６０は、マイクロホンアレイ１２０にて収音された音声を入力し、メモリ１７０に予め格納された制御プログラムを実行する。これにより、ＣＰＵ１６０は、マイクロホンアレイ１２０から入力された４チャンネルの音響信号に対し、指向性制御処理および補聴処理を行う。

指向性制御処理は、会話相手の発話音声をユーザが聞き易くなるように、マイクロホンアレイ１２０からの４チャンネルの音響信号の指向方向を制御する処理である。補聴処理は、会話相手の発話音声をユーザが聞き易くなるように、ユーザの聴力が低下した周波数帯域のゲインを増幅し、スピーカ１３０Ｌ、１３０Ｒから出力させる処理である。

このような補聴器１００を装着することにより、ユーザは、会話相手の発話音声が聞き易くなった音声を、イヤーチップ１４０Ｌ、１４０Ｒから聞くことができる。

図２は、補聴器１００が使用される環境の例を示す図である。

図２Ａおよび図２Ｂに示すように、両耳型の補聴器１００を装着したユーザ２００は、例えば、レストラン等の賑やかな環境において、友人等の話者３００と会話をする。図２Ａは、ユーザ２００が前方に位置する話者３００Ｆと２人だけで会話しているケースである。また、図２Ｂは、ユーザ２００が前方に位置する話者３００Ｆおよび左方に位置する話者３００Ｌと３人で会話しているケースである。

図２Ａのケースでは、補聴器１００は、左方や右方に位置する他人の発話音声をできるだけ除外し、前方の話者３００Ｆの発話音声を聞き取り易くするために、前方の狭い範囲に指向性を向けるべきである。

一方、図２Ｂのケースでは、補聴器１００は、前方の話者３００Ｆだけでなく左方の話者３００Ｌの発話音声を聞き取り易くするために、前方と左方とを含む広い範囲に指向性を向けるべきである。

このような指向性制御が行われることにより、ユーザ２００は、周りが騒がしい環境であっても、会話相手の声を明瞭に聞くことが可能となる。会話相手の方向に応じて指向性を制御するためには、その方向を指定する必要がある。この指定は、例えば、ユーザ２００が手動で行うことが考えられる。

ところが、その操作は煩雑であり、特に高齢者や子供の場合、誤った操作が行われ、誤った方向に指向性が向けられて、逆に聞き取りにくくなるおそれがある。

このため、補聴器１００のＣＰＵ１６０は、周囲の話者の中から自動でユーザ２００の会話相手を抽出する会話相手抽出処理を行う。そして、補聴器１００のＣＰＵ１６０は、抽出した会話相手の方向に、マイクロホンアレイ１２０による音声入力の指向性（以下「マイクロホンアレイ１２０の指向性」という）を向ける。

会話相手抽出処理は、会話相手が２人以上である場合でも会話相手の抽出を高精度に行う処理となっている。ここでは、会話相手抽出処理を実現する機能を、音声処理装置というものとする。

以下、音声処理装置の構成と、会話相手抽出処理の詳細について説明する。

図３は、音声処理装置の構成を示すブロック図である。

図３において、音声処理装置４００は、ＡＤ変換部４１０、自発話検出部４２０、方向別音声検出部４３０、発話量和計算部４４０、会話成立度計算部４５０、長時間特徴量計算部４６０、会話相手判定部４７０、および出力音制御部４８０を有する。自発話検出部４２０および方向別音声検出部４３０は、合わせて、音声検出部４３５とする。

ＡＤ変換部４１０は、マイクロホンアレイ１２０において、マイクロホンごとに収音された４チャンネルの音響信号であるアナログ信号を、それぞれデジタル信号に変換する。そして、ＡＤ変換部４１０は、変換後の４チャンネルのデジタル音響信号を、自発話検出部４２０、方向別音声検出部４３０、および出力音制御部４８０へ出力する。

自発話検出部４２０は、Ａ／Ｄ変換された４チャンネルのデジタル音響信号から低域の振動成分を強調し（つまり低域の振動成分を取り出し）、自発話パワー成分を求める。自発話検出部４２０は、Ａ／Ｄ変換された４チャンネルのデジタル音響信号を用いて、細かい時間間隔ごとに発話音声の有無を判定する。そして、自発話検出部４２０は、フレームごとの自発話の有無を示す音声／非音声情報を、発話量和計算部４４０および会話成立度計算部４５０へ出力する。

ここで、自発話とは、補聴器１００を装着したユーザ２００の発話をいう。また、以下、発話音声の有無が判定される時間間隔を「フレーム」という。１フレームは、例えば１０ｍｓｅｃ（ミリ秒）である。なお、自発話の有無の判定は、前後２チャンネルのデジタル音響信号を用いて行ってもよい。

本実施の形態では、例えば、ユーザ２００から見て前方、左方、および右方の各位置を発話者が位置する可能性のある位置（以下「音源」という）として説明する。

方向別音声検出部４３０は、マイクロホンアレイ１２０からのＡ／Ｄ変換後の４つのデジタル音響信号から、前方、左方、右方の各方向の音声を抽出する。より具体的には、方向別音声検出部４３０は、４チャンネルのデジタル音響信号に対して公知の指向性制御技術を用いる。これにより、方向別音声検出部４３０は、ユーザ２００の前方、左方、右方の方向別に指向性を形成し、これにより得られる音声を、前方、左方、右方の各方向の音声とする。そして、方向別音声検出部４３０は、抽出された各方向の音声のパワー情報から、細かい時間間隔で発話音声の有無を判定し、その判定結果に基づいて、各方向の他発話の有無をフレームごとに判定する。そして、方向別音声検出部４３０は、フレームごとおよび方向ごとの他発話の有無を示す音声／非音声情報を、発話量和計算部４４０および会話成立度計算部４５０へ出力する。

ここで、他発話とは、補聴器１００を装着したユーザ２００以外の者の発話（自発話以外の発話）をいう。

なお、自発話検出部４２０および方向別音声検出部４３０は、同一の時間間隔で発話音声の有無の判定を行うものとする。

発話量和計算部４４０は、自発話検出部４２０から入力される自発話の音声／非音声情報と、方向別音声検出部４３０から入力される音源ごとの他発話の音声／非音声情報とに基づいて、セグメントごとに発話量和を算出する。具体的には、発話量和計算部４４０は、４つの音源のうちの２つの組み合わせ（以下「ペア」という）の全てについて、その２音源のセグメント内の発話量の和を、セグメントごとの発話量和として検出する。そして、発話量和計算部４４０は、算出したペアごとおよびセグメントごとの発話量和を、会話成立度計算部４５０へ出力する。

ここで、発話量とは、ユーザが発話音声を発した時間長さの合計を表す。また、セグメントは、２人の話者の間で局所的に会話が成立するかどうかを表す会話成立度を求めるための固定長の時間窓である。したがって、その長さは２人の話者の間で局所的に会話が成立するとみなされる程度の長さにする必要がある。セグメントが長ければ長いほど、会話成立度の正解の精度は高くなるが、発言権を有するペアの交代への追従の精度は低くなる。また、セグメントが短ければ短いほど、会話成立度の正解の精度は低くなるが、発言権を有するペアの交代への追従の精度は高くなる。本実施の形態では、１セグメントは、例えば４０秒とする。これは、予備実験により得られた、会話成立度は１分程度で飽和するとの知見と、会話の流れへの追従とを考慮して、決定される。

会話成立度計算部４５０は、発話量和計算部４４０から入力された発話量和と、自発話検出部４２０および方向別音声検出部４３０から入力された音声／非音声情報とに基づいて、ペアごとおよびセグメントごとに、会話成立度を算出する。そして、会話成立度計算部４５０は、入力された発話量和と算出した会話成立度とを、長時間特徴量計算部４６０へ出力する。

ここで、会話成立度とは、会話成立度と同様の指標値であり、一方が有音で他方が無音となっている区間の割合が高いほど高くなり、両方が有音または無音となっている区間の割合が高いほど低くなる値である。但し、本実施の形態では、発話量和が閾値未満となっているセグメントについては、いずれも聞き役となっているものとして、その会話成立度を後述の長時間特徴量の算出対象に含めないようにする点が、従来技術とは異なる。

長時間特徴量計算部４６０は、入力された発話量和および会話成立度に基づいて、ペアごとに、長時間特徴量を算出する。そして、長時間特徴量計算部４６０は、算出した長時間特徴量を、会話相手判定部４７０へ出力する。

長時間特徴量とは、判定対象時間における会話成立度の平均値である。なお、長時間特徴量は、会話成立度の平均値に限定されるものではなく、会話成立度の中央値あるいは最頻値など、他の統計量としてもよい。また、長時間特徴量は、時間的に最近の会話成立度ほど重みを大きくして求めた重み付け平均値や、会話成立度の時系列にある程度長時間の時間窓をかけて求めた移動平均値などとしてもよい。

会話相手判定部４７０は、入力された長時間特徴量に基づいて、複数の音源に位置する複数の話者（ユーザ２００を含む）の中から、会話グループを抽出する。具体的には、会話相手判定部４７０は、長時間特徴量が似通っており、かつ、いずれも閾値以上となっている１つまたは複数のペアが存在するとき、その１つまたは複数のペアを構成する複数の話者を、１つの会話グループと判定する。本実施の形態では、会話相手判定部４７０は、ユーザ２００の会話相手の位置する方向を抽出し、抽出した方向を示す情報を、指向性を向けるべき指向方向情報として、出力音制御部４８０へ出力する。

出力音制御部４８０は、入力された音響信号に対し、上述の補聴処理を行い、処理後の音響信号を、スピーカ１３０Ｌ、１３０Ｒへ出力する。また、出力音制御部４８０は、入力された指向方向情報が示す方向に指向性が向くように、マイクロホンアレイ１２０に対する指向性制御処理を行う。

このような音声処理装置４００は、ペアごとの発話量和および会話成立度に基づいて、複数の話者の中から会話グループを抽出することができる。

ここで、発話量和、会話成立度、および長時間特徴量について説明する。

図４および図５は、会話成立度と会話グループとの関係を説明するための図である。図４および図５において、横軸は判定対象時間におけるセグメント（つまり時間）を示し、縦軸は各ペアを示す。また、灰色部分は、発話量和が閾値未満のセグメントを示す。白色部分は、発話量和が閾値以上であり会話成立度が閾値未満であるセグメントを示す。そして、黒色部分は、発話量和が閾値以上であり会話成立度が閾値以上であるセグメントを示す。

まず、ユーザと左方に位置する話者とが２人で会話しており、前方に位置する話者と右方に位置する話者とが２人で会話している場合を想定する。この場合、図４に示すように、ユーザ２００と左方の話者とのペア（上から２行目）と、前方の話者と右方の話者とのペア（上から５行目）では、発話量和が閾値以上かつ会話成立度が閾値以上であるセグメントは多くなる。ところが、他のペアでは、発話量和が閾値以上かつ会話成立度が閾値以上であるセグメントは少なくなる。

次に、ユーザ２００と左方、前方、右方に位置する３人の話者とで会話している場合を想定する。３人以上の会話では、１人が発話した後に別の１人が発話するとき、残りの話者は聞き役となる。すなわち、話者は、短い時間においては、発話権を有する２人と、その他の聞き役とに分けることができる。そして、長い時間においては、発話権を有する２人の組み合わせが交代していきながら、会話が進行することになる。

すなわち、３人以上の会話グループでは、発話権を有する２人の間で局所的に会話成立度が高くなるといえる。この結果、図５に示すように、発話量和が閾値以下のセグメントと、発話量和が閾値以上かつ会話成立度が閾値以上であるセグメントは、全てのペアにおいてそれぞれまんべんなく存在することになる。

そこで、音声処理装置４００は、発話量和が閾値以上のセグメントのみから長時間特徴量を算出し、長時間特徴量がまんべんなく高くなっている話者のグループを、会話グループと判定する。

したがって、音声処理装置４００は、図４の場合、左方に位置する話者のみをユーザ２００の会話相手と判定し、マイクロホンアレイ１２０の指向性を左方に狭める。また、音声処理装置４００は、図５の場合、左方、前方、右方に位置する３人の話者をユーザ２００の会話相手と判定し、マイクロホンアレイ１２０の指向性を左方から右方までの広い範囲に広げる。

図６は、音声処理装置４００の動作を示すフローチャートである。

まず、ステップＳ１１００において、ＡＤ変換部４１０は、マイクロホンアレイ１２０から入力された１フレーム分の４チャネルの音響信号をそれぞれＡ／Ｄ変換する。

そして、ステップＳ１２００において、自発話検出部４２０は、４チャンネルのデジタル音響信号を用いて、現在のフレームについて、自発話音声の有無を判定する。この判定は、デジタル音響信号の低域成分を強調することにより得られる自発話パワー成分に基づいて行われる。つまり、自発話検出部４２０は、自発話の有無を示す音声／非音声情報を出力する。

なお、音声処理装置４００は、処理開始時に、会話が行われているかどうかを判定することが望ましい。そして、音声処理装置４００は、会話が行われている場合、ユーザ２００の後方からの音声を抑制するように、マイクロホンアレイ１２０の指向性を制御することが望ましい。会話が行われているかどうかの判定は、例えば、自発話パワー成分に基づいて行うことができる。また、音声処理装置４００は、後方からの音声が発話音声であるか判断し、発話音声が到来する方向のみを抑制の対象としてもよい。また、音声処理装置４００は、周囲が静かな環境では、これらの制御を行わないようにしてもよい。

そして、ステップＳ１３００において、方向別音声検出部４３０は、Ａ／Ｄ変換された４チャンネルのデジタル音響信号を用いて、現在のフレームについて、前方、左方、右方の各方向の他発話音声の有無をそれぞれ判定する。この判定は、方向別に指向性を形成し、方向ごとの音声帯域（例えば２００Ｈｚ〜４０００Ｈｚ）のパワー情報に基づいて行われる。つまり、方向別音声検出部４３０は、方向ごとである音源ごとの他発話の有無を示す音声／非音声情報を出力する。

なお、方向別音声検出部４３０は、自発話による影響を軽減するために、方向別パワーの対数値から自発話パワーの対数値を差し引いた値に基づいて、他発話音声の有無を判定してもよい。また、方向別音声検出部４３０は、左方および右方からの他発話音声について、自発話音声や前方からの他発話音声との分離度を上げるために、左右のパワー差を利用してもよい。また、方向別音声検出部４３０は、パワーに対して時間方向に平滑化を行ってもよい。また、方向別音声検出部４３０は、短時間の音声区間を非音声区間として扱ったり、音声が長時間継続している間に短時間の非音声区間が含まれている場合、その非音声区間を音声区間として扱ってもよい。これらの後処理を行うことにより、最終的なフレームごとの有音無音の検出精度を向上させることができる。

そして、ステップＳ１４００において、発話量和計算部４４０は、所定の条件が満たされているか否かを判断する。この所定の条件は、音響信号の入力開始から１セグメント（４０秒）分の時間が経過し、かつ、後述の会話相手判定を前回行ってから１シフト間隔（例えば１０秒）分の時間経過したことである。発話量和計算部４４０は、１セグメント分の処理がまだ終了していない場合（Ｓ１４００：ＮＯ）、ステップＳ１１００へ戻る。この結果、次の１フレーム分に対する処理が行われる。また、発話量和計算部４４０は、最初の１セグメント分の処理が終了した場合（Ｓ１４００：ＹＥＳ）、ステップＳ１５００へ進む。

すなわち、音声処理装置４００は、１セグメント（４０秒）分の音響信号が用意されると、その後、１シフト間隔（１０秒）ごとに１セグメントの局所的時間窓をシフトさせながら、以降のステップＳ１５００〜Ｓ２４００の処理を繰り返す。なお、シフト間隔は、時間長さではなく、フレーム数またはセグメント数で定義されてもよい。

なお、音声処理装置４００は、計算処理のための変数として、フレームカウンターｔと、セグメントカウンターｐと、音源のペアごとの発話量和の多いセグメントの数を表す多発話セグメントカウンターｇ_ｉ，ｊとを用いる。

音声処理装置４００は、判定対象時間の開始時にｔ＝０、ｐ＝０、ｇ_ｉ，ｊ＝０とする。そして、音声処理装置４００は、処理がステップＳ１１００へ進むごとに、フレームカウンターを１進め、処理がステップＳ１４００からステップＳ１５００へと進むごとに、セグメントカウンターｐを１進める。すなわち、フレームカウンターｔは、処理開始からのフレームの数を示し、セグメントカウンターｐは、処理開始からのセグメントの数を示す。また、音声処理装置４００は、処理が後述のステップＳ１８００へ進むごとに、該当するペアの多発話セグメントカウンターｇ_ｉ，ｊを１進める。すなわち、多発話セグメントカウンターｇ_ｉ，ｊは、ペアごとの、後述の発話量和Ｈ_ｉ，ｊ（ｐ）が所定の閾値θ以上となっているセグメントの数を示す。

また、以下の説明において、現在のセグメントは、「Ｓｅｇ（ｐ）」と表す。また、ユーザ２００自身を含む４つの音源を示す記号は、「Ｓ」を用い、音源を識別する記号は、「ｉ」，「ｊ」を用いる。

ステップＳ１５００において、発話量和計算部４４０は、複数の音源の中からペアＳ_ｉ，ｊを１つ選択する。以降のステップＳ１６００〜Ｓ１９００の処理は、ユーザ２００自身を含む４つの音源の組み合わせの全てに対して行われることになる。４つの音源は、自発話の音源、他発話のうち前方の音源、他発話のうち左方の音源、他発話のうち右方の音源とする。そして、自発話の音源はＳ_０とし、前方の音源はＳ_１とし、左方の音源はＳ_２とし、右方の音源はＳ_３とする。この場合は、Ｓ_０，１、Ｓ_０，２、Ｓ_０，３、Ｓ_１，２、Ｓ_１，３、Ｓ_２，３の６通りの組み合わせについて、処理が行われることになる。

そして、ステップＳ１６００において、発話量和計算部４４０は、音源Ｓ_ｉ，ｊのペア（ｉ,ｊ）に対して、過去１セグメント分の音源別の音声／非音声情報を用いて、現在のセグメントＳｅｇ（ｐ）の発話量和Ｈ_ｉ，ｊ（ｐ）を算出する。発話量和Ｈ_ｉ，ｊ（ｐ）は、音源Ｓ_ｉの発話音声が有ると判定されたフレームの数と、音源Ｓ_ｊの発話音声が有ると判定されたフレームの数との和である。

そして、ステップＳ１７００において、会話成立度計算部４５０は、算出された発話量和Ｈ_ｉ，ｊ（ｐ）が所定の閾値θ以上であるか否か判断する。会話成立度計算部４５０は、発話量和Ｈ_ｉ，ｊ（ｐ）が所定の閾値θ以上である場合（Ｓ１７００：ＹＥＳ）、ステップＳ１８００へ進む。また、会話成立度計算部４５０は、発話量和Ｈ_ｉ，ｊ（ｐ）が所定の閾値θ未満である場合（Ｓ１７００：ＮＯ）、ステップＳ１９００へ進む。

ステップＳ１８００において、会話成立度計算部４５０は、ペアＳ_ｉ，ｊの両方ともが発言権を有していたものとして、その音声／非音声情報から、現在のセグメントＳｅｇ（ｐ）の会話成立度Ｃ_ｉ，ｊ（ｐ）を算出する。そして、会話成立度計算部４５０は、ステップＳ２０００へ進む。

会話成立度Ｃ_ｉ，ｊ（ｐ）は、例えば以下のようにして算出される。過去４０秒分のフレームから成る現在のセグメントＳｅｇ（ｐ）に対応するフレームは、１フレーム＝１０ｍｓｅｃのとき、直前の４０００フレームとなる。このため、会話成立度計算部４５０は、セグメント内のフレームをｋ（ｋ＝１，２，３，…，４０００）とすると、例えば以下の式（１）を用いて、会話成立度Ｃ_ｉ，ｊ（ｐ）を算出する。
但し、Ｓ_ｉが発話音声有り、かつ、Ｓ_ｊが発話音声有りのとき、
Ｖ_ｉ，ｊ（ｋ）＝−１
Ｓ_ｉが発話音声有り、かつ、Ｓ_ｊが発話音声無しのとき、
Ｖ_ｉ，ｊ（ｋ）＝１
Ｓ_ｉが発話音声無し、かつ、Ｓ_ｊが発話音声有りのとき、
Ｖ_ｉ，ｊ（ｋ）＝１
Ｓ_ｉが発話音声無し、かつ、Ｓ_ｊが発話音声無しのとき、
Ｖ_ｉ，ｊ（ｋ）＝−１

なお、会話成立度計算部４５０は、ペア（ｉ，ｊ）ごとに異なる重み付けを、加点減点の値であるＶ_ｉ，ｊ（ｋ）に対して行ってもよい。この場合、会話成立度計算部４５０は、例えば、ユーザ２００と前方の話者とのペアに対してより高い重み付けを行う。

また、ステップＳ１９００において、会話成立度計算部４５０は、ペア（ｉ，ｊ）の少なくとも一方が発言権を有していないものとして、現在のセグメントＳｅｇ（ｐ）の会話成立度Ｃ_ｉ，ｊ（ｐ）を０に決定する。そして、会話成立度計算部４５０は、ステップＳ２０００へ進む。

すなわち、会話成立度計算部４５０は、現在のセグメントＳｅｇ（ｐ）の会話成立度が実質的に評価に用いられないようにする。これは、少なくとも一方が聞き役となっているようなセグメントの会話成立度を評価に用いないことが、３人以上の会話の抽出においては重要だからである。なお、会話成立度計算部４５０は、ステップＳ１９００において、単に、会話成立度Ｃ_ｉ，ｊ（ｐ）の決定を行わないようにしてもよい。

そして、ステップＳ２０００において、会話成立度計算部４５０は、全てのペアについて会話成立度Ｃ_ｉ，ｊ（ｐ）算出の処理が終了したか否かを判断する。会話成立度計算部４５０は、全てのペアの処理が終了していない場合（Ｓ２０００：ＮＯ）、ステップＳ１５００へ戻り、未処理のペアを選択して処理を繰り返す。また、会話成立度計算部４５０は、全てのペアの処理が終了した場合（Ｓ２０００：ＹＥＳ）、ステップＳ２１００へ進む。

ステップＳ２１００において、長時間特徴量計算部４６０は、ペアごとに、判定対象時間における会話成立度Ｃ_ｉ，ｊ（ｐ）の長時間における平均である長時間特徴量Ｌ_ｉ，ｊ（ｐ）を、例えば以下の式（２）を用いて算出する。ここで、パラメータｑは、判定対象時間の累積のセグメント数であり、現在のセグメントＳｅｇ（ｐ）のセグメントカウンターｐの値である。また、多発話セグメントカウンターｇ_ｉ，ｊの値は、上述の通り、発話量和Ｈ_ｉ，ｊ（ｐ）が所定の閾値θ以上となっているセグメントの数を示す。

なお、音声処理装置４００は、連続する所定数のフレームにおいて全ての音源に対して発話音声が無いと判定した場合、セグメントカウンターｐおよび多発話セグメントカウンターｇ_ｉ，ｊを初期化してもよい。すなわち、音声処理装置４００は、会話が行われていない状態が一定時間継続した時点で、初期化する。この場合、判定対象時間は、最後に会話が開始された時刻から現在時刻までの時刻までとなる。

そして、ステップＳ２２００において、会話相手判定部４７０は、ユーザ２００の会話相手を判定する会話相手判定処理を実行する。会話相手判定処理の詳細については後述する。

そして、ステップＳ２３００において、出力音制御部４８０は、会話相手判定部４７０から入力される指向方向情報に基づき、イヤーチップ１４０Ｌ、１４０Ｒからの出力音を制御する。すなわち、出力音制御部４８０は、判定されたユーザ２００の会話相手の方向にマイクロホンアレイ１２０の指向性を向ける。

図７は、マイクロホンアレイ１２０の指向性のパターンの例を示す図である。

まず、指向方向情報が左方、前方、右方を示す場合、または指向方向情報が左方および右方を示す場合を想定する。この場合、出力音制御部４８０は、図７Ａに示すように、前方に広指向性を有するように、マイクロホンアレイ１２０を制御する。同様に、出力音制御部４８０は、会話開始時や、会話相手を判定できなかった場合も、前方に広指向性を有するように、マイクロホンアレイ１２０を制御する。

また、指向方向情報が左方と前方とを示す場合を想定する。この場合、出力音制御部４８０は、図７Ｂに示すように、左斜め前方にやや広めの指向性を有するように、マイクロホンアレイ１２０を制御する。

また、指向方向情報が前方と右方とを示す場合を想定する。この場合、出力音制御部４８０は、図７Ｃに示すように、右斜め前方にやや広めの指向性を有するように、マイクロホンアレイ１２０を制御する。

また、指向方向情報が前方のみを示す場合を想定する。この場合、出力音制御部４８０は、図７Ｄに示すように、前方に狭指向性を有するように、マイクロホンアレイ１２０を制御する。

また、指向方向情報が左方のみを示す場合を想定する。この場合、出力音制御部４８０は、図７Ｅに示すように、左方に狭指向性を有するように、マイクロホンアレイ１２０を制御する。

また、指向方向情報が右方のみを示す場合を想定する。この場合、出力音制御部４８０は、図７Ｆに示すように、右方に狭指向性を有するように、マイクロホンアレイ１２０を制御する。

そして、図６のステップＳ２４００において、音声処理装置４００は、ユーザ操作等により処理の終了を指示されたか否かを判定する。音声処理装置４００は、処理の終了を指示されていない場合（Ｓ２４００：ＮＯ）、ステップＳ１１００へ戻って、次のセグメントの処理に移る。また、音声処理装置４００は、処理の終了を指示された場合（Ｓ２４００：ＹＥＳ）、一連の処理を終了する。

なお、音声処理装置４００は、会話が行われているかどうかを逐次判定し、会話が終了した場合、マイクロホンアレイ１２０の指向性を徐々に解除してもよい。この判定は、例えば、自発話パワー成分に基づいて行うことができる。

図８は、会話相手判定処理（図６のステップＳ２２００）を示すフローチャートである。

まず、ステップＳ２２０１において、会話相手判定部４７０は、全てのペアの長時間特徴量Ｌ_ｉ，ｊ（ｐ）がまんべんなく高いか否かを判断する。具体的には、全てのペアの長時間特徴量Ｌ_ｉ，ｊ（ｐ）の最大値および最小値をそれぞれＭＡＸ、ＭＩＮとすると、会話相手判定部４７０は、所定の閾値α、βについて、以下の式（３）が満たされるか否かを判断する。
ＭＡＸ−ＭＩＮ＜ α かつＭＩＮ ≧ β ・・・・・・（３）

会話相手判定部４７０は、全てのペアの値がまんべんなく高い場合（Ｓ２２０１：ＹＥＳ）、ステップＳ２２０２へ進む。また、会話相手判定部４７０は、全てのペアの値がまんべんなく高くなっていない場合（Ｓ２２０１：ＮＯ）、ステップＳ２２０３へ進む。

ステップＳ２２０２において、会話相手判定部４７０は、４人（ユーザ２００、左方の話者、前方の話者、および右方の話者）で会話を行っていると判定し、図６の処理へ戻る。すなわち、会話相手判定部４７０は、左方の話者、前方の話者、および右方の話者を、ユーザ２００の会話相手と判定し、左方、前方、および右方を示す指向方向情報を、出力音制御部４８０へ出力する。この結果、マイクロホンアレイ１２０は、前方に広指向性を有するように制御される（図７Ａ参照）。

ステップ２２０３において、会話相手判定部４７０は、ユーザ２００と他の各話者とから成る３つのペアのうち、特定の話者とのペアの長時間特徴量Ｌ_ｉ，ｊ（ｐ）が突出して高くなっているか否かを判断する。具体的には、会話相手判定部４７０は、所定の閾値γについて、以下の式（４）が満たされるか否かを判断する。ここで、ＳＭＡＸ１は、ユーザ２００を含むペアの全ての長時間特徴量Ｌ_ｉ，ｊ（ｐ）うちの最大値であり、ＳＭＡＸ２は、次に大きい値である。
ＳＭＡＸ１−ＳＭＡＸ２ ≧ γ ・・・・・・（４）

会話相手判定部４７０は、特定の話者とのペアの値が突出して高くなっている場合（Ｓ２２０３：ＹＥＳ）、ステップＳ２２０４へ進む。また、会話相手判定部４７０は、特定の話者とのペアの値が突出して高くなっていない場合（Ｓ２２０３：ＮＯ）、ステップＳ２２０５へ進む。

ステップＳ２２０４において、会話相手判定部４７０は、長時間特徴量Ｌ_ｉ，ｊ（ｐ）が突出して高くなっている相手が前方の話者であるか否かを判断する。すなわち、会話相手判定部４７０は、ＳＭＡＸ１が、ユーザ２００と前方の話者とのペアの長時間特徴量Ｌ_０，１（ｐ）であるか否かを判断する。会話相手判定部４７０は、前方の話者との長時間特徴量Ｌ_０，１（ｐ）が突出して高い場合（Ｓ２２０４：ＹＥＳ）、ステップＳ２２０６へ進む。また、会話相手判定部４７０は、前方の話者との長時間特徴量Ｌ_０，１（ｐ）が突出して高くない場合（Ｓ２２０４：ＮＯ）、ステップＳ２２０７へ進む。

ステップＳ２２０６において、会話相手判定部４７０は、ユーザ２００と前方の話者との２人で会話を行っていると判定し、図６の処理へ戻る。すなわち、会話相手判定部４７０は、前方の話者をユーザ２００の会話相手と判定し、前方を示す指向方向情報を、出力音制御部４８０へ出力する。この結果、マイクロホンアレイ１２０は、前方に狭指向性を有するように制御される（図７Ｄ参照）。

ステップＳ２２０７において、会話相手判定部４７０は、長時間特徴量Ｌ_ｉ，ｊ（ｐ）が突出して高くなっている相手が左方の話者であるか否かを判断する。すなわち、会話相手判定部４７０は、ＳＭＡＸ１が、ユーザ２００と左方の話者とのペアの長時間特徴量Ｌ_０，２（ｐ）であるか否かを判断する。会話相手判定部４７０は、左方の話者との長時間特徴量Ｌ_０，２（ｐ）が突出して高い場合（Ｓ２２０７：ＹＥＳ）、ステップＳ２２０８へ進む。また、会話相手判定部４７０は、左方の話者との長時間特徴量Ｌ_０，２（ｐ）が突出して高くない場合（Ｓ２２０７：ＮＯ）、ステップＳ２２０９へ進む。

ステップＳ２２０８において、会話相手判定部４７０は、ユーザ２００と左方の話者との２人で会話を行っていると判定し、図６の処理へ戻る。すなわち、会話相手判定部４７０は、左方の話者をユーザ２００の会話相手と判定し、左方を示す指向方向情報を、出力音制御部４８０へ出力する。この結果、マイクロホンアレイ１２０は、左方に狭指向性を有するように制御される（図７Ｅ参照）。

ステップＳ２２０９において、会話相手判定部４７０は、ユーザ２００と右方の話者との２人で会話を行っていると判定し、図６の処理へ戻る。すなわち、会話相手判定部４７０は、右方の話者をユーザ２００の会話相手と判定し、右方を示す指向方向情報を、出力音制御部４８０へ出力する。この結果、マイクロホンアレイ１２０は、右方に狭指向性を有するように制御される（図７Ｆ参照）。

ステップＳ２２０５へ処理が進んだ場合、全員参加の会話でも２人会話でもない。すなわち、前方、左方、右方の話者のいずれか一人は、ユーザ２００とは無関係な話者である可能性が高い。

そこで、まず、ステップＳ２２０５において、会話相手判定部４７０は、ユーザ２００と前方の話者とのペアの長時間特徴量Ｌ_０，１（ｐ）が、所定の閾値η以上となっているか否かを判断する。会話相手判定部４７０は、長時間特徴量Ｌ_０，１（ｐ）が閾値η未満である場合（Ｓ２２０５：ＹＥＳ）、ステップＳ２２１０へ進む。また、会話相手判定部４７０は、長時間特徴量Ｌ_０，１（ｐ）が閾値η以上である場合（Ｓ２２０５：ＮＯ）、ステップＳ２２１１へ進む。

ステップＳ２２１０において、会話相手判定部４７０は、ユーザ２００と、左方の話者と、右方との３人で会話を行っていると判定し、図６の処理へ戻る。すなわち、会話相手判定部４７０は、左方の話者および右方の話者をユーザ２００の会話相手と判定する。そして、会話相手判定部４７０は、左方と右方とを示す指向方向情報を、出力音制御部４８０へ出力する。この結果、マイクロホンアレイ１２０は、前方に広指向性を有するように制御される（図７Ａ参照）。

ステップＳ２２１１において、会話相手判定部４７０は、ユーザ２００と左方の話者とのペアの長時間特徴量Ｌ_０，２（ｐ）が、所定の閾値η以上となっているか否かを判断する。会話相手判定部４７０は、長時間特徴量Ｌ_０，２（ｐ）が閾値η未満である場合（Ｓ２２１１：ＹＥＳ）、ステップＳ２２１２へ進む。また、会話相手判定部４７０は、長時間特徴量Ｌ_０，２（ｐ）が閾値η以上である場合（Ｓ２２１１：ＮＯ）、ステップＳ２２１３へ進む。

ステップＳ２２１２において、会話相手判定部４７０は、ユーザ２００と、前方の話者と、右方との３人で会話を行っていると判定し、図６の処理へ戻る。すなわち、会話相手判定部４７０は、前方の話者および右方の話者をユーザ２００の会話相手と判定する。そして、会話相手判定部４７０は、前方と右方とを示す指向方向情報を、出力音制御部４８０へ出力する。この結果、マイクロホンアレイ１２０は、右前方にやや広めの指向性を有するように制御される（図７Ｃ参照）。

ステップＳ２２１３において、会話相手判定部４７０は、ユーザ２００と右方の話者とのペアの長時間特徴量Ｌ_０，３（ｐ）が、所定の閾値η以上となっているか否かを判断する。会話相手判定部４７０は、長時間特徴量Ｌ_０，３（ｐ）が閾値η未満である場合（Ｓ２２１３：ＹＥＳ）、ステップＳ２２１４へ進む。また、会話相手判定部４７０は、長時間特徴量Ｌ_０，３（ｐ）が閾値η以上である場合（Ｓ２２１３：ＮＯ）、ステップＳ２２１５へ進む。

ステップＳ２２１４において、会話相手判定部４７０は、ユーザ２００と、前方の話者と、左方との３人で会話を行っていると判定し、図６の処理へ戻る。すなわち、会話相手判定部４７０は、前方の話者および左方の話者をユーザ２００の会話相手と判定し、前方と左方とを示す指向方向情報を、出力音制御部４８０へ出力する。この結果、マイクロホンアレイ１２０は、左前方にやや広めの指向性を有するように制御される（図７Ｂ参照）。

ステップＳ２２１５において、会話相手判定部４７０は、ユーザ２００の会話相手を判定不能として、指向方向情報を出力せずに、図６の処理へ戻る。この結果、出力音の指向性は、デフォルトの状態または最後の判定結果に応じた状態が維持されることになる。

上述の通り、全ての話者が同じ会話に参加している場合、全てのペアの長時間特徴量Ｌ_ｉ，ｊ（ｐ）は、まんべんなく高くなる。また、２人会話の場合、ユーザ２００と会話相手とペアの長時間特徴量Ｌ_０，ｊ（ｐ）のみが突出して高くなり、ユーザ２００と残りの音源とのペアの長時間特徴量Ｌ_０，ｊ（ｐ）は低くなる。

したがって、以上説明した動作により、音声処理装置４００は、ユーザ２００の会話相手を精度良く判定し、ユーザ２００が属する会話グループを高精度に抽出することができる。

また、音声処理装置４００を含む補聴器１００は、ユーザ２００の会話相手を精度良く判定することができるので、ユーザ２００が会話相手の音声を聴き取り易くなるように、出力音を制御することができる。また、補聴器１００は、途中で会話グループが変化する場合でも、その変化に追従して指向性を制御することができる。途中で会話グループが変化する場合とは、例えば、２人会話の途中で参加者が増えて３人、４人になったり、４人の会話から参加者が減って３人、２人の会話になる場合である。

なお、マイクロホンアレイ１２０の指向性を急激に切り替えると、ユーザ２００に大きな違和感を与えてしまう可能性がある。したがって、出力音制御部４８０は、ある程度の時間を掛けて、徐々に指向性を変化させるようにしてもよい。また、会話相手の人数を判定するには、後述の通り、ある程度時間が掛かる。したがって、補聴器１００は、会話開始から一定時間が経過してから、指向性の制御を行うようにしてもよい。

また、マイクロホンアレイ１２０に指向性が形成された場合、指向方向以外の発話音声が聞き取り辛くなる。例えば、３人会話が行われているときに２人会話であると誤判定されると、一人の話者の発話が聞こえなくなってしまうという問題が生じる。３人会話を２人会話と誤判定するよりも、２人会話を３人会話と誤判定する方が、ユーザ２００にとって会話をする上での弊害が少ないといえる。したがって、閾値α、β、γは、実際よりも少ない人数に判定することを防ぐことができる値に設定されることが望ましい。すなわち、γおよびαは高めに設定し、βは低めに設定すればよい。

以下、本発明の効果について、実験結果を参照して説明する。

実験は、２人から成る会話グループと、３人から成る会話グループとをそれぞれ５組ずつ用意し、各会話グループから収録した１０分間の会話の音声データに対して行った。会話内容は、日常会話（雑談）である。発話区間を定義する発話開始時刻および発話終了時刻については、予め、試聴によりラベル付けを行った。また、実験は、簡単のため、２人会話であるか３人会話であるかの判定についての精度を測定するものとした。

本実験に係る音声処理方法は、２人から成る会話グループに対しては、話者のうちの１人をユーザ２００とし、１人を前方の話者とした。そして、本実験では、別の会話グループを形成する２人の話者を更に用意し、そのうちの一人を、ユーザ２００の左方の話者とした。

また、本実験では、３人から成る会話グループに対して、話者のうちの１人をユーザ２００とし、１人を前話者とし、残りの１人の話者を左話者とした。

本発明に係る音声処理方法（以下「本発明」という）は、発話量を考慮したセグメントごとの会話成立度に基づくものであり、１０秒ごとに会話相手判定を行った。

図９は、実験のために簡略化した会話相手判定処理を示すフローチャートであり、図８に対応するものである。図８と同一部分には同一ステップ番号を付し、これについての説明を省略する。

図９に示すように、実験においては、本発明は、会話相手判定部４７０は、全てのペアの長時間特徴量Ｌ_ｉ，ｊ（ｐ）がまんべんなく高い場合、３人全員での会話であると判定するようにした。また、本発明は、３人会話ではない場合、左方、前方のいずれかの方向の話者との２人会話であると判定するようにした。更に、音声処理装置４００は、どの話者との２人会話であるかが判定されない場合、高指向性とするために、３人全員での会話であると判定するようにした。

また、実験において、閾値α、βは、それぞれα＝０.０９、β＝０.５４とした。また、抽出精度の指標値は、会話相手を正しく検出する割合と非会話相手を正しく棄却する割合との平均値である会話相手検出率を定義した。

本発明に対しては、２人会話の場合においては前方の話者との２人会話であると判定されたときに正解とし、３人会話の場合においては３人会話であると判定されたときに正解とした。

一方、比較のために採用した従来技術に係る音声処理方法（以下「従来法」という）は、特許文献１の実施の形態に開示されている方法を拡張したものであり、具体的には、以下のような方法とした。

従来法は、会話開始からの会話成立度をフレームごとに求め、１０秒ごとに、会話相手との会話成立度が閾値Ｔｈを超えていたときに正解と判定し、非会話相手との会話成立度が閾値Ｔｈを下回っていたときに正解と判定するようにした。なお、従来法は、時定数を用いて会話成立度を更新し、フレームｔにおける会話成立度Ｃ_ｉ，ｊ（ｔ）を、以下の式（５）を用いて算出するようにした。
Ｃ_ｉ，ｊ（ｔ）＝ ε・Ｃ_ｉ，ｊ（ｔ−１）＋
（１−ε）［Ｒ_ｉ，ｊ（ｔ）＋Ｔ_ｉ，ｊ（ｔ）＋
（１−Ｄ_ｉ，ｊ（ｔ））＋（１−Ｓ_ｉ，ｊ（ｔ））］
・・・・・・（５）
但し、Ｓ_ｊが発話音声有りのとき、Ｖ_ｊ（ｔ）＝ｉ
Ｓ_ｊが発話音声無しのとき、Ｖ_ｊ（ｔ）＝０
Ｄ_ｉ，ｊ（ｔ）＝ α・Ｄ_ｉ，ｊ（ｔ−１）＋
（１−α）Ｖｉ（ｔ）・Ｖｊ（ｔ）
Ｒ_ｉ，ｊ（ｔ）＝ β・Ｒ_ｉ，ｊ（ｔ−１）＋
（１−β）（１−Ｖｉ（ｔ））Ｖｊ（ｔ）
Ｔ_ｉ，ｊ（ｔ）＝ γ・Ｔ_ｉ，ｊ（ｔ−１）＋
（１−γ）Ｖｉ（ｔ）・（１−Ｖｊ（ｔ））
Ｓ_ｉ，ｊ（ｔ）＝ Δ・Ｓ_ｉ，ｊ（ｔ−１）＋
（１−δ）（１−Ｖｉ（ｔ））（１−Ｖｊ（ｔ））
α ＝ β ＝ γ ＝０.９９９９９
δ ＝０.９９９９９５
ε ＝０.９９９

図１０は、従来法による会話相手正解率と本発明による会話相手正解率との比較を示すプロット図である。図１０において、横軸は会話開始からの時間を示し、縦軸は会話開始時から現在時刻までの会話相手判定正解率の累積平均値を示す。白丸印（○）は、２人会話に対する従来法の実験値を示し、白三角印（△）は、３人会話に対する従来法の実験値を示す。黒丸印（●）は、２人会話に対する本発明の実験値を示し、黒三角印（▲）は、３人会話に対する本発明の実験値を示す。

図１０から分かるように、従来法に比べて、本発明の会話相手検出正解率は大幅に向上している。特に、本発明は、３人会話において、従来法に比べて非常に早い段階において、会話相手を精度良く検出している。このように、本発明は、３人以上から成る会話グループが存在する場合でも、複数の話者の中から高い精度で会話グループを抽出することができる。

なお、従来法では、時間的により新しい情報により高い重み付けを行うために時定数を用いている。ところが、３人以上の会話において１対１の会話関係が成り立つのは、通常、２〜３発話程度の比較的短い期間である。したがって、従来法では、ある時点での会話成立を検出するためには、時定数を小さくする必要がある。ところが、そのような短い期間では、発話を行っていない聞き役の話者を含むペアの会話成立度は低くなるため、２人会話であるか３人会話であるかの区別は困難となるだけでなく、会話相手の判定精度は低くなる。

以上のように、本実施の形態に係る補聴器１００は、各ペアの局所的な会話成立度を時間的にシフトさせながら求め、発話量和が高いセグメントの会話成立度を長時間観測することにより、ユーザ２００の会話相手を判定する。これにより、本実施の形態に係る補聴器１００は、ユーザ２００が２人会話を行っている場合のみならず、３人会話を行っている場合でも、その会話が成立していることを正しく判定することができる。すなわち、本実施の形態に係る補聴器１００は、３人以上から成る会話グループであっても、高い精度で抽出することができる。

また、補聴器１００は、会話グループを高い精度で抽出することができるので、マイクロホンアレイ１２０の指向性を適切に制御し、ユーザ２００に会話相手の発話を聴き取り易くすることができる。また、補聴器１００は、会話グループに対して高い追従性を有するので、会話相手の発話を聴き取り易い状態を、会話開始の早い段階で確保し、また、それを維持することができる。

なお、音源分離のための指向性の方向は、上述の、前方、左方、右方の３方向の組み合わせに制限されない。例えば、補聴器１００は、マイクロホンの個数を増やす等して指向性の角度を狭められる場合、更に多数の方向につい指向性を制御し、４人よりも多くの話者を対象として会話相手の判定を行うようにしてもよい。

また、補聴器１００の筐体１１０Ｌ、１１０Ｒとリモコン装置１５０とは、有線ではなく、無線により通信可能に接続されていてもよい。また、補聴器１００は、筐体１１０Ｌ、１１０ＲにＤＳＰ（digital signal processor）を備え、制御処理の一部または全てを、リモコン装置１５０においてではなくこのＤＳＰにおいて実行するようにしてもよい。

また、補聴器１００は、発話の検出を、方向別に音を分離することによってではなく、独立成分分析（ＩＣＡ）等の他の音源分離方法を用いて行うようにしてもよい。また、補聴器１００は、発話者ごとに個別マイクを配置して、各発話者から発話音声を入力してもよい。

また、補聴器１００は、いわゆるウェアラブルマイクではなく、卓上に置かれたマイクロホンアレイを用いて、音源分離を行ってもよい。この場合、ユーザ２００の方向を予め設定しておくことにより、自発話検出の処理が不要となる。

また、補聴器１００は、自発話と他発話とを音響信号における音響的な特徴の違いから識別してもよい。この場合、同じ方向に複数の話者がいる場合にも、話者ごとに音源を分離することが可能となる。

なお、以上説明した実施の形態では、本発明を補聴器に適用した例について説明したが、本発明の適用はこれに制限されない。例えば、本発明は、音声レコーダ、デジタルスチルカメラ、デジタルビデオカメラ、電話会議システム等、複数の話者の発話音声を入力する各種装置やアプリケーションソフトウェアに適用することができる。会話グループの抽出結果は、出力音の制御以外の各種用途に供することができる。

例えば、本発明を電話会議システムに適用した場合、発言者の音声を明瞭に出力および記録するためにマイクロホンの指向性を制御したり、参加者の人数の検出とその記録を行ったりすることができる。例えば、２拠点間で行われる電話会議において、一方の拠点の入力音声に妨害音がある場合に、他方の拠点の発話者に対する会話相手の発話音声を特定し、これを抽出することにより、スムーズに会議を行うことが可能となる。また、両拠点において妨害音がある場合、例えば、マイクロホンに入力される発話音声のうち最も音量の高い発話音声を検出し、その会話相手を特定することにより、同様の効果を得ることができる。

また、本発明を音声レコーダ等のデジタル記録機器に適用した場合、他人の会話等の、会話相手の発話音声に対する妨害音が抑制されるようにマイクロホンアレイを制御することができる。

また、いずれの用途においても、全ての方向からの音声を方向ごとに記録しておき、後から会話成立度が高くなる組み合わせの音声データを抽出し、所望の会話を再生してもよい。

２０１０年９月２８日出願の特願２０１０−２１７１９２の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明は、３人以上から成る会話グループが存在する場合でも、複数の話者の中から高い精度で会話グループを抽出することができる音声処理装置および音声処理方法として有用である。

１００補聴器
１１０Ｌ、１１０Ｒ筐体
１２０マイクロホンアレイ
１３０Ｌ、１３０Ｒスピーカ
１４０Ｌ、１４０Ｒイヤーチップ
１５０リモコン装置
１６０ＣＰＵ
１７０メモリ
４００音声処理装置
４１０ＡＤ変換部
４２０自発話検出部
４３０方向別音声検出部
４３５音声検出部
４４０発話量和計算部
４５０会話成立度計算部
４６０長時間特徴量計算部
４７０会話相手判定部
４８０出力音制御部

Claims

音響信号から複数の話者の発話音声を個別に検出する音声検出部と、
検出された前記発話音声に基づいて、前記複数の話者のうちの２人の組み合わせの全てについて、判定対象時間を区切ったセグメント毎に会話成立度を算出する会話成立度計算部と、
前記組み合わせ毎に、前記判定対象時間における前記会話成立度の長時間特徴量を算出する長時間特徴量計算部と、
算出された前記長時間特徴量に基づいて、前記複数の話者の中から、会話を形成する会話グループを抽出する会話相手判定部と、を有する、
音声処理装置。
前記会話成立度は、２人の前記話者のうち一方が発話し他方が発話していない時間の割合の高さを示す値である、
請求項１記載の音声処理装置。
前記組み合わせの全てについて、前記セグメント毎に、前記話者の発話量の和である発話量和を算出する発話量和計算部、を更に有し、
前記会話成立度計算部は、
前記発話量和が所定の閾値未満となる前記セグメントの前記会話成立度を、前記長時間特徴量の算出に関して無効化する、
請求項１記載の音声処理装置。
前記音響信号は、前記複数の話者の一人であるユーザの近傍に配置され可変の指向性を有する音声入力手段において入力された音声の音響信号であり、
抽出された前記会話グループに前記ユーザが含まれるとき、当該会話グループの前記ユーザ以外の前記話者の方向に指向性が向くように、前記音声入力手段を制御する出力音制御部、を更に有する、
請求項１記載の音声処理装置。
前記出力音制御部は、
前記音響信号に対して所定の信号処理を行い、前記所定の信号処理が行われた前記音響信号を、前記ユーザが装着する補聴器のスピーカへ出力する、
請求項４記載の音声処理装置。
前記音声検出部は、
前記ユーザを基準とした所定の複数の方向毎に、その方向に位置する話者の発話音声を検出し、
前記出力音制御部は、
抽出された前記会話グループに属する前記ユーザ以外の話者が位置する方向に前記指向性が向くように、前記音声入力手段を制御する、
請求項４記載の音声処理装置。
前記会話相手判定部は、前記組み合わせのうちの複数組において前記長時間特徴量がまんべんなく高いとき、当該複数組を構成する複数の前記話者を、同一の会話グループに属すると判定する、
請求項１記載の音声処理装置。
前記会話相手判定部は、
前記複数の話者の一人であるユーザを含む前記組み合わせにおいて、最も高い前記長時間特徴量と次に高い前記長時間特徴量との差が所定の閾値以上であるとき、前記最も高い前記長時間特徴量に該当する前記ユーザ以外の話者を、前記ユーザの唯一の会話相手と判定する、
請求項１記載の音声処理装置。
前記判定対象時間は、前記複数の話者の一人であるユーザが参加する会話が最後に開始されてから現在までの時間である、
請求項１記載の音声処理装置。
音響信号から複数の話者の発話音声を個別に検出するステップと、
検出された前記発話音声に基づいて、前記複数の話者のうちの２人の組み合わせの全てについて、判定対象時間を区切ったセグメント毎に会話成立度を算出するステップと、
前記組み合わせ毎に、前記判定対象時間における前記会話成立度の長時間特徴量を算出するステップと、
算出された前記長時間特徴量に基づいて、前記複数の話者の中から、会話を形成する会話グループを抽出するステップと、を有する、
音声処理方法。