JP2018189985A

JP2018189985A - 電子機器および電子機器の制御方法

Info

Publication number: JP2018189985A
Application number: JP2018146098A
Authority: JP
Inventors: 文俊水谷; Fumitoshi Mizutani
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2018-11-29
Anticipated expiration: 2034-03-31
Also published as: JP6661710B2

Abstract

【課題】各音源が発した音声の時間的な存在期間に基づいて、時刻毎の話者識別情報を生成して、識別したそれぞれの話者の発言時間に対応するオブジェクトを画面に表示する電子機器を提供する。【解決手段】実施形態の電子機器は、所定の距離をあけて配置された第１のマイク及び第２のマイクからの２つの音響信号のデジタル化された時系列の振幅データを受けて、前記振幅データの周波数毎のパワー値と位相値とを時系列に生成する周波数分解手段と、前記パワー値と前記位相値の結果に基づいて、音声区間を検出する区間検出手段と、前記音声区間の発話方向を検出する発話方向推定手段と、各音源が発した音声の時間的な存在期間に基づいて、時刻毎の話者識別情報を生成する話者クラスタリング手段と、前記話者識別情報に基づいて、表示画面にそれぞれの話者の発言時間に対応するオブジェクトを可視的に表示するユーザインタフェース表示処理手段と、を具備する。【選択図】図３

Description

本発明の実施形態は、話者の方向を推定すると共に、識別したそれぞれの話者の発言時間に対応するオブジェクトを画面に表示する技術に関する。

複数のマイクに入力される音声の周波数成分毎の位相差に基づいて話者の方向を推定する電子機器が開発されている。

特開２００６−２５４２２６号公報

ユーザが電子機器を持った状態で音声が集音されると話者の方向を推定する精度が低下することがある。

本発明の目的は、話者の方向を推定すると共に、識別したそれぞれの話者の発言時間に対応するオブジェクトを画面に表示する電子機器および電子機器の制御方法を提供することにある。

実施形態の電子機器は、所定の距離をあけて配置された第１のマイク及び第２のマイクと、周波数分解手段と、区間検出手段と、発話方向推定手段と、話者クラスタリング手段と、ユーザインタフェース表示処理手段と、を具備する。前記周波数分解手段は、前記第１のマイク及び第２のマイクからの２つの音響信号のデジタル化された時系列の振幅データを受けて、前記振幅データの周波数毎のパワー値と位相値とを時系列に生成する。前記区間検出手段は前記周波数分解手段における前記パワー値と前記位相値の結果に基づいて、音声区間を検出する。前記発話方向推定手段は前記区間検出手段の検出結果に基づいて、前記音声区間の発話方向を検出する。前記話者クラスタリング手段は前記発話方向推定手段から出力された各音源が発した音声の時間的な存在期間に基づいて、時刻毎の話者識別情報を生成する。前記ユーザインタフェース表示処理手段は前記話者クラスタリング手段からの前記話者識別情報に基づいて、表示画面にそれぞれの話者の発言時間に対応するオブジェクトを可視的に表示する。

実施形態の電子機器の外観の一例を示す斜視図。実施形態の電子機器の構成を示すブロック図。録音アプリケーションの機能ブロック図。音源方向と、音響信号において観察される到達時間差とを示す図。フレームとフレームシフト量との関係を示す図。ＦＦＴ処理の手順および短時間フーリエ変換データを示す図。発話方向推定部の機能ブロック図。２次元データ化部および図形検出部のそれぞれの内部構成を示す機能ブロック図。位相差算出の手順を示す図。座標値計算の手順を示す図。音源情報生成部の内部構成を示す機能ブロック図。方向推定を説明するための図。 θとΔＴとの関係を示す図。ユーザインタフェース表示処理部によって表示される画面の一例を示す図。話者識別に係るデータを初期化する手順を示すフローチャート。

以下、実施の形態について図面を参照して説明する。

先ず、図１を参照して、本実施形態の電子機器の構成を説明する。この電子機器は、携帯型の端末、たとえば、タブレット型パーソナルコンピュータ、ラップトップ型またはノートブック型のパーソナルコンピュータ、ＰＤＡ、として実現し得る。以下では、この電子機器がタブレット型パーソナルコンピュータ１０（以下、コンピュータ１０と称す。）として実現されている場合を想定する。

図１は、コンピュータ１０の外観を示す図である。このコンピュータ１０は、コンピュータ本体１１と、タッチスクリーンディスプレイ１７とから構成される。コンピュータ本体１１は薄い箱形の筐体を有している。タッチスクリーンディスプレイ１７はコンピュータ本体１１の表面上に配置される。タッチスクリーンディスプレイ１７は、フラットパネルディスプレイ（たとえば、液晶表示装置（ＬＣＤ））と、タッチパネルとを備える。タッチパネルは、ＬＣＤの画面を覆うように設けられる。タッチパネルは、ユーザの指またはペンによってタッチされたタッチスクリーンディスプレイ１７上の位置を検出するように構成されている。

図２は、コンピュータ１０のシステム構成を示すブロック図である。
コンピュータ１０は、図２に示されるように、タッチスクリーンディスプレイ１７、ＣＰＵ１０１、システムコントローラ１０２、主メモリ１０３、グラフィクスコントローラ１０４、ＢＩＯＳ−ＲＯＭ１０５、不揮発性メモリ１０６、エンベデッドコントローラ（ＥＣ）１０８、マイク１０９Ａ，１０９Ｂ、および加速度センサ１１０等を備える。

ＣＰＵ１０１は、コンピュータ１０内の各種モジュールの動作を制御するプロセッサである。ＣＰＵ１０１は、ストレージデバイスである不揮発性メモリ１０６から揮発性メモリである主メモリ１０３にロードされる各種ソフトウェアを実行する。これらソフトウェアには、オペレーティングシステム（ＯＳ）２００、および各種アプリケーションプログラムが含まれている。各種アプリケーションプログラムには、録音アプリケーション３００が含まれている。

また、ＣＰＵ１０１は、ＢＩＯＳ−ＲＯＭ１０５に格納された基本入出力システム（ＢＩＯＳ）も実行する。ＢＩＯＳは、ハードウェア制御のためのプログラムである。

システムコントローラ１０２は、ＣＰＵ１０１のローカルバスと各種コンポーネントとの間を接続するデバイスである。システムコントローラ１０２には、主メモリ１０３をアクセス制御するメモリコントローラも内蔵されている。また、システムコントローラ１０２は、ＰＣＩＥＸＰＲＥＳＳ規格のシリアルバスなどを介してグラフィクスコントローラ１０４との通信を実行する機能も有している。

グラフィクスコントローラ１０４は、本コンピュータ１０のディスプレイモニタとして使用されるＬＣＤ１７Ａを制御する表示コントローラである。このグラフィクスコントローラ１０４によって生成される表示信号はＬＣＤ１７Ａに送られる。ＬＣＤ１７Ａは、表示信号に基づいて画面イメージを表示する。このＬＣＤ１７Ａ上にはタッチパネル１７Ｂが配置されている。タッチパネル１７Ｂは、ＬＣＤ１７Ａの画面上で入力を行うための静電容量式のポインティングデバイスである。指が接触される画面上の接触位置および接触位置の動き等はタッチパネル１７Ｂによって検出される。

ＥＣ１０８は、電力管理のためのエンベデッドコントローラを含むワンチップマイクロコンピュータである。ＥＣ１０８は、ユーザによるパワーボタンの操作に応じて本コンピュータ１０を電源オンまたは電源オフする機能を有している。

加速度センサ１１０は、電子機器１０にかかるｘ，ｙ，ｚ軸方向の加速度を検出する。
ｘ，ｙ，ｚ軸方向の加速度を検出することで、電子機器１０の向きを検出することが可能である。

図３は、録音アプリケーション３００の機能ブロック図である。
周波数分解部３０１、音声区間検出部３０２、発話方向推定部３０３、話者クラスタリング部３０４、ユーザインタフェース表示処理部３０５、録音処理部３０６、および制御部３０７等を備えている。

録音処理部３０６は、マイク１０９Ａ，マイク１０９Ｂから入力された音声データに対して、圧縮処理等を施して音声データをストレージデバイス１０６に格納することによって、録音処理を行う。

制御部３０７は、録音アプリケーション３００の各部の動作を制御することが可能である。

［周波数成分毎の位相差に基づく音源推定の基本概念］
マイク１０９Ａとマイク１０９Ｂは、空気などの媒質中に所定の距離をあけて配置された２つのマイクロホンであり、異なる２地点での媒質振動（音波）をそれぞれ電気信号（音響信号）に変換するための手段である。以後、マイク１０９Ａとマイク１０９Ｂとをひとまとめに扱う場合、これをマイクロホン対と呼ぶことにする。

音響信号入力部は、マイク１０９Ａとマイク１０９Ｂによる２つの音響信号を所定のサンプリング周期Ｆｒで定期的にＡ／Ｄ変換することで、マイク１０９Ａとマイク１０９Ｂによる２つの音響信号４０３、４０４のデジタル化された振幅データを時系列的に生成する。

マイクロホン間距離に比べて十分遠い場所に音源が位置していることを仮定すると、図４（Ａ）に示すように、音源４００から発してマイクロホン対に到達する音波の波面４０１はほぼ平面となる。マイク１０９Ａとマイク１０９Ｂとを用いることにより異なる２地点でこの平面波を観測すると、マイク１０９Ａとマイク１０９Ｂとを結ぶ線分４０２（これをベースラインと呼ぶ）に対する音源４００の方向Ｒに応じて、マイクロホン対で変換される音響信号に所定の到達時間差ΔＴが観測されるはずである。なお、音源が十分遠いとき、この到達時間差ΔＴが０になるのは、音源４００がベースライン４０２に垂直な平面上に存在するときであり、この方向をマイクロホン対の正面方向と定義する。

［周波数分解部］
さて、振幅データを周波数成分に分解する一般的な手法として高速フーリエ変換（ＦＦＴ）がある。代表的なアルゴリズムとしては、Ｃｏｏｌｅｙ−ＴｕｒｋｅｙＤＦＴアルゴリズムなどが知られている。

周波数分解部３０１は、図５に示すように、上記音響信号入力部による振幅データ４１０について、連続するＮ個の振幅データをフレーム（Ｔ番目のフレーム４１１）として抜き出して高速フーリエ変換を行うとともに、この抜き出し位置をフレームシフト量４１３ずつずらしながら繰り返す（Ｔ＋１番目のフレーム４１２）。

フレームを構成する振幅データは、図６（Ａ）に示すように窓掛け６０１を施された後、高速フーリエ変換６０２がなされる。この結果、入力されたフレームの短時間フーリエ変換データが実部バッファＲ［Ｎ］と虚部バッファＩ［Ｎ］（６０３）に生成される。なお、窓掛け関数（Ｈａｍｍｉｎｇ窓掛けあるいはＨａｎｎｉｎｇ窓掛け）６０５の一例を図６（Ｂ）に示す。

ここで生成される短時間フーリエ変換データは、当該フレームの振幅データをＮ／２個の周波数成分に分解したデータであり、ｋ番目の周波数成分ｆｋについてバッファ６０３内の実部Ｒ［ｋ］と虚部Ｉ［ｋ］の数値が、図６（Ｃ）に示すように複素座標系６０４上の点Ｐｋを表す。このＰｋの原点Ｏからの距離の２乗が当該周波数成分のパワーＰｏ（ｆｋ）であり、Ｐｋの実部軸からの符号付き回転角度θ｛θ：−π＞θ≧π［ラジアン］｝が当該周波数成分の位相Ｐｈ（ｆｋ）である。

サンプリング周波数がＦｒ［Ｈｚ］、フレーム長がＮ［サンプル］のとき、ｋは０から（Ｎ／２）−１までの整数値をとり、ｋ＝０が０［Ｈｚ］（直流）、ｋ＝（Ｎ／２）−１がＦｒ／２［Ｈｚ］（最も高い周波数成分）を表し、その間を周波数分解能Δｆ＝（Ｆｒ／２）÷（（Ｎ／２）−１）［Ｈｚ］で等分したものが各ｋにおける周波数となり、ｆｋ＝ｋ・Δｆで表される。

なお、前述したように、周波数分解部３０１はこの処理を所定の間隔（フレームシフト量Ｆｓ）を空けて連続的に行うことで、入力振幅データの周波数毎のパワー値と位相値とからなる周波数分解データセットを時系列的に生成する。

［音声区間検出部］
音声区間検出部３０２は、周波数分解部３０１による結果に基づいて、音声区間を検出する。

［発話方向推定部］
発話方向推定部３０３は、音声区間検出部３０２の検出結果に基づいて、音声区間の発話方向を検出する。
図７は、発話方向推定部３０３の機能ブロック図である。
発話方向推定部３０３は、２次元データ化部７０１と、図形検出部７０２と、音源情報生成部７０３と、出力部７０４とを具備する。

（２次元データ化部と図形検出部）
図８に示すように、２次元データ化部７０１は位相差算出部８０１と座標値決定部８０２とを具備する。図形検出部７０２は投票部８１１と直線検出部８１２とを具備する。

［位相差算出部］
位相差算出部８０１は、周波数分解部３０１により得られた同時期の２つの周波数分解データセットａとｂとを比較して、同じ周波数成分毎に両者の位相値の差を計算して得たａｂ間位相差データを生成する。例えば図９に示すように、ある周波数成分ｆｋの位相差ΔＰｈ（ｆｋ）は、マイク１０９Ａにおける位相値Ｐｈ１（ｆｋ）とマイク１０９Ｂにおける位相値Ｐｈ２（ｆｋ）との差を計算し、その値が｛ΔＰｈ（ｆｋ）：−π＜ΔＰｈ（ｆｋ）≦π｝に収まるように、２πの剰余系として算定する。

［座標値決定部］
座標値決定部８０２は、位相差算出部８０１により得られた位相差データを元に、各周波数成分に両者の位相値の差を計算して得た位相差データを所定の２次元のＸＹ座標系上の点として扱うための座標値を決定する手段である。ある周波数成分ｆｋの位相差ΔＰｈ（ｆｋ）に対応するＸ座標値ｘ（ｆｋ）とＹ座標値ｙ（ｆｋ）は、図１０に示す式によって決定される。Ｘ座標値は位相差ΔＰｈ（ｆｋ）、Ｙ座標値は周波数成分番号ｋである。

［投票部］
投票部８１１は、座標値決定部８０２によって（ｘ，ｙ）座標を与えられた各周波数成分に対して、直線ハフ変換を適用し、その軌跡をハフ投票空間に所定の方法で投票する手段である。

［直線検出部］
直線検出部８１２は、投票部８１１によって生成されたハフ投票空間上の得票分布を解析して有力な直線を検出する手段である。

［音源情報生成部］
図１１に示すように、音源情報生成部７０３は、方向推定部１１１１と、音源成分推定部１１１２と、音源音再合成部１１１３と、時系列追跡部１１１４と、継続時間評価部１１１５と、同相化部１１１６と、適応アレイ処理部１１１７と、音声認識部１１１８とを具備する。

［方向推定部］
方向推定部１１１１は、以上で述べた直線検出部８１２による直線検出結果、すなわち直線群毎のθ値を受けて、各直線群に対応した音源の存在範囲を計算する。このとき、検出された直線群の数が音源の数（全候補）となる。マイクロホン対のベースラインに対して音源までの距離が十分遠い場合、音源の存在範囲はマイクロホン対のベースラインに対してある角度を持った円錐面となる。これを図１２を参照して説明する。

マイク１０９Ａとマイク１０９Ｂの到達時間差ΔＴは±ΔＴｍａｘの範囲で変化し得る。図１２（Ａ）のように、正面から入射する場合、ΔＴは０となり、音源の方位角φは正面を基準にした場合０°となる。また、図１２（Ｂ）のように音声が右真横、すなわちマイク１０９Ｂ方向から入射する場合、ΔＴは＋ΔＴｍａｘに等しく、音源の方位角φは正面を基準にして右回りを正として＋９０°となる。同様に、図１２（Ｃ）のように音声が左真横、すなわちマイク１０９Ａ方向から入射する場合、ΔＴは−ΔＴｍａｘに等しく、方位角φは−９０°となる。このように、ΔＴを音が右から入射するとき正、左から入射するとき負となるように定義する。

以上を踏まえて図１２（Ｄ）のような一般的な条件を考える。マイク１０９Ａの位置をＡ、マイク１０９Ｂの位置をＢとし、音声が線分ＰＡ方向から入射すると仮定すると、△ＰＡＢは頂点Ｐが直角となる直角三角形となる。このとき、マイク間中心Ｏ、線分ＯＣをマイクロホン対の正面方向として、ＯＣ方向を方位角０°とした左回りを正にとる角度を方位角φと定義する。△ＱＯＢは△ＰＡＢの相似形となるので、方位角φの絶対値は∠ＯＢＱ、すなわち∠ＡＢＰに等しく、符号はΔＴの符号に一致する。また、∠ＡＢＰはＰＡとＡＢの比のｓｉｎ^−１として計算可能である。このとき、線分ＰＡの長さをこれに相当するΔＴで表すと、線分ＡＢの長さはΔＴｍａｘに相当する。したがって、符号も含めて、方位角はφ＝ｓｉｎ^−１（ΔＴ／ΔＴｍａｘ）として計算することができる。そして、音源の存在範囲は点Ｏを頂点、ベースラインＡＢを軸として、（９０−φ）°開いた円錐面１２００として推定される。音源はこの円錐面１２００上のどこかにある。

図１３に示すように、ΔＴｍａｘはマイク間距離Ｌ［ｍ］を音速Ｖｓ［ｍ／ｓｅｃ］で割った値である。このとき、音速Ｖｓは気温ｔ［℃］の関数として近似できることが知られている。今、直線検出部８１２によって直線１３００がハフの傾きθで検出されているとする。この直線１３００は右に傾いているのでθは負値である。ｙ＝ｋ（周波数ｆｋ）のとき、直線１３００で示される位相差ΔＰｈはｋとθの関数としてｋ・ｔａｎ（−θ）で求めることができる。このときΔＴ［ｓｅｃ］は、位相差ΔＰｈ（θ，ｋ）の２πに対する割合を、周波数ｆｋの１周期（１／ｆｋ）［ｓｅｃ］に乗じた時間となる。θが符号付きの量なので、ΔＴも符号付きの量となる。すなわち、図１２（Ｄ）で音が右から入射する（位相差ΔＰｈが正値となる）とき、θは負値となる。また、図１２（Ｄ）で音が左から入射する（位相差ΔＰｈが負値となる）とき、θは正値となる。そのために、θの符号を反転させている。なお、実際の計算においては、ｋ＝１（直流成分ｋ＝０のすぐ上の周波数）で計算を行えば良い。

［音源成分推定部］
音源成分推定部１１１２は、座標値決定部８０２により与えられた周波数成分毎の（ｘ，ｙ）座標値と、直線検出部８１２により検出された直線との距離を評価することで、直線近傍に位置する点（すなわち周波数成分）を当該直線（すなわち音源）の周波数成分として検出し、この検出結果に基づいて音源毎の周波数成分を推定する。

［音源音再合成部］
音源音再合成部１１１３は、各音源音を構成する同一取得時刻の周波数成分を逆ＦＦＴ処理することによって、当該時刻を開始時刻とするフレーム区間の当該音源音（振幅データ）を再合成する。図５に図示したように、１つのフレームは次のフレームとフレームシフト量だけの時間差をおいて重複している。このように複数のフレームで重複している区間では、重複する全てのフレームの振幅データを平均して最終的な振幅データと成すことができる。このような処理によって、音源音をその振幅データとして分離抽出することが可能になる。

［時系列追跡部］
投票部８１１によるハフ投票毎に直線検出部８１２により直線群が求められる。ハフ投票は連続するｍ回（ｍ≧１）のＦＦＴ結果についてまとめて行われる。この結果、直線群はｍフレーム分の時間を周期（これを「図形検出周期」と呼ぶことにする）として時系列的に求められることになる。また、直線群のθは方向推定部１１１１により計算される音源方向φと１対１に対応しているので、音源が静止していても移動していても、安定な音源に対応しているθ（あるいはφ）の時間軸上の軌跡は連続しているはずである。一方、直線検出部８１２により検出された直線群の中には、閾値の設定具合によって背景雑音に対応する直線群（これを「雑音直線群」と呼ぶことにする）が含まれていることがある。しかしながら、このような雑音直線群のθ（あるいはφ）の時間軸上の軌跡は連続していないか、連続していても短いことが期待できる。

時系列追跡部１１１４は、このように図形検出周期毎に求められるφを時間軸上で連続なグループに分けることで、φの時間軸上の軌跡を求める手段である。

［継続時間評価部］
継続時間評価部１１１５は、時系列追跡部１１１４により出力された追跡の満了した軌跡データの開始時刻と終了時刻から当該軌跡の継続時間を計算し、この継続時間が所定閾値を越えるものを音源音に基づく軌跡データと認定し、それ以外を雑音に基づく軌跡データと認定する。音源音に基づく軌跡データを音源ストリーム情報と呼ぶことにする。音源ストリーム情報には、当該音源音の開始時刻Ｔｓ、終了時刻Ｔｅ、当該音源方向を表すθとρとφの時系列的な軌跡データが含まれる。なお、図形検出部７０２による直線群の数が音源の数を与えるが、そこには雑音源も含まれている。継続時間評価部１１１５による音源ストリーム情報の数は、雑音に基づくものを除いた信頼できる音源の数を与えてくれる。

［同相化部］
同相化部１１１６は、時系列追跡部１１１４による音源ストリーム情報を参照することで、当該ストリームの音源方向φの時間推移を得て、φの最大値φｍａｘと最小値φｍｉｎから中間値φｍｉｄ＝（φｍａｘ＋φｍｉｎ）／２を計算して幅φｗ＝φｍａｘ−φｍｉｄを求める。そして、当該音源ストリーム情報の元となった２つの周波数分解データセットａとｂの時系列データを、当該ストリームの開始時刻Ｔｓより所定時間遡った時刻から終了時刻Ｔｅより所定時間経過した時刻まで抽出して、中間値φｍｉｄで逆算される到達時間差をキャンセルするように補正することで同相化する。

あるいは、方向推定部１１１１による各時刻の音源方向φをφｍｉｄとして、２つの周波数分解データセットａとｂの時系列データを常時同相化することもできる。音源ストリーム情報を参照するか、各時刻のφを参照するかは動作モードで決定され、この動作モードはパラメータとして設定・変更可能である。

［適応アレイ処理部］
適応アレイ処理部１１１７は、抽出・同相化された２つの周波数分解データセットａとｂの時系列データを、正面０°に中心指向性を向け、±φｗに所定のマージンを加えた値を追従範囲とする適応アレイ処理に掛けることで、当該ストリームの音源音の周波数成分の時系列データを高精度に分離抽出する。この処理は方法こそ異なるが、周波数成分の時系列データを分離抽出する点において音源成分推定部１１１２と同様の働きをする。それ故、音源音再合成部１１１３は、適応アレイ処理部１１１７による音源音の周波数成分の時系列データからも、その音源音の振幅データを再合成することができる。

なお、適応アレイ処理としては、参考文献３「天田皇ほか“音声認識のためのマイクロホンアレー技術”，東芝レビュー２００４，ＶＯＬ．５９，ＮＯ．９，２００４」に記載のように、それ自体がビームフォーマの構成方法として知られている「Ｇｒｉｆｆｉｔｈ−Ｊｉｍ型一般化サイドローブキャンセラ」を主副２つに用いるなど、設定された指向性範囲内の音声を明瞭に分離抽出する方法を適用することができる。

通常、適応アレイ処理を用いる場合、事前に追従範囲を設定し、その方向からの音声のみを待ち受ける使い方をするため、全方位からの音声を待ち受けるためには追従範囲を異ならせた多数の適応アレイを用意する必要があった。一方、本実施形態では、実際に音源の数とその方向を求めたうえで、音源数に応じた数の適応アレイだけを稼動させることができ、その追従範囲も音源の方向に応じた所定の狭い範囲に設定することができるので、音声を効率良くかつ品質良く分離抽出できる。

また、このとき、事前に２つの周波数分解データセットａとｂの時系列データを同相化することで、適応アレイ処理における追従範囲を正面付近にのみ設定するだけで、あらゆる方向の音を処理できるようになる。

［音声認識部］
音声認識部１１１８は、音源成分推定部１１１２もしくは適応アレイ処理部１１１７により抽出された音源音の周波数成分の時系列データを解析照合することで、当該ストリームの記号的な内容、すなわち、言語的な意味や音源の種別や話者の別を表す記号（列）を抽出する。

なお、方向推定部１１１１から音声認識部１１１８までの各機能ブロックは、必要に応じて図１１に図示しない結線によって情報のやりとりが可能であるものとする。

出力部７０４は、音源情報生成部７０３による音源情報として、図形検出部７０２による直線群の数として得られる音源の数、方向推定部１１１１により推定される、音響信号の発生源たる各音源の空間的な存在範囲（円錐面を決定させる角度φ）、音源成分推定部１１１２により推定される、各音源が発した音声の成分構成（周波数成分毎のパワーと位相の時系列データ）、音源音再合成部１１１３により合成される、音源毎に分離された分離音声（振幅値の時系列データ）、時系列追跡部１１１４と継続時間評価部１１１５とに基づいて決定される、雑音源を除く音源の数、時系列追跡部１１１４と継続時間評価部１１１５とにより決定される、各音源が発した音声の時間的な存在期間、同相化部１１１６と適応アレイ処理部１１１７とにより求められる、音源毎の分離音声（振幅値の時系列データ）、音声認識部１１１８により求められる、各音源音声の記号的内容、の少なくとも１つを含む情報を出力する手段である。

［話者クラスタリング部］
話者クラスタリング部３０４は、出力部７０４から出力された、各音源が発した音声の時間的な存在期間等に基づいて、時刻毎の話者識別情報３１０を生成する。話者識別情報３１０は、発言開始時刻および発言開始時刻に対して話者が関連付けた情報を有する。

［ユーザインタフェース表示処理部］
ユーザインタフェース表示処理部３０５は、上述した音響信号処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、設定内容の外部記憶装置への保存と外部記憶装置からの読み出しを実行したり、（１）マイク毎の周波数成分の表示、（２）位相差（あるいは時間差）プロット図の表示（すなわち２次元データの表示）、（３）各種得票分布の表示、（４）極大位置の表示、（５）プロット図上の直線群の表示、（６）直線群に帰属する周波数成分の表示、（７）軌跡データの表示、のように各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化するための手段である。このようにすることで、利用者が本実施形態に係る音響信号処理装置の働きを確認したり、所望の動作を行ない得るように調整したり、以後は調整済みの状態で本装置を利用したりすることが可能になる。

ユーザインタフェース表示処理部３０５は、話者識別情報３１０に基づいて、例えば図１４に示す画面をＬＣＤ１７Ａに表示する。

ＬＣＤ１７Ａの上部には、話者Ａを示すオブジェクト１４０１，話者Ｂを示すオブジェクト１４０２，話者Ｃを示すオブジェクト１４０３が示されている。ＬＣＤ１７Ａの下部には、それぞれ話者の発言時間に対応するオブジェクト１４１３Ａ，１４１１Ａ，１４１３Ｂ，１４１２，１４１１Ｂが表示されている。オブジェクト１４１１Ａ，１４１１Ｂは話者Ａの発言時間に対応し、オブジェクト１４０１に対応する色で表示されている。オブジェクト１４１２は話者Ｂの発言時間に対応し、オブジェクト１４０２に対応する色で表示されている。オブジェクト１４１３Ａ，１４１３Ｂは話者Ｃの発言時間に対応し、オブジェクト１４０３に対応する色で表示されている。発言があると、オブジェクト１４１３Ａ，１４１１Ａ，１４１３Ｂ，１４１２，１４１１Ｂが右から左へと時間と共に流れて表示されている。

ところで、マイク間距離の位相差を利用した話者識別は端末が録音中に移動されると精度が低下する。本装置は、加速度センサ１１０から得られるｘ，ｙ，ｚ軸方向の加速度および端末の傾きを話者識別に用いることで精度低下による利便性低下を抑制する。

制御部３０７は、前記加速度センサによって検出された加速度に応じて、話者の方向を推定する処理に係るデータの初期化を発話方向推定部３０３に要求する。

図１５は、話者識別に係るデータを初期化する手順を示すフローチャートである。

制御部３０７は、加速度センサ１１０から得られる現在の機器１０の傾きと話者識別を開始した時の機器１０の傾きとの差が閾値を超えているかを判定する（ステップＢ１１）。閾値を超えていると判定した場合（ステップＢ１１のＹｅｓ）、制御部３０７は、話者識別に係るデータの初期化を発話方向推定部３０３に要求する（ステップＢ１２）。発話方向推定部３０３は、話者識別に係るデータを初期化する（ステップＢ１３）。そして、発話方向推定部３０３は、発話方向推定部３０３内の各部によって新たに生成されたデータに基づいて話者識別処理を行う。

初期状態を超えていないと判定した場合（ステップＢ１２のＮｏ）、制御部３０７は、
加速度センサ１１０から得られる機器１０のｘ，ｙ，ｚ軸方向の加速度の値が周期的な値を取るようになったかを判定する（ステップＢ１４）。加速度の値が周期的な値を取るようになったと判定した場合（ステップＢ１３のＹｅｓ）、制御部３０７は、録音処理部３０６に録音処理の停止を要求する（ステップＢ１５）。また、制御部３０７は、周波数分解部３０１、音声区間検出部３０２、発話方向推定部３０３、および話者クラスタリング部３０４に処理の停止を要求する。録音処理部３０６は、録音処理を停止する（ステップＢ１６）。周波数分解部３０１、音声区間検出部３０２、発話方向推定部３０３、および話者クラスタリング部３０４は、処理を停止する。

本実施形態によれば、加速度センサ１１０によって検出された加速度に応じて、話者の方向を推定する処理に係るデータの初期化を発話方向推定部３０３に要求することで、ユーザが持った状態で音声が集音されていても、話者の方向を推定する精度が低下することを抑制することが可能になる。

なお、本実施形態の各種処理はコンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムをコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…タブレット型パーソナルコンピュータ（電子機器）、１０１…ＣＰＵ、１０３…主メモリ、１０６…ストレージデバイス、１０８…エンベデッドコントローラ、１０９Ａ…マイク、１０９Ｂ…マイク、１１０…加速度センサ、２００…オペレーティングシステム、３００…録音アプリケーション、３０１…周波数分解部、３０２…音声区間検出部、３０３…発話方向推定部、３０４…話者クラスタリング部、３０５…ユーザインタフェース表示処理部、３０６…録音処理部、３０７…制御部

Claims

所定の距離をあけて配置された第１のマイク及び第２のマイクと、
前記第１のマイク及び第２のマイクからの２つの音響信号のデジタル化された時系列の振幅データを受けて、前記振幅データの周波数毎のパワー値と位相値とを時系列に生成する周波数分解手段と、
前記周波数分解手段における前記パワー値と前記位相値の結果に基づいて、音声区間を検出する区間検出手段と、
前記区間検出手段の検出結果に基づいて、前記音声区間の発話方向を検出する発話方向推定手段と、
前記発話方向推定手段で検出された前記発話方向の各音源が発した音声の時間的な存在期間に基づいて、時刻毎の話者識別情報を生成する話者クラスタリング手段と、
前記話者クラスタリング手段からの前記話者識別情報に基づいて、表示画面にそれぞれの話者の発言時間に対応するオブジェクトを可視的に表示するユーザインタフェース表示処理手段と、
を具備する電子機器。
前記周波数分解手段は、連続するＮ個の前記振幅データをフレームとして抜き出して高速フーリエ変換を行うと共に、前記抜き出し位置をフレームシフト量ずつずらしながら前記高速フーリエ変換を繰り返し、前記振幅データを周波数成分に分解する請求項１に記載の電子機器。
前記発話方向推定手段は、音源の数、音響信号の発生源たる各音源の空間的な存在範囲、前記各音源が発した音声の成分構成、音源毎に分離された分離音声、雑音源を除く音源の数、前記各音源が発した音声の時間的な存在期間、各音源音声の記号的内容、の少なくとも１つを含む情報を出力する請求項１に記載の電子機器。
前記話者識別情報は、発言開始時刻および前記発言開始時刻に対して話者が関連付けた情報である請求項１に記載の電子機器。
加速度を検出する加速度センサと、
前記加速度センサから得られる現在の機器の傾きと話者識別を開始した時の機器の傾きとの差が閾値を超えているかを判定し、前記差が前記閾値を超えていると判定した場合、前記発話方向推定手段に対し話者識別に係るデータの初期化を要求し、前記差が前記閾値を超えていないと判定し、且つ前記加速度センサから得られる機器のｘ，ｙ，ｚ軸方向の加速度の値が周期的な値を取るようになった場合、録音を停止すると共に、前記周波数分解手段、前記区間検出手段、前記発話方向推定手段、および前記話者クラスタリング手段に処理停止を要求する制御手段と、
を更に具備する請求項１に記載の電子機器。
所定の距離をあけて配置された第１のマイク及び第２のマイクからの２つの音響信号のデジタル化された時系列の振幅データを受けて、前記振幅データの周波数毎のパワー値と位相値とを時系列に生成し、
生成された前記パワー値と前記位相値の結果に基づいて、音声区間を検出し、
検出された前記音声区間の発話方向を検出し、
検出された前記発話方向の各音源が発した音声の時間的な存在期間に基づいて、時刻毎の話者識別情報を生成し、
生成された前記話者識別情報に基づいて、表示画面にそれぞれの話者の発言時間に対応するオブジェクトを可視的に表示する
電子機器の制御方法。