JP2018189985A - 電子機器および電子機器の制御方法 - Google Patents
電子機器および電子機器の制御方法 Download PDFInfo
- Publication number
- JP2018189985A JP2018189985A JP2018146098A JP2018146098A JP2018189985A JP 2018189985 A JP2018189985 A JP 2018189985A JP 2018146098 A JP2018146098 A JP 2018146098A JP 2018146098 A JP2018146098 A JP 2018146098A JP 2018189985 A JP2018189985 A JP 2018189985A
- Authority
- JP
- Japan
- Prior art keywords
- time
- speaker
- sound source
- sound
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
コンピュータ10は、図2に示されるように、タッチスクリーンディスプレイ17、CPU101、システムコントローラ102、主メモリ103、グラフィクスコントローラ104、BIOS−ROM105、不揮発性メモリ106、エンベデッドコントローラ(EC)108、マイク109A,109B、および加速度センサ110等を備える。
x,y,z軸方向の加速度を検出することで、電子機器10の向きを検出することが可能である。
周波数分解部301、音声区間検出部302、発話方向推定部303、話者クラスタリング部304、ユーザインタフェース表示処理部305、録音処理部306、および制御部307等を備えている。
マイク109Aとマイク109Bは、空気などの媒質中に所定の距離をあけて配置された2つのマイクロホンであり、異なる2地点での媒質振動(音波)をそれぞれ電気信号(音響信号)に変換するための手段である。以後、マイク109Aとマイク109Bとをひとまとめに扱う場合、これをマイクロホン対と呼ぶことにする。
さて、振幅データを周波数成分に分解する一般的な手法として高速フーリエ変換(FFT)がある。代表的なアルゴリズムとしては、Cooley−TurkeyDFTアルゴリズムなどが知られている。
音声区間検出部302は、周波数分解部301による結果に基づいて、音声区間を検出する。
発話方向推定部303は、音声区間検出部302の検出結果に基づいて、音声区間の発話方向を検出する。
図7は、発話方向推定部303の機能ブロック図である。
発話方向推定部303は、2次元データ化部701と、図形検出部702と、音源情報生成部703と、出力部704とを具備する。
図8に示すように、2次元データ化部701は位相差算出部801と座標値決定部802とを具備する。図形検出部702は投票部811と直線検出部812とを具備する。
位相差算出部801は、周波数分解部301により得られた同時期の2つの周波数分解データセットaとbとを比較して、同じ周波数成分毎に両者の位相値の差を計算して得たab間位相差データを生成する。例えば図9に示すように、ある周波数成分fkの位相差ΔPh(fk)は、マイク109Aにおける位相値Ph1(fk)とマイク109Bにおける位相値Ph2(fk)との差を計算し、その値が{ΔPh(fk):−π<ΔPh(fk)≦π}に収まるように、2πの剰余系として算定する。
座標値決定部802は、位相差算出部801により得られた位相差データを元に、各周波数成分に両者の位相値の差を計算して得た位相差データを所定の2次元のXY座標系上の点として扱うための座標値を決定する手段である。ある周波数成分fkの位相差ΔPh(fk)に対応するX座標値x(fk)とY座標値y(fk)は、図10に示す式によって決定される。X座標値は位相差ΔPh(fk)、Y座標値は周波数成分番号kである。
投票部811は、座標値決定部802によって(x,y)座標を与えられた各周波数成分に対して、直線ハフ変換を適用し、その軌跡をハフ投票空間に所定の方法で投票する手段である。
直線検出部812は、投票部811によって生成されたハフ投票空間上の得票分布を解析して有力な直線を検出する手段である。
図11に示すように、音源情報生成部703は、方向推定部1111と、音源成分推定部1112と、音源音再合成部1113と、時系列追跡部1114と、継続時間評価部1115と、同相化部1116と、適応アレイ処理部1117と、音声認識部1118とを具備する。
方向推定部1111は、以上で述べた直線検出部812による直線検出結果、すなわち直線群毎のθ値を受けて、各直線群に対応した音源の存在範囲を計算する。このとき、検出された直線群の数が音源の数(全候補)となる。マイクロホン対のベースラインに対して音源までの距離が十分遠い場合、音源の存在範囲はマイクロホン対のベースラインに対してある角度を持った円錐面となる。これを図12を参照して説明する。
音源成分推定部1112は、座標値決定部802により与えられた周波数成分毎の(x,y)座標値と、直線検出部812により検出された直線との距離を評価することで、直線近傍に位置する点(すなわち周波数成分)を当該直線(すなわち音源)の周波数成分として検出し、この検出結果に基づいて音源毎の周波数成分を推定する。
音源音再合成部1113は、各音源音を構成する同一取得時刻の周波数成分を逆FFT処理することによって、当該時刻を開始時刻とするフレーム区間の当該音源音(振幅データ)を再合成する。図5に図示したように、1つのフレームは次のフレームとフレームシフト量だけの時間差をおいて重複している。このように複数のフレームで重複している区間では、重複する全てのフレームの振幅データを平均して最終的な振幅データと成すことができる。このような処理によって、音源音をその振幅データとして分離抽出することが可能になる。
投票部811によるハフ投票毎に直線検出部812により直線群が求められる。ハフ投票は連続するm回(m≧1)のFFT結果についてまとめて行われる。この結果、直線群はmフレーム分の時間を周期(これを「図形検出周期」と呼ぶことにする)として時系列的に求められることになる。また、直線群のθは方向推定部1111により計算される音源方向φと1対1に対応しているので、音源が静止していても移動していても、安定な音源に対応しているθ(あるいはφ)の時間軸上の軌跡は連続しているはずである。一方、直線検出部812により検出された直線群の中には、閾値の設定具合によって背景雑音に対応する直線群(これを「雑音直線群」と呼ぶことにする)が含まれていることがある。しかしながら、このような雑音直線群のθ(あるいはφ)の時間軸上の軌跡は連続していないか、連続していても短いことが期待できる。
継続時間評価部1115は、時系列追跡部1114により出力された追跡の満了した軌跡データの開始時刻と終了時刻から当該軌跡の継続時間を計算し、この継続時間が所定閾値を越えるものを音源音に基づく軌跡データと認定し、それ以外を雑音に基づく軌跡データと認定する。音源音に基づく軌跡データを音源ストリーム情報と呼ぶことにする。音源ストリーム情報には、当該音源音の開始時刻Ts、終了時刻Te、当該音源方向を表すθとρとφの時系列的な軌跡データが含まれる。なお、図形検出部702による直線群の数が音源の数を与えるが、そこには雑音源も含まれている。継続時間評価部1115による音源ストリーム情報の数は、雑音に基づくものを除いた信頼できる音源の数を与えてくれる。
同相化部1116は、時系列追跡部1114による音源ストリーム情報を参照することで、当該ストリームの音源方向φの時間推移を得て、φの最大値φmaxと最小値φminから中間値φmid=(φmax+φmin)/2を計算して幅φw=φmax−φmidを求める。そして、当該音源ストリーム情報の元となった2つの周波数分解データセットaとbの時系列データを、当該ストリームの開始時刻Tsより所定時間遡った時刻から終了時刻Teより所定時間経過した時刻まで抽出して、中間値φmidで逆算される到達時間差をキャンセルするように補正することで同相化する。
適応アレイ処理部1117は、抽出・同相化された2つの周波数分解データセットaとbの時系列データを、正面0°に中心指向性を向け、±φwに所定のマージンを加えた値を追従範囲とする適応アレイ処理に掛けることで、当該ストリームの音源音の周波数成分の時系列データを高精度に分離抽出する。この処理は方法こそ異なるが、周波数成分の時系列データを分離抽出する点において音源成分推定部1112と同様の働きをする。それ故、音源音再合成部1113は、適応アレイ処理部1117による音源音の周波数成分の時系列データからも、その音源音の振幅データを再合成することができる。
音声認識部1118は、音源成分推定部1112もしくは適応アレイ処理部1117により抽出された音源音の周波数成分の時系列データを解析照合することで、当該ストリームの記号的な内容、すなわち、言語的な意味や音源の種別や話者の別を表す記号(列)を抽出する。
話者クラスタリング部304は、出力部704から出力された、各音源が発した音声の時間的な存在期間等に基づいて、時刻毎の話者識別情報310を生成する。話者識別情報310は、発言開始時刻および発言開始時刻に対して話者が関連付けた情報を有する。
ユーザインタフェース表示処理部305は、上述した音響信号処理に必要な各種設定内容の利用者への呈示、利用者からの設定入力受理、設定内容の外部記憶装置への保存と外部記憶装置からの読み出しを実行したり、(1)マイク毎の周波数成分の表示、(2)位相差(あるいは時間差)プロット図の表示(すなわち2次元データの表示)、(3)各種得票分布の表示、(4)極大位置の表示、(5)プロット図上の直線群の表示、(6)直線群に帰属する周波数成分の表示、(7)軌跡データの表示、のように各種処理結果や中間結果を可視化して利用者に呈示したり、所望のデータを利用者に選択させてより詳細に可視化するための手段である。このようにすることで、利用者が本実施形態に係る音響信号処理装置の働きを確認したり、所望の動作を行ない得るように調整したり、以後は調整済みの状態で本装置を利用したりすることが可能になる。
加速度センサ110から得られる機器10のx,y,z軸方向の加速度の値が周期的な値を取るようになったかを判定する(ステップB14)。加速度の値が周期的な値を取るようになったと判定した場合(ステップB13のYes)、制御部307は、録音処理部306に録音処理の停止を要求する(ステップB15)。また、制御部307は、周波数分解部301、音声区間検出部302、発話方向推定部303、および話者クラスタリング部304に処理の停止を要求する。録音処理部306は、録音処理を停止する(ステップB16)。周波数分解部301、音声区間検出部302、発話方向推定部303、および話者クラスタリング部304は、処理を停止する。
Claims (6)
- 所定の距離をあけて配置された第1のマイク及び第2のマイクと、
前記第1のマイク及び第2のマイクからの2つの音響信号のデジタル化された時系列の振幅データを受けて、前記振幅データの周波数毎のパワー値と位相値とを時系列に生成する周波数分解手段と、
前記周波数分解手段における前記パワー値と前記位相値の結果に基づいて、音声区間を検出する区間検出手段と、
前記区間検出手段の検出結果に基づいて、前記音声区間の発話方向を検出する発話方向推定手段と、
前記発話方向推定手段で検出された前記発話方向の各音源が発した音声の時間的な存在期間に基づいて、時刻毎の話者識別情報を生成する話者クラスタリング手段と、
前記話者クラスタリング手段からの前記話者識別情報に基づいて、表示画面にそれぞれの話者の発言時間に対応するオブジェクトを可視的に表示するユーザインタフェース表示処理手段と、
を具備する電子機器。 - 前記周波数分解手段は、連続するN個の前記振幅データをフレームとして抜き出して高速フーリエ変換を行うと共に、前記抜き出し位置をフレームシフト量ずつずらしながら前記高速フーリエ変換を繰り返し、前記振幅データを周波数成分に分解する請求項1に記載の電子機器。
- 前記発話方向推定手段は、音源の数、音響信号の発生源たる各音源の空間的な存在範囲、前記各音源が発した音声の成分構成、音源毎に分離された分離音声、雑音源を除く音源の数、前記各音源が発した音声の時間的な存在期間、各音源音声の記号的内容、の少なくとも1つを含む情報を出力する請求項1に記載の電子機器。
- 前記話者識別情報は、発言開始時刻および前記発言開始時刻に対して話者が関連付けた情報である請求項1に記載の電子機器。
- 加速度を検出する加速度センサと、
前記加速度センサから得られる現在の機器の傾きと話者識別を開始した時の機器の傾きとの差が閾値を超えているかを判定し、前記差が前記閾値を超えていると判定した場合、前記発話方向推定手段に対し話者識別に係るデータの初期化を要求し、前記差が前記閾値を超えていないと判定し、且つ前記加速度センサから得られる機器のx,y,z軸方向の加速度の値が周期的な値を取るようになった場合、録音を停止すると共に、前記周波数分解手段、前記区間検出手段、前記発話方向推定手段、および前記話者クラスタリング手段に処理停止を要求する制御手段と、
を更に具備する請求項1に記載の電子機器。 - 所定の距離をあけて配置された第1のマイク及び第2のマイクからの2つの音響信号のデジタル化された時系列の振幅データを受けて、前記振幅データの周波数毎のパワー値と位相値とを時系列に生成し、
生成された前記パワー値と前記位相値の結果に基づいて、音声区間を検出し、
検出された前記音声区間の発話方向を検出し、
検出された前記発話方向の各音源が発した音声の時間的な存在期間に基づいて、時刻毎の話者識別情報を生成し、
生成された前記話者識別情報に基づいて、表示画面にそれぞれの話者の発言時間に対応するオブジェクトを可視的に表示する
電子機器の制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018146098A JP6661710B2 (ja) | 2018-08-02 | 2018-08-02 | 電子機器および電子機器の制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018146098A JP6661710B2 (ja) | 2018-08-02 | 2018-08-02 | 電子機器および電子機器の制御方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014071634A Division JP6385699B2 (ja) | 2014-03-31 | 2014-03-31 | 電子機器および電子機器の制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018189985A true JP2018189985A (ja) | 2018-11-29 |
JP6661710B2 JP6661710B2 (ja) | 2020-03-11 |
Family
ID=64478607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018146098A Active JP6661710B2 (ja) | 2018-08-02 | 2018-08-02 | 電子機器および電子機器の制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6661710B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362851A (zh) * | 2020-03-06 | 2021-09-07 | 上海其高电子科技有限公司 | 基于深度学习交通场景声音分类的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006254226A (ja) * | 2005-03-11 | 2006-09-21 | Toshiba Corp | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2010054733A (ja) * | 2008-08-27 | 2010-03-11 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 |
JP2010175614A (ja) * | 2009-01-27 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2013525848A (ja) * | 2010-04-22 | 2013-06-20 | クゥアルコム・インコーポレイテッド | ボイスアクティビティ検出 |
-
2018
- 2018-08-02 JP JP2018146098A patent/JP6661710B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006254226A (ja) * | 2005-03-11 | 2006-09-21 | Toshiba Corp | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2010054733A (ja) * | 2008-08-27 | 2010-03-11 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 |
JP2010175614A (ja) * | 2009-01-27 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2013525848A (ja) * | 2010-04-22 | 2013-06-20 | クゥアルコム・インコーポレイテッド | ボイスアクティビティ検出 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362851A (zh) * | 2020-03-06 | 2021-09-07 | 上海其高电子科技有限公司 | 基于深度学习交通场景声音分类的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP6661710B2 (ja) | 2020-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3906230B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4247195B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 | |
US10928917B2 (en) | Multiple user interaction with audio devices using speech and gestures | |
JP4234746B2 (ja) | 音響信号処理装置、音響信号処理方法及び音響信号処理プログラム | |
JP4812302B2 (ja) | 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム | |
US10353495B2 (en) | Personalized operation of a mobile device using sensor signatures | |
JP6385699B2 (ja) | 電子機器および電子機器の制御方法 | |
US20140316783A1 (en) | Vocal keyword training from text | |
US10262678B2 (en) | Signal processing system, signal processing method and storage medium | |
JP4455551B2 (ja) | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP6203714B2 (ja) | 位相スペクトルを使った音源定位 | |
CN109308909B (zh) | 一种信号分离方法、装置、电子设备及存储介质 | |
US9772815B1 (en) | Personalized operation of a mobile device using acoustic and non-acoustic information | |
Christensen | Multi-channel maximum likelihood pitch estimation | |
JP6661710B2 (ja) | 電子機器および電子機器の制御方法 | |
Rosenzweig et al. | libf0: A Python library for fundamental frequency estimation | |
Belloch et al. | Real-time sound source localization on an embedded GPU using a spherical microphone array | |
US11769486B2 (en) | System and method for data augmentation and speech processing in dynamic acoustic environments | |
US20220262342A1 (en) | System and method for data augmentation and speech processing in dynamic acoustic environments | |
CN113707149A (zh) | 音频处理方法和装置 | |
US11783826B2 (en) | System and method for data augmentation and speech processing in dynamic acoustic environments | |
WO2022244173A1 (ja) | 集音装置、集音方法、及び集音プログラム | |
JP5812393B2 (ja) | 音響信号処理装置、音響信号処理方法、及び音響信号処理プログラム | |
CN112151061A (zh) | 信号排序方法和装置、计算机可读存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180802 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20181206 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20181207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6661710 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |