JP2019176332A - 音声抽出装置及び音声抽出方法 - Google Patents

音声抽出装置及び音声抽出方法 Download PDF

Info

Publication number
JP2019176332A
JP2019176332A JP2018062785A JP2018062785A JP2019176332A JP 2019176332 A JP2019176332 A JP 2019176332A JP 2018062785 A JP2018062785 A JP 2018062785A JP 2018062785 A JP2018062785 A JP 2018062785A JP 2019176332 A JP2019176332 A JP 2019176332A
Authority
JP
Japan
Prior art keywords
sound source
sound
unit
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018062785A
Other languages
English (en)
Inventor
浦川 康孝
Yasutaka Urakawa
康孝 浦川
敏宏 木村
Toshihiro Kimura
敏宏 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuetrek Co Ltd
Original Assignee
Fuetrek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuetrek Co Ltd filed Critical Fuetrek Co Ltd
Priority to JP2018062785A priority Critical patent/JP2019176332A/ja
Publication of JP2019176332A publication Critical patent/JP2019176332A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】本発明は、ユーザが発話した音声についての音声認識の精度の向上を図ることを目的とする。【解決手段】音声抽出装置10は、物体の種類及び位置を含む配置物体情報に基づいて、音源が存在する方向を抽出する音源方向抽出部11と、音源方向抽出部11が抽出した音源の方向に対して収音感度を向上させて周囲の音声を収音可能な収音制御部100と、を備える。【選択図】図1

Description

本発明は、音声抽出装置及び音声抽出方法に関する。
スマートスピーカ(AIスピーカ)等を一例とするネットワーク型の音声認識器機が急速に普及しつつある。ネットワーク型の音声認識器機は、従来、会議室等において参加者の音声を漏れなく収音するといった状況を想定しており、全方位の音声を収音可能となるように円形状に複数(5〜8個程度)のマイク(収音装置)を有するマイクロフォンアレイを搭載していた。しかしながら、近年、一般家庭にAIスピーカ等の普及が進むと、マイクロフォンアレイが例えばテレビからの音声等の雑音を収音してしまい、本来収音すべき有効音声(例えばユーザが発話した音声)に関して十分な精度の音声認識が行われない事態が生じている。例えば文献1には、音声入力装置において、ノイズを低減し、ユーザから発話される音声情報を取得する技術が開示されている。
特許第6250297号公報
しかしながら、従来の技術は、ユーザが発話した音声に対する音声認識の精度を十分に向上できていないという問題がある。
本発明は、このような点に鑑みてなされたものであり、有効音声についての音声認識の精度の向上を図ることができる音声抽出装置を提供することを目的とする。
上記目的を達成するために、本発明の一態様に係る音声抽出装置は、物体の種類及び位置を含む配置物体情報に基づいて、音源が存在する方向を抽出する音源方向抽出部と、前記音源方向抽出部が抽出した前記音源の方向に対して収音感度を向上させて周囲の音声を収音可能な収音制御部と、を備えることを特徴とする。
また、本発明の一態様に係る音声抽出方法は、物体の種類及び位置を含む配置物体情報に基づいて、音源が存在する方向を抽出する音源方向抽出工程と、前記音源方向抽出工程において抽出した前記音源の方向に対して収音感度を向上させて周囲の音声を収音する収音制御工程と、を含むことを特徴とする。
本発明の一態様によれば、ユーザが発話した音声についての音声認識の精度の向上を図ることができる。
本発明の第1実施形態の音声抽出装置を含む音声処理装置の概略構成図である。 (a)は、本発明の第1実施形態の音声抽出装置において画像処理部が生成する輪郭画像の一例を示す図であり、(b)は、画像処理部が生成する物体認識情報の一例を説明する図である。 本発明の第1実施形態の音声抽出装置における音源方向の特定方法を説明する図である。 本発明の第1実施形態のビームフォーミング演算部によるビームフォーミング演算の一例を示す図である。 本発明の第1実施形態のビームフォーミング制御処理の流れの一例を示すフローチャートである。 本発明の第2実施形態の音声抽出装置を含む音声処理装置の概略構成図である。 本発明の第1実施形態の音声抽出装置における表示装置40を構成するLEDランプを模式的に示す図である。
1.第1実施形態
本発明の第1実施形態に係る音声抽出装置について、図1から図5を参照して説明する。まず、第1実施形態に係る音声抽出装置を含む音声処理装置の構成について図1を用いて説明する。
(1−1)音声処理装置の構成
図1は、本実施形態による音声抽出装置10を含む音声処理装置1の概略構成を示す図である。
図1に示すように、音声処理装置1は、収音装置(後述するマイクロフォンアレイ12)に入力された音声のうち有効音声(ユーザの発話した音声)を強調して抽出する音声抽出装置10と、音声抽出装置10によって抽出された音声について発話内容等の認識を行う音声認識装置20とを備えている。音声処理装置1は、例えばスマートフォン、スマートスピーカ、対話式ロボットやスマート家電等の音声認識機能とネットワーク通信機能とを有する装置(ネットワーク型音声認識機器)である。音声処理装置1は、音声認識装置20での音声認識結果(ユーザの発話に基づく音声データ)を、ネットワーク(不図示)を介して所定のサーバ(不図示)に送信する。音声認識装置20での音声認識結果を受信した所定のサーバは、送信された音声認識結果に基づいて情報検索等の処理を行うと、ユーザが要求した情報を取得し、取得した情報(処理結果)をネットワークを介して音声処理装置1に返す。これにより、音声処理装置1は、所定のサーバから返された情報をユーザに対して出力できる。このようにして、音声処理装置1は、ユーザの発話内容に応じたサービス(例えば、情報検索サービス)を提供できる。したがって、音声処理装置1において適切なサービスをユーザに提供するために、ユーザが発話した音声の音声認識の精度を向上することが重要である。
図1に示す音声処理装置1の構成は一例であって、これに限られない。例えば、音声処理装置1は、音声認識装置20を内部構成には含まず、ネットワークを介して接続された音声認識サーバにおいて音声抽出装置10が抽出した音声の認識を実行してもよい。
なお、音声処理装置1は、ネットワーク通信機能を有していなくてもよい。例えば、音声処理装置1は、ネットワークへの接続によらないサービス(例えば、アラーム、対話、メモ機能等)を提供する装置であってもよい。
(1−2)音声抽出装置の構成
本実施形態による音声抽出装置10は、音声処理装置1に入力された音声のうち、ユーザが存在すると推定される特定方向からの音声を強調して抽出する音声抽出処理を実行する。これにより、音声抽出装置10を備える音声処理装置1は、音声認識装置20においてユーザの発話に対する音声認識の精度を向上させることができる。ここで、音声抽出装置10が実行する音声抽出処理には、複数のマイクロフォンについて指向性の制御を行うことで、特定の方向に対する収音感度を向上させる信号処理技術(ビームフォーミング)が用いられる。
図1に示すように、音声抽出装置10は、音声処理装置1の周囲に配置された物体の種類及び位置を含む配置物体情報に基づいて、音源が存在する方向を抽出する音源方向抽出部11と、音源方向抽出部11が抽出した音源の方向に対して収音感度を向上させて周囲の音声を収音可能な収音制御部100と、を備える。さらに、音声抽出装置10は、収音制御部100が収音した音声について音声認識装置20における音声認識が可能か否かを判断する音声認識制御部15を備えている。
[音源方向抽出部]
図1に示すように、音源方向抽出部11は、配置物体を撮影した画像(配置画像)に対して画像処理を行う画像処理部111と、画像処理部111における画像処理結果に基づいて音声処理装置1に入力される音声の音源の方向を特定可能な音源方向特定部112と、を有している。
配置画像には、配置物体と音声抽出装置10を備える音声処理装置1との位置関係が示されている。配置画像は、例えば音声処理装置1が配置された部屋の中を音声処理装置1のユーザがパノラマ撮影した画像(パノラマ画像)であって、静止画像であってもよいし、動画像であってもよい。配置画像は、音声処理装置1と接続された外部装置から画像処理部111に送信される。本例において外部装置は、音声処理装置1と接続された情報端末装置500とする。また、音声処理装置1は、例えばカメラ機能付きの情報端末装置と通信を行い、配置画像の撮影方法を指示するように構成されていてもよい。
画像処理部111は、外部装置から配置画像を受信すると、配置画像から物体の輪郭線を表すデータを抽出する処理(輪郭抽出処理)を実行し、配置画像に基づいた輪郭画像を生成する。図2(a)は、画像処理部111が生成した輪郭画像の一例を模式的に示す図である。図2(a)に示すように、輪郭画像は、音声処理装置1を含めて配置画像に映っている物体の位置関係を表す配置図を、各物体の輪郭線によって示す画像である。本例において、輪郭画像は、音声処理装置1が配置された室内の俯瞰による配置図である。図2(a)に示すように、本例の輪郭画像には、音声処理装置1を囲むようにして、右上から反時計回り方向に、物体ob1,ob2,ob3,ob4,ob5が輪郭線で表示されている。
また、画像処理部111は、輪郭画像に基づいて、配置画像に映った物体のカテゴリを認識する処理(一般物体認識処理)を実行する。画像処理部111は、例えば輪郭画像に輪郭線で表示された各物体に識別番号を付すとともに、各物体の特徴点を抽出する。以下、符号「ob1」は物体ob1の識別番号として使用し、符号「ob2」は物体ob2の識別番号として使用し、符号「ob3」は物体ob3の識別番号として使用し、符号「ob4」は物体ob4の識別番号として使用し、符号「ob5」は物体ob5の識別番号として使用する。また、画像処理部111は、各物体について抽出した特徴点を用いて一般物体認識処理を行う。図2(b)は、画像処理部111による一般物体認識処理の結果(物体認識情報)を示す図である。図2(b)に示すように本例において画像処理部111は、一般物体検出処理結果として、識別番号と物体の種類(カテゴリ)とを対応付けた物体認識情報を生成する。具体的には、画像処理部111は、物体ob1にはテレビ受像機を対応付け、物体ob2には棚を対応付け、物体ob3にはテーブルを対応付け、ob4にはソファを対応付け、物体ob5にはオーディオ機器を対応付ける。画像処理部111は、輪郭画像と、物体認識情報とを含む配置物体情報を音源方向特定部112に出力する。
音源方向特定部112は、画像処理部111から入力された配置物体情報に基づいて、音源が存在する方向(音源方向)を特定可能である。本実施形態による音声抽出装置10において音源方向特定部112は、画像処理部111から配置物体情報が入力される度に、音声処理装置1を中心とした場合における音声の発生源(音源)の存在方向を特定する音源方向特定処理を実行する。本例において、音声処理装置1のユーザは、少なくとも音声処理装置を初めて利用する前に情報端末装置500から配置画像を送信する。したがって、音源方向特定部112は、音声処理装置1が初めて利用される際には、音源方向を特定済みである。
まず、音源方向特定処理において、音源方向特定部112は、配置物体情報に含まれる物体認識情報に基づいて、輪郭画像に表示される物体のうち音源となり得る物体(音源物体)を特定する(音源物体判定ステップ)。ここで、音源物体には、雑音源物体と対象音源物体とがある。雑音源物体は、それ自体が音源となる物体(テレビ受像機、オーディオ機器等)であり、対象音源物体は、音声抽出装置10が抽出すべき音声を発話する音声処理装置1のユーザ(対象音源)が存在すると推定される位置に配置された物体である。本例において、音源方向特定部112は、物体認識情報(図2(b)参照)においてテレビ受像機と認識されている物体ob1と、オーディオ機器と認識されている物体ob5とを雑音源物体に特定する。さらに、音源方向特定部112は、物体認識情報においてテーブルと認識されている物体ob3と、ソファと認識されている物体ob4とを、対象音源物体に特定する。これは、テーブルやソファのような椅子類といった家具が配置された場所には、ユーザ(有効音声の発生源)が存在する確率が高いと推測されるためである。なお、音源方向特定部112は、棚と認識されている物体ob2については、音源物体ではないと判定する。
音源物体判定ステップに続いて、音源方向特定部112は、輪郭画像内において音源物体が存在する座標を特定する(音源座標取得ステップ)。具体的には、音源座標取得ステップにおいて音源方向特定部112は、輪郭画像内において音声処理装置1の中心を原点(O)とする座標軸を設定し、設定した座標軸上において音源物体が存在する座標を取得する。本例において、音源方向特定部112は、音源物体判定ステップにおいて音源物体であると判定された物体ob1,оb3〜ob5のそれぞれについて、輪郭画像(図2(a)参照)内の座標を取得する。
音源座標取得ステップに続いて、音源方向特定部112は、取得した音源物体の座標に基づいて音声の発生源となる方向(音源方向)を決定する(音源方向決定ステップ)。ここで、図3を用いて、音源方向決定ステップにおける音源方向の決定方法を説明する。図3に示すように、音源方向特定処理の実行時において音源方向特定部112は、輪郭画像内に音声処理装置1の中心を原点Оとするxy直交座標系を定義する。音源方向決定ステップにおいて、音源方向特定部112は、まず音声処理装置1の中心(座標軸の原点O)を頂点として、音源物体の輪郭を示す座標の分布範囲(例えば、輪郭の特徴点となる座標)を挟んで延伸する2本の半直線を設定する。次に、音源方向特定部112は、原点Оを起点として正方向のx軸に重なる仮想直線を基準線として、上述の2本の半直線のそれぞれについて、基準線に対する反時計回り方向への回転角度を算出する。
図3に示すように、本例において音源方向特定部112は、座標軸の原点Оを頂点とし、音源物体(本例では、テレビ受像機)と認識されている物体ob1の輪郭を示す座標の分布範囲を挟む2本の半直線L1−1,L1−2を設定する。また、例えば音源方向特定部112は、基準線に対する半直線L1−1の反時計回り方向への回転角度は略10度であり、基準線に対する半直線L1−2の反時計回り方向への回転角度は略55度であると算出する。さらに、音源方向特定部112は半直線L1−1,L1−2で形成された角度θ1が45度(=55度−10度)であると算出する。音源方向特定部112は、半直線L1−1,L1−2の反時計回り方向への回転角度及び角度θ1の情報を、音源物体である物体ob1に対応する音源方向情報として所定の記憶領域に記憶する。
また、本例において、音源方向特定部112は、物体ob1と同様に、音源物体と判定された物体ob3の輪郭を示す座標の分布範囲を挟む半直線L3−1,L3−2の反時計回り方向への回転角度及び半直線L3−1,L3−2によって形成される角度θ3を算出し、物体ob3に対応する音源方向情報として所定の記憶領域に記憶する。さらに、音源方向特定部112は、音源物体と判定された物体ob4について半直線L4−1,L4−2の回転角度及び半直線L4−1,L4−2によって形成される角度θ4を算出して物体ob4に対応する音源方向情報として所定の記憶領域に記憶し、物体ob5について半直線L5−1,L5−2の回転角度及び半直線L5−1,L5−2によって形成される角度θ5を算出して物体ob5に対応する音源方向情報として所定の記憶領域に記憶する。このようにして、音源物体である物体ob1,ob3〜ob5に対応する音源方向が決定される。
音源方向決定ステップに続いて、音源方向特定部112は、音源方向の種別を決定する(方向種別決定ステップ)。音源方向特定部112は、音源物体判定ステップにおいて雑音源物体と判定された物体に対応する音源方向を雑音源方向に決定し、音源物体判定ステップにおいて対象音源物体と判定された物体に対応する音源方向を対象音源方向に決定する。本例において、音源方向特定部112は、雑音源物体と判定された物体ob1,ob5に対応する音源方向を雑音源方向に決定し、対象音源物体と判定された物体ob3,ob4に対応する音源方向を対象音源方向に決定する。このように、音源方向特定部112は、マイクロフォンアレイ12において収音対象とする音声の発生源に対応する対象音源方向と、マイクロフォンアレイ12において収音対象としない音声の発生源に対応する雑音源方向(対象外音源方向の一例)とを決定可能である。音源方向特定部112は、音源種別決定ステップにおいて決定した対象音源方向及び雑音源方向を含む音源方向情報をビームフォーミング制御部14に出力する。なお、雑音源物体と対象音源物体の方向が重なっている場合、音源方向特定部112は、この重なっている方向を雑音源方向に決定する。これは、雑音源から発せられた音声(無効音声)と対象音源物体の近傍にいるユーザが発した音声(有効音声)とが重畳した場合、音声抽出装置10において有効音声の抽出が困難となるためである。
このように、音源方向抽出部11は、外部装置(本例では、情報端末装置500)から受信した配置画像の輪郭を抽出する画像処理部(輪郭抽出部の一例)111を有し、画像処理部111が抽出した輪郭に基づいて、音源方向特定部112が音源(雑音源及び対象音源)の方向を抽出する。
[収音制御部]
図1に示すように、収音制御部100は、音声処理装置1に入力される音声の発生源の方向(音源方向)を抽出する音源方向抽出部11と、複数のマイクロフォン(収音部の一例)を有するマイクロフォンアレイ12と、音源方向に基づいて収音感度を向上させる方向を決定するビームフォーミング制御部14と、ビームフォーミング制御部14により決定された方向の音声の感度が向上するように演算(ビームフォーミング演算)を実行するビームフォーミング演算部13と、を有している。
マイクロフォンアレイ12は、音声処理装置1の周囲の音声を収音可能な収音装置であって、複数のマイクロフォン12−1〜12−nにより形成されている。マイクロフォン12−1〜12−nのそれぞれは、例えば全指向性(無指向性)のマイクロフォンである。マイクロフォンアレイ12は、空間中の特定方向の音源からの音を選択的に取り出すこと(目的音抽出)や、特定方向の音源の音を抑圧すること(雑音除去)及び音源の方向を推定すること(音源定位)が可能に構成されている。マイクロフォンアレイ12を形成するマイクロフォン12−1〜12−nのそれぞれは、収音した音声から収音信号を生成すると、生成した収音信号をビームフォーミング演算部13に出力する。
ビームフォーミング演算部13は、特定方向に対する収音感度を向上するために、マイクロフォンアレイ12を形成する各マイクロフォン(マイクロフォン12−1〜12−n)が生成した収音信号について、ビームフォーミング演算を実行する。本実施形態による音声抽出装置10において、収音感度を向上させる特定方向(以降、「ビーム方向」と称する)は、ビームフォーミング制御部14によって決定され、ビームフォーミング演算部13は、ビームフォーミング制御部14が決定したビーム方向から収音された音声に基づく収音信号に対して、例えば遅延和法によるビームフォーミング演算を実行する。これにより、音声抽出装置10は、ビーム方向の音声を強調して抽出することができる。
図4は、ビームフォーミング演算部13において実行される遅延和法によるビームフォーミング演算の一例を説明する図である。図4に示すように、ビームフォーミング演算部13は、複数の遅延回路(本例では、遅延回路D1〜D−n)と加算器Aとを有している。遅延回路D1〜D−nは、マイクロフォンアレイ12を構成するマイクロフォン12−1〜12−nのそれぞれと対応している。ビームフォーミング演算部13は、例えば図4中の太矢印で示すビーム方向から到来した音声に基づいてマイクロフォンアレイ12の複数のマイクロフォン(マイクロフォン12−1〜12−n)のそれぞれが生成した収音信号を、伝搬遅延を補償するように遅延回路D1〜D−nにおいて遅延させる。これにより、複数のマイクロフォン12−1〜12−nのそれぞれが生成した収音信号について位相を合わせる(位相差が無い状態にする)ことができる。さらに、ビームフォーミング演算部13は、位相を合わせた収音信号を加算器Aにおいて加算する。これにより、ビームフォーミング演算部13は、ビーム方向から到来した音声を強調することができる。ここで、音声の強調とは、例えば音声パワーの強調を示す。ビームフォーミング演算部13は、ビームフォーミング演算によって音声パワーの強調を実施した音声データ(収音信号)を音声認識制御部15に出力する。音声認識制御部15の詳細は後述する。
ビームフォーミング制御部14は、音源方向抽出部11の音源方向特定部112から入力された音源方向情報に基づいてビーム方向を決定し、ビームフォーミング演算部13によるビームフォーミング演算によって収音感度を向上させるビームフォーミング制御処理を実行可能である。ここで、図3を参照しつつ図5を用いて、ビームフォーミング制御処理の流れの一例を説明する。図5は、ビームフォーミング制御処理の一例を説明するフローチャートである。ビームフォーミング制御部14は、所定の時間間隔でビームフォーミング制御処理を繰り返し実行する。
(ステップS1)
ステップS1においてビームフォーミング制御部14は、制御対象角度に初期値(本例では、0度)を設定してステップS2の処理に移る。制御対象角度は、ビームフォーミング制御処理の対象となる角度であって、音源方向特定部112による音源方向特定処理での音源方向決定ステップと同様に、図3に示す座標の+方向のx軸上を初期値(0度)とする。ビームフォーミング制御部14は、制御対象角度を初期値から時計回り方向に一定角度(例えば5度)ずつ加算して更新していく。これにより、ビームフォーミング制御部14は、音声処理装置1の周囲360度について一定角度ごとに、音源方向情報に基づいてビーム方向に該当するか否かを判定し、適切な方向をビーム方向とすることができる。
(ステップS2)
ステップS2においてビームフォーミング制御部14は、所定の記憶領域に記憶されている音源方向情報のうち雑音源方向を読み出し、現在の制御対象角度が、雑音源方向に該当する否かを判定する。ビームフォーミング制御部14は、現在の制御対象角度が雑音源方向に該当すると判定するとステップS5の処理に移る。また、ビームフォーミング制御部14は、現在の制御対象角度が雑音源方向に該当しないと判定するとステップS3に処理を移す。
(ステップS3)
ステップS3においてビームフォーミング制御部14は、所定の記憶領域に記憶されている音源方向情報のうち対象音源方向を読み出し、現在の制御対象角度が、対象音源方向に該当するか否かを判定する。ビームフォーミング制御部14は、現在の制御対象角度が対象音源方向に該当し、制御対象角度が示す方向に音声処理装置1のユーザがいる可能性があると判定するとステップS4の処理に移る。また、ビームフォーミング制御部14は、現在の制御対象角度が対象音源方向に該当せず、制御対象角度が示す方向に音声処理装置1のユーザがいる可能性がない(または極めて低い)と判定するとステップS5に処理を移す。
(ステップS4)
ステップS4においてビームフォーミング制御部14は、現在の制御対象角度が示す方向が対象音源方向に該当し、音声処理装置1のユーザがいる可能性があると判定したことに基づいて、現在の制御対象角度に対してビームフォーミング演算部13がビームフォーミング演算を実行するように制御し、ステップS6の処理に移る。具体的には、ビームフォーミング制御部14は、ビームフォーミング演算部13にビームフォーミング演算を実行するように指示する信号(演算実行信号)を出力する。演算実行信号には、ビームフォーミング演算におけるビーム方向を示す角度(ビーム対象角度)として現在の制御対象角度が含まれている。ビームフォーミング演算部13は、演算実行信号に基づいてビーム対象角度をビーム方向に設定し、以降この制御対象角度の方向から収音した音声を強調するようにビームフォーミング演算を実行する。
(ステップS5)
ステップS5においてビームフォーミング制御部14は、現在の制御対象角度が示す方向が対象音源方向に該当せず、音声処理装置1のユーザがいる可能性がない(又は極めて低い)と判定したことに基づいて、現在の制御対象角度に対してビームフォーミング演算部13がビームフォーミング演算を実行しないように制御し、ステップS6の処理に移る。このため、本実施形態による音声抽出装置10においてビームフォーミング演算部13は、対象音源方向に該当しない方向をビーム方向とせず、対象音源方向に該当しない方向から収音した音声についてビームフォーミング演算を行わない。
(ステップS6)
ステップS6においてビームフォーミング制御部14は、制御対象角度の値を更新して、ステップS7の処理に移る。具体的には、ビームフォーミング制御部14は、現在の制御対象角度に一定値(例えば5度)を加算した値を、新たな制御対象角度として所定の記憶領域に記憶する。なお、本例では制御対象角度の更新間隔を5度としているが、本発明はこれに限られず、5度より小さい値(1度以上)であってもよいし、5度より大きい値であってもよい。制御対象角度の更新間隔を5度より大きくする場合、少なくとも音声処理装置1を中心とする四方についてビーム方向か非ビーム方向かを決定するため、更新間隔を最大で90度とする。
(ステップS7)
ステップS7においてビームフォーミング制御部14は、更新後の制御対象角度が360度を超過しているか否かを判定する。ビームフォーミング制御部14は、更新後の制御対象角度が360度を超過していると判定するとビームフォーミング制御処理を終了する。一方、ビームフォーミング制御部14は、更新後の制御対象角度が360度を超過していないと判定すると、ステップS2の処理に戻る。これにより、制御対象角度が360度に到達するまでの間、ビームフォーミング制御処理が繰り返し実行される。
このように、ビームフォーミング制御部14は、音源方向抽出部11が決定した雑音源方向以外の方向に対して収音感度を向上させて周囲の音声を収音するようにビームフォーミング演算部13におけるビームフォーミング演算の実行を制御する。具体的には、ビームフォーミング制御部14は、ビーム対象角度とビーム対象外角度とを決定し、ビームフォーミング演算部13に通知することにより、ビームフォーミング演算部13におけるビームフォーミング演算の実行を制御することができる。
図3に示す例では、対象音源方向として物体ob3の方向を示す角度θ3及び物体ob4の方向を示す角度θ4が記憶されている。したがって、ビームフォーミング制御部14は、制御角度が角度θ3に該当する場合及び制御角度が角度θ4に該当する場合に制御角度がビーム対象角度であると決定し、ビームフォーミング演算部13に通知する(ステップS2のNO→ステップS3のYES→ステップS4→ステップS6のYES→ステップS7の流れ)。ビームフォーミング演算部13は、角度θ3及び角度θ4がビーム対象角度として通知されたことに基づいて、角度θ3,θ4をビーム方向に設定する。これにより、音声抽出装置10は、音声処理装置1のユーザが存在する可能性のある方向からの音声を強調することができる。さらに、ビームフォーミング演算部13は、ビームフォーミング演算を実行後に収音信号(ビームフォーミング演算によって強調された音声データ)を音声認識制御部15に出力する。
また、図3に示す例では、雑音源方向として物体ob1の方向を示す角度θ1及び物体ob2の方向を示す角度θ2が記憶されている。したがって、ビームフォーミング制御部14は、制御角度が角度θ1に該当する場合及び制御角度が角度θ2に該当する場合に制御角度がビーム対象外角度であると決定し、ビームフォーミング演算部13に通知する(ステップS2のYES→ステップS5→ステップS6のNO→ステップS8の流れ)。さらに、本例においてビームフォーミング制御部14は、雑音源方向及び対象音源方向のいずれにも該当しない方向もビーム対象外角度であると決定する。したがって、ビームフォーミング制御部14は、制御角度が角度θ3,θ4以外の方向に該当する場合、制御角度がビーム対象外角度であると決定する。ビームフォーミング演算部13は、ビーム対象外角度が示す方向から収音した音声データ(収音信号)については、ビームフォーミング演算による強調を行わずに音声認識制御部15に出力する。
このように、ビームフォーミング演算部13は、ビーム方向から収音した音声データであってビームフォーミング演算による音声パワーの強調を実施した音声データ(強調音声データ)及びビーム方向以外から収音した音声データであってビームフォーミング演算による音声パワーの強調を実施していない音声データ(非強調音声データ)の両方を音声認識制御部15に出力する。
[音声認識制御部]
音声認識制御部15は、ビームフォーミング演算部13から入力された収音信号(音声データ)に基づいて、マイクロフォンアレイ12により収音された音声について、音声認識装置20における音声認識の実行を制御する。具体的には、音声認識制御部15は、入力された音声データ(強調音声データ及び非強調音声データ)に対して音声パワー算出を行い、音声パワーが所定の閾値以上であって相対的に強いと判定された音声データについて、音声認識装置20において音声認識が可能であると判断して音声認識装置20に出力する。また、音声認識制御部15は、音声パワー算出において音声パワーが所定の閾値未満であって相対的に弱いと判定された音声データについて、音声認識装置20において音声認識が不可能であると判定して音声認識装置20に出力しない。
上述のように、本実施形態による音声抽出装置10において、ユーザが発話した音声(有効音声)が含まれる可能性の高い対象音源方向に該当するビーム対象角度からの音声は、強調音声データとして音声認識制御部15に出力される。強調音声データは、音声パワーが強調されているため、音声認識制御部15によって、音声パワーが所定の閾値以上であって音声認識装置20における音声認識が実行可能であると判断される確率が高い。
また、音声抽出装置10において、雑音源から発生した音声(無効音声)が含まれる可能性の高い雑音源方向に該当するビーム対象外角度からの音声は、非強調音声データとして音声認識制御部15に出力される。非強調音声データは、音声パワーが強調されていないため、音声認識制御部15によって、音声認識装置20における音声認識が実行可能であると判断される確率が低い。したがって、音声抽出装置10を備える音声処理装置1では、有効音声が音声認識装置20において音声認識される可能性が高くなるとともに、例えばテレビ受像機やオーディオ機器等が発する雑音である無効音声が音声認識装置20において音声認識されるおそれを低減することができる。
このように、音声抽出装置10は、ユーザが存在する可能性がある方向からの音声を強調することで音声認識装置20における音声認識が実行可能である判断する確率を向上させることで音声認識装置20においてユーザが発話した音声に対する音声認識の精度を向上させることができる。
また、本実施形態による音声抽出装置10は、雑音源方向以外の方向、具体的には対象音源方向に限定してビームフォーミング演算を実行するため、音声処理装置1を中心とした全方位(360度)に対してビームフォーミング演算を実行する場合に比べて演算量を削減できる。このため音声抽出装置10は、音声処理装置1の処理負荷を軽減して処理速度を向上させることができる。さらに、ビームフォーミング演算の演算量が削減されることにより、音声抽出装置10を備える音声処理装置1は、廉価な演算処理回路の実装によって製作コストを低減することができる。
(1−3)音声抽出方法
ここで、本実施形態による音声抽出方法について説明する。本実施形態による音声抽出方法は、物体の種類及び位置を含む配置物体情報に基づいて、音源が存在する方向を抽出する音源方向抽出工程と、音源方向抽出工程において抽出した音源の方向に対して収音感度を向上させて周囲の音声を収音する収音制御工程と、を含む。音源方向抽出工程は、本実施形態による音声抽出装置10における音源方向抽出部11が実行する処理に相当する。また、収音制御工程は、音声抽出装置10における収音制御部100が実行する処理に相当する。音源方向抽出部11および収音制御部100が実行する処理については、上述のとおりであるため、説明は省略する。
(1−4)変形例
第1実施形態による音声抽出装置10は、外部装置(情報端末装置500)が撮影した配置画像を受信して画像処理部111における輪郭画像の生成に用いるとしたが、本発明はこれに限られない。例えば、音声処理装置1は撮影装置を搭載しており、画像処理部111は、この撮影装置がパノラマ撮影した画像を配置画像として用いてもよい。例えば、音声処理装置1がロボットであれば、ロボットの頭部に撮影装置を設け、ロボットが頭部を動かしながら撮影することによりパノラマ画像の撮影が可能となる。また、例えば、音声処理装置1は、複数の撮影装置(例えば広角カメラ)を搭載しており、画像処理部111は、これら複数の撮影装置で撮影された画像から音声処理装置1が配置された室内の俯瞰図を生成して、配置画像として用いてもよい。
また、音声処理装置1と接続された情報端末装置500は、部屋の簡易的な配置図(マップ)を作成するアプリケーションを用いて、音声処理装置1の設置された室内の家具等の配置図を生成して音声処理装置1に送信し、この配置図を音声抽出装置10の画像処理部111が配置画像として利用してもよい。
また、本実施形態による音声抽出装置10において、ビームフォーミング制御部14は、ビームフォーミング制御処理において、対象音源方向(角度θ3,θ4)に該当する方向をビームフォーミング対象角度に決定している(ステップS3のYES→ステップS4→ステップS6のYESの流れ)が、本発明はこれに限られない。ビームフォーミング制御部14は、対象音源方向以外(角度θ3,θ4)の方向であり、かつ雑音源方向(角度θ1,θ2)でない方向をビーム対象角度に設定してもよい。これにより、音声抽出装置10は、雑音源方向以外の全ての方向に対してビームフォーミング演算部13によるビームフォーミング演算を実行して、収音感度を向上させることができる。この場合も、音声処理装置1を中心とした全方位に対してビームフォーミング演算を実行する場合に比べて演算量を削減でき、かつ雑音源方向に対してビームフォーミングを実行しないことにより、音声認識装置20における有効音声の音声認識の精度を向上させることができる。
また、本実施形態においてビームフォーミング制御部14は、所定の時間間隔で、図5に示すビームフォーミング制御処理を実行するとしたが、本発明はこれに限られない。ビームフォーミング制御部14は、例えば音源方向特定部112から音源方向情報が入力されたことを契機として、ビームフォーミング制御処理を実行してもよい。
また、ビームフォーミング演算部13は、ビーム方向に対するビームフォーミング演算結果(音声評価結果)として強調音声データ及び非強調音声データをビームフォーミング制御部14に出力し、ビームフォーミング制御部14は、入力された音声評価結果に基づいて、ビームフォーミング制御処理を実行してもよい。例えば、ビームフォーミング制御部14は、音声評価結果と配置画像から得られた音源方向情報とが矛盾すると判定した場合に、ビーム方向(ビーム対象角度)の見直しを実行してもよい。具体的には、ビームフォーミング制御部14は、強調音声データの音声パワーが所定値未満でありビーム方向から一定程度以上の音声パワーを有する音声が抽出できないという音声評価結果が入力された場合に、音声評価結果と音源方向情報とが矛盾すると判定してビーム方向(ビーム対象角度)の見直しを実行してもよい。また、ビームフォーミング制御部14は、音声評価結果と配置画像から得られた音源方向情報とが矛盾する場合に、音源方向特定部112に音源方向情報の見直しを指示する信号(方向再検出信号)を出力してもよい。方向再検出信号が入力されると、音源方向特定部112を有する音源方向抽出部11は、情報端末装置500に対して新たな配置画像の送信を促すメッセージを送信してもよい。また、上述のように、音声処理装置1が撮影装置を搭載している場合、音源方向抽出部11は方向再検出信号が入力されたことに基づいて、撮影装置が配置画像の撮影を実施するように制御してもよい。配置画像が更新されると、画像処理部111は配置物体情報を更新して音源方向特定部112に出力し、音源方向特定部112は更新された配置物体情報に基づいて音源方向情報を更新する。さらに、ビームフォーミング制御部14は更新された音源方向情報に基づいてビームフォーミング制御処理を実行する。これにより、音声抽出装置10は、音声処理装置1のユーザが発話した音声を適切に抽出して音声認識装置20における音声認識精度を向上させることができる。
また、ビームフォーミング制御部14は、音声評価結果である強調音声データ及び非強調音声データに対して、音声ピーク検出を実行し、強調音声データ及び非強調音声データのそれぞれに音声が含まれる(有音)か否(無音)かを判定してもよい。この場合、ビームフォーミング制御部14は、強調音声データに音声が含まれない(無音である)又は、非強調音声データに音声が含まれる(無音でない)場合に、ビーム方向にユーザが存在しないと判断して、ビーム方向(ビーム対象角度)の見直し(ビームフォーミング制御処理の再実行)をしてもよい。
また、音声抽出装置10は、人感センサが設けられた所定の外部装置(エア・コンディショナー、照明装置、防犯装置等)から人の位置情報を取得する人感センサ情報取得部を備えていてもよい。この場合、音源方向抽出部11の音源方向特定部112は、人感センサによって感知された人の位置情報と画像処理部111から入力された配置物体情報とに基づいて音源が存在する方向を抽出してもよい。
2.第2実施形態
次に、本発明の第2実施形態による音声抽出装置について図6及び図7を用いて説明する。図6は、第2実施形態による音声抽出装置30を備える音声処理装置2の概略構成図である。図6に示すように、本実施形態による音声抽出装置30は、収音感度を向上させる方向(ビーム方向)をユーザに提示する対象方向範囲提示部(提示部の一例)16を備えており、この点で、第1実施形態による音声抽出装置10と異なる。音声抽出装置30において、第1実施形態による音声抽出装置10と同一の作用効果を有する構成は、図1に示す音声抽出装置10と同一の符号を付し、詳細な説明は省略する。
また、音声抽出装置30において音源方向特定部112は、対象音源方向及び雑音源方向を含む音源方向情報を、ビームフォーミング制御部14に加えて対象方向範囲提示部16にも出力する。また、音声抽出装置30においてビームフォーミング制御部14は、ビームフォーミング演算部13に加えて対象方向範囲提示部16にも、ビーム対象角度及びビーム対象外角度の情報を出力する。さらに、音声抽出装置30におけるビームフォーミング演算部13は、音声認識制御部15に加えて対象方向範囲提示部16にも、強調音声データ及び非強調音声データを出力する。
(2−1)対象方向範囲提示部
対象方向範囲提示部16は、音源方向特定部112から入力された音源方向情報、ビームフォーミング制御部14から入力されたビーム対象角度及びビーム対象外角度、ビームフォーミング演算部13から入力された強調音声データ及び非強調音声データに基づいて、ビーム方向を音声処理装置2のユーザに提示する対象方向範囲提示処理を実行する。対象方向範囲提示処理については後述する。
また、本実施形態の音声抽出装置30を有する音声処理装置2は、音声抽出装置30及び音声認識装置20に加えて表示装置40を備える点で、第1実施形態による音声処理装置1と異なる。表示装置40は、例えば、複数のLEDランプで構成されており、対象方向範囲提示部16からの指示に基づいてビーム方向を示す表示(対象方向範囲表示)を行う。
(2−2)表示装置
図7は、表示装置40を構成する光源が配置された音声処理装置2を模式的に示す図である。本例において、音声処理装置2は、円筒形状を有している。図7に示すように表示装置40は、音声処理装置2の円形状の上面の周縁に沿って設けられた複数の光源(LEDランプ)で構成されている。本例において表示装置40は、LEDランプ400a〜400lの12個のLEDランプで構成されている。LEDランプ400a〜400lのそれぞれには、音声処理装置2の周囲360度を12分割した角度(方向)が対応付けられている。より詳細には、LEDランプ400a〜400lには、LEDランプ400aを基準位置(0度)として反時計回り方向に30度ずつの範囲(方向)が、順次対応付けられている。
例えば、LEDランプ400aは、図3に示す座標軸のx軸上の正方向に該当しており、基準位置(0度)から反時計回りに30度の範囲に対応する。また、LEDランプ400bは基準位置から反時計回りに31度の位置から60度の範囲に対応し、LEDランプ400cは基準位置から反時計回りに61度の位置から90度の範囲に対応し、LEDランプ400dは基準位置から反時計回りに91度の位置から120度の範囲に対応し、LEDランプ400eは基準位置から反時計回りに121度の位置から150度の範囲に対応し、LEDランプ400fは基準位置から反時計回りに151度の位置から180度の範囲に対応する。また、LEDランプ400gは基準位置から反時計回りに181度の位置から210度の範囲に対応し、LEDランプ400hは基準位置から反時計回りに211度の位置から240度の範囲に対応し、LEDランプ400iは基準位置から反時計回りに241度の位置から270度の範囲に対応し、LEDランプ400jは基準位置から反時計回りに271度の位置から300度の範囲に対応し、LEDランプ400kは基準位置から反時計回りに301度の位置から330度の範囲に対応し、LEDランプ400lは基準位置から反時計回りに331度の位置から360度の範囲に対応している。
表示装置40は、後述する対象方向範囲提示処理において対象方向範囲提示部16から入力された信号に基づいてビーム方向に該当するビーム対象角度に対応するLEDランプを点灯させ、且つ非ビーム方向に該当するビーム対象外角度に対応するLEDランプを消灯させる(対象方向表示)。これにより、表示装置40は、音声処理装置2のユーザに現在のビーム方向と非ビーム方向とを提示することができる。
(2−3)対象方向範囲提示処理
ここで、対象方向提示処理の詳細について、図3及び図7を参照して説明する。対象方向提示処理において、まず対象方向範囲提示部16は、対象音源方向以外から音声が検出されたか否かを判定する。具体的には、対象方向範囲提示部16は、ビームフォーミング演算部13から入力された強調音声データの音声パワーが所定の閾値以上か否かを判定する(音声パワー判定ステップ)。対象方向範囲提示部16は、音声パワー判定ステップにおいて強調音声データの音声パワーが所定値未満であると判定すると、音声処理装置2のユーザがビーム対象角度に示す方向、すなわち現在のビーム方向に存在しないと判断し、これに基づいて、現在のビーム方向の範囲を表示装置40に出力する(対象範囲出力ステップ)。また、対象方向範囲提示部16は、強調音声データの音声パワーが所定値以上であると判定すると、ユーザがビーム対象角度に示す方向に存在すると判定し、対象範囲出力ステップは実行せずに対象方向提示処理を終了する。
対象方向範囲提示部16は、対象範囲出力ステップにおいて、ビーム対象角度に対応するLEDランプを点灯させ、且つビーム対象外角度に対応するLEDランプを消灯させることを表示装置に指示する信号(表示指示信号)を表示装置40に出力する。表示装置40は、表示指示信号が入力されると、この表示指示信号を点灯又は消灯を示す制御信号に変換して各LED基板(不図示)に送信する。これにより、ビーム対象角度に対応するLEDランプが点灯し、ビーム対象外角度に対応するLEDランプが消灯する。
例えば、現在のビーム方向(ビーム対象角度)が図3に示す角度θ3,θ4であると仮定する。この場合、対象方向範囲提示部16は、角度θ3,θ4に対応するLEDランプ400e,400f及びLEDランプ400h,400iを点灯させ、且つ角度θ3,θ4に対応しないLEDランプ400a〜400d,400g,400k,400lを消灯させることを表示装置40に指示する表示指示信号を表示装置40に出力する。
表示装置40は、表示指示信号が入力されたことに基づいて、点灯を示す制御信号をLEDランプ400e,400f及びLEDランプ400h,400iが設けられたLED基板のそれぞれに出力する。これにより、ビーム対象角度に対応するLEDランプが点灯される。また、表示装置40は、表示指示信号が入力されたことに基づいて、消灯を示す制御信号をLEDランプ400a〜400d,400g,400k,400lが設けられたLED基板のそれぞれに出力する。これにより、ビーム対象外角度に対応するLEDランプが消灯される。
このようにして、対象方向範囲提示部16は、表示装置40におけるLEDランプの点灯状態を制御して、音声処理装置2のユーザに現在のビーム方向と非ビーム方向とを提示することができる。したがって、音声抽出装置30を備える音声処理装置2は、ユーザの音声が正しく音声認識され易い方向にユーザを案内して、ユーザが発話した音声(有効音声)の音声認識の精度を向上させることができる。
(2−1)変形例
第2実施形態による音声抽出装置30において対象方向範囲提示部16は、対象方向範囲提示処理において、マイクロフォンアレイ12を構成するマイクロフォン12−1〜12−nのうち少なくとも1つにおいて音声が入力された可能性があるか否かにより、対象音源方向以外から音声が検出されたか否かの判定を行ってもよい。マイクロフォン12−1〜12−nのいずれかにおいて音声が収音されたか否かは、例えば音声ピーク検出によって判定される。具体的には、対象方向範囲提示部16は、対象方向範囲提示処理における音声パワー判定ステップに代えて、ビームフォーミング演算部13から入力された強調音声データ及び非強調音声データに対して音声ピーク検出を行い、強調音声データ及び非強調音声データのそれぞれに音声が含まれる(有音)か否(無音)かを判定してもよい(音声検出ステップ)。この場合、対象方向範囲提示部16は、音声検出ステップにおいて強調音声データに音声が含まれない(無音である)又は、非強調音声データに音声が含まれる(無音でない)場合に、対象範囲出力ステップを実行してもよい。
また、第2実施形態による音声抽出装置30は、表示装置40だけでなく、音声処理装置2が備える不図示の音声出力装置(例えばスピーカ)を用いて、ビーム方向にユーザを案内してもよい。例えば、音声出力装置は、「LEDランプで示す方向から話してください」のような音声メッセージを出力して、音声処理装置2のユーザにビーム方向に移動するように促してもよい。この場合、対象方向範囲提示部16は、表示指示信号を表示装置40に出力する際に、音声出力装置に対してメッセージの出力を指示する信号(メッセージ出力信号)を出力する。音声出力装置は、メッセージ出力信号が入力されたことに基づいて、上述のような音声メッセージを出力する。これにより、音声処理装置2は、ユーザに対してより明確に、ビーム方向を提示することができる。
また、音声処理装置2がロボットである場合には、対象方向範囲提示部16が対象音源方向以外から音声が検出されたと判定したことに基づいて、実際に音声が収音された方向に向けてマイクロフォンアレイ12を回転させてもよい。例えば、ロボットの頭部にマイクロフォンアレイ12が搭載されている場合には、対象方向範囲提示部16は、ロボットの頭部を音声が収音された方向に向けて回転させる制御を行ってもよい。
以上、各実施形態により本発明を説明したが、本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらす全ての実施形態をも含む。さらに、本発明の範囲は、請求項により画される発明の特徴の組み合わせに限定されるものではなく、全ての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。
1、2 音声処理装置
10、30 音声抽出装置
11 音源方向抽出部
12 マイクロフォンアレイ
13 ビームフォーミング演算部
14 ビームフォーミング制御部
15 音声認識制御部
20 音声認識装置
40 表示装置
100 収音制御部
111 画像処理部
112 音源方向特定部
оb1〜оb5 物体
400a〜400l LEDランプ

Claims (8)

  1. 物体の種類及び位置を含む配置物体情報に基づいて、音源が存在する方向を抽出する音源方向抽出部と、
    前記音源方向抽出部が抽出した前記音源の方向に対して収音感度を向上させて周囲の音声を収音可能な収音制御部と、
    を備えることを特徴とする音声抽出装置。
  2. 前記音源方向抽出部は、前記音源の方向を複数抽出した場合に、複数の前記音源の方向から収音対象とする対象音源方向と収音対象としない対象外音源方向とを決定すること
    を特徴とする請求項1記載の音声抽出装置。
  3. 前記収音制御部は、前記音源方向抽出部が決定した対象外音源方向以外の方向に対して収音感度を向上させて周囲の音声を収音すること
    を特徴とする請求項2記載の音声抽出装置。
  4. 前記収音制御部は、
    複数の収音部と、
    前記音源の方向に基づいて収音感度を向上させる方向を決定する収音方向決定部と、
    前記複数の収音部のそれぞれについて前記収音方向決定部により決定された方向の音声の感度が向上するように演算する演算部と、を有すること
    を特徴とする請求項1から3のいずれか1項に記載の音声抽出装置。
  5. 前記音源方向抽出部は、外部から受信した画像の輪郭を抽出する輪郭抽出部を有し、前記輪郭抽出部が抽出した輪郭に基づいて前記音源の方向を抽出すること
    を特徴とする請求項1から4のいずれか1項に記載の音声抽出装置。
  6. 収音感度を向上させる方向をユーザに提示する提示部を備えること
    を特徴とする請求項1から5のいずれか1項に記載の音声抽出装置。
  7. 人感センサが設けられた所定の外部装置から人の位置情報を取得する人感センサ情報取得部を備え、
    前記音源方向抽出部は、前記人感センサによって感知された前記人の位置情報と、前記配置物体情報とに基づいて前記音源が存在する方向を抽出すること
    を特徴とする請求項1から6のいずれか1項に記載の音声抽出装置。
  8. 物体の種類及び位置を含む配置物体情報に基づいて、音源が存在する方向を抽出する音源方向抽出工程と、
    前記音源方向抽出工程において抽出した前記音源の方向に対して収音感度を向上させて周囲の音声を収音する収音制御工程と、
    を含むことを特徴とする音声抽出方法。
JP2018062785A 2018-03-28 2018-03-28 音声抽出装置及び音声抽出方法 Pending JP2019176332A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018062785A JP2019176332A (ja) 2018-03-28 2018-03-28 音声抽出装置及び音声抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018062785A JP2019176332A (ja) 2018-03-28 2018-03-28 音声抽出装置及び音声抽出方法

Publications (1)

Publication Number Publication Date
JP2019176332A true JP2019176332A (ja) 2019-10-10

Family

ID=68167328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018062785A Pending JP2019176332A (ja) 2018-03-28 2018-03-28 音声抽出装置及び音声抽出方法

Country Status (1)

Country Link
JP (1) JP2019176332A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021091063A1 (ko) * 2019-11-05 2021-05-14 삼성전자(주) 전자장치 및 그 제어방법
JP7060905B1 (ja) * 2020-11-11 2022-04-27 株式会社オーディオテクニカ 収音システム、収音方法及びプログラム
WO2022102322A1 (ja) * 2020-11-11 2022-05-19 株式会社オーディオテクニカ 収音システム、収音方法及びプログラム
CN115240678A (zh) * 2022-09-21 2022-10-25 深圳市英特飞电子有限公司 一种智能语音识别装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021091063A1 (ko) * 2019-11-05 2021-05-14 삼성전자(주) 전자장치 및 그 제어방법
JP7060905B1 (ja) * 2020-11-11 2022-04-27 株式会社オーディオテクニカ 収音システム、収音方法及びプログラム
WO2022102322A1 (ja) * 2020-11-11 2022-05-19 株式会社オーディオテクニカ 収音システム、収音方法及びプログラム
CN115240678A (zh) * 2022-09-21 2022-10-25 深圳市英特飞电子有限公司 一种智能语音识别装置
CN115240678B (zh) * 2022-09-21 2022-12-09 深圳市英特飞电子有限公司 一种智能语音识别装置

Similar Documents

Publication Publication Date Title
JP2019176332A (ja) 音声抽出装置及び音声抽出方法
US11398235B2 (en) Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array
CN107534725B (zh) 一种语音信号处理方法及装置
EP2509070B1 (en) Apparatus and method for determining relevance of input speech
US9847082B2 (en) System for modifying speech recognition and beamforming using a depth image
KR20140117369A (ko) 사운드 및 기하학적 분석을 갖는 증강 현실
CN109506568A (zh) 一种基于图像识别和语音识别的声源定位方法及装置
CN109640224B (zh) 一种拾音方法及装置
JP2007221300A (ja) ロボット及びロボットの制御方法
CN113676592B (zh) 录音方法、装置、电子设备及计算机可读介质
US11895466B2 (en) Methods and systems for determining parameters of audio devices
CN110188179B (zh) 语音定向识别交互方法、装置、设备及介质
CN110364159B (zh) 一种语音指令的执行方法、装置及电子设备
CN104202694A (zh) 语音拾取装置的定向方法和系统
CN111932619A (zh) 结合图像识别和语音定位的麦克风跟踪系统及方法
JP6881267B2 (ja) 制御装置、変換装置、制御方法、変換方法、およびプログラム
CN110726971A (zh) 可见光定位方法、装置、终端及存储介质
CN110610706A (zh) 声音信号采集方法、装置、电器设备控制方法及电器设备
JP2019220145A (ja) 操作端末、音声入力方法、及びプログラム
CN113395451B (zh) 视频拍摄方法、装置、电子设备以及存储介质
CN114422743A (zh) 视频流显示方法、装置、计算机设备和存储介质
KR102407872B1 (ko) 레이더 기반 음성 인식 서비스 장치 및 방법
CN114594892A (zh) 远程交互方法、远程交互设备以及计算机存储介质
KR102333476B1 (ko) 레이더 기반 음성 인식 서비스 장치 및 방법
CN111601198B (zh) 应用麦克风跟踪说话人的方法、装置及计算设备

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190401