JP2020178150A - Voice processing device and voice processing method - Google Patents
Voice processing device and voice processing method Download PDFInfo
- Publication number
- JP2020178150A JP2020178150A JP2019076861A JP2019076861A JP2020178150A JP 2020178150 A JP2020178150 A JP 2020178150A JP 2019076861 A JP2019076861 A JP 2019076861A JP 2019076861 A JP2019076861 A JP 2019076861A JP 2020178150 A JP2020178150 A JP 2020178150A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- directivity
- unit
- processing device
- persons
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音声処理装置及び音声処理方法に関する。 The present invention relates to a voice processing device and a voice processing method.
発話者の音声を取得して、音声データを保存したり、他の情報処理装置に送信したりすることが可能な音声処理装置が知られている。この種の音声処理装置は、例えば、複数のユーザが参加する会議、遠隔地をネットワーク接続して複数のユーザが参加するリモート会議などに利用可能である。 A voice processing device capable of acquiring a speaker's voice, storing voice data, and transmitting the voice data to another information processing device is known. This type of voice processing device can be used, for example, for a conference in which a plurality of users participate, a remote conference in which a remote location is connected to a network and a plurality of users participate, and the like.
例えば特許文献1には、携帯端末の推定部が、カメラで撮影された動画像データ内における撮影対象者の位置と、カメラが撮影に用いるパラメータ情報とに基づき、携帯端末に対する撮影対象者の相対位置を推定し、調整部が相対位置に向けてマイクの指向性を調整する技術が開示されている。 For example, in Patent Document 1, the estimation unit of the mobile terminal is relative to the mobile terminal based on the position of the shooting target person in the moving image data shot by the camera and the parameter information used by the camera for shooting. A technique for estimating a position and adjusting the directivity of the microphone toward a relative position is disclosed.
しかし、前記従来の技術では、携帯端末を利用するユーザ1人を対象として前記指向性を調整するものである。このため、例えば会議などのように音声処理装置に対して複数のユーザが存在する場合には、複数のユーザの中から発話者を確実に特定することが困難である。また複数のユーザが同時に発話者となる場合には、マイクの指向性を適切に調整することが困難である。このように、音声処理装置を複数のユーザが利用する場合に、発話者の音声を適切に取得することは困難である。 However, in the conventional technique, the directivity is adjusted for one user who uses the mobile terminal. Therefore, when there are a plurality of users for the voice processing device such as in a conference, it is difficult to reliably identify the speaker from the plurality of users. Further, when a plurality of users are speakers at the same time, it is difficult to appropriately adjust the directivity of the microphone. As described above, when the voice processing device is used by a plurality of users, it is difficult to properly acquire the voice of the speaker.
本発明の目的は、複数のユーザにより利用される音声処理装置において、発話者の音声を適切に取得することにある。 An object of the present invention is to appropriately acquire the voice of a speaker in a voice processing device used by a plurality of users.
本発明の一の態様に係る音声処理装置は、マイクにより集音される音声を受け付ける音声受付部と、撮像部により撮像される撮像画像を取得する画像取得部と、前記画像取得部により取得される前記撮像画像から、複数の人物と前記複数の人物のそれぞれの位置とを検出する検出処理部と、前記検出処理部により検出される前記複数の人物のそれぞれの位置に基づいて、前記マイクの前記複数の人物のそれぞれの位置に対する指向性を設定する指向性調整部と、を備え、前記音声受付部は、前記指向性調整部により設定される前記指向性に基づいて前記音声を受け付ける。 The voice processing device according to one aspect of the present invention is a voice receiving unit that receives sound collected by a microphone, an image acquisition unit that acquires an image captured by the imaging unit, and the image acquisition unit. Based on the detection processing unit that detects a plurality of persons and the positions of the plurality of persons from the captured image, and the positions of the plurality of persons detected by the detection processing unit, the microphone The voice receiving unit receives the voice based on the directivity set by the directivity adjusting unit, including a directivity adjusting unit that sets the directivity for each position of the plurality of persons.
本発明の他の態様に係る音声処理方法は、マイクにより集音される音声を受け付ける音声受付ステップと、撮像部により撮像される撮像画像を取得する画像取得ステップと、前記画像取得ステップにより取得される前記撮像画像から、複数の人物と前記複数の人物のそれぞれの位置とを検出する検出ステップと、前記検出ステップにより検出される前記複数の人物のそれぞれの位置に基づいて、前記マイクの前記複数の人物のそれぞれの位置に対する指向性を設定する指向性調整ステップと、を含み、前記音声受付ステップでは、前記指向性調整ステップにより設定される前記指向性に基づいて前記音声を受け付ける。 The voice processing method according to another aspect of the present invention is acquired by a voice reception step for receiving sound collected by a microphone, an image acquisition step for acquiring an image captured by an imaging unit, and the image acquisition step. A detection step for detecting a plurality of persons and their respective positions of the plurality of persons from the captured image, and the plurality of the microphones based on the respective positions of the plurality of persons detected by the detection step. The voice reception step includes the directivity adjustment step for setting the directivity for each position of the person, and the voice reception step receives the voice based on the directivity set by the directivity adjustment step.
本発明によれば、複数のユーザにより利用される音声処理装置において、発話者の音声を適切に取得することが可能となる。 According to the present invention, in a voice processing device used by a plurality of users, it is possible to appropriately acquire the voice of the speaker.
以下、添付図面を参照しながら、本発明の実施形態について説明する。尚、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。 Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. It should be noted that the following embodiment is an example embodying the present invention and does not have a character that limits the technical scope of the present invention.
本発明に係る音声処理装置は、例えばオフィスの会議室に設置され、複数のユーザが参加する会議、遠隔地をネットワーク接続して複数のユーザが参加するリモート会議に適用される。図1には、前記会議が行われる会議室の一例を模式的に示している。図1に示す会議室には、テーブルの上に配置された音声処理装置1と、テーブルを囲うようにして着席した4人の会議参加者であるユーザA〜Dと、空席の椅子2と、電子ボード、ホワイトボード、黒板などのボード3とが含まれている。
The voice processing device according to the present invention is applied to, for example, a conference in which a plurality of users participate in a conference room in an office, and a remote conference in which a plurality of users participate by connecting a remote location to a network. FIG. 1 schematically shows an example of a conference room where the conference is held. In the conference room shown in FIG. 1, a voice processing device 1 arranged on a table, users A to D who are four conference participants seated so as to surround the table, and
ここで例えば、音声処理装置1に対するユーザDが位置する方向(角度)を基準(0度)とする。この場合、例えばユーザCの位置は、音声処理装置1に対して30度の位置であり、ユーザBの位置は、音声処理装置1に対して60度の位置であり、ユーザAの位置は、音声処理装置1に対して120度の位置である。また、椅子2の位置は、音声処理装置1に対して160度の位置であり、ボード3の位置は、音声処理装置1に対して250度の位置である。また図1では、音声処理装置1からユーザDまでの距離がDdであり、音声処理装置1からユーザCまでの距離がDcであり、音声処理装置1からユーザBまでの距離がDbであり、音声処理装置1からユーザAまでの距離がDaであり、音声処理装置1から椅子2までの距離がDxであり、音声処理装置1からボード3までの距離がDyであるとする。
Here, for example, the direction (angle) at which the user D is located with respect to the voice processing device 1 is used as a reference (0 degree). In this case, for example, the position of the user C is a position of 30 degrees with respect to the voice processing device 1, the position of the user B is a position of 60 degrees with respect to the voice processing device 1, and the position of the user A is. It is located at 120 degrees with respect to the voice processing device 1. The position of the
図1に示す会議において、音声処理装置1は、例えばユーザA〜Dが発話した音声をマイクで集音し、集音した音声の音声データを記憶部12に記憶する。記憶された音声データは、例えば会議の議事録データとして保存される。なお、前記会議が、遠隔地の他の会議室とネットワーク接続されたリモート会議である場合には、音声処理装置1は、前記音声データを他の会議室に配置された音声処理装置1に送信したり、他の会議室で発話された音声の音声データを受信したりすることも可能である。
In the conference shown in FIG. 1, the voice processing device 1 collects, for example, the voice uttered by the users A to D with a microphone, and stores the voice data of the collected voice in the
また音声処理装置1は、ユーザの指示に基づいて各種コマンドを実行する機能を備えてもよい。この場合、音声処理装置1は、ユーザの指示に応じたコマンド音声をクラウドサーバ(不図示)に送信し、クラウドサーバにおいて実行されたコマンドに対応する応答(コマンド応答)をクラウドサーバから取得し、当該コマンド応答を音声処理装置1のスピーカから出力させる。 Further, the voice processing device 1 may have a function of executing various commands based on a user's instruction. In this case, the voice processing device 1 transmits a command voice according to the user's instruction to the cloud server (not shown), acquires a response (command response) corresponding to the command executed in the cloud server, and obtains the response (command response) from the cloud server. The command response is output from the speaker of the voice processing device 1.
[音声処理装置1]
図2に示すように、音声処理装置1は、制御部11、記憶部12、カメラ13、マイク14、スピーカ15、通信インターフェース16などを備える。音声処理装置1は、例えば表示装置、又はパーソナルコンピュータのような情報処理装置であってもよい。音声処理装置1は、本発明の音声処理装置の一例である。本発明の音声処理装置は、カメラ13、マイク14、及びスピーカ15が省略されたサーバであってもよい。
[Voice processing device 1]
As shown in FIG. 2, the voice processing device 1 includes a
通信インターフェース16は、音声処理装置1を有線又は無線でネットワークに接続し、前記ネットワークを介して他の外部機器(例えば他の音声処理装置1)との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。
The
スピーカ15は、音声処理装置1が取得する音声を外部に出力する。本発明の音声処理装置は、スピーカ15を備えていなくてもよい。
The
マイク14は、音声処理装置1の周囲の音声を集音する。マイク14は、音声処理装置1の周囲360度の範囲の音声を受信可能である。またマイク14は、音声を集音する際に音源方向の指向性を高める機能(ビームフォーミング)に対応しており、制御部11により設定される指向性パラメータの設定値に基づいて音声を集音する。
The
カメラ13は、被写体の画像を撮像してデジタル画像データとして出力するデジタルカメラである。例えばカメラ13は、音声処理装置1の上面に設けられ、音声処理装置1の周囲360度の範囲を撮像可能である。図1に示す例では、カメラ13は、会議室の室内全体を撮像することが可能である。カメラ13は、本発明の撮像部の一例である。
The
記憶部12は、各種の情報を記憶する半導体メモリ、HDD(Hard Disk Drive)又はSSD(Solid State Drive)などを含む不揮発性の記憶部である。例えば、記憶部12には、制御部11に後述の音声処理(図7及び図8参照)を実行させるための音声処理プログラムなどの制御プログラムが記憶されている。例えば、前記音声処理プログラムは、USB、CD又はDVD(何れも登録商標)などのコンピュータ読取可能な記録媒体に非一時的に記録されており、音声処理装置1に電気的に接続されるUSBドライブ、CDドライブ又はDVDドライブなどの読取装置(不図示)で読み取られて記憶部12に記憶される。前記音声処理プログラムは、ネットワークを介して外部機器からダウンロードされて記憶部12に記憶されてもよい。
The
また、記憶部12には、画像情報121と、パラメータ情報122とが記憶されている。画像情報121には、カメラ13により撮像される撮像データが記憶される。また、記憶部12には、マイク14により集音された音声が制御部11の指示に従って記憶される。
Further, the
図3にはパラメータ情報122の一例を示している。パラメータ情報122には、撮像画像に含まれる検出対象ごとに、角度、距離、指向性パラメータ、ゲインパラメータなどの情報が登録される。「検出対象」は、図1に示す例では、人(ユーザA〜D)、椅子2、ボード3である。前記検出対象は、予め記憶部に記憶されてもよい。前記検出対象の他の例としては、会議室に存在するテーブル、会議室の壁、表示パネルなどが挙げられる。「角度」は、音声処理装置1から前記検出対象の位置に向かう方向の前記基準(0度)に対する角度である。「距離」は、音声処理装置1(例えばマイク14)から前記検出対象の位置までの距離である。前記検出対象、前記角度及び前記距離は、制御部11(対象検出部112)により検出される。
FIG. 3 shows an example of the
「指向性パラメータ」は、マイク14の指向性(ビームフォーミング)の強度に対応する設定値である。例えば、集音対象の発話者に対して指向性パラメータが強い値に設定され、発話者以外のユーザに対して指向性パラメータが弱い値に設定される。また指向性パラメータは、前記距離に応じた値に設定される。例えば、音声処理装置1からユーザまでの距離が長い程、指向性が強くなるように指向性パラメータが設定され、音声処理装置1からユーザまでの距離が短い程、指向性が弱くなるように指向性パラメータが設定される。指向性パラメータは、制御部11(指向性調整部113)により設定される。
The "directivity parameter" is a set value corresponding to the intensity of the directivity (beamforming) of the
「ゲインパラメータ」は、マイク14を介して音声処理装置1に入力された音声の音量に対する調整値(ゲイン値)である。例えば一人の発話者の音声が入力された場合、ゲインパラメータは100%に設定される(図5参照)。また、例えば二人の発話者の音声が入力されて、一方の発話者(例えばユーザC)及び他方の発話者(例えばユーザB)の音量比が7:3である場合、ユーザCの音声に対してゲインパラメータは30%に設定され、ユーザBの音声に対してゲインパラメータは70%に設定される(図6参照)。ゲインパラメータは、制御部11(ゲイン調整部116)により設定される。
The “gain parameter” is an adjustment value (gain value) with respect to the volume of the voice input to the voice processing device 1 via the
制御部11は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサーである。前記ROMは、前記CPUに各種の処理を実行させるためのBIOS及びOSなどの制御プログラムを予め記憶する。前記RAMは、各種の情報を記憶し、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部11は、前記ROM又は記憶部12に予め記憶された各種の制御プログラムを前記CPUで実行することにより音声処理装置1を制御する。
The
具体的に、制御部11は、画像取得部111、対象検出部112、指向性調整部113、音声受付部114、判定処理部115、ゲイン調整部116などの各種の処理部を含む。尚、制御部11は、前記CPUで前記音声処理プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部11に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。尚、前記音声処理プログラムは、複数のプロセッサーを前記各種の処理部として機能させるためのプログラムであってもよい。
Specifically, the
画像取得部111は、カメラ13により撮像された撮像画像を取得する。画像取得部111は、本発明の画像取得部の一例である。例えば、会議室においてカメラ13により音声処理装置1の周囲が撮像された場合に、画像取得部111は、音声処理装置1の周囲の撮像画像を取得する。例えば画像取得部111は、カメラ13により所定のフレームレートで撮像されたフレーム画像を順次取得する。画像取得部111は、取得した撮像画像の画像データを記憶部12に記憶する。
The
対象検出部112は、画像取得部111により取得される前記撮像画像に基づいて、所定の検出対象を検出する。対象検出部112は、本発明の検出処理部の一例である。例えば対象検出部112は、前記撮像画像を画像解析して、人物(ユーザA〜D)、椅子2、又はボード3を検出する。また、対象検出部112は、検出した前記検出対象の位置(前記角度及び前記距離)を検出する。対象検出部112は、検出した前記検出対象、前記角度、及び前記距離の情報を記憶部12のパラメータ情報122(図3参照)に登録する。なお、検出した撮像画像から所定の物体を検出する方法、及び、検出した前記物体の位置(角度、距離)を検出する方法は、周知の技術を適用することができる。
The
指向性調整部113は、対象検出部112により検出された複数の人物のそれぞれの位置に対するマイク14の指向性を設定(調整)する。指向性調整部113は、本発明の指向性調整部の一例である。具体的には、指向性調整部113は、マイク14の指向性パラメータを設定する。例えば、初期設定処理(初期設定モード)(図7参照)において、指向性調整部113は、対象検出部112により検出された検出対象の位置(角度、距離)に基づいて指向性パラメータを設定する。例えば、指向性調整部113は、音声処理装置1のマイク14からの距離を「近距離」、「中距離」、「長距離」の3段階に区別し、当該距離の段階に応じて指向性パラメータを「弱」、「中」、「強」の3段階で設定する。なお、指向性調整部113は、指向性パラメータを、前記距離に応じて追従的に変化するように設定してもよい。
The
図4A及び図4Bは、前記初期設定処理において設定される指向性パラメータの一例を示すグラフである。例えば、図1に示す会議室について、対象検出部112により、人物(ユーザA〜D)、椅子2、及びボード3と、それぞれの位置(角度、距離)が検出されると、指向性調整部113は、4人のユーザA〜Dの距離に応じた指向性パラメータを設定する。具体的には、指向性調整部113は、音声処理装置1からユーザまでの距離が長い程、指向性パラメータが強くなるように設定し、音声処理装置1からユーザまでの距離が短い程、指向性パラメータが弱くなるように設定する。ここでは、角度「0度」かつ距離「Dd」のユーザDに対して、指向性パラメータを「Bp1」(弱)に設定し、角度「30度」かつ距離「Dc」のユーザCに対して、指向性パラメータを「Bp2」(中)に設定し、角度「60度」かつ距離「Db」のユーザBに対して、指向性パラメータを「Bp4」(強)に設定し、角度「120度」かつ距離「Da」のユーザAに対して、指向性パラメータを「Bp3」(強)に設定する。ここで、距離は、「Db>Da>Dc>Dd」の関係を満たす。このため、指向性パラメータ距離は、「Bp4>Bp3>Bp2>Bp1」の関係を満たす。また、指向性調整部113は、椅子2及びボード3については、指向性パラメータを「0」(ノイズ用パラメータ)に設定する。指向性調整部113は、設定した各指向性パラメータをパラメータ情報122(図3参照)に登録する。
4A and 4B are graphs showing an example of directivity parameters set in the initial setting process. For example, in the conference room shown in FIG. 1, when the
音声受付部114は、マイク14により集音される音声を受け付ける。音声受付部114は、本発明の音声受付部の一例である。例えば、音声受付部114は、対象検出部112により検出された複数の人物から発話される音声を受け付ける。また、音声受付部114は、例えば、会議に参加していない第三者が発話した音声、前記人物及び第三者が発話した音声が物体(椅子2、ボード3など)に反射した音声、その他の雑音なども受け付ける。すなわち、発話者の音声、第三者の音声、反射音声、雑音などは、音源となる。なお、これら第三者の音声、反射音声、雑音などの音源位置は、対象検出部112により検出される人物の位置とは異なる位置となる。
The
音声受付部114は、前記初期設定処理(初期設定モード)において複数の人物(ユーザA〜D)のそれぞれの位置に対する指向性が設定された後、音声入力モードに移行すると、音声の受け付けを開始する。音声受付部114は、指向性調整部113により設定された前記指向性に基づいて前記音声を受け付ける。音声受付部114が音声を受け付けると、指向性調整部113は、当該音声の音源位置に基づいて、初期設定処理において設定した指向性を再調整する。具体的には、指向性調整部113は、前記音源位置に基づいて、前記指向性パラメータを再設定する。具体的には、対象検出部112により検出される音声処理装置1から複数の音源位置それぞれまでの距離に応じて、前記指向性パラメータを再設定して前記指向性を調整する。例えば指向性調整部113は、前記距離が長い程、前記指向性が強くなるように前記指向性パラメータを再設定し、前記距離が短い程、前記指向性が弱くなるように前記指向性パラメータを再設定する。
The
例えば、指向性調整部113は、音声受付部114により受け付けられた音声の音源位置が、指向性調整部113により前記指向性が設定された位置(図3参照)と同一である場合に、当該音源位置に対する前記指向性の強度を強める。例えば、図3及び図4Bに示すように指向性パラメータが設定された場合において、ユーザBが発話した場合、指向性調整部113は、音源位置であるユーザBの位置がパラメータ情報122に登録された位置(角度「60度」、距離「Db」)と同一であるため、指向性調整部113は、例えば図4Cに示すように、当該音源位置に対する前記指向性パラメータを「Bp4」から最大値(「Bpmax」)に再設定する。この場合、指向性調整部113は、さらに、前記音源位置とは異なる位置に対する前記指向性の強度を弱める。例えば、指向性調整部113は、前記音源位置とは異なるユーザA,C,Dの位置に対する前記指向性パラメータを弱い値(例えば、「Bp31」、「Bp21」、「Bp11」)に再設定する。指向性調整部113は、前記指向性パラメータを再設定すると、パラメータ情報122を更新する(図5参照)。
For example, the
さらに、指向性調整部113は、音声受付部114により受け付けられた前記音声の音源が複数存在する場合に、それぞれの前記音源の音源位置に応じて、それぞれの前記音源位置に対する前記指向性を調整する。例えば、図4Cに示すようにユーザBが発話中にユーザCが発話した場合、前記音源は、ユーザBの位置とユーザCの位置の複数存在することになる。この場合、指向性調整部113は、ユーザBの位置及びユーザCの位置に応じて、それぞれの音源位置に対する指向性を調整(割り振る)する。具体的には、音声処理装置1からの距離が長いユーザBの音源位置に対する前記指向性パラメータを「Bpmax」から「Bp42」に再設定し、音声処理装置1からの距離が短いユーザCの音源位置に対する前記指向性パラメータを「Bp21」から「Bp22」に再設定する(図4D参照)。ここで、「Bp22」は、「Bp42」より弱い(小さい)値である。指向性調整部113は、前記指向性パラメータを再設定すると、パラメータ情報122を更新する(図6参照)。なお、ここではユーザA及びユーザDは発話していないため、「Bp12」は「Bp11」(図5参照)と同一の値であってもよく、「Bp32」は「Bp31」(図5参照)と同一の値であってもよい。
Further, when there are a plurality of sound sources of the voice received by the
ここで、音声受付部114は、受け付けた前記音声の音源位置が、指向性調整部113により前記指向性が設定された位置と同一である場合に、前記音声を記憶部12に記憶する。一方、音声受付部114は、受け付けた前記音声の音源位置が、指向性調整部113により前記指向性が設定された位置と異なる場合には、前記音声を削除する。
Here, the
判定処理部115は、音声受付部114により受け付けられた前記音声が、対象検出部112により検出された前記複数の人物のうちいずれかの人物から発話された音声であるか否かを判定する。すなわち、判定処理部115は、撮像画像に基づいて発話者を特定する。例えば、判定処理部115は、撮影画像に含まれる人物の口の動きを検出し、口の動きを検出した方向からの音声をマイク14が集音した場合に、当該方向の人物を発話者として特定し、当該音声を当該人物から発話された音声であると判定する。これにより、判定処理部115は、例えば会議に参加するユーザA〜Dが発話した音声であるか、第三者の音声、反射音、及びその他の雑音であるかを判定することができる。判定処理部115は、本発明の判定処理部の一例である。
The
ゲイン調整部116は、音声処理装置1に入力された音声の音量に対するゲイン値(ゲインパラメータ)を設定する。ゲイン調整部116は、設定したゲインパラメータをパラメータ情報122に登録する。具体的には、ゲイン調整部116は、前記音声の音源が複数存在する場合に、複数の音源のそれぞれの音声の音量比に基づいて、前記複数の音源のそれぞれの音量に対応するゲインパラメータを設定する。例えば、図4Cに示すように、一人のユーザBが発話している場合、ゲイン調整部116は、ユーザBの音声に対するゲインパラメータを「100%」に設定する(図5参照)。また図4Dに示すように、二人のユーザB及びユーザCが発話している場合であって、ユーザB及びユーザCそれぞれの音声の音量比が「3:7」である場合、ゲイン調整部116は、ユーザBの音声に対するゲインパラメータを「70%」に設定し、ユーザCの音声に対するゲインパラメータを「30%」に設定する(図6参照)。このように、ゲイン調整部116は、複数の発話者それぞれの音声に対するゲインパラメータを、複数の発話者それぞれの音声の音量比に反比例する値に設定する。これにより、記憶部12に記憶される音声の音量を均一化することができる。なお、ゲイン調整部116は、音源が発話者でない場合、すなわち音源が椅子2、ボード3などである場合、ゲインパラメータを「0」に設定する。
The
[音声処理]
以下、図7及び図8を参照しつつ、音声処理装置1の制御部11によって実行される音声処理の手順の一例について説明する。前記音声処理には、初期設定モードにおいて初期設定を行う初期設定処理(図7参照)と、初期設定後の音声入力モードにおいて音声入力を行う音声入力処理とが含まれる(図8参照)。例えば、音声処理装置1の制御部11は、音声処理装置1の電源がオン状態になることにより前記初期設定処理プログラムの実行を開始することによって、前記初期設定処理の実行を開始する。
[Voice processing]
Hereinafter, an example of the procedure of voice processing executed by the
なお、本発明は、前記音声処理に含まれる一又は複数のステップを実行する音声処理方法の発明として捉えることができる。また、ここで説明する前記音声処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記音声処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部11によって前記音声処理における各ステップが実行される場合を例に挙げて説明するが、他の実施形態では、複数のプロセッサーによって前記音声処理における各ステップが分散して実行されてもよい。
The present invention can be regarded as an invention of a voice processing method for executing one or a plurality of steps included in the voice processing. Further, one or a plurality of steps included in the voice processing described here may be omitted as appropriate. Further, the execution order of each step in the voice processing may be different within a range in which the same action and effect are produced. Further, here, a case where each step in the voice processing is executed by the
先ず図7を参照しつつ、前記初期設定処理の手順の一例について説明する。 First, an example of the procedure of the initial setting process will be described with reference to FIG. 7.
ステップS11において、制御部11は、カメラ13により撮像される撮像画像を取得したか否かを判定する。例えば、会議室(図1参照)においてカメラ13により音声処理装置1の周囲が撮像された場合に、制御部11は、音声処理装置1の周囲の撮像画像を取得する。制御部11により撮像画像が取得された場合(S11:YES)、処理はステップS12に移行する。ステップS11は、本発明の画像取得ステップの一例である。
In step S11, the
ステップS12において、制御部11は、人物を検出したか否かを判定する。具体的には、制御部11は、前記撮像画像を画像解析して、人物、椅子2、ボード3などの所定の検出対象を検出する。制御部11により人物が検出された場合(S12:YES)、処理はステップS13に移行する。一方、制御部11により人物が検出されなかった場合(S12:NO)、すなわち前記撮像画像に人物が含まれない場合、処理はステップS15に移行する。
In step S12, the
ステップS13において、制御部11は、人物の位置を検出する。具体的には、制御部11は、音声処理装置1から、検出した人物までの距離及び角度を検出する。制御部11は、検出した検出対象(「人物」)、距離、及び角度を撮像画像に対応付けてパラメータ情報122(図3参照)に登録する。ステップS12、S13は、本発明の検出ステップの一例である。
In step S13, the
次にステップS14において、制御部11は、検出された人物の位置に対するマイク14の指向性を設定(調整)する。具体的には、制御部11は、検出された人物の位置(角度、距離)に基づいて指向性パラメータを設定する。制御部11は、複数の人物を検出した場合、各人物の位置に応じた指向性パラメータを設定する(図4B参照)。制御部11は、設定した指向性パラメータを撮像画像に対応付けてパラメータ情報122(図3参照)に登録する。
Next, in step S14, the
一方、ステップS15において、制御部11は、物体の位置を検出する。具体的には、制御部11は、音声処理装置1から、検出した物体(椅子2、ボード3など)までの距離及び角度を検出する。制御部11は、検出した検出対象(「椅子」、「ボード」)、距離、及び角度を撮像画像に対応付けてパラメータ情報122(図3参照)に登録する。
On the other hand, in step S15, the
次にステップS16において、制御部11は、検出された物体の位置に対するマイク14の指向性を設定(調整)する。具体的には、制御部11は、物体(「椅子」、「ボード」)の位置に対して、指向性パラメータを、ノイズ用パラメータである「0」に設定する(図3参照)。制御部11は、設定したノイズ用パラメータを撮像画像に対応付けてパラメータ情報122(図3参照)に登録する。ステップS14、S16は、本発明の指向性調整ステップの一例である。
Next, in step S16, the
以上のようにして、前記初期設定処理が行われる。前記初期設定処理が完了すると、以下に示す音声入力処理が行われる。図8を参照しつつ、前記音声入力処理の手順の一例について説明する。 As described above, the initial setting process is performed. When the initial setting process is completed, the following voice input process is performed. An example of the procedure of the voice input processing will be described with reference to FIG.
ステップS21において、制御部11は、マイク14を介して音声を受け付けたか否かを判定する。制御部11により音声が受け付けられた場合(S21:YES)、処理はステップS22に移行する。ステップS21は、本発明の音声受付ステップの一例である。
In step S21, the
ステップS22において、制御部11は、受け付けた前記音声の音源位置(距離、角度)が、指向性パラメータが設定された位置(距離、角度)(図3参照)と同一であるか否かを判定する。制御部11により前記音源位置が前記指向性パラメータの設定位置と同一であると判定されると(S22:YES)、処理はステップS23に移行する。一方、前記音源位置が前記指向性パラメータの設定位置と同一でないと判定されると(S22:NO)、処理はステップS29に移行する。
In step S22, the
ステップS23において、制御部11は、前記音源位置の音声が発話者による音声であるか否かを判定する。制御部11により前記音源位置の音声が発話者による音声であると判定された場合(S23:YES)、処理はステップS24に移行する。一方、制御部11により前記音源位置の音声が発話者による音声でないと判定された場合(S23:NO)、処理はステップS29に移行する。
In step S23, the
ステップS24において、制御部11は、前記音源位置が、既に受け付けた音声の音源位置と同一であるか否かを判定する。例えば、一人のユーザBが発話を継続して行っている場合、前記音源位置であるユーザBの位置は、既に受け付けられているユーザBの音声の音源位置と同一である。これに対して、ユーザBが発話しているときにユーザCが発話した場合には、前記音源位置であるユーザCの位置は、既に受け付けられているユーザBの音声の音源位置と異なる。制御部11により前記音源位置が既に受け付けた音声の音源位置と同一であると判定された場合(S24:YES)、処理はステップS25に移行する。一方、制御部11により前記音源位置が既に受け付けた音声の音源位置と同一でないと判定された場合(S24:NO)、処理はステップS27に移行する。
In step S24, the
ステップS25において、制御部11は、一つの音源である一人のユーザの音源の音源位置に対する指向性パラメータを設定する。例えば図4Cに示すように、制御部11は、ユーザBの音源位置に対する前記指向性パラメータを「Bp4」から最大値(「Bpmax」)に再設定して、当該音源位置に対する指向性の強度を強める。また、制御部11は、前記音源位置とは異なる位置に対する前記指向性の強度を弱める。制御部11は、設定した前記指向性パラメータをパラメータ情報122に登録する(図5参照)。
In step S25, the
次にステップS26において、制御部11は、一つの音源である一人のユーザの音声の音量に対するゲインパラメータを設定する。例えば図4Cに示すように、制御部11は、一人のユーザBの音声に対するゲインパラメータを「100%」に設定する。ゲイン調整部116は、設定したゲインパラメータをパラメータ情報122に登録する(図5参照)。その後、処理はステップS21に戻る。
Next, in step S26, the
ステップS27において、制御部11は、複数の音源である複数のユーザの音源の音源位置のそれぞれに対する指向性パラメータを設定する。例えば図4Dに示すように、制御部11は、音声処理装置1からの距離が長いユーザBの音源位置に対する前記指向性パラメータを「Bpmax」から「Bp42」に弱め、音声処理装置1からの距離が短いユーザCの音源位置に対する前記指向性パラメータを「Bp21」から「Bp22」に強める(図4D参照)。制御部11は、ユーザCの位置に対する指向性を、ユーザBの位置に対する指向性より弱く設定する。制御部11は、設定した各指向性パラメータをパラメータ情報122に登録する(図6参照)。
In step S27, the
次にステップS28において、制御部11は、複数の音源である複数のユーザの音声のそれぞれの音量に対するゲインパラメータを設定する。例えば図4Dに示すように、制御部11は、二人のユーザB及びユーザCが発話している場合であって、ユーザB及びユーザCそれぞれの音声の音量比が「3:7」である場合、制御部11は、ユーザBの音声に対するゲインパラメータを「70%」に設定し、ユーザCの音声に対するゲインパラメータを「30%」に設定する(図6参照)。制御部11は、設定した各ゲインパラメータをパラメータ情報122に登録する(図6参照)。その後、処理はステップS21に戻る。
Next, in step S28, the
ステップS29において、制御部11は、受け付けた音声をノイズとして判定して削除する。ここで、ステップS29において処理される前記音声は、第三者の音声、反射音、その他の雑音である。制御部11は、前記音声の音源位置に対して指向性パラメータを「0」(ノイズ用パラメータ)に設定し、指向性を持たせない。そして、制御部11は、前記音声を記憶部12に記憶するなどの入力処理を行わず、音声処理装置1から削除する。その後、処理はステップS21に戻る。以上のようにして前記音声入力処理が行われ、制御部11は、音声を受け付けるたびに前記音声入力処理を繰り返す。
In step S29, the
以上のように、本実施形態に係る音声処理装置1によれば、会議などのように音声処理装置に対して複数のユーザが存在する場合において、複数のユーザの中から発話者を確実に特定することが可能である。また複数のユーザが同時に発話者となる場合であっても、各発話者の位置(距離、角度)に応じてマイクの指向性を適切に調整することができるため、発話者の音声を適切に取得することが可能となる。また、音声処理装置1の周囲の人物の位置とは異なる位置から取得する音声の方向に対しては指向性を持たせず、当該音声をノイズと判定して削除するため、不要な音声の入力を防ぐことができ、発話者の音声を適切に取得することが可能となる。 As described above, according to the voice processing device 1 according to the present embodiment, when there are a plurality of users for the voice processing device such as in a conference, the speaker can be reliably identified from the plurality of users. It is possible to do. Even when multiple users are speakers at the same time, the directivity of the microphone can be adjusted appropriately according to the position (distance, angle) of each speaker, so that the voice of the speaker can be appropriately adjusted. It becomes possible to acquire. Further, since the voice is not directed to the direction of the voice acquired from a position different from the position of the person around the voice processing device 1 and the voice is judged as noise and deleted, unnecessary voice input is performed. Can be prevented, and the voice of the speaker can be appropriately acquired.
尚、本発明の音声処理装置は、各請求項に記載された発明の範囲において、以上に示された各実施形態を自由に組み合わせること、或いは各実施形態を適宜、変形又は一部を省略することによって構成されることも可能である。 In the voice processing apparatus of the present invention, within the scope of the invention described in each claim, each of the above-described embodiments can be freely combined, or each embodiment may be appropriately modified or partially omitted. It is also possible to configure by.
1 :音声処理装置
11 :制御部
12 :記憶部
13 :カメラ
14 :マイク
15 :スピーカ
111 :画像取得部
112 :対象検出部
113 :指向性調整部
114 :音声受付部
115 :判定処理部
116 :ゲイン調整部
121 :画像情報
122 :パラメータ情報
1: Voice processing device 11: Control unit 12: Storage unit 13: Camera 14: Microphone 15: Speaker 111: Image acquisition unit 112: Target detection unit 113: Directivity adjustment unit 114: Voice reception unit 115: Judgment processing unit 116: Gain adjustment unit 121: Image information 122: Parameter information
Claims (10)
撮像部により撮像される撮像画像を取得する画像取得部と、
前記画像取得部により取得される前記撮像画像から、複数の人物と前記複数の人物のそれぞれの位置とを検出する検出処理部と、
前記検出処理部により検出される前記複数の人物のそれぞれの位置に基づいて、前記マイクの前記複数の人物のそれぞれの位置に対する指向性を設定する指向性調整部と、
を備え、
前記音声受付部は、前記指向性調整部により設定される前記指向性に基づいて前記音声を受け付ける、音声処理装置。 A voice reception unit that receives the sound collected by the microphone,
An image acquisition unit that acquires an image captured by the image pickup unit,
A detection processing unit that detects a plurality of persons and their respective positions of the plurality of persons from the captured image acquired by the image acquisition unit.
A directivity adjusting unit that sets the directivity of the microphone with respect to each position of the plurality of persons based on the respective positions of the plurality of persons detected by the detection processing unit.
With
The voice receiving unit is a voice processing device that receives the voice based on the directivity set by the directivity adjusting unit.
前記指向性調整部は、前記距離が長い程、前記指向性の強度を強め、前記距離が短い程、前記指向性の強度を弱める、
請求項1に記載の音声処理装置。 The detection processing unit detects the distance from the voice processing device to each position of the plurality of persons.
The longer the distance, the stronger the directivity of the directivity adjusting unit, and the shorter the distance, the weaker the strength of the directivity.
The voice processing device according to claim 1.
前記音声受付部により受け付けられた前記音声の音源位置が、前記指向性調整部により前記指向性が設定された位置と異なる場合に、前記音声を削除する、
請求項1又は請求項2に記載の音声処理装置。 When the sound source position of the voice received by the voice receiving unit is the same as the position where the directivity is set by the directivity adjusting unit, the voice is stored while being stored.
When the sound source position of the voice received by the voice receiving unit is different from the position where the directivity is set by the directivity adjusting unit, the voice is deleted.
The voice processing device according to claim 1 or 2.
請求項1から請求項3のいずれか1項に記載の音声処理装置。 The directivity adjusting unit has the directivity with respect to the sound source position when the sound source position of the voice received by the voice receiving unit is the same as the position where the directivity is set by the directivity adjusting unit. Strengthen the strength of
The voice processing device according to any one of claims 1 to 3.
請求項4に記載の音声処理装置。 The directivity adjusting unit further weakens the intensity of the directivity with respect to a position different from the sound source position.
The voice processing device according to claim 4.
請求項1から請求項5のいずれか1項に記載の音声処理装置。 When there are a plurality of sound sources of the voice received by the voice receiving unit, the directivity adjusting unit adjusts the directivity with respect to each of the sound source positions according to the sound source position of each of the sound sources.
The voice processing device according to any one of claims 1 to 5.
前記判定処理部により前記音声受付部により受け付けられた前記音声が前記複数の人物のうちいずれかの人物から発話された音声でないと判定された場合に、前記音声を削除する、
請求項1から請求項6のいずれか1項に記載の音声処理装置。 A determination processing unit for determining whether or not the voice received by the voice reception unit is a voice uttered by any one of the plurality of persons detected by the detection processing unit is further provided.
When the determination processing unit determines that the voice received by the voice receiving unit is not a voice uttered by any one of the plurality of persons, the voice is deleted.
The voice processing device according to any one of claims 1 to 6.
前記ゲイン調整部は、前記音声の音源が複数存在する場合に、複数の音源のそれぞれの音声の音量比に基づいて、前記複数の音源のそれぞれの音量に対応する前記ゲイン値を設定する、
請求項1から請求項7のいずれか1項に記載の音声処理装置。 Further, a gain adjusting unit for setting a gain value with respect to the volume of the voice received by the voice receiving unit is provided.
When there are a plurality of sound sources of the sound, the gain adjusting unit sets the gain value corresponding to the volume of each of the plurality of sound sources based on the volume ratio of the sound of each of the plurality of sound sources.
The voice processing device according to any one of claims 1 to 7.
請求項1から請求項8のいずれか1項に記載の音声処理装置。 The microphone and the imaging unit are further provided.
The voice processing device according to any one of claims 1 to 8.
撮像部により撮像される撮像画像を取得する画像取得ステップと、
前記画像取得ステップにより取得される前記撮像画像から、複数の人物と前記複数の人物のそれぞれの位置とを検出する検出ステップと、
前記検出ステップにより検出される前記複数の人物のそれぞれの位置に基づいて、前記マイクの前記複数の人物のそれぞれの位置に対する指向性を設定する指向性調整ステップと、
を含み、
前記音声受付ステップでは、前記指向性調整ステップにより設定される前記指向性に基づいて前記音声を受け付ける、音声処理方法。 A voice reception step that accepts the sound collected by the microphone,
An image acquisition step of acquiring an image captured by the image pickup unit, and
A detection step of detecting a plurality of persons and their respective positions of the plurality of persons from the captured image acquired by the image acquisition step.
A directivity adjustment step of setting the directivity of the microphone with respect to each position of the plurality of persons based on the respective positions of the plurality of persons detected by the detection step.
Including
In the voice reception step, a voice processing method that receives the voice based on the directivity set by the directivity adjustment step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019076861A JP2020178150A (en) | 2019-04-15 | 2019-04-15 | Voice processing device and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019076861A JP2020178150A (en) | 2019-04-15 | 2019-04-15 | Voice processing device and voice processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020178150A true JP2020178150A (en) | 2020-10-29 |
Family
ID=72935545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019076861A Pending JP2020178150A (en) | 2019-04-15 | 2019-04-15 | Voice processing device and voice processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020178150A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114827814A (en) * | 2022-04-29 | 2022-07-29 | 歌尔股份有限公司 | Sound production device, control method thereof, and control device |
-
2019
- 2019-04-15 JP JP2019076861A patent/JP2020178150A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114827814A (en) * | 2022-04-29 | 2022-07-29 | 歌尔股份有限公司 | Sound production device, control method thereof, and control device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2015056905A (en) | Reachability of sound | |
JP2013048412A (en) | Devices with enhanced audio | |
TWI678696B (en) | Method and system for receiving voice message and electronic device using the method | |
JP7427408B2 (en) | Information processing device, information processing method, and information processing program | |
US11398220B2 (en) | Speech processing device, teleconferencing device, speech processing system, and speech processing method | |
JP2017022661A (en) | Information processing apparatus, information processing method, and information processing program | |
US9319513B2 (en) | Automatic un-muting of a telephone call | |
US20190221226A1 (en) | Electronic apparatus and echo cancellation method applied to electronic apparatus | |
CN117480554A (en) | Voice enhancement method and related equipment | |
WO2017166495A1 (en) | Method and device for voice signal processing | |
JP6977768B2 (en) | Information processing device, information processing method, audio output device, and audio output method | |
JP2020178150A (en) | Voice processing device and voice processing method | |
JP2006211156A (en) | Acoustic device | |
JP7095356B2 (en) | Communication terminal and conference system | |
US11184184B2 (en) | Computer system, method for assisting in web conference speech, and program | |
CN112543302B (en) | Intelligent noise reduction method and equipment in multi-person teleconference | |
CN115410593A (en) | Audio channel selection method, device, equipment and storage medium | |
JP7361460B2 (en) | Communication devices, communication programs, and communication methods | |
US20220337945A1 (en) | Selective sound modification for video communication | |
EP3528509B9 (en) | Audio data arrangement | |
WO2021029294A1 (en) | Data creation method and data creation program | |
JP2019537071A (en) | Processing sound from distributed microphones | |
JP7293863B2 (en) | Speech processing device, speech processing method and program | |
WO2023228713A1 (en) | Sound processing device and method, information processing device, and program | |
US11570558B2 (en) | Stereo rendering systems and methods for a microphone assembly with dynamic tracking |