JP2017168903A - Information processing apparatus, conference system, and method for controlling information processing apparatus - Google Patents
Information processing apparatus, conference system, and method for controlling information processing apparatus Download PDFInfo
- Publication number
- JP2017168903A JP2017168903A JP2016049714A JP2016049714A JP2017168903A JP 2017168903 A JP2017168903 A JP 2017168903A JP 2016049714 A JP2016049714 A JP 2016049714A JP 2016049714 A JP2016049714 A JP 2016049714A JP 2017168903 A JP2017168903 A JP 2017168903A
- Authority
- JP
- Japan
- Prior art keywords
- voice input
- voice
- sound
- information processing
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、情報処理装置、会議システムおよび情報処理装置の制御方法に関する。 The present invention relates to an information processing apparatus, a conference system, and a method for controlling the information processing apparatus.
近年、インターネット等のネットワークを介して遠隔地(拠点)に設置された端末装置(会議端末ともいう)を接続し、遠隔会議(テレビ会議、ビデオ会議ともいう)を行う会議システム(遠隔会議システム、テレビ会議システム、ビデオ会議システムともいう)が普及している。 In recent years, a conference system (remote conference system, which connects a terminal device (also called a conference terminal) installed in a remote place (base) via a network such as the Internet and performs a remote conference (also called a video conference or a video conference) Video conferencing systems and video conferencing systems) are widely used.
この会議システムでの会議端末は、各拠点の会議室等に設置され、相手先の会議端末との間で会議出席者の画像や音声をやり取りすることで遠隔会議を行う。具体的には、会議端末の各々は、遠隔会議に出席する会議出席者をカメラで撮像するとともに会議出席者の音声をマイクで集音し、相手先の会議端末に画像データや音声データを送信する一方で、相手先の会議端末から送信された画像データおよび音声データを受信し、受信した画像データを用いた会議画面を表示部(モニタ)に表示出力するとともに音声データをスピーカから音出力する。 A conference terminal in this conference system is installed in a conference room or the like at each base, and performs a remote conference by exchanging images and sounds of conference attendees with the conference terminal of the other party. Specifically, each conference terminal captures a conference attendee attending a remote conference with a camera, collects the conference attendee's voice with a microphone, and transmits image data and audio data to the destination conference terminal. On the other hand, it receives image data and audio data transmitted from the conference terminal of the other party, displays a conference screen using the received image data on a display unit (monitor), and outputs audio data from a speaker. .
会議端末のマイクとして、音声を入力するためのマイク(音声入力部ともいう)が複数配列されてなるマイクアレイ(音声入力手段ともいう)を用いることが知られており、マイクアレイを構成する各マイクに届く音源の時間差に基づいて、音声(すなわち、会議参加者の発話)が入力された方向を特定すること(音源方向検知機能、音源方向検知処理という)により、会議参加者のうち実際に発話している参加者(発話者という)を検知して、発話者をカメラで撮像する機能(話者追尾機能という)を備えるものが知られている。 As a microphone of a conference terminal, it is known to use a microphone array (also referred to as a voice input unit) in which a plurality of microphones (also referred to as voice input units) for inputting voice are arranged. Based on the time difference between the sound sources that reach the microphone, the direction in which the sound (that is, the speech of the conference participant) is input is specified (referred to as the sound source direction detection function or the sound source direction detection process). A device having a function of detecting a participant who speaks (referred to as a speaker) and imaging the speaker with a camera (referred to as a speaker tracking function) is known.
しかしながら、遠隔会議は必ずしも周囲の騒音のない環境で行われるとは限らず、会議端末が、例えば、簡素な仕切りで区切られたスペースや、隣との壁が薄い会議室などに設置される場合などは、遠隔会議とは関係のない周囲からの騒音が、会議端末のマイクで集音されてしまうことがある。この場合、相手先の拠点において、会議参加者の音声を聞き取りにくくしてしまう。 However, remote conferences are not always conducted in an environment free of ambient noise. For example, a conference terminal is installed in a space separated by a simple partition or a conference room with a thin wall next to it. For example, noise from the surroundings that is not related to the remote conference may be collected by the microphone of the conference terminal. In this case, it becomes difficult to hear the voice of the conference participant at the destination site.
これに対し、例えば、特許文献1には、カメラで撮影した画像をもとに人の配置を判定し、判定した人の配置に応じて複数のマイクから入力される音声を個別に増幅して加算することで、ユーザの操作によらずに会議出席者の配置に対応した適切なマイクの収音特性を自動で設定して、会議出席者の発話音声を的確に収音するビデオ会議装置が開示されている。
On the other hand, for example, in
通常、遠隔会議において、マイクアレイの周囲に参加者が均等に存在していることは少なく、音声の入力方向は所定の数方向に限られることが多い。このような場合においても、従来は、マイクアレイのすべてのマイクを発話者の音声の集音用としており、マイクアレイの集音特性の制御には、検討の余地が残されていた。 Usually, in a remote conference, there are few participants evenly around the microphone array, and the voice input direction is often limited to a predetermined number of directions. Even in such a case, conventionally, all the microphones in the microphone array are used for collecting the voice of the speaker, and there remains room for study in controlling the sound collection characteristics of the microphone array.
そこで本発明は、話者追尾機能を備えた情報処理装置において、話者追尾の状況に応じて、マイクアレイのマイクの少なくとも一部のマイクを、発話者の音声入力用としないことで、一部のマイクを他の用途で使用することを可能とする情報処理装置を提供することを目的とする。 Therefore, the present invention provides an information processing apparatus having a speaker tracking function, in which at least some of the microphones in the microphone array are not used for voice input of a speaker according to the speaker tracking status. An object of the present invention is to provide an information processing apparatus that can use the microphones of other parts for other purposes.
かかる目的を達成するため、本発明に係る情報処理装置は、複数の音声入力部を備えてなる音声入力手段と、音声を出力する音声出力手段と、前記複数の音声入力部へ入力される音声に基づいて、前記音声入力手段への音声の入力方向を検知する音源方向検知手段と、前記音源方向検知手段の検知結果に応じて、前記音声入力部のうち少なくとも1以上の音声入力部を発話者からの音声の集音に使用しない音声入力部とする音声入力制御手段と、を備えるものである。 In order to achieve this object, an information processing apparatus according to the present invention includes a voice input unit including a plurality of voice input units, a voice output unit that outputs voice, and a voice input to the plurality of voice input units. Based on the sound source direction detecting means for detecting the input direction of the sound to the sound input means, and at least one of the sound input sections is uttered according to the detection result of the sound source direction detecting means. Voice input control means serving as a voice input unit that is not used for collecting voice from a person.
本発明によれば、話者追尾機能を備えた情報処理装置において、話者追尾の状況に応じて、マイクアレイのマイクの少なくとも一部のマイクを、発話者の音声入力用としないことで、一部のマイクを他の用途で使用することを可能とする。 According to the present invention, in the information processing apparatus having the speaker tracking function, depending on the situation of the speaker tracking, at least some of the microphones of the microphone array are not used for voice input of the speaker. Some microphones can be used for other purposes.
以下、本発明に係る構成を図1から図8に示す実施の形態に基づいて詳細に説明する。 Hereinafter, the configuration according to the present invention will be described in detail based on the embodiment shown in FIGS.
[第1の実施形態]
(会議システム構成)
本発明に係る会議システムの一実施形態であるテレビ会議システムの構成について説明する。
[First Embodiment]
(Conference system configuration)
A configuration of a video conference system which is an embodiment of the conference system according to the present invention will be described.
図1は、テレビ会議システム1の構成例を示すブロック図である。図1に示すように、テレビ会議システム1は、サーバ3と複数の会議端末5(5−1,5−2,5−3,5−4・・・)とを備え、これらがインターネット等のネットワークNを介して接続されて構成される。サーバ3としては、サーバコンピュータやワークステーション等を利用することができ、会議端末5としては、専用の会議端末装置(情報処理装置)のほか、パーソナルコンピュータ等の汎用の情報処理装置を利用することができる。
FIG. 1 is a block diagram illustrating a configuration example of the
サーバ3は、個々の会議端末5との間で通信接続が確立しているか否かを監視する処理や、会議開始時においてテレビ会議に参加する拠点(参加拠点)に設置された会議端末5を呼び出す処理、呼び出しに応答して通信接続が確立した参加拠点の会議端末5からテレビ会議の間に送信される画像データや音声データを相手先(他の参加拠点)の会議端末5に転送する処理等を行う。
The server 3 performs processing for monitoring whether or not a communication connection is established with each
会議端末5の各々は、遠隔地にある拠点の会議室等に設置され、テレビ会議の出席者によって操作される。テレビ会議中の各参加拠点の会議端末5は、後述するカメラ112によって撮像した会議出席者の画像データやマイクアレイ114によって集音した会議出席者の音声データをサーバ3に送信する一方、他の参加拠点の会議端末5から送信されてサーバ3によって転送された画像データや音声データを受信し、ディスプレイ120に会議画面として表示出力するとともにスピーカ115から出力(放音)する。
Each of the
例えば、このテレビ会議システム1において図1に示す3台の会議端末5−1〜5−3が参加するテレビ会議では、会議端末5−1から送信された画像データや音声データはサーバ3の制御によって相手先である会議端末5−2,5−3に転送される一方、会議端末5−4には転送されない。同様に、会議端末5−2,5−3から送信された画像データや音声データはサーバ3の制御によって各々の相手先である会議端末5−1,5−3や会議端末5−1,5−2に転送され、会議端末5−4には転送されない。このようにして、テレビ会議システム1では、サーバ3との通信接続が確立された2台以上の会議端末5が設置された参加拠点間でテレビ会議が行われる。
For example, in the video conference in which three conference terminals 5-1 to 5-3 shown in FIG. 1 participate in the
(会議端末構成)
図2は、会議端末5の主要内部構成例を示すブロック図である。図2に示されているように、会議端末5は、会議端末5の全体の動作を制御するCPU(Central Processing Unit)101、IPL(Initial Program Loader)等のCPU101の駆動に用いられるプログラムを記憶したROM(Read Only Memory)102、CPU101のワークエリアとして使用されるRAM(Random Access Memory)103、端末用プログラム、画像データ、及び音声データ等の各種データを記憶するフラッシュメモリ104、CPU101の制御にしたがってフラッシュメモリ104に対する各種データの読み出し又は書き込みを制御するSSD(Solid State Drive)105、フラッシュメモリ等の記録メディア106に対するデータの読み出し又は書き込み(記憶)を制御するメディアドライブ107、会議端末5の宛先を選択する場合などに操作される操作部108、会議端末5の電源のON/OFFを切り換えるための電源スイッチ109、ネットワークNを利用してデータ伝送をするためのネットワークI/F(Interface)111を備えている。
(Conference terminal configuration)
FIG. 2 is a block diagram illustrating a main internal configuration example of the
操作部108は、キーボードやマウス、タッチパネル、各種スイッチ等の入力装置によって実現されるものであり、操作入力に応じた入力データをCPU101に出力する。
The
ネットワークI/F111は、外部(例えばサーバ3)とのデータ通信を行うためのものであり、LANを経由してネットワークNと接続し、相手先の会議端末5との画像データや音声データ等の送受を、サーバ3を介して行う。このネットワークI/F111は、10Base−T,100Base−TX,1000Base−T等に対応した制御を行いイーサネット(登録商標)に接続するもの(有線LAN)や、IEEE802.11a/b/g/nに対応した制御を行うもの(無線LAN)等、接続態様に応じたものを適宜採用して用いることができる。
The network I /
また、会議端末5は、CPU101の制御に従って被写体を撮像して画像データを得る内蔵型のカメラ112、このカメラ112の駆動を制御する撮像素子I/F113、音声を入力する内蔵型のマイクアレイ114、音声を出力する内蔵型のスピーカ115、CPU101の制御に従ってマイクアレイ114及びスピーカ115との間で音声信号の入出力を処理する音声入出力I/F116、CPU101の制御に従って外付けのディスプレイ120に画像データを伝送するディスプレイI/F117、各種の外部機器を接続するための外部機器接続I/F118、および上記各構成要素を電気的に接続するためのアドレスバスやデータバス等のバスライン110を備えている。
The
撮像手段としてのカメラ112は、レンズや、光を電荷に変換して被写体の画像(映像)を電子化する固体撮像素子を含み、固体撮像素子として、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサや、CCD(Charge Coupled Device)イメージセンサ等が用いられる。
The
カメラ112は、会議出席者の画像を入力するためのものであり、会議室内の様子を撮像し、生成した画像データを随時、CPU101に出力する。カメラ112は、マイクアレイ114にて検知した発話者の方向に追従して、撮像方向、撮像範囲を切り替える制御がなされる。
The
マイクアレイ114は、会議出席者の音声を入力するためのマイクが複数配列されてなり、集音した会議出席者の音声データを随時、CPU101に出力する。
The
なお、マイクアレイ114を、カメラ112やスピーカ115を備える会議端末5の本体部と、別体のマイクアレイユニットとしてもよい。この場合、マイクアレイユニットと本体部とは、有線または無線により接続される。これにより、マイクアレイの配置位置の自由度を向上することができる。
The
スピーカ115は、CPU101から入力される音声データを出力する音声出力手段である。
The
外部機器接続I/F118には、USB(Universal Serial Bus)ケーブル等によって、外付けカメラ、外付けマイク、及び外付けスピーカ等の外部機器がそれぞれ接続可能である。例えば、外付けカメラが接続された場合には、CPU101の制御に従って、内蔵型のカメラ112に優先して、外付けカメラが動作するようにしてもよい。同じく、外付けマイクが接続された場合や、外付けスピーカが接続された場合には、CPU101の制御に従って、それぞれが内蔵型のマイクアレイ114や内蔵型のスピーカ115に優先して、外付けマイクや外付けスピーカを駆動させるようにしてもよい。
External devices such as an external camera, an external microphone, and an external speaker can be connected to the external device connection I /
なお、記録メディア106は、会議端末5に対して着脱自在な構成となっている。また、CPU101の制御にしたがってデータの読み出し又は書き込みを行う不揮発性メモリであれば、フラッシュメモリ104に限らず、EEPROM(Electrically Erasable and Programmable ROM)等を用いてもよい。
Note that the
更に、上記端末用プログラムは、インストール可能な形式又は実行可能な形式のファイルで、上記記録メディア106等の、コンピュータで読み取り可能な記録媒体に記録して流通させるようにしてもよい。また、上記端末用プログラムは、フラッシュメモリ104ではなくROM102に記憶させるようにしてもよい。
Further, the terminal program may be recorded in a computer-readable recording medium such as the
ディスプレイ120は、被写体の画像や操作用アイコン等を表示するLCDやELディスプレイ、CRTディスプレイ等によって構成された表示部であり、CPU101から入力される画像データを表示した会議画面等の各種画面を表示出力する。また、ディスプレイ120は、ケーブル120cによってディスプレイI/F117に接続される。このケーブル120cは、アナログRGB(VGA)信号用のケーブルであってもよいし、コンポーネントビデオ用のケーブルであってもよいし、HDMI(登録商標)(High-Definition Multimedia Interface)やDVI(Digital Video Interactive)信号用のケーブルであってもよい。
The
CPU101は、カメラ112から入力される画像データやマイクアレイ114から入力される音声データ、ネットワークI/F111から入力される相手先の会議端末5からの画像データや音声データ、操作部108から入力される入力データ、フラッシュメモリ104等に記録されるプログラムやデータ等をもとに、会議端末5を構成する各部への指示やデータの転送等を行って会議端末5の動作を統括的に制御する。例えば、CPU101は、サーバ3からの呼び出しを受けてサーバ3との通信接続が確立した後、カメラ112から入力される画像データやマイクアレイ114から入力される音声データをサーバ3に送信する処理と、サーバ3から転送される相手先の会議端末5からの画像データや音声データを受信する処理とを並行して繰り返し行う。
The
具体的には、CPU101は、テレビ会議中にカメラ112から随時入力される画像データ、およびマイクアレイ114から随時入力される音声データをエンコードしてネットワークI/F111に出力することで、これらをサーバ3に送信する処理を行う。CPU101は、例えば、H.264/AVC、H.264/SVC等の規格によるコーデックを行う。
Specifically, the
また、CPU101は、これと並行し、相手先の会議端末5から送信されてサーバ3によって転送された画像データおよび音声データをネットワークI/F111を介して受信する。そして、CPU101は、受信した画像データおよび音声データをデコードしてディスプレイ120、スピーカ115に送信するコーデック機能を有している。これにより、相手先の会議端末5で入力された画像および音声の再生を行う。
In parallel with this, the
また、CPU101は、マイクアレイ114の各マイクからの入力に基づいて、音源方向検知処理を実行する音源方向検知部130を備えている。図3は、音源方向検知部130による音源方向検知処理の説明図である。音源方向検知処理は、マイクアレイ114を構成する各マイクに届く音源の時間差に基づいて、音声が入力された方向を特定するものである。すなわち、例えば、図3に示すように、4つのマイク(マイク1〜マイク4)に対して、音源である発話者S1から音声が入力された場合、マイク1とマイク2の到達時間差(Δt1)、マイク1とマイク3の到達時間差(Δt2)、マイク1とマイク4の到達時間差(Δt3)、に基づいて音声の入力方向(すなわち、発話者の方向)を検知することができる。なお、音源方向検知処理としては、公知または新規の方法を適用することができる。
In addition, the
また、CPU101は、音源方向検知部130での検知結果に基づいて、カメラ112の撮像範囲を制御する撮像範囲制御部131(撮像範囲制御手段)を備えている。カメラ112は、例えば、撮像方向が旋回可能に設けられており、検知された発話者の方向に基づいて、CPU101により旋回が制御される。また、カメラ112を、広角レンズを用いて構成し、その視野範囲(画角)内に会議出席者の全員が含まれるようにして、検知された発話者の方向に基づいて、デジタル処理により撮像範囲を切り替える制御をするものであってもよい。
The
また、CPU101は、音源方向検知部130での検知結果に基づいて、マイクアレイ114の集音特性を制御する音声入力制御部132を備えている。音声入力制御部132について以下に説明する。
In addition, the
(音声入力制御)
図4は、音声入力制御部132によるマイクアレイ114の集音制御の説明図である。図4に示す例では、マイクアレイ114はマイクA〜Hの8つのマイクにより構成されている。音声入力制御部132は、音源方向検知処理の検知結果(すなわち、発話者の方向)に基づいて、マイクの指向性(マイクビーム)を向ける。図4は、発話者S1からの音声の入力方向I1に応じて、指向性制御がされる範囲D1と、発話者S2からの音声の入力方向I2に応じて、指向性制御がされる範囲D2が形成される例を示している。
(Voice input control)
FIG. 4 is an explanatory diagram of the sound collection control of the
ここで、遠隔会議が開始され、しばらく時間が経過した状況を考える。会議参加者が会議中に新たに加わることや、中座すること、着座位置の変更は、頻繁に生じるものではないので、遠隔会議が開始されてしばらくすると、マイクアレイ114のマイクの指向性が向けられる方向は、当初から限られた数方向であることが認識できる。
Here, consider a situation in which a remote conference is started and a certain time has passed. It is not a frequent occurrence that a conference participant newly joins, sits down, or changes the seating position during the conference, so that the microphone directivity of the
換言すれば、設置されるマイクアレイ114に対する会議参加者の位置は、通常、固定されるものであり、マイクアレイ114が備える複数のマイクのうち、遠隔会議において、発話者の音声入力に使用すべきマイクと、発話者の音声入力に不要なマイクに区別が可能であるといえる。また、発話者の存在しない方向から入力される音については、ノイズである可能性が高いともいえる。
In other words, the position of the conference participant with respect to the installed
本実施形態では、この点に着目して、マイクアレイ114のうち発話者の音声入力に不要としてもよいマイクを認識し、これらのマイクについては、マイク入力をオフにする制御を行う、または、他の用途に用いる制御とするものである。
In the present embodiment, focusing on this point, the
図5は、図4に示した状況でのマイクアレイ114の集音制御の詳細を示す説明図である。例えば、図5の例では、発話者S1からの音声の入力方向I1では、マイクアレイ114のマイクA,G,Hを有効とし、発話者S2からの音声の入力方向I2では、マイクアレイ114のマイクA,B,Cを有効として、マイクアレイ114の集音制御がされる。
FIG. 5 is an explanatory diagram showing details of the sound collection control of the
すなわち、図5の例では、発話者からの音声の集音に使用しているのはマイクA,B,C,G,Hの5つのマイク(集音用マイク14aともいう)であり、マイクD,E,Fの3つのマイクは、発話者からの音声の集音に不要なマイク(非集音用マイク14bともいう)であるといえる。また、入力方向I3から入力される音はノイズである可能性が高い。
That is, in the example of FIG. 5, five microphones (also referred to as
そこで、本実施形態に係る情報処理装置(会議端末5)は、複数の音声入力部(マイクA〜H)を備えてなる音声入力手段(マイクアレイ114)と、音声を出力する音声出力手段(スピーカ115)と、複数の音声入力部へ入力される音声に基づいて、音声入力手段への音声の入力方向を検知する音源方向検知手段(音源方向検知部130)と、音源方向検知手段の検知結果に応じて、音声入力部のうち少なくとも1以上の音声入力部を発話者からの音声の集音に使用しない音声入力部(非集音用マイク14b)とする音声入力制御手段(音声入力制御部132)と、を備えるものである。なお、括弧内は実施形態での符号、適用例を示す。
Therefore, the information processing apparatus (conference terminal 5) according to the present embodiment includes an audio input unit (microphone array 114) including a plurality of audio input units (microphones A to H), and an audio output unit that outputs audio ( Speaker 115), sound source direction detecting means (sound source direction detecting unit 130) for detecting the sound input direction to the sound input means based on the sound input to the plurality of sound input units, and detection by the sound source direction detecting means Depending on the result, voice input control means (voice input control) using a voice input unit (
音声入力制御部132は、例えば、非集音用マイク14b(マイクD,E,F)については、音声入力をオフに制御する。これにより、マイクアレイ114においてマイクが使用されないで余ってしまうことを解消するとともに、ノイズが入力されて、接続先の会議端末5からノイズが出力されることを抑制することで、会議参加者の音声が聞き取りにくくなることを防止し、円滑な会話を実現することができる。
For example, the voice
また、音声入力制御部132は、例えば、非集音用マイク14b(マイクD,E,F)については、他の用途に転用する制御する。例えば、非集音用マイク14bをノイズキャンセル用マイクとすることが好ましい。ノイズキャンセル処理は、ノイズとなる音を集音して、集音した音(ノイズ)に対して、これを打ち消すように逆位相の信号を重ねることで、ノイズを低減させる処理である。ノイズキャンセル処理としては、公知または新規の技術を適用することができる。
In addition, the voice
図6は、ノイズキャンセル処理における入力信号の説明図である。図6(A)に示すように、マイクアレイ114へ入力される音声の信号は、集音すべき発話者からの音声入力信号(メイン音声信号M)と、その他の雑音等による音声入力信号(ノイズ信号N)が含まれる。
FIG. 6 is an explanatory diagram of an input signal in the noise cancellation process. As shown in FIG. 6A, the audio signal input to the
そして、図6(B)に示すようなノイズキャンセル処理用信号Cを、図6(A)に示した入力信号に重ねるノイズキャンセル処理により、図6(C)に示すように、ノイズが低減されたノイズ低減後信号Rを得ることができる。 Then, noise is reduced as shown in FIG. 6C by noise cancellation processing in which the signal C for noise cancellation processing as shown in FIG. 6B is superimposed on the input signal shown in FIG. The signal R after noise reduction can be obtained.
例えば、図5に示した例では、発話者S1からの音声の入力方向I1では、マイクアレイ114の集音用マイク14a(マイクA,G,H)から音声を集音し、非集音用マイク14b(マイクD,E,F)では雑音を集音し、非集音用マイク14bで集音した音に対して、ノイズキャンセル処理を実行する。このとき、残りのマイクB,Cについては、発話者S2から発話の可能性があるので音声入力可能な状態とする。
For example, in the example shown in FIG. 5, in the voice input direction I1 from the speaker S1, voice is collected from the
また、発話者S2からの音声の入力方向I2では、マイクアレイ114の集音用マイク14a(マイクA,B,C)から音声を集音し、非集音用マイク14b(マイクD,E,F)では雑音を集音し、非集音用マイク14bで集音した音に対して、ノイズキャンセル処理を実行する。このとき、残りのマイクG,Hについては、発話者S1から発話の可能性があるので音声入力可能な状態とする。
Further, in the voice input direction I2 from the speaker S2, voice is collected from the
ここまで説明したマイクアレイ114の集音制御について図7のフローチャートを参照して説明する。先ず、会議端末5の会議開始ボタンの押下や、相手先の会議端末5からの会議呼び出しにより、テレビ会議が開始される(S101)と、音源方向検知部130はマイクアレイ114への音声の入力方向を検知する(S102)。この検知結果は、一時記憶装置に蓄積させておく(S103)。
The sound collection control of the
次いで、音声入力制御部132は、蓄積された音声の入力方向の検知結果に基づいて、マイクアレイ114のマイクのうち、集音用マイク14aと非集音用マイク14bとを判別する(S104)。この際の判断基準は、音源方向検知処理における検知割合や検知回数等に基づいて判別するものであればよく、判別方法は、限られるものではない。例えば、
音源方向検知処理において、所定時間に亘り音源方向として検知されていない方向に対応するマイクを非集音用マイク14bとし、その他のマイクを集音用マイク14aとすることができる。また、例えば、音源方向検知処理で検知された検知回数のうち、所定の割合以上で検知されている方向に対応するマイクを、集音用マイク14aとし、その他のマイクを非集音用マイク14bとすることができる。
Next, the sound
In the sound source direction detection process, the microphone corresponding to the direction that has not been detected as the sound source direction for a predetermined time can be set as the
次いで、S104の判断において、非集音用マイク14bと判断されたマイクをノイズキャンセル用のマイクに設定し(S105)、非集音用マイク14bからの入力音(ノイズ)に対して、ノイズキャンセル処理を実行する(S106)。
Next, in the determination in S104, the microphone determined as the
以上説明したように、本実施形態に係る会議端末5は、マイクアレイ114への音声の入力方向に基づいて話者追尾を実行する機能を備える会議端末5であって、さらに、会議の経過とともに、音声の入力方向とならないマイク(発話者が存在しない方向のマイク)については、発話者の音声入力用のマイクとしないことで、マイクアレイ114の一部のマイクを音声入力以外の用途で使用することを可能とするものである。
As described above, the
従来の会議端末では、マイクの集音範囲やカメラの撮像範囲は、広範囲に集音、撮像して、相手拠点に伝えることに重きが置かれていたが、話者追尾機能の実現により、広範囲の会議音声映像ではなく、発話者個人ごとの発話、映像となり、それ以外の音声や撮像範囲は雑音として扱うことが可能となってきた。 In conventional conference terminals, the sound collection range of the microphone and the image capture range of the camera were focused on collecting and capturing the image over a wide range and transmitting it to the other party's base. It is now possible to treat the other speech and imaging range as noise.
そして、本実施形態に係る会議端末5では、マイクアレイ114で音源の入力方向を検知して話者追尾をしばらく行っていると、会議の参加者が存在する位置が判明し、マイクアレイ114の指向性を向ける方向が固定化されて、使用しないマイクが判明することに着目して、マイクアレイ114のマイクを必要な音声を得るためのマイクと、その他のマイクに分けるようにしている。
In the
そして、必要な音声を得るためのマイク以外のマイクを、例えば、雑音除去のために転用することで、マイクアレイ114の各マイクの有効活用を図るとともに、ノイズの低減を図ることができ、接続先の会議端末5での音声の聞き取りやすさを向上させて、会議環境を向上させることができる。
Then, by using a microphone other than the microphone for obtaining the necessary sound, for example, for noise removal, it is possible to effectively use each microphone of the
[第2の実施形態]
以下、本発明に係る情報処理装置の例である会議端末5の他の実施形態について説明する。なお、上記実施形態と同様の点についての説明は適宜省略する。
[Second Embodiment]
Hereinafter, another embodiment of the
マイクアレイ114を用いた集音制御として、マイクアレイ114のマイクのうち最も高い音圧(音声レベル)で入力されるマイクを、集音用マイク14aとして、その他のマイクの少なくとも一部のマイクを、非集音用マイク14bとする制御としてもよい。
As sound collection control using the
図8は、第2の実施形態での音声入力制御部132によるマイクアレイ114の集音制御の説明図である。図8に示す例では、発話者S2から音声の入力方向I2で音声が入力される様子を示している。
FIG. 8 is an explanatory diagram of the sound collection control of the
本実施形態では、マイクアレイ114のマイクのうち、発話者S2に最も近く、最も高い音圧(音声レベル)で入力されるマイクBを集音用マイク14aとしている。そして、集音用マイク14aから最も遠い位置にあるマイク(図8に示す例では、対角位置にあるマイクF)からの入力は、ノイズである可能性が高いと判断することができるので、これを非集音用マイク14bとし、ノイズキャンセル用のマイクとしている。
In the present embodiment, among the microphones of the
なお、図8の例では、集音用マイク14aおよび非集音用マイク14bとしてそれぞれ1つのマイクを選択する例を示したが、それぞれ2以上のマイクを選択するようにしてもよい。
In the example of FIG. 8, an example is shown in which one microphone is selected as each of the
尚、上述の実施形態は本発明の好適な実施の例ではあるがこれに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形実施可能である。 The above-described embodiment is a preferred embodiment of the present invention, but is not limited thereto, and various modifications can be made without departing from the gist of the present invention.
1 テレビ会議システム
3 サーバ
5 会議端末
101 CPU
102 ROM
103 RAM
104 フラッシュメモリ
105 SSD
106 記録メディア
107 メディアドライブ
108 操作部
109 電源スイッチ
110 バスライン
111 ネットワークI/F
112 カメラ
113 撮像素子I/F
114 マイクアレイ
14a 集音用マイク
14b 非集音用マイク
115 スピーカ
116 音声入出力I/F
117 ディスプレイI/F
118 外部機器接続I/F
120 ディスプレイ
120c ケーブル
130 音源方向検知部
131 撮像範囲制御部
132 音声入力制御部
N ネットワーク
1 Video conference system 3
102 ROM
103 RAM
104
106 Recording medium 107 Media drive 108
112
114
117 Display I / F
118 External device connection I / F
Claims (9)
音声を出力する音声出力手段と、
前記複数の音声入力部へ入力される音声に基づいて、前記音声入力手段への音声の入力方向を検知する音源方向検知手段と、
前記音源方向検知手段の検知結果に応じて、前記音声入力部のうち少なくとも1以上の音声入力部を発話者からの音声の集音に使用しない音声入力部とする音声入力制御手段と、を備えることを特徴とする情報処理装置。 Voice input means comprising a plurality of voice input units;
Audio output means for outputting audio;
Sound source direction detection means for detecting the input direction of the sound to the sound input means based on the sound input to the plurality of sound input units;
A voice input control unit configured to use at least one or more voice input units among the voice input units as voice input units that are not used for collecting voice from a speaker according to a detection result of the sound source direction detection unit. An information processing apparatus characterized by that.
前記音源方向検知手段の検知結果に応じて、前記撮像手段による撮像範囲を制御する撮像範囲制御手段と、を備えることを特徴とする請求項1から6までのいずれかに記載の情報処理装置。 Imaging means for imaging a predetermined range;
The information processing apparatus according to claim 1, further comprising: an imaging range control unit that controls an imaging range of the imaging unit according to a detection result of the sound source direction detection unit.
音声を出力する音声出力手段と、を備えた情報処理装置の制御方法であって、
前記複数の音声入力部へ入力される音声に基づいて、前記音声入力手段への音声の入力方向を検知する音源方向検知処理と、
前記音源方向検知処理での検知結果に応じて、前記音声入力部のうち少なくとも1以上の音声入力部を発話者からの音声の集音に使用しない音声入力部とする音声入力制御処理と、を行うことを特徴とする情報処理装置の制御方法。 Voice input means comprising a plurality of voice input units;
A method of controlling an information processing apparatus comprising: audio output means for outputting sound;
A sound source direction detection process for detecting a voice input direction to the voice input unit based on voices input to the plurality of voice input units;
A voice input control process in which at least one voice input unit of the voice input units is a voice input unit that is not used for collecting voice from a speaker according to a detection result in the sound source direction detection process; A method for controlling an information processing apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016049714A JP2017168903A (en) | 2016-03-14 | 2016-03-14 | Information processing apparatus, conference system, and method for controlling information processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016049714A JP2017168903A (en) | 2016-03-14 | 2016-03-14 | Information processing apparatus, conference system, and method for controlling information processing apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017168903A true JP2017168903A (en) | 2017-09-21 |
Family
ID=59913690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016049714A Pending JP2017168903A (en) | 2016-03-14 | 2016-03-14 | Information processing apparatus, conference system, and method for controlling information processing apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017168903A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019220768A1 (en) * | 2018-05-18 | 2019-11-21 | ソニー株式会社 | Signal processing device, signal processing method, program |
WO2022262316A1 (en) * | 2021-06-15 | 2022-12-22 | 华为技术有限公司 | Sound signal processing method and apparatus, and computer-readable storage medium |
-
2016
- 2016-03-14 JP JP2016049714A patent/JP2017168903A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019220768A1 (en) * | 2018-05-18 | 2019-11-21 | ソニー株式会社 | Signal processing device, signal processing method, program |
CN112075088A (en) * | 2018-05-18 | 2020-12-11 | 索尼公司 | Signal processing device, signal processing method, and program |
CN112075088B (en) * | 2018-05-18 | 2022-06-28 | 索尼公司 | Signal processing apparatus, signal processing method, and computer readable medium |
US11386904B2 (en) | 2018-05-18 | 2022-07-12 | Sony Corporation | Signal processing device, signal processing method, and program |
WO2022262316A1 (en) * | 2021-06-15 | 2022-12-22 | 华为技术有限公司 | Sound signal processing method and apparatus, and computer-readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9860486B2 (en) | Communication apparatus, communication method, and communication system | |
JP4482330B2 (en) | System and method for providing recognition of a remote person in a room during a video conference | |
US9648278B1 (en) | Communication system, communication apparatus and communication method | |
US10079996B2 (en) | Communication system, communication device, and communication method | |
KR20180048982A (en) | Devices for video-conferences | |
US20170034474A1 (en) | Video conference terminal | |
US20110050840A1 (en) | Apparatus, system and method for video call | |
JP6701573B2 (en) | Audio processing device, audio/video output device, and remote conference system | |
JP6149433B2 (en) | Video conference device, video conference device control method, and program | |
JP2017034312A (en) | Communication device, communication system, and program | |
JP6590152B2 (en) | Information processing apparatus, conference system, and control method for information processing apparatus | |
KR101918676B1 (en) | Videoconferencing Server for Providing Multi-Screen Videoconferencing by Using Plural Videoconferencing Terminals and Camera Tracking Method therefor | |
JP2017168903A (en) | Information processing apparatus, conference system, and method for controlling information processing apparatus | |
JP2009177592A (en) | Communication terminal device, and image display control method | |
JP5120020B2 (en) | Audio communication system with image, audio communication method with image, and program | |
JP2017034313A (en) | Imaging apparatus, program, and imaging method | |
JP5151131B2 (en) | Video conferencing equipment | |
JP6668828B2 (en) | Conference system | |
JP2017163466A (en) | Information processor and conference system | |
JP2006339869A (en) | Apparatus for integrating video signal and voice signal | |
JP6500366B2 (en) | Management device, terminal device, transmission system, transmission method and program | |
JP6544209B2 (en) | INFORMATION PROCESSING APPARATUS, CONFERENCE SYSTEM, INFORMATION PROCESSING METHOD, AND PROGRAM | |
JP7361460B2 (en) | Communication devices, communication programs, and communication methods | |
JP2011055103A (en) | Condominium intercom system | |
JP2017158134A (en) | Information processing apparatus, conference system, and method for controlling information processing apparatus |