JP5493551B2 - Information processing system, information processing apparatus, and information processing method - Google Patents
Information processing system, information processing apparatus, and information processing method Download PDFInfo
- Publication number
- JP5493551B2 JP5493551B2 JP2009177718A JP2009177718A JP5493551B2 JP 5493551 B2 JP5493551 B2 JP 5493551B2 JP 2009177718 A JP2009177718 A JP 2009177718A JP 2009177718 A JP2009177718 A JP 2009177718A JP 5493551 B2 JP5493551 B2 JP 5493551B2
- Authority
- JP
- Japan
- Prior art keywords
- identifier
- microphone
- audio
- sound
- acquisition device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、情報処理システム、情報処理装置、及び情報処理方法に関し、特に、音声制御することの出来る情報処理システム、情報処理装置、及び情報処理方法に関する。 The present invention relates to an information processing system, an information processing apparatus, and an information processing method, and more particularly, to an information processing system, an information processing apparatus, and an information processing method capable of voice control.
近年、テレビ電話及びテレビ会議など、離れた拠点間をネットワークで結び、遠隔地にいる相手と映像及び音声を用いてコミュニケーションすることができるシステムが利用されるようになってきている。 2. Description of the Related Art In recent years, systems such as videophones and videoconferences have been used that can connect remote bases via a network and communicate with remote parties using video and audio.
特に、複数人でこのようなシステムを利用する場合には、次のような問題が発生することがある。例えば、音声を取得するマイクからの距離、角度、及び個人の音声の大きさはそれぞれ異なるため、特定の音声について聞き取りづらい状況が発生することがある。また、例えば、プロジェクタなどの機器から発生するファン音などの動作音、及び、PC(Personal Computer)のタイプ音など人の動作に応じて発生する動作音などが、必要以上に大きく集音されてしまうこともある。従って、複数人でコミュニケーションするシステムにおいては、音声の制御が重要となる。 In particular, when such a system is used by a plurality of people, the following problems may occur. For example, since the distance from the microphone that acquires the voice, the angle, and the volume of the individual voice are different, it may be difficult to hear a specific voice. Also, for example, operation sounds such as fan sounds generated from devices such as projectors, and operation sounds generated in response to human actions such as PC (Personal Computer) type sounds are collected more than necessary. Sometimes it ends up. Therefore, in a system in which communication is performed by a plurality of people, voice control is important.
そこで、様々な音源からの音声を、分離して取得することによって、分離取得された音声を個別に制御出来るようにする方法が提案されている。例えば、ピン・マイクロホンを個別に装着することによって、人毎に音声を取得することが出来る。また、例えば、特許文献1には、椅子に多数のマイクロホンを埋め込むことによって、ピン・マイクロホンを装着することなく、人毎に音声を分離取得することの出来る椅子が提案されている。また、例えば、特許文献2には、音声を分離取得し、着席位置に応じた放音を行う音声会議システムが提案されている。 In view of this, a method has been proposed in which voices from various sound sources are separately acquired, so that the separately acquired voices can be individually controlled. For example, voices can be acquired for each person by attaching a pin microphone individually. Further, for example, Patent Document 1 proposes a chair that allows voices to be separated and acquired for each person without embedding a pin microphone by embedding a large number of microphones in the chair. For example, Patent Document 2 proposes an audio conference system that separates and acquires audio and emits sound according to the seating position.
しかし、音源毎に音声を分離取得することが出来たとしても、音声の調整をする際にはどのマイクロホンでどの音源からの音声が取得されているのかを特定する必要があるが、この特定が困難であるという問題があった。 However, even if the sound can be obtained separately for each sound source, when adjusting the sound, it is necessary to specify which sound source from which sound source is acquired with which microphone. There was a problem that it was difficult.
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、映像を表示する画面に対する操作から、制御対象の音声を特定し、制御することが可能な、新規かつ改良された情報処理装置及び情報処理方法を提供することにある。 Therefore, the present invention has been made in view of the above problems, and the object of the present invention is to specify and control the sound to be controlled from the operation on the screen for displaying the video. It is an object to provide a new and improved information processing apparatus and information processing method.
上記課題を解決するために、本発明のある観点によれば、複数のマイクロホンと、映像を撮影する撮像装置と、上記複数のマイクロホンによって取得された音声を処理する音声処理装置と、上記映像及び上記音声処理装置において処理された音声を出力し、上記音声処理装置に対して音声制御情報を出力する情報処理装置と、を有し、上記情報処理装置は、映像を表示する表示部と、上記表示部の表示画面上の座標位置を入力する座標入力部と、上記座標入力部によって入力された座標位置付近に音声調整インタフェースを上記映像に重ねて上記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、上記映像中の上記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び上記音声調整インタフェースに対する上記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、を有する、情報処理システムが提供される。 In order to solve the above problems, according to an aspect of the present invention, a plurality of microphones, an imaging device that captures images, a sound processing device that processes sound acquired by the plurality of microphones, the images, and An information processing device that outputs sound processed by the sound processing device and outputs sound control information to the sound processing device, wherein the information processing device includes a display unit that displays video; and A coordinate input unit for inputting a coordinate position on the display screen of the display unit, and an audio adjustment interface overlaid on the video in the vicinity of the coordinate position input by the coordinate input unit, displayed on the display unit, and stored internally or externally Based on the correspondence information stored in the unit, the microphone identifier of the microphone that acquires the sound at the position corresponding to the coordinate position in the video is specified, and the specified microphone Besshi and and a control unit for outputting sound control information including a sound processing information corresponding to the input from the coordinate input unit with respect to the audio adjustment interface, the information processing system is provided.
かかる構成によれば、複数のマイクロホンによって取得された音声は、音声処理装置において処理され、情報処理装置において出力される。情報処理装置は、表示部において映像を出力すると共に、音声出力部において、音声処理装置において処理された音声を出力する。さらに、情報処理装置は、音声処理装置に音声制御情報を出力することも出来る。このとき、情報処理装置は、ユーザが情報処理装置の表示部に表示された映像を見ながら、座標入力部を用いて音声を制御したい対象を入力すると、その座標位置に音声調整インタフェースを表示する。そして、情報処理装置は、対応情報を用いて座標位置から制御対象のマイクロホンを特定する。ユーザが音声調整インタフェースを操作したときに、情報処理装置は、その操作の情報及び特定したマイクロホンのマイク識別子に基づいて音声制御情報を作成して、音声処理装置に対して出力する。これにより、ユーザは、映像を見ながらの直感的な操作により、操作と制御したいマイクロホンとの対応を考えることなく、音声制御を実行することが出来るようになる。 According to this configuration, the sound acquired by the plurality of microphones is processed by the sound processing device and output by the information processing device. The information processing device outputs video on the display unit, and outputs audio processed by the audio processing device in the audio output unit. Further, the information processing apparatus can output voice control information to the voice processing apparatus. At this time, when the user inputs an object whose sound is to be controlled using the coordinate input unit while viewing the video displayed on the display unit of the information processing device, the information processing device displays a voice adjustment interface at the coordinate position. . Then, the information processing apparatus identifies the microphone to be controlled from the coordinate position using the correspondence information. When the user operates the voice adjustment interface, the information processing apparatus creates voice control information based on the operation information and the identified microphone identifier of the microphone, and outputs the voice control information to the voice processing apparatus. As a result, the user can execute voice control by an intuitive operation while watching the video without considering the correspondence between the operation and the microphone to be controlled.
また、音源には予め識別のための音源識別子が付与されており、上記対応情報は、上記音源識別子及び上記マイク識別子の対応関係を収集して生成された情報であってもよい。 In addition, a sound source identifier for identification may be assigned to the sound source in advance, and the correspondence information may be information generated by collecting the correspondence relationship between the sound source identifier and the microphone identifier.
また、上記複数のマイクロホンは、音声取得装置に内蔵されており、上記音声取得装置は、上記音源識別子を受信する受信器を有し、上記音声取得装置の表面には、音声取得装置を識別するための音声取得装置識別子が埋め込まれた認識コードが表示され、上記対応情報は、上記音声取得装置識別子、上記音源識別子、上記受信器に付与された受信器識別子、及び上記マイク識別子の対応関係を収集して生成された情報であり、上記制御部は、上記映像中の上記認識コードから上記音声取得装置識別子を読取り、読取られた音声取得装置識別子及び上記対応情報を用いて、上記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定してもよい。 The plurality of microphones are incorporated in a sound acquisition device, and the sound acquisition device includes a receiver that receives the sound source identifier, and the sound acquisition device is identified on a surface of the sound acquisition device. A recognition code embedded with a voice acquisition device identifier for the display, and the correspondence information includes a correspondence relationship between the voice acquisition device identifier, the sound source identifier, a receiver identifier assigned to the receiver, and the microphone identifier. The information is collected and generated, and the control unit reads the voice acquisition device identifier from the recognition code in the video, and uses the read voice acquisition device identifier and the correspondence information to read the coordinate position. You may specify the microphone identifier of the microphone which acquires the audio | voice of the corresponding position.
また、上記音声取得装置は、机の形状をしており、上記受信器は、上記音声取得装置の側面に設置され、上記受信器は、人が身につけた、音源識別子発信器から上記音源識別子を受信してもよい。 The voice acquisition device has a desk shape, the receiver is installed on a side surface of the voice acquisition device, and the receiver receives the sound source identifier from a sound source identifier transmitter worn by a person. May be received.
また、上記音声取得装置は、自らの発信器識別子を発信する発信器をさらに有し、上記発信器は、他の音声取得装置と組み合わせられた場合に、他の音声取得装置の受信器と対向するよう配置され、上記受信器は、上記音源識別子又は上記発信器識別子のいずれかを受信し、複数の上記音声取得装置の対応情報を取得し、上記複数の音声取得装置の配置を認識する対応情報作成装置をさらに有してもよい。 The voice acquisition device further includes a transmitter for transmitting its own transmitter identifier, and the transmitter is opposed to a receiver of the other voice acquisition device when combined with the other voice acquisition device. The receiver receives either the sound source identifier or the transmitter identifier, acquires correspondence information of the plurality of sound acquisition devices, and recognizes the arrangement of the plurality of sound acquisition devices. You may further have an information preparation apparatus.
また、上記音声処理装置は、上記マイクロホンから入力された音声にマイク識別子を付与するマイク識別子付与部と、上記音声に付与されたマイク識別子と、上記音声制御情報とに基づいて、上記音声を処理する音声ミキサと、を有してもよい。 The voice processing device processes the voice based on a microphone identifier giving unit that gives a microphone identifier to the voice input from the microphone, a microphone identifier given to the voice, and the voice control information. And an audio mixer.
また、上記対応情報は、上記座標位置と上記音声取得部識別子との対応関係を予め記憶した情報であってもよい。 The correspondence information may be information in which a correspondence relationship between the coordinate position and the voice acquisition unit identifier is stored in advance.
また上記課題を解決するために、本発明の別の観点によれば、複数のマイクロホンによって取得された音声、及び映像を取得し、出力する情報処理装置であって、上記映像を表示する表示部と、上記表示部の表示画面上の座標位置を入力する座標入力部と、上記座標入力部によって入力された座標位置付近に音声調整インタフェースを上記映像に重ねて上記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、上記映像中の上記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び上記音声調整インタフェースに対する上記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、を有する情報処理装置が提供される。 In order to solve the above-described problem, according to another aspect of the present invention, an information processing apparatus that acquires and outputs audio and video acquired by a plurality of microphones, the display unit displaying the video A coordinate input unit that inputs a coordinate position on the display screen of the display unit, and a voice adjustment interface that is superimposed on the video and displayed on the display unit in the vicinity of the coordinate position input by the coordinate input unit. Based on correspondence information stored in an external storage unit, a microphone identifier of a microphone that acquires sound at a position corresponding to the coordinate position in the video is specified, and the microphone identifier specified and the voice adjustment interface There is provided an information processing apparatus including a control unit that outputs voice control information including voice processing information according to an input from a coordinate input unit.
また上記課題を解決するために、本発明の別の観点によれば、映像を表示する表示部と、上記表示部の表示画面上の座標位置を入力する座標入力部と、制御部と、を有する情報処理装置による方法であって、上記制御部が、上記座標入力部によって入力された座標位置付近に音声調整インタフェースを上記映像に重ねて上記表示部に表示させ、内部又は外部の記憶部に記憶された対応情報に基づいて、上記映像中の上記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び上記音声調整インタフェースに対する上記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する、情報処理方法が提供される。 In order to solve the above problem, according to another aspect of the present invention, a display unit that displays an image, a coordinate input unit that inputs a coordinate position on the display screen of the display unit, and a control unit are provided. The information processing apparatus has a method in which the control unit causes a voice adjustment interface to be superimposed on the video and displayed on the display unit in the vicinity of the coordinate position input by the coordinate input unit, and to be stored in an internal or external storage unit. Based on the stored correspondence information, the microphone identifier of the microphone that acquires the sound at the position corresponding to the coordinate position in the video is specified, and the microphone input from the coordinate input unit for the specified microphone identifier and the voice adjustment interface is specified. There is provided an information processing method for outputting voice control information including voice processing information according to an input.
以上説明したように本発明によれば、映像を表示する画面に対する操作から、制御対象の音声を特定し、制御することができる。 As described above, according to the present invention, the sound to be controlled can be specified and controlled from the operation on the screen displaying the video.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Exemplary embodiments of the present invention will be described below in detail with reference to the accompanying drawings. In addition, in this specification and drawing, about the component which has the substantially same function structure, duplication description is abbreviate | omitted by attaching | subjecting the same code | symbol.
(概要)
まず、本発明の一実施形態に係る情報処理システムの概要を図1及び図2を用いて説明する。図1は、本発明の一実施形態に係る情報処理システムの音声調整画面の一例を示す説明図である。図2は、本発明の一実施形態に係る情報処理システムの音声調整画面の一例を示す説明図である。
(Overview)
First, an outline of an information processing system according to an embodiment of the present invention will be described with reference to FIGS. 1 and 2. FIG. 1 is an explanatory diagram illustrating an example of a sound adjustment screen of an information processing system according to an embodiment of the present invention. FIG. 2 is an explanatory diagram showing an example of a sound adjustment screen of the information processing system according to the embodiment of the present invention.
図1は、本実施形態に係る情報処理システムにおいて、表示部115から入力操作を行うことによって、音声調整をする場面を示している。まず、表示部115は、例えばテレビ会議、テレビ電話などにおいて、相手方の映像を映し出している表示画面である。ここで表示画面は、上部にタッチパネルが積層され、座標入力装置としての機能を有するものとする。表示部115を見ているユーザが、参加者40の音声が聞き取りにくいと感じた場面を想定する。ユーザは、表示部115において参加者40を指差すようにタッチする。すると、情報処理装置100は、参加者40の音声を取得しているマイクロホンを特定し、特定したマイクロホンの音声調整をするための操作表示を、映像の上に重ねて表示する。操作表示は、ここではボリューム調整バー60としたがこれに限られない。例えば、音量、音色、バランス、エフェクトなど、音声に対して調整できるものであればよい。
FIG. 1 shows a scene in which sound adjustment is performed by performing an input operation from the
ここで、図2に示すように、ユーザが、操作表示60に対してボリュームを上げる操作をする。すると、情報処理装置100は、先ほど特定したマイクロホンに対して、ユーザ操作に従った制御を行う信号を生成し、出力する。
Here, as shown in FIG. 2, the user operates the
上記のように、本実施形態に係る情報処理システムは、リアルタイムの映像を映し出した画面を見ながら、例えば、現在喋っている人を画面上で確認出来、その人を指差すという直感的な操作によって、映像内の音声を制御することが出来るものである。これにより、場の流れを遮ることなく、音声の調整を実行することが可能となる。また、どのマイクロホンによってどの人の音声を取得しているかを、音声調整するユーザは気にする必要がない。 As described above, the information processing system according to the present embodiment allows an intuitive operation in which, for example, a person who is currently speaking can be confirmed on the screen while pointing to the person while viewing the screen on which the real-time video is displayed. By this, the audio in the video can be controlled. As a result, it is possible to perform audio adjustment without blocking the flow of the field. Further, the user who adjusts the sound does not need to worry about which person's sound is acquired by which microphone.
(第1の実施形態)
次に、上記の機能を実現するための、本発明の第1の実施形態に係る情報処理システム100の機能構成について図3〜図5を用いて説明する。図3は、本発明の第1の実施形態に係る情報処理システム100の機能構成を示すブロック図である。図4は、本発明の第1の実施形態に係る情報処理システムが、マイクロホンを特定するために用いるエリアについて説明するための説明図である。図5は、マイク識別子とエリアとの対応関係から成る対応情報を示す表である。
(First embodiment)
Next, the functional configuration of the
(情報処理システム100の構成)
本実施形態に係る情報処理システム100は、情報処理装置110、音声処理装置120、マイクロホン130、及び撮像装置140を主に有する。情報処理装置110は、撮像装置140が撮像した映像を表示すると共に、マイクロホン130によって取得された音声を出力し、ユーザが音声調整操作を入力することの出来る端末装置である。情報処理装置110は、ユーザによって入力された操作情報から、操作対象のマイクロホンを特定し、そのマイクロホンに対する制御情報を生成して、音声処理装置120に入力する。音声処理装置120は、情報処理装置110から入力された制御情報に従って、マイクロホン130によって取得された音声に対する制御を実行する。なお、例えば、遠隔地AB間で双方向通信する際、遠隔地Aにいるユーザaと、遠隔地Bにいるユーザbとが、双方で音声調整操作を行う場合には、ユーザaが音声調整操作するための情報処理システム100aと、ユーザbが音声調整するための情報処理システム100bとが遠隔地ABそれぞれに備わってもよい。
(Configuration of information processing system 100)
The
マイクロホン130は、音源から音声を取得する音声取得装置である。本実施形態においては、130a〜130fの6つのマイクロホンを用いて、6つのエリア毎に音声を取得する固定マイクロホンである。マイクロホン130は、例えば天井、壁、机などに固定されていてよい。マイクロホン130は、撮像装置140と同じ空間に配置される。即ち、マイクロホン130は、撮像装置140によって撮像される空間の音声を取得する。このとき、マイクロホン130は、所望の音声を特に分離して取得することのできる音源分離マイク、指向性マイクなどであってよい。
The microphone 130 is a sound acquisition device that acquires sound from a sound source. In the present embodiment, the microphone is a stationary microphone that acquires sound for each of six areas using six
撮像装置140は、映像を撮影するための装置である。撮像装置140は、映像を撮影し、ネットワークを介して情報処理装置110に入力する。
The
(情報処理装置110)
情報処理装置110は、記憶部111、通信部112、座標入力部113、制御部114、表示部115、及び、音声出力部116を主に有する。
(Information processing apparatus 110)
The
記憶部111は、情報を記憶することのできる記憶装置である。例えばHDD(Hard Disk Drive)などの磁気記録媒体や、EEPROM(Electronically Erasable and Programmable Read Only Memory)、フラッシュメモリ、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、PRAM(Phase change Random Access Memory)などの不揮発性メモリが挙げられるが、上記に限られない。
The
記憶部111は、本実施形態においては、対応情報1000を記憶する。対応情報1000は、ユーザが操作する画面上の座標位置から、その位置の音声を取得するマイクロホンを特定するために用いられる情報である。例えば図5に示すマイク識別子1002とエリア名1004とを対応付けた情報であってよい。ここでエリアとは、ユーザが操作する画面を、それぞれのマイクロホンが音声を取得している範囲に区分したものである。エリアの一例は、図4に示す。このような対応情報1000は、予め記憶部111に記憶されている。
The
通信部112は、有線又は無線の通信方式に対応した通信インタフェースである。本実施形態においては、通信部112は、撮像装置140からの映像を受信して制御部114に入力し、また、音声処理装置120から音声を受信し、制御部114に入力する。
The
座標入力部113は、画面上の座標位置を入力する入力装置、又は、入力装置との接続インタフェースである。例えば、タッチパネル、マウス、トラックボール、ジョイスティックなどの入力装置、又は上記の入力装置との接続インタフェースである。本実施形態においては、座標入力部113は、表示部115の上に重ねられたタッチパネルであり、表示部115の表示画面上の座標位置をユーザの操作に応じて入力する。タッチパネルは、ユーザが画面上をタッチすると、その位置及び変化を読み取り、情報処理装置110に入力する。
The coordinate
制御部114は、情報処理装置110全体の動きを制御する機能を有する。制御部114は、情報処理装置110における処理手順を記述したプログラムを読み込んで解釈し、実行することにより、情報処理装置110の各機能を実現する。制御部114は、座標入力部113からの入力に応じて、処理を実行してもよい。制御部114は、例えば、CPU(Central Processing Unit)などにより構成されてよい。
The
表示部115は、映像を表示する機能を有するディスプレイ、又はディスプレイへの出力インタフェースである。例えば、ディスプレイの例としては、液晶ディスプレイ(LCD:Liquid Crystal Display)・プラズマディスプレイ(PDP:Plasma Display Panel)・電界放出ディスプレイ(FED:Field Emission Display)・有機エレクトロルミネッセンスディスプレイ(有機EL、OELD:Organic Electroluminescence Display)・ビデオプロジェクタなどが挙げられる。表示部115は、制御部114からの制御に従って、入力された画像を表示する機能を有する。
The
音声出力部116は、音声を出力する機能を有する装置、又は音声を出力する機能を有する装置への出力インタフェースである。例えば、音声出力部116は、スピーカなどの出力装置、又はスピーカへの出力インタフェースである。音声出力部116は、制御部114からの制御に従って、入力された音声を出力する。
The
(音声処理装置120)
音声処理装置120は、通信部121、マイク識別子付与部122、音声ミキサ123、多重化部124を主に有する。
(Speech processor 120)
The
通信部121は、有線又は無線の通信方式に対応した通信インタフェースである。本実施形態においては、通信部121は、マイクロホン130及び情報処理装置110の通信部112と接続され、マイクロホン130が取得した音声を受信し、マイク識別子付与部に入力する。また、通信部121は、多重化部124から入力された音声を情報処理装置110に入力するインタフェースである。さらに、通信部121は、情報処理装置110から、音声に対する制御情報を受信し、マイク識別子付与部122に入力する。
The
マイク識別子付与部122は、通信部121から入力された音声に対して、情報処理装置110から制御情報を受信した場合には、マイク識別子を付与して、音声ミキサ123へ入力する。ここでマイク識別子は、予め付与されたマイクロホン130それぞれに固有の番号である。マイク識別子付与部122は、通信部121から受信した制御情報も音声と合わせて音声ミキサ123へ入力する。一方、マイク識別子付与部122は、情報処理装置110から制御情報を受信していない場合には、音声に対して何の処理も実行せずに音声を音声ミキサに入力する。
When the control information is received from the
音声ミキサ123は、マイク識別子付与部122からマイク識別子が付与された音声、及び制御情報を受信すると、制御情報に従って特定されたマイク識別子に対応する音声を、マイク識別子付与部122において付与されたマイク識別子を用いて判別し、特定された音声に対して制御情報に従ってミキシング処理を行い、多重化部124に入力する。音声ミキサ123は、情報処理装置110からの制御情報を受信していない場合には、音声に対して何の処理も実行せずに、音声を多重化部に入力する。
When the
多重化部124は、音声ミキサ123においてミキシングされた音声について、音源位置及び音量を考慮した上で多重化し、通信部121に入力する。ここで多重化された音声は、通信部121を介してネットワークに送信される。
The
(情報処理システム100の動作)
次に、図6及び図7を用いて、本実施形態に係る情報処理システム100の動作について説明する。図6は、本実施形態に係る情報処理システム100における音声調整の動作を説明するフローチャートである。図7は、本発明の第1の実施形態に係る情報処理システム100のマイク特定の手順を示すフローチャートである。ここで、図7は図6のステップS104のサブフローチャートである。
(Operation of the information processing system 100)
Next, the operation of the
まず、制御部114は、撮像装置において撮影された映像を通信部112を介して取得し、表示部115に表示させると共に、マイクロホン130において取得された音声を、音声処理装置120及び通信部112を介して取得し、音声出力部116に出力させている。そして、例えば、図4に示すように、参加者40が喋っている声が聞こえ難い場合に、ユーザが指50で画面上の参加者40付近を指差すようにタッチする。すると、情報処理装置110の制御部114は、上記タッチの結果、入力された座標位置X(x,y)を取得する(S102)。次に、情報処理装置110の制御部114は、入力された座標位置X(x,y)に対応するマイク識別子を特定する(S104)。
First, the
次に、図6のステップS104のサブフローチャートである図7を参照しながら、マイク特定手順について説明する。まず、入力された座標位置X(x,y)から、制御部114は、対応するエリアを特定する(S202)。本実施形態においては、対応するエリアは、エリアBであることがわかる。このエリア特定ステップは、例えば、情報処理装置110内の記憶部に、座標位置とエリアとの対応情報を持っておくことによって実現することができる。
Next, the microphone identification procedure will be described with reference to FIG. 7 which is a sub-flowchart of step S104 in FIG. First, from the input coordinate position X (x, y), the
そして、特定したエリアの音声を取得するマイクロホンを特定し、そのマイク識別子を取得する(S204)。本実施形態においては、エリアは、それぞれのマイクで音声を取得するエリアとして定義されているため、例えば図5のような対応情報1000を予め作成し、保持しておくことによって、これを用いて、マイク識別子を特定することができる。本実施形態においては、エリアBの音声を取得するマイクロホン130のマイク識別子は130bであることがわかる。
And the microphone which acquires the audio | voice of the specified area is specified, and the microphone identifier is acquired (S204). In the present embodiment, the area is defined as an area for acquiring sound by each microphone. Therefore, for example, the
次に、再び図6に戻って音声調整手順について説明を続ける。ステップS104において、調整対象のマイク識別子を取得すると、制御部114は、特定されたマイクロホンの音声調整機能をONにする(S106)。そして、制御部114は、入力された座標位置X(x,y)付近に音声調整インタフェースを表示する(S108)。
Next, returning to FIG. 6 again, the description of the audio adjustment procedure will be continued. In step S104, when the microphone identifier to be adjusted is acquired, the
そして、例えば図2に示されたように、ユーザが指50によって、音声調整インタフェース60に対して操作をすると、制御部114は、その操作情報を取得する(S110)。
Then, for example, as shown in FIG. 2, when the user operates the
制御部114は、ステップS104において特定したマイク識別子、及び、ステップS110において取得したユーザの音声調整操作情報に基づいて、音声制御情報を生成し、出力する。出力された音声制御情報は、通信部112を介して音声処理装置120に出力される。
The
そして、音声調整の完了が検知されると(S114)、音声調整インタフェースの表示をOFFにし、音声調整を終える。 When the completion of the audio adjustment is detected (S114), the display of the audio adjustment interface is turned off and the audio adjustment is finished.
(まとめ)
このように、本実施形態に係る情報処理装置100は、映像を映した画面上の特定の位置の音声を取得しているマイクロホン130を、対応情報を用いることによって自動的に特定する。ユーザは、ただ音声の調整をしたい対象を指差して、音声調整操作をするだけで、従来あったどのマイクロホン130によって音声が取得されているかという対応付けを行う必要がなくなる。そのため、直感的な操作により、簡便に音声を調整することができるようになる。
(Summary)
As described above, the
(第2の実施形態)
上記の第1の実施形態では、予め設定された対応情報によって、操作画面上の位置から、その位置の音声を取得するマイクロホンを特定することを実現したものである。しかし、このようなシステムは、予めマイクロホンと、画面上のエリアとの対応情報を設定しておく必要がある。そこで、本発明の第2の実施形態は、対応情報をユーザが予め設定することなく、操作対象のマイクロホンの特定をすることができるものである。尚、以下第2の実施形態の説明においては、第1の実施形態と同様である部分については説明を省略し、相違点について主に説明する。
(Second Embodiment)
In the first embodiment described above, the microphone that acquires the sound at the position is specified from the position on the operation screen based on preset correspondence information. However, such a system needs to set correspondence information between a microphone and an area on the screen in advance. Therefore, in the second embodiment of the present invention, the operation target microphone can be specified without the user setting correspondence information in advance. In the following description of the second embodiment, description of parts that are the same as those of the first embodiment will be omitted, and differences will be mainly described.
(情報処理システム200)
まず、図8を用いて本実施形態に係る情報処理システム200について説明する。図8は、本発明の第2の実施形態に係る情報処理システムの機能構成を示すブロック図である。
(Information processing system 200)
First, the
情報処理システム200は、情報処理装置210、音声処理装置220、撮像装置240、複数の音声取得装置250、及び、対応情報作成装置260を主に有し、ネットワーク300によってそれぞれ接続されている。
The
情報処理システム200は、ユーザが指定した音声を取得しているマイクロホンを特定するために、音声取得装置250及びバッチホルダ800を用いて生成した情報を対応情報作成装置260が収集して作成した、対応情報を用いる。
In the
情報処理装置210、音声処理装置220、及び撮像装置240については、第1の実施形態と同様であるため、説明を省略する。尚、情報処理装置210において記憶部を図示していないが、もちろん記憶部を有する構成であってもよい。情報処理装置210が、内部に対応情報を有しないことを図示したものである。情報処理装置210の音量調整時の動作については、後述する。
Since the
(対応情報作成装置260)
対応情報作成装置260は、通信部261、制御部262、及び記憶部263を主に有する。本実施形態においては、対応情報を作成する機能に着目しているが、対応情報作成装置260は、対応情報を収集することによって、音声取得装置250及び参加者の空間配置を認識することが可能である。
(Correspondence information creation device 260)
The correspondence
(音声取得装置250)
音声取得装置250は、音声を取得するためのマイクロホンが設置された装置である。本実施形態においては、音声取得装置250は、例えば図10及び図11に示した机の形状をしている。図8においては、音声取得装置250は、音声取得装置250aと音声取得装置250bとの2つを有するものとして記載しているが、これに限られない。複数組み合わせて用いることが可能である。
(Voice acquisition device 250)
The
音声取得装置250は、記憶部251、制御部252、通信部253、受信器254、発信器255、マイクロホン230を主に有する。尚、ここで受信器254及び発信器255については、複数有するため、それぞれを識別するために、例えば3つの受信器254は受信器2541〜2543の符号を振っている。以下、発信器についてまとめて説明をする際には、発信器255として表記する。受信器についても同様である。
The
記憶部251は、情報を記憶することのできる記憶装置である。例えばHDD(Hard Disk Drive)などの磁気記録媒体や、EEPROM(Electronically Erasable and Programmable Read Only Memory)、フラッシュメモリ、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、PRAM(Phase change Random Access Memory)などの不揮発性メモリが挙げられるが、上記に限られない。 The storage unit 251 is a storage device that can store information. For example, magnetic recording media such as HDD (Hard Disk Drive), EEPROM (Electronically Erasable and Programmable Read Only Memory), flash memory, MRAM (Magnetoresistive Random Access Memory), FeRAM (Ferroelectric Random Access Memory), PRAM (Phase change Random Access) Non-volatile memory such as “Memory”, but is not limited to the above.
記憶部251は、本実施形態においては、例えば図9において示したような対応情報2000を記憶する。図9は、音声取得装置における対応情報の一例を示す説明図である。対応情報2000は、それぞれの音声取得装置250が有する、音声取得装置識別子2002、マイク識別子2004、発信器識別子2006、受信器識別子2008の対応関係を予め記憶したものであり、それぞれの受信器254が、識別情報を受信したときには、受信した識別情報が受信情報2010に格納される。
In the present embodiment, the storage unit 251
制御部252は、音声取得装置250全体の動作を制御する。例えば、受信器254において、識別情報が受信された場合には、制御部252は、受信した識別情報を記憶部251の対応情報200の、受信器識別子に対応する受信情報2010に記憶すると共に、対応情報2000を通信部253を介して対応情報作成装置260に送信する。制御部252は、例えばCPUなどにより構成されてよい。
The control unit 252 controls the overall operation of the
通信部253は、音声取得装置250がネットワークと接続するための通信インタフェースである。通信部253は、有線のネットワークに接続するためのものであってもよいし、無線のネットワークに接続するためのものであってもよい。通信部253は、制御部252の制御に従って各種データの送受信を行う。
The communication unit 253 is a communication interface for connecting the
受信器254は、制御部252の制御に従って、他の音声取得装置250に設置された発信器255又は音源識別子を発信する音源識別子発信器801と通信し、発信器識別子又は音源識別子を受信する機能を有する。受信器254は、例えば赤外線を用いて通信を行う赤外線受信器であってよい。受信器254の物理的な設置については、後述する。
The receiver 254 communicates with a transmitter 255 installed in another
発信器255は、制御部252の制御に従って、発信器識別子を対向する受信器に向かって発信する。発信器255は、例えば赤外線を用いて通信を行う赤外線発信器であってよい。発信器255の通信方式は、受信器254の通信方式と互換性があることを前提とする。 The transmitter 255 transmits a transmitter identifier toward the opposite receiver according to the control of the control unit 252. The transmitter 255 may be an infrared transmitter that performs communication using infrared rays, for example. It is assumed that the communication method of the transmitter 255 is compatible with the communication method of the receiver 254.
マイクロホン230は、音声を取得するための装置である。マイクロホン230は、音声取得装置に設置されている。例えば、マイクロホン230は、音声取得装置250に内蔵されていてもよいし、例えば、音声取得装置250の側面又は上面などに設置されてもよい。マイクロホン230は、机の形状をした音声取得装置250のうち、参加者が座る位置に対応して設置されることが望ましい。
The microphone 230 is a device for acquiring sound. The microphone 230 is installed in the sound acquisition device. For example, the microphone 230 may be built in the
(物理構成)
次に、音声取得装置250の物理的な構成について図10及び図11を用いて説明する。図10は、音声取得装置250a、及び、音声取得装置250bを上部から見た概観図である。図11は、音声取得装置250a、及び、音声取得装置250bを側面から見た概観図である。
(Physical configuration)
Next, the physical configuration of the
本実施形態において、音声取得装置250は、机の形状をしている。そして、受信器254及び発信器255が一対となって同じ側面に配置されている。尚、受信器254及び発信器255は、図においては、突出形状で示しているが、実際には、机間の隙間をなくすため、例えば、音声取得装置250の参加者に対向する側面に凹状に設けているものとする。受信器254及び発信器255は、本実施形態においては、音声取得装置250当たり、それぞれ3つずつ設置される。なお、情報上の対応関係を示す対応情報(図9)と同様に、マイク230のマイクの向きと机の向きとの物理的な構成(構成上の対応関係)についても関連付く。例えば、図10に示すように、マイク230aのマイクの向きは発信器2551aが備わる側面と対向する向きになっている。つまり、マイク230aは発信器2551aが備わる側に存在する参加者等の音声を主に取得する。
In the present embodiment, the
図10に示すように、受信器254と発信器255とは、音声取得装置250の各辺が接した際に、一方の音声取得装置250の受信器254と他方の音声取得装置250の発信器255とが対向するように配置されている。例えば、図9においては、机の天板の一番長い辺を合わせたときに、受信器2543aと発信器2553b、発信器2553aと受信器2543bが対向し、通信可能となる。
As shown in FIG. 10, the receiver 254 and the transmitter 255 are configured such that when each side of the
また、図10に点線で示したように、音声取得装置250は、マイクロホン230を内蔵する。マイクロホン230は、受信器254の数に対応して設けられる。本実施形態においては、マイクロホン230は、音声取得装置250当たり3つ設置される。マイクロホン230は、受信器254及び発信器255と対応付けられている。
Further, as indicated by a dotted line in FIG. 10, the
音声取得装置250の天板の表面には、認識コード700が模様として埋め込まれている。認識コード700は、音声取得装置250毎の音声取得装置識別子を示すものである。全体に繰り返し埋め込まれているため、この認識コード700を解読することによって、認識コードを映した映像から、ユーザが指示した地点の最寄の音声取得装置250がどの音声取得装置であるかを識別することが可能となる。なお、本実施形態に係る認識コード700は音声取得装置識別子を示す場合を例に挙げて説明するが、かかる例に限定されず、例えば、認識コード700は複数台のマイク230を一組としたマイクセットを識別する識別子の場合でも良い。例えば、図10に示すように、マイク230a〜cを一組としたマイクセットを例示できる。かかる場合、音声取得装置250に複数台のマイクセットを備えることができる。なお、この場合、例えば、音声取得装置250の表面のうち、第1のマイクセットの備わる周辺部には認識コード700aが表示され、第2のマイクセットの備わる周辺部には認識コード700bが表示される。
A
ここで、認識コード700は、音声取得装置250の識別子を記憶可能なコードであり、その画像から情報を読み取ることができる。例えば、図示したQRコード(登録商標)、その他の2次元コード、及び1次元コードであるバーコードであってもよい。
Here, the
次に、図12、及び図13を用いて、音声取得装置250の受信部254が音源識別子を受信するときの様子について説明する。図12は、音源識別子発信器と音声取得装置との通信について説明する説明図である。図13は、バッチホルダの概観構成例について説明する説明図である。
Next, using FIG. 12 and FIG. 13, a state when the reception unit 254 of the
図12に示すように、音声取得装置250に対して参加者10が着席した場合を考える。音声取得装置250の、参加者10が着席した側の側面に、受信器2542が設置されている。このとき、参加者10は、バッチホルダ800を身に着けており、バッチホルダ800が有する音源識別子発信器801が、音源識別子を、音声取得装置250の受信器2542に発信する。図12に示すように、参加者10が着席した際に、バッチホルダ800と受信器2542とが対向する位置にくるよう、音声取得装置250は設計されることが望ましい。
As shown in FIG. 12, consider a case where the
ここで、バッチホルダ800の構成について、図13を用いて説明する。バッチホルダ800は、例えば参加者10が自身を示すためのバッチ等を身に着けるためのものである。例えば、バッチホルダ800に、音源識別子を発信するための音源識別子発信器801が取り付けられている。音源識別子は、音源を識別するための符号であり、例えば社員番号のように、個人に割り当てられた識別番号であってもよい。
Here, the configuration of the
以上、説明してきた通り、本実施形態に係る情報処理システム200は、机の形状をした音声取得装置250を組み合わせた際に、それぞれ側面に設けられた受信器254及び発信器255間において、発信器識別子を送受信することによって、どの受信器がどの発信器と対向しているかを、把握することができるようになる。また、対応情報作成装置260が、予めそれぞれの音声取得装置250の形状などのデータを保持していると、どのような配置で音声取得装置250が配置されているのか、仮想空間に再現することが可能である。
As described above, the
また、例えば参加者10に音源識別子をそれぞれ付与し、参加者が着席した箇所の受信器254が音源識別子を受信することができるように、参加者が身につけるバッチホルダ800などに音源識別子発信器801を設けることにより、音声取得装置250及び、音声取得装置250から対応情報を受信した、対応情報作成装置260は、各音声取得装置250のどの位置にどの参加者が着席しているかを把握することができるようになる。
Further, for example, a sound source identifier is given to each
(動作例)
ここで、以上のような情報処理システム200を用いた動作例について説明をする。例えば、音声取得装置250を4つ組み合わせた例について説明をする。4つの音声取得装置250を組み合わせると、対向する受信器254と発信器255との間で、発信器識別子の送受信が行われる。そして、受信器254は、発信器識別子を受信すると、制御部252の制御に応じて、受信した発信器識別子を記憶部251の対応情報の受信情報に記憶する。
(Operation example)
Here, an operation example using the
また、そのように組み合わせられた音声取得装置250に、参加者が着席した場合を考える。ここでは、4名の参加者が着席するものとする。参加者が着席すると、参加者の保有するバッチホルダの音源識別子発信器から、音声取得装置250の受信器254に音源識別子が送信される。受信された音源識別子は、制御部252の制御に応じて、記憶部251の対応情報の受信情報に記憶される。
Further, consider a case where a participant is seated on the
このようにして、収集された対応情報を図14〜図17にそれぞれ示す。図14〜図17は、音声取得装置250において取得された、対応情報を示す説明図である。
The correspondence information collected in this way is shown in FIGS. 14-17 is explanatory drawing which shows the correspondence information acquired in the audio |
図14は、音声取得装置250aについてのものである。音声取得装置識別子2102、マイク識別子2104、発信器識別子2106、受信器識別子2108が予め記憶されており、受信情報2110に、それぞれ対応する受信器254が受信した情報が格納されている。
FIG. 14 is for the
以下、それぞれ、図15は250b、図16は250c、図17は250dについての対応情報を示す。このように収集された対応情報は、対応情報作成装置260へ送信される。
In the following, FIG. 15 shows correspondence information for 250b, FIG. 16 for 250c, and FIG. 17 for 250d. The correspondence information collected in this way is transmitted to the correspondence
それぞれの音声取得装置250において収集された対応情報が、対応情報作成装置260において受信されると、対応情報作成装置260は、予め保持している、机の形状、構成、及び参加者に割り当てられた音源識別子の情報を用いて、音声取得装置250の配置状況、及び、参加者の着席状況を把握することが可能である。即ち、どの音源の音声をどのマイクロホンによって取得しているかを把握することが可能である。
When the correspondence information collected by each
即ち、対応情報作成装置260は、図14〜図17の対応情報を用いて、図18のような配置で音声取得装置が配置されていること、参加者が着席している位置、及び、参加者が着席している位置に対応するマイクロホンを把握することも可能である。図18は、対応情報作成装置260において認識される音声取得装置の配置例を示す説明図である。
That is, the correspondence
このような状況において、撮像装置240が撮影した映像を見ながら、情報処理装置210の表示画面上から音声制御をする際の動作について、図19及び図20を用いて説明する。図19は、本発明の第2の実施形態に係る情報処理システムの音声制御について説明するための説明図である。図20は、本発明の第2の実施形態に係る情報処理システム200の音声調整のマイク特定フローを示すサブフローチャートである。
In such a situation, an operation when performing voice control from the display screen of the
音声調整の全体の流れについては、図6において説明した内容と同様であるため、説明を省略する。マイク特定フローについてのみ相違するため、図6のステップS104のサブフローチャートである図20に示したマイク特定フローについて説明する。前提として、情報処理装置210は、音声取得装置250の配置が行われたとき、又は、参加者が着席したときなどの、対応情報が更新されたときに、対応情報作成装置260から対応情報を取得しているものとする。
The overall flow of the audio adjustment is the same as that described with reference to FIG. Since only the microphone specifying flow is different, the microphone specifying flow shown in FIG. 20 which is a sub-flowchart of step S104 of FIG. 6 will be described. As a premise, the
図19において、ユーザは、音声を調整したい対象を画面上において指差すようにタッチする。ここでは、参加者40の音声を調整する場合について考える。参加者40を指差すようにタッチすると、指差した座標位置が取得される。そして、情報処理装置210の制御部214は、座標位置入力時の画像を取得する(S302)。そして、制御部214は、取得された画像から、座標位置に最も近い認識コードを検索する(S304)。
In FIG. 19, the user touches the target whose sound is to be adjusted to point on the screen. Here, the case where the audio | voice of the
次に、対応情報から認識コードに対応する机を特定する(S306)。具体的には、ステップS304において検索された認識コード700を読取ると、各机に付与された音声取得装置識別子「250d」を取得することが出来る。そして、特定された机の対応情報の中から、音源識別子を受信した受信器を特定する(S308)。図17を参照すると、音声取得装置250dの中で、音源識別子を受信しているのは、受信器2542dであることがわかる。
Next, the desk corresponding to the recognition code is identified from the correspondence information (S306). Specifically, when the
そして、この特定された受信器2542dに対応するマイクロホンを特定する(S310)。ここでは、図17を参照すると、対応するマイク識別子は230kであることがわかる。
Then, the microphone corresponding to the specified
このようにして、操作画面上の位置から、音声調整対象のマイクロホンを特定し、確実に所望のマイクロホンの調整を実行することが可能である。 In this way, it is possible to specify the microphone to be adjusted from the position on the operation screen, and reliably execute the desired microphone adjustment.
このとき、例えば、特定された机(または、複数台のマイク230からなるマイクセット)に2名以上の参加者が座っている場合には、制御部214は、双方の調整インタフェースを表示させるようにしてもよい。
At this time, for example, when two or more participants are sitting on the specified desk (or a microphone set including a plurality of microphones 230), the
(効果の例)
以上説明したように、本発明の第2の実施形態に係る情報処理システムによると、予めユーザが対応情報を設定することなく、自動的に対応情報を収集し、マイクロホンの特定をすることが出来る。そして特定されたマイクロホンに対して、映像を見ながら音声の調整を実行することが出来るようになる。
(Example of effects)
As described above, according to the information processing system according to the second embodiment of the present invention, the user can automatically collect the correspondence information and specify the microphone without setting the correspondence information in advance. . Then, it becomes possible to perform audio adjustment on the identified microphone while viewing the video.
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されないことは言うまでもない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても当然に本発明の技術的範囲に属するものと了解される。 As mentioned above, although preferred embodiment of this invention was described in detail, referring an accompanying drawing, it cannot be overemphasized that this invention is not limited to this example. It is obvious that a person having ordinary knowledge in the technical field to which the present invention pertains can come up with various changes or modifications within the scope of the technical idea described in the claims. Of course, it is understood that these also belong to the technical scope of the present invention.
例えば、上記第1の実施形態では、固定マイクを用いたが、かかる例に限定されない。例えば、ピンマイクを用いてもよく、その場合には、参加者の着席位置に応じてピンマイクの位置が決まるため、そのエリア情報と予め対応づけておく必要がある。 For example, in the first embodiment, a fixed microphone is used, but the present invention is not limited to this example. For example, a pin microphone may be used, and in this case, the position of the pin microphone is determined according to the seating position of the participant, and therefore it is necessary to associate the area information with the area information in advance.
また、例えば、本実施形態においては、表示部の上にタッチパネル式の座標入力部を積層した表示入力部を有する構成としたが、これに限られない。例えば、表示部は、スクリーンに映しだすプロジェクタに接続するインタフェースであってもよい。この場合、例えばマウスなどの入力装置を用いてもよい。 For example, in this embodiment, although it was set as the structure which has a display input part which laminated | stacked the touch-panel type coordinate input part on the display part, it is not restricted to this. For example, the display unit may be an interface connected to a projector that projects on a screen. In this case, an input device such as a mouse may be used.
また、例えば、上記第2の実施形態においては、音声取得装置は、二等辺三角形形状の机であることとしたが、この形状は限定されない。受信器、送信器、及びマイクロホンが一対となり、机の参加者が座る位置に配置されるものであればよい。 Further, for example, in the second embodiment, the sound acquisition device is a desk with an isosceles triangle shape, but this shape is not limited. A receiver, a transmitter, and a microphone may be paired and arranged at a position where a desk participant sits.
また、例えば、上記第2の実施形態においては、音源識別子は、参加者が身につけるバッチホルダから発信されるものとしたが、かかる例に限られない。例えば、プロジェクタなどの音源となりうる装置にそれぞれ音源識別子が付与され、装置に音源識別子発信器を設けてもよい。その場合、音声取得装置の受信器の配置、又は、通信方式を工夫する必要がある。例えば、プロジェクタのファンの音がうるさい場合に、かかる音量を下げるために用いることが出来る。 Further, for example, in the second embodiment, the sound source identifier is transmitted from the batch holder worn by the participant, but is not limited to this example. For example, a sound source identifier may be assigned to each device that can be a sound source such as a projector, and a sound source identifier transmitter may be provided in the device. In that case, it is necessary to devise the arrangement of the receiver of the voice acquisition device or the communication method. For example, when the sound of a projector fan is loud, it can be used to reduce the volume.
また、例えば、上記第2の実施形態においては、受信器及び発信器は、赤外線を用いたものとしたがこれに限られない。例えば、音波を用いたドップラーセンサ、ZigBee(登録商標)ノード等を用いて信号の送受信を行ってもよい。 For example, in the second embodiment, the receiver and the transmitter use infrared rays, but the present invention is not limited to this. For example, signals may be transmitted and received using a Doppler sensor using a sound wave, a ZigBee (registered trademark) node, or the like.
また、例えば、上記第2の実施形態においては、認識コードは、音声取得装置の上面にのみ埋め込まれているものとしたが、これに限られない。例えば、側面や、机の脚など、表面全体に埋め込まれているものであってもよい。 Further, for example, in the second embodiment, the recognition code is embedded only in the upper surface of the voice acquisition device, but is not limited thereto. For example, it may be embedded in the entire surface such as a side surface or a desk leg.
また、例えば、上記第2の実施形態においては、情報処理装置は、対応情報に更新がある度に、対応情報を、対応情報作成装置から取得しているものとしたが、これに限られない。例えば、マイク特定処理を行う前に対応情報を取得してもよい。 For example, in the second embodiment, the information processing apparatus acquires the correspondence information from the correspondence information creation apparatus every time the correspondence information is updated. However, the present invention is not limited to this. . For example, the correspondence information may be acquired before performing the microphone identification process.
また、上記第2の実施形態においては、認識コード700は、音声取得装置識別子を示す場合を例に挙げて説明するが、かかる例に限定されない。例えば、認識コード700は複数台のマイク230を一組としたマイクセットを識別する識別子の場合でも良い。例えば、図10に示すように、マイク230a〜cを一組としたマイクセットを例示できる。かかる場合、音声取得装置250に複数台のマイクセットを備えることができる。なお、この場合、例えば、音声取得装置250の表面のうち、第1のマイクセットの備わる周辺部には認識コード700aが表示され、第2のマイクセットの備わる周辺部には認識コード700bが表示される。また、認識コード700は、マイクロホン1台1台のそれぞれを識別するものであってもよい。この場合には、認識コードから音声取得装置を識別し、マイクロホンと紐付けることなく、認識コードから直接マイクロホンを特定することが出来る。
In the second embodiment, the
尚、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的に又は個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。 In this specification, the steps described in the flowcharts are executed in parallel or individually even if they are not necessarily processed in time series, as well as processes performed in time series in the described order. Including processing to be performed. Further, it goes without saying that the order can be appropriately changed even in the steps processed in time series.
110 情報処理装置
113 座標入力部
114 制御部
115 表示部
116 音声出力部
120 音声処理装置
130 マイクロホン
140 撮像装置
DESCRIPTION OF
Claims (7)
撮影により映像を取得する撮像装置と、
前記複数のマイクロホンによって取得された音声を処理する音声処理装置と、
前記映像及び前記音声処理装置において処理された音声を出力し、前記音声処理装置に対して音声制御情報を出力する情報処理装置と、
を備え、
前記音声取得装置は、
音源識別子を受信する受信器を有し、
前記音声取得装置の表面には、音声取得装置を識別するための音声取得装置識別子が埋め込まれた認識コードが表示され、
前記情報処理装置は、
映像を表示する表示部と、
前記表示部の表示画面上の座標位置を入力する座標入力部と、
前記座標入力部によって入力された座標位置付近に音声調整インタフェースを前記映像に重ねて前記表示部に表示させ、前記映像中の前記認識コードから前記音声取得装置識別子を読取り、読取られた前記音声取得装置識別子及び記憶部に記憶された対応情報に基づいて、前記映像中の前記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、当該特定されたマイク識別子及び前記音声調整インタフェースに対する前記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を出力する制御部と、
を有し、
前記対応情報は、前記音声取得装置識別子、音源に予め付与された前記音源識別子、前記受信器に付与された受信器識別子、及び前記マイク識別子の対応関係を収集して生成される、情報処理システム。 An audio acquisition device comprising a plurality of microphones;
An imaging device for acquiring video by shooting ;
An audio processing device for processing audio acquired by the plurality of microphones;
An information processing device that outputs the video and sound processed in the sound processing device, and outputs sound control information to the sound processing device;
With
The voice acquisition device
A receiver for receiving the sound source identifier;
On the surface of the voice acquisition device, a recognition code embedded with a voice acquisition device identifier for identifying the voice acquisition device is displayed,
The information processing apparatus includes:
A display unit for displaying images;
A coordinate input unit for inputting a coordinate position on the display screen of the display unit;
An audio adjustment interface is superimposed on the video and displayed on the display unit in the vicinity of the coordinate position input by the coordinate input unit, the audio acquisition device identifier is read from the recognition code in the video, and the read audio acquisition Based on the device identifier and the correspondence information stored in the storage unit, the microphone identifier of the microphone that acquires the sound at the position corresponding to the coordinate position in the video is identified, and the identified microphone identifier and the sound adjustment interface A control unit for outputting voice control information including voice processing information according to an input from the coordinate input unit for
I have a,
The correspondence information is generated by collecting correspondence relationships among the sound acquisition device identifier, the sound source identifier given in advance to the sound source, the receiver identifier given to the receiver, and the microphone identifier. .
前記受信器は、前記音声取得装置の側面に設置され、
前記受信器は、人が身につけた、音源識別子発信器から前記音源識別子を受信する、
請求項1に記載の情報処理システム。 The voice acquisition device has a desk shape,
The receiver is installed on a side surface of the voice acquisition device,
The receiver receives the sound source identifier from a sound source identifier transmitter worn by a person;
The information processing system according to claim 1 .
前記発信器は、他の音声取得装置と組み合わせられた場合に、他の音声取得装置の受信器と対向するよう配置され、
前記受信器は、前記音源識別子又は前記発信器識別子のいずれかを受信し、
複数の前記音声取得装置の対応情報を取得し、前記複数の音声取得装置の配置を認識する対応情報作成装置をさらに備える、請求項2に記載の情報処理システム。 The voice acquisition device further includes a transmitter that transmits its own transmitter identifier,
When the transmitter is combined with another voice acquisition device, the transmitter is arranged to face the receiver of the other voice acquisition device,
The receiver receives either the sound source identifier or the transmitter identifier;
The information processing system according to claim 2 , further comprising a correspondence information creation device that acquires correspondence information of the plurality of voice acquisition devices and recognizes an arrangement of the plurality of voice acquisition devices.
前記マイクロホンから入力された音声にマイク識別子を付与するマイク識別子付与部と、
前記音声に付与されたマイク識別子と、前記音声制御情報とに基づいて、前記音声を処理する音声ミキサと、
を有する、請求項1または2に記載の情報処理システム。 The voice processing device
A microphone identifier giving unit for giving a microphone identifier to the sound input from the microphone;
An audio mixer that processes the audio based on the microphone identifier assigned to the audio and the audio control information;
The a, an information processing system according to claim 1 or 2.
前記映像を表示する表示部と、
前記表示部の表示画面上の座標位置を入力する座標入力部と、
前記座標入力部によって入力された座標位置付近に音声調整インタフェースを前記映像に重ねて前記表示部に表示させ、前記映像中の前記音声取得装置の表面に表示される認識コードから音声取得装置識別子を読取り、読取られた前記音声取得装置識別子及び内部又は外部の記憶部に記憶された対応情報に基づいて、前記映像中の前記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び前記音声調整インタフェースに対する前記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を音声処理装置に対して出力する制御部と、
を備え、 前記対応情報は、前記音声取得装置識別子、音源に予め付与された音源識別子、前記音声取得装置が備える受信器に付与された受信器識別子、及び前記マイク識別子の対応関係である、情報処理装置。 An information processing apparatus that acquires and outputs audio acquired by a plurality of microphones provided in an audio acquisition apparatus and video acquired by an imaging apparatus by shooting ,
A display unit for displaying the video;
A coordinate input unit for inputting a coordinate position on the display screen of the display unit;
An audio adjustment interface is superimposed on the video and displayed on the display unit in the vicinity of the coordinate position input by the coordinate input unit, and an audio acquisition device identifier is obtained from a recognition code displayed on the surface of the audio acquisition device in the video. The microphone identifier of the microphone that acquires the audio at the position corresponding to the coordinate position in the video is specified based on the read voice identifier and the correspondence information stored in the internal or external storage unit. A control unit that outputs audio control information including audio processing information corresponding to the input from the coordinate input unit to the specified microphone identifier and the audio adjustment interface to the audio processing device ;
The correspondence information is a correspondence relationship between the sound acquisition device identifier, a sound source identifier previously assigned to a sound source, a receiver identifier assigned to a receiver included in the sound acquisition device, and the microphone identifier. Processing equipment.
前記制御部が、
前記座標入力部によって入力された座標位置付近に音声調整インタフェースを前記映像に重ねて前記表示部に表示させ、前記映像中の音声取得装置の表面に表示される認識コードから音声取得装置識別子を読取り、読取られた前記音声取得装置識別子及び内部又は外部の記憶部に記憶された対応情報に基づいて、前記映像中の前記座標位置に対応する位置の音声を取得するマイクロホンのマイク識別子を特定し、特定されたマイク識別子及び前記音声調整インタフェースに対する前記座標入力部からの入力に応じた音声処理情報を含む音声制御情報を音声処理装置に対して出力し、
前記対応情報は、前記音声取得装置識別子、音源に予め付与された音源識別子、前記音声取得装置が備える受信器に付与された受信器識別子、及び前記マイク識別子の対応関係である、情報処理方法。
A method by an information processing apparatus comprising: a display unit that displays an image; a coordinate input unit that inputs a coordinate position on a display screen of the display unit; and a control unit,
The control unit is
A voice adjustment interface is superimposed on the video and displayed on the display unit near the coordinate position input by the coordinate input unit, and the voice acquisition device identifier is read from the recognition code displayed on the surface of the voice acquisition device in the video. Identifying a microphone identifier of a microphone that acquires sound at a position corresponding to the coordinate position in the video based on the read sound acquisition device identifier and correspondence information stored in an internal or external storage unit; the audio control information including a sound processing information corresponding to the input from the coordinate input unit for the identified microphone identifier and the audio adjustment interface outputs to the audio processor,
The information processing method , wherein the correspondence information is a correspondence relationship between the sound acquisition device identifier, a sound source identifier previously assigned to a sound source, a receiver identifier assigned to a receiver included in the sound acquisition device, and the microphone identifier .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009177718A JP5493551B2 (en) | 2009-07-30 | 2009-07-30 | Information processing system, information processing apparatus, and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009177718A JP5493551B2 (en) | 2009-07-30 | 2009-07-30 | Information processing system, information processing apparatus, and information processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011035524A JP2011035524A (en) | 2011-02-17 |
JP5493551B2 true JP5493551B2 (en) | 2014-05-14 |
Family
ID=43764188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009177718A Expired - Fee Related JP5493551B2 (en) | 2009-07-30 | 2009-07-30 | Information processing system, information processing apparatus, and information processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5493551B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015069136A (en) * | 2013-09-30 | 2015-04-13 | 株式会社ナカヨ | Communication conference device having sound volume adjustment function for each speaker |
WO2018055898A1 (en) * | 2016-09-23 | 2018-03-29 | ソニー株式会社 | Information processing device and information processing method |
WO2018198790A1 (en) * | 2017-04-26 | 2018-11-01 | ソニー株式会社 | Communication device, communication method, program, and telepresence system |
JP2019062448A (en) | 2017-09-27 | 2019-04-18 | カシオ計算機株式会社 | Image processing apparatus, image processing method, and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4228010B2 (en) * | 2006-09-29 | 2009-02-25 | Necエンジニアリング株式会社 | Video conferencing equipment |
JP4735640B2 (en) * | 2007-11-19 | 2011-07-27 | ヤマハ株式会社 | Audio conference system |
JP2009147763A (en) * | 2007-12-14 | 2009-07-02 | Brother Ind Ltd | Sound volume adjusting device, speech apparatus, sound volume adjusting device control program, and sound volume adjusting system |
-
2009
- 2009-07-30 JP JP2009177718A patent/JP5493551B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011035524A (en) | 2011-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11803055B2 (en) | Sedentary virtual reality method and systems | |
US10440322B2 (en) | Automated configuration of behavior of a telepresence system based on spatial detection of telepresence components | |
US20040254982A1 (en) | Receiving system for video conferencing system | |
US20120216129A1 (en) | Method and apparatus for providing an immersive meeting experience for remote meeting participants | |
US20110085016A1 (en) | Device, computer program product and method for providing touch control of a video conference | |
KR20150085032A (en) | Methods and apparatuses for providing tangible control of sound | |
CN104380721A (en) | Video-conference terminal device, video-conference system, image distortion correction method, and image distortion correction processing program product | |
US20160070346A1 (en) | Multi vantage point player with wearable display | |
JP5493551B2 (en) | Information processing system, information processing apparatus, and information processing method | |
US20200053395A1 (en) | Video distribution system, user terminal device, and video distribution method | |
JP2004129071A (en) | Two-way communication system | |
WO2014172907A1 (en) | Video conference processing method and device | |
JP2013115527A (en) | Video conference system and video conference method | |
US20150208018A1 (en) | Sensor means for television receiver | |
US20230269482A1 (en) | Information processing system, communication system, and image sharing method | |
US20230308762A1 (en) | Display terminal, information processing system, communication system, displaying method, information processing method, communication method, and recording medium | |
JP2023130822A (en) | Apparatus system, imaging apparatus, and display method | |
CN107038656A (en) | System and method are provided using the electronic menu of sonic transmissions | |
JP2016010039A (en) | Remote conference system, video processing method, video controller, conference terminal, and program thereof | |
JP4766696B2 (en) | Interface device and interface system | |
US20230368399A1 (en) | Display terminal, communication system, and non-transitory recording medium | |
US20230269481A1 (en) | Information processing system, communication system, and image transmission method | |
US20230308764A1 (en) | Display terminal, communication system, method for displaying, method for communicating, and recording medium | |
US20230308622A1 (en) | Display terminal, displaying method, and recording medium | |
US20230326001A1 (en) | Display terminal, display method, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120515 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130416 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5493551 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |