JP2017092675A - Information processing apparatus, conference system, information processing method, and program - Google Patents
Information processing apparatus, conference system, information processing method, and program Download PDFInfo
- Publication number
- JP2017092675A JP2017092675A JP2015219495A JP2015219495A JP2017092675A JP 2017092675 A JP2017092675 A JP 2017092675A JP 2015219495 A JP2015219495 A JP 2015219495A JP 2015219495 A JP2015219495 A JP 2015219495A JP 2017092675 A JP2017092675 A JP 2017092675A
- Authority
- JP
- Japan
- Prior art keywords
- user
- unit
- video
- information
- role
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、情報処理装置、会議システム、情報処理方法およびプログラムに関する。 The present invention relates to an information processing apparatus, a conference system, an information processing method, and a program.
遠隔地との間で、インターネット等の通信ネットワークを介して遠隔会議を行うビデオ会議システムが普及している。このビデオ会議システムにおいては、遠隔会議(ビデオ会議)を行う参加者等の当事者の一方がいる会議室において、ビデオ会議システムの端末装置を用いて会議室の参加者等の画像(映像)を撮像し、かつ、発話による音声を入力し、映像データおよび音声データを相手方の端末装置に送信する。そして、相手方の会議室のディスプレイに表示し、かつ、スピーカにより音声出力して、実際の会議に近い状態で遠隔地間の会議を実現している。 Video conferencing systems that conduct remote conferences with remote locations via a communication network such as the Internet have become widespread. In this video conference system, an image (video) of a participant in the conference room is taken using a terminal device of the video conference system in a conference room where one of the parties such as a participant conducting a remote conference (video conference) exists. In addition, the voice of the utterance is input, and the video data and the voice data are transmitted to the other party's terminal device. And it displays on the display of the other party's conference room, and outputs a voice by a speaker, thereby realizing a conference between remote locations in a state close to the actual conference.
また、ビデオ会議システムでは、会議の参加者の音声を取得するためにマイクを、映像を取得するためにカメラを使用している。ただし、カメラには画角があるため、カメラの画角外にいる参加者の映像は撮影することができない。この問題を解決するために、360度全方向を撮影することができるパノラマカメラを用いる方法が知られている。一方、マイクは、通常、無指向性のため、参加者の発話以外の周囲の音も集音してしまう。この問題を解決するため、マイクアレイを使用してマイクの集音範囲に指向性をもたせることにより、周囲の音の集音を抑え、参加者の発話を効率よく集音する方法が知られている。 In the video conference system, a microphone is used to acquire the voice of the conference participant and a camera is used to acquire the video. However, since the camera has an angle of view, it is not possible to take pictures of participants outside the angle of view of the camera. In order to solve this problem, a method using a panoramic camera capable of photographing 360 degrees in all directions is known. On the other hand, since the microphone is usually omnidirectional, ambient sounds other than the participant's utterance are also collected. In order to solve this problem, there is a known method for collecting sound from participants by efficiently collecting sound from surrounding sounds by using a microphone array to provide directivity to the sound collection range of the microphone. Yes.
このような、ビデオ会議システムとして、会議時における参加者の配置パターンを予め記憶しておき、会議開始時に端末装置に予め記憶されている配置パターンから、参加者の配置パターンに合致したものを選択し、会議端末は、選択された配置パターンに基づいてマイクアレイの集音方向を設定する技術が開示されている(特許文献1)。 As such a video conferencing system, the arrangement pattern of participants at the time of the conference is stored in advance, and the arrangement pattern pre-stored in the terminal device at the start of the meeting is selected according to the arrangement pattern of the participants In the conference terminal, a technique for setting the sound collection direction of the microphone array based on the selected arrangement pattern is disclosed (Patent Document 1).
しかしながら、特許文献1に記載された技術では、例えば、複数の参加者が同時に発話している場合等、それぞれの参加者のいずれの者の映像(画像)をクローズアップ(映像の切り出し)すればよいのかシステム上判別できず、意図通りに映像が切り替わらないという問題点がある。
However, in the technique described in
本発明は、上記に鑑みてなされたものであって、会議に参加している利用者について、意図通りに利用者の映像をクローズアップすることができる情報処理装置、会議システム、情報処理方法およびプログラムを提供することを目的とする。 The present invention has been made in view of the above, and an information processing apparatus, a conference system, an information processing method, and an information processing apparatus that can close up a user's video as intended for users participating in a conference. The purpose is to provide a program.
上述した課題を解決し、目的を達成するために、本発明は、情報処理装置であって、映像を撮像する撮像部と、音声を入力する入力部と、前記撮像部により撮像された前記映像から利用者を認識する認識部と、前記撮像部により撮像された前記映像において、前記認識部により認識された利用者が前記情報処理装置に対してどの方向に配置されているかを示す配置パターンを特定する特定部と、少なくとも利用者を示す情報と、該利用者を示す情報に関連付けられた利用者の役割と、を含む第1情報を取得する取得部と、前記認識部により認識された利用者に対応する前記第1情報の役割と、役割と優先度とを予め関連付けた第2情報と、に基づいて、該利用者に対して、該利用者の役割に対応する優先度を設定する設定部と、前記入力部により複数の方向から音声が入力されている場合、前記複数の方向の中で前記配置パターンで特定される利用者の方向のうち、優先度が高い役割を有する利用者の方向を優先して、該方向に対応する該利用者を含む映像領域を前記映像から切り出す切出部と、前記切出部により切り出された前記映像領域を送信する送信部と、を備えたことを特徴とする。 In order to solve the above-described problems and achieve the object, the present invention is an information processing apparatus, which is an imaging unit that captures an image, an input unit that inputs audio, and the image captured by the imaging unit A recognizing unit for recognizing the user from the image, and an arrangement pattern indicating in which direction the user recognized by the recognizing unit is arranged with respect to the information processing apparatus in the video imaged by the imaging unit. An acquisition unit that acquires first information including an identification unit to be identified, information indicating at least a user, and a role of the user associated with the information indicating the user, and a use recognized by the recognition unit The priority corresponding to the role of the user is set for the user based on the role of the first information corresponding to the user and the second information in which the role and the priority are associated in advance. In the setting part and the input part In the case where voice is input from a plurality of directions, priority is given to the direction of the user having a role with high priority among the directions of the users specified by the arrangement pattern in the plurality of directions. A cutout unit that cuts out a video area including the user corresponding to the direction from the video, and a transmission unit that transmits the video area cut out by the cutout unit.
本発明によれば、会議に参加している利用者について、意図通りに利用者の映像をクローズアップすることができる。 ADVANTAGE OF THE INVENTION According to this invention, a user's image | video can be closed up as intended about the user who has participated in the meeting.
以下に、図1〜10を参照しながら、本発明に係る情報処理装置、会議システム、情報処理方法およびプログラムの実施の形態を詳細に説明する。また、以下の実施の形態によって本発明が限定されるものではなく、以下の実施の形態における構成要素には、当業者が容易に想到できるもの、実質的に同一のもの、およびいわゆる均等の範囲のものが含まれる。さらに、以下の実施の形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換、変更および組み合わせを行うことができる。 Hereinafter, embodiments of an information processing apparatus, a conference system, an information processing method, and a program according to the present invention will be described in detail with reference to FIGS. In addition, the present invention is not limited by the following embodiments, and constituent elements in the following embodiments are easily conceivable by those skilled in the art, substantially the same, and so-called equivalent ranges. Is included. Furthermore, various omissions, substitutions, changes, and combinations of the constituent elements can be made without departing from the scope of the following embodiments.
(会議システムの構成)
図1は、実施の形態に係る会議システムの全体構成の一例を示す図である。図1を参照しながら、本実施の形態に係る会議システム1の構成について説明する。
(Conference system configuration)
FIG. 1 is a diagram illustrating an example of the overall configuration of a conference system according to an embodiment. The configuration of the
図1に示すように、本実施の形態に係る会議システム1は、2以上の情報処理装置(情報処理装置10a、10b、・・・)と、会議サーバ20と、予約サーバ30と、を含む。情報処理装置10a、10bは、それぞれインターネット等のネットワーク2を介して、会議サーバ20および予約サーバ30と通信可能となっている。
As shown in FIG. 1, the
情報処理装置10a、10bは、他の情報処理装置との間で、会議サーバ20の制御に基づいて、セッションを確立し、確立したセッションを介して、音声データおよび映像データを送受信する会議端末装置である。これにより、会議システム1において、複数の情報処理装置(10a、10b、・・・)間のビデオ会議(以下、単に「会議」という場合がある)が実現される。なお、図1に示す1以上の情報処理装置(10a、10b、・・・)について、任意の情報処理装置を示す場合、または総称する場合、単に「情報処理装置10」と称するものとする。
The
会議サーバ20は、各情報処理装置10が会議サーバ20と接続しているか否かのモニタリング、会議開始時に各情報処理装置10の呼び出し制御、および会議時の情報処理の制御を行うサーバ装置である。
The
予約サーバ30は、会議を主催する利用者等が、事前に、会議情報(開催日時、開催場所、参加する利用者、役割、使用する情報処理装置等)を登録(予約)しておくサーバ装置である。会議情報については、後述する図4で説明する。また、予約サーバ30は、後述する図5および6にそれぞれ示す優先度設定テーブル1002および顔認識特徴情報テーブル1003を記憶している。各テーブルの詳細については後述する。なお、予約サーバ30は、例えば、管理PC(Personal Computer)等がネットワーク2を介して接続されており、上述の会議情報の登録、および優先度設定テーブル1002および顔認識特徴情報テーブル1003の追加および更新等の設定ができるものとしてもよい。
The reservation server 30 is a server device in which a user or the like who hosts the conference registers (reserves) the conference information (the date and time, the venue, the participating user, the role, the information processing device to be used, etc.) in advance. It is. The meeting information will be described later with reference to FIG. The reservation server 30 stores a priority setting table 1002 and a face recognition feature information table 1003 shown in FIGS. 5 and 6 to be described later. Details of each table will be described later. The reservation server 30 is connected to, for example, a management PC (Personal Computer) via the
なお、図1に示す会議システム1の構成は一例であり、例えば、会議サーバ20および予約サーバ30は別々のサーバ装置としているが、これに限定されるものではなく、1つのサーバ装置で構成されるものとしてもよい。
The configuration of the
(情報処理装置のハードウェア構成)
図2は、実施の形態に係る情報処理装置のハードウェア構成の一例を示す図である。図3は、実施の形態に係る情報処理装置の複数のマイクの配置およびパノラマカメラの配置の一例を示す図である。図2および3を参照しながら、本実施の形態に係る情報処理装置10のハードウェア構成の詳細について説明する。
(Hardware configuration of information processing device)
FIG. 2 is a diagram illustrating an example of a hardware configuration of the information processing apparatus according to the embodiment. FIG. 3 is a diagram illustrating an example of the arrangement of a plurality of microphones and the arrangement of a panoramic camera of the information processing apparatus according to the embodiment. Details of the hardware configuration of the
図2に示すように、本実施の形態に係る情報処理装置10は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、補助記憶装置204と、メディアドライブ205と、操作ボタン206と、電源スイッチ207と、ネットワークI/F208と、撮像素子I/F209と、パノラマカメラ210と、音声I/F211と、マイクアレイ212と、スピーカ213と、出力I/F214と、外部機器I/F216と、を備えている。
As shown in FIG. 2, the
CPU201は、情報処理装置10全体の動作を制御する集積回路である。ROM202は、情報処理装置10用のファームウェア等のプログラムを記憶している不揮発性の記憶装置である。RAM203は、CPU201のワークエリアとして使用される揮発性の記憶装置である。
The
補助記憶装置204は、情報処理装置10の動作を実現する各種プログラム、ならびに映像データおよび音声データ等の各種データを記憶する不揮発性の記憶装置である。補助記憶装置204は、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等である。
The auxiliary storage device 204 is a non-volatile storage device that stores various programs for realizing the operation of the
メディアドライブ205は、フラッシュメモリ等である記録メディア205aに対するデータの読み出しおよび書き込みを制御する装置である。
The media drive 205 is a device that controls reading and writing of data with respect to a
操作ボタン206は、情報処理装置10に対する設定操作等を行うためのボタンである。電源スイッチ207は、情報処理装置10の電源のON/OFFを切り替えるスイッチである。
The operation button 206 is a button for performing a setting operation or the like for the
ネットワークI/F208は、ネットワーク2を利用してデータを通信するためのインターフェースである。ネットワークI/F208は、例えば、NIC(Network Interface Card)等である。撮像素子I/F209は、CPU201の制御に従って被写体を撮像して映像データを得るパノラマカメラ210との間で映像データを伝送するためのインターフェースである。
The network I / F 208 is an interface for communicating data using the
パノラマカメラ210は、レンズ、および光を電荷に変換して被写体の画像(映像)をデジタルデータ化する固体撮像素子を含む撮像装置である。パノラマカメラ210は、周囲360度の映像データを取得する。このように、360度の映像データを取得することにより、情報処理装置10の周囲にいる会議に参加する利用者を全て撮像することが可能となる。パノラマカメラ210は、撮像素子I/F209に接続される。固体撮像素子としては、CMOS(Complementary Metal Oxide Semiconductor)またはCCD(Charge Coupled Device)等が用いられる。また、パノラマカメラ210は、例えば、図3に示すように、情報処理装置10の上面の中央部等に設置される。
The
音声I/F211は、CPU201の制御に従って、音声を入力するマイクアレイ212および音声を出力するスピーカ213との間で音声信号の入出力を処理するインターフェースである。マイクアレイ212は、会議に参加している利用者の音声を入力する集音装置である。マイクアレイ212は、複数のマイクを有し、CPU201の制御に従って、集音方向を任意に設定する指向性制御を実現することができる。スピーカ213は、CPU201の制御に従って、音声を出力する装置である。マイクアレイ212およびスピーカ213は、それぞれ音声I/F211に接続される。また、マイクアレイ212は、例えば、図3に示すように、6つのマイク(212a〜212f)を有する。マイク212a〜212fは、例えば、図3に示すように、情報処理装置10の筐体の上面に分散して配置される。これらのマイク212a〜212fは、CPU201の制御に従って、入力動作の有効または無効の切り替え、または、それぞれが入力した音声を増幅するゲイン等を切り替えることによって、周囲360度の任意の方向または範囲の音声を集音することができる。なお、マイクアレイ212は、図3に示すように6つのマイクで構成されることに限定されるものではなく、複数のマイクを有するものとすればよい。また、マイクアレイ212の各マイクは、図3に示すように、情報処理装置10の筐体に分散して配置されるものとしているが、これに限定されるものではなく、マイク212a〜212fを有するマイクアレイ212のユニットが、情報処理装置10の筐体とは別体として構成されているものとしてもよい。
The audio I / F 211 is an interface that processes input / output of audio signals between the
出力I/F214は、CPU201の制御に従って、外付けの表示装置215に映像データを伝送するためのインターフェースである。外部機器接続I/F216は、USB(Universal Serial Bus)ケーブル等によって、外付けカメラ、外付けマイクおよび外付けスピーカ等の外部機器がそれぞれ電気的に接続可能なインターフェースである。
The output I /
表示装置215は、会議に参加している他拠点の利用者の映像を表示する表示装置である。表示装置215は、例えば、CRT(Cathode Ray Tube)ディスプレイ、LCD(Liquid Crystal Display:液晶ディスプレイ)、または有機EL(Organic Electro−Luminescence)ディスプレイ等である。表示装置215は、ケーブル215aによって出力I/F214に接続される。ケーブル215aは、アナログRGB(VGA)信号用のケーブルであってもよく、コンポーネントビデオ用のケーブルであってもよく、HDMI(登録商標)(High−Definition Multimedia Interface)またはDVI(Digital Video Interactive)信号用のケーブルであってもよい。
The
上述のCPU201、ROM202、RAM203、補助記憶装置204、メディアドライブ205、操作ボタン206、電源スイッチ207、ネットワークI/F208、撮像素子I/F209、音声I/F211、出力I/F214、および外部機器I/F216は、アドレスバスおよびデータバス等のバス217によって互いに通信可能に接続されている。
なお、情報処理装置10のハードウェア構成は、図2に示す構成に限定されるものではない。例えば、メディアドライブ205は備えていなくてもよい。
Note that the hardware configuration of the
(各種情報テーブル)
図4は、実施の形態の会議情報テーブルの構成の一例を示す図である。図4を参照しながら、予約サーバ30が記憶する会議情報テーブル1001について説明する。
(Various information tables)
FIG. 4 is a diagram illustrating an example of a configuration of a conference information table according to the embodiment. The conference information table 1001 stored in the reservation server 30 will be described with reference to FIG.
図1に示す予約サーバ30は、上述のように、登録された会議情報を管理するため会議情報テーブル1001を記憶している。図4に示すように、会議情報テーブル1001では、例えば、会議情報を識別する会議識別情報毎に、開催日時、開催場所、利用者を識別する利用者識別情報、役割、およびその会議で使用される使用端末(情報処理装置10)が、それぞれ関連付けられて管理されている。ここで、役割とは、会議に参加する利用者に割り当てられるその会議における役割である。例えば、役割として、議長、議事録(議事録をとる利用者)、板書(板書する利用者)、ならびに、議長、議事録および板書以外の通常の参加者等が挙げられる。また、使用端末とは、例えば、その会議室で使用される会議端末(情報処理装置10)に一意に識別する識別情報である。 The reservation server 30 shown in FIG. 1 stores a conference information table 1001 for managing registered conference information as described above. As shown in FIG. 4, in the conference information table 1001, for example, for each conference identification information for identifying conference information, the date and time of the conference, the location, the user identification information for identifying the user, the role, and the conference are used. Used terminals (information processing apparatus 10) are managed in association with each other. Here, the role is a role in the conference assigned to a user who participates in the conference. For example, the role includes a chairperson, minutes (users who take minutes), board (users who make board), and normal participants other than the chair, minutes, and board. The used terminal is, for example, identification information that uniquely identifies a conference terminal (information processing apparatus 10) used in the conference room.
例えば、図4に示す会議情報テーブル1001では、会議識別情報が「002」である会議情報としては、開催日時が「2015/11/14 09:30」、開催場所が「会議室2−F」、利用者識別情報が「10507,20311」、役割が「議長,参加者」、使用端末が「VD5011」であることが示されている。 For example, in the conference information table 1001 shown in FIG. 4, as the conference information whose conference identification information is “002”, the date and time of the meeting is “2015/11/14 09:30” and the meeting place is “Meeting room 2-F”. The user identification information is “10507, 20311”, the role is “chairperson, participant”, and the terminal used is “VD5011”.
なお、図4に示す会議情報テーブル1001は、テーブル形式の情報としているが、これに限定されるものではなく、テーブルの各フィールドの値が互いに関連付けて管理することができれば、どのような形式の情報であってもよい。 Note that the conference information table 1001 shown in FIG. 4 is information in a table format, but is not limited to this, and any format can be used as long as the values of the fields of the table can be managed in association with each other. It may be information.
図5は、実施の形態の優先度設定テーブルの構成の一例を示す図である。図5を参照しながら、予約サーバ30が記憶する優先度設定テーブル1002について説明する。 FIG. 5 is a diagram illustrating an example of a configuration of a priority setting table according to the embodiment. The priority setting table 1002 stored in the reservation server 30 will be described with reference to FIG.
図1に示す予約サーバ30は、役割に対する優先度を管理する優先度設定テーブル1002(第2情報の一例)を記憶している。図5に示すように、優先度設定テーブル1002では、会議の役割毎に優先度が関連付けられて管理されている。ここで、優先度とは、会議中にパノラマカメラ210によって撮像された映像データにおいて、それぞれの役割が割り当てられた利用者の映像の切り出しをするための優先順位を決める値である。
The reservation server 30 shown in FIG. 1 stores a priority setting table 1002 (an example of second information) for managing priorities for roles. As shown in FIG. 5, in the priority setting table 1002, the priority is associated with each role of the conference and managed. Here, the priority is a value that determines a priority order for cutting out the video of the user assigned to each role in the video data captured by the
例えば、図5に示す優先度設定テーブル1002では、役割である「議長」、「議事録」、「参加者」、「ホワイトボード」および「その他」は、それぞれ、優先度として「3」、「2」、「1」、「4」および「0」が割り当てられている。図5の例では、優先度の値が大きいほど、優先度が高いことを示す。すなわち、図5に示す優先度設定テーブル1002では、役割「ホワイトボード」の優先度が「4」で最も高く、役割「その他」の優先度が「0」で最も小さいことを示す。 For example, in the priority setting table 1002 shown in FIG. 5, the roles “chairman”, “minutes”, “participants”, “whiteboard”, and “others” have priority “3”, “ “2”, “1”, “4” and “0” are assigned. In the example of FIG. 5, the higher the priority value, the higher the priority. That is, the priority setting table 1002 shown in FIG. 5 indicates that the priority of the role “whiteboard” is the highest at “4” and the priority of the role “other” is the lowest at “0”.
なお、図5に示す優先度設定テーブル1002は、テーブル形式の情報としているが、これに限定されるものではなく、役割と優先度とが互いに関連付けて管理することができれば、どのような形式の情報であってもよい。 The priority setting table 1002 shown in FIG. 5 is information in a table format, but is not limited to this, and any format can be used as long as roles and priorities can be managed in association with each other. It may be information.
図6は、実施の形態の顔認識特徴情報テーブルの構成の一例を示す図である。図6を参照しながら、予約サーバ30が記憶する顔認識特徴情報テーブル1003について説明する。 FIG. 6 is a diagram illustrating an example of a configuration of a face recognition feature information table according to the embodiment. The face recognition feature information table 1003 stored in the reservation server 30 will be described with reference to FIG.
図1に示す予約サーバ30は、利用者に対応する顔画像の特徴情報を管理する顔認識特徴情報テーブル1003を記憶している。図6に示すように、顔認識特徴情報テーブル1003では、利用者を識別する利用者識別情報毎に、その利用者の顔画像の特徴情報が関連付けられて管理されている。ここで、利用者の顔画像の特徴情報とは、例えば、利用者の顔の輪郭、目、鼻、あご、およびほお骨等の各パーツの形状および相対位置等を含む情報であり、パノラマカメラ210により撮像された画像から利用者の顔を認識するための情報である。 The reservation server 30 shown in FIG. 1 stores a face recognition feature information table 1003 for managing feature information of face images corresponding to users. As shown in FIG. 6, in the face recognition feature information table 1003, feature information of the face image of the user is managed in association with each piece of user identification information for identifying the user. Here, the feature information of the user's face image is information including, for example, the contour of the user's face, the shape and relative position of each part such as the eyes, nose, chin, and cheekbone. This is information for recognizing the user's face from the image picked up by.
例えば、図6に示す顔認識特徴情報テーブル1003では、利用者識別情報「20391」に対して、特徴情報「{72,123,−3,・・・,−110、56,219}」が関連付けられている。 For example, in the face recognition feature information table 1003 shown in FIG. 6, feature information “{72, 123, −3,..., −110, 56, 219}” is associated with the user identification information “20391”. It has been.
(情報処理装置の機能ブロック構成)
図7は、実施の形態に係る情報処理装置の機能ブロック構成の一例を示す図である。図8は、会議に参加する利用者の配置例を示す図である。図7および8を参照しながら、本実施の形態に係る情報処理装置10の機能ブロック構成の詳細について説明する。
(Function block configuration of information processing device)
FIG. 7 is a diagram illustrating an example of a functional block configuration of the information processing apparatus according to the embodiment. FIG. 8 is a diagram illustrating an arrangement example of users participating in the conference. Details of the functional block configuration of the
図7に示すように、本実施の形態に係る情報処理装置10は、取得部101と、認識部102と、特定部103と、切出部104と、切替部105と、設定部106と、送信部107と、受信部108と、撮像制御部109と、表示制御部110と、音声出力制御部111と、入力部112と、記憶部113と、操作部114と、通信部115と、撮像部116と、表示部117と、音声出力部118と、を有する。
As shown in FIG. 7, the
取得部101は、通信部115およびネットワーク2を介して、予約サーバ30から会議情報(第1情報)を取得する機能部である。具体的には、取得部101は、例えば、会議情報を取得するための取得要求、ならびに、会議の開催日時、開催場所および使用端末の情報を、通信部115およびネットワーク2を介して予約サーバ30に送信する。そして、予約サーバ30は、取得要求を受信すると、図4に示す会議情報テーブル1001を参照し、受信した開催日時、開催場所および使用端末に対応する利用者識別情報および役割を、ネットワーク2および通信部115を介して、取得部101に送信する。取得部101は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The
認識部102は、撮像部116により撮像された画像に含まれる1以上の利用者の顔画像から利用者を認識(以下、「顔認識」という場合がある)する機能部である。具体的には、認識部102は、例えば、まず、撮像部116により撮像された画像に含まれる1以上の利用者の顔画像から、顔の輪郭、目、鼻、あご、およびほお骨等の各パーツの形状および相対位置等を含む特徴情報を抽出する。次に、認識部102は、抽出した1以上の利用者分の特徴情報を、通信部115およびネットワーク2を介して予約サーバ30に送信する。そして、予約サーバ30は、認識部102より抽出された特徴情報を受信すると、図6に示す顔認識特徴情報テーブル1003を参照し、受信した特徴情報と一致する特徴情報に対応する利用者識別情報を、ネットワーク2および通信部115を介して、認識部102に送信する。認識部102は、利用者識別情報を受信することによって、会議に参加する利用者を認識する。すなわち、認識部102が受信した利用者識別情報が示す利用者が、実際に会議に参加する利用者ということになる。ここで、認識部102により抽出された特徴情報と、顔認識特徴情報テーブル1003に含まれる特徴情報とが一致するとは、2つの特徴情報が完全に一致した場合だけではなく、2つの特徴情報が実質的に同じ利用者を示す特徴情報と判断できる場合も含まれ得る。認識部102は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The
特定部103は、撮像部116によって撮像された画像において、認識部102により認識された利用者の位置を特定し、会議に参加する利用者の会議室における利用者の配置パターンを特定する機能部である。例えば、図8(a)に示す状況で、机40の上に載置された情報処理装置10の撮像部116により撮像された360度全方向の画像(以下、「パノラマ画像」という場合がある)において、特定部103は、認識部102によって認識された利用者60a〜60eについて、利用者60aが領域P1に、利用者60bが領域P2に、利用者60cが領域P3に、利用者60dが領域P5に、利用者60eが領域P6に、そして、ホワイトボード50が領域P7に位置することを示す配置パターンを特定する。また、図8(b)に示す状況で、撮像部116により撮像されたパノラマ画像において、特定部103は、認識部102によって認識された利用者61a〜61dについて、利用者61aが領域P2に、利用者61bが領域P3に、利用者61cが領域P4に、利用者61dが領域P5に、そして、ホワイトボード50が領域P7に位置することを示す配置パターンを特定する。すなわち、配置パターンを特定するということは、情報処理装置10に対してどの方向にどの利用者またはホワイトボードが配置されているかを特定することになる。特定部103は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。なお、配置パターンで情報処理装置10に対して配置された方向が特定される利用者およびホワイトボード等を「利用者等」という場合がある。
The
なお、ホワイトボード50の位置を特定するには、情報処理装置10を机40に設置した状態で、情報処理装置10とホワイトボード50との位置関係を予め記憶部113に記憶させておくものとしてもよい。または、認識部102が、利用者の顔のみではなく、ホワイトボード50の基準画像に基づくテンプレートマッチング等の公知の方法により、パノラマ画像においてホワイトボード50を認識するものとしてもよい。
In order to specify the position of the
また、撮像部116により撮像された画像を「パノラマ画像」という場合があるものとしたが、撮像部116により撮像する客体として映像を示す場合、「パノラマ映像」という場合があるものとする。ただし、映像は、画像を含む概念であるものとする。 In addition, an image captured by the imaging unit 116 is sometimes referred to as a “panoramic image”. However, when an image is shown as an object captured by the imaging unit 116, it may be referred to as a “panoramic image”. However, the video is a concept including an image.
切出部104は、利用者に割り当てられた役割に対応する優先度に基づいて、パノラマ映像から特定の利用者等(図8の例では、例えば、複数の利用者およびホワイトボード50のうちいずれか)の映像領域を切り出す機能部である。切出部104は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
Based on the priority corresponding to the role assigned to the user, the cutout unit 104 selects a specific user or the like from the panoramic video (in the example of FIG. 8, for example, any one of the plurality of users and the whiteboard 50). This is a functional part that cuts out the video area. The cutting unit 104 is realized, for example, when the
切替部105は、利用者に割り当てられた役割に対応する優先度に基づいて、入力部112の集音方向を特定の利用者等(図8の例では、例えば、複数の利用者およびホワイトボード50のうちいずれか)が位置する方向となるように切り替える機能部である。切替部105は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
Based on the priority corresponding to the role assigned to the user, the switching unit 105 changes the sound collection direction of the input unit 112 to a specific user or the like (in the example of FIG. 8, for example, a plurality of users and whiteboards). It is a functional unit that switches so that any one of 50) is located. The switching unit 105 is realized, for example, when the
設定部106は、利用者の操作入力を受け付けた操作部114からの操作情報に基づいて、または、取得部101により取得された会議情報に基づいて、認識部102により認識された利用者に対して、優先度を設定する機能部である。設定部106は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The
送信部107は、切出部104により切り出された映像領域に対応する映像データ、および、入力部112により入力された音声データを、通信部115およびネットワーク2を介して、他拠点の情報処理装置10に送信する機能部である。具体的には、送信部107は、例えば、映像データおよび音声データをエンコードして、他拠点の情報処理装置10に送信する。ここで、エンコードの方法としては、公知の方法を用いればよい。例えば、H.264/AVC、またはH.264/SVC等の圧縮符号化技術を用いればよい。送信部107は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The
受信部108は、ネットワーク2および通信部115を介して、他拠点の情報処理装置10から受信した映像データおよび音声データを受信する機能部である。具体的には、受信部108は、例えば、受信した映像データおよび音声データをデコードし、デコードした映像データを表示制御部110に送り、デコードした音声データを音声出力制御部111に送る。ここで、デコードの方法としては、公知の方法を用いればよい。受信部108は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The receiving unit 108 is a functional unit that receives video data and audio data received from the
撮像制御部109は、撮像部116の動作を制御する機能部である。具体的には、撮像制御部109は、例えば、撮像部116による撮像の開始および停止の動作等を制御し、撮像部116により撮像されたパノラマ画像を取得する。撮像制御部109は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The
表示制御部110は、表示部117に各種画像を表示させる制御を行う機能部である。表示制御部110は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The
音声出力制御部111は、音声出力部118に各種音声を出力させる制御を行う機能部である。音声出力制御部111は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
The audio output control unit 111 is a functional unit that controls the audio output unit 118 to output various types of audio. The audio output control unit 111 is realized, for example, when the
入力部112は、音声を入力する機能部である。入力部112は、切替部105の制御に従って、特定の集音方向の音声を入力する。入力部112は、例えば、図2に示すマイクアレイ212によって実現される。
The input unit 112 is a functional unit that inputs voice. The input unit 112 inputs sound in a specific sound collection direction according to the control of the switching unit 105. The input unit 112 is realized by, for example, the
記憶部113は、情報処理装置10の動作を実現する各種プログラム、映像データ、音声データ、および特定部103によって特定された配置パターン等の情報を記憶する機能部である。記憶部113は、例えば、図2に示すRAM203および補助記憶装置204によって実現される。
The
操作部114は、利用者(例えば、会議の参加者)の各種操作入力を受け付ける機能部である。操作部114は、例えば、図2に示す操作ボタン206および電源スイッチ207等によって実現される。なお、操作部114は、図2に示す操作ボタン206および電源スイッチ207に限定されるものではなく、マウス、キーボード、またはタッチパネル等によって実現されるものとしてもよい。 The operation unit 114 is a functional unit that receives various operation inputs of a user (for example, a participant in a conference). The operation unit 114 is realized by, for example, the operation button 206 and the power switch 207 shown in FIG. Note that the operation unit 114 is not limited to the operation button 206 and the power switch 207 illustrated in FIG. 2, and may be realized by a mouse, a keyboard, a touch panel, or the like.
通信部115は、ネットワーク2を介して、他の情報処理装置10、会議サーバ20および予約サーバ30とデータ通信をする機能部である。通信部115は、例えば、図2に示すネットワークI/F208によって実現される。
The communication unit 115 is a functional unit that performs data communication with the other
撮像部116は、360度全方向のパノラマ画像またはパノラマ映像を撮像する機能部である。撮像部116は、例えば、図2に示すパノラマカメラ210によって実現される。
The imaging unit 116 is a functional unit that captures panoramic images or panoramic images in all directions of 360 degrees. The imaging unit 116 is realized by, for example, the
表示部117は、表示制御部110の制御に従って、各種画像を表示する機能部である。表示部117は、例えば、図2に示す表示装置215によって実現される。
The display unit 117 is a functional unit that displays various images under the control of the
音声出力部118は、音声出力制御部111の制御に従って、各種音声を出力する機能部である。音声出力部118は、例えば、図2に示すスピーカ213によって実現される。
The sound output unit 118 is a functional unit that outputs various sounds according to the control of the sound output control unit 111. The audio output unit 118 is realized by, for example, the
なお、図7に示す情報処理装置10の取得部101、認識部102、特定部103、切出部104、切替部105、設定部106、送信部107、受信部108、撮像制御部109、表示制御部110、音声出力制御部111、入力部112、記憶部113、操作部114、通信部115、撮像部116、表示部117および音声出力部118は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図7に示す情報処理装置10で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図7に示す情報処理装置10で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
Note that the
また、情報処理装置10の取得部101、認識部102、特定部103、切出部104、切替部105、設定部106、送信部107、受信部108、撮像制御部109、表示制御部110および音声出力制御部111の一部または全部は、ソフトウェアであるプログラムではなく、FPGA(Field−Programmable Gate Array)またはASIC(Application Specific Integrated Circuit)等のハードウェア回路によって実現されてもよい。
In addition, the
(優先度設定処理)
図9は、実施の形態に係る情報処理装置の優先度設定処理の一例を示すフローチャートである。図9を参照しながら、本実施の形態に係る情報処理装置10の優先度設定処理の流れについて説明する。
(Priority setting process)
FIG. 9 is a flowchart illustrating an example of priority setting processing of the information processing apparatus according to the embodiment. With reference to FIG. 9, the flow of the priority setting process of the
<ステップS11>
まず、会議に参加しようとする利用者は、情報処理装置10の操作部114を操作して、情報処理装置10の電源をON状態にし、撮像部116によって周囲の画像(パノラマ画像)を撮像するための操作入力を行う。撮像制御部109は、操作部114からパノラマ画像を撮像するための操作情報を受け取ると、撮像部116にパノラマ画像を撮像させる。そして、ステップS12へ移行する。
<Step S11>
First, a user who wants to participate in the conference operates the operation unit 114 of the
<ステップS12>
認識部102は、撮像部116により撮像されたパノラマ画像に含まれる1以上の利用者の顔画像から、顔の輪郭、目、鼻、あご、およびほお骨等の各パーツの形状および相対位置等を含む特徴情報を抽出する。次に、認識部102は、抽出した1以上の利用者分の特徴情報を、通信部115およびネットワーク2を介して予約サーバ30に送信する。そして、予約サーバ30は、認識部102より抽出された特徴情報を受信すると、図6に示す顔認識特徴情報テーブル1003を参照し、受信した特徴情報と一致する特徴情報に対応する利用者識別情報を、ネットワーク2および通信部115を介して、認識部102に送信する。認識部102は、利用者識別情報を取得することによって、会議に参加する利用者を認識(顔認識)する。
<Step S12>
The recognizing
そして、特定部103は、撮像部116によって撮像されたパノラマ画像において、認識部102により認識された利用者の位置を特定し、会議に参加する利用者の会議室における利用者の配置パターンを特定する。特定部103は、特定した配置パターンの情報を、記憶部113に記憶させる。そして、ステップS13へ移行する。
The specifying
<ステップS13>
取得部101は、通信部115およびネットワーク2を介して、予約サーバ30から会議情報を取得する。具体的には、取得部101は、会議情報を取得するための取得要求、ならびに、会議の開催日時、開催場所および使用端末の情報を、通信部115およびネットワーク2を介して予約サーバ30に送信する。予約サーバ30は、取得要求を受信すると、図4に示す会議情報テーブル1001を参照し、受信した開催日時、開催場所および使用端末に対応する利用者識別情報および役割を、ネットワーク2および通信部115を介して、取得部101に送信する。そして、取得部101は、これから開催される会議の会議情報として、会議に参加する利用者の利用者識別情報および役割を取得する。これから開催される会議の会議情報が取得部101によって取得できた場合(ステップS13:Yes)、ステップS14へ移行し、取得できなかった場合(ステップS13:No)、ステップS15へ移行する。
<Step S13>
The
<ステップS14>
設定部106は、取得部101により取得された会議情報のうちの役割に対応する優先度を取得するための取得要求、およびその役割の情報を、通信部115およびネットワーク2を介して予約サーバ30に送信する。予約サーバ30は、取得要求を受信すると、図5に示す優先度設定テーブル1002を参照し、受信した役割に対応する優先度を、ネットワーク2および通信部115を介して、設定部106に送信する。また、設定部106は、取得部101により取得された会議情報のうちの利用者識別情報と、認識部102による顔認識により取得された利用者識別情報(実際に会議に参加する利用者の利用者識別情報)とが一致する利用者に対応する役割に基づいて、その利用者に対して、受信した優先度を設定する。そして、ステップS18へ移行する。
<Step S14>
The
なお、取得部101により取得された会議情報のうちの利用者識別情報の中に、認識部102による顔認識により取得された利用者識別情報がない場合、すなわち、会議情報に登録されていない利用者が、実際の会議室に存在する場合、設定部106は、デフォルトの役割(例えば、「参加者」)を設定するものとすればよい。または、設定部106は、会議情報に登録されていない利用者は実際の会議に参加しないものと判断し、役割を「その他」に設定するものとしてもよい。または、会議情報に登録されていない利用者が、実際の会議室に存在する場合、利用者は、操作部114を介して、その登録されていない利用者に対して手動で役割の設定操作を行うものとしてもよい。
In addition, when the user identification information acquired by the face recognition by the
<ステップS15>
これから開催される会議の会議情報が取得部101によって取得できなかった場合に、利用者が、認識部102により顔認識された利用者に対して、操作部114から手動で役割を設定する操作入力を行った場合(ステップS15:Yes)、ステップS16へ移行する。一方、利用者が、認識部102により顔認識された利用者に対して、操作部114から手動で役割を設定する操作入力を行わなかった場合(ステップS15:No)、ステップS17へ移行する。
<Step S15>
An operation input in which the user manually sets a role from the operation unit 114 to the user whose face is recognized by the
<ステップS16>
設定部106は、利用者により操作部114から入力された役割の設定操作に基づいて、認識部102により顔認識された利用者に対して役割を設定し、その役割に対応する優先度を取得するための取得要求、およびその役割の情報を、通信部115およびネットワーク2を介して予約サーバ30に送信する。予約サーバ30は、取得要求を受信すると、図5に示す優先度設定テーブル1002を参照し、受信した役割に対応する優先度を、ネットワーク2および通信部115を介して、設定部106に送信する。また、設定部106は、認識部102により顔認識された利用者に対応する役割に基づいて、その利用者に対して、受信した優先度を設定する。そして、ステップS18へ移行する。
<Step S16>
The
<ステップS17>
設定部106は、デフォルトの役割設定に基づいて、認識部102により顔認識された利用者に対して役割を設定し、その役割に対応する優先度を取得するための取得要求、およびその役割の情報を、通信部115およびネットワーク2を介して予約サーバ30に送信する。予約サーバ30は、取得要求を受信すると、図5に示す優先度設定テーブル1002を参照し、受信した役割に対応する優先度を、ネットワーク2および通信部115を介して、設定部106に送信する。また、設定部106は、認識部102により顔認識された利用者に対応する役割に基づいて、その利用者に対して、受信した優先度を設定する。ここで、デフォルトの役割設定とは、例えば、図8に示す領域P1に存在する利用者に対して優先的に役割を「議長」に設定し、領域P2に存在する利用者に対して優先的に役割を「議事録」に設定し、領域P6に存在する利用者に対して優先的に役割を「板書」に設定し、その他の利用者の役割を「参加者」に設定する、というような予め定められた役割の設定である。そして、ステップS18へ移行する。
<Step S17>
The
<ステップS18>
情報処理装置10は、設定部106によって、顔認識がされた利用者に対して役割および優先度が設定された後、ビデオ会議を開始する。具体的には、情報処理装置10は、後述する図10に示す集音動作および映像切り出し動作の処理に移行する。
<Step S18>
The
以上のステップS11〜S18の動作によって、情報処理装置10により優先度設定処理が実行される。
The priority setting process is executed by the
なお、図9に示す優先度設定処理においては、会議情報に基づいて役割および優先度を設定するか、利用者による役割設定操作に基づいて役割および優先度を設定するかについては、予約サーバ30の会議情報テーブル1001に、該当する会議情報の有無によって判定するものとしているが、これに限定されるものではない。例えば、情報処理装置10で手動モードおよび自動モードのいずれかを設定できるようにし、手動モードの場合は、予約サーバ30の会議情報テーブル1001を参照せず、利用者の役割設定操作により設定し、自動モードの場合は、予約サーバ30の会議情報テーブル1001を参照して設定するものとしてもよい。
In the priority setting process shown in FIG. 9, whether the role and priority are set based on the conference information or whether the role and priority is set based on the role setting operation by the user is determined by the reservation server 30. The conference information table 1001 is determined based on the presence / absence of corresponding conference information, but is not limited to this. For example, the
また、図9に示す優先度設定処理のうち、ステップS11〜S17の処理は、会議中においても、所定時間ごとに、または、所定の条件を充足した場合に再実行するものとしてもよい。所定の条件を充足した場合とは、例えば、撮像部116により撮像されているパノラマ映像において、認識部102が顔認識した利用者の位置が移動した場合、前回に認識部102により顔認識した利用者がいなくなった場合、または、前回に認識部102により顔認識した利用者以外の利用者が顔認識された場合等が挙げられる。
In addition, among the priority setting processes shown in FIG. 9, the processes in steps S11 to S17 may be re-executed every predetermined time or when a predetermined condition is satisfied even during the meeting. When the predetermined condition is satisfied, for example, when the position of the user whose face is recognized by the
(集音動作および映像切り出し動作)
図10は、実施の形態に係る情報処理装置の集音動作および映像切り出し動作の流れの一例を示すフローチャートである。図10を参照しながら、本実施の形態に係る情報処理装置10の集音動作および映像切り出し動作の流れについて説明する。
(Sound collection operation and video cut-out operation)
FIG. 10 is a flowchart illustrating an example of the flow of the sound collection operation and video cutout operation of the information processing apparatus according to the embodiment. With reference to FIG. 10, the flow of the sound collection operation and video cutout operation of the
<ステップS31>
まず、切替部105は、入力部112の集音方向を360度全方向になるように切り替える。そして、ステップS32へ移行する。
<Step S31>
First, the switching unit 105 switches the sound collection direction of the input unit 112 to be 360 degrees in all directions. Then, the process proceeds to step S32.
<ステップS32>
切出部104は、特定部103により特定された配置パターンで配置方向が定まった利用者等のうち、優先度が最も高い役割を有する利用者等の映像領域を、撮像部116により撮像されているパノラマ映像から切り出す。例えば、優先度設定テーブル1002が図5に示す内容に設定されている場合、役割「ホワイトボード」の優先度が「4」で最も高いので、切出部104は、配置パターンで配置方向が定まっているホワイトボードを含む映像領域をパノラマ映像から切り出す。そして、ステップ33へ移行する。
<Step S32>
The clipping unit 104 captures an image area of a user having a role with the highest priority among the users whose arrangement direction is determined by the arrangement pattern specified by the specifying
なお、このステップS32で、切出部104は、優先度が最も高い役割を有する利用者等の映像領域を切り出すものとしているが、これに限定されるものではない。例えば、どの利用者等を切り出しの対象とするかについての設定を、優先度とは別個独立に設定するものとしてもよい。 In step S32, the cutout unit 104 cuts out a video area of a user or the like having a role with the highest priority. However, the present invention is not limited to this. For example, the setting as to which user or the like is to be cut out may be set independently of the priority.
<ステップS33>
送信部107は、切出部104により切り出された映像領域に対応する映像データをエンコードし、通信部115およびネットワーク2を介して、他拠点の情報処理装置10に送信する。そして、ステップS34へ移行する。
<Step S33>
The
<ステップS34>
入力部112は、音声の入力の受け付けを開始する。そして、ステップS35へ移行する。
<Step S34>
The input unit 112 starts accepting voice input. Then, the process proceeds to step S35.
<ステップS35>
情報処理装置10は、ビデオ会議が終了したか否かを判定する。例えば、情報処理装置10は、利用者が操作部114から会議終了のための操作を行ったか否かを判定する。ビデオ会議が終了した場合(ステップS35:Yes)、集音動作および映像切り出し動作を終了し、ビデオ会議が終了していない場合(ステップS35:No)、ステップS36へ移行する。
<Step S35>
The
<ステップS36>
入力部112により音声が入力された場合(ステップS36:Yes)、ステップS37へ移行し、入力部112により音声が入力されない場合(ステップS36:No)、ステップS31へ戻る。
<Step S36>
When the voice is input by the input unit 112 (step S36: Yes), the process proceeds to step S37, and when the voice is not input by the input unit 112 (step S36: No), the process returns to step S31.
<ステップS37>
入力部112は、入力した音声が複数の方向からの音声か否かを判定する。入力部112により複数の方向からの音声が入力された場合(ステップS37:Yes)、ステップS38へ移行し、入力部112により1の方向からの音声が入力された場合(ステップS37:No)、ステップS40へ移行する。
<Step S37>
The input unit 112 determines whether or not the input sound is sound from a plurality of directions. When audio from a plurality of directions is input by the input unit 112 (step S37: Yes), the process proceeds to step S38, and when audio from one direction is input by the input unit 112 (step S37: No), Control goes to step S40.
<ステップS38>
入力部112により複数の方向からの音声が入力されている場合、切替部105は、特定部103により特定された利用者等の配置パターンから、複数の方向に対応する利用者を特定し、特定した利用者のうち最も優先度の高い役割を有する利用者の方向に、入力部112の集音方向を切り替える。
<Step S38>
When voices from a plurality of directions are input by the input unit 112, the switching unit 105 identifies and identifies users corresponding to a plurality of directions from the arrangement pattern of the users and the like identified by the identifying
ここで、例えば、切替部105によって、特定の利用者の方向に入力部112の集音方向が切り替えられた後、入力部112により新たな方向から音声が入力された場合、切替部105は、現在の入力部112の集音方向に対応する利用者の役割の優先度と、新たな方向に対応する利用者の役割の優先度とを比較し、優先度が高い役割を有する利用者の方向に、入力部112の集音方向を切り替えるものとすればよい。これは、後述する、ステップS40でも同様である。 Here, for example, when the sound collection direction of the input unit 112 is switched to the direction of a specific user by the switching unit 105 and then a sound is input from a new direction by the input unit 112, the switching unit 105 The direction of the user having a role with a higher priority by comparing the priority of the role of the user corresponding to the sound collection direction of the current input unit 112 with the priority of the role of the user corresponding to the new direction. In addition, the sound collection direction of the input unit 112 may be switched. The same applies to step S40 described later.
なお、切替部105は、特定した利用者のうち最も優先度の高い役割を有する利用者の方向に、入力部112の集音方向を切り替えるものとしたが、これに限定されるものではない。すなわち、切替部105は、特定した利用者のうち、他の利用者の役割の優先度よりも高い優先度の役割を有する利用者の方向を優先して、入力部112の集音方向を切り替えるものとしてもよい。 Note that although the switching unit 105 switches the sound collection direction of the input unit 112 to the direction of the user having the highest priority among the identified users, the present invention is not limited to this. That is, the switching unit 105 switches the sound collection direction of the input unit 112 with priority given to the direction of a user having a higher priority role than the priority of other user roles among the identified users. It may be a thing.
また、切替部105は、配置パターンから特定した、複数の方向に対応する利用者がそれぞれ有する役割の優先度が等しい場合、例えば、等しい優先度の役割を有する利用者のうち、ランダムに決定した利用者の方向に、入力部112の集音方向を切り替えるものとすればよい。または、切替部105は、等しい優先度の役割を有する利用者のうち、先に入力部112により音声が入力された利用者の方向を優先して、入力部112の集音方向を切り替えるものとしてもよい。 In addition, when the priority of the roles that the users corresponding to a plurality of directions specified by the arrangement pattern have the same priority, for example, the switching unit 105 is determined randomly among the users having the roles of the same priority, for example. What is necessary is just to switch the sound collection direction of the input part 112 to a user's direction. Alternatively, the switching unit 105 switches the sound collection direction of the input unit 112 with priority given to the direction of the user whose voice has been input first by the input unit 112 among the users having equal priority roles. Also good.
入力部112は、切替部105により切り替えられた集音方向からの音声を入力する。そして、ステップS39へ移行する。 The input unit 112 inputs sound from the sound collection direction switched by the switching unit 105. Then, the process proceeds to step S39.
<ステップS39>
切出部104は、撮像部116により撮像されているパノラマ映像から、切替部105により切り替えられた集音方向に対応する利用者を含む映像領域を切り出す。そして、ステップS42へ移行する。
<Step S39>
The cutout unit 104 cuts out a video area including the user corresponding to the sound collection direction switched by the switching unit 105 from the panoramic video captured by the imaging unit 116. Then, the process proceeds to step S42.
<ステップS40>
入力部112により1の方向からの音声が入力されている場合、切替部105は、特定部103により特定された利用者等の配置パターンから、1の方向に対応する利用者を特定し、特定した利用者の方向に、入力部112の集音方向を切り替える。入力部112は、切替部105により切り替えられた集音方向からの音声を入力する。そして、ステップS41へ移行する。
<Step S40>
When the voice from one direction is input by the input unit 112, the switching unit 105 identifies and identifies the user corresponding to the one direction from the arrangement pattern of the users and the like identified by the identifying
なお、切替部105は、配置パターンにより特定した1の方向に対応する利用者の役割およびその優先度が、例えば、図5に示す優先度設定テーブル1002のように、それぞれ「その他」および「0」となっている場合は、その利用者は会議に参加しないと判定し、その利用者の方向に集音方向を切り替えない、すなわち、その利用者が発話する音声を集音させないものとしてもよい。この場合、後述のステップS41でも、切出部104は、その利用者を含む映像領域をパノラマ映像から切り出さないものとすればよい。 Note that the switching unit 105 determines that the role of the user corresponding to the one direction specified by the arrangement pattern and the priority thereof are “other” and “0” as in the priority setting table 1002 shown in FIG. ”, It is determined that the user does not participate in the conference, and the sound collection direction is not switched to the direction of the user, that is, the sound uttered by the user may not be collected. . In this case, the cutout unit 104 may not cut out the video area including the user from the panoramic video also in step S41 described later.
<ステップS41>
切出部104は、撮像部116により撮像されているパノラマ映像から、切替部105により切り替えられた集音方向に対応する利用者を含む映像領域を切り出す。そして、ステップS42へ移行する。
<Step S41>
The cutout unit 104 cuts out a video area including the user corresponding to the sound collection direction switched by the switching unit 105 from the panoramic video captured by the imaging unit 116. Then, the process proceeds to step S42.
<ステップS42>
送信部107は、切出部104により切り出された映像領域に対応する映像データ、および、入力部112により入力された音声データをエンコードし、通信部115およびネットワーク2を介して、他拠点の情報処理装置10に送信する。そして、ステップS35へ戻り、動作が繰り返される。
<Step S42>
The
以上のステップS31〜S42の動作によって、情報処理装置10により集音動作および映像切り出し動作が実行される。
Through the operations in steps S31 to S42 described above, the
以上のように、本実施の形態に係る情報処理装置10では、ビデオ会議に参加する利用者等に対して、予め役割および優先度を設定し、複数の利用者が発話した場合には、優先度が高い役割を有する利用者の方向に、入力部112の集音方向を切り替え、パノラマ画像から集音方向に対応する利用者を含む映像領域を切り出すものとしている。そして、送信部107は、切出部104により切り出された映像領域に対応する映像データ、および、入力部112により入力された音声データをエンコードし、他拠点の情報処理装置10に送信するものとしている。これによって、会議中に複数の利用者が同時に発話している場合でも、優先度の高い利用者の音声を集音し、その利用者を含む画像を切り出して、他拠点の情報処理装置10に送信するので、会議に参加している利用者について、意図通りに利用者の映像をクローズアップすることができる。
As described above, in the
また、予約サーバ30に予め会議情報を登録しておくので、会議に参加する利用者の役割を改めて設定する必要がなく、手間を省くことができ、会議をスムーズに開始することができる。 Further, since the conference information is registered in advance in the reservation server 30, it is not necessary to set the role of the user who participates in the conference again, so that labor can be saved and the conference can be started smoothly.
また、会議の開始前に、撮像部116がパノラマ画像を撮像し、認識部102が会議に参加する利用者を認識し、特定部103が利用者の配置パターンを特定しておくので、会議中に毎回、顔認識および配置パターンの特定等の動作を行う必要がなく、CPU201の負荷を軽減することができる。
In addition, before the start of the conference, the imaging unit 116 captures a panoramic image, the
なお、撮像部116は、パノラマカメラ210によって実現されるものとし、パノラマ画像またはパノラマ映像を撮像するものとしたが、必ずしもこれに限定されるものではない。すなわち、撮像する範囲が360度全方向である必要がない等の場合、パノラマカメラを利用する必要はなく、例えば、必要な撮像範囲を網羅する画角を有する撮像装置(カメラ)であってもよい。この場合、撮像装置が撮像可能な画角の範囲で、映像の切り出し、および集音方向の設定を行うものとすればよい。
In addition, although the imaging part 116 shall be implement | achieved by the
また、上述の実施の形態において、情報処理装置10の各機能部の少なくともいずれかがプログラムの実行によって実現される場合、そのプログラムは、ROM等に予め組み込まれて提供される。また、上述の実施の形態に係る情報処理装置10で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disc Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk−Recordable)、またはDVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記憶媒体に記憶して提供するように構成してもよい。また、上述の実施の形態の情報処理装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述の実施の形態の情報処理装置10で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。また、上述の実施の形態の情報処理装置10で実行されるプログラムは、上述した各機能部のうち少なくともいずれかを含むモジュール構成となっており、実際のハードウェアとしてはCPU201が上述の記憶装置(例えば、ROM202および補助記憶装置204等)からプログラムを読み出して実行することにより、上述の各機能部が主記憶装置(例えば、RAM203)上にロードされて生成されるようになっている。
In the above-described embodiment, when at least one of the functional units of the
1 会議システム
2 ネットワーク
10、10a、10b 情報処理装置
20 会議サーバ
30 予約サーバ
40 机
50 ホワイトボード
60a〜60e 利用者
61a〜61d 利用者
101 取得部
102 認識部
103 特定部
104 切出部
105 切替部
106 設定部
107 送信部
108 受信部
109 撮像制御部
110 表示制御部
111 音声出力制御部
112 入力部
113 記憶部
114 操作部
115 通信部
116 撮像部
117 表示部
118 音声出力部
201 CPU
202 ROM
203 RAM
204 補助記憶装置
205 メディアドライブ
205a 記録メディア
206 操作ボタン
207 電源スイッチ
208 ネットワークI/F
209 撮像素子I/F
210 パノラマカメラ
211 音声I/F
212 マイクアレイ
212a〜212f マイク
213 スピーカ
214 出力I/F
215 表示装置
215a ケーブル
216 外部機器I/F
217 バス
1001 会議情報テーブル
1002 優先度設定テーブル
1003 顔認識特徴情報テーブル
P1〜P7 領域
DESCRIPTION OF
202 ROM
203 RAM
204 Auxiliary storage device 205
209 Image sensor I / F
210 Panorama Camera 211 Audio I / F
212
215
217
Claims (12)
映像を撮像する撮像部と、
音声を入力する入力部と、
前記撮像部により撮像された前記映像から利用者を認識する認識部と、
前記撮像部により撮像された前記映像において、前記認識部により認識された利用者が前記情報処理装置に対してどの方向に配置されているかを示す配置パターンを特定する特定部と、
少なくとも利用者を示す情報と、該利用者を示す情報に関連付けられた利用者の役割と、を含む第1情報を取得する取得部と、
前記認識部により認識された利用者に対応する前記第1情報の役割と、役割と優先度とを予め関連付けた第2情報と、に基づいて、該利用者に対して、該利用者の役割に対応する優先度を設定する設定部と、
前記入力部により複数の方向から音声が入力されている場合、前記複数の方向の中で前記配置パターンで特定される利用者の方向のうち、優先度が高い役割を有する利用者の方向を優先して、該方向に対応する該利用者を含む映像領域を前記映像から切り出す切出部と、
前記切出部により切り出された前記映像領域を送信する送信部と、
を備えた情報処理装置。 An information processing apparatus,
An imaging unit for imaging video;
An input unit for inputting voice;
A recognition unit for recognizing a user from the video imaged by the imaging unit;
A specifying unit for specifying an arrangement pattern indicating a direction in which the user recognized by the recognition unit is arranged with respect to the information processing device in the video imaged by the imaging unit;
An acquisition unit that acquires first information including at least information indicating a user and a role of the user associated with the information indicating the user;
Based on the role of the first information corresponding to the user recognized by the recognition unit, and the second information in which the role and the priority are associated in advance, the user's role with respect to the user A setting unit for setting the priority corresponding to
When voice is input from a plurality of directions by the input unit, priority is given to the direction of a user having a higher priority among the user directions specified by the arrangement pattern in the plurality of directions. A cutout unit that cuts out a video area including the user corresponding to the direction from the video;
A transmission unit for transmitting the video region cut out by the cut-out unit;
An information processing apparatus comprising:
前記入力部により複数の方向から音声が入力されている場合、前記配置パターンから特定される該複数の方向の利用者のうち、最も優先度が高い役割を有する利用者の方向に、前記入力部の集音方向を切り替える切替部を、さらに備えた請求項1に記載の情報処理装置。 The input unit is capable of switching the direction of sound collection,
When voice is input from a plurality of directions by the input unit, among the users in the plurality of directions specified from the arrangement pattern, the input unit is set in the direction of the user having the highest priority role. The information processing apparatus according to claim 1, further comprising a switching unit that switches a sound collection direction of the sound.
前記切出部は、前記異なる方向に対応する利用者を含む映像領域を前記映像から切り出す請求項2に記載の情報処理装置。 The switching unit is a user corresponding to the different direction when sound is input from a direction different from the one direction in a state where the input unit is switched to the sound collection direction by the input unit. If the priority of the role of the user is higher than the priority of the role of the user corresponding to the one direction, the sound collection direction of the input unit is switched to the different direction,
The information processing apparatus according to claim 2, wherein the cutout unit cuts out a video region including a user corresponding to the different direction from the video.
前記切出部は、該集音方向に対応する利用者を含む映像領域を前記映像から切り出す請求項2に記載の情報処理装置。 When the voice is input from a plurality of directions by the input unit, and the roles of the users in the plurality of directions identified from the arrangement pattern are equal to each other, the switching unit Priority is given to the voice input to the input unit earlier, and the sound collection direction of the input unit is switched to the direction of the user corresponding to the voice.
The information processing apparatus according to claim 2, wherein the cutout unit cuts out a video area including a user corresponding to the sound collection direction from the video.
前記切出部は、該利用者を含む映像領域を前記映像から切り出さない請求項2に記載の情報処理装置。 The switching unit switches the sound collection direction of the input unit to the direction of the user when the priority of the role of the user corresponding to the voice input by the input unit is the lowest in the second information. Without
The information processing apparatus according to claim 2, wherein the cutout unit does not cut out a video area including the user from the video.
前記認識部は、前記撮像部により撮像された前記映像から利用者を認識し、
前記特定部は、前記配置パターンを特定し、
前記設定部は、前記認識部により認識された利用者に対応する前記第1情報の役割と、前記第2情報と、に基づいて、該利用者に対して、該利用者の役割に対応する優先度を設定する請求項1〜7のいずれか一項に記載の情報処理装置。 Every predetermined time
The recognition unit recognizes a user from the video imaged by the imaging unit,
The specifying unit specifies the arrangement pattern,
The setting unit corresponds to the role of the user with respect to the user based on the role of the first information corresponding to the user recognized by the recognition unit and the second information. The information processing apparatus according to claim 1, wherein the priority is set.
前記第1情報と、前記第2情報とを有するサーバ装置と、
を有する会議システム。 The information processing apparatus according to any one of claims 1 to 9,
A server device having the first information and the second information;
Conference system.
映像を撮像する撮像ステップと、
音声を入力する入力ステップと、
撮像した前記映像から利用者を認識する認識ステップと、
撮像した前記映像において、認識した利用者が前記情報処理装置に対してどの方向に配置されているかを示す配置パターンを特定する特定ステップと、
少なくとも利用者を示す情報と、該利用者を示す情報に関連付けられた利用者の役割と、を含む第1情報を取得する取得ステップと、
認識した利用者に対応する前記第1情報の役割と、役割と優先度とを予め関連付けた第2情報と、に基づいて、該利用者に対して、該利用者の役割に対応する優先度を設定する設定ステップと、
複数の方向から音声を入力している場合、前記複数の方向の中で前記配置パターンで特定される利用者の方向のうち、優先度が高い役割を有する利用者の方向を優先して、該方向に対応する該利用者を含む映像領域を前記映像から切り出す切出ステップと、
切り出した前記映像領域を送信する送信ステップと、
を有する情報処理方法。 An information processing method in an information processing apparatus,
An imaging step for imaging video;
An input step for inputting voice;
A recognition step for recognizing a user from the captured image;
A specific step of specifying an arrangement pattern indicating in which direction the recognized user is arranged with respect to the information processing device in the captured image;
An acquisition step of acquiring first information including at least information indicating a user and a role of the user associated with the information indicating the user;
Based on the role of the first information corresponding to the recognized user and the second information in which the role and the priority are associated in advance, the priority corresponding to the role of the user is given to the user. A setting step to set
When voice is input from a plurality of directions, the direction of the user having a role having a high priority among the directions of the users specified by the arrangement pattern among the plurality of directions is given priority, Cutting out a video region including the user corresponding to the direction from the video;
A transmission step of transmitting the cut out video area;
An information processing method comprising:
前記撮像部により撮像された前記映像から利用者を認識する認識ステップと、
前記撮像部により撮像された前記映像において、認識した利用者が前記情報処理装置に対してどの方向に配置されているかを示す配置パターンを特定する特定ステップと、
少なくとも利用者を示す情報と、該利用者を示す情報に関連付けられた利用者の役割と、を含む第1情報を取得する取得ステップと、
前記認識部により認識された利用者に対応する前記第1情報の役割と、役割と優先度とを予め関連付けた第2情報と、に基づいて、該利用者に対して、該利用者の役割に対応する優先度を設定する設定ステップと、
前記入力部により複数の方向から音声が入力されている場合、前記複数の方向の中で前記配置パターンで特定される利用者の方向のうち、優先度が高い役割を有する利用者の方向を優先して、該方向に対応する該利用者を含む映像領域を前記映像から切り出す切出ステップと、
切り出した前記映像領域を送信する送信ステップと、
を実行させるためのプログラム。 In a computer provided with a video section for capturing video and an input section for inputting sound,
A recognition step of recognizing a user from the video imaged by the imaging unit;
A specifying step of specifying an arrangement pattern indicating in which direction the recognized user is arranged with respect to the information processing device in the video imaged by the imaging unit;
An acquisition step of acquiring first information including at least information indicating a user and a role of the user associated with the information indicating the user;
Based on the role of the first information corresponding to the user recognized by the recognition unit, and the second information in which the role and the priority are associated in advance, the user's role with respect to the user A setting step for setting the priority corresponding to
When voice is input from a plurality of directions by the input unit, priority is given to the direction of a user having a higher priority among the user directions specified by the arrangement pattern in the plurality of directions. Cutting out a video region including the user corresponding to the direction from the video;
A transmission step of transmitting the cut out video area;
A program for running
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015219495A JP6544209B2 (en) | 2015-11-09 | 2015-11-09 | INFORMATION PROCESSING APPARATUS, CONFERENCE SYSTEM, INFORMATION PROCESSING METHOD, AND PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015219495A JP6544209B2 (en) | 2015-11-09 | 2015-11-09 | INFORMATION PROCESSING APPARATUS, CONFERENCE SYSTEM, INFORMATION PROCESSING METHOD, AND PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017092675A true JP2017092675A (en) | 2017-05-25 |
JP6544209B2 JP6544209B2 (en) | 2019-07-17 |
Family
ID=58770943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015219495A Active JP6544209B2 (en) | 2015-11-09 | 2015-11-09 | INFORMATION PROCESSING APPARATUS, CONFERENCE SYSTEM, INFORMATION PROCESSING METHOD, AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6544209B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6967735B1 (en) * | 2021-01-13 | 2021-11-17 | パナソニックIpマネジメント株式会社 | Signal processing equipment and signal processing system |
CN116567350A (en) * | 2023-05-19 | 2023-08-08 | 上海国威互娱文化科技有限公司 | Panoramic video data processing method and system |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05111020A (en) * | 1991-10-17 | 1993-04-30 | Matsushita Electric Ind Co Ltd | Picture switching control device for video conference |
JP2004118314A (en) * | 2002-09-24 | 2004-04-15 | Advanced Telecommunication Research Institute International | Utterer detection system and video conference system using same |
JP2007067972A (en) * | 2005-08-31 | 2007-03-15 | Canon Inc | Conference system and control method for conference system |
JP2007274463A (en) * | 2006-03-31 | 2007-10-18 | Yamaha Corp | Remote conference apparatus |
JP2011004007A (en) * | 2009-06-16 | 2011-01-06 | Ricoh Co Ltd | Television conference device, television conference method, and program for the same |
US20110285807A1 (en) * | 2010-05-18 | 2011-11-24 | Polycom, Inc. | Voice Tracking Camera with Speaker Identification |
-
2015
- 2015-11-09 JP JP2015219495A patent/JP6544209B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05111020A (en) * | 1991-10-17 | 1993-04-30 | Matsushita Electric Ind Co Ltd | Picture switching control device for video conference |
JP2004118314A (en) * | 2002-09-24 | 2004-04-15 | Advanced Telecommunication Research Institute International | Utterer detection system and video conference system using same |
JP2007067972A (en) * | 2005-08-31 | 2007-03-15 | Canon Inc | Conference system and control method for conference system |
JP2007274463A (en) * | 2006-03-31 | 2007-10-18 | Yamaha Corp | Remote conference apparatus |
JP2011004007A (en) * | 2009-06-16 | 2011-01-06 | Ricoh Co Ltd | Television conference device, television conference method, and program for the same |
US20110285807A1 (en) * | 2010-05-18 | 2011-11-24 | Polycom, Inc. | Voice Tracking Camera with Speaker Identification |
JP2011244456A (en) * | 2010-05-18 | 2011-12-01 | Polycom Inc | Voice tracking camera with speaker identification |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6967735B1 (en) * | 2021-01-13 | 2021-11-17 | パナソニックIpマネジメント株式会社 | Signal processing equipment and signal processing system |
JP2022108638A (en) * | 2021-01-13 | 2022-07-26 | パナソニックIpマネジメント株式会社 | Signal processing device and signal processing system |
CN116567350A (en) * | 2023-05-19 | 2023-08-08 | 上海国威互娱文化科技有限公司 | Panoramic video data processing method and system |
CN116567350B (en) * | 2023-05-19 | 2024-04-19 | 上海国威互娱文化科技有限公司 | Panoramic video data processing method and system |
Also Published As
Publication number | Publication date |
---|---|
JP6544209B2 (en) | 2019-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9860486B2 (en) | Communication apparatus, communication method, and communication system | |
CA2874715C (en) | Dynamic video and sound adjustment in a video conference | |
US9379783B2 (en) | Transmission system | |
US10142578B2 (en) | Method and system for communication | |
US10592191B2 (en) | Apparatus, system, and method of controlling display of image data in a network of multiple display terminals | |
CN108293104B (en) | Information processing system, wireless terminal, and information processing method | |
JP2009521186A (en) | Method and apparatus for providing user profiling based on facial recognition | |
US9699414B2 (en) | Information processing apparatus, information processing method, and computer program product | |
US10044782B2 (en) | Terminal device, data transmission method, and computer-readable recording medium | |
US10146496B2 (en) | Apparatus, system, and method of controlling display image, and recording medium | |
US20140354761A1 (en) | Method and system for associating an external device to a video conference session | |
JP2021016083A (en) | Communication system, information processing apparatus, communication method, and program | |
JP2017142610A (en) | Server device, transmission system and program | |
JP7135766B2 (en) | Communication system, program, terminal device | |
JP6149433B2 (en) | Video conference device, video conference device control method, and program | |
US9648276B2 (en) | Transmission management apparatus, transmission system, transmission management method and recording medium | |
CN114531564A (en) | Processing method and electronic equipment | |
JP6544209B2 (en) | INFORMATION PROCESSING APPARATUS, CONFERENCE SYSTEM, INFORMATION PROCESSING METHOD, AND PROGRAM | |
US20170034481A1 (en) | Imaging apparatus, medium, and method for imaging | |
CN113905204A (en) | Image display method, device, equipment and storage medium | |
JP2017103641A (en) | Information processing apparatus, conference system, information processing method and program | |
JP2017092950A (en) | Information processing apparatus, conference system, information processing method, and program | |
JP2015049602A (en) | Communication terminal, information processing device, communication system, and program | |
JP2017168903A (en) | Information processing apparatus, conference system, and method for controlling information processing apparatus | |
US10305939B2 (en) | Management system and method of starting communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181009 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190603 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6544209 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |