JP2023043497A - remote conference system - Google Patents

remote conference system Download PDF

Info

Publication number
JP2023043497A
JP2023043497A JP2021151164A JP2021151164A JP2023043497A JP 2023043497 A JP2023043497 A JP 2023043497A JP 2021151164 A JP2021151164 A JP 2021151164A JP 2021151164 A JP2021151164 A JP 2021151164A JP 2023043497 A JP2023043497 A JP 2023043497A
Authority
JP
Japan
Prior art keywords
remote conference
participant
participants
seat
remote
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021151164A
Other languages
Japanese (ja)
Inventor
竜太 田邨
Ryuta Tamura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2021151164A priority Critical patent/JP2023043497A/en
Publication of JP2023043497A publication Critical patent/JP2023043497A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

To provide a remote conference system that enables hearing utterance content of each speaker even when multiple participants speak at the same time during a remote conference.SOLUTION: A remote conference system 10 includes a remote conference server device 15 and remote conference client devices 11, 12, 13, 14. The remote conference server device 15 includes a seat determination unit 22. The remote conference server device 15 or remote conference client devices 11, 12, 13, 14 include sound field characteristic determination units 23 and speech synthesis units 24. The sound field characteristic determination unit 23 determines a sound field characteristic of an audio to be reproduced on each of the remote conference client devices 11, 12, 13, 14 separately for each of the remote conference client devices 11, 12, 13, 14. The speech synthesis unit 24 synthesizes the audio to be played on each of the remote conference client devices 11, 12, 13, 14 based on the sound field characteristics determined by the sound field characteristic determination unit 23.SELECTED DRAWING: Figure 2

Description

本発明は、リモート会議システムに関する。 The present invention relates to a remote conference system.

従来、リモート会議を実行するためのリモート会議システムとして、例えば、特許文献1に示すような多地点テレビ会議システムがある。特許文献1の多地点テレビ会議システムは、空間情報管理手段及び映像配置制御手段と、協同作業状態検出手段と、操作入力管理手段と、を備える。空間情報管理手段及び映像配置制御手段は、顔映像と協同作業映像の映像配置を管理する。協同作業状態検出手段は、協同作業手段の処理状態を検出する。操作入力管理手段は、協同作業手段が利用者からの入力として端末の別を指定する情報を待っている状態であることを検出した場合に利用者が顔映像領域に対して行ったポインティング操作を協同作業手段に対する端末指定の入力情報に変換する。 Conventionally, as a remote conference system for executing a remote conference, for example, there is a multipoint video conference system as disclosed in Patent Document 1. The multipoint video conference system of Patent Document 1 includes spatial information management means, video layout control means, collaborative work state detection means, and operation input management means. Spatial information management means and image layout control means manage the image layout of the face image and the collaborative work image. The cooperative work state detection means detects the processing state of the cooperative work means. The operation input management means controls the pointing operation performed by the user on the face image area when detecting that the collaborative work means is waiting for information specifying the type of terminal as input from the user. It is converted into terminal-specified input information for collaborative work means.

特開平8-205112号JP-A-8-205112

しかしながら、特許文献1の多地点テレビ会議システムでは、仮想的な会議空間における座席位置に応じて各参加者の画像を合成し、仮想的な会議室の画像を演出することは可能であるが、参加者が発する音声に対しては何ら作用を加えていないため、各参加者の音声音像が1点に集中する。そのため、特許文献1の多地点テレビ会議システムでは、実際の会議室とは異なり、複数の参加者が同時に発話した場合に、各参加者の発言内容が聞き取りにくいという問題があった。 However, in the multi-point video conference system of Patent Document 1, it is possible to produce an image of a virtual conference room by synthesizing the images of each participant according to the seat position in the virtual conference space. Since no action is applied to the voices uttered by the participants, the voice sound image of each participant concentrates on one point. Therefore, in the multi-point video conference system of Patent Document 1, unlike in an actual conference room, when a plurality of participants speak at the same time, there is a problem that it is difficult to hear the content of each participant's speech.

そこで、本発明は、リモート会議中に複数の参加者が同時に発言した場合であっても、個々の話者の発言内容を聞き取り可能なリモート会議システムを提供することを目的とする。 SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide a remote conference system in which even when a plurality of participants speak at the same time during a remote conference, the content of each speaker's speech can be heard.

上記目的を達成するために、本発明の一局面に係るリモート会議システムは、リモート会議サーバー装置と、リモート会議クライアント装置とを備える。前記リモート会議サーバー装置は、前記リモート会議を主催する。前記リモート会議クライアント装置は、前記リモート会議に参加する参加者の各々に割り当てられる。前記リモート会議サーバー装置は、座席決定部を含む。前記座席決定部は、前記リモート会議を行うリモート会議室における前記参加者の座席を決定する。前記リモート会議サーバー装置又は前記リモート会議クライアント装置は、音場特性決定部と、音声合成部とを含む。音場特性決定部は、前記座席決定部によって決定される各座席相互間での音場特性を決定する。音声合成部は、前記参加者に対して出力される音声を合成する。前記音場特性決定部は、前記各リモート会議クライアント装置で再生する音声の音場特性を、前記リモート会議クライアント装置毎に個別に決定する。前記音声合成部は、前記音場特性決定部によって決定された音場特性に基づいて、前記リモート会議クライアント装置の各々で再生する音声を合成する。 To achieve the above object, a remote conference system according to one aspect of the present invention includes a remote conference server device and a remote conference client device. The remote conference server device hosts the remote conference. The remote conference client device is assigned to each participant joining the remote conference. The remote conference server device includes a seat determiner. The seat determination unit determines the seats of the participants in the remote conference room where the remote conference is held. The remote conference server device or the remote conference client device includes a sound field characteristic determination section and a speech synthesis section. A sound field characteristic determination unit determines sound field characteristics between the seats determined by the seat determination unit. The voice synthesizing unit synthesizes voices to be output to the participants. The sound field characteristic determining unit individually determines, for each remote conference client apparatus, sound field characteristics of audio reproduced by each of the remote conference client apparatuses. The speech synthesizing unit synthesizes speech to be reproduced by each of the remote conference client devices based on the sound field characteristics determined by the sound field characteristics determining unit.

本発明によると、複数の参加者が同時に発言した場合であっても、個々の話者の発言内容を容易に聞き取ることができる。 According to the present invention, even when a plurality of participants speak at the same time, it is possible to easily hear the content of each speaker's speech.

本実施形態に係るリモート会議システムの全体概要を示す概要図である。1 is a schematic diagram showing an overall overview of a remote conference system according to an embodiment; FIG. 本実施形態に係るリモート会議システムの全体概要を示すシステム構成図である。1 is a system configuration diagram showing an overall overview of a remote conference system according to an embodiment; FIG. 本実施形態に係るリモート会議システムにおいてリモート会議クライアント装置の表示部に表示されるリモート会議室の一例を示す図である。FIG. 3 is a diagram showing an example of a remote conference room displayed on the display unit of the remote conference client device in the remote conference system according to the embodiment; 本実施形態に係るリモート会議システムにおけるリモート会議サーバー装置の作動フローを示すフローチャートである。4 is a flow chart showing the operation flow of the remote conference server device in the remote conference system according to the present embodiment; 本実施形態に係るリモート会議システムにおいて1対1対話モード時にリモート会議クライアント装置の表示部に表示されるリモート会議室の一例を示す図である。FIG. 4 is a diagram showing an example of a remote conference room displayed on the display unit of the remote conference client device in the one-to-one interactive mode in the remote conference system according to the present embodiment;

以下、本発明の一実施形態を、図面を参照して説明する。図1は、本実施形態におけるリモート会議システム10の全体概要を示す概要図である。図2は、本実施形態におけるリモート会議システム10の全体概要を示すシステム構成図である。 An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a schematic diagram showing an overall overview of a remote conference system 10 according to this embodiment. FIG. 2 is a system configuration diagram showing an overall overview of the remote conference system 10 according to this embodiment.

リモート会議システム10は、複数の参加者A、B、C、Dが互いに離れた場所で一方向又は双方向に通信を行う通信会議システムである。図1に示すように、参加者A、B、C、Dは、それぞれ、例えば、各自の自宅、各自の勤務先(具体的には、勤務先の自席又は勤務先の会議室等)、又は外出先等からリモート会議クライアント装置11、12、13、14を操作することによってリモート会議に参加する。図2に示すように、リモート会議システム10は、複数のリモート会議クライアント装置11、12、13、14と、リモート会議サーバー装置15と、から構成されている。 The remote conference system 10 is a communication conference system in which a plurality of participants A, B, C, and D perform one-way or two-way communication at remote locations. As shown in FIG. 1, participants A, B, C, and D are, for example, at their own homes, at their workplaces (specifically, at their desks at their workplaces or in conference rooms at their workplaces, etc.), or Participate in the remote conference by operating the remote conference client devices 11, 12, 13, and 14 from outside. As shown in FIG. 2, the remote conference system 10 includes a plurality of remote conference client devices 11, 12, 13, and 14 and a remote conference server device 15.

リモート会議クライアント装置11、12、13、14は、それぞれリモート会議に参加する参加者A、B、C、Dに割り当てられる通信装置である。リモート会議クライアント装置11、12、13、14は、例えば、スマートフォン、タブレット、パーソナルコンピューター、テレビ受像装置等のリモート会議サーバー装置15と通信可能な装置である。リモート会議クライアント装置11、12、13、14の各々は、通信ユニット16と、スピーカー17と、マイク18と、表示部19と、を主に備えている。 Remote conference client devices 11, 12, 13, and 14 are communication devices assigned to participants A, B, C, and D who participate in the remote conference, respectively. The remote conference client devices 11, 12, 13, and 14 are devices capable of communicating with the remote conference server device 15, such as smart phones, tablets, personal computers, and television receivers. Each of the remote conference client devices 11 , 12 , 13 and 14 mainly includes a communication unit 16 , a speaker 17 , a microphone 18 and a display section 19 .

通信ユニット16は、リモート会議サーバー装置15と通信を行う。すなわち、通信ユニット16は、参加者A、B、C、Dのリモート会議クライアント装置11、12、13、14の各々から、音声及び画像を、リモート会議サーバー装置15に伝達する音声アップロード手段である。 The communication unit 16 communicates with the remote conference server device 15 . That is, the communication unit 16 is audio upload means for transmitting audio and images from each of the remote conference client devices 11, 12, 13, 14 of the participants A, B, C, D to the remote conference server device 15. .

例えば、第1リモート会議クライアント装置11の通信ユニット16は、第1リモート会議クライアント装置11において形成される第1参加者Aの発話の音声データを、リモート会議サーバー装置15に送信する。一方で、第1リモート会議クライアント装置11の通信ユニット16は、他のリモート会議クライアント装置12、13、14において形成される他の参加者B、C、Dの発話の音声データ、及びリモート会議サーバー装置15において形成される音場形成用データを、リモート会議サーバー装置15から受信する。通信ユニット16は、受信した音声データ及び音場形成用データをスピーカー17に対して出力する。音場形成用データとは、リモート会議室30における音場特性(リモート会議室30において参加者A、B、C、Dの相互間で伝達される音声の特性)を決定するためのデータである。 For example, the communication unit 16 of the first remote conference client device 11 transmits voice data of the first participant A's speech formed in the first remote conference client device 11 to the remote conference server device 15 . On the other hand, the communication unit 16 of the first remote conference client device 11 receives the audio data of the utterances of the other participants B, C, D formed in the other remote conference client devices 12, 13, 14 and the remote conference server Sound field forming data formed in the device 15 is received from the remote conference server device 15 . The communication unit 16 outputs the received audio data and sound field forming data to the speaker 17 . The sound field forming data is data for determining sound field characteristics in the remote conference room 30 (characteristics of voices transmitted between participants A, B, C, and D in the remote conference room 30). .

同様に、第1リモート会議クライアント装置11の通信ユニット16は、第1リモート会議クライアント装置11において形成される第1参加者Aの画像等の画像データを、リモート会議サーバー装置15に送信する。第1リモート会議クライアント装置11の通信ユニット16は、他のリモート会議クライアント装置12、13、14において形成される他の参加者B、C、Dの画像等の画像データ、及びリモート会議サーバー装置15において形成される画像データを、リモート会議サーバー装置15から受信する。通信ユニット16は、受信した画像データを表示部19に出力する。 Similarly, the communication unit 16 of the first remote conference client device 11 transmits image data such as the image of the first participant A formed on the first remote conference client device 11 to the remote conference server device 15 . The communication unit 16 of the first remote conference client device 11 receives image data such as images of the other participants B, C, and D formed in the other remote conference client devices 12 , 13 , and 14 and the remote conference server device 15 . image data formed in is received from the remote conference server device 15 . The communication unit 16 outputs the received image data to the display section 19 .

スピーカー17は、リモート会議クライアント装置11、12、13、14において形成される音声データ、並びに通信ユニット16が受信した音声データ及び音場形成用データを出力する。具体的には、例えば、第1リモート会議クライアント装置11のスピーカー17は、第1リモート会議クライアント装置11において形成される音声データを出力する。一方で、第1リモート会議クライアント装置11のスピーカー17は、リモート会議システム10の利用時には、他のリモート会議クライアント装置12、13、14において形成される音声データを含んだリモート会議サーバー装置15から送信される音声データを出力する。 The speaker 17 outputs audio data formed by the remote conference client devices 11, 12, 13, and 14, and audio data and sound field forming data received by the communication unit 16. FIG. Specifically, for example, the speaker 17 of the first remote conference client device 11 outputs voice data formed in the first remote conference client device 11 . On the other hand, when using the remote conference system 10, the speaker 17 of the first remote conference client device 11 transmits from the remote conference server device 15 including voice data formed in the other remote conference client devices 12, 13, 14. Outputs the audio data that is played.

スピーカー17は、例えば、リモート会議クライアント装置の左右に配置された2つのスピーカーによって構成される。スピーカー17は、左右のスピーカーで異なる音を出力することが可能である。すなわち、スピーカー17は、ステレオ再生が可能である。なお、スピーカー17は、1つのスピーカーによって構成されてもよいし、3つ以上のスピーカーによって構成されてもよい。 The speakers 17 are, for example, two speakers arranged on the left and right sides of the remote conference client device. The left and right speakers of the speaker 17 can output different sounds. That is, the speaker 17 is capable of stereo reproduction. Note that the speaker 17 may be composed of one speaker, or may be composed of three or more speakers.

マイク18は、参加者A、B、C、Dがリモート会議中に音声を発する際に使用する。参加者A、B、C、Dがマイク18に音声を入力することで、音声信号が通信ユニット16に出力される。 Microphones 18 are used by participants A, B, C, and D to speak during the remote conference. When the participants A, B, C, and D input their voices into the microphones 18 , voice signals are output to the communication unit 16 .

表示部19は、各リモート会議クライアント装置11、12、13、14において形成される画像データ及びリモート会議サーバー装置15において形成される画像データを表示する。 The display unit 19 displays image data formed in each of the remote conference client devices 11 , 12 , 13 , and 14 and image data formed in the remote conference server device 15 .

リモート会議サーバー装置15は、リモート会議を主催するホスト制御処理装置である。図2に示すように、リモート会議サーバー装置15は、通信部20と、画像形成部21と、座席決定部22と、音場特性決定部23と、音声合成部24と、発話回数記録部25と、を主に含んでいる。 The remote conference server device 15 is a host control processing device that hosts remote conferences. As shown in FIG. 2, the remote conference server device 15 includes a communication unit 20, an image forming unit 21, a seat determining unit 22, a sound field characteristic determining unit 23, a voice synthesizing unit 24, and an utterance frequency recording unit 25. and mainly contains

通信部20は、リモート会議クライアント装置11、12、13、14の通信ユニット16と通信可能に接続されている。通信部20は、リモート会議クライアント装置11、12、13、14の通信ユニット16との間で、音声データ、音場形成用データ及び画像データの送受信を行う。すなわち、通信部20は、リモート会議サーバー装置15から各リモート会議クライアント装置11、12、13、14に個別の音声及び画像を配信する配信手段である。なお、通信部20と通信ユニット16との間の通信は、有線及び無線を問わない。 The communication unit 20 is communicably connected to the communication units 16 of the remote conference client devices 11, 12, 13, and 14. FIG. The communication unit 20 transmits and receives audio data, sound field forming data, and image data to and from the communication units 16 of the remote conference client devices 11 , 12 , 13 , and 14 . That is, the communication unit 20 is distribution means for distributing individual voices and images from the remote conference server device 15 to each of the remote conference client devices 11 , 12 , 13 , and 14 . Communication between the communication unit 20 and the communication unit 16 may be wired or wireless.

図3は、リモート会議システム10において各リモート会議クライアント装置11、12、13、14の表示部19に表示されるリモート会議室30の一例を示す図である。画像形成部21は、各リモート会議クライアント装置11、12、13、14の表示部19に表示させる画像データを形成する。画像形成部21は、例えば、図3に示すように、リモート会議室30を想定し、想定したリモート会議室30の中に会議用テーブル31を仮定し、仮定した会議用テーブル31の周りに参加者の人数分の座席(座席32、33、34、35)を配置する。すなわち、画像形成部21は、仮想的なリモート会議室30を設定し、その仮想的に設定されたリモート会議室30の中に、会議用テーブル31及び座席32、33、34、35を配置する。より具体的には、画像形成部21は、長方形の会議用テーブル31を仮定し、会議用テーブル31の片側に座席32、33を配置し、座席32、33の向かい側に座席34、35を配置する。なお、リモート会議室30の形状、会議用テーブル31の形状、座席32、33、34、35の配置等は、画像形成部21によって任意で決定されてもよいし、ユーザーによって任意で決定されてもよい。 FIG. 3 is a diagram showing an example of a remote conference room 30 displayed on the display units 19 of the remote conference client devices 11, 12, 13, and 14 in the remote conference system 10. As shown in FIG. The image forming unit 21 forms image data to be displayed on the display units 19 of the remote conference client devices 11 , 12 , 13 , and 14 . For example, as shown in FIG. 3, the image forming unit 21 assumes a remote conference room 30, assumes a conference table 31 in the assumed remote conference room 30, and participates around the assumed conference table 31. Seats (seats 32, 33, 34, 35) for the number of persons are arranged. That is, the image forming unit 21 sets the virtual remote conference room 30, and arranges the conference table 31 and the seats 32, 33, 34, and 35 in the virtual remote conference room 30. . More specifically, the image forming unit 21 assumes a rectangular conference table 31, arranges seats 32 and 33 on one side of the conference table 31, and arranges seats 34 and 35 on opposite sides of the seats 32 and 33. do. The shape of the remote conference room 30, the shape of the conference table 31, the arrangement of the seats 32, 33, 34, and 35 may be arbitrarily determined by the image forming unit 21, or may be arbitrarily determined by the user. good too.

座席決定部22は、リモート会議室30における参加者A、B、C、Dの座席(座席32、33、34、35)を決定する。具体的には、座席決定部22は、リモート会議システム10の利用時に、画像形成部21によって配置されたリモート会議室30の座席(座席32、33、34、35)に、参加者A、B、C、Dを振り分ける。 The seat determination unit 22 determines seats (seats 32 , 33 , 34 and 35 ) for the participants A, B, C and D in the remote conference room 30 . Specifically, when the remote conference system 10 is used, the seat determination unit 22 assigns participants A and B to the seats (seats 32, 33, 34, and 35) of the remote conference room 30 arranged by the image forming unit 21. , C, and D.

より具体的には、座席決定部22は、図3に示すように、第1リモート会議クライアント装置11から参加している第1参加者Aを第1座席32に振り分ける。座席決定部22は、第2リモート会議クライアント装置12から参加している第2参加者Bを第1座席32の隣の第2座席33に振り分ける。座席決定部22は、第3リモート会議クライアント装置13から参加している第3参加者Cを第1座席32の向かい側の第3座席34に振り分ける。座席決定部22は、第4リモート会議クライアント装置14から参加している第4参加者Dを第2座席33の向かい側(第3座席34の隣)の第4座席35に振り分ける。なお、座席決定部22は、例えば、リモート会議室30における参加者A、B、C、Dの座席(座席32、33、34、35)の配置を、画像形成部21によって配置された座席32、33、34、35に応じて任意で決定する。または、座席決定部22は、例えば、座席32、33、34、35の配置を、参加者A、B、C、Dの要望(リモート会議クライアント装置11、12、13、14からの要求信号)に応じて決定する。 More specifically, the seat determining unit 22 assigns the first participant A participating from the first remote conference client device 11 to the first seat 32, as shown in FIG. The seat determination unit 22 distributes the second participant B participating from the second remote conference client device 12 to the second seat 33 next to the first seat 32 . The seat determination unit 22 distributes the third participant C participating from the third remote conference client device 13 to the third seat 34 on the opposite side of the first seat 32 . The seat determination unit 22 distributes the fourth participant D participating from the fourth remote conference client device 14 to the fourth seat 35 on the opposite side of the second seat 33 (next to the third seat 34). Note that the seat determination unit 22 determines, for example, the arrangement of the seats (seats 32, 33, 34, and 35) of the participants A, B, C, and D in the remote conference room 30 from the seats 32 arranged by the image forming unit 21. , 33, 34, 35. Alternatively, the seat determination unit 22, for example, arranges the seats 32, 33, 34, and 35 according to requests from the participants A, B, C, and D (request signals from the remote conference client devices 11, 12, 13, and 14). Decide accordingly.

画像形成部21は、座席決定部22が参加者A、B、C、Dを各座席(座席32、33、34、35)に振り分けることで、参加者A、B、C、Dの画像を、振り分けた座席32、33、34、35に対応させて形成する。より具体的には、画像形成部21は、例えば、第1参加者Aの画像を、第1座席32の上に表示させる画像データを形成する。画像形成部21は、第2参加者Bの画像を、第2座席33の上に表示させる画像データを形成する。画像形成部21は、第3参加者Cの画像を、第3座席34の上に表示させる画像データを形成する。画像形成部21は、第4参加者Dの画像を、第4座席35の上に表示させる画像データを形成する。 The image forming unit 21 divides the participants A, B, C, and D into the respective seats (seats 32, 33, 34, and 35) by the seat determining unit 22, thereby forming images of the participants A, B, C, and D. , corresponding to the assigned seats 32, 33, 34, 35. More specifically, the image forming unit 21 forms image data for displaying an image of the first participant A on the first seat 32, for example. The image forming unit 21 forms image data for displaying the image of the second participant B on the second seat 33 . The image forming unit 21 forms image data for displaying the image of the third participant C on the third seat 34 . The image forming section 21 forms image data for displaying the image of the fourth participant D on the fourth seat 35 .

音場特性決定部23は、仮想的に設定されたリモート会議室30における各参加者A、B、C、Dの相対的な位置関係(座席32、33、34、35への着席位置よる相対的な位置関係)に応じて音声の音場特性(音場及び音像定位、並びに音声の奥行き感)を決定する。具体的には、音場特性決定部23は、座席決定部22によって決定される各座席32、33、34、35相互間での音場形成用データを形成する。 The sound field characteristic determining unit 23 determines the relative positional relationships of the participants A, B, C, and D in the virtually set remote conference room 30 (the relative positions of the participants to the seats 32, 33, 34, and 35). sound field characteristics (sound field and sound image localization, and sense of depth of sound). Specifically, the sound field characteristic determining section 23 forms sound field forming data between the respective seats 32 , 33 , 34 and 35 determined by the seat determining section 22 .

音声合成部24は、参加者A、B、C、Dに対して出力される音声及び画像を合成する。具体的には、音声合成部24は、音場特性決定部23によって決定された音場特性(音場特性決定部23によって形成された音場形成用データ)に基づいて、各リモート会議クライアント装置11、12、13、14で再生する音声及び画像を合成する。 The voice synthesizing unit 24 synthesizes voices and images output to the participants A, B, C, and D. FIG. Specifically, the speech synthesizing unit 24, based on the sound field characteristics determined by the sound field characteristics determining unit 23 (sound field forming data generated by the sound field characteristics determining unit 23), generates a sound for each remote conference client device. 11, 12, 13 and 14 to synthesize sounds and images.

発話回数記録部25は、リモート会議中における各参加者A、B、C、Dの発話回数を記録する。具体的には、発話回数記録部25は、各リモート会議クライアント装置11、12、13、14から送信される音声データに基づいて各参加者A、B、C、Dの発話回数を記録する。発話回数記録部25は、各参加者A、B、C、Dの発話回数から、リモート会議に参加中の各参加者A、B、C、Dの発話頻度を算定する。具体的には、発話回数記録部25は、一定時間(例えば、リモート会議開始から10分間)内における各参加者A、B、C、Dの発話回数の単純平均、又は、直近の比率を高めた各参加者A、B、C、Dの発話回数の加重平均に基づいて、リモート会議に参加中の各参加者A、B、C、Dの発話頻度を算定する。従って、参加者A、B、C、Dの各々の発話頻度を、リモート会議の開始から所定時間毎に細かく算定することができる。 The utterance count recording unit 25 records the utterance counts of the participants A, B, C, and D during the remote conference. Specifically, the utterance count recording unit 25 records the utterance counts of the participants A, B, C, and D based on the audio data transmitted from the remote conference client devices 11 , 12 , 13 , and 14 . The utterance frequency recording unit 25 calculates the utterance frequency of each participant A, B, C, and D participating in the remote conference from the utterance frequency of each participant A, B, C, and D. Specifically, the utterance count recording unit 25 increases the number of utterances of each participant A, B, C, and D within a certain period of time (for example, 10 minutes from the start of the remote conference), or the most recent ratio. Based on the weighted average of the number of utterances of each participant A, B, C, and D, the utterance frequency of each participant A, B, C, and D participating in the remote conference is calculated. Therefore, the speech frequency of each of the participants A, B, C, and D can be finely calculated every predetermined time from the start of the remote conference.

座席決定部22は、発話回数記録部25が算定した各参加者A、B、C、Dの発話頻度に基づいて、リモート会議室30における参加者A、B、C、Dの仮想的な着席位置(座席32、33、34、35の位置)を調整する。具体的には、発話回数記録部25が各参加者A、B、C、Dの発話頻度を算出した結果、参加者Aの発話頻度が他の参加者B、C、Dの直近の発話頻度より多いと判明した場合には、座席決定部22は、直近の発言量の多い第1参加者Aと他の参加者B、C、Dとの間の距離が長くなるように、リモート会議室30における第1参加者Aの仮想的な着席位置(第1座席32の位置)を、他の参加者B、C、Dの仮想的な着席位置(座席33、34、35の位置)より離す。このように、座席決定部22は、各参加者A、B、C、Dの過去の発話履歴に基づいて、参加者A、B、C、Dの仮想的な着席位置を調整することで、リモート会議室30において、発話頻度が多い参加者(参加者A)を容易に識別することができる。 The seat determination unit 22 determines the virtual seating of the participants A, B, C, and D in the remote conference room 30 based on the frequency of speech of each of the participants A, B, C, and D calculated by the number-of-speech recording unit 25. Adjust the position (position of seats 32, 33, 34, 35). Specifically, as a result of the utterance frequency recording unit 25 calculating the utterance frequency of each of the participants A, B, C, and D, the utterance frequency of the participant A is the most recent utterance frequency of the other participants B, C, and D. If it is found to be more, the seat determination unit 22 selects the remote conference room so that the distance between the first participant A who has the most recent speech volume and the other participants B, C, and D is longer. The virtual seating position of the first participant A in 30 (the position of the first seat 32) is separated from the virtual seating positions of the other participants B, C, and D (the positions of the seats 33, 34, and 35). . In this way, the seat determination unit 22 adjusts the virtual seating positions of the participants A, B, C, and D based on the past speech histories of the participants A, B, C, and D. In the remote conference room 30, a participant (participant A) who frequently speaks can be easily identified.

次に、リモート会議システム10におけるステレオ再生による音像合成について説明する。リモート会議システム10においては、複数の参加者A、B、C、Dが同時に話を行っていても、各参加者A、B、C、Dの声を聞き取り易くするために、各参加者A、B、C、Dの音声音像を離れた位置に配置するようにステレオ再生を行う。具体的には、音場特性決定部23及び音声合成部24が、仮想的に設定されたリモート会議室30における各参加者A、B、C、Dの着席位置(座席32、33、34、35の位置)による相対的な位置関係に応じてステレオ再生時の音声を調整することで、各参加者A、B、C、Dがあたかもその場所から話しているように再現することができる。具体的には、リモート会議室30における話者と、話者以外の参加者との相対的な距離によって以下のような処理を行う。 Next, sound image synthesis by stereo reproduction in the remote conference system 10 will be described. In the remote conference system 10, even if a plurality of participants A, B, C, and D are talking at the same time, each participant A , B, C, and D are arranged at distant positions. Specifically, the sound field characteristic determination unit 23 and the voice synthesis unit 24 determine the seating positions of the participants A, B, C, and D (seats 32, 33, 34, 35)), each participant A, B, C, and D can be reproduced as if they were speaking from that position by adjusting the sound during stereo reproduction according to the relative positional relationship. Specifically, the following processing is performed according to the relative distance between the speaker in the remote conference room 30 and the participants other than the speaker.

音声合成部24は、遠くの話者の音声データを高域フィルターによって処理する。すなわち、音声合成部24は、音声データを処理するフィルターの係数を、リモート会議室30における話者と、話者以外の参加者との相対的な距離に応じて調整する。これにより、スピーカー17から出力される際の音声に奥行感を出すことができる。具体的には、図3に示すように、音声合成部24が、第1リモート会議クライアント装置11で(第1参加者Aに対して)再生する音声を合成する場合には、第1参加者Aに対して、第2参加者B及び第3参加者Cよりも遠くの話者である第4参加者Dの音声データを高域フィルターによって処理する。ここで、音声合成部24は、音場特性決定部23によって決定された音場特性に基づいて、第4参加者Dの音声データを、第1参加者Aに対して遠くの話者の音声データと判断する。音場特性決定部23は、リモート会議室30における第1参加者Aの着席位置(第1座席32)を基準として、第4参加者Dの着席位置(第4座席35)と、第2参加者Bの着席位置(第2座席33)及び第3参加者Cの着席位置(第3座席34)との位置関係を相対的に比較することで、第4参加者Dの着席位置が第1参加者Aの着席位置から遠い(第4参加者Dが第1参加者Aの着席位置から遠い話者である)と判断する。そして、音場特性決定部23は、その判断結果を音声合成部24に送信する。 The voice synthesizer 24 processes the voice data of the distant speaker with a high-pass filter. That is, the speech synthesis unit 24 adjusts the coefficient of the filter that processes the speech data according to the relative distance between the speaker in the remote conference room 30 and the participants other than the speaker. As a result, the sound output from the speaker 17 can have a sense of depth. Specifically, as shown in FIG. 3, when the speech synthesizing unit 24 synthesizes speech to be played back by the first remote conference client device 11 (for the first participant A), the first participant For A, the speech data of a fourth participant D, who is a farther speaker than the second participant B and the third participant C, is processed by a high-pass filter. Here, the speech synthesizing unit 24 converts the speech data of the fourth participant D into the speech of a speaker far away from the first participant A based on the sound field characteristics determined by the sound field characteristics determining unit 23 . judged as data. The sound field characteristic determining unit 23 determines the seating position (fourth seat 35) of the fourth participant D and the second participation By relatively comparing the positional relationship between the seating position of the person B (second seat 33) and the seating position of the third participant C (third seat 34), the seating position of the fourth participant D is the first seat position. It is determined that the speaker is far from the seating position of the participant A (the fourth participant D is a speaker far from the seating position of the first participant A). Then, the sound field characteristic determining section 23 transmits the determination result to the speech synthesizing section 24 .

また、音声合成部24は、音声データを処理するフィルターの係数を調整することで、遠くの話者の音声データのうちの高い周波数の音ほど空気によって吸収される現象を再現する。このようにフィルターの係数を調整することで、空気中での音の伝わり方を忠実に再現することができ、低い周波数成分を有する音のみが遠くまで聞こえるように調整することができる。 In addition, the speech synthesizer 24 adjusts the coefficient of the filter that processes the speech data to reproduce the phenomenon that the higher the frequency of the speech data of the distant speaker, the more the sound is absorbed by the air. By adjusting the coefficients of the filter in this way, it is possible to faithfully reproduce how sound travels through the air, and it is possible to make adjustments so that only sounds with low frequency components can be heard over long distances.

さらに、音声合成部24は、遠くの話者の音声データについては、音声レベルの増加が緩やかとなるようにアタックを調整する。すなわち、音声合成部24は、各参加者A、B、C、Dの無発声状態からの発話開始を検知して、各参加者A、B、C、Dの音声の音量の立ち上がりを、リモート会議室30における話者と、話者以外の参加者との相対的な距離に応じて調整する。具体的には、図3に示すように、音声合成部24が、第1リモート会議クライアント装置11で(第1参加者Aに対して)再生する音声を合成する場合には、第1参加者Aに対して遠くの話者である第4参加者Dの音声の音量の立ち上がりが、他の参加者B、Cの音声の音量の立ち上がりより緩やかとなるようにアタックを調整する。 Furthermore, the voice synthesis unit 24 adjusts the attack of voice data of a distant speaker so that the voice level increases slowly. That is, the voice synthesizing unit 24 detects the start of speech of each of the participants A, B, C, and D from the non-speech state, and remotely controls the rise of the volume of the voice of each of the participants A, B, C, and D. Adjust according to the relative distance between the speaker in the conference room 30 and the participants other than the speaker. Specifically, as shown in FIG. 3, when the speech synthesizing unit 24 synthesizes speech to be played back by the first remote conference client device 11 (for the first participant A), the first participant The attack is adjusted so that the rise in the voice volume of the fourth participant D, who is a speaker far from A, is gentler than the rise in the voice volume of the other participants B and C.

さらにまた、音声合成部24は、遠くの話者の音声データにはリバーブ(残響)を適用する。音声合成部24が遠くの話者の音声データにリバーブ(残響)を適用することで、話者の音声に、空間的な深み、或いは広がり感を与えることができる。 Furthermore, the speech synthesizer 24 applies reverb to the speech data of the distant speaker. By applying reverb (reverberation) to the voice data of the distant speaker by the voice synthesizing unit 24, it is possible to give the voice of the speaker a sense of spatial depth or breadth.

また、音声合成部24は、リモート会議室30における話者と、話者以外の参加者との左右方向の相対的な位置関係に応じて、スピーカー17のステレオ再生における左右のスピーカーの音量を調整する。具体的には、図3に示すように、音声合成部24が、第1リモート会議クライアント装置11で(第1参加者Aに対して)再生する音声を合成する場合に、第1参加者Aに対して左側(図3においては右側)の話者である第2参加者Bの音声を出力する際には、スピーカー17のステレオ再生における左側のスピーカーの音量を右側のスピーカーの音量より大きく調整する。 In addition, the speech synthesis unit 24 adjusts the volume of the left and right speakers in the stereo reproduction of the speakers 17 according to the relative positional relationship in the left and right direction between the speaker in the remote conference room 30 and the participants other than the speaker. do. Specifically, as shown in FIG. 3, when the speech synthesizing unit 24 synthesizes speech to be played back by the first remote conference client device 11 (for the first participant A), the first participant A When outputting the voice of the second participant B who is the speaker on the left side (right side in FIG. 3) of the speaker 17, the volume of the left speaker in the stereo reproduction of the speaker 17 is adjusted to be higher than the volume of the right speaker do.

このように、リモート会議システム10では、リモート会議サーバー装置15の音場特性決定部23及び音声合成部24において、各参加者A、B、C、D用に処理された音声データ及び画像を生成し、参加者A、B、C、D毎に個別に配信する。 As described above, in the remote conference system 10, the sound field characteristic determination unit 23 and the audio synthesis unit 24 of the remote conference server device 15 generate processed audio data and images for each of the participants A, B, C, and D. and distributed to participants A, B, C, and D individually.

図4は、リモート会議システム10におけるリモート会議サーバー装置15の作動フローを示すフローチャートである。上記のような機能を有するリモート会議システム10において、リモート会議サーバー装置15は、例えば、図4に示すような作動フローに沿って処理を行う。 FIG. 4 is a flow chart showing the operation flow of the remote conference server device 15 in the remote conference system 10. As shown in FIG. In the remote conference system 10 having the functions as described above, the remote conference server device 15 performs processing according to, for example, an operation flow as shown in FIG.

図4に示すように、リモート会議サーバー装置15は、各リモート会議クライアント装置11、12、13、14から送信される信号に基づいてリモート会議の参加者A、B、C、Dを特定する(ステップS1)。リモート会議サーバー装置15は、参加者A、B、C、Dを特定すると、画像形成部21によって、図3に示すようなリモート会議室30を想定し、想定したリモート会議室30の中に会議用テーブル31を仮定し、仮定した会議用テーブル31の周りに参加者の人数分の座席(座席32、33、34、35)を配置する(ステップS2)。リモート会議サーバー装置15は、リモート会議室30に座席32、33、34、35を配置すると、座席決定部22によって、リモート会議室30における参加者A、B、C、Dの座席(座席32、33、34、35)を図3に示すように決定する(ステップS3)。リモート会議サーバー装置15は、参加者A、B、C、Dの座席を決定すると、音場特性決定部23によって、座席32、33、34、35相互間での音場特性を、リモート会議クライアント装置11、12、13、14毎に個別に決定する(ステップS4)。 As shown in FIG. 4, the remote conference server device 15 identifies remote conference participants A, B, C, and D based on signals transmitted from the remote conference client devices 11, 12, 13, and 14 ( step S1). When remote conference server device 15 identifies participants A, B, C, and D, remote conference server device 15 assumes remote conference room 30 as shown in FIG. A conference table 31 is assumed, and seats for the number of participants (seats 32, 33, 34, 35) are arranged around the assumed conference table 31 (step S2). When the remote conference server device 15 arranges the seats 32 , 33 , 34 and 35 in the remote conference room 30 , the seat determining unit 22 determines the seats of the participants A, B, C and D in the remote conference room 30 (seats 32 , 32 , 35 ). 33, 34, 35) are determined as shown in FIG. 3 (step S3). When the remote conference server device 15 determines the seats of the participants A, B, C, and D, the sound field characteristics determination unit 23 determines the sound field characteristics between the seats 32, 33, 34, and 35 to the remote conference client. It is determined individually for each of the devices 11, 12, 13 and 14 (step S4).

その後、リモート会議が開始され、参加者A、B、C、Dからの発話がある、すなわち、リモート会議クライアント装置11、12、13、14からリモート会議サーバー装置15に音声データが送信されると、リモート会議サーバー装置15は、送信された音声データから発話者を特定する(ステップS5)。リモート会議サーバー装置15は、発話者を特定すると、音声合成部24によって、各リモート会議クライアント装置11、12、13、14で再生する発話者の音声を、リモート会議クライアント装置11、12、13、14毎に合成する(ステップS6)。この際、音声合成部24は、音場特性決定部23によって決定された音場特性に基づいて発話者の音声を合成する。リモート会議サーバー装置15は、音場特性決定部23によって発話者の音声を合成すると、合成した音声データを通信部20によって各リモート会議クライアント装置11、12、13、14に送信する(ステップS7)。 After that, when the remote conference is started and participants A, B, C, and D speak, that is, voice data is transmitted from the remote conference client devices 11, 12, 13, and 14 to the remote conference server device 15. , the remote conference server device 15 identifies the speaker from the transmitted voice data (step S5). When the remote conference server device 15 identifies the speaker, the voice synthesizing unit 24 synthesizes the speaker's voice reproduced by each of the remote conference client devices 11, 12, 13, and 14 into the remote conference client devices 11, 12, 13, 14 is synthesized (step S6). At this time, the speech synthesizing unit 24 synthesizes the speaker's speech based on the sound field characteristics determined by the sound field characteristics determining unit 23 . After synthesizing the voice of the speaker by the sound field characteristic determination unit 23, the remote conference server device 15 transmits the synthesized voice data to each of the remote conference client devices 11, 12, 13, and 14 through the communication unit 20 (step S7). .

リモート会議サーバー装置15は、合成した音声データを各リモート会議クライアント装置11、12、13、14に送信すると、参加者A、B、C、Dからの発話があるか否かを判断する(ステップS8)。すなわち、リモート会議サーバー装置15は、リモート会議クライアント装置11、12、13、14からリモート会議サーバー装置15に音声データが送信されているか否かを判断する。リモート会議サーバー装置15は、参加者A、B、C、Dからの発話があると判断すると(ステップS8-Yes)、送信された音声データから発話者を特定する(ステップS5)。リモート会議サーバー装置15は、参加者A、B、C、Dからの発話がないと判断すると(ステップS8-No)、リモート会議が終了したか否かを判断する(ステップS9)。この時、リモート会議サーバー装置15は、リモート会議を終了する旨の信号がリモート会議クライアント装置11、12、13、14の少なくとも1つから送信された場合、或いは、リモート会議クライアント装置11、12、13、14の少なくとも1つからの通信が切断された場合には、リモート会議が終了したと判断する。リモート会議サーバー装置15は、リモート会議が終了していないと判断すると(ステップS9-No)、参加者A、B、C、Dからの発話があるか否かを判断する(ステップS8)。リモート会議サーバー装置15は、リモート会議が終了したと判断すると(ステップS9-No)、リモート会議システム10のホスト処理を終了する。なお、ステップS9において、リモート会議を終了する旨の信号がリモート会議クライアント装置11、12、13、14の全てから送信された場合、或いは、全てのリモート会議クライアント装置11、12、13、14からの通信が切断された場合に、リモート会議サーバー装置15は、リモート会議が終了したと判断してもよい。 When the remote conference server device 15 transmits the synthesized voice data to each of the remote conference client devices 11, 12, 13, and 14, the remote conference server device 15 determines whether or not there is an utterance from the participants A, B, C, and D (step S8). That is, the remote conference server device 15 determines whether voice data is being transmitted to the remote conference server device 15 from the remote conference client devices 11 , 12 , 13 , and 14 . When the remote conference server device 15 determines that there is an utterance from the participants A, B, C, and D (step S8-Yes), it identifies the utterer from the transmitted voice data (step S5). When the remote conference server device 15 determines that there is no speech from the participants A, B, C, and D (step S8-No), it determines whether or not the remote conference has ended (step S9). At this time, the remote conference server device 15 receives a signal to end the remote conference from at least one of the remote conference client devices 11, 12, 13, and 14, or the remote conference client devices 11, 12, When communication from at least one of 13 and 14 is disconnected, it is determined that the remote conference has ended. When the remote conference server device 15 determines that the remote conference has not ended (step S9-No), it determines whether or not there are any speeches from the participants A, B, C, and D (step S8). When the remote conference server device 15 determines that the remote conference has ended (step S9-No), the host processing of the remote conference system 10 ends. In step S9, if a signal indicating that the remote conference is to be terminated has been sent from all of the remote conference client devices 11, 12, 13, and 14, or from all of the remote conference client devices 11, 12, 13, and 14, communication is disconnected, the remote conference server device 15 may determine that the remote conference has ended.

次に、図5を参照して、リモート会議システム10の1対1対話機能について説明する。図5は、リモート会議システム10において1対1対話モード時にリモート会議クライアント装置11、12、13、14の表示部19に表示されるリモート会議室30の一例を示す図である。 Next, with reference to FIG. 5, the one-to-one interaction function of the remote conference system 10 will be described. FIG. 5 is a diagram showing an example of the remote conference room 30 displayed on the display units 19 of the remote conference client devices 11, 12, 13, and 14 in the one-to-one interactive mode in the remote conference system 10. As shown in FIG.

リモート会議システム10には、リモート会議に参加中の参加者A、B、C、Dの中から特定の参加者と1対1で対話を行うことができる1対1対話モードが設定されている。1対1対話モードは、各リモート会議クライアント装置11、12、13、14に設けられている。参加者A、B、C、Dは、リモート会議クライアント装置11、12、13、14の表示部19に表示される参加者リストから特定の参加者を選択することで、1対1対話モードに入ることができる。例えば、参加者Aが特定の参加者Cとのみ対話がしたい場合には、参加者Aは、第1リモート会議クライアント装置11の表示部19に表示される参加者リストから参加者Cを選択して1対1対話モードに入ることで、参加者Cとのみ対話をすることができる。 The remote conference system 10 is set with a one-to-one dialogue mode that enables one-to-one dialogue with a specific participant from participants A, B, C, and D participating in the remote conference. . A one-to-one interaction mode is provided for each remote conference client device 11 , 12 , 13 , 14 . Participants A, B, C, and D select a specific participant from the participant list displayed on the display unit 19 of the remote conference client devices 11, 12, 13, and 14 to enter the one-to-one interactive mode. can enter. For example, if participant A wishes to have a conversation with only a specific participant C, participant A selects participant C from the participant list displayed on the display unit 19 of the first remote conference client device 11. By entering the one-to-one dialogue mode with the C, it is possible to have a dialogue only with the participant C.

リモート会議クライアント装置11、12、13、14において1対1対話モードが設定されると、リモート会議サーバー装置15は、1対1対話モードに設定されたリモート会議クライアント装置11、12、13、14から伝達される音声を、1対1対話モードに設定されたリモート会議クライアント装置11、12、13、14のみに配信する。このように、リモート会議サーバー装置15が音声を配信することで、特定の参加者A、B、C、Dとのみ対話をすることができる。 When the remote conference client devices 11, 12, 13, and 14 are set to the one-to-one interactive mode, the remote conference server device 15 controls the remote conference client devices 11, 12, 13, and 14 set to the one-to-one interactive mode. audio transmitted from is delivered only to the remote conference client devices 11, 12, 13, 14 set to the one-to-one interaction mode. In this way, the remote conference server device 15 distributes audio, so that only specific participants A, B, C, and D can have a conversation.

例えば、1対1対話モードが、第1リモート会議クライアント装置11(第1参加者A)と、第3リモート会議クライアント装置13(第3参加者C)と、の間で設定されている場合、リモート会議サーバー装置15は、第1リモート会議クライアント装置11から伝達される音声を、第3リモート会議クライアント装置13のみに配信するとともに、第3リモート会議クライアント装置13から伝達される音声を、第1リモート会議クライアント装置11のみに配信する。すなわち、1対1モードが設定されていない第2リモート会議クライアント装置12(第2参加者B)及び第4リモート会議クライアント装置14(第4参加者D)には、第1リモート会議クライアント装置11及び第3リモート会議クライアント装置13から伝達される音声は配信されない。 For example, if the one-to-one interaction mode is set between the first remote conference client device 11 (first participant A) and the third remote conference client device 13 (third participant C), The remote conference server device 15 distributes the audio transmitted from the first remote conference client device 11 only to the third remote conference client device 13, and distributes the audio transmitted from the third remote conference client device 13 to the first remote conference client device 13. Distribute only to the remote conference client device 11 . That is, for the second remote conference client device 12 (second participant B) and the fourth remote conference client device 14 (fourth participant D) for which the one-to-one mode is not set, the first remote conference client device 11 and audio transmitted from the third remote conference client device 13 is not distributed.

リモート会議システム10における1対1対話モードの設定は、1対1対話モードに設定されたリモート会議クライアント装置のみが解除できる。例えば、1対1対話モードが、第1リモート会議クライアント装置11(第1参加者A)と、第3リモート会議クライアント装置13(第3参加者C)と、の間で設定されている場合、1対1対話モードの設定は、第1リモート会議クライアント装置11と第3リモート会議クライアント装置13とのいずれかのみで解除できる。このように、1対1対話モードに設定されたリモート会議クライアント装置のみが1対1対話モードの設定を解除できることから、1対1対話モードではない他の参加者A、B、C、Dから1対1対話モードの設定を解除されることを防止できる。 The setting of the one-to-one interactive mode in the remote conference system 10 can be canceled only by the remote conference client device set to the one-to-one interactive mode. For example, if the one-to-one interaction mode is set between the first remote conference client device 11 (first participant A) and the third remote conference client device 13 (third participant C), The setting of the one-to-one interactive mode can be canceled by either the first remote conference client device 11 or the third remote conference client device 13 only. In this way, only the remote conference client device that has been set to the one-to-one interactive mode can cancel the one-to-one interactive mode setting. It is possible to prevent the setting of the one-to-one interactive mode from being canceled.

座席決定部22は、1対1対話モードが所定のリモート会議クライアント装置11、12、13、14間で設定されると、1対1対話モードのリモート会議クライアント装置11、12、13、14から参加する参加者A、B、C、D同士のリモート会議室30における相対的距離を一時的に近づけるように、リモート会議室30における参加者A、B、C、Dの座席32、33、34、35の位置を決定する。併せて、座席決定部22は、1対1対話モードではないリモート会議クライアント装置11、12、13、14から参加する参加者A、B、C、Dとのリモート会議室30における相対的距離を一時的に遠ざけるように、リモート会議室30における参加者A、B、C、Dの座席32、33、34、35の位置を決定する。 When the one-to-one interactive mode is set between predetermined remote conference client apparatuses 11, 12, 13, and 14, the seat determination unit 22 selects seats from remote conference client apparatuses 11, 12, 13, and 14 in the one-to-one interactive mode. Seats 32, 33, 34 of participants A, B, C, and D in the remote conference room 30 so as to temporarily shorten the relative distances of the participants A, B, C, and D in the remote conference room 30 , 35 are determined. In addition, the seat determination unit 22 determines the relative distances in the remote conference room 30 from the participants A, B, C, and D who participate from the remote conference client devices 11, 12, 13, and 14 that are not in the one-to-one interactive mode. Determine the positions of the seats 32, 33, 34, 35 of the participants A, B, C, D in the remote conference room 30 so as to temporarily distance them.

具体的には、例えば、第1参加者Aの第1リモート会議クライアント装置11と、第3参加者Cの第3リモート会議クライアント装置13との間で1対1対話モードが設定されている場合には、座席決定部22は、図5に示すように、リモート会議室30における第1参加者Aと第3参加者Cとの相対的距離を一時的に近づけるように、第1座席32の位置と、第3座席34の位置とを相対的に近づける。併せて、座席決定部22は、1対1対話モードが設定されていないリモート会議クライアント装置12、14から参加する参加者B、Dとの相対的距離を一時的に遠ざけるように、第2座席33及び第4座席35の位置に対して、第1座席32及び第3座席34の位置を相対的に遠ざける。 Specifically, for example, when the one-to-one dialogue mode is set between the first remote conference client device 11 of the first participant A and the third remote conference client device 13 of the third participant C 5, the seat determination unit 22 moves the first seat 32 so that the relative distance between the first participant A and the third participant C in the remote conference room 30 is temporarily shortened. The position and the position of the third seat 34 are brought relatively close to each other. At the same time, the seat determination unit 22 temporarily increases the relative distance from the participants B and D who participate from the remote conference client devices 12 and 14 for which the one-to-one interaction mode is not set, and moves the second seat. The positions of the first seat 32 and the third seat 34 are relatively distanced from the positions of the seat 33 and the fourth seat 35.例文帳に追加

音声合成部24は、1対1対話モードに設定されているリモート会議クライアント装置11、12、13、14のスピーカー17から出力される参加者A、B、C、Dの音声のうち、1対1対話モードに設定されていないリモート会議クライアント装置11、12、13、14の参加者A、B、C、Dの音声を、1対1対話モードに設定されているリモート会議クライアント装置11、12、13、14の参加者A、B、C、Dの音声より小さい音量でスピーカー17から出力させるように、1対1対話モードに設定されていないリモート会議クライアント装置11、12、13、14の参加者A、B、C、Dの音声データを合成する。すなわち、1対1対話モードに設定されているリモート会議クライアント装置では、1対1対話モードに設定されていないリモート会議クライアント装置の参加者の音声の音量が絞られてスピーカー17から出力される。 The voice synthesizing unit 24 synthesizes one pair of the voices of the participants A, B, C, and D output from the speakers 17 of the remote conference client devices 11, 12, 13, and 14 set to the one-to-one dialogue mode. The voices of the participants A, B, C, and D of the remote conference client devices 11, 12, 13, and 14, which are not set to the one-to-one interactive mode, are transferred to the remote conference client devices 11, 12, which are set to the one-to-one interactive mode. , 13, and 14 of the remote conference client devices 11, 12, 13, and 14 that are not set to the one-to-one interactive mode so that the voices of the participants A, B, C, and D of the remote conferences 11, 12, 13, and 14 are output from the speaker 17 at a volume lower than that of the participants A, B, C, and D. The speech data of participants A, B, C, and D are synthesized. That is, in the remote conference client device set to the one-to-one interactive mode, the volume of the voice of the participant of the remote conference client device not set to the one-to-one interactive mode is reduced and output from the speaker 17 .

例えば、第1参加者Aの第1リモート会議クライアント装置11と、第3参加者Cの第3リモート会議クライアント装置13との間で1対1対話モードが設定されている場合には、音声合成部24は、第1リモート会議クライアント装置11及び第3リモート会議クライアント装置13のスピーカー17から出力される参加者A、B、C、Dの音声のうち、1対1対話モードに設定されていないリモート会議クライアント装置12、14の参加者B、Dの音声を、1対1対話モードに設定されているリモート会議クライアント装置11、14の参加者A、Cの音声より小さい音量でスピーカー17から出力させるように、リモート会議クライアント装置12、14の参加者B、Dの音声データを合成する。 For example, when the one-to-one dialogue mode is set between the first remote conference client device 11 of the first participant A and the third remote conference client device 13 of the third participant C, voice synthesis The unit 24 determines that among the voices of the participants A, B, C, and D output from the speakers 17 of the first remote conference client device 11 and the third remote conference client device 13, the one-to-one dialogue mode is not set. The voices of the participants B and D of the remote conference client devices 12 and 14 are output from the speaker 17 at a volume lower than the voices of the participants A and C of the remote conference client devices 11 and 14 set to the one-to-one dialogue mode. The audio data of the participants B and D of the remote conference client devices 12 and 14 are synthesized so that

このように、音声合成部24がスピーカー17から出力させる参加者A、B、C、Dの音声の音量を制御した音声データを合成することで、1対1対話モードに設定されているリモート会議クライアント装置11、12、13、14の参加者A、B、C、Dの音声と、1対1対話モードに設定されていないリモート会議クライアント装置11、12、13、14の参加者A、B、C、Dの音声と、が混同することなく、1対1対話モードに設定されているリモート会議クライアント装置11、12、13、14のスピーカー17から出力させることができ、より一層参加者A、B、C、Dの音声を聞き取り易くすることができる。 In this way, by synthesizing voice data in which the voice synthesis unit 24 controls the volume of the voices of the participants A, B, C, and D to be output from the speaker 17, the remote conference set to the one-to-one dialogue mode can be performed. Voices of participants A, B, C, and D of client devices 11, 12, 13, and 14 and participants A and B of remote conference client devices 11, 12, 13, and 14 not set to one-to-one interaction mode , C, and D can be output from the speakers 17 of the remote conference client devices 11, 12, 13, and 14 set in the one-to-one dialogue mode without confusion between the voices of the participants A, C, and D. , B, C, and D can be made easier to hear.

なお、本発明の実施形態では、音声合成部24(リモート会議サーバー装置15側)においてスピーカー17から出力させる参加者A、B、C、Dの音声の音量を制御しているが、これに限定されるものではなく、リモート会議クライアント装置11、12、13、14側(例えば、スピーカー17)において参加者A、B、C、Dの音声の音量を制御しても構わない。 In the embodiment of the present invention, the volume of the voices of the participants A, B, C, and D to be output from the speaker 17 is controlled by the voice synthesizing unit 24 (on the side of the remote conference server device 15), but the present invention is limited to this. Instead, the volume of the voices of the participants A, B, C, and D may be controlled on the side of the remote conference client devices 11, 12, 13, and 14 (for example, the speakers 17).

以上のように、本発明の実施形態によると、リモート会議において、個々の参加者A、B、C、Dの音像定位を、リモート会議クライアント装置11、12、13、14(参加者A、B、C、D)毎に分離することから、複数の参加者A、B、C、Dが同時に発言した場合であっても、個々の話者の発言内容を容易に聞き取ることができる。 As described above, according to the embodiment of the present invention, in a remote conference, the sound image localization of individual participants A, B, C, and D is controlled by the remote conference client devices 11, 12, 13, and 14 (participants A, B). , C, and D), even when a plurality of participants A, B, C, and D speak at the same time, it is possible to easily hear the content of each speaker's speech.

また、本発明の実施形態によると、個々の参加者A、B、C、Dの音像定位を過去の発話履歴や特別な1対1対話モードによって調整するため、より一層参加者A、B、C、Dの音声を聞き取り易くすることができる。 In addition, according to the embodiment of the present invention, since the sound image localization of each participant A, B, C, D is adjusted according to the past speech history and a special one-to-one interaction mode, the participants A, B, The voices of C and D can be made easier to hear.

なお、本発明の実施形態では、音場特性決定部23及び音声合成部24をリモート会議サーバー装置15に設けているが、これに限定されるものではなく、リモート会議クライアント装置11、12、13、14に設けても構わない。すなわち、リモート会議サーバー装置15は、各参加者A、B、C、Dの音声を個別の音声トラックとした全参加者分の音声データを、各リモート会議クライアント装置11、12、13、14に対して並列に同報配信する。そして、リモート会議クライアント装置11、12、13、14は、配信された各参加者A、B、C、Dの音声データを音場特性決定部23及び音声合成部24によって調整した後、各参加者A、B、C、Dの音声データをミックスしてステレオ再生を行う。 In the embodiment of the present invention, the sound field characteristic determining unit 23 and the voice synthesizing unit 24 are provided in the remote conference server device 15, but the present invention is not limited to this. , 14. That is, the remote conference server device 15 sends the voice data of all the participants, with the voices of the participants A, B, C, and D as separate audio tracks, to the remote conference client devices 11, 12, 13, and 14. broadcast in parallel. Then, the remote conference client devices 11, 12, 13, and 14 adjust the delivered voice data of each of the participants A, B, C, and D by the sound field characteristic determining unit 23 and the voice synthesizing unit 24, and Audio data of persons A, B, C, and D are mixed and reproduced in stereo.

本実施形態では、第1参加者Aと第3参加者Cとの間で1対1対話モードが設定されている場合に、座席決定部22は、リモート会議室30における第1参加者Aと第3参加者Cとを一時的に近づけるように、第1座席32の位置と第3座席34の位置とを近づけているが、これに限定されるものではない。例えば、第1座席32の位置と第3座席34の位置とを近づけることなく、第1参加者Aと第3参加者Cとの間で1対1対話モードを設定しても構わない。すなわち、リモート会議室30における参加者の座席の位置を近づけることなく、1対1対話モードを設定しても構わない。このようにすることで、1対1対話モードを設定している参加者(第1参加者A及び第3参加者C)は、1対1対話モードを設定していない参加者(第2参加者B及び第4参加者D)に対して、1対1対話モードを実行していることを隠すことができる。 In this embodiment, when the one-to-one dialogue mode is set between the first participant A and the third participant C, the seat determination unit 22 The position of the first seat 32 and the position of the third seat 34 are brought closer to each other so that the third participant C can be brought closer temporarily, but the present invention is not limited to this. For example, a one-to-one interaction mode may be set between the first participant A and the third participant C without moving the position of the first seat 32 and the position of the third seat 34 closer together. That is, the one-to-one dialogue mode may be set without moving the seats of the participants in the remote conference room 30 closer to each other. By doing so, the participants (the first participant A and the third participant C) who have set the one-to-one dialogue mode can be compared with the participants who have not set the one-to-one dialogue mode (the second participant It can be hidden from party B and the fourth participant D) that it is running in one-to-one interaction mode.

以上、図面を参照しながら本発明の実施形態を説明した。但し、本発明は、上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲で種々の態様において実施することが可能である。図面は、理解しやすくするために、それぞれの構成要素を主体に模式的に示しており、図示された各構成要素の厚み、長さ、個数、間隔等は、図面作成の都合上から実際とは異なる。また、上記の実施形態で示す各構成要素の材質、形状、寸法等は一例であって、特に限定されるものではなく、本発明の構成から実質的に逸脱しない範囲で種々の変更が可能である。 The embodiments of the present invention have been described above with reference to the drawings. However, the present invention is not limited to the above-described embodiments, and can be implemented in various aspects without departing from the gist of the present invention. In order to make the drawings easier to understand, the drawings mainly show each component schematically. is different. In addition, the material, shape, dimensions, etc. of each component shown in the above embodiment are examples and are not particularly limited, and various changes are possible without substantially departing from the configuration of the present invention. be.

本発明は、リモート会議を実行するためのリモート会議システム等に用いるのに好適である。 INDUSTRIAL APPLICABILITY The present invention is suitable for use in remote conference systems and the like for executing remote conferences.

10 リモート会議システム
11 第1リモート会議クライアント装置(リモート会議クライアント装置)
12 第2リモート会議クライアント装置(リモート会議クライアント装置)
13 第3リモート会議クライアント装置(リモート会議クライアント装置)
14 第4リモート会議クライアント装置(リモート会議クライアント装置)
15 リモート会議サーバー装置
22 座席決定部
23 音場特性決定部
24 音声合成部
32 第1座席(座席)
33 第2座席(座席)
34 第3座席(座席)
35 第4座席(座席)
A 第1参加者(参加者)
B 第2参加者(参加者)
C 第3参加者(参加者)
D 第4参加者(参加者)
10 remote conference system 11 first remote conference client device (remote conference client device)
12 second remote conference client device (remote conference client device)
13 third remote conference client device (remote conference client device)
14 fourth remote conference client device (remote conference client device)
15 Remote conference server device 22 Seat determination unit 23 Sound field characteristic determination unit 24 Voice synthesis unit 32 First seat (seat)
33 Second Seat (Seat)
34 Third Seat (Seat)
35 Fourth seat (seat)
A First Participant (Participant)
B Second Participant (Participant)
C Third Participant (Participant)
D Fourth Participant (Participant)

Claims (8)

リモート会議を主催するリモート会議サーバー装置と、
前記リモート会議に参加する参加者の各々に割り当てられるリモート会議クライアント装置と
を備え、
前記リモート会議サーバー装置は、前記リモート会議を行うリモート会議室における前記参加者の座席を決定する座席決定部を含み、
前記リモート会議サーバー装置又は前記リモート会議クライアント装置は、
前記座席決定部によって決定される各座席相互間での音場特性を決定する音場特性決定部と、
前記参加者に対して出力される音声を合成する音声合成部と
を含み、
前記音場特性決定部は、前記リモート会議クライアント装置の各々で再生する音声の音場特性を決定し、
前記音声合成部は、前記音場特性決定部によって決定された音場特性に基づいて、前記リモート会議クライアント装置の各々で再生する音声を合成する、リモート会議システム。
a remote conference server device that hosts a remote conference;
a remote conference client device assigned to each participant participating in the remote conference;
The remote conference server device includes a seat determination unit that determines the seats of the participants in the remote conference room where the remote conference is held;
The remote conference server device or the remote conference client device,
a sound field characteristic determination unit that determines sound field characteristics between the seats determined by the seat determination unit;
a speech synthesizer that synthesizes speech to be output to the participant,
The sound field characteristic determination unit determines sound field characteristics of audio reproduced by each of the remote conference client devices,
The remote conference system, wherein the voice synthesizing unit synthesizes voices to be reproduced by each of the remote conference client devices based on the sound field characteristics determined by the sound field characteristics determining unit.
前記リモート会議サーバー装置は、前記参加者の各々の発話回数を記録する発話回数記録部を備え、
前記発話回数記録部は、前記参加者の各々の発話回数に基づいて、前記リモート会議に参加中の前記参加者の各々の発話頻度を算定し、
前記座席決定部は、前記発話回数記録部が算定した複数の前記発話頻度に基づいて、前記発話頻度の高い前記参加者が前記リモート会議室において着席する前記座席の位置を調整する、請求項1に記載のリモート会議システム。
The remote conference server device includes an utterance count recording unit that records the number of utterances of each of the participants,
The utterance frequency recording unit calculates the utterance frequency of each of the participants participating in the remote conference based on the number of utterances of each of the participants;
2. The seat determining unit adjusts the position of the seat where the participant with the high frequency of speaking sits in the remote conference room, based on the plurality of the speaking frequencies calculated by the speaking frequency recording unit. remote conference system described in .
前記発話回数記録部は、一定時間内における前記参加者の各々の発話回数の単純平均、又は、直近の比率を高めた前記参加者の各々の発話回数の加重平均に基づいて、前記リモート会議に参加中の前記参加者の各々の発話頻度を算定する、請求項2に記載のリモート会議システム。 The utterance count recording unit is based on a simple average of the number of utterances of each of the participants within a certain period of time, or a weighted average of the number of utterances of each of the participants with the most recent ratio increased. 3. The remote conferencing system of claim 2, wherein the speaking frequency of each of the participating participants is calculated. 前記座席決定部は、前記発話頻度の高い前記参加者が前記リモート会議室において着席する前記座席の位置と、前記発話頻度の低い前記参加者が前記リモート会議室において着席する前記座席の位置と、の間の距離が長くなるように、前記座席の位置を調整する、請求項2又は請求項3に記載のリモート会議システム。 The seat determination unit determines the position of the seat where the participant with the high utterance frequency sits in the remote conference room, the position of the seat where the participant with the low utterance frequency sits in the remote conference room, 4. The remote conference system according to claim 2 or 3, wherein the position of the seat is adjusted so that the distance between is increased. 前記リモート会議クライアント装置は、複数の前記参加者のうち、特定の参加者と、他の特定の参加者とが1対1で対話を行う1対1対話モードを有し、
前記リモート会議サーバー装置は、前記1対1対話モードに設定された前記リモート会議クライアント装置から伝達される音声を、前記1対1対話モードに設定された前記リモート会議クライアント装置のみに配信する、請求項1から請求項4のいずれか1項に記載のリモート会議システム。
The remote conference client device has a one-to-one dialogue mode in which a specific participant and another specific participant among the plurality of participants have a one-to-one dialogue,
wherein said remote conference server device distributes audio transmitted from said remote conference client device set in said one-to-one interaction mode only to said remote conference client device set in said one-to-one interaction mode. The remote conference system according to any one of claims 1 to 4.
前記1対1対話モードの設定は、前記1対1対話モードに設定された前記リモート会議クライアント装置のみが解除可能である、請求項5に記載のリモート会議システム。 6. The remote conference system according to claim 5, wherein setting of said one-to-one interactive mode can be canceled only by said remote conference client device set to said one-to-one interactive mode. 前記座席決定部は、
前記特定の参加者と、前記他の特定の参加者との前記リモート会議室における相対的距離を近づけるように、前記リモート会議室における前記参加者の座席の位置を決定し、
前記特定の参加者と、前記1対1対話モードではない前記リモート会議クライアント装置を割り当てられた前記参加者との前記相対的距離を遠ざけるように、前記リモート会議室における前記参加者の座席の位置を決定する、請求項5又は請求項6に記載のリモート会議システム。
The seat determination unit
determining a seat position of the participant in the remote conference room so as to reduce the relative distance between the specific participant and the other specific participant in the remote conference room;
a seating position of the participant in the remote conference room to distance the relative distance between the particular participant and the participant assigned the remote conference client device not in the one-to-one interaction mode; 7. The remote conference system according to claim 5 or 6, wherein the remote conference system determines
前記リモート会議サーバー装置又は前記リモート会議クライアント装置は、前記1対1対話モードのリモート会議クライアント装置から出力される前記参加者の音声のうち、前記特定の参加者と異なる参加者の音声を、前記特定の参加者の音声より小さい音量で出力させる、請求項5から請求項7のいずれか1項に記載のリモート会議システム。 The remote conference server device or the remote conference client device, among the voices of the participants output from the remote conference client device in the one-to-one interactive mode, converts the voice of the participant different from the specific participant to the 8. The remote conference system according to any one of claims 5 to 7, wherein output is made at a volume lower than that of a specific participant's voice.
JP2021151164A 2021-09-16 2021-09-16 remote conference system Pending JP2023043497A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021151164A JP2023043497A (en) 2021-09-16 2021-09-16 remote conference system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021151164A JP2023043497A (en) 2021-09-16 2021-09-16 remote conference system

Publications (1)

Publication Number Publication Date
JP2023043497A true JP2023043497A (en) 2023-03-29

Family

ID=85725458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021151164A Pending JP2023043497A (en) 2021-09-16 2021-09-16 remote conference system

Country Status (1)

Country Link
JP (1) JP2023043497A (en)

Similar Documents

Publication Publication Date Title
US11991315B2 (en) Audio conferencing using a distributed array of smartphones
JP2975687B2 (en) Method for transmitting audio signal and video signal between first and second stations, station, video conference system, method for transmitting audio signal between first and second stations
US10805575B2 (en) Controlling focus of audio signals on speaker during videoconference
US9049339B2 (en) Method for operating a conference system and device for a conference system
US20050213747A1 (en) Hybrid monaural and multichannel audio for conferencing
US9025002B2 (en) Method and apparatus for playing audio of attendant at remote end and remote video conference system
JP7354225B2 (en) Audio device, audio distribution system and method of operation thereof
US11521636B1 (en) Method and apparatus for using a test audio pattern to generate an audio signal transform for use in performing acoustic echo cancellation
CN102119531A (en) Audio/video system
JP2006254064A (en) Remote conference system, sound image position allocating method, and sound quality setting method
CN102209225B (en) Method and device for realizing video communication
WO2018198790A1 (en) Communication device, communication method, program, and telepresence system
WO2022054900A1 (en) Information processing device, information processing terminal, information processing method, and program
JP2023043497A (en) remote conference system
JP2006339869A (en) Apparatus for integrating video signal and voice signal
JP2001339799A (en) Virtual meeting apparatus
US11589159B2 (en) Networked audio auralization and feedback cancellation system and method
JPH03252258A (en) Directivity reproducing device
US11019216B1 (en) System and method for acoustically defined remote audience positions
WO2017211447A1 (en) Method for reproducing sound signals at a first location for a first participant within a conference with at least two further participants at at least one further location
WO2023286320A1 (en) Information processing device and method, and program
WO2017211448A1 (en) Method for generating a two-channel signal from a single-channel signal of a sound source
JP7191146B2 (en) Distribution server, distribution method, and program
JP4849494B2 (en) Teleconference system, sound image location assignment method, and sound quality setting method
KR20060081966A (en) Sound image location system in teleconference system