JP2020036225A - Information processing apparatus, information processing method, and information processing program - Google Patents
Information processing apparatus, information processing method, and information processing program Download PDFInfo
- Publication number
- JP2020036225A JP2020036225A JP2018161973A JP2018161973A JP2020036225A JP 2020036225 A JP2020036225 A JP 2020036225A JP 2018161973 A JP2018161973 A JP 2018161973A JP 2018161973 A JP2018161973 A JP 2018161973A JP 2020036225 A JP2020036225 A JP 2020036225A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- request
- unit
- utterance
- media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関し、例えば、会議システムに適用し得るものである。 The present invention relates to an information processing apparatus, an information processing method, and an information processing program, and can be applied to, for example, a conference system.
例えば、テレビ会議システムには、参加者が議長端末に発言を要求し、議長の判断により、参加者に発言を許容する発言制御機能がある(特許文献1参照)。 For example, a video conference system has a statement control function in which a participant requests a statement from a chair terminal and allows the participant to speak according to the chairman's judgment (see Patent Document 1).
従来、テレビ会議システムの発言制御の方法は、テレビ会議システムが採用する接続方式(通信プロトコル)で利用可能なイベント通知機能を使用している。例えば、発言要求を希望する会議端末が議長端末にイベント通知し、議長が発言を許可するか否かを判断する。そして、議長が発言を許可する場合に、議長端末が会議サーバに発言許可のイベントを通知している。 2. Description of the Related Art Conventionally, a speech control method of a video conference system uses an event notification function that can be used in a connection method (communication protocol) adopted by the video conference system. For example, a conference terminal requesting a statement request notifies the chair terminal of an event, and the chair determines whether or not to permit speech. When the chair permits speech, the chair terminal notifies the conference server of a speech permission event.
近年のテレビ会議システムとして利用可能な接続方式(通信プロトコル)には様々な方式が存在しており、また、会議端末の種類も多く存在している。例えば、会議端末がゲートウェイを経由して異なる接続方式(通信プロトコル)の会議サーバと接続する方式がある。また、会議端末は専用端末ではなくスマートフォンやタブレット端末等の携帯端末とすることもある。従って、テレビ会議システムは、複数の接続方式や、多種多様な会議端末を収容することが可能になりつつある。 There are various types of connection systems (communication protocols) that can be used as recent video conference systems, and there are many types of conference terminals. For example, there is a method in which a conference terminal connects to a conference server of a different connection method (communication protocol) via a gateway. Further, the conference terminal may be a mobile terminal such as a smartphone or a tablet terminal instead of the dedicated terminal. Therefore, the video conference system is becoming capable of accommodating a plurality of connection methods and various types of conference terminals.
しかしながら、異なる接続方式や多種類の会議端末をテレビ会議システムに接続させたときに、異なる接続方式(通信プロトコル)の会議端末や、異なる種類の会議端末からの発言要求を議長端末に通知することができないという課題が生じ得る。 However, when different connection methods or various types of conference terminals are connected to the video conference system, notification of a request from a conference terminal of a different connection type (communication protocol) or a request for a speech from a different type of conference terminal is sent to the chair terminal. There is a problem that the task cannot be performed.
そのため、複数の接続方式に対応可能であり、複数の端末種類と接続可能な会議システムにおいて、接続方式や端末種類に影響を受けずに、端末からの発言要求を検出して発言制御を行なうことができる情報処理装置、情報処理方法及び情報処理プログラムが求められている。 Therefore, in a conference system that can support a plurality of connection methods and can connect to a plurality of terminal types, it is necessary to detect a speech request from a terminal and perform a speech control without being affected by the connection method or the terminal type. There is a demand for an information processing apparatus, an information processing method, and an information processing program that can perform the processing.
かかる課題を解決するために、第1の本発明に係る情報処理装置は、複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した1又は複数のメディア信号を合成し符号化された合成メディア信号を複数の端末に送信する情報処理装置において、(1)復号された各メディア信号を解析して、各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、(2)発言要求検出手段により発言要求状態が検出されると、発言要求状態を検出したメディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する通知手段とを備えることを特徴とする。 In order to solve such a problem, an information processing apparatus according to a first aspect of the present invention decodes a media signal received from each of a plurality of terminals and converts one or a plurality of media signals selected from the plurality of media signals. In an information processing apparatus that transmits a combined and encoded composite media signal to a plurality of terminals, (1) a statement that analyzes each decoded media signal and detects a predetermined statement request state based on each media signal; When the request request means and (2) the statement request state is detected by the statement request detecting means, statement request information indicating that the request has been made from the source of the media signal that has detected the statement request state is set in advance. Notification means for notifying the speech permission authority terminal.
第2の本発明に係る情報処理方法は、複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した1又は複数のメディア信号を合成し符号化された合成メディア信号を複数の端末に送信する情報処理方法において、(1)発言要求検出手段が、復号された各メディア信号を解析して、各メディア信号に基づいて所定の発言要求状態を検出し、(2)通知手段が、発言要求検出手段により発言要求状態が検出されると、発言要求状態を検出した上メディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知することを特徴とする。 The information processing method according to the second invention decodes a media signal received from each of a plurality of terminals, combines one or a plurality of media signals selected from the plurality of media signals, and encodes the combined media. In the information processing method for transmitting a signal to a plurality of terminals, (1) the speech request detecting unit analyzes each of the decoded media signals, detects a predetermined speech request state based on each of the media signals, and (2) When the statement request detecting means detects the statement request state, the notifying means detects the statement request state, and transmits statement request information indicating that a request has been made from the transmission source of the media signal to a preset statement request. It is characterized in that the permission authority terminal is notified.
第3の本発明に係る情報処理プログラムは、複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した1又は複数のメディア信号を合成し符号化された合成メディア信号を複数の端末に送信する情報処理プログラムにおいて、コンピュータを、(1)復号された各メディア信号を解析して、各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、(2)発言要求検出手段により発言要求状態が検出されると、発言要求状態を検出したメディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する通知手段として機能させることを特徴とする。 An information processing program according to a third aspect of the present invention is a computer-readable storage medium that decodes a media signal received from each of a plurality of terminals, combines one or more media signals selected from the plurality of media signals, and encodes the combined media. In an information processing program for transmitting a signal to a plurality of terminals, the computer includes: (1) a message request detecting unit that analyzes each decoded media signal and detects a predetermined message request state based on each media signal; (2) When the utterance request detecting means detects the utterance request state, the utterance request information indicating that the utterance is requested from the transmission source of the media signal that has detected the utterance request state is transmitted to a predetermined utterance permission authority terminal. It is made to function as a notifying means for notifying to.
本発明によれば、接続方式や端末種別に影響を受けずに、端末からの発言要求を検出して発言制御を行なうことができる。 According to the present invention, it is possible to detect a speech request from a terminal and perform speech control without being affected by a connection method or a terminal type.
(A)主たる実施形態
以下では、本発明に係る情報処理装置、情報処理方法及び情報処理プログラムの実施形態を、図面を参照しながら詳細に説明する。
(A) Main Embodiment Hereinafter, an embodiment of an information processing apparatus, an information processing method, and an information processing program according to the present invention will be described in detail with reference to the drawings.
この実施形態では、本発明を利用してテレビ会議システムを構築する場合を例示する。 In this embodiment, a case where a video conference system is constructed using the present invention will be exemplified.
(A−1)実施形態の構成
(A−1−1)全体構成
図2は、実施形態に係る会議システムの全体構成を示す全体構成図である。
(A-1) Configuration of Embodiment (A-1-1) Overall Configuration FIG. 2 is an overall configuration diagram illustrating an overall configuration of a conference system according to the embodiment.
図2において、実施形態に係る会議システム7は、会議サーバ1、複数(図2では3台)の会議端末5(5−1〜5−3)を有して構成される。
2, a conference system 7 according to the embodiment includes a
会議サーバ1は、会議端末5の接続許可及びアドレス変換処理等の機能を担っているゲートキーパ(GK)2と、複数の拠点にある会議端末5から得た音声、映像、データを合成して会議用データに変換する機能を担っている多地点制御装置(MUC:Multipoint Control Unit、以下「MUC」と呼ぶ。)3とを有する。
The
なお、ゲートキーパ(GK)は、次のような場合においてシステム構成上、設置されない場合もある。 The gatekeeper (GK) may not be installed due to the system configuration in the following cases.
ここで、次のような場合とは、会議サーバ1において、H.323(後述)を使用しない場合、IPアドレスと電話番号の対応を記憶・管理して相手先の会議端末への接続において仲介の必要がない場合などである。
Here, the following case means that in the
例えば、3台以上の参加者(会議端末5)の場合、会議システム7には、MCU3と呼ばれる会議サーバ機能を提供する装置が用いられる。MCU3は、各会議端末5(5−1〜5−3)からの音声/映像を受信し、発言対象の音声を合成して、各会議端末5(5−1〜5−3)に配信する。また、MCU3は、必要な形式の映像を切り変えたり、合成したりして、各会議端末5(5−1〜5−3)に配信する。
For example, in the case of three or more participants (conference terminal 5), a device that provides a conference server function called MCU3 is used for the conference system 7. The MCU 3 receives audio / video from each of the conference terminals 5 (5-1 to 5-3), synthesizes a voice to be uttered, and distributes the synthesized voice to each of the conference terminals 5 (5-1 to 5-3). . Further, the
会議サーバ1は、複数の会議端末5−1〜5−3を接続にして仮想的な会議を設定する。会議サーバ1は、会議に接続する複数の会議端末5−1〜5−3を通じて参加者の音声、映像、データを受信し、会議設定に応じて映像データを合成したり、音声を合成したりして、各会議端末5−1〜5−3に送信する。
The
会議サーバ1は、複数の接続方式を利用できる。会議システムの接続方式(通信プロトコル)には、例えば、SIP(Session Initiation Protocol)、ITU−T勧告通信プロトコルH.323、インターネットを利用したWeb会議サービス(インタネット電話サービス)等がある。
The
ここで、Web会議サービスは、WebRTC(Web Real−Time Communication)を利用し、HTML、HTTP、TCP/IP、UDP/IP等のプロトコルを利用して、会議端末と相互接続することができるものである。 Here, the Web conference service can be interconnected with a conference terminal by using WebRTC (Web Real-Time Communication) and using protocols such as HTML, HTTP, TCP / IP, and UDP / IP. is there.
会議サーバ1は、複数の接続方式に対応可能であり、また多種多様な会議端末5と接続可能である。
The
この実施形態では、例えば、会議端末5−1および会議端末5−2が、会議システムの接続方式(通信プロトコル)としてH.323(またはSIP)を利用する端末であり、会議サーバ1の会議に参加しているものとする。
In this embodiment, for example, the conference terminal 5-1 and the conference terminal 5-2 are connected to the H.264 connection system (communication protocol) of the conference system. It is assumed that the terminal uses H.323 (or SIP) and participates in the conference of the
この実施形態では、例えば、会議端末5−3が、Web会議サービスで用いられている会議システムの接続方式(通信プロトコル)を利用する端末であり、会議サーバ1の会議に参加しているものとする。つまり、会議端末5−3はゲートウェイ(GW)6を経由して会議サーバ1と接続しているものとする。
In this embodiment, for example, the conference terminal 5-3 is a terminal that uses the connection method (communication protocol) of the conference system used in the Web conference service and participates in the conference of the
各会議端末5−1〜5−3は、各拠点において会議に参加する参加者が使用するものであり、例えば、マイク、スピーカ、カメラ、ディスプレイ、制御装置等を含む装置である。各会議端末5−1〜5−3は、例えば、専用会議端末、パーソナルコンピュータ、スマートフォン、タブレット端末、ウェラブル端末、携帯端末等を適用することができる。 Each of the conference terminals 5-1 to 5-3 is used by a participant who participates in a conference at each base, and is, for example, a device including a microphone, a speaker, a camera, a display, a control device, and the like. As each of the conference terminals 5-1 to 5-3, for example, a dedicated conference terminal, a personal computer, a smartphone, a tablet terminal, a wearable terminal, a mobile terminal, and the like can be applied.
各会議端末5(5−1〜5−3)は、例えば、パーソナルコンピュータ上で様々な操作機能を提供するソフトウェアによるものや、また例えば、ハードウェアメーカが独自の操作方式を実装した端末等を適用できる。 Each of the conference terminals 5 (5-1 to 5-3) is, for example, a terminal using software that provides various operation functions on a personal computer, or a terminal in which a hardware maker implements a unique operation method. Applicable.
なお、この実施形態では、3台の会議端末5−1〜5−3が1つ会議を開催する場合を例示するが、1つの会議を開催する会議端末5の数は特に限定されるものではない。
In this embodiment, a case where three conference terminals 5-1 to 5-3 hold one conference is illustrated, but the number of
[発言制御操作部4]
発言制御操作部4は、1又は複数の参加者に対して発言を許可することを指定することができるものである。発言制御操作部4は、会議サーバ1が提供する会議システムの機能のうちの1つの機能である。
[Speech control operation unit 4]
The utterance
より具体的には、複数の参加者の中から、参加者に発言を許可することができる者(発言許可決定者)を決め、その発言許可決定者の会議端末5において、発言制御操作部4が有効に機能する。
More specifically, from among a plurality of participants, a person (speaker permitted to decide) who can give permission to the participant is determined, and in the
一般的には、会議の議長が発言許可決定者となるケースが多いので、ここでは、発言許可決定者の会議端末5を「議長端末」とも呼ぶ。図1では、会議端末5−1を議長端末としている。なお、議長端末は「発言許可権限端末」とも呼ぶ。
In general, in many cases, the chairperson of the conference is the speaker who has determined permission to speak. Therefore, here, the
なお、この実施形態では、発言許可決定者の会議端末5(5−1〜5−3)において設定オンされることにより、発言制御操作部4が有効に機能する場合を例示するがこれに限定されない。
Note that, in this embodiment, a case is described in which the speech
議長端末5−1では、発言を希望する参加者の会議端末5から発言要求を受け付けることができる。発言要求を受信した議長端末5−1では、発言許可決定者が、会議進行等を踏まえた上で、当該参加者に発言を許可するか否かを決定する。
The chair terminal 5-1 can receive a speech request from the
発言許可決定者が当該参加者に発言を許可する場合、発言許可決定者が議長端末5−1において所定の指定方法で当該参加者を指定する。そうすると、議長端末5−1は、当該参加者の会議端末5を指定する情報(発言指定情報)を、MCU3に送信する。
When the speech permission decider permits the participant to speak, the speech permission decider specifies the participant in the chair terminal 5-1 by a predetermined designation method. Then, the chair terminal 5-1 sends information (speech designation information) designating the
議長端末5−1から発言指定情報を受信したMCU3は、指定された会議端末5からの音声(映像を含んでもよい。)を、全ての会議端末5(5−1〜5−3)に送信する合成対象とする。つまり、それまで発言が許可されていなかった参加者の音声が、会議用の合成音声に含まれることになり、他の参加者は、発言が許可された参加者の音声を聞くことができる。なお、以下では、発言する権限を発言権とも呼ぶ。
The
ところで、従来、参加者が発言を希望する場合、従来の会議端末には、発言要求を議長端末に送信する発言要求処理部が搭載されている。発言要求は、要求を行う端末から議長端末に直接行われるものと、MCUを介して間接的に行われる方式があるが、いずれの場合も含まれる。 By the way, conventionally, when a participant wants to speak, the conventional conference terminal is equipped with a statement request processing unit for transmitting a statement request to the chair terminal. The request for speech can be made either directly from the requesting terminal to the chair terminal or indirectly via the MCU, and both are included.
しかし、複数の接続方式に対応可能となり、多種多様な会議端末との間で会議を開催する場合、接続方式(通信プロトコル)が異なるため、発言要求方法を統一することは難しく、また会議端末によっては、発言要求処理部が搭載されていないようなこともある。 However, it is possible to support multiple connection methods, and when holding a conference with a variety of conference terminals, it is difficult to unify the request method because the connection method (communication protocol) is different. May not have a statement request processing unit.
そこで、この実施形態では、会議サーバ1のMCU3が、各会議端末5(5−1〜5−3)から受信した音声信号に基づいて、参加者が発言を希望している又は参加者が発言したという状態を検出して、議長端末5−1の発言制御操作部4に発言要求を通知できるようにする。
Therefore, in this embodiment, the
(A−1−2)MCU3の内部構成
図3は、実施形態に係るMCU3の内部構成を示す内部構成図である。
(A-1-2) Internal Configuration of
図3において、実施形態に係るMUC3は、大別して、音声信号処理部10、映像信号処理部20、制御部30を有する。
3, the
なお、MCU3は、音声信号処理部10、映像信号処理部20を有する場合を例示しているが、データ信号処理部等を有するようにしてもよい。MCU3は、例えばパーソナルコンピュータ等の情報処理装置上に、処理プログラム(例えば、この実施形態に係る情報処理プログラム等)がインストールされることにより構築される。なお、1台の情報処理装置に限定されるものではなく、複数台の情報処理装置に図3の処理部が分散配置されるようにしてもよい。なお、音声信号処理部10、映像信号処理部20の一部又は全部の構成要素がハードウェアで構築されてもよい。
In addition, although the case where the
[制御部30]
制御部30は、MCU3の音声信号処理部10、映像信号処理部20の機能を制御するものであり、会議開催や符号化処理等を制御する。各種機能を司る処理部又は装置である。また、制御部30は、会議サーバ1と各会議端末5(5−1〜5−3)との間の通信回線の帯域制御なども行なう。
[Control unit 30]
The
[音声信号処理部10]
音声信号処理部10は、複数の会議端末5−1〜5−3のそれぞれから受信した音声(符号化処理された音声信号)を復号し、制御部30からの指示に基づいて合成対象とする音声を合成し、その合成信号を符号化処理して、複数の会議端末5−1〜5−3に送信する。
[Audio signal processing unit 10]
The audio
音声信号処理部10は、音声受信部11(11−1〜11−3)、復号部12(12−1〜12−3)、合成部17、符号化部15、音声送信部16(16−1〜16−3)を有する。
The audio
ここで、MCU3は、1つ又は複数の会議を開催するため、開催される会議の数に合わせて1つ又は複数の会議室を、会議システム上に仮想的に形成する。
Here, in order to hold one or more meetings, the
またここで、音声受信部11、復号部12、音声送信部16は、MCU3で開催される会議室1つに対して接続する会議端末5の数だけ作成される。
Also, here, the
音声受信部11(11−1〜11−3)は、対応する会議端末5から音声信号を受信し、その受信した音声信号を復号部12(12−1〜12−3)に与えるものである。
The audio receiving unit 11 (11-1 to 11-3) receives an audio signal from the corresponding
復号部12(12−1〜12−3)は、音声受信部11(11−1〜11−3)から受信した音声信号を復号して、合成部17に与えるものである。MCU3と各会議端末5(5−1〜5−3)との間では、情報量を低減して帯域を確保するために、音声信号は圧縮符号化されて送受信される。音声信号の圧縮符号化方式は特に限定されるものではない。例えば、G.711(ITU−T標準化技術)、G.722、MPEG−4 AAC−LD等に対応可能であり、より具体的にPCM(パルス符号変調方式)、ADPCM(適応差分PCM方式)などを用いることができる。
The decoding unit 12 (12-1 to 12-3) decodes the audio signal received from the audio receiving unit 11 (11-1 to 11-3) and supplies the audio signal to the synthesizing
復号部12(12−1〜12−3)は、会議端末5から受信した音声信号を常時復号して合成部17に与えている。つまり、発言権が付与されている(発言が許可されている)会議端末5からの音声信号だけでなく、発言権が付与されていない(発言が許可されていない)会議端末5から受信した音声信号も復号部12は復号している。
The decoding unit 12 (12-1 to 12-3) constantly decodes the audio signal received from the
合成部17は、復号部12(12−1〜12−3)から復号された音声信号(PCM信号)を受け取ると、合成対象とする1又は複数の音声信号を選択して、選択した音声信号を合成して符号化部15に与える。また、合成部17は、発言要求検出部13、合成対象音声選択部14を有する。
Upon receiving the decoded audio signal (PCM signal) from the decoding unit 12 (12-1 to 12-3), the synthesizing
発言要求検出部13は、復号部12(12−1〜12−3)から復号された音声信号(PCM信号)を受け取ると、各会議端末5からの音声信号に基づいて参加者が発言を要求しているか否かを検出するものである。発言要求検出部13の詳細な説明は後述する。
Receiving the speech signal (PCM signal) decoded from the decoding unit 12 (12-1 to 12-3), the speech
合成対象音声選択部14は、復号部12(12−1〜12−3)から復号された音声信号(PCM信号)の中から合成対象とする音声信号を選択し、合成対象として選択した音声信号を符号化部15に与える。 The synthesis target audio selection unit 14 selects an audio signal to be synthesized from the audio signals (PCM signals) decoded from the decoding units 12 (12-1 to 12-3), and selects the audio signal selected as the synthesis target. To the encoding unit 15.
符号化部15は、合成部17の合成対象音声選択部14により合成された音声信号を受け取り、その音声信号を符号化し、符号化した音声信号を音声送信部16(16−1〜16−3)に与える。
The encoding unit 15 receives the audio signal synthesized by the synthesis target audio selecting unit 14 of the synthesizing
1つの会議に対して、任意の数の符号化部15が作成される。これは、この実施形態の会議サーバ1が、複数の接続方式(通信プロトコル)に対応可能であるため、通信プロトコルが異なることにより、符号化方式が異なることがあるためである。従って、制御部30の指示に従って、対応すべき符号化方式の数に応じた数の符号化部15が作成されるようにしてもよい。
An arbitrary number of encoding units 15 are created for one conference. This is because the
音声信号に対して施す符号化方式は、復号部12の詳細な説明で行なったので、ここでの説明は省略する。
The encoding method applied to the audio signal has been described in the detailed description of the
音声送信部16(16−1〜16−3)は、符号化部15による符号化された音声信号を、対応する会議端末5(5−1〜5−3)に送信する。 The audio transmission unit 16 (16-1 to 16-3) transmits the audio signal encoded by the encoding unit 15 to the corresponding conference terminal 5 (5-1 to 5-3).
[映像信号処理部20]
映像信号処理部20は、複数の会議端末5−1〜5−3のそれぞれから受信した映像(符号化処理された映像信号)を復号し、制御部30からの指示に基づいて、映像形式を変換したり、映像を合成したりして、複数の会議端末5−1〜5−3に送信する。
[Video signal processing unit 20]
The video
映像信号処理部20は、映像受信部21(21−1〜21−3)、復号部22(22−1〜22−3)、合成部27、符号化部25、映像送信部26(26−1〜26−3)を有する。
The video
ここで、MCU3は、1つ又は複数の会議を開催するため、開催される会議の数に合わせて1つ又は複数の会議室を、会議システム上に仮想的に形成する。
Here, in order to hold one or more meetings, the
またここで、映像受信部21、復号部22、映像送信部26は、MCU3で開催される会議1つに対して、接続する会議端末5の数だけ作成される。
Also, here, the
映像受信部21(21−1〜21−3)は、対応する会議端末5から映像信号を受信し、その受信した映像信号を復号部22(22−1〜22−3)に与えるものである。MCU3と各会議端末5(5−1〜5−3)との間では、情報量を低減して帯域を確保するために、映像信号は圧縮符号化されて送受信される。映像信号の圧縮符号化方式は特に限定されるものではない。例えば、H.261、H.263、MPEG−2、MPEG−4、H.264、H.265等などを用いることができる。
The video receivers 21 (21-1 to 21-3) receive video signals from the corresponding
復号部22(22−1〜22−3)は、映像受信部21(21−1〜21−3)から受信した映像信号を復号して、合成部23に与えるものである。 The decoding unit 22 (22-1 to 22-3) decodes the video signal received from the video receiving unit 21 (21-1 to 21-3) and supplies the video signal to the synthesizing unit 23.
合成部23は、復号部22(22−1〜22−3)からの映像信号に基づいて、必要な映像形式に変換し、映像を合成して符号化部25に与える。通常、1つの会議に対して、1個の合成部23が作成される。しかし、1つの会議に対して、複数個の合成部23が作成されるようにしてもよい。
The synthesizing unit 23 converts the video signal into a required video format based on the video signal from the decoding unit 22 (22-1 to 22-3), synthesizes the video, and provides the video to the
符号化部25は、合成部23からの映像信号を符号化して、映像送信部26(26−1〜26−3)に与える。
The
1つの会議に対して、任意の数の符号化部25が作成される。これは、この実施形態の会議サーバ1が、複数の接続方式(通信プロトコル)に対応可能であるため、通信プロトコルが異なることにより、符号化方式が異なることがあるためである。従って、制御部30の指示に従って、対応すべき符号化方式の数に応じた数の符号化部25が作成されるようにしてもよい。
An arbitrary number of
映像信号に対して施す符号化方式は、復号部22の詳細な説明で行なったので、ここでの説明は省略する。
The encoding method applied to the video signal has been described in detail in the
映像送信部26(26−1〜26−3)は、符号化部25による符号化された映像信号を、対応する会議端末5(5−1〜5−3)に送信する。
The video transmission unit 26 (26-1 to 26-3) transmits the video signal encoded by the
(A−1−3)発言要求検出部13の内部構成
図1は、実施形態に係る発言要求検出部13及び発言制御操作部4の内部構成と、発言要求検出部13及び発言制御操作部4の関係を示すブロック図である。
(A-1-3) Internal Configuration of the
図1において、発言要求検出部13は、発言要求対象選択部131、レベル検出部132、DTMF検出部133、音声認識検出部134、キーワード記憶部135、発言要求検知部136を有する。
In FIG. 1, the comment
ここで、「発言要求状態」とは、発言が許可されていないメディアデータ(この実施形態では、音声信号)を解析して、参加者が発言している状態、若しくは、参加者が発言を希望している状態であることを意味する。 Here, the “speaking request state” refers to a state in which a participant is speaking or the participant wants to speak by analyzing media data (sound signal in this embodiment) for which speaking is not permitted. It means that you are doing.
発言要求対象選択部131は、MCU3の制御部30からの発言許可情報に基づいて、復号部12(12−1〜12−3)からの音声信号の中から、発言要求状態の検出対象と音声信号を選択する。つまり、発言要求対象選択部131は、発言が許可されていない参加者の音声信号を選択する。
Based on the speech permission information from the
より具体的に、発言許可情報には、現時点で、発言が許可されている会議端末5の識別情報が含まれている。従って、発言要求対象選択部131は、発言許可情報に基づいて、発言が許可されている会議端末5以外の会議端末5の音声信号を選択する。これにより、会議中で発言権が付与されている参加者以外の参加者の音声を選択し、その選択した音声から、参加者が発言をしているか又は参加者が発言を希望しているかを検出することができる。
More specifically, the speaking permission information includes identification information of the
レベル検出部132は、発言要求対象選択部131により選択された音声信号の音声レベルに基づいて、発言要求状態を検出する。つまり、参加者が発言したときに、音声レベルが増大することが考えられる。そこで、レベル検出部132は、音声信号の音声レベルを監視して、音声レベルが増大した状態を発言要求状態と捉えて、発言要求状態を検出する。より具体的に、レベル検出部132は、各会議端末5の音声レベルの時系列変化を監視し、音声レベルの時系列変化の傾きが閾値を越えて急峻に増大したときに発言要求状態としてもよい。また、各会議端末5の音声レベルが、1又は複数の閾値を越えたときに発言要求状態としてもよい。
The
DTMF検出部133は、発言要求対象選択部131により選択された音声信号に基づいて、周波数帯の合成信号音(DTMF信号)を検出したときに発言要求状態を検出する。例えば、会議端末5にDTMF送出器が搭載されている場合、発言を要求するときには、いずれかのDTMF信号を送出することを参加者の間で取り決めておくことで実現できる。これにより、発言を要求する参加者がDTMF送出器を操作して、DTMF信号を含む音声信号がMCU3に送信され、DTMF検出部133がDTMF信号を検出することで、発言要求状態を検出できる。
The DTMF detection unit 133 detects a speech request state when detecting a synthesized signal tone (DTMF signal) in a frequency band based on the audio signal selected by the speech request target selection unit 131. For example, when the
音声認識検出部134は、発言要求対象選択部131により選択された音声信号に基づいて音声認識処理を行ない、その音声認識結果に基づいて発言要求状態を検出する。キーワード記憶部135は予め設定されたメッセージを記憶しているコーパス(辞書)である。キーワード記憶部135には、少なくとも、参加者が発言を要求することを示すキーワードが記憶されている。音声認識検出部134は、音声認識アルゴリズムにより、音声信号を音波に変換して音素を特定してパターンマッチングにより音声認識を行なう。音声認識検出部134は、キーワード記憶部135を参照して、得られた単語とキーワードとをマッチングして発言を要求しているか否かを判断する。なお、音声認識アルゴリズムは特に限定されるものではない。
The voice recognition detection unit 134 performs a voice recognition process based on the voice signal selected by the voice request target selection unit 131, and detects a voice request state based on the voice recognition result. The
ここで、レベル検出部132、DTMF検出部133及び音声認識検出部134について、いずれかの検出方法を指定することができる。1個の検出方法を指定してもよいし、複数の検出方法を指定してもよい。検出方法の選択方法は、様々な方法を適用することができる。例えば、予め検出方法を設定しておくようにしてもよい。また、参加者又は議長による操作により、会議端末5が検出方法を指定するようにしてもよい。
Here, any one of the detection methods can be designated for the
また、レベル検出部132、DTMF検出部133又は音声認識検出部134が、発言が許可されていない音声信号(復号信号)を監視し、音声信号から発言要求状態を検出することにより、以下のメリットがある。
In addition, the
上述したように、復号部12(12−1〜12−3)は、会議端末5(5−1〜5−3)から受信した音声信号を常時復号している。つまり、復号部12は、発言が許可されている参加者(会議端末5)の音声だけでなく、発言が許可されていない参加者(会議端末5)からの音声も常時復号している。そして、従来、発言が許可されていない参加者の復号音声については廃棄されている。これは、発言が許可されていない参加者の復号音声は、合成対象とする音声信号ではないためである。
As described above, the decoding unit 12 (12-1 to 12-3) constantly decodes the audio signal received from the conference terminal 5 (5-1 to 5-3). That is, the
しかし、この実施形態では、従来、合成対象としないために廃棄していた、発言が許可されていない参加者の復号音声を、レベル検出部132、DTMF検出部133及び音声認識検出部134が監視して、当該参加者の発言要求状態を検出するようにしている。
However, in this embodiment, the
別の観点から見ると、従来は、音声を合成する際に利用しない音声についても復号部12は常時復号しており、処理負荷がかかると共に復号音声が有効に活用されていなかった。しかし、この実施形態によれば、常時復号される復号音声を有効に活用することができ、この方式実装により復号部12の処理負荷が増大することもない。
From another point of view, conventionally, the
発言要求検知部136は、レベル検出部132、DTMF検出部133又は音声認識検出部34により発言要求状態が検出されると、発言制御操作部4の発言要求受信部41に発言要求信号を通知する。これにより、接続方式や会議端末5の種別等が異なる場合でも、発言制御操作部4に対して発言要求信号を通知することができる。
When the speech request detection unit 136 detects the speech request state by the
図1に示すように、実施形態に係る発言制御操作部4は、発言要求受信部41、発言要求表示部42、発言指定部43を有する。
As illustrated in FIG. 1, the utterance
発言要求受信部41は、MCU3から発言要求信号を受信する。上述したように、MCU3の発言要求検出部13により発言要求状態が検出されると、発言要求検出部13から発言要求信号を受信する。
The comment request receiving unit 41 receives a comment request signal from the
発言要求表示部42は、当該発言制御操作部4を搭載している自端末5(すなわち、議長端末)のディスプレイ(表示部)に、発言要求があった旨を表示する。これにより、議長に、他の参加者が発言を希望していることを報知することができる。
The statement request display section 42 displays on the display (display section) of the terminal 5 (that is, the chair terminal) on which the statement
発言指定部43は、発言を要求している参加者に対して議長が発言許可する場合に、その参加者に発言許可を示す発言指定情報を、MCU3に通知する。発言指定情報は、例えば、その参加者の会議端末5の識別情報を含むようにする。これにより、合成対象音声選択部14は、MCU30の制御部30からの発言指定情報に基づいて、発言許可されていない参加者の音声信号を合成対象とすることができる。
When the chair permits the participant who is requesting the utterance to speak, the utterance designation unit 43 notifies the
(A−2)実施形態の動作
[会議サーバ(音声信号処理部)全体の動作]
以下では、まず、会議サーバ1における音声信号処理の動作を、図面を参照して説明する。
(A-2) Operation of Embodiment [Overall Operation of Conference Server (Audio Signal Processing Unit)]
Hereinafter, first, the operation of the audio signal processing in the
図4は、この実施形態に係る音声信号処理部10の全体の動作について示した説明図である。
FIG. 4 is an explanatory diagram showing the overall operation of the audio
会議サーバ1と会議端末5−1〜5−3との間の呼の確立時に、MCU3は各会議端末5−1〜5−3に、音声信号の送信先情報を通知する(S11)。音声信号の送信先情報には、音声信号処理部10の音声受信部11−1〜11−3のサーバアドレス、通信ポート番号の情報が含まれる。サーバアドレス、通信ポート番号の情報は、呼の確立時に、制御部30が音声信号処理部10に割り当てたものを用いる。そして、呼の確立後、各会議端末5−1〜5−3は、音声信号を音声信号処理部10に送信する。
When a call is established between the
音声信号処理部10では、会議端末5−1〜5−3ごとに、音声受信部11−1〜11−3、復号部12−1〜12−3、音声送信部16−1〜16−3が作成される(S12)。ここでは、会議サーバ1は、3台の会議端末5−1〜5−3と呼を確立するので、それぞれの会議端末5−1〜5−3に対応する音声受信部11−1〜11−3、復号部12−1〜12−3、音声送信部16−1〜16−3が作成される。
In the audio
会議端末5−1〜5−3からの音声信号が音声受信部11−1〜11−3により受信され、受信された音声信号が復号部12−1〜12−3により復号され、復号音声が得られる(S13)。 Audio signals from the conference terminals 5-1 to 5-3 are received by the audio receiving units 11-1 to 11-3, and the received audio signals are decoded by the decoding units 12-1 to 12-3. Obtained (S13).
復号された音声信号は合成部17に送られ、合成部17により音声信号が合成される(S14)。このとき、制御部30は合成対象に関する情報を合成部17に指示しており、合成部17は制御部30から指示された合成対象の音声信号を合成する。すなわち、発言許可された会議端末の識別情報が含まれる発言許可情報が制御部30から合成部17に通知され、合成部17は発言許可されている会議端末5からの音声信号を合成する。
The decoded audio signal is sent to the synthesizing
そして、合成された音声信号は符号化部15に与えられ、符号化部15により音声信号が符号化される(S15)。 Then, the synthesized audio signal is provided to the encoding unit 15, and the audio signal is encoded by the encoding unit 15 (S15).
符号化部15で符号化された音声信号は、制御部30の指示に応じて、対応する音声送信部16−1〜16−3に送られ、会議端末5−1〜5−3に送信される(S16)。会議の終了まで上述のステップS13の処理から再度動作する。
The audio signal encoded by the encoding unit 15 is transmitted to the corresponding audio transmission units 16-1 to 16-3 according to the instruction of the
[発言要求検出処理]
次に、実施形態に係るMCU3における発言要求検出処理を、図面を参照しながら詳細に説明する。
[Speech request detection process]
Next, a speech request detection process in the
図5は、実施形態に係るMCU3における発言要求検出処理を示すフローチャートである。
FIG. 5 is a flowchart illustrating a statement request detection process in the
図4のS14で説明したように、合成部17には制御部30から発言許可情報が通知され、合成部17の合成対象音声選択部14は、発言許可情報に基づいて合成対象の音声信号を合成する。
As described in S14 of FIG. 4, the synthesizing
このような合成対象音声選択部14による音声合成処理と共に、発言要求検出部13は、発言許可されていない参加者の音声信号を監視している。
Along with such speech synthesis processing by the synthesis target speech selection unit 14, the speech
なお、発言要求状態の検出方法は、音声レベル方式、DTMF検出方式、音声認識方式のいずれか又はこれらを組み合わせたものが指定される。 As the method of detecting the speech request state, any one of a voice level method, a DTMF detection method, and a voice recognition method or a combination thereof is designated.
図5において、発言要求対象選択部131は、発言許可情報に基づいて、発言許可されていない参加者(会議端末5)の音声信号を選択する(S101)。 In FIG. 5, the statement request target selection unit 131 selects a voice signal of a participant (conference terminal 5) not permitted to speak, based on the statement permission information (S101).
[音声レベル方式]
発言要求状態の検出方法として音声レベル方式が指定されるときの動作を説明する。
[Audio level method]
The operation when the voice level method is designated as the method of detecting the speech request state will be described.
レベル検出部132は、合成対象音声選択部14により選択された音声信号を監視する。レベル検出部132は、入力された音声信号の音声レベル値と閾値とを比較し、音声レベル値が閾値より大きいか否かを判断する(S102)。
The
そして、音声レベル値が閾値より大きい場合、レベル検出部132は、発言要求状態を検出し、S106に移行する。音声レベル値が閾値以下の場合、S101に戻り、レベル検出部132は音声信号の監視を続ける。
Then, when the voice level value is larger than the threshold, the
例えば、会議進行中に、発言許可されていない参加者が何らかの発言をしたときに又は参加者が「議長、発言させてください。」などと発したときには、当該拠点の会議端末5からの音声信号の音声レベルは増大することになる。なお、この参加者の音声は合成対象ではないので、この時点では、合成音声には含まれておらず、他の参加者は聞くことはできない。しかし、そのような場合でも、音声レベル値が閾値より大きくなるので、発言要求状態と検出され、発言制御操作部4に対して発言要求が通知されることになる。
For example, when a participant who is not permitted to speak makes a certain speech while the conference is in progress, or when the participant makes a statement such as “Chair, please let me speak”, an audio signal from the
なお、ここでは、音声信号の音声レベル値と閾値とを比較する場合を例示したが、音声レベルの時系列変化を監視し、音声レベルの時系列変化の傾きと閾値とを比較して、傾きが閾値より大きいときに、発言要求状態を検出したとしてもよい。あるいは、音声レベルの時系列で一定レベルの音声が一定時間の平均音声レベル(閾値)を超えた場合を、発言要求状態を検出したとしてもよい。 Here, the case where the audio level value of the audio signal is compared with the threshold has been described as an example, but the time series change of the audio level is monitored, and the inclination of the audio level time series change is compared with the threshold. Is larger than the threshold value, the statement request state may be detected. Alternatively, the voice request state may be detected when the voice of a certain level in the time series of the voice level exceeds the average voice level (threshold) for a certain time.
[DTMF検出方式]
発言要求状態の検出方法としてDTMF方式が指定されるときの動作を説明する。
[DTMF detection method]
The operation when the DTMF method is specified as the method of detecting the speech request state will be described.
DTMF検出部133は、発言要求対象選択部131により選択された音声信号を監視する。DTMF検出部133は、入力された音声信号に、周波数帯の合成信号音(DTMF信号)が含まれているか否かを判断する(S103)。 The DTMF detection unit 133 monitors the audio signal selected by the speech request target selection unit 131. The DTMF detection unit 133 determines whether or not the input audio signal includes a synthesized signal sound (DTMF signal) in a frequency band (S103).
そして、DTMF信号が含まれているとき、DTMF検出部133は、発言要求状態を検出し、S106に移行する。DTMF信号が含まれていないとき、S101に戻り、DTMF検出部133は音声信号の監視を続ける。 Then, when the DTMF signal is included, the DTMF detection unit 133 detects the speech request state, and proceeds to S106. When the DTMF signal is not included, the process returns to S101, and the DTMF detection unit 133 continues monitoring the audio signal.
[音声認識方式]
発言要求状態の検出方法として音声認識方式が指定されるときの動作を説明する。
[Speech recognition method]
The operation when the voice recognition method is specified as the method of detecting the speech request state will be described.
音声認識検出部134は、発言要求対象選択部131により選択された音声信号を監視する。音声認識検出部134は、音声認識アルゴリズムにより、音声信号を音波に変換し、音素を特定して、パターンマッチングにより音声認識を行なう(S104)。音声認識検出部134は、キーワード記憶部135を参照して、得られた単語とキーワードとをマッチングする(S105)。 The speech recognition detection unit 134 monitors the speech signal selected by the speech request target selection unit 131. The voice recognition detection unit 134 converts a voice signal into a sound wave by a voice recognition algorithm, specifies a phoneme, and performs voice recognition by pattern matching (S104). The speech recognition detection unit 134 matches the obtained word with the keyword by referring to the keyword storage unit 135 (S105).
そして、キーワードが検出されると、音声認識検出部134は、発言要求状態を検出し、S106に移行する。キーワードが検出されないとき、S101に戻り、音声認識検出部134は音声信号の監視を続ける。 Then, when the keyword is detected, the voice recognition detection unit 134 detects the state of the utterance request, and proceeds to S106. When no keyword is detected, the process returns to S101, and the voice recognition detection unit 134 continues monitoring the voice signal.
例えば、キーワード記憶部135に、「議長」、「発言させてください」などの発言を要求するキーワードを記憶しておく。そして、発言許可されていない参加者が「議長、発言させてください。」などと発したときには、音声認識により発言要求状態と検出さる。従って、発言制御操作部4に対して発言要求が通知されることになる。
For example, in the
次に、発言要求検知部136は、レベル検出部132、DTMF検出部133又は音声認識検出部34から検出結果が通知される。
Next, the speech request detection unit 136 is notified of a detection result from the
そして、発言要求状態が検出されると、発言要求検知部136は、発言要求状態を検出した会議端末5の識別情報を含む発言要求信号を、発言制御操作部4に通知する(S106)。
When the speech request state is detected, the speech request detection unit 136 notifies the speech
発言制御操作部4では、議長が、当該参加者に発言許可するか否かを判断する。そして、議長が当該参加者に発言を許可する場合に、その参加者の会議端末5の識別情報を含む発言指定情報がMCU3に送信される。MCU3の制御部30を通じて、発言指定情報が合成対象音声選択部14に受信されると(S107)、合成対象音声選択部14は、発言指定情報で指定された会議端末5の音声信号を合成対象に設定する(S108)。これにより、当該参加者の音声も含んだ音声合成が作成される。
In the statement
(A−3)実施形態の効果
以上のように、この実施形態によれば、発言制御を使用する会議室で、特別な発言要求機構を使用しなくても、復号された音声信号を監視することで、参加者が発言をしたこと又は発言を希望していることを検出でき、その参加者に発言許可の是非を判断させることができる。
(A-3) Effects of Embodiment As described above, according to this embodiment, a decoded audio signal is monitored in a conference room using speech control without using a special speech request mechanism. This makes it possible to detect that the participant has made a statement or desires to make a statement, and allows the participant to determine whether or not to permit speech.
また、この実施形態は、復号された音声信号から発言要求状態を検出するので、会議サーバとの通信プロトコル(接続方式)の違いや、インターネットを利用した接続や、会議端末の種別の違いに拘わらず、発言制御を行なうことができる。その結果、多種多様な端末を相互利用して、会議システムを実現することができる。 Further, in this embodiment, since the speech request state is detected from the decoded audio signal, regardless of the difference in the communication protocol (connection method) with the conference server, the connection using the Internet, and the difference in the type of the conference terminal, Utterance control can be performed. As a result, a conference system can be realized by mutually using various terminals.
さらに、この実施形態は、従来、常時各拠点からの音声を復号して音声合成に利用しない音声を廃棄していたが、音声合成に利用していない音声信号を有効に利用することができるため、音声復号による処理増加も生じない。 Furthermore, in this embodiment, conventionally, the voice from each site is always decoded and the voice not used for the voice synthesis is discarded, but the voice signal not used for the voice synthesis can be effectively used. Also, there is no increase in processing due to voice decoding.
(B)他の実施形態
上述した実施形態においても種々の変形実施形態を言及したが、本発明は、以下の変形実施形態にも適用することができる。
(B) Other Embodiments Although various modified embodiments have been described in the above-described embodiments, the present invention can be applied to the following modified embodiments.
(B−1)上述した実施形態では、発言許可されていない参加者(会議端末)の音声信号に基づいて、参加者が発言した又は参加者が発言を希望していることを検出する場合を例示した。しかし、これに限定される、発言許可されていない参加者(会議端末)の画像データに基づいて検出するようにしてもよい。 (B-1) In the above-described embodiment, the case where it is detected that a participant has made a speech or that the participant wants to make a speech is detected based on a voice signal of a participant (conference terminal) not permitted to speak. Illustrated. However, the detection may be performed based on image data of a participant (conference terminal) not permitted to speak, which is limited to this.
例えば、図6に例示するように、映像信号処理部20の合成部24が、上述した実施形態における発言要求検出部13の代わりに発言要求検出部13−1とを備え、発言要求検出部13−1が、復号された画像データを解析して、発言要求状態を検出するようにしてもよい。その際、図6に例示するように、合成対象音声選択部14の代わりに合成対象音声選択部14−1が、合成対象として選択した音声信号を符号化部15に与えるようにする。
For example, as illustrated in FIG. 6, the synthesizing unit 24 of the video
ここで、発言要求検出部13−1は、復号部22(22−1〜22−3)から復号された映像信号を受け取ると、各会議端末5からの映像信号に基づいて参加者が発言を要求しているか否かを検出するものである。発言要求検出部13−1の詳細な説明は後述する。なお、発言要求検出部13−1は、上述した実施形態の発言要求検出部13と併用して使用することも可能である。
Here, when the speech request detection unit 13-1 receives the decoded video signal from the decoding unit 22 (22-1 to 22-3), the participant makes a speech based on the video signal from each
ここで、合成対象音声選択部14−1は、制御部30を介して受信した発言要求検出部13−1の検出結果に基づいて、復号部12(12−1〜12−3)から復号された音声信号の中から、合成対象とする音声信号を選択し、合成対象として選択した音声信号を符号化部15に与える。なお、合成対象音声選択部14−1は、上述した実施形態の合成対象音声選択部14と併用して使用することも可能である。
Here, the synthesis target voice selection unit 14-1 is decoded by the decoding unit 12 (12-1 to 12-3) based on the detection result of the speech request detection unit 13-1 received via the
ここでは、例えば、参加者がカメラに向かって手を振ることで、発言を希望することをアピールしていることを、発言要求検出部13−1が検出する場合を例示する。 Here, for example, a case is described in which the statement request detection unit 13-1 detects that the participant is appealing for a statement by waving his hand toward the camera.
このような場合、発言要求検出部13−1は、復号された映像ストリームに対して動き検出(又は動体検出)アルゴリズムにより、発言許可されていない参加者の動きを検出するようにしてもよい。なお、動き検出アルゴリズムは、種々のアルゴリズムを適用することができる。例えば、発言要求検出部13−1は、映像ストリームをフレーム毎に区切り、例えば、「手」のように、検出可能な物体を予め登録して対象物を検出し、オブジェクトの移動量や移動速度と予め設定した閾値との比較結果に基づいて、発言要求状態を検出するなどの方法を適用してもよい。勿論、これに限定されるものではなく、映像ストリームから、発言を要求している参加者の動き(動作)を検出することができれば、様々な方法を適用できる。 In such a case, the speech request detection unit 13-1 may detect the motion of a participant whose speech is not permitted by using a motion detection (or moving object detection) algorithm for the decoded video stream. Note that various algorithms can be applied to the motion detection algorithm. For example, the utterance request detection unit 13-1 divides the video stream into frames, detects a detectable object such as a "hand" in advance, detects the target, and detects the moving amount and moving speed of the object. For example, a method of detecting a speech request state based on a comparison result between the command and a preset threshold may be applied. Of course, the present invention is not limited to this, and various methods can be applied as long as the movement (movement) of the participant who is requesting the speech can be detected from the video stream.
7…会議システム7…会議サーバ、2…ゲートキーパ(GK)、3…MCU、10…音声信号処理部、20…映像信号処理部、30…制御部、
11(11−1〜11−3)…音声受信部、12(12−1〜12−3)…復号部、17…合成部、15…符号化部、16(16−1〜16−3)…音声送信部、13…発言要求検出部、14…合成対象選択部、
131…発言要求対象選択部、132…レベル検出部、133…DTMF検出部、134…音声認識検出部134…キーワード記憶部、136…発言要求検知部、
5(5−1〜5−3)…会議端末、4…発言制御操作部、41…発言要求受信部、42…発言要求表示部、43…発言指定部。
7 conference system 7 conference server, 2 gatekeeper (GK), 3 MCU, 10 audio signal processing unit, 20 video signal processing unit, 30 control unit,
11 (11-1 to 11-3): voice receiving unit, 12 (12-1 to 12-3): decoding unit, 17: combining unit, 15: coding unit, 16 (16-1 to 16-3) ... Speech transmission unit, 13 ... Speaking request detection unit, 14 ... Synthesis target selection unit,
131: utterance request target selection unit 132: level detection unit 133: DTMF detection unit 134: voice recognition detection unit 134: keyword storage unit 136: utterance request detection unit
5 (5-1 to 5-3): conference terminal, 4: speech control operation unit, 41: speech request receiving unit, 42: speech request display unit, 43: speech designation unit.
Claims (9)
上記復号された各メディア信号を解析して、上記各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、
上記発言要求検出手段により上記発言要求状態が検出されると、上記発言要求状態を検出した上記メディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する通知手段と
を備えることを特徴とする情報処理装置。 An information processing apparatus that decodes a media signal received from each of a plurality of terminals, combines one or a plurality of media signals selected from the plurality of media signals, and transmits an encoded combined media signal to the plurality of terminals. At
Analyzing each of the decoded media signals, speech request detection means for detecting a predetermined speech request state based on each of the media signals,
When the utterance request detecting means detects the utterance request state, the utterance request information indicating that the utterance is requested from the transmission source of the media signal that has detected the utterance request state is transmitted to the utterance permission authority set in advance. An information processing apparatus comprising: a notification unit that notifies a terminal.
上記発言要求検出手段が、復号された音声信号のうち、合成音声に利用されていない各音声信号の時系列変化に基づいて、上記発言要求状態を検出することを特徴とする請求項1又は2に記載の情報処理装置。 The media signal is an audio signal,
3. The speech request detection unit according to claim 1, wherein the speech request detection unit detects the speech request state based on a time-series change of each audio signal not used for the synthesized speech among the decoded audio signals. An information processing apparatus according to claim 1.
上記発言要求検出手段が、復号された映像信号のうち、合成映像に利用されていない各映像信号の時系列変化に基づいて、上記発言要求状態を検出することを特徴とする請求項1又は2に記載の情報処理装置。 The media signal is a video signal,
3. The speech request detection unit according to claim 1, wherein the speech request detection unit detects the speech request state based on a time-series change of each video signal not used for the composite video among the decoded video signals. An information processing apparatus according to claim 1.
発言要求検出手段が、上記復号された各メディア信号を解析して、上記各メディア信号に基づいて所定の発言要求状態を検出し、
通知手段が、上記発言要求検出手段により上記発言要求状態が検出されると、上記発言要求状態を検出した上記メディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する
ことを特徴とする情報処理方法。 An information processing method for decoding a media signal received from each of a plurality of terminals, combining one or a plurality of media signals selected from the plurality of media signals, and transmitting an encoded combined media signal to the plurality of terminals At
The speech request detection means analyzes each of the decoded media signals and detects a predetermined speech request state based on each of the media signals.
When the notifying means detects the utterance request state by the utterance request detecting means, utterance request information indicating that an utterance has been requested from the transmission source of the media signal that has detected the utterance request state is set in advance. An information processing method for notifying an authorized speech permission terminal.
コンピュータを、
上記復号された各メディア信号を解析して、上記各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、
上記発言要求検出手段により上記発言要求状態が検出されると、上記発言要求状態を検出した上記メディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する通知手段と
して機能させることを特徴とする情報処理プログラム。 An information processing program for decoding a media signal received from each of a plurality of terminals, combining one or a plurality of media signals selected from the plurality of media signals, and transmitting an encoded combined media signal to the plurality of terminals At
Computer
Analyzing each of the decoded media signals, speech request detection means for detecting a predetermined speech request state based on each of the media signals,
When the utterance request detecting means detects the utterance request state, utterance request information indicating that the source of the media signal that has detected the utterance request state has requested utterance is set to a predetermined utterance permission authority. An information processing program for functioning as a notifying means for notifying a terminal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018161973A JP2020036225A (en) | 2018-08-30 | 2018-08-30 | Information processing apparatus, information processing method, and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018161973A JP2020036225A (en) | 2018-08-30 | 2018-08-30 | Information processing apparatus, information processing method, and information processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020036225A true JP2020036225A (en) | 2020-03-05 |
Family
ID=69668788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018161973A Pending JP2020036225A (en) | 2018-08-30 | 2018-08-30 | Information processing apparatus, information processing method, and information processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020036225A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021241221A1 (en) * | 2020-05-26 | 2021-12-02 | ソニーグループ株式会社 | Information processing device and information processing method |
WO2023157650A1 (en) * | 2022-02-16 | 2023-08-24 | ソニーグループ株式会社 | Signal processing device and signal processing method |
-
2018
- 2018-08-30 JP JP2018161973A patent/JP2020036225A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021241221A1 (en) * | 2020-05-26 | 2021-12-02 | ソニーグループ株式会社 | Information processing device and information processing method |
WO2023157650A1 (en) * | 2022-02-16 | 2023-08-24 | ソニーグループ株式会社 | Signal processing device and signal processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9509953B2 (en) | Media detection and packet distribution in a multipoint conference | |
US7623550B2 (en) | Adjusting CODEC parameters during emergency calls | |
US8379076B2 (en) | System and method for displaying a multipoint videoconference | |
EP2119107B1 (en) | Multipoint conference video switching | |
RU2398361C2 (en) | Intelligent method, audio limiting unit and system | |
RU2398362C2 (en) | Connection of independent multimedia sources into conference communication | |
US7822050B2 (en) | Buffering, pausing and condensing a live phone call | |
EP1496700B1 (en) | Apparatus, method and computer program for supporting video conferencing in a communication system | |
US20050069114A1 (en) | Method and apparatus for improving nuisance signals in audio/video conference | |
US20080084831A1 (en) | Active source identification for conference calls | |
JP2012213214A (en) | Spatially correlated audio in multipoint videoconference | |
JP2005033664A (en) | Communication device and its operation control method | |
JP2004531952A (en) | Control unit for multipoint multimedia / audio system | |
US9369511B2 (en) | Telecommunication network | |
JP2020036225A (en) | Information processing apparatus, information processing method, and information processing program | |
JP2011077839A (en) | Information sharing system | |
JP4531013B2 (en) | Audiovisual conference system and terminal device | |
JP2002290940A (en) | Video conference system | |
JP6289178B2 (en) | Call conferencing system | |
JP2007228506A (en) | Multi-subscriber call system, call terminal and call server in the multi-subscriber call system, and talking method for multi-subscribers | |
US20030091162A1 (en) | Telephone data switching method and system | |
JP2022108957A (en) | Data processing device, data processing system, and voice processing method | |
JPH09149395A (en) | Communication equipment | |
JP6089516B2 (en) | Multipoint conference server, multipoint conference server program, and multipoint conference system | |
JP2007013764A (en) | Video and sound distribution system, method and program |