JP2024031682A - Processing equipment, processing method and program - Google Patents
Processing equipment, processing method and program Download PDFInfo
- Publication number
- JP2024031682A JP2024031682A JP2022135384A JP2022135384A JP2024031682A JP 2024031682 A JP2024031682 A JP 2024031682A JP 2022135384 A JP2022135384 A JP 2022135384A JP 2022135384 A JP2022135384 A JP 2022135384A JP 2024031682 A JP2024031682 A JP 2024031682A
- Authority
- JP
- Japan
- Prior art keywords
- audio information
- processing
- information
- received
- satisfies
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 127
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000005259 measurement Methods 0.000 claims description 46
- 238000004891 communication Methods 0.000 claims description 29
- 230000005540 biological transmission Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 abstract description 6
- 230000001629 suppression Effects 0.000 description 25
- 230000006870 function Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Images
Abstract
【課題】ユーザに対して負担をかけずにハウリングを抑制することができる、処理装置、処理方法およびプログラムを提供する。【解決手段】ユーザにて使用される処理装置としての第1のPC20Aであって、前記ユーザにて使用されるマイク32から入力される信号に基づく入力音声情報と、他の処理装置としての第2のPC20Bから受信した受信音声情報とを比較して、第1の所定条件を満たす音声情報を有するかを判断する、第1処理部としてのハウリングチェック部27aと、前記入力音声情報における音量情報と前記受信音声情報における音量情報とを比較して、前記入力音声情報における音量情報が第2の所定条件を満たすと判断されたならば、前記受信音声情報の出力を下げる処理を行う第2処理部および第3処理部としての出力音声レベル制御部27bと、を備える。【選択図】図4The present invention provides a processing device, a processing method, and a program that can suppress howling without imposing a burden on a user. [Solution] A first PC 20A as a processing device used by a user receives input audio information based on a signal input from a microphone 32 used by the user, and a first PC 20A as a processing device used by the user. a howling check unit 27a as a first processing unit that compares the received audio information received from the PC 20B of No. 2 and determines whether there is audio information that satisfies a first predetermined condition; and volume information in the input audio information. and volume information in the received audio information, and if it is determined that the volume information in the input audio information satisfies a second predetermined condition, a second process of reducing the output of the received audio information. and an output audio level control section 27b as a third processing section. [Selection diagram] Figure 4
Description
本発明は、処理装置、処理方法およびプログラムに関する。 The present invention relates to a processing device, a processing method, and a program.
Web会議システムに使用される技術としてWebRTC(Web Real-Time Communication)が存在する。WebRTCは、HTML(Hyper Text Markup Language)のAPI(Application Programming Interface)の一つであり、ソースコードが公開されているオープン規格である。WebRTCは、映像や音声などの大容量のデータをリアルタイムに送受信できることに加え、不特定多数の人がファイルなどを送受信することが可能な仕組みが備わっている(非特許文献1参照)。 WebRTC (Web Real-Time Communication) exists as a technology used in a web conference system. WebRTC is one of the APIs (Application Programming Interfaces) of HTML (Hyper Text Markup Language), and is an open standard whose source code is publicly available. In addition to being able to send and receive large amounts of data such as video and audio in real time, WebRTC is equipped with a mechanism that allows an unspecified number of people to send and receive files and the like (see Non-Patent Document 1).
ここで、Web会議システムを利用する場合に、ハウリングが問題となるときがある。ハウリングは、スピーカから出た音が再びマイクで収音・増幅されてスピーカから出力されるという拡声のループによって、ある帯域の音が増幅されることにより発生する。例えば、同じ空間(一例は会議室)にいる複数人が各々のPCを用いてWeb会議システムに参加することなどによってハウリングが発生する。ハウリングを抑制する手段として「(1)参加者同士の距離を持たせる」、「(2)壁から離れて、反響を防ぐ」、「(3)音量をおさえる」、「(4)発言しない場合は、ミュートにする」などの対策が有効であることが知られている(非特許文献2参照)。 Here, when using a web conference system, howling may sometimes become a problem. Howling occurs when sound in a certain band is amplified by a loudspeaker loop in which the sound emitted from the speaker is picked up and amplified again by a microphone, and then output from the speaker. For example, howling occurs when multiple people in the same space (for example, a conference room) participate in a web conference system using their respective PCs. Measures to suppress feedback include ``(1) Keeping distance between participants,'' ``(2) Moving away from walls to prevent echoes,'' ``(3) Keeping volume down,'' and ``(4) Not speaking.'' It is known that countermeasures such as "muting the user" are effective (see Non-Patent Document 2).
しかしながら、従来のハウリングを抑制する手段は、Web会議システムのユーザに対応を委ねるものであるので、ユーザが煩わしさを感じる場合があった。 However, since the conventional means for suppressing howling leaves the responsibility to the user of the web conference system, the user may find it troublesome.
本発明は、前記課題に鑑みてなされたものであり、ユーザに対して負担をかけずにハウリングを抑制することができる、処理装置、処理方法およびプログラムを提供するものである。 The present invention has been made in view of the above problems, and provides a processing device, a processing method, and a program that can suppress howling without imposing a burden on the user.
前記課題を解決するため、本発明に係る処理装置は、ユーザにて使用される処理装置であって、前記ユーザにて使用されるマイクから入力される信号に基づく入力音声情報と、他の処理装置から受信した受信音声情報とを比較して、第1の所定条件を満たす音声情報を有するかを判断する、第1処理部と、前記第1処理部において前記第1の所定条件を満たす音声情報を有すると判断されたならば、前記入力音声情報における音量情報と前記受信音声情報における音量情報とを比較して、前記入力音声情報における音量情報が第2の所定条件を満たすか否かを判断する、第2処理部と、前記第2処理部において前記入力音声情報における音量情報が前記第2の所定条件を満たすと判断されたならば、前記受信音声情報の出力を下げる処理を行う、第3処理部と、を備えることを特徴とする。 In order to solve the above problems, a processing device according to the present invention is a processing device used by a user, which processes input audio information based on a signal input from a microphone used by the user, and other processing. a first processing unit that compares received audio information received from the device to determine whether there is audio information that satisfies a first predetermined condition; If it is determined that the input audio information has the information, the volume information in the input audio information is compared with the volume information in the received audio information to determine whether the volume information in the input audio information satisfies a second predetermined condition. a second processing unit that determines, and if the second processing unit determines that the volume information in the input audio information satisfies the second predetermined condition, perform a process of lowering the output of the received audio information; A third processing section.
また、本発明に係る処理方法は、ユーザにて使用される処理装置の処理方法であって、前記ユーザにて使用されるマイクから入力される信号に基づく入力音声情報と、他の処理装置から受信した受信音声情報とを比較して、第1の所定条件を満たす音声情報を有するかを判断する、第1処理ステップと、前記第1処理ステップにおいて前記第1の所定条件を満たす音声情報を有すると判断されたならば、前記入力音声情報における音量情報と前記受信音声情報における音量情報とを比較して、前記入力音声情報における音量情報が第2の所定条件を満たすか否かを判断する、第2処理ステップと、前記第2処理ステップにおいて前記入力音声情報における音量情報が前記第2の所定条件を満たすと判断されたならば、前記受信音声情報の出力を下げる処理を行う、第3処理ステップと、を有することを特徴とする。 Further, the processing method according to the present invention is a processing method for a processing device used by a user, in which input audio information based on a signal input from a microphone used by the user and input audio information from another processing device are provided. a first processing step of comparing received audio information to determine whether there is audio information that satisfies a first predetermined condition; If it is determined that there is, the volume information in the input audio information is compared with the volume information in the received audio information to determine whether the volume information in the input audio information satisfies a second predetermined condition. , a second processing step, and a third step of performing a process of lowering the output of the received audio information if it is determined in the second processing step that the volume information in the input audio information satisfies the second predetermined condition. It is characterized by having a processing step.
また、本発明に係るプログラムは、ユーザにて使用されるコンピュータを、前記ユーザにて使用されるマイクから入力される信号に基づく入力音声情報と、他の処理装置から受信した受信音声情報とを比較して、第1の所定条件を満たす音声情報を有するかを判断する、第1処理部、前記第1処理部において前記第1の所定条件を満たす音声情報を有すると判断されたならば、前記入力音声情報における音量情報と前記受信音声情報における音量情報とを比較して、前記入力音声情報における音量情報が第2の所定条件を満たすか否かを判断する、第2処理部、前記第2処理部において前記入力音声情報における音量情報が前記第2の所定条件を満たすと判断されたならば、前記受信音声情報の出力を下げる処理を行う、第3処理部、として機能させる。 Further, the program according to the present invention allows a computer used by a user to receive input audio information based on a signal input from a microphone used by the user and received audio information received from another processing device. a first processing unit that compares and determines whether the audio information satisfies the first predetermined condition; if the first processing unit determines that the audio information satisfies the first predetermined condition; a second processing unit that compares the volume information in the input audio information with the volume information in the received audio information and determines whether the volume information in the input audio information satisfies a second predetermined condition; If the second processing section determines that the volume information in the input audio information satisfies the second predetermined condition, the second processing section functions as a third processing section that performs a process of lowering the output of the received audio information.
本発明によれば、ユーザに対して負担をかけずにハウリングを抑制することができる。 According to the present invention, howling can be suppressed without imposing a burden on the user.
以下、本発明を実施するための形態を、適宜図面を参照しながら詳細に説明する。各図は、本発明を十分に理解できる程度に、概略的に示してあるに過ぎない。よって、本発明は、図示例のみに限定されるものではない。また、本実施形態では、本発明と直接的に関連しない構成や周知な構成については、説明を省略する場合がある。なお、各図において、共通する構成要素や同様な構成要素については、同一の符号を付し、それらの重複する説明を省略する。 DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings as appropriate. The figures are only shown schematically to provide a thorough understanding of the invention. Therefore, the present invention is not limited to the illustrated example. Furthermore, in this embodiment, descriptions of configurations that are not directly related to the present invention or well-known configurations may be omitted. In each figure, common or similar components are designated by the same reference numerals, and their overlapping explanations will be omitted.
≪実施形態に係る修繕支援システムの構成≫
図1を参照して、実施形態に係るWeb会議システム1の構成について説明する。図1は、Web会議システム1の概略構成図である。Web会議システム1は、インターネットを通じてビデオ通話(映像・音声のやり取り)、音声通話(音声のやり取り)を行うことができるシステムである。Web会議システム1は、資料の共有を可能にする機能を備えてもよい。Web会議システム1を用いることで、例えば遠隔地にいる相手とリアルタイムで会議を行うことができる。ここで、Web会議システム1が音声通話(音声のやり取り)を行うことができるシステムとして使用される場合、Web会議システム1における構成は、例えば、構成1または構成2のようになる。構成1では、ビデオ通話(映像・音声のやり取り)における音声のやり取りのみの機能が使用される構成である。構成2では、音声通話(音声のやり取り)のみの機能を有している構成である。なお、以下の本実施形態のWeb会議システム1の構成では、一例として、構成1をベースにして記載される。
<<Configuration of repair support system according to embodiment>>
With reference to FIG. 1, the configuration of a
本実施形態のWeb会議システム1は、WebRTC技術が使用されている。WebRTCは、映像や音声などの大容量のデータをリアルタイムに送受信でき、また、不特定多数の人がファイルなどを送受信することが可能な仕組みが備わっている。
The
図1に示すように、Web会議システム1は、サーバ10と、第1のPC20Aと、第2のPC20Bと、を有する。図1では、Web会議システム1が有するPCの数が二つであるが、PCの数は特に限定されず、三つ以上であってもよい。第1のPC20Aと第2のPC20Bとは、同様の機能構成であってよい。第1のPC20Aと第2のPC20Bとを区別せずに説明する場合に、まとめて「PC20」と表記する場合がある。
As shown in FIG. 1, the
図1に示すように、サーバ10は、第1のPC20Aおよび第2のPC20Bとネットワーク(図示せず)を介して通信可能である。例えば、サーバ10は、第1のPC20A以外のPC(図1では第2のPC20B)から映像及び音声を受信し、第1のPC20Aへそれらを送信する。また、サーバ10は、第2のPC20B以外のPC(図1では第1のPC20A)から映像及び音声を受信し、第2のPC20Bへそれらを送信する。
As shown in FIG. 1, the
本実施形態のWeb会議システム1は、SFU(Selective Forwarding Unit)方式を想定する。SFU方式におけるサーバ10は、PC20から送信される映像のルーティングを行うのみであり、サーバ10側では映像及び音声の復号、合成、再符号化を行わない。つまり、サーバ10は、PC20から送られてくる映像及び音声を、当該映像及び当該音声を必要とする他のPC20宛てにそのまま送信する。そのため、サーバ側で映像及び音声の復号、合成、再符号化を行うMCU方式に比べて遅延が少ないというメリットがある。
The
なお、PC20(第1のPC20Aおよび第2のPC20B)は、「処理装置」および「クライアント端末」の一例であり、「処理装置」および「クライアント端末」の一例は、PC20に限るものではない。
また、サーバ10は、「中継装置」の一例であり、「中継装置」の一例は、サーバ10に限るものではない。
Note that the PC 20 (first PC 20A and second PC 20B) is an example of a "processing device" and a "client terminal," and examples of the "processing device" and "client terminal" are not limited to the PC 20.
Further, the
図1に示すように、PC20は、カメラ31と、マイク32と、表示部33と、スピーカ34と、データ通信可能に接続されている。PC20は、カメラ31、マイク32、表示部33およびスピーカ34の一部または全部を内蔵する構成であってもよい。PC20は、サーバ10に、自身で取得した映像(カメラ31から取得した映像)及び音声(マイク32から取得した音声)を送信する。また、PC20(例えば、PC20A)は、サーバ10から、自身以外のPC20(例えば、PC20B)から送信された映像及び音声を受信する。
As shown in FIG. 1, the PC 20 is connected to a
PC20は、受信した映像を表示部33に出力する。例えば、PC20は、受信した映像が1つである場合、受信した映像を表示部33に出力する。また、PC20は、受信した映像が複数である場合、受信した各PC20の映像を並べて表示部33に出力する。また、PC20(例えば、PC20A)は、自身で取得した映像を表示部33に表示する場合、自身で取得した映像を、他のPC20(例えばPC20B)から受信した映像とともに表示部33に出力する。また、PC20は、受信した音声をスピーカ34に出力する。音声の出力に関する処理の詳細は後述する。
The PC 20 outputs the received video to the
次に、サーバ10のビデオ通話に関する機能構成について説明する。図1に示すように、サーバ10は、受信部11と、送信部12とを有する。サーバ10は、CPU(Central Processing Unit)、ROM(Read Only Memory)、ストレージ、RAM(Random Access Memory)を備え、各機能構成(受信部11および送信部12)は、CPUがROM又はストレージに記憶された処理プログラムを読み出し、RAMに展開して実行することにより実現される。
Next, the functional configuration of the
受信部11は、PC20(図1ではPC20A,20B)から、映像及び音声を受信する。
送信部12は、第1のPC20Aに対して、受信部11で受信したPC20(図1ではPC20A,20B)の映像及び音声のうち、第1のPC20A以外(つまり、第2のPC20B)の映像及び音声を送信する。また、送信部12は、第2のPC20Bに対して、受信部11で受信したPC20(図1ではPC20A,20B)の映像及び音声のうち、第2のPC20B以外(つまり、第1のPC20A)の映像及び音声を送信する。
The receiving
The transmitting
次に、PC20のビデオ通話に関する機能構成について説明する。図1に示すように、PC20は、符号化部21と、送信部22と、受信部23と、復号部24と、出力処理部25とを有する。PC20は、CPU、ROM、ストレージ、RAMを備え、各機能構成(符号化部21、送信部22、受信部23、復号部24および出力処理部25)は、CPUがROM又はストレージに記憶された処理プログラムを読み出し、RAMに展開して実行することにより実現される。
Next, the functional configuration of the PC 20 regarding video calls will be explained. As shown in FIG. 1, the PC 20 includes an
符号化部21は、PC自身に接続されたカメラ31で取得した映像を符号化する。また、符号化部21は、PC自身に接続されたマイク32で取得した音声を符号化する。
送信部22は、サーバ10に、符号化された映像および符号化された音声を送信する。
The
The
受信部23は、他のPCで符号化された映像および符号化された音声を受信する。例えば、PC20Aの受信部23は、他のPCであるPC20Bで符号化された映像および符号化された音声を、サーバ10を介して受信する。また、PC20Bの受信部23は、他のPCであるPC20Aで符号化された映像および符号化された音声を、サーバ10を介して受信する。
復号部24は、符号化された映像および符号化された音声を復号する。
The receiving
The
出力処理部25は、復号された映像が1つである場合(他のPCが1つの場合)、復号された映像を所定のレイアウトに割り当てた映像を表示部33に出力する。また、出力処理部25は、復号された映像が複数である場合(他のPCが複数である場合)、復号された各映像を所定のレイアウトに割り当てた映像を表示部33に出力する。
また、出力処理部25は、復号された音声が1つである場合(他のPCが1つの場合)、復号された音声をスピーカに出力する。また、出力処理部25は、復号された音声が複数である場合(他のPCが複数である場合)、各音声についてミキシングの処理を行い、ミキシング処理された音声をスピーカ34に出力する。
When there is one decoded video (when there is only one other PC), the
Further, when the number of decoded voices is one (when there is one other PC), the
次に、図2を参照して、実施形態に係るWeb会議システム1が有するハウリング抑制に関する機能(ハウリング抑制システム1a)について説明する。図2は、ハウリング抑制に関する機能(ハウリング抑制システム1a)を説明するための図である。
Next, with reference to FIG. 2, a function related to howling suppression (howling suppression system 1a) included in the
図2に示すハウリング抑制システム1aは、PC20の入力音声から他のPC20が近接しているかを判定し、近接するPC20がある場合にハウリングの発生を抑制する制御を行う。ハウリング抑制システム1aは、遅延測定処理部26と、ハウリング抑制処理部27とを備える。各機能構成(遅延測定処理部26およびハウリング抑制処理部27)は、CPUがROM又はストレージに記憶された処理プログラムを読み出し、RAMに展開して実行することにより実現される。遅延測定処理部26およびハウリング抑制処理部27は、各々のPC20に設けられる。
The howling suppression system 1a shown in FIG. 2 determines whether another PC 20 is nearby from the input audio of the PC 20, and performs control to suppress the occurrence of howling when there is a nearby PC 20. The howling suppression system 1a includes a delay
なお、遅延測定処理部26は、「第4の処理部」の一例であり、「第4の処理部」の一例は、遅延測定処理部26に限るものではない。
また、ハウリング抑制処理部27は、「第1の処理部」、「第2の処理部」および「第3の処理部」の一例であり、「第1の処理部」、「第2の処理部」および「第3の処理部」の一例は、ハウリング抑制処理部27に限るものではない。
Note that the delay
Furthermore, the howling
図2に示す遅延測定処理部26は、遅延測定用のパケットを送受信することで、サーバ10を中継したPC20間の通信遅延を測定する。例えば、遅延測定処理部26は、他のPC20に対して遅延測定用のパケットを送信する。そのパケットを受け取った他のPC20は、送信元のPC20に対してそのまま応答を返信する。遅延測定用のパケットは、音声を中継する場合と同じサーバ10を中継する。中継するサーバ10は、遅延測定用のパケットを単に中継するのみである。遅延測定用のパケットには、例えば送信時刻、受信時刻、送信元および送信先であるPC20(図1ではPC20A,20B)の識別情報などが格納される。遅延測定用のパケットを送受信するプロトコルは特に限定されず、音声を中継する場合と同じサーバ10を中継することが可能であればよい。例えば、「Ping」コマンドを用いて遅延測定用のパケットを送受信してもよい。
The delay
遅延測定用のパケットの送受信の流れを図3に示す。図3は、遅延測定用のパケットの送受信の一例である。図3では、第1のPC20Aが遅延測定用のパケットを送信する場合を例示している。図示は省略するが、第2のPC20Bも同様に遅延測定用のパケットを送信することが可能である。 FIG. 3 shows the flow of transmitting and receiving packets for delay measurement. FIG. 3 is an example of transmission and reception of packets for delay measurement. FIG. 3 illustrates a case where the first PC 20A transmits a delay measurement packet. Although not shown, the second PC 20B can similarly transmit packets for delay measurement.
図3に示すように、第1のPC20Aの遅延測定処理部26は、送信部22を介してサーバ10に遅延測定用のパケットを送信する。サーバ10は、受信部11および送信部12を介して第2のPC20Bに遅延測定用のパケットを転送する。第2のPC20Bは、受信部23で遅延測定用のパケットを受信し、送信部22を介して遅延測定用のパケットを第1のPC20Aに対してそのまま応答する。応答された遅延測定用のパケットは、行きと同様にサーバ10を介して第1のPC20Aに転送される。第1のPC20Aの遅延測定処理部26は、受信部23を介して遅延測定用のパケットを受信し、サーバ10を中継したPC間の通信遅延の時間tdを求める。
As shown in FIG. 3, the delay
遅延測定処理部26は、例えば以下の式によってサーバ10を中継したPC間の通信遅延の時間tdを求める。
・通信遅延の時間td=(遅延測定用のパケットを受信した時刻-遅延測定用のパケットを送信した時刻時間)/2
The delay
・Communication delay time td = (time at which the delay measurement packet was received - time at which the delay measurement packet was sent)/2
ここで、遅延測定処理部26は、次の手順1~手順4より、通信遅延の時間tdを求めてもよい。
<手順1> 遅延測定処理部26は、サーバ10を中継したPC間の通信遅延の時間を、複数の回数(N回数(Nは正の整数値))を測定する。
<手順2> 遅延測定処理部26は、各回数にて測定された通信遅延の時間td(1回目の測定)~通信遅延の時間td(N回目の測定)を、上述の式より求める。
<手順3> 遅延測定処理部26は、通信遅延の時間td(1回目の測定)~通信遅延の時間td(N回目の測定)における、通信遅延の平均時間を求める。
<手順4> 遅延測定処理部26は、求めた通信遅延の平均時間を、上述の通信遅延の時間tdとする。
遅延測定処理部26は、求めた通信遅延の時間tdをハウリング抑制処理部27に伝える。
Here, the delay
<
<
<Procedure 3> The delay
<Procedure 4> The delay
The delay
遅延測定処理部26は、遅延測定用のパケットを定期的に送信するのがよい。このようにすると、通信状態が時々刻々と変化する場合にも対応することが可能になるのでよい。ここでの通信状態の変化は、例えば会議室内で使用されるWi-Fiの通信速度の変化、会社の拠点内のネットワーク(社内LAN)の通信速度の変化、PC間の通信において使用されるネットワーク(IPネットワーク)の通信速度の変化などである。
It is preferable that the delay
図2に示すハウリング抑制処理部27は、スピーカ34に出力される出力音声にハウリングの原因となり得る音声が含まれている場合に、出力音声レベルを下げる処理を行う(出力音声レベルを「0(ゼロ)」にする場合も含む)。ハウリング抑制処理部27は、例えば、自身のPCに接続されるマイク32の入力音声と、他のPCに接続されるマイク32の入力音声であり受信した受信音声とを比較し、同一音声(音量の差は許容する)が存在する場合に、自身のPCに接続されるスピーカ34への出力音声レベルを下げる処理を実行する。音声の比較は、符号化されていない音声のデジタル信号を用いて行うのがよい。
The howling
ハウリング抑制処理部27の構成例を図4に示す。図4は、ハウリング抑制処理部27の構成例である。図4では、第1のPC20Aのハウリング抑制処理部27を例示して説明する。なお、第2のPC20Bも同様の構成である。
ハウリング抑制処理部27は、ハウリングチェック部27aと、出力音声レベル制御部27bとを備える。
An example of the configuration of the howling
The howling
なお、ハウリングチェック部27aは、「第1の処理部」および「第2の処理部」の一例であり、「第1の処理部」および「第2の処理部」の一例は、ハウリングチェック部27aに限るものではない。
また、出力音声レベル制御部27bは、「第3の処理部」の一例であり、「第3の処理部」の一例は、出力音声レベル制御部27bに限るものではない。
Note that the howling check section 27a is an example of a "first processing section" and a "second processing section", and an example of a "first processing section" and a "second processing section" is a howling check section. It is not limited to 27a.
Furthermore, the output audio
図4に示すハウリングチェック部27aは、第1のPC20Aのマイク32からの入力音声SAと、第2のPC20Bのマイク32から入力された入力音声SBであってサーバ10経由で受信した受信音声SBaとを比較し、同じ音(音量の差異は許容する)が含まれているかを判定する。その際に、ハウリングチェック部27aは、ある程度の期間(例えば、現在の時刻(現時点)から過去1秒間~過去10秒間)だけ第1のPC20Aのマイク32からの入力音声SAをバッファ上に記憶し、バッファ上に記憶した入力音声SAとサーバ10経由で受信した受信音声SBaとを比較する。第1のPC20Aのマイク32からの入力音声SAをバッファ上に記憶する期間は、遅延測定処理部26によって求められる通信遅延の時間tdによって決定する。つまり、入力音声SAと受信音声SBaとの比較において、比較対象となる入力音声SAおよび受信音声SBaの期間は、PC20間での通信遅延の時間tdに基づいて決定される。
The howling check unit 27a shown in FIG. to determine whether they contain the same sound (differences in volume are allowed). At this time, the howling check unit 27a stores the input audio SA from the
ハウリングチェック部27aは、例えば音声の特徴をマッチングすることにより、入力音声SAと受信音声SBaとを比較する。音声のマッチング方法は特に限定されない。音声のマッチング処理の一例を図5に示す。 The howling check unit 27a compares the input sound SA and the received sound SBa by, for example, matching the characteristics of the sounds. The voice matching method is not particularly limited. FIG. 5 shows an example of voice matching processing.
図5に示すように、ハウリングチェック部27aは、サーバ10を経由することによる通信遅延の時間を考慮して、時刻「tA」から入力を開始した第1のPC20Aのマイク32の入力音声SAの音声波形と、時刻「tA+td1」から受信を開始した第2のPC20Bのマイク32の入力音声SBの音声波形(つまり、受信音声SBaの音声波形)とを比較する(ステップS1)。ここで、「td1」は、サーバ10を中継したPC間の通信遅延の時間である。
As shown in FIG. 5, the howling check unit 27a checks the input voice SA of the
ハウリングチェック部27a(図4参照)は、入力音声SAおよび受信音声SBaの音声波形に対して、音量を「-1」~「+1」の範囲で正規化する(ステップS2)。
次に、ハウリングチェック部27aは、正規化された入力音声SAおよび受信音声SBaの音声波形の音量を絶対値に変換する(ステップS3)。
次に、ハウリングチェック部27aは、絶対値に変換された入力音声SAおよび受信音声SBaの音声波形の音量(正規化済)を、1個目~n個目にてサンプリングする(ステップS4)。
そして、ハウリングチェック部27aは、1個目~n個目にてサンプリングされた入力音声SAおよび受信音声SBaの音量の相関値を演算処理する(ステップS5)。
The howling check unit 27a (see FIG. 4) normalizes the volume of the audio waveforms of the input audio SA and the received audio SBa within the range of "-1" to "+1" (step S2).
Next, the howling check unit 27a converts the volume of the normalized audio waveforms of the input audio SA and the received audio SBa into absolute values (step S3).
Next, the howling check unit 27a samples the volume (normalized) of the audio waveforms of the input audio SA and the received audio SBa converted into absolute values at the first to nth audio waveforms (step S4).
Then, the howling check unit 27a calculates a correlation value between the volumes of the input audio SA and the received audio SBa sampled from the first to nth samples (step S5).
ハウリングチェック部27aは、相関値と所定値(一例は「0.5」)とを比較し、「相関値>所定値」である場合に、入力音声SAと受信音声SBaとには同じ音が含まれていると判定する。
ハウリングチェック部27aは、入力音声SAと受信音声SBaとに同じ音が含まれていると判定された場合に、さらに入力音声SAの音量と受信音声SBaの音量とを比較する。そして、ハウリングチェック部27aは、受信音声SBaの音量に対して入力音声SAの音量が小さい場合に、遠くの音声(他のPCのマイク32に入力された音声)を拾っていると判断する(ステップS6)。
なお、入力音声SAと受信音声SBaとに同一の音声情報が含まれていることは、「第1の所定条件を満たす」ことの一例である。
なお、受信音声SBaの音量に対して入力音声SAの音量が小さいことは、「第2の所定条件を満たす」ことの一例である。
The howling check unit 27a compares the correlation value with a predetermined value (an example is "0.5"), and if "correlation value>predetermined value", the input audio SA and the received audio SBa contain the same sound. It is determined that the
When it is determined that the input audio SA and the received audio SBa contain the same sound, the howling check unit 27a further compares the volume of the input audio SA and the volume of the received audio SBa. Then, when the volume of the input audio SA is lower than the volume of the received audio SBa, the howling check unit 27a determines that distant audio (audio input to the
Note that the fact that the input audio SA and the received audio SBa include the same audio information is an example of "satisfying the first predetermined condition".
Note that the fact that the volume of the input audio SA is lower than the volume of the received audio SBa is an example of "satisfying the second predetermined condition".
図4に示す出力音声レベル制御部27bは、ハウリングチェック部27aによって遠くの音声(他のPCのマイク32に入力された音声)を拾っていると判断されると、受信音声SBaの出力音声レベルを下げる処理を行う(または出力音声レベルを「0」(ゼロ)にする処理を行う)。このような処理を行っても、第1のPC20Aと第2のPC20Bとが近くに配置されているので、第2のPC20Bのマイク32に入力される音(例えば、第2のPC20Bのユーザの音声)を第1のPC20Aのユーザが直接聞くことが可能である。
また、出力音声レベル制御部27bは、ハウリングチェック部27aによって遠くの音声(他のPCのマイク32に入力された音声)を拾っていないと判断されると、受信音声SBaの出力音声レベルをそのままとする(出力音声レベルを変えない)を行う(ステップS7)。
When the howling check unit 27a determines that a distant sound (sound input to the
Furthermore, when the howling check unit 27a determines that distant audio (audio input to the
図5に示すように、出力音声レベル制御部27bは、例えば「相関値>所定値」である場合であって受信音声SBaの音量に対して入力音声SAの音量が小さい場合に、第1のPC20Aの出力音声レベルを下げる処理を行う(または出力音声レベルを「0」(ゼロ)にする処理を行う)。なお、三人以上のユーザでWeb会議を行っている場合、該当するユーザ(近くにいるユーザ)の受信音声SBaの出力音声レベルのみを下げるようにするのがよい(または出力音声レベルを「0」(ゼロ)にするのがよい)。
As shown in FIG. 5, the output audio
ここまで説明したハウリング抑制処理部27の処理のイメージを図6に示す。図6に示すように、第2のPC20Bのユーザが話す音声は、第2のPC20Bに接続されるマイク32を介して第2のPC20Bに入力され、サーバ10を介して第1のPC20Aに送信される。また、第1のPC20Aと第2のPC20Bとが近くに配置された場合、第2のPC20Bのユーザが話す音声が実空間の空気を介して伝わり、第1のPC20Aに接続されるマイク32を介して第1のPC20Aに入力される。この場合、ハウリング抑制処理部27は、サーバ10を介して受信した受信音声SBaの出力音声レベルを下げる処理を行う(または出力音声レベルを「0(ゼロ)」にする処理を行う)。
FIG. 6 shows an image of the processing of the howling
以上のように、実施形態に係るWeb会議システム1は、自身のPC20が遠くの音声(他のPC20のマイク32に入力された音声)を拾っていると判断した場合に、サーバ10を介して受信した受信音声SBaの出力音声レベルを下げる処理を行う。そのため、ハウリングが発生するほどまでには音声が増幅されないので、ハウリングを抑制することが可能である。
As described above, when the
以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、特許請求の範囲の趣旨を変えない範囲で実施することができる。 Although the embodiments of the present invention have been described above, the present invention is not limited thereto, and can be implemented without changing the spirit of the claims.
1 Web会議システム
1a ハウリング抑制システム
10 サーバ
11 受信部
12 送信部
20,20A,20B PC
21 符号化部
22 送信部
23 受信部
24 復号部
25 出力処理部
26 遅延測定処理部
27 ハウリング抑制処理部
27a ハウリングチェック部
27b 出力音声レベル制御部
31 カメラ
32 マイク
33 表示部
34 スピーカ
1 Web conference system 1a
21
Claims (7)
前記ユーザにて使用されるマイクから入力される信号に基づく入力音声情報と、他の処理装置から受信した受信音声情報とを比較して、第1の所定条件を満たす音声情報を有するかを判断する、第1処理部と、
前記第1処理部において前記第1の所定条件を満たす音声情報を有すると判断されたならば、前記入力音声情報における音量情報と前記受信音声情報における音量情報とを比較して、前記入力音声情報における音量情報が第2の所定条件を満たすか否かを判断する、第2処理部と、
前記第2処理部において前記入力音声情報における音量情報が前記第2の所定条件を満たすと判断されたならば、前記受信音声情報の出力を下げる処理を行う、第3処理部と、
を備えることを特徴とする、処理装置。 A processing device used by a user,
Comparing input audio information based on a signal input from a microphone used by the user with received audio information received from another processing device to determine whether there is audio information that satisfies a first predetermined condition. a first processing unit,
If the first processing unit determines that there is audio information that satisfies the first predetermined condition, the volume information in the input audio information is compared with the volume information in the received audio information, and the input audio information is a second processing unit that determines whether the volume information in satisfies a second predetermined condition;
a third processing unit that performs a process of lowering the output of the received audio information if the second processing unit determines that the volume information in the input audio information satisfies the second predetermined condition;
A processing device comprising:
ことを特徴とする請求項1に記載の処理装置。 In comparing the input audio information and the received audio information, a period of the input audio information and the received audio information to be compared is determined based on a communication delay time between the processing devices.
The processing device according to claim 1, characterized in that:
ことを特徴とする請求項2に記載の処理装置。 a fourth processing unit configured to transmit and receive packets for delay measurement via a relay device that relays the received audio information, and calculates the communication delay time from the difference between the transmission time and the reception time;
The processing device according to claim 2, characterized in that:
ことを特徴とする請求項3に記載の処理装置。 The fourth processing unit periodically transmits the delay measurement packet and receives the response.
The processing device according to claim 3, characterized in that:
ことを特徴とする請求項1に記載の処理装置。 The processing device is a client terminal in the SFU (Selective Forwarding Unit) method of WebRTC (Web Real-Time Communication),
The processing device according to claim 1, characterized in that:
前記ユーザにて使用されるマイクから入力される信号に基づく入力音声情報と、他の処理装置から受信した受信音声情報とを比較して、第1の所定条件を満たす音声情報を有するかを判断する、第1処理ステップと、
前記第1処理ステップにおいて前記第1の所定条件を満たす音声情報を有すると判断されたならば、前記入力音声情報における音量情報と前記受信音声情報における音量情報とを比較して、前記入力音声情報における音量情報が第2の所定条件を満たすか否かを判断する、第2処理ステップと、
前記第2処理ステップにおいて前記入力音声情報における音量情報が前記第2の所定条件を満たすと判断されたならば、前記受信音声情報の出力を下げる処理を行う、第3処理ステップと、
を有することを特徴とする、処理方法。 A processing method of a processing device used by a user, comprising:
Comparing input audio information based on a signal input from a microphone used by the user with received audio information received from another processing device to determine whether there is audio information that satisfies a first predetermined condition. a first processing step,
If it is determined in the first processing step that there is audio information that satisfies the first predetermined condition, the volume information in the input audio information is compared with the volume information in the received audio information, and the input audio information is a second processing step of determining whether the volume information in satisfies a second predetermined condition;
If it is determined in the second processing step that the volume information in the input audio information satisfies the second predetermined condition, a third processing step of performing a process of lowering the output of the received audio information;
A processing method characterized by having the following.
前記ユーザにて使用されるマイクから入力される信号に基づく入力音声情報と、他の処理装置から受信した受信音声情報とを比較して、第1の所定条件を満たす音声情報を有するかを判断する、第1処理部、
前記第1処理部において前記第1の所定条件を満たす音声情報を有すると判断されたならば、前記入力音声情報における音量情報と前記受信音声情報における音量情報とを比較して、前記入力音声情報における音量情報が第2の所定条件を満たすか否かを判断する、第2処理部、
前記第2処理部において前記入力音声情報における音量情報が前記第2の所定条件を満たすと判断されたならば、前記受信音声情報の出力を下げる処理を行う、第3処理部、
として機能させるためのプログラム。 The computer used by the user,
Comparing input audio information based on a signal input from a microphone used by the user with received audio information received from another processing device to determine whether there is audio information that satisfies a first predetermined condition. a first processing unit,
If the first processing unit determines that there is audio information that satisfies the first predetermined condition, the volume information in the input audio information is compared with the volume information in the received audio information, and the input audio information is a second processing unit that determines whether the volume information in satisfies a second predetermined condition;
a third processing unit that performs a process of lowering the output of the received audio information if the second processing unit determines that the volume information in the input audio information satisfies the second predetermined condition;
A program to function as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022135384A JP2024031682A (en) | 2022-08-26 | 2022-08-26 | Processing equipment, processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022135384A JP2024031682A (en) | 2022-08-26 | 2022-08-26 | Processing equipment, processing method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024031682A true JP2024031682A (en) | 2024-03-07 |
Family
ID=90106222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022135384A Pending JP2024031682A (en) | 2022-08-26 | 2022-08-26 | Processing equipment, processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024031682A (en) |
-
2022
- 2022-08-26 JP JP2022135384A patent/JP2024031682A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100434583B1 (en) | Teleconferencing bridge with edgepoint mixing | |
CN103475793B (en) | Attaching terminal is used to call out | |
US8334891B2 (en) | Multipoint conference video switching | |
US7539486B2 (en) | Wireless teleconferencing system | |
JP4074633B2 (en) | VoIP terminal RTP media packet processing apparatus and processing method | |
CN101720551A (en) | Recognition of human gestures by a mobile phone | |
JP2006101463A (en) | Tunnel device, relay device, terminal device, call control system, ip telephone system, conference device and method and program for controlling them | |
JP2012151555A (en) | Television conference system, television conference relay device, television conference relay method and relay program | |
US20210337071A1 (en) | Method for establishing call connection, first terminal, server, and storage medium | |
EP2894825A2 (en) | Conferencing system including a remote microphone and method of using the same | |
JP2024031682A (en) | Processing equipment, processing method and program | |
US20100268529A1 (en) | Voice communication apparatus | |
JP7096490B2 (en) | Relay device | |
JP2022520357A (en) | DECT portable device base station | |
US7619994B2 (en) | Adapter for use with a tandem-free conference bridge | |
JP2008271415A (en) | Received voice output apparatus | |
GB2581518A (en) | System and method for teleconferencing exploiting participants' computing devices | |
JP2022006536A (en) | Communication system, communication device and communication program | |
JP4353007B2 (en) | Transmission control apparatus, radio communication apparatus, and radio communication system | |
CN113079267B (en) | Audio conferencing in a room | |
US11425258B2 (en) | Audio conferencing in a room | |
CN117859314A (en) | Method and system for teleconferencing using coordinated mobile devices | |
JP2022108957A (en) | Data processing device, data processing system, and voice processing method | |
Mehmood et al. | Simfree Communication using Rasberry Pi+ Based Base-station for Disaster Mitigation | |
KR20220106615A (en) | Apparatus and method for grpug communication |