JP5931707B2 - Video conferencing system - Google Patents
Video conferencing system Download PDFInfo
- Publication number
- JP5931707B2 JP5931707B2 JP2012264245A JP2012264245A JP5931707B2 JP 5931707 B2 JP5931707 B2 JP 5931707B2 JP 2012264245 A JP2012264245 A JP 2012264245A JP 2012264245 A JP2012264245 A JP 2012264245A JP 5931707 B2 JP5931707 B2 JP 5931707B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- video
- signal
- audio
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
この発明は、自由に配置した複数のクライアントで収音した音響信号から特定の音を強調し雑音を抑圧するビデオ会議技術に関する。 The present invention relates to a video conference technology that emphasizes a specific sound and suppresses noise from acoustic signals collected by a plurality of freely arranged clients.
電話会議装置やビデオ会議装置には、特定話者の音声や特定方向のみの音声を強調し雑音を抑えるために音声強調装置が使われている。音声強調装置は、複数のマイクのサンプリング周波数が同期して収音ができるマイクアレーを利用し、マイクに到達する音の到来時間差を求める。例えば、非特許文献1には、音の到来時間差から音源の方向を推定し、位相を揃えて加算することで特定方向の音を強調することができるビームフォーミングの技術が記載されている。また、非特許文献2には、音源方向から話者を区別し特定話者の音声とその他の雑音のパワー比が最大になるフィルタを設計して特定話者の音声を強調する技術が記載されている。
In a telephone conference device and a video conference device, a voice emphasis device is used to emphasize a voice of a specific speaker or a voice in a specific direction and suppress noise. The speech enhancement device uses a microphone array that can collect sound by synchronizing sampling frequencies of a plurality of microphones, and obtains an arrival time difference between sounds that reach the microphones. For example, Non-Patent
従来のビデオ会議で使われる音声強調装置では、マイクアレーを利用して音源方向に基づいて音響信号区間を分類する手法が用いられていた。このような手法では、複数のマイクで録音するサンプリング周波数が同期されている必要があり、またマイクの相対位置関係が既知である必要があった。そのため、マイクアレーが搭載された専用のビデオ会議用端末が必要であった。 In a conventional speech enhancement apparatus used in a video conference, a method of classifying acoustic signal sections based on a sound source direction using a microphone array has been used. In such a method, the sampling frequency for recording with a plurality of microphones needs to be synchronized, and the relative positional relationship between the microphones needs to be known. Therefore, a dedicated video conference terminal equipped with a microphone array is required.
この発明はこのような点に鑑み、専用のビデオ会議用端末を利用することなく、汎用の端末装置を自由に配置して取得した音響信号を利用して、特定の音を強調し雑音を抑圧することができるビデオ会議技術を提供することを目的とする。 In view of these points, the present invention emphasizes a specific sound and suppresses noise by using an acoustic signal obtained by freely arranging a general-purpose terminal device without using a dedicated video conference terminal. It aims to provide video conferencing technology that can be.
上記の課題を解決するために、この発明のビデオ会議システムは、収音手段と撮影手段を含む複数のクライアントとサーバとを含む。 In order to solve the above-described problems, a video conference system according to the present invention includes a plurality of clients and a server including sound collection means and photographing means.
クライアントは、収音手段により収音した音響信号をサーバへ送信する音声取得部と、撮影手段により撮影した映像信号をサーバへ送信する映像取得部と、サーバから受信する配信音響信号を再生する音声再生部と、サーバから受信する配信映像信号を表示する映像表示部とを含む。 The client includes an audio acquisition unit that transmits to the server the acoustic signal collected by the sound collection unit, a video acquisition unit that transmits the video signal captured by the imaging unit to the server, and an audio that reproduces the distribution acoustic signal received from the server. A reproduction unit and a video display unit for displaying a distribution video signal received from the server are included.
サーバは、複数のクライアントから受信する複数チャネルの音響信号を入力とし、所定の音声処理により送信音響信号を生成する音声処理部と、複数のクライアントから受信する複数個の映像信号から任意に選択した送信映像信号を決定する映像選択部と、複数チャネルの音響信号を入力として所定の音声処理により生成した配信音響信号を複数のクライアントへ送信する音声配信部と、複数個の映像信号から任意に選択された配信映像信号を複数のクライアントへ送信する映像配信部とを含む。 The server receives an audio signal of a plurality of channels received from a plurality of clients, arbitrarily selected from an audio processing unit that generates a transmission audio signal by predetermined audio processing, and a plurality of video signals received from a plurality of clients A video selection unit that determines a transmission video signal, an audio distribution unit that transmits a plurality of channels of audio signals as input to a distribution audio signal generated by predetermined audio processing, and a plurality of video signals. And a video distribution unit that transmits the distributed video signal to a plurality of clients.
音声処理部は、複数チャネルの音響信号を入力とし、チャネルごとに音声区間の音響信号の大きさを非音声区間の音響信号の大きさで正規化した特徴量を得る特徴量列取得部と、複数チャネルに対して得られた特徴量からなる特徴量列をクラスタリングし、特徴量列が属する信号区間分類を決定する分類部と、複数個の時間区間のそれぞれで音響信号を周波数領域に変換し、複数個の振幅スペクトルと位相スペクトルとを得るスペクトル算出部と、複数個の振幅スペクトルに対し、信号区間分類のいずれかである強調信号区間分類に属する特徴量列に対応する振幅スペクトルを強調する処理を行い、複数個の処理後振幅スペクトルを得る強調処理部と、処理後振幅スペクトルに位相スペクトルを付与して複素スペクトルを得る位相付与部とを含む。 The speech processing unit receives a plurality of channels of acoustic signals, and a feature amount sequence acquisition unit that obtains a feature amount obtained by normalizing the magnitude of the acoustic signal of the speech section for each channel by the magnitude of the acoustic signal of the non-speech section; Clustering feature value sequences consisting of feature values obtained for multiple channels, classifying unit to determine the signal section classification to which the feature value sequence belongs, and converting acoustic signals to frequency domain in each of multiple time sections A spectrum calculation unit that obtains a plurality of amplitude spectra and phase spectra, and emphasizes the amplitude spectrum corresponding to the feature amount sequence belonging to the enhanced signal section classification which is one of the signal section classifications with respect to the plurality of amplitude spectra; An emphasis processing unit that performs processing and obtains a plurality of post-processing amplitude spectra, and a phase addition unit that assigns a phase spectrum to the post-processing amplitude spectrum to obtain a complex spectrum. No.
この発明のビデオ会議技術によれば、クライアントの配置やマイク感度の違いに依らず特定話者の音声の強調・抽出および雑音抑圧をすることが可能になる。また、音声だけでなくクライアントに搭載されているカメラから映像を取得することで、主として話している利用者の映像を各クライアントに配信してビデオ会議を行うことができる。 According to the video conferencing technique of the present invention, it is possible to enhance and extract a specific speaker's voice and suppress noise regardless of the arrangement of clients and the difference in microphone sensitivity. Also, by acquiring video as well as voice from a camera mounted on the client, video of a user who is mainly talking can be distributed to each client and a video conference can be performed.
この発明は、様々なサンプリング周波数やマイク感度の収音手段を含む複数のクライアントから取得した複数チャネルの音響信号を処理することで、特定話者の音声の強調と雑音を抑圧した音声を受聴することができるビデオ会議システムである。さらに、この発明は、クライアントに含まれる撮影手段からの映像信号をサーバに送ることで、現在どのクライアントに含まれる収音手段で取得した音が主として収音されているのかを、撮影手段で取得した複数の映像を利用して提示するインターフェース、およびビデオ会議を行うために配信する映像を選択する技術を含んでいる。 The present invention processes the sound signals of a plurality of channels acquired from a plurality of clients including sound collection means having various sampling frequencies and microphone sensitivities so as to listen to a voice in which a specific speaker is emphasized and noise is suppressed. It is a video conferencing system that can. Furthermore, the present invention acquires, by the imaging means, the sound acquired by the sound collecting means currently included in the client is mainly collected by sending a video signal from the imaging means included in the client to the server. And a technology for selecting an image to be distributed for a video conference.
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the component which has the same function in drawing, and duplication description is abbreviate | omitted.
[実施形態]
この実施形態は、自由に配置したサンプリング周波数やマイク感度の異なる複数のスマートフォンから取得した音響信号を利用したハンズフリーのビデオ会議システムである。
[Embodiment]
This embodiment is a hands-free video conference system using acoustic signals acquired from a plurality of smartphones that are freely arranged and have different sampling frequencies and microphone sensitivities.
<ビデオ会議システムの構成>
図1を参照して、この実施形態のビデオ会議システム10の構成例を説明する。ビデオ会議システム10は、サーバ1とK(>1)台のクライアント31,…,3Kとを含む。サーバ1とクライアント31,…,3Kはネットワーク5に接続される。ネットワーク5は、接続される各装置が相互に通信可能なように構成されていればよく、例えばインターネットやLAN(Local Area Network)、WAN(Wide Area Network)などで構成することができる。また、ネットワーク5を構成する物理媒体は有線/無線の別を問わず、無線LAN、3GやLTEなどに代表される携帯電話回線、Bluetooth(登録商標)などを利用してもよい。
<Configuration of video conference system>
With reference to FIG. 1, the structural example of the video conference system 10 of this embodiment is demonstrated. The video conference system 10 includes a
ビデオ会議システム10は少なくとも2組で連携することによりビデオ会議を実現する。図1に示す通り、ビデオ会議システム10Aとビデオ会議システム10Bとによりビデオ会議を実現する場合、ビデオ会議システム10Aのクライアント31,…,3Kが配置された空間とビデオ会議システム10Bのクライアント31,…,3Kが配置された空間とはそれぞれ異なる空間である。ビデオ会議システム10Aのサーバ1とビデオ会議システム10Bのサーバ1は共にネットワーク6に接続される。ネットワーク6は、接続される各装置が相互に通信可能なように構成されていればよく、例えばインターネット、WAN(Wide Area Network)、公衆交換電話網、専用線などで構成することができる。ビデオ会議システム10Aに含まれるクライアント3の数とビデオ会議システム10Bに含まれるクライアント3の数とは同一であってもよいし、異なっていてもよい。この実施形態ではビデオ会議システム10が2組の場合を例として説明するが、3組以上のビデオ会議システム10を用いて3つ以上の空間が1つのビデオ会議に参加しても構わない。
The video conference system 10 realizes a video conference by linking at least two sets. As shown in FIG. 1, when implementing video conferencing by the video conferencing system 10 A and a video conferencing system 10 B, the client 3 1 of a video conferencing system 10 A, ..., 3 K are arranged space and video conferencing system 10 Each of the clients 3 1 ,..., 3 K of B is a different space. The
図2を参照して、この実施形態のサーバ1とクライアント31,…,3Kの構成例を説明する。サーバ1は、K個の音声受信部111,…,11K、K個の映像受信部121,…,12K、音声処理部13、音声送信部14、映像選択部15、映像送信部16、端末管理部17、音声取得部21、音声配信部22、映像取得部23、映像配信部24、コマンド送信部25を含む。この実施形態のサーバ1は、例えばCPU(central processing unit)やRAM(random access memory)等を備える公知のコンピュータに所定のプログラムが読み込まれて構成される特別な装置である。サーバ1に入力されたデータおよび処理されたデータは、図示していないメモリに格納され、必要に応じて処理部から読み出される。
A configuration example of the
クライアント31,…,3Kはそれぞれ、音声取得部31、映像取得部32、音声再生部33、映像表示部34、コマンド受信部35、設定部36、制御部37、マイク等の収音手段301、カメラ等の撮影手段302、スピーカ等の再生手段303、液晶ディスプレイ等の表示手段304を含む。クライアント31,…,3Kの位置や互いの相対位置は、未知であってもよいし、既知であってもよい。クライアント31,…,3Kは互いに独立に動作する。収音手段301のマイク感度は、互いに異なっていてもよいし、同一であってもよい。また、収音手段301のサンプリング周波数は、互いに異なっていてもよいし、同一であってもよい。クライアント31,…,3Kは収音手段と撮影手段と再生手段と表示手段を有している装置であればどのようなものであってもよい。クライアント31,…,3Kの具体例は、スマートフォン、携帯電話端末、ラップトップコンピュータなどの汎用の端末装置である。
The clients 3 1 ,..., 3 K are respectively a
図3を参照して、音声処理部13の構成例をより詳細に説明する。音声処理部13は、入力部101、サンプリング周波数変換部102、信号同期部103、フレーム分割部104、VAD判定部105、非音声パワー記憶部106、S/Nベクトル生成部107(特徴量列取得部)、ベクトル分類部108(分類部)、スペクトル算出部109、振幅スペクトル記憶部110、位相スペクトル記憶部111、フィルタ係数算出部112(強調処理部)、フィルタ係数記憶部113、フィルタリング部114(強調処理部)、位相付与部115、時間領域変換部116を含む。
With reference to FIG. 3, the example of a structure of the audio |
図4を参照して、クライアント31,…,3Kの構成例をより具体的に説明する。この具体例はクライアント31,…,3Kをスマートフォンとして構成した場合の例である。クライアント3k(1≦k≦K)は、本体下端付近に収音手段としてマイク301を内蔵し、本体上端付近に撮影手段としてカメラ302を本体前面へ配置し、再生手段としてスピーカ303を本体前面へ配置し、本体前面の広範囲にわたり表示手段として矩形の液晶ディスプレイ304を配置する。また液晶ディスプレイは位置入力機能を備えたタッチパネルであることが望ましいが、テンキーや十字キー等の他のポインティングデバイスを備えていても構わない。この実施形態では、液晶ディスプレイ304上を複数の領域に分割し、それぞれ異なる情報を表示できるように構成する。この実施形態では、表示領域1(3041)、表示領域2(3042)、操作領域(3043)、フレーム枠(3044)に分割した例を用いて説明する。
A configuration example of the clients 3 1 ,..., 3 K will be described more specifically with reference to FIG. This specific example is an example in which the clients 3 1 ,..., 3 K are configured as smartphones. The client 3 k (1 ≦ k ≦ K) has a built-in
<ビデオ会議システムの処理>
図5を参照して、この実施形態のビデオ会議システム10の動作例を説明する。
<Processing of video conference system>
With reference to FIG. 5, the operation example of the video conference system 10 of this embodiment is demonstrated.
クライアント3k(1≦k≦K)の備える設定部36は、クライアント3kが動作するために必要な設定情報を保持し、必要に応じて各部に設定情報を提供する。設定情報は、例えば、サーバ1のIPアドレスの指定や、サーバ1の備える音声受信部111,…,11Kおよび映像受信部121,…,12Kのポート番号、などである。また、クライアント3kがスマートフォンであれば、撮影手段302として前面(フロント)のカメラを使用するか背面(リア)のカメラを使用するかの選択なども含まれ得る。設定情報は表示手段304を通じて利用者に呈示される設定画面から入力することができる。設定画面は、例えば、操作領域(3043)に「メニュー」ボタンを表示して利用者によるメニュー選択に応じて起動できるようにすればよい。
The setting
クライアント3kの備える制御部37は、クライアント3kの備える各部に対して処理の開始もしくは停止を指示する制御信号を送信する。クライアント3kの利用者は、クライアント3kの操作領域(3043)に表示されるボタン操作により送信すべき制御信号を選択することができる。具体的には、クライアント3kは起動直後に操作領域(3043)に「開始」ボタンを表示して、利用者のボタン押下により、音声取得部31、映像取得部32、音声再生部33、映像表示部34に対して開始を指示する制御信号を送信する。この際同時に「開始」ボタンは「停止」ボタンに再描画される。開始を指示する制御信号を受信した音声取得部31、映像取得部32、音声再生部33、映像表示部34はそれぞれの処理を開始する。その後に利用者が「停止」ボタンを押下することで、音声取得部31、映像取得部32、音声再生部33、映像表示部34に対して停止を指示する制御信号を送信する。停止を指示する制御信号を受信した音声取得部31、映像取得部32、音声再生部33、映像表示部34はそれぞれの処理を停止する。以降の説明では、音声取得部31、映像取得部32、音声再生部33、映像表示部34はすでに制御部37より開始を指示する制御信号を受信し処理を開始している状態であることを前提とする。
サーバ1の備える端末管理部17は、通信を行なっているクライアント31,…,3Kの数を管理する。音声受信部11kもしくは映像受信部12kへクライアント3k(1≦k≦K)からの通信が開始されると、通信開始の通知を受けて接続元のクライアント3kのIPアドレスを管理対象として追加する。すでに接続可能なクライアント数を超過しているなど管理対象の追加ができない場合には、音声受信部111,…,11Kおよび映像受信部121,…,12Kへ管理不能である旨を通知する。したがって、端末管理部17はサーバ1が通信しているクライアント31,…,3KのIPアドレスの最新値を保持している。
クライアント3kの備える音声取得部31は、収音手段301を用いて観測した音をそれぞれのサンプリング周波数でA/D変換し、複数個のサンプル点でのデジタル音響信号xk(ik)を取得する(ステップS31)。ただし、ikは時間領域のサンプル点を表す整数のインデックスである。すなわち、xk(ik)は、インデックスikで表されるサンプル点のデジタル音響信号を表す。デジタル音響信号xk(ik)の形式はどのような形式であってもよいが、この実施形態ではサンプリング周波数16kHz、量子化ビット数16bitのモノラルPCM(pulse code modulation)とする。
The
クライアント3kの音声取得部31で得られたデジタル音響信号xk(ik)に対応する処理を行う処理系列をチャネルkと呼ぶ。すなわち、チャネルkはデジタル音響信号xk(ik)およびデジタル音響信号xk(ik)から得られる値を取り扱う。この実施形態ではK個のチャネルk=1,…,Kが存在する。
A processing sequence for performing processing corresponding to the digital acoustic signal x k (i k ) obtained by the
取得したデジタル音響信号xk(ik)はサーバ1Aへ送信される。送信プロトコルは公知の通信プロトコルを用いることができるが、この実施形態ではRTP(Real-time Transport Protocol)を用いるものとする。送信時の宛先ポート番号は設定部37により予め設定されたポート番号である。具体的には、クライアント31であればサーバ1の6100番ポート、クライアント32であればサーバ1の6102番ポート、クライアント3kであればサーバ1の(6100+2(k-1))番ポートのように、規則的に順番に割り当てればよい。ただし、これに限定されず、サーバ1上で重複しない限り任意のポート番号を割り当てることができる。また、RTPで送信する場合のデータ長は任意に設定可能であるが、例えば20ミリ秒単位とすればよい。
The acquired digital acoustic signal x k (i k ) is transmitted to the server 1A . Although a known communication protocol can be used as the transmission protocol, RTP (Real-time Transport Protocol) is used in this embodiment. The destination port number at the time of transmission is a port number preset by the setting
サーバ1の備える音声受信部11kは、クライアント3kから送信されるデジタル音響信号xk(ik)を受信する(ステップS11)。音声受信部11kは通信開始時に送信元のIPアドレスを端末管理部17へ通知する。端末管理部17により管理不能である旨の応答があった場合には受信したパケットを破棄し処理を終了する。音声受信部111,…,11Kが受信したKチャネルのデジタル音響信号x1(i1),…,xK(iK)は音声処理部13へ入力される。音声受信部11kは必要に応じてデジタル音響信号xk(ik)をバッファリングしながら音声処理部13へ入力してもよい。
The
クライアント3kの備える映像取得部32は、撮影手段302を用いて指定したフォーマットのデジタル映像信号vk(ik)を取得する(ステップS32)。ただし、ikは時間領域のサンプル点を表す整数のインデックスである。すなわち、vk(ik)は、インデックスikで表されるサンプル点のデジタル映像信号を表す。デジタル映像信号vk(ik)の形式はどのような形式であってもよいが、この実施形態では予め定めたサイズの静止画像を定期的に撮影するものとする。より具体的にはQVGAサイズ(320×240ピクセル)のJPEG圧縮した静止画像を100ミリ秒ごとに撮影する。
The
取得したデジタル映像信号vk(ik)はサーバ1へ送信される。送信プロトコルは公知の通信プロトコルを用いることができるが、この実施形態ではUDP(User Datagram Protocol)を用いるものとする。送信時の宛先ポート番号は設定部37により予め設定されたポート番号である。具体的には、クライアント31であればサーバ1の6200番ポート、クライアント32であればサーバ1の6202番ポート、クライアント3kであればサーバ1の(6200+2(k-1))番ポートのように、規則的に順番に割り当てればよい。ただし、これに限定されず、サーバ1上で重複しない限り任意のポート番号を割り当てることができる。送信するUDPパケットにはシーケンス番号を付与する。撮影する画像サイズはUDPプロトコルにおけるパケットサイズの上限である64KBを超過しないようにし、1枚の画像が複数のUDPパケットに分割されないようにするのが望ましい。
The acquired digital video signal v k (i k ) is transmitted to the
サーバ1の備える映像受信部12kは、クライアント3kから送信される入力デジタル映像信号vk(ik)を受信する(ステップS12)。映像受信部12kは通信開始時に送信元のIPアドレスを端末管理部17へ通知する。端末管理部17により管理不能である旨の応答があった場合には受信したパケットを破棄し処理を終了する。映像受信部121,…,12Kが受信したKチャネルのデジタル映像信号v1(i1),…,vK(iK)は映像選択部15へ入力される。この実施形態では、受信したUDPパケットから1枚のJPEG圧縮の静止画像が得られる度に映像選択部15へ入力される。
The
サーバ1の備える音声処理部13は、Kチャネルのデジタル音響信号x1(i1),…,xK(iK)に対して所定の音声処理を行うことにより特定の音声を強調し雑音を抑圧した送信音響信号yc(n)を生成する(ステップS13)。ただし、nはサンプル点を表す整数のインデックスである。cは音を強調する信号区間分類(強調信号区間分類)を表す分類ラベル番号である。分類ラベル番号については後述する。また、音声処理部13の行う「所定の音声処理」についての詳細も後述する。送信音響信号yc(n)は音声送信部14へ入力される。
The
サーバ1の備える音声送信部14は、ビデオ会議に参加する他のビデオ会議システム10に含まれるサーバ1へ、入力された送信音響信号yc(n)を送信する(ステップS14)。3組以上のビデオ会議システム10を用いてビデオ会議を実施する場合には、同一の送信音響信号yc(n)をそれぞれのサーバ1へ送信すればよい。
The
サーバ1の備える映像選択部15は、K台のクライアント31,…,3Kから受信するK個のデジタル映像信号v1(i1),…,vK(iK)から任意に選択した送信映像信号w(n)を決定する(ステップS15)。ただし、nはサンプル点を表すインデックスである。送信映像信号w(n)は映像送信部16へ入力される。送信映像信号w(n)の選択は、サーバ1の備えるディスプレイ等の表示部(図示せず)もしくはクライアント31,…,3Kのいずれかが備える表示部304における利用者の操作により行われる。
図6を参照して、送信映像信号w(n)を選択する操作例を説明する。図6の例はサーバ1の備える表示部において操作する場合の例である。映像選択部15は端末管理部17からクライアント31,…,3Kのうち通信中であるクライアントの数を取得し、端末数の数に合わせてデジタル映像信号v1(i1),…,vK(iK)を縮小してアイコン化した画像を埋め込んだ操作画面を生成する。操作画面の「サーバのIP番号」欄にはサーバ1のIPアドレスを表示する。「受信画像」欄にはクライアント31,…,3Kから受信したデジタル映像信号v1(i1),…,vK(iK)を縮小した画像を並べて表示する。またデジタル映像信号v1(i1),…,vK(iK)の近傍には対応するクライアント31,…,3KのIPアドレスを表示する。利用者の操作により「受信画像」欄のいずれかの画像が選択されると、送信映像信号w(n)が決定される。サーバ1に接続するクライアントが1台である場合には、その1台が自動的に選択されるようにしてもよい。選択された送信映像信号w(n)は「送信画像」欄に表示される。
With reference to FIG. 6, an operation example for selecting the transmission video signal w (n) will be described. The example of FIG. 6 is an example in the case of operating on the display unit included in the
クライアント3kの備える表示部304における利用者の操作により送信映像信号w(n)を選択する場合には、図6に示す操作画面例と同様の操作画面を図4に示す表示領域2(3042)へ表示し、利用者の操作により選択された映像を映像選択部15へ通知するように構成すればよい。
When the transmission video signal w (n) is selected by the user's operation on the
サーバ1の備える映像送信部16は、ビデオ会議に参加する他のビデオ会議システム10に含まれるサーバ1へ、入力された送信映像信号w(n)を送信する(ステップS16)。3組以上のビデオ会議システム10を用いてビデオ会議を実施する場合には、同一の送信映像信号w(n)をそれぞれのサーバ1へ送信すればよい。
The
サーバ1の備える音声取得部21は、ビデオ会議に参加する他のビデオ会議システム10に含まれるサーバ1の音声送信部14が送信した配信音響信号y’c(n)を受信する(ステップS21)。受信した配信音響信号y’c(n)は音声配信部22へ入力される。3組以上のビデオ会議システム10を用いてビデオ会議を実施する場合には、他のビデオ会議システム10から受信した複数の配信音響信号を多重化して配信音響信号y’c(n)とすればよい。
The
サーバ1の備える音声配信部22は、K台のクライアント31,…,3Kに配信音響信号y’c(n)を送信する(ステップS22)。送信プロトコルは公知の通信プロトコルを用いることができるが、この実施形態ではRTP(Real-time Transport Protocol)を用いるものとする。送信先のIPアドレスは端末管理部17より取得し、ポート番号は予め設定されたポート番号とする。ポート番号はクライアント3k上で重複しない限り任意のポート番号を使用することができる。例えばこの実施形態では6004番ポートとする。また、RTPで送信する場合のデータ長は任意に設定可能であるが、例えば20ミリ秒単位とすればよい。
The
クライアント3kは、音声再生部33により配信音響信号y’c(n)を受信し、再生手段303を用いて、その配信音響信号y’c(n)を再生する(ステップS33)。音声再生部33は必要に応じて配信音響信号y’c(n)をバッファリングしながら再生してもよい。
The client 3 k, the distribution sound signal y by the audio reproduction unit 33 'receives the c (n), using the
サーバ1の備える映像取得部23は、ビデオ会議に参加する他のビデオ会議システム10に含まれるサーバ1の映像送信部16が送信した配信映像信号w’(n)を受信する(ステップS23)。受信した配信映像信号w’(n)は映像配信部24へ入力される。3組以上のビデオ会議システム10を用いてビデオ会議を実施する場合には、他のビデオ会議システム10から受信した複数の配信映像信号をフレーム分割等の手法により1つの映像信号に合成して配信映像信号w’(n)とすればよい。
The
サーバ1の備える映像配信部24は、K台のクライアント31,…,3Kに配信映像信号w’(n)を送信する(ステップS24)。送信プロトコルは公知の通信プロトコルを用いることができるが、この実施形態ではUDP(User Datagram Protocol)を用いるものとする。送信先のIPアドレスは端末管理部17より取得し、ポート番号は予め設定されたポート番号とする。ポート番号はクライアント3k上で重複しない限り任意のポート番号を使用することができる。例えばこの実施形態では6001番ポートとする。送信するUDPパケットにはシーケンス番号を付与する。
The
クライアント3kは、映像表示部34により配信映像信号w’(n)を受信し、表示手段304を用いて、その配信映像信号w’(n)を再生する(ステップS34)。この実施形態では、受信したUDPパケットから1枚のJPEG圧縮の静止画像が得られる度に表示手段304へその画像を表示する。
The client 3 k receives the distribution video signal w ′ (n) by the
サーバ1の備えるコマンド送信部25は、K台のクライアント31,…,3Kに映像選択部15の選択する送信映像信号w(n)に基づく要求信号を送信する(ステップS25)。送信映像信号w(n)に基づく要求信号とは、例えば、クライアント31,…,3Kから受信したK個のデジタル映像信号v1(i1),…,vK(iK)のうち、いずれの映像信号が選択されているかを示す情報などである。具体的には、送信映像信号w(n)として選択された映像信号を撮影しているクライアント3kに対しては表示手段304を囲むフレーム枠(3044)の色を第一の色(例えば、赤)とする旨を示す要求信号を送信し、送信映像信号w(n)として選択されなかった映像信号を撮影しているクライアント3kに対しては表示手段304を囲むフレーム枠(3044)の色を第二の色(例えば、青)とする旨を示す要求信号を送信する。具体的にはフレーム枠(3044)を描画すべき色のRGB値(例えば、赤であれば「#ff0000」、青であれば「#0000ff」など)を決められたテキストフォーマットに従って設定した文字列を要求信号として送信する。送信プロトコルは公知の通信プロトコルを用いることができるが、この実施形態ではUDP(User Datagram Protocol)を用いるものとする。送信先のIPアドレスは端末管理部17より取得し、ポート番号は予め設定されたポート番号とする。ポート番号はクライアント3k上で重複しない限り任意のポート番号を使用することができる。例えばこの実施形態では6000番ポートとする。UDPにより送信する場合にはパケットロスを考慮して、例えば20ミリ秒ごとなど定期的に同一の要求信号を繰り返し送信することが望ましい。
The
クライアント3kの備えるコマンド受信部35は、サーバ1から受信した要求信号に基づいて表示手段304に送信映像信号w(n)に基づく情報を表示する(ステップS35)。例えば、そのクライアント3kが撮影した映像信号vk(ik)が送信映像信号w(n)として選択されていた場合には、表示手段304を囲むフレーム枠(3044)を第一の色(例えば、赤)で表示し、そのクライアント3kが撮影した映像信号vk(ik)が送信映像信号w(n)として選択されていなかった場合には、表示手段304を囲むフレーム枠(3044)を第二の色(例えば、青)で表示する。この際、決められたテキストフォーマットに合致しない場合や指定されたRGB値が255を超えるような不正な値であった場合などには、その要求信号を破棄して処理を終了する。このように構成することで、そのクライアント3kを利用する利用者は、ビデオ会議に参加する他のビデオ会議システム10に含まれるクライアントに、そのクライアント3kにより撮影された映像(多くの場合その利用者の顔)が表示されているか否かを知ることが可能となる。
The
<音声処理部の処理詳細>
図7を参照して、音声処理部13の動作例をより詳細に説明する。
<Processing details of the voice processing unit>
With reference to FIG. 7, the operation example of the audio |
入力部101へ、K個の音声受信部111,…,11Kで受信したKチャネルの入力デジタル音響信号x1(i1),…,xK(iK)が入力される(ステップS101)。受信された複数個のチャネルk=1,…,Kの入力デジタル音響信号xk(ik)は、サンプリング周波数変換部102に入力される。異なるチャネルkの入力デジタル音響信号xk(ik)は、異なるクライアント3kで得られたものであるため、サンプリング周波数が異なる場合がある。サンプリング周波数変換部102は、すべてのチャネルk=1,…,Kの入力デジタル音響信号xk(ik)のサンプリング周波数を任意の同一のサンプリング周波数に揃える。言い換えると、サンプリング周波数変換部102は、複数個のチャネルk=1,…,Kの入力デジタル音響信号xk(ik)をサンプリング周波数変換し、特定のサンプリング周波数の変換デジタル音響信号cxk(ik)を複数個のチャネルk=1,…,Kについて得る。「特定のサンプリング周波数」は、クライアント31,…,3Kのいずれか一つのサンプリング周波数であってもよいし、その他のサンプリング周波数であってもよい。「特定のサンプリング周波数」の一例は16kHzである。サンプリング周波数変換部102は、各クライアント3kのサンプリング周波数の公称値に基づいてサンプリング周波数変換を行う。すなわち、サンプリング周波数変換部102は、各クライアント3kのサンプリング周波数の公称値でサンプリングされた信号を、特定のサンプリング周波数でサンプリングされた信号に変換する。このようなサンプリング周波数変換は周知である。サンプリング周波数変換部102は、以上のように得た各チャネルkの変換デジタル音響信号cxk(ik)を出力する(ステップS102)。
To an
信号同期部103は、チャネルk=1,…,Kの変換デジタル音響信号cx1(i1),…,cxK(iK)を入力として受け取る。信号同期部103は、変換デジタル音響信号cx1(i1),…,cxK(iK)をチャネルk=1,…,K間で同期させ、チャネルk=1,…,Kのデジタル音響信号sx1(i1),…,sxK(iK)を得て出力する(ステップS103)。以下にこの詳細を説明する。
The
クライアント3kには個体差がある。そのためクライアント3kのサンプリング周波数の公称値がfkであっても、クライアント3kがサンプリング周波数fk/αkでA/D変換を行う場合もある。ただしαkはクライアント3kの実際のサンプリング周波数とサンプリング周波数の公称値との間の周波数ずれを表す正のパラメータである。音響信号をサンプリング周波数fkでA/D変換して得られるデジタル音響信号をxk’(ik)とおくと、同じ音響信号をサンプリング周波数fk/αkでA/D変換して得られるデジタル音響信号はxk’(ik×αk)となる。ただし「×」は乗算演算子を表す。すなわち、サンプリング周波数の周波数ずれは、デジタル音響信号の時間領域でのタイミングずれとなって現れる。 There are individual differences in client 3k . Therefore, even if the nominal value of the sampling frequency of the client 3 k is f k , the client 3 k may perform A / D conversion at the sampling frequency f k / α k . However, α k is a positive parameter representing a frequency shift between the actual sampling frequency of the client 3 k and the nominal value of the sampling frequency. If a digital acoustic signal obtained by A / D converting the acoustic signal at the sampling frequency f k is x k ′ (i k ), the same acoustic signal is obtained by A / D conversion at the sampling frequency f k / α k. The digital acoustic signal to be obtained is x k ′ (i k × α k ). However, “×” represents a multiplication operator. That is, the frequency deviation of the sampling frequency appears as a timing deviation in the time domain of the digital acoustic signal.
サンプリング周波数変換部102は、各クライアント3kのサンプリング周波数の公称値fkに基づいてサンプリング周波数変換を行っている。すなわち、すべてのチャネルk=1,…,Kに共通の「特定のサンプリング周波数」をFとすると、サンプリング周波数変換部102は、各チャネルkのサンプリング周波数をF/fk倍にするサンプリング周波数変換を行っている。そのため、各クライアント3kの実際のサンプリング周波数がfk/αkであるとすると、各チャネルkの変換デジタル音響信号cxk(ik)のサンプリング周波数はF×αkとなる。この個体差に基づく周波数ずれは、チャネルk=1,…,K間における、変換デジタル音響信号cxk(ik)の時間領域でのタイミングずれとなって現れる。
The sampling
信号同期部103は、個体差に基づく変換デジタル音響信号cxk(ik)の時間領域でのタイミングずれを減らすために、時間領域の変換デジタル音響信号cx1(i1),…,cxK(iK)をチャネルk=1,…,K間で同期させる。例えば信号同期部103は、チャネル間の相互相関が最大になるように、変換デジタル音響信号cx1(i1),…,cxK(iK)を時間軸方向(サンプル点方向)に互いにずらし、同期後のデジタル音響信号sx1(i1),…,sxK(iK)を得る。
例えば信号同期部103は、各チャネルkの変換デジタル音響信号cxk(ik)から、単語の発話など十分特徴的な波形の変化を観測できる長さ(例えば3秒)のサンプル列cxk(1),…, cxk(I)を取り出す(ステップS1031)。ただし、Iは正の整数を表す。次に信号同期部103は、取り出したサンプル列のうち1つのチャネルk’∈{1,…,K}のサンプル列cxk’(1),…,cxk’(I)を基準サンプル列とする(ステップS1032)。次に信号同期部103は、チャネルk’以外のチャネルk”∈{1,…,K}(k”≠k’)のサンプル列cxk”(1),…,cxk”(I)を時間軸にずらしたサンプル列cxk”(1+τk”),…,cxk”(I+τk”)と基準サンプル列cxk’(1),…,cxk’(I)との相互相関Σn{cxk”(n)×cxk’(n)}を最大にする遅延τk”を所定の探索範囲から探索し、sxk”(ik”)=cxk”(ik”+τk”)およびsxk’(ik’)=cxk’(ik’)とする(ステップS1033)。さらに信号同期部103は、サンプル列cxk(1),…,cxk(I)を切り出す範囲をシフトさせ(例えば1秒の時間に対応するサンプル点だけシフトさせ)、ステップS1031〜S1033の処理を実行する処理を繰り返し、同期後のデジタル音響信号sx1(i1),…,sxK(iK)をすべてのサンプル点について得て出力する。
For example, the
フレーム分割部104は、同期後のデジタル音響信号sx1(i1),…,sxK(iK)を入力として受け取る。フレーム分割部104は、チャネルkごとにデジタル音響信号sxk(ik)を所定の時間区間であるフレームに分割する(ステップS104)。このフレーム分割処理では、フレーム切り出し区間長(フレーム長)L点と切り出し区間のずらし幅m点を任意に決めることができる。ただし、Lおよびmは正の整数である。例えば、切り出し区間長を2048点、切り出し区間のずらし幅を256点とする。フレーム分割部104は、チャネルkごとに切り出し区間長のデジタル音響信号sxk(ik)を切り出して出力する。さらにフレーム分割部104は、決められた切り出し区間のずらし幅に従い切り出し区間をずらし、チャネルkごとに上記切り出し区間長のデジタル音響信号sxk(ik)を切り出して出力する処理を繰り返す。以上の処理により、各チャネルkについて各フレームのデジタル音響信号が出力される。以下では、チャネルkのr番目のフレームrに属するデジタル音響信号をsxk(ik,r,0),…,sxk(ik,r,L-1)と表現する。
The
VAD判定部105は、各チャネルkの各フレームrに属するデジタル音響信号sxk(ik,r,0),…,sxk(ik,r,L-1)を入力として受け取る。VAD判定部105は、入力されたデジタル音響信号を用い、各チャネルkの各フレームrが音声区間であるか非音声区間であるかを判定する(ステップS105)。VAD判定部105は、例えば参考文献1に記載されたような周知技術を用い、フレームrが音声区間であるか非音声区間であるかの判定を行う。
[参考文献1]Jongseo Sohn, Nam Soo Kim, Wonyong Sung, “A Statistic Model-Based
Voice Activity Detection,” IEEE SIGNAL PROCESSING LETTERS, VOL.6, NO.1, 1999.
The
[Reference 1] Jongseo Sohn, Nam Soo Kim, Wonyong Sung, “A Statistic Model-Based
Voice Activity Detection, ”IEEE SIGNAL PROCESSING LETTERS, VOL.6, NO.1, 1999.
これらの判定に基づき、VAD判定部105は、各フレームrに対し、音声区間であるか非音声区間であるかの判定結果を表すラベルθrを付与する。例えば、「フレームrが音声区間であると判定されたチャネルの個数」が「フレームrが非音声区間であると判定されたチャネルの個数」以上である場合、VAD判定部105は、フレームrが音声区間であると判定し、音声区間であることを表すラベルθrをフレームrに対して付与する。一方、「フレームrが音声区間であると判定されたチャネルの個数」が「フレームrが非音声区間であると判定されたチャネルの個数」未満である場合、VAD判定部105は、フレームrが非音声区間であると判定し、非音声区間であることを表すラベルθrをフレームrに対して付与する。その他、チャネルk=1,…,Kのうち、デジタル音響信号sxk(ik,r,0),…,sxk(ik,r,L-1)の平均パワーや平均S/N比が最も大きなチャネルに対する判定結果を表すラベルθrをフレームrに付与してもよい。また、音声区間であることを表すラベルの例はθr=1であり、非音声区間であることを表すラベルの例はθr=0である。VAD判定部105は、各ラベルθrを出力する。
Based on these determinations, the
S/Nベクトル生成部107は、各チャネルkの各フレームrのデジタル音響信号sxk(ik,r,0),…,sxk(ik,r,L-1)およびラベルθrを入力として受け取る。S/Nベクトル生成部107は、チャネルkごとに音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化した特徴量を得、チャネルk=1,…,Kに対して得られた特徴量を要素とするS/Nベクトル(特徴量列)を得て出力する(ステップS107)。「特徴量」の例は、非音声区間のデジタル音響信号の大きさに対する音声区間のデジタル音響信号の大きさの比を表す値である。「デジタル音響信号の大きさ」の例は、デジタル音響信号のパワーや絶対値、デジタル音響信号のパワーの平均値や絶対値の平均値、デジタル音響信号のパワーの合計値や絶対値の合計値、それらの正負反転値や関数値などである。「比を表す特徴量」の例は、「非音声区間のデジタル音響信号の大きさに対する音声区間のデジタル音響信号の大きさの比」そのもの、その逆数その他の関数値である。以下では、デジタル音響信号のパワーの平均値を「デジタル音響信号の大きさ」とし、「非音声区間のデジタル音響信号の大きさに対する音声区間のデジタル音響信号の大きさの比」そのものを「特徴量」とした例を示す。
The S / N
S/Nベクトル生成部107は、以下の処理を実行する。
The S / N
[ステップS1071]
S/Nベクトル生成部107は、rを1に初期化する。
[Step S1071]
The S / N
[ステップS1072]
S/Nベクトル生成部107は、ラベルθrが音声区間を表すか非音声区間を表すかを判定する。
[Step S1072]
The S / N
[ステップS1073]
ラベルθrが非音声区間を表す場合、S/Nベクトル生成部107は、すべてのチャネルk=1,…,Kについて、フレームrに属するデジタル音響信号sxk(ik,r,0),…,sxk(ik,r,L-1)の平均パワーPN(k,r)を計算し(式(1)参照)、平均パワーPN(k,r)をk番目の要素とする平均パワーベクトルPN(r)=(PN(1,r),…,PN(K,r))を非音声パワー記憶部106に格納する。
[Step S1073]
When the label θ r represents a non-speech interval, the S / N
[ステップS1074]
ラベルθrが音声区間を表す場合、S/Nベクトル生成部107は、非音声パワー記憶部106に格納されている非音声区間のフレームr’の平均パワーベクトルPN(r’)=(PN(1,r’),…,PN(K,r’))を取り出す。このフレームr’は処理対象のフレームrに近いことが望ましい。例えば、S/Nベクトル生成部107は、フレームrに最も近い非音声区間のフレームr’の平均パワーベクトルPN(r’)を取り出す。なお、非音声パワー記憶部106には平均パワーベクトルの初期値も格納されている。平均パワーベクトルの初期値の例は、K個の定数(例えば1)を要素とするベクトルなどである。非音声区間の平均パワーベクトルが得られていない場合、S/Nベクトル生成部107は、平均パワーベクトルの初期値を非音声パワー記憶部106から取り出し、それをPN(r’)=(PN(1,r’),…,PN(K,r’))とする。
[Step S1074]
When the label θ r represents a speech section, the S / N
さらにS/Nベクトル生成部107は、すべてのチャネルk=1,…,Kについて、音声区間のフレームrに属するデジタル音響信号sxk(ik,r,0),…,sxk(ik,r,L-1)の平均パワーをPN(k,r’)で除算し、正規化平均パワーPV(k,r)を得る(式(2)参照)。
Further, the S / N
PN(k,r’)で除算することで各チャネルkのデジタル音響信号の平均パワーを正規化し、各チャネルkのマイク感度の違いによる影響を排除できる。S/Nベクトル生成部107は、得られた正規化平均パワーPV(k,r)をk番目の要素とするS/NベクトルPV(r)=(PV(1,r),…,PV(K,r))を出力する。
By dividing by P N (k, r ′), the average power of the digital acoustic signal of each channel k can be normalized, and the influence due to the difference in microphone sensitivity of each channel k can be eliminated. The S / N
[ステップS1075]
未処理のデジタル音響信号が存在する場合、S/Nベクトル生成部107はrに1を加算した値を新たなrとし、処理がステップS1072に進む。未処理のデジタル音響信号が存在しない場合、S/Nベクトル生成部107の処理を終える。
[Step S1075]
If there is an unprocessed digital acoustic signal, the S / N
前述のように、非音声パワー記憶部106は、平均パワーベクトルの初期値、およびS/Nベクトル生成部107で得られた平均パワーベクトルPN(r)を格納する。
As described above, the non-speech
ベクトル分類部108は、複数個のS/NベクトルPV(r)(複数個のチャネルに対して得られた特徴量からなる特徴量列)を入力として受け取る。ベクトル分類部108は、入力された複数個のS/NベクトルPV(r)をクラスタリングし、各S/NベクトルPV(r)が属する信号区間分類(クラスタ)を決定する(ステップS108)。ベクトル分類部108は、複数個のS/NベクトルPN(r)(例えば、5秒間に対応する区間でのS/NベクトルPN(r))が入力されるたびに、新たに入力されたS/NベクトルPN(r)をクラスタリング対象に追加してクラスタリングを実行してもよいし、1個のS/NベクトルPN(r)が入力されるたびに、新たに入力されたS/NベクトルPN(r)をクラスタリング対象に追加してクラスタリングを実行してもよい。クラスタリングの例は、教師なし学習であるオンラインクラスタリングなどであり、その一例はleader-followerクラスタリング(例えば、参考文献2参照)である。クラスタリングの指標となる距離にはコサイン類似度を用いることができる。コサイン類似度の距離関数は以下のように定義できる。
The
ただし、CLは各クラスタのラベルであり、ラベルCLは非音声区間を表すラベルθr(例えば0)以外の値(例えば、1以上の整数)をとる。PCLはクラスタCLの重心ベクトルである。d(CL)はクラスタCLの重心ベクトルPCLと入力されたS/NベクトルPV(r)との距離を表す。コサイン類似度を距離関数とするクラスタリングによって得られたラベルCLが、入力されたS/NベクトルPV(r)が属する信号区間分類を表す。ベクトル分類部108は、入力されたS/NベクトルPV(r)に対して得られたラベルCLをラベルθrに代入してラベルθrを更新する。これにより、音声区間のフレームrのラベルθrはラベルCLの値となり、非音声区間のフレームrのラベルθrは非音声区間を表す値となる。ベクトル分類部108は各フレームrのラベルθrを出力する。
[参考文献2]Richard O. Duda, Peter E. Hart, David G. Stork, “Pattern Classication,” Wiley-Interscience, 2000.
However, CL is a label of each cluster, and the label CL takes a value (for example, an integer of 1 or more) other than a label θ r (for example, 0) representing a non-voice segment. P CL is the centroid vector of the cluster CL. d (CL) represents the distance between the centroid vector P CL of the cluster CL and the input S / N vector P V (r). A label CL obtained by clustering using the cosine similarity as a distance function represents a signal section classification to which the input S / N vector P V (r) belongs.
[Reference 2] Richard O. Duda, Peter E. Hart, David G. Stork, “Pattern Classication,” Wiley-Interscience, 2000.
スペクトル算出部109は、フレーム分割部104で分割された、各チャネルkの各フレームrに属するデジタル音響信号sxk(ik,r,0),…,sxk(ik,r,L-1)を入力として受け取る。ここで、フレームrでの各チャネルkのデジタル音響信号sxk(ik,r,j)を要素とするK次元の縦ベクトルをx(j,r)=[sx1(i1,r,j),…,sxK(iK,r,j)]Tと記述する。ただし、[η]Tは[η]の転置を表す。また、フレームrに属するK次元ベクトルx(0,r),…,x(L-1,r)の要素を周波数領域に変換して得られる値を要素とするK次元の縦ベクトルをX(f,r)と記述する。すなわち、フレームrに属するデジタル音響信号sxk(ik,r,0),…,sxk(ik,r,L-1)を周波数領域に変換して得られる値X(k,f,r)をk番目の要素とするK次元の縦ベクトルをスペクトルベクトルX(f,r)=[X(1,f,r),…,X(K,f,r)]Tと記述する。ただし、fは離散周波数を表すインデックスである。周波数領域への変換方法の例は、FFT(Fast Fourier Transform)などの離散フーリエ変換である。また、X(k,f,r)の振幅スペクトルA(k,f,r)をk番目の要素とするK次元の縦ベクトルを振幅スペクトルベクトルA(f,r)=[A(1,f,r),…,A(K,f,r)]Tと記述する。さらに、X(k,f,r)の位相スペクトルφ(k,f,r)をk番目の要素とするK次元の縦ベクトルを位相スペクトルベクトルφ(f,r)=[φ(1,f,r),…,φ(K,f,r)]Tと記述する。スペクトル算出部109は、x(j,r)=[sx1(i1,r,j),…,sxK(iK,r,j)]Tを周波数領域に変換し、フレームrごとに、k個の振幅スペクトルA(k,f,r)からなる振幅スペクトルベクトルA(f,r)と、k個の位相スペクトルφ(k,f,r)からなる位相スペクトルベクトルφ(f,r)を得て出力する(ステップS109)。
The
振幅スペクトルベクトルA(f,r)は振幅スペクトル記憶部110に格納され、位相スペクトルベクトルφ(f,r)は位相スペクトル記憶部111に格納される。
The amplitude spectrum vector A (f, r) is stored in the amplitude
フィルタ係数算出部112は、ベクトル分類部108から出力された各フレームrのラベルθr、および振幅スペクトル記憶部110から読み出した振幅スペクトルベクトルA(f,r)を入力として受け取る。ここでラベルθrがとり得る値(分類ラベル番号)のうち、音を強調する信号区間分類(強調信号区間分類)を表す分類ラベル番号をcとする。1個の分類ラベル番号cのみが設定されてもよいし、複数個の分類ラベル番号cが設定されてもよい。例えば、任意に分類ラベル番号cが決定されてもよいし、属するS/NベクトルPV(r)のノルムの平均値または合計値が大きい順に選択された1個以上の信号区間分類を強調信号区間分類として分類ラベル番号cが決定されてもよいし、属するS/NベクトルPV(r)のノルムの平均値または合計値が閾値を超える信号区間分類を強調信号区間分類として分類ラベル番号cが決定されてもよい。θr=cは、フレームrが強調信号区間分類に分類されていることを表す。
The filter
フィルタ係数算出部112は、強調信号区間分類に属するS/NベクトルPV(r)に対応する振幅スペクトルA(k,f,r)を強調するフィルタリングのためのフィルタ係数を算出する(ステップS112)。以下の参考文献3に開示されたSN比最大化ビームフォーマでは、複素スペクトルをそのまま用いて、最大固有値に対する固有ベクトルを求めてフィルタ係数としている。これに対し、本形態のフィルタ係数算出部112は、振幅スペクトルベクトルA(f,r)を用いてSN比最大化ビームフォーマを構成する。すなわち、フィルタ係数算出部112は、以下の式(4)の一般化固有値問題を解き、最大固有値γ(f)に対応する固有ベクトルの値を、各分類ラベル番号cの音声を強調するフィルタ係数wc(f)として得る。
The filter
また、E[ρ]θr=c(下付きθrはθr)は、θr=cであるフレームrからなる区間における、行列ρの要素の期待値からなる行列を表す。E[ρ]θr≠cは、θr≠cであるフレームrからなる区間における、行列ρの要素の期待値からなる行列を表す。式(5)(6)を求めるための区間は、例えば10秒以上の時間に対応する。またフィルタ係数wc(f)は、チャネルkに対応する係数wc(f,k)をk番目の要素とするK次元の横ベクトル[wc(f,1),…,wc(f,K)]である。フィルタ係数算出部112は、各インデックスfおよび各分類ラベル番号cについてフィルタ係数wc(f)を得て出力する。さらにフィルタ係数算出部112は、(5)(6)を求めるための区間において、θr=cである各フレームrのS/NベクトルPV(r)の要素のうち最大の要素に対応するチャネルを、最大チャネル番号kc,rとして得る。フィルタ係数算出部112は、フィルタ係数wc(f)と最大チャネル番号kc,rとを各分類ラベル番号cに対応付け、フィルタ係数記憶部113に格納する。話者の移動や雑音の変化に対応するため、フィルタ係数算出部112は、定期的(例えば1分置き)に、式(5)(6)を得るための区間を更新し、各フィルタ係数wc(f)および最大チャネル番号kc,rを得て、フィルタ係数記憶部113に格納された各フィルタ係数wc(f)および最大チャネル番号kc,rを更新する。
[参考文献3]H. L. Van Tree, ed., “Optimum Array Processing,” Wiley, 2002.
E [ρ] θr = c (subscript θr is θ r ) represents a matrix composed of the expected values of the elements of the matrix ρ in the section composed of the frame r with θ r = c. E [ρ] θr ≠ c represents a matrix composed of expected values of elements of the matrix ρ in the section composed of the frame r where θ r ≠ c. The section for obtaining equations (5) and (6) corresponds to a time of 10 seconds or more, for example. The filter coefficient w c (f) is a K-dimensional horizontal vector [w c (f, 1), ..., w c (f) with the coefficient w c (f, k) corresponding to the channel k as the k-th element. , K)]. The filter
[Reference 3] HL Van Tree, ed., “Optimum Array Processing,” Wiley, 2002.
フィルタリング部114は、フィルタ係数記憶部113から読み出したフィルタ係数wc(f)、および振幅スペクトル記憶部110から読み出した振幅スペクトルベクトルA(f,r)を入力として受け取る。フィルタリング部114は、振幅スペクトルベクトルA(f,r)を構成する複数個の振幅スペクトルA(1,f,r),…,A(K,f,r)に対し、フィルタ係数wc(f)=[wc(f,1),…,wc(f,K)]によるフィルタリングを行い、処理後振幅スペクトルAc’(f,r)を得て出力する(ステップS114)。例えばフィルタリング部114は、以下の式(7)のように、フィルタ係数wc(f)と振幅スペクトルベクトルA(f,r)との内積を処理後振幅スペクトルAc’(f,r)として得る。
Ac’(f,r)=wc(f)A(f,r) (7)
The
A c '(f, r) = w c (f) A (f, r) (7)
以上のステップS112およびS114により、複数個の振幅スペクトルA(1,f,r),…,A(K,f,r)に対し、強調信号区間分類に属するS/NベクトルPV(r)に対応する振幅スペクトルを強調する処理が行われ、複数個の処理後振幅スペクトルAc’(f,r)が得られる。 Through the above steps S112 and S114, the S / N vector P V (r) belonging to the emphasized signal section classification is applied to the plurality of amplitude spectra A (1, f, r),..., A (K, f, r). A process of emphasizing the amplitude spectrum corresponding to is performed, and a plurality of processed amplitude spectra A c ′ (f, r) are obtained.
位相付与部115は、処理後振幅スペクトルAc’(f,r)に、それに対応する位相スペクトルを付与して複素スペクトルを得て出力する(ステップS115)。この実施形態では、位相付与部115は、フィルタ係数記憶部113から各フレームrおよび各分類ラベル番号cに対応する最大チャネル番号kc,rを読み出す。位相付与部115は、位相スペクトル記憶部111から全チャネルkに対応する位相スペクトルφ(k,f,r)を読み出し、それらから最大チャネル番号kc,rに対応する位相スペクトルφ(kc,r,f,r)を選択する。さらに位相付与部115は、フィルタリング部114から出力された処理後振幅スペクトルAc’(f,r)を入力として受け取る。位相付与部115は、以下の式(8)のように処理後振幅スペクトルAc’(f,r)に位相スペクトルφ(kc,r,f,r)を付与し、複素スペクトルYc(f,r)を得て出力する。
Yc(f,r)=Ac’(f,r)exp(iφ(kc,r,f,r)) (8)
ただし、iは虚数単位であり、expは指数関数である。
The
Y c (f, r) = A c '(f, r) exp (iφ (k c, r , f, r)) (8)
Where i is an imaginary unit and exp is an exponential function.
時間領域変換部116は、複素スペクトルYc(f,r)を入力として受け取り、複素スペクトルYc(f,r)を時間領域に変換して強調音響信号yc(n,r)(n=0,…,L−1)を得る。ただし、nはサンプル点を表すインデックスである。時間領域に変換する方法としては、例えば逆フーリエ変換を用いることができる。さらに時間領域変換部116は、オーバーラップアド法を用いて強調音響信号yc(n,r)(n=0,…,L−1)を合成して時間領域の音響信号波形を得て出力する。分類ラベル番号cが複数存在する場合、時間領域変換部116は、各分類ラベル番号cに対応する音響信号波形を複数出力する。または、各分類ラベル番号cに対応する音響信号波形の同じサンプル点ごとの加算値を出力してもよい。
The time
この実施形態の音声処理部13では、音声区間のデジタル音響信号の大きさを非音声区間のデジタル音響信号の大きさで正規化して得られる複数個のS/Nベクトルをクラスタリングする。そのため、自由に配置された感度が異なる収音手段を備えた複数個のスマートフォン、ラップトップコンピュータなどの端末装置で収音されたデジタル音響信号から、音源位置に基づいた信号区間分類を行うことができる。
The
また、この実施形態の音声処理部13では、音源から収音手段301へ到達するまでの音圧の減衰に着目するため、クラスタリングに用いる距離尺度にコサイン類似度を使用した。さらに、この実施形態では、サンプリング周波数変換部102でサンプリング周波数変換を行ってチャネル間のサンプリング周波数のずれを補正し、信号同期部103でチャネル間での同期を行ってクライアント31,…,3Kの個体差による影響を抑制した。そのため、各チャネルの収音手段301のサンプリング周波数の公称値が互いに異なっていたり、サンプリング周波数の個体差があったりしても、信号区間分類を精度よく行うことができる。
Further, in the
以上のような区間分類結果を用いて目的音区間とその他の音源区間に分類ができるため、雑音を抑圧し目的音を強調するフィルタの設計のための情報として利用できる。そのためこの実施形態では、自由に配置した複数のサンプリング周波数およびマイク感度が異なる、スマートフォン、携帯電話端末、ラップトップコンピュータなどの複数の端末装置で得られたデジタル音響信号から、特定の目的音を強調することができる。 Since the section classification result as described above can be used to classify the target sound section and other sound source sections, it can be used as information for designing a filter that suppresses noise and emphasizes the target sound. Therefore, in this embodiment, a specific target sound is emphasized from digital acoustic signals obtained by a plurality of terminal devices such as a smartphone, a mobile phone terminal, and a laptop computer, which have a plurality of freely arranged sampling frequencies and microphone sensitivities. can do.
<変形例等>
なお、この発明は上述の実施の形態に限定されるものではない。例えば、すべてのチャネルk=1,…,Kの収音手段301のサンプリング周波数の公称値が互いに同一であるならば、サンプリング周波数変換部102の処理を行わなくてもよい。この場合には「入力デジタル音響信号」がそのまま「変換デジタル音響信号」として信号同期部103に入力されてもよい。このような場合にはサンプリング周波数変換部102を設けなくてもよい。
<Modifications>
The present invention is not limited to the embodiment described above. For example, if the nominal values of the sampling frequencies of the sound collection means 301 of all channels k = 1,..., K are the same, the processing of the sampling
さらにすべてのチャネルk=1,…,Kの収音手段301のサンプリング周波数の公称値が互いに同一であり、それらの個体差の影響も小さいのであれば、サンプリング周波数変換部102および信号同期部103の処理を行わなくてもよい。この場合には「入力デジタル音響信号」がそのまま「デジタル音響信号」としてフレーム分割部104に入力されてもよい。このような場合にはサンプリング周波数変換部102および信号同期部103を設けなくてもよい。
Furthermore, if the nominal values of the sampling frequencies of the sound collecting means 301 of all the channels k = 1,..., K are the same and the influence of their individual differences is small, the
また位相付与部115は、最大チャネル番号kc,rに対応する位相スペクトルφ(kc,r,f,r)を処理後振幅スペクトルAc’(f,r)に付与した。しかしながら、その他のチャネルの位相スペクトルφ(k,f,r)を処理後振幅スペクトルAc’(f,r)に付与してもよい。
In addition, the
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。 The present invention is not limited to the above-described embodiment, and it goes without saying that modifications can be made as appropriate without departing from the spirit of the present invention. The various processes described in the above-described embodiments are not only executed in time series according to the order described, but may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes.
<発明の効果>
上記のように、この発明のビデオ会議技術によれば、自由に配置した複数のクライアントにより、サンプリング周波数および感度が異なるマイク等の収音手段を用いて収音した音響信号であっても、特定話者の音声の強調・抽出および雑音抑圧をすることが可能になる。また、音声だけでなくクライアントに搭載されているカメラ等の撮影手段から映像を取得することで、主として話している利用者の映像を各クライアントに配信し、ビデオ通話を行うことができる。
<Effect of the invention>
As described above, according to the video conferencing technique of the present invention, even if an acoustic signal is collected by a plurality of freely arranged clients using sound collecting means such as microphones having different sampling frequencies and sensitivities. It is possible to enhance / extract speaker's voice and suppress noise. Further, by acquiring not only voice but also video from photographing means such as a camera mounted on the client, video of a user who is mainly talking can be distributed to each client and a video call can be performed.
1 サーバ
3 クライアント
5 ネットワーク
10 ビデオ会議システム
11 音声受信部
12 映像受信部
13 音声処理部
14 音声送信部
15 映像選択部
16 映像送信部
17 端末管理部
21 音声取得部
22 音声配信部
23 映像取得部
24 映像配信部
25 コマンド送信部
31 音声取得部
32 映像取得部
33 音声再生部
34 映像表示部
35 コマンド受信部
36 設定部
37 制御部
301 収音手段
302 再生手段
303 撮影手段
304 表示手段
1 server 3 client 5 network 10
Claims (7)
前記クライアントは、
前記収音手段により収音した音響信号を前記サーバへ送信するクライアント側音声取得部と、
前記撮影手段により撮影した映像信号を前記サーバへ送信する映像取得部と、
前記サーバから受信する配信音響信号を再生する音声再生部と、
前記サーバから受信する配信映像信号を表示する映像表示部と、
を含み、
前記サーバは、
前記複数のクライアントから受信する複数チャネルの音響信号を入力とし、所定の音声処理により送信音響信号を生成する音声処理部と、
前記送信音響信号を他のビデオ会議システムに含まれるサーバへ送信する音声送信部と、
前記複数のクライアントから受信する複数個の映像信号から任意に選択した送信映像信号を決定する映像選択部と、
複数チャネルの音響信号を入力として前記所定の音声処理により生成した前記配信音響信号を前記他のビデオ会議システムに含まれるサーバから受信するサーバ側音声取得部と、
前記配信音響信号を前記複数のクライアントへ送信する音声配信部と、
複数個の映像信号から任意に選択された前記配信映像信号を前記複数のクライアントへ送信する映像配信部と、
を含み、
前記音声処理部は、
前記複数チャネルの音響信号を入力とし、チャネルごとに音声区間の前記音響信号の大きさを非音声区間の前記音響信号の大きさで正規化した特徴量を得る特徴量列取得部と、
前記複数チャネルに対して得られた特徴量からなる特徴量列をクラスタリングし、前記特徴量列が属する信号区間分類を決定する分類部と、
複数個の時間区間のそれぞれで前記音響信号を周波数領域に変換し、複数個の振幅スペクトルと位相スペクトルとを得るスペクトル算出部と、
前記複数個の振幅スペクトルに対し、前記信号区間分類のいずれかである強調信号区間分類に属する特徴量列に対応する振幅スペクトルを強調する処理を行い、複数個の処理後振幅スペクトルを得る強調処理部と、
前記処理後振幅スペクトルに前記位相スペクトルを付与して複素スペクトルを得る位相付与部と、
前記複素スペクトルを時間領域に変換して前記送信音響信号を得る時間領域変換部と、
を含むビデオ会議システム。 A video conference system including a plurality of clients and a server including sound collection means and photographing means,
The client
A client-side voice acquisition unit that transmits an acoustic signal collected by the sound collecting unit to the server;
A video acquisition unit that transmits a video signal captured by the imaging unit to the server;
An audio reproduction unit for reproducing a distribution acoustic signal received from the server;
A video display unit for displaying a distribution video signal received from the server;
Including
The server
An audio processing unit that receives an audio signal of a plurality of channels received from the plurality of clients and generates a transmission audio signal by predetermined audio processing;
An audio transmission unit for transmitting the transmission acoustic signal to a server included in another video conference system;
A video selection unit for determining a transmission video signal arbitrarily selected from a plurality of video signals received from the plurality of clients;
A server-side audio acquisition unit for receiving the distributed audio signal generated by the predetermined audio processing with an audio signal of a plurality of channels as an input from a server included in the other video conference system;
An audio distribution unit for transmitting the distribution acoustic signal to the plurality of clients;
A video distribution unit for transmitting the distribution video signal arbitrarily selected from a plurality of video signals to the plurality of clients;
Including
The voice processing unit
A feature quantity sequence acquisition unit that receives the acoustic signals of the plurality of channels and obtains a feature quantity obtained by normalizing the magnitude of the acoustic signal in the voice section for each channel by the magnitude of the acoustic signal in the non-voice section;
A clustering unit configured to cluster feature quantity sequences made up of the feature quantities obtained for the plurality of channels, and to determine a signal section classification to which the feature quantity sequence belongs;
A spectrum calculation unit that converts the acoustic signal into a frequency domain in each of a plurality of time intervals, and obtains a plurality of amplitude spectra and phase spectra;
Emphasis processing for obtaining a plurality of post-processing amplitude spectra by performing processing for emphasizing the amplitude spectrum corresponding to the feature amount sequence belonging to the emphasis signal section classification which is one of the signal section classifications with respect to the plurality of amplitude spectra. And
A phase adding unit that obtains a complex spectrum by adding the phase spectrum to the processed amplitude spectrum;
A time domain conversion unit that converts the complex spectrum into the time domain to obtain the transmission acoustic signal;
Including video conferencing system.
前記サーバは、前記送信映像信号に基づいて所定の情報を表示するための要求信号を前記複数のクライアントへ送信するコマンド送信部を含み、
前記クライアントは、前記要求信号に従って前記送信映像信号に基づく所定の情報を表示するコマンド受信部を含む
ビデオ会議システム。 The video conferencing system according to claim 1,
The server includes a command transmission unit that transmits a request signal for displaying predetermined information to the plurality of clients based on the transmission video signal,
The video conference system, wherein the client includes a command receiving unit that displays predetermined information based on the transmission video signal according to the request signal.
前記コマンド受信部は、前記送信映像信号がどのクライアントが取得した映像信号かを示す情報を表示する
ことを特徴とするビデオ会議システム。 The video conferencing system according to claim 2,
The video receiving system, wherein the command receiving unit displays information indicating which client has acquired the transmitted video signal.
前記クライアントは、スマートフォンである
ことを特徴とするビデオ会議システム。 The video conference system according to any one of claims 1 to 3,
The video conference system, wherein the client is a smartphone.
前記強調処理部は、
前記強調信号区間分類に属する特徴量列に対応する振幅スペクトルを強調するフィルタリングのためのフィルタ係数を算出するフィルタ係数算出部と、
前記複数個の振幅スペクトルに対し、前記フィルタ係数によるフィルタリングを行い、前記処理後振幅スペクトルを得るフィルタリング部と、
を含むビデオ会議システム。 The video conference system according to any one of claims 1 to 4,
The enhancement processing unit
A filter coefficient calculation unit for calculating a filter coefficient for filtering that emphasizes an amplitude spectrum corresponding to a feature amount sequence belonging to the enhancement signal section classification;
Filtering the plurality of amplitude spectra with the filter coefficient to obtain the processed amplitude spectrum;
Including video conferencing system.
前記特徴量は、前記非音声区間の前記音響信号の大きさに対する前記音声区間の前記音響信号の大きさの比を表す
ことを特徴とするビデオ会議システム。 The video conference system according to any one of claims 1 to 5,
The video conference system, wherein the feature amount represents a ratio of a magnitude of the acoustic signal in the voice section to a magnitude of the acoustic signal in the non-voice section.
前記音声処理部は、
前記複数チャネルの音響信号をサンプリング周波数変換し、特定のサンプリング周波数の変換音響信号を得るサンプリング周波数変換部と、
前記変換音響信号をチャネル間で同期させ、前記音響信号を得る信号同期部と、
を含むビデオ会議システム。 The video conference system according to any one of claims 1 to 6,
The voice processing unit
Sampling frequency conversion of the acoustic signals of the plurality of channels to obtain a converted acoustic signal of a specific sampling frequency; and
A signal synchronization unit that synchronizes the converted acoustic signal between channels and obtains the acoustic signal;
Including video conferencing system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012264245A JP5931707B2 (en) | 2012-12-03 | 2012-12-03 | Video conferencing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012264245A JP5931707B2 (en) | 2012-12-03 | 2012-12-03 | Video conferencing system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014110546A JP2014110546A (en) | 2014-06-12 |
JP5931707B2 true JP5931707B2 (en) | 2016-06-08 |
Family
ID=51030934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012264245A Expired - Fee Related JP5931707B2 (en) | 2012-12-03 | 2012-12-03 | Video conferencing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5931707B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6230969B2 (en) * | 2014-07-25 | 2017-11-15 | 日本電信電話株式会社 | Voice pickup system, host device, and program |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002149200A (en) * | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | Device and method for processing voice |
JP2007158378A (en) * | 2005-11-14 | 2007-06-21 | Sony Corp | Signal switching apparatus and control method thereof |
JP5436743B2 (en) * | 2006-03-30 | 2014-03-05 | 京セラ株式会社 | Communication terminal device and communication control device |
JP5334037B2 (en) * | 2008-07-11 | 2013-11-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Sound source position detection method and system |
JP5206234B2 (en) * | 2008-08-27 | 2013-06-12 | 富士通株式会社 | Noise suppression device, mobile phone, noise suppression method, and computer program |
JP4920738B2 (en) * | 2009-11-13 | 2012-04-18 | 株式会社Okiネットワークス | Information communication system, information search server, and information search program |
-
2012
- 2012-12-03 JP JP2012264245A patent/JP5931707B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014110546A (en) | 2014-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9500739B2 (en) | Estimating and tracking multiple attributes of multiple objects from multi-sensor data | |
US11019306B2 (en) | Combining installed audio-visual sensors with ad-hoc mobile audio-visual sensors for smart meeting rooms | |
US20130169779A1 (en) | Systems and methods for determining head related transfer functions | |
JP5739009B2 (en) | System and method for providing conference information | |
US10255898B1 (en) | Audio noise reduction using synchronized recordings | |
US9318121B2 (en) | Method and system for processing audio data of video content | |
CN103841358B (en) | The video conferencing system and method for low code stream, sending ending equipment, receiving device | |
WO2021227730A1 (en) | Audio signal post-processing method and apparatus, storage medium, and electronic device | |
JP6377557B2 (en) | Communication system, communication method, and program | |
US20170206898A1 (en) | Systems and methods for assisting automatic speech recognition | |
CN113228710A (en) | Sound source separation in hearing devices and related methods | |
JP6580362B2 (en) | CONFERENCE DETERMINING METHOD AND SERVER DEVICE | |
JP5931707B2 (en) | Video conferencing system | |
WO2019000877A1 (en) | Audio data processing method and device | |
WO2021129444A1 (en) | File clustering method and apparatus, and storage medium and electronic device | |
JP6285855B2 (en) | Filter coefficient calculation apparatus, audio reproduction apparatus, filter coefficient calculation method, and program | |
JP2019079157A (en) | Control system and system | |
JP2015125184A (en) | Sound signal processing device and program | |
JP6230969B2 (en) | Voice pickup system, host device, and program | |
US11165990B2 (en) | Mobile terminal and hub apparatus for use in a video communication system | |
US11823706B1 (en) | Voice activity detection in audio signal | |
JP7403392B2 (en) | Sound collection device, system, program, and method for transmitting environmental sound signals collected by multiple microphones to a playback device | |
CN105515960B (en) | Instant messaging information processing method and device and mobile terminal | |
WO2017154723A1 (en) | Recording data processing method and recording data processing device | |
CN114827101A (en) | Audio processing method and device, electronic equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160426 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160427 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5931707 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |