JP2018137614A

JP2018137614A - 通信装置、通信システム、通信方法及びプログラム

Info

Publication number: JP2018137614A
Application number: JP2017030890A
Authority: JP
Inventors: 令治田中; Reiji Tanaka
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2017-02-22
Filing date: 2017-02-22
Publication date: 2018-08-30
Anticipated expiration: 2037-02-22
Also published as: JP6972576B2

Abstract

【課題】送信側のユーザが発した音声が、受信側において音声として出力される前に、送信側の発話者が音声を発したことを、受信側において把握できるようにする。【解決手段】第１の通信装置が、入力される音声を示す音声データを生成し、音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成し、第１の期間に入力された音声について生成された音声データに、第１の期間よりも後の期間である第２の期間に入力された音声について生成された音声レベル情報を付加したパケットデータを生成し、パケットデータを、ネットワークを介して第２の通信装置に送信する。第２の通信装置が、パケットデータを受信し、音声データを再生する再生処理を行い、再生処理の結果を出力し、音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、再生処理の結果の出力に先行して、表示処理の結果を出力する。【選択図】図１

Description

本発明は、通信装置、通信システム、通信方法及びプログラムに関する。

ネットワークを介して音声データを送受信する技術として、以下の技術が知られている。例えば、特許文献１には、ネットワークに接続された複数の会議端末を含む会議システム（以下、従来の会議システムと記載）が記載されている。会議端末は、画像を撮影する撮影手段と、音声を入力する音声入力手段と、画像データ又は音声データの少なくとも一方を圧縮パラメータに従い圧縮する圧縮手段と、圧縮手段が圧縮した画像データ及び音声データを通信相手に送信し、通信相手から画像データ及び音声データを受信する通信手段と、通信手段が受信した画像データ及び音声データを非圧縮化する復号化手段と、復号化された画像データ及び音声データを出力する出力手段と、を有する。

特開２０１４−０６０６０７号公報

従来の会議システムにおいては、送信側の端末装置は、発話者から発せられた音声による音声アナログ信号をデジタル化し、さらに符号化し、音声符号化データをネットワークへ送信する。受信側の端末装置は、ネットワークから受信した音声符号化データを復号化し、アナログ信号として再生する。

従来の会議システムによれば、処理遅延、ネットワーク遅延、バッファリング遅延により、受信側の端末装置において、発話者が音声を発した時点から遅れて当該音声が再生される。例えば、従来の会議システムにおいて、処理遅延が発生する構成として、送信側の会議端末における音声エンコーダ、受信側の会議端末における配信制御部、音声デコーダ、音声出力制御部が挙げられる。また、バッファリング遅延が発生する構成として、音声入力制御部が挙げられる。

従来の会議システムは、システムのユーザにおいて、再生された音声のみで自身の発話タイミングを判断する必要があり、スムーズな会話が困難であった。すなわち、従来の会議システムは、システムのユーザが、上記した各種の遅延が発生する状況において会話を成立させるために、相手からの音声だけに頼り、発話タイミングを意識しなければならないといった問題がある。また、従来の会議システムは、システムのユーザが、相手からの音声が聞こえない状況で発話しようとし、既に相手ユーザも発話を開始している場合、お互いのユーザが同時に話し始めることにより、お互いのユーザの会話が混信するといった問題がある。あるいは、従来の会議システムは、システムのユーザが、相手の会話に割り込むタイミングが掴みづらいといった問題がある。従来の会議システムは、処理遅延及びバッファリング遅延等の端末装置内において生じる遅延時間を短縮させたとしても、ネットワーク遅延を解消することはできず、上記の問題を解決することはできない。従って、従来の会議システムは、端末装置内において生じる遅延時間の短縮だけでは、発話タイミングの適切な認識は困難である。

本発明は、上記した点に鑑みてなされたものであり、送信側のユーザが発した音声が、受信側において出力される前に、送信側の発話者が音声を発したことを、受信側において把握できるようにすることを目的とする。

発明に係る通信装置は、入力される音声を示す音声データを生成する音声データ生成部と、前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出部と、第１の期間に入力された音声について生成された前記音声データに、前記第１の期間よりも後の期間である第２の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成部と、前記パケットデータを送信する送信部と、を有する。

本発明に係る通信装置は、音声を示す音声データに、音声のレベルを示す音声レベル情報が付加されたパケットデータを受信する受信部と、前記受信部によって受信された前記パケットデータに含まれる前記音声データを再生するための再生処理を行い、前記再生処理の結果を出力する再生処理部と、前記受信部によって受信された前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理部による前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理部と、を有する。

本発明に係る通信装置は、ネットワークを介して通信可能に接続された第１の通信装置及び第２の通信装置を含む通信システムである。前記第１の通信装置は、入力される音声を示す音声データを生成する音声データ生成部と、前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出部と、第１の期間に入力された音声について生成された前記音声データに、前記第１の期間よりも後の期間である第２の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成部と、前記パケットデータを、前記ネットワークを介して前記第２の通信装置に送信する送信部と、を有する。前記第２の通信装置は、前記第１の通信装置から送信された前記パケットデータを受信する受信部と、前記受信部によって受信された前記パケットデータに含まれる前記音声データを再生するための再生処理を行い、前記再生処理の結果を出力する再生処理部と、前記受信部によって受信された前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理部による前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理部と、を有する。

本発明に係る通信方法は、通信装置における通信方法であって、前記通信装置は、入力される音声を示す音声データを生成する音声データ生成ステップと、前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出ステップと、第１の期間に入力された音声について生成された前記音声データに、前記第１の期間よりも後の期間である第２の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成ステップと、前記パケットデータを送信する送信ステップとを有する。

本発明に係る通信方法は、通信装置における通信方法であって、前記通信装置は、音声を示す音声データに、音声のレベルを示す音声レベル情報が付加されたパケットデータを受信する受信ステップと、受信した前記パケットデータに含まれる前記音声データを再生するための再生処理を行い、前記再生処理の結果を出力する再生処理ステップと、受信した前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理ステップとを有する。

本発明に係る通信方法は、ネットワークを介して通信可能に接続された第１の通信装置及び第２の通信装置を含む通信システムにおける通信方法であって、前記第１の通信装置は、入力される音声を示す音声データを生成する音声データ生成ステップと、前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出ステップと、第１の期間に入力された音声について生成された前記音声データに、前記第１の期間よりも後の第２の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成ステップと、前記パケットデータを、ネットワークを介して第２の通信装置に送信する送信ステップとを有し、前記第２の通信装置は、前記パケットデータを受信する受信ステップと、受信した前記パケットデータに含まれる前記音声データを再生する再生処理を行い、前記再生処理の結果を出力する再生処理ステップと、受信した前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理ステップと、を有する。

本発明に係るプログラムは、コンピュータを、入力される音声を示す音声データを生成する音声データ生成部、前記音声のレベルを検出し、検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出部、第１の期間に入力された音声について生成された前記音声データに、前記第１の期間よりも後の第２の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成部、前記パケットデータを送信する送信部、として機能させることを特徴とするプログラムである。

本発明に係るデータ受信プログラムは、コンピュータを、音声を示す音声データに、音声のレベルを示す音声レベル情報が付加されたパケットデータを受信する受信部、受信した前記パケットデータに含まれる前記音声データを再生する再生処理を行い、前記再生処理の結果を出力する再生処理部、受信した前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理部、として機能させることを特徴とするプログラムである。

本発明によれば、送信側のユーザが発した音声が、受信側において出力される前に、送信側のユーザが音声を発したことを、受信側において把握することが可能となる。

本発明の実施形態に係る通信システムの構成の一例を示すブロック図である。本発明の実施形態に係る音声パケットデータの構造を示す図である。本発明の実施形態に係る拡張ヘッダに格納される音声レベル情報と、拡張ヘッダ長との関係の一例を示す図である。本発明の実施形態に係る拡張ヘッダに格納される音声レベル情報と、拡張ヘッダ長との関係の一例を示す図である。本発明の実施形態に係る拡張ヘッダに格納される音声レベル情報と、拡張ヘッダ長との関係の一例を示す図である。本発明の実施形態に係る表示部において表示される音声レベルの表示態様の一例を示す図である。本発明の実施形態に係る通信装置のハードウェア構成の一例を示す図である。本発明の実施形態に係る通信装置のハードウェア構成の一例を示す図である。本発明の実施形態に係る通信装置において実施される処理の流れを示すフローチャートである。本発明の実施形態に係るマイクに入力された音声と、符号化音声データ及び音声レベル情報との関係を示す図である。本発明の実施形態に係る音声パケットデータの構成の一例を示す図である。本発明の実施形態に係る通信装置において実施される処理の流れを示すフローチャートである。本発明の実施形態に係る音声レベル表示のタイミングと、音声出力のタイミングとの関係の一例を示す図である。本発明の他の実施形態に係る通信システムの構成の一例を示すブロック図である。

以下、本発明の実施形態について図面を参照しつつ説明する。尚、各図面において、実質的に同一又は等価な構成要素又は部分には同一の参照符号を付している。

［第１の実施形態］
図１は、本発明の第１の実施形態に係る通信システム１の構成の一例を示すブロック図である。通信システム１は、ネットワーク３０を介して通信可能に接続された通信装置１０及び２０を含んで構成されている。通信装置１０及び２０は、ネットワーク３０を介して音声データを相互に送受信することが可能である。従って、通信システム１は、互いに離れた場所に所在する会議参加者の発する音声を相互に送受信する会議システムとして利用することが可能である。

なお、以下の説明では、説明の煩雑さを回避する観点から、通信装置１０が、通信装置１０側のユーザから発せられた音声について生成した音声データを、ネットワーク３０を介して通信装置２０に送信する機能を備え、通信装置２０が、通信装置１０から送信された音声データを受信し、受信した音声データを処理する機能を備える場合を例示している。しかしながら、通信装置１０は、通信装置２０が備える機能も備え、通信装置２０は、通信装置１０が備える機能も備えている。すなわち、通信装置１０及び２０は、それぞれ相互に音声データを送受信する機能を備えている。

通信装置１０は、音声データ生成部１１、分配部１２、音声レベル検出部１３、音声エンコーダ１４、音声パケットデータ生成部１５及び送信部１６を含んで構成されている。通信システム１は、音声データ生成部１１に接続されたマイク１７を有する。

マイク１７は、通信装置１０側のユーザの音声を入力し、入力される音声の大きさ（音圧レベル）に応じた振幅を有するアナログ音声信号を生成する。マイク１７は、生成したアナログ音声信号を音声データ生成部１１に供給する。なお、マイク１７は、通信装置１０の構成要素の一部として通信装置１０に含まれていてもよい。

音声データ生成部１１は、マイク１７から供給されるアナログ音声信号をデジタル化する処理を行い、デジタル形式の音声データを生成する。音声データ生成部１１は、生成した音声データを分配部１２に供給する。

分配部１２は、音声データ生成部１１から供給される音声データを、音声エンコーダ１４及び音声レベル検出部１３に分配する。すなわち、音声エンコーダ１４及び音声レベル検出部１３には、互いに同じ内容の音声データが供給される。

音声エンコーダ１４は、分配部１２から供給される音声データを符号化することにより圧縮する。符号化方式の一例として、Ｇ．７１１、Ｇ．７２９、及びＡＡＣなどが挙げられる。音声エンコーダ１４は、所定の時間間隔（例えば２０ｍｓｅｃ間隔）で、音声データを符号化する。ここで、分配部１２から供給される音声データのサンプリング周波数が、音声エンコーダ１４で音声データを処理する際に用いられる取り扱うサンプリング周波数と異なる場合、音声エンコーダ１４は、符号化処理前の音声データに対して、所定のサンプリング周波数でサンプリングする前処理を実施してもよい。音声エンコーダ１４は、符号化した音声データ（以下、符号化音声データという）を音声パケットデータ生成部１５に供給する。

音声レベル検出部１３は、分配部１２から供給される音声データにおける音声のレベルを検出して、検出した音声のレベルを示す音声レベル情報を生成する。音声レベル検出部１３は、所定の時間間隔（例えば５ｍｓｅｃ間隔）で、音声レベルを検出する。なお、音声レベルを検出する時間間隔を可変としてもよい。音声レベル検出部１３は、例えば、検出した音声レベルの、所定期間内における最大値を、音声レベル情報として生成する。なお、音声レベル検出部１３は、検出した音声レベルの、所定期間内における平均値を、音声レベル情報として生成してもよい。音声レベル検出部１３は、生成した音声レベル情報を音声パケットデータ生成部１５に供給する。

音声パケットデータ生成部１５は、音声エンコーダ１４から供給される符号化音声データに、音声レベル検出部１３から供給される音声レベル情報を付加したＲＴＰ（Real-time Transport Protocol）形式の音声パケットデータを生成する。より具体的には、音声パケットデータ生成部１５は、ある期間Ｔ１に入力された音声について生成された符号化音声データに、当該期間Ｔ１よりも後の期間Ｔ２に入力された音声について生成された音声レベル情報を付加した音声パケットデータを生成する。

音声エンコーダ１４による符号化処理には、所定の処理時間を要する。一方、音声レベル検出部による音声レベル情報の生成に要する処理時間は、符号化処理に要する処理時間よりも短い。従って、期間Ｔ１に入力された音声についての符号化音声データの生成時点と、期間Ｔ２に入力された音声についての音声レベル情報の生成時点との間の時間差は、小さい。音声パケットデータ生成部１５は、生成した音声パケットデータを送信部１６に供給する。

図２は、音声パケットデータ生成部１５によって生成される音声パケットデータ４０の構造を示す図である。音声パケットデータ４０は、ＩＥＴＦ（Internet Engineering Task Force）におけるＲＦＣ１８８９の仕様に準拠するＲＴＰヘッダ４１及びＲＴＰ拡張ヘッダ４２及びペイロード４３を含んで構成されている。

ＲＴＰヘッダ４１は、バージョン番号、パディング、拡張ビット、寄与送信元識別子の数、マーカビット、ペイロードタイプ、シーケンス番号、タイムスタンプ、同期送信元識別子及び寄与送信元識別子を有している。ＲＴＰ拡張ヘッダ４２は、プロファイル番号４２１、拡張ヘッダ長４２２及び拡張ヘッダ４２３を有している。本実施形態において、拡張ヘッダ４２３は、音声レベル情報を格納する領域として利用される。ペイロード４３は、符号化音声データが格納される領域である。ペイロード４３には、例えば、単位時間幅２０ｍｓｅｃの長さの音声に対応する符号化音声データが格納される。

以下に、ＲＴＰ拡張ヘッダ４２について詳述する。プロファイル番号４２１は、予め定義された、音声レベル情報に関わる１６ビットのビット列で構成される。拡張ヘッダ長４２２は、拡張ヘッダ４２３に格納されるデータ長を示す１６ビットのビット列で構成される。

ここで、図３Ａ、図３Ｂ、図３Ｃは、それぞれ、拡張ヘッダ４２３に格納される音声レベル情報と、拡張ヘッダ長との関係を示す図である。ここでは、１つの音声レベル情報のデータ長は１６ビットであるものとし、拡張ヘッダ長４２２には、３２ビットを１単位とするデータ長を示す数値が格納される。

図３Ａには、ペイロード４３に単位時間幅２０ｍｓｅｃの長さの音声に対応する符号化音声データが格納され、且つ音声レベル検出部１３における音声レベルの検出間隔が５ｍｓｅｃである場合のＲＴＰ拡張ヘッダ４２の構成が例示されている。この場合、音声レベル検出部１３は、２０ｍｓｅｃの期間内に音声レベルを４回検出し、４つの音声レベル情報［１］〜［４］を生成する。拡張ヘッダ４２３には、２０ｍｓｅｃの期間内に生成された音声レベル情報［１］〜［４］が格納される。従って、この場合、拡張ヘッダ長は２となる。

図３Ｂには、ペイロード４３に単位時間幅２０ｍｓｅｃの長さの音声に対応する符号化音声データが格納され、且つ音声レベル検出部１３における音声レベルの検出間隔が１０ｍｓｅｃである場合のＲＴＰ拡張ヘッダ４２の構成が例示されている。この場合、音声レベル検出部１３は、２０ｍｓｅｃの期間内に音声レベルを２回検出し、２つの音声レベル情報［１］、［２］を生成する。拡張ヘッダ４２３には、２０ｍｓｅｃの期間内に生成された音声レベル情報［１］、［２］が格納される。従って、この場合、拡張ヘッダ長は１となる。

図３Ｃには、ペイロード４３に単位時間幅２０ｍｓｅｃの長さの音声に対応する符号化音声データが格納され、且つ音声レベル検出部１３における音声レベルの検出間隔が２０ｍｓｅｃである場合のＲＴＰ拡張ヘッダ４２の構成が例示されている。この場合、音声レベル検出部１３は、２０ｍｓｅｃの期間内に音声レベルを１回検出し、１つの音声レベル情報［１］を生成する。拡張ヘッダ４２３には、２０ｍｓｅｃの期間内に生成された音声レベル情報［１］および１６個の「０」からなるゼロパディングが格納される。従って、この場合、拡張ヘッダ長は１となる。

送信部１６は、音声パケットデータ生成部１５において生成された音声パケットデータを、ネットワーク３０を介して相手側の通信装置２０に向けて送信する。

図１に示すように、通信装置２０は、受信部２１、表示処理部２２、再生処理部２５を含んで構成されている。再生処理部２５は、音声デコーダ２３及び音声信号生成部２４を有している。通信システム１は、音声信号生成部２４に接続されたスピーカ２６及び表示処理部２２に接続された表示部２７を有する。

受信部２１は、通信装置１０から送信された音声パケットデータを受信する。受信部２１は、受信した音声パケットデータに含まれる符号化音声データを音声デコーダ２３に供給する。また、受信部２１は、受信した音声パケットデータに含まれる音声レベル情報を表示処理部２２に供給する。

音声デコーダ２３は、受信部２１から供給される符号化音声データを復号する。すなわち、音声デコーダ２３は、圧縮された音声データを伸長する処理を行う。音声デコーダ２３は、復号した音声データを音声信号生成部２４に供給する。

音声信号生成部２４は、音声デコーダ２３から供給される復号されたデジタル形式の音声データを、アナログ形式に変換したアナログ音声信号を生成する。音声信号生成部２４は、生成したアナログ音声信号をスピーカ２６に出力する。音声デコーダ２３及び音声信号生成部２４によって再生処理部２５が構成され、再生処理部２５において符号化音声データに対する再生処理が行われ、再生処理の結果がスピーカ２６に出力される。

スピーカ２６は、音声信号生成部２４から供給されるアナログ音声信号に応じた音声を出力する。すなわち、通信装置１０側のマイク１７に入力されたユーザの音声がスピーカ２６から出力される。なお、スピーカ２６は、通信装置２０の構成要素の一部として通信装置２０に含まれていてもよい。

表示処理部２２は、受信部２１から供給される音声レベル情報によって示される音声レベルを表示するための表示処理を行い、その処理結果を表示部２７に出力する。表示部２７は、表示処理部２２から出力される表示処理の結果に基づいて音声レベルを表示する。

表示処理部２２は、再生処理部２５による再生処理の結果の出力に先行して、表示処理の結果を出力する。すなわち、ネットワーク３０を介して通信装置２０に供給される音声パケットデータに含まれる符号化音声データに応じた音声がスピーカ２６から出力されるタイミングよりも前に、当該音声パケットデータに含まれる音声レベル情報に応じた音声レベルが表示部２７において表示される。音声デコーダ２３による復号処理および音声信号生成部２４による信号変換処理を含む再生処理には、所定の処理時間を要する。一方、表示処理部２２による表示処理に要する処理時間は、再生処理に要する処理時間よりも短い。従って、表示処理部２２における表示処理結果の出力を、再生処理部２５における再生処理結果の出力に対して先行させることが可能である。

図４は、表示部２７において表示される音声レベルの表示態様の一例を示す図である。図４に示すように、音声レベルを、例えば、レベルバーによって表示してもよい。図４には、音声レベルを４段階で表示する場合が例示されている。

表示部２７は、例えば、通信装置２０に接続された液晶ディスプレイ等の表示装置によって構成されていてもよい。また、表示部２７は、通信装置２０を収容する筐体の表面に設けられたインジケータによって構成されていてもよい。また、表示部２７は、通信装置２０の構成要素の一部として通信装置２０に含まれていてもよい。

通信装置１０は、例えば、図５に示すコンピュータ１００によって構成することができる。コンピュータ１００は、バス１１０を介して相互に接続されたＣＰＵ（Central Processing Unit）１０１、主記憶装置１０２、補助記憶装置１０３、ハードウェアインターフェース１０４及び通信インターフェース１０５を含んで構成されている。マイク１７は、ハードウェアインターフェース１０４に接続され、ネットワーク３０は、通信インターフェース１０５に接続される。

補助記憶装置１０３は、Hard Disk Drive（ＨＤＤ）、solid state drive（ＳＳＤ）、フラッシュメモリ等の不揮発性の記憶装置によって構成されている。補助記憶装置１０３には、コンピュータ１００を通信装置１０として機能させるためのデータ送信プログラム１２０が記憶されている。データ送信プログラム１２０は、音声データ生成処理１２１、音声データ分配処理１２２、音声データ符号化処理１２３、音声レベル情報生成処理１２４、パケットデータ生成処理１２５及びパケットデータ送信処理１２６を含んで構成されている。

ＣＰＵ１０１は、データ送信プログラム１２０を補助記憶装置１０３から読み出して主記憶装置１０２に展開し、データ送信プログラム１２０が有する各処理を順次実行する。ＣＰＵ１０１は、音声データ生成処理１２１を実行することで、音声データ生成部１１として動作する。また、ＣＰＵ１０１は、音声データ分配処理１２２を実行することで、分配部１２として動作する。また、ＣＰＵ１０１は、音声データ符号化処理１２３を実行することで、音声エンコーダ１４として動作する。また、ＣＰＵ１０１は、音声レベル情報生成処理１２４を実行することで、音声レベル検出部１３として動作する。また、ＣＰＵ１０１は、パケットデータ生成処理１２５を実行することで、音声パケットデータ生成部１５として動作する。また、ＣＰＵ１０１は、パケットデータ送信処理１２６を実行することで、送信部１６として機能する。データ送信プログラム１２０を実行したコンピュータ１００が、通信装置１０として機能する。なお、データ送信プログラム１２０により実現される機能は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）等の半導体集積回路によって実現することも可能である。

一方、通信装置２０は、例えば、図６に示すコンピュータ２００によって構成することができる。コンピュータ２００は、コンピュータ１００の構成と同様であり、バス２１０を介して相互に接続されたＣＰＵ２０１、主記憶装置２０２、補助記憶装置２０３、ハードウェアインターフェース２０４及び通信インターフェース２０５を含んで構成されている。スピーカ２６及び表示部２７は、ハードウェアインターフェース２０４に接続され、ネットワーク３０は、通信インターフェース２０５に接続される。

補助記憶装置２０３には、コンピュータ２００を通信装置２０として機能させるためのデータ受信プログラム２２０が記憶されている。データ受信プログラム２２０は、パケットデータ受信処理２２１、音声レベル表示処理２２２、音声データ復号処理２２３及び音声信号生成処理２２４を含んで構成されている。

ＣＰＵ２０１は、データ受信プログラム２２０を補助記憶装置２０３から読み出して主記憶装置２０２に展開し、データ受信プログラム２２０が有する各処理を順次実行する。ＣＰＵ２０１は、パケットデータ受信処理２２１を実行することで、受信部２１として動作する。また、ＣＰＵ２０１は、音声レベル表示処理２２２を実行することで、表示処理部２２として動作する。また、ＣＰＵ２０１は、音声データ復号処理２２３を実行することで、音声デコーダ２３として動作する。また、ＣＰＵ２０１は、音声信号生成処理２２４を実行することで、音声信号生成部２４として動作する。データ受信プログラム２２０を実行したコンピュータ２００が、通信装置２０として機能する。なお、データ受信プログラム２２０により実現される機能は、ＡＳＩＣ等の半導体集積回路によって実現することも可能である。

以下に、通信装置１０の動作について説明する。図７は、通信装置１０において実施される処理の流れを示すフローチャートである。ステップＳ１１において、音声データ生成部１１が、マイク１７から供給されるアナログ音声信号をデジタル化する処理を行い、デジタル形式の音声データを生成する。

ステップＳ１２において、分配部１２が、音声データ生成部１１から供給された音声データを音声エンコーダ１４及び音声レベル検出部１３に分配する。

ステップＳ１３において、音声レベル検出部１３は、分配部１２から供給された音声データによって示される音声レベルを検出して、検出した音声レベルを示す音声レベル情報を生成する。ここで、音声レベル検出部１３は、所定の時間間隔（例えば５ｍｓｅｃ間隔）で、音声レベルを検出するものとする。

ステップＳ１４において、音声エンコーダ１４は、分配部１２から供給された音声データを符号化することにより圧縮し、符号化音声データを生成する。ステップＳ１３における音声レベル情報生成処理と、ステップＳ１４における音声データ符号化処理は、並行して実施される。ここで、音声エンコーダ１４は、所定の時間間隔（例えば２０ｍｓｅｃ間隔）で、音声データを符号化する。

ここで、図８Ａは、期間Ｔ１〜Ｔ４にマイク１７に入力された音声と、通信装置１０において生成される符号化音声データ及び音声レベル情報との関係を示す図である。音声エンコーダ１４は、時刻ｔ１からｔ２までの期間Ｔ１に、マイク１７に入力された音声［１］について符号化音声データ［１］を生成し、時刻ｔ２からｔ３までの期間Ｔ２にマイク１７に入力された音声［２］について符号化音声データ［２］を生成し、時刻ｔ３からｔ４までの期間Ｔ３にマイク１７に入力された音声［３］について符号化音声データ［３］を生成し、時刻ｔ４からｔ５までの期間Ｔ４にマイク１７に入力された音声［４］について符号化音声データ［４］を生成する。
なお、期間Ｔ１〜Ｔ４は、２０ｍｓｅｃからなる期間であり、期間Ｔ２は、期間Ｔ１より後の期間であり、期間Ｔ３は、期間Ｔ２より後の期間であり、期間Ｔ４は、期間Ｔ３より後の期間である。

音声レベル検出部１３は、マイク１７に入力された音声［１］〜［４］について、それぞれ、音声レベル情報［１］〜［４］を生成する。

ステップＳ１５において、音声パケットデータ生成部１５は、音声エンコーダ１４によって生成された符号化音声データに、音声レベル検出部１３によって生成された音声レベル情報を付加したＲＴＰ形式の音声パケットデータを生成する。

図８Ｂは、音声パケットデータ生成部１５において生成される音声パケットデータの構成の一例を示す図である。音声パケットデータ生成部１５は、期間Ｔ１にマイク１７に入力された音声［１］について生成された符号化音声データ［１］をペイロード４３に格納し、期間Ｔ１よりも後の期間Ｔ２にマイク１７に入力された音声［２］について生成された音声レベル情報［２］を拡張ヘッダ４２に格納し、さらにＲＴＰヘッダ４１を付加した音声パケットデータ４０［１］を生成する。

続いて、音声パケットデータ生成部１５は、期間Ｔ２にマイク１７に入力された音声［２］について生成された符号化音声データ［２］をペイロード４３に格納し、期間Ｔ２よりも後の期間Ｔ３にマイク１７に入力された音声［３］について生成された音声レベル情報［３］を拡張ヘッダ４２に格納し、さらにＲＴＰヘッダ４１を付加した音声パケットデータ４０［２］を生成する。

続いて、音声パケットデータ生成部１５は、期間Ｔ３にマイク１７に入力された音声［３］について生成された符号化音声データ［３］をペイロード４３に格納し、期間Ｔ３よりも後の期間Ｔ４にマイク１７に入力された音声［４］について生成された音声レベル情報［４］を拡張ヘッダ４２に格納し、さらにＲＴＰヘッダ４１を付加した音声パケットデータ４０［３］を生成する。

ステップＳ１６において、送信部１６は、音声パケットデータ生成部１５において生成された音声パケットデータを、ネットワーク３０を介して相手側の通信装置２０に向けて送信する。

このように、通信装置１０によれば、同一の音声について生成された音声レベル情報及び符号化音声データのうち、音声レベル情報を符号化音声データに対して先行させて送信することが可能である。

以下に、通信装置２０の動作について説明する。図９は、通信装置２０において実施される処理の流れを示すフローチャートである。

ステップＳ２１において、受信部２１は、通信装置１０から送信された音声パケットデータを受信する。受信部２１は、受信した音声パケットデータに含まれる符号化音声データを音声デコーダ２３に供給する。また、受信部２１は、受信した音声パケットデータに含まれる音声レベル情報を表示処理部２２に供給する。

ステップＳ２２において、表示処理部２２は、受信部２１から供給された音声レベル情報によって示される音声レベルを表示部２７において表示するための表示処理を行い、その処理結果を表示部２７に出力する。表示部２７は、表示処理部２２から供給された表示処理結果に基づいて音声レベルを表示する。

ステップＳ２３において、音声デコーダ２３は、受信部２１から供給された符号化音声データを復号する。

ステップＳ２４において、音声信号生成部２４は、復号されたデジタル形式の音声データを、アナログ形式に変換したアナログ音声信号を生成する。音声信号生成部２４は、生成したアナログ音声信号をスピーカ２６に出力する。スピーカ２６は、音声信号生成部２４から供給されるアナログ音声信号に応じた音声を出力する。ステップＳ２３における復号処理及びステップＳ２４における音声信号生成処理を含む再生処理と、ステップＳ２２における表示処理は、並行して実施される。
一般的に、ネットワークを経由した音声データの再生では、データ到達タイミングがネットワーク遅延時間の変動があるため、再生データを少し蓄積し、安定した再生を行うように作られている。この再生時のバッファリングの時間差に対して、表示処理部２２が先行して音声レベルを通知する役割を果たす。
ここで、ステップＳ２３における音声デコーダ２３の処理遅延時間と、ステップＳ２４における音声信号生成部２４の処理遅延時間からなる、再生処理部２５の処理遅延時間は、例えば、２０ｍｓｅｃとする。以下の本発明の説明は、再生処理部２５の処理遅延時間を２０ｍｓｅｃとして、記載される。

図１０は、表示部２７において表示される音声レベルの表示タイミングと、スピーカ２６から出力される音声の出力タイミングとの関係の一例を示す図である。ここでは、通信装置２０が、図８Ｂに示す構成の音声パケットデータ４０［１］、４０［２］及び４０［３］を受信するものとする。

期間Ｔ１に入力された音声に対応する符号化音声データ［１］及び期間Ｔ２に入力された音声に対応する音声レベル情報［２］を含む音声パケットデータ４０［１］が、受信部２１によって受信されると、表示処理部２２は、音声レベル情報［２］についての表示処理結果を、再生処理部２５（音声デコーダ２３及び音声信号生成部２４）による符号化音声データ［１］についての再生処理結果の出力に先行して出力する。

また、期間Ｔ２に入力された音声に対応する符号化音声データ［２］及び期間Ｔ３に入力された音声に対応する音声レベル情報［３］を含む音声パケットデータ４０［２］が、受信部２１によって受信されると、表示処理部２２は、音声レベル情報［３］についての表示処理結果を、再生処理部２５（音声デコーダ２３及び音声信号生成部２４）による符号化音声データ［２］についての再生処理結果の出力に先行して出力する。
さらに、期間Ｔ３に入力された音声に対応する符号化音声データ［３］及び期間Ｔ４に入力された音声に対応する音声レベル情報［４］を含む音声パケットデータ４０［３］が、受信部２１によって受信されると、表示処理部２２は、音声レベル情報［４］についての表示処理結果を、再生処理部２５（音声デコーダ２３及び音声信号生成部２４）による符号化音声データ［３］についての再生処理結果の出力に先行して出力する。
ここで、再生処理部２５の処理遅延時間は、上述のように、例えば２０ｍｓｅｃとする。

その結果、表示部２７において表示される音声レベルの表示タイミングと、スピーカ２６から出力される音声の出力タイミングとの関係は、図１０に示されるように、符号化音声データ［１］において２０ｍｓｅｃの遅延が発生するので、スピーカ２６において符号化音声データ［１］に基づく音声出力がなされるタイミングで、表示部２７において音声レベル情報［３］に基づく音声レベル表示がなされる。
また、表示部２７において表示される音声レベルの表示タイミングと、スピーカ２６から出力される音声の出力タイミングとの関係は、図１０に示されるように、符号化音声データ［２］において２０ｍｓｅｃの遅延が発生するので、スピーカ２６において符号化音声データ［２］に基づく音声出力がなされるタイミングで、表示部２７において音声レベル情報［４］に基づく音声レベル表示がなされる。

このように、通信装置２０によれば、音声レベル情報に基づく音声レベル表示を、符号化音声データに基づく音声出力に先行させることできる。

以上の説明から明らかなように、本実施形態に係る通信システム１によれば、通信装置１０において、同一の音声について生成された音声レベル情報及び符号化音声データのうち、音声レベル情報を符号化音声データに対して先行させて送信することが可能である。また、通信装置２０において、音声レベル情報に基づく音声レベル表示を、符号化音声データに基づく音声出力に先行させることできる。これにより、送信側（通信装置１０側）のユーザが発した音声が、受信側（通信装置２０側）のスピーカ２６から出力される前に、当該ユーザが発した音声の音声レベルが表示部２７に表示される。これにより、受信側において、送信側から音声が発せられたことを、当該音声がスピーカ２６から出力される前に把握することができる。従って、お互いが、同時に話し始めて、会話が混信するといった問題や、相手の会話に割り込むタイミングが掴みづらいといった問題を解消することができる。

なお、上記した実施形態では、通信システム１を構成する通信装置１０及び２０が、音声通信機能を備える場合について例示したが、通信装置１０及び２０は、音声通信機能のみならず映像通信機能を備えていてもよい。この場合、通信システム１をテレビ会議システムとして利用することができる。なお、映像通信機能については、公知技術を利用することが可能であり、その詳細については説明を省略する。

また、本実施形態に係る通信装置１０及び２０は、それぞれ、パーソナルコンピュータ、スマートフォン、携帯電話端末などによって実現することが可能である。パーソナルコンピュータは、デスクトップ型、ノート型及びタブレット型を含むいずれのタイプであってもよい。通信装置２０を、パーソナルコンピュータで実現する場合、パーソナルコンピュータのディスプレイを表示部２７として用いることが可能である。

［第２の実施形態］
図１１は、本発明の第２の実施形態に係る通信システム１Ａの構成の一例を示すブロック図である。通信システム１Ａは、音声通信機能に加え、映像通信機能を有する。通信システム１Ａは、ネットワーク３０を介して通信可能に接続された通信装置１０Ａ及び２０Ａを含んで構成されている。通信装置１０Ａ及び２０Ａは、ネットワーク３０を介して音声データおよび映像データを相互に送受信することが可能である。従って、通信システム１Ａは、互いに離れた場所に所在する会議参加者の発する音声を映像と共に相互に送受信するテレビ会議システムとして利用することが可能である。

通信装置１０Ａは、通信装置２０Ａが備える機能も備えており、同様に、通信装置２０Ａは、通信装置１０Ａが備える機能も備えている。すなわち、通信装置１０Ａ及び２０Ａは、それぞれ、音声データ及び映像データを相互に送受信する機能を備えており、互いに同じ構成を有している。

通信装置１０Ａは、上記した第１の実施形態に係る通信装置１０における音声データ生成部１１、分配部１２、音声レベル検出部１３、音声エンコーダ１４、音声パケットデータ生成部１５及び送信部１６と、マイク１７とを有し、更に映像データ生成部５１、映像エンコーダ５２、映像パケットデータ生成部５３及び遅延部５５を有する。通信システム１Ａは、更に映像データ生成部５１に接続されたビデオカメラ１８を有する。

ビデオカメラ１８は、通信装置１０Ａ側のユーザの映像を撮影し、アナログ映像信号を生成する。

映像データ生成部５１は、ビデオカメラ１８から供給されるアナログ映像信号をデジタル化する処理を行い、デジタル形式の映像データを生成する。映像データ生成部５１は、生成した映像データを映像エンコーダ５２に供給する。なお、映像データ生成部５１の機能を、ビデオカメラ１８が備えていてもよい。この場合、通信装置１０Ａから映像データ生成部５１の機能を削減することができる。

映像エンコーダ５２は、映像データ生成部５１から供給される映像データを符号化することにより圧縮する。符号化方式の一例として、ＭＰＥＧ−４、Ｈ．２６４などが挙げられる。映像エンコーダ５２は、符号化した映像データ（以下、符号化映像データという）を映像パケットデータ生成部５３に供給する。

映像パケットデータ生成部５３は、映像エンコーダ５２から供給される符号化映像データをパケット化する処理を行い、映像パケットデータを生成する。映像パケットデータ生成部５３は、生成した映像パケットデータを送信部１６に供給する。

遅延部５５は、音声エンコーダ１４と、音声パケットデータ生成部１５との間に設けられている。遅延部５５は、音声エンコーダ１４から供給される符号化音声データの、音声パケットデータ生成部１５への供給を遅延させる。本実施形態に係る通信装置１０Ａにおいては、映像エンコーダ５２による映像データの符号化処理に要する時間は、音声エンコーダ１４による音声データの符号化処理に要する時間と比較して長いものとする。遅延部５５によって符号化音声データの、音声パケットデータ生成部１５への供給を遅延させることにより、符号化音声データと符号化映像データとの遅延差を小さくするリップシンク機能を実現することができる。

送信部１６は、音声パケットデータ生成部１５から供給される音声パケットデータ及び映像パケットデータ生成部５３から供給される映像パケットデータを、ネットワーク３０を介して相手側の通信装置２０Ａに向けて送信する。

通信装置２０Ａは、上記した第１の実施形態に係る通信装置２０における受信部２１、表示処理部２２、再生処理部２５（音声デコーダ２３及び音声信号生成部２４）と、スピーカ２６、表示部２７とを有し、更に映像デコーダ６３及び映像信号生成部６４を有する。通信システム１Ａは、更に表示処理部２２及び映像信号生成部６４に接続されたモニタ２８を有する。

映像デコーダ６３は、受信部２１から供給される符号化映像データを復号する。すなわち、映像デコーダ６３は、圧縮された映像データを伸長する処理を行う。映像デコーダ６３は、復号した映像データを映像信号生成部６４に供給する。

映像信号生成部６４は、映像デコーダ６３から供給される復号されたデジタル形式の映像データを、アナログ形式に変換したアナログ映像信号を生成する。映像信号生成部６４は、生成したアナログ映像信号をモニタ２８に出力する。なお、映像信号生成部６４の機能を、モニタ２８が備えていてもよい。この場合、通信装置２０Ａから映像信号生成部６４の機能を削減することができる。

本実施形態に係る通信システム１Ａによれば、上記した第１の実施形態に係る通信システム１と同様、送信側（通信装置１０Ａ側）のユーザが発した音声が、受信側（通信装置２０Ａ側）のスピーカ２６から出力される前に、当該ユーザが発した音声の音声レベルがモニタ２８に表示される。これにより、受信側において、送信側から音声が発せられたことを、当該音声がスピーカ２６から出力される前に把握することができる。従って、お互いが、同時に話し始めて、会話が混信するといった問題や、相手の会話に割り込むタイミングが掴みづらいといった問題を解消することができる。

また、本実施形態に係る通信システム１Ａによれば、音声通信機能に加え、映像通信機能を有する。これにより、通信装置１０Ａ側及び２０Ｂ側のユーザ同士が、お互いの表情を見ながら会話を行うことができる。また、本実施形態に係る通信システム１Ａによれば、遅延部５５によりリップシンク機能が実現される。人は元来、会話している人の表情を見ながら、会話のキャッチボールのタイミングを認識する。そのため、相手側の音声の音声レベルをモニタ２８に表示させたとしても、相手側の表情からタイミングをとろうとする。従って、本実施形態に係る通信システム１Ａにおいて、音声レベル表示とリップシンク機能とを併用することで、通信システム１Ａのユーザ間においてよりスムーズな会話を行うことが可能となる。

１、１Ａ通信システム
１０、１０Ａ通信装置
１１音声データ生成部
１２分配部
１３音声レベル検出部
１４音声エンコーダ
１５音声パケットデータ生成部
１６送信部
１７マイク
１８ビデオカメラ
２０、２０Ａ通信装置
２１受信部
２２表示処理部
２３音声デコーダ
２４音声信号生成部
２５再生処理部
２６スピーカ
２７表示部
２８モニタ
３０ネットワーク
４０音声パケットデータ
４１ヘッダ
４２拡張ヘッダ
４３ペイロード
５５遅延部
６３映像デコーダ
６４映像信号生成部
１００コンピュータ
１２０データ送信プログラム
２００コンピュータ
２２０データ受信プログラム

Claims

入力される音声を示す音声データを生成する音声データ生成部と、
前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出部と、
第１の期間に入力された音声について生成された前記音声データに、前記第１の期間よりも後の期間である第２の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成部と、
前記パケットデータを送信する送信部と、
を有することを特徴とする通信装置。
前記音声データを符号化する符号化処理部を更に含み、
前記パケットデータ生成部は、前記符号化処理部によって符号化された前記音声データに、前記音声レベル情報を付加する
ことを特徴とする請求項１に記載の通信装置。
前記パケットデータ生成部は、前記音声レベル情報を拡張ヘッダに格納したパケットデータを生成する
ことを特徴とする請求項１または請求項２に記載の通信装置。
前記パケットデータ生成部は、所定期間内における互いに異なる複数の時点に入力された音声について生成された複数の音声レベル情報を、前記拡張ヘッダに格納したパケットデータを生成する
ことを特徴とする請求項３に記載の通信装置。
前記音声データ生成部によって生成された前記音声データを、前記音声レベル検出部及び前記符号化処理部に分配する分配部を更に有し、
前記音声レベル検出部は、前記分配部によって分配された前記音声データにおける音声について前記音声レベル情報を生成する
ことを特徴とする請求項２に記載の通信装置。
前記符号化処理部によって符号化された前記音声データの、前記パケットデータ生成部への供給を遅延させる遅延部を更に有する
ことを特徴とする請求項２に記載の通信装置。
音声を示す音声データに、音声のレベルを示す音声レベル情報が付加されたパケットデータを受信する受信部と、
前記受信部によって受信された前記パケットデータに含まれる前記音声データを再生するための再生処理を行い、前記再生処理の結果を出力する再生処理部と、
前記受信部によって受信された前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理部による前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理部と、
を有することを特徴とする通信装置。
前記再生処理部は、符号化された前記音声データを復号する復号処理部を有する
ことを特徴とする請求項７に記載の通信装置。
前記表示処理部から出力される前記表示処理の結果に基づいて音声のレベルを表示する表示部を更に有する
ことを特徴とする請求項７または請求項８に記載の通信装置。
ネットワークを介して通信可能に接続された第１の通信装置及び第２の通信装置を含む通信システムであって、
前記第１の通信装置は、
入力される音声を示す音声データを生成する音声データ生成部と、
前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出部と、
第１の期間に入力された音声について生成された前記音声データに、前記第１の期間よりも後の期間である第２の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成部と、
前記パケットデータを、前記ネットワークを介して前記第２の通信装置に送信する送信部と、
を有し、
前記第２の通信装置は、
前記第１の通信装置から送信された前記パケットデータを受信する受信部と、
前記受信部によって受信された前記パケットデータに含まれる前記音声データを再生するための再生処理を行い、前記再生処理の結果を出力する再生処理部と、
前記受信部によって受信された前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理部による前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理部と、
を有することを特徴とする通信システム。
通信装置における通信方法であって、
前記通信装置は、
入力される音声を示す音声データを生成する音声データ生成ステップと、
前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出ステップと、
第１の期間に入力された音声について生成された前記音声データに、前記第１の期間よりも後の期間である第２の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成ステップと、
前記パケットデータを送信する送信ステップと
を有することを特徴とする通信方法。
通信装置における通信方法であって、
前記通信装置は、
音声を示す音声データに、音声のレベルを示す音声レベル情報が付加されたパケットデータを受信する受信ステップと、
受信した前記パケットデータに含まれる前記音声データを再生するための再生処理を行い、前記再生処理の結果を出力する再生処理ステップと、
受信した前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理ステップと
を有することを特徴とする通信方法。
ネットワークを介して通信可能に接続された第１の通信装置及び第２の通信装置を含む通信システムにおける通信方法であって、
前記第１の通信装置は、
入力される音声を示す音声データを生成する音声データ生成ステップと、
前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出ステップと、
第１の期間に入力された音声について生成された前記音声データに、前記第１の期間よりも後の第２の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成ステップと、
前記パケットデータを、ネットワークを介して第２の通信装置に送信する送信ステップとを有し、
前記第２の通信装置は、
前記パケットデータを受信する受信ステップと、
受信した前記パケットデータに含まれる前記音声データを再生する再生処理を行い、前記再生処理の結果を出力する再生処理ステップと、
受信した前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理ステップとを有する
ことを特徴とする通信方法。
コンピュータを、
入力される音声を示す音声データを生成する音声データ生成部、
前記音声のレベルを検出し、検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出部、
第１の期間に入力された音声について生成された前記音声データに、前記第１の期間よりも後の第２の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成部、
前記パケットデータを送信する送信部、
として機能させることを特徴とするプログラム。
コンピュータを、
音声を示す音声データに、音声のレベルを示す音声レベル情報が付加されたパケットデータを受信する受信部、
受信した前記パケットデータに含まれる前記音声データを再生する再生処理を行い、前記再生処理の結果を出力する再生処理部、
受信した前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理部、
として機能させることを特徴とするプログラム。