JP6972576B2 - Communication equipment, communication systems, communication methods and programs - Google Patents

Communication equipment, communication systems, communication methods and programs Download PDF

Info

Publication number
JP6972576B2
JP6972576B2 JP2017030890A JP2017030890A JP6972576B2 JP 6972576 B2 JP6972576 B2 JP 6972576B2 JP 2017030890 A JP2017030890 A JP 2017030890A JP 2017030890 A JP2017030890 A JP 2017030890A JP 6972576 B2 JP6972576 B2 JP 6972576B2
Authority
JP
Japan
Prior art keywords
voice
packet data
data
communication device
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017030890A
Other languages
Japanese (ja)
Other versions
JP2018137614A (en
Inventor
令治 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2017030890A priority Critical patent/JP6972576B2/en
Publication of JP2018137614A publication Critical patent/JP2018137614A/en
Application granted granted Critical
Publication of JP6972576B2 publication Critical patent/JP6972576B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、通信装置、通信システム、通信方法及びプログラムに関する。 The present invention relates to communication devices, communication systems, communication methods and programs.

ネットワークを介して音声データを送受信する技術として、以下の技術が知られている。例えば、特許文献1には、ネットワークに接続された複数の会議端末を含む会議システム(以下、従来の会議システムと記載)が記載されている。会議端末は、 画像を撮影する撮影手段と、音声を入力する音声入力手段と、画像データ又は音声データの少なくとも一方を圧縮パラメータに従い圧縮する圧縮手段と、圧縮手段が圧縮した画像データ及び音声データを通信相手に送信し、通信相手から画像データ及び音声データを受信する通信手段と、通信手段が受信した画像データ及び音声データを非圧縮化する復号化手段と、復号化された画像データ及び音声データを出力する出力手段と、を有する。 The following technologies are known as technologies for transmitting and receiving voice data via a network. For example, Patent Document 1 describes a conference system (hereinafter referred to as a conventional conference system) including a plurality of conference terminals connected to a network. The conference terminal has a photographing means for capturing an image, an audio input means for inputting audio, a compression means for compressing at least one of image data or audio data according to a compression parameter, and image data and audio data compressed by the compression means. Communication means that transmit to the communication partner and receive image data and audio data from the communication partner, decoding means that decompresses the image data and audio data received by the communication means, and decoded image data and audio data. It has an output means for outputting the data.

特開2014−060607号公報Japanese Unexamined Patent Publication No. 2014-060607

従来の会議システムにおいては、送信側の端末装置は、発話者から発せられた音声による音声アナログ信号をデジタル化し、さらに符号化し、音声符号化データをネットワークへ送信する。受信側の端末装置は、ネットワークから受信した音声符号化データを復号化し、アナログ信号として再生する。 In the conventional conference system, the terminal device on the transmitting side digitizes, further encodes, and transmits the voice-encoded data to the network by digitizing the voice analog signal by the voice emitted from the speaker. The terminal device on the receiving side decodes the voice-coded data received from the network and reproduces it as an analog signal.

従来の会議システムによれば、処理遅延、ネットワーク遅延、バッファリング遅延により、受信側の端末装置において、発話者が音声を発した時点から遅れて当該音声が再生される。例えば、従来の会議システムにおいて、処理遅延が発生する構成として、送信側の会議端末における音声エンコーダ、受信側の会議端末における配信制御部、音声デコーダ、音声出力制御部が挙げられる。また、バッファリング遅延が発生する構成として、音声入力制御部が挙げられる。 According to the conventional conference system, due to the processing delay, the network delay, and the buffering delay, the voice is reproduced in the terminal device on the receiving side after the time when the speaker emits the voice. For example, in a conventional conference system, examples of a configuration in which a processing delay occurs include a voice encoder in a conference terminal on the transmitting side, a distribution control unit, a voice decoder, and a voice output control unit in a conference terminal on the receiving side. Further, as a configuration in which a buffering delay occurs, a voice input control unit can be mentioned.

従来の会議システムは、システムのユーザにおいて、再生された音声のみで自身の発話タイミングを判断する必要があり、スムーズな会話が困難であった。すなわち、従来の会議システムは、システムのユーザが、上記した各種の遅延が発生する状況において会話を成立させるために、相手からの音声だけに頼り、発話タイミングを意識しなければならないといった問題がある。また、従来の会議システムは、システムのユーザが、相手からの音声が聞こえない状況で発話しようとし、既に相手ユーザも発話を開始している場合、お互いのユーザが同時に話し始めることにより、お互いのユーザの会話が混信するといった問題がある。あるいは、従来の会議システムは、システムのユーザが、相手の会話に割り込むタイミングが掴みづらいといった問題がある。従来の会議システムは、処理遅延及びバッファリング遅延等の端末装置内において生じる遅延時間を短縮させたとしても、ネットワーク遅延を解消することはできず、上記の問題を解決することはできない。従って、従来の会議システムは、端末装置内において生じる遅延時間の短縮だけでは、発話タイミングの適切な認識は困難である。 In the conventional conference system, it is necessary for the user of the system to judge his / her own utterance timing only by the reproduced voice, and it is difficult to have a smooth conversation. That is, the conventional conference system has a problem that the user of the system has to rely only on the voice from the other party and be aware of the utterance timing in order to establish a conversation in the situation where the above-mentioned various delays occur. .. Further, in the conventional conference system, when the user of the system tries to speak in a situation where the voice from the other party cannot be heard and the other user has already started speaking, each other user starts talking at the same time. There is a problem that the user's conversation interferes. Alternatively, the conventional conference system has a problem that it is difficult for the user of the system to grasp the timing of interrupting the conversation of the other party. Even if the conventional conference system shortens the delay time generated in the terminal device such as the processing delay and the buffering delay, the network delay cannot be eliminated and the above problem cannot be solved. Therefore, in the conventional conference system, it is difficult to properly recognize the utterance timing only by shortening the delay time that occurs in the terminal device.

本発明は、上記した点に鑑みてなされたものであり、送信側のユーザが発した音声が、受信側において出力される前に、送信側の発話者が音声を発したことを、受信側において把握できるようにすることを目的とする。 The present invention has been made in view of the above points, and the receiving side indicates that the speaker on the transmitting side utters the voice before the voice uttered by the user on the transmitting side is output on the receiving side. The purpose is to be able to grasp in.

発明に係る通信装置は、入力される音声を示す音声データを生成する音声データ生成部と、前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出部と、第1の期間に入力された音声について生成された前記音声データに、前記第1の期間よりも後の期間である第2の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成部と、前記パケットデータを送信する送信部と、を有する。 The communication device according to the present invention includes a voice data generation unit that generates voice data indicating input voice, and a voice level detection unit that detects voice level and generates voice level information indicating the detected voice level. , The voice level information generated for the voice input in the second period, which is a period after the first period, is added to the voice data generated for the voice input in the first period. It has a packet data generation unit that generates the generated packet data, and a transmission unit that transmits the packet data.

本発明に係る通信装置は、ネットワークを介して通信可能に接続された第1の通信装置及び第2の通信装置を含む通信システムである。前記第1の通信装置は、入力される音声を示す音声データを生成する音声データ生成部と、前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出部と、第1の期間に入力された音声について生成された前記音声データに、前記第1の期間よりも後の期間である第2の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成部と、前記パケットデータを、前記ネットワークを介して前記第2の通信装置に送信する送信部と、を有する。前記第2の通信装置は、前記第1の通信装置から送信された前記パケットデータを受信する受信部と、前記受信部によって受信された前記パケットデータに含まれる前記音声データを再生するための再生処理を行い、前記再生処理の結果を出力する再生処理部と、前記受信部によって受信された前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理部による前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理部と、を有する。 The communication device according to the present invention is a communication system including a first communication device and a second communication device that are communicably connected via a network. The first communication device has a voice data generation unit that generates voice data indicating input voice, and a voice level detection unit that detects voice level and generates voice level information indicating the detected voice level. And, in the voice data generated for the voice input in the first period, the voice level information generated for the voice input in the second period, which is a period after the first period, is added. It has a packet data generation unit that generates added packet data, and a transmission unit that transmits the packet data to the second communication device via the network. The second communication device is a receiving unit that receives the packet data transmitted from the first communication device, and a reproduction for reproducing the voice data included in the packet data received by the receiving unit. A reproduction processing unit that performs processing and outputs the result of the reproduction processing, and a display processing for displaying the level of the voice indicated by the voice level information included in the packet data received by the reception unit are performed. It has a display processing unit that outputs the result of the display processing prior to the output of the result of the reproduction processing by the reproduction processing unit.

本発明に係る通信方法は、通信装置における通信方法であって、前記通信装置は、入力される音声を示す音声データを生成する音声データ生成ステップと、前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出ステップと、第1の期間に入力された音声について生成された前記音声データに、前記第1の期間よりも後の期間である第2の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成ステップと、前記パケットデータを送信する送信ステップとを有する。 The communication method according to the present invention is a communication method in a communication device, wherein the communication device has a voice data generation step of generating voice data indicating input voice and a voice detected by detecting the level of the voice. A second period, which is a period after the first period, is added to the voice data generated for the voice input in the first period and the voice level detection step for generating voice level information indicating the level of. It has a packet data generation step of generating packet data to which the voice level information generated for the voice input to is added, and a transmission step of transmitting the packet data.

本発明に係る通信方法は、 ネットワークを介して通信可能に接続された第1の通信装置及び第2の通信装置を含む通信システムにおける通信方法であって、前記第1の通信装置は、入力される音声を示す音声データを生成する音声データ生成ステップと、前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出ステップと、第1の期間に入力された音声について生成された前記音声データに、前記第1の期間よりも後の第2の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成ステップと、前記パケットデータを、ネットワークを介して第2の通信装置に送信する送信ステップとを有し、前記第2の通信装置は、前記パケットデータを受信する受信ステップと、受信した前記パケットデータに含まれる前記音声データを再生する再生処理を行い、前記再生処理の結果を出力する再生処理ステップと、受信した前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理ステップと、を有する。 The communication method according to the present invention is a communication method in a communication system including a first communication device and a second communication device that are communicably connected via a network, and the first communication device is input. A voice data generation step for generating voice data indicating the voice, a voice level detection step for detecting the voice level and generating voice level information indicating the detected voice level, and input in the first period. A packet data generation step of generating packet data in which the voice level information generated for the voice input in the second period after the first period is added to the voice data generated for the voice. It has a transmission step of transmitting the packet data to a second communication device via a network, and the second communication device includes a reception step of receiving the packet data and the received packet data. A reproduction processing step of performing a reproduction process for reproducing the voice data and outputting the result of the reproduction processing, and a display process for displaying the level of the voice indicated by the voice level information included in the received packet data. It has a display processing step of performing and outputting the result of the display processing prior to the output of the result of the reproduction processing.

本発明に係るプログラムは、コンピュータを、入力される音声を示す音声データを生成する音声データ生成部、前記音声のレベルを検出し、検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出部、第1の期間に入力された音声について生成された前記音声データに、前記第1の期間よりも後の第2の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成部、前記パケットデータを送信する送信部、として機能させることを特徴とするプログラムである。 The program according to the present invention is a computer, a voice data generation unit that generates voice data indicating input voice, and voice level detection that detects the level of the voice and generates voice level information indicating the detected voice level. A packet in which the voice level information generated for the voice input in the second period after the first period is added to the voice data generated for the voice input in the first period. It is a program characterized by functioning as a packet data generation unit for generating data and a transmission unit for transmitting the packet data.

本発明によれば、送信側のユーザが発した音声が、受信側において出力される前に、送信側のユーザが音声を発したことを、受信側において把握することが可能となる。 According to the present invention, it is possible for the receiving side to know that the transmitting user has emitted the voice before the voice emitted by the transmitting user is output by the receiving side.

本発明の実施形態に係る通信システムの構成の一例を示すブロック図である。It is a block diagram which shows an example of the structure of the communication system which concerns on embodiment of this invention. 本発明の実施形態に係る音声パケットデータの構造を示す図である。It is a figure which shows the structure of the voice packet data which concerns on embodiment of this invention. 本発明の実施形態に係る拡張ヘッダに格納される音声レベル情報と、拡張ヘッダ長との関係の一例を示す図である。It is a figure which shows an example of the relationship between the voice level information stored in the extended header which concerns on embodiment of this invention, and the extended header length. 本発明の実施形態に係る拡張ヘッダに格納される音声レベル情報と、拡張ヘッダ長との関係の一例を示す図である。It is a figure which shows an example of the relationship between the voice level information stored in the extended header which concerns on embodiment of this invention, and the extended header length. 本発明の実施形態に係る拡張ヘッダに格納される音声レベル情報と、拡張ヘッダ長との関係の一例を示す図である。It is a figure which shows an example of the relationship between the voice level information stored in the extended header which concerns on embodiment of this invention, and the extended header length. 本発明の実施形態に係る表示部において表示される音声レベルの表示態様の一例を示す図である。It is a figure which shows an example of the display mode of the voice level displayed in the display part which concerns on embodiment of this invention. 本発明の実施形態に係る通信装置のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware composition of the communication apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る通信装置のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware composition of the communication apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る通信装置において実施される処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the process carried out in the communication apparatus which concerns on embodiment of this invention. 本発明の実施形態に係るマイクに入力された音声と、符号化音声データ及び音声レベル情報との関係を示す図である。It is a figure which shows the relationship between the voice input to the microphone which concerns on embodiment of this invention, coded voice data and voice level information. 本発明の実施形態に係る音声パケットデータの構成の一例を示す図である。It is a figure which shows an example of the structure of the voice packet data which concerns on embodiment of this invention. 本発明の実施形態に係る通信装置において実施される処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the process carried out in the communication apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る音声レベル表示のタイミングと、音声出力のタイミングとの関係の一例を示す図である。It is a figure which shows an example of the relationship between the timing of the voice level display which concerns on embodiment of this invention, and the timing of voice output. 本発明の他の実施形態に係る通信システムの構成の一例を示すブロック図である。It is a block diagram which shows an example of the structure of the communication system which concerns on other embodiment of this invention.

以下、本発明の実施形態について図面を参照しつつ説明する。尚、各図面において、実質的に同一又は等価な構成要素又は部分には同一の参照符号を付している。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In each drawing, substantially the same or equivalent components or parts are designated by the same reference numerals.

[第1の実施形態]
図1は、本発明の第1の実施形態に係る通信システム1の構成の一例を示すブロック図である。通信システム1は、ネットワーク30を介して通信可能に接続された通信装置10及び20を含んで構成されている。通信装置10及び20は、ネットワーク30を介して音声データを相互に送受信することが可能である。従って、通信システム1は、互いに離れた場所に所在する会議参加者の発する音声を相互に送受信する会議システムとして利用することが可能である。
[First Embodiment]
FIG. 1 is a block diagram showing an example of the configuration of the communication system 1 according to the first embodiment of the present invention. The communication system 1 includes communication devices 10 and 20 connected so as to be communicable via the network 30. The communication devices 10 and 20 can transmit and receive voice data to and from each other via the network 30. Therefore, the communication system 1 can be used as a conference system for mutually transmitting and receiving voices emitted by conference participants located at locations distant from each other.

なお、以下の説明では、説明の煩雑さを回避する観点から、通信装置10が、通信装置10側のユーザから発せられた音声について生成した音声データを、ネットワーク30を介して通信装置20に送信する機能を備え、通信装置20が、通信装置10から送信された音声データを受信し、受信した音声データを処理する機能を備える場合を例示している。しかしながら、通信装置10は、通信装置20が備える機能も備え、通信装置20は、通信装置10が備える機能も備えている。すなわち、通信装置10及び20は、それぞれ相互に音声データを送受信する機能を備えている。 In the following description, from the viewpoint of avoiding the complexity of the explanation, the communication device 10 transmits the voice data generated for the voice emitted from the user on the communication device 10 side to the communication device 20 via the network 30. The case where the communication device 20 is provided with a function of receiving voice data transmitted from the communication device 10 and processing the received voice data is illustrated. However, the communication device 10 also has a function included in the communication device 20, and the communication device 20 also has a function included in the communication device 10. That is, the communication devices 10 and 20 each have a function of transmitting and receiving voice data to and from each other.

通信装置10は、音声データ生成部11、分配部12、音声レベル検出部13、音声エンコーダ14、音声パケットデータ生成部15及び送信部16を含んで構成されている。通信システム1は、音声データ生成部11に接続されたマイク17を有する。 The communication device 10 includes a voice data generation unit 11, a distribution unit 12, a voice level detection unit 13, a voice encoder 14, a voice packet data generation unit 15, and a transmission unit 16. The communication system 1 has a microphone 17 connected to the voice data generation unit 11.

マイク17は、通信装置10側のユーザの音声を入力し、入力される音声の大きさ(音圧レベル)に応じた振幅を有するアナログ音声信号を生成する。マイク17は、生成したアナログ音声信号を音声データ生成部11に供給する。なお、マイク17は、通信装置10の構成要素の一部として通信装置10に含まれていてもよい。 The microphone 17 inputs the voice of the user on the communication device 10 side, and generates an analog voice signal having an amplitude corresponding to the magnitude (sound pressure level) of the input voice. The microphone 17 supplies the generated analog voice signal to the voice data generation unit 11. The microphone 17 may be included in the communication device 10 as a part of the components of the communication device 10.

音声データ生成部11は、マイク17から供給されるアナログ音声信号をデジタル化する処理を行い、デジタル形式の音声データを生成する。音声データ生成部11は、生成した音声データを分配部12に供給する。 The audio data generation unit 11 performs a process of digitizing an analog audio signal supplied from the microphone 17 to generate digital audio data. The voice data generation unit 11 supplies the generated voice data to the distribution unit 12.

分配部12は、音声データ生成部11から供給される音声データを、音声エンコーダ14及び音声レベル検出部13に分配する。すなわち、音声エンコーダ14及び音声レベル検出部13には、互いに同じ内容の音声データが供給される。 The distribution unit 12 distributes the voice data supplied from the voice data generation unit 11 to the voice encoder 14 and the voice level detection unit 13. That is, the voice data having the same contents is supplied to the voice encoder 14 and the voice level detection unit 13.

音声エンコーダ14は、分配部12から供給される音声データを符号化することにより圧縮する。符号化方式の一例として、G.711、G.729、及びAACなどが挙げられる。音声エンコーダ14は、所定の時間間隔(例えば20msec間隔)で、音声データを符号化する。ここで、分配部12から供給される音声データのサンプリング周波数が、音声エンコーダ14で音声データを処理する際に用いられる取り扱うサンプリング周波数と異なる場合、音声エンコーダ14は、符号化処理前の音声データに対して、所定のサンプリング周波数でサンプリングする前処理を実施してもよい。音声エンコーダ14は、符号化した音声データ(以下、符号化音声データという)を音声パケットデータ生成部15に供給する。 The voice encoder 14 compresses the voice data supplied from the distribution unit 12 by encoding. As an example of the coding method, G.I. 711, G.M. 729, AAC and the like. The voice encoder 14 encodes voice data at predetermined time intervals (for example, 20 msec intervals). Here, when the sampling frequency of the voice data supplied from the distribution unit 12 is different from the sampling frequency handled when the voice data is processed by the voice encoder 14, the voice encoder 14 uses the voice data before the coding process. On the other hand, preprocessing for sampling at a predetermined sampling frequency may be performed. The voice encoder 14 supplies encoded voice data (hereinafter referred to as coded voice data) to the voice packet data generation unit 15.

音声レベル検出部13は、分配部12から供給される音声データにおける音声のレベルを検出して、検出した音声のレベルを示す音声レベル情報を生成する。音声レベル検出部13は、所定の時間間隔(例えば5msec間隔)で、音声レベルを検出する。なお、音声レベルを検出する時間間隔を可変としてもよい。音声レベル検出部13は、例えば、検出した音声レベルの、所定期間内における最大値を、音声レベル情報として生成する。なお、音声レベル検出部13は、検出した音声レベルの、所定期間内における平均値を、音声レベル情報として生成してもよい。音声レベル検出部13は、生成した音声レベル情報を音声パケットデータ生成部15に供給する。 The voice level detection unit 13 detects the voice level in the voice data supplied from the distribution unit 12 and generates voice level information indicating the level of the detected voice. The voice level detection unit 13 detects the voice level at predetermined time intervals (for example, 5 msec intervals). The time interval for detecting the voice level may be variable. The voice level detection unit 13 generates, for example, the maximum value of the detected voice level within a predetermined period as voice level information. The voice level detection unit 13 may generate the average value of the detected voice levels within a predetermined period as voice level information. The voice level detection unit 13 supplies the generated voice level information to the voice packet data generation unit 15.

音声パケットデータ生成部15は、音声エンコーダ14から供給される符号化音声データに、音声レベル検出部13から供給される音声レベル情報を付加したRTP(Real-time Transport Protocol)形式の音声パケットデータを生成する。より具体的には、音声パケットデータ生成部15は、ある期間T1に入力された音声について生成された符号化音声データに、当該期間T1よりも後の期間T2に入力された音声について生成された音声レベル情報を付加した音声パケットデータを生成する。 The voice packet data generation unit 15 inputs voice packet data in RTP (Real-time Transport Protocol) format in which voice level information supplied from the voice level detection unit 13 is added to the coded voice data supplied from the voice encoder 14. Generate. More specifically, the voice packet data generation unit 15 is generated for the coded voice data generated for the voice input in the period T1 and for the voice input in the period T2 after the period T1. Generates voice packet data with voice level information added.

音声エンコーダ14による符号化処理には、所定の処理時間を要する。一方、音声レベル検出部による音声レベル情報の生成に要する処理時間は、符号化処理に要する処理時間よりも短い。従って、期間T1に入力された音声についての符号化音声データの生成時点と、期間T2に入力された音声についての音声レベル情報の生成時点との間の時間差は、小さい。音声パケットデータ生成部15は、生成した音声パケットデータを送信部16に供給する。 The coding process by the voice encoder 14 requires a predetermined processing time. On the other hand, the processing time required for the voice level detection unit to generate the voice level information is shorter than the processing time required for the coding processing. Therefore, the time difference between the time of generation of the coded voice data for the voice input in the period T1 and the time of generation of the voice level information for the voice input in the period T2 is small. The voice packet data generation unit 15 supplies the generated voice packet data to the transmission unit 16.

図2は、音声パケットデータ生成部15によって生成される音声パケットデータ40の構造を示す図である。音声パケットデータ40は、IETF(Internet Engineering Task Force)におけるRFC1889の仕様に準拠するRTPヘッダ41及びRTP拡張ヘッダ42及びペイロード43を含んで構成されている。 FIG. 2 is a diagram showing the structure of the voice packet data 40 generated by the voice packet data generation unit 15. The voice packet data 40 includes an RTP header 41, an RTP extension header 42, and a payload 43 conforming to the specifications of RFC1889 in the IETF (Internet Engineering Task Force).

RTPヘッダ41は、バージョン番号、パディング、拡張ビット、寄与送信元識別子の数、マーカビット、ペイロードタイプ、シーケンス番号、タイムスタンプ、同期送信元識別子及び寄与送信元識別子を有している。RTP拡張ヘッダ42は、プロファイル番号421、拡張ヘッダ長422及び拡張ヘッダ423を有している。本実施形態において、拡張ヘッダ423は、音声レベル情報を格納する領域として利用される。ペイロード43は、符号化音声データが格納される領域である。ペイロード43には、例えば、単位時間幅20msecの長さの音声に対応する符号化音声データが格納される。 The RTP header 41 has a version number, padding, extension bits, number of contribution source identifiers, marker bits, payload type, sequence number, time stamp, synchronous source identifier, and contribution source identifier. The RTP extension header 42 has a profile number 421, an extension header length 422, and an extension header 423. In the present embodiment, the extension header 423 is used as an area for storing voice level information. The payload 43 is an area in which encoded voice data is stored. In the payload 43, for example, coded voice data corresponding to voice having a unit time width of 20 msec is stored.

以下に、RTP拡張ヘッダ42について詳述する。プロファイル番号421は、予め定義された、音声レベル情報に関わる16ビットのビット列で構成される。拡張ヘッダ長422は、拡張ヘッダ423に格納されるデータ長を示す16ビットのビット列で構成される。 The RTP extension header 42 will be described in detail below. The profile number 421 is composed of a predefined 16-bit bit string related to voice level information. The extended header length 422 is composed of a 16-bit bit string indicating the data length stored in the extended header 423.

ここで、図3A、図3B、図3Cは、それぞれ、拡張ヘッダ423に格納される音声レベル情報と、拡張ヘッダ長との関係を示す図である。ここでは、1つの音声レベル情報のデータ長は16ビットであるものとし、拡張ヘッダ長422には、32ビットを1単位とするデータ長を示す数値が格納される。 Here, FIGS. 3A, 3B, and 3C are diagrams showing the relationship between the voice level information stored in the extension header 423 and the extension header length, respectively. Here, it is assumed that the data length of one voice level information is 16 bits, and the extended header length 422 stores a numerical value indicating the data length with 32 bits as one unit.

図3Aには、ペイロード43に単位時間幅20msecの長さの音声に対応する符号化音声データが格納され、且つ音声レベル検出部13における音声レベルの検出間隔が5msecである場合のRTP拡張ヘッダ42の構成が例示されている。この場合、音声レベル検出部13は、20msecの期間内に音声レベルを4回検出し、4つの音声レベル情報[1]〜[4]を生成する。拡張ヘッダ423には、20msecの期間内に生成された音声レベル情報[1]〜[4]が格納される。従って、この場合、拡張ヘッダ長は2となる。 In FIG. 3A, the RTP extension header 42 in the case where the encoded voice data corresponding to the voice having a unit time width of 20 msec is stored in the payload 43 and the voice level detection interval in the voice level detection unit 13 is 5 msec. The configuration of is illustrated. In this case, the voice level detection unit 13 detects the voice level four times within a period of 20 msec and generates four voice level information [1] to [4]. The voice level information [1] to [4] generated within the period of 20 msec is stored in the extension header 423. Therefore, in this case, the extension header length is 2.

図3Bには、ペイロード43に単位時間幅20msecの長さの音声に対応する符号化音声データが格納され、且つ音声レベル検出部13における音声レベルの検出間隔が10msecである場合のRTP拡張ヘッダ42の構成が例示されている。この場合、音声レベル検出部13は、20msecの期間内に音声レベルを2回検出し、2つの音声レベル情報[1]、[2]を生成する。拡張ヘッダ423には、20msecの期間内に生成された音声レベル情報[1]、[2]が格納される。従って、この場合、拡張ヘッダ長は1となる。 In FIG. 3B, the RTP extension header 42 in the case where the encoded voice data corresponding to the voice having a unit time width of 20 msec is stored in the payload 43 and the voice level detection interval in the voice level detection unit 13 is 10 msec. The configuration of is illustrated. In this case, the voice level detection unit 13 detects the voice level twice within a period of 20 msec and generates two voice level information [1] and [2]. The extension header 423 stores the voice level information [1] and [2] generated within the period of 20 msec. Therefore, in this case, the extension header length is 1.

図3Cには、ペイロード43に単位時間幅20msecの長さの音声に対応する符号化音声データが格納され、且つ音声レベル検出部13における音声レベルの検出間隔が20msecである場合のRTP拡張ヘッダ42の構成が例示されている。この場合、音声レベル検出部13は、20msecの期間内に音声レベルを1回検出し、1つの音声レベル情報[1]を生成する。拡張ヘッダ423には、20msecの期間内に生成された音声レベル情報[1]および16個の「0」からなるゼロパディングが格納される。従って、この場合、拡張ヘッダ長は1となる。 In FIG. 3C, the RTP extension header 42 in the case where the encoded voice data corresponding to the voice having a unit time width of 20 msec is stored in the payload 43 and the voice level detection interval in the voice level detection unit 13 is 20 msec. The configuration of is illustrated. In this case, the voice level detection unit 13 detects the voice level once within a period of 20 msec and generates one voice level information [1]. The extension header 423 stores voice level information [1] generated within a period of 20 msec and zero padding consisting of 16 "0" s. Therefore, in this case, the extension header length is 1.

送信部16は、音声パケットデータ生成部15において生成された音声パケットデータを、ネットワーク30を介して相手側の通信装置20に向けて送信する。 The transmission unit 16 transmits the voice packet data generated by the voice packet data generation unit 15 to the communication device 20 on the other side via the network 30.

図1に示すように、通信装置20は、受信部21、表示処理部22、再生処理部25を含んで構成されている。再生処理部25は、音声デコーダ23及び音声信号生成部24を有している。通信システム1は、音声信号生成部24に接続されたスピーカ26及び表示処理部22に接続された表示部27を有する。 As shown in FIG. 1, the communication device 20 includes a receiving unit 21, a display processing unit 22, and a reproduction processing unit 25. The reproduction processing unit 25 has an audio decoder 23 and an audio signal generation unit 24. The communication system 1 has a speaker 26 connected to the audio signal generation unit 24 and a display unit 27 connected to the display processing unit 22.

受信部21は、通信装置10から送信された音声パケットデータを受信する。受信部21は、受信した音声パケットデータに含まれる符号化音声データを音声デコーダ23に供給する。また、受信部21は、受信した音声パケットデータに含まれる音声レベル情報を表示処理部22に供給する。 The receiving unit 21 receives the voice packet data transmitted from the communication device 10. The receiving unit 21 supplies the coded voice data included in the received voice packet data to the voice decoder 23. Further, the receiving unit 21 supplies the voice level information included in the received voice packet data to the display processing unit 22.

音声デコーダ23は、受信部21から供給される符号化音声データを復号する。すなわち、音声デコーダ23は、圧縮された音声データを伸長する処理を行う。音声デコーダ23は、復号した音声データを音声信号生成部24に供給する。 The voice decoder 23 decodes the coded voice data supplied from the receiving unit 21. That is, the voice decoder 23 performs a process of decompressing the compressed voice data. The voice decoder 23 supplies the decoded voice data to the voice signal generation unit 24.

音声信号生成部24は、音声デコーダ23から供給される復号されたデジタル形式の音声データを、アナログ形式に変換したアナログ音声信号を生成する。音声信号生成部24は、生成したアナログ音声信号をスピーカ26に出力する。音声デコーダ23及び音声信号生成部24によって再生処理部25が構成され、再生処理部25において符号化音声データに対する再生処理が行われ、再生処理の結果がスピーカ26に出力される。 The audio signal generation unit 24 generates an analog audio signal obtained by converting the decoded digital audio data supplied from the audio decoder 23 into an analog format. The audio signal generation unit 24 outputs the generated analog audio signal to the speaker 26. The reproduction processing unit 25 is configured by the audio decoder 23 and the audio signal generation unit 24, the reproduction processing for the coded audio data is performed in the reproduction processing unit 25, and the result of the reproduction processing is output to the speaker 26.

スピーカ26は、音声信号生成部24から供給されるアナログ音声信号に応じた音声を出力する。すなわち、通信装置10側のマイク17に入力されたユーザの音声がスピーカ26から出力される。なお、スピーカ26は、通信装置20の構成要素の一部として通信装置20に含まれていてもよい。 The speaker 26 outputs voice corresponding to the analog voice signal supplied from the voice signal generation unit 24. That is, the user's voice input to the microphone 17 on the communication device 10 side is output from the speaker 26. The speaker 26 may be included in the communication device 20 as a part of the components of the communication device 20.

表示処理部22は、受信部21から供給される音声レベル情報によって示される音声レベルを表示するための表示処理を行い、その処理結果を表示部27に出力する。表示部27は、表示処理部22から出力される表示処理の結果に基づいて音声レベルを表示する。 The display processing unit 22 performs display processing for displaying the voice level indicated by the voice level information supplied from the reception unit 21, and outputs the processing result to the display unit 27. The display unit 27 displays the audio level based on the result of the display processing output from the display processing unit 22.

表示処理部22は、再生処理部25による再生処理の結果の出力に先行して、表示処理の結果を出力する。すなわち、ネットワーク30を介して通信装置20に供給される音声パケットデータに含まれる符号化音声データに応じた音声がスピーカ26から出力されるタイミングよりも前に、当該音声パケットデータに含まれる音声レベル情報に応じた音声レベルが表示部27において表示される。音声デコーダ23による復号処理および音声信号生成部24による信号変換処理を含む再生処理には、所定の処理時間を要する。一方、表示処理部22による表示処理に要する処理時間は、再生処理に要する処理時間よりも短い。従って、表示処理部22における表示処理結果の出力を、再生処理部25における再生処理結果の出力に対して先行させることが可能である。 The display processing unit 22 outputs the result of the display processing prior to the output of the result of the reproduction processing by the reproduction processing unit 25. That is, the voice level included in the voice packet data before the timing when the voice corresponding to the coded voice data included in the voice packet data supplied to the communication device 20 via the network 30 is output from the speaker 26. The voice level according to the information is displayed on the display unit 27. A predetermined processing time is required for the reproduction processing including the decoding processing by the voice decoder 23 and the signal conversion processing by the voice signal generation unit 24. On the other hand, the processing time required for the display processing by the display processing unit 22 is shorter than the processing time required for the reproduction processing. Therefore, the output of the display processing result in the display processing unit 22 can be preceded by the output of the reproduction processing result in the reproduction processing unit 25.

図4は、表示部27において表示される音声レベルの表示態様の一例を示す図である。図4に示すように、音声レベルを、例えば、レベルバーによって表示してもよい。図4には、音声レベルを4段階で表示する場合が例示されている。 FIG. 4 is a diagram showing an example of a display mode of the sound level displayed on the display unit 27. As shown in FIG. 4, the audio level may be displayed, for example, by a level bar. FIG. 4 illustrates a case where the voice level is displayed in four stages.

表示部27は、例えば、通信装置20に接続された液晶ディスプレイ等の表示装置によって構成されていてもよい。また、表示部27は、通信装置20を収容する筐体の表面に設けられたインジケータによって構成されていてもよい。また、表示部27は、通信装置20の構成要素の一部として通信装置20に含まれていてもよい。 The display unit 27 may be configured by, for example, a display device such as a liquid crystal display connected to the communication device 20. Further, the display unit 27 may be configured by an indicator provided on the surface of the housing that houses the communication device 20. Further, the display unit 27 may be included in the communication device 20 as a part of the components of the communication device 20.

通信装置10は、例えば、図5に示すコンピュータ100によって構成することができる。コンピュータ100は、バス110を介して相互に接続されたCPU(Central Processing Unit)101、主記憶装置102、補助記憶装置103、ハードウェアインターフェース104及び通信インターフェース105を含んで構成されている。マイク17は、ハードウェアインターフェース104に接続され、ネットワーク30は、通信インターフェース105に接続される。 The communication device 10 can be configured by, for example, the computer 100 shown in FIG. The computer 100 includes a CPU (Central Processing Unit) 101, a main storage device 102, an auxiliary storage device 103, a hardware interface 104, and a communication interface 105, which are connected to each other via a bus 110. The microphone 17 is connected to the hardware interface 104 and the network 30 is connected to the communication interface 105.

補助記憶装置103は、Hard Disk Drive(HDD)、solid state drive(SSD)、フラッシュメモリ等の不揮発性の記憶装置によって構成されている。補助記憶装置103には、コンピュータ100を通信装置10として機能させるためのデータ送信プログラム120が記憶されている。データ送信プログラム120は、音声データ生成処理121、音声データ分配処理122、音声データ符号化処理123、音声レベル情報生成処理124、パケットデータ生成処理125及びパケットデータ送信処理126を含んで構成されている。 The auxiliary storage device 103 is composed of a non-volatile storage device such as a Hard Disk Drive (HDD), a solid state drive (SSD), and a flash memory. The auxiliary storage device 103 stores a data transmission program 120 for making the computer 100 function as the communication device 10. The data transmission program 120 includes a voice data generation process 121, a voice data distribution process 122, a voice data coding process 123, a voice level information generation process 124, a packet data generation process 125, and a packet data transmission process 126. ..

CPU101は、データ送信プログラム120を補助記憶装置103から読み出して主記憶装置102に展開し、データ送信プログラム120が有する各処理を順次実行する。CPU101は、音声データ生成処理121を実行することで、音声データ生成部11として動作する。また、CPU101は、音声データ分配処理122を実行することで、分配部12として動作する。また、CPU101は、音声データ符号化処理123を実行することで、音声エンコーダ14として動作する。また、CPU101は、音声レベル情報生成処理124を実行することで、音声レベル検出部13として動作する。また、CPU101は、パケットデータ生成処理125を実行することで、音声パケットデータ生成部15として動作する。また、CPU101は、パケットデータ送信処理126を実行することで、送信部16として機能する。データ送信プログラム120を実行したコンピュータ100が、通信装置10として機能する。なお、データ送信プログラム120により実現される機能は、例えば、ASIC(Application Specific Integrated Circuit)等の半導体集積回路によって実現することも可能である。 The CPU 101 reads the data transmission program 120 from the auxiliary storage device 103, expands it to the main storage device 102, and sequentially executes each process included in the data transmission program 120. The CPU 101 operates as the voice data generation unit 11 by executing the voice data generation process 121. Further, the CPU 101 operates as the distribution unit 12 by executing the voice data distribution process 122. Further, the CPU 101 operates as the voice encoder 14 by executing the voice data coding process 123. Further, the CPU 101 operates as the voice level detection unit 13 by executing the voice level information generation process 124. Further, the CPU 101 operates as the voice packet data generation unit 15 by executing the packet data generation process 125. Further, the CPU 101 functions as a transmission unit 16 by executing the packet data transmission process 126. The computer 100 that has executed the data transmission program 120 functions as the communication device 10. The function realized by the data transmission program 120 can also be realized by a semiconductor integrated circuit such as an ASIC (Application Specific Integrated Circuit).

一方、通信装置20は、例えば、図6に示すコンピュータ200によって構成することができる。コンピュータ200は、コンピュータ100の構成と同様であり、バス210を介して相互に接続されたCPU201、主記憶装置202、補助記憶装置203、ハードウェアインターフェース204及び通信インターフェース205を含んで構成されている。スピーカ26及び表示部27は、ハードウェアインターフェース204に接続され、ネットワーク30は、通信インターフェース205に接続される。 On the other hand, the communication device 20 can be configured by, for example, the computer 200 shown in FIG. The computer 200 has the same configuration as that of the computer 100, and includes a CPU 201, a main storage device 202, an auxiliary storage device 203, a hardware interface 204, and a communication interface 205 connected to each other via a bus 210. .. The speaker 26 and the display unit 27 are connected to the hardware interface 204, and the network 30 is connected to the communication interface 205.

補助記憶装置203には、コンピュータ200を通信装置20として機能させるためのデータ受信プログラム220が記憶されている。データ受信プログラム220は、パケットデータ受信処理221、音声レベル表示処理222、音声データ復号処理223及び音声信号生成処理224を含んで構成されている。 The auxiliary storage device 203 stores a data receiving program 220 for making the computer 200 function as the communication device 20. The data reception program 220 includes a packet data reception process 221, a voice level display process 222, a voice data decoding process 223, and a voice signal generation process 224.

CPU201は、データ受信プログラム220を補助記憶装置203から読み出して主記憶装置202に展開し、データ受信プログラム220が有する各処理を順次実行する。CPU201は、パケットデータ受信処理221を実行することで、受信部21として動作する。また、CPU201は、音声レベル表示処理222を実行することで、表示処理部22として動作する。また、CPU201は、音声データ復号処理223を実行することで、音声デコーダ23として動作する。また、CPU201は、音声信号生成処理224を実行することで、音声信号生成部24として動作する。データ受信プログラム220を実行したコンピュータ200が、通信装置20として機能する。なお、データ受信プログラム220により実現される機能は、ASIC等の半導体集積回路によって実現することも可能である。 The CPU 201 reads the data receiving program 220 from the auxiliary storage device 203, deploys it to the main storage device 202, and sequentially executes each process included in the data receiving program 220. The CPU 201 operates as a receiving unit 21 by executing the packet data receiving process 221. Further, the CPU 201 operates as the display processing unit 22 by executing the voice level display processing 222. Further, the CPU 201 operates as the voice decoder 23 by executing the voice data decoding process 223. Further, the CPU 201 operates as the audio signal generation unit 24 by executing the audio signal generation process 224. The computer 200 that has executed the data receiving program 220 functions as the communication device 20. The function realized by the data receiving program 220 can also be realized by a semiconductor integrated circuit such as an ASIC.

以下に、通信装置10の動作について説明する。図7は、通信装置10において実施される処理の流れを示すフローチャートである。ステップS11において、音声データ生成部11が、マイク17から供給されるアナログ音声信号をデジタル化する処理を行い、デジタル形式の音声データを生成する。 The operation of the communication device 10 will be described below. FIG. 7 is a flowchart showing the flow of processing performed in the communication device 10. In step S11, the audio data generation unit 11 performs a process of digitizing the analog audio signal supplied from the microphone 17 to generate digital audio data.

ステップS12において、分配部12が、音声データ生成部11から供給された音声データを音声エンコーダ14及び音声レベル検出部13に分配する。 In step S12, the distribution unit 12 distributes the voice data supplied from the voice data generation unit 11 to the voice encoder 14 and the voice level detection unit 13.

ステップS13において、音声レベル検出部13は、分配部12から供給された音声データによって示される音声レベルを検出して、検出した音声レベルを示す音声レベル情報を生成する。ここで、音声レベル検出部13は、所定の時間間隔(例えば5msec間隔)で、音声レベルを検出するものとする。 In step S13, the voice level detection unit 13 detects the voice level indicated by the voice data supplied from the distribution unit 12 and generates voice level information indicating the detected voice level. Here, the voice level detection unit 13 shall detect the voice level at a predetermined time interval (for example, 5 msec interval).

ステップS14において、音声エンコーダ14は、分配部12から供給された音声データを符号化することにより圧縮し、符号化音声データを生成する。ステップS13における音声レベル情報生成処理と、ステップS14における音声データ符号化処理は、並行して実施される。ここで、音声エンコーダ14は、所定の時間間隔(例えば20msec間隔)で、音声データを符号化する。 In step S14, the voice encoder 14 compresses the voice data supplied from the distribution unit 12 by encoding, and generates the coded voice data. The voice level information generation process in step S13 and the voice data coding process in step S14 are performed in parallel. Here, the voice encoder 14 encodes voice data at predetermined time intervals (for example, 20 msec intervals).

ここで、図8Aは、期間T1〜T4にマイク17に入力された音声と、通信装置10において生成される符号化音声データ及び音声レベル情報との関係を示す図である。音声エンコーダ14は、時刻t1からt2までの期間T1に、マイク17に入力された音声[1]について符号化音声データ[1]を生成し、時刻t2からt3までの期間T2にマイク17に入力された音声[2]について符号化音声データ[2]を生成し、時刻t3からt4までの期間T3にマイク17に入力された音声[3]について符号化音声データ[3]を生成し、時刻t4からt5までの期間T4にマイク17に入力された音声[4]について符号化音声データ[4]を生成する。
なお、期間T1〜T4は、20msecからなる期間であり、期間T2は、期間T1より後の期間であり、期間T3は、期間T2より後の期間であり、期間T4は、期間T3より後の期間である。
Here, FIG. 8A is a diagram showing the relationship between the voice input to the microphone 17 during the periods T1 to T4 and the coded voice data and voice level information generated by the communication device 10. The voice encoder 14 generates encoded voice data [1] for the voice [1] input to the microphone 17 during the period T1 from time t1 to t2, and inputs the encoded voice data [1] to the microphone 17 during the period T2 from time t2 to t3. The coded voice data [2] is generated for the voice [2], and the coded voice data [3] is generated for the voice [3] input to the microphone 17 during the period T3 from the time t3 to t4. The coded voice data [4] is generated for the voice [4] input to the microphone 17 during the period T4 from t4 to t5.
The periods T1 to T4 are periods consisting of 20 msec, the period T2 is a period after the period T1, the period T3 is a period after the period T2, and the period T4 is a period after the period T3. It is a period.

音声レベル検出部13は、マイク17に入力された音声[1]〜[4]について、それぞれ、音声レベル情報[1]〜[4]を生成する。 The voice level detection unit 13 generates voice level information [1] to [4] for each of the voices [1] to [4] input to the microphone 17.

ステップS15において、音声パケットデータ生成部15は、音声エンコーダ14によって生成された符号化音声データに、音声レベル検出部13によって生成された音声レベル情報を付加したRTP形式の音声パケットデータを生成する。 In step S15, the voice packet data generation unit 15 generates RTP format voice packet data in which the voice level information generated by the voice level detection unit 13 is added to the coded voice data generated by the voice encoder 14.

図8Bは、音声パケットデータ生成部15において生成される音声パケットデータの構成の一例を示す図である。音声パケットデータ生成部15は、期間T1にマイク17に入力された音声[1]について生成された符号化音声データ[1]をペイロード43に格納し、期間T1よりも後の期間T2にマイク17に入力された音声[2]について生成された音声レベル情報[2]を拡張ヘッダ42に格納し、さらにRTPヘッダ41を付加した音声パケットデータ40[1]を生成する。 FIG. 8B is a diagram showing an example of the configuration of voice packet data generated by the voice packet data generation unit 15. The voice packet data generation unit 15 stores the coded voice data [1] generated for the voice [1] input to the microphone 17 in the period T1 in the header 43, and the microphone 17 in the period T2 after the period T1. The voice level information [2] generated for the voice [2] input to is stored in the extension header 42, and the voice packet data 40 [1] to which the RTP header 41 is added is generated.

続いて、音声パケットデータ生成部15は、期間T2にマイク17に入力された音声[2]について生成された符号化音声データ[2]をペイロード43に格納し、期間T2よりも後の期間T3にマイク17に入力された音声[3]について生成された音声レベル情報[3]を拡張ヘッダ42に格納し、さらにRTPヘッダ41を付加した音声パケットデータ40[2]を生成する。 Subsequently, the voice packet data generation unit 15 stores the coded voice data [2] generated for the voice [2] input to the microphone 17 in the period T2 in the header 43, and stores the coded voice data [2] in the payload 43, and the period T3 after the period T2. The voice level information [3] generated for the voice [3] input to the microphone 17 is stored in the expansion header 42, and the voice packet data 40 [2] to which the RTP header 41 is added is generated.

続いて、音声パケットデータ生成部15は、期間T3にマイク17に入力された音声[3]について生成された符号化音声データ[3]をペイロード43に格納し、期間T3よりも後の期間T4にマイク17に入力された音声[4]について生成された音声レベル情報[4]を拡張ヘッダ42に格納し、さらにRTPヘッダ41を付加した音声パケットデータ40[3]を生成する。 Subsequently, the voice packet data generation unit 15 stores the coded voice data [3] generated for the voice [3] input to the microphone 17 in the period T3 in the payload 43, and stores the coded voice data [3] in the payload 43, and the period T4 after the period T3. The voice level information [4] generated for the voice [4] input to the microphone 17 is stored in the expansion header 42, and the voice packet data 40 [3] to which the RTP header 41 is added is generated.

ステップS16において、送信部16は、音声パケットデータ生成部15において生成された音声パケットデータを、ネットワーク30を介して相手側の通信装置20に向けて送信する。 In step S16, the transmission unit 16 transmits the voice packet data generated by the voice packet data generation unit 15 to the communication device 20 on the other side via the network 30.

このように、通信装置10によれば、同一の音声について生成された音声レベル情報及び符号化音声データのうち、音声レベル情報を符号化音声データに対して先行させて送信することが可能である。 As described above, according to the communication device 10, it is possible to transmit the voice level information in advance of the coded voice data among the voice level information and the coded voice data generated for the same voice. ..

以下に、通信装置20の動作について説明する。図9は、通信装置20において実施される処理の流れを示すフローチャートである。 The operation of the communication device 20 will be described below. FIG. 9 is a flowchart showing the flow of processing performed in the communication device 20.

ステップS21において、受信部21は、通信装置10から送信された音声パケットデータを受信する。受信部21は、受信した音声パケットデータに含まれる符号化音声データを音声デコーダ23に供給する。また、受信部21は、受信した音声パケットデータに含まれる音声レベル情報を表示処理部22に供給する。 In step S21, the receiving unit 21 receives the voice packet data transmitted from the communication device 10. The receiving unit 21 supplies the coded voice data included in the received voice packet data to the voice decoder 23. Further, the receiving unit 21 supplies the voice level information included in the received voice packet data to the display processing unit 22.

ステップS22において、表示処理部22は、受信部21から供給された音声レベル情報によって示される音声レベルを表示部27において表示するための表示処理を行い、その処理結果を表示部27に出力する。表示部27は、表示処理部22から供給された表示処理結果に基づいて音声レベルを表示する。 In step S22, the display processing unit 22 performs display processing for displaying the voice level indicated by the voice level information supplied from the reception unit 21 on the display unit 27, and outputs the processing result to the display unit 27. The display unit 27 displays the audio level based on the display processing result supplied from the display processing unit 22.

ステップS23において、音声デコーダ23は、受信部21から供給された符号化音声データを復号する。 In step S23, the voice decoder 23 decodes the coded voice data supplied from the receiving unit 21.

ステップS24において、音声信号生成部24は、復号されたデジタル形式の音声データを、アナログ形式に変換したアナログ音声信号を生成する。音声信号生成部24は、生成したアナログ音声信号をスピーカ26に出力する。スピーカ26は、音声信号生成部24から供給されるアナログ音声信号に応じた音声を出力する。ステップS23における復号処理及びステップS24における音声信号生成処理を含む再生処理と、ステップS22における表示処理は、並行して実施される。
一般的に、ネットワークを経由した音声データの再生では、データ到達タイミングがネットワーク遅延時間の変動があるため、再生データを少し蓄積し、安定した再生を行うように作られている。この再生時のバッファリングの時間差に対して、表示処理部22が先行して音声レベルを通知する役割を果たす。
ここで、ステップS23における音声デコーダ23の処理遅延時間と、ステップS24における音声信号生成部24の処理遅延時間からなる、再生処理部25の処理遅延時間は、例えば、20msecとする。以下の本発明の説明は、再生処理部25の処理遅延時間を20msecとして、記載される。
In step S24, the audio signal generation unit 24 generates an analog audio signal obtained by converting the decoded digital format audio data into an analog format. The audio signal generation unit 24 outputs the generated analog audio signal to the speaker 26. The speaker 26 outputs voice corresponding to the analog voice signal supplied from the voice signal generation unit 24. The reproduction process including the decoding process in step S23 and the audio signal generation process in step S24, and the display process in step S22 are performed in parallel.
Generally, in the reproduction of audio data via a network, since the data arrival timing fluctuates in the network delay time, the reproduction data is accumulated a little and is made to perform stable reproduction. The display processing unit 22 plays a role of notifying the voice level in advance of the buffering time difference at the time of reproduction.
Here, the processing delay time of the reproduction processing unit 25, which comprises the processing delay time of the audio decoder 23 in step S23 and the processing delay time of the audio signal generation unit 24 in step S24, is set to, for example, 20 msec. The following description of the present invention is described with the processing delay time of the reproduction processing unit 25 as 20 msec.

図10は、表示部27において表示される音声レベルの表示タイミングと、スピーカ26から出力される音声の出力タイミングとの関係の一例を示す図である。ここでは、通信装置20が、図8Bに示す構成の音声パケットデータ40[1]、40[2]及び40[3]を受信するものとする。 FIG. 10 is a diagram showing an example of the relationship between the display timing of the sound level displayed on the display unit 27 and the output timing of the sound output from the speaker 26. Here, it is assumed that the communication device 20 receives the voice packet data 40 [1], 40 [2], and 40 [3] having the configuration shown in FIG. 8B.

期間T1に入力された音声に対応する符号化音声データ[1]及び期間T2に入力された音声に対応する音声レベル情報[2]を含む音声パケットデータ40[1]が、受信部21によって受信されると、表示処理部22は、音声レベル情報[2]についての表示処理結果を、再生処理部25(音声デコーダ23及び音声信号生成部24)による符号化音声データ[1]についての再生処理結果の出力に先行して出力する。 The voice packet data 40 [1] including the coded voice data [1] corresponding to the voice input in the period T1 and the voice level information [2] corresponding to the voice input in the period T2 is received by the receiving unit 21. Then, the display processing unit 22 reproduces the display processing result of the voice level information [2] for the encoded voice data [1] by the playback processing unit 25 (voice decoder 23 and voice signal generation unit 24). Output prior to the output of the result.

また、期間T2に入力された音声に対応する符号化音声データ[2]及び期間T3に入力された音声に対応する音声レベル情報[3]を含む音声パケットデータ40[2]が、受信部21によって受信されると、表示処理部22は、音声レベル情報[3]についての表示処理結果を、再生処理部25(音声デコーダ23及び音声信号生成部24)による符号化音声データ[2]についての再生処理結果の出力に先行して出力する。
さらに、期間T3に入力された音声に対応する符号化音声データ[3]及び期間T4に入力された音声に対応する音声レベル情報[4]を含む音声パケットデータ40[3]が、受信部21によって受信されると、表示処理部22は、音声レベル情報[4]についての表示処理結果を、再生処理部25(音声デコーダ23及び音声信号生成部24)による符号化音声データ[3]についての再生処理結果の出力に先行して出力する。
ここで、再生処理部25の処理遅延時間は、上述のように、例えば20msecとする。
Further, the voice packet data 40 [2] including the coded voice data [2] corresponding to the voice input in the period T2 and the voice level information [3] corresponding to the voice input in the period T3 is received by the receiving unit 21. When received, the display processing unit 22 displays the display processing result for the voice level information [3] for the coded voice data [2] by the reproduction processing unit 25 (voice decoder 23 and voice signal generation unit 24). Output prior to the output of the playback processing result.
Further, the voice packet data 40 [3] including the coded voice data [3] corresponding to the voice input in the period T3 and the voice level information [4] corresponding to the voice input in the period T4 is received by the receiving unit 21. When received, the display processing unit 22 displays the display processing result for the voice level information [4] for the coded voice data [3] by the reproduction processing unit 25 (voice decoder 23 and voice signal generation unit 24). Output prior to the output of the playback processing result.
Here, the processing delay time of the reproduction processing unit 25 is, for example, 20 msec as described above.

その結果、表示部27において表示される音声レベルの表示タイミングと、スピーカ26から出力される音声の出力タイミングとの関係は、図10に示されるように、符号化音声データ[1]において20msecの遅延が発生するので、スピーカ26において符号化音声データ[1]に基づく音声出力がなされるタイミングで、表示部27において音声レベル情報[3]に基づく音声レベル表示がなされる。
また、表示部27において表示される音声レベルの表示タイミングと、スピーカ26から出力される音声の出力タイミングとの関係は、図10に示されるように、符号化音声データ[2]において20msecの遅延が発生するので、スピーカ26において符号化音声データ[2]に基づく音声出力がなされるタイミングで、表示部27において音声レベル情報[4]に基づく音声レベル表示がなされる。
As a result, the relationship between the display timing of the voice level displayed on the display unit 27 and the output timing of the voice output from the speaker 26 is 20 msec in the coded voice data [1] as shown in FIG. Since a delay occurs, the display unit 27 displays the voice level based on the voice level information [3] at the timing when the voice output based on the coded voice data [1] is performed on the speaker 26.
Further, as shown in FIG. 10, the relationship between the display timing of the voice level displayed on the display unit 27 and the output timing of the voice output from the speaker 26 is delayed by 20 msec in the coded voice data [2]. Is generated, so that the display unit 27 displays the voice level based on the voice level information [4] at the timing when the voice output based on the coded voice data [2] is performed in the speaker 26.

このように、通信装置20によれば、音声レベル情報に基づく音声レベル表示を、符号化音声データに基づく音声出力に先行させることできる。 As described above, according to the communication device 20, the voice level display based on the voice level information can be preceded by the voice output based on the encoded voice data.

以上の説明から明らかなように、本実施形態に係る通信システム1によれば、通信装置10において、同一の音声について生成された音声レベル情報及び符号化音声データのうち、音声レベル情報を符号化音声データに対して先行させて送信することが可能である。また、通信装置20において、音声レベル情報に基づく音声レベル表示を、符号化音声データに基づく音声出力に先行させることできる。これにより、送信側(通信装置10側)のユーザが発した音声が、受信側(通信装置20側)のスピーカ26から出力される前に、当該ユーザが発した音声の音声レベルが表示部27に表示される。これにより、受信側において、送信側から音声が発せられたことを、当該音声がスピーカ26から出力される前に把握することができる。従って、お互いが、同時に話し始めて、会話が混信するといった問題や、相手の会話に割り込むタイミングが掴みづらいといった問題を解消することができる。 As is clear from the above description, according to the communication system 1 according to the present embodiment, the voice level information is encoded among the voice level information and the coded voice data generated for the same voice in the communication device 10. It is possible to transmit the voice data in advance. Further, in the communication device 20, the voice level display based on the voice level information can be preceded by the voice output based on the encoded voice data. As a result, before the voice emitted by the user on the transmitting side (communication device 10 side) is output from the speaker 26 on the receiving side (communication device 20 side), the voice level of the voice emitted by the user is displayed on the display unit 27. Is displayed in. As a result, the receiving side can grasp that the voice is emitted from the transmitting side before the voice is output from the speaker 26. Therefore, it is possible to solve the problem that each other starts talking at the same time and the conversation interferes with each other, and the problem that it is difficult to grasp the timing to interrupt the conversation of the other party.

なお、上記した実施形態では、通信システム1を構成する通信装置10及び20が、音声通信機能を備える場合について例示したが、通信装置10及び20は、音声通信機能のみならず映像通信機能を備えていてもよい。この場合、通信システム1をテレビ会議システムとして利用することができる。なお、映像通信機能については、公知技術を利用することが可能であり、その詳細については説明を省略する。 In the above-described embodiment, the case where the communication devices 10 and 20 constituting the communication system 1 have a voice communication function is illustrated, but the communication devices 10 and 20 have not only the voice communication function but also the video communication function. May be. In this case, the communication system 1 can be used as a video conference system. As for the video communication function, known technology can be used, and the details thereof will be omitted.

また、本実施形態に係る通信装置10及び20は、それぞれ、パーソナルコンピュータ、スマートフォン、携帯電話端末などによって実現することが可能である。パーソナルコンピュータは、デスクトップ型、ノート型及びタブレット型を含むいずれのタイプであってもよい。通信装置20を、パーソナルコンピュータで実現する場合、パーソナルコンピュータのディスプレイを表示部27として用いることが可能である。 Further, the communication devices 10 and 20 according to the present embodiment can be realized by a personal computer, a smartphone, a mobile phone terminal, or the like, respectively. The personal computer may be any type including a desktop type, a notebook type and a tablet type. When the communication device 20 is realized by a personal computer, the display of the personal computer can be used as the display unit 27.

[第2の実施形態]
図11は、本発明の第2の実施形態に係る通信システム1Aの構成の一例を示すブロック図である。通信システム1Aは、音声通信機能に加え、映像通信機能を有する。通信システム1Aは、ネットワーク30を介して通信可能に接続された通信装置10A及び20Aを含んで構成されている。通信装置10A及び20Aは、ネットワーク30を介して音声データおよび映像データを相互に送受信することが可能である。従って、通信システム1Aは、互いに離れた場所に所在する会議参加者の発する音声を映像と共に相互に送受信するテレビ会議システムとして利用することが可能である。
[Second Embodiment]
FIG. 11 is a block diagram showing an example of the configuration of the communication system 1A according to the second embodiment of the present invention. The communication system 1A has a video communication function in addition to the voice communication function. The communication system 1A includes communication devices 10A and 20A connected so as to be communicable via the network 30. The communication devices 10A and 20A can transmit and receive audio data and video data to and from each other via the network 30. Therefore, the communication system 1A can be used as a video conference system that mutually transmits and receives audio emitted by conference participants located at locations distant from each other together with video.

通信装置10Aは、通信装置20Aが備える機能も備えており、同様に、通信装置20Aは、通信装置10Aが備える機能も備えている。すなわち、通信装置10A及び20Aは、それぞれ、音声データ及び映像データを相互に送受信する機能を備えており、互いに同じ構成を有している。 The communication device 10A also has a function included in the communication device 20A, and similarly, the communication device 20A also has a function provided in the communication device 10A. That is, the communication devices 10A and 20A each have a function of transmitting and receiving audio data and video data to and from each other, and have the same configuration as each other.

通信装置10Aは、上記した第1の実施形態に係る通信装置10における音声データ生成部11、分配部12、音声レベル検出部13、音声エンコーダ14、音声パケットデータ生成部15及び送信部16と、マイク17とを有し、更に映像データ生成部51、映像エンコーダ52、映像パケットデータ生成部53及び遅延部55を有する。通信システム1Aは、更に映像データ生成部51に接続されたビデオカメラ18を有する。 The communication device 10A includes a voice data generation unit 11, a distribution unit 12, a voice level detection unit 13, a voice encoder 14, a voice packet data generation unit 15, and a transmission unit 16 in the communication device 10 according to the first embodiment described above. It has a microphone 17, a video data generation unit 51, a video encoder 52, a video packet data generation unit 53, and a delay unit 55. The communication system 1A further includes a video camera 18 connected to the video data generation unit 51.

ビデオカメラ18は、通信装置10A側のユーザの映像を撮影し、アナログ映像信号を生成する。 The video camera 18 captures an image of the user on the communication device 10A side and generates an analog image signal.

映像データ生成部51は、ビデオカメラ18から供給されるアナログ映像信号をデジタル化する処理を行い、デジタル形式の映像データを生成する。映像データ生成部51は、生成した映像データを映像エンコーダ52に供給する。なお、映像データ生成部51の機能を、ビデオカメラ18が備えていてもよい。この場合、通信装置10Aから映像データ生成部51の機能を削減することができる。 The video data generation unit 51 performs a process of digitizing an analog video signal supplied from the video camera 18 to generate digital video data. The video data generation unit 51 supplies the generated video data to the video encoder 52. The video camera 18 may have the function of the video data generation unit 51. In this case, the function of the video data generation unit 51 can be reduced from the communication device 10A.

映像エンコーダ52は、映像データ生成部51から供給される映像データを符号化することにより圧縮する。符号化方式の一例として、MPEG−4、H.264などが挙げられる。映像エンコーダ52は、符号化した映像データ(以下、符号化映像データという)を映像パケットデータ生成部53に供給する。 The video encoder 52 compresses the video data supplied from the video data generation unit 51 by encoding the video data. As an example of the coding method, MPEG-4, H.M. 264 and the like can be mentioned. The video encoder 52 supplies encoded video data (hereinafter referred to as encoded video data) to the video packet data generation unit 53.

映像パケットデータ生成部53は、映像エンコーダ52から供給される符号化映像データをパケット化する処理を行い、映像パケットデータを生成する。映像パケットデータ生成部53は、生成した映像パケットデータを送信部16に供給する。 The video packet data generation unit 53 performs a process of packetizing the coded video data supplied from the video encoder 52, and generates video packet data. The video packet data generation unit 53 supplies the generated video packet data to the transmission unit 16.

遅延部55は、音声エンコーダ14と、音声パケットデータ生成部15との間に設けられている。遅延部55は、音声エンコーダ14から供給される符号化音声データの、音声パケットデータ生成部15への供給を遅延させる。本実施形態に係る通信装置10Aにおいては、映像エンコーダ52による映像データの符号化処理に要する時間は、音声エンコーダ14による音声データの符号化処理に要する時間と比較して長いものとする。遅延部55によって符号化音声データの、音声パケットデータ生成部15への供給を遅延させることにより、符号化音声データと符号化映像データとの遅延差を小さくするリップシンク機能を実現することができる。 The delay unit 55 is provided between the voice encoder 14 and the voice packet data generation unit 15. The delay unit 55 delays the supply of the coded voice data supplied from the voice encoder 14 to the voice packet data generation unit 15. In the communication device 10A according to the present embodiment, the time required for the video data coding process by the video encoder 52 is longer than the time required for the audio data coding process by the audio encoder 14. By delaying the supply of the encoded audio data to the audio packet data generation unit 15 by the delay unit 55, it is possible to realize a lip-sync function that reduces the delay difference between the encoded audio data and the encoded video data. ..

送信部16は、音声パケットデータ生成部15から供給される音声パケットデータ及び映像パケットデータ生成部53から供給される映像パケットデータを、ネットワーク30を介して相手側の通信装置20Aに向けて送信する。 The transmission unit 16 transmits the voice packet data supplied from the voice packet data generation unit 15 and the video packet data supplied from the video packet data generation unit 53 toward the communication device 20A on the other side via the network 30. ..

通信装置20Aは、上記した第1の実施形態に係る通信装置20における受信部21、表示処理部22、再生処理部25(音声デコーダ23及び音声信号生成部24)と、スピーカ26、表示部27とを有し、更に映像デコーダ63及び映像信号生成部64を有する。通信システム1Aは、更に表示処理部22及び映像信号生成部64に接続されたモニタ28を有する。 The communication device 20A includes a reception unit 21, a display processing unit 22, a reproduction processing unit 25 (voice decoder 23 and a voice signal generation unit 24), a speaker 26, and a display unit 27 in the communication device 20 according to the first embodiment described above. It also has a video decoder 63 and a video signal generation unit 64. Communication system 1A further includes a monitor 28 connected to a display processing unit 22 and a video signal generation unit 64.

映像デコーダ63は、受信部21から供給される符号化映像データを復号する。すなわち、映像デコーダ63は、圧縮された映像データを伸長する処理を行う。映像デコーダ63は、復号した映像データを映像信号生成部64に供給する。 The video decoder 63 decodes the coded video data supplied from the receiving unit 21. That is, the video decoder 63 performs a process of decompressing the compressed video data. The video decoder 63 supplies the decoded video data to the video signal generation unit 64.

映像信号生成部64は、映像デコーダ63から供給される復号されたデジタル形式の映像データを、アナログ形式に変換したアナログ映像信号を生成する。映像信号生成部64は、生成したアナログ映像信号をモニタ28に出力する。なお、映像信号生成部64の機能を、モニタ28が備えていてもよい。この場合、通信装置20Aから映像信号生成部64の機能を削減することができる。 The video signal generation unit 64 generates an analog video signal obtained by converting the decoded digital video data supplied from the video decoder 63 into an analog format. The video signal generation unit 64 outputs the generated analog video signal to the monitor 28. The monitor 28 may have the function of the video signal generation unit 64. In this case, the function of the video signal generation unit 64 can be reduced from the communication device 20A.

本実施形態に係る通信システム1Aによれば、上記した第1の実施形態に係る通信システム1と同様、送信側(通信装置10A側)のユーザが発した音声が、受信側(通信装置20A側)のスピーカ26から出力される前に、当該ユーザが発した音声の音声レベルがモニタ28に表示される。これにより、受信側において、送信側から音声が発せられたことを、当該音声がスピーカ26から出力される前に把握することができる。従って、お互いが、同時に話し始めて、会話が混信するといった問題や、相手の会話に割り込むタイミングが掴みづらいといった問題を解消することができる。 According to the communication system 1A according to the present embodiment, as in the communication system 1 according to the first embodiment described above, the voice emitted by the user on the transmitting side (communication device 10A side) is on the receiving side (communication device 20A side). ), The voice level of the voice emitted by the user is displayed on the monitor 28 before being output from the speaker 26. As a result, the receiving side can grasp that the voice is emitted from the transmitting side before the voice is output from the speaker 26. Therefore, it is possible to solve the problem that each other starts talking at the same time and the conversation interferes with each other, and the problem that it is difficult to grasp the timing to interrupt the conversation of the other party.

また、本実施形態に係る通信システム1Aによれば、音声通信機能に加え、映像通信機能を有する。これにより、通信装置10A側及び20B側のユーザ同士が、お互いの表情を見ながら会話を行うことができる。また、本実施形態に係る通信システム1Aによれば、遅延部55によりリップシンク機能が実現される。人は元来、会話している人の表情を見ながら、会話のキャッチボールのタイミングを認識する。そのため、相手側の音声の音声レベルをモニタ28に表示させたとしても、相手側の表情からタイミングをとろうとする。従って、本実施形態に係る通信システム1Aにおいて、音声レベル表示とリップシンク機能とを併用することで、通信システム1Aのユーザ間においてよりスムーズな会話を行うことが可能となる。 Further, according to the communication system 1A according to the present embodiment, it has a video communication function in addition to the voice communication function. As a result, the users on the communication device 10A side and the communication device 20B side can have a conversation while looking at each other's facial expressions. Further, according to the communication system 1A according to the present embodiment, the lip-sync function is realized by the delay unit 55. Originally, a person recognizes the timing of the catch ball of a conversation while looking at the facial expression of the person who is talking. Therefore, even if the voice level of the voice of the other party is displayed on the monitor 28, the timing is taken from the facial expression of the other party. Therefore, in the communication system 1A according to the present embodiment, by using the voice level display and the lip-sync function together, it is possible to have a smoother conversation between the users of the communication system 1A.

1、1A 通信システム
10、10A 通信装置
11 音声データ生成部
12 分配部
13 音声レベル検出部
14 音声エンコーダ
15 音声パケットデータ生成部
16 送信部
17 マイク
18 ビデオカメラ
20、20A 通信装置
21 受信部
22 表示処理部
23 音声デコーダ
24 音声信号生成部
25 再生処理部
26 スピーカ
27 表示部
28 モニタ
30 ネットワーク
40 音声パケットデータ
41 ヘッダ
42 拡張ヘッダ
43 ペイロード
55 遅延部
63 映像デコーダ
64 映像信号生成部
100 コンピュータ
120 データ送信プログラム
200 コンピュータ
220 データ受信プログラム
1, 1A communication system 10, 10A communication device 11 voice data generation unit 12 distribution unit 13 voice level detection unit 14 voice encoder 15 voice packet data generation unit 16 transmission unit 17 microphone 18 video camera 20, 20A communication device 21 reception unit 22 display Processing unit 23 Audio decoder 24 Audio signal generation unit 25 Playback processing unit 26 Speaker 27 Display unit 28 Monitor 30 Network 40 Voice packet data 41 Header 42 Expansion header 43 payload 55 Delay unit 63 Video decoder 64 Video signal generation unit 100 Computer 120 Data transmission Program 200 Computer 220 Data receiving program

Claims (10)

入力される音声を示す音声データを生成する音声データ生成部と、
前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出部と、
第1の期間に入力された音声について生成された前記音声データに、前記第1の期間よりも後の期間である第2の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成部と、
前記パケットデータを送信する送信部と、
を有することを特徴とする通信装置。
A voice data generator that generates voice data indicating the input voice,
A voice level detection unit that detects the voice level and generates voice level information indicating the detected voice level, and a voice level detection unit.
The voice level information generated for the voice input in the second period, which is a period after the first period, is added to the voice data generated for the voice input in the first period. A packet data generator that generates packet data, and a packet data generator
A transmitter that transmits the packet data and
A communication device characterized by having.
前記音声データを符号化する符号化処理部を更に含み、
前記パケットデータ生成部は、前記符号化処理部によって符号化された前記音声データに、前記音声レベル情報を付加する
ことを特徴とする請求項1に記載の通信装置。
Further includes a coding processing unit that encodes the voice data, and includes a coding processing unit.
The communication device according to claim 1, wherein the packet data generation unit adds the voice level information to the voice data encoded by the coding processing unit.
前記パケットデータ生成部は、前記音声レベル情報を拡張ヘッダに格納したパケットデータを生成する
ことを特徴とする請求項1または請求項2に記載の通信装置。
The communication device according to claim 1 or 2, wherein the packet data generation unit generates packet data in which the voice level information is stored in an extension header.
前記パケットデータ生成部は、所定期間内における互いに異なる複数の時点に入力された音声について生成された複数の音声レベル情報を、前記拡張ヘッダに格納したパケットデータを生成する
ことを特徴とする請求項3に記載の通信装置。
The packet data generation unit is characterized in that it generates packet data in which a plurality of voice level information generated for voices input at a plurality of different time points within a predetermined period is stored in the extension header. 3. The communication device according to 3.
前記音声データ生成部によって生成された前記音声データを、前記音声レベル検出部及び前記符号化処理部に分配する分配部を更に有し、
前記音声レベル検出部は、前記分配部によって分配された前記音声データにおける音声について前記音声レベル情報を生成する
ことを特徴とする請求項2に記載の通信装置。
Further having a distribution unit for distributing the voice data generated by the voice data generation unit to the voice level detection unit and the coding processing unit.
The communication device according to claim 2, wherein the voice level detection unit generates the voice level information for the voice in the voice data distributed by the distribution unit.
前記符号化処理部によって符号化された前記音声データの、前記パケットデータ生成部への供給を遅延させる遅延部を更に有する
ことを特徴とする請求項2に記載の通信装置。
The communication device according to claim 2, further comprising a delay unit that delays the supply of the voice data encoded by the coding processing unit to the packet data generation unit.
ネットワークを介して通信可能に接続された第1の通信装置及び第2の通信装置を含む通信システムであって、
前記第1の通信装置は、
入力される音声を示す音声データを生成する音声データ生成部と、
前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出部と、
第1の期間に入力された音声について生成された前記音声データに、前記第1の期間よりも後の期間である第2の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成部と、
前記パケットデータを、前記ネットワークを介して前記第2の通信装置に送信する送信部と、
を有し、
前記第2の通信装置は、
前記第1の通信装置から送信された前記パケットデータを受信する受信部と、
前記受信部によって受信された前記パケットデータに含まれる前記音声データを再生するための再生処理を行い、前記再生処理の結果を出力する再生処理部と、
前記受信部によって受信された前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理部による前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理部と、
を有することを特徴とする通信システム。
A communication system including a first communication device and a second communication device that are communicably connected via a network.
The first communication device is
A voice data generator that generates voice data indicating the input voice,
A voice level detection unit that detects the voice level and generates voice level information indicating the detected voice level, and a voice level detection unit.
The voice level information generated for the voice input in the second period, which is a period after the first period, is added to the voice data generated for the voice input in the first period. A packet data generator that generates packet data, and a packet data generator
A transmission unit that transmits the packet data to the second communication device via the network, and a transmission unit.
Have,
The second communication device is
A receiving unit that receives the packet data transmitted from the first communication device, and
A reproduction processing unit that performs reproduction processing for reproducing the audio data included in the packet data received by the reception unit and outputs the result of the reproduction processing, and a reproduction processing unit.
A display process for displaying the level of the voice indicated by the voice level information included in the packet data received by the receiving unit is performed, and prior to the output of the result of the reproduction processing by the reproduction processing unit, A display processing unit that outputs the result of the display processing, and
A communication system characterized by having.
通信装置における通信方法であって、
前記通信装置は、
入力される音声を示す音声データを生成する音声データ生成ステップと、
前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出ステップと、
第1の期間に入力された音声について生成された前記音声データに、前記第1の期間よりも後の期間である第2の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成ステップと、
前記パケットデータを送信する送信ステップと
を有することを特徴とする通信方法。
It is a communication method in a communication device.
The communication device is
A voice data generation step that generates voice data indicating the input voice, and
A voice level detection step that detects the voice level and generates voice level information indicating the detected voice level, and
The voice level information generated for the voice input in the second period, which is a period after the first period, is added to the voice data generated for the voice input in the first period. Packet data generation step to generate packet data and
A communication method comprising a transmission step for transmitting the packet data.
ネットワークを介して通信可能に接続された第1の通信装置及び第2の通信装置を含む通信システムにおける通信方法であって、
前記第1の通信装置は、
入力される音声を示す音声データを生成する音声データ生成ステップと、
前記音声のレベルを検出して検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出ステップと、
第1の期間に入力された音声について生成された前記音声データに、前記第1の期間よりも後の第2の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成ステップと、
前記パケットデータを、ネットワークを介して第2の通信装置に送信する送信ステップとを有し、
前記第2の通信装置は、
前記パケットデータを受信する受信ステップと、
受信した前記パケットデータに含まれる前記音声データを再生する再生処理を行い、前記再生処理の結果を出力する再生処理ステップと、
受信した前記パケットデータに含まれる前記音声レベル情報によって示される音声のレベルを表示するための表示処理を行い、前記再生処理の結果の出力に先行して、前記表示処理の結果を出力する表示処理ステップとを有する
ことを特徴とする通信方法。
A communication method in a communication system including a first communication device and a second communication device that are communicably connected via a network.
The first communication device is
A voice data generation step that generates voice data indicating the input voice, and
A voice level detection step that detects the voice level and generates voice level information indicating the detected voice level, and
Packet data obtained by adding the voice level information generated for the voice input in the second period after the first period to the voice data generated for the voice input in the first period. Packet data generation step to generate and
It has a transmission step of transmitting the packet data to a second communication device via a network.
The second communication device is
The reception step for receiving the packet data and
A reproduction processing step of performing a reproduction process of reproducing the voice data included in the received packet data and outputting the result of the reproduction process.
Display processing for displaying the level of voice indicated by the voice level information included in the received packet data, and outputting the result of the display processing prior to the output of the result of the reproduction processing. A communication method characterized by having a step.
コンピュータを、
入力される音声を示す音声データを生成する音声データ生成部、
前記音声のレベルを検出し、検出した音声のレベルを示す音声レベル情報を生成する音声レベル検出部、
第1の期間に入力された音声について生成された前記音声データに、前記第1の期間よりも後の第2の期間に入力された音声について生成された前記音声レベル情報を付加したパケットデータを生成するパケットデータ生成部、
前記パケットデータを送信する送信部、
として機能させることを特徴とするプログラム。
Computer,
A voice data generator that generates voice data indicating the input voice,
A voice level detector that detects the voice level and generates voice level information indicating the detected voice level.
Packet data obtained by adding the voice level information generated for the voice input in the second period after the first period to the voice data generated for the voice input in the first period. Packet data generator to generate,
A transmitter that transmits the packet data,
A program characterized by functioning as.
JP2017030890A 2017-02-22 2017-02-22 Communication equipment, communication systems, communication methods and programs Active JP6972576B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017030890A JP6972576B2 (en) 2017-02-22 2017-02-22 Communication equipment, communication systems, communication methods and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017030890A JP6972576B2 (en) 2017-02-22 2017-02-22 Communication equipment, communication systems, communication methods and programs

Publications (2)

Publication Number Publication Date
JP2018137614A JP2018137614A (en) 2018-08-30
JP6972576B2 true JP6972576B2 (en) 2021-11-24

Family

ID=63365804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017030890A Active JP6972576B2 (en) 2017-02-22 2017-02-22 Communication equipment, communication systems, communication methods and programs

Country Status (1)

Country Link
JP (1) JP6972576B2 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02262742A (en) * 1989-04-03 1990-10-25 Oki Electric Ind Co Ltd System and device for voice packet communication
JP2000224312A (en) * 1999-02-01 2000-08-11 Nippon Telegr & Teleph Corp <Ntt> Method for displaying talker in voice conversation communication system, voice communication conversation system and storage medium storing program realizing talker display
US7535995B1 (en) * 2002-01-29 2009-05-19 Cisco Technology, Inc. System and method for volume indication during a communication session
US7688344B2 (en) * 2004-12-17 2010-03-30 Fuji Xerox Co., Ltd. Systems and methods for mediating teleconferences
US7864209B2 (en) * 2005-04-28 2011-01-04 Apple Inc. Audio processing in a multi-participant conference
JP2016225869A (en) * 2015-06-01 2016-12-28 株式会社リコー Information processor, information processing system and program

Also Published As

Publication number Publication date
JP2018137614A (en) 2018-08-30

Similar Documents

Publication Publication Date Title
US10930262B2 (en) Artificially generated speech for a communication session
RU2408158C2 (en) Synchronisation of sound and video
AU2007349607C1 (en) Method of transmitting data in a communication system
JP2005033664A (en) Communication device and its operation control method
TW200917764A (en) System and method for providing AMR-WB DTX synchronization
US20110235632A1 (en) Method And Apparatus For Performing High-Quality Speech Communication Across Voice Over Internet Protocol (VoIP) Communications Networks
JP6972576B2 (en) Communication equipment, communication systems, communication methods and programs
JP2017041743A (en) Content distribution device
JP2020036225A (en) Information processing apparatus, information processing method, and information processing program
JP2008271415A (en) Received voice output apparatus
JP5434390B2 (en) Electronic conference system, multipoint connection device, data communication method, program, recording medium, and communication device
JP4531013B2 (en) Audiovisual conference system and terminal device
US7619994B2 (en) Adapter for use with a tandem-free conference bridge
JP2006279809A (en) Apparatus and method for voice reproducing
JP5210788B2 (en) Speech signal communication system, speech synthesizer, speech synthesis processing method, speech synthesis processing program, and recording medium storing the program
JP2005043423A (en) Real-time packet processor and its method
JP4056447B2 (en) Digital communication device
JP2022108957A (en) Data processing device, data processing system, and voice processing method
JP2005073057A (en) Digital speech apparatus
JP4679502B2 (en) Voice packet reproducing apparatus, communication terminal and program having clock correction function
JP2009204815A (en) Wireless communication device, wireless communication method and wireless communication system
KR100575801B1 (en) System for carrying out real-time lip sync by using rtp
WO2014046239A1 (en) Communication system, method, server device and terminal
CN117995159A (en) Voice signal processing method and device and electronic equipment
JP2011035594A (en) Data receiver, transmitter/receiver, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210413

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211018

R150 Certificate of patent or registration of utility model

Ref document number: 6972576

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150