JP5210788B2 - 音声信号通信システム、音声合成装置、音声合成処理方法、音声合成処理プログラム、並びに該プログラムを格納した記録媒体 - Google Patents
音声信号通信システム、音声合成装置、音声合成処理方法、音声合成処理プログラム、並びに該プログラムを格納した記録媒体 Download PDFInfo
- Publication number
- JP5210788B2 JP5210788B2 JP2008258293A JP2008258293A JP5210788B2 JP 5210788 B2 JP5210788 B2 JP 5210788B2 JP 2008258293 A JP2008258293 A JP 2008258293A JP 2008258293 A JP2008258293 A JP 2008258293A JP 5210788 B2 JP5210788 B2 JP 5210788B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- audio signal
- data
- unit
- received
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Description
前記複数の端末の受信部はそれぞれ音声合成手段を有し、
前記音声合成手段は、
(a)受信した複数の音声信号のRTPヘッダのタイムスタンプから時刻情報を抽出する情報抽出手段と、
(b)前記抽出した時刻情報と前記受信した音声信号の受信時刻との時間差を求める時間差決定手段と、
(c)前記時間差と前記受信した音声信号の受信時刻を基に、前記受信した音声信号の送信時刻を求める送信時刻決定手段と、
(d)前記求めた送信時刻を基準として、前記複数の音声信号を加算する音声信号加算手段と、
(e)前記加算した音声信号の値と所定の制限値とを比較し、前記音声信号の値の方が大きい場合には、該音声信号の値を前記制限値まで低減させる信号制限手段と、
(f)前記加算ないし低減した音声信号を出力する音声出力手段と、
を備えたことを特徴とする。
(g)前記受信した複数の音声信号のRTPヘッダのタイムスタンプから所定の時刻情報を抽出する情報抽出手段と、
(h)前記抽出した時刻情報と前記受信した音声信号の受信時刻との時間差を求める時間差決定手段と、
(i)前記時間差と前記受信した音声信号の受信時刻を基に、前記受信した信号の送信時刻を求める送信時刻決定手段と、
(j)前記求めた時刻を基準として、前記複数の音声信号を加算する音声信号加算手段と、
(k)前記加算した音声信号を出力する音声出力手段と、
(l)前記加算ないし低減した音声信号を出力する音声出力手段と、
を備えることを特徴とする。
(m)前記受信した複数の音声信号のRTPヘッダのタイムスタンプから時刻情報を抽出する情報抽出ステップと、
(n)前記抽出した時刻情報と前記受信した音声信号の受信時刻との時間差を求める時間差決定ステップと、
(o)前記時間差と前記受信した音声信号の受信時刻を基に、前記受信した信号の送信時刻を求める送信時刻決定ステップと、
(p)前記求めた時刻を基準として、前記複数の音声信号を加算する音声信号加算ステップと、
(q)前記加算した音声信号の値と所定の制限値とを比較し、前記音声信号の値の方が大きい場合には、該音声信号の値を前記制限値まで低減させる信号制限ステップと、
(r)前記加算ないし制限した音声信号を出力する音声信号出力ステップと、
を含むことを特徴とする。
多数の音声データを単純加算する場合、加算したデータの値が大きくなり過ぎて端末の許容入力値を越え、結果として再生音質を損なう場合がある。そのため、合成データにリミッタを設けることでそのような不具合を防止している。
図1は、本発明の一実施形態に係る音声信号通信システム100の概略図である。この音声信号通信システム100は、3台の端末10、20、30と、IP(InternetProtocol)ネットワーク40とを備える。端末10、20、30は電話、通話機能を有する携帯端末またはコンピュータなどの既存の通話機器で構成され、通話音声を入力部(マイク等)でアナログ信号として取り込み、A/D変換してデジタルデータとしてIPネットワーク40経由で他の端末に出力する送信部と、他の端末からIPネットワーク40経由で入力されたデジタル信号をD/A変換した後にアナログ信号として出力部(スピーカ、ヘッドフォン端子等)から出力する受信部とを備える。また、図1では3台の端末が示されているが、端末の数は2以上の任意の数でよい。IPネットワーク40は上記端末10、20、30を通話可能に相互接続するためのものである。また、このネットワークは無線、有線またはこれらの組み合わせで構成されてよい。
なお、本実施形態において、音声信号通信システム100はセッション確立時または終了時にはSIP(sessioninitiationprotocol)に、音声信号の通信時にはRTP(real-timetransportprotocol)に準拠する。
1つの音声データは複数のパケットに分けて送信されるが、この順序番号は音声データのうち、何番目のパケットであるかを示す情報である。初期値はランダムで、パケットが1つ送られる毎に順序番号が1つ増加する。
[タイムスタンプ]
パケットの最初のバイトのサンプリング時刻を示す情報。本実施形態では受け取ったパケットデータの送信時刻を特定することに使用する。
[同期送信元(SSRC)識別子]
送信元の識別子。受け取ったパケットデータの送信元端末を特定することに使用する。
データ受領部121は、音声データ受信部110(図3参照)から音声データをパケット単位で受け取ると、そのパケットをデータ加算および制限部125に転送する。それと同時に、時計部124にアクセスして現在時刻を取得し、その時刻をそのパケットの受信時刻R1として認識する。さらに、受け取ったパケットがその送信元端末からのセッション確立後の最初のパケットの場合には、そのパケットのRTPベッダ部の情報をヘッダ情報抽出部122に渡す。
ヘッダ情報抽出部122は、データ受領部121から受け取ったRTPヘッダ部の情報から所定の情報(順序番号、タイムスタンプ、同期送信元(SSRC)識別子)を抽出し、その情報を時間差決定部123に送る。
時間差決定部123は、ヘッダ情報抽出部122から送られたRTPヘッダ部の情報(順序番号、タイムスタンプ、同期送信元(SSRC)識別子)を参照し、まず、同期送信元(SSRC)識別子を基にデータ受領部121が受け取ったパケットの送信元を特定し、これを送信元情報とする。次いで、タイムスタンプを基に当該パケットの送信時刻T1を求め、さらに、その送信時刻T1と先に認識した受信時刻R1との時間差Tdを求める。ここで、時間差Td=受信時刻R1−送信時刻T1となる。この時間差Tdは、送信側の端末の信号処理に伴う時間、伝送路の伝搬遅延、ルータにおけるパケットのキューイング遅延などによって決定される。この値は送信元端末および伝送路が同一の場合にはほぼ一定の値となるため、本実施形態ではセッション確立後における送信元端末の最初のパケットについてのみ求めることにする。
時計部124は、データ受領部121に現在時刻を提供する機能要素であり、この現在時刻は受信時刻R1や経過期間Tpを特定するために用いられる。
データ加算および制限部125は、データ受信部121からパケットを受け取ると、まず、ヘッダ情報管理部128にアクセスしてそのパケットの時間差Tdを取得する。そして、先に求めた受信時刻R1とこの時間差Tdから送信時刻T1を求める。そして、受け取ったパケットのペイロード(音声データ)を音声データバッファ部129内の送信時間T1に対応する領域に格納するが、その前に該当する格納領域に既にデータが格納されていないかどうかを確認する。既にデータが格納されている場合には、そのデータと格納すべきデータとを加算してからその領域に格納する。ここで使用される加算方式は単純加算でよい。
図の左側のデータAおよびデータBは、それぞれ異なる送信元の端末からデータ加算および制限部125に入力された音声データの波形である。データAの送信時刻T1はtAであり、データBの送信時刻T1'はtBである。ここで、tAとtBの差は、これらの波形のサンプリング周期の2倍とする。この場合、双方のデータを、それぞれの送信時刻T1とT1'を基準として時間軸上に揃えた状態、すなわち、データBの波形をデータAの波形に対して2サンプル分だけ右にずらした状態で配列し、同一の時刻のサンプル同士を加算する。こうして得られた合成データの波形が右側の波形である。
このように、データ加算および制限部125は時間軸の概念を有し、入力したデータをその送信時刻T1を参照して時間軸上に配列させた状態で加算を行う。
ここで、上限値Thはリミッタの役割を果たし、この上限値Thは例えばPCMデータの有効数値範囲の上限に設定してよい。その場合、ペイロードが8ビットのときは上限値Thが255、16ビットのときは32767に設定される。
データ出力部126は、出力制御信号生成部127より出力制御信号を受け取ると、それに応じて音声データバッファ部129に格納されたデータを読み出し、後段の音声データ出力部(図3参照)に出力する。
データ受領部121からのコマンドに応じて出力制御信号を生成して、データ出力部126に出力する機能要素である。音声データの出力を開始する場合には出力制御信号を生成し、音声データの出力を停止する場合には出力制御信号を停止する。
受信したパケットに関する情報(送信元、順序番号、時間差Td)を記憶および管理するための機能要素であり、レジスタ、メモリ、ハードディスクなどで構成される。
データ加算および制限部125が処理するデータを一時的に格納するための機能要素であり、レジスタ、メモリ、ハードディスクなどで構成される。このバッファ部は専用に用意するか、あるいはデータの揺らぎの補正を行うためのジッタバッファを流用してよい。バッファ部内部の記憶領域は時間軸の概念を備えており、格納したデータはその送信時刻T1に関連付けられて管理される。
当該データ合成処理は、データ加算処理とデータ出力処理の2つの処理に大別される。したがって、これらの処理を順に説明する。なお、図7はデータ加算処理のフローを示し、図8はデータ出力処理のフローを示す。
図7のフロー図を参照して説明する。
まず、図1に示す端末10、20、30がIPネットワーク40に対してセッションを行う。本実施形態の音声信号通信システム100は、図示のように通信制御を行うサーバが存在しないため、各端末は、他の端末に加えて自身の端末に対してもセッションを行う。セッションが確立されることにより、3つの端末は相互に、かつリアルタイムに音声データをやり取りすることが可能となる。
なお、ステップS12〜S15の処理は、ステップS11で「YES」、すなわち、セッション開始後の送信元の端末からの最初のパケットについてのみに行うことに留意されたい。
一方、データが存在しない場合には(ステップS17で「NO」)、ステップS19の手順へ進む。
図8のフロー図を参照して説明する。なお、このデータ出力処理は上述のデータ加算処理と並列して行われることに留意されたい。
まず、セッションが開始すると、受信端末のデータ受領部121は出力制御信号生成部127に出力制御信号を生成させ、データ出力部126に出力動作を開始させる(ステップS50)。データ出力部126は音声データバッファ部129にアクセスして、上述のデータ加算処理においてデータ加算および制限部125が格納したデータを取り出し(ステップS51)、音声データ出力部130(図3参照)に出力する(ステップS52)。
それと同時にデータ受領部121は、定期的に時計部124から現在時刻を入手して最新のパケットを受信してからの経過時間をモニタする(ステップS53)。経過期間が所定の期間Tpの範囲内の場合(ステップS54で「NO」)、以降、上記ステップS51〜S54の手順を繰り返す。
以上が、本発明の一実施形態に係る音声信号通信システム100における音声データの合成処理の一連の手順である。
20 端末
30 端末
40 IPネットワーク
100 音声信号通信システム
120 音声データ合成部
121 データ受領部
122 ヘッダ情報抽出部
123 時間差決定部
124 時計部
125 データ加算および制限部
126 データ出力部
127 出力制御信号生成部
128 ヘッダ情報管理部
129 音声データバッファ部
Claims (6)
- 通信機能を有する複数の端末と、該複数の端末を相互接続するIPネットワークと、を備え、前記複数の端末の間で音声信号のRTP通信が可能な音声信号通信システムであって、
前記複数の端末の受信部はそれぞれ音声合成手段を有し、
前記音声合成手段は、
受信した複数の音声信号のRTPヘッダのタイムスタンプから時刻情報を抽出する情報抽出手段と、
前記抽出した時刻情報と前記受信した音声信号の受信時刻との時間差を求める時間差決定手段と、
前記時間差と前記受信した音声信号の受信時刻を基に、前記受信した音声信号の送信時刻を求める送信時刻決定手段と、
前記求めた送信時刻を基準として、前記複数の音声信号を加算する音声信号加算手段と、
前記加算した音声信号の値と所定の制限値とを比較し、前記音声信号の値の方が大きい場合には、該音声信号の値を前記制限値まで低減させる信号制限手段と、
前記加算ないし低減した音声信号を出力する音声出力手段と、
を備えたことを特徴とする音声信号通信システム。 - IPネットワークを含むRTP通信システムを介して複数の送信元から受信した音声信号をリアルタイムに合成可能な音声合成装置であって、
前記受信した複数の音声信号のRTPヘッダのタイムスタンプから所定の時刻情報を抽出する情報抽出手段と、
前記抽出した時刻情報と前記受信した音声信号の受信時刻との時間差を求める時間差決定手段と、
前記時間差と前記受信した音声信号の受信時刻を基に、前記受信した音声信号の送信時刻を求める送信時刻決定手段と、
前記求めた送信時刻を基準として、前記複数の音声信号を加算する音声信号加算手段と、
前記加算した音声信号の値と所定の制限値とを比較し、前記音声信号の値の方が大きい場合には、該音声信号の値を前記制限値まで低減させる信号制限手段と、
前記加算ないし制限した音声信号を出力する音声出力手段と、
を備えることを特徴とする音声合成装置。 - IPネットワークを含むRTP通信システムを介して複数の送信元から受信した音声信号をリアルタイムに合成する音声合成処理方法であって、
前記受信した複数の音声信号のRTPヘッダのタイムスタンプから時刻情報を抽出する情報抽出ステップと、
前記抽出した時刻情報と前記受信した音声信号の受信時刻との時間差を求める時間差決定ステップと、
前記時間差と前記受信した音声信号の受信時刻を基に、前記受信した音声信号の送信時刻を求める送信時刻決定ステップと、
前記求めた時刻を基準として、前記複数の音声信号を加算する音声信号加算ステップと、
前記加算した音声信号の値と所定の制限値とを比較し、前記音声信号の値の方が大きい場合には、該音声信号の値を前記制限値まで低減させる信号制限ステップと、
前記加算ないし制限した音声信号を出力する音声信号出力ステップと、
を含むことを特徴とする音声合成処理方法。 - 請求項3に記載の音声合成処理方法を行うための電子回路。
- 請求項3に記載の音声合成処理方法をコンピュータに実行させるためのプログラム。
- 請求項5に記載のプログラムを格納したコンピュータ可読媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008258293A JP5210788B2 (ja) | 2008-10-03 | 2008-10-03 | 音声信号通信システム、音声合成装置、音声合成処理方法、音声合成処理プログラム、並びに該プログラムを格納した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008258293A JP5210788B2 (ja) | 2008-10-03 | 2008-10-03 | 音声信号通信システム、音声合成装置、音声合成処理方法、音声合成処理プログラム、並びに該プログラムを格納した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010093328A JP2010093328A (ja) | 2010-04-22 |
JP5210788B2 true JP5210788B2 (ja) | 2013-06-12 |
Family
ID=42255686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008258293A Expired - Fee Related JP5210788B2 (ja) | 2008-10-03 | 2008-10-03 | 音声信号通信システム、音声合成装置、音声合成処理方法、音声合成処理プログラム、並びに該プログラムを格納した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5210788B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6476768B2 (ja) * | 2014-11-07 | 2019-03-06 | 沖電気工業株式会社 | 音声処理装置、プログラム及び方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0870338A (ja) * | 1994-08-30 | 1996-03-12 | Nec Eng Ltd | キー操作式電話機 |
ATE456901T1 (de) * | 2002-04-08 | 2010-02-15 | Eighting Kk | Netzwerk-spielverfahren, netzwerk-spielendgerät und server |
JP2005333446A (ja) * | 2004-05-20 | 2005-12-02 | Nakayo Telecommun Inc | 通信会議システム、通信会議方法、および通信端末 |
JP2006319779A (ja) * | 2005-05-13 | 2006-11-24 | Sumitomo Electric Ind Ltd | テレビ会議制御装置、テレビ会議制御方法およびそのコンピュータ・プログラム |
JP4967575B2 (ja) * | 2006-10-03 | 2012-07-04 | ヤマハ株式会社 | 音声会議装置 |
-
2008
- 2008-10-03 JP JP2008258293A patent/JP5210788B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010093328A (ja) | 2010-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200244796A1 (en) | Transcribing audio communication sessions | |
US11482240B2 (en) | Presentation of communications | |
JP3237566B2 (ja) | 通話方法、音声送信装置及び音声受信装置 | |
US7830862B2 (en) | System and method for modifying speech playout to compensate for transmission delay jitter in a voice over internet protocol (VoIP) network | |
US10069741B2 (en) | Method and device for latency adjustment | |
US20040042601A1 (en) | Method and apparatus to manage a conference | |
US7389093B2 (en) | Call method, call apparatus and call system | |
US20110235632A1 (en) | Method And Apparatus For Performing High-Quality Speech Communication Across Voice Over Internet Protocol (VoIP) Communications Networks | |
EP2603914A2 (en) | Background sound removal for privacy and personalization use | |
US20070177633A1 (en) | Voice speed adjusting system of voice over Internet protocol (VoIP) phone and method therefor | |
JP5210788B2 (ja) | 音声信号通信システム、音声合成装置、音声合成処理方法、音声合成処理プログラム、並びに該プログラムを格納した記録媒体 | |
EP3014833B1 (en) | Methods, network nodes, computer programs and computer program products for managing processing of an audio stream | |
US11425258B2 (en) | Audio conferencing in a room | |
JPH10215331A (ja) | 音声会議システムとその情報端末装置 | |
JP2010512075A (ja) | 呼セッションのための方法、電話システムおよび電話端末 | |
JP4207701B2 (ja) | 通話装置及び通話方法、並びに通話システム | |
JP2005045741A (ja) | 通話装置、通話方法及び通話システム | |
US20090180608A1 (en) | User-controllable equalization for telephony | |
JP6972576B2 (ja) | 通信装置、通信システム、通信方法及びプログラム | |
JP5696514B2 (ja) | メディア通信装置、方法及びプログラム、並びに、メディア通信システム | |
JP2008271415A (ja) | 受信音声出力装置 | |
CN113079267B (zh) | 房间内的音频会议 | |
JP2003023499A (ja) | 会議サーバ装置および会議システム | |
JP2005045737A (ja) | 通話装置及び通話方法、並びに通話システム | |
JP2014060601A (ja) | 電話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110929 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130225 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160301 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5210788 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |