JP3947871B2

JP3947871B2 - 音声データ送受信方式

Info

Publication number: JP3947871B2
Application number: JP2002349621A
Authority: JP
Inventors: 亮一越智; 佳和小林
Original assignee: NEC Platforms Ltd
Current assignee: NEC Platforms Ltd
Priority date: 2002-12-02
Filing date: 2002-12-02
Publication date: 2007-07-25
Anticipated expiration: 2022-12-02
Also published as: US7839893B2; JP2004186860A; US20040105464A1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声データ送受信方式に関し、例えば、インターネット等の非ＱｏＳ保証ネットワーク等の通信経路を経由した音声通信における意味情報を確保した音声データ送受信方式に関する。
【０００２】
【従来の技術】
国境を越え、全世界で共通利用されているインターネットは、ホームページ閲覧、電子メール、ファイル転送のような従来からのアプリケーション以外に電子商取引やインターネット電話（ＩＰ電話：インターネットプロトコル電話）が注目を浴びている。これは、電話網における回線交換を中心とするネットワークだけでなく、パケット交換によるＩＰネットワークの急激な進展が大きな原因となっている。
【０００３】
ＩＰ電話通信は、音声（又はＦＡＸ）データを含む各種データ（静止画、動画、データ等）をＩＰパケットに変換し、ＩＰベースのネットワーク内を転送する通信であり、ネットワークの一部または全部においてＩＰネットワーク技術を利用した音声電話サービスがＩＰ電話、ＩＰ電話のうちｗｗｗ等のアプリケーションに利用されているものと同じＩＰネットワーク（インターネットプロトコルにより通信を行う通信網）を利用するものがインターネット電話とされている。
【０００４】
ＩＰ電話には、次のような３つの方式がある。第１の方式は、インターネット上にダイヤルアップ接続したパソコン間で音声メッセージをやり取りする両パソコンにはそのための同じソフトウエアをインストールし、同時にパソコンがサーバに接続されている必要がある。また、第２の方式は、パソコンから一般加入電話機に電話をかける（逆は不可）予め双方で約束しておかないと通話ができない。更に、第３の方式は、一般加入電話機間の通話を行なうインターネット網と公衆回線交換機との接続点にインターネット電話用ゲートウエイ経由でユーザＩＤとＰＩＮを入力して通信する方式と、インターネット直結型端末による通信があり、現在の電話通信方式に最も近く、その技術的進展は著しいものがある。
【０００５】
一方、狭帯域で多くの音声情報を送信する方式として、入力音声を音声認識により文字データに変換し、得られた文字データをパケット化して送信し、受信側では、受信した文字データを音声データに変換し、更に音声合成した後に音声出力することにより、送信データ量を格段に少なくして通信遅延を避けた方式が提案されている（例えば、特許文献１参照）。しかし、この方式は、送信データ量の低減効果はあるものの、あくまでも文字データ伝送であるため、合成音声は一律的な音声で、会話者の音声とは異なる。
【０００６】
【特許文献１】
特開平１０−２８５２７５号公報（第４〜５頁、図１）
【０００７】
【発明が解決しようとする課題】
ところで、通信品質ＱｏＳ（Quality of Service）が保証されないインターネットやローカルネットワーク等のＩＰネットワークを介したＩＰによる音声通信においては、ＵＤＰプロトコルのＲＴＰを用いた音声データの送受信が一般的である。このとき、音声通話や動画再生はデータのリアルタイム性を重要視してＲＴＰを用いているが、ＲＴＰは通信経路で発生するパケットロスに対する対処が無く、途中で失われたパケットは再送されず、音声の途切れ等、音声品質に問題がある。
【０００８】
この問題に対処するため、従来は、パケットがロスしても音声が途切れないように前後のパケットデータも付加して送信し、これらデータに基づく補間処理を行う方式が提案されている。しかしながら、音声以外のデータ通信が頻繁に流れている環境においては、音声パケットのロスが著しく、補間を用いても音声品質の劣化が大きすぎ、したがって、会話の意味を認識できない場合も生ずる。
【０００９】
以上のように、パケット送信によるリアルタイム音声通信は、通信経路の環境の悪化によってＲＴＰの欠除が起こり音声の虫食いが発生するため、これまでは通信環境が良い時にしか満足な通信を行えなかった。
【００１０】
そこで、本発明の目的は、通信経路環境が劣化しても会話の意味を認識可能な音声データ送受信方式を提供することにある。
【００１１】
本発明の目的は、通信経路に起因するパケットの欠落があっても会話の意味を認識可能な音声データ送受信方式を提供することにある。
【００１２】
【課題を解決するための手段】
前述の課題を解決するため、本発明による音声データ送受信方式は、次のような特徴的な構成を採用している。
【００１３】
（１）送信側では、
入力音声データに基づいてリアルタイム通信パケットのＲＴＰ音声データを生成する第１の生成手段と、
前記第１の生成手段で生成された前記入力音声データを文節単位に区分けする区分け手段と、
前記区分け手段で得られた前記文節単位の複数のＲＴＰ音声データを結合し、まとめて一つのパケットデータとして生成する第２の生成手段と、
前記第２の生成手段で得られたデータをファイル化したデータとして生成する第３の生成手段と、
通信状態を監視する監視手段と、
前記監視手段で得られた通信状態に応じて、通常時は前記第１の生成手段で得られたデータを通信経路に伝送し、通信状態の悪化時が前記第２の生成手段で得られたデータを通信経路に伝送し、通信状態の更なる悪化時には前記第３の生成手段で得られたデータを通信経路に伝送し、
受信側では、
前記通信経路を介して受信したＲＴＰ音声データを復元し、パケット化された受信データをパケット分割し文節単位のパケットデータを得て一文節と区別された複数のＲＴＰを復元し、また前記ファイル化されたデータをそれぞれ復元して音声データを音声出力する音声データ送受信方式。
【００１４】
（２）前記受信側では、受信ファイルデータに基づいて受信データの欠落を認識して再送依頼を送出するか、受信データの補間処理を実行する上記（１）の音声データ送受信方式。
【００１５】
（３）前記送信側から送出するファイル化データには、識別情報が付与されている上記（１）の音声データ送受信方式。
【００１６】
（４）前記受信では、受信ファイルデータから前記識別情報に基づいて送信側のデータを取り出す上記（１）の音声データ送受信方式。
【００１７】
（５）前記音声の文節の区別は、音声認識により行われる上記（１）の音声データ送受信方式。
【００１８】
（６）前記音声の文節の区別は、外部からの指示により行われる上記（１）の音声データ送受信方式。
【００１９】
（７）前記音声の文節の区別は、入力音声の音量レベルに基づいて行われる上記（１）の音声データ送受信方式。
【００２０】
（８）前記音声の文節の区別は、入力音声の高さレベルの変化に基づいて行われる上記（１）の音声データ送受信方式。
【００２１】
（９）前記音声の文節の区別は、計測されたユーザの唇の動きに基づいて行われる上記（１）の音声データ送受信方式。
【００２２】
（１０）前記音声の文節の区別は、計測されたユーザの喉の振動に基づいて行われる上記（１）の音声データ送受信方式。
【００２７】
【発明の実施の形態】
以下、本発明による音声データ送受信方式の好適実施形態例について添付図を参照して説明する。図１は本発明による音声データ送受信方式の第1の実施形態例を示すシステム構成図である。
【００２８】
本実施形態では、送信側には、通信端末１１、音声認識装置１２及びパケット結合装置１３を備え、送信側とインターネット等の通信経路を介して接続されている受信側には、パケット分割装置２１及び通信端末２２を備える。勿論、各ユーザは、会話のために送信機能と受信機能の両機能を有するが、ここでの説明は、送信側と受信側を別に行う。
【００２９】
送信側においては、ユーザの発声した音声入力は、マイク等の音声入力装置により音声データとして通信端末１１で処理される。受信側の通信端末２２で音声処理された音声はスピーカ等の音声出力装置を介して音声出力される。
【００３０】
送信側の通信端末１１は、入力音声データに基づいてリアルタイム通信パケット（以後、ＲＴＰと称する）を生成する。音声認識装置１２は、通信端末１１から音声データを受信し、音声認識処理を実行して音声を文節単位に区分けする。パケット結合装置１３は、こうして音声認識装置１２で文節単位の複数のＲＴＰ音声データを結合し、まとめて一つのパケットデータとして通信経路にデータ伝送する。パケット結合装置１３は、また上記文節単位のＲＴＰデータをそのまま送信しても良い。
【００３１】
通信経路を介して受信したパケット化された受信データは、受信側のパケット分割装置２１でパケット分割されて文節単位のパケットデータＲＴＰが得られ、一文節と区別された複数のＲＴＰを復元する。通信端末２２は、パケット分割装置２１から受信した複数のＲＴＰに基づいて送信側の音声データを生成してスピーカから音声出力する。
【００３２】
以上のように、本実施形態では、音声文章の意味をもつ区切りとしての文節単位を識別し、識別された文節単位でのリアルタイム通信パケットで送受信しているので、通信回線の劣化等に起因する通信環境が悪化して通信系路上でのパケットの欠落が生じても文節毎の意味は伝達でき確実な情報伝達が可能となる。
【００３３】
図２は本発明による音声データ送受信方式の第２の実施形態例を示すシステム構成図である。図２において、図１と同じ参照符号を付与された構成部は同様な機能を有する構成部である。
【００３４】
本実施形態では、送信側には、通信端末１１、音声認識装置１２、パケット結合装置１３及びファイル化装置１４を備え、送信側とインターネット等の通信経路を介して接続されている受信側には、パケット分割装置２１、通信端末２２及びファイル受信装置２３を備える。
【００３５】
送信側の通信端末１１は、入力音声データに基づいてＲＴＰを生成する。音声認識装置１２により、通信端末１１から音声データに対して音声認識処理を実行して音声を文節単位に区分けし、パケット結合装置１３により、文節単位の複数のＲＴＰ音声データを結合して一つのパケットデータとしてファイル化装置１４に送出する。ファイル化装置１４は、受信したパケットをファイル化して通信経路に伝送する。
【００３６】
通信経路を介して受信したファイルデータは、受信側のファイル受信装置２３で、パケットデータとしてパケット分割装置２１に送出する。ファイル受信装置２３は、また、受信したファイルデータから受信データの欠落を認識してデータの再送依頼を送信側に送出したり、受信データに補間処理を施してデータの欠落を防止する。
【００３７】
パケット分割装置２１は、ファイル受信装置２３から受信したデータをパケット分割し、文節単位のパケットデータＲＴＰを得て、一文節と区別された複数のＲＴＰを復元する。通信端末２２は、パケット分割装置２１から受信した複数のＲＴＰに基づいて送信側の音声データを生成してスピーカから音声出力する。
【００３８】
以上の第２の実施形態では、第１の実施形態のような通信回線の劣化等に起因する通信環境が悪化して通信系路上でのパケットの欠落が生じても文節毎の意味は伝達でき確実な情報伝達が可能となるだけでなく、ファイル受信装置２３が受信したファイルデータに基づいて受信データの欠落を認識してデータの再送依頼を出したり、受信データ補間処理によるデータ欠落を防止できるという効果も奏する。
【００３９】
次に、本発明による音声データ送受信方式の第３の実施形態を図３のシステム構成図を参照して説明する。図３において、図２と同じ参照符号を付与された構成部は同様な機能を有する構成部である。
【００４０】
本実施形態の構成と動作は基本的に図２に示す第２の実施形態と同様である。本実施形態は、ファイアウォール２４が通信経路と受信側に存在する場合に効果が大きい。本実施形態では、ファイル化装置１４が、ファイルデータを、一般的に開放されているＨＴＴＰ、ＦＴＰ等のポートを利用して送信し、他のファイルと区別するためにファイル化後に識別情報を付与する。
【００４１】
インターネット等の通信経路を介して接続されている受信側のファイル受信装置２３は、受信したファイル全部から識別情報を元にファイル化装置１４が送信したファイルを取り出してパケット分割装置２１に送出する。ファイル受信装置２３は、上記と同様に、受信データの欠落を認識してデータ再送の指示を出したり、受信データの補間処理を施してデータの欠落を防止する。
【００４２】
この第３の実施形態では、第１と第２の実施形態のような通信回線の劣化等に起因する通信環境が悪化して通信系路上でのパケットの欠落が生じても文節毎の意味は伝達でき確実な情報伝達が可能となる効果、受信ファイルデータに基づく受信データ欠落の認識によるデータの再送処理や受信データ補間処理によるデータ欠落の防止効果に加えて、ファイアウォール越えの通信端末との通信が可能になるという効果も奏することができる。
【００４３】
以下に説明する本発明の更に他の実施形態は、音声の文節を区別（識別）する方式についての種々の形態である。
【００４４】
本発明の第４の実施形態は、手動で文節区切りを示す信号を出力するものであり、手動で文節区切りの信号を送る装置を用いることにより、必要な区切りを人の判断で入力することができる。
【００４５】
この実施形態によれば、如何なる環境下でも区切り情報を入力できるため、音声に限らず、音楽、連続音を送信する場合に用いることができるだけでなく、画像などの他のＲＴＰ通信にも用いることができる。
【００４６】
本発明の第５の実施形態は、音声の文節区切りを計測した入力音量に基づいて決定するものである。すなわち、入力された音量を計測し、そのレベルが特定の値まで下がった時を区切りと判断する。この場合の特定の値とは発言が途切れた際の雑音レベルとすることができる。
【００４７】
本実施形態によれば、発言中の自然な区切りで自動的に文節を区切ることができる。
【００４８】
本発明の第６の実施形態は、音声の文節区切りを、計測された入力音の高さに基づいて決定するものである。すなわち、入力された音の高さを計測し、そのレベルが一定以上の落差を生じた時を区切りと判断する。
【００４９】
本実施形態によれば、背景の雑音が大きくとも自動的に発言の区切りを識別することができる。
【００５０】
本発明の第７の実施形態は、音声の文節区切りを、音声入力中の人物の顔を画像計測し、唇の動きに基づいて決定するものである。すなわち、音声入力中の人物の顔を画像計測し、唇の動きが停滞した時を区切りと判断する。
【００５１】
本実施形態によれば、音声処理とは異なる機構で区切りの判断が行えるため、適切な音声識別装置がなくとも自動的に区切りの識別が行える。
【００５２】
本発明の第８の実施形態は、音声の文節区切りを、計測された喉の振動に基づいて決定するものである。すなわち、喉の振動を計測し、振動が止んだ時を区切りと判断する。
【００５３】
本実施形態によれば、音声処理とは異なる機構で区切りの判断が行えるため、適切な音声識別装置がなくとも自動的に区切りの識別が行える。また、音声の音量が極端に小さい場合にも用いることができる。
【００５４】
本発明の第９の実施形態は、音声の文節区切りを、音声の文章としての識別、解析手法に基づいて決定するものである。すなわち、音声を文章として解析し、適切な区切りを判断する。音声の文章への解析技術は公知の技術を用いることがきる。
【００５５】
本実施形態によれば、上述の手法を利用できない環境下、例えば平坦で長く連続した音声に対しても、意味から区切りを自動的に判断することができる。
【００５６】
次に本発明の第１０の実施形態について説明する。
本実施形態は、送信側（または受信側）に設置され、通信状況を観測して送受信両方の通信端末に通信の最適な手段の通達を行うものである。
【００５７】
図４には本実施形態の構成ブロック図が示されている。
本実施形態は、通信の開始、終了を感知する送受信監視装置３１と、通信時間を累算する通信時間記憶部３２と、送信または受信の完了したデータ量を累算する通信量記憶部３３と、通信手段切り替えの基準値とそれぞれの通信手段を保持する基準値、対応手段記憶部３４と、通信時間記憶部３２と通信量記憶部３３から時間あたり通信量を計算し、基準値、対応手段記憶部３４に記憶された基準と比較し、適切な通信手段を判別する比較演算装置３５と、比較演算装置３５から通信手段を受け取り、その切り替え命令を行う通信手段通達装置３６を備える。
【００５８】
本実施形態の動作を図５を参照して説明する。
通信が行われると送受信監視装置３１が通信開始を感知し、通信時間記憶部３２と通信量記憶部３３にそれぞれの累算を開始させる。通信時間記憶部３２が一定時間経過を感知するごとに通信量記憶部３３のデータ量と共に記憶値を比較演算装置３５に送り、同時に通信時間記憶部３２、通信量記憶部３３共に累積値を消去する。比較演算装置３５は通信時間記憶部３２と通信量記憶部３３から送られた情報から時間あたり通信量を算出し、結果を基準値、対応手段記憶部３４に記憶されている基準値と比較して、対応した通信手段を通信手段通達装置３６に送出する。通信手段通達装置３６は、選択された手段の切り替え命令を通信端末に通達する。また、通信が終了した際には送受信監視装置３１がそれを感知し、通信時間記憶部３２と通信量記憶部３３に累算の終了と記憶値の消去を通知する。このように、本実施形態では、送信側と受信側との間の単位時間あたりの通信量に基づいて上記いずれかの方式を選択することができる。
【００５９】
本実施形態によれば、送受信通信端末は通信経路の環境に合わせて最適な通信手段で通信を行うことができる。通信手段として例えば挙げられるのは、通常時がＲＴＰ通信、経路環境の悪化時が文節区切りパケット通信、経路環境が更に悪化した際にはファイル化通信を選択する、などとする。
【００６０】
以上、本発明の好適実施形態の構成および動作を詳述した。しかし、斯かる実施形態は、本発明の単なる例示に過ぎず、何ら本発明を限定するものではない。本発明の要旨を逸脱することなく、特定用途に応じて種々の変形変更が可能であること、当業者には容易に理解できよう。
【００６１】
【発明の効果】
以上説明したように、本発明の音声データ送受信方式によれば、通信回線の劣化等に起因する通信環境が悪化して通信系路上でのパケットの欠落が生じても文節毎の意味は伝達でき確実な情報伝達が可能となるだけでなく、受信したファイルデータに基づいて受信データの欠落を認識してデータの再送依頼を出したり、受信データ補間処理によるデータ欠落を防止でき、ファイアウォール越えの通信端末との通信が可能になるという効果を奏することができる。
【００６２】
また、送受信通信端末は通信経路の環境に合わせて最適な通信手段で通信を行うことができる。
【図面の簡単な説明】
【図１】本発明による音声データ送受信方式の第１の実施形態例を示すシステム構成図である。
【図２】本発明による音声データ送受信方式の第２の実施形態例を示すシステム構成図である。
【図３】本発明による音声データ送受信方式の第３の実施形態例を示すシステム構成図である。
【図４】本発明による音声データ送受信方式の第１０の実施形態例を示すシステム構成図である。
【図５】図４に示す実施形態の動作を説明するための図である。
【符号の説明】
１１、２２通信端末
１２音声認識装置
１３パケット結合装置
１４ファイル化装置
２１パケット分割装置
２３ファイル受信装置
２４ファイアウォール
３１送受信監視装置
３２通信時間記憶部
３３通信量記憶部
３４基準値、対応手段記憶部
３５比較演算装置
３６通信手段通達装置

Claims

送信側では、
入力音声データに基づいてリアルタイム通信パケットのＲＴＰ音声データを生成する第１の生成手段と、
前記第１の生成手段で生成された前記入力音声データを文節単位に区分けする区分け手段と、
前記区分け手段で得られた前記文節単位の複数のＲＴＰ音声データを結合し、まとめて一つのパケットデータとして生成する第２の生成手段と、
前記第２の生成手段で得られたデータをファイル化したデータとして生成する第３の生成手段と、
通信状態を監視する監視手段と、
前記監視手段で得られた通信状態に応じて、通常時は前記第１の生成手段で得られたデータを通信経路に伝送し、通信状態の悪化時が前記第２の生成手段で得られたデータを通信経路に伝送し、通信状態の更なる悪化時には前記第３の生成手段で得られたデータを通信経路に伝送し、
受信側では、
前記通信経路を介して受信したＲＴＰ音声データを復元し、パケット化された受信データをパケット分割し文節単位のパケットデータを得て一文節と区別された複数のＲＴＰを復元し、また前記ファイル化されたデータをそれぞれ復元して音声データを音声出力することを特徴とする音声データ送受信方式。
前記受信側では、受信ファイルデータに基づいて受信データの欠落を認識して再送依頼を送出するか、受信データの補間処理を実行することを特徴とする請求項１に記載の音声データ送受信方式。
前記送信側から送出するファイル化データには、識別情報が付与されていることを特徴とする請求項１に記載の音声データ送受信方式。
前記受信では、受信ファイルデータから前記識別情報に基づいて送信側のデータを取り出すことを特徴とする請求項１に記載の音声データ送受信方式。
前記音声の文節の区別は、音声認識により行われることを特徴とする請求項１に記載の音声データ送受信方式。
前記音声の文節の区別は、外部からの指示により行われることを特徴とする請求項１に記載の音声データ送受信方式。
前記音声の文節の区別は、入力音声の音量レベルに基づいて行われることを特徴とする請求項１に記載の音声データ送受信方式。
前記音声の文節の区別は、入力音声の高さレベルの変化に基づいて行われることを特徴とする請求項１に記載の音声データ送受信方式。
前記音声の文節の区別は、計測されたユーザの唇の動きに基づいて行われることを特徴とする請求項１に記載の音声データ送受信方式。
前記音声の文節の区別は、計測されたユーザの喉の振動に基づいて行われることを特徴とする請求項１に記載の音声データ送受信方式。