JP2006319598A

JP2006319598A - 音声通信システム

Info

Publication number: JP2006319598A
Application number: JP2005139372A
Authority: JP
Inventors: Toshibumi Sugito; 俊文杉戸
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 2005-05-12
Filing date: 2005-05-12
Publication date: 2006-11-24

Abstract

【目的】伝送データレートが飛躍的に低減された音声通信システムを提供する。
【構成】音声通信システム３０は、音声信号入力手段１と、音声信号Ｓ１の言語情報Ｌの音声認識手段２と、ＬをテキストデータＴに変換する変換手段３と、所定の言語情報Ｌｘの音色データＨｘを抽出する音色データ抽出手段５と、これらを合成して送信データＤ１を生成する合成手段７と、変調・送信する送信手段８と、を有する送信装置１０と、受信データＤ２の復調手段１２と、ＴとＨｘに分離するデータ分離手段１３と、Ｌｘに対する音色データ見本Ｍｘ１、・・Ｍｘｎに各対応させて音色データテーブルＨ１、・・Ｈｎがデータベース化された標準音色データテーブル１４と、Ｈｘに適合するＭｘｎを検索しＨｎを選ぶ音色データテーブル選定手段１５と、ＨｎとＴの音声合成を行いＳ１近似の音声信号Ｓ２を合成する音声合成手段１６と、音声出力手段１７を有する受信装置２０を備える。
【選択図】図１

Description

本発明は、人の話し言葉などの音声信号を送受信する音声通信システムの技術分野に属する。

従来の一般的な音声通信システムでは、図５に示されるフロー図のように、送信装置３１側にて、マイク等の音声入力手段によって音声信号を入力し、可聴範囲以外の信号をカットし、Ａ／Ｄ変換してデジタル化し、各種の圧縮技術によってデジタル音声データを圧縮して圧縮音声データとし、更に変調して、光通信回線、ＡＤＳＬ、ＩＳＤＮ、一般電話回線或いは携帯電話回線をはじめとする各種無線回線などの通信回線を介してデータ送信し、受信装置３２側では、前記通信回線を介して受信された前記圧縮音声データを伸長し、Ｄ／Ａ変換して元の音声信号に復調し、増幅器とスピーカ等からなる音声出力手段で再生・出力する構成が採用されている。

そして、現在までの技術的動向は、音声品質を高品位に保ちながら、如何に多くの圧縮音声データの送受信ができるかという、転送データレートの低減のための圧縮率の向上に努力が払われていた。

ところで、音声信号のデータ処理、音声合成、音声認識及び音声通信システムに関する公知文献の中で、音声データを通信回線を介してそのまま或いは圧縮した音声データとして送受しない他の手段を採用したシステムは見当たらない。尤も、下記［特許文献１］には、電子式録音装置において、録音した本人の声の特性に近い不明瞭な音声より、本人とは違った声の特性でも明瞭で言葉の判別がし易い音声の方が実用的である場合もあるとの着眼から、外部入力した音声データによる音声と、合成する音声を指定する指定データに基づく合成音声とを適宜組み合わせて、音声を出力するという電子式録音装置の構成が示されており、明瞭な合成音声と外部から入力した音声とを結合して出力できたり、異なる特性の合成音声と本人の肉声とを結合して出力したりすることができるとし、さらに、記憶手段に対して、音声合成を指定する指定データを記録し、この指定データによって音声合成手段が音声合成を実行することになり、指定データのデータ容量（ビット数）は実際の合成後の音声データと比較して遥かに少なくて済むとする構成が記載されている。

特開昭６１−１６３３９７号公報

前述のように、従来の音声通信システムにおいては、圧縮率の向上、再現性の維持（高音質）を念頭に前記圧縮音声データ量の低減が図られていた。

しかしながら、圧縮率の向上は限界に近づいてきていると考えられ、既存の方法では飛躍的な転送データレートの低減は望めない。

この点、上記［特許文献１］に記載された電子式録音装置の技術は、例として挙げられているように電子腕時計などの録音機能付電子機器が対象であり、音声通信システムにおける伝送データ量の効率化は射程内にない。また、そのままでの音声通信システムへの転用は困難である。

本発明は上記事情に鑑みてなされたものであり、音声通信システムにおける膨大な圧縮音声データの送受信の負担を軽減する（伝送データレートの低減化）ためになされたものであり、送信装置側で、入力された発声者の音声信号に含まれる言語情報を音声認識手段を介して一旦テキストデータ（文字データ）に変換し、データ量として従来の圧縮音声データに比して非常に少ないデータ量で済むテキストデータの形態で通信回線を介して送信し、受信装置側では、受信された当該テキストデータとその発声者の音色に近似する音色データとを合成して送信側の発声者の元の音声信号に極めて近似する音声に合成して再生するという独創的な新規の音声通信システムを提供することを目的とする。

本発明は、音声信号入力手段１と、入力された音声信号Ｓ１の言語情報Ｌを認識する音声認識手段２と、前記言語情報ＬをテキストデータＴに変換するテキストデータ変換手段３と、前記音声信号Ｓ１における所定の言語情報Ｌｘの音色データＨｘを抽出する音色データ抽出手段５と、前記テキストデータＴ及び前記音色データＨｘを合成して送信データＤ１を生成する送信データ合成手段７と、合成された前記送信データＤ１を変調して通信回線１１を介して送信する送信手段８と、を有する送信装置１０と、前記通信回線１１を介して受信された受信データＤ２を復調する復調手段１２と、復調された前記受信データＤ２から前記テキストデータＴと前記音色データＨｘとを分離するデータ分離手段１３と、前記所定の言語情報Ｌｘに対する複数の音色データ見本Ｍｘ１、Ｍｘ２、・・Ｍｘｎに各々対応させて、言語情報の各音色データを備えた音色データテーブルＨ１、Ｈ２、・・Ｈｎがデータベース化された標準音色データテーブル１４と、前記受信データＤ２から得られた前記音色データＨｘに適合する音色データ見本Ｍｘｎを前記標準音色データテーブル１４から検索して、前記音色データ見本Ｍｘｎに対応する音色データテーブルＨｎを選定する音色データテーブル選定手段１５と、選定された前記音色データテーブルＨｎの音色データと前記テキストデータＴとの音声合成を行い、前記送信装置に入力された元の音声信号Ｓ１に近似する音声信号Ｓ２を合成する音声合成手段１６と、音声合成された前記音声信号Ｓ２を出力する音声出力手段１７と、を有する受信装置２０と、を備えることを特徴とする音声通信システム３０、を提供することにより上記課題を解決する。

本発明に係る音声通信システムは上記のような構成のため、音声品質を高品位に保ちながら、伝送データレートを飛躍的に低く抑えることができる。

本発明に係る音声通信システムの実施の形態について図面に基づいて説明する。

図１は本発明に係る音声通信システムの構成図である。図２は本発明に係る音声通信システムにおける音声信号の処理のフロー図である。図３は標準音色データテーブルのデータベースの例を説明するための構造図である。図４は本発明に係る音声通信システムの受信装置における音声信号の音色データを標準音色データテーブルから抽出する処理を説明するためのフロー図である。

図１に示される本発明に係る音声通信システム３０は、マイク等の一般的な入力装置を用いた音声信号入力手段１と、入力された音声信号Ｓ１の言語情報Ｌを認識する音声認識手段２と、前記言語情報ＬをテキストデータＴに変換してメモリ装置４に保存するテキストデータ変換手段３と、前記音声信号Ｓ１における所定の言語情報Ｌｘの音色データＨｘを抽出してメモリ装置６に保存する音色データ抽出手段５と、前記テキストデータＴ及び前記音色データＨｘを合成して送信データＤ１を生成する送信データ合成手段７と、合成された前記送信データＤ１を変調して通信回線１１（光通信回線、ＡＤＳＬ、ＩＳＤＮ、一般電話回線或いは携帯電話回線など）を介して送信する送信手段８と、を有する送信装置１０と、前記通信回線１１を介して受信された受信データＤ２を復調する復調手段１２と、復調された前記受信データＤ２から前記テキストデータＴと前記音色データＨｘとを分離するデータ分離手段１３と、前記所定の言語情報Ｌｘに対する複数の音色データ見本Ｍｘ１、Ｍｘ２、Ｍｘ３、・・Ｍｘｎに各々対応させて、言語情報の各音色データを備えた音色データテーブルＨ１、Ｈ２、Ｈ３、・・Ｈｎがデータベース化された標準音色データテーブル１４と、前記受信データＤ２から得られた前記音色データＨｘに適合する音色データ見本Ｍｘｎを前記標準音色データテーブル１４から検索して、前記音色データ見本Ｍｘｎに対応する音色データテーブルＨｎを選定する音色データテーブル選定手段１５と、選定された前記音色データテーブルＨｎの音色データと前記テキストデータＴとの音声合成を行い、前記送信装置１０に入力された元の音声信号Ｓ１に近似する音声信号Ｓ２を合成する音声合成手段１６と、音声合成された前記音声信号Ｓ２を出力する音声出力手段１７と、を有する受信装置２０と、を備える構成である。

即ち、本発明の要諦は、図２のフロー図に示されるように、音声データの送受信を行う通信システムであって、送信装置１０側の発声者の音声信号のデータそのものを従来のようにデジタル化して圧縮し、圧縮デジタル音声信号として送信するのではなく、送信装置１０は、発声者の音声信号Ｓ１に含まれる言語情報Ｌを認識して文字レベルで抽出してテキストデータＴとして発声者の所定の言語情報Ｌｘの音色データＨｘとともに送信し、受信装置２０は、人の言語音声の基本周波数特性の特徴に応じて多数の音色データテーブルＨｎ（ｎ＝１，２，・・）を予め標準化してデータベースとして用意しておき、受信した送信装置１０側の発声者の所定の言語情報Ｌｘの音色データＨｘに近似する音色データ見本Ｍｘｎの音色データテーブルＨｎを選定して、復調時に受信したテキストデータＴと選定した発声者の言語音声に近似する前記音色データテーブルＨｎの音色データとの音声合成を行うことによって、元の発声者の音声に極めて近似する音声で再生するようにして、文字データ（テキストデータＴ）を伝送データとした極めて少ない伝送データレートで、且つ高品質の音声通信を実現するものである。

図１の送信装置１０における前記音声認識手段２は、前記［特許文献１］などに記載されている公知の音声認識技術がそのまま適用でき、また、認識された言語情報をテキストデータＴに変換するテキストデータ変換手段３も既存のソフトウェアが適用できる。また、前記メモリ装置４、６は例えばＤＲＡＭであり、マイクロコンピュータに内臓または外付けのＤＲＡＭチップが用いられる。また、前記送信データ合成手段７は従来の圧縮データ音声の通信フォーマットがほぼそのまま適用することができる。更に、前記送信手段８は用いられる前記通信回線１１に応じて適宜選択されることは言うまでもない。

次に、前記音声信号Ｓ１における所定の言語情報Ｌｘの音色データＨｘを抽出してメモリ装置６に保存する音色データ抽出手段５は、例えば、送信の初めに発声者が予め定められている言語情報Ｌｘとして「あ」の文字を発声し、その音色データＨｘ（基本周波数特性）を取り込み、デジタル化して前記メモリ装置６に記録することでなされる。或いは図１の破線矢印で示されるように、前記音声認識手段２で認識された発声者の言語情報Ｌの中から所定の言語情報Ｌｘとして「あ」の音声を抽出してその音色データＨｘを取り込むこともできる。

なお、所定の言語情報Ｌｘは「あ」などの単文字以外に、「あおい」などの数文字の単語を採用してもよく、更には、「あおい影を」或いは「あ、本日は晴天なり。」といった通常使用する話し言葉の代表的な文節、文章として、その全体の発音の基本周波数特性を音色データＨｘとして取り込んでもよい。

次に、図１の受信装置２０における前記復調手段１２は従来の復調回路技術がそのまま適用できる。また、前記テキストデータＴと前記音色データＨｘを分離するデータ分離手段１３については、前記通信回線１１の通信フォーマットに従ったデータフォーマットであれば、そのアドレス管理などによって容易に分離できることは言うまでもない。

次に、例えば、人の「あ」の言語音声の基本周波数特性の特徴に応じて多数の音色データテーブルＨｎ（ｎ＝１，２，・・）を予めデータベース化した標準音色データテーブル１４は、図３に示されるように、番号１、２、３・・を付した音色データ見本Ｍｘ１、Ｍｘ２、・・Ｍｘｎとそれに各々対応する「あ」から「ん」までの５０音の音色データで構成される音色データテーブルＨ１、Ｈ２、Ｈ３、・・Ｈｎからなる。

前記音色データＨｘと前記音色データ見本Ｍｘｎ（ｎ＝１，２，・・）は「あ」の発音波形の基本周波数特性をデジタル化した情報となっており、４Ｂｙｔｅ＝３２ｂｉｔ程度のデータ量である。

また、音色データ見本Ｍｘ１、Ｍｘ２、・・Ｍｘｎに各々対応する「あ」から「ん」までの５０音の音色データ（デジタル）で構成される音色データテーブルＨ１、Ｈ２、Ｈ３、・・Ｈｎの数は考えうる場合の数存在してもよく、代表的な１００種程度の音色データの音色データテーブルＨ１、Ｈ２、Ｈ３、・・Ｈ１００（標準音声１００人分）をデータベース化してもよい。また、家族間の通信に用途が限定可能な場合は、当該限られた複数の発声者の５０音の各音色データ（デジタル）を予め受信装置２０側で取得して各人の音色データテーブルＨ１、Ｈ２、Ｈ３、・・をデータベース化してもよい。この場合は受信装置２０の再生音声は本人自身の音色データで音色データテーブルが構成されていることから違和感の少ない高音質の再生音声が得られる。

本発明者の試算によれば、前記音声通信システム３０による伝送データレートは、従来技術の最高レベルの圧縮率による圧縮音声データの伝送データレートに比して１０倍以上の低減が可能である。

本発明に係る音声通信システムの構成図である。本発明に係る音声通信システムにおける音声信号の処理のフロー図である。標準音色データテーブルのデータベースの例を説明するための構造図である。本発明に係る音声通信システムの受信装置における音声信号の音色データを標準音色データテーブルから抽出する処理を説明するためのフロー図である。従来の一般的な音声通信システムの音声信号処理のフロー図である。

符号の説明

１音声信号入力手段
２音声認識手段
３テキストデータ変換手段
４、６メモリ装置
５音色データ抽出手段
７送信データ合成手段
８送信手段
１０送信装置
１１通信回線
１２復調手段
１３データ分離手段
１４、１４ｘ標準音色データテーブル
１５標準音色データテーブル選定手段
１６音声合成手段
１７音声出力手段
２０受信装置
３０音声通信システム
Ｌ言語情報
Ｌｘ所定の言語情報
ＨｘＬｘの音色データ
Ｈ１、Ｈ２、Ｈ３、Ｈｎ音色データテーブル
Ｓ１、Ｓ２音声信号
Ｔテキストデータ
Ｄ１送信データ
Ｄ２受信データ
Ｍｘ１、Ｍｘ２、・・Ｍｘｎ音色データ見本

Claims

音声信号入力手段と、
入力された音声信号の言語情報を認識する音声認識手段と、
前記言語情報をテキストデータに変換するテキストデータ変換手段と、
前記音声信号における所定の言語情報の音色データを抽出する音色データ抽出手段と、
前記テキストデータ及び前記音色データを合成して送信データを生成する送信データ合成手段と、
合成された前記送信データを変調して通信回線を介して送信する送信手段と、を有する送信装置と、
前記通信回線を介して受信された受信データを復調する復調手段と、
復調された前記受信データから前記テキストデータと前記音色データとを分離するデータ分離手段と、
前記所定の言語情報に対する複数の音色データ見本に各々対応させて、言語情報の各音色データを備えた音色データテーブルがデータベース化された標準音色データテーブルと、
前記受信データから得られた前記音色データに適合する音色データ見本を前記標準音色データテーブルから検索して、前記音色データ見本に対応する音色データテーブルを選定する音色データテーブル選定手段と、
選定された前記音色データテーブルの音色データと前記テキストデータとの音声合成を行い、前記送信装置に入力された元の音声信号に近似する音声信号を合成する音声合成手段と、
音声合成された前記音声信号を出力する音声出力手段と、を有する受信装置と、を備えることを特徴とする音声通信システム。