JP2006319598A - 音声通信システム - Google Patents
音声通信システム Download PDFInfo
- Publication number
- JP2006319598A JP2006319598A JP2005139372A JP2005139372A JP2006319598A JP 2006319598 A JP2006319598 A JP 2006319598A JP 2005139372 A JP2005139372 A JP 2005139372A JP 2005139372 A JP2005139372 A JP 2005139372A JP 2006319598 A JP2006319598 A JP 2006319598A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- timbre
- timbre data
- language information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
【目的】伝送データレートが飛躍的に低減された音声通信システムを提供する。
【構成】音声通信システム30は、音声信号入力手段1と、音声信号S1の言語情報Lの音声認識手段2と、LをテキストデータTに変換する変換手段3と、所定の言語情報Lxの音色データHxを抽出する音色データ抽出手段5と、これらを合成して送信データD1を生成する合成手段7と、変調・送信する送信手段8と、を有する送信装置10と、受信データD2の復調手段12と、TとHxに分離するデータ分離手段13と、Lxに対する音色データ見本Mx1、・・Mxnに各対応させて音色データテーブルH1、・・Hnがデータベース化された標準音色データテーブル14と、Hxに適合するMxnを検索しHnを選ぶ音色データテーブル選定手段15と、HnとTの音声合成を行いS1近似の音声信号S2を合成する音声合成手段16と、音声出力手段17を有する受信装置20を備える。
【選択図】 図1
【構成】音声通信システム30は、音声信号入力手段1と、音声信号S1の言語情報Lの音声認識手段2と、LをテキストデータTに変換する変換手段3と、所定の言語情報Lxの音色データHxを抽出する音色データ抽出手段5と、これらを合成して送信データD1を生成する合成手段7と、変調・送信する送信手段8と、を有する送信装置10と、受信データD2の復調手段12と、TとHxに分離するデータ分離手段13と、Lxに対する音色データ見本Mx1、・・Mxnに各対応させて音色データテーブルH1、・・Hnがデータベース化された標準音色データテーブル14と、Hxに適合するMxnを検索しHnを選ぶ音色データテーブル選定手段15と、HnとTの音声合成を行いS1近似の音声信号S2を合成する音声合成手段16と、音声出力手段17を有する受信装置20を備える。
【選択図】 図1
Description
本発明は、人の話し言葉などの音声信号を送受信する音声通信システムの技術分野に属する。
従来の一般的な音声通信システムでは、図5に示されるフロー図のように、送信装置31側にて、マイク等の音声入力手段によって音声信号を入力し、可聴範囲以外の信号をカットし、A/D変換してデジタル化し、各種の圧縮技術によってデジタル音声データを圧縮して圧縮音声データとし、更に変調して、光通信回線、ADSL、ISDN、一般電話回線或いは携帯電話回線をはじめとする各種無線回線などの通信回線を介してデータ送信し、受信装置32側では、前記通信回線を介して受信された前記圧縮音声データを伸長し、D/A変換して元の音声信号に復調し、増幅器とスピーカ等からなる音声出力手段で再生・出力する構成が採用されている。
そして、現在までの技術的動向は、音声品質を高品位に保ちながら、如何に多くの圧縮音声データの送受信ができるかという、転送データレートの低減のための圧縮率の向上に努力が払われていた。
ところで、音声信号のデータ処理、音声合成、音声認識及び音声通信システムに関する公知文献の中で、音声データを通信回線を介してそのまま或いは圧縮した音声データとして送受しない他の手段を採用したシステムは見当たらない。尤も、下記[特許文献1]には、電子式録音装置において、録音した本人の声の特性に近い不明瞭な音声より、本人とは違った声の特性でも明瞭で言葉の判別がし易い音声の方が実用的である場合もあるとの着眼から、外部入力した音声データによる音声と、合成する音声を指定する指定データに基づく合成音声とを適宜組み合わせて、音声を出力するという電子式録音装置の構成が示されており、明瞭な合成音声と外部から入力した音声とを結合して出力できたり、異なる特性の合成音声と本人の肉声とを結合して出力したりすることができるとし、さらに、記憶手段に対して、音声合成を指定する指定データを記録し、この指定データによって音声合成手段が音声合成を実行することになり、指定データのデータ容量(ビット数)は実際の合成後の音声データと比較して遥かに少なくて済むとする構成が記載されている。
前述のように、従来の音声通信システムにおいては、圧縮率の向上、再現性の維持(高音質)を念頭に前記圧縮音声データ量の低減が図られていた。
しかしながら、圧縮率の向上は限界に近づいてきていると考えられ、既存の方法では飛躍的な転送データレートの低減は望めない。
この点、上記[特許文献1]に記載された電子式録音装置の技術は、例として挙げられているように電子腕時計などの録音機能付電子機器が対象であり、音声通信システムにおける伝送データ量の効率化は射程内にない。また、そのままでの音声通信システムへの転用は困難である。
本発明は上記事情に鑑みてなされたものであり、音声通信システムにおける膨大な圧縮音声データの送受信の負担を軽減する(伝送データレートの低減化)ためになされたものであり、送信装置側で、入力された発声者の音声信号に含まれる言語情報を音声認識手段を介して一旦テキストデータ(文字データ)に変換し、データ量として従来の圧縮音声データに比して非常に少ないデータ量で済むテキストデータの形態で通信回線を介して送信し、受信装置側では、受信された当該テキストデータとその発声者の音色に近似する音色データとを合成して送信側の発声者の元の音声信号に極めて近似する音声に合成して再生するという独創的な新規の音声通信システムを提供することを目的とする。
本発明は、音声信号入力手段1と、入力された音声信号S1の言語情報Lを認識する音声認識手段2と、前記言語情報LをテキストデータTに変換するテキストデータ変換手段3と、前記音声信号S1における所定の言語情報Lxの音色データHxを抽出する音色データ抽出手段5と、前記テキストデータT及び前記音色データHxを合成して送信データD1を生成する送信データ合成手段7と、合成された前記送信データD1を変調して通信回線11を介して送信する送信手段8と、を有する送信装置10と、前記通信回線11を介して受信された受信データD2を復調する復調手段12と、復調された前記受信データD2から前記テキストデータTと前記音色データHxとを分離するデータ分離手段13と、前記所定の言語情報Lxに対する複数の音色データ見本Mx1、Mx2、・・Mxnに各々対応させて、言語情報の各音色データを備えた音色データテーブルH1、H2、・・Hnがデータベース化された標準音色データテーブル14と、前記受信データD2から得られた前記音色データHxに適合する音色データ見本Mxnを前記標準音色データテーブル14から検索して、前記音色データ見本Mxnに対応する音色データテーブルHnを選定する音色データテーブル選定手段15と、選定された前記音色データテーブルHnの音色データと前記テキストデータTとの音声合成を行い、前記送信装置に入力された元の音声信号S1に近似する音声信号S2を合成する音声合成手段16と、音声合成された前記音声信号S2を出力する音声出力手段17と、を有する受信装置20と、を備えることを特徴とする音声通信システム30、を提供することにより上記課題を解決する。
本発明に係る音声通信システムは上記のような構成のため、音声品質を高品位に保ちながら、伝送データレートを飛躍的に低く抑えることができる。
本発明に係る音声通信システムの実施の形態について図面に基づいて説明する。
図1は本発明に係る音声通信システムの構成図である。図2は本発明に係る音声通信システムにおける音声信号の処理のフロー図である。図3は標準音色データテーブルのデータベースの例を説明するための構造図である。図4は本発明に係る音声通信システムの受信装置における音声信号の音色データを標準音色データテーブルから抽出する処理を説明するためのフロー図である。
図1に示される本発明に係る音声通信システム30は、マイク等の一般的な入力装置を用いた音声信号入力手段1と、入力された音声信号S1の言語情報Lを認識する音声認識手段2と、前記言語情報LをテキストデータTに変換してメモリ装置4に保存するテキストデータ変換手段3と、前記音声信号S1における所定の言語情報Lxの音色データHxを抽出してメモリ装置6に保存する音色データ抽出手段5と、前記テキストデータT及び前記音色データHxを合成して送信データD1を生成する送信データ合成手段7と、合成された前記送信データD1を変調して通信回線11(光通信回線、ADSL、ISDN、一般電話回線或いは携帯電話回線など)を介して送信する送信手段8と、を有する送信装置10と、前記通信回線11を介して受信された受信データD2を復調する復調手段12と、復調された前記受信データD2から前記テキストデータTと前記音色データHxとを分離するデータ分離手段13と、前記所定の言語情報Lxに対する複数の音色データ見本Mx1、Mx2、Mx3、・・Mxnに各々対応させて、言語情報の各音色データを備えた音色データテーブルH1、H2、H3、・・Hnがデータベース化された標準音色データテーブル14と、前記受信データD2から得られた前記音色データHxに適合する音色データ見本Mxnを前記標準音色データテーブル14から検索して、前記音色データ見本Mxnに対応する音色データテーブルHnを選定する音色データテーブル選定手段15と、選定された前記音色データテーブルHnの音色データと前記テキストデータTとの音声合成を行い、前記送信装置10に入力された元の音声信号S1に近似する音声信号S2を合成する音声合成手段16と、音声合成された前記音声信号S2を出力する音声出力手段17と、を有する受信装置20と、を備える構成である。
即ち、本発明の要諦は、図2のフロー図に示されるように、音声データの送受信を行う通信システムであって、送信装置10側の発声者の音声信号のデータそのものを従来のようにデジタル化して圧縮し、圧縮デジタル音声信号として送信するのではなく、送信装置10は、発声者の音声信号S1に含まれる言語情報Lを認識して文字レベルで抽出してテキストデータTとして発声者の所定の言語情報Lxの音色データHxとともに送信し、受信装置20は、人の言語音声の基本周波数特性の特徴に応じて多数の音色データテーブルHn(n=1,2,・・)を予め標準化してデータベースとして用意しておき、受信した送信装置10側の発声者の所定の言語情報Lxの音色データHxに近似する音色データ見本Mxnの音色データテーブルHnを選定して、復調時に受信したテキストデータTと選定した発声者の言語音声に近似する前記音色データテーブルHnの音色データとの音声合成を行うことによって、元の発声者の音声に極めて近似する音声で再生するようにして、文字データ(テキストデータT)を伝送データとした極めて少ない伝送データレートで、且つ高品質の音声通信を実現するものである。
図1の送信装置10における前記音声認識手段2は、前記[特許文献1]などに記載されている公知の音声認識技術がそのまま適用でき、また、認識された言語情報をテキストデータTに変換するテキストデータ変換手段3も既存のソフトウェアが適用できる。また、前記メモリ装置4、6は例えばDRAMであり、マイクロコンピュータに内臓または外付けのDRAMチップが用いられる。また、前記送信データ合成手段7は従来の圧縮データ音声の通信フォーマットがほぼそのまま適用することができる。更に、前記送信手段8は用いられる前記通信回線11に応じて適宜選択されることは言うまでもない。
次に、前記音声信号S1における所定の言語情報Lxの音色データHxを抽出してメモリ装置6に保存する音色データ抽出手段5は、例えば、送信の初めに発声者が予め定められている言語情報Lxとして「あ」の文字を発声し、その音色データHx(基本周波数特性)を取り込み、デジタル化して前記メモリ装置6に記録することでなされる。或いは図1の破線矢印で示されるように、前記音声認識手段2で認識された発声者の言語情報Lの中から所定の言語情報Lxとして「あ」の音声を抽出してその音色データHxを取り込むこともできる。
なお、所定の言語情報Lxは「あ」などの単文字以外に、「あおい」などの数文字の単語を採用してもよく、更には、「あおい影を」或いは「あ、本日は晴天なり。」といった通常使用する話し言葉の代表的な文節、文章として、その全体の発音の基本周波数特性を音色データHxとして取り込んでもよい。
次に、図1の受信装置20における前記復調手段12は従来の復調回路技術がそのまま適用できる。また、前記テキストデータTと前記音色データHxを分離するデータ分離手段13については、前記通信回線11の通信フォーマットに従ったデータフォーマットであれば、そのアドレス管理などによって容易に分離できることは言うまでもない。
次に、例えば、人の「あ」の言語音声の基本周波数特性の特徴に応じて多数の音色データテーブルHn(n=1,2,・・)を予めデータベース化した標準音色データテーブル14は、図3に示されるように、番号1、2、3・・を付した音色データ見本Mx1、Mx2、・・Mxnとそれに各々対応する「あ」から「ん」までの50音の音色データで構成される音色データテーブルH1、H2、H3、・・Hnからなる。
前記音色データHxと前記音色データ見本Mxn(n=1,2,・・)は「あ」の発音波形の基本周波数特性をデジタル化した情報となっており、4Byte=32bit程度のデータ量である。
また、音色データ見本Mx1、Mx2、・・Mxnに各々対応する「あ」から「ん」までの50音の音色データ(デジタル)で構成される音色データテーブルH1、H2、H3、・・Hnの数は考えうる場合の数存在してもよく、代表的な100種程度の音色データの音色データテーブルH1、H2、H3、・・H100(標準音声100人分)をデータベース化してもよい。また、家族間の通信に用途が限定可能な場合は、当該限られた複数の発声者の50音の各音色データ(デジタル)を予め受信装置20側で取得して各人の音色データテーブルH1、H2、H3、・・をデータベース化してもよい。この場合は受信装置20の再生音声は本人自身の音色データで音色データテーブルが構成されていることから違和感の少ない高音質の再生音声が得られる。
本発明者の試算によれば、前記音声通信システム30による伝送データレートは、従来技術の最高レベルの圧縮率による圧縮音声データの伝送データレートに比して10倍以上の低減が可能である。
1 音声信号入力手段
2 音声認識手段
3 テキストデータ変換手段
4、6 メモリ装置
5 音色データ抽出手段
7 送信データ合成手段
8 送信手段
10 送信装置
11 通信回線
12 復調手段
13 データ分離手段
14、14x 標準音色データテーブル
15 標準音色データテーブル選定手段
16 音声合成手段
17 音声出力手段
20 受信装置
30 音声通信システム
L 言語情報
Lx 所定の言語情報
Hx Lxの音色データ
H1、H2、H3、Hn 音色データテーブル
S1、S2 音声信号
T テキストデータ
D1 送信データ
D2 受信データ
Mx1、Mx2、・・Mxn 音色データ見本
2 音声認識手段
3 テキストデータ変換手段
4、6 メモリ装置
5 音色データ抽出手段
7 送信データ合成手段
8 送信手段
10 送信装置
11 通信回線
12 復調手段
13 データ分離手段
14、14x 標準音色データテーブル
15 標準音色データテーブル選定手段
16 音声合成手段
17 音声出力手段
20 受信装置
30 音声通信システム
L 言語情報
Lx 所定の言語情報
Hx Lxの音色データ
H1、H2、H3、Hn 音色データテーブル
S1、S2 音声信号
T テキストデータ
D1 送信データ
D2 受信データ
Mx1、Mx2、・・Mxn 音色データ見本
Claims (1)
- 音声信号入力手段と、
入力された音声信号の言語情報を認識する音声認識手段と、
前記言語情報をテキストデータに変換するテキストデータ変換手段と、
前記音声信号における所定の言語情報の音色データを抽出する音色データ抽出手段と、
前記テキストデータ及び前記音色データを合成して送信データを生成する送信データ合成手段と、
合成された前記送信データを変調して通信回線を介して送信する送信手段と、を有する送信装置と、
前記通信回線を介して受信された受信データを復調する復調手段と、
復調された前記受信データから前記テキストデータと前記音色データとを分離するデータ分離手段と、
前記所定の言語情報に対する複数の音色データ見本に各々対応させて、言語情報の各音色データを備えた音色データテーブルがデータベース化された標準音色データテーブルと、
前記受信データから得られた前記音色データに適合する音色データ見本を前記標準音色データテーブルから検索して、前記音色データ見本に対応する音色データテーブルを選定する音色データテーブル選定手段と、
選定された前記音色データテーブルの音色データと前記テキストデータとの音声合成を行い、前記送信装置に入力された元の音声信号に近似する音声信号を合成する音声合成手段と、
音声合成された前記音声信号を出力する音声出力手段と、を有する受信装置と、を備えることを特徴とする音声通信システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005139372A JP2006319598A (ja) | 2005-05-12 | 2005-05-12 | 音声通信システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005139372A JP2006319598A (ja) | 2005-05-12 | 2005-05-12 | 音声通信システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006319598A true JP2006319598A (ja) | 2006-11-24 |
Family
ID=37539872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005139372A Pending JP2006319598A (ja) | 2005-05-12 | 2005-05-12 | 音声通信システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006319598A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009036592A (ja) * | 2007-07-31 | 2009-02-19 | Sharp Corp | スジムラ評価装置、スジムラ評価方法、スジムラ評価プログラム、記録媒体及びカラーフィルタの製造方法 |
JP2010141754A (ja) * | 2008-12-15 | 2010-06-24 | Nec Corp | 留守番電話システム、留守番電話サービスサーバ、受話者端末及び留守番電話サービス方法 |
US7889358B2 (en) | 2006-04-26 | 2011-02-15 | Sharp Kabushiki Kaisha | Color filter inspection method, color filter manufacturing method, and color filter inspection apparatus |
CN111201565A (zh) * | 2017-05-24 | 2020-05-26 | 调节股份有限公司 | 用于声对声转换的系统和方法 |
CN113035226A (zh) * | 2019-12-24 | 2021-06-25 | 中兴通讯股份有限公司 | 语音通话方法、通信终端和计算机可读介质 |
US11996117B2 (en) | 2020-10-08 | 2024-05-28 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
-
2005
- 2005-05-12 JP JP2005139372A patent/JP2006319598A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7889358B2 (en) | 2006-04-26 | 2011-02-15 | Sharp Kabushiki Kaisha | Color filter inspection method, color filter manufacturing method, and color filter inspection apparatus |
JP2009036592A (ja) * | 2007-07-31 | 2009-02-19 | Sharp Corp | スジムラ評価装置、スジムラ評価方法、スジムラ評価プログラム、記録媒体及びカラーフィルタの製造方法 |
JP2010141754A (ja) * | 2008-12-15 | 2010-06-24 | Nec Corp | 留守番電話システム、留守番電話サービスサーバ、受話者端末及び留守番電話サービス方法 |
CN111201565A (zh) * | 2017-05-24 | 2020-05-26 | 调节股份有限公司 | 用于声对声转换的系统和方法 |
US11854563B2 (en) | 2017-05-24 | 2023-12-26 | Modulate, Inc. | System and method for creating timbres |
CN113035226A (zh) * | 2019-12-24 | 2021-06-25 | 中兴通讯股份有限公司 | 语音通话方法、通信终端和计算机可读介质 |
CN113035226B (zh) * | 2019-12-24 | 2024-04-23 | 中兴通讯股份有限公司 | 语音通话方法、通信终端和计算机可读介质 |
US11996117B2 (en) | 2020-10-08 | 2024-05-28 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10200004B2 (en) | Last mile equalization | |
JP2002536692A (ja) | 分散された音声認識システム | |
JP2007534278A (ja) | ショートメッセージサービスを通じる音声 | |
JP2006319598A (ja) | 音声通信システム | |
JP2006099124A (ja) | デジタル無線チャネル上の自動音声/話者認識 | |
US6516298B1 (en) | System and method for synthesizing multiplexed speech and text at a receiving terminal | |
US7177801B2 (en) | Speech transfer over packet networks using very low digital data bandwidths | |
CN111246469B (zh) | 人工智能保密通信系统及通信方法 | |
JP3473204B2 (ja) | 翻訳装置及び携帯端末装置 | |
JPH0946233A (ja) | 音声符号化方法とその装置、音声復号方法とその装置 | |
JPS6262399A (ja) | 音声高能率符号化方式 | |
JP2000356995A (ja) | 音声通信システム | |
US6498834B1 (en) | Speech information communication system | |
US20030065512A1 (en) | Communication device and a method for transmitting and receiving of natural speech | |
JPH0950286A (ja) | 音声合成装置及びこれに使用する記録媒体 | |
KR100553437B1 (ko) | 음성 합성을 이용한 음성 메시지 전송 기능을 가지는무선통신 단말기 및 그 방법 | |
JPS60220652A (ja) | 交換機における音声合成方式 | |
JP7296214B2 (ja) | 音声認識システム | |
JPS6171730A (ja) | 音声デ−タ転送方式 | |
JP2977855B2 (ja) | 文字放送システム | |
JPH01162492A (ja) | 画像伝送方式 | |
JPH0220148A (ja) | 音声データパケット伝送装置 | |
JP2024017475A (ja) | 音声通信方式 | |
JPH09326886A (ja) | マルチメディア情報内容の伝送装置或は蓄積装置 | |
CN114913837A (zh) | 一种音频处理方法及装置 |