JP2024506527A

JP2024506527A - 音声認識及び音声合成を利用した無線通信装置

Info

Publication number: JP2024506527A
Application number: JP2023544784A
Authority: JP
Inventors: パク、サンレ
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-01-25
Filing date: 2021-02-03
Publication date: 2024-02-14
Also published as: EP4283612A1; CN116848581A; KR102548618B1; US11942072B2; WO2022158633A1; US20230090052A1; KR20220107631A

Abstract

本発明による無線通信装置は、マイクを通じて入力される音声信号を音声認識を用いて音節情報のストリームに変換する音声認識部；音節情報のストリームを符号化してデジタル送信データを生成する符号化部；デジタル送信データを変調して送信信号をアンテナを通じて送信する送信部；アンテナを通じて受信される受信信号を復調してデジタル受信データを出力する受信部；デジタル受信データを復号化して音節情報のストリームに変換する復号化部；及び音節情報のストリームを音声合成を用いて音声信号に変換してスピーカーを通じて出力する音声合成部；を含むことを特徴とする。

Description

本発明は、無線通信装置に係り、より詳細には、音声認識及び音声合成を利用した無線通信装置に関する。

音声通信のための無線通信装置は、一般的にアナログ信号である音声信号をサンプリング、量子化、符号化などの過程を経てデジタル信号に変換して無線通信網を通じて送信し、受信されるデジタル信号をその逆変換過程を経て音声信号に変換して出力する。このような音声通信方式は、音楽用高音質のオーディオ伝送においては、１２８ｋｂｐｓ、１９２ｋｂｐｓ、３２０ｋｂｐｓのビットレートが要求され、音声通信で最大の音声圧縮が行われたオーディオ伝送においては、２．４ｋｂｐｓ、３．２ｋｂｐｓなどが要求されるなどビットレートを下げるのに限界がある。

本発明が解決しようとする技術的課題は、既存の音声通信方式に比べてビットレートを画期的に下げることができる無線通信装置を提供するところにある。

前記技術的課題を解決するための本発明による無線通信装置は、マイクを通じて入力される音声信号を音声認識を用いて音節情報のストリームに変換する音声認識部；前記音節情報のストリームを符号化してデジタル送信データを生成する符号化部；前記デジタル送信データを変調して送信信号をアンテナを通じて送信する送信部；前記アンテナを通じて受信される受信信号を復調してデジタル受信データを出力する受信部；前記デジタル受信データを復号化して音節情報のストリームに変換する復号化部；及び前記音節情報のストリームを音声合成を用いて音声信号に変換してスピーカーを通じて出力する音声合成部；を含むことを特徴とする。

前記音節情報は、初声、中声、終声の組み合わせを含みうる。

前記音節情報は、韻律情報をさらに含みうる。

前記韻律情報は、普通音、上昇音、下降音、長音、強勢音を含みうる。

前記音節情報は、音色情報をさらに含みうる。

前記音色情報は、男性、女性、老人、子供別に所定個数のレベルを含みうる。

前記音節情報を構成する初声、中声、終声は、３次元座標系の３軸にそれぞれ対応し、前記音節情報は、前記３次元座標系での前記初声、中声、終声のそれぞれの座標値によってデジタルデータにマッピングされる。

前記音節情報は、韻律情報をさらに含み、前記音節情報は、前記３次元座標系での前記初声、中声、終声のそれぞれの座標値及び前記韻律情報に基づいて前記デジタルデータにマッピングされる。

前記無線通信装置は、人工衛星を通じた音声通話のための無線通信装置であり、前記送信部及び前記受信部は、前記送信信号及び前記受信信号を人工衛星と送受信できるように変調及び復調することができる。

前記無線通信装置は、ジャイロセンサー；前記アンテナに連結された３軸ギア；及び前記ジャイロセンサーのセンシング値によって前記アンテナが上方に向かうように前記３軸ギアを制御するアンテナ姿勢制御部；をさらに含みうる。

前記無線通信装置は、前記符号化部から出力される前記デジタル送信データ及び前記受信部から出力される前記デジタル受信データを保存する録音部をさらに備えることができる。

本発明によれば、音声認識と音声合成とを用いて既存の音声通信方式に比べてビットレートを画期的に下げることができる無線通信装置を提供することができる。

また、本発明は、音節構成が中声単独、初声と中声、中声と終声、初声、中声、終声で構成される英語、ラテン語などあらゆる言語に適用可能である。

また、本発明は、音節情報ストリームを３次元座標系を用いてデジタルデータ化し、それを符号化部でデジタル送信データに作った後、録音部（図示せず）に保存することにより、既存の音声通信方式及び音声圧縮ファイルを保存する方式に比べて録音に必要なメモリを最小化させることができ、同様に受信部から出力されるデジタル受信データを録音部に保存することにより、既存の音声通信方式及び音声圧縮ファイルを保存する方式に比べて録音に必要なメモリを最小化させるという長所がある。

また、本発明の無線通信装置は、前記録音部で録音内容を検索する場合、連続した音節を録音部でデジタルデータの状態に直接マッチングして検索することができるので、既存の音声圧縮ファイルを保存し、録音データを検索する方式に比べて特定の単語などの録音内容を画期的に迅速に検索できるという長所がある。

マイクを通じて入力された音声を文章に変換するＳＴＴ（ＳｐｅｅｃｈｔｏＴｅｘｔ）方式の既存の音声認識方法は、入力された音声が全く異なる意味の文章に変換されるなどエラーが多く、所望の文章に正確に変換されるのには限界がある。したがって、このような問題を解決するためには、膨大な量の音声認識ＤＢと音声認識データとを処理する高度の学習プログラムが必要となる。

逆に、入力された文章を音声に変換するＴＴＳ（ＴｅｘｔｔｏＳｐｅｅｃｈ）方式の既存の音声合成方法は、自然でないか、聞きづらい面があることがまだ現実であり、このような限界点を克服するためには、巨大なシステムとプログラムとが必要となる。

本発明は、マイクを通じて入力された発話者の音声を音声認識部で音節と韻律とで構成された音節情報ストリームを作って符号化部で数字コードであるデジタル送信データを直ちに生成するので、正確な音声を伝達することができ、受信部出力のデジタル受信データは、該当する正確な音節情報ストリームを復号化部で構成して直ちに音声合成部及びスピーカーを通じて音声をプレーさせる。したがって、本発明は、既存のＳＴＴ方式の音声認識とＴＴＳ方式の音声合成とに比べて画期的に簡単なシステム及びプログラムで構成が可能であるという長所がある。

本発明の一実施形態による無線通信装置の構成を示す図面である。

音節情報のコード構成を示す図面である。

音節を構成する初声、中声、終声が３次元座標系の３軸にそれぞれ対応する概念を示す図面である。

音節を構成する初声、中声、終声に対応する３次元座標系の具体例を示す図面である。

本発明の一実施形態による無線通信装置の追加的な構成を示す図面である。

本発明の実施形態によって無線通信装置のアンテナが上方に向かうように制御される形状を示す図面である。

以下、図面を参照して、本発明の望ましい実施形態を詳しく説明する。以下、説明及び添付図面で実質的に同じ構成要素は、それぞれ同じ符号で示すことにより、重複説明を省略する。また、本発明を説明するに当って、関連した公知の機能あるいは構成についての具体的な説明が、本発明の要旨を不明にする恐れがあると判断される場合、それについての詳細な説明は省略する。

図１は、本発明の一実施形態による無線通信装置の構成を示す。

本実施形態による無線通信装置１００は、マイク１１１、音声認識部１１２、符号化部１１３、送信部１１４、受信部１２１、復号化部１２２、音声合成部１２３、スピーカー１２４、アンテナ１３０を含む。

無線通信装置１００は、他の無線通信装置２００と音声通信することができる。他の無線通信装置２００も、無線通信装置１００と同様に、マイク２１１、音声認識部２１２、符号化部２１３、送信部２１４、受信部２２１、復号化部２２２、音声合成部２２３、スピーカー２２４、アンテナ２３０を含む。

無線通信装置１００と無線通信装置２００は、直接通信を行う装置であるか（例えば、無線機と類似に）、基地局を通じて互いに通信する装置であるか（例えば、セルラーフォンと類似に）、人工衛星を通じて互いに通信する装置である。

音声認識部１１２、２１２は、マイク１１１、２１１を通じて入力される音声信号を音声認識を用いて音節情報のストリームに変換する。符号化部１１３、２１３は、前記音節情報のストリームを符号化してデジタル送信データを生成する。送信部１１４、２１４は、前記デジタル送信データを変調して送信信号をアンテナ１３０、２３０を通じて送信する。

受信部１２１、２２１は、アンテナ１３０、２３０を通じて受信される受信信号を復調してデジタル受信データを出力する。復号化部１２２、２２２は、前記デジタル受信データを復号化して音節情報のストリームに変換する。音声合成部１２３、２２３は、前記音節情報のストリームを音声合成を用いて音声信号に変換してスピーカー１２４、２２４を通じて出力する。

無線通信装置１００と無線通信装置２００が、人工衛星を通じて互いに通信する装置である場合、送信部１１４、２１４及び受信部１２１、２２１は、前記送信信号及び前記受信信号を人工衛星と送受信できるように変調及び復調する。

本発明の実施形態において、前記音節情報は、初声、中声、終声の組み合わせを含み、初声、中声、終声は、ローマ字発音記号で表現される。

例えば、初声は、次のように無音価、有声子音、無声子音、半子音を含む２６種で構成することができる。

例えば、中声は、次のように１０種の母音で構成することができる。

例えば、終声は、次のように無音価、有声子音、無声子音を含む１２種で構成することができる。

また、音節情報は、一定の長さの休止区間を示す休止符を含みうる。

もちろん、表現しようとする音節によって必要に応じて、初声、中声、終声に前記のような音節構成要素以外にも他の音節構成要素が追加される。

また、前記音節情報は、音色情報をさらに含みうる。例えば、音色情報は、男性、女性、老人、子供別に所定個数（例えば、１００レベル）で設定されて、総４００個の音色を表現することができる。音色情報として、デフォルトで特定の音色が設定されるか、ユーザ音声の周波数または波形を分析して特定の音色を設定するか、ユーザが選択した特定の音色が設定されうる。音色情報は、電話中にユーザが変更可能にすることもできる。音色の種類及びレベルも、拡大または追加される。受信側の音声合成部２２３は、音声合成時に音節情報に含まれた音色情報を反映して音声信号を生成することができる。

１つの音節を示すためのコード数を見れば、次の通りである。まず、初声２６個、中声１０個、終声１２個の組み合わせは、２６×１０×１２＝３，１２０になり、各組み合わせごとに５種の韻律があるので、３，１２０×５＝１５，６００になり、これに、休止符を加えれば、１５，６０１になる。そして、音色情報４００を加えれば、１５，６０１＋４００＝１６，００１になる。すなわち、１６，００１種のコードで１つの有効音節を表現することができる。

例えば、１つの音節を２Ｂｙｔｅで表現する場合、２Ｂｙｔｅは、１６ビットなので、００００～ＦＦＦＦ、すなわち、２^１６＝６５，５３６種に表現可能である。そして、００００は、休止符として使用するので、０００１～ＦＦＦＦ、すなわち、６５，５３５－１６，００１＝４９，５３４が残るので、この部分は、他の付加情報を伝達することができる予備コードとして活用することができる。すなわち、００００Ｈで休止符を表現し、０００１Ｈ（１）～３ＣＦ１Ｈ（１５，６０１）で音節及び韻律を表現し、～３Ｅ８１Ｈ（１６，００１）で音色を表現し、～ＦＦＦＦＨ（６５，５３５）を予備コードとして使用することができる。図２は、これによる音節情報のコード構成を示す。

本発明の実施形態において、音節を構成する初声、中声、終声は、図３に示したように、３次元座標系の３軸にそれぞれ対応させることができる。例えば、初声をｘ軸に、中声をｙ軸に、終声をｚ軸に対応させることができる。そして、３次元座標系での初声、中声、終声のそれぞれの座標値によって当該音節がデジタルデータにマッピングされる。この際、韻律を含む音節情報は、３次元座標系での初声、中声、終声のそれぞれの座標値と共に、韻律情報に基づいてデジタルデータにマッピングされる。

図４は、音節を構成する初声、中声、終声に対応する３次元座標系の具体例を示す。

韻律値をｎであるとすれば、例えば、普通音の場合、ｎ＝１、上昇音の場合、ｎ＝２、下降音の場合、ｎ＝３、長音の場合、ｎ＝４、強勢音の場合、ｎ＝５に示すことができる。

音節（ｘ、ｙ、ｚ）と韻律ｎとに対応するコードは、次の数式によって計算される。

ｆ（ｘ，ｙ，ｚ，ｎ）＝（Ｘｍ^＊Ｙｍ^＊Ｚｍ）^＊（ｎ－１）＋（Ｘｍ^＊Ｙｍ）^＊（ｚ－１）＋Ｘｍ^＊（ｙ－１）＋ｘ

ここで、Ｘｍ、Ｙｍ、Ｚｍは、それぞれｘ、ｙ、ｚの最大値、すなわち、Ｘｍ＝２６、Ｙｍ＝１０、Ｚｍ＝１２であり、ｘ、ｙ、ｚ≠０である。

例えば、普通音［ａ］をデジタル値で示すと、ｆ（１，１，１，１）＝０００１Ｈになる。

６４ｂｐｓは、高音質オーディオ伝送用ビットレートである３２０ｋｂｐｓの僅か約１／５０００に過ぎない値である。したがって、本発明によれば、既存の伝送方式よりも約５０００倍の伝送チャネルを確保することができ、最大圧縮時の音声通信用ビットレートである２．４ｋｂｐｓと比較しても、約３７．５倍も高い伝送効率を有する。

本発明の実施形態において、音節を構成する初声、中声、終声をローマ字発音記号で表現したが、本発明は、ローマ字発音記号に限定されるものではなく、ハングル（ＫｏｒｅａｎＡｌｐｈａｂｅｔ）発音記号、日本語（ひらがな）発音記号、国際標準発音記号など初声、中声、終声を表現することができる発音記号であれば、如何なる文字に基づいたものでも使われる。

また、無線通信装置１００は、符号化部１１３、２１３から出力される前記デジタル送信データ受信部１２１、２２１から出力される前記デジタル受信データを保存する録音部（図示せず）をさらに備えることができる。

符号化部１１３、２１３から出力されるデジタル送信データや受信部１２１、２２１から出力されるデジタル受信データは、音節情報ストリームを３次元座標系を用いてデジタルデータ化し、デジタルデータで作ったものであるために、録音部（図示せず）を構成するメモリは、既存の音声通信方式や音声圧縮ファイルを保存する方式に比べてメモリ容量を最小化させることができる。

また、録音部（図示せず）で特定の単語や音節を検索する場合、該当する単語や音節を録音部でデジタルデータの状態に直接マッチングして検索することができるので、既存の音声圧縮ファイルを保存し、録音データを検索する方式に比べて特定の単語などの録音内容を迅速に検索することができる。

音節や単語を検索するために、デジタルデータをマッチングする方法は、多様であり、当業者がその方法を容易に理解することができるので、詳細な説明は省略する。

無線通信装置１００が人工衛星を通じた通信のための無線通信装置である場合、アンテナ１３０は、人工衛星に向かった方向、すなわち、上方に向かうように指向制御されることが望ましい。図５は、そのための本発明の一実施形態による無線通信装置の追加的な構成を示す。

図５を参照すれば、無線通信装置１００は、アンテナ１３０に連結された３軸ギア１３１、姿勢制御部１３２、ジャイロセンサー１３３をさらに含みうる。姿勢制御部１３２は、ジャイロセンサー１３３のセンシング値によって３軸ギア１３１を制御して無線通信装置１００が傾いてもアンテナ１３０が上方に向かうようにする。

図６は、本発明の実施形態によって無線通信装置１００のアンテナ１３０が上方に向かうように制御される形状を示す。示したように、無線通信装置１００が傾いても、アンテナ１３０は上方に向かうので、人工衛星との通信が円滑になされる。

本発明の実施形態は、機能的なブロック構成及び多様な処理段階で表われる。このような機能ブロックは、特定の機能を実行する多様な個数のハードウェアまたは／及びソフトウェア構成として具現可能である。例えば、実施形態は、１つ以上のマイクロプロセッサの制御または他の制御装置によって多様な機能を実行することができる、メモリ、プロセッシング、ロジック（ｌｏｇｉｃ）、ルックアップテーブル（ｌｏｏｋ－ｕｐｔａｂｌｅ）のような集積回路構成を採用することができる。本発明での構成要素が、ソフトウェアプログラミングまたはソフトウェア要素で実行されるものと類似に、実施形態は、データ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含んで、Ｃ、Ｃ＋＋、ジャバ（Ｊａｖａ）、アセンブラー（ａｓｓｅｍｂｌｅｒ）のようなプログラミングまたはスクリプト言語として具現可能である。機能的な側面は、１つ以上のプロセッサで実行されるアルゴリズムとして具現可能である。また、実施形態は、電子的な環境設定、信号処理、及び／またはデータ処理などのために、従来技術を採用することができる。「メカニズム」、「要素」、「手段」、「構成」のような用語は、広く使われ、機械的であり、物理的な構成として限定されるものではない。前記用語は、プロセッサなどと連携してソフトウェアの一連の処理（ｒｏｕｔｉｎｅｓ）の意味を含みうる。

実施形態で説明する特定の実行は、一実施形態であって、如何なる方法でも実施形態の範囲を限定するものではない。明細書の簡潔さのために、従来の電子的な構成、制御システム、ソフトウェア、前記システムの他の機能的な側面の記載は省略される。また、図面に示された構成要素間の線の連結または連結部材は、機能的な連結及び／または物理的または回路的連結を例示的に示したものであって、実際の装置では代替可能であるか、追加の多様な機能的な連結、物理的な連結、または回路連結として表われる。また、「必須的な」、「重要に」のように具体的な言及がなければ、本発明の適用のために、必ずしも必要な構成要素ではない。

以上、本発明について、その望ましい実施形態を中心に説明した。当業者ならば、本発明が、本発明の本質的な特性から外れない範囲で変形された形態として具現可能であるということを理解できるであろう。したがって、開示された実施形態は、限定的な観点ではなく、説明的な観点で考慮されなければならない。本発明の範囲は、前述した説明ではなく、特許請求の範囲に示されており、それと同等な範囲内にあるあらゆる差異点は、本発明に含まれるものと解釈しなければならない。

Claims

マイクを通じて入力される音声信号を音声認識を用いて音節情報のストリームに変換する音声認識部と、
前記音節情報のストリームを符号化してデジタル送信データを生成する符号化部と、
前記デジタル送信データを変調して送信信号をアンテナを通じて送信する送信部と、
前記アンテナを通じて受信される受信信号を復調してデジタル受信データを出力する受信部と、
前記デジタル受信データを復号化して音節情報のストリームに変換する復号化部と、
前記音節情報のストリームを音声合成を用いて音声信号に変換してスピーカーを通じて出力する音声合成部と、
を含むことを特徴とする無線通信装置。
前記音節情報は、初声、中声、終声の組み合わせを含むことを特徴とする請求項１に記載の無線通信装置。
前記音節情報は、韻律情報をさらに含むことを特徴とする請求項２に記載の無線通信装置。
前記韻律情報は、普通音、上昇音、下降音、長音、強勢音を含むことを特徴とする請求項３に記載の無線通信装置。
前記音節情報は、音色情報をさらに含むことを特徴とする請求項２に記載の無線通信装置。
前記音色情報は、男性、女性、老人、子供別に所定個数のレベルを含むことを特徴とする請求項５に記載の無線通信装置。
前記音節情報を構成する初声、中声、終声は、３次元座標系の３軸にそれぞれ対応し、前記音節情報は、前記３次元座標系での前記初声、中声、終声のそれぞれの座標値によってデジタルデータにマッピングされることを特徴とする請求項２に記載の無線通信装置。
前記音節情報は、韻律情報をさらに含み、
前記音節情報は、前記３次元座標系での前記初声、中声、終声のそれぞれの座標値及び前記韻律情報に基づいて前記デジタルデータにマッピングされることを特徴とする請求項７に記載の無線通信装置。
前記無線通信装置は、人工衛星を通じた音声通話のための無線通信装置であり、
前記送信部及び前記受信部は、前記送信信号及び前記受信信号を人工衛星と送受信できるように変調及び復調することを特徴とする請求項１に記載の無線通信装置。
ジャイロセンサーと、
前記アンテナに連結された３軸ギアと、
前記ジャイロセンサーのセンシング値によって前記アンテナが上方に向かうように前記３軸ギアを制御するアンテナ姿勢制御部と、
をさらに含むことを特徴とする請求項９に記載の無線通信装置。
前記符号化部から出力される前記デジタル送信データ及び前記受信部から出力される前記デジタル受信データを保存する録音部をさらに備えることを特徴とする請求項１に記載の無線通信装置。