JP2024506527A - 音声認識及び音声合成を利用した無線通信装置 - Google Patents
音声認識及び音声合成を利用した無線通信装置 Download PDFInfo
- Publication number
- JP2024506527A JP2024506527A JP2023544784A JP2023544784A JP2024506527A JP 2024506527 A JP2024506527 A JP 2024506527A JP 2023544784 A JP2023544784 A JP 2023544784A JP 2023544784 A JP2023544784 A JP 2023544784A JP 2024506527 A JP2024506527 A JP 2024506527A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- wireless communication
- communication device
- information
- syllable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 62
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 15
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 15
- 230000005540 biological transmission Effects 0.000 claims abstract description 23
- 230000000630 rising effect Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 abstract description 4
- 238000000034 method Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000005766 Middleton reaction Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C19/00—Gyroscopes; Turn-sensitive devices using vibrating masses; Turn-sensitive devices without moving masses; Measuring angular rate using gyroscopic effects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
- H04B1/3827—Portable transceivers
- H04B1/385—Transceivers carried on the body, e.g. in helmets
- H04B2001/3872—Transceivers carried on the body, e.g. in helmets with extendable microphones or earphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mobile Radio Communication Systems (AREA)
- Transceivers (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本発明による無線通信装置は、マイクを通じて入力される音声信号を音声認識を用いて音節情報のストリームに変換する音声認識部;音節情報のストリームを符号化してデジタル送信データを生成する符号化部;デジタル送信データを変調して送信信号をアンテナを通じて送信する送信部;アンテナを通じて受信される受信信号を復調してデジタル受信データを出力する受信部;デジタル受信データを復号化して音節情報のストリームに変換する復号化部;及び音節情報のストリームを音声合成を用いて音声信号に変換してスピーカーを通じて出力する音声合成部;を含むことを特徴とする。
Description
本発明は、無線通信装置に係り、より詳細には、音声認識及び音声合成を利用した無線通信装置に関する。
音声通信のための無線通信装置は、一般的にアナログ信号である音声信号をサンプリング、量子化、符号化などの過程を経てデジタル信号に変換して無線通信網を通じて送信し、受信されるデジタル信号をその逆変換過程を経て音声信号に変換して出力する。このような音声通信方式は、音楽用高音質のオーディオ伝送においては、128kbps、192kbps、320kbpsのビットレートが要求され、音声通信で最大の音声圧縮が行われたオーディオ伝送においては、2.4kbps、3.2kbpsなどが要求されるなどビットレートを下げるのに限界がある。
本発明が解決しようとする技術的課題は、既存の音声通信方式に比べてビットレートを画期的に下げることができる無線通信装置を提供するところにある。
前記技術的課題を解決するための本発明による無線通信装置は、マイクを通じて入力される音声信号を音声認識を用いて音節情報のストリームに変換する音声認識部;前記音節情報のストリームを符号化してデジタル送信データを生成する符号化部;前記デジタル送信データを変調して送信信号をアンテナを通じて送信する送信部;前記アンテナを通じて受信される受信信号を復調してデジタル受信データを出力する受信部;前記デジタル受信データを復号化して音節情報のストリームに変換する復号化部;及び前記音節情報のストリームを音声合成を用いて音声信号に変換してスピーカーを通じて出力する音声合成部;を含むことを特徴とする。
前記音節情報は、初声、中声、終声の組み合わせを含みうる。
前記音節情報は、韻律情報をさらに含みうる。
前記韻律情報は、普通音、上昇音、下降音、長音、強勢音を含みうる。
前記音節情報は、音色情報をさらに含みうる。
前記音色情報は、男性、女性、老人、子供別に所定個数のレベルを含みうる。
前記音節情報を構成する初声、中声、終声は、3次元座標系の3軸にそれぞれ対応し、前記音節情報は、前記3次元座標系での前記初声、中声、終声のそれぞれの座標値によってデジタルデータにマッピングされる。
前記音節情報は、韻律情報をさらに含み、前記音節情報は、前記3次元座標系での前記初声、中声、終声のそれぞれの座標値及び前記韻律情報に基づいて前記デジタルデータにマッピングされる。
前記無線通信装置は、人工衛星を通じた音声通話のための無線通信装置であり、前記送信部及び前記受信部は、前記送信信号及び前記受信信号を人工衛星と送受信できるように変調及び復調することができる。
前記無線通信装置は、ジャイロセンサー;前記アンテナに連結された3軸ギア;及び前記ジャイロセンサーのセンシング値によって前記アンテナが上方に向かうように前記3軸ギアを制御するアンテナ姿勢制御部;をさらに含みうる。
前記無線通信装置は、前記符号化部から出力される前記デジタル送信データ及び前記受信部から出力される前記デジタル受信データを保存する録音部をさらに備えることができる。
本発明によれば、音声認識と音声合成とを用いて既存の音声通信方式に比べてビットレートを画期的に下げることができる無線通信装置を提供することができる。
また、本発明は、音節構成が中声単独、初声と中声、中声と終声、初声、中声、終声で構成される英語、ラテン語などあらゆる言語に適用可能である。
また、本発明は、音節情報ストリームを3次元座標系を用いてデジタルデータ化し、それを符号化部でデジタル送信データに作った後、録音部(図示せず)に保存することにより、既存の音声通信方式及び音声圧縮ファイルを保存する方式に比べて録音に必要なメモリを最小化させることができ、同様に受信部から出力されるデジタル受信データを録音部に保存することにより、既存の音声通信方式及び音声圧縮ファイルを保存する方式に比べて録音に必要なメモリを最小化させるという長所がある。
また、本発明の無線通信装置は、前記録音部で録音内容を検索する場合、連続した音節を録音部でデジタルデータの状態に直接マッチングして検索することができるので、既存の音声圧縮ファイルを保存し、録音データを検索する方式に比べて特定の単語などの録音内容を画期的に迅速に検索できるという長所がある。
マイクを通じて入力された音声を文章に変換するSTT(Speech to Text)方式の既存の音声認識方法は、入力された音声が全く異なる意味の文章に変換されるなどエラーが多く、所望の文章に正確に変換されるのには限界がある。したがって、このような問題を解決するためには、膨大な量の音声認識DBと音声認識データとを処理する高度の学習プログラムが必要となる。
逆に、入力された文章を音声に変換するTTS(Text to Speech)方式の既存の音声合成方法は、自然でないか、聞きづらい面があることがまだ現実であり、このような限界点を克服するためには、巨大なシステムとプログラムとが必要となる。
本発明は、マイクを通じて入力された発話者の音声を音声認識部で音節と韻律とで構成された音節情報ストリームを作って符号化部で数字コードであるデジタル送信データを直ちに生成するので、正確な音声を伝達することができ、受信部出力のデジタル受信データは、該当する正確な音節情報ストリームを復号化部で構成して直ちに音声合成部及びスピーカーを通じて音声をプレーさせる。したがって、本発明は、既存のSTT方式の音声認識とTTS方式の音声合成とに比べて画期的に簡単なシステム及びプログラムで構成が可能であるという長所がある。
以下、図面を参照して、本発明の望ましい実施形態を詳しく説明する。以下、説明及び添付図面で実質的に同じ構成要素は、それぞれ同じ符号で示すことにより、重複説明を省略する。また、本発明を説明するに当って、関連した公知の機能あるいは構成についての具体的な説明が、本発明の要旨を不明にする恐れがあると判断される場合、それについての詳細な説明は省略する。
図1は、本発明の一実施形態による無線通信装置の構成を示す。
本実施形態による無線通信装置100は、マイク111、音声認識部112、符号化部113、送信部114、受信部121、復号化部122、音声合成部123、スピーカー124、アンテナ130を含む。
無線通信装置100は、他の無線通信装置200と音声通信することができる。他の無線通信装置200も、無線通信装置100と同様に、マイク211、音声認識部212、符号化部213、送信部214、受信部221、復号化部222、音声合成部223、スピーカー224、アンテナ230を含む。
無線通信装置100と無線通信装置200は、直接通信を行う装置であるか(例えば、無線機と類似に)、基地局を通じて互いに通信する装置であるか(例えば、セルラーフォンと類似に)、人工衛星を通じて互いに通信する装置である。
音声認識部112、212は、マイク111、211を通じて入力される音声信号を音声認識を用いて音節情報のストリームに変換する。符号化部113、213は、前記音節情報のストリームを符号化してデジタル送信データを生成する。送信部114、214は、前記デジタル送信データを変調して送信信号をアンテナ130、230を通じて送信する。
受信部121、221は、アンテナ130、230を通じて受信される受信信号を復調してデジタル受信データを出力する。復号化部122、222は、前記デジタル受信データを復号化して音節情報のストリームに変換する。音声合成部123、223は、前記音節情報のストリームを音声合成を用いて音声信号に変換してスピーカー124、224を通じて出力する。
無線通信装置100と無線通信装置200が、人工衛星を通じて互いに通信する装置である場合、送信部114、214及び受信部121、221は、前記送信信号及び前記受信信号を人工衛星と送受信できるように変調及び復調する。
本発明の実施形態において、前記音節情報は、初声、中声、終声の組み合わせを含み、初声、中声、終声は、ローマ字発音記号で表現される。
例えば、初声は、次のように無音価、有声子音、無声子音、半子音を含む26種で構成することができる。
例えば、中声は、次のように10種の母音で構成することができる。
例えば、終声は、次のように無音価、有声子音、無声子音を含む12種で構成することができる。
また、音節情報は、一定の長さの休止区間を示す休止符を含みうる。
もちろん、表現しようとする音節によって必要に応じて、初声、中声、終声に前記のような音節構成要素以外にも他の音節構成要素が追加される。
また、前記音節情報は、音色情報をさらに含みうる。例えば、音色情報は、男性、女性、老人、子供別に所定個数(例えば、100レベル)で設定されて、総400個の音色を表現することができる。音色情報として、デフォルトで特定の音色が設定されるか、ユーザ音声の周波数または波形を分析して特定の音色を設定するか、ユーザが選択した特定の音色が設定されうる。音色情報は、電話中にユーザが変更可能にすることもできる。音色の種類及びレベルも、拡大または追加される。受信側の音声合成部223は、音声合成時に音節情報に含まれた音色情報を反映して音声信号を生成することができる。
1つの音節を示すためのコード数を見れば、次の通りである。まず、初声26個、中声10個、終声12個の組み合わせは、26×10×12=3,120になり、各組み合わせごとに5種の韻律があるので、3,120×5=15,600になり、これに、休止符を加えれば、15,601になる。そして、音色情報400を加えれば、15,601+400=16,001になる。すなわち、16,001種のコードで1つの有効音節を表現することができる。
例えば、1つの音節を2Byteで表現する場合、2Byteは、16ビットなので、0000~FFFF、すなわち、216=65,536種に表現可能である。そして、0000は、休止符として使用するので、0001~FFFF、すなわち、65,535-16,001=49,534が残るので、この部分は、他の付加情報を伝達することができる予備コードとして活用することができる。すなわち、0000Hで休止符を表現し、0001H(1)~3CF1H(15,601)で音節及び韻律を表現し、~3E81H(16,001)で音色を表現し、~FFFFH(65,535)を予備コードとして使用することができる。図2は、これによる音節情報のコード構成を示す。
本発明の実施形態において、音節を構成する初声、中声、終声は、図3に示したように、3次元座標系の3軸にそれぞれ対応させることができる。例えば、初声をx軸に、中声をy軸に、終声をz軸に対応させることができる。そして、3次元座標系での初声、中声、終声のそれぞれの座標値によって当該音節がデジタルデータにマッピングされる。この際、韻律を含む音節情報は、3次元座標系での初声、中声、終声のそれぞれの座標値と共に、韻律情報に基づいてデジタルデータにマッピングされる。
図4は、音節を構成する初声、中声、終声に対応する3次元座標系の具体例を示す。
韻律値をnであるとすれば、例えば、普通音の場合、n=1、上昇音の場合、n=2、下降音の場合、n=3、長音の場合、n=4、強勢音の場合、n=5に示すことができる。
音節(x、y、z)と韻律nとに対応するコードは、次の数式によって計算される。
f(x,y,z,n)=(Xm*Ym*Zm)*(n-1)+(Xm*Ym)*(z-1)+Xm*(y-1)+x
ここで、Xm、Ym、Zmは、それぞれx、y、zの最大値、すなわち、Xm=26、Ym=10、Zm=12であり、x、y、z≠0である。
例えば、普通音[a]をデジタル値で示すと、f(1,1,1,1)=0001Hになる。
64bpsは、高音質オーディオ伝送用ビットレートである320kbpsの僅か約1/5000に過ぎない値である。したがって、本発明によれば、既存の伝送方式よりも約5000倍の伝送チャネルを確保することができ、最大圧縮時の音声通信用ビットレートである2.4kbpsと比較しても、約37.5倍も高い伝送効率を有する。
本発明の実施形態において、音節を構成する初声、中声、終声をローマ字発音記号で表現したが、本発明は、ローマ字発音記号に限定されるものではなく、ハングル(Korean Alphabet)発音記号、日本語(ひらがな)発音記号、国際標準発音記号など初声、中声、終声を表現することができる発音記号であれば、如何なる文字に基づいたものでも使われる。
また、無線通信装置100は、符号化部113、213から出力される前記デジタル送信データ受信部121、221から出力される前記デジタル受信データを保存する録音部(図示せず)をさらに備えることができる。
符号化部113、213から出力されるデジタル送信データや受信部121、221から出力されるデジタル受信データは、音節情報ストリームを3次元座標系を用いてデジタルデータ化し、デジタルデータで作ったものであるために、録音部(図示せず)を構成するメモリは、既存の音声通信方式や音声圧縮ファイルを保存する方式に比べてメモリ容量を最小化させることができる。
また、録音部(図示せず)で特定の単語や音節を検索する場合、該当する単語や音節を録音部でデジタルデータの状態に直接マッチングして検索することができるので、既存の音声圧縮ファイルを保存し、録音データを検索する方式に比べて特定の単語などの録音内容を迅速に検索することができる。
音節や単語を検索するために、デジタルデータをマッチングする方法は、多様であり、当業者がその方法を容易に理解することができるので、詳細な説明は省略する。
無線通信装置100が人工衛星を通じた通信のための無線通信装置である場合、アンテナ130は、人工衛星に向かった方向、すなわち、上方に向かうように指向制御されることが望ましい。図5は、そのための本発明の一実施形態による無線通信装置の追加的な構成を示す。
図5を参照すれば、無線通信装置100は、アンテナ130に連結された3軸ギア131、姿勢制御部132、ジャイロセンサー133をさらに含みうる。姿勢制御部132は、ジャイロセンサー133のセンシング値によって3軸ギア131を制御して無線通信装置100が傾いてもアンテナ130が上方に向かうようにする。
図6は、本発明の実施形態によって無線通信装置100のアンテナ130が上方に向かうように制御される形状を示す。示したように、無線通信装置100が傾いても、アンテナ130は上方に向かうので、人工衛星との通信が円滑になされる。
本発明の実施形態は、機能的なブロック構成及び多様な処理段階で表われる。このような機能ブロックは、特定の機能を実行する多様な個数のハードウェアまたは/及びソフトウェア構成として具現可能である。例えば、実施形態は、1つ以上のマイクロプロセッサの制御または他の制御装置によって多様な機能を実行することができる、メモリ、プロセッシング、ロジック(logic)、ルックアップテーブル(look-up table)のような集積回路構成を採用することができる。本発明での構成要素が、ソフトウェアプログラミングまたはソフトウェア要素で実行されるものと類似に、実施形態は、データ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含んで、C、C++、ジャバ(Java)、アセンブラー(assembler)のようなプログラミングまたはスクリプト言語として具現可能である。機能的な側面は、1つ以上のプロセッサで実行されるアルゴリズムとして具現可能である。また、実施形態は、電子的な環境設定、信号処理、及び/またはデータ処理などのために、従来技術を採用することができる。「メカニズム」、「要素」、「手段」、「構成」のような用語は、広く使われ、機械的であり、物理的な構成として限定されるものではない。前記用語は、プロセッサなどと連携してソフトウェアの一連の処理(routines)の意味を含みうる。
実施形態で説明する特定の実行は、一実施形態であって、如何なる方法でも実施形態の範囲を限定するものではない。明細書の簡潔さのために、従来の電子的な構成、制御システム、ソフトウェア、前記システムの他の機能的な側面の記載は省略される。また、図面に示された構成要素間の線の連結または連結部材は、機能的な連結及び/または物理的または回路的連結を例示的に示したものであって、実際の装置では代替可能であるか、追加の多様な機能的な連結、物理的な連結、または回路連結として表われる。また、「必須的な」、「重要に」のように具体的な言及がなければ、本発明の適用のために、必ずしも必要な構成要素ではない。
以上、本発明について、その望ましい実施形態を中心に説明した。当業者ならば、本発明が、本発明の本質的な特性から外れない範囲で変形された形態として具現可能であるということを理解できるであろう。したがって、開示された実施形態は、限定的な観点ではなく、説明的な観点で考慮されなければならない。本発明の範囲は、前述した説明ではなく、特許請求の範囲に示されており、それと同等な範囲内にあるあらゆる差異点は、本発明に含まれるものと解釈しなければならない。
Claims (11)
- マイクを通じて入力される音声信号を音声認識を用いて音節情報のストリームに変換する音声認識部と、
前記音節情報のストリームを符号化してデジタル送信データを生成する符号化部と、
前記デジタル送信データを変調して送信信号をアンテナを通じて送信する送信部と、
前記アンテナを通じて受信される受信信号を復調してデジタル受信データを出力する受信部と、
前記デジタル受信データを復号化して音節情報のストリームに変換する復号化部と、
前記音節情報のストリームを音声合成を用いて音声信号に変換してスピーカーを通じて出力する音声合成部と、
を含むことを特徴とする無線通信装置。 - 前記音節情報は、初声、中声、終声の組み合わせを含むことを特徴とする請求項1に記載の無線通信装置。
- 前記音節情報は、韻律情報をさらに含むことを特徴とする請求項2に記載の無線通信装置。
- 前記韻律情報は、普通音、上昇音、下降音、長音、強勢音を含むことを特徴とする請求項3に記載の無線通信装置。
- 前記音節情報は、音色情報をさらに含むことを特徴とする請求項2に記載の無線通信装置。
- 前記音色情報は、男性、女性、老人、子供別に所定個数のレベルを含むことを特徴とする請求項5に記載の無線通信装置。
- 前記音節情報を構成する初声、中声、終声は、3次元座標系の3軸にそれぞれ対応し、前記音節情報は、前記3次元座標系での前記初声、中声、終声のそれぞれの座標値によってデジタルデータにマッピングされることを特徴とする請求項2に記載の無線通信装置。
- 前記音節情報は、韻律情報をさらに含み、
前記音節情報は、前記3次元座標系での前記初声、中声、終声のそれぞれの座標値及び前記韻律情報に基づいて前記デジタルデータにマッピングされることを特徴とする請求項7に記載の無線通信装置。 - 前記無線通信装置は、人工衛星を通じた音声通話のための無線通信装置であり、
前記送信部及び前記受信部は、前記送信信号及び前記受信信号を人工衛星と送受信できるように変調及び復調することを特徴とする請求項1に記載の無線通信装置。 - ジャイロセンサーと、
前記アンテナに連結された3軸ギアと、
前記ジャイロセンサーのセンシング値によって前記アンテナが上方に向かうように前記3軸ギアを制御するアンテナ姿勢制御部と、
をさらに含むことを特徴とする請求項9に記載の無線通信装置。 - 前記符号化部から出力される前記デジタル送信データ及び前記受信部から出力される前記デジタル受信データを保存する録音部をさらに備えることを特徴とする請求項1に記載の無線通信装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0010472 | 2021-01-25 | ||
KR1020210010472A KR102548618B1 (ko) | 2021-01-25 | 2021-01-25 | 음성인식 및 음성합성을 이용한 무선통신장치 |
PCT/KR2021/001397 WO2022158633A1 (ko) | 2021-01-25 | 2021-02-03 | 음성인식 및 음성합성을 이용한 무선통신장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024506527A true JP2024506527A (ja) | 2024-02-14 |
Family
ID=82549119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023544784A Pending JP2024506527A (ja) | 2021-01-25 | 2021-02-03 | 音声認識及び音声合成を利用した無線通信装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11942072B2 (ja) |
EP (1) | EP4283612A1 (ja) |
JP (1) | JP2024506527A (ja) |
KR (1) | KR102548618B1 (ja) |
CN (1) | CN116848581A (ja) |
WO (1) | WO2022158633A1 (ja) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
KR100270237B1 (ko) * | 1997-10-15 | 2000-10-16 | 윌리암 손 | 무선네트워크상에서음성대화식인터넷접속휴대통신장치및방법 |
KR100717349B1 (ko) * | 2005-05-30 | 2007-05-10 | 충남대학교산학협력단 | 3축 위성 안테나 |
KR100819928B1 (ko) * | 2007-04-26 | 2008-04-08 | (주)부성큐 | 휴대 단말기의 음성 인식장치 및 그 방법 |
KR101102520B1 (ko) * | 2011-02-22 | 2012-01-03 | 이윤재 | 한글 자모의 메트릭스 결합 관계를 기반으로 하는 시청각 한글학습 시스템 및 그 운영 방법 |
US9666204B2 (en) * | 2014-04-30 | 2017-05-30 | Qualcomm Incorporated | Voice profile management and speech signal generation |
KR102604319B1 (ko) * | 2016-11-01 | 2023-11-24 | 한국전자통신연구원 | 화자 인증 시스템 및 그 방법 |
KR20190024148A (ko) * | 2017-08-31 | 2019-03-08 | 경북대학교 산학협력단 | 음성 인식 장치 및 음성 인식 방법 |
-
2021
- 2021-01-25 KR KR1020210010472A patent/KR102548618B1/ko active IP Right Grant
- 2021-02-03 CN CN202180091762.5A patent/CN116848581A/zh active Pending
- 2021-02-03 WO PCT/KR2021/001397 patent/WO2022158633A1/ko active Application Filing
- 2021-02-03 EP EP21921404.6A patent/EP4283612A1/en active Pending
- 2021-02-03 US US17/439,197 patent/US11942072B2/en active Active
- 2021-02-03 JP JP2023544784A patent/JP2024506527A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4283612A1 (en) | 2023-11-29 |
CN116848581A (zh) | 2023-10-03 |
KR102548618B1 (ko) | 2023-06-27 |
US11942072B2 (en) | 2024-03-26 |
WO2022158633A1 (ko) | 2022-07-28 |
US20230090052A1 (en) | 2023-03-23 |
KR20220107631A (ko) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2265442T3 (es) | Aparato para la expansion del ancho de banda de una señal vocal. | |
US6161091A (en) | Speech recognition-synthesis based encoding/decoding method, and speech encoding/decoding system | |
US7395078B2 (en) | Voice over short message service | |
US6516298B1 (en) | System and method for synthesizing multiplexed speech and text at a receiving terminal | |
JPS59225635A (ja) | 極狭帯域通信システム | |
JP2006523867A (ja) | 携帯型デバイス内のテキスト音声処理用システムおよび方法 | |
JPH05233565A (ja) | 音声合成システム | |
KR100291155B1 (ko) | 오류데이타를음성합성데이타로교체시키는음성송수신시스템 | |
TW521265B (en) | Relative pulse position in CELP vocoding | |
WO2008147649A1 (en) | Method for synthesizing speech | |
JPH0576040B2 (ja) | ||
CN113450760A (zh) | 一种文本转语音的方法、装置及电子设备 | |
RU2320026C2 (ru) | Преобразование буквы в звук для синтезированного произношения сегмента текста | |
WO1997007498A1 (fr) | Unite de traitement des signaux vocaux | |
JP2024506527A (ja) | 音声認識及び音声合成を利用した無線通信装置 | |
JP2000356995A (ja) | 音声通信システム | |
US20030065512A1 (en) | Communication device and a method for transmitting and receiving of natural speech | |
JP2003029774A (ja) | 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置 | |
CN111199747A (zh) | 人工智能通信系统及通信方法 | |
JP2021177228A (ja) | 多言語多話者個性表現音声合成のための電子装置およびこの処理方法 | |
US20080172222A1 (en) | Very low bit rate speech transmission system | |
JPH10161690A (ja) | 音声通信システム及び音声合成装置及びデータ送信装置 | |
JP2003202884A (ja) | 音声合成システム | |
Pagarkar et al. | Language Independent Speech Compression using Devanagari Phonetics | |
Mullen | Unlimited vocabulary speech synthesis with low data rates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230731 |