JP2022137114A - 端末機及びその動作方法 - Google Patents
端末機及びその動作方法 Download PDFInfo
- Publication number
- JP2022137114A JP2022137114A JP2022103809A JP2022103809A JP2022137114A JP 2022137114 A JP2022137114 A JP 2022137114A JP 2022103809 A JP2022103809 A JP 2022103809A JP 2022103809 A JP2022103809 A JP 2022103809A JP 2022137114 A JP2022137114 A JP 2022137114A
- Authority
- JP
- Japan
- Prior art keywords
- terminal
- voice
- host
- user
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011017 operating method Methods 0.000 title claims abstract description 7
- 238000004891 communication Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims description 30
- 230000000052 comparative effect Effects 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000011295 pitch Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/414—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
- H04N21/41407—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
- H04N21/4316—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
- H04L65/611—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for multicast or broadcast
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Digital Computer Display Output (AREA)
Abstract
【課題】効果的にリアルタイム放送を行うことができる端末機及びその動作方法を提供する。【解決手段】端末機100は、放送チャンネルを介して端末機の使用者がホストであるリアルタイム放送が開始されると、2つの領域に分割され、2つの領域のうち1つの領域がホストに割り当てられるディスプレイ、ホストの音声を受信する入出力インターフェース、放送チャンネルに入場した少なくとも1人以上のゲストのうち特定ゲストの端末機から少なくとも1つ以上のアイテムのうちから選択された1つのアイテム及び特定テキストを受信する通信インターフェース及び特定テキストをホストの音声または特定ゲストの音声に変換した音声メッセージを生成するプロセッサを含む。【選択図】図2
Description
記載された実施形態は、より効果的にテキストを音声に変換する端末機及びその動作方法に関する。
通信技術が発展し、電子装置が小型化するに伴い、個人用端末機が一般消費者に広く普及している。特に最近では、スマートフォンまたはスマートタブレットのような携帯用個人端末機が広く普及している。端末機のほとんどは、通信機能を含んでいる。使用者は、端末機を用いてインターネットで検索を行ったり、他の使用者とメッセージを送受信することができる。
また、小型カメラ技術、小型マイク技術、小型ディスプレイ技術及び小型スピーカー技術の発展に伴い、スマートフォンのようなほとんどの端末機には、カメラ、マイク、ディスプレイ及びスピーカーが含まれている。使用者は、端末機を用いて音声を録音したり、音声が含まれた動画を撮影することができる。使用者は、端末機に含まれたスピーカーを介して録音された音声を確認したり、ディスプレイを介して前記撮影された動画を確認することができる。
使用者は、端末によって現在録音されている音声または現在撮影されている動画をリアルタイムで少なくとも1人以上の他の使用者に送信することができる。少なくとも1人以上の他の使用者は、端末機を介して他の使用者の端末によって現在撮影されている動画または音声をリアルタイムで確認することができる。
記載された実施形態によれば、より効果的にリアルタイム放送を行うことができる端末機及びその動作方法が提供されることができる。
また、実施形態によれば、リアルタイム放送サービスによって人間関係を拡張することができる端末機、及びその動作方法が提供されることができる。
本発明の実施形態に係る放送チャンネルを介してリアルタイム放送を行うことができるサービスを提供する端末機の動作方法は、放送チャンネルを介して端末機の使用者がホストであるリアルタイム放送が開始される段階、リアルタイム放送が開始されると、端末機のディスプレイが2つの領域に分割され、2つの領域のうち1つの領域がホストに割り当てられる段階、リアルタイム放送中にホストの音声を認識する段階、放送チャンネルに入場した少なくとも1人以上のゲストのうち特定ゲストの端末機から少なくとも1つ以上のアイテムのうちから選択された1つのアイテム及び特定テキストを受信する段階、特定テキストをホストの音声または特定ゲストの音声に変換した音声メッセージを生成する段階、及び音声メッセージを出力する段階を含むことができる。
いくつかの実施形態として、端末機の動作方法は、特定テキストをホストの音声に変換した音声メッセージを生成するためのアルゴリズムを準備する段階をさらに含むことができる。
いくつかの実施形態として、特定テキストをホストの音声に変換した音声メッセージを生成する段階は、ホストの音声及び特定テキストをアルゴリズムに適用して音声メッセージを生成することができる。
いくつかの実施形態として、特定テキストをホストの音声に変換した音声メッセージを生成するためのアルゴリズムを準備する段階は、複数の音声と複数のテキスト、そして複数のテキストのそれぞれを複数の音声に変換した複数の音声メッセージとの間の相関関係について学習された、学習モデルを準備することができる。
いくつかの実施形態として、端末機の動作方法は、ホストの音声から音声特徴を抽出する段階、抽出された音声特徴に基づいて比較音声を生成する段階、ホストの音声及び比較音声を比較する段階、及び比較結果に応じて音声特徴を保存する段階をさらに含むことができる。
いくつかの実施形態として、ホストの音声及び比較音声を比較する段階は、ホストの音声及び比較音声の間のサンプリング値の誤差を計算し、比較結果に応じて音声特徴を保存する段階は、誤差が基準値以下である場合、音声特徴を保存することができる。
いくつかの実施形態として、特定テキストをホストの音声に変換した音声メッセージを生成する段階は、特定テキスト及び音声特徴に基づいて音声メッセージを生成することができる。
いくつかの実施形態として、少なくとも1つ以上のアイテムは、サービス内で財貨的価値を有することができる。
いくつかの実施形態として、端末機の動作方法は、放送チャンネルに入場した少なくとも1人以上のゲストのうち第1ゲストが放送に直接参加する段階、及びディスプレイの2つの領域のうちホストに割り当てられた領域を除いた他の領域が第1ゲストに割り当てられる段階をさらに含むことができる。
本発明の実施形態に係る端末機は、放送チャンネルを介して端末機の使用者がホストであるリアルタイム放送が開始されると、2つの領域に分割され、2つの領域のうち1つの領域がホストに割り当てられるディスプレイ、ホストの音声を受信する入出力インターフェース、放送チャンネルに入場した少なくとも1人以上のゲストのうち特定ゲストの端末機から少なくとも1つ以上のアイテムのうちから選択された1つのアイテム及び特定テキストを受信する通信インターフェース、及び特定テキストをホストの音声または特定ゲストの音声に変換した音声メッセージを生成するプロセッサを含むことができる。
いくつかの実施形態として、プロセッサは、複数の音声と複数のテキスト、そして複数のテキストのそれぞれを複数の音声に変換した複数の音声メッセージとの間の相関関係について学習された、学習モデルを準備し、ホストの音声及び特定テキストを学習モデルに適用して音声メッセージを生成することができる。
いくつかの実施形態として、端末機は、学習モデルを保存するメモリーをさらに含むことができる。
いくつかの実施形態として、プロセッサは、ホストの音声から音声特徴を抽出し、抽出された音声特徴に基づいて比較音声を生成し、ホストの音声及び比較音声を比較し、比較結果に応じて、特定テキスト及び音声特徴に基づいて音声メッセージを生成することができる。
いくつかの実施形態として、ディスプレイは、放送チャンネルに入場した少なくとも1人以上のゲストのうち第1ゲストが放送に直接参加する場合、ディスプレイの2つの領域のうちホストに割り当てられた領域を除いた他の領域が第1ゲストに割り当てられることができる。
記載された実施形態に係る端末機、及びその動作方法は、より効果的にリアルタイム放送を行うことができる。
また、実施形態に係る端末機、及びその動作方法は、リアルタイム放送サービスによって人間関係を拡張することができる。
本発明の利点及び特徴、そしてそれを達成する方法は、添付した図面と共に詳細に後述されている実施形態を参照すると明確になる。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、互いに異なる様々な形態で具現されることができ、単に本実施形態は、本発明の開示が完全になるようにして、本発明が属する技術分野における通常の知識を有する者に発明の範疇を完全に知らせるために提供されるものであり、本発明は、請求項の範疇によって定義されるだけである。明細書全体にわたって同一の参照符号は、同一の構成要素を指す。
「第1」または「第2」などが、様々な構成要素を記述するために使用されるが、このような構成要素は、前記のような用語によって制限されるものではない。前記のような用語は、単に1つの構成要素を他の構成要素と区別するために使用されることができる。したがって、以下に言及される第1構成要素は、本発明の技術的思想内で第2構成要素であることもできる。
本明細書で使用される用語は、実施形態を説明するためのものであって、本発明を制限しようとするものではない。本明細書において、単数形は、文面で特に言及しない限り、複数形も含む。明細書で使用される「含む(comprises)」または「含んでいる(comprising)」は、言及された構成要素または段階が1つ以上の他の構成要素または段階の存在または追加を排除しないという意味を内包する。
別途の定義がなければ、本明細書で使用されるすべての用語は、本発明が属する技術分野において、通常の知識を有する者に共通的に理解され得る意味で解釈されることができる。また、一般的に使用される辞書に定義されている用語は、明白に特別に定義されていない限り、理想的または過度に解釈されない。
図1は、本発明の実施形態に係る端末機が動作する環境を示すシステム構成図である。
図1を参照すると、複数の端末機100~300が動作するシステム環境は、サーバ400及び複数の端末機100~300を含むことができる。例えば、複数の端末機100~300が動作する環境は、少なくとも1つ以上のサーバを含むことができる。
複数の端末機100~300のそれぞれは、サーバ400を媒介として連結されることができる。本発明の説明の便宜のために、図1で3つの端末機が示されている。しかし、端末機の数は、3つに限定されるものではない。複数の端末機100~300のそれぞれは、デスクトップコンピュータ、ラップトップコンピュータ、スマートフォン、スマートタブレット、スマートウォッチ、移動端末機、デジタルカメラ、ウェアラブルデバイス(wearable device)、または携帯用電子機器のうちの1つとして具現されることができる。複数の端末機100~300のそれぞれは、プログラムまたはアプリケーションを実行することができる。
複数の端末機100~300のそれぞれは、通信網に連結されることができる。複数の端末機100~300のそれぞれは、通信網を介して互いに連結されたり、サーバ400と連結されることができる。複数の端末機100~300のそれぞれは、互いに連結された他の装置にデータを出力したり、他の装置からデータを受信することができる。
複数の端末機100~300のそれぞれに連結された通信網は、有線通信網、無線通信網、または複合通信網を含むことができる。通信網は、3G、LTE、またはLTE-Aなどのような移動通信網を含むことができる。通信網は、ワイファイ(Wi-Fi)、UMTS/GPRS、またはイーサネット(Ethernet)などのような有線または無線通信網を含むことができる。通信網は、マグネチック保安出力(MST,Magnetic Secure Transmission)、RFID(Radio Frequency Identification)、NFC(Near Field Communication)、ジグビー(ZigBee)、Z-Wave、ブルートゥース(登録商標)(Bluetooth)、低電力ブルートゥース(BLE,Bluetooth Low Energy)、または赤外線通信(IR,InfraRed communication)などのような近距離通信網を含むことができる。通信網は、近距離ネットワーク(LAN,Local Area Network)、メトロポリタン・エリア・ネットワーク(MAN,Metropolitan Area Network)、またはワイド・エリア・ネットワーク(WAN,Wide Area Network)などを含むことができる。
複数の端末機100~300の間に様々な形態の通信セッションが確立されることができる。例えば、複数の端末機100~300は、互いにメッセージ、ファイル、音声データ、映像、または動画などを送受信することができる。例えば、複数の端末機100~300は、TCP(Transmission Control Protocol)、UDP(User Datagram Protocol)、またはWebRTC(Web Real-Time Communication)などを用いて、リアルタイム放送を行うことができる。
いくつかの実施形態として、複数の端末機100~300には、リアルタイム放送を行うか、視聴することができるアプリケーションが設置されていることがあり得る。複数の端末機100~300のうち第1端末機100の使用者は、アプリケーションによってリアルタイム放送を行うための放送チャンネルを生成することができる。
そして、複数の端末機100~300のうち第2及び第3端末機200、300のそれぞれの使用者は、アプリケーションによって第1端末機100の使用者が生成した放送チャンネルに入場することができる。第2及び第3端末機200、300のそれぞれの使用者は、第1端末機100の使用者が進行する放送をリアルタイムで視聴することができる。
いくつかの実施形態として、第2端末機200の使用者及び第3端末機300の使用者のうちの少なくとも1人は、第1端末機100の使用者が生成した放送に参加して共にリアルタイム放送を進行することができる。複数の端末機100~300のディスプレイを介して表示される2つに分割された画面は、それぞれ第1端末機100の使用者及び2端末機200の使用者及び第3端末機300の使用者のうち放送に参加した使用者に割り当てられることができる。
サーバ400は、複数の端末機100~300が互いに通信を行うことができるように連結させることができる。例えば、サーバ400は、複数の端末機100~300が、リアルタイム放送のチャンネルを形成及び参加することができるように、リアルタイム放送のサービスを提供することができる。
1つ以上の例示的な実施例において、端末機は、モバイル端末機、電子装置、セルラーフォン、スマートフォン、ラップトップコンピュータ、タブレットPC、電子ブック端末機、デジタル放送端末機、PDA(personal digital assistant)、携帯用マルチメディアプレーヤ(PMP)、ナビゲーション、MP3プレーヤ、デジタルカメラなどを含んでもよい。但し、端末機は、前記例示に限定されるものではない。
図2は、本発明の実施形態に係る端末機の構成を示すブロック図である。図2を参照すると、第1端末機100は、入出力インターフェース110、ディスプレイ120、メモリー130、通信インターフェース140、及びプロセッサ150を含むことができる。図1に示した第2端末機200及び第3端末機300のそれぞれは、第1端末機100と類似または同一に具現されることができる。
入出力インターフェース110は、外部から信号を受信することができる。入出力インターフェース110は、第1端末機100の使用者から信号を受信することができる。また、入出力インターフェース110は、外部装置から信号を受信することができる。入出力インターフェース110は、例えば、マイク、カメラ、キーボード、マウス、トラックボール、タッチスクリーン、ボタン、スイッチ、センサー、ネットワークインターフェース、またはその他の入力装置などを含むことができる。入出力インターフェース110は、入出力インターフェース110に含まれたマイクを介して外部から音声を受信することができる。
また、入出力インターフェース110は、入出力インターフェース110に含まれたカメラ(図示せず)から撮影されたイメージまたは映像を受信したり、端末機100の使用者からジェスチャーを受信することができる。
入出力インターフェース110は、ディスプレイ120を含むことができる。例えば、ディスプレイ120は、LCD(Liquid Crystal Display)、OLED(Organic Light Emitting Diode)、またはPDP(Plasma Display Panel)などの平板表示装置を含むことができる。ディスプレイ120は、曲面ディスプレイまたはフレキシブルディスプレイ(flexible display)を含むことができる。ディスプレイ120は、タッチスクリーンを含むことができる。ディスプレイ120がタッチスクリーンを含む場合、ディスプレイ120は、第1端末機100の使用者からタッチ入力を受信することができる。
ディスプレイ120は、データを表示することができる。または、ディスプレイ120は、プロセッサ150によって行われた演算結果を表示することができる。または、ディスプレイ120は、メモリー130に保存されたデータを表示することができる。ディスプレイ120は、入出力インターフェース110を介して受信されるデータまたは通信インターフェース140によって受信されたデータを表示することができる。
いくつかの実施形態として、第1端末機100でリアルタイム放送のアプリケーションが実行される場合、ディスプレイ120は、第1端末機100の使用者の映像を出力することができる。また、通信インターフェース140を介して第2端末機200の使用者の映像または第3端末機300の使用者の映像が受信される場合、ディスプレイ120は、第1端末機100の使用者の映像と共に第2端末機200の使用者の映像または第3端末機300の使用者の映像を出力することができる。
いくつかの実施形態として、ディスプレイ120は、第1端末機100の使用者から特定入力を受信することができる。特定入力は、少なくとも1つ以上のアイテムのうちから1つのアイテムを選択する入力または特定テキストを記入する入力であり得る。例えば、アイテムは、アプリケーション内で財貨的価値を有することができる。アプリケーションの使用者は、アイテムを購入し、購入したアイテムを互いにプレゼントすることができる。
いくつかの実施形態として、第1端末機100でリアルタイム放送のアプリケーションが実行される場合、入出力インターフェース110は、音を出力することができる。入出力インターフェース110は、入出力インターフェース110を介して受信された音、または通信インターフェース140を介して第2端末機200または第3端末機300から受信された音を出力することができる。例えば、入出力インターフェース110は、スピーカー(図示せず)を含むことができる。
いくつかの実施形態として、第1端末機100でリアルタイム放送のアプリケーションが実行される場合、入出力インターフェース110は、第1端末機100の使用者から受信されたプロフィール情報または使用者入力を受信することができる。例えば、使用者のプロフィール情報は、端末機100の使用者の写真、趣味情報、性別情報、国家情報または年齢情報のうちの少なくとも1つを含むことができる。また、使用者のプロフィール情報は、使用者によって撮影されたビデオをさらに含むことができる。そして、使用者入力は、端末機100の使用者から受信されるタッチ入力であり得る。
メモリー130は、データを保存することができる。メモリー130は、入出力インターフェース110から受信された音声データ、イメージデータまたは使用者のプロフィール情報を保存することができる。そして、メモリー130は、プロセッサ150によって行われた演算結果を保存することができる。例えば、メモリー130は、プロセッサ150によってエンコードされた音声を保存することができる。メモリー130は、通信インターフェース140を介して外部に出力するデータを保存したり、通信インターフェース140を介して外部から受信されたデータを保存することができる。
メモリー130は、ソフトウェアまたはプログラムを保存することができる。例えば、メモリー130は、アプリケーション、アプリケーションプログラミングインターフェース(API)などのようなプログラム及び様々な種類のデータを保存することができる。メモリー130は、プロセッサ150によって実行可能なコマンドを保存することができる。
メモリー130は、揮発性メモリーまたは不揮発性メモリーのうちの少なくとも1つを含むことができる。メモリー130は、例えば、フラッシュ(flash)メモリー、ROM(Read Only Memory)、RAM(Random Access Memory)、EEROM(Electrically Erasable ROM)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、ハードディスクドライブ(HDD,Hard Disk Drive)、またはレジスター(register)のうちの少なくとも1つを含むことができる。メモリー130は、例えば、ファイルシステム、データベース、またはエンベッディドデータベースなどを含むことができる。
通信インターフェース140は、端末機100の外部にデータを出力したり、外部からデータを受信することができる。通信インターフェース140は、サーバ400または外部装置にデータを出力することができる。通信インターフェース140は、サーバ400及び外部装置からデータを受信することができる。通信インターフェース140は、プロセッサ150によって行われた演算結果を外部に出力することができる。
いくつかの実施形態として、第1端末機100でリアルタイム放送のアプリケーションが実行される場合、通信インターフェース140は、第2端末機200または第3端末機300から映像または音声を受信することができる。
また、通信インターフェース140は、第1端末機100の使用者から選択されたアイテムまたは特定テキストを第2端末機200または第3端末機300に送信することができる。または、通信インターフェース140は、第2端末機200または第3端末機300からアイテムまたは特定テキストを受信することができる。
通信インターフェース140は、例えば、3Gモジュール、LTEモジュール、LTE-Aモジュール、Wi-Fiモジュール、ワイギグ(WiGig)モジュール、UWB(Ultra Wide Band)モジュール、またはLANカードなどのような遠距離用ネットワークインターフェースを含むことができる。また、通信インターフェース140は、マグネチック保安出力(MST)モジュール、ブルートゥースモジュール、NFCモジュール、RFIDモジュール、ジグビー(ZigBee)モジュール、Z-Waveモジュール、または赤外線モジュールなどのような近距離用ネットワークインターフェースを含むことができる。また、通信インターフェース140は、その他のネットワークインターフェースを含むことができる。
プロセッサ150またはプロセッサ150に含まれた構成要素のそれぞれは、ソフトウェア(software)またはハードウェア(hardware)形態で具現されることができる。例示的に、ソフトウェアは、機械コード、ファームウェアコード(firmware code)、エンベッディドコード(embedded code)、及びアプリケーション(application)などのようなプログラム実行コマンドとして具現されることができる。ハードウェアは、電気電子回路、プロセッサ、コンピュータ、圧力センサー、慣性センサー、MEMS(microelectromechanical system)、受身素子、またはそれらの組合であり得る。
プロセッサ150は、端末機100の動作を制御することができる。プロセッサ150は、端末機100に含まれたそれぞれの構成要素と互いに連結されることができ、端末機100に含まれたそれぞれの構成要素の動作を制御することができる。プロセッサ150は、入出力インターフェース110によって受信された信号に対する応答として、端末機100の動作を制御することができる。
いくつかの実施形態として、第1端末機100がホスト端末機としてリアルタイム放送のアプリケーションが実行する場合、プロセッサ150は、入出力インターフェース110を介して受信される第1端末機100の使用者の音声を認識することができる。そして、通信インターフェース140を介して特定テキストが受信される場合、プロセッサ150は、特定テキストを第1端末機100の使用者の音声に変換した音声メッセージを生成するために準備することができる。
いくつかの実施形態として、プロセッサ150は、準備された学習モデルを用いて特定テキストを第1端末機100の使用者の音声に変換した音声メッセージを生成することができる。他の実施形態として、プロセッサ150は、第1端末機100の使用者の音声から特徴を抽出し、抽出された特徴を用いて特定テキストを第1端末機100の使用者の音声に変換した音声メッセージを生成することができる。
複数の端末機100~300及びサーバ400の詳細な動作方法は、図3~図9を参照して説明されることができる。
図3は、本発明の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。
図1~図3を参照すると、第1端末機100の使用者は、リアルタイム放送のアプリケーションを実行することができる。第1端末機100の使用者は、リアルタイム放送のアプリケーションによって放送チャンネルを生成することができる。第1端末機100の使用者は、放送チャンネルを介してリアルタイムで音声放送または映像放送を行うことができる。
いくつかの実施形態として、第1端末機100の使用者が放送チャンネルを生成して入場すると、第1端末機100のディスプレイ120は、2つの領域121、122に分割されることができる。2つの領域121、122のうち第1領域121は、第1端末機100の使用者に割り当てられることができる。
いくつかの実施形態として、第1端末機100の使用者が音声放送を行う場合、第1領域121には、第1端末機100の使用者が設定したプロフィール写真が表示されることができる。もし、第1端末機100の使用者が映像放送を行う場合、第1領域121には、第1端末機100の使用者が撮影している映像が表示されることができる。
いくつかの実施形態として、第1端末機100の使用者が生成した放送チャンネルに第2端末機200の使用者及び第3端末機300の使用者が入場することができる。第2端末機200の使用者及び第3端末機300の使用者は、第1端末機100の使用者が進行する放送をゲストとして傍聴することができる。
いくつかの実施形態として、第2端末機200の使用者及び第3端末機300の使用者のうちの少なくとも1人は、放送に直接参加することができる。もし、第2端末機200の使用者が放送に直接参加するなら、2つの領域121、122のうち第2領域122は、第2端末機200の使用者に割り当てられることができる。
いくつかの実施形態として、第2端末機200の使用者が音声放送を行う場合、第2領域122には、第2端末機200の使用者が設定したプロフィール写真が表示されることができる。もし、第2端末機200の使用者が映像放送を行う場合、第2領域122には、第2端末機200の使用者が撮影している映像が表示されることができる。
第2端末機200の使用者が放送に直接参加するなら、第1端末機100の使用者及び第2端末機200の使用者は、共に放送を進行することができる。そして、第3端末機300の使用者は、第1端末機100の使用者及び第2端末機200の使用者が進行する放送を傍聴することができる。
図4は、本発明の他の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。
図3及び図4を参照すると、第2端末機200の使用者または第3端末機300の使用者は、放送中に第1端末機100の使用者にアイテムをプレゼントしてあげることができる。例えば、アイテムは、アプリケーション内で財貨的価値を有することができる。アプリケーションの使用者はアイテムを購入し、購入したアイテムを互いにプレゼントすることができる。
いくつかの実施形態として、第2端末機200の使用者または第3端末機300の使用者は、アイテムギフトアイコン10をタッチすることができる。アイテムギフトアイコン10は、ディスプレイの一部領域に表示されることができる。第2端末機200の使用者または第3端末機300の使用者がアイテムギフトアイコン10を選択すると、アイコンポップアップウィンドウ20が表示されることができる。
いくつかの実施形態として、アイコンポップアップウィンドウ11には少なくとも1つ以上のアイテム21~23が表示され、第2端末機200の使用者または第3端末機300の使用者は、少なくとも1つ以上のアイテム21~23のうちの1つのアイテムを選択することができる。例えば、少なくとも1つ以上のアイテム21~23のそれぞれは、互いに異なる財貨的価値を有することができる。
第2端末機200の使用者または第3端末機300の使用者は、少なくとも1つ以上のアイテム21~23のうちの1つのアイテムを選択することができる。いくつかの実施形態として、第2端末機200の使用者または第3端末機300の使用者は、選択したアイテムと特定テキストを共に送信することができる。例えば、第2端末機200の使用者または第3端末機300の使用者は、「こんにちは」というテキストを入力することができる。第2端末機200の使用者または第3端末機300の使用者は、選択したアイテムと共に「こんにちは」というメッセージを第1端末機100の使用者に送信することができる。
他の実施形態として、第1端末機100の使用者または第3端末機300の使用者は、放送中に第2端末機200の使用者にアイテムをプレゼントしてあげることができる。第2端末機200の使用者または第3端末機300の使用者は、少なくとも1つ以上のアイテム21~23のうちの1つのアイテムを選択することができ、第1端末機100の使用者または第3端末機300の使用者は、選択したアイテムと特定テキストを共に送信することができる。
図5は、本発明のまた他の実施形態に係る端末機でリアルタイム放送のアプリケーションを実行する方法を示す図である。
図3~図5を参照すると、第1端末機100の使用者または第2端末機の使用者に選択されたアイテムと共に送信された特定テキストは、音声メッセージに変換されて出力されることができる。
いくつかの実施形態として、特定テキストは、特定使用者の声を用いて音声メッセージに変換されることができる。より具体的には、第2端末機200の使用者または第3端末機300のうちのいずれか1つの使用者が第1端末機100の使用者に送信した特定テキストである場合、特定テキストは、第1端末機100の使用者の声を用いて音声メッセージに変換されることができる。
または、第1端末機100の使用者または第3端末機300のうちのいずれか1つの使用者が第2端末機200の使用者に送信した特定テキストである場合、特定テキストは、第2端末機200の使用者の声を用いて音声メッセージに変換されることができる。
または、特定テキストは、特定テキストを送信した使用者の声を用いて音声メッセージに変換されることができる。すなわち、第2端末機200の使用者が第1端末機100の使用者に送信した特定テキストである場合、特定テキストは、第2端末機200の使用者の声を用いて音声メッセージに変換されることができる。
図2を参照すると、特定テキスト及び特定使用者の音声を使用して音声メッセージを生成する動作は、第1端末機100または第2端末機200のプロセッサ150で行われることができる。いくつかの実施形態として、プロセッサ150は、準備された学習モデルを用いて音声メッセージを生成することができる。プロセッサ150が準備された学習モデルを用いて音声メッセージを生成する方法は、図6を参照して説明することができる。
他の実施形態として、プロセッサ150は、特定音声の特徴を抽出し、抽出された特徴を用いて音声メッセージを生成することができる。プロセッサ150が特定音声の特徴を用いて音声メッセージを生成する方法は、図7を参照して説明することができる。
いくつかの実施形態として、第1端末機100の使用者の声を用いて特定テキストを音声メッセージに変換する場合、第1端末機100のプロセッサ150で変換が行われることができる。そして、生成された音声メッセージは、第2端末機200及び第3端末機300に送信されることができる。
他の実施形態として、第2端末機200の使用者の声を用いて特定テキストを音声メッセージに変換する場合、第2端末機200のプロセッサ150で変換が行われることができる。そして、生成された音声メッセージは、第1端末機100及び第3端末機300に送信されることができる。
図6は、本発明の実施形態に係る端末機でテキストを音声メッセージに変換する方法を示すためのフローチャートである。
図2~図6を参照すると、S110段階において、第1端末機100の使用者は、リアルタイム放送のチャンネルを開設し、放送を開始することができる。より具体的には、リアルタイム放送のアプリケーションによって放送チャンネルを生成することができる。第1端末機100の使用者は、放送チャンネルを介してリアルタイムで音声放送または映像放送を行うことができる。
S120段階において、第1端末機100のプロセッサ150は、特定使用者の音声を認識することができる。例えば、特定使用者は、第1端末機100の使用者であり得る。いくつかの実施形態として、第1端末機100のプロセッサ150は、放送中に入出力インターフェース110に受信される第1端末機100の使用者の音声を認識することができる。より具体的には、プロセッサ150は、入出力インターフェース110に入力されるオーディオデータのうち第1端末機100の使用者の音声を認識して抽出することができる。
S130段階において、第1端末機100は、通信インターフェース140を介して第1端末機100の使用者が開設したリアルタイム放送のチャンネルに入場したゲストからアイテム及び特定テキストを受信することができる。いくつかの実施形態として、リアルタイム放送のチャンネルに少なくとも1人以上のゲストが参加することができ、そのうち、特定ゲストからアイテム及び特定テキストを受信することができる。受信されたアイテム及び特定テキストは、プロセッサ150に伝達されることができる。
S140段階において、第1端末機100のプロセッサ150は、特定テキストを特定使用者の音声に変換した音声メッセージを生成するためのアルゴリズムを準備することができる。例えば、準備されたアルゴリズムは、特定テキストを特定使用者の音声を用いて音声メッセージに変換するために用いられるデータ認識モデルであり得る。データ認識モデルは、ニューラルネットワーク(Neural Network)を基盤とするモデルであり得る。例えば、学習モデルは、DNN(Deep Neural Network)、RNN(Recurrent Neural Network)、及びBRDNN(Bidirectional Recurrent Deep Neural Network)のようなモデルがデータ認識モデルとして使用されることができるが、これに限定されない。
準備された学習モデルは、特定テキストを特定音声に変換した音声メッセージを生成するための学習モデルであり得る。音声メッセージを生成するための学習モデルは、複数の音声と複数のテキスト、そして複数のテキストのそれぞれを複数の音声に変換した音声メッセージとの間の相関関係について学習された結果であり得る。
例えば、第1端末機100のプロセッサ150は、特定音声と特定テキスト、そして特定テキストを特定音声に変換した音声メッセージとの間の相関関係を学習することができる。端末機100は、学習結果に基づいて人工神経網を訓練して、学習モデルを生成することができる。
他の例として、端末機100は、サーバ400から音声メッセージを生成するための学習モデルを受信することができる。このような場合、サーバ400が特定音声と特定テキスト、そして特定テキストを特定音声に変換した音声メッセージとの間の相関関係を学習した学習モデルを生成し、生成された学習モデルが含まれているアプリケーションを端末機100に提供することができる。
S150段階において、第1端末機100のプロセッサ150は、アルゴリズムを用いて音声メッセージを生成することができる。より具体的には、第1端末機100のプロセッサ150は、特定使用者の音声及び特定テキストをアルゴリズムに適用して音声メッセージを生成することができる。音声メッセージは、特定テキストが特定使用者の音声に変換された結果であり得る。
S160段階において、第1端末機100は、生成された音声メッセージを出力することができる。より具体的には、第1端末機100は、入出力インターフェース110を介して音声メッセージを出力することができる。または第1端末機100は、通信インターフェース140を介して音声メッセージを出力することができる。
図7は、本発明の他の実施形態に係る端末機でテキストを音声メッセージに変換する方法を示すためのフローチャートである。
図1~図5及び図7を参照すると、S210段階において、第1端末機100の使用者は、リアルタイム放送のチャンネルを開設し、放送を開始することができる。より具体的には、リアルタイム放送のアプリケーションによって放送チャンネルを生成することができる。第1端末機100の使用者は、放送チャンネルを介してリアルタイムで音声放送または映像放送を行うことができる。
S220段階において、第1端末機100のプロセッサ150は、特定使用者の音声を認識することができる。例えば、特定使用者は、第1端末機100の使用者であり得る。より具体的には、第1端末機100のプロセッサ150は、放送中に入出力インターフェース110に受信される第1端末機100の使用者の音声を認識することができる。また、第1端末機100の使用者の音声は、メモリー130に保存されることができる。
S230段階において、第1端末機100のプロセッサ150は、基準時間以上特定使用者の音声が認識されると、音声の特徴を抽出することができる。例えば、音声特徴は、音声固有の抑揚、周波数帯域、フォルマント(formant)及びピッチ(pitch)などを意味することができる。すなわち、音声特徴は、その音声を作り出すことができる音声の固有特徴を意味することができる。
S240段階において、第1端末機100のプロセッサ150は、抽出された音声特徴に基づいて比較音声を生成することができる。そして、S250段階において、第1端末機100のプロセッサ150は、特定使用者の音声と生成された比較音声を比較することができる。
S260段階において、第1端末機100のプロセッサ150は、比較結果に応じて、音声特徴をメモリー130に保存することができる。いくつかの実施形態として、特定使用者の音声と比較音声との間の誤差が基準値以下であれば、プロセッサ150は、音声特徴をメモリーに保存することができる。例えば、誤差は、特定使用者の音声及び比較音声の間のサンプリング値の差によって計算されることができる。特定使用者の音声及び比較音声の間の誤差を計算する方法は、これに限定されず、様々な方法を用いて計算することができる。
いくつかの実施形態として、音声認識中にノイズが第1端末機100の使用者の音声と認識された場合、抽出された音声特徴を用いて生成された比較音声は、第1端末機100の使用者の音声と誤差が大きくなり得る。したがって、音声特徴を用いて第1端末機100の使用者の音声と類似した音声を生成するために、プロセッサ150は、音声特徴を用いて比較音声を生成し、第1端末機100の使用者の音声と比較音声を比較する過程を行うことができる。
S270段階において、第1端末機100は、通信インターフェース140を介して第1端末機100の使用者が開設したリアルタイム放送のチャンネルに入場したゲスト(使用者)からアイテム及び特定テキストを受信することができる。いくつかの実施形態として、リアルタイム放送のチャンネルに少なくとも1人以上のゲストが参加することができ、その中で特定ゲストからアイテム及び特定テキストを受信することができる。受信されたアイテム及び特定テキストは、プロセッサ150に伝達されることができる。
S280段階において、第1端末機100のプロセッサ150は、特定テキスト及び音声特徴に基づいて音声メッセージを生成して出力することができる。いくつかの実施形態として、プロセッサ150により、音声特徴に基づいて生成された音声メッセージは、特定使用者の音声と類似または同一であり得る。第1端末機100は、入出力インターフェース110を介して音声メッセージを出力することができる。または第1端末機100は、通信インターフェース140を介して音声メッセージを出力することができる。
図8は、本発明の実施形態に係る端末機のプロセッサを示す図である。
図1、図2、図6及び図8を参照すると、第1端末機100のプロセッサ150は、音声認識部151、及びモデル適用部153を含むことができる。図1に示した第2端末機200及び第3端末機300のそれぞれは、第1端末機100と類似または同一に具現されることができる。
音声認識部151は、放送中に第1端末機100の入出力インターフェース110に入力されるオーディオデータのうち第1端末機100の使用者の音声を認識して抽出することができる。いくつかの実施形態として、音声認識部151は、入力されたオーディオデータを分析して、音声区間と非音性区間を区分することができる。音声認識部151は、非音性区間に含まれたオーディオデータを除き、音声区間に含まれたオーディオデータの音声を認識し、モデル適用部153に送信することができる。
モデル適用部153は、第1端末機100の使用者の音声及び外部から受信された特定テキストをアルゴリズムに適用して音声メッセージを生成することができる。いくつかの実施形態として、音声メッセージを生成するための学習モデルは、特定音声と特定テキスト、そして特定テキストを特定音声に変換した音声メッセージとの間の相関関係について学習された結果であり得る。
図9は、本発明の他の実施形態に係る端末機のプロセッサを示す図である。
図1、図2、図7及び図9を参照すると、第1端末機100のプロセッサ150は、音声認識部152、特徴抽出部154、比較部156、及び音声メッセージ生成部158を含むことができる。図1に示した第2端末機200及び第3端末機300のそれぞれは、第1端末機100と類似または同一に具現されることができる。
図9に示した音声認識部152は、図8に示した音声認識部151と類似または同一に動作することができる。音声認識部152は、音声区間に含まれたオーディオデータの音声を認識し、特徴抽出部154に送信することができる。
特徴抽出部154は、第1端末機100の使用者の音声の特徴を抽出することができる。例えば、音声特徴は、音声固有の抑揚、周波数帯域、フォルマント(formant)及びピッチ(pitch)などを意味することができる。すなわち、音声特徴は、その音声を作り出すことができる音声の固有特徴を意味することができる。特徴抽出部154は、抽出された音声特徴を用いて比較音声を生成することができる。そして、特徴抽出部154は、生成された比較音声を比較部156に送信することができる。
比較部156は、第1端末機100の使用者の音声と比較音声を比較することができる。比較部156は、比較結果に応じて音声特徴をメモリー130に保存することができる。
いくつかの実施形態として、第1端末機100の使用者の音声と比較音声との間の誤差が基準値以下であれば、プロセッサ150は、音声特徴をメモリー130に保存することができ、音声メッセージ生成部158に音声特徴を送信することができる。
例えば、誤差は、第1端末機100の使用者の音声と比較音声との間のサンプリング値の差によって計算することができる。第1端末機100の使用者の音声と比較音声との間の誤差を計算する方法はこれに限定されず、様々な方法を用いて計算することができる。
もし、第1端末機100の使用者の音声と比較音声との間の誤差が基準値を超過したら、比較部156は、特徴抽出部154にフィードバック信号を送信することができる。フィードバック信号が特徴抽出部154に受信されると、特徴抽出部154は、第1端末機100の使用者の音声から再び特徴を抽出することができる。
音声メッセージ生成部158は、特定テキスト及び音声特徴に基づいて音声メッセージを生成して出力することができる。
図1~図9を参照すると、本発明の実施形態に係る複数の端末機100~300のそれぞれは、より効果的にリアルタイム放送を行うことができる。
また、複数の端末機100~300のそれぞれは、リアルタイム放送のサービスによって人間関係を拡張できるサービスを提供することができる。
以上で説明された実施形態は、コンピュータによって実行されるプログラムモジュールのようなコンピュータによって実行可能なコマンドを含む記録媒体の形態でも具現されることができる。コンピュータ読み取り可能媒体は、コンピュータによってアクセスすることができる任意の可用な媒体であることができ、揮発性及び不揮発性媒体、分離型及び非分離型媒体をすべて含むことができる。
また、コンピュータ読み取り可能媒体は、コンピュータ記憶媒体または通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ読み取り可能コマンド、データ構造、プログラムモジュールまたはその他のデータのような情報の保存のための任意の方法または技術で具現された揮発性及び不揮発性、分離型及び非分離型媒体をすべて含むことができる。通信媒体は、典型的にコンピュータ判読可能コマンド、データ構造、プログラムモジュール、または搬送波のような変調されたデータ信号のその他のデータ、またはその他の出力メカニズムを含み、任意の情報伝達媒体を含むことができる。
以上、添付された図面を参照して、本発明の実施形態を説明したが、本発明が属する技術分野における通常の知識を有する者は、本発明がその技術的思想や必須の特徴を変更することなく、他の具体的な形態で実施できるということを理解できるはずである。したがって、以上で記述した実施形態は、すべての面で例示的なものであり、限定的でないものとして理解しなければならない。
Claims (15)
- 放送チャンネルを介してリアルタイム放送を行うことができるサービスを提供する端末機の動作方法において、
前記放送チャンネルを介して前記端末機の使用者がホストである前記リアルタイム放送が開始される段階と、
前記リアルタイム放送が開始されると、前記端末機のディスプレイが2つの領域に分割され、前記2つの領域のうち1つの領域が前記ホストに割り当てられる段階と、
前記リアルタイム放送中に前記ホストの音声を認識する段階と、
前記放送チャンネルに入場した少なくとも1人以上のゲストのうち特定ゲストの端末機から少なくとも1つ以上のアイテムのうちから選択された1つのアイテム及び特定テキストを受信する段階と、
前記特定テキストを前記ホストの音声または前記特定ゲストの音声に変換した音声メッセージを生成する段階と、
前記音声メッセージを出力する段階と、
を含む端末機の動作方法。 - 前記特定テキストを前記ホストの音声に変換した前記音声メッセージを生成するためのアルゴリズムを準備する段階をさらに含む
請求項1に記載の端末機の動作方法。 - 前記特定テキストを前記ホストの音声に変換した音声メッセージを生成する段階は、
前記ホストの音声及び前記特定テキストを前記アルゴリズムに適用して前記音声メッセージを生成する
請求項2に記載の端末機の動作方法。 - 前記特定テキストを前記ホストの音声に変換した前記音声メッセージを生成するための前記アルゴリズムを準備する段階は、
複数の音声と複数のテキスト、そして前記複数のテキストのそれぞれを前記複数の音声に変換した複数の音声メッセージとの間の相関関係について学習された、学習モデルを準備する
請求項2に記載の端末機の動作方法。 - 前記ホストの音声から音声特徴を抽出する段階と、
前記抽出された音声特徴に基づいて比較音声を生成する段階と、
前記ホストの音声及び前記比較音声を比較する段階と、
前記比較の結果に応じて前記音声特徴を保存する段階と、
をさらに含む請求項1に記載の端末機の動作方法。 - 前記ホストの音声及び前記比較音声を比較する段階は、
前記ホストの音声及び前記比較音声の間のサンプリング値の誤差を計算し、
前記比較の結果に応じて前記音声特徴を保存する段階は、
前記誤差が基準値以下である場合、前記音声特徴を保存する
請求項5に記載の端末機の動作方法。 - 前記特定テキストを前記ホストの音声に変換した前記音声メッセージを生成する段階は、
前記特定テキスト及び前記音声特徴に基づいて前記音声メッセージを生成する
請求項5に記載の端末機の動作方法。 - 前記少なくとも1つ以上のアイテムは、前記サービス内で財貨的価値を有する
請求項1に記載の端末機の動作方法。 - 前記放送チャンネルに入場した前記少なくとも1人以上のゲストのうち第1ゲストが前記リアルタイム放送に直接参加する段階と、
前記ディスプレイの前記2つの領域のうち前記ホストに割り当てられた領域を除いた他の領域が前記第1ゲストに割り当てられる段階と、
をさらに含む請求項1に記載の端末機の動作方法。 - 請求項1から9のいずれか1項に記載の動作方法を行うためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。
- 放送チャンネルを介して端末機の使用者がホストであるリアルタイム放送が開始されると、2つの領域に分割され、前記2つの領域のうち1つの領域が前記ホストに割り当てられるディスプレイと、
前記ホストの音声を受信する入出力インターフェースと、
前記放送チャンネルに入場した少なくとも1人以上のゲストのうち特定ゲストの端末機から少なくとも1つ以上のアイテムのうちから選択された1つのアイテム及び特定テキストを受信する通信インターフェースと、
前記特定テキストを前記ホストの音声または前記特定ゲストの音声に変換した音声メッセージを生成するプロセッサと、
を含む端末機。 - 前記プロセッサは、複数の音声と複数のテキスト、そして前記複数のテキストのそれぞれを前記複数の音声に変換した複数の音声メッセージとの間の相関関係について学習された、学習モデルを準備し、前記ホストの音声及び前記特定テキストを前記学習モデルに適用して前記音声メッセージを生成する
請求項11に記載の端末機。 - 前記学習モデルを保存するメモリーをさらに含む
請求項12に記載の端末機。 - 前記プロセッサは、前記ホストの音声から音声特徴を抽出し、前記抽出された音声特徴に基づいて比較音声を生成し、前記ホストの音声及び前記比較音声を比較し、前記比較の結果に応じて、前記特定テキスト及び前記音声特徴に基づいて前記音声メッセージを生成する
請求項11に記載の端末機。 - 前記ディスプレイは、前記放送チャンネルに入場した前記少なくとも1人以上のゲストのうち第1ゲストが前記リアルタイム放送に直接参加する場合、前記ディスプレイの前記2つの領域のうち前記ホストに割り当てられた領域を除いた他の領域が前記第1ゲストに割り当てられる
請求項12に記載の端末機。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0097398 | 2019-08-09 | ||
KR1020190097398A KR102430020B1 (ko) | 2019-08-09 | 2019-08-09 | 단말기 및 그것의 동작 방법 |
JP2020134046A JP2021028715A (ja) | 2019-08-09 | 2020-08-06 | 端末機及びその動作方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020134046A Division JP2021028715A (ja) | 2019-08-09 | 2020-08-06 | 端末機及びその動作方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022137114A true JP2022137114A (ja) | 2022-09-21 |
Family
ID=71950558
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020134046A Pending JP2021028715A (ja) | 2019-08-09 | 2020-08-06 | 端末機及びその動作方法 |
JP2022103809A Pending JP2022137114A (ja) | 2019-08-09 | 2022-06-28 | 端末機及びその動作方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020134046A Pending JP2021028715A (ja) | 2019-08-09 | 2020-08-06 | 端末機及びその動作方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11615777B2 (ja) |
EP (1) | EP3772732A1 (ja) |
JP (2) | JP2021028715A (ja) |
KR (1) | KR102430020B1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766473B (zh) * | 2018-11-30 | 2019-12-24 | 北京达佳互联信息技术有限公司 | 信息交互方法、装置、电子设备及存储介质 |
US20230403435A1 (en) * | 2022-06-08 | 2023-12-14 | Hytto Pte, Ltd | Method and system for processing information across broadcast platforms |
Family Cites Families (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250826A (ja) * | 1999-03-01 | 2000-09-14 | Fujitsu Ltd | 状態変化通知方法及び状態変化通知システム |
US6804675B1 (en) * | 1999-05-11 | 2004-10-12 | Maquis Techtrix, Llc | Online content provider system and method |
US6571234B1 (en) * | 1999-05-11 | 2003-05-27 | Prophet Financial Systems, Inc. | System and method for managing online message board |
KR20000036463A (ko) * | 2000-03-15 | 2000-07-05 | 한남용 | 인터넷을 이용한 가상현실 대화 시스템 및 방법 |
KR20010091677A (ko) | 2000-03-17 | 2001-10-23 | 최승현 | 음성합성을 이용한 선택형 온라인 대화시스템의 구성 및운용방법 |
US7277855B1 (en) * | 2000-06-30 | 2007-10-02 | At&T Corp. | Personalized text-to-speech services |
US6970820B2 (en) * | 2001-02-26 | 2005-11-29 | Matsushita Electric Industrial Co., Ltd. | Voice personalization of speech synthesizer |
US6804647B1 (en) * | 2001-03-13 | 2004-10-12 | Nuance Communications | Method and system for on-line unsupervised adaptation in speaker verification |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
JP3806030B2 (ja) * | 2001-12-28 | 2006-08-09 | キヤノン電子株式会社 | 情報処理装置及び方法 |
US7685237B1 (en) * | 2002-05-31 | 2010-03-23 | Aol Inc. | Multiple personalities in chat communications |
US7305438B2 (en) * | 2003-12-09 | 2007-12-04 | International Business Machines Corporation | Method and system for voice on demand private message chat |
US20060210034A1 (en) * | 2005-03-17 | 2006-09-21 | Beadle Bruce A | Enabling a user to store a messaging session entry for delivery when an intended recipient is next available |
US20060235932A1 (en) * | 2005-04-18 | 2006-10-19 | International Business Machines Corporation | Chat server mute capability |
US20070005754A1 (en) * | 2005-06-30 | 2007-01-04 | Microsoft Corporation | Systems and methods for triaging attention for providing awareness of communications session activity |
KR100787890B1 (ko) * | 2006-03-06 | 2007-12-27 | 주식회사 모빌리언스 | 인터넷 아이템의 선물 조르기를 이용한 모바일 환경의 무선결제 시스템 및 그 무선 결제 방법 |
US7996222B2 (en) * | 2006-09-29 | 2011-08-09 | Nokia Corporation | Prosody conversion |
US20080147385A1 (en) * | 2006-12-15 | 2008-06-19 | Nokia Corporation | Memory-efficient method for high-quality codebook based voice conversion |
JP2008185805A (ja) * | 2007-01-30 | 2008-08-14 | Internatl Business Mach Corp <Ibm> | 高品質の合成音声を生成する技術 |
US7826872B2 (en) * | 2007-02-28 | 2010-11-02 | Sony Ericsson Mobile Communications Ab | Audio nickname tag associated with PTT user |
US8886537B2 (en) * | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
KR100920174B1 (ko) * | 2007-09-14 | 2009-10-06 | 주식회사 케이티 | 본인 음성 기반의 tts 서비스 제공 장치와 시스템 및 그방법 |
US8224648B2 (en) * | 2007-12-28 | 2012-07-17 | Nokia Corporation | Hybrid approach in voice conversion |
US20090177473A1 (en) * | 2008-01-07 | 2009-07-09 | Aaron Andrew S | Applying vocal characteristics from a target speaker to a source speaker for synthetic speech |
US8401849B2 (en) * | 2008-12-18 | 2013-03-19 | Lessac Technologies, Inc. | Methods employing phase state analysis for use in speech synthesis and recognition |
US8731371B2 (en) * | 2009-08-12 | 2014-05-20 | Sony Corporation | Information processing system and information processing device |
US20120226500A1 (en) * | 2011-03-02 | 2012-09-06 | Sony Corporation | System and method for content rendering including synthetic narration |
EP2737480A4 (en) * | 2011-07-25 | 2015-03-18 | Incorporated Thotra | SYSTEM AND METHOD FOR ACOUSTIC TRANSFORMATION |
US9495450B2 (en) * | 2012-06-12 | 2016-11-15 | Nuance Communications, Inc. | Audio animation methods and apparatus utilizing a probability criterion for frame transitions |
KR20140120560A (ko) * | 2013-04-03 | 2014-10-14 | 삼성전자주식회사 | 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말 |
WO2014161091A1 (en) * | 2013-04-04 | 2014-10-09 | Rand James S | Unified communications system and method |
GB201315142D0 (en) * | 2013-08-23 | 2013-10-09 | Ucl Business Plc | Audio-Visual Dialogue System and Method |
US10008216B2 (en) * | 2014-04-15 | 2018-06-26 | Speech Morphing Systems, Inc. | Method and apparatus for exemplary morphing computer system background |
US20150379654A1 (en) * | 2014-06-26 | 2015-12-31 | Xerox Corporation | Methods and systems for digitally capturing and managing attendance |
US9613620B2 (en) * | 2014-07-03 | 2017-04-04 | Google Inc. | Methods and systems for voice conversion |
US9324318B1 (en) * | 2014-10-14 | 2016-04-26 | Nookster, Inc. | Creation and application of audio avatars from human voices |
CN104918124B (zh) * | 2015-05-11 | 2017-12-08 | 腾讯科技(北京)有限公司 | 直播互动系统、信息发送方法、信息接收方法及装置 |
KR101632435B1 (ko) * | 2015-10-20 | 2016-06-21 | 이요훈 | 유무선ip기반 gui를 활용한 sns 시스템 및 이를 이용한 통화 방법 |
US20170171509A1 (en) * | 2015-12-14 | 2017-06-15 | Le Holdings (Beijing) Co., Ltd. | Method and electronic apparatus for realizing two-person simultaneous live video |
US10311855B2 (en) * | 2016-03-29 | 2019-06-04 | Speech Morphing Systems, Inc. | Method and apparatus for designating a soundalike voice to a target voice from a database of voices |
US10218939B2 (en) * | 2016-04-14 | 2019-02-26 | Popio Ip Holdings, Llc | Methods and systems for employing virtual support representatives in connection with mutli-pane video communications |
US10176819B2 (en) * | 2016-07-11 | 2019-01-08 | The Chinese University Of Hong Kong | Phonetic posteriorgrams for many-to-one voice conversion |
US20180063556A1 (en) * | 2016-08-29 | 2018-03-01 | YouNow, Inc. | Systems and methods for providing guest broadcasting on a live stream video platform |
US20180090126A1 (en) * | 2016-09-26 | 2018-03-29 | Lenovo (Singapore) Pte. Ltd. | Vocal output of textual communications in senders voice |
WO2018074037A1 (ja) * | 2016-10-21 | 2018-04-26 | 株式会社Myth | 情報処理システム |
WO2018074516A1 (ja) * | 2016-10-21 | 2018-04-26 | 株式会社Myth | 情報処理システム |
US10777201B2 (en) * | 2016-11-04 | 2020-09-15 | Microsoft Technology Licensing, Llc | Voice enabled bot platform |
KR20180059322A (ko) | 2016-11-25 | 2018-06-04 | 주식회사 투스라이프 | 기부 금액 기반 이펙트 설정 장치 및 방법 |
US10403287B2 (en) * | 2017-01-19 | 2019-09-03 | International Business Machines Corporation | Managing users within a group that share a single teleconferencing device |
KR102136413B1 (ko) * | 2017-04-06 | 2020-07-21 | 주식회사 스무디 | 다자간 커뮤니케이션 서비스를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체 |
US20180316964A1 (en) * | 2017-04-28 | 2018-11-01 | K, Online Inc | Simultaneous live video amongst multiple users for discovery and sharing of information |
US10664524B2 (en) * | 2017-09-13 | 2020-05-26 | Facebook, Inc. | Highlighting portions of a live video broadcast |
EP3739572A4 (en) | 2018-01-11 | 2021-09-08 | Neosapience, Inc. | METHOD AND DEVICE FOR TEXT-TO-LANGUAGE SYNTHESIS USING MACHINE LEARNING AND COMPUTER-READABLE STORAGE MEDIUM |
US11238843B2 (en) * | 2018-02-09 | 2022-02-01 | Baidu Usa Llc | Systems and methods for neural voice cloning with a few samples |
US20200013422A1 (en) * | 2018-07-03 | 2020-01-09 | Ralph W. Matkin | System, Method, and Apparatus for Morphing of an Audio Track |
US10953332B2 (en) * | 2018-12-20 | 2021-03-23 | Roblox Corporation | Online gaming platform voice communication system |
US10902841B2 (en) * | 2019-02-15 | 2021-01-26 | International Business Machines Corporation | Personalized custom synthetic speech |
US10930263B1 (en) * | 2019-03-28 | 2021-02-23 | Amazon Technologies, Inc. | Automatic voice dubbing for media content localization |
-
2019
- 2019-08-09 KR KR1020190097398A patent/KR102430020B1/ko active IP Right Grant
-
2020
- 2020-08-05 EP EP20189677.6A patent/EP3772732A1/en active Pending
- 2020-08-06 US US16/987,111 patent/US11615777B2/en active Active
- 2020-08-06 JP JP2020134046A patent/JP2021028715A/ja active Pending
-
2022
- 2022-06-28 JP JP2022103809A patent/JP2022137114A/ja active Pending
-
2023
- 2023-03-14 US US18/183,860 patent/US20230215418A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210043187A1 (en) | 2021-02-11 |
EP3772732A1 (en) | 2021-02-10 |
US20230215418A1 (en) | 2023-07-06 |
JP2021028715A (ja) | 2021-02-25 |
KR20210017708A (ko) | 2021-02-17 |
US11615777B2 (en) | 2023-03-28 |
KR102430020B1 (ko) | 2022-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11031000B2 (en) | Method and device for transmitting and receiving audio data | |
CN111699528B (zh) | 电子装置及执行电子装置的功能的方法 | |
CN108304846B (zh) | 图像识别方法、装置及存储介质 | |
KR102283972B1 (ko) | 통신 장치, 서버 및 동작 방법 | |
US10643036B2 (en) | Language translation device and language translation method | |
US10089974B2 (en) | Speech recognition and text-to-speech learning system | |
JP2022137114A (ja) | 端末機及びその動作方法 | |
US11430438B2 (en) | Electronic device providing response corresponding to user conversation style and emotion and method of operating same | |
JP2019102063A (ja) | ページ制御方法および装置 | |
US11276419B2 (en) | Synchronized sound generation from videos | |
WO2021008538A1 (zh) | 语音交互方法及相关装置 | |
US11606397B2 (en) | Server and operating method thereof | |
US20200075008A1 (en) | Voice data processing method and electronic device for supporting same | |
WO2019101099A1 (zh) | 视频节目识别方法、设备、终端、系统和存储介质 | |
CN111128183A (zh) | 语音识别方法、装置和介质 | |
WO2021051588A1 (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN114333804A (zh) | 音频分类识别方法、装置、电子设备及存储介质 | |
US20220270605A1 (en) | Electronic apparatus and assistant service providing method thereof | |
US20200410605A1 (en) | Mobile, server and operating method thereof | |
KR102315211B1 (ko) | 단말기 및 그것의 동작 방법 | |
CN116030817B (zh) | 语音唤醒方法、设备及存储介质 | |
US11893982B2 (en) | Electronic apparatus and controlling method therefor | |
US20240104420A1 (en) | Accurate and efficient inference in multi-device environments | |
US20240015262A1 (en) | Facilitating avatar modifications for learning and other videotelephony sessions in advanced networks | |
CN118098203A (zh) | 说话对象识别的方法、装置以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220719 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230824 |