JP2023510057A - 音声テキスト変換方法、システム、装置、機器及びプログラム - Google Patents

音声テキスト変換方法、システム、装置、機器及びプログラム Download PDF

Info

Publication number
JP2023510057A
JP2023510057A JP2021564719A JP2021564719A JP2023510057A JP 2023510057 A JP2023510057 A JP 2023510057A JP 2021564719 A JP2021564719 A JP 2021564719A JP 2021564719 A JP2021564719 A JP 2021564719A JP 2023510057 A JP2023510057 A JP 2023510057A
Authority
JP
Japan
Prior art keywords
language type
client
user account
message
conversation message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021564719A
Other languages
English (en)
Inventor
リィウ,ペイチェン
リィウ,シアオハオ
ワン,イェンツァン
ディン,ドォン
タン,カイ
リン,シャン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202011504638.0A external-priority patent/CN112494958B/zh
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2023510057A publication Critical patent/JP2023510057A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/215Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/85Providing additional services to players
    • A63F13/87Communicating with other players during game play, e.g. by e-mail or chat
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/90Constructional details or arrangements of video game devices not provided for in groups A63F13/20 or A63F13/25, e.g. housing, wiring, connections or cabinets
    • A63F13/92Video game devices specially adapted to be hand-held while playing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • H04L51/046Interoperability with other network applications or services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/06Message adaptation to terminal or network requirements
    • H04L51/063Content adaptation, e.g. replacement of unsuitable content

Abstract

Figure 2023510057000001
音声テキスト変換方法は、第1のクライアントが第1のユーザインターフェースを表示するステップであって、第1のユーザインターフェースは、第1のユーザアカウントにより制御される第1の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、第2のクライアントが第2のユーザインターフェースを表示するステップであって、第2のユーザインターフェースは、第2のユーザアカウントにより制御される第2の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、第1のクライアントでの音声入力操作に応じて、第1のクライアントが第1の言語タイプを使用して第1のユーザアカウントにより入力された会話メッセージを表示し、第2のクライアントが第2の言語タイプを使用して第1のユーザアカウントにより送信された該会話メッセージを表示するステップと、を含む。
【選択図】図2

Description

本発明は、2020年12月18日に出願した出願番号が202011504638.0であり、発明の名称が「音声テキスト変換方法、システム、機器及び記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容を参照により本発明に援用する。
本発明は、ヒューマンコンピュータインタラクション(human-computer interaction)に関し、特に音声テキスト変換方法、システム、機器及び記憶媒体に関する。
競技的対立に基づくアプリケーションプログラムでは、複数のユーザが敵対的な2つのチームに分けられ、ユーザが仮想環境内の仮想キャラクタを操作して、歩き、購入、治療、戦闘などの動作を行い、同一のチームのユーザが該仮想環境内で協力して任務を遂行する。
関連技術では、競技的対立に基づくアプリケーションプログラムで音声をテキストに変換することを実現し、通常、言語変換の機能を有しない。従って、異なる言語を使用するユーザは、同一の対戦で異なる言語を使用してコミュニケーションを行うため、ユーザ間のコミュニケーションは困難である。
少なくとも2つのクライアントが実行する、音声をテキストに変換する方法であって、第1のクライアントが第1のユーザインターフェースを表示するステップであって、前記第1のユーザインターフェースは、第1のユーザアカウントにより制御される第1の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、第2のクライアントが第2のユーザインターフェースを表示するステップであって、前記第2のユーザインターフェースは、第2のユーザアカウントにより制御される第2の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、前記第1のクライアントでの音声入力操作に応じて、前記第1のクライアントが第1の言語タイプを使用して前記第1のユーザアカウントにより入力された会話メッセージを表示し、前記第2のクライアントが第2の言語タイプを使用して前記第1のユーザアカウントにより送信された前記会話メッセージを表示するステップと、を含み、前記第1の言語タイプは、前記第1のユーザアカウント又は前記第1のクライアントに関連する言語タイプであり、前記第2の言語タイプは、前記第2のユーザアカウント又は前記第2のクライアントに関連する言語タイプであり、前記会話メッセージのテキスト内容は、前記音声入力操作により入力された音声内容に基づいて認識されたものである、方法を提供する。
サーバが実行する、音声をテキストに変換する方法であって、第1のクライアントから送信された音声内容を受信するステップと、第1の言語タイプ及び第2の言語タイプを決定するステップであって、前記第1の言語タイプは、第1のユーザアカウント又は前記第1のクライアントに関連する言語タイプであり、前記第2の言語タイプは、第2のユーザアカウント又は第2のクライアントに関連する言語タイプである、ステップと、前記音声内容及び前記第1の言語タイプに基づいて、前記音声内容を前記第1の言語タイプの会話メッセージに変換するステップであって、前記会話メッセージのテキスト内容は、前記音声内容に基づいて認識されたものである、ステップと、前記第1の言語タイプの前記会話メッセージ及び前記第2の言語タイプに基づいて、翻訳により前記第2の言語タイプの前記会話メッセージを取得するステップと、前記第2の言語タイプの前記会話メッセージを前記第2のクライアントに送信するステップと、を含む、方法を提供する。
音声をテキストに変換するシステムであって、前記システムは、第1の装置と、第2の装置と、を含み、前記第1の装置は、第1のユーザインターフェースを表示し、前記第1のユーザインターフェースは、第1のユーザアカウントにより制御される第1の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面であり、前記第2の装置は、第2のユーザインターフェースを表示し、前記第2のユーザインターフェースは、第2のユーザアカウントにより制御される第2の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面であり、前記第1の装置は、前記第1の装置での音声入力操作に応じて、第1の言語タイプを使用して前記第1のユーザアカウントにより入力された会話メッセージを表示し、前記第1の言語タイプは、前記第1のユーザアカウント又は前記第1の装置に関連する言語タイプであり、前記会話メッセージのテキスト内容は、前記音声入力操作により入力された音声内容に基づいて認識されたものであり、前記第2の装置は、第2の言語タイプを使用して前記第1のユーザアカウントにより送信された前記会話メッセージを表示し、前記第2の言語タイプは、前記第2のユーザアカウント又は前記第2の装置に関連する言語タイプである、システムを提供する。
音声をテキストに変換する装置であって、該装置は、受信モジュールと、変換モジュールと、翻訳モジュールと、送信モジュールと、を含み、前記受信モジュールは、第1のクライアントから送信された音声内容を受信し、前記受信モジュールは、第1の言語タイプ及び第2の言語タイプを決定し、前記第1の言語タイプは、第1のユーザアカウント又は前記第1のクライアントに関連する言語タイプであり、前記第1のユーザアカウントは、前記第1のクライアントにより提供される仮想環境の仮想活動場所において第1の仮想キャラクタを制御するために使用され、前記第2の言語タイプは、第2のユーザアカウント又は第2のクライアントに関連する言語タイプであり、前記第2のユーザアカウントは、前記第2のクライアントにより提供される仮想環境の仮想活動場所において第2の仮想キャラクタを制御するために使用され、前記変換モジュールは、前記音声内容及び前記第1の言語タイプに基づいて、前記音声内容を前記第1の言語タイプの会話メッセージに変換し、前記会話メッセージのテキスト内容は、前記音声内容に基づいて認識されたものであり、前記翻訳モジュールは、前記第1の言語タイプの前記会話メッセージ及び前記第2の言語タイプに基づいて、翻訳により前記第2の言語タイプの前記会話メッセージを取得し、前記送信モジュールは、前記第2の言語タイプの前記会話メッセージを前記第2のクライアントに送信する、装置を提供する。
コンピュータ読み取り可能な命令が記憶されたメモリと、1つ又は複数のプロセッサと、を含むコンピュータ機器であって、前記命令は、前記1つ又は複数のプロセッサにより実行される際に、上記の音声をテキストに変換する方法を前記1つ又は複数のプロセッサに実行させる、コンピュータ機器を提供する。
コンピュータ読み取り可能な命令が記憶されたコンピュータ読み取り可能な記憶媒体であって、前記命令は、1つ又は複数のプロセッサにより実行される際に、上記の音声をテキストに変換方法を前記1つ又は複数のプロセッサに実行させる、記憶媒体を提供する。
コンピュータ読み取り可能な命令を含むコンピュータプログラム又はコンピュータプログラムプロダクトであって、前記命令は、コンユータ読み取り可能な記憶媒体に記憶され、前記命令は、プロセッサにより前記記憶媒体から読み取られて実行される際に、上記の音声をテキストに変換方法を前記プロセッサに実行させる、コンピュータプログラム又はコンピュータプログラムプロダクトを提供する。
本発明の実施例に係る技術をより明確に説明するために、以下は、実施例の説明に必要な図面を簡単に紹介する。なお、以下の説明における図面は、単なる本発明の幾つかの実施例であり、当業者にとって、創造的な作業を行うことなく、これらの図面に基づいて他の図面を得ることができる。
本発明の1つの例示的な実施例に係るコンピュータシステムの構成のブロック図である。 本発明の1つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。 本発明の1つの例示的な実施例に係るカメラモデルの概略図である。 本発明の1つの例示的な実施例に係る音声テキスト変換方法のインターフェースの概略図である。 本発明の1つの例示的な実施例に係る音声テキスト変換方法のインターフェースの概略図である。 本発明の1つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。 本発明の1つの例示的な実施例に係る音声テキスト変換方法のインターフェースの概略図である。 本発明の1つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。 本発明の1つの例示的な実施例に係る音声テキスト変換方法のインターフェースの概略図である。 本発明の1つの例示的な実施例に係る音声テキスト変換方法のインターフェースの概略図である。 本発明の1つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。 本発明の1つの例示的な実施例に係る音声テキスト変換システムの構成の概略図である。 本発明の1つの例示的な実施例に係る音声テキスト変換装置の構成の概略図である。 本発明の1つの例示的な実施例に係る端末の構成のブロック図である。 本発明の1つの例示的な実施例に係るサーバの構成の概略図である。
本発明の目的、技術的手段、及び利点をより明確にするために、以下は、図面を参照しながら本発明の実施形態をさらに詳細に説明する。
まず、本発明の実施例に関する用語を紹介する。
仮想環境:クライアントで実行されている際に表示(又は提供)される仮想環境である。該仮想環境は、3次元仮想環境であってもよいし、2次元仮想環境であってもよい。該3次元仮想環境は、現実世界に対するシミュレーション環境であってもよいし、半シミュレーション及び半架空の環境であってもよいし、純粋な架空の環境であってもよい。
仮想キャラクタ:仮想環境における移動可能なキャラクタを意味する。該移動可能なキャラクタは、仮想人物、仮想動物、漫画又はアニメーションのキャラクタなどであってもよく、例えば、仮想環境に表示される人物、動物、植物、ドラム缶、壁、石などであってもよい。好ましくは、仮想環境が3次元仮想環境である場合、仮想キャラクタは、スケルタルアニメーション技術に基づいて作成された3次元モデルであり、各仮想キャラクタは、3次元仮想環境において独自の形状及び体積を持ち、3次元仮想環境において空間の一部を占める。好ましくは、仮想環境が2次元仮想環境である場合、仮想キャラクタは、アニメーション技術に基づいて作成された2次元平面モデルであり、各仮想キャラクタは、2次元仮想環境において独自の形状及び面積を持ち、2次元仮想環境において面積の一部を占める。
マルチプレイヤオンライン対戦競技:仮想環境では、少なくとも2つの敵対的な陣営に属する異なる仮想チームがそれぞれの地図領域を占有し、特定の勝利条件を目標として競技を行う。該勝利条件は、拠点の占領又は敵陣営の拠点の破壊、敵陣営の仮想キャラクタの倒し、指定シーン及び期間内での自分の生存の確保、特定のリソースの取得、並びに指定期間内での対戦相手のスコアの超過のうちの少なくとも1つを含むが、これらに限定されない。対戦競技は、ラウンドを単位として行われてもよく、対戦競技の各ラウンドの地図は、同一であってもよいし、異なってもよい。各仮想チームは、例えば1、2、3、5などの1つ又は複数の仮想キャラクタを含む。
MOBA(Multiplayer Online Battle Arena:マルチプレイヤオンラインバトルアリーナ)ゲーム:仮想環境で幾つかの拠点を提供し、異なる陣営に属するユーザが仮想キャラクタを操作して仮想環境内で対戦し、拠点を占領し、或いは敵の陣営拠点を破壊するゲームである。例えば、MOBAゲームでは、ユーザを2つの敵対的な陣営に分け、ユーザにより制御される仮想キャラクタを仮想環境に分散させて互いに競争させ、勝利条件として敵の全ての拠点を破壊又は占領することができる。MOBAゲームは、ラウンドを単位として、MOBAゲームの各ラウンドの継続時間は、ゲームが開始する時点から勝利条件が満たされた時点までの期間である。
FPS(First Person Shooting:一人称シューティング)ゲーム:仮想環境で幾つかの拠点を提供し、異なる陣営に属するユーザが仮想キャラクタを操作して仮想環境内で対戦し、拠点を占領し、敵の陣営拠点を破壊し、或いは敵の陣営の全て又は一部のキャラクタを倒すゲームである。通常、FPSゲームでは、ユーザが一人称視点でゲームを行い、ユーザが第三者視点を選択してゲームを行ってもよい。例えば、FPSゲームでは、ユーザを2つの敵対的な陣営に分け、ユーザにより制御される仮想キャラクタを仮想環境に分散させて互いに競争させ、勝利条件として敵の全てのキャラクタを倒すことができる。FPSゲームは、ラウンドを単位として、MOBAゲームの各ラウンドの継続時間は、ゲームが開始する時点から勝利条件が満たされた時点までの期間である。
SLG(Simulation Games:シミュレーションゲーム)ゲーム:仮想環境内で仮想リソースを提供し、現実をシミュレートするタイプのゲームである。例えば、SLGゲームでは、複数のユーザを1つの陣営に分け、複数のユーザが協力して指定の任務を遂行してもよい。好ましくは、通常、SLGゲームの各ラウンドには、具体的な勝利条件がない。
音声テキスト変換(speech-to-text conversion):ユーザにより入力された音声内容をテキストに変換して出力することを意味する。例えば、ユーザが音声内容「おはよう」を入力する場合、対応するテキスト「おはよう」を出力する。通常、音声テキスト変換は、音声内容を同時に1つの言語タイプ(1つのタイプの言語)に変換することのみをサポートする。
図1は、本発明の1つの例示的な実施例に係るコンピュータシステムの構成のブロック図である。該コンピュータシステム100は、第1の端末120、サーバ140、及び第2の端末160を含む。
第1の端末120は、仮想環境をサポートするクライアントをインストールして実行する。該クライアントは、MOBAゲーム、仮想現実(Virtual Reality:VR)クライアント、3次元地図クライアント、軍事シミュレーションクライアント、FPSゲーム、マルチプレイヤガンバトルサバイバルゲーム、及びSLGゲームのうちの何れかであってもよい。第1の端末120は、第1のユーザにより使用される端末であり、第1のユーザアカウントは、第1のユーザにより保有されているアカウントである。第1のユーザは、第1の端末120を使用して、3次元仮想環境における第1の仮想キャラクタが活動を行うように制御する。該活動は、攻撃、スキルの発動、アイテムの購入、治療、体の姿勢の調整、這い、歩き、乗り、飛び、跳び、運転、拾い上げ、射撃、投げのうちの少なくとも1つを含むが、これらに限定されない。例えば、第1の仮想キャラクタは、第1の仮想人物である。
第1の端末120は、無線ネットワーク又は有線ネットワークを介してサーバ140に接続されている。
サーバ140は、1つのサーバ、複数のサーバ、クラウドコンピューティングプラットフォーム、及び仮想化センターのうちの少なくとも1つを含む。例えば、サーバ140は、仮想環境をサポートするクライアントのためにバックグラウンドのサービスを提供するために使用される。好ましくは、サーバ140は、一次的なコンピューティング作業を行い、第1の端末120及び第2の端末160は、二次的なコンピューティング作業を行い、或いは、サーバ140は、二次的なコンピューティング作業を行い、第1の端末120及び第2の端末160は、一次的なコンピューティング作業を行い、或いは、サーバ140、第1の端末120及び第2の端末160は、協調コンピューティングを行うために分散型のコンピューティングアーキテクチャを採用する。
第2の端末160は、仮想環境をサポートするクライアントをインストールして実行する。該クライアントは、MOBAゲーム、仮想現実クライアント、3次元地図クライアント、軍事シミュレーションクライアント、FPSゲーム、マルチプレイヤガンバトルサバイバルゲーム、及びSLGゲームのうちの何れかであってもよい。第2の端末160は、第2のユーザにより使用される端末であり、第2のユーザアカウントは、第2のユーザにより保有されているアカウントである。第2のユーザは、第2の端末160を使用して、3次元仮想環境における第2の仮想キャラクタが活動を行うように制御する。該活動は、攻撃、スキルの発動、アイテムの購入、治療、体の姿勢の調整、這い、歩き、乗り、飛び、跳び、運転、拾い上げ、射撃、投げのうちの少なくとも1つを含むが、これらに限定されない。例えば、第2の仮想キャラクタは、第2の仮想人物である。第1の仮想キャラクタと第2の仮想キャラクタは、同一のチーム又は同一の組織に属し、友達関係又は一時的な通信権限を持ってもよい。第1の仮想キャラクタと第2の仮想キャラクタは、異なるチーム又は異なる組織に属してもよい。
好ましくは、第1の端末120及び第2の端末160にインストールされたクライアントは同一であり、或いは、2つの端末にインストールされたクライアントは、異なるプラットフォームの同一のタイプのクライアントである。第1の端末120は、一般に、複数の端末のうちの1つを意味してもよく、第2の端末160は、一般に、複数の端末のうちの1つを意味してもよく、本実施例では、単に第1の端末120及び第2の端末160を一例にして説明する。第1の端末120及び第2の端末160のデバイスタイプは、同一であってもよいし、異なってもよい。該デバイスタイプは、スマートフォン、タブレットコンピュータ、電子書籍リーダ、MP3プレイヤ、MP4プレイヤ、ラップトップコンピュータ及びデスクトップコンピュータのうちの少なくとも1つを含む。
1つの例示的な実施例では、第1の端末120における第1のクライアントは、第1のユーザインターフェースを表示する。第1のユーザインターフェースは、第1のユーザアカウントにより制御される第1の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。第2の端末160における第2のクライアントは、第2のユーザインターフェースを表示する。第2のユーザインターフェースは、第2のユーザアカウントにより制御される第2の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。第1のクライアントでの音声入力操作に応じて、第1のクライアントは、第1の言語タイプを使用して第1のユーザアカウントにより入力された会話メッセージを表示し、第2のクライアントは、第2の言語タイプを使用して第1のユーザアカウントにより送信された会話メッセージを表示する。第1の言語タイプは、第1のユーザアカウント又は第1のクライアントに関連する言語タイプであり、第2の言語タイプは、第2のユーザアカウント又は第2のクライアントに関連する言語タイプであり、会話メッセージのテキスト内容は、音声入力操作により入力された音声内容に基づいて認識されたものである。
このように、第1のクライアントで言語入力操作を受け付けた場合、異なるクライアントで異なる言語タイプの会話メッセージを表示し、入力された音声情報を異なる言語タイプの会話メッセージに翻訳することで、異なる言語タイプを使用するユーザはコミュニケーションを容易に行うことができ、言語の壁を取り除くことができる。また、ユーザが追加的な翻訳ソフトウェアを使用して他の言語タイプの会話メッセージを翻訳する必要がないため、ユーザの操作手順を削減し、ヒューマンコンピュータインタラクションの効率を向上させることができる。
図2は、本発明の1つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。該方法は、図1に示す第1の端末120又は第2の端末160により実行されてもよい。該方法は、少なくとも2つのクライアントに適用される。該方法は、以下のステップを含む。
ステップ202:第1のクライアントは、第1のユーザインターフェースを表示する。第1のユーザインターフェースは、第1のユーザアカウントにより制御される第1の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。
第1のクライアントとは、第1の端末で実行されるクライアントプログラムを意味する。好ましくは、クライアントプログラムは、MOBAゲーム、仮想現実クライアント、3次元地図クライアント、軍事シミュレーションクライアント、FPSゲーム、マルチプレイヤガンバトルサバイバルゲーム、及びSLGゲームの何れかを含む。
第1のユーザアカウントとは、第1のユーザにより保有されるアカウントを意味する。
第1の仮想キャラクタとは、第1のクライアントで第1のユーザにより制御されるマスターキャラクタを意味する。好ましくは、第1の仮想キャラクタは、人物、動物、植物、及び漫画アニメーションキャラクタのうちの少なくとも1つである。
第1のユーザインターフェースとは、第1のクライアントの実行中に第1の端末で観察可能な画面を意味する。好ましくは、第1のユーザインターフェースは、仮想環境でカメラモデルを介して第1の仮想キャラクタを観察する時の画像である。
好ましくは、カメラモデルは、仮想環境において仮想キャラクタに自動的に追従し、即ち、仮想環境における仮想キャラクタの位置が変化すると、カメラモデルが仮想環境において仮想キャラクタの位置に追従して同時に変化し、該カメラモデルが常に仮想環境において仮想キャラクタの所定の距離範囲内にある。好ましくは、自動的な追従プロセスでは、カメラモデルと仮想キャラクタとの相対位置は変化しない。
カメラモデルとは、仮想環境における仮想キャラクタの周囲の3次元モデルを意味する。一人称視点を採用する場合、該カメラモデルは、仮想キャラクタの頭の近傍又は仮想キャラクタの頭に位置する。三人称視点を採用する場合、該カメラモデルは、仮想キャラクタの後方に位置し、且つ仮想キャラクタに対して固定されてもよいし、仮想キャラクタから所定の距離を離れて任意の位置に位置してもよい。該カメラモデルを使用して、様々な角度から仮想環境内に位置する仮想キャラクタを観察してもよい。好ましくは、該三人称視点は、一人称視点の肩越し視点である場合、カメラモデルは、仮想キャラクタ(例えば仮想人物の頭及び肩)の後方に位置する。好ましくは、一人称視点及び三人称視点に加えて、視点は、トップビューの視点などの他の視点をさらに含む。トップビューの視点を採用する場合、該カメラモデルを仮想キャラクタの頭上の空中に位置してもよい。トップビューの視点は、空中から平面視するように仮想環境を観察する視点である。好ましくは、該カメラモデルは、実際には仮想環境に表示されなく、即ち、ユーザインターフェースに表示される仮想環境には該カメラモデルが表示されない。
該カメラモデルが仮想キャラクタから所定の距離を離れて任意の位置に位置することを一例にして説明する。好ましくは、1つの仮想キャラクタは1つのカメラモデルに対応し、該カメラモデルは、仮想キャラクタを回転の中心として回転してもよい。例えば、仮想キャラクタの任意の1つの点を回転の中心としてカメラモデルを回転させ、カメラモデルの回転中、角度で回転することだけでなく、変位でもシフトする。回転の際に、カメラモデルと該回転の中心との間の距離をそのまま維持し、即ち、カメラモデルは、回転の中心を球の中心として球の表面で回転する。ここで、仮想キャラクタの任意の1つの点は、仮想キャラクタの頭、胴体、又は仮想キャラクタの周囲の任意の1つの点であってもよいが、本発明の実施例はこれらに限定されない。好ましくは、カメラモデルが仮想キャラクタを観察する際に、該カメラモデルの視点の中心の向きは、該カメラモデルが位置する球面上の点が球の中心を向く方向である。
該カメラモデルは、仮想キャラクタの異なる方向に所定の角度で仮想キャラクタを観察してもよい。
例えば、図3に示すように、仮想キャラクタ11の1つの点を回転中心12として決定し、カメラモデルが回転中心12を中心に回転する。好ましくは、該カメラモデルは、初期位置が設定され、該初期位置は、仮想キャラクタの後方の上方の位置(例えば、頭の後方位置)である。例えば、図3に示すように、該初期位置は位置13であり、カメラモデルが位置14又は位置15に回転する場合、カメラモデルの視点方向は、カメラモデルの回転に伴って変化する。
好ましくは、第1のユーザ画面は、会話メッセージ、チャットウィジェット、神の視点から見たサムネイル地図、バックパックウィジェット、位置表示ウィジェット、スピーカー音声スイッチ、マイクスイッチ、仮想キャラクタを移動するためのウィジェット、及び仮想キャラクタが所定動作を行うように制御するためのウィジェットのうちの少なくとも1つの他の表示要素をさらに含む。
例えば、図4に示すように、第1のユーザインターフェースには、仮想キャラクタ401、チャットウィジェット402、会話メッセージ403、サムネイル地図404、移動ウィジェット405、ユーザアイコン406、スキルウィジェット407、及び購入ウィジェット408が表示されている。
ステップ204:第2のクライアントは、第2のユーザインターフェースを表示する。第2のユーザインターフェースは、第2のユーザアカウントにより制御される第2の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。
第2のクライアントとは、第2の端末で実行されるクライアントプログラムを意味する。好ましくは、クライアントプログラムは、MOBAゲーム、仮想現実クライアント、3次元地図クライアント、軍事シミュレーションクライアント、FPSゲーム、マルチプレイヤガンバトルサバイバルゲーム、及びSLGゲームの何れかを含む。好ましくは、第2の端末と第1の端末とは、デバイスタイプが同一であってもよいし、異なってもよい。
第2のユーザアカウントとは、第2のユーザにより保有されるアカウントを意味する。ここで、第1のユーザアカウントと第2のユーザアカウントとは異なる。
第2の仮想キャラクタとは、第2のクライアントで第2のユーザにより制御されるマスターキャラクタを意味する。好ましくは、第2の仮想キャラクタは、人物、動物、植物、及び漫画アニメーションキャラクタのうちの少なくとも1つである。ここで、第1の仮想キャラクタと第2の仮想キャラクタとは、同一であってもよいし、異なってもよい。
第2のユーザインターフェースとは、第2のクライアントの実行中に第2の端末で観察可能な画面を意味する。好ましくは、第2のユーザインターフェースは、仮想環境でカメラモデルを介して第2の仮想キャラクタを観察する時の画像である。好ましくは、第2のユーザインターフェースと第1のユーザインターフェースとは、同一であってもよいし、異なってもよい。
好ましくは、第2のユーザ画面は、会話メッセージ、チャットウィジェット、神の視点から見たサムネイル地図、バックパックウィジェット、位置表示ウィジェット、スピーカー音声スイッチ、マイクスイッチ、仮想キャラクタを移動するためのウィジェット、及び仮想キャラクタが所定動作を行うように制御するためのウィジェットのうちの少なくとも1つの他の表示要素をさらに含む。
例えば、図5に示すように、第2のユーザインターフェースには、仮想キャラクタ501、チャットウィジェット502、会話メッセージ503、サムネイル地図504、移動ウィジェット505、ユーザアイコン506、スキルウィジェット507、及び購入ウィジェット508が表示されている。
ステップ206:第1のクライアントでの音声入力操作に応じて、第1のクライアントは、第1の言語タイプを使用して第1のユーザアカウントにより入力された会話メッセージを表示し、第2のクライアントは、第2の言語タイプを使用して第1のユーザアカウントにより送信された会話メッセージを表示する。
音声入力操作とは、ユーザが音声内容を端末に入力することを意味する。好ましくは、音声入力操作は、音声内容を入力するために1つ又は複数の所定の物理ボタンを押すことであってもよい。或いは、音声入力操作は、音声入力操作を実行するためにタッチスクリーンの指定領域で生成された信号を長押し、タップ、ダブルタップ及び/又はスワイプすることであってもよい。或いは、音声入力操作は、マイクデバイスを介して音声内容を直接入力することであってもよい。
第1の言語タイプと第2の言語タイプは、異なる言語タイプに対応してもよい。例えば、第1の言語タイプが中国語である場合、第2の言語タイプは英語である。例として、言語タイプは、中国語、英語、日本語、ドイツ語、ロシア語、ラテン語、及びフランス語の少なくとも1つを含むが、これらに限定されない。
会話メッセージは、ユーザ名及び会話内容を含む。会話メッセージは、会話メッセージ及び音声入力操作により入力された音声内容に対応している。例えば、ユーザABCにより入力された音声内容は「ごめんなさい」であり、第1言語タイプの会話メッセージは「ABC:ごめんなさい」であり、第2言語タイプの会話メッセージは「ABC:I’m sorry」である。会話メッセージ及び会話メッセージにより表される意味は、入力内容に対応する必要がある。
好ましくは、会話メッセージの表示位置は、ユーザにより設定されてもよい。例えば、ユーザインターフェースの左上隅又はユーザインターフェースの右下隅に設定されてもよい。本発明は、会話メッセージの具体的な表示位置に限定されない。
例えば、図4及び図5に示すように、図4の第1のユーザインターフェースに表示される会話メッセージ403の内容は「ABC:こんにちは」であり、図5の第2のユーザインターフェースに表示される会話メッセージ503の内容は、内容は「ABC:Hello」であり、会話メッセージ403と会話メッセージ503とは、言語タイプが異なるが、両者により表される意味が同一である。
上述したように、本実施例は、音声入力操作の入力内容を翻訳し、第1のクライアント及び第2のクライアントで異なる言語タイプの会話メッセージを表示することで、異なる言語を使用するユーザ間で直接コミュニケーションを容易に行うことができ、ユーザ間のコミュニケーション効率を向上させることができる。また、システムのリアルタイム性を向上させることができるため、ユーザが他のユーザの情報をより迅速に取得することができる。
図6は、本発明の1つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。該方法は、図1に示す第1の端末120又は第2の端末160により実行されてもよい。該方法は、少なくとも2つのクライアントに適用される。該方法は、以下のステップを含む。
ステップ601:第1のユーザインターフェースを表示する。
第1のクライアントは、第1のユーザインターフェースを表示する。
ステップ602:第2のユーザインターフェースを表示する。
第2のクライアントは、第2のユーザインターフェースを表示する。
ステップ601及びステップ602の実行順序は、時系列での特定の順序に限定されない。
ステップ603:第1のクライアントでの音声入力操作に応じて、第1のクライアントは音声内容を取得する。
音声内容とは、第1のクライアントを介してユーザにより入力された音声情報である。好ましくは、第1のクライアントが音声取込装置を介して音声内容を取得し、或いは、第1のクライアントがネットワークを介して音声内容をダウンロードし、或いは、第1のクライアントが他のクライアントから送信された音声内容を受信し、或いは、第1のクライアントがローカルストレージを照会して音声内容を取得する。
ステップ604:音声内容を送信する。
第1のクライアントは、音声内容をサーバに送信する。
好ましくは、第1のクライアントは、音声内容及び第1の言語タイプをサーバに送信する。
ステップ605:第1の言語タイプ及び第2の言語タイプを決定する。
サーバは、第1の言語タイプ及び第2の言語タイプを決定する。
サーバは第1のクライアントから送信された第1の言語タイプを受信し、或いは、サーバには第1の言語タイプが記憶されている。
サーバは第2のクライアントから送信された第2の言語タイプを受信し、或いは、サーバには第2の言語タイプが記憶されている。
好ましくは、このステップは、次の2つのステップの少なくとも1つを含む。
1.第1のクライアントは、サーバに第1の言語タイプを送信する。
サーバは、第1のクライアントから送信された第1の言語タイプを受信し、第1の言語タイプを決定する。
例えば、第1のクライアントはサーバにバージョン情報を送信し、該バージョン情報は第1の言語タイプを含む。或いは、第1のクライアントはサーバに地理情報を送信し、該地理情報は第1の言語タイプに対応する。例えば、地理情報は、第1のクライアントが中国に位置することを示す場合、第1の言語タイプは中国語である。或いは、第1のクライアントはサーバに第1の端末の言語設定を送信し、該言語設定は第1の言語タイプを含む。
2.第2のクライアントは、サーバに第2の言語タイプを送信する。
サーバは、第2のクライアントから送信された第2の言語タイプを受信し、第2の言語タイプを決定する。
好ましくは、サーバは、第2のクライアントから送信された第2の言語タイプを受信し、第2の言語タイプを決定する。例えば、第2のクライアントはサーバにバージョン情報を送信し、該バージョン情報は第2の言語タイプを含む。或いは、第2のクライアントはサーバに地理情報を送信し、該地理情報は第2の言語タイプに対応する。例えば、地理情報は、第2のクライアントが中国に位置することを示す場合、第2の言語タイプは中国語である。或いは、第2のクライアントはサーバに第2の端末の言語設定を送信し、該言語設定は第2の言語タイプを含む。
好ましくは、第2のクライアントは、サーバから送信された言語タイプ取得要求を受信し、第2のクライアントは、言語タイプ取得要求に従って、サーバに第2の言語タイプを送信する。言語タイプ取得要求は、サーバがクライアントに言語タイプの送信を要求するために使用される。
ステップ606:音声内容に基づいて第1の言語タイプの会話メッセージ及び第2の言語タイプの会話メッセージを生成する。
サーバは、音声内容に基づいて第1の言語タイプの会話メッセージ及び第2の言語タイプの会話メッセージを生成する。
好ましくは、サーバは、音声内容を第1言語タイプの会話メッセージに変換し、第1言語タイプの会話メッセージを第2言語タイプの会話メッセージに翻訳する。例えば、サーバは、音声内容「ごめんなさい」を第1の言語タイプの会話メッセージ「ごめんなさい」に変換し、第1の言語タイプの会話メッセージ「ごめんなさい」を第2の言語タイプの会話メッセージ「I’m sorry」に翻訳する。
好ましくは、第1のクライアントは、音声内容に基づいて第1の言語タイプの会話メッセージを生成する。第1のクライアントは、第1の言語タイプの会話メッセージをサーバに送信する。サーバは、第1の言語タイプの会話メッセージに基づいて、第2の言語タイプの会話メッセージを生成する。即ち、第1の言語タイプの会話メッセージを生成するタスクは、第1のクライアントにより実行される。
ステップ607:第1の言語タイプの会話メッセージを送信する。
サーバは、第1の言語タイプの会話メッセージを第1のクライアントに送信する。
ステップ608:第2の言語タイプの会話メッセージを送信する。
サーバは、第2の言語タイプの会話メッセージを第2のクライアントに送信する。
ステップ607及びステップ608の実行順序は、時系列での特定の順序に限定されない。
ステップ609:第1の言語タイプの会話メッセージを受信する。
第1のクライアントは、サーバから送信された第1の言語タイプの会話メッセージを受信する。
ステップ610:第1の言語タイプを使用して会話メッセージを表示する。
第1のクライアントは、第1のユーザインターフェースに第1の言語タイプの会話メッセージを表示する。
ステップ611:会話メッセージの表示をキャンセルする。
第1のクライアントは、第1の言語タイプでの会話メッセージの表示をキャンセルする。
好ましくは、第1の言語タイプで会話メッセージを表示する表示時間が所定期間に達した場合、第1のクライアントは、会話メッセージの表示をキャンセルする。例えば、会話メッセージが10秒間表示された場合、第1のクライアントは、会話メッセージの表示をキャンセルする。
好ましくは、第1のクライアントは、第1の表示キャンセル操作に応じて、会話メッセージの表示をキャンセルする。第1の表示キャンセル操作は、会話メッセージの表示をキャンセルするために使用される。ここで、第1の表示キャンセル操作は、会話メッセージの表示をキャンセルするために1つ又は複数の所定の物理ボタンを押すことであってもよい。或いは、第1の表示キャンセル操作は、第1の表示キャンセル操作を実行するためにタッチスクリーンの指定領域で生成された信号を長押し、タップ、ダブルタップ及び/又はスワイプすることであってもよい。或いは、第1の表示キャンセル操作は、第1の表示キャンセル操作を実行するために入力された音声内容を認識することであってもよい。
ステップ612:第2の言語タイプの会話メッセージを受信する。
好ましくは、第2のクライアントは、サーバから送信された第1の言語タイプの会話メッセージを受信し、第2のクライアントは、第1の言語タイプの会話メッセージ及び第2の言語タイプに基づいて、第2の言語タイプの会話メッセージを決定する。即ち、第2言語の会話メッセージを決定するタスクは、第2のクライアントにより実行される。
ステップ613:第2の言語タイプで会話メッセージを表示する。
好ましくは、第1のクライアントでの音声入力操作に応じて、第2のクライアントは、第2のユーザインターフェースに第1の言語タイプの会話メッセージ及び第2の言語タイプの会話メッセージを表示する。図7に示すように、第2のユーザインターフェースに表示される会話メッセージは、第1の言語タイプの会話メッセージ及び第2の言語タイプの会話メッセージを含む。ここで、第1の言語タイプの会話メッセージは「こんにちは」であり、第2の言語タイプの会話メッセージは「Hello」である。第1の言語タイプの会話メッセージと第2の言語タイプの会話メッセージを同時に表示することで、ユーザが他の言語を容易に勉強することができるため、ユーザが将来より良いコミュニケーションを行うことができる。
ステップ614:会話メッセージの表示をキャンセルする。
第2のクライアントは、第2の言語タイプでの会話メッセージの表示をキャンセルする。
好ましくは、第2の言語タイプで会話メッセージを表示する表示時間が所定期間に達した場合、第2のクライアントは、会話メッセージの表示をキャンセルする。例えば、会話メッセージが10秒間表示された場合、第2のクライアントは、会話メッセージの表示をキャンセルする。
好ましくは、第2のクライアントは、第2の表示キャンセル操作に応じて、会話メッセージの表示をキャンセルする。第2の表示キャンセル操作は、会話メッセージの表示をキャンセルするために使用される。ここで、第2の表示キャンセル操作は、会話メッセージの表示をキャンセルするために1つ又は複数の所定の物理ボタンを押すことであってもよい。或いは、第2の表示キャンセル操作は、第2の表示キャンセル操作を実行するためにタッチスクリーンの指定領域で生成された信号を長押し、タップ、ダブルタップ及び/又はスワイプすることであってもよい。或いは、第2の表示キャンセル操作は、第2の表示キャンセル操作を実行するために入力された音声内容を認識することであってもよい。第2の表示キャンセル操作と第1の表示キャンセル操作とは、具体的な操作モードは、同一であってもよいし、異なってもよいが、本発明はこれに限定されない。
上述したように、本実施例は、音声入力操作の入力内容を翻訳し、第1のクライアント及び第2のクライアントで異なる言語タイプの会話メッセージを表示することで、異なる言語を使用するユーザ間で直接コミュニケーションを容易に行うことができるため、ユーザ間のコミュニケーション効率を向上させることができる。
また、サーバにより音声変換及び会話メッセージの翻訳を行うことで、取得された会話メッセージの正確性を向上させ、音声変換及び情報翻訳の正確性を向上させることができる。
さらに、ユーザは、自分のニーズに応じて会話メッセージの表示をキャンセルすることで、会話メッセージがユーザの操作に干渉することを防止することができる。
本発明では、ユーザは、音声テキストの変換をより高速に実現してもよい。
図8は、本発明の1つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。該方法は、図1に示す第1の端末120又は第2の端末160により実行されてもよい。該方法は、少なくとも2つのクライアントに適用される。該方法は、以下のステップを含む。
図2の実施例の好ましい態様では、上記のステップ202~ステップ204の代わりに、次のステップ802~ステップ804を実施してもよい。
ステップ802:第1のクライアントは、第1のユーザインターフェースを表示する。
ステップ804:第2のクライアントは、第2のユーザインターフェースを表示する。
ステップ806:第1のクライアントでのチャットウィジェットに対する第1のトリガ操作に応じて、第1のクライアントは、第1の言語タイプを使用して会話メッセージを表示し、第2のクライアントは、第2の言語タイプを使用して会話メッセージを表示する。
チャットウィジェットは、異なるクライアントのユーザ間で情報を交換するために使用される。例えば、ユーザは、チャットウィジェットをタップし、テキストを入力する。
第1のトリガ操作は、第1のクライアントを使用するユーザが音声内容を入力するために使用される。ここで、第1のトリガ操作は、音声内容を入力するために1つ又は複数の所定の物理ボタンを押すことであってもよい。或いは、第1のトリガ操作は、第1のトリガ操作を実行するためにタッチスクリーンの指定領域で生成された信号を長押し、タップ、ダブルタップ及び/又はスワイプすることであってもよい。
好ましくは、以下のように音声内容を入力して会話メッセージを表示してもよい。
1.第1のクライアントにおけるチャットウィジェットに対する入力開始操作に応じて、第1のクライアントは、チャットウィジェットの周辺位置に音声記録プロンプトを表示し、音声内容の受信を開始する。
入力開始操作は、第1のクライアントが音声内容の受信を開始するように制御するために使用される。ここで、入力開始操作は、音声内容の受信を開始するために1つ又は複数の所定の物理ボタンを押すことであってもよい。或いは、入力開始操作は、入力開始操作を実行するためにタッチスクリーンの指定領域で生成された信号を長押し、タップ、ダブルタップ及び/又はスワイプすることであってもよい。
音声記録プロンプトは、第1のクライアントが音声内容を受信していることを提示するために使用される。好ましくは、音声記録プロンプトは、テキスト、アイコン、音声、画像、振動フィードバック、及び光のうちの少なくとも1つ又はその組み合わせである。
好ましくは、音声記録プロンプトは、チャットウィジェットの上側、下側、左側、右側、左上側、左下側、右上側、及び右下側のうちの少なくとも1つに表示される。
例えば、図9に示すように、ユーザは、第1のクライアントにおけるチャットウィジェット402を長押しして、音声記録プロンプト901を表示する。ここで、音声記録プロンプト901には、マイクロフォンアイコン及びテキストプロンプト「カウントダウン:9s」及び「指で左へスワイプしてキャンセルする」が表示されている。
2.第1のクライアントにおけるチャットウィジェットに対する入力終了操作に応じて、第1のクライアントは、音声記録プロンプトの表示をキャンセルし、音声内容の受信を終了する。
入力終了操作は、第1のクライアントが音声内容の受信を終了するように制御するために使用される。ここで、入力終了操作は、音声内容の入力を終了するために1つ又は複数の所定の物理ボタンを押すことであってもよい。或いは、入力終了操作は、入力終了操作を実行するためにタッチスクリーンの指定領域で生成された信号を長押し、タップ、ダブルタップ及び/又はスワイプすることであってもよい。
好ましくは、音声内容の入力期間が期間閾値に達した場合、第1のクライアントは、音声記録プロンプトの表示をキャンセルし、音声内容の受信を終了する。例えば、ユーザが10秒間の音声内容を入力し、音声内容の入力期間が期間閾値に達した場合、第1のクライアントは、音声内容の受信を終了する。
例えば、図10に示すように、ユーザがチャットウィジェット402を長押しして音声内容を入力し、ユーザがチャットウィジェット402から手を離して音声内容の入力を終了し、或いは、ユーザが期間閾値に達するまでチャットウィジェット402を9秒間長押しし続けて、クライアントが音声内容の受信を終了する。
例えば、図10に示すように、音声変換プロセス中に変換リマインダー1001を表示し、変換リマインダー1001には「変換中」が表示されている。
好ましくは、音声内容の入力が完了すると、第1のクライアントは、音声変換プロンプトを表示する。音声変換プロンプトは、音声内容の入力が完了し、音声内容が会話メッセージに変換されていることを、ユーザに提示するために使用される。音声変換プロンプトは、テキスト、アイコン、音声、画像、振動フィードバック、及び光のうちの少なくとも1つ又はその組み合わせである。
3.第1のクライアントは、第1の言語タイプを使用して会話メッセージを表示し、第2のクライアントは、第2の言語タイプを使用して会話メッセージを表示する。
例えば、図4及び5に示すように、第1のクライアントは、第1の言語タイプを使用して会話メッセージ403を表示し、第2のクライアントは、第2の言語タイプを使用して会話メッセージ503を表示する。ここで、会話メッセージ403は、「ABC:こんにちは」であり、会話メッセージ503は、「ABC:Hello」である。
上述したように、本実施例は、ユーザが音声内容を入力するためのショートカットを提供することで、ユーザが音声内容をより迅速に入力することができ、ユーザの操作手順を削減し、ヒューマンコンピュータインタラクションの効率を向上させることができる。
図11は、本発明の1つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。該方法は、図1に示すサーバ140により実行されてもよく、サーバ140は、少なくとも2つのクライアントに接続されている。該方法は、以下のステップを含む。
ステップ1101:第1のクライアントから送信された音声内容を受信する。
サーバは、第1のクライアントから送信された音声内容を受信する。
ステップ1102:第1の言語タイプ及び第2の言語タイプを決定する。
好ましくは、サーバは、第1のクライアントから送信された第1の言語タイプを受信し、第1の言語タイプを決定する。
好ましくは、第1のクライアントはサーバにバージョン情報を送信し、該バージョン情報は第1の言語タイプを含む。或いは、第1のクライアントはサーバに地理情報を送信し、該地理情報は第1の言語タイプに対応する。例えば、地理情報は、第1のクライアントが中国に位置することを示す場合、第1の言語タイプは中国語である。或いは、第1のクライアントはサーバに第1の端末の言語設定を送信し、該言語設定は第1の言語タイプを含む。
好ましくは、サーバは、第2のクライアントから送信された第2の言語タイプを受信し、第2の言語タイプを決定する。
好ましくは、第2のクライアントはサーバにバージョン情報を送信し、該バージョン情報は第2の言語タイプを含む。或いは、第2のクライアントはサーバに地理情報を送信し、該地理情報は第2の言語タイプに対応する。例えば、地理情報は、第2のクライアントが中国に位置することを示す場合、第2の言語タイプは中国語である。或いは、第2のクライアントはサーバに第2の端末の言語設定を送信し、該言語設定は第2の言語タイプを含む。
好ましくは、サーバは、第2のクライアントに言語タイプ取得要求を送信し、サーバは、第2のクライアントから送信された第2の言語タイプを受信する。ここで、言語タイプ取得要求は、サーバがクライアントに言語タイプの送信を要求するために使用される。
ステップ1103:音声内容及び第1の言語タイプに基づいて、音声内容を第1の言語タイプの会話メッセージに変換する。
好ましくは、サーバは、音声内容を会話メッセージに変換する。例えば、サーバは、音声内容「ごめんなさい」を会話メッセージ「ごめんなさい」に変換する。
ステップ1104:第1の言語タイプの会話メッセージ及び第2の言語タイプに基づいて、翻訳により第2の言語タイプの会話メッセージを取得する。
好ましくは、サーバは、第1の言語タイプの会話メッセージを第2の言語タイプの会話メッセージに翻訳する。例えば、サーバは、第1の言語タイプの会話メッセージ「ごめんなさい」を第2の言語タイプの会話メッセージ「I’m sorry」に翻訳する。
ステップ1105:第2の言語タイプの会話メッセージを第2のクライアントに送信する。
サーバは、第2言語の会話メッセージを第2のクライアントに送信する。
上述したように、本実施例は、サーバで音声内容を会話メッセージに変換し、会話メッセージを会話メッセージに翻訳することで、異なる言語のユーザ間で直接コミュニケーションを容易に行うことができ、ユーザ間のコミュニケーションの効率を向上させることができる。また、サーバを使用して変換及び翻訳の正確率を向上させることができるため、ユーザにより正確な結果を提供することができる。
好ましくは、本発明はMOBAゲームに適用される。例えば、ユーザAとユーザBがMOBAゲームをプレイしている際に、ユーザAが中国語の音声内容を入力した後、ユーザAのクライアントで中国語の会話メッセージを表示し、ユーザBのクライアントで英語の会話メッセージを表示する。
好ましくは、本発明はFPSゲームに適用される。例えば、ユーザAとユーザBがFPSゲームをプレイしている際に、ユーザAが中国語の音声内容を入力した後、ユーザAのクライアントでロシア語の会話メッセージを表示し、ユーザBのクライアントで英語の会話メッセージを表示する。
好ましくは、本発明はSLGゲームに適用される。例えば、ユーザAとユーザBがSLGゲームをプレイしている際に、ユーザAが中国語の音声内容を入力した後、ユーザAのクライアントで中国語の会話メッセージを表示し、ユーザBのクライアントで日本語の会話メッセージを表示する。
例示的な態様では、音声をテキストに変換する方法をさらに提供する。該方法は、図1に示す第1の端末120により実行されてもよい。該方法は、以下のステップを含む。
第1のユーザインターフェースを表示する。第1のユーザインターフェースは、第1のユーザアカウントにより制御される第1の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。
第1のクライアントでの音声入力操作に応じて、第1の言語タイプを使用して第1のユーザアカウントにより入力された会話メッセージを表示する。
第2の端末における第2のクライアントが第2の言語タイプを使用して第1のユーザアカウントにより送信された会話メッセージを表示するように、会話メッセージを第2の端末に送信する。
ここで、第1の言語タイプは、第1のユーザアカウント又は第1のクライアントに関連する言語タイプであり、第2の言語タイプは、第2のユーザアカウント又は第2のクライアントに関連する言語タイプであり、会話メッセージのテキスト内容は、音声入力操作により入力された音声内容に基づいて認識されたものである。
上述したように、本実施例は、音声入力操作の入力内容を翻訳し、第1のクライアント及び第2のクライアントで異なる言語タイプの会話メッセージを表示することで、異なる言語を使用するユーザ間で直接コミュニケーションを容易に行うことができ、ユーザ間のコミュニケーション効率を向上させることができる。また、システムのリアルタイム性を向上させることができるため、ユーザが他のユーザの情報をより迅速に取得することができる。
図12は、本発明の1つの例示的な実施例に係る音声テキスト変換システムの構成の概略図である。該システムは、ソフトウェア、ハードウェア、又は両者の組み合わせにより、コンピュータ機器の全部又は一部として実現されてもよい。システム120は、第1の装置121及び第2の装置122を含み、具体的には、以下の構成部を含む。
第1の装置121は、第1のユーザインターフェースを表示し、第1のユーザインターフェースは、第1のユーザアカウントにより制御される第1の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。
第2の装置122は、第2のユーザインターフェースを表示し、第2のユーザインターフェースは、第2のユーザアカウントにより制御される第2の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。
第1の装置121は、第1の装置121での音声入力操作に応じて、第1の言語タイプを使用して第1のユーザアカウントにより入力された会話メッセージを表示する。第1の言語タイプは、第1のユーザアカウント又は第1の装置に関連する言語タイプであり、会話メッセージのテキスト内容は、音声入力操作により入力された音声内容に基づいて認識されたものである。
第2の装置122は、第2の言語タイプを使用して第1のユーザアカウントにより送信された会話メッセージを表示する。第2の言語タイプは、第2のユーザアカウント又は第2の装置に関連する言語タイプである。
本発明の好ましい態様では、第1の装置121は、第1の装置121での音声入力操作に応じて、音声内容を取得し、サーバが音声内容に基づいて第1の言語タイプの会話メッセージ及び第2の言語タイプの会話メッセージを生成するように、音声内容をサーバに送信し、サーバから送信された会話メッセージを受信した後、第1の言語タイプを使用して会話メッセージを表示する。
本発明の好ましい態様では、第2の装置122は、サーバから送信された会話メッセージを受信した後に、第2の言語タイプを使用して会話メッセージを表示する。
本発明の好ましい態様では、第1の装置121は、サーバに第1の言語タイプを送信する。
本発明の好ましい態様では、第2の装置122は、サーバに第2の言語タイプを送信する。
本発明の好ましい態様では、第1の装置121は、音声内容及び第1の言語タイプをサーバに送信する。
本発明の好ましい態様では、第2の装置122は、サーバから送信された言語タイプ取得要求を受信し、言語タイプ取得要求に応じてサーバに第2の言語タイプを送信する。
本発明の好ましい態様では、第1の装置121は、第1の装置121におけるチャットウィジェットに対する第1のトリガ操作に応じて、第1の言語タイプを使用して会話メッセージを表示する。
本発明の好ましい態様では、第2の装置122は、第1の装置121におけるチャットウィジェットに対する第1のトリガ操作に応じて、第2の言語タイプを使用して会話メッセージを表示する。
本発明の好ましい態様では、第1の装置121は、第1の装置121におけるチャットウィジェットに対する入力開始操作に応じて、チャットウィジェットの周辺位置に音声記録プロンプトを表示し、音声内容の受信を開始し、第1の装置121におけるチャットウィジェットに対する入力終了操作に応じて、音声記録プロンプトの表示をキャンセルし、音声内容の受信を終了する。
本発明の好ましい態様では、第1の装置121は、第1の言語タイプで会話メッセージを表示する表示時間が所定期間に達した場合、会話メッセージの表示をキャンセルし、或いは、第1の表示キャンセル操作に応じて会話メッセージの表示をキャンセルする。
本発明の好ましい態様では、第2の装置122は、第2の言語タイプで会話メッセージを表示する表示時間が所定期間に達した場合、会話メッセージの表示をキャンセルし、或いは、第2の表示キャンセル操作に応じて会話メッセージの表示をキャンセルする。
本発明の好ましい態様では、第2の装置122は、第1の装置121での音声入力操作に応じて、第1の言語タイプ及び第2の言語タイプを使用して会話メッセージを表示する。
上述したように、第1のクライアントで言語入力操作を受け付けた場合、異なるクライアントで異なる言語タイプの会話メッセージを表示し、入力された音声情報を異なる言語タイプの会話メッセージに翻訳することで、異なる言語タイプを使用するユーザはコミュニケーションを容易に行うことができ、言語の壁を取り除くことができる。また、ユーザが追加的な翻訳ソフトウェアを使用して他の言語タイプの会話メッセージを翻訳する必要がないため、ユーザの操作手順を削減し、ヒューマンコンピュータインタラクションの効率を向上させることができる。
本発明の1つの例示的な実施例は、音声をテキストに変換するための装置をさらに提供する。該装置は、ソフトウェア、ハードウェア、又は両者の組み合わせにより、コンピュータ機器の全部又は一部として実現されてもよく、具体的には、以下の構成部を含む。
表示モジュールは、第1のユーザインターフェースを表示する。第1のユーザインターフェースは、第1のユーザアカウントにより制御される第1の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。
表示モジュールは、第1のクライアントでの音声入力操作に応じて、第1の言語タイプを使用して第1のユーザアカウントにより入力された会話メッセージを表示する。
送信モジュールは、第2の端末における第2のクライアントが第2の言語タイプを使用して第1のユーザアカウントにより送信された会話メッセージを表示するように、会話メッセージを第2の端末に送信する。
ここで、第1の言語タイプは、第1のユーザアカウント又は第1のクライアントに関連する言語タイプであり、第2の言語タイプは、第2のユーザアカウント又は第2のクライアントに関連する言語タイプであり、会話メッセージのテキスト内容は、音声入力操作により入力された音声内容に基づいて認識されたものである。
上述したように、本実施例は、音声入力操作の入力内容を翻訳し、第1のクライアント及び第2のクライアントで異なる言語タイプの会話メッセージを表示することで、異なる言語を使用するユーザ間で直接コミュニケーションを容易に行うことができ、ユーザ間のコミュニケーション効率を向上させることができる。また、システムのリアルタイム性を向上させることができるため、ユーザが他のユーザの情報をより迅速に取得することができる。
図13は、本発明の1つの例示的な実施例に係る音声テキスト変換装置の構成の概略図である。該装置は、ソフトウェア、ハードウェア、又は両者の組み合わせにより、コンピュータ機器の全部又は一部として実現されてもよい。該装置130は、以下の構成部を含む。
受信モジュール131は、第1のクライアントから送信された音声内容を受信する。
受信モジュール131は、第1の言語タイプ及び第2の言語タイプを決定する。
変換モジュール132は、音声内容及び第1の言語タイプに基づいて、音声内容を第1の言語タイプの会話メッセージに変換する。会話メッセージのテキスト内容は、音声内容に基づいて認識されたものである。
翻訳モジュール133は、第1の言語タイプの会話メッセージ及び第2の言語タイプに基づいて、翻訳により第2の言語タイプの前記会話メッセージを取得する。
送信モジュール134は、第2の言語タイプの会話メッセージを第2のクライアントに送信する。
本発明の好ましい態様では、受信モジュール131は、第1のクライアントから送信された第1の言語タイプを受信し、第2のクライアントから送信された第2の言語タイプを受信する。
本発明の好ましい態様では、送信モジュール134は、第2のクライアントに言語タイプ取得要求を送信する。
上述したように、本実施例は、サーバで音声内容を会話メッセージに変換し、第1の言語タイプの会話メッセージを第2の言語タイプの会話メッセージに翻訳することで、異なる言語のユーザ間で直接コミュニケーションを容易に行うことができ、ユーザ間のコミュニケーションの効率を向上させることができる。また、サーバを使用して変換及び翻訳の正確率を向上させることができるため、ユーザにより正確な結果を提供することができる。
本発明は、プロセッサと、少なくとも1つの命令が記憶されたメモリと、を含む端末をさらに提供する。少なくとも1つの命令は、プロセッサによりロードされて実行される際に、上記の各方法の実施例に記載された方法を実行させる。なお、該端末は、以下の図14に示す端末であってもよい。
図14は、本発明の1つの例示的な実施例に係る端末の構成のブロック図である。該端末は、上述した第1の端末又は第2の端末であってもよい。端末1400は、スマートフォン、タブレットコンピュータ、MP3(Moving Picture Experts Group Audio Layer III:ムービングピクチャーエキスパートグループオーディオレイヤーIII)プレイヤ、MP4(Moving Picture Experts Group Audio Layer IV:ムービングピクチャーエキスパートグループオーディオレイヤーIV)プレイヤ、ラップトップコンピュータ、又はデスクトップコンピュータであってもよい。端末1400は、ユーザ装置、携帯端末、ラップトップ端末、デスクトップ端末などの他の名称と称されてもよい。
一般に、端末1400は、プロセッサ1401及びメモリ1402を含む。
プロセッサ1401は、4コアプロセッサ、8コアプロセッサなどのような1つ又は複数の処理コアを含んでもよい。プロセッサ1401は、DSP(Digital Signal Processing:デジタル信号処理)、FPGA(Field Programmable Gate Array:フィールドプログラマブルゲートアレイ)、及びPLA(Programmable Logic Array:プログラマブルロジックアレイ)の少なくとも1つのハードウェア形式で実現されてもよい。プロセッサ1401は、メインプロセッサ及びコプロセッサを含んでもよい。メインプロセッサは、アウェイク状態でデータを処理するために使用されるプロセッサであり、CPU(Central Processing Unit:中央処理装置)とも称される。コプロセッサは、スタンバイ状態でデータを処理するために使用される低電力プロセッサである。幾つかの実施例では、プロセッサ1401は、GPU(Graphics Processing Unit:グラフィックスプロセッシングユニット)と統合されてもよく、GPUは、表示画面に表示される必要がある内容をレンダリング及び描画するために使用される。幾つかの実施例では、プロセッサ1401は、AI(Artificial Intelligence:人工知能)プロセッサをさらに含んでもよく、該AIプロセッサは、機械学習に関連する計算操作を処理するために使用される。
メモリ1402は、1つ又は複数のコンピュータ読み取り可能な記憶媒体を含んでもよく、該コンピュータ読み取り可能な記憶媒体は、有形で非一時的であってもよい。メモリ1402は、高速ランダムアクセスメモリ及び不揮発性メモリ、例えば、1つ又は複数の磁気ディスク記憶装置やフラッシュメモリ記憶装置をさらに含んでもよい。幾つかの実施例では、メモリ1402における非一時的なコンピュータ読み取り可能な記憶媒体は、少なくとも1つの命令が記憶され、該少なくとも1つの命令は、本発明に係る方法を実現するように、プロセッサ1401により実行されるために使用される。
幾つかの実施例では、端末1400は、好ましくは、周辺機器インターフェース1403及び少なくとも1つの周辺機器をさらに含んでもよい。プロセッサ1401、メモリ1402、及び周辺機器インターフェース1403は、バス又は信号線を介して接続されてもよい。各周辺機器は、バス、信号線、又は回路基板を介して周辺機器インターフェース1403に接続されてもよい。具体的には、周辺機器は、無線周波数回路1404、スクリーン1405、カメラコンポーネント1406、オーディオ回路1407、位置特定コンポーネント1408、及び電源1409のうちの少なくとも1つを含む。
なお、当業者が理解できるように、端末1400は、図14に示す構成に限定されず、図示されているものより多く、又は少ない構成要素を含んでもよいし、特定の構成要素を組み合わせてもよいし、異なる構成要素の配置を採用してもよい。
図15は、本発明の1つの例示的な実施例に係るサーバの構成の概略図である。具体的には、サーバ1500は、中央処理ユニット(Central Processing Unit:CPU)1501、ランダムアクセスメモリ(Random Access Memory:RAM)1502及び読み取り専用メモリ(Read-Only Memory:ROM)1503を含むシステムメモリ1504、並びにシステムメモリ1504及び中央処理ユニット1501に接続されるシステムバス1505を含む。サーバ1500は、コンピュータ内の各デバイス間で情報を伝送するための基本的な入力/出力(I/O)システム1506、並びにオペレーティングシステム1513、アプリケーションプログラム1514及び他のプログラムモジュール1515を記憶するための大容量記憶装置1507をさらに含む。
基本的な入力/出力システム1506は、情報を表示するためのディスプレイ1508、ユーザが情報を入力するためのマウス、キーボードなどの入力装置1509を含む。ディスプレイ1508及び入力装置1509は、何れもシステムバス1505に接続された入力/出力コントローラ1510を介して中央処理ユニット1501に接続されている。基本的な入力/出力システム1506は、キーボード、マウス、又は電子スタイラスなどの他の複数のデバイスからの入力を受信及び処理するための入力/出力コントローラ1510をさらに含んでもよい。同様に、入力/出力コントローラ1510は、表示画面、プリンタ、又は他のタイプの出力装置への出力をさらに提供する。
大容量記憶装置1507は、システムバス1505に接続された大容量記憶コントローラ(図示せず)を介して中央処理ユニット1501に接続されている。大容量記憶装置1507及びそれに関連するコンピュータ読み取り可能な媒体は、サーバ1500に不揮発性ストレージを提供する。即ち、大容量記憶装置1507は、ハードディスク又はコンパクトディスク読み取り専用メモリ(Compact Disc Read-Only Memory:CD-ROM)ドライブなどのコンピュータ読み取り可能な媒体(図示せず)を含んでもよい。
なお、コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体及び通信媒体を含んでもよい。コンピュータ記憶媒体は、例えばコンピュータ読み取り可能な命令、データ構造、プログラムモジュール、又はその他のデータなどの情報を記憶するための任意の方法又は技術で実現される揮発性及び不揮発性、取り外し可能及び取り外し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、消去可能プログラム可能読み取り専用メモリ(Erasable Programmable Read-Only Memory:EPROM)、電気的消去可能プログラム可能読み取り専用メモリ(英語:電気的消去可能プログラム可能読み取り専用メモリ(Electrically Erasable Programmable Read-Only Memory:EEPROM)、フラッシュメモリ又はその他のソリッドステートストレージテクノロジ、CD-ROM、デジタル多用途ディスク(Digital Versatile Disc:DVD)又はその他の光ストレージ、テープカートリッジ、磁気テープ、ディスクストレージ、又はその他の磁気ストレージデバイスを含む。なお、当業者が分かるように、コンピュータ記憶媒体は上記のものに限定されない。上記のシステムメモリ1504及び大容量記憶装置1507は、メモリと総称されてもよい。
本発明の各実施例では、サーバ1500は、さらに、動作するために、インターネットなどのネットワークを介してネットワーク上の遠隔コンピュータに接続されてもよい。即ち、サーバ1500は、システムバス1505に接続されたネットワークインターフェースユニット1511を介してネットワーク1512に接続されてもよく、言い換えれば、ネットワークインターフェースユニット1511を用いて他のタイプのネットワーク又はリモートコンピュータシステム(図示せず)に接続されてもよい。
本発明の他の態様では、コンピュータ読み取り可能な記憶媒体をさらに提供する。該コンピュータ読み取り可能な記憶媒体には、少なくとも1つのプログラムコードが記憶され、プログラムコードは、上記の音声をテキストに変換する方法を実行するためにプロセッサによりロードされて実行される。
本発明の他の態様では、コンピュータプログラムプロダクト又はコンピュータプログラムをさらに提供する。コンピュータプログラムプロダクト又はコンピュータプログラムは、コンピュータ読み取り可能な命令を含み、該コンピュータ読み取り可能な命令はコンピュータ読み取り可能な記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ読み取り可能な記憶媒体からコンピュータ読み取り可能な命令を読み取って実行することで、上記の音声をテキストに変換する方法を実行する。
なお、本明細書で言及される「複数」は、2つ以上を意味する。「及び/又は」は、関連付けられたオブジェクトの関連付け関係を説明し、3つのタイプの関係があり得ることを表す。例えば、「A及び/又はB」は、Aのみが存在すること、A及びBが同時に存在すること、及びBのみが存在することを意味してもよい。記号「/」は、通常、前後の関連オブジェクトが「又は」関係にあることを表す。
当業者が理解できるように、上記の実施例のステップの全部又は一部は、ハードウェアにより実現されてもよいし、関連するハードウェアが実行するようにプログラムを介して指示することで実現されてもよい。該プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。上述した記憶媒体は、読み取り専用メモリ、磁気ディスク又は光ディスクなどであってもよい。
以上は、単に本発明の例示的な実施例を説明し、本発明を制限するものではない。本発明の主旨及び原則の範囲内で行われる変更、均等的な置換、改良などは、本発明の保護範囲内に含まれる。

Claims (20)

  1. 少なくとも2つのクライアントが実行する、音声をテキストに変換する方法であって、
    第1のクライアントが第1のユーザインターフェースを表示するステップであって、前記第1のユーザインターフェースは、第1のユーザアカウントにより制御される第1の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、
    第2のクライアントが第2のユーザインターフェースを表示するステップであって、前記第2のユーザインターフェースは、第2のユーザアカウントにより制御される第2の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、
    前記第1のクライアントでの音声入力操作に応じて、前記第1のクライアントが第1の言語タイプを使用して前記第1のユーザアカウントにより入力された会話メッセージを表示し、前記第2のクライアントが第2の言語タイプを使用して前記第1のユーザアカウントにより送信された前記会話メッセージを表示するステップと、を含み、
    前記第1の言語タイプは、前記第1のユーザアカウント又は前記第1のクライアントに関連する言語タイプであり、
    前記第2の言語タイプは、前記第2のユーザアカウント又は前記第2のクライアントに関連する言語タイプであり、
    前記会話メッセージのテキスト内容は、前記音声入力操作により入力された音声内容に基づいて認識されたものである、方法。
  2. 前記第1のクライアントでの音声入力操作に応じて、前記第1のクライアントが第1の言語タイプを使用して前記第1のユーザアカウントにより入力された会話メッセージを表示するステップは、
    前記第1のクライアントでの前記音声入力操作に応じて、前記第1のクライアントが前記音声内容を取得するステップと、
    サーバが前記音声内容に基づいて前記第1の言語タイプの前記会話メッセージ及び前記第2の言語タイプの前記会話メッセージを生成するように、前記第1のクライアントが前記音声内容を前記サーバに送信するステップと、
    前記第1のクライアントが前記サーバから送信された前記第1の言語タイプの前記会話メッセージを受信した後、前記第1の言語タイプを使用して前記会話メッセージを表示するステップと、を含み、
    前記第2のクライアントが第2の言語タイプを使用して前記第1のユーザアカウントにより送信された前記会話メッセージを表示するステップは、
    前記第2のクライアントが前記サーバから送信された前記第2の言語タイプの前記会話メッセージを受信した後、前記第2の言語タイプを使用して前記会話メッセージを表示するステップ、を含む、請求項1に記載の方法。
  3. 前記第1のクライアントが前記サーバに前記第1の言語タイプを送信するステップ、及び
    前記第2のクライアントが前記サーバに前記第2の言語タイプを送信するステップ、のうちの少なくとも1つ、をさらに含む、請求項2に記載の方法。
  4. 前記第1のクライアントが前記サーバに前記第1の言語タイプを送信するステップは、
    前記第1のクライアントが前記音声内容及び前記第1の言語タイプを前記サーバに送信するステップ、を含む、請求項3に記載の方法。
  5. 前記第2のクライアントが前記サーバに前記第2の言語タイプを送信するステップは、
    前記第2のクライアントが前記サーバから送信された言語タイプ取得要求を受信するステップと、
    前記第2のクライアントが前記言語タイプ取得要求に応じて、前記サーバに前記第2の言語タイプを送信するステップと、を含む、請求項3に記載の方法。
  6. 前記第1のクライアントには、チャットウィジェットが表示され、
    前記第1のクライアントでの音声入力操作に応じて、前記第1のクライアントが第1の言語タイプを使用して前記第1のユーザアカウントにより入力された会話メッセージを表示し、前記第2のクライアントが第2の言語タイプを使用して前記第1のユーザアカウントにより送信された前記会話メッセージを表示するステップは、
    前記第1のクライアントにおける前記チャットウィジェットに対する第1のトリガ操作に応じて、前記第1のクライアントが前記第1の言語タイプを使用して前記会話メッセージを表示し、第2のクライアントが前記第2の言語タイプを使用して前記会話メッセージを表示するステップ、を含む、請求項1乃至5の何れかに記載の方法。
  7. 前記第1のクライアントにおける前記チャットウィジェットに対する第1のトリガ操作に応じて、前記第1のクライアントが前記第1の言語タイプを使用して前記会話メッセージを表示するステップは、
    前記第1のクライアントにおけるチャットウィジェットに対する入力開始操作に応じて、前記第1のクライアントが前記チャットウィジェットの周辺位置に音声記録プロンプトを表示するステップであって、前記音声記録プロンプトは、前記第1のクライアントが前記音声内容の受信を開始することを提示するために使用される、ステップと、
    前記第1のクライアントにおけるチャットウィジェットに対する入力終了操作に応じて、前記第1のクライアントが、前記第1のクライアントが前記音声内容の受信を終了することを提示するために、前記音声記録プロンプトの表示をキャンセルするステップと、
    前記第1のクライアントが前記第1の言語タイプを使用して前記会話メッセージを表示するステップと、を含む、請求項6に記載の方法。
  8. 前記第1の言語タイプで前記会話メッセージを表示する表示時間が所定期間に達した場合、前記第1のクライアントが前記会話メッセージの表示をキャンセルするステップ、又は
    前記第1のクライアントが第1の表示キャンセル操作に応じて前記会話メッセージの表示をキャンセルするステップ、をさらに含む、請求項1乃至5の何れかに記載の方法。
  9. 前記第2の言語タイプで前記会話メッセージを表示する表示時間が所定期間に達した場合、前記第2のクライアントが前記会話メッセージの表示をキャンセルするステップ、又は
    前記第2のクライアントが第2の表示キャンセル操作に応じて前記会話メッセージの表示をキャンセルするステップ、をさらに含む、請求項1乃至5の何れかに記載の方法。
  10. 前記第1のクライアントでの前記音声入力操作に応じて、前記第2のクライアントが前記第1の言語タイプ及び前記第2の言語タイプを使用して前記第1のユーザアカウントにより送信された前記会話メッセージを表示するステップ、をさらに含む、請求項1乃至5の何れかに記載の方法。
  11. 第1の端末が実行する、音声をテキストに変換する方法であって、
    第1のユーザインターフェースを表示するステップであって、前記第1のユーザインターフェースは、第1のユーザアカウントにより制御される第1の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、
    第1のクライアントでの音声入力操作に応じて、第1の言語タイプを使用して前記第1のユーザアカウントにより入力された会話メッセージを表示するステップと、
    第2の端末における第2のクライアントが第2の言語タイプを使用して前記第1のユーザアカウントにより送信された前記会話メッセージを表示するように、前記会話メッセージを前記第2の端末に送信するステップと、を含み、
    前記第1の言語タイプは、前記第1のユーザアカウント又は前記第1のクライアントに関連する言語タイプであり、
    前記第2の言語タイプは、第2のユーザアカウント又は前記第2のクライアントに関連する言語タイプであり、
    前記会話メッセージのテキスト内容は、前記音声入力操作により入力された音声内容に基づいて認識されたものである、方法。
  12. サーバが実行する、音声をテキストに変換する方法であって、
    第1のクライアントから送信された音声内容を受信するステップと、
    第1の言語タイプ及び第2の言語タイプを決定するステップであって、前記第1の言語タイプは、第1のユーザアカウント又は前記第1のクライアントに関連する言語タイプであり、前記第1のユーザアカウントは、前記第1のクライアントにより提供される仮想環境の仮想活動場所において第1の仮想キャラクタを制御するために使用され、前記第2の言語タイプは、第2のユーザアカウント又は第2のクライアントに関連する言語タイプであり、前記第2のユーザアカウントは、前記第2のクライアントにより提供される仮想環境の仮想活動場所において第2の仮想キャラクタを制御するために使用される、ステップと、
    前記音声内容及び前記第1の言語タイプに基づいて、前記音声内容を前記第1の言語タイプの会話メッセージに変換するステップであって、前記会話メッセージのテキスト内容は、前記音声内容に基づいて認識されたものである、ステップと、
    前記第1の言語タイプの前記会話メッセージ及び前記第2の言語タイプに基づいて、翻訳により前記第2の言語タイプの前記会話メッセージを取得するステップと、
    前記第2の言語タイプの前記会話メッセージを前記第2のクライアントに送信するステップと、を含む、方法。
  13. 前記第1の言語タイプ及び第2の言語タイプを決定するステップは、
    前記第1のクライアントから送信された前記第1の言語タイプを受信するステップと、
    前記第2のクライアントに言語タイプ取得要求を送信するステップと、
    前記第2のクライアントから送信された前記第2の言語タイプを受信するステップと、を含む、請求項12に記載の方法。
  14. 音声をテキストに変換するシステムであって、前記システムは、第1の装置と、第2の装置と、を含み、
    前記第1の装置は、第1のユーザインターフェースを表示し、前記第1のユーザインターフェースは、第1のユーザアカウントにより制御される第1の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面であり、
    前記第2の装置は、第2のユーザインターフェースを表示し、前記第2のユーザインターフェースは、第2のユーザアカウントにより制御される第2の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面であり、
    前記第1の装置は、前記第1の装置での音声入力操作に応じて、第1の言語タイプを使用して前記第1のユーザアカウントにより入力された会話メッセージを表示し、
    前記第1の言語タイプは、前記第1のユーザアカウント又は前記第1の装置に関連する言語タイプであり、
    前記会話メッセージのテキスト内容は、前記音声入力操作により入力された音声内容に基づいて認識されたものであり、
    前記第2の装置は、第2の言語タイプを使用して前記第1のユーザアカウントにより送信された前記会話メッセージを表示し、
    前記第2の言語タイプは、前記第2のユーザアカウント又は前記第2の装置に関連する言語タイプである、システム。
  15. 前記第1の装置は、
    前記第1の装置での前記音声入力操作に応じて、前記音声内容を取得し、
    サーバが前記音声内容に基づいて前記第1の言語タイプの前記会話メッセージ及び前記第2の言語タイプの前記会話メッセージを生成するように、前記音声内容を前記サーバに送信し、
    前記サーバから送信された前記会話メッセージを受信した後、前記第1の言語タイプを使用して前記会話メッセージを表示する、請求項14に記載のシステム。
  16. 前記第1の装置は、
    前記第1の装置におけるチャットウィジェットに対する入力開始操作に応じて、前記チャットウィジェットの周辺位置に、前記第1の装置が前記音声内容の受信を開始することを提示するための音声記録プロンプトを表示し、
    前記第1の装置におけるチャットウィジェットに対する入力終了操作に応じて、前記第1の装置が前記音声内容の受信を終了することを提示するために、前記音声記録プロンプトの表示をキャンセルする、請求項14又は15に記載のシステム。
  17. 第1の端末に適用される、音声をテキストに変換する装置であって、該装置は、表示モジュールと、送信モジュールと、を含み、
    前記表示モジュールは、第1のユーザインターフェースを表示し、前記第1のユーザインターフェースは、第1のユーザアカウントにより制御される第1の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面であり、
    前記表示モジュールは、第1のクライアントでの音声入力操作に応じて、第1の言語タイプを使用して前記第1のユーザアカウントにより入力された会話メッセージを表示し、
    前記送信モジュールは、第2の端末における第2のクライアントが第2の言語タイプを使用して前記第1のユーザアカウントにより送信された前記会話メッセージを表示するように、前記会話メッセージを前記第2の端末に送信し、
    前記第1の言語タイプは、前記第1のユーザアカウント又は前記第1のクライアントに関連する言語タイプであり、
    前記第2の言語タイプは、第2のユーザアカウント又は前記第2のクライアントに関連する言語タイプであり、
    前記会話メッセージのテキスト内容は、前記音声入力操作により入力された音声内容に基づいて認識されたものである、装置。
  18. 音声をテキストに変換する装置であって、該装置は、受信モジュールと、変換モジュールと、翻訳モジュールと、送信モジュールと、を含み、
    前記受信モジュールは、第1のクライアントから送信された音声内容を受信し、
    前記受信モジュールは、第1の言語タイプ及び第2の言語タイプを決定し、前記第1の言語タイプは、第1のユーザアカウント又は前記第1のクライアントに関連する言語タイプであり、前記第1のユーザアカウントは、前記第1のクライアントにより提供される仮想環境の仮想活動場所において第1の仮想キャラクタを制御するために使用され、前記第2の言語タイプは、第2のユーザアカウント又は第2のクライアントに関連する言語タイプであり、前記第2のユーザアカウントは、前記第2のクライアントにより提供される仮想環境の仮想活動場所において第2の仮想キャラクタを制御するために使用され、
    前記変換モジュールは、前記音声内容及び前記第1の言語タイプに基づいて、前記音声内容を前記第1の言語タイプの会話メッセージに変換し、前記会話メッセージのテキスト内容は、前記音声内容に基づいて認識されたものであり、
    前記翻訳モジュールは、前記第1の言語タイプの前記会話メッセージ及び前記第2の言語タイプに基づいて、翻訳により前記第2の言語タイプの前記会話メッセージを取得し、
    前記送信モジュールは、前記第2の言語タイプの前記会話メッセージを前記第2のクライアントに送信する、装置。
  19. コンピュータプログラムが記憶されたメモリと、1つ又は複数のプロセッサと、を含むコンピュータ機器であって、
    前記コンピュータプログラムは、前記1つ又は複数のプロセッサにより実行される際に、請求項1乃至13の何れかに記載の方法のステップを前記1つ又は複数のプロセッサに実行させる、コンピュータ機器。
  20. 請求項1乃至13の何れかに記載の方法のステップをコンピュータに実行させるためのプログラム。
JP2021564719A 2020-12-18 2021-09-01 音声テキスト変換方法、システム、装置、機器及びプログラム Pending JP2023510057A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011504638.0 2020-12-18
CN202011504638.0A CN112494958B (zh) 2020-12-18 2020-12-18 语音转换文字的方法、系统、设备及介质
PCT/CN2021/115897 WO2022127197A1 (zh) 2020-12-18 2021-09-01 语音转换文字的方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
JP2023510057A true JP2023510057A (ja) 2023-03-13

Family

ID=82022437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021564719A Pending JP2023510057A (ja) 2020-12-18 2021-09-01 音声テキスト変換方法、システム、装置、機器及びプログラム

Country Status (3)

Country Link
US (1) US20220199087A1 (ja)
JP (1) JP2023510057A (ja)
KR (1) KR20220088633A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003205176A (ja) * 2002-01-15 2003-07-22 Arika:Kk 通信ネットワークを介した麻雀ゲーム実行方式
JP2014167517A (ja) * 2013-02-28 2014-09-11 Nippon Telegraph & Telephone East Corp 会話提供システム、ゲーム提供システム、会話提供方法、ゲーム提供方法及びプログラム
CN111309207A (zh) * 2020-02-06 2020-06-19 北京一起教育信息咨询有限责任公司 一种译文显示方法、装置、电子设备及存储介质
WO2020153231A1 (ja) * 2019-01-24 2020-07-30 株式会社ソニー・インタラクティブエンタテインメント 情報処理システム及び情報処理装置
CN111672099A (zh) * 2020-05-28 2020-09-18 腾讯科技(深圳)有限公司 虚拟场景中的信息展示方法、装置、设备及存储介质
US20200302126A1 (en) * 2019-03-19 2020-09-24 Servicenow, Inc. Dynamic translation

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020069048A1 (en) * 2000-04-07 2002-06-06 Sadhwani Deepak Kishinchand Communication system
US10987597B2 (en) * 2002-12-10 2021-04-27 Sony Interactive Entertainment LLC System and method for managing audio and video channels for video game players and spectators
US7305438B2 (en) * 2003-12-09 2007-12-04 International Business Machines Corporation Method and system for voice on demand private message chat
US7398215B2 (en) * 2003-12-24 2008-07-08 Inter-Tel, Inc. Prompt language translation for a telecommunications system
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US20140164476A1 (en) * 2012-12-06 2014-06-12 At&T Intellectual Property I, Lp Apparatus and method for providing a virtual assistant
US9231898B2 (en) * 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9298703B2 (en) * 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US8996355B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications
US9262405B1 (en) * 2013-02-28 2016-02-16 Google Inc. Systems and methods of serving a content item to a user in a specific language
US20150088485A1 (en) * 2013-09-24 2015-03-26 Moayad Alhabobi Computerized system for inter-language communication
JP6148163B2 (ja) * 2013-11-29 2017-06-14 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
KR102214178B1 (ko) * 2013-12-13 2021-02-10 한국전자통신연구원 자동 통역 장치 및 방법
WO2017099483A1 (en) * 2015-12-09 2017-06-15 Samsung Electronics Co., Ltd. Device and method for providing user-customized content
KR101861006B1 (ko) * 2016-08-18 2018-05-28 주식회사 하이퍼커넥트 통역 장치 및 방법
US10430042B2 (en) * 2016-09-30 2019-10-01 Sony Interactive Entertainment Inc. Interaction context-based virtual reality
US20200125643A1 (en) * 2017-03-24 2020-04-23 Jose Rito Gutierrez Mobile translation application and method
US10586369B1 (en) * 2018-01-31 2020-03-10 Amazon Technologies, Inc. Using dialog and contextual data of a virtual reality environment to create metadata to drive avatar animation
US11361211B2 (en) * 2018-06-20 2022-06-14 Accenture Global Solutions Limited Artificial intelligence (AI) based chatbot creation and communication system
CN109327613B (zh) * 2018-10-15 2020-09-29 华为技术有限公司 一种基于语音通话翻译能力的协商方法及电子设备
US11328131B2 (en) * 2019-03-12 2022-05-10 Jordan Abbott ORLICK Real-time chat and voice translator
JP7188302B2 (ja) * 2019-07-08 2022-12-13 トヨタ自動車株式会社 サーバ装置、車載装置、情報処理方法、及び情報処理プログラム
US11358054B2 (en) * 2020-02-18 2022-06-14 Electronic Arts Inc. Systems and methods for transcribing user interface elements of a game application into haptic feedback
US11023688B1 (en) * 2020-05-27 2021-06-01 Roblox Corporation Generation of text tags from game communication transcripts
US11321856B1 (en) * 2020-12-18 2022-05-03 Roblox Corporation Detection of inauthentic virtual objects

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003205176A (ja) * 2002-01-15 2003-07-22 Arika:Kk 通信ネットワークを介した麻雀ゲーム実行方式
JP2014167517A (ja) * 2013-02-28 2014-09-11 Nippon Telegraph & Telephone East Corp 会話提供システム、ゲーム提供システム、会話提供方法、ゲーム提供方法及びプログラム
WO2020153231A1 (ja) * 2019-01-24 2020-07-30 株式会社ソニー・インタラクティブエンタテインメント 情報処理システム及び情報処理装置
US20200302126A1 (en) * 2019-03-19 2020-09-24 Servicenow, Inc. Dynamic translation
CN111309207A (zh) * 2020-02-06 2020-06-19 北京一起教育信息咨询有限责任公司 一种译文显示方法、装置、电子设备及存储介质
CN111672099A (zh) * 2020-05-28 2020-09-18 腾讯科技(深圳)有限公司 虚拟场景中的信息展示方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR20220088633A (ko) 2022-06-28
US20220199087A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
JP7379360B2 (ja) 人工知能を使用した音声ヘルプシステム
JP7177288B2 (ja) 仮想オブジェクトの制御方法、装置、機器及びコンピュータプログラム
CN111228811B (zh) 虚拟对象的控制方法、装置、设备及介质
US20120028700A1 (en) Online parallel play
US20220305384A1 (en) Data processing method in virtual scene, device, storage medium, and program product
WO2022127197A1 (zh) 语音转换文字的方法、系统、设备及介质
JP7344948B2 (ja) システム
CN112691366B (zh) 虚拟道具的显示方法、装置、设备及介质
Joselli et al. An architecture for game interaction using mobile
JP2020044139A (ja) ゲームプログラム、ゲーム方法、および情報処理装置
JP2009070076A (ja) プログラム、情報記憶媒体及び画像生成装置
KR20230042517A (ko) 연락처 정보 디스플레이 방법, 장치 및 전자 디바이스, 컴퓨터-판독가능 저장 매체, 및 컴퓨터 프로그램 제품
JP6672380B2 (ja) ゲームプログラム、キャラクタ制御プログラム、方法、および情報処理装置
JP5479503B2 (ja) プログラム、情報記憶媒体及び画像生成装置
CN112995687B (zh) 基于互联网的互动方法、装置、设备及介质
JP2023510057A (ja) 音声テキスト変換方法、システム、装置、機器及びプログラム
CN111760283B (zh) 虚拟对象的技能施放方法、装置、终端及可读存储介质
KR102170825B1 (ko) 게임 제어 장치 및 방법
KR102463571B1 (ko) 게임 제어 장치 및 방법
JP2019524180A (ja) 場所ベースゲームプレイコンパニオンアプリケーションを使用するチャレンジの生成
KR102219028B1 (ko) 과거 게임 데이터를 이용한 게임 제공 방법 및 그 시스템
KR102211564B1 (ko) 게임 서비스 제공 방법 및 장치
JP2020093116A (ja) ゲームプログラム、キャラクタ制御プログラム、方法、および情報処理装置
CN117654061A (zh) 对象控制方法、装置、电子设备、存储介质及程序产品
CN115996782A (zh) 方法、计算机可读介质以及信息处理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240227