JP2023510057A

JP2023510057A - 音声テキスト変換方法、システム、装置、機器及びプログラム

Info

Publication number: JP2023510057A
Application number: JP2021564719A
Authority: JP
Inventors: リィウ，ペイチェン; リィウ，シアオハオ; ワン，イェンツァン; ディン，ドォン; タン，カイ; リン，シャン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2020-12-18
Filing date: 2021-09-01
Publication date: 2023-03-13
Also published as: KR20220088633A; US20220199087A1

Abstract

音声テキスト変換方法は、第１のクライアントが第１のユーザインターフェースを表示するステップであって、第１のユーザインターフェースは、第１のユーザアカウントにより制御される第１の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、第２のクライアントが第２のユーザインターフェースを表示するステップであって、第２のユーザインターフェースは、第２のユーザアカウントにより制御される第２の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、第１のクライアントでの音声入力操作に応じて、第１のクライアントが第１の言語タイプを使用して第１のユーザアカウントにより入力された会話メッセージを表示し、第２のクライアントが第２の言語タイプを使用して第１のユーザアカウントにより送信された該会話メッセージを表示するステップと、を含む。
【選択図】図２

Description

本発明は、２０２０年１２月１８日に出願した出願番号が２０２０１１５０４６３８．０であり、発明の名称が「音声テキスト変換方法、システム、機器及び記憶媒体」である中国特許出願に基づく優先権を主張し、その全ての内容を参照により本発明に援用する。

本発明は、ヒューマンコンピュータインタラクション（ｈｕｍａｎ－ｃｏｍｐｕｔｅｒｉｎｔｅｒａｃｔｉｏｎ）に関し、特に音声テキスト変換方法、システム、機器及び記憶媒体に関する。

競技的対立に基づくアプリケーションプログラムでは、複数のユーザが敵対的な２つのチームに分けられ、ユーザが仮想環境内の仮想キャラクタを操作して、歩き、購入、治療、戦闘などの動作を行い、同一のチームのユーザが該仮想環境内で協力して任務を遂行する。

関連技術では、競技的対立に基づくアプリケーションプログラムで音声をテキストに変換することを実現し、通常、言語変換の機能を有しない。従って、異なる言語を使用するユーザは、同一の対戦で異なる言語を使用してコミュニケーションを行うため、ユーザ間のコミュニケーションは困難である。

少なくとも２つのクライアントが実行する、音声をテキストに変換する方法であって、第１のクライアントが第１のユーザインターフェースを表示するステップであって、前記第１のユーザインターフェースは、第１のユーザアカウントにより制御される第１の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、第２のクライアントが第２のユーザインターフェースを表示するステップであって、前記第２のユーザインターフェースは、第２のユーザアカウントにより制御される第２の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、前記第１のクライアントでの音声入力操作に応じて、前記第１のクライアントが第１の言語タイプを使用して前記第１のユーザアカウントにより入力された会話メッセージを表示し、前記第２のクライアントが第２の言語タイプを使用して前記第１のユーザアカウントにより送信された前記会話メッセージを表示するステップと、を含み、前記第１の言語タイプは、前記第１のユーザアカウント又は前記第１のクライアントに関連する言語タイプであり、前記第２の言語タイプは、前記第２のユーザアカウント又は前記第２のクライアントに関連する言語タイプであり、前記会話メッセージのテキスト内容は、前記音声入力操作により入力された音声内容に基づいて認識されたものである、方法を提供する。

サーバが実行する、音声をテキストに変換する方法であって、第１のクライアントから送信された音声内容を受信するステップと、第１の言語タイプ及び第２の言語タイプを決定するステップであって、前記第１の言語タイプは、第１のユーザアカウント又は前記第１のクライアントに関連する言語タイプであり、前記第２の言語タイプは、第２のユーザアカウント又は第２のクライアントに関連する言語タイプである、ステップと、前記音声内容及び前記第１の言語タイプに基づいて、前記音声内容を前記第１の言語タイプの会話メッセージに変換するステップであって、前記会話メッセージのテキスト内容は、前記音声内容に基づいて認識されたものである、ステップと、前記第１の言語タイプの前記会話メッセージ及び前記第２の言語タイプに基づいて、翻訳により前記第２の言語タイプの前記会話メッセージを取得するステップと、前記第２の言語タイプの前記会話メッセージを前記第２のクライアントに送信するステップと、を含む、方法を提供する。

音声をテキストに変換するシステムであって、前記システムは、第１の装置と、第２の装置と、を含み、前記第１の装置は、第１のユーザインターフェースを表示し、前記第１のユーザインターフェースは、第１のユーザアカウントにより制御される第１の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面であり、前記第２の装置は、第２のユーザインターフェースを表示し、前記第２のユーザインターフェースは、第２のユーザアカウントにより制御される第２の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面であり、前記第１の装置は、前記第１の装置での音声入力操作に応じて、第１の言語タイプを使用して前記第１のユーザアカウントにより入力された会話メッセージを表示し、前記第１の言語タイプは、前記第１のユーザアカウント又は前記第１の装置に関連する言語タイプであり、前記会話メッセージのテキスト内容は、前記音声入力操作により入力された音声内容に基づいて認識されたものであり、前記第２の装置は、第２の言語タイプを使用して前記第１のユーザアカウントにより送信された前記会話メッセージを表示し、前記第２の言語タイプは、前記第２のユーザアカウント又は前記第２の装置に関連する言語タイプである、システムを提供する。

音声をテキストに変換する装置であって、該装置は、受信モジュールと、変換モジュールと、翻訳モジュールと、送信モジュールと、を含み、前記受信モジュールは、第１のクライアントから送信された音声内容を受信し、前記受信モジュールは、第１の言語タイプ及び第２の言語タイプを決定し、前記第１の言語タイプは、第１のユーザアカウント又は前記第１のクライアントに関連する言語タイプであり、前記第１のユーザアカウントは、前記第１のクライアントにより提供される仮想環境の仮想活動場所において第１の仮想キャラクタを制御するために使用され、前記第２の言語タイプは、第２のユーザアカウント又は第２のクライアントに関連する言語タイプであり、前記第２のユーザアカウントは、前記第２のクライアントにより提供される仮想環境の仮想活動場所において第２の仮想キャラクタを制御するために使用され、前記変換モジュールは、前記音声内容及び前記第１の言語タイプに基づいて、前記音声内容を前記第１の言語タイプの会話メッセージに変換し、前記会話メッセージのテキスト内容は、前記音声内容に基づいて認識されたものであり、前記翻訳モジュールは、前記第１の言語タイプの前記会話メッセージ及び前記第２の言語タイプに基づいて、翻訳により前記第２の言語タイプの前記会話メッセージを取得し、前記送信モジュールは、前記第２の言語タイプの前記会話メッセージを前記第２のクライアントに送信する、装置を提供する。

コンピュータ読み取り可能な命令が記憶されたメモリと、１つ又は複数のプロセッサと、を含むコンピュータ機器であって、前記命令は、前記１つ又は複数のプロセッサにより実行される際に、上記の音声をテキストに変換する方法を前記１つ又は複数のプロセッサに実行させる、コンピュータ機器を提供する。

コンピュータ読み取り可能な命令が記憶されたコンピュータ読み取り可能な記憶媒体であって、前記命令は、１つ又は複数のプロセッサにより実行される際に、上記の音声をテキストに変換方法を前記１つ又は複数のプロセッサに実行させる、記憶媒体を提供する。

コンピュータ読み取り可能な命令を含むコンピュータプログラム又はコンピュータプログラムプロダクトであって、前記命令は、コンユータ読み取り可能な記憶媒体に記憶され、前記命令は、プロセッサにより前記記憶媒体から読み取られて実行される際に、上記の音声をテキストに変換方法を前記プロセッサに実行させる、コンピュータプログラム又はコンピュータプログラムプロダクトを提供する。

本発明の実施例に係る技術をより明確に説明するために、以下は、実施例の説明に必要な図面を簡単に紹介する。なお、以下の説明における図面は、単なる本発明の幾つかの実施例であり、当業者にとって、創造的な作業を行うことなく、これらの図面に基づいて他の図面を得ることができる。
本発明の１つの例示的な実施例に係るコンピュータシステムの構成のブロック図である。本発明の１つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。本発明の１つの例示的な実施例に係るカメラモデルの概略図である。本発明の１つの例示的な実施例に係る音声テキスト変換方法のインターフェースの概略図である。本発明の１つの例示的な実施例に係る音声テキスト変換方法のインターフェースの概略図である。本発明の１つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。本発明の１つの例示的な実施例に係る音声テキスト変換方法のインターフェースの概略図である。本発明の１つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。本発明の１つの例示的な実施例に係る音声テキスト変換方法のインターフェースの概略図である。本発明の１つの例示的な実施例に係る音声テキスト変換方法のインターフェースの概略図である。本発明の１つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。本発明の１つの例示的な実施例に係る音声テキスト変換システムの構成の概略図である。本発明の１つの例示的な実施例に係る音声テキスト変換装置の構成の概略図である。本発明の１つの例示的な実施例に係る端末の構成のブロック図である。本発明の１つの例示的な実施例に係るサーバの構成の概略図である。

本発明の目的、技術的手段、及び利点をより明確にするために、以下は、図面を参照しながら本発明の実施形態をさらに詳細に説明する。

まず、本発明の実施例に関する用語を紹介する。

仮想環境：クライアントで実行されている際に表示（又は提供）される仮想環境である。該仮想環境は、３次元仮想環境であってもよいし、２次元仮想環境であってもよい。該３次元仮想環境は、現実世界に対するシミュレーション環境であってもよいし、半シミュレーション及び半架空の環境であってもよいし、純粋な架空の環境であってもよい。

仮想キャラクタ：仮想環境における移動可能なキャラクタを意味する。該移動可能なキャラクタは、仮想人物、仮想動物、漫画又はアニメーションのキャラクタなどであってもよく、例えば、仮想環境に表示される人物、動物、植物、ドラム缶、壁、石などであってもよい。好ましくは、仮想環境が３次元仮想環境である場合、仮想キャラクタは、スケルタルアニメーション技術に基づいて作成された３次元モデルであり、各仮想キャラクタは、３次元仮想環境において独自の形状及び体積を持ち、３次元仮想環境において空間の一部を占める。好ましくは、仮想環境が２次元仮想環境である場合、仮想キャラクタは、アニメーション技術に基づいて作成された２次元平面モデルであり、各仮想キャラクタは、２次元仮想環境において独自の形状及び面積を持ち、２次元仮想環境において面積の一部を占める。

マルチプレイヤオンライン対戦競技：仮想環境では、少なくとも２つの敵対的な陣営に属する異なる仮想チームがそれぞれの地図領域を占有し、特定の勝利条件を目標として競技を行う。該勝利条件は、拠点の占領又は敵陣営の拠点の破壊、敵陣営の仮想キャラクタの倒し、指定シーン及び期間内での自分の生存の確保、特定のリソースの取得、並びに指定期間内での対戦相手のスコアの超過のうちの少なくとも１つを含むが、これらに限定されない。対戦競技は、ラウンドを単位として行われてもよく、対戦競技の各ラウンドの地図は、同一であってもよいし、異なってもよい。各仮想チームは、例えば１、２、３、５などの１つ又は複数の仮想キャラクタを含む。

ＭＯＢＡ（ＭｕｌｔｉｐｌａｙｅｒＯｎｌｉｎｅＢａｔｔｌｅＡｒｅｎａ：マルチプレイヤオンラインバトルアリーナ）ゲーム：仮想環境で幾つかの拠点を提供し、異なる陣営に属するユーザが仮想キャラクタを操作して仮想環境内で対戦し、拠点を占領し、或いは敵の陣営拠点を破壊するゲームである。例えば、ＭＯＢＡゲームでは、ユーザを２つの敵対的な陣営に分け、ユーザにより制御される仮想キャラクタを仮想環境に分散させて互いに競争させ、勝利条件として敵の全ての拠点を破壊又は占領することができる。ＭＯＢＡゲームは、ラウンドを単位として、ＭＯＢＡゲームの各ラウンドの継続時間は、ゲームが開始する時点から勝利条件が満たされた時点までの期間である。

ＦＰＳ（ＦｉｒｓｔＰｅｒｓｏｎＳｈｏｏｔｉｎｇ：一人称シューティング）ゲーム：仮想環境で幾つかの拠点を提供し、異なる陣営に属するユーザが仮想キャラクタを操作して仮想環境内で対戦し、拠点を占領し、敵の陣営拠点を破壊し、或いは敵の陣営の全て又は一部のキャラクタを倒すゲームである。通常、ＦＰＳゲームでは、ユーザが一人称視点でゲームを行い、ユーザが第三者視点を選択してゲームを行ってもよい。例えば、ＦＰＳゲームでは、ユーザを２つの敵対的な陣営に分け、ユーザにより制御される仮想キャラクタを仮想環境に分散させて互いに競争させ、勝利条件として敵の全てのキャラクタを倒すことができる。ＦＰＳゲームは、ラウンドを単位として、ＭＯＢＡゲームの各ラウンドの継続時間は、ゲームが開始する時点から勝利条件が満たされた時点までの期間である。

ＳＬＧ（ＳｉｍｕｌａｔｉｏｎＧａｍｅｓ：シミュレーションゲーム）ゲーム：仮想環境内で仮想リソースを提供し、現実をシミュレートするタイプのゲームである。例えば、ＳＬＧゲームでは、複数のユーザを１つの陣営に分け、複数のユーザが協力して指定の任務を遂行してもよい。好ましくは、通常、ＳＬＧゲームの各ラウンドには、具体的な勝利条件がない。

音声テキスト変換（ｓｐｅｅｃｈ－ｔｏ－ｔｅｘｔｃｏｎｖｅｒｓｉｏｎ）：ユーザにより入力された音声内容をテキストに変換して出力することを意味する。例えば、ユーザが音声内容「おはよう」を入力する場合、対応するテキスト「おはよう」を出力する。通常、音声テキスト変換は、音声内容を同時に１つの言語タイプ（１つのタイプの言語）に変換することのみをサポートする。

図１は、本発明の１つの例示的な実施例に係るコンピュータシステムの構成のブロック図である。該コンピュータシステム１００は、第１の端末１２０、サーバ１４０、及び第２の端末１６０を含む。

第１の端末１２０は、仮想環境をサポートするクライアントをインストールして実行する。該クライアントは、ＭＯＢＡゲーム、仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ：ＶＲ）クライアント、３次元地図クライアント、軍事シミュレーションクライアント、ＦＰＳゲーム、マルチプレイヤガンバトルサバイバルゲーム、及びＳＬＧゲームのうちの何れかであってもよい。第１の端末１２０は、第１のユーザにより使用される端末であり、第１のユーザアカウントは、第１のユーザにより保有されているアカウントである。第１のユーザは、第１の端末１２０を使用して、３次元仮想環境における第１の仮想キャラクタが活動を行うように制御する。該活動は、攻撃、スキルの発動、アイテムの購入、治療、体の姿勢の調整、這い、歩き、乗り、飛び、跳び、運転、拾い上げ、射撃、投げのうちの少なくとも１つを含むが、これらに限定されない。例えば、第１の仮想キャラクタは、第１の仮想人物である。

第１の端末１２０は、無線ネットワーク又は有線ネットワークを介してサーバ１４０に接続されている。

サーバ１４０は、１つのサーバ、複数のサーバ、クラウドコンピューティングプラットフォーム、及び仮想化センターのうちの少なくとも１つを含む。例えば、サーバ１４０は、仮想環境をサポートするクライアントのためにバックグラウンドのサービスを提供するために使用される。好ましくは、サーバ１４０は、一次的なコンピューティング作業を行い、第１の端末１２０及び第２の端末１６０は、二次的なコンピューティング作業を行い、或いは、サーバ１４０は、二次的なコンピューティング作業を行い、第１の端末１２０及び第２の端末１６０は、一次的なコンピューティング作業を行い、或いは、サーバ１４０、第１の端末１２０及び第２の端末１６０は、協調コンピューティングを行うために分散型のコンピューティングアーキテクチャを採用する。

第２の端末１６０は、仮想環境をサポートするクライアントをインストールして実行する。該クライアントは、ＭＯＢＡゲーム、仮想現実クライアント、３次元地図クライアント、軍事シミュレーションクライアント、ＦＰＳゲーム、マルチプレイヤガンバトルサバイバルゲーム、及びＳＬＧゲームのうちの何れかであってもよい。第２の端末１６０は、第２のユーザにより使用される端末であり、第２のユーザアカウントは、第２のユーザにより保有されているアカウントである。第２のユーザは、第２の端末１６０を使用して、３次元仮想環境における第２の仮想キャラクタが活動を行うように制御する。該活動は、攻撃、スキルの発動、アイテムの購入、治療、体の姿勢の調整、這い、歩き、乗り、飛び、跳び、運転、拾い上げ、射撃、投げのうちの少なくとも１つを含むが、これらに限定されない。例えば、第２の仮想キャラクタは、第２の仮想人物である。第１の仮想キャラクタと第２の仮想キャラクタは、同一のチーム又は同一の組織に属し、友達関係又は一時的な通信権限を持ってもよい。第１の仮想キャラクタと第２の仮想キャラクタは、異なるチーム又は異なる組織に属してもよい。

好ましくは、第１の端末１２０及び第２の端末１６０にインストールされたクライアントは同一であり、或いは、２つの端末にインストールされたクライアントは、異なるプラットフォームの同一のタイプのクライアントである。第１の端末１２０は、一般に、複数の端末のうちの１つを意味してもよく、第２の端末１６０は、一般に、複数の端末のうちの１つを意味してもよく、本実施例では、単に第１の端末１２０及び第２の端末１６０を一例にして説明する。第１の端末１２０及び第２の端末１６０のデバイスタイプは、同一であってもよいし、異なってもよい。該デバイスタイプは、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ＭＰ３プレイヤ、ＭＰ４プレイヤ、ラップトップコンピュータ及びデスクトップコンピュータのうちの少なくとも１つを含む。

１つの例示的な実施例では、第１の端末１２０における第１のクライアントは、第１のユーザインターフェースを表示する。第１のユーザインターフェースは、第１のユーザアカウントにより制御される第１の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。第２の端末１６０における第２のクライアントは、第２のユーザインターフェースを表示する。第２のユーザインターフェースは、第２のユーザアカウントにより制御される第２の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。第１のクライアントでの音声入力操作に応じて、第１のクライアントは、第１の言語タイプを使用して第１のユーザアカウントにより入力された会話メッセージを表示し、第２のクライアントは、第２の言語タイプを使用して第１のユーザアカウントにより送信された会話メッセージを表示する。第１の言語タイプは、第１のユーザアカウント又は第１のクライアントに関連する言語タイプであり、第２の言語タイプは、第２のユーザアカウント又は第２のクライアントに関連する言語タイプであり、会話メッセージのテキスト内容は、音声入力操作により入力された音声内容に基づいて認識されたものである。

このように、第１のクライアントで言語入力操作を受け付けた場合、異なるクライアントで異なる言語タイプの会話メッセージを表示し、入力された音声情報を異なる言語タイプの会話メッセージに翻訳することで、異なる言語タイプを使用するユーザはコミュニケーションを容易に行うことができ、言語の壁を取り除くことができる。また、ユーザが追加的な翻訳ソフトウェアを使用して他の言語タイプの会話メッセージを翻訳する必要がないため、ユーザの操作手順を削減し、ヒューマンコンピュータインタラクションの効率を向上させることができる。

図２は、本発明の１つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。該方法は、図１に示す第１の端末１２０又は第２の端末１６０により実行されてもよい。該方法は、少なくとも２つのクライアントに適用される。該方法は、以下のステップを含む。

ステップ２０２：第１のクライアントは、第１のユーザインターフェースを表示する。第１のユーザインターフェースは、第１のユーザアカウントにより制御される第１の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。

第１のクライアントとは、第１の端末で実行されるクライアントプログラムを意味する。好ましくは、クライアントプログラムは、ＭＯＢＡゲーム、仮想現実クライアント、３次元地図クライアント、軍事シミュレーションクライアント、ＦＰＳゲーム、マルチプレイヤガンバトルサバイバルゲーム、及びＳＬＧゲームの何れかを含む。

第１のユーザアカウントとは、第１のユーザにより保有されるアカウントを意味する。

第１の仮想キャラクタとは、第１のクライアントで第１のユーザにより制御されるマスターキャラクタを意味する。好ましくは、第１の仮想キャラクタは、人物、動物、植物、及び漫画アニメーションキャラクタのうちの少なくとも１つである。

第１のユーザインターフェースとは、第１のクライアントの実行中に第１の端末で観察可能な画面を意味する。好ましくは、第１のユーザインターフェースは、仮想環境でカメラモデルを介して第１の仮想キャラクタを観察する時の画像である。

好ましくは、カメラモデルは、仮想環境において仮想キャラクタに自動的に追従し、即ち、仮想環境における仮想キャラクタの位置が変化すると、カメラモデルが仮想環境において仮想キャラクタの位置に追従して同時に変化し、該カメラモデルが常に仮想環境において仮想キャラクタの所定の距離範囲内にある。好ましくは、自動的な追従プロセスでは、カメラモデルと仮想キャラクタとの相対位置は変化しない。

カメラモデルとは、仮想環境における仮想キャラクタの周囲の３次元モデルを意味する。一人称視点を採用する場合、該カメラモデルは、仮想キャラクタの頭の近傍又は仮想キャラクタの頭に位置する。三人称視点を採用する場合、該カメラモデルは、仮想キャラクタの後方に位置し、且つ仮想キャラクタに対して固定されてもよいし、仮想キャラクタから所定の距離を離れて任意の位置に位置してもよい。該カメラモデルを使用して、様々な角度から仮想環境内に位置する仮想キャラクタを観察してもよい。好ましくは、該三人称視点は、一人称視点の肩越し視点である場合、カメラモデルは、仮想キャラクタ（例えば仮想人物の頭及び肩）の後方に位置する。好ましくは、一人称視点及び三人称視点に加えて、視点は、トップビューの視点などの他の視点をさらに含む。トップビューの視点を採用する場合、該カメラモデルを仮想キャラクタの頭上の空中に位置してもよい。トップビューの視点は、空中から平面視するように仮想環境を観察する視点である。好ましくは、該カメラモデルは、実際には仮想環境に表示されなく、即ち、ユーザインターフェースに表示される仮想環境には該カメラモデルが表示されない。

該カメラモデルが仮想キャラクタから所定の距離を離れて任意の位置に位置することを一例にして説明する。好ましくは、１つの仮想キャラクタは１つのカメラモデルに対応し、該カメラモデルは、仮想キャラクタを回転の中心として回転してもよい。例えば、仮想キャラクタの任意の１つの点を回転の中心としてカメラモデルを回転させ、カメラモデルの回転中、角度で回転することだけでなく、変位でもシフトする。回転の際に、カメラモデルと該回転の中心との間の距離をそのまま維持し、即ち、カメラモデルは、回転の中心を球の中心として球の表面で回転する。ここで、仮想キャラクタの任意の１つの点は、仮想キャラクタの頭、胴体、又は仮想キャラクタの周囲の任意の１つの点であってもよいが、本発明の実施例はこれらに限定されない。好ましくは、カメラモデルが仮想キャラクタを観察する際に、該カメラモデルの視点の中心の向きは、該カメラモデルが位置する球面上の点が球の中心を向く方向である。

該カメラモデルは、仮想キャラクタの異なる方向に所定の角度で仮想キャラクタを観察してもよい。

例えば、図３に示すように、仮想キャラクタ１１の１つの点を回転中心１２として決定し、カメラモデルが回転中心１２を中心に回転する。好ましくは、該カメラモデルは、初期位置が設定され、該初期位置は、仮想キャラクタの後方の上方の位置（例えば、頭の後方位置）である。例えば、図３に示すように、該初期位置は位置１３であり、カメラモデルが位置１４又は位置１５に回転する場合、カメラモデルの視点方向は、カメラモデルの回転に伴って変化する。

好ましくは、第１のユーザ画面は、会話メッセージ、チャットウィジェット、神の視点から見たサムネイル地図、バックパックウィジェット、位置表示ウィジェット、スピーカー音声スイッチ、マイクスイッチ、仮想キャラクタを移動するためのウィジェット、及び仮想キャラクタが所定動作を行うように制御するためのウィジェットのうちの少なくとも１つの他の表示要素をさらに含む。

例えば、図４に示すように、第１のユーザインターフェースには、仮想キャラクタ４０１、チャットウィジェット４０２、会話メッセージ４０３、サムネイル地図４０４、移動ウィジェット４０５、ユーザアイコン４０６、スキルウィジェット４０７、及び購入ウィジェット４０８が表示されている。

ステップ２０４：第２のクライアントは、第２のユーザインターフェースを表示する。第２のユーザインターフェースは、第２のユーザアカウントにより制御される第２の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。

第２のクライアントとは、第２の端末で実行されるクライアントプログラムを意味する。好ましくは、クライアントプログラムは、ＭＯＢＡゲーム、仮想現実クライアント、３次元地図クライアント、軍事シミュレーションクライアント、ＦＰＳゲーム、マルチプレイヤガンバトルサバイバルゲーム、及びＳＬＧゲームの何れかを含む。好ましくは、第２の端末と第１の端末とは、デバイスタイプが同一であってもよいし、異なってもよい。

第２のユーザアカウントとは、第２のユーザにより保有されるアカウントを意味する。ここで、第１のユーザアカウントと第２のユーザアカウントとは異なる。

第２の仮想キャラクタとは、第２のクライアントで第２のユーザにより制御されるマスターキャラクタを意味する。好ましくは、第２の仮想キャラクタは、人物、動物、植物、及び漫画アニメーションキャラクタのうちの少なくとも１つである。ここで、第１の仮想キャラクタと第２の仮想キャラクタとは、同一であってもよいし、異なってもよい。

第２のユーザインターフェースとは、第２のクライアントの実行中に第２の端末で観察可能な画面を意味する。好ましくは、第２のユーザインターフェースは、仮想環境でカメラモデルを介して第２の仮想キャラクタを観察する時の画像である。好ましくは、第２のユーザインターフェースと第１のユーザインターフェースとは、同一であってもよいし、異なってもよい。

好ましくは、第２のユーザ画面は、会話メッセージ、チャットウィジェット、神の視点から見たサムネイル地図、バックパックウィジェット、位置表示ウィジェット、スピーカー音声スイッチ、マイクスイッチ、仮想キャラクタを移動するためのウィジェット、及び仮想キャラクタが所定動作を行うように制御するためのウィジェットのうちの少なくとも１つの他の表示要素をさらに含む。

例えば、図５に示すように、第２のユーザインターフェースには、仮想キャラクタ５０１、チャットウィジェット５０２、会話メッセージ５０３、サムネイル地図５０４、移動ウィジェット５０５、ユーザアイコン５０６、スキルウィジェット５０７、及び購入ウィジェット５０８が表示されている。

ステップ２０６：第１のクライアントでの音声入力操作に応じて、第１のクライアントは、第１の言語タイプを使用して第１のユーザアカウントにより入力された会話メッセージを表示し、第２のクライアントは、第２の言語タイプを使用して第１のユーザアカウントにより送信された会話メッセージを表示する。

音声入力操作とは、ユーザが音声内容を端末に入力することを意味する。好ましくは、音声入力操作は、音声内容を入力するために１つ又は複数の所定の物理ボタンを押すことであってもよい。或いは、音声入力操作は、音声入力操作を実行するためにタッチスクリーンの指定領域で生成された信号を長押し、タップ、ダブルタップ及び／又はスワイプすることであってもよい。或いは、音声入力操作は、マイクデバイスを介して音声内容を直接入力することであってもよい。

第１の言語タイプと第２の言語タイプは、異なる言語タイプに対応してもよい。例えば、第１の言語タイプが中国語である場合、第２の言語タイプは英語である。例として、言語タイプは、中国語、英語、日本語、ドイツ語、ロシア語、ラテン語、及びフランス語の少なくとも１つを含むが、これらに限定されない。

会話メッセージは、ユーザ名及び会話内容を含む。会話メッセージは、会話メッセージ及び音声入力操作により入力された音声内容に対応している。例えば、ユーザＡＢＣにより入力された音声内容は「ごめんなさい」であり、第１言語タイプの会話メッセージは「ＡＢＣ：ごめんなさい」であり、第２言語タイプの会話メッセージは「ＡＢＣ：Ｉ’ｍｓｏｒｒｙ」である。会話メッセージ及び会話メッセージにより表される意味は、入力内容に対応する必要がある。

好ましくは、会話メッセージの表示位置は、ユーザにより設定されてもよい。例えば、ユーザインターフェースの左上隅又はユーザインターフェースの右下隅に設定されてもよい。本発明は、会話メッセージの具体的な表示位置に限定されない。

例えば、図４及び図５に示すように、図４の第１のユーザインターフェースに表示される会話メッセージ４０３の内容は「ＡＢＣ：こんにちは」であり、図５の第２のユーザインターフェースに表示される会話メッセージ５０３の内容は、内容は「ＡＢＣ：Ｈｅｌｌｏ」であり、会話メッセージ４０３と会話メッセージ５０３とは、言語タイプが異なるが、両者により表される意味が同一である。

上述したように、本実施例は、音声入力操作の入力内容を翻訳し、第１のクライアント及び第２のクライアントで異なる言語タイプの会話メッセージを表示することで、異なる言語を使用するユーザ間で直接コミュニケーションを容易に行うことができ、ユーザ間のコミュニケーション効率を向上させることができる。また、システムのリアルタイム性を向上させることができるため、ユーザが他のユーザの情報をより迅速に取得することができる。

図６は、本発明の１つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。該方法は、図１に示す第１の端末１２０又は第２の端末１６０により実行されてもよい。該方法は、少なくとも２つのクライアントに適用される。該方法は、以下のステップを含む。

ステップ６０１：第１のユーザインターフェースを表示する。

第１のクライアントは、第１のユーザインターフェースを表示する。

ステップ６０２：第２のユーザインターフェースを表示する。

第２のクライアントは、第２のユーザインターフェースを表示する。

ステップ６０１及びステップ６０２の実行順序は、時系列での特定の順序に限定されない。

ステップ６０３：第１のクライアントでの音声入力操作に応じて、第１のクライアントは音声内容を取得する。

音声内容とは、第１のクライアントを介してユーザにより入力された音声情報である。好ましくは、第１のクライアントが音声取込装置を介して音声内容を取得し、或いは、第１のクライアントがネットワークを介して音声内容をダウンロードし、或いは、第１のクライアントが他のクライアントから送信された音声内容を受信し、或いは、第１のクライアントがローカルストレージを照会して音声内容を取得する。

ステップ６０４：音声内容を送信する。

第１のクライアントは、音声内容をサーバに送信する。

好ましくは、第１のクライアントは、音声内容及び第１の言語タイプをサーバに送信する。

ステップ６０５：第１の言語タイプ及び第２の言語タイプを決定する。

サーバは、第１の言語タイプ及び第２の言語タイプを決定する。

サーバは第１のクライアントから送信された第１の言語タイプを受信し、或いは、サーバには第１の言語タイプが記憶されている。

サーバは第２のクライアントから送信された第２の言語タイプを受信し、或いは、サーバには第２の言語タイプが記憶されている。

好ましくは、このステップは、次の２つのステップの少なくとも１つを含む。

１．第１のクライアントは、サーバに第１の言語タイプを送信する。

サーバは、第１のクライアントから送信された第１の言語タイプを受信し、第１の言語タイプを決定する。

例えば、第１のクライアントはサーバにバージョン情報を送信し、該バージョン情報は第１の言語タイプを含む。或いは、第１のクライアントはサーバに地理情報を送信し、該地理情報は第１の言語タイプに対応する。例えば、地理情報は、第１のクライアントが中国に位置することを示す場合、第１の言語タイプは中国語である。或いは、第１のクライアントはサーバに第１の端末の言語設定を送信し、該言語設定は第１の言語タイプを含む。

２．第２のクライアントは、サーバに第２の言語タイプを送信する。

サーバは、第２のクライアントから送信された第２の言語タイプを受信し、第２の言語タイプを決定する。

好ましくは、サーバは、第２のクライアントから送信された第２の言語タイプを受信し、第２の言語タイプを決定する。例えば、第２のクライアントはサーバにバージョン情報を送信し、該バージョン情報は第２の言語タイプを含む。或いは、第２のクライアントはサーバに地理情報を送信し、該地理情報は第２の言語タイプに対応する。例えば、地理情報は、第２のクライアントが中国に位置することを示す場合、第２の言語タイプは中国語である。或いは、第２のクライアントはサーバに第２の端末の言語設定を送信し、該言語設定は第２の言語タイプを含む。

好ましくは、第２のクライアントは、サーバから送信された言語タイプ取得要求を受信し、第２のクライアントは、言語タイプ取得要求に従って、サーバに第２の言語タイプを送信する。言語タイプ取得要求は、サーバがクライアントに言語タイプの送信を要求するために使用される。

ステップ６０６：音声内容に基づいて第１の言語タイプの会話メッセージ及び第２の言語タイプの会話メッセージを生成する。

サーバは、音声内容に基づいて第１の言語タイプの会話メッセージ及び第２の言語タイプの会話メッセージを生成する。

好ましくは、サーバは、音声内容を第１言語タイプの会話メッセージに変換し、第１言語タイプの会話メッセージを第２言語タイプの会話メッセージに翻訳する。例えば、サーバは、音声内容「ごめんなさい」を第１の言語タイプの会話メッセージ「ごめんなさい」に変換し、第１の言語タイプの会話メッセージ「ごめんなさい」を第２の言語タイプの会話メッセージ「Ｉ’ｍｓｏｒｒｙ」に翻訳する。

好ましくは、第１のクライアントは、音声内容に基づいて第１の言語タイプの会話メッセージを生成する。第１のクライアントは、第１の言語タイプの会話メッセージをサーバに送信する。サーバは、第１の言語タイプの会話メッセージに基づいて、第２の言語タイプの会話メッセージを生成する。即ち、第１の言語タイプの会話メッセージを生成するタスクは、第１のクライアントにより実行される。

ステップ６０７：第１の言語タイプの会話メッセージを送信する。

サーバは、第１の言語タイプの会話メッセージを第１のクライアントに送信する。

ステップ６０８：第２の言語タイプの会話メッセージを送信する。

サーバは、第２の言語タイプの会話メッセージを第２のクライアントに送信する。

ステップ６０７及びステップ６０８の実行順序は、時系列での特定の順序に限定されない。

ステップ６０９：第１の言語タイプの会話メッセージを受信する。

第１のクライアントは、サーバから送信された第１の言語タイプの会話メッセージを受信する。

ステップ６１０：第１の言語タイプを使用して会話メッセージを表示する。

第１のクライアントは、第１のユーザインターフェースに第１の言語タイプの会話メッセージを表示する。

ステップ６１１：会話メッセージの表示をキャンセルする。

第１のクライアントは、第１の言語タイプでの会話メッセージの表示をキャンセルする。

好ましくは、第１の言語タイプで会話メッセージを表示する表示時間が所定期間に達した場合、第１のクライアントは、会話メッセージの表示をキャンセルする。例えば、会話メッセージが１０秒間表示された場合、第１のクライアントは、会話メッセージの表示をキャンセルする。

好ましくは、第１のクライアントは、第１の表示キャンセル操作に応じて、会話メッセージの表示をキャンセルする。第１の表示キャンセル操作は、会話メッセージの表示をキャンセルするために使用される。ここで、第１の表示キャンセル操作は、会話メッセージの表示をキャンセルするために１つ又は複数の所定の物理ボタンを押すことであってもよい。或いは、第１の表示キャンセル操作は、第１の表示キャンセル操作を実行するためにタッチスクリーンの指定領域で生成された信号を長押し、タップ、ダブルタップ及び／又はスワイプすることであってもよい。或いは、第１の表示キャンセル操作は、第１の表示キャンセル操作を実行するために入力された音声内容を認識することであってもよい。

ステップ６１２：第２の言語タイプの会話メッセージを受信する。

好ましくは、第２のクライアントは、サーバから送信された第１の言語タイプの会話メッセージを受信し、第２のクライアントは、第１の言語タイプの会話メッセージ及び第２の言語タイプに基づいて、第２の言語タイプの会話メッセージを決定する。即ち、第２言語の会話メッセージを決定するタスクは、第２のクライアントにより実行される。

ステップ６１３：第２の言語タイプで会話メッセージを表示する。

好ましくは、第１のクライアントでの音声入力操作に応じて、第２のクライアントは、第２のユーザインターフェースに第１の言語タイプの会話メッセージ及び第２の言語タイプの会話メッセージを表示する。図７に示すように、第２のユーザインターフェースに表示される会話メッセージは、第１の言語タイプの会話メッセージ及び第２の言語タイプの会話メッセージを含む。ここで、第１の言語タイプの会話メッセージは「こんにちは」であり、第２の言語タイプの会話メッセージは「Ｈｅｌｌｏ」である。第１の言語タイプの会話メッセージと第２の言語タイプの会話メッセージを同時に表示することで、ユーザが他の言語を容易に勉強することができるため、ユーザが将来より良いコミュニケーションを行うことができる。

ステップ６１４：会話メッセージの表示をキャンセルする。

第２のクライアントは、第２の言語タイプでの会話メッセージの表示をキャンセルする。

好ましくは、第２の言語タイプで会話メッセージを表示する表示時間が所定期間に達した場合、第２のクライアントは、会話メッセージの表示をキャンセルする。例えば、会話メッセージが１０秒間表示された場合、第２のクライアントは、会話メッセージの表示をキャンセルする。

好ましくは、第２のクライアントは、第２の表示キャンセル操作に応じて、会話メッセージの表示をキャンセルする。第２の表示キャンセル操作は、会話メッセージの表示をキャンセルするために使用される。ここで、第２の表示キャンセル操作は、会話メッセージの表示をキャンセルするために１つ又は複数の所定の物理ボタンを押すことであってもよい。或いは、第２の表示キャンセル操作は、第２の表示キャンセル操作を実行するためにタッチスクリーンの指定領域で生成された信号を長押し、タップ、ダブルタップ及び／又はスワイプすることであってもよい。或いは、第２の表示キャンセル操作は、第２の表示キャンセル操作を実行するために入力された音声内容を認識することであってもよい。第２の表示キャンセル操作と第１の表示キャンセル操作とは、具体的な操作モードは、同一であってもよいし、異なってもよいが、本発明はこれに限定されない。

上述したように、本実施例は、音声入力操作の入力内容を翻訳し、第１のクライアント及び第２のクライアントで異なる言語タイプの会話メッセージを表示することで、異なる言語を使用するユーザ間で直接コミュニケーションを容易に行うことができるため、ユーザ間のコミュニケーション効率を向上させることができる。

また、サーバにより音声変換及び会話メッセージの翻訳を行うことで、取得された会話メッセージの正確性を向上させ、音声変換及び情報翻訳の正確性を向上させることができる。

さらに、ユーザは、自分のニーズに応じて会話メッセージの表示をキャンセルすることで、会話メッセージがユーザの操作に干渉することを防止することができる。

本発明では、ユーザは、音声テキストの変換をより高速に実現してもよい。

図８は、本発明の１つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。該方法は、図１に示す第１の端末１２０又は第２の端末１６０により実行されてもよい。該方法は、少なくとも２つのクライアントに適用される。該方法は、以下のステップを含む。

図２の実施例の好ましい態様では、上記のステップ２０２～ステップ２０４の代わりに、次のステップ８０２～ステップ８０４を実施してもよい。

ステップ８０２：第１のクライアントは、第１のユーザインターフェースを表示する。

ステップ８０４：第２のクライアントは、第２のユーザインターフェースを表示する。

ステップ８０６：第１のクライアントでのチャットウィジェットに対する第１のトリガ操作に応じて、第１のクライアントは、第１の言語タイプを使用して会話メッセージを表示し、第２のクライアントは、第２の言語タイプを使用して会話メッセージを表示する。

チャットウィジェットは、異なるクライアントのユーザ間で情報を交換するために使用される。例えば、ユーザは、チャットウィジェットをタップし、テキストを入力する。

第１のトリガ操作は、第１のクライアントを使用するユーザが音声内容を入力するために使用される。ここで、第１のトリガ操作は、音声内容を入力するために１つ又は複数の所定の物理ボタンを押すことであってもよい。或いは、第１のトリガ操作は、第１のトリガ操作を実行するためにタッチスクリーンの指定領域で生成された信号を長押し、タップ、ダブルタップ及び／又はスワイプすることであってもよい。

好ましくは、以下のように音声内容を入力して会話メッセージを表示してもよい。

１．第１のクライアントにおけるチャットウィジェットに対する入力開始操作に応じて、第１のクライアントは、チャットウィジェットの周辺位置に音声記録プロンプトを表示し、音声内容の受信を開始する。

入力開始操作は、第１のクライアントが音声内容の受信を開始するように制御するために使用される。ここで、入力開始操作は、音声内容の受信を開始するために１つ又は複数の所定の物理ボタンを押すことであってもよい。或いは、入力開始操作は、入力開始操作を実行するためにタッチスクリーンの指定領域で生成された信号を長押し、タップ、ダブルタップ及び／又はスワイプすることであってもよい。

音声記録プロンプトは、第１のクライアントが音声内容を受信していることを提示するために使用される。好ましくは、音声記録プロンプトは、テキスト、アイコン、音声、画像、振動フィードバック、及び光のうちの少なくとも１つ又はその組み合わせである。

好ましくは、音声記録プロンプトは、チャットウィジェットの上側、下側、左側、右側、左上側、左下側、右上側、及び右下側のうちの少なくとも１つに表示される。

例えば、図９に示すように、ユーザは、第１のクライアントにおけるチャットウィジェット４０２を長押しして、音声記録プロンプト９０１を表示する。ここで、音声記録プロンプト９０１には、マイクロフォンアイコン及びテキストプロンプト「カウントダウン：９ｓ」及び「指で左へスワイプしてキャンセルする」が表示されている。

２．第１のクライアントにおけるチャットウィジェットに対する入力終了操作に応じて、第１のクライアントは、音声記録プロンプトの表示をキャンセルし、音声内容の受信を終了する。

入力終了操作は、第１のクライアントが音声内容の受信を終了するように制御するために使用される。ここで、入力終了操作は、音声内容の入力を終了するために１つ又は複数の所定の物理ボタンを押すことであってもよい。或いは、入力終了操作は、入力終了操作を実行するためにタッチスクリーンの指定領域で生成された信号を長押し、タップ、ダブルタップ及び／又はスワイプすることであってもよい。

好ましくは、音声内容の入力期間が期間閾値に達した場合、第１のクライアントは、音声記録プロンプトの表示をキャンセルし、音声内容の受信を終了する。例えば、ユーザが１０秒間の音声内容を入力し、音声内容の入力期間が期間閾値に達した場合、第１のクライアントは、音声内容の受信を終了する。

例えば、図１０に示すように、ユーザがチャットウィジェット４０２を長押しして音声内容を入力し、ユーザがチャットウィジェット４０２から手を離して音声内容の入力を終了し、或いは、ユーザが期間閾値に達するまでチャットウィジェット４０２を９秒間長押しし続けて、クライアントが音声内容の受信を終了する。

例えば、図１０に示すように、音声変換プロセス中に変換リマインダー１００１を表示し、変換リマインダー１００１には「変換中」が表示されている。

好ましくは、音声内容の入力が完了すると、第１のクライアントは、音声変換プロンプトを表示する。音声変換プロンプトは、音声内容の入力が完了し、音声内容が会話メッセージに変換されていることを、ユーザに提示するために使用される。音声変換プロンプトは、テキスト、アイコン、音声、画像、振動フィードバック、及び光のうちの少なくとも１つ又はその組み合わせである。

３．第１のクライアントは、第１の言語タイプを使用して会話メッセージを表示し、第２のクライアントは、第２の言語タイプを使用して会話メッセージを表示する。

例えば、図４及び５に示すように、第１のクライアントは、第１の言語タイプを使用して会話メッセージ４０３を表示し、第２のクライアントは、第２の言語タイプを使用して会話メッセージ５０３を表示する。ここで、会話メッセージ４０３は、「ＡＢＣ：こんにちは」であり、会話メッセージ５０３は、「ＡＢＣ：Ｈｅｌｌｏ」である。

上述したように、本実施例は、ユーザが音声内容を入力するためのショートカットを提供することで、ユーザが音声内容をより迅速に入力することができ、ユーザの操作手順を削減し、ヒューマンコンピュータインタラクションの効率を向上させることができる。

図１１は、本発明の１つの例示的な実施例に係る音声テキスト変換方法のフローチャートである。該方法は、図１に示すサーバ１４０により実行されてもよく、サーバ１４０は、少なくとも２つのクライアントに接続されている。該方法は、以下のステップを含む。

ステップ１１０１：第１のクライアントから送信された音声内容を受信する。

サーバは、第１のクライアントから送信された音声内容を受信する。

ステップ１１０２：第１の言語タイプ及び第２の言語タイプを決定する。

好ましくは、サーバは、第１のクライアントから送信された第１の言語タイプを受信し、第１の言語タイプを決定する。

好ましくは、第１のクライアントはサーバにバージョン情報を送信し、該バージョン情報は第１の言語タイプを含む。或いは、第１のクライアントはサーバに地理情報を送信し、該地理情報は第１の言語タイプに対応する。例えば、地理情報は、第１のクライアントが中国に位置することを示す場合、第１の言語タイプは中国語である。或いは、第１のクライアントはサーバに第１の端末の言語設定を送信し、該言語設定は第１の言語タイプを含む。

好ましくは、サーバは、第２のクライアントから送信された第２の言語タイプを受信し、第２の言語タイプを決定する。

好ましくは、第２のクライアントはサーバにバージョン情報を送信し、該バージョン情報は第２の言語タイプを含む。或いは、第２のクライアントはサーバに地理情報を送信し、該地理情報は第２の言語タイプに対応する。例えば、地理情報は、第２のクライアントが中国に位置することを示す場合、第２の言語タイプは中国語である。或いは、第２のクライアントはサーバに第２の端末の言語設定を送信し、該言語設定は第２の言語タイプを含む。

好ましくは、サーバは、第２のクライアントに言語タイプ取得要求を送信し、サーバは、第２のクライアントから送信された第２の言語タイプを受信する。ここで、言語タイプ取得要求は、サーバがクライアントに言語タイプの送信を要求するために使用される。

ステップ１１０３：音声内容及び第１の言語タイプに基づいて、音声内容を第１の言語タイプの会話メッセージに変換する。

好ましくは、サーバは、音声内容を会話メッセージに変換する。例えば、サーバは、音声内容「ごめんなさい」を会話メッセージ「ごめんなさい」に変換する。

ステップ１１０４：第１の言語タイプの会話メッセージ及び第２の言語タイプに基づいて、翻訳により第２の言語タイプの会話メッセージを取得する。

好ましくは、サーバは、第１の言語タイプの会話メッセージを第２の言語タイプの会話メッセージに翻訳する。例えば、サーバは、第１の言語タイプの会話メッセージ「ごめんなさい」を第２の言語タイプの会話メッセージ「Ｉ’ｍｓｏｒｒｙ」に翻訳する。

ステップ１１０５：第２の言語タイプの会話メッセージを第２のクライアントに送信する。

サーバは、第２言語の会話メッセージを第２のクライアントに送信する。

上述したように、本実施例は、サーバで音声内容を会話メッセージに変換し、会話メッセージを会話メッセージに翻訳することで、異なる言語のユーザ間で直接コミュニケーションを容易に行うことができ、ユーザ間のコミュニケーションの効率を向上させることができる。また、サーバを使用して変換及び翻訳の正確率を向上させることができるため、ユーザにより正確な結果を提供することができる。

好ましくは、本発明はＭＯＢＡゲームに適用される。例えば、ユーザＡとユーザＢがＭＯＢＡゲームをプレイしている際に、ユーザＡが中国語の音声内容を入力した後、ユーザＡのクライアントで中国語の会話メッセージを表示し、ユーザＢのクライアントで英語の会話メッセージを表示する。

好ましくは、本発明はＦＰＳゲームに適用される。例えば、ユーザＡとユーザＢがＦＰＳゲームをプレイしている際に、ユーザＡが中国語の音声内容を入力した後、ユーザＡのクライアントでロシア語の会話メッセージを表示し、ユーザＢのクライアントで英語の会話メッセージを表示する。

好ましくは、本発明はＳＬＧゲームに適用される。例えば、ユーザＡとユーザＢがＳＬＧゲームをプレイしている際に、ユーザＡが中国語の音声内容を入力した後、ユーザＡのクライアントで中国語の会話メッセージを表示し、ユーザＢのクライアントで日本語の会話メッセージを表示する。

例示的な態様では、音声をテキストに変換する方法をさらに提供する。該方法は、図１に示す第１の端末１２０により実行されてもよい。該方法は、以下のステップを含む。

第１のユーザインターフェースを表示する。第１のユーザインターフェースは、第１のユーザアカウントにより制御される第１の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。

第１のクライアントでの音声入力操作に応じて、第１の言語タイプを使用して第１のユーザアカウントにより入力された会話メッセージを表示する。

第２の端末における第２のクライアントが第２の言語タイプを使用して第１のユーザアカウントにより送信された会話メッセージを表示するように、会話メッセージを第２の端末に送信する。

ここで、第１の言語タイプは、第１のユーザアカウント又は第１のクライアントに関連する言語タイプであり、第２の言語タイプは、第２のユーザアカウント又は第２のクライアントに関連する言語タイプであり、会話メッセージのテキスト内容は、音声入力操作により入力された音声内容に基づいて認識されたものである。

図１２は、本発明の１つの例示的な実施例に係る音声テキスト変換システムの構成の概略図である。該システムは、ソフトウェア、ハードウェア、又は両者の組み合わせにより、コンピュータ機器の全部又は一部として実現されてもよい。システム１２０は、第１の装置１２１及び第２の装置１２２を含み、具体的には、以下の構成部を含む。

第１の装置１２１は、第１のユーザインターフェースを表示し、第１のユーザインターフェースは、第１のユーザアカウントにより制御される第１の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。

第２の装置１２２は、第２のユーザインターフェースを表示し、第２のユーザインターフェースは、第２のユーザアカウントにより制御される第２の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。

第１の装置１２１は、第１の装置１２１での音声入力操作に応じて、第１の言語タイプを使用して第１のユーザアカウントにより入力された会話メッセージを表示する。第１の言語タイプは、第１のユーザアカウント又は第１の装置に関連する言語タイプであり、会話メッセージのテキスト内容は、音声入力操作により入力された音声内容に基づいて認識されたものである。

第２の装置１２２は、第２の言語タイプを使用して第１のユーザアカウントにより送信された会話メッセージを表示する。第２の言語タイプは、第２のユーザアカウント又は第２の装置に関連する言語タイプである。

本発明の好ましい態様では、第１の装置１２１は、第１の装置１２１での音声入力操作に応じて、音声内容を取得し、サーバが音声内容に基づいて第１の言語タイプの会話メッセージ及び第２の言語タイプの会話メッセージを生成するように、音声内容をサーバに送信し、サーバから送信された会話メッセージを受信した後、第１の言語タイプを使用して会話メッセージを表示する。

本発明の好ましい態様では、第２の装置１２２は、サーバから送信された会話メッセージを受信した後に、第２の言語タイプを使用して会話メッセージを表示する。

本発明の好ましい態様では、第１の装置１２１は、サーバに第１の言語タイプを送信する。

本発明の好ましい態様では、第２の装置１２２は、サーバに第２の言語タイプを送信する。

本発明の好ましい態様では、第１の装置１２１は、音声内容及び第１の言語タイプをサーバに送信する。

本発明の好ましい態様では、第２の装置１２２は、サーバから送信された言語タイプ取得要求を受信し、言語タイプ取得要求に応じてサーバに第２の言語タイプを送信する。

本発明の好ましい態様では、第１の装置１２１は、第１の装置１２１におけるチャットウィジェットに対する第１のトリガ操作に応じて、第１の言語タイプを使用して会話メッセージを表示する。

本発明の好ましい態様では、第２の装置１２２は、第１の装置１２１におけるチャットウィジェットに対する第１のトリガ操作に応じて、第２の言語タイプを使用して会話メッセージを表示する。

本発明の好ましい態様では、第１の装置１２１は、第１の装置１２１におけるチャットウィジェットに対する入力開始操作に応じて、チャットウィジェットの周辺位置に音声記録プロンプトを表示し、音声内容の受信を開始し、第１の装置１２１におけるチャットウィジェットに対する入力終了操作に応じて、音声記録プロンプトの表示をキャンセルし、音声内容の受信を終了する。

本発明の好ましい態様では、第１の装置１２１は、第１の言語タイプで会話メッセージを表示する表示時間が所定期間に達した場合、会話メッセージの表示をキャンセルし、或いは、第１の表示キャンセル操作に応じて会話メッセージの表示をキャンセルする。

本発明の好ましい態様では、第２の装置１２２は、第２の言語タイプで会話メッセージを表示する表示時間が所定期間に達した場合、会話メッセージの表示をキャンセルし、或いは、第２の表示キャンセル操作に応じて会話メッセージの表示をキャンセルする。

本発明の好ましい態様では、第２の装置１２２は、第１の装置１２１での音声入力操作に応じて、第１の言語タイプ及び第２の言語タイプを使用して会話メッセージを表示する。

上述したように、第１のクライアントで言語入力操作を受け付けた場合、異なるクライアントで異なる言語タイプの会話メッセージを表示し、入力された音声情報を異なる言語タイプの会話メッセージに翻訳することで、異なる言語タイプを使用するユーザはコミュニケーションを容易に行うことができ、言語の壁を取り除くことができる。また、ユーザが追加的な翻訳ソフトウェアを使用して他の言語タイプの会話メッセージを翻訳する必要がないため、ユーザの操作手順を削減し、ヒューマンコンピュータインタラクションの効率を向上させることができる。

本発明の１つの例示的な実施例は、音声をテキストに変換するための装置をさらに提供する。該装置は、ソフトウェア、ハードウェア、又は両者の組み合わせにより、コンピュータ機器の全部又は一部として実現されてもよく、具体的には、以下の構成部を含む。

表示モジュールは、第１のユーザインターフェースを表示する。第１のユーザインターフェースは、第１のユーザアカウントにより制御される第１の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である。

表示モジュールは、第１のクライアントでの音声入力操作に応じて、第１の言語タイプを使用して第１のユーザアカウントにより入力された会話メッセージを表示する。

送信モジュールは、第２の端末における第２のクライアントが第２の言語タイプを使用して第１のユーザアカウントにより送信された会話メッセージを表示するように、会話メッセージを第２の端末に送信する。

図１３は、本発明の１つの例示的な実施例に係る音声テキスト変換装置の構成の概略図である。該装置は、ソフトウェア、ハードウェア、又は両者の組み合わせにより、コンピュータ機器の全部又は一部として実現されてもよい。該装置１３０は、以下の構成部を含む。

受信モジュール１３１は、第１のクライアントから送信された音声内容を受信する。

受信モジュール１３１は、第１の言語タイプ及び第２の言語タイプを決定する。

変換モジュール１３２は、音声内容及び第１の言語タイプに基づいて、音声内容を第１の言語タイプの会話メッセージに変換する。会話メッセージのテキスト内容は、音声内容に基づいて認識されたものである。

翻訳モジュール１３３は、第１の言語タイプの会話メッセージ及び第２の言語タイプに基づいて、翻訳により第２の言語タイプの前記会話メッセージを取得する。

送信モジュール１３４は、第２の言語タイプの会話メッセージを第２のクライアントに送信する。

本発明の好ましい態様では、受信モジュール１３１は、第１のクライアントから送信された第１の言語タイプを受信し、第２のクライアントから送信された第２の言語タイプを受信する。

本発明の好ましい態様では、送信モジュール１３４は、第２のクライアントに言語タイプ取得要求を送信する。

上述したように、本実施例は、サーバで音声内容を会話メッセージに変換し、第１の言語タイプの会話メッセージを第２の言語タイプの会話メッセージに翻訳することで、異なる言語のユーザ間で直接コミュニケーションを容易に行うことができ、ユーザ間のコミュニケーションの効率を向上させることができる。また、サーバを使用して変換及び翻訳の正確率を向上させることができるため、ユーザにより正確な結果を提供することができる。

本発明は、プロセッサと、少なくとも１つの命令が記憶されたメモリと、を含む端末をさらに提供する。少なくとも１つの命令は、プロセッサによりロードされて実行される際に、上記の各方法の実施例に記載された方法を実行させる。なお、該端末は、以下の図１４に示す端末であってもよい。

図１４は、本発明の１つの例示的な実施例に係る端末の構成のブロック図である。該端末は、上述した第１の端末又は第２の端末であってもよい。端末１４００は、スマートフォン、タブレットコンピュータ、ＭＰ３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ：ムービングピクチャーエキスパートグループオーディオレイヤーＩＩＩ）プレイヤ、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ：ムービングピクチャーエキスパートグループオーディオレイヤーＩＶ）プレイヤ、ラップトップコンピュータ、又はデスクトップコンピュータであってもよい。端末１４００は、ユーザ装置、携帯端末、ラップトップ端末、デスクトップ端末などの他の名称と称されてもよい。

一般に、端末１４００は、プロセッサ１４０１及びメモリ１４０２を含む。

プロセッサ１４０１は、４コアプロセッサ、８コアプロセッサなどのような１つ又は複数の処理コアを含んでもよい。プロセッサ１４０１は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ：デジタル信号処理）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：フィールドプログラマブルゲートアレイ）、及びＰＬＡ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ：プログラマブルロジックアレイ）の少なくとも１つのハードウェア形式で実現されてもよい。プロセッサ１４０１は、メインプロセッサ及びコプロセッサを含んでもよい。メインプロセッサは、アウェイク状態でデータを処理するために使用されるプロセッサであり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央処理装置）とも称される。コプロセッサは、スタンバイ状態でデータを処理するために使用される低電力プロセッサである。幾つかの実施例では、プロセッサ１４０１は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：グラフィックスプロセッシングユニット）と統合されてもよく、ＧＰＵは、表示画面に表示される必要がある内容をレンダリング及び描画するために使用される。幾つかの実施例では、プロセッサ１４０１は、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ：人工知能）プロセッサをさらに含んでもよく、該ＡＩプロセッサは、機械学習に関連する計算操作を処理するために使用される。

メモリ１４０２は、１つ又は複数のコンピュータ読み取り可能な記憶媒体を含んでもよく、該コンピュータ読み取り可能な記憶媒体は、有形で非一時的であってもよい。メモリ１４０２は、高速ランダムアクセスメモリ及び不揮発性メモリ、例えば、１つ又は複数の磁気ディスク記憶装置やフラッシュメモリ記憶装置をさらに含んでもよい。幾つかの実施例では、メモリ１４０２における非一時的なコンピュータ読み取り可能な記憶媒体は、少なくとも１つの命令が記憶され、該少なくとも１つの命令は、本発明に係る方法を実現するように、プロセッサ１４０１により実行されるために使用される。

幾つかの実施例では、端末１４００は、好ましくは、周辺機器インターフェース１４０３及び少なくとも１つの周辺機器をさらに含んでもよい。プロセッサ１４０１、メモリ１４０２、及び周辺機器インターフェース１４０３は、バス又は信号線を介して接続されてもよい。各周辺機器は、バス、信号線、又は回路基板を介して周辺機器インターフェース１４０３に接続されてもよい。具体的には、周辺機器は、無線周波数回路１４０４、スクリーン１４０５、カメラコンポーネント１４０６、オーディオ回路１４０７、位置特定コンポーネント１４０８、及び電源１４０９のうちの少なくとも１つを含む。

なお、当業者が理解できるように、端末１４００は、図１４に示す構成に限定されず、図示されているものより多く、又は少ない構成要素を含んでもよいし、特定の構成要素を組み合わせてもよいし、異なる構成要素の配置を採用してもよい。

図１５は、本発明の１つの例示的な実施例に係るサーバの構成の概略図である。具体的には、サーバ１５００は、中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：ＣＰＵ）１５０１、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）１５０２及び読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）１５０３を含むシステムメモリ１５０４、並びにシステムメモリ１５０４及び中央処理ユニット１５０１に接続されるシステムバス１５０５を含む。サーバ１５００は、コンピュータ内の各デバイス間で情報を伝送するための基本的な入力／出力（Ｉ／Ｏ）システム１５０６、並びにオペレーティングシステム１５１３、アプリケーションプログラム１５１４及び他のプログラムモジュール１５１５を記憶するための大容量記憶装置１５０７をさらに含む。

基本的な入力／出力システム１５０６は、情報を表示するためのディスプレイ１５０８、ユーザが情報を入力するためのマウス、キーボードなどの入力装置１５０９を含む。ディスプレイ１５０８及び入力装置１５０９は、何れもシステムバス１５０５に接続された入力／出力コントローラ１５１０を介して中央処理ユニット１５０１に接続されている。基本的な入力／出力システム１５０６は、キーボード、マウス、又は電子スタイラスなどの他の複数のデバイスからの入力を受信及び処理するための入力／出力コントローラ１５１０をさらに含んでもよい。同様に、入力／出力コントローラ１５１０は、表示画面、プリンタ、又は他のタイプの出力装置への出力をさらに提供する。

大容量記憶装置１５０７は、システムバス１５０５に接続された大容量記憶コントローラ（図示せず）を介して中央処理ユニット１５０１に接続されている。大容量記憶装置１５０７及びそれに関連するコンピュータ読み取り可能な媒体は、サーバ１５００に不揮発性ストレージを提供する。即ち、大容量記憶装置１５０７は、ハードディスク又はコンパクトディスク読み取り専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＣＤ－ＲＯＭ）ドライブなどのコンピュータ読み取り可能な媒体（図示せず）を含んでもよい。

なお、コンピュータ読み取り可能な媒体は、コンピュータ記憶媒体及び通信媒体を含んでもよい。コンピュータ記憶媒体は、例えばコンピュータ読み取り可能な命令、データ構造、プログラムモジュール、又はその他のデータなどの情報を記憶するための任意の方法又は技術で実現される揮発性及び不揮発性、取り外し可能及び取り外し不可能な媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、消去可能プログラム可能読み取り専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＥＰＲＯＭ）、電気的消去可能プログラム可能読み取り専用メモリ（英語：電気的消去可能プログラム可能読み取り専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ：ＥＥＰＲＯＭ）、フラッシュメモリ又はその他のソリッドステートストレージテクノロジ、ＣＤ－ＲＯＭ、デジタル多用途ディスク（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ：ＤＶＤ）又はその他の光ストレージ、テープカートリッジ、磁気テープ、ディスクストレージ、又はその他の磁気ストレージデバイスを含む。なお、当業者が分かるように、コンピュータ記憶媒体は上記のものに限定されない。上記のシステムメモリ１５０４及び大容量記憶装置１５０７は、メモリと総称されてもよい。

本発明の各実施例では、サーバ１５００は、さらに、動作するために、インターネットなどのネットワークを介してネットワーク上の遠隔コンピュータに接続されてもよい。即ち、サーバ１５００は、システムバス１５０５に接続されたネットワークインターフェースユニット１５１１を介してネットワーク１５１２に接続されてもよく、言い換えれば、ネットワークインターフェースユニット１５１１を用いて他のタイプのネットワーク又はリモートコンピュータシステム（図示せず）に接続されてもよい。

本発明の他の態様では、コンピュータ読み取り可能な記憶媒体をさらに提供する。該コンピュータ読み取り可能な記憶媒体には、少なくとも１つのプログラムコードが記憶され、プログラムコードは、上記の音声をテキストに変換する方法を実行するためにプロセッサによりロードされて実行される。

本発明の他の態様では、コンピュータプログラムプロダクト又はコンピュータプログラムをさらに提供する。コンピュータプログラムプロダクト又はコンピュータプログラムは、コンピュータ読み取り可能な命令を含み、該コンピュータ読み取り可能な命令はコンピュータ読み取り可能な記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ読み取り可能な記憶媒体からコンピュータ読み取り可能な命令を読み取って実行することで、上記の音声をテキストに変換する方法を実行する。

なお、本明細書で言及される「複数」は、２つ以上を意味する。「及び／又は」は、関連付けられたオブジェクトの関連付け関係を説明し、３つのタイプの関係があり得ることを表す。例えば、「Ａ及び／又はＢ」は、Ａのみが存在すること、Ａ及びＢが同時に存在すること、及びＢのみが存在することを意味してもよい。記号「／」は、通常、前後の関連オブジェクトが「又は」関係にあることを表す。

当業者が理解できるように、上記の実施例のステップの全部又は一部は、ハードウェアにより実現されてもよいし、関連するハードウェアが実行するようにプログラムを介して指示することで実現されてもよい。該プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。上述した記憶媒体は、読み取り専用メモリ、磁気ディスク又は光ディスクなどであってもよい。

以上は、単に本発明の例示的な実施例を説明し、本発明を制限するものではない。本発明の主旨及び原則の範囲内で行われる変更、均等的な置換、改良などは、本発明の保護範囲内に含まれる。

Claims

少なくとも２つのクライアントが実行する、音声をテキストに変換する方法であって、
第１のクライアントが第１のユーザインターフェースを表示するステップであって、前記第１のユーザインターフェースは、第１のユーザアカウントにより制御される第１の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、
第２のクライアントが第２のユーザインターフェースを表示するステップであって、前記第２のユーザインターフェースは、第２のユーザアカウントにより制御される第２の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、
前記第１のクライアントでの音声入力操作に応じて、前記第１のクライアントが第１の言語タイプを使用して前記第１のユーザアカウントにより入力された会話メッセージを表示し、前記第２のクライアントが第２の言語タイプを使用して前記第１のユーザアカウントにより送信された前記会話メッセージを表示するステップと、を含み、
前記第１の言語タイプは、前記第１のユーザアカウント又は前記第１のクライアントに関連する言語タイプであり、
前記第２の言語タイプは、前記第２のユーザアカウント又は前記第２のクライアントに関連する言語タイプであり、
前記会話メッセージのテキスト内容は、前記音声入力操作により入力された音声内容に基づいて認識されたものである、方法。
前記第１のクライアントでの音声入力操作に応じて、前記第１のクライアントが第１の言語タイプを使用して前記第１のユーザアカウントにより入力された会話メッセージを表示するステップは、
前記第１のクライアントでの前記音声入力操作に応じて、前記第１のクライアントが前記音声内容を取得するステップと、
サーバが前記音声内容に基づいて前記第１の言語タイプの前記会話メッセージ及び前記第２の言語タイプの前記会話メッセージを生成するように、前記第１のクライアントが前記音声内容を前記サーバに送信するステップと、
前記第１のクライアントが前記サーバから送信された前記第１の言語タイプの前記会話メッセージを受信した後、前記第１の言語タイプを使用して前記会話メッセージを表示するステップと、を含み、
前記第２のクライアントが第２の言語タイプを使用して前記第１のユーザアカウントにより送信された前記会話メッセージを表示するステップは、
前記第２のクライアントが前記サーバから送信された前記第２の言語タイプの前記会話メッセージを受信した後、前記第２の言語タイプを使用して前記会話メッセージを表示するステップ、を含む、請求項１に記載の方法。
前記第１のクライアントが前記サーバに前記第１の言語タイプを送信するステップ、及び
前記第２のクライアントが前記サーバに前記第２の言語タイプを送信するステップ、のうちの少なくとも１つ、をさらに含む、請求項２に記載の方法。
前記第１のクライアントが前記サーバに前記第１の言語タイプを送信するステップは、
前記第１のクライアントが前記音声内容及び前記第１の言語タイプを前記サーバに送信するステップ、を含む、請求項３に記載の方法。
前記第２のクライアントが前記サーバに前記第２の言語タイプを送信するステップは、
前記第２のクライアントが前記サーバから送信された言語タイプ取得要求を受信するステップと、
前記第２のクライアントが前記言語タイプ取得要求に応じて、前記サーバに前記第２の言語タイプを送信するステップと、を含む、請求項３に記載の方法。
前記第１のクライアントには、チャットウィジェットが表示され、
前記第１のクライアントでの音声入力操作に応じて、前記第１のクライアントが第１の言語タイプを使用して前記第１のユーザアカウントにより入力された会話メッセージを表示し、前記第２のクライアントが第２の言語タイプを使用して前記第１のユーザアカウントにより送信された前記会話メッセージを表示するステップは、
前記第１のクライアントにおける前記チャットウィジェットに対する第１のトリガ操作に応じて、前記第１のクライアントが前記第１の言語タイプを使用して前記会話メッセージを表示し、第２のクライアントが前記第２の言語タイプを使用して前記会話メッセージを表示するステップ、を含む、請求項１乃至５の何れかに記載の方法。
前記第１のクライアントにおける前記チャットウィジェットに対する第１のトリガ操作に応じて、前記第１のクライアントが前記第１の言語タイプを使用して前記会話メッセージを表示するステップは、
前記第１のクライアントにおけるチャットウィジェットに対する入力開始操作に応じて、前記第１のクライアントが前記チャットウィジェットの周辺位置に音声記録プロンプトを表示するステップであって、前記音声記録プロンプトは、前記第１のクライアントが前記音声内容の受信を開始することを提示するために使用される、ステップと、
前記第１のクライアントにおけるチャットウィジェットに対する入力終了操作に応じて、前記第１のクライアントが、前記第１のクライアントが前記音声内容の受信を終了することを提示するために、前記音声記録プロンプトの表示をキャンセルするステップと、
前記第１のクライアントが前記第１の言語タイプを使用して前記会話メッセージを表示するステップと、を含む、請求項６に記載の方法。
前記第１の言語タイプで前記会話メッセージを表示する表示時間が所定期間に達した場合、前記第１のクライアントが前記会話メッセージの表示をキャンセルするステップ、又は
前記第１のクライアントが第１の表示キャンセル操作に応じて前記会話メッセージの表示をキャンセルするステップ、をさらに含む、請求項１乃至５の何れかに記載の方法。
前記第２の言語タイプで前記会話メッセージを表示する表示時間が所定期間に達した場合、前記第２のクライアントが前記会話メッセージの表示をキャンセルするステップ、又は
前記第２のクライアントが第２の表示キャンセル操作に応じて前記会話メッセージの表示をキャンセルするステップ、をさらに含む、請求項１乃至５の何れかに記載の方法。
前記第１のクライアントでの前記音声入力操作に応じて、前記第２のクライアントが前記第１の言語タイプ及び前記第２の言語タイプを使用して前記第１のユーザアカウントにより送信された前記会話メッセージを表示するステップ、をさらに含む、請求項１乃至５の何れかに記載の方法。
第１の端末が実行する、音声をテキストに変換する方法であって、
第１のユーザインターフェースを表示するステップであって、前記第１のユーザインターフェースは、第１のユーザアカウントにより制御される第１の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面である、ステップと、
第１のクライアントでの音声入力操作に応じて、第１の言語タイプを使用して前記第１のユーザアカウントにより入力された会話メッセージを表示するステップと、
第２の端末における第２のクライアントが第２の言語タイプを使用して前記第１のユーザアカウントにより送信された前記会話メッセージを表示するように、前記会話メッセージを前記第２の端末に送信するステップと、を含み、
前記第１の言語タイプは、前記第１のユーザアカウント又は前記第１のクライアントに関連する言語タイプであり、
前記第２の言語タイプは、第２のユーザアカウント又は前記第２のクライアントに関連する言語タイプであり、
前記会話メッセージのテキスト内容は、前記音声入力操作により入力された音声内容に基づいて認識されたものである、方法。
サーバが実行する、音声をテキストに変換する方法であって、
第１のクライアントから送信された音声内容を受信するステップと、
第１の言語タイプ及び第２の言語タイプを決定するステップであって、前記第１の言語タイプは、第１のユーザアカウント又は前記第１のクライアントに関連する言語タイプであり、前記第１のユーザアカウントは、前記第１のクライアントにより提供される仮想環境の仮想活動場所において第１の仮想キャラクタを制御するために使用され、前記第２の言語タイプは、第２のユーザアカウント又は第２のクライアントに関連する言語タイプであり、前記第２のユーザアカウントは、前記第２のクライアントにより提供される仮想環境の仮想活動場所において第２の仮想キャラクタを制御するために使用される、ステップと、
前記音声内容及び前記第１の言語タイプに基づいて、前記音声内容を前記第１の言語タイプの会話メッセージに変換するステップであって、前記会話メッセージのテキスト内容は、前記音声内容に基づいて認識されたものである、ステップと、
前記第１の言語タイプの前記会話メッセージ及び前記第２の言語タイプに基づいて、翻訳により前記第２の言語タイプの前記会話メッセージを取得するステップと、
前記第２の言語タイプの前記会話メッセージを前記第２のクライアントに送信するステップと、を含む、方法。
前記第１の言語タイプ及び第２の言語タイプを決定するステップは、
前記第１のクライアントから送信された前記第１の言語タイプを受信するステップと、
前記第２のクライアントに言語タイプ取得要求を送信するステップと、
前記第２のクライアントから送信された前記第２の言語タイプを受信するステップと、を含む、請求項１２に記載の方法。
音声をテキストに変換するシステムであって、前記システムは、第１の装置と、第２の装置と、を含み、
前記第１の装置は、第１のユーザインターフェースを表示し、前記第１のユーザインターフェースは、第１のユーザアカウントにより制御される第１の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面であり、
前記第２の装置は、第２のユーザインターフェースを表示し、前記第２のユーザインターフェースは、第２のユーザアカウントにより制御される第２の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面であり、
前記第１の装置は、前記第１の装置での音声入力操作に応じて、第１の言語タイプを使用して前記第１のユーザアカウントにより入力された会話メッセージを表示し、
前記第１の言語タイプは、前記第１のユーザアカウント又は前記第１の装置に関連する言語タイプであり、
前記会話メッセージのテキスト内容は、前記音声入力操作により入力された音声内容に基づいて認識されたものであり、
前記第２の装置は、第２の言語タイプを使用して前記第１のユーザアカウントにより送信された前記会話メッセージを表示し、
前記第２の言語タイプは、前記第２のユーザアカウント又は前記第２の装置に関連する言語タイプである、システム。
前記第１の装置は、
前記第１の装置での前記音声入力操作に応じて、前記音声内容を取得し、
サーバが前記音声内容に基づいて前記第１の言語タイプの前記会話メッセージ及び前記第２の言語タイプの前記会話メッセージを生成するように、前記音声内容を前記サーバに送信し、
前記サーバから送信された前記会話メッセージを受信した後、前記第１の言語タイプを使用して前記会話メッセージを表示する、請求項１４に記載のシステム。
前記第１の装置は、
前記第１の装置におけるチャットウィジェットに対する入力開始操作に応じて、前記チャットウィジェットの周辺位置に、前記第１の装置が前記音声内容の受信を開始することを提示するための音声記録プロンプトを表示し、
前記第１の装置におけるチャットウィジェットに対する入力終了操作に応じて、前記第１の装置が前記音声内容の受信を終了することを提示するために、前記音声記録プロンプトの表示をキャンセルする、請求項１４又は１５に記載のシステム。
第１の端末に適用される、音声をテキストに変換する装置であって、該装置は、表示モジュールと、送信モジュールと、を含み、
前記表示モジュールは、第１のユーザインターフェースを表示し、前記第１のユーザインターフェースは、第１のユーザアカウントにより制御される第１の仮想キャラクタのために仮想活動場所を提供する仮想環境の表示画面であり、
前記表示モジュールは、第１のクライアントでの音声入力操作に応じて、第１の言語タイプを使用して前記第１のユーザアカウントにより入力された会話メッセージを表示し、
前記送信モジュールは、第２の端末における第２のクライアントが第２の言語タイプを使用して前記第１のユーザアカウントにより送信された前記会話メッセージを表示するように、前記会話メッセージを前記第２の端末に送信し、
前記第１の言語タイプは、前記第１のユーザアカウント又は前記第１のクライアントに関連する言語タイプであり、
前記第２の言語タイプは、第２のユーザアカウント又は前記第２のクライアントに関連する言語タイプであり、
前記会話メッセージのテキスト内容は、前記音声入力操作により入力された音声内容に基づいて認識されたものである、装置。
音声をテキストに変換する装置であって、該装置は、受信モジュールと、変換モジュールと、翻訳モジュールと、送信モジュールと、を含み、
前記受信モジュールは、第１のクライアントから送信された音声内容を受信し、
前記受信モジュールは、第１の言語タイプ及び第２の言語タイプを決定し、前記第１の言語タイプは、第１のユーザアカウント又は前記第１のクライアントに関連する言語タイプであり、前記第１のユーザアカウントは、前記第１のクライアントにより提供される仮想環境の仮想活動場所において第１の仮想キャラクタを制御するために使用され、前記第２の言語タイプは、第２のユーザアカウント又は第２のクライアントに関連する言語タイプであり、前記第２のユーザアカウントは、前記第２のクライアントにより提供される仮想環境の仮想活動場所において第２の仮想キャラクタを制御するために使用され、
前記変換モジュールは、前記音声内容及び前記第１の言語タイプに基づいて、前記音声内容を前記第１の言語タイプの会話メッセージに変換し、前記会話メッセージのテキスト内容は、前記音声内容に基づいて認識されたものであり、
前記翻訳モジュールは、前記第１の言語タイプの前記会話メッセージ及び前記第２の言語タイプに基づいて、翻訳により前記第２の言語タイプの前記会話メッセージを取得し、
前記送信モジュールは、前記第２の言語タイプの前記会話メッセージを前記第２のクライアントに送信する、装置。
コンピュータプログラムが記憶されたメモリと、１つ又は複数のプロセッサと、を含むコンピュータ機器であって、
前記コンピュータプログラムは、前記１つ又は複数のプロセッサにより実行される際に、請求項１乃至１３の何れかに記載の方法のステップを前記１つ又は複数のプロセッサに実行させる、コンピュータ機器。
請求項１乃至１３の何れかに記載の方法のステップをコンピュータに実行させるためのプログラム。