JP2023515392A

JP2023515392A - 情報処理方法、システム、装置、電子機器及び記憶媒体

Info

Publication number: JP2023515392A
Application number: JP2022549101A
Authority: JP
Inventors: ヂャオ，リ; ハン，シァオ; チェン，クゥーロン; トン，ヂェン
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-06-09
Filing date: 2021-06-07
Publication date: 2023-04-13
Anticipated expiration: 2041-06-07
Also published as: CN111711853B; US11900945B2; JP7448672B2; US20220215841A1; WO2021249323A1; CN111711853A; CN114205665A; CN114205665B; US20240062762A1; EP4164232A1; EP4164232A4

Abstract

本開示の実施例は、情報処理方法、システム、装置、電子機器及び記憶媒体を開示し、ここで、該方法は、クライアント端末に適用され、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信するステップと、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新するステップと、を含む。クライアント端末は、受信された文識別子がローカル文識別子と同じである場合、受信された文字内容を利用して既に表示された字幕内容を置き換え、同一の文のオーディオデータが文字に変換される過程で、この文の最初の中間変換結果を受信した時に字幕表示を行うことを実現することができ、この文の後の中間変換結果を受信した時に、この文に対応する字幕内容を動的に更新し、文ごとに動的字幕表示を行うことを実現するだけでなく、文ごとの字幕表示の遅延時間をさらに減らし、ユーザ体験を向上させる。

Description

本開示の実施例は、コンピュータ技術分野に関し、特に情報処理方法、システム、装置、電子機器及び記憶媒体に関する。

インターネット及び通信技術の発展とともに、通信系アプリケーションを介して情報コミュニケーションを行うことは、ユーザが情報交流を行う重要な方式の１つとなっている。クライアント端末間にてオーディオデータを含む通信を行う場合、サーバは、クライアント端末がオーディオデータに対応する字幕を表示するようにオーディオデータを文字に変換して対応するクライアント端末に送信することができる。

現在、サーバは、一般的には、文ごとにオーディオデータの変換を完了した後、変換済みの文字をクライアント端末に送信するため、クライアント端末が文ごとに対応する字幕を見るまでの遅延時間を比較的長くする。そして、ある文が比較的長い場合、字幕の遅延時間が長くなり、ユーザのインタラクション体験を大幅に低減させる。

本開示の実施例は、情報処理方法、装置、電子機器及び記憶媒体を提供しており、動的字幕表示を実現し、字幕遅延を低減し、ユーザ体験を向上させることができる。

第１の態様によれば、本開示の実施例は、クライアント端末に適用される情報処理方法を提供し、
サービスサーバにより送信された文字内容及び前記文字内容の文識別子を受信するステップと、
ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するステップと、を含む。

第２の態様によれば、本開示の実施例は、情報処理方法をさらに提供し、
サービスサーバからの第１の文字内容及び前記第１の文字内容の第１の文識別子を受信するステップと、
前記第１の文字内容を表示するステップと、
前記サービスサーバからの第２の文字内容及び前記第２の文字内容の第２の文識別子を受信するステップと、
前記第２の文識別子が前記第１の文識別子と同じである場合、前記第１の文字内容を更新するように前記第２の文字内容を表示するステップと、を含む。

第３の態様によれば、本開示の実施例は、情報処理システムを提供し、
クライアント端末により送信された字幕オン要求のキャラクタリゼーションに応答してオーディオデータを引き出し、前記オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び前記現在変換待ちのオーディオデータの変化に基づいて前記文字内容の文識別子を更新するためのサービスサーバと、
前記サービスサーバにより送信された前記文字内容及び前記文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するための前記クライアント端末と、を含む。

第４の態様によれば、本開示の実施例は、クライアント端末に適用される情報処理装置をさらに提供し、
サービスサーバにより送信された文字内容及び前記文字内容の文識別子を受信するための受信モジュールと、
ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するための表示モジュールと、を含む。

第５の態様によれば、本開示の実施例は、電子機器をさらに提供し、
１つ又は複数のプロセッサと、
１つ又は複数のプログラムを記憶するための記憶装置とを含み、
前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサによって実行されるとき、前記１つ又は複数のプロセッサに本開示の実施例のいずれか１つに記載の情報処理方法を実現させる。

第６の態様によれば、本開示の実施例は、コンピュータで実行可能な命令を含む記憶媒体をさらに提供し、前記コンピュータで実行可能な命令は、コンピュータプロセッサによって実行されるとき、本開示の実施例のいずれか１つに記載の情報処理方法を実行するために用いられる。

第７の態様によれば、本開示の実施例は、コンピュータプログラム製品をさらに提供し、前記コンピュータプログラム製品は、コンピュータ可読媒体に載せられているコンピュータプログラムを含み、このコンピュータプログラムがプロセッサによって実行されるとき、前記プロセッサに本開示の実施例のいずれか１つに記載の情報処理方法を実行させる。

第８の態様によれば、本開示の実施例は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムが電子機器で実行されるとき、電子機器に本開示の実施例のいずれか１つに記載の情報処理方法を実行させる。

本開示の実施例の技術案によれば、クライアント端末は、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新する。クライアント端末は、受信された文識別子がローカル文識別子と同じである場合、受信された文字内容を利用して既に表示された字幕内容を置き換えることができ、同一の文のオーディオデータが文字に変換される過程で、この文の最初の中間変換結果を受信した時に字幕表示を行うことを実現することができ、この文の後の中間変換結果を受信した時に、この文に対応する字幕内容を動的に更新し、文ごとに動的字幕表示を行うことを実現するだけでなく、文ごとの字幕表示の遅延時間をさらに減らし、ユーザ体験を向上させる。

添付図面を組み合わせて、以下の具体的な実施の形態を参照し、本開示の各実施例の上記と他の特徴、利点及び態様は、より明らかになる。添付図面を通して、同じ又は類似した添付図面マークは、同じ又は類似したエレメントを示す。添付図面が例示的であり、原本とエレメントが必ずしも比例に応じて描かれていないことを理解すべきである。
本開示の実施例１による情報処理方法のフローチャートである。本開示の実施例２による情報処理方法のフローチャートである。本開示の実施例３による情報処理方法のフローチャートである。本開示の実施例４による情報処理システムの構造概略図である。本開示の実施例６による情報処理システムの構造概略図である。本開示の実施例７による情報処理装置の構造概略図である。本開示の実施例８による電子機器の構造概略図である。

以下は、添付図面を参照しながら本開示の実施例をより詳細に記述する。添付図面において、本開示のなんらかの実施例が示されているが、理解すべきことは、本開示は、様々な形式で実現されることができ、且つここに記述される実施例に限定されると解釈されるべきでなく、逆に、これらの実施例の提供は、本開示をより透過的かつ完全に理解するためであることである。理解すべきことは、本開示の添付図面及び実施例は、本開示の保護範囲を制限するために使用されず、例示的な作用のためだけに使用されることである。

理解すべきことは、本開示の方法の実施の形態に記載の各ステップは、異なる順序で実行され、及び／又は並列に実行されてもよいことである。なお、方法の実施の形態は、付加のステップを含み、及び／又は示されるステップの実行を省略してもよい。本開示の範囲は、この点において制限されない。

本明細書において使用される用語である「含む」及びその変形は、開放的な含み、即ち「含むが、それらに限らない」である。用語である「に基づく」は、「少なくとも部分的に基づく」である。用語である「１つの実施例」は、「少なくとも１つの実施例」を示し、用語である「別の実施例」は、「少なくとも１つの別の実施例」を示し、用語である「いくつかの実施例」は、「少なくともいくつかの実施例」を示している。他の用語の関連定義は、以下の記述において与えられる。

なお、本開示に言及された「第１の」、「第２の」などの概念は、異なる装置、モジュール又はユニットを区別するためだけに使用され、これらの装置、モジュール又はユニットによって実行される機能の順序又は相互依存関係を限定するために使用されるものではない。

なお、本開示に言及された「１つ」、「複数」の修飾は、限定ではなく例示的であり、当業者が、コンテキストに特に明確に指摘されない限り、「１つ又は複数」と理解すべきであることを理解すべきである。

実施例１
図１は、本開示の実施例１による情報処理方法のフローチャートであり、本開示の実施例は、クライアント端末がリアルタイムインタラクションシーンで字幕表示を行う場合に特に適用され、この方法は、情報処理装置によって実行されてもよく、この装置は、ソフトウェア及び／又はハードウェアの形式で実現されてもよく、この装置は、電子機器に配置され、例えばスマート携帯電話、タブレットパソコン、ノートパソコン又はディスクコンピュータなどの電子機器に配置されてもよい。

図１に示すように、本実施例による情報処理方法は、クライアント端末に適用され、以下のステップを含む。

Ｓ１１０、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信する。

本開示の実施例では、サービスサーバは、各クライアント端末に字幕表示サービス機能を提供するサーバと考えられる。他のクライアント端末とリアルタイムインタラクション通信を行う任意のクライアント端末は、いずれもインタラクション通信過程においてサービスサーバに字幕オン要求を送信して、このクライアント端末及びこのクライアント端末とインタラクション通信を行う他のクライアント端末によりアップロードされたオーディオデータから変換された文字内容及び文字内容の文識別子をフィードバックするようサービスサーバに要求することができる。さらに、クライアント端末は、受信された文字内容及び文字内容の文識別子に基づいて字幕表示を行うことができる。

本実施例では、サービスサーバは、このクライアント端末により送信された字幕オン要求のキャラクタリゼーションに基づいてストリーミングサーバからオーディオデータを引き出し、オーディオデータをリアルタイム音声変換ツールに送信することができる。リアルタイム音声変換ツールは、自動音声識別（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）技術に基づき、オーディオデータのパラメータ（例えばオーディオデータ間のタイムインターバルなどのパラメータ）に基づいてオーディオデータに対して断文を行い、文ごとに対応するオーディオデータを決定することができ、現在変換待ちの一文に対応するオーディオデータを現在変換待ちのオーディオデータとして、現在変換待ちのオーディオデータに対して中間変換結果を出力できる文字変換操作を行うこともできる。サービスサーバは、リアルタイム音声変換ツールから、現在変換待ちのオーディオデータから変換された文字内容を取得し、かつ取得された文字内容は、現在変換待ちのオーディオデータ変換過程における文字内容と、変換済みの文字内容とを含む。

ここで、各クライアント端末により送信された字幕オン要求において、このクライアント端末の身分をキャラクタリゼーションする識別子又はこのクライアント端末が位置する会議室、ライブ配信ルームなどのリアルタイムインタラクション房間をキャラクタリゼーションする識別子が付帯されてもよく、サービスサーバは、上記キャラクタリゼーションに基づいてストリーミングサーバからこのクライアント端末及びこのクライアント端末とインタラクション通信を行う他のクライアント端末によりアップロードされたオーディオデータを引き出すことができる。ここで、リアルタイム音声変換ツールは、サービスサーバがローカルで提供するものであってもよく、又はサービスサーバと通信を確立する第三方が提供するものであってもよく、リアルタイム音声変換ツールによってオーディオデータストリームに対して自動音声識別処理を行うことができ、オーディオデータストリーム断文と文ごとに対応するオーディオデータに対する文字変換操作を実現することができる。ここで、中間変換結果は、完全のオーディオデータに対応する文字内容を変換取得する前に、変換取得された一部のオーディオデータに対応する文字内容であると考えられる。例えば、「今日はいい天気ですね」という文のオーディオデータに対して、その中間変換結果は、「今日」、「今日天気」、「今日はいい天気」などの一連の変換から取得された一部のオーディオデータに対応する文字内容であってもよく、変換取得された完全のオーディオデータに対応する文字内容は、「今日はいい天気ですね」となる。

本実施例では、サービスサーバが文字内容を取得した後、さらにこの文字内容のために文識別子を設置してもよく、この文識別子は、具体的なリアルタイムインタラクションシーンにおける文ごとに対応するオーディオデータを一意に識別することができ、かつアルファベット、文字、数字及び特殊記号などの少なくとも１つのエレメントから構成されてもよい。サービスサーバが文字内容に対応する文識別子を設置する過程は、現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新することであってもよい。サービスサーバは、文字内容の文識別子を文字内容とともにこのクライアント端末に送信することができる。

ここで、サービスサーバが文識別子を設置する一実施の形態では、例えば、まず、現在変換待ちのオーディオデータが、文字変換が完了した時に、文識別子の更新マークを設置し、次に、新たな現在変換待ちのオーディオデータの文字変換過程における文字内容を取得した時、更新マークに基づいて文識別子を更新し、文識別子の更新が完了した時に更新マークをキャンセルすることであってもよい。例えば、第１の文のオーディオデータに対応する文識別子をＳｅｇ１とし、第１の文のオーディオデータが、文字変換が完了した時に、文識別子更新マークを設置する。その直後には、第２の文のオーディオデータの最初の中間変換結果に対応する文字内容を取得し、この時、更新識別子に基づいて文識別子をＳｅｇ２に更新し、そして更新マークをキャンセルし、第２の文のオーディオデータの次の中間変換結果に対応する文字内容の文識別子が更新されることを回避することができる。つまり、新たな現在変換待ちのオーディオデータの文字変換過程における後変換の文字内容を取得した時に、この文識別子を更新する必要はない。

なお、取得された新たな現在変換待ちのオーディオデータに対応する文字内容も変換済みの文字内容である場合、更新マークに基づいて文識別子を更新し、この更新マークを保留してもよい。上記シーンのままを例に挙げて、第２の文が非常に短く、取得された第２の文のオーディオデータの最初の文字内容が変換完了後の文字内容であれば、この時、更新識別子に基づいて文識別子をＳｅｇ２に更新するほか、次の文に対応する文字内容を取得する時、再び更新マークに基づいて文識別子を更新するように更新マークを保留する必要がある。

ここで、文識別子を更新することは、例えば、１つのこの具体的なリアルタイムインタラクションシーンにおいて履歴文識別子とは異なる新たな文識別子を生成することであってもよく、かつ文識別子には順番号、例えばａ、ｂ、ｃ．．．、１、２、３．．．、Ｉ、ＩＩ、ＩＩＩ．．．などを含む場合、文識別子を番号順に更新してもよく、例えば文識別子をＳ１、Ｓ２、Ｓ３．．．などに順に更新してもよい。文識別子に順番号を含ませることにより、クライアント端末が文識別子の番号順に字幕表示を行うことに有利であり、ユーザが文ごとに正確なコンテキスト内容を理解しやすく、ユーザの字幕閲覧体験を向上させることができる。

上述した、文識別子を更新する実施の形態は、「同一の文に対応するオーディオデータから変換取得された文字内容の文識別子が同じであり、異なる文に対応するオーディオデータから変換取得された文字内容の文識別子が異なる」を実現することを意図しており、上記同じ目的を実現することができる他の実施の形態は、これにも適用可能であり、ここで具体的に限定しない。

Ｓ１２０、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新する。

本開示の実施例では、クライアント端末は、初回に受信された文識別子をローカルの第１の予め設定された記憶空間に記憶することができ、文識別子を２回目に受信すると、この第１の予め設定された記憶空間から読み取られた全ての文識別子をローカル文識別子とすることができ、２回目に受信された文識別子がローカル文識別子のうちのいずれか１つの文識別子と同じである場合、ローカル文識別子は、更新されない。２回目に受信された文識別子がローカル文識別子における各文識別子といずれも異なる場合、ローカル文識別子を更新するために、２回目に受信された文識別子を第１の予め設定された記憶空間に追加することができる。クライアント端末は、その後に文識別子を受信するたびに、上記操作を繰り返して、ローカル文識別子を更新又は更新しない操作を実現することができる。

ここで、受信された文識別子がローカル文識別子と同じであることは、クライアント端末のローカル文識別子のうち、受信された文識別子と同じである文識別子が存在し、即ちクライアント端末により前に受信された同じ文識別子文字内容が今回受信された文字内容と同一の文のオーディオデータに対応すると考えられる。ここで、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新することは、クライアント端末が、受信した文字内容を利用して、既に表示された受信した文識別子と同じローカル文識別子に対応する字幕内容を更新することであってもよく、具体的には、字幕内容の動的更新を実現するために、同じローカル文識別子に対応する字幕の表示コントロールにおける文字内容を受信された文字内容に更新してもよい。

なお、クライアント端末により受信された文識別子がローカル文識別子と異なる場合、クライアント端末により前に受信された文字内容は、今回受信された文字内容と異なる文のオーディオデータから変換された文字内容と考えられる。この時、クライアント端末は、文字内容を新たな字幕内容として表示し、受信された文識別子を利用してローカル文識別子を更新することができる。ここで、クライアント端末が文字内容を新たな字幕内容として表示する時、他の受信された文字内容の表示方式と異なる任意の表示方式で表示することができる。具体的には、いくつかのアプリケーションシーンでは、文字内容を新たな字幕内容として表示することは、例えば１つの新たな字幕の表示コントロールを生成し、この新たな表示コントロールに受信された文字内容を導入して、１つの新たな字幕の表示を実現することであってもよい。ここで、新たな字幕を表示する時、前の字幕は、クライアント端末インタフェースの他の位置（例えば、前の字幕が順に上にスクロールする）にスライドすることができる。そして、新たな字幕における字幕内容は、クライアント端末により後に受信されたこの字幕内容に対応する同じ文識別子の文字内容を利用して更新してもよい。ここで、クライアント端末が受信された文識別子を利用してローカル文識別子を更新することは、例えば受信された文識別子をローカルの第１の予め設定された記憶空間に追加することであってもよい。

ここで、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新することは、受信された文字内容と既に表示された受信された文識別子と同じローカル文識別子に対応する字幕内容との区分内容を決定し、区分内容を利用して字幕内容を更新することであってもよい。オーディオデータのストリーミング処理モードによって、文字変換過程において先に変換される内容に誤りが発生する可能性があるが、その後に変換される内容に基づいて前方に誤り訂正することができる。例示的には、「作業室が明るい」という文のオーディオデータに対して、クライアント端末が初回に受信した文字内容は、「作業時」である可能性があり、字幕を表示するとき、「作業時．．．」として表示することができ、クライアント端末の後に受信した内容は、「作業室が明るい」である可能性があり、字幕内容を更新するとき、まず受信された文字内容と既に表示された同じローカル文識別子に対応する字幕内容との区分内容に「室」及び「時」の異なりを含み、「が明るい」を追加することを決定し、さらに区分内容に基づいて表示された字幕内容の中の「時」を「室」に変更し、後に「が明るい」を新規追加して字幕内容の更新を実現することができる。

選択的に、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新するステップは、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を置き換えるステップを含む。つまり、クライアント端末は、受信された文字内容を利用して既に表示された受信された文識別子と同じローカル文識別子に対応する字幕内容を置き換えることができる。例示的には、「今日はいい天気ですね」という文のオーディオデータに対して、クライアント端末が、最初に受信した文字内容が「今日」であれば、字幕を表示する時、「今日．．．」として表示することができ、その後に受信した文字内容が「今日天気」であれば、字幕を表示する時、表示内容を「今日天気．．．」に置き換えることができる。文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を置き換えることによって、クライアント端末の演算処理過程を削減し、より迅速な字幕内容更新を実現することができる。

字幕内容は、動的に更新可能であるため、ある文のオーディオデータに対して対応する文字内容表示を行う時、この文のオーディオデータ変換が完了するまで待って、変換済みの文字内容を表示する必要がなく、この文の初回の中間変換結果に対応する文字内容を受信する時、文字内容を字幕で表示し、この文の新たな中間変換結果に対応する文字内容を受信するたびに、新たな文字内容を利用して字幕の動的更新を行うことができる。それによって各文の話者発話から字幕表示までの遅延時間を減少させることができ、ユーザ体験を大きく向上させる。

選択的に、クライアント端末は、リアルタイムインタラクションアプリケーションのクライアント端末である。ここで、リアルタイムインタラクションアプリケーションは、インスタントメッセンジャーアプリケーションと、マルチメディア会議アプリケーションと、ビデオライブアプリケーションと、グループチャットインタラクションアプリケーションとのうちの少なくとも１つを含んでもよいが、それらに限らない。ここで、２つ以上のクライアント端末がインスタントメッセンジャー、マルチメディア会議、グループチャットインタラクションを行うか、又は同一のライブ配信ルームにある場合、リアルタイムインタラクション効率とインタラクション体験を向上させるために、いずれも上記情報処理方法により話者の発話に対して字幕表示を行うことができる。

本開示の実施例の技術案によれば、クライアント端末は、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新する。クライアント端末は、受信された文識別子がローカル文識別子と同じである場合、受信された文字内容を利用して既に表示された字幕内容を置き換え、同一の文のオーディオデータが文字に変換される過程で、この文の最初の中間変換結果を受信した時に字幕表示を行うことを実現することができ、この文の後の中間変換結果を受信した時に、この文に対応する字幕内容を動的に更新し、文ごとに動的字幕表示を行うことを実現するだけでなく、文ごとの字幕表示の遅延時間をさらに減らし、ユーザ体験を向上させる。

実施例２
図２は、本開示の実施例２による情報処理方法のフローチャートである。本実施例は、上記実施例による各情報処理方法の選択的な技術案と組み合わせてもよい。本実施例による情報処理方法では、クライアント端末は、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信すると同時に、サービスサーバにより送信された文識別子に対応する内容バージョン順番を受信することができ、そして文識別子及びその対応する内容バージョン順番を利用して文字内容の字幕表示を行うことができ、配列順位が前である文字内容がネットワーク遅延などの原因により後にクライアント端末に送信される時、配列順位が前である文字内容を利用して配列順位が後ろである文字内容を更新することによる字幕更新エラーの状況を効果的に回避することができる。

図２に示すように、本実施例による情報処理方法は、以下のステップを含む。

Ｓ２１０、サービスサーバにより送信された文字内容、文字内容の文識別子及び文識別子に対応する内容バージョン順番を受信する。

本実施例では、クライアント端末により受信された内容バージョン順番は、この文字内容の対応する現在変換待ちのオーディオデータの文字変換過程における変換手順を一意に識別することができ、かつ順番号を含んでもよく、例えばａ、ｂ、ｃ．．．、１、２、３．．．、Ｉ、ＩＩ、ＩＩＩ．．．などを含み、又は、アルファベット、文字、数字と特殊記号などの少なくとも１つの他のエレメントをさらに含む。

サービスサーバは、文字内容のために文識別子を設置すると同時に、文識別子に対応する内容バージョン順番を設置することもできる。サービスサーバが内容バージョン順番を設置する実施の形態では、例えば、文字内容の現在変換待ちのオーディオデータの文字変換過程における変換手順に基づいて文識別子に対応する内容バージョン順番を生成することであってもよい。現在変換待ちのオーディオデータの変換の文字内容の文識別子は、一致しており、そして文字変換過程において今回変換の文字内容が位置する変換手順に基づいて今回変換の文字内容の内容バージョン順番を生成することができると考えられる。

例示的には、「今日はいい天気ですね」という文のオーディオデータに対して、その変換の文字内容は、順に「今日」、「今日天気」、「今日はいい天気」と「今日はいい天気ですね」であってもよく、かつ上記文字内容に対応する文識別子は、一致しており、しかし、１回目に変換される「今日」の内容バージョン順番をＳｌｉｃｅ１に設置し、２回目に変換される「今日天気」の内容バージョン順番をＳｌｉｃｅ２に設置し、３回目に変換される「今日はいい天気」の内容バージョン順番をＳｌｉｃｅ３に設置し、４回目に変換される「今日はいい天気ですね」の内容バージョン順番をＳｌｉｃｅ４に設置してもよい。

Ｓ２２０、ローカル文識別子と、ローカル文識別子に対応するローカル内容バージョン順番とを読み取る。

本実施例では、クライアント端末は、ローカルの第１の予め設定された記憶空間からローカル文識別子を読み取ることができ、ローカルの第２の予め設定された記憶空間からローカル内容バージョン順番を読み取ることができる。ここで、第１の予め設定された記憶空間のサイズが、文識別子を記憶したり、内容バージョン順番を記憶したりすることを満たすことができる場合、第１の予め設定された記憶空間を同時に第２の予め設定された記憶空間として使用することができる。

Ｓ２３０、受信された文識別子がローカル文識別子と同じであり、受信された内容バージョン順番がローカル内容バージョン順番の後に並んでいる場合、文字内容を利用して既に表示されたローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新する。

本実施例では、クライアント端末のローカル文識別子のうち、受信された文識別子と同じである文識別子が存在し、受信された内容バージョン順番が同じローカル文識別子のローカル内容バージョン順番（ローカル内容バージョン順番に等しいものを含まなくてもよい）の後に並んでいる場合、前に受信された同じ文識別子文字内容は、今回受信された文字内容と同一の文のオーディオデータに対応し、そして今回受信されたテキスト内容は、前回受信された文字内容の変換手順よりも後であると考えられる。この時、クライアント端末は、文字内容を利用して既に表示された同じローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新することができる。

なお、クライアント端末により受信された文識別子がローカル文識別子と同じであり、受信された内容バージョン順番がローカル内容バージョン順番の前に並んでいる場合、ローカル文識別子とローカル内容バージョン順番に対応する字幕内容に対して更新を行わなくてもよい。例示的には、クライアント端末が、内容バージョン順番がＳｌｉｃｅ４である「今日はいい天気ですね」を受信して字幕動的更新表示を行った後、Ｓｌｉｃｅ３に対応する「今日はいい天気」を受信するとし、Ｓｌｉｃｅ３がＳｌｉｃｅ４の前に並んでいるため、この時「今日はいい天気ですね」を「今日はいい天気」で更新せず、更新エラーの状況を回避する。

Ｓ２４０、受信された内容バージョン順番を利用してローカル文識別子に対応するローカル内容バージョン順番を更新する。

ここで、クライアント端末は、各文識別子に対して、受信されたこの文識別子に対応する１番目の内容バージョン順番を第２の予め設定された記憶空間に記憶し、この文識別子に対応する２番目の内容バージョン順番を受信すると、第２の予め設定された記憶空間からこの文識別子に対応する全ての内容バージョン順番をローカル内容バージョン順番として読み取ることができる。２番目の内容バージョン順番が全てのローカル内容バージョン順番の後に並んでいる場合、ローカル内容バージョン順番を更新するために、２番目の内容バージョン順番を第２の予め設定された記憶空間に追加することができ、２番目の内容バージョン順番がいずれか１つのローカル内容バージョン順番（ローカル内容バージョン順番に等しいものを含んでもよい）の前に並んでいる場合、ローカル内容バージョン順番は、更新されない。クライアント端末は、その後にこの文識別子に対応する内容バージョン順番を受信するたびに、上記操作を繰り返して、ローカル内容バージョン順番操作を更新又は更新しない操作を実現することができる。

本開示の実施例の技術案によれば、クライアント端末は、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信すると同時に、文識別子に対応する内容バージョン順番を受信し、そして文識別子及びその対応する内容バージョン順番を利用して文字内容の字幕表示を行うこともできる。受信された文識別子がローカル文識別子と同じである場合、配列順位が後ろである内容バージョン順番を利用して配列順位が前である内容バージョン順番に対応する文字内容を更新することによって、配列順位が前である文字内容が、ネットワーク遅延などの原因により後にクライアント端末に送信される時に、配列順位が前である文字内容を利用して配列順位が後ろである文字内容を更新することによる字幕更新エラーの状況を効果的に回避することができ、さらに字幕表示効果を向上させる。

実施例３
図３は、本開示の実施例３による情報処理方法のフローチャートである。本実施例は、上記実施例による各情報処理方法の選択的な技術案と組み合わせてもよい。本実施例による情報処理方法は、受信された文字内容と文識別子が少なくとも２組である場合の字幕動的表示方法を最適化しており、複数の字幕を同時に動的に更新することを実現することができ、さらに字幕表示効果を向上させる。

図３に示すように、本実施例による情報処理方法は、以下のステップを含む。

Ｓ３１０、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信し、ここで、受信された文字内容と文識別子が少なくとも２組である。

本開示の実施例では、サービスサーバは、字幕オン要求のキャラクタリゼーションに基づいて、ストリーミングサーバからこのクライアント端末及びこのクライアント端末とインタラクション通信を行う他のクライアント端末のうちの少なくとも２つのクライアント端末が同時にアップロードした少なくとも２つのオーディオデータ（つまり２つ以上の話者の発話が同時に存在する）を引き出すことができ、そして、少なくとも２つのオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容をそれぞれ取得し、及び少なくとも２つの現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新し、現在変換待ちのオーディオデータが少なくとも２つであれば、少なくとも２つのオーディオデータのために文識別子をそれぞれ設置することができ、そのうちの１つの変換が完了した時に文識別子更新マークを設置し、文識別子更新マークに基づいて更新する必要がないと考えられる。この時、クライアント端末は、サービスサーバにより同時又は交替に送信された少なくとも２組の文字内容と文識別子を受信することができ、さらに少なくとも２組の文字内容と文識別子に基づいて少なくとも２つの字幕を同時に動的に更新して表示することができる。

Ｓ３２０、ローカル文識別子を読み取り、受信された少なくとも２つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しているか否かを判断する。

本実施例では、ローカル文識別子の数は、少なくとも１つであってもよく、受信された少なくとも２つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しているか否かを判断し、つまり、受信された少なくとも２つの文識別子とローカル文識別子との積集合が存在しているか否かを判断する。

Ｓ３３０、もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新し、異なる文識別子に対応する文字内容を新たな字幕内容として表示する。

本実施例では、クライアント端末により受信された少なくとも２つの文識別子とローカル文識別子のうち、同じ文識別子が存在し、且つ同じ文識別子数が、少なくとも１つであってもよい場合、受信された文字内容には既に表示された字幕内容を更新する文字内容が存在すると考えられ、受信された同じ文識別子に対応する文字内容を利用して既に表示された同じローカル文識別子に対応する字幕内容を更新することができる。同時に、受信されたローカル文識別子と異なる文識別子に対応する文字内容を新たな字幕内容として表示することができる。それによって、例えば前の話者の発話が完了していない時、新たな話者の発話が開始し、形成される少なくとも２つの話者の発話の場合に、複数の字幕の同時更新表示を行うことを実現する。

Ｓ３４０、もしそうでなければ、受信された少なくとも２つの文字内容をそれぞれ新たな少なくとも２つの字幕内容として表示する。

本実施例では、クライアント端末により受信された少なくとも２つの文識別子とローカル文識別子のうち、同じ文識別子が存在しない場合、受信された文字内容と既に表示された字幕内容は、いずれも同一の文に属さないと考えられ、この時、受信された少なくとも２つの文字内容をそれぞれ新たな少なくとも２つの字幕内容として表示することができる。それによって、例えば前の話者の発話が完了した時、少なくとも２つの新たな話者の発話が同時に開始し、形成される少なくとも２つの話者の発話の場合に、複数の字幕の同時更新表示を行うことを実現する。

Ｓ３５０、受信された少なくとも２つの文識別子をいずれも新たなローカル文識別子とする。

本実施例では、受信された少なくとも２つの文識別子とローカル文識別子のうち、同じ文識別子が存在する場合、ローカル文識別子と異なる文識別子を第１の予め設定された記憶空間に追加して、受信された少なくとも２つの文識別子をいずれも新たなローカル文識別子とすることができる。受信された少なくとも２つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しない場合、受信された少なくとも２つの文識別子を第１の予め設定された記憶空間に同時に追加して、受信された少なくとも２つの文識別子をいずれも新たなローカル文識別子とすることができる。

本開示の実施例の技術案によれば、受信された文字内容と文識別子が少なくとも２組である場合、クライアント端末は、ローカル文識別子を読み取った後、受信された少なくとも２つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しているか否かを判断し、もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新し、異なる文識別子に対応する文字内容を新たな字幕内容として表示し、もしそうでなければ、受信された少なくとも２つの文字内容をそれぞれ新たな少なくとも２つの字幕内容として表示し、受信された少なくとも２つの文識別子をいずれも新たなローカル文識別子とする。複数の字幕を同時に動的に更新することを実現することができ、さらに字幕表示効果を向上させる。

実施例４
図４は、本開示の実施例４による情報処理システムの構造概略図である。本実施例による情報処理システムは、サービスサーバとクライアント端末との間の相互協力により、リアルタイムインタラクションシーンで、サービスサーバがインタラクションオーディオデータの引き出し、オーディオデータ変換の文字内容の取得及び文字内容に対応する文識別子の生成を実現することができ、クライアント端末は、受信されたサービスサーバにより送信された文字内容と文識別子に基づいて字幕内容の動的更新表示を行う。本開示の実施例による情報処理システムにおいて、本開示の任意の実施例による情報処理方法と同じ発明構想に属し、開示されていない技術詳細は、上記実施例を参照することができ、且つ上記実施例と同じである有益な効果に達することができる。

図４に示すように、本実施例による情報処理システムは、
クライアント端末４２０により送信された字幕オン要求のキャラクタリゼーションに応答してオーディオデータを引き出し、オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新するためのサービスサーバ４１０と、
サービスサーバ４１０により送信された文字内容及び文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新するためのクライアント端末４２０と、を含む。

本開示の実施例では、クライアント端末により送信された字幕オン要求において、このクライアント端末の身分をキャラクタリゼーションする識別子又はこのクライアント端末が位置する会議室、ライブ配信ルームなどのリアルタイムインタラクション房間をキャラクタリゼーションする識別子が付帯されてもよく、サービスサーバは、上記キャラクタリゼーションに基づいてストリーミングサーバからこのクライアント端末及びこのクライアント端末とインタラクション通信を行う他のクライアント端末によりアップロードされたオーディオデータを引き出すことができる。

ここで、サービスサーバは、オーディオデータをリアルタイム音声変換ツールに送信して、リアルタイム音声変換ツールがＡＳＲ技術に基づき、オーディオデータに対して断文を行い、文ごとに対応するオーディオデータを決定することができ、現在変換待ちの一文に対応するオーディオデータを現在変換待ちのオーディオデータとして、現在変換待ちのオーディオデータに対して中間変換結果を出力できる文字変換操作を行うこともできる。サービスサーバは、リアルタイム音声変換ツールから、現在変換待ちのオーディオデータから変換された文字内容を取得し、取得された文字内容は、現在変換待ちのオーディオデータ変換過程における文字内容と、変換済みの文字内容とを含む。

ここで、サービスサーバが文字内容を取得した後、さらにこの文字内容のために文識別子を設置してもよく、この文識別子は、具体的なリアルタイムインタラクションシーンにおける文ごとに対応するオーディオデータを一意に識別することができ、かつアルファベット、文字、数字及び特殊記号などの少なくとも１つのエレメントから構成されてもよい。サービスサーバが文字内容に対応する文識別子を設置する過程は、現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新することであってもよい。サービスサーバは、文字内容の文識別子を文字内容とともにこのクライアント端末に送信することができる。

ここで、サービスサーバが文識別子を設置する一実施の形態では、例えば、現在変換待ちのオーディオデータが、文字変換が完了した時に、文識別子の更新マークを設置し、新たな現在変換待ちのオーディオデータの文字変換過程における文字内容を取得した時、更新マークに基づいて文識別子を更新し、文識別子の更新が完了した時に更新マークをキャンセルすることであってもよい。なお、新たな現在変換待ちのオーディオデータの文字変換過程における後変換の文字内容を取得した時に、この文識別子を更新する必要はない。なお、新たな現在変換待ちのオーディオデータに対応する文字内容も変換済みである文字内容を取得する時、更新マークに基づいて文識別子を更新し、この更新マークを保留してもよい。

ここで、字幕オン要求を送信するクライアント端末が複数である場合、サービスサーバは、各クライアント端末により送信された字幕オン要求を受信した後、各クライアント端末に対して、あるクライアント端末から要求された最初の文字内容を取得した時、このクライアント端末の初期の文識別子を生成し、後に取得されたこのクライアント端末から要求された文字内容に基づいて、文字内容の文識別子を設置することができる。サービスサーバは、各クライアント端末とこのクライアント端末に対応する文識別子との間の関係を維持することができ、サービスサーバが複数のクライアント端末のために字幕表示サービス機能を同時に提供することを確保するために各クライアント端末に対応する文識別子を対応するクライアント端末に送信することができると考えられる。

ここで、クライアント端末は、初回に受信された文識別子をローカルの第１の予め設定された記憶空間に記憶することができ、文識別子を２回目に受信すると、この第１の予め設定された記憶空間から読み取られた全ての文識別子をローカル文識別子とすることができ、２回目に受信された文識別子がローカル文識別子のうちのいずれか１つの文識別子と同じである場合、ローカル文識別子は、更新されない。２回目に受信された文識別子がローカル文識別子における各文識別子といずれも異なる場合、ローカル文識別子を更新するために、２回目に受信された文識別子を第１の予め設定された記憶空間に追加することができる。クライアント端末は、その後に文識別子を受信するたびに、上記操作を繰り返して、ローカル文識別子を更新又は更新しない操作を実現することができる。

ここで、クライアント端末は、サービスサーバにより送信された文字内容と文識別子を受信した後、第１の予め設定された記憶空間からローカル文識別子を読み取ることができる。クライアント端末により受信された文識別子がローカル文識別子と同じである場合、クライアント端末により前に受信された同じ文識別子文字内容は、今回受信された文字内容と同一の文のオーディオデータに対応すると考えられる。この時、クライアント端末は、受信された文字内容を利用して既に表示された受信された文識別子と同じローカル文識別子に対応する字幕内容を更新することができる。なお、クライアント端末により受信された文識別子がローカル文識別子と異なる場合、クライアント端末により前に受信された文字内容は、今回受信された文字内容と異なる文のオーディオデータから変換された文字内容であると考えられ、この時、クライアント端末は、受信された文字内容を新たな字幕内容として表示し、受信された文識別子を利用してローカル文識別子を更新することができる。ここで、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新することは、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を置き換えることを含む。

選択的に、サービスサーバは、文字内容の現在変換待ちのオーディオデータの文字変換過程における変換手順に基づき、文識別子に対応する内容バージョン順番を生成するためにさらに用いられ、
それに応じて、クライアント端末は、ローカル文識別子に対応するローカル内容バージョン順番を読み取り、受信された文識別子がローカル文識別子と同じであり、受信された内容バージョン順番がローカル内容バージョン順番の後に並んでいる場合、文字内容を利用して既に表示されたローカル文識別子とローカル内容バージョン順番に対応する字幕内容を置き換え、受信された内容バージョン順番を利用してローカル文識別子に対応するローカル内容バージョン順番を更新するためにさらに用いられる。

本実施例では、サービスサーバは、文字内容のために文識別子を設置すると同時に、文識別子に対応する内容バージョン順番を設置することもできる。サービスサーバが内容バージョン順番を設置する実施の形態では、例えば、文字内容の現在変換待ちのオーディオデータの文字変換過程における変換手順に基づいて文識別子に対応する内容バージョン順番を生成することであってもよい。現在変換待ちのオーディオデータの変換の文字内容の文識別子は、一致しており、そして文字変換過程において今回変換の文字内容が位置する変換手順に基づいて今回変換の文字内容の内容バージョン順番を生成することができると考えられる。

ここで、クライアント端末のローカル文識別子のうち、受信された文識別子と同じである文識別子が存在し、受信された内容バージョン順番が同じローカル文識別子のローカル内容バージョン順番（ローカル内容バージョン順番に等しいものを含まなくてもよい）の後に並んでいる場合、前に受信された同じ文識別子文字内容は、今回受信された文字内容と同一の文のオーディオデータに対応し、そして今回受信されたテキスト内容は、前回受信された文字内容の変換手順よりも後であると考えられる。この時、クライアント端末は、文字内容を利用して既に表示された同じローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新することができる。なお、クライアント端末により受信された文識別子がローカル文識別子と同じであり、受信された内容バージョン順番がローカル内容バージョン順番の前に並んでいる場合、ローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新しなくてもよい。

本開示の実施例による情報処理システムは、サービスサーバがクライアント端末により送信された字幕オン要求のキャラクタリゼーションに応答してオーディオデータを引き出し、オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新し、クライアント端末に受信された文字内容と文識別子に基づいて字幕内容の動的更新表示を行わせる。サービスサーバは、現在変換待ちのオーディオデータが文字内容に変換される過程において得られた異なる文字内容をいずれも同一の文識別子に設置することによって、同一の現在変換待ちのオーディオデータに対して、その後に受信された文字内容を利用して既に表示された字幕内容を更新するようにクライアント端末に指示することができる。サービスサーバが同一の文のオーディオデータ変換の文字内容を送信する過程において、クライアント端末は、この文の最初の中間変換結果を受信した時に字幕表示を行い、この文の後の中間変換結果を受信した時に、この文に対応する字幕内容を動的に更新することを実現することができ、文ごとに動的字幕表示を行うことを実現するだけでなく、文ごとの字幕表示の遅延時間をさらに減らし、ユーザ体験を向上させる。

なお、サービスサーバは文識別子を更新すると同時に、クライアント端末が内容バージョン順番配列順位が後ろである文字内容にさらに基づいて配列順位が前である文字内容を更新するために、文識別子に対応する内容バージョン順番を更新することができ、配列順位が前である文字内容が、ネットワーク遅延などの原因により後にクライアント端末に送信される時に、配列順位が前である文字内容を利用して配列順位が後ろである文字内容を更新することによる字幕更新エラーの状況を効果的に回避することができる。

実施例５
本実施例は、上記実施例による情報処理システムの各選択的な技術案と組み合わせてもよい。本実施例による情報処理システムは、文字内容と文識別子が少なくとも２組である場合の字幕動的表示を最適化しており、クライアント端末が複数の字幕を同時に動的に更新することを実現することができ、さらに字幕表示効果を向上させる。

本実施例による情報処理システムにおいて、サービスサーバは、
字幕オン要求のキャラクタリゼーションに応答して少なくとも２つのオーディオデータを引き出し、少なくとも２つのオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び少なくとも２つの現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新するために用いられ、
それに応じて、クライアント端末は、
受信された文字内容と文識別子が少なくとも２組である場合、ローカル文識別子を読み取り、受信された少なくとも２つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しているか否かを判断し、
もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を置き換え、異なる文識別子に対応する文字内容を新たな字幕内容として表示し、
もしそうでなければ、受信された少なくとも２つの文字内容をそれぞれ新たな少なくとも２つの字幕内容として表示し、
受信された少なくとも２つの文識別子をいずれも新たなローカル文識別子とするために用いられる。

クライアント端末により受信された少なくとも２つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しない場合、受信された文字内容と既に表示された字幕内容は、いずれも同一の文に属さないと考えられ、この時、受信された少なくとも２つの文字内容をそれぞれ新たな少なくとも２つの字幕内容として表示することができる。それによって、例えば前の話者の発話が完了した時、少なくとも２つの新たな話者の発話が同時に開始し、形成される少なくとも２つの話者の発話の場合に、複数の字幕の同時更新表示を行うことを実現する。

本開示の実施例による情報処理システムは、サービスサーバがクライアント端末により送信された字幕オン要求のキャラクタリゼーションに応答して少なくとも２つのオーディオデータを引き出し、少なくとも２つのオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び少なくとも２つの現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新し、クライアント端末に受信された少なくとも２組の文字内容と文識別子に基づいて複数の字幕内容の同時動的更新表示を行わせることができる。

実施例６
図５は、本開示の実施例６による情報処理システムの構造概略図である。本実施例は、上記実施例による情報処理システムにおける各選択的な技術案と組み合わせてもよい。本実施例による情報処理システムは、ストリーミング通信を行うクライアント端末によりアップロードされたオーディオデータを受信するためのストリーミングサーバをさらに含んでもよく、それに応じて、サービスサーバは、具体的に、クライアント端末により送信された字幕オン要求のキャラクタリゼーションに応答して、ストリーミングサーバからオーディオデータを引き出すために用いられる。本実施例による情報処理システムは、サービスサーバにより送信されたオーディオデータを受信し、オーディオデータの現在変換待ちのオーディオデータを決定し、現在変換待ちのオーディオデータの文字変換過程における文字内容をフィードバックするためのリアルタイム音声変換ツールをさらに含んでもよく、それに応じて、サービスサーバは、具体的に、リアルタイム音声変換ツールによりフィードバックされたオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を受信するために用いられる。ストリーミングサーバによって、各クライアント端末によりアップロードされたオーディオデータに対する記憶を実現することができ、リアルタイム音声変換ツールによって、オーディオデータを文字内容にリアルタイムで変換して中間変換結果を出力することを実現することができる。

図５に示すように、本実施例による情報処理システムは、ストリーミングサーバ５１０、クライアント端末５２０、サービスサーバ５３０、及びリアルタイム音声変換ツール５４０を含み、
ストリーミングサーバ５１０は、ストリーミング通信を行うクライアント端末５２０によりアップロードされたオーディオデータを受信することに用いられ、
サービスサーバ５３０は、クライアント端末５２０により送信された字幕オン要求のキャラクタリゼーションに応答して、ストリーミングサーバ５１０からオーディオデータを引き出すことに用いられ、
リアルタイム音声変換ツール５４０は、サービスサーバ５３０により送信されたオーディオデータを受信し、オーディオデータの現在変換待ちのオーディオデータを決定し、現在変換待ちのオーディオデータの文字変換過程における文字内容をフィードバックすることに用いられ、
サービスサーバ５３０は、さらに、リアルタイム音声変換ツールによりフィードバックされたオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を受信し、及び現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新することに用いられ、
クライアント端末５２０は、サービスサーバ５３０により送信された文字内容及び文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新することに用いられる。

本開示の実施例では、他のクライアント端末とリアルタイムインタラクション通信を行う任意のクライアント端末は、いずれもインタラクション通信過程においてストリーミングソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）を介してストリーミングサーバと通信を確立することができ、確立した通信によって、オーディオストリームを含むマルチメディアデータをストリーミングサーバに伝送することができる。サービスサーバは、同様に、ストリーミングＳＤＫによってストリーミングサーバから各字幕オン要求のキャラクタリゼーションのオーディオストリームを引き出すことができ、サービスサーバは、サービスサーバローカルによる、又はサービスサーバと通信を確立した第三方によるリアルタイム音声変換ツールとインタラクションし、オーディオデータの送信、及び文字内容の取得を実現することができる。サービスサーバは、文字内容及び文字内容の文識別子をクライアント端末に送信するためにクライアント端末とロングリンクを確立することもできる。

選択的に、字幕オン要求には、要求字幕言語の種類が付帯されている。それに応じて、サービスサーバは、要求字幕言語の種類に基づいて取得された文字内容を翻訳し、翻訳済みの文字内容をクライアント端末に送信するためにさらに用いられる。

ここで、クライアント端末がサーバに送信した字幕オン要求において、要求字幕言語の種類、つまりクライアント端末が見たい字幕言語の種類が付帯されてもよい。サービスサーバは、文字内容を送信する前、対応するクライアント端末から要求された字幕言語の種類に基づいて文字内容を翻訳することができる。例えばユーザが母語の異なる他のユーザとリアルタイムインタラクションを行うようなシーンで、各ユーザ間で字幕表示によってインタラクション効率を促進するのに有利であり、ユーザ体験を向上させる。

選択的に、字幕オン要求には、第１の身分識別子が付帯されている。それに応じて、サービスサーバは、具体的に、クライアント端末及び第１の身分識別子と通信関係を確立する第２の身分識別子に対応するクライアント端末によりアップロードされたオーディオデータを引き出し、及び引き出されたオーディオデータの身分識別子を取得するために用いられ、それに応じて、クライアント端末は、具体的に、サービスサーバにより送信された身分識別子を受信し、字幕内容を表示すると同時に身分識別子を表示するために用いられる。

ここで、クライアント端末がサーバに送信した字幕オン要求において、第１の身分識別子が付帯されてもよい。サービスサーバでは、各身分識別子の間で確立された通信関係を維持することができ、この第１の身分識別子に基づいて、それと通信関係を確立する第２の身分識別子を照会することができ、さらにクライアント端末及び第１の身分識別子と通信関係を確立する第２の身分識別子に対応するクライアント端末によりアップロードされたオーディオデータを引き出すことができる。そして、サービスサーバは、オーディオを引き出しながら、引き出されたオーディオデータの身分識別子（例えばニックネーム又はアバターなど）をストリーミングサーバから取得し、身分識別子を対応するオーディオデータ変換の文字内容とともにクライアント端末に送信することができ、字幕内容を表示させると同時に、字幕内容に対応する身分識別子を表示させ、ユーザが話者身分と話者の発話内容を同時に了解することを容易にし、ユーザ体験を向上させる。

本開示の実施例による情報処理システムは、ストリーミングサーバ及び／又はリアルタイム音声変換ツールをさらに含み、各クライアント端末によりアップロードされたオーディオデータに対する記憶をそれぞれ実現し、及びオーディオデータを文字内容にリアルタイムで変換して中間変換結果を出力することができる。なお、サービスサーバは、受信された字幕オン要求に付帯される字幕言語の種類に基づいて、取得された文字内容を翻訳し、翻訳済みの文字内容をクライアント端末に送信することもでき、それによってクライアント端末が要求言語の種類を表示することを実現し、ユーザ体験を向上させる。さらに、サービスサーバは、引き出されたオーディオデータの身分識別子をクライアント端末に送信することもでき、それによってクライアント端末が話者身分を表示することを実現し、ユーザ体験を向上させる。

実施例７
本実施例による情報処理方法は、
サービスサーバからの第１の文字内容及び第１の文字内容の第１の文識別子を受信するステップと、
第１の文字内容を表示するステップと、
サービスサーバからの第２の文字内容及び第２の文字内容の第２の文識別子を受信するステップと、
第２の文識別子が第１の文識別子と同じである場合、第２の文字内容を表示して第１の文字内容を更新するステップと、を含む。

選択的に、サービスサーバからの第１の文字内容及び第１の文字内容の第１の文識別子を受信するステップと同時に、
サービスサーバからの第１の文識別子に対応する第１の内容バージョン順番を受信するステップをさらに含み、
サービスサーバからの第２の文字内容及び第２の文字内容の第２の文識別子を受信するステップと同時に、
サービスサーバからの第２の文識別子に対応する第２の内容バージョン順番を受信するステップをさらに含み、
それに応じて、第２の文識別子が第１の文識別子と同じである場合、第２の文字内容を表示して第１の文字内容を更新するステップは、
第２の文識別子が第１の文識別子と同じであり、且つ第２の内容バージョン順番が第１の内容バージョン順番の後に並んでいる場合、第２の文字内容を表示して第１の文字内容を更新するステップを含む。

第１の文字内容を表示するステップは、
サービスサーバからの文字内容に対して字幕表示を行うための第１の表示コントロールに第１の文字内容を表示するステップを含む。

選択的に、第２の文字内容を表示して第１の文字内容を更新するステップは、
第１の表示コントロールに第２の文字内容を表示して第１の文字内容を置き換えるステップを含む。

選択的に、第２の文字内容を表示して第１の文字内容を更新するステップは、
第１の表示コントロールに、第１の文字内容と第２の文字内容の区分内容に基づいて更新された文字内容を表示するステップを含む。

選択的に、この方法は、
第２の文識別子が第１の文識別子と異なる場合、サービスサーバからの文字内容を表示するための第２の表示コントロールに第２の文字内容を表示するステップをさらに含む。

選択的に、サービスサーバからの第１の文字内容及び第１の文字内容の第１の文識別子を受信するステップの前に、この方法は、
サービスサーバに字幕オン要求を送信するステップをさらに含む。

選択的に、字幕オン要求は、クライアント端末をキャラクタリゼーションする身分識別子又はクライアント端末が位置する場所をキャラクタリゼーションする識別子を含む。

選択的に、字幕オン要求は、文字内容の言語の種類情報を含む。

本開示の実施例による情報処理方法は、本開示の任意の実施例に適用されることができる。

実施例８
図６は、本開示の実施例８による情報処理装置の構造概略図である。本実施例による情報処理装置は、クライアント端末に適用され、クライアント端末がリアルタイムインタラクションシーンで字幕表示を行う場合に特に適用される。

図６に示すように、本実施例による情報処理装置は、クライアント端末に適用され、
サービスサーバにより送信された文字内容及び文字内容の文識別子を受信するための受信モジュール６１０と、
ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新するための表示モジュール６２０と、を含む。

上記各技術案に基づき、受信モジュールは、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信すると同時に、サービスサーバにより送信された文識別子に対応する内容バージョン順番を受信するためにさらに用いられ、
それに応じて、表示モジュールは、具体的に、
ローカル文識別子と、ローカル文識別子に対応するローカル内容バージョン順番とを読み取り、
受信された文識別子がローカル文識別子と同じであり、受信された内容バージョン順番がローカル内容バージョン順番の後に並んでいる場合、文字内容を利用して既に表示されたローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新し、
受信された内容バージョン順番を利用してローカル文識別子に対応するローカル内容バージョン順番を更新するために用いられる。

上記各技術案に基づき、表示モジュールは、受信された文識別子がローカル文識別子と異なる場合、文字内容を新たな字幕内容として表示し、受信された文識別子を利用してローカル文識別子を更新するためにさらに用いられる。

上記各技術案に基づき、受信された文字内容と文識別子が少なくとも２組である場合、表示モジュールは、具体的に、
ローカル文識別子を読み取り、受信された少なくとも２つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しているか否かを判断し、
もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新し、異なる文識別子に対応する文字内容を新たな字幕内容として表示し、
もしそうでなければ、受信された少なくとも２つの文字内容をそれぞれ新たな少なくとも２つの字幕内容として表示し、
受信された少なくとも２つの文識別子をいずれも新たなローカル文識別子とするために用いられる。

上記各技術案に基づき、表示モジュールは、具体的に、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を置き換えるために用いられる。

上記各技術案に基づき、クライアント端末は、リアルタイムインタラクションアプリケーションのクライアント端末であり、且つリアルタイムインタラクションアプリケーションは、インスタントメッセンジャーアプリケーションと、マルチメディア会議アプリケーションと、ビデオライブアプリケーションと、グループチャットインタラクションアプリケーションとのうちの少なくとも１つを含む。

本開示の実施例による情報処理装置は、本開示の任意の実施例によるクライアント端末に適用される情報処理方法を実行することができ、方法を実行することに該当する機能モジュールと有益な効果を備える。

なお、上記装置に含まれる各ユニットとモジュールは、機能論理に基づいて区分されているだけであるが、上記の区分に限定されるものではなく、該当する機能を実現できればよい。また、各機能ユニットの具体的な名称も相互に区別しやすいようにするためであり、本開示の実施例の保護範囲を制限するために使用されない。

実施例９
以下、図７を参照すると、それは、本開示の実施例を実現するのに適する電子機器（例えば図７における端末機器又はサーバ）７００の構造概略図を示す。本開示の実施例における端末機器は、例えば携帯電話、ノートパソコン、デジタルブロードキャスト受信器、ＰＤＡ（パーソナルデジタルアシスタント）、ＰＡＤ（タブレットパソコン）、ＰＭＰ（携帯型マルチメディアプレイヤー）、車載端末（例えば車載ナビゲーション端末）などの移動端末及び、例えばデジタルＴＶ、デスクトップコンピュータなどの固定端末を含んでもよいが、それらに限らない。図７に示される電子機器は、一例に過ぎず、本開示の実施例の機能と使用範囲に任意の制限を与えるべきではない。

図７に示すように、電子機器７００は、処理装置（例えば中央プロセッサ、グラフィックスプロセッサなど）７０１を含んでもよく、それは、リードオンリーメモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）７０２に記憶されるプログラム又は、記憶装置７０６からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）７０３にロードしたプログラムに基づき、様々な適切な動作と処理を実行することができる。ＲＡＭ７０３において、電子機器７００の操作に必要な様々なプログラムとデータが記憶されている。処理装置７０１、ＲＯＭ７０２及びＲＡＭ７０３は、バス７０４によって互いに繋がる。入力／出力（Ｉ／Ｏ）インタフェース７０５もバス７０４に接続されている。

通常、例えばタッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロなどを含む入力装置７０６、例えば液晶ディスプレイ（ＬＣＤ）、スピーカ、バイブレータなどを含む出力装置７０７、例えば磁気テープ、ハードディスクなどを含む記憶装置７０８、及び通信装置７０９という装置は、Ｉ／Ｏインタフェース７０５に接続されることができる。通信装置７０９は、電子機器７００が他の機器と無線又は有線通信を行ってデータを交換するように許可することができる。図７において、様々な装置を有する電子機器７００が示されているが、理解すべきことは、全ての示される装置を実施し、又は備えるように要求されないことである。より多く又は少ない装置を代替的に実施し、又は備えることができる。

特に、本開示の実施例に基づき、上述した、フローチャートを参照して記述される過程は、コンピュータソフトウェアプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータプログラム製品を含み、それは、非一時的コンピュータ可読媒体に載せられるコンピュータプログラムを含み、このコンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例において、このコンピュータプログラムは、通信装置７０９によってネットワークからダウンロード及びインストールされ、又は記憶装置７０６からインストールされ、又はＲＯＭ７０２からインストールされることができる。このコンピュータプログラムが処理装置７０１によって実行される時、本開示の実施例の方法に限定される上記機能を実行する。

本開示の実施例による電子機器は、上記実施例による情報処理方法と同一の開示構想に属し、本実施例に詳細に記述されていない技術詳細は、上記実施例を参照すればよく、且つ本実施例は、上記実施例と同じ有益な効果を有する。

実施例１０
本開示の実施例は、コンピュータ記憶媒体を提供し、コンピュータプログラムが記憶されており、このプログラムがプロセッサによって実行される時、上記実施例による情報処理方法を実現させる。

なお、本開示の上記コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記両方の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は任意の以上の組み合わせであってもよいが、それらに限らない。コンピュータ可読記憶媒体のより具体的な例は、１つ又は複数の導線を有する電気接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）又はフラッシュメモリ（ＦＬＡＳＨ（登録商標））、光ファイバ、携帯型コンパクト磁気ディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含んでもよいが、それらに限らない。本開示において、コンピュータ可読記憶媒体は、プログラムを含み、又は記憶する任意の有形媒体であってもよく、このプログラムは、命令実行システム、装置又はデバイスによって使用され、又はそれと結び付けて使用されてもよい。しかし、本開示において、コンピュータ可読信号媒体は、ベースバンドに含まれてもよく、又はキャリアの一部が伝播されるデータ信号としてもよく、ここで、コンピュータ可読なプログラムコードを載せる。このような伝播するデータ信号は、複数の形式を採用してもよく、電磁信号、光信号又は上記の任意の適切な組み合わせを含むが、それらに限らない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、このコンピュータ可読信号媒体は、命令実行システム、装置又はデバイスによって使用され、又はそれと結び付けて使用されるためのプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適当な媒体で伝送されてもよく、電線、光ケーブル、ＲＦ（無線周波数）など、又は上記の任意の適切な組み合わせを含むが、それらに限らない。

いくつかの実施の形態では、クライアント、サーバは、例えばＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ、ハイパーテキスト伝送プロトコル）のような任意の現在知られているか、又は将来研究開発されるネットワークプロトコルを利用して通信することができ、かつ任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）と相互接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）、インターネット（例えば、インターネット）及びエンドツーエンドネットワーク（例えば、ａｄｈｏｃエンドツーエンドネットワーク）、及び任意の現在知られているか、又は将来研究開発されるネットワークを含む。

上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよく、この電子機器に組み込まれずに個別に存在するものであってもよい。

上記コンピュータ可読媒体には、１つ又は複数のプログラムが載せられており、上記１つ又は複数のプログラムがこの電子機器によって実行される時、この電子機器に、
サービスサーバにより送信された文字内容及び文字内容の文識別子を受信させ、
ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新させる。

１つ又は複数のプログラミング言語又はそれらの組み合わせで本開示の操作を実行するためのコンピュータプログラムコードを作成することができ、上記プログラミング言語は、オブジェクト指向のプログラミング言語－例えばＪａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋を含むが、それらに限らず、一般的なプロシージャプログラミング言語－例えば「Ｃ」言語又は類似しているプログラミング言語をさらに含む。プログラムコードは、完全にユーザコンピュータで実行され、部分的にユーザコンピュータで実行され、１つの独立したソフトウェアパッケージとして実行され、部分的にユーザコンピュータで部分的にリモートコンピュータで実行され、又は完全にリモートコンピュータ又はサーバで実行されることができる。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークによってユーザコンピュータに接続されることができ、又は、外部コンピュータに接続されることができる（例えば、インターネットサービスプロバイダを利用してインターネットを介して接続されることができる）。

実施例１１
本開示の実施例は、コンピュータプログラム製品をさらに提供し、それは、コンピュータ可読媒体に載せられているコンピュータプログラムを含み、このコンピュータプログラムがプロセッサによって実行されるとき、上記実施例による情報処理方法が実現される。

実施例１２
本開示の実施例は、コンピュータプログラムをさらに提供し、それが電子機器で実行される時、上記実施例による情報処理方法を実現させる。

添付図面におけるフローチャートとブロック図は、本開示の様々な実施例のシステム、方法とコンピュータプログラム製品に従って実現可能な体系アーキテクチャ、機能と操作を示す。この点で、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント、又はコードの一部を代表することができ、このモジュール、プログラムセグメント、又はコードの一部は、定める論理機能を実現するための１つ又は複数の実行可能命令を含む。置き換えとするいくつかの実現において、ブロックに注記される機能が添付図面に注記される順序と異なる順で発生されることができることに留意すべきである。例えば、２つの連続して表示されるブロックは、実際には基本的に並列に実行されることができ、それらは、関する機能に応じて逆の順序で実行されることもある。ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせが、定める機能又は操作を実行する専用のハードウェアのシステムに基づいて実現されてもよく、又は専用のハードウェアとコンピュータ命令との組み合わせで実現されてもよいことに留意すべきである。

本開示の実施例に記述される、関わるユニットは、ソフトウェアの方式で実現されてもよく、ハードウェアの方式で実現されてもよい。ここで、ユニット、モジュールの名称は、ある場合に、このユニット、モジュール自体に対する限定を構成せず、例えば、表示モジュールは、さらに「字幕表示モジュール」として記述されてもよい。

本明細書において上述した機能は、少なくとも部分的に１つ又は複数のハードウェア論理部品によって実行されることができる。例えば、非限定的に、使用可能な例示的なタイプのハードウェア論理部品は、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、専用標準製品（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＳｔａｎｄａｒｄＰａｒｔｓ、ＡＳＳＰ）、システムオンチップ（ＳｙｓｔｅｍｏｎＣｈｉｐ、ＳＯＣ）、複雑プログラマブル論理デバイス（ＣＰＬＤ）などを含む。

本開示のコンテキストでは、機器可読媒体は、有形の媒体であってもよく、それは、命令実行システム、装置又は機器が使用し、又は命令実行システム、装置又は機器と組み合わせて使用されるためのプログラムを含み、又は記憶することができる。機器可読媒体は、機器可読信号媒体又は機器可読記憶媒体であってもよい。機器可読媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限らない。機器可読記憶媒体のより具体的な例は、１つ又は複数の線に基づく電気接続、携帯型コンピュータデスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯型コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶機器、磁気記憶機器、又は上記内容の任意の適切な組み合わせを含む。

本開示の１つ又は複数の実施例によれば、［例１］は、情報処理方法を提供し、クライアント端末に適用され、この方法は、
サービスサーバにより送信された文字内容及び前記文字内容の文識別子を受信するステップと、
ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するステップと、を含む。

本開示の１つ又は複数の実施例によれば、［例２］は、情報処理方法を提供し、さらに以下を含み、
選択的に、サービスサーバにより送信された文字内容及び前記文字内容の文識別子を受信する前記ステップと同時に、
サービスサーバにより送信された前記文識別子に対応する内容バージョン順番を受信するステップをさらに含み、
それに応じて、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新する前記ステップは、
ローカル文識別子と、前記ローカル文識別子に対応するローカル内容バージョン順番とを読み取るステップと、
受信された文識別子が前記ローカル文識別子と同じであり、受信された内容バージョン順番が前記ローカル内容バージョン順番の後に並んでいる場合、前記文字内容を利用して既に表示された前記ローカル文識別子と、前記ローカル内容バージョン順番に対応する字幕内容とを更新するステップと、
受信された内容バージョン順番を利用してローカル文識別子に対応するローカル内容バージョン順番を更新するステップと、を含む。

本開示の１つ又は複数の実施例によれば、［例３］は、情報処理方法を提供し、
受信された文識別子が前記ローカル文識別子と異なる場合、前記文字内容を新たな字幕内容として表示し、受信された文識別子を利用してローカル文識別子を更新するステップをさらに含む。

本開示の１つ又は複数の実施例によれば、［例４］は、情報処理方法を提供し、さらに以下を含み、
選択的に、受信された文字内容と文識別子が少なくとも２組である場合、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新する前記ステップは、
ローカル文識別子を読み取り、受信された少なくとも２つの文識別子のうち、前記ローカル文識別子と同じである文識別子が存在しているか否かを判断するステップと、
もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新し、異なる文識別子に対応する文字内容を新たな字幕内容として表示するステップと、
もしそうでなければ、受信された少なくとも２つの文字内容をそれぞれ新たな少なくとも２つの字幕内容として表示するステップと、
受信された少なくとも２つの文識別子をいずれも新たなローカル文識別子とするステップと、を含む。

本開示の１つ又は複数の実施例によれば、［例５］は、情報処理方法を提供し、さらに以下を含み、
選択的に、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新する前記ステップは、
前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を置き換えるステップを含む。

本開示の１つ又は複数の実施例によれば、［例６］は、情報処理方法を提供し、さらに以下を含み、
選択的に、前記クライアント端末は、リアルタイムインタラクションアプリケーションのクライアント端末であり、且つ前記リアルタイムインタラクションアプリケーションは、インスタントメッセンジャーアプリケーションと、マルチメディア会議アプリケーションと、ビデオライブアプリケーションと、グループチャットインタラクションアプリケーションとのうちの少なくとも１つを含む。

以上の記述は、本開示の好ましい実施例及び運用される技術原理に対する説明に過ぎない。当業者が、本開示に関する開示範囲が、上記技術的特徴の特定の組み合わせによる技術案に限らず、同時に、上記に開示される構想から逸脱することなく、上記技術的特徴又はそれらの同等の特徴から任意の組み合わせにより形成された他の技術案を含むべきであると理解すべきである。例えば、上記特徴と本開示に開示される（ただし、限らない）類似している機能を有する技術的特徴とが互いに置き換えられて形成される技術案である。

なお、特定の手順で各操作が描かれているが、示される特定の手順又は順序の手順で実行されるようにこれらの操作が要求されると理解すべきではない。一定の環境で、マルチタスクと並行処理が有利である可能性がある。同様に、上記論述に若干の具体的な実現の詳細が含まれるが、これらは、本開示の範囲に対する制限として解釈されるべきではない。個別の実施例のコンテキストに記述されているなんらかの特徴は、単一の実施例に組み合わせて実現されてもよい。逆に、単一の実施例のコンテキストに記述されている様々な特徴は、単独で、又は任意の適切なサブ組み合わせの方式で複数の実施例に実現されてもよい。

構造的特徴及び／又は方法論理動作に固有の言語を採用して本主題を記述しているが、理解すべきことは、添付される特許請求の範囲に限定される主題は、必ずしも上述した特定特徴又は動作に限定されるものではないことである。逆に、上述した特定特徴と動作は、特許請求の範囲を実現する例示的な形式に過ぎない。

本出願は、２０２０年６月９日に提出された、出願番号が２０２０１０５１８２７８．３であり、名称が「情報処理方法、システム、装置、電子機器及び記憶媒体」である中国特許出願の優先権を主張しており、この出願の全ては、参照によって本出願に組み込まれる。

第３の態様によれば、本開示の実施例は、情報処理システムを提供し、
クライアント端末により送信された字幕オン要求に応答してオーディオデータを引き出し、前記オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び前記現在変換待ちのオーディオデータの変化に基づいて前記文字内容の文識別子を更新するためのサービスサーバと、
前記サービスサーバにより送信された前記文字内容及び前記文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するための前記クライアント端末と、を含む。

添付図面を組み合わせて、以下の具体的な実施の形態を参照し、本開示の各実施例の上記と他の特徴、利点及び態様は、より明らかになる。添付図面を通して、同じ又は類似した添付図面マークは、同じ又は類似したエレメントを示す。添付図面が例示的であり、原本とエレメントが必ずしも比例に応じて描かれていないことを理解すべきである。
本開示の実施例１による情報処理方法のフローチャートである。本開示の実施例２による情報処理方法のフローチャートである。本開示の実施例３による情報処理方法のフローチャートである。本開示の実施例４による情報処理システムの構造概略図である。本開示の実施例６による情報処理システムの構造概略図である。本開示の実施例８による情報処理装置の構造概略図である。本開示の実施例９による電子機器の構造概略図である。

本実施例では、サービスサーバは、このクライアント端末により送信された字幕オン要求に基づいてストリーミングサーバからオーディオデータを引き出し、オーディオデータをリアルタイム音声変換ツールに送信することができる。リアルタイム音声変換ツールは、自動音声識別（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）技術に基づき、オーディオデータのパラメータ（例えばオーディオデータ間のタイムインターバルなどのパラメータ）に基づいてオーディオデータに対して断文を行い、文ごとに対応するオーディオデータを決定することができ、現在変換待ちの一文に対応するオーディオデータを現在変換待ちのオーディオデータとして、現在変換待ちのオーディオデータに対して中間変換結果を出力できる文字変換操作を行うこともできる。サービスサーバは、リアルタイム音声変換ツールから、現在変換待ちのオーディオデータから変換された文字内容を取得し、かつ取得された文字内容は、現在変換待ちのオーディオデータ変換過程における文字内容と、変換済みの文字内容とを含む。

ここで、各クライアント端末により送信された字幕オン要求において、このクライアント端末の身分をキャラクタリゼーションする識別子又はこのクライアント端末が位置する会議室、ライブ配信ルームなどのリアルタイムインタラクション房間をキャラクタリゼーションする識別子が付帯されてもよく、サービスサーバは、上記識別子に基づいてストリーミングサーバからこのクライアント端末及びこのクライアント端末とインタラクション通信を行う他のクライアント端末によりアップロードされたオーディオデータを引き出すことができる。ここで、リアルタイム音声変換ツールは、サービスサーバがローカルで提供するものであってもよく、又はサービスサーバと通信を確立する第三方が提供するものであってもよく、リアルタイム音声変換ツールによってオーディオデータストリームに対して自動音声識別処理を行うことができ、オーディオデータストリーム断文と文ごとに対応するオーディオデータに対する文字変換操作を実現することができる。ここで、中間変換結果は、完全のオーディオデータに対応する文字内容を変換取得する前に、変換取得された一部のオーディオデータに対応する文字内容であると考えられる。例えば、「今日はいい天気ですね」という文のオーディオデータに対して、その中間変換結果は、「今日」、「今日天気」、「今日はいい天気」などの一連の変換から取得された一部のオーディオデータに対応する文字内容であってもよく、変換取得された完全のオーディオデータに対応する文字内容は、「今日はいい天気ですね」となる。

ここで、サービスサーバが文識別子を設置する一実施の形態では、例えば、まず、現在変換待ちのオーディオデータが、文字変換が完了した時に、文識別子の更新マークを設置し、次に、新たな現在変換待ちのオーディオデータの文字変換過程における文字内容を取得した時、更新マークに基づいて文識別子を更新し、文識別子の更新が完了した時に更新マークをキャンセルすることであってもよい。例えば、第１の文のオーディオデータに対応する文識別子をＳｅｇ１とし、第１の文のオーディオデータが、文字変換が完了した時に、文識別子更新マークを設置する。その直後には、第２の文のオーディオデータの最初の中間変換結果に対応する文字内容を取得し、この時、更新マークに基づいて文識別子をＳｅｇ２に更新し、そして更新マークをキャンセルし、第２の文のオーディオデータの次の中間変換結果に対応する文字内容の文識別子が更新されることを回避することができる。つまり、新たな現在変換待ちのオーディオデータの文字変換過程における後変換の文字内容を取得した時に、この文識別子を更新する必要はない。

なお、取得された新たな現在変換待ちのオーディオデータに対応する文字内容も変換済みの文字内容である場合、更新マークに基づいて文識別子を更新し、この更新マークを保留してもよい。上記シーンのままを例に挙げて、第２の文が非常に短く、取得された第２の文のオーディオデータの最初の文字内容が変換完了後の文字内容であれば、この時、更新マークに基づいて文識別子をＳｅｇ２に更新するほか、次の文に対応する文字内容を取得する時、再び更新マークに基づいて文識別子を更新するように更新マークを保留する必要がある。

本実施例では、クライアント端末のローカル文識別子のうち、受信された文識別子と同じである文識別子が存在し、受信された内容バージョン順番が同じローカル文識別子のローカル内容バージョン順番（ローカル内容バージョン順番に等しいものを含まなくてもよい）の後に並んでいる場合、前に受信された同じ文識別子文字内容は、今回受信された文字内容と同一の文のオーディオデータに対応し、そして今回受信された文字内容は、前回受信された文字内容の変換手順よりも後であると考えられる。この時、クライアント端末は、文字内容を利用して既に表示された同じローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新することができる。

本開示の実施例では、サービスサーバは、字幕オン要求に基づいて、ストリーミングサーバからこのクライアント端末及びこのクライアント端末とインタラクション通信を行う他のクライアント端末のうちの少なくとも２つのクライアント端末が同時にアップロードした少なくとも２つのオーディオデータ（つまり２つ以上の話者の発話が同時に存在する）を引き出すことができ、そして、少なくとも２つのオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容をそれぞれ取得し、及び少なくとも２つの現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新し、現在変換待ちのオーディオデータが少なくとも２つであれば、少なくとも２つのオーディオデータのために文識別子をそれぞれ設置することができ、そのうちの１つの変換が完了した時に文識別子更新マークを設置し、文識別子更新マークに基づいて更新する必要がないと考えられる。この時、クライアント端末は、サービスサーバにより同時又は交替に送信された少なくとも２組の文字内容と文識別子を受信することができ、さらに少なくとも２組の文字内容と文識別子に基づいて少なくとも２つの字幕を同時に動的に更新して表示することができる。

図４に示すように、本実施例による情報処理システムは、
クライアント端末４２０により送信された字幕オン要求に応答してオーディオデータを引き出し、オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新するためのサービスサーバ４１０と、
サービスサーバ４１０により送信された文字内容及び文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新するためのクライアント端末４２０と、を含む。

本開示の実施例では、クライアント端末により送信された字幕オン要求において、このクライアント端末の身分をキャラクタリゼーションする識別子又はこのクライアント端末が位置する会議室、ライブ配信ルームなどのリアルタイムインタラクション房間をキャラクタリゼーションする識別子が付帯されてもよく、サービスサーバは、上記識別子に基づいてストリーミングサーバからこのクライアント端末及びこのクライアント端末とインタラクション通信を行う他のクライアント端末によりアップロードされたオーディオデータを引き出すことができる。

ここで、クライアント端末のローカル文識別子のうち、受信された文識別子と同じである文識別子が存在し、受信された内容バージョン順番が同じローカル文識別子のローカル内容バージョン順番（ローカル内容バージョン順番に等しいものを含まなくてもよい）の後に並んでいる場合、前に受信された同じ文識別子文字内容は、今回受信された文字内容と同一の文のオーディオデータに対応し、そして今回受信された文字内容は、前回受信された文字内容の変換手順よりも後であると考えられる。この時、クライアント端末は、文字内容を利用して既に表示された同じローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新することができる。なお、クライアント端末により受信された文識別子がローカル文識別子と同じであり、受信された内容バージョン順番がローカル内容バージョン順番の前に並んでいる場合、ローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新しなくてもよい。

本開示の実施例による情報処理システムは、サービスサーバがクライアント端末により送信された字幕オン要求に応答してオーディオデータを引き出し、オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新し、クライアント端末に受信された文字内容と文識別子に基づいて字幕内容の動的更新表示を行わせる。サービスサーバは、現在変換待ちのオーディオデータが文字内容に変換される過程において得られた異なる文字内容をいずれも同一の文識別子に設置することによって、同一の現在変換待ちのオーディオデータに対して、その後に受信された文字内容を利用して既に表示された字幕内容を更新するようにクライアント端末に指示することができる。サービスサーバが同一の文のオーディオデータ変換の文字内容を送信する過程において、クライアント端末は、この文の最初の中間変換結果を受信した時に字幕表示を行い、この文の後の中間変換結果を受信した時に、この文に対応する字幕内容を動的に更新することを実現することができ、文ごとに動的字幕表示を行うことを実現するだけでなく、文ごとの字幕表示の遅延時間をさらに減らし、ユーザ体験を向上させる。

本実施例による情報処理システムにおいて、サービスサーバは、
字幕オン要求に応答して少なくとも２つのオーディオデータを引き出し、少なくとも２つのオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び少なくとも２つの現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新するために用いられ、
それに応じて、クライアント端末は、
受信された文字内容と文識別子が少なくとも２組である場合、ローカル文識別子を読み取り、受信された少なくとも２つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しているか否かを判断し、
もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を置き換え、異なる文識別子に対応する文字内容を新たな字幕内容として表示し、
もしそうでなければ、受信された少なくとも２つの文字内容をそれぞれ新たな少なくとも２つの字幕内容として表示し、
受信された少なくとも２つの文識別子をいずれも新たなローカル文識別子とするために用いられる。

本開示の実施例による情報処理システムは、サービスサーバがクライアント端末により送信された字幕オン要求に応答して少なくとも２つのオーディオデータを引き出し、少なくとも２つのオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び少なくとも２つの現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新し、クライアント端末に受信された少なくとも２組の文字内容と文識別子に基づいて複数の字幕内容の同時動的更新表示を行わせることができる。

実施例６
図５は、本開示の実施例６による情報処理システムの構造概略図である。本実施例は、上記実施例による情報処理システムにおける各選択的な技術案と組み合わせてもよい。本実施例による情報処理システムは、ストリーミング通信を行うクライアント端末によりアップロードされたオーディオデータを受信するためのストリーミングサーバをさらに含んでもよく、それに応じて、サービスサーバは、具体的に、クライアント端末により送信された字幕オン要求に応答して、ストリーミングサーバからオーディオデータを引き出すために用いられる。本実施例による情報処理システムは、サービスサーバにより送信されたオーディオデータを受信し、オーディオデータの現在変換待ちのオーディオデータを決定し、現在変換待ちのオーディオデータの文字変換過程における文字内容をフィードバックするためのリアルタイム音声変換ツールをさらに含んでもよく、それに応じて、サービスサーバは、具体的に、リアルタイム音声変換ツールによりフィードバックされたオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を受信するために用いられる。ストリーミングサーバによって、各クライアント端末によりアップロードされたオーディオデータに対する記憶を実現することができ、リアルタイム音声変換ツールによって、オーディオデータを文字内容にリアルタイムで変換して中間変換結果を出力することを実現することができる。

図５に示すように、本実施例による情報処理システムは、ストリーミングサーバ５１０、クライアント端末５２０、サービスサーバ５３０、及びリアルタイム音声変換ツール５４０を含み、
ストリーミングサーバ５１０は、ストリーミング通信を行うクライアント端末５２０によりアップロードされたオーディオデータを受信することに用いられ、
サービスサーバ５３０は、クライアント端末５２０により送信された字幕オン要求に応答して、ストリーミングサーバ５１０からオーディオデータを引き出すことに用いられ、
リアルタイム音声変換ツール５４０は、サービスサーバ５３０により送信されたオーディオデータを受信し、オーディオデータの現在変換待ちのオーディオデータを決定し、現在変換待ちのオーディオデータの文字変換過程における文字内容をフィードバックすることに用いられ、
サービスサーバ５３０は、さらに、リアルタイム音声変換ツール５４０によりフィードバックされたオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を受信し、及び現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新することに用いられ、
クライアント端末５２０は、サービスサーバ５３０により送信された文字内容及び文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新することに用いられる。

本開示の実施例では、他のクライアント端末とリアルタイムインタラクション通信を行う任意のクライアント端末は、いずれもインタラクション通信過程においてストリーミングソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）を介してストリーミングサーバと通信を確立することができ、確立した通信によって、オーディオストリームを含むマルチメディアデータをストリーミングサーバに伝送することができる。サービスサーバは、同様に、ストリーミングＳＤＫによってストリーミングサーバから各字幕オン要求のオーディオストリームを引き出すことができ、サービスサーバは、サービスサーバローカルによる、又はサービスサーバと通信を確立した第三方によるリアルタイム音声変換ツールとインタラクションし、オーディオデータの送信、及び文字内容の取得を実現することができる。サービスサーバは、文字内容及び文字内容の文識別子をクライアント端末に送信するためにクライアント端末とロングリンクを確立することもできる。

ここで、クライアント端末がサーバに送信した字幕オン要求において、第１の身分識別子が付帯されてもよい。サービスサーバでは、各身分識別子の間で確立された通信関係を維持することができ、この第１の身分識別子に基づいて、それと通信関係を確立する第２の身分識別子を照会することができ、さらにクライアント端末及び第１の身分識別子と通信関係を確立する第２の身分識別子に対応するクライアント端末によりアップロードされたオーディオデータを引き出すことができる。そして、サービスサーバは、オーディオデータを引き出しながら、引き出されたオーディオデータの身分識別子（例えばニックネーム又はアバターなど）をストリーミングサーバから取得し、身分識別子を対応するオーディオデータ変換の文字内容とともにクライアント端末に送信することができ、字幕内容を表示させると同時に、字幕内容に対応する身分識別子を表示させ、ユーザが話者身分と話者の発話内容を同時に了解することを容易にし、ユーザ体験を向上させる。

Claims

クライアント端末に適用される情報処理方法であって、
サービスサーバにより送信された文字内容及び前記文字内容の文識別子を受信するステップと、
ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するステップと、を含む、ことを特徴とする情報処理方法。
サービスサーバにより送信された文字内容及び前記文字内容の文識別子を受信する前記ステップと同時に、
サービスサーバにより送信された前記文識別子に対応する内容バージョン順番を受信するステップをさらに含み、
それに応じて、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新する前記ステップは、
ローカル文識別子と、前記ローカル文識別子に対応するローカル内容バージョン順番とを読み取るステップと、
受信された文識別子が前記ローカル文識別子と同じであり、受信された内容バージョン順番が前記ローカル内容バージョン順番の後に並んでいる場合、前記文字内容を利用して既に表示された前記ローカル文識別子と、前記ローカル内容バージョン順番に対応する字幕内容とを更新するステップと、
受信された内容バージョン順番を利用してローカル文識別子に対応するローカル内容バージョン順番を更新するステップと、を含む、ことを特徴とする請求項１に記載の方法。
受信された文識別子が前記ローカル文識別子と異なる場合、前記文字内容を新たな字幕内容として表示し、受信された文識別子を利用してローカル文識別子を更新するステップをさらに含む、ことを特徴とする請求項１又は２に記載の方法。
受信された文字内容と文識別子が少なくとも２組である場合、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新する前記ステップは、
ローカル文識別子を読み取り、受信された少なくとも２つの文識別子のうち、前記ローカル文識別子と同じである文識別子が存在しているか否かを判断するステップと、
もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新し、異なる文識別子に対応する文字内容を新たな字幕内容として表示するステップと、
もしそうでなければ、受信された少なくとも２つの文字内容をそれぞれ新たな少なくとも２つの字幕内容として表示するステップと、
受信された少なくとも２つの文識別子をいずれも新たなローカル文識別子とするステップと、を含む、ことを特徴とする請求項１から３のいずれか１項に記載の方法。
前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新する前記ステップは、
前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を置き換えるステップを含む、ことを特徴とする請求項１から４のいずれか１項に記載の方法。
前記クライアント端末は、リアルタイムインタラクションアプリケーションのクライアント端末であり、且つ前記リアルタイムインタラクションアプリケーションは、インスタントメッセンジャーアプリケーションと、マルチメディア会議アプリケーションと、ビデオライブアプリケーションと、グループチャットインタラクションアプリケーションとのうちの少なくとも１つを含む、ことを特徴とする請求項１から５のいずれか１項に記載の方法。
情報処理システムであって、
クライアント端末により送信された字幕オン要求のキャラクタリゼーションに応答してオーディオデータを引き出し、前記オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び前記現在変換待ちのオーディオデータの変化に基づいて前記文字内容の文識別子を更新するためのサービスサーバと、
前記サービスサーバにより送信された前記文字内容及び前記文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するための前記クライアント端末と、を含む、ことを特徴とする情報処理システム。
前記サービスサーバは、具体的に、
現在変換待ちのオーディオデータが、文字変換が完了したときに、前記文識別子の更新マークを設置し、
新たな現在変換待ちのオーディオデータの文字変換過程における文字内容を取得したとき、前記更新マークに基づいて前記文識別子を更新し、前記文識別子の更新が完了したときに前記更新マークをキャンセルするために用いられる、ことを特徴とする請求項７に記載のシステム。
前記サービスサーバは、
前記文字内容の前記現在変換待ちのオーディオデータの文字変換過程における変換手順に基づき、前記文識別子に対応する内容バージョン順番を生成するためにさらに用いられ、
それに応じて、前記クライアント端末は、
前記ローカル文識別子に対応するローカル内容バージョン順番を読み取り、
受信された文識別子が前記ローカル文識別子と同じであり、受信された内容バージョン順番が前記ローカル内容バージョン順番の後に並んでいる場合、前記文字内容を利用して既に表示された前記ローカル文識別子と前記ローカル内容バージョン順番に対応する字幕内容を置き換え、
受信された内容バージョン順番を利用してローカル文識別子に対応するローカル内容バージョン順番を更新するためにさらに用いられる、ことを特徴とする請求項７又は８に記載のシステム。
前記クライアント端末は、
受信された文識別子が前記ローカル文識別子と異なる場合、前記文字内容を新たな字幕内容として表示し、受信された文識別子を利用してローカル文識別子を更新するためにさらに用いられる、ことを特徴とする請求項７から９のいずれか１項に記載のシステム。
前記サービスサーバは、
前記字幕オン要求のキャラクタリゼーションに応答して少なくとも２つのオーディオデータを引き出し、前記少なくとも２つのオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び少なくとも２つの現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新するためにさらに用いられ、
それに応じて、前記クライアント端末は、
受信された文字内容と文識別子が少なくとも２組である場合、ローカル文識別子を読み取り、受信された少なくとも２つの文識別子のうち、前記ローカル文識別子と同じである文識別子が存在しているか否かを判断し、
もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を置き換え、異なる文識別子に対応する文字内容を新たな字幕内容として表示し、
もしそうでなければ、受信された少なくとも２つの文字内容をそれぞれ新たな少なくとも２つの字幕内容として表示し、
受信された少なくとも２つの文識別子をいずれも新たなローカル文識別子とするためにさらに用いられる、ことを特徴とする請求項７から１０のいずれか１項に記載のシステム。
前記字幕オン要求には、要求字幕言語の種類が付帯されており、
それに応じて、前記サービスサーバは、
前記要求字幕言語の種類に基づいて取得された文字内容を翻訳し、翻訳済みの文字内容を前記クライアント端末に送信するためにさらに用いられる、ことを特徴とする請求項７から１１のいずれか１項に記載のシステム。
前記字幕オン要求には、第１の身分識別子が付帯されており、
それに応じて、前記サービスサーバは、具体的に、
前記クライアント端末、及び前記第１の身分識別子と通信関係を確立する第２の身分識別子に対応するクライアント端末によりアップロードされたオーディオデータを引き出し、及び引き出されたオーディオデータの身分識別子を取得するために用いられ、
それに応じて、前記クライアント端末は、具体的に、
前記サービスサーバにより送信された身分識別子を受信し、前記字幕内容を表示すると同時に前記身分識別子を表示するために用いられる、ことを特徴とする請求項７から１２のいずれか１項に記載のシステム。
ストリーミング通信を行うクライアント端末によりアップロードされたオーディオデータを受信するためのストリーミングサーバをさらに含み、
それに応じて、前記サービスサーバは、具体的に、
クライアント端末により送信された字幕オン要求のキャラクタリゼーションに応答して、前記ストリーミングサーバからオーディオデータを引き出すために用いられる、ことを特徴とする請求項７から１３のいずれか１項に記載のシステム。
前記サービスサーバにより送信されたオーディオデータを受信し、前記オーディオデータの現在変換待ちのオーディオデータを決定し、前記現在変換待ちのオーディオデータの文字変換過程における文字内容をフィードバックするためのリアルタイム音声変換ツールをさらに含み、
それに応じて、前記サービスサーバは、具体的に、
前記リアルタイム音声変換ツールによりフィードバックされた前記オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を受信するために用いられる、ことを特徴とする請求項７から１４のいずれか１項に記載のシステム。
クライアント端末に適用される情報処理装置であって、
サービスサーバにより送信された文字内容及び前記文字内容の文識別子を受信するための受信モジュールと、
ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するための表示モジュールと、を含む、ことを特徴とする情報処理装置。
情報処理方法であって、
サービスサーバからの第１の文字内容及び前記第１の文字内容の第１の文識別子を受信するステップと、
前記第１の文字内容を表示するステップと、
前記サービスサーバからの第２の文字内容及び前記第２の文字内容の第２の文識別子を受信するステップと、
前記第２の文識別子が前記第１の文識別子と同じである場合、前記第２の文字内容を表示して前記第１の文字内容を更新するステップと、を含む、情報処理方法。
サービスサーバからの第１の文字内容及び前記第１の文字内容の第１の文識別子を受信するステップと同時に、
前記サービスサーバからの前記第１の文識別子に対応する第１の内容バージョン順番を受信するステップをさらに含み、
サービスサーバからの第２の文字内容及び前記第２の文字内容の第２の文識別子を受信するステップと同時に、
前記サービスサーバからの前記第２の文識別子に対応する第２の内容バージョン順番を受信するステップをさらに含み、
それに応じて、前記第２の文識別子が前記第１の文識別子と同じである場合、前記第２の文字内容を表示して前記第１の文字内容を更新する前記ステップは、
前記第２の文識別子が前記第１の文識別子と同じであり、且つ前記第２の内容バージョン順番が前記第１の内容バージョン順番の後に並んでいる場合、前記第２の文字内容を表示して前記第１の文字内容を更新するステップを含む、ことを特徴とする請求項１７に記載の方法。
前記第１の文字内容を表示する前記ステップは、
前記サービスサーバからの文字内容に対して字幕表示を行うための第１の表示コントロールに前記第１の文字内容を表示するステップを含む、ことを特徴とする請求項１７又は１８に記載の方法。
前記第２の文字内容を表示して前記第１の文字内容を更新する前記ステップは、
前記第１の表示コントロールに前記第２の文字内容を表示して前記第１の文字内容を置き換えるステップを含む、ことを特徴とする請求項１９に記載の方法。
前記第２の文字内容を表示して前記第１の文字内容を更新する前記ステップは、
前記第１の表示コントロールに、前記第１の文字内容と前記第２の文字内容の区分内容に基づいて更新された文字内容を表示するステップを含む、ことを特徴とする請求項１９に記載の方法。
前記方法は、
前記第２の文識別子が前記第１の文識別子と異なる場合、前記サービスサーバからの文字内容を表示するための第２の表示コントロールに前記第２の文字内容を表示するステップをさらに含む、ことを特徴とする請求項１９から２１のいずれか１項に記載の方法。
サービスサーバからの第１の文字内容及び前記第１の文字内容の第１の文識別子を受信する前記ステップの前に、前記方法は、
前記サービスサーバに字幕オン要求を送信するステップをさらに含む、ことを特徴とする請求項１７から２２のいずれか１項に記載の方法。
前記字幕オン要求は、前記クライアント端末をキャラクタリゼーションする身分識別子又は前記クライアント端末が位置する場所をキャラクタリゼーションする識別子を含む、ことを特徴とする請求項２３に記載の方法。
前記字幕オン要求は、前記文字内容の言語の種類情報を含む、ことを特徴とする請求項２３又は２４に記載の方法。
電子機器であって、
１つ又は複数のプロセッサと、
１つ又は複数のプログラムを記憶するための記憶装置とを含み、
前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサによって実行されるとき、前記１つ又は複数のプロセッサに請求項１から６又は１７から２５のいずれか１項に記載の情報処理方法を実現させる、ことを特徴とする電子機器。
コンピュータで実行可能な命令を含む記憶媒体であって、前記コンピュータで実行可能な命令は、コンピュータのプロセッサによって実行されるとき、請求項１から６又は１７から２５のいずれか１項に記載の情報処理方法を実行するために用いられる、記憶媒体。
コンピュータプログラム製品であって、コンピュータ可読記憶媒体に載せられるコンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されるとき、請求項１から６又は１７から２５のいずれか１項に記載の情報処理方法が実行される、コンピュータプログラム製品。
コンピュータプログラムであって、前記コンピュータプログラムが電子機器で実行されるとき、前記電子機器に請求項１から６又は１７から２５のいずれか１項に記載の情報処理方法を実行させる、コンピュータプログラム。