JP7448672B2 - 情報処理方法、システム、装置、電子機器及び記憶媒体 - Google Patents

情報処理方法、システム、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7448672B2
JP7448672B2 JP2022549101A JP2022549101A JP7448672B2 JP 7448672 B2 JP7448672 B2 JP 7448672B2 JP 2022549101 A JP2022549101 A JP 2022549101A JP 2022549101 A JP2022549101 A JP 2022549101A JP 7448672 B2 JP7448672 B2 JP 7448672B2
Authority
JP
Japan
Prior art keywords
content
identifier
sentence
local
sentence identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022549101A
Other languages
English (en)
Other versions
JP2023515392A (ja
Inventor
ヂャオ,リ
ハン,シァオ
チェン,クゥーロン
トン,ヂェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2023515392A publication Critical patent/JP2023515392A/ja
Application granted granted Critical
Publication of JP7448672B2 publication Critical patent/JP7448672B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/458Scheduling content for creating a personalised stream, e.g. by combining a locally stored advertisement with an incoming stream; Updating operations, e.g. for OS modules ; time-related management operations
    • H04N21/4586Content update operation triggered locally, e.g. by comparing the version of software modules in a DVB carousel to the version stored locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4856End-user interface for client configuration for language selection, e.g. for the menu or subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Description

本開示の実施例は、コンピュータ技術分野に関し、特に情報処理方法、システム、装置、電子機器及び記憶媒体に関する。
インターネット及び通信技術の発展とともに、通信系アプリケーションを介して情報コミュニケーションを行うことは、ユーザが情報交流を行う重要な方式の1つとなっている。クライアント端末間にてオーディオデータを含む通信を行う場合、サーバは、クライアント端末がオーディオデータに対応する字幕を表示するようにオーディオデータを文字に変換して対応するクライアント端末に送信することができる。
現在、サーバは、一般的には、文ごとにオーディオデータの変換を完了した後、変換済みの文字をクライアント端末に送信するため、クライアント端末が文ごとに対応する字幕を見るまでの遅延時間を比較的長くする。そして、ある文が比較的長い場合、字幕の遅延時間が長くなり、ユーザのインタラクション体験を大幅に低減させる。
本開示の実施例は、情報処理方法、装置、電子機器及び記憶媒体を提供しており、動的字幕表示を実現し、字幕遅延を低減し、ユーザ体験を向上させることができる。
第1の態様によれば、本開示の実施例は、クライアント端末に適用される情報処理方法を提供し、
サービスサーバにより送信された文字内容及び前記文字内容の文識別子を受信するステップと、
ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するステップと、を含む。
第2の態様によれば、本開示の実施例は、情報処理方法をさらに提供し、
サービスサーバからの第1の文字内容及び前記第1の文字内容の第1の文識別子を受信するステップと、
前記第1の文字内容を表示するステップと、
前記サービスサーバからの第2の文字内容及び前記第2の文字内容の第2の文識別子を受信するステップと、
前記第2の文識別子が前記第1の文識別子と同じである場合、前記第1の文字内容を更新するように前記第2の文字内容を表示するステップと、を含む。
第3の態様によれば、本開示の実施例は、情報処理システムを提供し、
クライアント端末により送信された字幕オン要求に応答してオーディオデータを引き出し、前記オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び前記現在変換待ちのオーディオデータの変化に基づいて前記文字内容の文識別子を更新するためのサービスサーバと、
前記サービスサーバにより送信された前記文字内容及び前記文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するための前記クライアント端末と、を含む。
第4の態様によれば、本開示の実施例は、クライアント端末に適用される情報処理装置をさらに提供し、
サービスサーバにより送信された文字内容及び前記文字内容の文識別子を受信するための受信モジュールと、
ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するための表示モジュールと、を含む。
第5の態様によれば、本開示の実施例は、電子機器をさらに提供し、
1つ又は複数のプロセッサと、
1つ又は複数のプログラムを記憶するための記憶装置とを含み、
前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサによって実行されるとき、前記1つ又は複数のプロセッサに本開示の実施例のいずれか1つに記載の情報処理方法を実現させる。
第6の態様によれば、本開示の実施例は、コンピュータで実行可能な命令を含む記憶媒体をさらに提供し、前記コンピュータで実行可能な命令は、コンピュータプロセッサによって実行されるとき、本開示の実施例のいずれか1つに記載の情報処理方法を実行するために用いられる。
第7の態様によれば、本開示の実施例は、コンピュータプログラム製品をさらに提供し、前記コンピュータプログラム製品は、コンピュータ可読媒体に載せられているコンピュータプログラムを含み、このコンピュータプログラムがプロセッサによって実行されるとき、前記プロセッサに本開示の実施例のいずれか1つに記載の情報処理方法を実行させる。
第8の態様によれば、本開示の実施例は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムが電子機器で実行されるとき、電子機器に本開示の実施例のいずれか1つに記載の情報処理方法を実行させる。
本開示の実施例の技術案によれば、クライアント端末は、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新する。クライアント端末は、受信された文識別子がローカル文識別子と同じである場合、受信された文字内容を利用して既に表示された字幕内容を置き換えることができ、同一の文のオーディオデータが文字に変換される過程で、この文の最初の中間変換結果を受信した時に字幕表示を行うことを実現することができ、この文の後の中間変換結果を受信した時に、この文に対応する字幕内容を動的に更新し、文ごとに動的字幕表示を行うことを実現するだけでなく、文ごとの字幕表示の遅延時間をさらに減らし、ユーザ体験を向上させる。
添付図面を組み合わせて、以下の具体的な実施の形態を参照し、本開示の各実施例の上記と他の特徴、利点及び態様は、より明らかになる。添付図面を通して、同じ又は類似した添付図面マークは、同じ又は類似したエレメントを示す。添付図面が例示的であり、原本とエレメントが必ずしも比例に応じて描かれていないことを理解すべきである。
本開示の実施例1による情報処理方法のフローチャートである。 本開示の実施例2による情報処理方法のフローチャートである。 本開示の実施例3による情報処理方法のフローチャートである。 本開示の実施例4による情報処理システムの構造概略図である。 本開示の実施例6による情報処理システムの構造概略図である。 本開示の実施例による情報処理装置の構造概略図である。 本開示の実施例による電子機器の構造概略図である。
以下は、添付図面を参照しながら本開示の実施例をより詳細に記述する。添付図面において、本開示のなんらかの実施例が示されているが、理解すべきことは、本開示は、様々な形式で実現されることができ、且つここに記述される実施例に限定されると解釈されるべきでなく、逆に、これらの実施例の提供は、本開示をより透過的かつ完全に理解するためであることである。理解すべきことは、本開示の添付図面及び実施例は、本開示の保護範囲を制限するために使用されず、例示的な作用のためだけに使用されることである。
理解すべきことは、本開示の方法の実施の形態に記載の各ステップは、異なる順序で実行され、及び/又は並列に実行されてもよいことである。なお、方法の実施の形態は、付加のステップを含み、及び/又は示されるステップの実行を省略してもよい。本開示の範囲は、この点において制限されない。
本明細書において使用される用語である「含む」及びその変形は、開放的な含み、即ち「含むが、それらに限らない」である。用語である「に基づく」は、「少なくとも部分的に基づく」である。用語である「1つの実施例」は、「少なくとも1つの実施例」を示し、用語である「別の実施例」は、「少なくとも1つの別の実施例」を示し、用語である「いくつかの実施例」は、「少なくともいくつかの実施例」を示している。他の用語の関連定義は、以下の記述において与えられる。
なお、本開示に言及された「第1の」、「第2の」などの概念は、異なる装置、モジュール又はユニットを区別するためだけに使用され、これらの装置、モジュール又はユニットによって実行される機能の順序又は相互依存関係を限定するために使用されるものではない。
なお、本開示に言及された「1つ」、「複数」の修飾は、限定ではなく例示的であり、当業者が、コンテキストに特に明確に指摘されない限り、「1つ又は複数」と理解すべきであることを理解すべきである。
実施例1
図1は、本開示の実施例1による情報処理方法のフローチャートであり、本開示の実施例は、クライアント端末がリアルタイムインタラクションシーンで字幕表示を行う場合に特に適用され、この方法は、情報処理装置によって実行されてもよく、この装置は、ソフトウェア及び/又はハードウェアの形式で実現されてもよく、この装置は、電子機器に配置され、例えばスマート携帯電話、タブレットパソコン、ノートパソコン又はディスクコンピュータなどの電子機器に配置されてもよい。
図1に示すように、本実施例による情報処理方法は、クライアント端末に適用され、以下のステップを含む。
S110、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信する。
本開示の実施例では、サービスサーバは、各クライアント端末に字幕表示サービス機能を提供するサーバと考えられる。他のクライアント端末とリアルタイムインタラクション通信を行う任意のクライアント端末は、いずれもインタラクション通信過程においてサービスサーバに字幕オン要求を送信して、このクライアント端末及びこのクライアント端末とインタラクション通信を行う他のクライアント端末によりアップロードされたオーディオデータから変換された文字内容及び文字内容の文識別子をフィードバックするようサービスサーバに要求することができる。さらに、クライアント端末は、受信された文字内容及び文字内容の文識別子に基づいて字幕表示を行うことができる。
本実施例では、サービスサーバは、このクライアント端末により送信された字幕オン要求に基づいてストリーミングサーバからオーディオデータを引き出し、オーディオデータをリアルタイム音声変換ツールに送信することができる。リアルタイム音声変換ツールは、自動音声識別(Automatic Speech Recognition、ASR)技術に基づき、オーディオデータのパラメータ(例えばオーディオデータ間のタイムインターバルなどのパラメータ)に基づいてオーディオデータに対して断文を行い、文ごとに対応するオーディオデータを決定することができ、現在変換待ちの一文に対応するオーディオデータを現在変換待ちのオーディオデータとして、現在変換待ちのオーディオデータに対して中間変換結果を出力できる文字変換操作を行うこともできる。サービスサーバは、リアルタイム音声変換ツールから、現在変換待ちのオーディオデータから変換された文字内容を取得し、かつ取得された文字内容は、現在変換待ちのオーディオデータ変換過程における文字内容と、変換済みの文字内容とを含む。
ここで、各クライアント端末により送信された字幕オン要求において、このクライアント端末の身分をキャラクタリゼーションする識別子又はこのクライアント端末が位置する会議室、ライブ配信ルームなどのリアルタイムインタラクション房間をキャラクタリゼーションする識別子が付帯されてもよく、サービスサーバは、上記識別子に基づいてストリーミングサーバからこのクライアント端末及びこのクライアント端末とインタラクション通信を行う他のクライアント端末によりアップロードされたオーディオデータを引き出すことができる。ここで、リアルタイム音声変換ツールは、サービスサーバがローカルで提供するものであってもよく、又はサービスサーバと通信を確立する第三方が提供するものであってもよく、リアルタイム音声変換ツールによってオーディオデータストリームに対して自動音声識別処理を行うことができ、オーディオデータストリーム断文と文ごとに対応するオーディオデータに対する文字変換操作を実現することができる。ここで、中間変換結果は、完全のオーディオデータに対応する文字内容を変換取得する前に、変換取得された一部のオーディオデータに対応する文字内容であると考えられる。例えば、「今日はいい天気ですね」という文のオーディオデータに対して、その中間変換結果は、「今日」、「今日天気」、「今日はいい天気」などの一連の変換から取得された一部のオーディオデータに対応する文字内容であってもよく、変換取得された完全のオーディオデータに対応する文字内容は、「今日はいい天気ですね」となる。
本実施例では、サービスサーバが文字内容を取得した後、さらにこの文字内容のために文識別子を設置してもよく、この文識別子は、具体的なリアルタイムインタラクションシーンにおける文ごとに対応するオーディオデータを一意に識別することができ、かつアルファベット、文字、数字及び特殊記号などの少なくとも1つのエレメントから構成されてもよい。サービスサーバが文字内容に対応する文識別子を設置する過程は、現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新することであってもよい。サービスサーバは、文字内容の文識別子を文字内容とともにこのクライアント端末に送信することができる。
ここで、サービスサーバが文識別子を設置する一実施の形態では、例えば、まず、現在変換待ちのオーディオデータが、文字変換が完了した時に、文識別子の更新マークを設置し、次に、新たな現在変換待ちのオーディオデータの文字変換過程における文字内容を取得した時、更新マークに基づいて文識別子を更新し、文識別子の更新が完了した時に更新マークをキャンセルすることであってもよい。例えば、第1の文のオーディオデータに対応する文識別子をSeg1とし、第1の文のオーディオデータが、文字変換が完了した時に、文識別子更新マークを設置する。その直後には、第2の文のオーディオデータの最初の中間変換結果に対応する文字内容を取得し、この時、更新マークに基づいて文識別子をSeg2に更新し、そして更新マークをキャンセルし、第2の文のオーディオデータの次の中間変換結果に対応する文字内容の文識別子が更新されることを回避することができる。つまり、新たな現在変換待ちのオーディオデータの文字変換過程における後変換の文字内容を取得した時に、この文識別子を更新する必要はない。
なお、取得された新たな現在変換待ちのオーディオデータに対応する文字内容も変換済みの文字内容である場合、更新マークに基づいて文識別子を更新し、この更新マークを保留してもよい。上記シーンのままを例に挙げて、第2の文が非常に短く、取得された第2の文のオーディオデータの最初の文字内容が変換完了後の文字内容であれば、この時、更新マークに基づいて文識別子をSeg2に更新するほか、次の文に対応する文字内容を取得する時、再び更新マークに基づいて文識別子を更新するように更新マークを保留する必要がある。
ここで、文識別子を更新することは、例えば、1つのこの具体的なリアルタイムインタラクションシーンにおいて履歴文識別子とは異なる新たな文識別子を生成することであってもよく、かつ文識別子には順番号、例えばa、b、c...、1、2、3...、I、II、III...などを含む場合、文識別子を番号順に更新してもよく、例えば文識別子をS1、S2、S3...などに順に更新してもよい。文識別子に順番号を含ませることにより、クライアント端末が文識別子の番号順に字幕表示を行うことに有利であり、ユーザが文ごとに正確なコンテキスト内容を理解しやすく、ユーザの字幕閲覧体験を向上させることができる。
上述した、文識別子を更新する実施の形態は、「同一の文に対応するオーディオデータから変換取得された文字内容の文識別子が同じであり、異なる文に対応するオーディオデータから変換取得された文字内容の文識別子が異なる」を実現することを意図しており、上記同じ目的を実現することができる他の実施の形態は、これにも適用可能であり、ここで具体的に限定しない。
S120、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新する。
本開示の実施例では、クライアント端末は、初回に受信された文識別子をローカルの第1の予め設定された記憶空間に記憶することができ、文識別子を2回目に受信すると、この第1の予め設定された記憶空間から読み取られた全ての文識別子をローカル文識別子とすることができ、2回目に受信された文識別子がローカル文識別子のうちのいずれか1つの文識別子と同じである場合、ローカル文識別子は、更新されない。2回目に受信された文識別子がローカル文識別子における各文識別子といずれも異なる場合、ローカル文識別子を更新するために、2回目に受信された文識別子を第1の予め設定された記憶空間に追加することができる。クライアント端末は、その後に文識別子を受信するたびに、上記操作を繰り返して、ローカル文識別子を更新又は更新しない操作を実現することができる。
ここで、受信された文識別子がローカル文識別子と同じであることは、クライアント端末のローカル文識別子のうち、受信された文識別子と同じである文識別子が存在し、即ちクライアント端末により前に受信された同じ文識別子文字内容が今回受信された文字内容と同一の文のオーディオデータに対応すると考えられる。ここで、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新することは、クライアント端末が、受信した文字内容を利用して、既に表示された受信した文識別子と同じローカル文識別子に対応する字幕内容を更新することであってもよく、具体的には、字幕内容の動的更新を実現するために、同じローカル文識別子に対応する字幕の表示コントロールにおける文字内容を受信された文字内容に更新してもよい。
なお、クライアント端末により受信された文識別子がローカル文識別子と異なる場合、クライアント端末により前に受信された文字内容は、今回受信された文字内容と異なる文のオーディオデータから変換された文字内容と考えられる。この時、クライアント端末は、文字内容を新たな字幕内容として表示し、受信された文識別子を利用してローカル文識別子を更新することができる。ここで、クライアント端末が文字内容を新たな字幕内容として表示する時、他の受信された文字内容の表示方式と異なる任意の表示方式で表示することができる。具体的には、いくつかのアプリケーションシーンでは、文字内容を新たな字幕内容として表示することは、例えば1つの新たな字幕の表示コントロールを生成し、この新たな表示コントロールに受信された文字内容を導入して、1つの新たな字幕の表示を実現することであってもよい。ここで、新たな字幕を表示する時、前の字幕は、クライアント端末インタフェースの他の位置(例えば、前の字幕が順に上にスクロールする)にスライドすることができる。そして、新たな字幕における字幕内容は、クライアント端末により後に受信されたこの字幕内容に対応する同じ文識別子の文字内容を利用して更新してもよい。ここで、クライアント端末が受信された文識別子を利用してローカル文識別子を更新することは、例えば受信された文識別子をローカルの第1の予め設定された記憶空間に追加することであってもよい。
ここで、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新することは、受信された文字内容と既に表示された受信された文識別子と同じローカル文識別子に対応する字幕内容との区分内容を決定し、区分内容を利用して字幕内容を更新することであってもよい。オーディオデータのストリーミング処理モードによって、文字変換過程において先に変換される内容に誤りが発生する可能性があるが、その後に変換される内容に基づいて前方に誤り訂正することができる。例示的には、「作業室が明るい」という文のオーディオデータに対して、クライアント端末が初回に受信した文字内容は、「作業時」である可能性があり、字幕を表示するとき、「作業時...」として表示することができ、クライアント端末の後に受信した内容は、「作業室が明るい」である可能性があり、字幕内容を更新するとき、まず受信された文字内容と既に表示された同じローカル文識別子に対応する字幕内容との区分内容に「室」及び「時」の異なりを含み、「が明るい」を追加することを決定し、さらに区分内容に基づいて表示された字幕内容の中の「時」を「室」に変更し、後に「が明るい」を新規追加して字幕内容の更新を実現することができる。
選択的に、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新するステップは、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を置き換えるステップを含む。つまり、クライアント端末は、受信された文字内容を利用して既に表示された受信された文識別子と同じローカル文識別子に対応する字幕内容を置き換えることができる。例示的には、「今日はいい天気ですね」という文のオーディオデータに対して、クライアント端末が、最初に受信した文字内容が「今日」であれば、字幕を表示する時、「今日...」として表示することができ、その後に受信した文字内容が「今日天気」であれば、字幕を表示する時、表示内容を「今日天気...」に置き換えることができる。文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を置き換えることによって、クライアント端末の演算処理過程を削減し、より迅速な字幕内容更新を実現することができる。
字幕内容は、動的に更新可能であるため、ある文のオーディオデータに対して対応する文字内容表示を行う時、この文のオーディオデータ変換が完了するまで待って、変換済みの文字内容を表示する必要がなく、この文の初回の中間変換結果に対応する文字内容を受信する時、文字内容を字幕で表示し、この文の新たな中間変換結果に対応する文字内容を受信するたびに、新たな文字内容を利用して字幕の動的更新を行うことができる。それによって各文の話者発話から字幕表示までの遅延時間を減少させることができ、ユーザ体験を大きく向上させる。
選択的に、クライアント端末は、リアルタイムインタラクションアプリケーションのクライアント端末である。ここで、リアルタイムインタラクションアプリケーションは、インスタントメッセンジャーアプリケーションと、マルチメディア会議アプリケーションと、ビデオライブアプリケーションと、グループチャットインタラクションアプリケーションとのうちの少なくとも1つを含んでもよいが、それらに限らない。ここで、2つ以上のクライアント端末がインスタントメッセンジャー、マルチメディア会議、グループチャットインタラクションを行うか、又は同一のライブ配信ルームにある場合、リアルタイムインタラクション効率とインタラクション体験を向上させるために、いずれも上記情報処理方法により話者の発話に対して字幕表示を行うことができる。
本開示の実施例の技術案によれば、クライアント端末は、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新する。クライアント端末は、受信された文識別子がローカル文識別子と同じである場合、受信された文字内容を利用して既に表示された字幕内容を置き換え、同一の文のオーディオデータが文字に変換される過程で、この文の最初の中間変換結果を受信した時に字幕表示を行うことを実現することができ、この文の後の中間変換結果を受信した時に、この文に対応する字幕内容を動的に更新し、文ごとに動的字幕表示を行うことを実現するだけでなく、文ごとの字幕表示の遅延時間をさらに減らし、ユーザ体験を向上させる。
実施例2
図2は、本開示の実施例2による情報処理方法のフローチャートである。本実施例は、上記実施例による各情報処理方法の選択的な技術案と組み合わせてもよい。本実施例による情報処理方法では、クライアント端末は、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信すると同時に、サービスサーバにより送信された文識別子に対応する内容バージョン順番を受信することができ、そして文識別子及びその対応する内容バージョン順番を利用して文字内容の字幕表示を行うことができ、配列順位が前である文字内容がネットワーク遅延などの原因により後にクライアント端末に送信される時、配列順位が前である文字内容を利用して配列順位が後ろである文字内容を更新することによる字幕更新エラーの状況を効果的に回避することができる。
図2に示すように、本実施例による情報処理方法は、以下のステップを含む。
S210、サービスサーバにより送信された文字内容、文字内容の文識別子及び文識別子に対応する内容バージョン順番を受信する。
本実施例では、クライアント端末により受信された内容バージョン順番は、この文字内容の対応する現在変換待ちのオーディオデータの文字変換過程における変換手順を一意に識別することができ、かつ順番号を含んでもよく、例えばa、b、c...、1、2、3...、I、II、III...などを含み、又は、アルファベット、文字、数字と特殊記号などの少なくとも1つの他のエレメントをさらに含む。
サービスサーバは、文字内容のために文識別子を設置すると同時に、文識別子に対応する内容バージョン順番を設置することもできる。サービスサーバが内容バージョン順番を設置する実施の形態では、例えば、文字内容の現在変換待ちのオーディオデータの文字変換過程における変換手順に基づいて文識別子に対応する内容バージョン順番を生成することであってもよい。現在変換待ちのオーディオデータの変換の文字内容の文識別子は、一致しており、そして文字変換過程において今回変換の文字内容が位置する変換手順に基づいて今回変換の文字内容の内容バージョン順番を生成することができると考えられる。
例示的には、「今日はいい天気ですね」という文のオーディオデータに対して、その変換の文字内容は、順に「今日」、「今日天気」、「今日はいい天気」と「今日はいい天気ですね」であってもよく、かつ上記文字内容に対応する文識別子は、一致しており、しかし、1回目に変換される「今日」の内容バージョン順番をSlice1に設置し、2回目に変換される「今日天気」の内容バージョン順番をSlice2に設置し、3回目に変換される「今日はいい天気」の内容バージョン順番をSlice3に設置し、4回目に変換される「今日はいい天気ですね」の内容バージョン順番をSlice4に設置してもよい。
S220、ローカル文識別子と、ローカル文識別子に対応するローカル内容バージョン順番とを読み取る。
本実施例では、クライアント端末は、ローカルの第1の予め設定された記憶空間からローカル文識別子を読み取ることができ、ローカルの第2の予め設定された記憶空間からローカル内容バージョン順番を読み取ることができる。ここで、第1の予め設定された記憶空間のサイズが、文識別子を記憶したり、内容バージョン順番を記憶したりすることを満たすことができる場合、第1の予め設定された記憶空間を同時に第2の予め設定された記憶空間として使用することができる。
S230、受信された文識別子がローカル文識別子と同じであり、受信された内容バージョン順番がローカル内容バージョン順番の後に並んでいる場合、文字内容を利用して既に表示されたローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新する。
本実施例では、クライアント端末のローカル文識別子のうち、受信された文識別子と同じである文識別子が存在し、受信された内容バージョン順番が同じローカル文識別子のローカル内容バージョン順番(ローカル内容バージョン順番に等しいものを含まなくてもよい)の後に並んでいる場合、前に受信された同じ文識別子文字内容は、今回受信された文字内容と同一の文のオーディオデータに対応し、そして今回受信された文字内容は、前回受信された文字内容の変換手順よりも後であると考えられる。この時、クライアント端末は、文字内容を利用して既に表示された同じローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新することができる。
なお、クライアント端末により受信された文識別子がローカル文識別子と同じであり、受信された内容バージョン順番がローカル内容バージョン順番の前に並んでいる場合、ローカル文識別子とローカル内容バージョン順番に対応する字幕内容に対して更新を行わなくてもよい。例示的には、クライアント端末が、内容バージョン順番がSlice4である「今日はいい天気ですね」を受信して字幕動的更新表示を行った後、Slice3に対応する「今日はいい天気」を受信するとし、Slice3がSlice4の前に並んでいるため、この時「今日はいい天気ですね」を「今日はいい天気」で更新せず、更新エラーの状況を回避する。
S240、受信された内容バージョン順番を利用してローカル文識別子に対応するローカル内容バージョン順番を更新する。
ここで、クライアント端末は、各文識別子に対して、受信されたこの文識別子に対応する1番目の内容バージョン順番を第2の予め設定された記憶空間に記憶し、この文識別子に対応する2番目の内容バージョン順番を受信すると、第2の予め設定された記憶空間からこの文識別子に対応する全ての内容バージョン順番をローカル内容バージョン順番として読み取ることができる。2番目の内容バージョン順番が全てのローカル内容バージョン順番の後に並んでいる場合、ローカル内容バージョン順番を更新するために、2番目の内容バージョン順番を第2の予め設定された記憶空間に追加することができ、2番目の内容バージョン順番がいずれか1つのローカル内容バージョン順番(ローカル内容バージョン順番に等しいものを含んでもよい)の前に並んでいる場合、ローカル内容バージョン順番は、更新されない。クライアント端末は、その後にこの文識別子に対応する内容バージョン順番を受信するたびに、上記操作を繰り返して、ローカル内容バージョン順番操作を更新又は更新しない操作を実現することができる。
本開示の実施例の技術案によれば、クライアント端末は、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信すると同時に、文識別子に対応する内容バージョン順番を受信し、そして文識別子及びその対応する内容バージョン順番を利用して文字内容の字幕表示を行うこともできる。受信された文識別子がローカル文識別子と同じである場合、配列順位が後ろである内容バージョン順番を利用して配列順位が前である内容バージョン順番に対応する文字内容を更新することによって、配列順位が前である文字内容が、ネットワーク遅延などの原因により後にクライアント端末に送信される時に、配列順位が前である文字内容を利用して配列順位が後ろである文字内容を更新することによる字幕更新エラーの状況を効果的に回避することができ、さらに字幕表示効果を向上させる。
実施例3
図3は、本開示の実施例3による情報処理方法のフローチャートである。本実施例は、上記実施例による各情報処理方法の選択的な技術案と組み合わせてもよい。本実施例による情報処理方法は、受信された文字内容と文識別子が少なくとも2組である場合の字幕動的表示方法を最適化しており、複数の字幕を同時に動的に更新することを実現することができ、さらに字幕表示効果を向上させる。
図3に示すように、本実施例による情報処理方法は、以下のステップを含む。
S310、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信し、ここで、受信された文字内容と文識別子が少なくとも2組である。
本開示の実施例では、サービスサーバは、字幕オン要求に基づいて、ストリーミングサーバからこのクライアント端末及びこのクライアント端末とインタラクション通信を行う他のクライアント端末のうちの少なくとも2つのクライアント端末が同時にアップロードした少なくとも2つのオーディオデータ(つまり2つ以上の話者の発話が同時に存在する)を引き出すことができ、そして、少なくとも2つのオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容をそれぞれ取得し、及び少なくとも2つの現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新し、現在変換待ちのオーディオデータが少なくとも2つであれば、少なくとも2つのオーディオデータのために文識別子をそれぞれ設置することができ、そのうちの1つの変換が完了した時に文識別子更新マークを設置し、文識別子更新マークに基づいて更新する必要がないと考えられる。この時、クライアント端末は、サービスサーバにより同時又は交替に送信された少なくとも2組の文字内容と文識別子を受信することができ、さらに少なくとも2組の文字内容と文識別子に基づいて少なくとも2つの字幕を同時に動的に更新して表示することができる。
S320、ローカル文識別子を読み取り、受信された少なくとも2つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しているか否かを判断する。
本実施例では、ローカル文識別子の数は、少なくとも1つであってもよく、受信された少なくとも2つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しているか否かを判断し、つまり、受信された少なくとも2つの文識別子とローカル文識別子との積集合が存在しているか否かを判断する。
S330、もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新し、異なる文識別子に対応する文字内容を新たな字幕内容として表示する。
本実施例では、クライアント端末により受信された少なくとも2つの文識別子とローカル文識別子のうち、同じ文識別子が存在し、且つ同じ文識別子数が、少なくとも1つであってもよい場合、受信された文字内容には既に表示された字幕内容を更新する文字内容が存在すると考えられ、受信された同じ文識別子に対応する文字内容を利用して既に表示された同じローカル文識別子に対応する字幕内容を更新することができる。同時に、受信されたローカル文識別子と異なる文識別子に対応する文字内容を新たな字幕内容として表示することができる。それによって、例えば前の話者の発話が完了していない時、新たな話者の発話が開始し、形成される少なくとも2つの話者の発話の場合に、複数の字幕の同時更新表示を行うことを実現する。
S340、もしそうでなければ、受信された少なくとも2つの文字内容をそれぞれ新たな少なくとも2つの字幕内容として表示する。
本実施例では、クライアント端末により受信された少なくとも2つの文識別子とローカル文識別子のうち、同じ文識別子が存在しない場合、受信された文字内容と既に表示された字幕内容は、いずれも同一の文に属さないと考えられ、この時、受信された少なくとも2つの文字内容をそれぞれ新たな少なくとも2つの字幕内容として表示することができる。それによって、例えば前の話者の発話が完了した時、少なくとも2つの新たな話者の発話が同時に開始し、形成される少なくとも2つの話者の発話の場合に、複数の字幕の同時更新表示を行うことを実現する。
S350、受信された少なくとも2つの文識別子をいずれも新たなローカル文識別子とする。
本実施例では、受信された少なくとも2つの文識別子とローカル文識別子のうち、同じ文識別子が存在する場合、ローカル文識別子と異なる文識別子を第1の予め設定された記憶空間に追加して、受信された少なくとも2つの文識別子をいずれも新たなローカル文識別子とすることができる。受信された少なくとも2つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しない場合、受信された少なくとも2つの文識別子を第1の予め設定された記憶空間に同時に追加して、受信された少なくとも2つの文識別子をいずれも新たなローカル文識別子とすることができる。
本開示の実施例の技術案によれば、受信された文字内容と文識別子が少なくとも2組である場合、クライアント端末は、ローカル文識別子を読み取った後、受信された少なくとも2つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しているか否かを判断し、もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新し、異なる文識別子に対応する文字内容を新たな字幕内容として表示し、もしそうでなければ、受信された少なくとも2つの文字内容をそれぞれ新たな少なくとも2つの字幕内容として表示し、受信された少なくとも2つの文識別子をいずれも新たなローカル文識別子とする。複数の字幕を同時に動的に更新することを実現することができ、さらに字幕表示効果を向上させる。
実施例4
図4は、本開示の実施例4による情報処理システムの構造概略図である。本実施例による情報処理システムは、サービスサーバとクライアント端末との間の相互協力により、リアルタイムインタラクションシーンで、サービスサーバがインタラクションオーディオデータの引き出し、オーディオデータ変換の文字内容の取得及び文字内容に対応する文識別子の生成を実現することができ、クライアント端末は、受信されたサービスサーバにより送信された文字内容と文識別子に基づいて字幕内容の動的更新表示を行う。本開示の実施例による情報処理システムにおいて、本開示の任意の実施例による情報処理方法と同じ発明構想に属し、開示されていない技術詳細は、上記実施例を参照することができ、且つ上記実施例と同じである有益な効果に達することができる。
図4に示すように、本実施例による情報処理システムは、
クライアント端末420により送信された字幕オン要求に応答してオーディオデータを引き出し、オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新するためのサービスサーバ410と、
サービスサーバ410により送信された文字内容及び文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新するためのクライアント端末420と、を含む。
本開示の実施例では、クライアント端末により送信された字幕オン要求において、このクライアント端末の身分をキャラクタリゼーションする識別子又はこのクライアント端末が位置する会議室、ライブ配信ルームなどのリアルタイムインタラクション房間をキャラクタリゼーションする識別子が付帯されてもよく、サービスサーバは、上記識別子に基づいてストリーミングサーバからこのクライアント端末及びこのクライアント端末とインタラクション通信を行う他のクライアント端末によりアップロードされたオーディオデータを引き出すことができる。
ここで、サービスサーバは、オーディオデータをリアルタイム音声変換ツールに送信して、リアルタイム音声変換ツールがASR技術に基づき、オーディオデータに対して断文を行い、文ごとに対応するオーディオデータを決定することができ、現在変換待ちの一文に対応するオーディオデータを現在変換待ちのオーディオデータとして、現在変換待ちのオーディオデータに対して中間変換結果を出力できる文字変換操作を行うこともできる。サービスサーバは、リアルタイム音声変換ツールから、現在変換待ちのオーディオデータから変換された文字内容を取得し、取得された文字内容は、現在変換待ちのオーディオデータ変換過程における文字内容と、変換済みの文字内容とを含む。
ここで、サービスサーバが文字内容を取得した後、さらにこの文字内容のために文識別子を設置してもよく、この文識別子は、具体的なリアルタイムインタラクションシーンにおける文ごとに対応するオーディオデータを一意に識別することができ、かつアルファベット、文字、数字及び特殊記号などの少なくとも1つのエレメントから構成されてもよい。サービスサーバが文字内容に対応する文識別子を設置する過程は、現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新することであってもよい。サービスサーバは、文字内容の文識別子を文字内容とともにこのクライアント端末に送信することができる。
ここで、サービスサーバが文識別子を設置する一実施の形態では、例えば、現在変換待ちのオーディオデータが、文字変換が完了した時に、文識別子の更新マークを設置し、新たな現在変換待ちのオーディオデータの文字変換過程における文字内容を取得した時、更新マークに基づいて文識別子を更新し、文識別子の更新が完了した時に更新マークをキャンセルすることであってもよい。なお、新たな現在変換待ちのオーディオデータの文字変換過程における後変換の文字内容を取得した時に、この文識別子を更新する必要はない。なお、新たな現在変換待ちのオーディオデータに対応する文字内容も変換済みである文字内容を取得する時、更新マークに基づいて文識別子を更新し、この更新マークを保留してもよい。
ここで、字幕オン要求を送信するクライアント端末が複数である場合、サービスサーバは、各クライアント端末により送信された字幕オン要求を受信した後、各クライアント端末に対して、あるクライアント端末から要求された最初の文字内容を取得した時、このクライアント端末の初期の文識別子を生成し、後に取得されたこのクライアント端末から要求された文字内容に基づいて、文字内容の文識別子を設置することができる。サービスサーバは、各クライアント端末とこのクライアント端末に対応する文識別子との間の関係を維持することができ、サービスサーバが複数のクライアント端末のために字幕表示サービス機能を同時に提供することを確保するために各クライアント端末に対応する文識別子を対応するクライアント端末に送信することができると考えられる。
ここで、クライアント端末は、初回に受信された文識別子をローカルの第1の予め設定された記憶空間に記憶することができ、文識別子を2回目に受信すると、この第1の予め設定された記憶空間から読み取られた全ての文識別子をローカル文識別子とすることができ、2回目に受信された文識別子がローカル文識別子のうちのいずれか1つの文識別子と同じである場合、ローカル文識別子は、更新されない。2回目に受信された文識別子がローカル文識別子における各文識別子といずれも異なる場合、ローカル文識別子を更新するために、2回目に受信された文識別子を第1の予め設定された記憶空間に追加することができる。クライアント端末は、その後に文識別子を受信するたびに、上記操作を繰り返して、ローカル文識別子を更新又は更新しない操作を実現することができる。
ここで、クライアント端末は、サービスサーバにより送信された文字内容と文識別子を受信した後、第1の予め設定された記憶空間からローカル文識別子を読み取ることができる。クライアント端末により受信された文識別子がローカル文識別子と同じである場合、クライアント端末により前に受信された同じ文識別子文字内容は、今回受信された文字内容と同一の文のオーディオデータに対応すると考えられる。この時、クライアント端末は、受信された文字内容を利用して既に表示された受信された文識別子と同じローカル文識別子に対応する字幕内容を更新することができる。なお、クライアント端末により受信された文識別子がローカル文識別子と異なる場合、クライアント端末により前に受信された文字内容は、今回受信された文字内容と異なる文のオーディオデータから変換された文字内容であると考えられ、この時、クライアント端末は、受信された文字内容を新たな字幕内容として表示し、受信された文識別子を利用してローカル文識別子を更新することができる。ここで、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新することは、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を置き換えることを含む。
選択的に、サービスサーバは、文字内容の現在変換待ちのオーディオデータの文字変換過程における変換手順に基づき、文識別子に対応する内容バージョン順番を生成するためにさらに用いられ、
それに応じて、クライアント端末は、ローカル文識別子に対応するローカル内容バージョン順番を読み取り、受信された文識別子がローカル文識別子と同じであり、受信された内容バージョン順番がローカル内容バージョン順番の後に並んでいる場合、文字内容を利用して既に表示されたローカル文識別子とローカル内容バージョン順番に対応する字幕内容を置き換え、受信された内容バージョン順番を利用してローカル文識別子に対応するローカル内容バージョン順番を更新するためにさらに用いられる。
本実施例では、サービスサーバは、文字内容のために文識別子を設置すると同時に、文識別子に対応する内容バージョン順番を設置することもできる。サービスサーバが内容バージョン順番を設置する実施の形態では、例えば、文字内容の現在変換待ちのオーディオデータの文字変換過程における変換手順に基づいて文識別子に対応する内容バージョン順番を生成することであってもよい。現在変換待ちのオーディオデータの変換の文字内容の文識別子は、一致しており、そして文字変換過程において今回変換の文字内容が位置する変換手順に基づいて今回変換の文字内容の内容バージョン順番を生成することができると考えられる。
ここで、クライアント端末は、各文識別子に対して、受信されたこの文識別子に対応する1番目の内容バージョン順番を第2の予め設定された記憶空間に記憶し、この文識別子に対応する2番目の内容バージョン順番を受信すると、第2の予め設定された記憶空間からこの文識別子に対応する全ての内容バージョン順番をローカル内容バージョン順番として読み取ることができる。2番目の内容バージョン順番が全てのローカル内容バージョン順番の後に並んでいる場合、ローカル内容バージョン順番を更新するために、2番目の内容バージョン順番を第2の予め設定された記憶空間に追加することができ、2番目の内容バージョン順番がいずれか1つのローカル内容バージョン順番(ローカル内容バージョン順番に等しいものを含んでもよい)の前に並んでいる場合、ローカル内容バージョン順番は、更新されない。クライアント端末は、その後にこの文識別子に対応する内容バージョン順番を受信するたびに、上記操作を繰り返して、ローカル内容バージョン順番操作を更新又は更新しない操作を実現することができる。
ここで、クライアント端末のローカル文識別子のうち、受信された文識別子と同じである文識別子が存在し、受信された内容バージョン順番が同じローカル文識別子のローカル内容バージョン順番(ローカル内容バージョン順番に等しいものを含まなくてもよい)の後に並んでいる場合、前に受信された同じ文識別子文字内容は、今回受信された文字内容と同一の文のオーディオデータに対応し、そして今回受信された文字内容は、前回受信された文字内容の変換手順よりも後であると考えられる。この時、クライアント端末は、文字内容を利用して既に表示された同じローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新することができる。なお、クライアント端末により受信された文識別子がローカル文識別子と同じであり、受信された内容バージョン順番がローカル内容バージョン順番の前に並んでいる場合、ローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新しなくてもよい。
本開示の実施例による情報処理システムは、サービスサーバがクライアント端末により送信された字幕オン要求に応答してオーディオデータを引き出し、オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新し、クライアント端末に受信された文字内容と文識別子に基づいて字幕内容の動的更新表示を行わせる。サービスサーバは、現在変換待ちのオーディオデータが文字内容に変換される過程において得られた異なる文字内容をいずれも同一の文識別子に設置することによって、同一の現在変換待ちのオーディオデータに対して、その後に受信された文字内容を利用して既に表示された字幕内容を更新するようにクライアント端末に指示することができる。サービスサーバが同一の文のオーディオデータ変換の文字内容を送信する過程において、クライアント端末は、この文の最初の中間変換結果を受信した時に字幕表示を行い、この文の後の中間変換結果を受信した時に、この文に対応する字幕内容を動的に更新することを実現することができ、文ごとに動的字幕表示を行うことを実現するだけでなく、文ごとの字幕表示の遅延時間をさらに減らし、ユーザ体験を向上させる。
なお、サービスサーバは文識別子を更新すると同時に、クライアント端末が内容バージョン順番配列順位が後ろである文字内容にさらに基づいて配列順位が前である文字内容を更新するために、文識別子に対応する内容バージョン順番を更新することができ、配列順位が前である文字内容が、ネットワーク遅延などの原因により後にクライアント端末に送信される時に、配列順位が前である文字内容を利用して配列順位が後ろである文字内容を更新することによる字幕更新エラーの状況を効果的に回避することができる。
実施例5
本実施例は、上記実施例による情報処理システムの各選択的な技術案と組み合わせてもよい。本実施例による情報処理システムは、文字内容と文識別子が少なくとも2組である場合の字幕動的表示を最適化しており、クライアント端末が複数の字幕を同時に動的に更新することを実現することができ、さらに字幕表示効果を向上させる。
本実施例による情報処理システムにおいて、サービスサーバは、
字幕オン要求に応答して少なくとも2つのオーディオデータを引き出し、少なくとも2つのオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び少なくとも2つの現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新するために用いられ、
それに応じて、クライアント端末は、
受信された文字内容と文識別子が少なくとも2組である場合、ローカル文識別子を読み取り、受信された少なくとも2つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しているか否かを判断し、
もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を置き換え、異なる文識別子に対応する文字内容を新たな字幕内容として表示し、
もしそうでなければ、受信された少なくとも2つの文字内容をそれぞれ新たな少なくとも2つの字幕内容として表示し、
受信された少なくとも2つの文識別子をいずれも新たなローカル文識別子とするために用いられる。
本開示の実施例では、サービスサーバは、字幕オン要求に基づいて、ストリーミングサーバからこのクライアント端末及びこのクライアント端末とインタラクション通信を行う他のクライアント端末のうちの少なくとも2つのクライアント端末が同時にアップロードした少なくとも2つのオーディオデータ(つまり2つ以上の話者の発話が同時に存在する)を引き出すことができ、そして、少なくとも2つのオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容をそれぞれ取得し、及び少なくとも2つの現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新し、現在変換待ちのオーディオデータが少なくとも2つであれば、少なくとも2つのオーディオデータのために文識別子をそれぞれ設置することができ、そのうちの1つの変換が完了した時に文識別子更新マークを設置し、文識別子更新マークに基づいて更新する必要がないと考えられる。この時、クライアント端末は、サービスサーバにより同時又は交替に送信された少なくとも2組の文字内容と文識別子を受信することができ、さらに少なくとも2組の文字内容と文識別子に基づいて少なくとも2つの字幕を同時に動的に更新して表示することができる。
本実施例では、クライアント端末により受信された少なくとも2つの文識別子とローカル文識別子のうち、同じ文識別子が存在し、且つ同じ文識別子数が、少なくとも1つであってもよい場合、受信された文字内容には既に表示された字幕内容を更新する文字内容が存在すると考えられ、受信された同じ文識別子に対応する文字内容を利用して既に表示された同じローカル文識別子に対応する字幕内容を更新することができる。同時に、受信されたローカル文識別子と異なる文識別子に対応する文字内容を新たな字幕内容として表示することができる。それによって、例えば前の話者の発話が完了していない時、新たな話者の発話が開始し、形成される少なくとも2つの話者の発話の場合に、複数の字幕の同時更新表示を行うことを実現する。
クライアント端末により受信された少なくとも2つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しない場合、受信された文字内容と既に表示された字幕内容は、いずれも同一の文に属さないと考えられ、この時、受信された少なくとも2つの文字内容をそれぞれ新たな少なくとも2つの字幕内容として表示することができる。それによって、例えば前の話者の発話が完了した時、少なくとも2つの新たな話者の発話が同時に開始し、形成される少なくとも2つの話者の発話の場合に、複数の字幕の同時更新表示を行うことを実現する。
本実施例では、受信された少なくとも2つの文識別子とローカル文識別子のうち、同じ文識別子が存在する場合、ローカル文識別子と異なる文識別子を第1の予め設定された記憶空間に追加して、受信された少なくとも2つの文識別子をいずれも新たなローカル文識別子とすることができる。受信された少なくとも2つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しない場合、受信された少なくとも2つの文識別子を第1の予め設定された記憶空間に同時に追加して、受信された少なくとも2つの文識別子をいずれも新たなローカル文識別子とすることができる。
本開示の実施例による情報処理システムは、サービスサーバがクライアント端末により送信された字幕オン要求に応答して少なくとも2つのオーディオデータを引き出し、少なくとも2つのオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び少なくとも2つの現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新し、クライアント端末に受信された少なくとも2組の文字内容と文識別子に基づいて複数の字幕内容の同時動的更新表示を行わせることができる。
実施例6
図5は、本開示の実施例6による情報処理システムの構造概略図である。本実施例は、上記実施例による情報処理システムにおける各選択的な技術案と組み合わせてもよい。本実施例による情報処理システムは、ストリーミング通信を行うクライアント端末によりアップロードされたオーディオデータを受信するためのストリーミングサーバをさらに含んでもよく、それに応じて、サービスサーバは、具体的に、クライアント端末により送信された字幕オン要求に応答して、ストリーミングサーバからオーディオデータを引き出すために用いられる。本実施例による情報処理システムは、サービスサーバにより送信されたオーディオデータを受信し、オーディオデータの現在変換待ちのオーディオデータを決定し、現在変換待ちのオーディオデータの文字変換過程における文字内容をフィードバックするためのリアルタイム音声変換ツールをさらに含んでもよく、それに応じて、サービスサーバは、具体的に、リアルタイム音声変換ツールによりフィードバックされたオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を受信するために用いられる。ストリーミングサーバによって、各クライアント端末によりアップロードされたオーディオデータに対する記憶を実現することができ、リアルタイム音声変換ツールによって、オーディオデータを文字内容にリアルタイムで変換して中間変換結果を出力することを実現することができる。
図5に示すように、本実施例による情報処理システムは、ストリーミングサーバ510、クライアント端末520、サービスサーバ530、及びリアルタイム音声変換ツール540を含み、
ストリーミングサーバ510は、ストリーミング通信を行うクライアント端末520によりアップロードされたオーディオデータを受信することに用いられ、
サービスサーバ530は、クライアント端末520により送信された字幕オン要求に応答して、ストリーミングサーバ510からオーディオデータを引き出すことに用いられ、
リアルタイム音声変換ツール540は、サービスサーバ530により送信されたオーディオデータを受信し、オーディオデータの現在変換待ちのオーディオデータを決定し、現在変換待ちのオーディオデータの文字変換過程における文字内容をフィードバックすることに用いられ、
サービスサーバ530は、さらに、リアルタイム音声変換ツール540によりフィードバックされたオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を受信し、及び現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新することに用いられ、
クライアント端末520は、サービスサーバ530により送信された文字内容及び文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新することに用いられる。
本開示の実施例では、他のクライアント端末とリアルタイムインタラクション通信を行う任意のクライアント端末は、いずれもインタラクション通信過程においてストリーミングソフトウェア開発キット(Software Development Kit、SDK)を介してストリーミングサーバと通信を確立することができ、確立した通信によって、オーディオストリームを含むマルチメディアデータをストリーミングサーバに伝送することができる。サービスサーバは、同様に、ストリーミングSDKによってストリーミングサーバから各字幕オン要求のオーディオストリームを引き出すことができ、サービスサーバは、サービスサーバローカルによる、又はサービスサーバと通信を確立した第三方によるリアルタイム音声変換ツールとインタラクションし、オーディオデータの送信、及び文字内容の取得を実現することができる。サービスサーバは、文字内容及び文字内容の文識別子をクライアント端末に送信するためにクライアント端末とロングリンクを確立することもできる。
選択的に、字幕オン要求には、要求字幕言語の種類が付帯されている。それに応じて、サービスサーバは、要求字幕言語の種類に基づいて取得された文字内容を翻訳し、翻訳済みの文字内容をクライアント端末に送信するためにさらに用いられる。
ここで、クライアント端末がサーバに送信した字幕オン要求において、要求字幕言語の種類、つまりクライアント端末が見たい字幕言語の種類が付帯されてもよい。サービスサーバは、文字内容を送信する前、対応するクライアント端末から要求された字幕言語の種類に基づいて文字内容を翻訳することができる。例えばユーザが母語の異なる他のユーザとリアルタイムインタラクションを行うようなシーンで、各ユーザ間で字幕表示によってインタラクション効率を促進するのに有利であり、ユーザ体験を向上させる。
選択的に、字幕オン要求には、第1の身分識別子が付帯されている。それに応じて、サービスサーバは、具体的に、クライアント端末及び第1の身分識別子と通信関係を確立する第2の身分識別子に対応するクライアント端末によりアップロードされたオーディオデータを引き出し、及び引き出されたオーディオデータの身分識別子を取得するために用いられ、それに応じて、クライアント端末は、具体的に、サービスサーバにより送信された身分識別子を受信し、字幕内容を表示すると同時に身分識別子を表示するために用いられる。
ここで、クライアント端末がサーバに送信した字幕オン要求において、第1の身分識別子が付帯されてもよい。サービスサーバでは、各身分識別子の間で確立された通信関係を維持することができ、この第1の身分識別子に基づいて、それと通信関係を確立する第2の身分識別子を照会することができ、さらにクライアント端末及び第1の身分識別子と通信関係を確立する第2の身分識別子に対応するクライアント端末によりアップロードされたオーディオデータを引き出すことができる。そして、サービスサーバは、オーディオデータを引き出しながら、引き出されたオーディオデータの身分識別子(例えばニックネーム又はアバターなど)をストリーミングサーバから取得し、身分識別子を対応するオーディオデータ変換の文字内容とともにクライアント端末に送信することができ、字幕内容を表示させると同時に、字幕内容に対応する身分識別子を表示させ、ユーザが話者身分と話者の発話内容を同時に了解することを容易にし、ユーザ体験を向上させる。
本開示の実施例による情報処理システムは、ストリーミングサーバ及び/又はリアルタイム音声変換ツールをさらに含み、各クライアント端末によりアップロードされたオーディオデータに対する記憶をそれぞれ実現し、及びオーディオデータを文字内容にリアルタイムで変換して中間変換結果を出力することができる。なお、サービスサーバは、受信された字幕オン要求に付帯される字幕言語の種類に基づいて、取得された文字内容を翻訳し、翻訳済みの文字内容をクライアント端末に送信することもでき、それによってクライアント端末が要求言語の種類を表示することを実現し、ユーザ体験を向上させる。さらに、サービスサーバは、引き出されたオーディオデータの身分識別子をクライアント端末に送信することもでき、それによってクライアント端末が話者身分を表示することを実現し、ユーザ体験を向上させる。
実施例7
本実施例による情報処理方法は、
サービスサーバからの第1の文字内容及び第1の文字内容の第1の文識別子を受信するステップと、
第1の文字内容を表示するステップと、
サービスサーバからの第2の文字内容及び第2の文字内容の第2の文識別子を受信するステップと、
第2の文識別子が第1の文識別子と同じである場合、第2の文字内容を表示して第1の文字内容を更新するステップと、を含む。
選択的に、サービスサーバからの第1の文字内容及び第1の文字内容の第1の文識別子を受信するステップと同時に、
サービスサーバからの第1の文識別子に対応する第1の内容バージョン順番を受信するステップをさらに含み、
サービスサーバからの第2の文字内容及び第2の文字内容の第2の文識別子を受信するステップと同時に、
サービスサーバからの第2の文識別子に対応する第2の内容バージョン順番を受信するステップをさらに含み、
それに応じて、第2の文識別子が第1の文識別子と同じである場合、第2の文字内容を表示して第1の文字内容を更新するステップは、
第2の文識別子が第1の文識別子と同じであり、且つ第2の内容バージョン順番が第1の内容バージョン順番の後に並んでいる場合、第2の文字内容を表示して第1の文字内容を更新するステップを含む。
第1の文字内容を表示するステップは、
サービスサーバからの文字内容に対して字幕表示を行うための第1の表示コントロールに第1の文字内容を表示するステップを含む。
選択的に、第2の文字内容を表示して第1の文字内容を更新するステップは、
第1の表示コントロールに第2の文字内容を表示して第1の文字内容を置き換えるステップを含む。
選択的に、第2の文字内容を表示して第1の文字内容を更新するステップは、
第1の表示コントロールに、第1の文字内容と第2の文字内容の区分内容に基づいて更新された文字内容を表示するステップを含む。
選択的に、この方法は、
第2の文識別子が第1の文識別子と異なる場合、サービスサーバからの文字内容を表示するための第2の表示コントロールに第2の文字内容を表示するステップをさらに含む。
選択的に、サービスサーバからの第1の文字内容及び第1の文字内容の第1の文識別子を受信するステップの前に、この方法は、
サービスサーバに字幕オン要求を送信するステップをさらに含む。
選択的に、字幕オン要求は、クライアント端末をキャラクタリゼーションする身分識別子又はクライアント端末が位置する場所をキャラクタリゼーションする識別子を含む。
選択的に、字幕オン要求は、文字内容の言語の種類情報を含む。
本開示の実施例による情報処理方法は、本開示の任意の実施例に適用されることができる。
実施例8
図6は、本開示の実施例8による情報処理装置の構造概略図である。本実施例による情報処理装置は、クライアント端末に適用され、クライアント端末がリアルタイムインタラクションシーンで字幕表示を行う場合に特に適用される。
図6に示すように、本実施例による情報処理装置は、クライアント端末に適用され、
サービスサーバにより送信された文字内容及び文字内容の文識別子を受信するための受信モジュール610と、
ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新するための表示モジュール620と、を含む。
上記各技術案に基づき、受信モジュールは、サービスサーバにより送信された文字内容及び文字内容の文識別子を受信すると同時に、サービスサーバにより送信された文識別子に対応する内容バージョン順番を受信するためにさらに用いられ、
それに応じて、表示モジュールは、具体的に、
ローカル文識別子と、ローカル文識別子に対応するローカル内容バージョン順番とを読み取り、
受信された文識別子がローカル文識別子と同じであり、受信された内容バージョン順番がローカル内容バージョン順番の後に並んでいる場合、文字内容を利用して既に表示されたローカル文識別子とローカル内容バージョン順番に対応する字幕内容を更新し、
受信された内容バージョン順番を利用してローカル文識別子に対応するローカル内容バージョン順番を更新するために用いられる。
上記各技術案に基づき、表示モジュールは、受信された文識別子がローカル文識別子と異なる場合、文字内容を新たな字幕内容として表示し、受信された文識別子を利用してローカル文識別子を更新するためにさらに用いられる。
上記各技術案に基づき、受信された文字内容と文識別子が少なくとも2組である場合、表示モジュールは、具体的に、
ローカル文識別子を読み取り、受信された少なくとも2つの文識別子のうち、ローカル文識別子と同じである文識別子が存在しているか否かを判断し、
もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新し、異なる文識別子に対応する文字内容を新たな字幕内容として表示し、
もしそうでなければ、受信された少なくとも2つの文字内容をそれぞれ新たな少なくとも2つの字幕内容として表示し、
受信された少なくとも2つの文識別子をいずれも新たなローカル文識別子とするために用いられる。
上記各技術案に基づき、表示モジュールは、具体的に、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を置き換えるために用いられる。
上記各技術案に基づき、クライアント端末は、リアルタイムインタラクションアプリケーションのクライアント端末であり、且つリアルタイムインタラクションアプリケーションは、インスタントメッセンジャーアプリケーションと、マルチメディア会議アプリケーションと、ビデオライブアプリケーションと、グループチャットインタラクションアプリケーションとのうちの少なくとも1つを含む。
本開示の実施例による情報処理装置は、本開示の任意の実施例によるクライアント端末に適用される情報処理方法を実行することができ、方法を実行することに該当する機能モジュールと有益な効果を備える。
なお、上記装置に含まれる各ユニットとモジュールは、機能論理に基づいて区分されているだけであるが、上記の区分に限定されるものではなく、該当する機能を実現できればよい。また、各機能ユニットの具体的な名称も相互に区別しやすいようにするためであり、本開示の実施例の保護範囲を制限するために使用されない。
実施例9
以下、図7を参照すると、それは、本開示の実施例を実現するのに適する電子機器(例えば図7における端末機器又はサーバ)700の構造概略図を示す。本開示の実施例における端末機器は、例えば携帯電話、ノートパソコン、デジタルブロードキャスト受信器、PDA(パーソナルデジタルアシスタント)、PAD(タブレットパソコン)、PMP(携帯型マルチメディアプレイヤー)、車載端末(例えば車載ナビゲーション端末)などの移動端末及び、例えばデジタルTV、デスクトップコンピュータなどの固定端末を含んでもよいが、それらに限らない。図7に示される電子機器は、一例に過ぎず、本開示の実施例の機能と使用範囲に任意の制限を与えるべきではない。
図7に示すように、電子機器700は、処理装置(例えば中央プロセッサ、グラフィックスプロセッサなど)701を含んでもよく、それは、リードオンリーメモリ(Read-Only Memory、ROM)702に記憶されるプログラム又は、記憶装置706からランダムアクセスメモリ(Random Access Memory、RAM)703にロードしたプログラムに基づき、様々な適切な動作と処理を実行することができる。RAM 703において、電子機器700の操作に必要な様々なプログラムとデータが記憶されている。処理装置701、ROM 702及びRAM 703は、バス704によって互いに繋がる。入力/出力(I/O)インタフェース705もバス704に接続されている。
通常、例えばタッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロなどを含む入力装置706、例えば液晶ディスプレイ(LCD)、スピーカ、バイブレータなどを含む出力装置707、例えば磁気テープ、ハードディスクなどを含む記憶装置708、及び通信装置709という装置は、I/Oインタフェース705に接続されることができる。通信装置709は、電子機器700が他の機器と無線又は有線通信を行ってデータを交換するように許可することができる。図7において、様々な装置を有する電子機器700が示されているが、理解すべきことは、全ての示される装置を実施し、又は備えるように要求されないことである。より多く又は少ない装置を代替的に実施し、又は備えることができる。
特に、本開示の実施例に基づき、上述した、フローチャートを参照して記述される過程は、コンピュータソフトウェアプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータプログラム製品を含み、それは、非一時的コンピュータ可読媒体に載せられるコンピュータプログラムを含み、このコンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例において、このコンピュータプログラムは、通信装置709によってネットワークからダウンロード及びインストールされ、又は記憶装置706からインストールされ、又はROM702からインストールされることができる。このコンピュータプログラムが処理装置701によって実行される時、本開示の実施例の方法に限定される上記機能を実行する。
本開示の実施例による電子機器は、上記実施例による情報処理方法と同一の開示構想に属し、本実施例に詳細に記述されていない技術詳細は、上記実施例を参照すればよく、且つ本実施例は、上記実施例と同じ有益な効果を有する。
実施例10
本開示の実施例は、コンピュータ記憶媒体を提供し、コンピュータプログラムが記憶されており、このプログラムがプロセッサによって実行される時、上記実施例による情報処理方法を実現させる。
なお、本開示の上記コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体又は上記両方の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は任意の以上の組み合わせであってもよいが、それらに限らない。コンピュータ可読記憶媒体のより具体的な例は、1つ又は複数の導線を有する電気接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(Erasable Programmable Read-Only Memory、EPROM)又はフラッシュメモリ(FLASH(登録商標))、光ファイバ、携帯型コンパクト磁気ディスクリードオンリーメモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含んでもよいが、それらに限らない。本開示において、コンピュータ可読記憶媒体は、プログラムを含み、又は記憶する任意の有形媒体であってもよく、このプログラムは、命令実行システム、装置又はデバイスによって使用され、又はそれと結び付けて使用されてもよい。しかし、本開示において、コンピュータ可読信号媒体は、ベースバンドに含まれてもよく、又はキャリアの一部が伝播されるデータ信号としてもよく、ここで、コンピュータ可読なプログラムコードを載せる。このような伝播するデータ信号は、複数の形式を採用してもよく、電磁信号、光信号又は上記の任意の適切な組み合わせを含むが、それらに限らない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、このコンピュータ可読信号媒体は、命令実行システム、装置又はデバイスによって使用され、又はそれと結び付けて使用されるためのプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適当な媒体で伝送されてもよく、電線、光ケーブル、RF(無線周波数)など、又は上記の任意の適切な組み合わせを含むが、それらに限らない。
いくつかの実施の形態では、クライアント、サーバは、例えばHTTP(Hyper Text Transfer Protocol、ハイパーテキスト伝送プロトコル)のような任意の現在知られているか、又は将来研究開発されるネットワークプロトコルを利用して通信することができ、かつ任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)と相互接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、インターネット(例えば、インターネット)及びエンドツーエンドネットワーク(例えば、ad hocエンドツーエンドネットワーク)、及び任意の現在知られているか、又は将来研究開発されるネットワークを含む。
上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよく、この電子機器に組み込まれずに個別に存在するものであってもよい。
上記コンピュータ可読媒体には、1つ又は複数のプログラムが載せられており、上記1つ又は複数のプログラムがこの電子機器によって実行される時、この電子機器に、
サービスサーバにより送信された文字内容及び文字内容の文識別子を受信させ、
ローカル文識別子を読み取り、受信された文識別子がローカル文識別子と同じである場合、文字内容を利用して既に表示されたローカル文識別子に対応する字幕内容を更新させる。
1つ又は複数のプログラミング言語又はそれらの組み合わせで本開示の操作を実行するためのコンピュータプログラムコードを作成することができ、上記プログラミング言語は、オブジェクト指向のプログラミング言語-例えばJava、Smalltalk、C++を含むが、それらに限らず、一般的なプロシージャプログラミング言語-例えば「C」言語又は類似しているプログラミング言語をさらに含む。プログラムコードは、完全にユーザコンピュータで実行され、部分的にユーザコンピュータで実行され、1つの独立したソフトウェアパッケージとして実行され、部分的にユーザコンピュータで部分的にリモートコンピュータで実行され、又は完全にリモートコンピュータ又はサーバで実行されることができる。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークによってユーザコンピュータに接続されることができ、又は、外部コンピュータに接続されることができる(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続されることができる)。
実施例11
本開示の実施例は、コンピュータプログラム製品をさらに提供し、それは、コンピュータ可読媒体に載せられているコンピュータプログラムを含み、このコンピュータプログラムがプロセッサによって実行されるとき、上記実施例による情報処理方法が実現される。
実施例12
本開示の実施例は、コンピュータプログラムをさらに提供し、それが電子機器で実行される時、上記実施例による情報処理方法を実現させる。
添付図面におけるフローチャートとブロック図は、本開示の様々な実施例のシステム、方法とコンピュータプログラム製品に従って実現可能な体系アーキテクチャ、機能と操作を示す。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント、又はコードの一部を代表することができ、このモジュール、プログラムセグメント、又はコードの一部は、定める論理機能を実現するための1つ又は複数の実行可能命令を含む。置き換えとするいくつかの実現において、ブロックに注記される機能が添付図面に注記される順序と異なる順で発生されることができることに留意すべきである。例えば、2つの連続して表示されるブロックは、実際には基本的に並列に実行されることができ、それらは、関する機能に応じて逆の順序で実行されることもある。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせが、定める機能又は操作を実行する専用のハードウェアのシステムに基づいて実現されてもよく、又は専用のハードウェアとコンピュータ命令との組み合わせで実現されてもよいことに留意すべきである。
本開示の実施例に記述される、関わるユニットは、ソフトウェアの方式で実現されてもよく、ハードウェアの方式で実現されてもよい。ここで、ユニット、モジュールの名称は、ある場合に、このユニット、モジュール自体に対する限定を構成せず、例えば、表示モジュールは、さらに「字幕表示モジュール」として記述されてもよい。
本明細書において上述した機能は、少なくとも部分的に1つ又は複数のハードウェア論理部品によって実行されることができる。例えば、非限定的に、使用可能な例示的なタイプのハードウェア論理部品は、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、専用標準製品(Application Specific Standard Parts、ASSP)、システムオンチップ(System on Chip、SOC)、複雑プログラマブル論理デバイス(CPLD)などを含む。
本開示のコンテキストでは、機器可読媒体は、有形の媒体であってもよく、それは、命令実行システム、装置又は機器が使用し、又は命令実行システム、装置又は機器と組み合わせて使用されるためのプログラムを含み、又は記憶することができる。機器可読媒体は、機器可読信号媒体又は機器可読記憶媒体であってもよい。機器可読媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限らない。機器可読記憶媒体のより具体的な例は、1つ又は複数の線に基づく電気接続、携帯型コンピュータデスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶機器、磁気記憶機器、又は上記内容の任意の適切な組み合わせを含む。
本開示の1つ又は複数の実施例によれば、[例1]は、情報処理方法を提供し、クライアント端末に適用され、この方法は、
サービスサーバにより送信された文字内容及び前記文字内容の文識別子を受信するステップと、
ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するステップと、を含む。
本開示の1つ又は複数の実施例によれば、[例2]は、情報処理方法を提供し、さらに以下を含み、
選択的に、サービスサーバにより送信された文字内容及び前記文字内容の文識別子を受信する前記ステップと同時に、
サービスサーバにより送信された前記文識別子に対応する内容バージョン順番を受信するステップをさらに含み、
それに応じて、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新する前記ステップは、
ローカル文識別子と、前記ローカル文識別子に対応するローカル内容バージョン順番とを読み取るステップと、
受信された文識別子が前記ローカル文識別子と同じであり、受信された内容バージョン順番が前記ローカル内容バージョン順番の後に並んでいる場合、前記文字内容を利用して既に表示された前記ローカル文識別子と、前記ローカル内容バージョン順番に対応する字幕内容とを更新するステップと、
受信された内容バージョン順番を利用してローカル文識別子に対応するローカル内容バージョン順番を更新するステップと、を含む。
本開示の1つ又は複数の実施例によれば、[例3]は、情報処理方法を提供し、
受信された文識別子が前記ローカル文識別子と異なる場合、前記文字内容を新たな字幕内容として表示し、受信された文識別子を利用してローカル文識別子を更新するステップをさらに含む。
本開示の1つ又は複数の実施例によれば、[例4]は、情報処理方法を提供し、さらに以下を含み、
選択的に、受信された文字内容と文識別子が少なくとも2組である場合、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新する前記ステップは、
ローカル文識別子を読み取り、受信された少なくとも2つの文識別子のうち、前記ローカル文識別子と同じである文識別子が存在しているか否かを判断するステップと、
もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新し、異なる文識別子に対応する文字内容を新たな字幕内容として表示するステップと、
もしそうでなければ、受信された少なくとも2つの文字内容をそれぞれ新たな少なくとも2つの字幕内容として表示するステップと、
受信された少なくとも2つの文識別子をいずれも新たなローカル文識別子とするステップと、を含む。
本開示の1つ又は複数の実施例によれば、[例5]は、情報処理方法を提供し、さらに以下を含み、
選択的に、前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新する前記ステップは、
前記文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を置き換えるステップを含む。
本開示の1つ又は複数の実施例によれば、[例6]は、情報処理方法を提供し、さらに以下を含み、
選択的に、前記クライアント端末は、リアルタイムインタラクションアプリケーションのクライアント端末であり、且つ前記リアルタイムインタラクションアプリケーションは、インスタントメッセンジャーアプリケーションと、マルチメディア会議アプリケーションと、ビデオライブアプリケーションと、グループチャットインタラクションアプリケーションとのうちの少なくとも1つを含む。
以上の記述は、本開示の好ましい実施例及び運用される技術原理に対する説明に過ぎない。当業者が、本開示に関する開示範囲が、上記技術的特徴の特定の組み合わせによる技術案に限らず、同時に、上記に開示される構想から逸脱することなく、上記技術的特徴又はそれらの同等の特徴から任意の組み合わせにより形成された他の技術案を含むべきであると理解すべきである。例えば、上記特徴と本開示に開示される(ただし、限らない)類似している機能を有する技術的特徴とが互いに置き換えられて形成される技術案である。
なお、特定の手順で各操作が描かれているが、示される特定の手順又は順序の手順で実行されるようにこれらの操作が要求されると理解すべきではない。一定の環境で、マルチタスクと並行処理が有利である可能性がある。同様に、上記論述に若干の具体的な実現の詳細が含まれるが、これらは、本開示の範囲に対する制限として解釈されるべきではない。個別の実施例のコンテキストに記述されているなんらかの特徴は、単一の実施例に組み合わせて実現されてもよい。逆に、単一の実施例のコンテキストに記述されている様々な特徴は、単独で、又は任意の適切なサブ組み合わせの方式で複数の実施例に実現されてもよい。
構造的特徴及び/又は方法論理動作に固有の言語を採用して本主題を記述しているが、理解すべきことは、添付される特許請求の範囲に限定される主題は、必ずしも上述した特定特徴又は動作に限定されるものではないことである。逆に、上述した特定特徴と動作は、特許請求の範囲を実現する例示的な形式に過ぎない。
本出願は、2020年6月9日に提出された、出願番号が202010518278.3であり、名称が「情報処理方法、システム、装置、電子機器及び記憶媒体」である中国特許出願の優先権を主張しており、この出願の全ては、参照によって本出願に組み込まれる。

Claims (26)

  1. クライアント端末に適用される情報処理方法であって、
    サービスサーバにより送信された文字内容及び受信された文字内容の文識別子を受信するステップと、
    ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、受信された文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新するステップと、
    受信された文識別子が前記ローカル文識別子と異なる場合、受信された文字内容を新たな字幕内容として表示し、受信された文識別子を第1の予め設定された記憶空間に記憶するステップと、を含み、
    受信された文字内容は、現在変換待ちのオーディオデータ変換過程における文字内容又は変換済みの文字内容を含み、
    前記ローカル文識別子は、前記第1の予め設定された記憶空間に記憶し、
    前記字幕内容は、前記クライアント端末が表示するオーディオデータに対応する字幕の文字内容を含み、
    前記文識別子は、対応する文字内容に対応するオーディオデータを示すために識別子を含む、
    ことを特徴とする方法。
  2. 前記サービスサーバにより送信された文字内容及び受信された文字内容の文識別子を受信する前記ステップと同時に、
    前記サービスサーバにより送信された前記受信された文識別子に対応する内容バージョン順番を受信するステップをさらに含み、
    それに応じて、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、受信された文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新する前記ステップは、
    前記ローカル文識別子と、前記ローカル文識別子に対応するローカル内容バージョン順番とを読み取るステップと、
    受信された文識別子が前記ローカル文識別子と同じであり、受信された内容バージョン順番が前記ローカル内容バージョン順番の後に並んでいる場合、受信された文字内容を利用して既に表示された前記ローカル文識別子と、前記ローカル内容バージョン順番に対応する字幕内容とを更新するステップと、
    受信された内容バージョン順番を利用してローカル文識別子に対応するローカル内容バージョン順番を更新するステップと、を含む、ことを特徴とする請求項1に記載の方法。
  3. 受信された文字内容と文識別子が少なくとも2組である場合、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、受信された文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新する前記ステップは、
    前記ローカル文識別子を読み取り、受信された少なくとも2つの文識別子のうち、前記ローカル文識別子と同じである文識別子が存在しているか否かを判断するステップと、
    もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新し、異なる文識別子に対応する文字内容を新たな字幕内容として表示するステップと、
    もしそうでなければ、受信された少なくとも2つの文字内容をそれぞれ新たな少なくとも2つの字幕内容として表示するステップと、
    受信された少なくとも2つの文識別子をいずれも新たなローカル文識別子とするステップと、を含む、ことを特徴とする請求項1又は請求項2に記載の方法。
  4. 受信された文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新する前記ステップは、
    受信された文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を置き換えるステップを含む、ことを特徴とする請求項1からのいずれか1項に記載の方法。
  5. 前記クライアント端末は、リアルタイムインタラクションアプリケーションのクライアント端末であり、且つ前記リアルタイムインタラクションアプリケーションは、インスタントメッセンジャーアプリケーションと、マルチメディア会議アプリケーションと、ビデオライブアプリケーションと、グループチャットインタラクションアプリケーションとのうちの少なくとも1つを含む、ことを特徴とする請求項1から4のいずれか1項に記載の方法。
  6. 情報処理システムであって、
    クライアント端末により送信された字幕オン要求に応答してオーディオデータを引き出し、前記オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び前記現在変換待ちのオーディオデータの変化に基づいて前記文字内容の文識別子を更新するためのサービスサーバと、
    前記サービスサーバにより送信された文字内容及び受信された文字内容の文識別子を受信し、ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、受信された文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新し、受信された文識別子が前記ローカル文識別子と異なる場合、受信された文字内容を新たな字幕内容として表示し、受信された文識別子を第1の予め設定された記憶空間に記憶するための前記クライアント端末と、を含み、
    前記クライアント端末を受信された文字内容は、現在変換待ちのオーディオデータ変換過程における文字内容又は変換済みの文字内容を含み、
    前記ローカル文識別子は、前記第1の予め設定された記憶空間に記憶し、
    前記字幕内容は、前記クライアント端末が表示するオーディオデータに対応する字幕の文字内容を含み、
    前記文識別子は、対応する文字内容に対応するオーディオデータを示すために識別子を含む、
    ことを特徴とするシステム。
  7. 前記サービスサーバは、具体的に、
    現在変換待ちのオーディオデータが、文字変換が完了したときに、前記文識別子の更新マークを設置し、
    新たな現在変換待ちのオーディオデータの文字変換過程における文字内容を取得したとき、前記更新マークに基づいて前記文識別子を更新し、前記文識別子の更新が完了したときに前記更新マークをキャンセルするために用いられる、ことを特徴とする請求項に記載のシステム。
  8. 前記サービスサーバは、
    前記文字内容の前記現在変換待ちのオーディオデータの文字変換過程における変換手順に基づき、前記文識別子に対応する内容バージョン順番を生成するためにさらに用いられ、
    それに応じて、前記クライアント端末は、
    前記ローカル文識別子に対応するローカル内容バージョン順番を読み取り、
    受信された文識別子が前記ローカル文識別子と同じであり、受信された内容バージョン順番が前記ローカル内容バージョン順番の後に並んでいる場合、受信された文字内容を利用して既に表示された前記ローカル文識別子と前記ローカル内容バージョン順番に対応する字幕内容を置き換え、
    受信された内容バージョン順番を利用してローカル文識別子に対応するローカル内容バージョン順番を更新するためにさらに用いられる、ことを特徴とする請求項6又は7に記載のシステム。
  9. 前記サービスサーバは、
    前記字幕オン要求に応答して少なくとも2つのオーディオデータを引き出し、前記少なくとも2つのオーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を取得し、及び少なくとも2つの現在変換待ちのオーディオデータの変化に基づいて文字内容の文識別子を更新するためにさらに用いられ、
    それに応じて、前記クライアント端末は、
    受信された文字内容と文識別子が少なくとも2組である場合、前記ローカル文識別子を読み取り、受信された少なくとも2つの文識別子のうち、前記ローカル文識別子と同じである文識別子が存在しているか否かを判断し、
    もしそうであれば、同じ文識別子に対応する文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を置き換え、異なる文識別子に対応する文字内容を新たな字幕内容として表示し、
    もしそうでなければ、受信された少なくとも2つの文字内容をそれぞれ新たな少なくとも2つの字幕内容として表示し、
    受信された少なくとも2つの文識別子をいずれも新たなローカル文識別子とするためにさらに用いられる、ことを特徴とする請求項からのいずれか1項に記載のシステム。
  10. 前記字幕オン要求には、要求字幕言語の種類が付帯されており、
    それに応じて、前記サービスサーバは、
    前記要求字幕言語の種類に基づいて取得された文字内容を翻訳し、翻訳済みの文字内容を前記クライアント端末に送信するためにさらに用いられる、ことを特徴とする請求項6から9のいずれか1項に記載のシステム。
  11. 前記字幕オン要求には、第1の身分識別子が付帯されており、
    それに応じて、前記サービスサーバは、具体的に、
    前記クライアント端末、及び前記第1の身分識別子と通信関係を確立する第2の身分識別子に対応するクライアント端末によりアップロードされたオーディオデータを引き出し、及び引き出されたオーディオデータの身分識別子を取得するために用いられ、
    それに応じて、前記クライアント端末は、具体的に、
    前記サービスサーバにより送信された身分識別子を受信し、前記字幕内容を表示すると同時に前記身分識別子を表示するために用いられる、ことを特徴とする請求項6から10のいずれか1項に記載のシステム。
  12. ストリーミング通信を行うクライアント端末によりアップロードされたオーディオデータを受信するためのストリーミングサーバをさらに含み、
    それに応じて、前記サービスサーバは、具体的に、
    前記字幕オン要求に応答して、前記ストリーミングサーバからオーディオデータを引き出すために用いられる、ことを特徴とする請求項6から11のいずれか1項に記載のシステム。
  13. 前記サービスサーバにより送信されたオーディオデータを受信し、前記オーディオデータの現在変換待ちのオーディオデータを決定し、前記現在変換待ちのオーディオデータの文字変換過程における文字内容をフィードバックするためのリアルタイム音声変換ツールをさらに含み、
    それに応じて、前記サービスサーバは、具体的に、
    前記リアルタイム音声変換ツールによりフィードバックされた前記オーディオデータのうち、現在変換待ちのオーディオデータの文字変換過程における文字内容を受信するために用いられる、ことを特徴とする請求項6から12のいずれか1項に記載のシステム。
  14. クライアント端末に適用される情報処理装置であって、
    サービスサーバにより送信された文字内容及び受信された文字内容の文識別子を受信するための受信モジュールと、
    ローカル文識別子を読み取り、受信された文識別子が前記ローカル文識別子と同じである場合、受信された文字内容を利用して既に表示された前記ローカル文識別子に対応する字幕内容を更新し、受信された文識別子が前記ローカル文識別子と異なる場合、受信された文字内容を新たな字幕内容として表示し、受信された文識別子を第1の予め設定された記憶空間に記憶するための表示モジュールと、を含
    受信された文字内容は、現在変換待ちのオーディオデータ変換過程における文字内容又は変換済みの文字内容を含み、
    前記ローカル文識別子は、前記第1の予め設定された記憶空間に記憶し、
    前記字幕内容は、前記クライアント端末が表示するオーディオデータに対応する字幕の文字内容を含み、
    前記文識別子は、対応する文字内容に対応するオーディオデータを示すために識別子を含む、ことを特徴とする装置。
  15. 情報処理方法であって、
    サービスサーバからの第1の文字内容及び前記第1の文字内容の第1の文識別子を受信するステップと、
    前記第1の文字内容を表示するステップと、
    前記サービスサーバからの第2の文字内容及び前記第2の文字内容の第2の文識別子を受信するステップと、
    前記第2の文識別子が前記第1の文識別子と同じである場合、前記第2の文字内容を表示して前記第1の文字内容を更新するステップと、を含
    前記文字内容は、現在変換待ちのオーディオデータ変換過程における文字内容又は変換済みの文字内容を含み、
    前記文識別子は、対応する文字内容に対応するオーディオデータを示すために識別子を含む、方法。
  16. サービスサーバからの第1の文字内容及び前記第1の文字内容の第1の文識別子を受信するステップと同時に、
    前記サービスサーバからの前記第1の文識別子に対応する第1の内容バージョン順番を受信するステップをさらに含み、
    サービスサーバからの第2の文字内容及び前記第2の文字内容の第2の文識別子を受信するステップと同時に、
    前記サービスサーバからの前記第2の文識別子に対応する第2の内容バージョン順番を受信するステップをさらに含み、
    それに応じて、前記第2の文識別子が前記第1の文識別子と同じである場合、前記第2の文字内容を表示して前記第1の文字内容を更新する前記ステップは、
    前記第2の文識別子が前記第1の文識別子と同じであり、且つ前記第2の内容バージョン順番が前記第1の内容バージョン順番の後に並んでいる場合、前記第2の文字内容を表示して前記第1の文字内容を更新するステップを含む、ことを特徴とする請求項15に記載の方法。
  17. 前記第1の文字内容を表示する前記ステップは、
    前記サービスサーバからの文字内容に対して字幕表示を行うための第1の表示コントロールに前記第1の文字内容を表示するステップを含む、ことを特徴とする請求項15又は16に記載の方法。
  18. 前記第2の文字内容を表示して前記第1の文字内容を更新する前記ステップは、
    前記第1の表示コントロールに前記第2の文字内容を表示して前記第1の文字内容を置き換えるステップを含む、ことを特徴とする請求項17に記載の方法。
  19. 前記第2の文字内容を表示して前記第1の文字内容を更新する前記ステップは、
    前記第1の表示コントロールに、前記第1の文字内容と前記第2の文字内容の区分内容に基づいて更新された文字内容を表示するステップを含む、ことを特徴とする請求項17に記載の方法。
  20. 前記方法は、
    前記第2の文識別子が前記第1の文識別子と異なる場合、前記サービスサーバからの文字内容を表示するための第2の表示コントロールに前記第2の文字内容を表示するステップをさらに含む、ことを特徴とする請求項17から19のいずれか1項に記載の方法。
  21. サービスサーバからの第1の文字内容及び前記第1の文字内容の第1の文識別子を受信する前記ステップの前に、前記方法は、
    前記サービスサーバに字幕オン要求を送信するステップをさらに含む、ことを特徴とする請求項15から20のいずれか1項に記載の方法。
  22. 前記字幕オン要求は、クライアント端末をキャラクタリゼーションする身分識別子又は前記クライアント端末が位置する場所をキャラクタリゼーションする識別子を含む、ことを特徴とする請求項21に記載の方法。
  23. 前記字幕オン要求は、前記文字内容の言語の種類情報を含む、ことを特徴とする請求項21又は22に記載の方法。
  24. 電子機器であって、
    1つ又は複数のプロセッサと、
    1つ又は複数のプログラムを記憶するための記憶装置とを含み、
    前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサによって実行されるとき、前記1つ又は複数のプロセッサに請求項1から又は15から23のいずれか1項に記載の情報処理方法を実現させる、ことを特徴とする電子機器。
  25. コンピュータで実行可能な命令を含む記憶媒体であって、前記コンピュータで実行可能な命令がコンピュータのプロセッサによって実行されるとき、前記コンピュータのプロセッサが請求項1から又は15から23のいずれか1項に記載の情報処理方法を実行する、記憶媒体。
  26. コンピュータプログラムであって、前記コンピュータプログラムが電子機器で実行されるとき、前記電子機器に請求項1から又は15から23のいずれか1項に記載の情報処理方法を実行させる、コンピュータプログラム。
JP2022549101A 2020-06-09 2021-06-07 情報処理方法、システム、装置、電子機器及び記憶媒体 Active JP7448672B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010518278.3 2020-06-09
CN202010518278.3A CN111711853B (zh) 2020-06-09 2020-06-09 一种信息处理方法、系统、装置、电子设备及存储介质
PCT/CN2021/098533 WO2021249323A1 (zh) 2020-06-09 2021-06-07 一种信息处理方法、系统、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2023515392A JP2023515392A (ja) 2023-04-13
JP7448672B2 true JP7448672B2 (ja) 2024-03-12

Family

ID=72538975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022549101A Active JP7448672B2 (ja) 2020-06-09 2021-06-07 情報処理方法、システム、装置、電子機器及び記憶媒体

Country Status (5)

Country Link
US (2) US11900945B2 (ja)
EP (1) EP4164232A4 (ja)
JP (1) JP7448672B2 (ja)
CN (2) CN114205665B (ja)
WO (1) WO2021249323A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205665B (zh) 2020-06-09 2023-05-09 抖音视界有限公司 一种信息处理方法、装置、电子设备及存储介质
CN112164392A (zh) * 2020-11-13 2021-01-01 北京百度网讯科技有限公司 确定显示的识别文本的方法、装置、设备以及存储介质
CN112669847A (zh) * 2020-12-03 2021-04-16 安徽宝信信息科技有限公司 一种可用于会议记录自动编辑整理的智慧屏
CN112651475B (zh) * 2021-01-06 2022-09-23 北京字节跳动网络技术有限公司 二维码显示方法、装置、设备及介质
CN114143591A (zh) * 2021-11-26 2022-03-04 网易(杭州)网络有限公司 字幕显示的方法、装置、终端和机器可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010074482A (ja) 2008-09-18 2010-04-02 Toshiba Corp 外国語放送編集システム、翻訳サーバおよび翻訳支援方法
US20130158995A1 (en) 2009-11-24 2013-06-20 Sorenson Communications, Inc. Methods and apparatuses related to text caption error correction
US20140198252A1 (en) 2013-01-15 2014-07-17 Viki, Inc. System and method for captioning media
CN105513586A (zh) 2015-12-18 2016-04-20 百度在线网络技术(北京)有限公司 语音识别结果的显示方法和装置
CN110415706A (zh) 2019-08-08 2019-11-05 常州市小先信息技术有限公司 一种在视频通话中实时叠加字幕的技术及其应用
JP2020027984A (ja) 2018-08-09 2020-02-20 日本放送協会 コンテンツ配信装置及びプログラム
US20200160867A1 (en) 2017-08-07 2020-05-21 Sonova Ag Online automatic audio transcription for hearing aid users

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU4200600A (en) * 1999-09-16 2001-04-17 Enounce, Incorporated Method and apparatus to determine and use audience affinity and aptitude
CN100354930C (zh) * 2004-11-01 2007-12-12 英业达股份有限公司 语音显示系统及方法
DE102005054978A1 (de) * 2005-11-16 2007-05-24 Deutsche Thomson-Brandt Gmbh Verfahren zum Aktualisieren eines Datensatzes sowie Vorrichtung zur Durchführung des Verfahrens
WO2007119893A1 (en) * 2006-04-18 2007-10-25 Inka Entworks, Inc. Method of providing caption information and system thereof
WO2008148102A1 (en) * 2007-05-25 2008-12-04 Tigerfish Method and system for rapid transcription
CN101374307B (zh) * 2008-09-26 2012-08-22 北京大学 一种移动设备中更新数字内容信息的方法及装置
AU2010281297B2 (en) * 2009-08-07 2015-08-06 Access Innovation Ip Pty Limited System and method for real time text streaming
EP3091535B1 (en) * 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US9191639B2 (en) 2010-04-12 2015-11-17 Adobe Systems Incorporated Method and apparatus for generating video descriptions
US9536567B2 (en) * 2011-09-02 2017-01-03 Nexidia Inc. Transcript re-sync
US9704111B1 (en) * 2011-09-27 2017-07-11 3Play Media, Inc. Electronic transcription job market
CN103888597B (zh) * 2012-12-21 2016-12-28 联想(北京)有限公司 一种通信方法、装置及电子设备
US20160133251A1 (en) * 2013-05-31 2016-05-12 Longsand Limited Processing of audio data
US10331661B2 (en) * 2013-10-23 2019-06-25 At&T Intellectual Property I, L.P. Video content search using captioning data
CN104050160B (zh) * 2014-03-12 2017-04-05 北京紫冬锐意语音科技有限公司 一种机器与人工翻译相融合的口语翻译方法和装置
US20160026962A1 (en) * 2014-07-28 2016-01-28 Bank Of America Corporation Chat analyzer
CA2965188C (en) * 2014-10-30 2023-01-17 Econiq Limited A recording system for generating a transcript of a dialogue
US9886423B2 (en) 2015-06-19 2018-02-06 International Business Machines Corporation Reconciliation of transcripts
CN105827499B (zh) * 2015-07-30 2019-12-03 南京步步高通信科技有限公司 一种已发送信息的修改方法、电子设备及应用服务器
US9672867B2 (en) * 2015-08-05 2017-06-06 International Business Machines Corporation Automated creation and maintenance of video-based documentation
US10332506B2 (en) * 2015-09-02 2019-06-25 Oath Inc. Computerized system and method for formatted transcription of multimedia content
US9787819B2 (en) * 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications
CN105931641B (zh) * 2016-05-25 2020-11-10 腾讯科技(深圳)有限公司 字幕数据生成方法和装置
KR101861006B1 (ko) * 2016-08-18 2018-05-28 주식회사 하이퍼커넥트 통역 장치 및 방법
CN106412678A (zh) * 2016-09-14 2017-02-15 安徽声讯信息技术有限公司 一种视频新闻实时转写存储方法及系统
CN106340291A (zh) * 2016-09-27 2017-01-18 广东小天才科技有限公司 一种双语字幕制作方法及系统
US10657834B2 (en) * 2017-01-20 2020-05-19 Coursera, Inc. Smart bookmarks
CN108538284A (zh) * 2017-03-06 2018-09-14 北京搜狗科技发展有限公司 同声翻译结果的展现方法及装置、同声翻译方法及装置
US10762060B1 (en) * 2017-10-18 2020-09-01 Comake, Inc. Electronic file management
CN109936665A (zh) * 2017-12-18 2019-06-25 镇江智宸电子有限公司 一种通信方法、装置及电子设备
CN108259971A (zh) * 2018-01-31 2018-07-06 百度在线网络技术(北京)有限公司 字幕添加方法、装置、服务器及存储介质
US10459620B2 (en) 2018-02-09 2019-10-29 Nedelco, Inc. Caption rate control
US11100164B2 (en) * 2018-06-12 2021-08-24 Verizon Media Inc. Displaying videos based upon selectable inputs associated with tags
US20200051582A1 (en) * 2018-08-08 2020-02-13 Comcast Cable Communications, Llc Generating and/or Displaying Synchronized Captions
SG10201901335VA (en) * 2019-02-15 2020-09-29 Wika Media Pte Ltd Device and method for facilitating a provision of a content
US11347379B1 (en) * 2019-04-22 2022-05-31 Audible, Inc. Captions for audio content
WO2020250016A1 (en) * 2019-06-14 2020-12-17 Cedat 85 S.R.L. Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
CN110379406B (zh) * 2019-06-14 2021-12-07 北京字节跳动网络技术有限公司 语音评论转换方法、系统、介质和电子设备
US10917607B1 (en) 2019-10-14 2021-02-09 Facebook Technologies, Llc Editing text in video captions
US11410644B2 (en) * 2019-10-18 2022-08-09 Invoca, Inc. Generating training datasets for a supervised learning topic model from outputs of a discovery topic model
US11715466B2 (en) * 2019-11-21 2023-08-01 Rovi Guides, Inc. Systems and methods for local interpretation of voice queries
US20210224319A1 (en) * 2019-12-28 2021-07-22 Ben Avi Ingel Artificially generating audio data from textual information and rhythm information
US11159590B1 (en) * 2020-04-10 2021-10-26 Microsoft Technology Licensing, Llc Content recognition while screen sharing
US11532308B2 (en) 2020-05-04 2022-12-20 Rovi Guides, Inc. Speech-to-text system
US11790916B2 (en) * 2020-05-04 2023-10-17 Rovi Guides, Inc. Speech-to-text system
CN114205665B (zh) * 2020-06-09 2023-05-09 抖音视界有限公司 一种信息处理方法、装置、电子设备及存储介质
CN112511910A (zh) * 2020-11-23 2021-03-16 浪潮天元通信信息系统有限公司 实时字幕的处理方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010074482A (ja) 2008-09-18 2010-04-02 Toshiba Corp 外国語放送編集システム、翻訳サーバおよび翻訳支援方法
US20130158995A1 (en) 2009-11-24 2013-06-20 Sorenson Communications, Inc. Methods and apparatuses related to text caption error correction
US20150051908A1 (en) 2009-11-24 2015-02-19 Captioncall, Llc Methods and apparatuses related to text caption error correction
US20140198252A1 (en) 2013-01-15 2014-07-17 Viki, Inc. System and method for captioning media
JP2016509408A (ja) 2013-01-15 2016-03-24 ヴィキ, インク.Viki, Inc. メディアにキャプションを付けるシステム及び方法
CN105513586A (zh) 2015-12-18 2016-04-20 百度在线网络技术(北京)有限公司 语音识别结果的显示方法和装置
US20200160867A1 (en) 2017-08-07 2020-05-21 Sonova Ag Online automatic audio transcription for hearing aid users
JP2020027984A (ja) 2018-08-09 2020-02-20 日本放送協会 コンテンツ配信装置及びプログラム
CN110415706A (zh) 2019-08-08 2019-11-05 常州市小先信息技术有限公司 一种在视频通话中实时叠加字幕的技术及其应用

Also Published As

Publication number Publication date
WO2021249323A1 (zh) 2021-12-16
US20240062762A1 (en) 2024-02-22
CN111711853A (zh) 2020-09-25
CN114205665B (zh) 2023-05-09
JP2023515392A (ja) 2023-04-13
EP4164232A4 (en) 2023-10-18
EP4164232A1 (en) 2023-04-12
CN111711853B (zh) 2022-02-01
US20220215841A1 (en) 2022-07-07
CN114205665A (zh) 2022-03-18
US11900945B2 (en) 2024-02-13

Similar Documents

Publication Publication Date Title
JP7448672B2 (ja) 情報処理方法、システム、装置、電子機器及び記憶媒体
US11917344B2 (en) Interactive information processing method, device and medium
US11954426B2 (en) Method and apparatus for displaying online document, and storage medium
CN109168026B (zh) 即时视频显示方法、装置、终端设备及存储介质
US11700217B2 (en) Displaying media information and graphical controls for a chat application
US10356022B2 (en) Systems and methods for manipulating and/or concatenating videos
CN112073307B (zh) 邮件处理方法、装置、电子设备及计算机可读介质
CN109688051B (zh) 会话列表显示方法、装置和电子设备
US20200322570A1 (en) Method and apparatus for aligning paragraph and video
US20190266237A1 (en) Method to learn personalized intents
US20140344726A1 (en) Information processing method of im application device and system, im application device, terminal, and storage medium
WO2014183443A1 (en) Information processing method of im application device and system, im application device, terminal, and storage medium
US11196868B2 (en) Audio data processing method, server, client and server, and storage medium
CN113889113A (zh) 分句方法、装置、存储介质及电子设备
US11818491B2 (en) Image special effect configuration method, image recognition method, apparatus and electronic device
US20150189484A1 (en) Method, Apparatus, And System For Updating Contact Information
WO2020259153A1 (zh) 特效同步的方法、装置及存储介质
CN105955967A (zh) 数据处理方法及装置
US20140129228A1 (en) Method, System, and Relevant Devices for Playing Sent Message
CN105282621A (zh) 一种语音消息可视化服务的实现方法及装置
KR101351264B1 (ko) 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법
WO2021103741A1 (zh) 内容处理方法、装置、计算机设备及存储介质
CN113299285A (zh) 设备控制方法、装置、电子设备及计算机可读存储介质
CN114239501A (zh) 合同生成方法、装置、设备及介质
JP2023536992A (ja) ターゲットコンテンツの検索方法、装置、電子機器および記憶媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220822

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240229

R150 Certificate of patent or registration of utility model

Ref document number: 7448672

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150