JP2023539820A - インタラクティブ情報処理方法、装置、機器、及び媒体 - Google Patents

インタラクティブ情報処理方法、装置、機器、及び媒体 Download PDF

Info

Publication number
JP2023539820A
JP2023539820A JP2023511951A JP2023511951A JP2023539820A JP 2023539820 A JP2023539820 A JP 2023539820A JP 2023511951 A JP2023511951 A JP 2023511951A JP 2023511951 A JP2023511951 A JP 2023511951A JP 2023539820 A JP2023539820 A JP 2023539820A
Authority
JP
Japan
Prior art keywords
text
exhibition
data stream
multimedia data
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023511951A
Other languages
English (en)
Other versions
JP7529236B2 (ja
Inventor
楊晶生
陳可蓉
劉敬暉
熊梦園
鄭翔
銭程
韓暁
趙立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Publication of JP2023539820A publication Critical patent/JP2023539820A/ja
Application granted granted Critical
Publication of JP7529236B2 publication Critical patent/JP7529236B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • H04N9/8715Regeneration of colour television signals involving the mixing of the reproduced video signal with a non-recorded signal, e.g. a text signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/489Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本開示の実施例は、インタラクティブ情報処理方法、装置、電子機器、及び記憶媒体を開示する。【解決手段】本方法は、マルチメディアデータストリームに基づいて生成される展示テキストと前記マルチメディアデータストリームとの間の位置対応関係を確立することと、前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出することと、を含む。【選択図】 図1

Description

本願は、2020年09月29日に中国専利局に提出された出願番号が202011057348.6である中国特許出願に対して優先権を主張するものであり、該出願の全ての内容を引用により本願に援用する。
本開示の実施例はコンピュータデータ処理の技術分野に関し、例えば、インタラクティブ情報処理方法、装置、機器及び媒体に関する。
現在、ユーザーはマルチメディアデータストリームに基づいて相応するオーディオビデオフレームを閲覧してもよいし、マルチメディアデータストリームが変換したテキスト情報に基づいて相応するコンテンツを閲覧してもよい。
上記方式により、閲覧されたマルチメディアデータストリームとテキスト情報とはお互いに独立したものであり、テキストのコンテンツに基づいて相応するマルチメディアデータストリームに素早く位置決めることができず、ユーザーがマルチメディアデータストリームからテキストコンテンツに対応するビデオフレームを探索する必要があるため、探索効率が低く、ユーザー体験が悪いという技術的問題がある。
本開示の実施例は、マルチメディアデータストリームと展示テキストとの間の位置連動を実現し、閲読の便利性及び効率性の技術効果を向上させるインタラクティブ情報処理方法、装置、機器、及び媒体を提供する。
本開示の実施例は、
マルチメディアデータストリームに基づいて生成される展示テキストと前記マルチメディアデータストリームとの間の位置対応関係を確立することと、
前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出することと、を含む、インタラクティブ情報処理方法を提供する。
本開示の実施例は、
マルチメディアデータストリームに基づいて生成される展示テキストをターゲットページの第1展示エリアに展示することと、
前記マルチメディアデータストリームを前記ターゲットページの第2展示エリアに展示することと、を含み、
前記展示テキストと前記マルチメディアデータストリームとの間に位置対応関係を有する、インタラクティブ情報展示方法を提供する。
本開示の実施例は、
マルチメディアデータストリームに基づいて生成される展示テキストと前記マルチメディアデータストリームとの間の位置対応関係を確立するように構成される対応関係確立モジュールと、
前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出するように構成されるコンテンツ呈出モジュールと、を含む、
インタラクティブ情報処理装置をさらに提供する。
本開示の実施例は、
1つ又は複数のプロセッサと、
1つ又は複数のプログラムを記憶するように構成される記憶装置と、を含み、
前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサにより実行されると、前記1つ又は複数のプロセッサに本開示の実施例のいずれかに記載のインタラクティブ情報処理方法を実現させる、
電子機器をさらに提供する。
本開示の実施例は、コンピュータ実行可能な命令を含む記憶媒体であって、
前記コンピュータ実行可能な命令がコンピュータプロセッサにより実行される時に、本開示の実施例のいずれかに記載のインタラクティブ情報処理方法を実行するように構成される、
記憶媒体をさらに提供する。
図面を通して、同一又は類似の符号は同一又は類似の要素を表す。図面は模式的であり、原本と要素は必ずしも比例して描かれていないと理解されるべきである。
本開示の一実施例に係るインタラクティブ情報処理方法のフローチャートである。 本開示の別の実施例に係るインタラクティブ情報処理方法のフローチャートである。 本開示の実施例に係るターゲットページの模式図である。 本開示の別の実施例に係るインタラクティブ情報処理方法のフローチャートである。 本願の一実施例に係るターゲットコンテンツと時間軸におけるマークとが対応して表示される構造模式図である。 本願の一実施例に係るターゲットコンテンツをトリガした後に、時間軸におけるマークが強調表示される模式図である。 本開示の別の実施例に係るインタラクティブ情報処理方法のフローチャートである。 本開示の一実施例に係るインタラクティブ情報展示方法のフローチャートである。 本開示の一実施例に係るインタラクティブ情報処理装置の構造模式図である。 本開示の一実施例に係る電子機器の構造模式図である。
以下、図面を参照しながら本開示の実施例についてより詳しく説明する。図面に本開示のいくつかの実施例が示されるが、本開示は、様々な形式で実現でき、ここで記述される実施例に限定されるものと解釈されるべきではない。逆に、これらの実施例を提供するのは、本開示を徹底的且つ完全に理解するためである。本開示の図面及び実施例は、例示的な作用として用いられるものに過ぎず、本開示の保護範囲を限定するためのものではないと理解されるべきである。
本開示の方法の実施形態に記載される各ステップは、異なる順序で実行されてもよいし、及び/又は、並行に実行されてもよいと理解されるべきである。また、方法の実施形態は、追加のステップ及び/又は実行が省略されて示されたステップを含んでもよい。本開示の範囲は、この点で制限されない。
本発明で使用される「含む」という用語及びその変形は、開放的な包含であり、即ち、「含むが、これらに限定されない」。「基づく」という用語は、「少なくとも部分的に基づく」という意味である。「1つの実施例」という用語は、「少なくとも1つの実施例」を表す。「別の実施例」という用語は、「少なくとも1つの別の実施例」を表す。「いくつかの実施例」という用語は、「少なくともいくつかの実施例」を表す。他の用語の関連定義は、以下の記述で与えられている。
なお、本開示に言及される「第1」、「第2」などの概念は、異なる装置、モジュール又はユニットを区別するためのものに過ぎず、これらの装置、モジュール又はユニットが実行する機能の順序又は相互依存関係を限定するためのものではない。
なお、本開示に言及される「1つ」、「複数」という修飾は、模式的なものであり、限定的なものではなく、当業者は、本明細書で特に明記されていない限り、「1つ又は複数」と理解すべきである。
図1は、本開示の一実施例に係るインタラクティブ情報処理方法のフローチャートであり、本開示の実施例は、マルチメディアデータストリームと展示テキストとの間の位置連動を確立することにより、展示テキスト又はマルチメディアデータストリームをトリガした時に、展示テキストとマルチメディアデータストリームとの連動を実現するケースに適用されている。この方法は、インタラクティブ情報処理装置により実行されてもよく、この装置は、ソフトウェア及び/又はハードウェアの形式により実現されてもよく、例えば、電子機器により実現されてもよく、この電子機器は、モバイル端末、PC端末、又はサーバなどであってもよい。本実施例に係る方法は、クライアントにより実行されてもよく、サーバにより実行されてもよく、又は、両者が合わさって実行されてもよい。
図1のように、本実施例の方法は、以下のことを含む。
S110、マルチメディアデータストリームに基づいて生成される展示テキストと前記マルチメディアデータストリームとの間の位置対応関係を確立する。
ここで、マルチメディアデータストリームは、リアルタイムインタラクティブ対話インターフェイスに対応するオーディオビデオストリームデータであってもよいし、リアルタイムインタラクティブインターフェイスを録画した後に、録画ビデオにおけるビデオストリームデータであってもよい。リアルタイムインタラクティブインターフェイスは、リアルタイムインタラクティブ適用シーンにおけるいずれかの対話インターフェイスである。リアルタイムインタラクティブシーンは、ネイティブプログラム又はwebプログラムなどにより実現された対話アプリケーションなどのインターネット及びコンピュータ手段により実現されることができる。マルチメディアデータストリームのオーディオフレームを処理し、例えば、オーディオ情報を抽出してマルチメディアデータストリームに対応するテキスト情報を得て、テキスト情報をターゲットページに表示することができる。相応的に、ターゲットページに表示されるテキスト情報は展示テキストである。展示テキストとマルチメディアデータストリームとの間の同期連動の効果を実現するために、展示テキストとマルチメディアデータストリームとの間の位置対応関係を確立することができる。位置対応関係は、タイムスタンプに基づいて確定された位置対応関係であってもよい。例えば、いくつかの適用シーンにおいて、展示テキストは、マルチメディアデータストリームにおける音声に対して音声識別を行って得られたものであってもよい。これらの適用シーンにおいて、展示テキスト中のある段落の文字に対応する音声のマルチメディアデータストリームでの位置に基づいて、この段落の文字のタイムスタンプとして、この段落の文字とそれに対応する音声との間の位置対応関係を確立することができる。
S120、前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出する。
例えば、位置対応関係が確立された展示テキストとマルチメディアデータストリームをターゲットページに表示することができる。そして、ある部分の展示テキストに対するトリガ操作(例えば、クリックなど)を検出した時に、位置対応関係により前記展示テキストに対応するビデオフレームを表示することができる。
本開示の実施例の技術案については、マルチメディアデータストリームと展示テキストとの間の位置対応関係を確立することにより、展示テキストのターゲットコンテンツをトリガしたと検出した時に、マルチメディアデータストリームをターゲットコンテンツに対応するビデオフレームにジャンプすることにより、ユーザーにビデオフレーム及びターゲットコンテンツと結び付けて発言ユーザーの発言情報を理解させやすくし、対話効率の技術効果を向上させる。
図2は、本開示の別の実施例に係るインタラクティブ情報処理方法のフローチャートである。上記実施例を踏まえて、マルチメディアデータストリームに基づいて相応する展示テキストを生成して、展示テキストとマルチメディアデータストリームとの間の位置対応関係を確立することができる。そのうち、上記実施例と同様又は相応する技術用語について、ここでは説明を省略する。
図2に示すように、前記方法は、以下のことを含む。
S210、マルチメディアデータストリームのオーディオビデオフレームを取得し、前記オーディオビデオフレームに対応する発言ユーザーのユーザー身分標識を確定する。
ここで、マルチメディアデータストリームとは、リアルタイムインタラクティブインターフェイスから取得されたデータストリームである。複数のユーザーがインターネット又はコンピュータ手段に基づいて実現された、複数人でのビデオ会議、生放送などのインタラクティブシーンをリアルタイムインタラクティブシーンとする。リアルタイムインタラクティブの後に、会議コンテンツを簡単にリプレイするか、又は。ある1つ又はいくつかの発言ユーザーが発表した言葉に対応する核心思想を確定するために、リアルタイムインタラクティブの過程において、リアルタイムインタラクティブシーンをレコーディングし、例えば、ビデオ会議コンテンツをレコーディングすることができる。レコーディングされたリアルタイムインタラクティブシーンを録画ビデオとする。相応的に、マルチメディアデータストリームは録画ビデオに基づいて取得されたものである。録画ビデオには各発言ユーザーのオーディオ情報のみならず、ビデオ情報が含まれ、即ち、マルチメディアデータストリームに対応するオーディオフレーム及びビデオフレームが含まれる。ユーザー身分標識は、各ユーザーの身分を表すために用いられる。
例えば、マルチメディアデータストリームのオーディオフレーム及びビデオフレームに基づいて、オーディオ情報が属する端末に対応するユーザーを確定し、オーディオフレーム及び/又はビデオフレームに対応する発言ユーザーのユーザー身分標識を確定することができる。
S220、前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成する。
ここで、マルチメディアデータストリームのオーディオ情報、即ち、オーディオフレームに基づいて、オーディオフレームに対応する文字記述を確定することができる。マルチメディアデータストリームのビデオフレームは、インタラクティブユーザーが共有したドキュメント、又は、共有したスクリーンなどであってもよい。ビデオフレームに基づいて、表示インターフェイスにおける文字情報及び/又はリンクなどの情報を確定することができる。オーディオフレーム及びビデオフレームに基づいて、録画ビデオに対応する展示テキストを確定することができる。対応関係は、マルチメディアデータストリームのタイムスタンプと展示テキスト中のタイムスタンプとの間の対応する関係であってもよい。ターゲットページは、クライアントに表示されるページであってもよい。このページにマルチメディアデータストリーム及び展示テキストが含まれてもよい。
例えば、マルチメディアデータストリームのオーディオフレーム及びビデオフレームを処理し、各オーディオフレーム及び/又はビデオフレームに対応する文字記述を得ることができる。前記ユーザー身分標識、及び、各オーディオビデオフレームに対応するタイムスタンプに基づいて、マルチメディアデータストリームに対応する展示テキストを生成する。展示テキストとマルチメディアデータストリームとの間の連動性を実現するために、マルチメディアデータストリームと展示テキストとの間の位置対応の関係を確立することができる。例えば、マルチメディアデータストリームが録画ビデオに基づいて取得されたものであり、ターゲットページにおける録画ビデオのプログレスバーをトリガしたと検出した時に、現在ビデオフレームに対応する再生時刻を確定し、展示テキストに再生時刻に対応するテキストコンテンツを区別して表示することができる。
S230、マルチメディアデータストリームのオーディオビデオフレームを取得し、前記オーディオビデオフレームに対応する発言ユーザーのユーザー身分標識を確定する。
S240、前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出する。
本開示の実施例の技術案については、マルチメディアデータストリームとのオーディオビデオフレームを処理することにより、マルチメディアデータストリームに対応するテキスト情報を生成し、ターゲットページに表示し、ターゲットページに表示されるテキスト情報とマルチメディアデータストリームとの間の位置対応関係により、マルチメディアデータストリームと展示テキストとの間のタイムスタンプ同期関連関係を実現し、ユーザーによるテキストの閲読とビデオの閲覧との同期性を向上させ、ユーザー体験の技術効果を向上させる。
本実施例において、マルチメディアデータストリームのオーディオビデオフレームに基づいて、オーディオフレームに対応する発言ユーザーのユーザー身分標識を確定することは、オーディオフレームに対して声紋識別を行うことにより、発言ユーザーのユーザー身分標識を確定すること、及び/又は、オーディオフレームが属するクライアントのクライアント標識を確定し、クライアント標識に基づいて発言ユーザーのユーザー身分標識を確定すること、を含む。
通常、声紋識別は生物識別の1種であり、発言ユーザーの音波特性により身分認識を行う技術に用いられる。各発言ユーザーの言語はユニークな声紋を有するので、これによって、異なる身分の発言ユーザーを確定することができる。もちろん、各発言ユーザーが属するクライアントの標識を収集し、クライアントの標識に基づいて発言ユーザーのユーザー身分標識を確定してもよい。
例えば、マルチメディアデータストリームにおけるオーディオフレームに対して音波特性処理を行い、処理結果に基づき、各発言ユーザーのユーザー身分標識を確定することができる。通常、クライアントには対応するクライアントアカウント又はクライアントIDがあり、異なるクライアントを区別する。従って、各発言ユーザーが属するクライアントを取得することにより、クライアントの標識に基づいて、各発言ユーザーに対応するユーザー身分標識を確定することができる。ただし、あるクライアントが同時に複数のユーザーと一緒に会議に出席して発言した場合、複数のユーザーは、クライアントIDにより区別されることができない。よって、さらに、各ユーザーの音声データに対して声紋識別を行い、それぞれの人の音声がユニークな声紋を有するので、それに基づき、異なるユーザーを区別することができる。その後、クライアントID-ユーザーA、クライアントID-ユーザーBとマークされることにより、同じクライアントにおける異なる発言ユーザーの身分情報、即ち、ユーザー身分標識を区別することができる。
本実施例において、異なる発言ユーザーの身分標識情報を確定し、各発言ユーザーのオーディオ情報を文字に変換した後に、文字コンテンツに対応する発言ユーザーを確定でき、他のユーザーにこの発言コンテンツに対応する発言ユーザーが表現した核心思想を確定させやすく、対話効率を向上させる技術効果に達する。
上記技術案を踏まえて、ユーザー身分標識及びオーディオビデオフレームに基づいて展示テキストを生成することは、オーディオフレームに対して音声文字変換処理を行うことにより、オーディオフレームに対応する文字記述を得て、文字記述及びユーザー身分標識に基づいて展示テキスト中の第1展示テキストを生成することと、ビデオフレームに対して文字認識を行うことにより、ビデオフレーム中の文字を得て、文字及びユーザー身分標識に基づいて展示テキスト中の第2展示テキストを生成することと、を含む。
例えば、音声文字変換モジュールに基づいて、録画ビデオにおけるオーディオフレームを相応する文字記述に変換することができる。文字記述、オーディオに対応する発言ユーザーの身分標識に基づいて、展示テキスト中の第1展示テキストを生成することができる。つまり、展示テキストに少なくとも1つの展示テキストが含まれ、各展示テキストに相応するコンテンツを展示することができる。例えば、第1展示テキストに展示されるコンテンツは、オーディオフレームに基づいて生成された文字であってもよい。ビデオフレームに基づいてビデオ画像中の文字を確定した後に、ビデオフレーム中の文字に基づいて、展示テキスト中の第2展示テキストを確定し、即ち、第2展示テキストに展示されるものはビデオ画像中のコンテンツである。例示的に、発言ユーザーAがスクリーンを共有した場合、スクリーン中の文字コンテンツを識別し、文字コンテンツを第2展示テキストに展示することができる。
なお、オーディオフレーム及びビデオフレームを処理した後のコンテンツを同じテキストに統合して展示することができる場合、第1展示テキストと第2展示テキストとは同様である。
本実施例において、オーディオビデオフレームに対応するコンテンツを展示テキストに展示し、直観的に録画ビデオにおける各発言ユーザーのオーディオフレームを相応する文字に展示することができ、発言ユーザーによる発言コンテンツの確定の便利性を向上させる。
上記技術案を踏まえて、オーディオフレームに対して音声文字変換処理を行い、オーディオフレームに対応する文字記述を得て、文字記述及びユーザー身分標識に基づいて、展示テキスト中の第1展示テキストを生成することは、オーディオフレームに対応する文字記述、オーディオフレームが現在対応するタイムスタンプ、及び、オーディオフレームが属する発言ユーザーのユーザー身分標識を確定することと、ユーザー身分標識、タイムスタンプ、及び文字記述に基づいて展示テキスト中の1つの展示コンテンツを生成することと、を含む。
なお、展示テキストには少なくとも1つの展示コンテンツがあり、発言ユーザーが発言する時に、発言ユーザーの音声情報を相応する文字記述に変換し、この発言ユーザーの音声情報の発言のタイムスタンプ、及び、音声情報に対応する文字情報に基づいて、第1展示テキスト中の1つの展示コンテンツを生成することができる。
例えば、連続的なオーディオフレームに対して、且つ、連続的なオーディオフレームが同一発言ユーザーに属する時に、このオーディオフレームに対応する文字記述、このオーディオフレームに対応するユーザー身分標識、及び、この連続的なオーディオフレームに対応するタイムスタンプを確定し、第1展示テキスト中の1つの展示コンテンツを生成することができる。
なお、第1展示テキストには複数の展示コンテンツが含まれてもよく、各展示コンテンツは、発言ユーザー身分標識、発言タイムスタンプ及び具体的な発言コンテンツを含み、各展示コンテンツの間に対応するユーザー身分標識は、同じでも異なってもよいが、各コンテンツに対応するタイムスタンプは異なる。
展示テキスト中の展示コンテンツの閲読性を向上させるために、1つの展示コンテンツに少なくとも2つの展示段落が含まれてもよい。例えば、オーディオフレームに対して音声文字変換処理を行うことにより、オーディオフレームに対応する文字記述を得て、文字記述及びユーザー身分標識に基づいて展示テキスト中の第1展示テキストを生成することは、オーディオフレームに基づいて音声文字変換処理を行う過程において、隣り合うオーディオフレーム間の間隔時間長が予め設定された間隔時間長閾値以上であり、且つ、次のオーディオフレームが属するユーザー身分標識が変化しないことを検出した場合、次のオーディオフレームに基づいて、この展示コンテンツ中の次の段落を生成することを含む。
つまり、オーディオフレームに対して音声文字変換処理を行う時に、隣り合う2つのオーディオフレーム間の間隔時間長を取得することができる。間隔時間長が予め設定された間隔時間長閾値より小さいと、2つのオーディオフレームの間は連続的なオーディオフレームであることを意味する。間隔時間長が予め設定された間隔時間長閾値以上であり、且つ、次のオーディオフレームが属するユーザー身分標識が変化しないと、発言ユーザーが変化しなくて、発言過程にストップがあるに過ぎないことを意味する。次のオーディオフレームに対応するコンテンツに基づいて、次のオーディオフレームに対応するコンテンツを展示コンテンツ中の次の段落に生成するかを確定することができる。即ち、次のオーディオフレームに対応する発言コンテンツを検出した後に、直前のいくつかのオーディオフレームに対応する発言コンテンツと結び付けるとともに語意分析を行い、分析結果により、発言コンテンツを1つの段落又は2つの段落としてもよい。このようにすることで、他のユーザーに発言ユーザーの発言コンテンツを理解させやすく、発言コンテンツに対する理解の効率性を向上させることができる。
第1展示テキスト中の展示コンテンツに対応する発言ユーザーを素早く確定するために、ユーザーの身分標識を確定するのみならず、各発言ユーザーに対応するユーザーアバターであってもよく、ユーザーアバターに基づいて、展示テキスト中の文字コンテンツに対応する発言ユーザーをより素早く確定することができる。例えば、ユーザー身分標識に対応するユーザー画像を取得し、ユーザー画像、ユーザー身分標識、タイムスタンプ及び文字記述に基づいて展示テキスト中の1つの展示コンテンツを生成することができる。
各展示コンテンツは、ユーザーのアバター、発言タイムスタンプ(録画ビデオにおける発言ユーザーが発言したタイムスタンプに対応する)、オーディオ情報に対応する文字を含んでもよいと理解することができる。
もちろん、マルチメディアデータストリームがスクリーンを共有する時に対応するビデオフレームである場合、共有スクリーン中のコンテンツを取得することができ、例えば、ビデオフレームに対して文字認識を行い、展示テキスト中の第2展示テキストを得ることができる。例えば、ビデオフレームに少なくとも1つのユニフォーム・リソース・ロケータURLアドレスが含まれると、少なくとも1つのURLアドレスに基づいて、第2展示テキスト中の第1展示コンテンツを生成し、ビデオフレームに文字が含まれると、文字に基づいて、第2展示テキスト中の第2展示コンテンツを確定する。
つまり、マルチメディアデータストリームを取得した後に、音声文字変換モジュールに基づいて、メディアデータストリームのオーディオフレームを処理し、オーディオ情報に対応する文字記述を得ることができる。マルチメディアデータストリームにおいて、発言ユーザーが共有したスクリーンコンテンツ、ドキュメント及びリンクなどの情報を取得しやすくするために、録画ビデオ中の各ビデオフレームに対して文字認識を行うことにより、ビデオフレーム中の文字及びリンクを取得することができる。文字、リンク、発言ユーザーの身分標識、及び、このコンテンツに対応するタイムスタンプに基づいて、展示テキスト中の第2展示テキスト中の展示コンテンツとする。
実際の応用過程において、ユーザーがキーワードによってターゲットコンテンツを選別するケースがあるので、オーディオビデオ情報に基づいて展示テキストを生成する過程において、前記オーディオビデオフレームに基づいて、前記展示テキスト中の第3展示テキストを確定して、前記第3展示テキスト中のターゲットコンテンツをトリガしたと検出した時に、第1展示テキストから前記ターゲットコンテンツに対応するコンテンツを確定して区別して表示し、前記第3展示テキストには、少なくとも1つのキーワード及び/又はキーセンテンスが含まれることをさらに含む。
つまり、オーディオビデオフレームを相応する文字に変換する過程において、変換した後の文字コンテンツに対してキーワード及び/又はキーセンテンスの抽出を行い、展示テキスト中の第3展示テキストとしてもよい。本実施例において、キーワード及び/又はキーセンテンスを抽出するとは、展示テキスト中のコンテンツに対して単語分割処理を行って少なくとも1つの単語を得て、各単語に対応するワードベクトルを確定することができることであってもよい。各単語に対応するワードベクトルにより、平均ワードベクトルを確定し、各単語のワードベクトルと平均ワードベクトルとの間の類似度値を算出し、類似度値が予め設定された値より大きい単語をキーワードとする。同じ方式により、テキスト中のキーセンテンスを抽出することができる。第3展示テキスト中の各キーワード及び/又はキーセンテンスと第1展示テキストとの間の関係を確立し、キーワード又はキーセンテンスをトリガした時に、第1展示テキストからキーワードの第1展示テキストでの位置を素早く確定することができる。展示テキストとマルチメディアデータストリームとは確立した位置対応関係のため、第1展示テキスト中のキーワードが属するセンテンスをトリガした時に、録画ビデオは属するセンテンスのタイムスタンプに基づいて前記タイムスタンプに対応するマルチメディアデータストリームを再生することを実現することができる。
実際の応用過程において、合理的なレイアウトを実現し、ターゲットページにおける各エリアに対応する展示コンテンツを素早く確定するようにすることは、各展示テキスト中の展示コンテンツに基づいて、各展示テキストの表示ページでのエリア占有率を確定することであってもよい。
例えば、各展示テキスト中の展示コンテンツの量により、各展示テキストの表示ページで占めるエリア比率を動的に確定し、例えば、展示コンテンツが多いほど、ターゲットページで占めるエリアが大きくなる。
前記展示テキスト中の第1展示テキスト、第2展示テキスト、第3展示テキスト、及び、マルチメディアデータストリームをそれぞれ前記ターゲットページにおける予め設定された展示エリア内に展示し、ここで、第1展示テキストの予め設定された展示エリアは前記録画ビデオの予め設定された展示エリアより大きく、前記録画ビデオの予め設定された展示エリアは前記第2展示テキストの予め設定された展示エリアより大きく、第2展示テキストの展示エリアは前記第3展示テキストの展示エリアより大きい。
つまり、第1展示エリアは、主にマルチメディアデータストリームに対応するテキストデータを展示するために用いられるので、コンテンツが比較的多く、ターゲットページから多いエリアを取得して第1展示テキストを展示することができる。第2展示エリアの面積が、第1展示エリアの面積より小さく、マルチメディアデータストリーム、例えば、録画ビデオを展示するために用いられ、第3展示エリアの展示面積が、第2展示エリアの展示面積より小さく、マルチメディアデータストリーム中のビデオフレームに対応するコンテンツを展示するために用いられ、第4展示エリアは、第3展示テキストを展示するエリアであり、マルチメディアデータストリームから抽出したキーワード及び/又はキーセンテンスを展示するために用いられる。マルチメディアデータストリームに対応する文字は一般的に多いので、それをターゲットページに大きく表示することができ、ユーザーに閲読させやすく、キーワード又はキーセンテンスのコンテンツは比較的少ないので、表示ページにおける表示エリアをできるだけ小さくしてもよい。
ターゲットページに展示されるコンテンツを明確に理解するために、図3に示すように、ターゲットページは、コントロール1、コントロール2、コントロール3、及びコントロール4を含んでもよい。コントロール1は、第1展示テキストを展示するコントロールであり、このテキストエリア内に各発言ユーザーに対応する発言コンテンツが表示されてもよい。コントロール2は、録画ビデオを展示するコントロールであり、コントロール内に録画ビデオが入られてもよい。コントロール3は、第2展示テキストを展示するコントロールであり、このコントロールに共有したドキュメント、共有したリンクなどの情報が表示されてもよい。コントロール4は、第3展示テキストを展示するコントロールであり、このコントロールに録画ビデオ及び第1展示テキストに対応するキーワード又はキーセンテンスが表示されてもよい。
図4は、本開示の別の実施例に係るインタラクティブ情報処理方法のフローチャートである。上記実施例を踏まえて、マルチメディアデータストリームにおいて各発言ユーザーが発言する時に使用する言語タイプが現在ユーザーの一致度に適合しないケースがある。例示的に、録画ビデオにおいて、各発言ユーザーが使用する言語タイプは英語及び中国語である。現在ユーザーが使用する言語タイプが日本語であると、展示テキスト及び録画ビデオ中のコンテンツを閲読できないか又は聞き取れないことがある。このような状況を減らすために、ターゲットユーザー(現在使用ユーザー)に対応するターゲット言語タイプを予め確定することができる。そのうち、上記実施例と同様又は相応する用語の解釈について、ここでは説明を省略する。
図4に示すように、方法は、以下のことを含む。
S410、マルチメディアデータストリームにおけるオーディオビデオフレームに基づいて、オーディオビデオフレームに対応する発言ユーザーのユーザー身分標識を確定する。
S420、ターゲット言語タイプを確定し、オーディオビデオフレームをターゲット言語タイプに対応する文字記述に変換する。
ここで、マルチメディアデータストリームのオーディオビデオフレームを相応する言語タイプに変換し、変換された言語タイプをターゲット言語タイプとする。例えば、録画ビデオフレームのオーディオフレームを言語タイプが日本語であるように変換する必要があると、ターゲット言語タイプは日本語であってもよい。
本実施例において、ターゲット言語タイプを確定するとは、現在クライアントに使用される履歴言語タイプを取得し、履歴言語タイプに基づいてターゲット言語タイプを確定することであってもよい。
例えば、現在クライアントに選択された履歴言語タイプを取得し、例えば、その前にこのクライアントに使用された言語タイプを取得する。ターゲット言語タイプは、履歴言語タイプに基づいて確定されたものである。
本実施例において、履歴言語タイプに基づいてターゲット言語タイプを確定することは、各履歴言語タイプの使用頻度、前回のオーディオフレーム文字変換の時に採用する言語タイプ、現在クライアントに設けられた言語タイプ、現在クライアントのログインアドレス、ログインアドレスに基づいてターゲット言語タイプを確定すること、のうちの少なくとも1つの方式を含む。
例えば、現在クライアントに使用された履歴言語タイプの頻度を取得し、使用頻度が最高の言語タイプをターゲット言語タイプとしてもよい。例えば、現在クライアントに使用される履歴言語タイプは中国語5回、英語2回、日本語3回を含み、各履歴言語タイプの使用頻度に基づいて、中国語をターゲット言語タイプとしてもよい。又は、前回のオーディオフレーム文字変換の時に採用する言語タイプを取得し、前回に使用された言語タイプをターゲット言語タイプとしてもよい。又は、現在クライアントにデフォルト言語タイプが設けられるかを確定し、デフォルト言語タイプがあれば、設けられた言語タイプをターゲット言語タイプとしてもよい。又は、現在クライアントのログインアドレスを取得し、このログインアドレスが属するエリアを確定し、例えば、中国であると、中国語をターゲット言語タイプとしてもよい。ログインアドレスが属するエリアは英国であると、英語をターゲット言語タイプとしてもよい。
なお、ユーザーが言語タイプ選択コントロールをトリガしないと、各発言ユーザーのオリジナル言語タイプを取得し、オーディオ情報を直接にオリジナル言語タイプと同じる訳文データに翻訳することにより、ユーザー身分標識及び訳文データを展示テキスト中の展示コンテンツとしてもよい。ここで、発言ユーザーのオリジナル言語タイプは、例えば、発言ユーザーが発言する時に使用する言語タイプであってもよい。
上記技術案を踏まえて、ユーザーに対応する言語タイプをタイムリーに調整させやすくするために、表示インターフェイスに、言語タイプ設定コントロールがさらに含まれる。例えば、引き続き図3を参照すると、言語タイプ選択コントロール5をトリガしたと検出した時に、言語選択リストをポップアップし、リストに少なくとも1つの言語タイプが含まれ、ユーザーは、それから自身との一致度が高い言語タイプを選択し、ターゲット言語タイプとしてもよい。ターゲット言語タイプを選択した後に、ターゲットページにおける展示テキストは、ターゲット言語タイプに対応する展示テキストを展示することができる。
S430、文字記述及びユーザー身分標識に基づいて展示テキストを生成し、展示テキストとマルチメディアデータストリームとの間の位置対応関係を確立し、展示テキスト及びマルチメディアデータストリームをターゲットページに展示する。
例えば、テキスト記述及びユーザー身分標識、各オーディオビデオフレームに対応する文字記述に基づいて、録画ビデオに対応する展示テキストを生成する。
本開示の実施例の技術案については、予め設定されるターゲット言語タイプを取得することにより、録画ビデオに対応する展示テキストをターゲット言語タイプに対応する文字記述に表示することができ、ユーザーが、展示テキストを閲読する便利性を向上させるのみならず、展示テキストに基づいて録画ビデオ中の相応位置に位置決めることができる。さらに、展示テキストに基づいて閲読する過程において、ページにおける言語タイプ選択コントロールに基づいて、ターゲット言語タイプを更新し、ユーザーとの間の一致度及びユーザー体験の技術効果をさらに向上させる。
上記技術案を踏まえて、前記方法は、検索コンテンツ編集コントロールに編集された検索コンテンツを取得し、前記展示テキストから前記検索コンテンツに対応するターゲットコンテンツを取得し、各ターゲットコンテンツが前記検索コンテンツと同様であることと、前記展示テキストに前記ターゲットコンテンツを区別して表示し、前記マルチメディアデータストリームに対応する制御コントロールに前記ターゲットコンテンツに対応するオーディオビデオフレームをマークすることと、をさらに含む。ここで、前記制御コントロールは、前記マルチメディアデータストリームの再生時間軸と関連して展示される。ターゲットコンテンツのタイムスタンプに基づいて、制御コントロールにターゲットコンテンツに対応するオーディオビデオフレームの位置をマークする。
ここで、検索コンテンツ編集コントロールは、ターゲットページに表示され、検索コンテンツを編集するように構成されるコントロールであってもよい。ターゲットページには、異なる言語タイプの音声情報に基づいて生成される展示テキストが含まれてもよい。サーバは、検索コンテンツ編集コントロールに編集された検索コンテンツを取得し、取得された検索コンテンツをターゲットコンテンツとしてもよい。例えば、検索コンテンツ編集コントロールに編集された検索コンテンツは「アルゴリズム」であり、サーバが取得したターゲットコンテンツはアルゴリズムである。区別して表示するとは、ターゲットコンテンツを他のコンテンツに区別する方式により太字表示することであってもよい。制御コントロールにマークするとは、ターゲットコンテンツに対応するオーディオビデオフレームをマークし、例えば、図5を参照すると、ターゲットコンテンツに対応するオーディオビデオフレームを確定した後に、オーディオビデオフレームの制御コントロールでの位置を確定し、位置の下方にドット又は三角でマークすることができる。予め確立された関連関係に基づいて、ターゲットコンテンツのマルチメディアデータストリームに対応するオーディオビデオフレームを確定し、制御コントロールに前記ターゲットコンテンツに対応するオーディオビデオフレームをマークする。このように、ユーザーにターゲットコンテンツの展示テキストでの位置、及び、マルチメディアデータストリームでの位置を明確に理解させる。
なお、検索コンテンツ編集コントロールにおいて、ターゲットコンテンツの数を表示してもよく、例えば、図5を参照すると、検索コンテンツ編集コントロールに表示された合計数は12である。
また、ターゲットコンテンツの数は1つ以上であってもよく、相応的に、時間軸におけるマークの数も1つ以上であってもよく、図3を参照すると、ターゲットコンテンツの数は12であり、時間軸におけるマークも12である。もちろん、ユーザーに現在トリガされるターゲットコンテンツがすべてのターゲットコンテンツのうちの何番目であるかを確定させやすくするために、検索コンテンツ編集コントロールに現在トリガされるターゲットコンテンツに対応する順番も表示される。
本実施例において、前記マルチメディアデータストリームに対応する制御コントロールに前記ターゲットコンテンツに対応するオーディオビデオフレームをマークすることは、前記ターゲットコンテンツに対応する再生タイムスタンプを確定し、前記再生タイムスタンプに基づいて前記マルチメディアデータストリームに対応する制御コントロールに前記ターゲットコンテンツに対応するビデオ再生時刻をマークすることを含む。
例えば、ターゲットコンテンツに対応する再生タイムスタンプを確定でき、再生タイムスタンプに基づいて、対応するマルチメディアデータストリームを確定でき、制御コントロールに再生タイムスタンプに対応する位置でマークすることができる。
本実施例において、前記方法は、ターゲットコンテンツをトリガしたと検出した場合、前記ターゲットコンテンツのターゲット再生タイムスタンプを確定することと、前記ターゲット再生タイムスタンプに対応するマークを区別して表示することと、をさらに含む。
例えば、ユーザーは、ターゲットコンテンツをトリガでき、ターゲットコンテンツをトリガした時に、ターゲットコンテンツに対応するターゲット再生タイムスタンプを確定し、ターゲット再生タイムスタンプに対応するマークを他のマークと区別して表示してもよい。区別して表示するとは、色で区別して表示し、ハイライト表示するなどのことであってもよい。
例示的に、図6を参照し、ユーザーが、マーク1に対応するターゲットコンテンツをトリガした時に、マーク1のターゲットコンテンツに対応するターゲット再生タイムスタンプを確定でき、ターゲット再生タイムスタンプに基づいて、それの時間軸に対応するマークはマーク2に対応するマークであると確定でき、このマークを強調表示することができる。
図7は、本開示の別の実施例に係るインタラクティブ情報処理方法のフローチャートである。上記実施例を踏まえて、クライアント表示インターフェイスに展示されるコンテンツを確定した後に、ターゲットページにおけるコントロールをトリガした時に、相応する操作を実行することができる。そのうち、上記実施例と同様又は相応する名詞用語について、ここでは、説明を省略する。
図7に記載のように、前記方法は、以下のことを含む。
S510、マルチメディアデータストリームのオーディオビデオフレームに基づいて、オーディオビデオフレームに対応する発言ユーザーのユーザー身分標識を確定する。
S520、ユーザー身分標識及びオーディオビデオフレームに基づいて、展示テキストを生成する。
S530、展示テキストとマルチメディアデータストリームとの間の位置対応関係を確立する。
S540、位置対応関係に基づいて、展示テキスト及び展示テキストに対応するマルチメディアデータストリームを呈出する。
S550、ターゲットページにおける展示テキスト中の展示コンテンツをトリガしたと検出した場合、展示コンテンツに対応するタイムスタンプに基づいて、マルチメディアデータストリームをタイムスタンプに対応するビデオフレームにジャンプするように調節し、及び/又は、マルチメディアデータストリームに対するトリガ操作を検出した場合、トリガ操作に対応するマルチメディアデータストリームの再生タイムスタンプを取得し、再生タイムスタンプに基づいて、展示テキスト中の再生タイムスタンプに対応する展示コンテンツにジャンプする。
なお、ターゲットページに展示されるマルチメディアデータストリームと展示テキストとの間に一定の位置連動関係があるので、ターゲットページにおけるマルチメディアデータストリームと展示テキストとの間の同期表示を実現することができる。
例示的に、引き続き図4を参照し、ターゲットページにおける第1展示テキスト中の発言用Andyに対応する展示コンテンツをトリガしたと検出した時に、展示コンテンツに対応するタイムスタンプ00:00:05に基づいて、マルチメディアデータストリームのプログレスバーはタイムスタンプが00:00:05の対応する再生時刻にジャンプすることができる。即ち、ユーザーがコントロール1中のサブコントロール6をトリガした時に、マルチメディアデータストリームのプログレスバーがサブコントロール6に対応するタイムスタンプの再生時刻にジャンプすることができる。相応的に、マルチメディアデータストリームにおけるプログレスバーをトリガしたと検出した時に、マルチメディアデータストリームの再生時刻を確定でき、マルチメディアデータストリームの現在再生時刻に基づいて、展示テキスト中の現在再生時刻に対応する文字記述にジャンプし、文字とマルチメディアデータストリームとの間の連動を実現することができる。
上記方案を踏まえて、なお、前記位置対応関係に基づいて、前記展示テキストにマルチメディアデータストリームに対応する展示コンテンツを区別して表示する。
例えば、マルチメディアデータストリームは、録画ビデオであってもよく、録画ビデオが再生される過程において、現在ビデオフレームに対応するテキストコンテンツを展示テキストに区別して表示し、ユーザーに現在ビデオフレームの展示テキストでの具体的な位置を理解させることができ、ユーザーに閲読させやすい技術効果がある。
本実施例において、区別して表示するとは、テキスト中の他のコンテンツに区別する方式により現在ビデオフレームに対応するテキストコンテンツを呈出することであってもよい。現在ビデオフレームに対応するテキストコンテンツを呈出するとは、呈出エリア及び/又は呈出スタイルであってもよいが、これに限定されない。呈出エリアは、ターゲットページにおけるユーザーに注目させることができる呈出エリアであってもよい。呈出スタイルは、現在ビデオフレームに対応するテキストコンテンツをハイライト表示し、太字表示し、フォント色と他のコンテンツのフォント色とを区別するように表示することのうちの任意の少なくとも1種であってもよい。
マルチメディアデータストリームに対する正確調節を実現するために、ターゲットページに制御コントロールがさらに含まれてもよい。図3を参照すると、制御コントロール7も、マルチメディアデータストリームの現在再生時刻を調整するように設定されてもよい。正確調節を実現するために、制御コントロール7に対応するプログレスバー長さが、マルチメディアデータストリーム中のプログレスバー長さより大きい。マルチメディアデータストリームに対応する再生時間長は一定であるので、プログレスバーの長さが長いほど、対応する変化量が小さくなり、即ち、対応する調節精度が高くなっている。従って、コントロール7に対応するプログレスバー長さが、マルチメディアデータストリームに対応するプログレスバーより大きいので、コントロール7に対応する調整精度がマルチメディアデータストリームにおけるマルチメディアデータストリームの進行の調整コントロールの調整精度より大きい。
例えば、ターゲットページにおける制御コントロールをトリガしたと検出した場合、制御コントロールに対応する再生タイムスタンプを取得し、再生タイムスタンプに基づいて、マルチメディアデータストリームを再生タイムスタンプに対応する再生位置にジャンプするように調整し、展示テキストに再生タイムスタンプに対応するビデオフレームの展示テキストコンテンツを区別して表示する。
例えば、ターゲットページにおける制御コントロールをトリガしたと検出した場合、制御コントロール中のプログレスバーに対応する再生時刻を取得し、即ち、制御コントロール中のプログレスバーが移動した位置をドラッグし、この位置はマルチメディアデータストリームの再生タイムスタンプに対応してもよい。再生タイムスタンプに基づいて、前記マルチメディアデータストリームを前記再生タイムスタンプに対応するオーディオビデオフレームにジャンプするとともに、前記ビデオフレームの展示テキストでの対応する展示コンテンツを確定する。
なお、マルチメディアデータストリームの再生過程において、ユーザーに、現在ビデオフレームに対応するテキストコンテンツを確定させやすく、即ち、展示テキストから現在ビデオフレームに対応するテキストコンテンツを素早く確定するため。例えば、マルチメディアデータストリームの再生過程において、現在オーディオビデオフレームに対応する再生タイムスタンプに基づいて、再生タイムスタンプの展示テキストに対応する展示コンテンツを確定し、コンテンツを区別して表示し、例えば、ハイライト表示する。このように、展示テキストから現在ビデオフレームに対応する展示コンテンツに素早く位置決めることができ、ユーザーによる閲読の便利性及び効率性の技術効果を向上させる。
例えば、ターゲットページにおける編集コントロールをトリガしたと検出した場合、権限編集リストを表示し、前記権限編集リストに基づいて、各インタラクティブユーザーのユーザー権限を確定する。前記ユーザー権限は、閲読権限及び編集権限を含む。閲読権限は、テキスト情報及びビデオ情報を閲読する権限である。編集権限は、テキスト中の情報を編集する権限である。
なお、ターゲットページには、編集コントロールがさらに含まれる。ユーザーが権限編集コントロールをトリガした場合、編集権限に対応するプルダウンメニューを表示し、ユーザーは、メニューから各発言ユーザーのユーザー権限を編集することができる。ユーザー権限は、閲読権限及び編集権限を含んでもよい。閲読権限は、ターゲットページにおけるビデオ又は展示テキストのみを閲覧又は閲読できるが、そのコンテンツを編集できない権限である。編集権限を有するユーザーはターゲットページにおける展示テキストのコンテンツを編集するのみならず、それを他のユーザーへ共有することができる。このように、異なるユーザーに対して、相応する権限を設定して、内部資源の流出を効果的に回避することができる。
例示的に、引き続き図3を参照すると、ターゲットページにおける編集コントロール8をトリガしたと検出した時に、権限編集リストをポップアップし、権限編集リストに基づいて、各インタラクティブユーザーの権限を編集することができる。
なお、実際の応用過程において、マルチメディアデータストリーム及び対応する展示テキストを他のユーザーに共有する必要がある場合、ターゲットページにおける共有コントロールにより実現されることができる。例えば、ターゲットページにおける共有コントロールをトリガしたと検出した時に、現在ページに対応するターゲットリンクを生成し、前記ターゲットリンクを共有対象となるユーザーへ送信し、前記共有対象となるユーザーに、前記ターゲットリンクに基づいて前記マルチメディアデータストリーム及び前記展示テキストを閲覧させる。
ここで、共有コントロールはターゲットページに含まれたマルチメディアデータストリーム及び展示テキストを他のユーザーのコントロールに共有することができる。
例えば、ターゲットページにおける共有コントロールをトリガしたと検出した時に、ターゲットページにおけるコンテンツに基づいて相応するリンクを生成し、このリンクを他のユーザーに送信することができる。他のユーザーがこのリンクを受信した時に、このリンクに基づいてマルチメディアデータストリーム及び展示テキストを含む、ターゲットページを取得することができる。
例示的に、引き続き図3を参照すると、ターゲットページにおける共有コントロール9をトリガしたと検出した時に、ターゲットページに対応するターゲットリンクを生成し、ターゲットリンクを他のユーザーへ送信し、他のユーザーにこのリンクに基づいて、ターゲットページにおけるマルチメディアデータストリーム及び展示テキストを閲覧させることができる。
上記技術案を踏まえて、なお、他のユーザーにマルチメディアデータストリーム中の各インタラクティブユーザー及び総人数を明確させるために、各インタラクティブユーザーのアバター及び総人数標識を表示し、例えば、コントロール10に対応する位置に表示してもよく、さらに、このマルチメディアデータストリームの司会者を表示し、例えば、コントロール11に対応する位置に表示してもよい。
図8は本開示の実施例に係るインタラクティブ情報展示方法のフローチャートである。図8に示すように、前記方法は、以下のことを含む。
S810、マルチメディアデータストリームに基づいて生成される展示テキストをターゲットページの第1展示エリアに展示する。
S820、前記マルチメディアデータストリームを前記ターゲットページの第2展示エリアに展示する。
ここで、前記展示テキストと前記マルチメディアデータストリームとの間は位置対応関係を有する。
上記技術案を踏まえて、前記方法は、前記マルチメディアデータストリームのビデオフレームに対応するコンテンツを前記ターゲットページの第3展示エリアに展示することと、前記マルチメディアデータストリームのオーディオビデオフレーム中のキーワード及びキーセンテンスのうちの少なくとも1つを前記ターゲットページの第4展示エリアに展示することと、をさらに含む。ここで、前記オーディオビデオフレームは前記ビデオフレームを含む。
上記技術案を踏まえて、前記方法は、前記マルチメディアデータストリームの再生過程において、前記展示テキストと前記マルチメディアデータストリームとの間の位置対応関係に基づいて、順に現在再生進行に対応する展示テキスト中の展示コンテンツを区別して展示することをさらに含む。区別して展示するとは、色で区別して展示し、ハイライト展示する、などのことであってもよい。
上記技術案を踏まえて、前記方法は、前記マルチメディアデータストリームの再生進行に対するトリガ操作に応答し、前記位置対応関係に基づいて、前記展示テキストの展示コンテンツに対してジャンプ展示を行うこと、又は、前記展示テキストの展示コンテンツに対するトリガ操作に応答し、前記位置対応関係に基づいて、前記マルチメディアデータストリームの再生進行に対してジャンプ展示を行うこと、をさらに含む。
図9は、本開示の一実施例に係るインタラクティブ情報処理装置の構造模式図であり、図9に示すように、前記装置は、対応関係確立モジュール610及びコンテンツ呈出モジュール620を含む。
ここで、対応関係確立モジュール610は、マルチメディアデータストリームに基づいて生成される展示テキストと前記マルチメディアデータストリームとの間の位置対応関係を確立するように構成される。コンテンツ呈出モジュール620は、前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出するように構成される。上記各技術案を踏まえて、前記装置は、マルチメディアデータストリームのオーディオビデオフレームを取得し、前記オーディオビデオフレームに対応する発言ユーザーのユーザー身分標識を確定するように構成されるユーザー身分標識取得モジュールと、前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成するように構成される展示テキスト確定モジュールと、をさらに含む。
上記各技術案を踏まえて、前記装置は、オーディオフレームに対して声紋識別を行うことにより、発言ユーザーのユーザー身分標識を確定し、及び/又は、前記オーディオフレームが属するクライアントのクライアント標識を確定し、前記クライアント標識に基づいて、発言ユーザーのユーザー身分標識を確定するように構成される情報確定モジュールをさらに含む。
上記各技術案を踏まえて、前記装置は、
オーディオフレームに対して音声文字変換処理を行うことにより、オーディオフレームに対応する文字記述を得て、前記文字記述及び前記ユーザー身分標識に基づいて、展示テキスト中の第1展示テキストを生成するように構成される第1テキスト展示モジュールをさらに含む。
上記各技術案を踏まえて、前記装置は、ビデオフレームに対して文字認識を行うことにより、前記ビデオフレームにおける文字を得て、前記文字及び前記ユーザー身分標識に基づいて展示テキスト中の第2展示テキストを生成するように構成される第2テキスト展示モジュールをさらに含む。
上記各技術案を踏まえて、前記第1展示テキスト確定モジュールは、さらに、オーディオフレームに対応する文字記述、オーディオフレームが現在対応するタイムスタンプ、及び、前記オーディオフレームが属する発言ユーザーのユーザー身分標識を確定し、前記ユーザー身分標識、タイムスタンプ及び前記文字記述に基づいて、前記展示テキスト中の1つの展示コンテンツを生成するように構成される。
上記各技術案を踏まえて、各展示コンテンツのパッケージには少なくとも1つの段落が含まれ、第1テキスト展示モジュールは、オーディオフレームに基づいて音声文字変換処理を行う過程において、隣り合うオーディオフレーム間の間隔時間長が予め設定された間隔時間長閾値以上であり、且つ、次のオーディオフレームが属するユーザー身分標識が変化しないと検出した場合、前記次のオーディオフレームに基づいて前記展示コンテンツ中の次の段落を生成するように構成される。
上記各技術案を踏まえて、前記装置は、前記ビデオフレームに少なくとも1つのURLアドレスが含まれると、前記少なくとも1つのURLアドレスに基づいて、第2展示テキスト中の第1展示コンテンツを生成するように構成される第2テキスト展示モジュール、をさらに含む。
上記各技術案を踏まえて、前記装置は、さらに、前記ビデオフレームに文字が含まれると、前記文字に基づいて第2展示テキスト中の第2展示コンテンツを確定するように構成される第2テキスト展示モジュール、をさらに含む。
上記各技術案を踏まえて、展示テキスト確定モジュールは、前記オーディオビデオフレームに基づいて、前記展示テキスト中の第3展示テキストを確定し、前記第3展示テキスト中のターゲットコンテンツをトリガしたと検出した時に、第1展示テキストから前記ターゲットコンテンツに対応するコンテンツを確定して、区別して表示し、前記第3展示テキストに少なくとも1つのキーワード及び/又はキーセンテンスが含まれるように構成される。
上記各技術案を踏まえて、前記展示テキスト及び録画ビデオをターゲットページに展示することは、前記展示テキスト中の第1展示テキスト、第2展示テキスト、第3展示テキスト、及び録画ビデオを、それぞれ前記ターゲットページにおける予め設定された展示エリア内に展示することを含む。
上記各技術案を踏まえて、前記装置は、各展示テキスト中の展示コンテンツに基づいて、各展示テキストの表示ページでのエリア占有率を確定するように構成されるエリア占有率確定モジュールを含む。
上記各技術案を踏まえて、前記装置は、さらに、前記オーディオ情報に対応するオリジナル言語タイプを取得し、前記ユーザー身分標識、前記オーディオビデオフレーム、及び前記オーディオビデオフレームに対応するオリジナル言語タイプに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成するように構成される前記展示テキスト確定モジュールを含む。
上記各技術案を踏まえて、前記展示テキスト確定モジュールは、ターゲット言語タイプを確定し、前記オーディオビデオフレームをオーディオビデオフレームに対応するオリジナル言語タイプから前記ターゲット言語タイプに対応する文字記述に変換し、前記文字記述及びユーザー身分標識に基づいて、前記展示テキストを生成するように構成される。
上記各技術案を踏まえて、前記ターゲット言語タイプ確定モジュールは、現在クライアントに使用される履歴言語タイプを取得し、前記履歴言語タイプに基づいてターゲット言語タイプを確定するように構成される。
上記各技術案を踏まえて、前記履歴言語タイプに基づいてターゲット言語タイプを確定することは、
各履歴言語タイプの使用頻度に基づいて、履歴言語タイプからターゲット言語タイプを確定する方式と、
現在クライアントに設けられた言語タイプをターゲット言語タイプとする方式と、
現在クライアントのログインアドレスに基づいて、ターゲット言語タイプを確定する方式と、のうちの少なくとも1つの方式を含む。
上記各技術案を踏まえて、前記位置対応関係はタイムスタンプ同期関連関係を含み、前記モジュールは、さらに、前記展示テキスト中のタイムスタンプ及び前記マルチメディアデータストリームのタイムスタンプに基づいて、前記展示テキストと前記マルチメディアデータストリームとの間のタイムスタンプ同期関連関係を確立するように構成される。
上記各技術案を踏まえて、前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出することは、前記位置対応関係に基づいて、前記展示テキストにマルチメディアデータストリームに対応する展示コンテンツを区別して表示することを含む。
上記各技術案を踏まえて、前記マルチメディアデータストリーム及び前記展示テキストがターゲットページに表示され、前記ターゲットページに制御コントロールがさらに含まれ、前記装置は、前記制御コントロールに基づいて、前記録画ビデオ及び前記展示テキストに現在展示されるコンテンツを同時に調整し、前記制御コントロールに対応する調整精度が、前記録画ビデオにおいて録画ビデオの進行を調整する調整コントロールの調整精度より大きくする制御モジュールをさらに含む。
上記各技術案を踏まえて、前記装置は、
前記ターゲットページにおける制御コントロールをトリガしたと検出した場合、前記制御コントロールにおいて対応する再生タイムスタンプを取得し、前記再生タイムスタンプに基づいて前記マルチメディアデータストリームを前記再生タイムスタンプに対応する再生位置にジャンプするように調整し、前記展示テキストに前記再生タイムスタンプに対応するビデオフレームの展示テキストコンテンツを区別して表示するように構成される、制御モジュール、をさらに含む。
上記各技術案を踏まえて、前記装置は、
ターゲットページにおける前記展示テキスト中の展示コンテンツをトリガしたと検出した場合、前記展示コンテンツに対応するタイムスタンプに基づいて、前記録画ビデオを前記タイムスタンプに対応するビデオフレームにジャンプするように調節し、及び/又は、
前記録画ビデオに対するトリガ操作を検出した場合、前記トリガ操作に対応する録画ビデオの再生タイムスタンプを取得し、前記再生タイムスタンプに基づいて、前記展示テキスト中の前記再生タイムスタンプに対応する展示コンテンツにジャンプするように構成されるジャンプモジュールをさらに含む。
上記各技術案を踏まえて、前記装置は、ターゲットページにおける編集コントロールに対するトリガ操作を検出した場合、権限編集リストを表示し、前記権限編集リストに基づいて各インタラクティブユーザーのユーザー権限を確定し、前記ユーザー権限は、ユーザーの前記ターゲットページに呈出されるコンテンツに対するアクセス権限を表すために用いられるように構成される権限編集モジュール、をさらに含む。
上記各技術案を踏まえて、前記装置は、ターゲットページにおける共有コントロールをトリガしたと検出した場合、ターゲットページに対応するターゲット標識を生成し、前記ターゲット標識を共有対象となるユーザーへ送信し、前記共有対象となるユーザーに前記ターゲット標識に基づいて前記ターゲットページを取得させるように構成されるターゲットページ共有モジュール、をさらに含む。
上記技術案を踏まえて、前記装置は、検索コンテンツ編集コントロールに編集された検索コンテンツを取得し、前記展示テキストから前記検索コンテンツに対応するターゲットコンテンツを取得し、各ターゲットコンテンツは前記検索コンテンツと同様であり、前記展示テキストに前記ターゲットコンテンツを区別して表示し、前記マルチメディアデータストリームに対応する制御コントロールに前記ターゲットコンテンツに対応するオーディオビデオフレームをマークするように構成される検索モジュール、をさらに含む。
上記各技術案を踏まえて、前記検索モジュールは、さらに、前記ターゲットコンテンツに対応する再生タイムスタンプを確定し、前記再生タイムスタンプに基づいて前記マルチメディアデータストリームに対応する制御コントロールに前記ターゲットコンテンツに対応するオーディオビデオフレームをマークするように構成される。
上記各技術案を踏まえて、前記装置は、ターゲットコンテンツをトリガしたと検出した場合、前記ターゲットコンテンツのターゲット再生タイムスタンプを確定し、前記ターゲット再生タイムスタンプに対応するマークを前記制御コントロールに区別して表示するように構成される区別表示モジュール、をさらに含む。
本開示の実施例の技術案については、録画ビデオと展示テキストとの間の位置対応関係を確立することにより、録画ビデオと展示テキストとの間の位置連動を実現し、ユーザーによるテキスト及び録画ビデオの閲読の効率性及び便利性の技術効果を向上させる。
本開示の実施例に係るインタラクティブ情報処理装置は、本開示のいずれかの実施例に係るインタラクティブ情報処理方法を実行でき、方法の実行に対応する機能モジュール及び有益効果を備える。
なお、上記装置が備える各ユニット及びモジュールは、機能ロジックに従って分割されたものに過ぎず、上記分割に限定されるものではなく、相応する機能を実現できれば良い。また、各機能ユニットの具体的な名称も、互いに区別しやすいものに過ぎず、本開示の実施例の保護範囲を制限するためのものではない。
以下、図10を参照し、これは、本開示の実施例を実現するために適用される電子機器(例えば、図10における端末機器又はサーバ)700の構造模式図を示している。本開示の実施例における端末機器は、携帯電話機、ノートパソコン、デジタル放送受信機、PDA(パーソナルデジタルアシスタント)、PAD(タブレットコンピュータ)、PMP(ポータブルマルチメディアプレイヤー)、車載端末(例えば、車載ナビゲーション端末)等のようなモバイル端末、及び、デジタルTV、デスクトップ型コンピュータ等のような固定端末を含んでもよいが、これらに限定されない。図10に示す電子機器は一例に過ぎず、本開示の実施例の機能及び使用範囲に何らかの制限を与えるものではない。
図10に示すように、電子機器700は、処理装置(例えば、中央プロセッサ、グラフィックプロセッサなど)701を備えてもよく、前記処理装置701は、読み出し専用メモリ(ROM)702に記憶されたプログラム、又は、記憶装置706からランダムアクセスメモリ(RAM)703にロードされたプログラムに基づいて、様々な適当な動作及び処理を実行することができる。RAM703には、電子機器700の操作に必要な様々なプログラム及びデータがさらに記憶されている。処理装置701、ROM702及びRAM703は、バス704を介して互いに接続されている。入力/出力(I/O)インターフェイス705もバス704に接続されている。
通常、例えば、タッチパネル、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどを含む入力装置706、例えば、液晶ディスプレイ(LCD)、スピーカ、バイブレータなどを含む出力装置707、例えば、磁気テープ、ハードディスクなどを含む記憶装置706、及び通信装置709は、I/Oインターフェイス705に接続することができる。通信装置709は、電子機器700が他の機器と無線又は有線通信してデータを交換することを可能にする。図10は、様々な装置を備える電子機器700を示すが、全ての示された装置を実施又は具備することは必要ではない。代わりに、より多い又はより少ない装置を実施又は具備してもよいと理解されるべきである。
特に、本開示の実施例により、上記フローチャートを参照して記述した過程は、コンピュータソフトウェアプログラムとして実現されることができる。例えば、本開示の実施例は、非一時的コンピュータ可読媒体に担持されたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例において、このコンピュータプログラムは、通信装置709により、ネットワークからダウンロードされてインストールされてもよいし、記憶装置706からインストールされてもよいし、ROM702からインストールされてもよい。このコンピュータプログラムが処理装置701により実行されると、本開示の実施例の方法で限定される上記機能を実行する。
本開示の実施例に係る電子機器は、上記実施例に係るインタラクティブ情報処理方法と同じ発明思想に属しており、本実施例で詳しく説明されていない技術詳細は、上記実施例を参照することができ、本実施例は上記実施例と同じ有益効果を有する。
本開示の実施例は、コンピュータプログラムが記憶され、このプログラムがプロセッサにより実行される時に上記実施例に係るインタラクティブ情報処理方法を実現するコンピュータ記憶媒体を提供する。
なお、本開示に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体であってもよいし、コンピュータ可読記憶媒体であってもよいし、上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は、半導体のシステム、装置、又はデバイス、あるいは、以上の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1つ又は複数のリード線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は、上記の任意の適当な組み合わせを含んでもよいが、これらに限定されない。本開示において、コンピュータ可読記憶媒体は、命令実行システム、装置又はデバイスに使用され得る、又は、それと合わせて使用され得るプログラムを含有又は記憶する有形的な媒体であってもよい。本開示において、コンピュータ可読信号媒体は、ベースバンドで又は搬送波の一部として伝搬されるデータ信号を含んでもよく、その中にコンピュータ可読プログラムコードが担持されている。このような伝搬されるデータ信号は、様々な形式を採用することができ、電磁信号、光信号、又は、上記の任意の適当な組み合わせを含んでもよいが、これらに限定されない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、このコンピュータ可読信号媒体は、命令実行システム、装置、又はデバイスに使用される、又は、それと合わせて使用されるプログラムを送信、伝搬、又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適当な媒体で伝送でき、電線、光ケーブル、RF(無線周波数)など、又は、上記の任意の適当な組み合わせを含んでもよいが、これらに限定されない。
いくつかの実施形態において、クライアント、サーバは、HTTP(HyperText Transfer Protocol、ハイパーテキストトランスファープロトコル)のような、任意の現在知られている又は将来研究開発されるネットワークプロトコルを利用して通信することができ、且つ、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)と相互接続できる。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、ネットワークオフネットワーク(例えば、インターネット)、及びピアツーピアネットワーク(例えば、ad hocピアツーピアネットワーク)、及び任意の現在知られている又は将来研究開発されるネットワークを含む。
上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよいし、単独で存在してこの電子機器に取り付けられていないものであってもよい。
上記コンピュータ可読媒体に1つ又は複数のプログラムが担持され、上記1つ又は複数のプログラムがこの電子機器により実行されると、この電子機器は、
マルチメディアデータストリームに基づいて生成される展示テキストと前記マルチメディアデータストリームとの間の位置対応関係を確立し、
前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出する。
1種又は複数種のプログラミング言語又はその組み合わせで本開示の操作を実行するためのコンピュータプログラムコードを記述することができ、上記プログラミング言語は、Java(登録商標)、Smalltalk、C++のようなオブジェクト指向プログラミング言語を含み、「C」言語のような通常の手続型プログラミング言語又は類似するプログラミング言語をさらに含むが、これらに限定されない。プログラムコードは、完全にユーザーのコンピュータで実行されてもよいし、部分的にユーザーのコンピュータで実行されてもよいし、1つの独立したソフトウェアパッケージとして実行されてもよいし、部分的にユーザーのコンピュータで部分的にリモートコンピュータで実行されてもよいし、完全にリモートコンピュータ又はサーバで実行されてもよい。リモートコンピュータに関する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザーのコンピュータに接続することができ、又は、外部コンピュータに(例えば、インターネットサービスプロバイダを利用してインターネットを介して)接続することができる。
図面におけるフローチャート及びブロック図は、本開示の様々な実施例によるシステム、方法、及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能及び操作を図示している。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムブロック、又はコードの一部を表すことができ、このモジュール、プログラムブロック、又はコードの一部は、所定のロジック機能を実現するための1つ又は複数の実行可能命令を含む。なお、代替としてのいくつかの実現において、ブロックに記載された機能は、図面に記載された順序と異なる順序で発生してもよい。例えば、接続されるように示された2つのブロックは、関する機能によって、実際には、ほぼ並行して実行してもよいし、逆の順序で実行してもよい。なお、ブロック図及び/又はフローチャートにおける各ブロック、及び、ブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウェアに基づくシステムで実現してもよいし、専用のハードウェアとコンピュータ命令との組み合わせで実現してもよい。
本開示に記載の実施例に係るユニットは、ソフトウェアの方式で実現されてもよいし、ハードウェアの方式で実現されてもよい。ここで、ユニット・モジュールの名称は、ある場合に、このユニット自体を限定するものではなく、例えば、対応関係確立モジュールは、「タイムスタンプ同期関連関係確立モジュール」と記述されてもよい。
以上、本文に記載の機能は、少なくとも部分的に1つ又は複数のハードウェアロジックコンポーネントにより実行されてもよい。例えば、非限定的に、使用可能な例示的なタイプのハードウェアロジックコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準パーツ(ASSP)、システムオンチップのシステム(SOC)、複合プログラマブルロジックデバイス(CPLD)などを含む。
本開示の明細書において、機器可読媒体は、命令実行システム、装置、又はデバイスに使用される、又は、命令実行システム、装置、又はデバイスと合わせて使用されるプログラムを含有又は記憶できる有形的な媒体であってもよい。機器可読媒体は、機器可読信号媒体又は機器可読記憶媒体であってもよい。機器可読媒体は、電子、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、又は、上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体のより具体的な例は、1つ又は複数の線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、又は上記内容の任意の適当な組み合わせを含む。
本開示の1つ又は複数の実施例により、[例1]は、
マルチメディアデータストリームに基づいて生成される展示テキストと前記マルチメディアデータストリームとの間の位置対応関係を確立することと、
前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出することと、を含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例2]は、
例えば、マルチメディアデータストリームのオーディオビデオフレームを取得し、前記オーディオビデオフレームに対応する発言ユーザーのユーザー身分標識を確定することと、
前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例3]は、
例えば、前記マルチメディアデータストリームのオーディオビデオフレームを取得し、前記オーディオビデオフレームに対応する発言ユーザーのユーザー身分標識を確定することは、
オーディオフレームに対して声紋識別を行うことにより、発言ユーザーのユーザー身分標識を確定すること、及び/又は、
前記オーディオフレームが属するクライアントのクライアント標識を確定し、前記クライアント標識に基づいて発言ユーザーのユーザー身分標識を確定することを含む、ことをさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例4]は、
例えば、前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することは、
オーディオフレームに対して音声文字変換処理を行うことにより、オーディオフレームに対応する文字記述を得て、前記文字記述及び前記ユーザー身分標識に基づいて展示テキスト中の第1展示テキストを生成することを含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例5]は、
例えば、前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することは、
ビデオフレームに対して文字認識を行うことにより、前記ビデオフレームにおける文字を得て、前記文字及び前記ユーザー身分標識に基づいて展示テキスト中の第2展示テキストを生成することを含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例6]は、
例えば、前記オーディオフレームに対して音声文字変換処理を行うことにより、オーディオフレームに対応する文字記述を得て、前記文字記述及び前記ユーザー身分標識に基づいて展示テキスト中の第1展示テキストを生成することは、
オーディオフレームに対応する文字記述、オーディオフレームが現在対応するタイムスタンプ、及び前記オーディオフレームが属する発言ユーザーのユーザー身分標識を確定することと、
前記ユーザー身分標識、タイムスタンプ、及び前記文字記述に基づいて前記展示テキスト中の1つの展示コンテンツを生成することと、を含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例7]は、
例えば、各展示コンテンツのパッケージに少なくとも1つの段落が含まれ、前記オーディオフレームに対して音声文字変換処理を行うことにより、オーディオフレームに対応する文字記述を得て、前記文字記述及び前記ユーザー身分標識に基づいて展示テキスト中の第1展示テキストを生成することは、
オーディオフレームに基づいて音声文字変換処理を行う過程において、隣り合うオーディオフレーム間の間隔時間長が予め設定された間隔時間長閾値以上であり、且つ、次のオーディオフレームが属するユーザー身分標識が変化しないと検出した場合、前記次のオーディオフレームに基づいて前記展示コンテンツ中の次の段落を生成することを含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例8]は、
例えば、前記ビデオフレームに対して文字認識を行うことにより、展示テキスト中の第2展示テキストを得ることは、
前記ビデオフレームに少なくとも1つのURLアドレスが含まれると、前記少なくとも1つのURLアドレスに基づいて、第2展示テキスト中の第1展示コンテンツを生成することを含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例9]は、
例えば、前記ビデオフレームに対して文字認識を行うことにより、展示テキスト中の第2展示テキストを得ることは、前記ビデオフレームに文字が含まれると、前記文字に基づいて、第2展示テキスト中の第2展示コンテンツを確定することを含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例10]は、
例えば、前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することは、
前記オーディオビデオフレームに基づいて、前記展示テキスト中の第3展示テキストを確定し、前記第3展示テキスト中のターゲットコンテンツをトリガしたと検出した時に、第1展示テキストから前記ターゲットコンテンツに対応するコンテンツを確定して、区別して表示し、前記第3展示テキストに少なくとも1つのキーワード及び/又はキーセンテンスが含まれることを含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例11]は、
例えば、前記展示テキスト及び録画ビデオをターゲットページに展示することは、前記展示テキスト中の第1展示テキスト、第2展示テキスト、第3展示テキスト、及び録画ビデオをそれぞれ前記ターゲットページにおける予め設定された展示エリア内に展示することを含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例12]は、
例えば、各展示テキスト中の展示コンテンツに基づいて、各展示テキストの表示ページでのエリア占有率を確定すること、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例13]は、
例えば、前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することは、
前記オーディオ情報に対応するオリジナル言語タイプを取得することと、
前記ユーザー身分標識、前記オーディオビデオフレーム、及び前記オーディオビデオフレームに対応するオリジナル言語タイプに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することと、を含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例14]は、
例えば、前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することは、
ターゲット言語タイプを確定し、前記オーディオビデオフレームをオーディオビデオフレームに対応するオリジナル言語タイプから前記ターゲット言語タイプに対応する文字記述に変換することと、
前記文字記述及びユーザー身分標識に基づいて、前記展示テキストを生成することと、を含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例15]は、
例えば、前記ターゲット言語タイプを確定することは、
現在クライアントに使用される履歴言語タイプを取得し、前記履歴言語タイプに基づいてターゲット言語タイプを確定することを含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例16]は、
例えば、前記履歴言語タイプに基づいてターゲット言語タイプを確定することは、
各履歴言語タイプの使用頻度に基づいて、履歴言語タイプからターゲット言語タイプを確定する方式と、
現在クライアントに設けられた言語タイプをターゲット言語タイプとする方式と、
現在クライアントのログインアドレスに基づいて、ターゲット言語タイプを確定する方式と、のうちの少なくとも1つの方式を含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例17]は、
例えば、前記位置対応関係はタイムスタンプ同期関連関係を含み、前記マルチメディアデータストリームに基づいて生成される展示テキストと前記マルチメディアデータストリームとの間の位置対応関係を確立することは、
前記展示テキスト中のタイムスタンプ及び前記マルチメディアデータストリームのタイムスタンプに基づいて、前記展示テキストと前記マルチメディアデータストリームとの間のタイムスタンプ同期関連関係を確立することを含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例18]は、
例えば、前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出することは、
前記位置対応関係に基づいて、前記展示テキストにマルチメディアデータストリームに対応する展示コンテンツを区別して表示することを含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例19]は、
例えば、前記マルチメディアデータストリーム及び前記展示テキストがターゲットページに表示され、前記ターゲットページに制御コントロールがさらに含まれ、前記方法は、
前記制御コントロールに基づいて、前記録画ビデオ及び前記展示テキストに現在展示されるコンテンツを同時に調整し、
前記制御コントロールに対応する調整精度が前記録画ビデオにおいて録画ビデオの進行を調整する調整コントロールの調整精度より大きくすること、をさらに含むインタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例20]は、
例えば、前記ターゲットページにおける制御コントロールをトリガしたと検出した場合、前記制御コントロールにおいて対応する再生タイムスタンプを取得し、前記再生タイムスタンプに基づいて前記マルチメディアデータストリームを前記再生タイムスタンプに対応する再生位置にジャンプするように調整することと、前記展示テキストに前記再生タイムスタンプに対応するビデオフレームの展示テキストコンテンツを区別して表示すること、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例21]は、
例えば、ターゲットページにおける前記展示テキスト中の展示コンテンツをトリガしたと検出した場合、前記展示コンテンツに対応するタイムスタンプに基づいて、前記録画ビデオを前記タイムスタンプに対応するビデオフレームにジャンプするように調節すること、及び/又は、
前記録画ビデオに対するトリガ操作を検出した場合、前記トリガ操作に対応する録画ビデオの再生タイムスタンプを取得し、前記再生タイムスタンプに基づいて前記展示テキスト中の前記再生タイムスタンプに対応する展示コンテンツにジャンプすること、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例22]は、
例えば、ターゲットページにおける編集コントロールに対するトリガ操作を検出した場合、権限編集リストを表示し、前記権限編集リストに基づいて各インタラクティブユーザーのユーザー権限を確定し、前記ユーザー権限は、ユーザーの前記ターゲットページに呈出されるコンテンツに対するアクセス権限を表すために用いられること、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例23]は、
例えば、ターゲットページにおける共有コントロールをトリガしたと検出した場合、ターゲットページに対応するターゲット標識を生成し、前記ターゲット標識を共有対象となるユーザーへ送信し、前記共有対象となるユーザーに前記ターゲット標識に基づいて前記ターゲットページを取得させる、ことをさらに含むインタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例24]は、
例えば、検索コンテンツ編集コントロールに編集された検索コンテンツを取得し、前記展示テキストから前記検索コンテンツに対応するターゲットコンテンツを取得し、各ターゲットコンテンツが前記検索コンテンツと同様であることと、
前記展示テキストに前記ターゲットコンテンツを区別して表示し、前記マルチメディアデータストリームに対応する制御コントロールに前記ターゲットコンテンツに対応するオーディオビデオフレームをマークすることと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例25]は、
例えば、前記マルチメディアデータストリームに対応する制御コントロールに前記ターゲットコンテンツに対応するオーディオビデオフレームをマークすることは、
前記ターゲットコンテンツに対応する再生タイムスタンプを確定し、前記再生タイムスタンプに基づいて前記マルチメディアデータストリームに対応する制御コントロールに前記ターゲットコンテンツに対応するオーディオビデオフレームをマークすることを含むこと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例26]は、
例えば、ターゲットコンテンツをトリガしたと検出した場合、前記ターゲットコンテンツのターゲット再生タイムスタンプを確定することと、
前記ターゲット再生タイムスタンプに対応するマークを前記制御コントロールに区別して表示することと、をさらに含む、インタラクティブ情報処理方法を提供する。
本開示の1つ又は複数の実施例により、[例27]は、
マルチメディアデータストリームに基づいて生成される展示テキストと前記マルチメディアデータストリームとの間の位置対応関係を確立するために用いられる対応関係確立モジュールと、
前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出するために用いられるコンテンツ呈出モジュールと、を含む、インタラクティブ情報処理装置を提供する。
なお、特定の順番で各操作を記述したが、これらの操作を示された特定の順番又は正方向順番で実行する必要があると理解されるべきではない。一定の環境において、マルチタスク及び並行処理が有利である可能性がある。同様に、以上の検討には複数の具体的な実現詳細が含まれているが、これらは、本開示の範囲を限定するものと理解されるべきではない。単独の実施例のコンテキストに記述された一部の特徴は、組み合わせて単一の実施例で実現されてもよい。逆に、単一の実施例のコンテキストに記述された様々な特徴は、単独で、又は、任意の適当なサブ組み合わせの方式で複数の実施例で実現されてもよい。

Claims (33)

  1. インタラクティブ情報処理方法であって、
    マルチメディアデータストリームに基づいて生成される展示テキストと前記マルチメディアデータストリームとの間の位置対応関係を確立することと、
    前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出することと、を含む、
    方法。
  2. 前記方法は、さらに、
    前記マルチメディアデータストリームのオーディオビデオフレームを取得し、前記オーディオビデオフレームに対応する発言ユーザーのユーザー身分標識を確定することと、
    前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することと、
    を含む、請求項1に記載の方法。
  3. 前記オーディオビデオフレームはオーディオフレームを含み、
    前記マルチメディアデータストリームのオーディオビデオフレームを取得し、前記オーディオビデオフレームに対応する発言ユーザーのユーザー身分標識を確定することは、
    前記オーディオフレームに対して声紋識別を行うことにより、発言ユーザーのユーザー身分標識を確定する方式と、
    前記オーディオフレームが属するクライアントのクライアント標識を確定し、前記クライアント標識に基づいて発言ユーザーのユーザー身分標識を確定する方式と、
    のうちの少なくとも1つの方式を含む、
    請求項2に記載の方法。
  4. 前記オーディオビデオフレームはオーディオフレームを含み、
    前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することは、
    前記オーディオフレームに対して音声文字変換処理を行うことにより、前記オーディオフレームに対応する文字記述を得て、前記文字記述及び前記ユーザー身分標識に基づいて前記展示テキスト中の第1展示テキストを生成すること、
    を含む、請求項2に記載の方法。
  5. 前記オーディオビデオフレームはビデオフレームを含み、
    前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することは、
    前記ビデオフレームに対して文字認識を行うことにより、前記ビデオフレームにおける文字を得て、前記文字及び前記ユーザー身分標識に基づいて前記展示テキスト中の第2展示テキストを生成すること、
    を含む、請求項2に記載の方法。
  6. 前記オーディオフレームに対して音声文字変換処理を行うことにより、前記オーディオフレームに対応する文字記述を得て、前記文字記述及び前記ユーザー身分標識に基づいて前記展示テキスト中の第1展示テキストを生成することは、
    オーディオフレームに対応する文字記述、オーディオフレームが現在対応するタイムスタンプ、及び、前記オーディオフレームが属する発言ユーザーのユーザー身分標識を確定することと、
    前記ユーザー身分標識、タイムスタンプ、及び、前記文字記述に基づいて、前記展示テキスト中の展示コンテンツを生成することと、
    を含む、請求項4に記載の方法。
  7. 前記展示コンテンツのパッケージに少なくとも1つの段落が含まれ、
    前記オーディオフレームに対して音声文字変換処理を行うことにより、前記オーディオフレームに対応する文字記述を得て、前記文字記述及び前記ユーザー身分標識に基づいて前記展示テキスト中の第1展示テキストを生成することは、
    前記オーディオフレームに基づいて、音声文字変換処理を行う過程において、隣り合うオーディオフレーム間の間隔時間長が予め設定された間隔時間長閾値以上であると検出し、且つ、
    次のオーディオフレームが属するユーザー身分標識が変化しないことに応答し、前記次のオーディオフレームに基づいて、前記展示コンテンツ中の次の段落を生成すること、
    を含む、請求項6に記載の方法。
  8. 前記ビデオフレームに対して文字認識を行うことにより、展示テキスト中の第2展示テキストを得ることは、
    前記ビデオフレームに少なくとも1つのユニフォーム・リソース・ロケータURLアドレスが含まれると確定することに応答し、前記少なくとも1つのURLアドレスに基づいて、前記第2展示テキスト中の第1展示コンテンツを生成すること、
    を含む、請求項5に記載の方法。
  9. 前記ビデオフレームに対して文字認識を行うことにより、展示テキスト中の第2展示テキストを得ることは、
    前記ビデオフレームに文字が含まれると確定することに応答し、前記文字に基づいて、第2展示テキスト中の第2展示コンテンツを確定すること、
    を含む、請求項5に記載の方法。
  10. 前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することは、
    前記オーディオビデオフレームに基づいて、前記展示テキスト中の第3展示テキストを確定し、前記第3展示テキスト中のターゲットコンテンツをトリガしたと検出した時に、前記第1展示テキストから前記ターゲットコンテンツに対応するコンテンツを確定して、区別して表示し、前記第3展示テキストに少なくとも1つのキーワード、少なくとも1つのキーセンテンスのうちの少なくとも1つが含まれること、
    を含む、請求項4に記載の方法。
  11. 前記展示テキストは第2展示テキストを含み、
    前記方法は、さらに、
    前記展示テキスト及び前記マルチメディアデータストリームをターゲットページに展示すること、を含み、
    前記展示テキスト及び前記マルチメディアデータストリームをターゲットページに展示することは、
    前記展示テキスト中の前記第1展示テキスト、前記第2展示テキスト、前記第3展示テキスト及び録画ビデオをそれぞれ前記ターゲットページにおける予め設定された展示エリア内に展示すること、
    を含む、請求項10に記載の方法。
  12. 前記方法は、さらに、
    前記第1展示テキスト、前記第2展示テキスト、及び、前記第3展示テキスト中の展示コンテンツに基づいて、前記第1展示テキスト、前記第2展示テキスト、及び、前記第3展示テキストの表示ページでのエリア占有率を確定すること、
    を含む、請求項11に記載の方法。
  13. 前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することは、
    前記オーディオビデオフレームにおけるオーディオ情報に対応するオリジナル言語タイプを取得することと、
    前記ユーザー身分標識、前記オーディオビデオフレーム、及び、前記オーディオビデオフレームに対応するオリジナル言語タイプに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することと、
    を含む、請求項2に記載の方法。
  14. 前記ユーザー身分標識及び前記オーディオビデオフレームに基づいて、前記マルチメディアデータストリームに対応する展示テキストを生成することは、
    ターゲット言語タイプを確定し、前記オーディオビデオフレームをオーディオビデオフレームに対応するオリジナル言語タイプから前記ターゲット言語タイプに対応する文字記述に変換することと、
    前記文字記述及びユーザー身分標識に基づいて、前記展示テキストを生成することと、
    を含む、請求項2に記載の方法。
  15. 前記ターゲット言語タイプを確定することは、
    現在クライアントに使用される履歴言語タイプを取得し、前記履歴言語タイプに基づいてターゲット言語タイプを確定すること、
    を含む、請求項14に記載の方法。
  16. 前記履歴言語タイプは少なくとも1つであり、
    前記履歴言語タイプに基づいてターゲット言語タイプを確定することは、
    各履歴言語タイプの使用頻度に基づいて、少なくとも1つの履歴言語タイプからターゲット言語タイプを確定する方式と、
    現在クライアントに設けられた言語タイプをターゲット言語タイプとする方式と、
    現在クライアントのログインアドレスに基づいて、ターゲット言語タイプを確定する方式と、
    のうちの少なくとも1つの方式を含む、
    請求項15に記載の方法。
  17. 前記位置対応関係はタイムスタンプ同期関連関係を含み、
    前記マルチメディアデータストリームに基づいて生成される展示テキストと前記マルチメディアデータストリームとの間の位置対応関係を確立することは、
    前記展示テキスト中のタイムスタンプ及び前記マルチメディアデータストリームのタイムスタンプに基づいて、前記展示テキストと前記マルチメディアデータストリームとの間のタイムスタンプ同期関連関係を確立すること、
    を含む、請求項1に記載の方法。
  18. 前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出することは、
    前記位置対応関係に基づいて、前記展示テキストにマルチメディアデータストリームに対応する展示コンテンツを区別して表示すること、
    を含む、請求項1に記載の方法。
  19. 前記マルチメディアデータストリーム及び前記展示テキストがターゲットページに表示され、
    前記ターゲットページに制御コントロールがさらに含まれ、
    前記方法は、さらに、
    前記制御コントロールに基づいて前記マルチメディアデータストリーム及び前記展示テキストに現在展示されるコンテンツを同時に調整することと、
    前記制御コントロールに対応する調整精度が前記マルチメディアデータストリームにおいて録画ビデオの進行を調整する調整コントロールの調整精度より大きくすること、
    を含む、請求項1に記載の方法。
  20. 前記方法は、さらに、
    前記ターゲットページにおける制御コントロールをトリガしたトリガ操作を検出したことに応答し、前記制御コントロールにおいて対応する再生タイムスタンプを取得し、前記再生タイムスタンプに基づいて、前記マルチメディアデータストリームを前記再生タイムスタンプに対応する再生位置にジャンプするように調整することと、
    前記展示テキストに前記再生タイムスタンプに対応するビデオフレームの展示テキストコンテンツを区別して表示することと、
    を含む、請求項19に記載の方法。
  21. 前記方法は、さらに、
    ターゲットページにおける前記展示テキスト中の展示コンテンツをトリガしたトリガ操作を検出したことに応答し、前記展示コンテンツに対応するタイムスタンプに基づいて、前記マルチメディアデータストリームを前記タイムスタンプに対応するビデオフレームにジャンプするように調節すること、
    前記マルチメディアデータストリームに対するトリガ操作を検出したことに応答し、前記トリガ操作に対応するマルチメディアデータストリームの再生タイムスタンプを取得し、前記再生タイムスタンプに基づいて前記展示テキスト中の前記再生タイムスタンプに対応する展示コンテンツにジャンプすること、
    のうちの少なくとも1つを含む、請求項1に記載の方法。
  22. 前記方法は、さらに、
    ターゲットページにおける編集コントロールに対するトリガ操作を検出したことに応答し、権限編集リストを表示し、前記権限編集リストに基づいて各インタラクティブユーザーのユーザー権限を確定し、前記ユーザー権限はユーザーの前記ターゲットページに呈出されるコンテンツに対するアクセス権限を表すために用いられ、前記権限編集リストに少なくとも1つの前記インタラクティブユーザーのユーザー権限が含まれること、
    を含む、請求項1に記載の方法。
  23. 前記方法は、さらに、
    ターゲットページにおける共有コントロールをトリガしたトリガ操作を検出したことに応答し、ターゲットページに対応するターゲット標識を生成し、前記ターゲット標識を共有対象となるユーザーへ送信し、前記共有対象となるユーザーに前記ターゲット標識に基づいて前記ターゲットページを取得させること、
    を含む、請求項1に記載の方法。
  24. 前記方法は、さらに、
    検索コンテンツ編集コントロールに編集された検索コンテンツを取得し、前記展示テキストから前記検索コンテンツに対応する少なくとも1つのターゲットコンテンツを取得し、各ターゲットコンテンツが前記検索コンテンツと同様であることと、
    前記展示テキストに前記少なくとも1つのターゲットコンテンツを区別して表示し、前記マルチメディアデータストリームに対応する制御コントロールに前記少なくとも1つのターゲットコンテンツに対応するオーディオビデオフレームをマークすることと、
    を含む、請求項2に記載の方法。
  25. 前記マルチメディアデータストリームに対応する制御コントロールに前記少なくとも1つのターゲットコンテンツに対応するオーディオビデオフレームをマークすることは、
    前記各ターゲットコンテンツに対応する再生タイムスタンプを確定し、前記再生タイムスタンプに基づいて、前記マルチメディアデータストリームに対応する制御コントロールに前記各ターゲットコンテンツに対応するオーディオビデオフレームをマークすること、
    を含む、請求項24に記載の方法。
  26. 前記方法は、さらに、
    前記各ターゲットコンテンツをトリガしたトリガ操作を検出したことに応答し、前記各ターゲットコンテンツのターゲット再生タイムスタンプを確定することと、
    前記ターゲット再生タイムスタンプに対応するマークを前記制御コントロールに区別して表示することと、
    を含む、請求項24に記載の方法。
  27. インタラクティブ情報展示方法であって、
    マルチメディアデータストリームに基づいて生成される展示テキストをターゲットページの第1展示エリアに展示することと、
    前記マルチメディアデータストリームを前記ターゲットページの第2展示エリアに展示することと、を含み、
    前記展示テキストと前記マルチメディアデータストリームとの間に位置対応関係を有する、
    方法。
  28. 前記方法は、さらに、
    前記マルチメディアデータストリームのビデオフレームに対応するコンテンツを前記ターゲットページの第3展示エリアに展示することと、
    前記マルチメディアデータストリームのオーディオビデオフレームにおけるキーワード及びキーセンテンスのうちの少なくとも1つを前記ターゲットページの第4展示エリアに展示することと、を含み、
    前記オーディオビデオフレームは前記ビデオフレームを含む、
    請求項27に記載の方法。
  29. 前記方法は、さらに、
    前記マルチメディアデータストリームの再生過程において、前記展示テキストと前記マルチメディアデータストリームとの間の位置対応関係に基づいて、順に現在再生進行に対応する展示テキスト中の展示コンテンツを区別して展示すること、
    を含む、請求項27に記載の方法。
  30. 前記方法は、さらに、
    前記マルチメディアデータストリームの再生進行に対するトリガ操作に応答し、前記位置対応関係に基づいて前記展示テキストの展示コンテンツに対してジャンプ展示を行うこと、又は
    前記展示テキストの展示コンテンツに対するトリガ操作に応答し、前記位置対応関係に基づいて前記マルチメディアデータストリームの再生進行に対してジャンプ展示を行うこと、
    を含む、請求項27に記載の方法。
  31. インタラクティブ情報処理装置であって、
    マルチメディアデータストリームに基づいて生成される展示テキストと前記マルチメディアデータストリームとの間の位置対応関係を確立するように構成される対応関係確立モジュールと、
    前記位置対応関係に基づいて、前記展示テキスト及び前記展示テキストに対応するマルチメディアデータストリームを呈出するように構成されるコンテンツ呈出モジュールと、
    を含む、装置。
  32. 少なくとも1つのプロセッサと、
    少なくとも1つのプログラムを記憶するために用いられる記憶装置と、を含み、
    前記少なくとも1つのプログラムが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~30のいずれか一項に記載の方法を実行させる、
    電子機器。
  33. コンピュータ実行可能な命令を格納している記憶媒体であって、
    前記コンピュータ実行可能な命令がコンピュータプロセッサにより実行されると、
    請求項1~30のいずれか一項に記載の方法をコンピュータに実施させる、
    記憶媒体。
JP2023511951A 2020-09-29 2021-09-07 インタラクティブ情報処理方法、装置、機器、及び媒体 Active JP7529236B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011057348.6A CN112231498A (zh) 2020-09-29 2020-09-29 互动信息处理方法、装置、设备及介质
CN202011057348.6 2020-09-29
PCT/CN2021/116826 WO2022068533A1 (zh) 2020-09-29 2021-09-07 互动信息处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
JP2023539820A true JP2023539820A (ja) 2023-09-20
JP7529236B2 JP7529236B2 (ja) 2024-08-06

Family

ID=74119748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023511951A Active JP7529236B2 (ja) 2020-09-29 2021-09-07 インタラクティブ情報処理方法、装置、機器、及び媒体

Country Status (5)

Country Link
US (2) US11917344B2 (ja)
EP (1) EP4206952A4 (ja)
JP (1) JP7529236B2 (ja)
CN (1) CN112231498A (ja)
WO (1) WO2022068533A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112312225B (zh) * 2020-04-30 2022-09-23 北京字节跳动网络技术有限公司 信息展示方法、装置、电子设备和可读介质
CN112231498A (zh) * 2020-09-29 2021-01-15 北京字跳网络技术有限公司 互动信息处理方法、装置、设备及介质
CN112949270A (zh) * 2021-01-27 2021-06-11 维沃移动通信有限公司 信息显示方法、装置、电子设备及可读存储介质
CN112860939B (zh) * 2021-02-19 2023-09-26 北京百度网讯科技有限公司 音视频数据处理方法、装置、设备和存储介质
CN113065018A (zh) * 2021-04-13 2021-07-02 杭州海康威视数字技术股份有限公司 一种音视频的索引库创建和检索方法、装置及电子设备
CN113613068A (zh) * 2021-08-03 2021-11-05 北京字跳网络技术有限公司 视频的处理方法、装置、电子设备和存储介质
CN115914734A (zh) * 2021-09-22 2023-04-04 北京字跳网络技术有限公司 一种音视频处理方法、装置、设备及存储介质
CN114741541B (zh) * 2022-04-08 2024-07-12 广东技术师范大学 基于模板化编辑的ai数字人对ppt的交互控制方法及装置
CN115129211A (zh) * 2022-04-24 2022-09-30 北京达佳互联信息技术有限公司 生成多媒体文件的方法、装置、电子设备及存储介质
CN115277650B (zh) * 2022-07-13 2024-01-09 深圳乐播科技有限公司 投屏显示控制方法、电子设备及相关装置
CN117714766A (zh) * 2022-09-09 2024-03-15 抖音视界有限公司 视频内容预览交互方法、装置、电子设备及存储介质
CN116033206A (zh) * 2022-11-24 2023-04-28 深圳匠人网络科技有限公司 一种语音转文字的智能标记方法、系统及介质
CN117707394A (zh) * 2023-07-12 2024-03-15 荣耀终端有限公司 文本显示方法、存储介质及电子设备
CN117135395B (zh) * 2023-08-24 2024-07-12 中电金信软件有限公司 页面录制方法和装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099530A (ja) 2000-09-22 2002-04-05 Sharp Corp 議事録作成装置及び方法並びにこれを用いた記憶媒体
US7496845B2 (en) * 2002-03-15 2009-02-24 Microsoft Corporation Interactive presentation viewing system employing multi-media components
JP2004326473A (ja) 2003-04-25 2004-11-18 Hitachi Ltd カメラ及びコンピュータ装置を用いた携帯端末へのデータ登録方式
US7734996B2 (en) 2003-09-08 2010-06-08 Nec Corporation Documentation browsing method, documentation browsing apparatus, documentation browsing robot, and documentation browsing program
JP4269980B2 (ja) 2004-03-10 2009-05-27 富士ゼロックス株式会社 コンテンツ処理システム及びコンテンツ処理方法、並びにコンピュータ・プログラム
CN103226947B (zh) * 2013-03-27 2016-08-17 广东欧珀移动通信有限公司 一种基于移动终端的音频处理方法及装置
US20150149171A1 (en) * 2013-11-26 2015-05-28 Andrew Goldman Contextual Audio Recording
US9672829B2 (en) * 2015-03-23 2017-06-06 International Business Machines Corporation Extracting and displaying key points of a video conference
CN106295628A (zh) * 2015-05-20 2017-01-04 地利控股(西咸新区)网络农业有限公司 一种使视频中出现的文字易于交互的方法
US11322159B2 (en) * 2016-01-12 2022-05-03 Andrew Horton Caller identification in a secure environment using voice biometrics
JP7098875B2 (ja) 2016-02-02 2022-07-12 株式会社リコー 会議支援システム、会議支援装置、会議支援方法及びプログラム
JP7046546B2 (ja) 2017-09-28 2022-04-04 株式会社野村総合研究所 会議支援システムおよび会議支援プログラム
CN107864410B (zh) * 2017-10-12 2023-08-25 庄世健 一种多媒体数据处理方法、装置、电子设备以及存储介质
CN107749313B (zh) * 2017-11-23 2019-03-01 郑州大学第一附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN109634700A (zh) * 2018-11-26 2019-04-16 维沃移动通信有限公司 一种音频的文本内容显示方法及终端设备
CN110740283A (zh) * 2019-10-29 2020-01-31 杭州当虹科技股份有限公司 一种基于视频通讯的语音转文字方法
CN111008300A (zh) * 2019-11-20 2020-04-14 四川互慧软件有限公司 一种在音视频中基于关键词的时间戳定位搜索方法
US11818406B2 (en) * 2020-07-23 2023-11-14 Western Digital Technologies, Inc. Data storage server with on-demand media subtitles
CN112231498A (zh) * 2020-09-29 2021-01-15 北京字跳网络技术有限公司 互动信息处理方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2022068533A1 (zh) 2022-04-07
CN112231498A (zh) 2021-01-15
JP7529236B2 (ja) 2024-08-06
US20220239882A1 (en) 2022-07-28
US20240155092A1 (en) 2024-05-09
EP4206952A1 (en) 2023-07-05
US11917344B2 (en) 2024-02-27
EP4206952A4 (en) 2024-02-21

Similar Documents

Publication Publication Date Title
JP7529236B2 (ja) インタラクティブ情報処理方法、装置、機器、及び媒体
CN108847214B (zh) 语音处理方法、客户端、装置、终端、服务器和存储介质
JP6603754B2 (ja) 情報処理装置
US20240107127A1 (en) Video display method and apparatus, video processing method, apparatus, and system, device, and medium
CN111970577A (zh) 字幕编辑方法、装置和电子设备
CN109474843A (zh) 语音操控终端的方法、客户端、服务器
WO2022105760A1 (zh) 一种多媒体浏览方法、装置、设备及介质
WO2023029904A1 (zh) 文本内容匹配方法、装置、电子设备及存储介质
CN111919249A (zh) 词语的连续检测和相关的用户体验
WO2021259221A1 (zh) 视频翻译方法和装置、存储介质和电子设备
US20220391058A1 (en) Interaction information processing method and apparatus, electronic device and storage medium
JP2023549903A (ja) マルチメディアのインタラクション方法、情報インタラクション方法、装置、機器及び媒体
JP2023522092A (ja) インタラクション記録生成方法、装置、デバイス及び媒体
CN110379406B (zh) 语音评论转换方法、系统、介质和电子设备
CN112163102A (zh) 搜索内容匹配方法、装置、电子设备及存储介质
US20240112702A1 (en) Method and apparatus for template recommendation, device, and storage medium
CN112163433B (zh) 关键词汇的匹配方法、装置、电子设备及存储介质
EP3862963A1 (en) Interpretation system, server device, distribution method, and recording medium
CN115278346B (zh) 在直播间发送评论和接收评论的方法及相关设备
CN115981769A (zh) 页面显示方法、装置、设备、计算机可读存储介质及产品
CN113132789B (zh) 一种多媒体的交互方法、装置、设备及介质
US20140297285A1 (en) Automatic page content reading-aloud method and device thereof
JP2023536992A (ja) ターゲットコンテンツの検索方法、装置、電子機器および記憶媒体
WO2022068494A1 (zh) 搜索目标内容的方法、装置、电子设备及存储介质
KR102414993B1 (ko) 연관 정보 제공 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240717

R150 Certificate of patent or registration of utility model

Ref document number: 7529236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150