JP7331146B2 - サブタイトルのクロスボーダーの処理方法、装置及び電子装置 - Google Patents

サブタイトルのクロスボーダーの処理方法、装置及び電子装置 Download PDF

Info

Publication number
JP7331146B2
JP7331146B2 JP2021571922A JP2021571922A JP7331146B2 JP 7331146 B2 JP7331146 B2 JP 7331146B2 JP 2021571922 A JP2021571922 A JP 2021571922A JP 2021571922 A JP2021571922 A JP 2021571922A JP 7331146 B2 JP7331146 B2 JP 7331146B2
Authority
JP
Japan
Prior art keywords
subtitle
frame
size
cross
border
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021571922A
Other languages
English (en)
Other versions
JP2022535549A (ja
Inventor
永晨 ▲盧▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2022535549A publication Critical patent/JP2022535549A/ja
Application granted granted Critical
Publication of JP7331146B2 publication Critical patent/JP7331146B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25808Management of client data
    • H04N21/25825Management of client data involving client display capabilities, e.g. screen resolution of a mobile phone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4518Management of client data or end-user data involving characteristics of one or more peripherals, e.g. peripheral type, software version, amount of memory available or display capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Graphics (AREA)
  • Studio Circuits (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Transforming Electric Information Into Light Information (AREA)
  • Image Analysis (AREA)

Description

(関連出願への相互参照)
本願は、2019年06月06日に出願し、出願番号が201910493548.7であり、発明の名称が「サブタイトルのクロスボーダーの処理方法、装置及び電子装置」である中国特許出願の優先権を主張し、その出願の全文を本願に組み込む。
この発明の実施例は、画像処理の技術分野に属し、特に、サブタイトルのクロスボーダーの処理方法、装置及び電子装置に関するものである。
通信技術が発展することによりいろいろな端末装置、例えばスマートフォン、タブレット、ノートブックコンピューター等が現れている。そのような端末装置は我々の生活で重要な役割をしている。
従来の端末装置は娯楽機能を具備している。スマートフォン、タブレット等のような端末装置はマルチメディア・ファイル、例えばビデオ、オーディオ等を再生することができる。ビデオには通常、サブタイトルが設けられている。サブタイトルの位置は固定されていないので、サブタイトルをビデオ中のいずれかの位置に位置させることができる。ユーザが入手したビデオ画像を端末装置に送信して再生するとき、ビデオ画像のサイズと端末装置の表示パネルのサイズが合わないと、サブタイトルのクロスボーダーが生じることによりサブタイトルの一部分が表示パネルの外部に表示されるので、ビデオの鑑賞に影響を与えるおそれがある。図1に示すとおり、前記サブタイトルのクロスボーダーが生じる一例において、ビデオ画像には「我是中国人」というサブタイトルが表示されている。ビデオ画像のサイズが前記端末装置の表示パネルのサイズより大きい場合、サブタイトルの一部分は表示パネルの外部に表示されるが、端末装置はその状況を検出することができない。すなわち表示パネルには「我」の一部分のみが表示されているので、ビデオの鑑賞に影響を与え得る。従来の技術において、端末装置の表示パネルにサブタイトルのクロスボーダーが生じるかをユーザが判断する必要がある。サブタイトルのクロスボーダーが生じた場合、表示パネルの解像度を調節するか或いはサブタイトルのサイズまたはビデオのサイズを調節することにより前記問題を解決することができるが、使用上の利便性がよくないという欠点を有している。
本発明の実施例において下記サブタイトルのクロスボーダーの処理方法を提供する。前記サブタイトルのクロスボーダーの処理方法は、
端末の表示装置のサイズ情報を獲得するステップであって、前記サイズ情報は前記表示装置のサイズを指すステップと、
前記サイズ情報に従って安全区域を形成するステップであって、前記安全区域は前記表示装置のサイズより小さいか或いは等しいステップと、
前記端末が再生するビデオ画像において前記ビデオ画像中のビデオフレームを抽出するステップと、
前記安全区域のサイズを上回っている前記ビデオフレームの局部をインターセプトすることにより合成フレームを形成するステップと、
前記合成フレームに文字が含まれているかを検出するステップと、
前記合成フレームに文字が含まれていると、前記ビデオ画像にサブタイトルのクロスボーダーが生じたと判断するステップとを含む。
前記サブタイトルのクロスボーダーの処理方法は、前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることによりそれを前記安全区域内に位置させることを更に含む。
前記端末の表示装置のサイズ情報を獲得するステップは前記端末のディスプレイ属性を獲得することを含み、前記サイズ情報は前記表示装置のサイズを指し、前記ディスプレイ属性は表示装置の高さ及び幅を含む。
前記サイズ情報に従って安全区域を形成するステップは、第一パーセンテージにより前記安全区域の幅を計算することと/或いは第二パーセンテージにより前記安全区域の高さを計算することを含み、
前記安全区域は前記表示装置のサイズより小さいか或いは等しく、前記第一パーセンテージは前記安全区域の幅が前記表示装置の幅に占めるパーセンテージであり、前記第二パーセンテージは前記安全区域の高さが前記表示装置の高さに占めるパーセンテージである。
前記端末が再生するビデオ画像において前記ビデオ画像中のビデオフレームを抽出するステップは、前記端末が再生するビデオ画像において前記ビデオ画像中の少なくとも1個のビデオフレームをランダムに抽出するか或いは、前記ビデオ画像中の所定のビデオフレームを抽出することを含み、前記所定のビデオフレームは予め設定された方法によって抽出されかつ所定の特徴を有しているビデオフレームである。
前記安全区域のサイズを上回っている前記ビデオフレームの局部をインターセプトすることにより合成フレームを形成するステップは、
前記ビデオフレームのサイズと前記安全区域のサイズに従ってインターセプト距離を計算することと、
前記インターセプト距離に従って前記ビデオフレームの幅方向と/或いは高さ方向においてフレームセグメントをインターセプトすることと、
前記幅方向のフレームセグメントを結合させることにより合成フレームを形成することと/或いは、
前記高さ方向のフレームセグメントを結合させることにより合成フレームを形成することとを含む。
前記合成フレームに文字が含まれているかを検出するステップは、
前記合成フレームを文字判断モデルに入力することと、
前記文字判断モデルの出力により前記合成フレームに文字が含まれているかを判断することとを含む。
前記文字判断モデルは畳み込みニューラルネットワークのトレーニングにより獲得するものであり、分類標識がついているトレーニング・セットを前記畳み込みニューラルネットワークに入力し、前記畳み込みニューラルネットワークの出力結果を検出することにより前記畳み込みニューラルネットワークを前記文字判断モデルにトレーニングする。
前記合成フレームに文字が含まれていると、前記ビデオ画像にサブタイトルのクロスボーダーが生じたと判断するステップは、前記合成フレームに文字が含まれていると、前記ビデオ画像中のサブタイトルが前記ビデオ画像の幅方向と/或いは高さ方向の境界線を越えたと判断することを含む。
前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることによりそれを前記安全区域内に位置させるステップは、前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることにより前記サブタイトル全体を前記安全区域内に位置させるか或いは、前記ビデオ画像のサイズを減少させることにより前記サブタイトル全体を前記安全区域内に位置させることを含む。
本発明の実施例において下記サブタイトルのクロスボーダーの処理装置を提供する。前記サブタイトルのクロスボーダーの処理装置は、
端末の表示装置のサイズ情報を獲得するサイズ獲得モジュールであって、前記サイズ情報は前記表示装置のサイズを指すサイズ獲得モジュールと、
前記サイズ情報に従って安全区域を形成する安全区域形成モジュールであって、前記安全区域は前記表示装置のサイズより小さいか或いは等しい安全区域形成モジュールと、
前記端末が再生するビデオ画像において前記ビデオ画像中のビデオフレームを抽出するビデオフレーム抽出モジュールと、
前記安全区域のサイズを上回っている前記ビデオフレームの局部をインターセプトすることにより合成フレームを形成するフレーム合成モジュールと、
前記合成フレームに文字が含まれているかを検出する文字検出モジュールと、
前記合成フレームに文字が含まれていると、前記ビデオ画像にサブタイトルのクロスボーダーが生じたと判断するクロスボーダー判断モジュールとを含む。
前記サブタイトルのクロスボーダーの処理装置はサイズ減少モジュールを更に含む。前記サイズ減少モジュールは、前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることによりそれを前記安全区域内に位置させることに用いられる。
前記サイズ獲得モジュールはディスプレイ属性獲得モジュールを更に含み、前記ディスプレイ属性獲得モジュールは前記端末のディスプレイ属性を獲得することに用いられる。前記ディスプレイ属性は表示装置の高さ及び幅を含む。
前記安全区域形成モジュールは、第一パーセンテージにより前記安全区域の幅を計算する安全区域幅計算モジュールと/或いは第二パーセンテージにより前記安全区域の高さを計算する安全区域高さ計算モジュールを更に含む。前記第一パーセンテージは前記安全区域の幅が前記表示装置の幅に占めるパーセンテージであり、前記第二パーセンテージは前記安全区域の高さが前記表示装置の高さに占めるパーセンテージである。
前記ビデオフレーム抽出モジュールは前記端末が再生するビデオ画像において前記ビデオ画像中の少なくとも1個のビデオフレームをランダムに抽出するか或いは、前記ビデオ画像中の所定のビデオフレームを抽出することに用いられる。前記所定のビデオフレームは予め設定された方法によって抽出されかつ所定の特徴を有しているビデオフレームである。
前記フレーム合成モジュールは、
前記ビデオフレームのサイズと前記安全区域のサイズに従ってインターセプト距離を計算するインターセプト距離計算モジュールと、
前記インターセプト距離に従って前記ビデオフレームの幅方向と/或いは高さ方向においてフレームセグメントをインターセプトするフレームセグメント・インターセプトモジュールと、
前記幅方向のフレームセグメントを結合させることにより合成フレームを形成することと/或いは前記高さ方向のフレームセグメントを結合させることにより合成フレームを形成する合成モジュールとを更に含む。
前記文字検出モジュールは、前記合成フレームを文字判断モデルに入力する入力モジュールと、前記文字判断モデルの出力により前記合成フレームに文字が含まれているかを判断する判断モジュールとを更に含む。前記文字判断モデルは畳み込みニューラルネットワークのトレーニングにより獲得するものであり、分類標識がついているトレーニング・セットを前記畳み込みニューラルネットワークに入力し、前記畳み込みニューラルネットワークの出力結果を検出することにより前記畳み込みニューラルネットワークを前記文字判断モデルにトレーニングする。
前記クロスボーダー判断モジュールは、前記合成フレームに文字が含まれていると、前記ビデオ画像中のサブタイトルが前記ビデオ画像の幅方向と/或いは高さ方向の境界線を越えた(クロスボーダー)と判断するクロスボーダータイプ判断モジュールを更に含む。
前記サイズ減少モジュールは、前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることにより前記サブタイトル全体を前記安全区域内に位置させるか或いは、前記ビデオ画像のサイズを減少させることにより前記サブタイトル全体を前記安全区域内に位置させることにも用いられる。
本発明の実施例において電子装置を提供する。その電子装置は記憶装置と処理装置を含む。前記記憶装置は非一時的コンピュータ読み取り可能命令を記憶することに用いられる。前記処理装置は前記記憶装置に記憶されている非一時的コンピュータ読み取り可能命令を実行することにより前記いずれか一項のサブタイトルのクロスボーダーの処理方法のステップを実施する。
本発明の実施例においてコンピュータ読み取り可能記憶媒体を提供する。前記コンピュータ読み取り可能記憶媒体には非一時的コンピュータ読み取り可能命令が記憶されており、前記非一時的コンピュータ読み取り可能命令がコンピュータに実行されることにより、前記コンピュータは前記いずれか一項のサブタイトルのクロスボーダーの処理方法を実施する。
本発明の実施例において、サブタイトルのクロスボーダーの処理方法、装置及び電子装置を提供する。前記サブタイトルのクロスボーダーの処理方法は、端末の表示装置のサイズ情報を獲得するステップであって、前記サイズ情報は前記表示装置のサイズを指すステップと、前記サイズ情報に従って安全区域を形成するステップであって、前記安全区域は前記表示装置のサイズより小さいか或いは等しいステップと、前記端末が再生するビデオ画像において前記ビデオ画像中のビデオフレームを抽出するステップと、前記安全区域のサイズを上回っている前記ビデオフレームの局部をインターセプトすることにより合成フレームを形成するステップと、前記合成フレームに文字が含まれているかを検出するステップと、前記合成フレームに文字が含まれていると、前記ビデオ画像にサブタイトルのクロスボーダーが生じたと判断するステップとを含む。本発明の実施例において、サブタイトルのクロスボーダーの処理方法は、安全区域を形成しかつ安全区域の境界線を越えたフレームセグメントに文字が含まれているかを判断することにより、従来の技術においてユーザがサブタイトルのクロスボーダーが生じたかを手動で検出する必要がある技術的問題を解決することができる。
以上、本発明の技術的事項の概要を説明してきたが、本発明の技術的特徴をより詳細に理解し、下記明細書により本発明の実施例を実施し、かつ本発明に係る技術的特徴、発明の効果及び目的をより詳細に理解してもらうため、以下、本発明の好適な実施例と図面により本発明を詳細に説明する。
従来の技術においてサブタイトルが表示パネルの境界線を越えていることを示す図である。 本発明の実施例に係るサブタイトルのクロスボーダーの処理方法を示す流れ図である。 本発明の実施例に係るフレームセグメントの計算に用いられるインターセプト距離を示す図である。 本発明の実施例に係る合成フレームを示す図である。 本発明の実施例に係るサブタイトルのクロスボーダーの処理方法を示す流れ図である。 本発明の実施例に係るサブタイトルのクロスボーダーの処理装置の構造を示す図である。 本発明の実施例に係る電子装置の構造を示す図である。
以下、具体的な実施例により本発明の技術的事項を詳細に説明する。この技術分野の技術者は下記実施例の内容により本発明の特徴と発明の効果を容易に理解することができる。下記実施例は、本発明の一部分の実施例にしか過ぎないものであり、本発明のすべての実施例を示すものでない。本発明は下記実施例以外の他の実施例により実施され、本発明の要旨を逸脱しない範囲内においてこの明細書中の各事項をいろいろな分野に用いることができる。また、本発明の要旨を逸脱しない範囲内においていろいろな設計の変更、改良等をすることができ、それらがあっても本発明に含まれることは勿論である。注意されたいことは、複数個の実施例及び複数の構成を含む場合、それらを適当に組み合わせることができる。本発明の実施例を参照することによりこの技術分野の技術者は創造的な研究をしなくても他の実施例を想到することができ、それらがあっても本発明に含まれることは勿論である。
以下、本願の特許請求の範囲に属する本発明の各実施例の事項を説明する。注意されたいことは、本発明の各事項はいろいろな実施形態により実施されることができ、下記段落において説明する特定の構造および/或いは機能は本発明の例示にしか過ぎないものである。本発明に複数の実施例が含まれているとき、この技術分野の技術者は本発明の各実施例をそれぞれ実施するか或いは2つまたは2つ以上の実施例を同時に説明することができる。例えば本発明の実施例に記載されているいずれかの事項により本発明の装置及び/或いは方法を実施することができる。また、本発明の実施例に記載されている事項またはその事項以外の他の特徴及び/或いは機能により本発明の装置及び/或いは方法を実施することもできる。
注意されたいことは、下記実施例に係る図面は発明の基本的構造を示す例示にしか過ぎないものである。下記図面に示されている部品は、実際の部品の数量、形状及びサイズに従って描いたものでない。本発明を実施するとき、本発明の要旨を逸脱しない範囲内において各部品の数量、形状及びサイズを適当に変化させることができ、それによりいろいろな配置形態を獲得することができる。
下記叙述において本発明の事項を詳細に説明することにより本発明の原理をより詳細に理解してもらうことができる。注意されたいことは、下記記述において本発明の一部分の事項を説明しなくても、この技術分野の技術者は下記叙述により本発明を実施することができる。
本発明の実施例において、サブタイトル(Subtitle)のクロスボーダー(Cross border)の処理方法を提供する。本発明の実施例に係るサブタイトルのクロスボーダーの処理方法はコンピュータにより実施されることができる。前記コンピュータはソフトウェアで構成されるか或いはソフトウェアとハードウェアの組合せで構成されることができる。前記コンピュータはサーバー、端末装置等に集積されることができる。図2に示すとおり、サブタイトルのクロスボーダーの処理方法は下記ステップS201~ステップS206を含む。
ステップS201において、端末の表示装置のサイズ情報を獲得し、前記サイズ情報は前記表示装置のサイズを指す。
この発明において、前記端末の表示装置のサイズ情報を獲得するステップは前記端末のディスプレイ属性(display attribute)を獲得することを含む。前記サイズ情報は前記表示装置のサイズを指し、前記ディスプレイ属性は表示装置の高さ及び幅を含む。具体的に、スマートフォンのシステム情報には通常、スクリーン対象属性が含まれている。前記属性は携帯電話のスクリーンの高さと幅を含み、その高さと幅の単位はいずれも画素である。一般の携帯電話またはタブレットパソコン等のような端末のスクリーンの解像度は変化しないので、前記スクリーン対象の属性を常数と見なすことができる。デスクトップ・コンピューター等のようなスクリーンの解像度を調節できる端末である場合、前記ディスプレイ属性はシステム情報に記憶されており、システム情報において前記ディスプレイ属性を読み出すことができるので、ここで再び説明しない。この実施例において獲得した表示装置のサイズ情報はN*Mである。その式において、Nは表示装置の幅であり、Mは表示装置の高さであり、N≧1であり、M≧1である。
ステップS202において、前記サイズ情報に従って安全区域を形成し、前記安全区域は前記表示装置のサイズより小さいか或いは等しい。
この発明において、前記サイズ情報に従って安全区域を形成するステップは第一パーセンテージ(percentage)により前記安全区域の幅を計算するか或いは第二パーセンテージにより前記安全区域の高さを計算することを含む。前記安全区域は前記表示装置のサイズより小さいか或いは等しく、前記第一パーセンテージは前記安全区域の幅が前記表示装置の幅に占めるパーセンテージであり、前記第二パーセンテージは前記安全区域の高さが前記表示装置の高さに占めるパーセンテージである。具体的に、前記第一パーセンテージと第二パーセンテージを所定の記憶装置に予め設定するか或いは端末のヒューマン・コンピュータ・インタラクション(Human-computer interaction)によって受信したユーザの設定命令により随時に設定することができる。第一パーセンテージをa%に設定し、第二パーセンテージをb%に設定することができる。0<a≦100でありかつ0<b≦100であることにより、安全区域の幅nをn=N×a%にし、安全区域の高さmをm=M×b%にすることができる。そのステップにおいて、安全区域の幅または高さのみを計算することができる。安全区域の幅のみを計算するとき、前記安全区域の高さと前記サイズ情報中の高さを同一にすることができ、安全区域の高さのみを計算するとき、前記安全区域の幅と前記サイズ情報中の幅を同一にすることができる。
注意されたいことは、前記ステップにおいて他の方法により安全区域を形成することもできる。例えば、前記安全区域のサイズと表示装置のサイズを同一にするか或いは、安全区域を表示装置のサイズの変化範囲内に直接に形成することができる。前記安全区域がサブタイトルの表示区域を定義することにより、表示されるサブタイトルが表示装置の境界線を越えることを防止することができる。
ステップS203において、前記端末が再生するビデオ画像において前記ビデオ画像中のビデオフレームを抽出する。
本実施例において、前記端末が再生するビデオ画像において前記ビデオ画像中のビデオフレームを抽出するステップは、前記端末が再生するビデオ画像において前記ビデオ画像中の少なくとも1個のビデオフレームをランダムに抽出するか或いは、前記ビデオ画像中の所定のビデオフレームを抽出することを含む。前記所定のビデオフレームは予め設定された方法によって抽出されかつ所定の特徴を有しているビデオフレームである。前記ステップにおいて、前記ビデオ画像中のビデオフレームを抽出する方法はランダム抽出方法を含む。前記ランダム抽出方法は、連続的に配列されている複数個のフレームをランダムに抽出するか或いは固定の間隔を空けて複数個のフレームをランダムに抽出するか或いは順に配列されている複数個のフレームをランダムに抽出するものであることができる。本発明はそのランダム抽出方法を具体的に限定せず、いずれかのランダム抽出方法を本発明に用いることができる。前記ランダム抽出方法はビデオ画像中の所定のビデオフレームを抽出するものであることもできる。前記所定のビデオフレームは予め設定された方法によって抽出されかつ所定の特徴を有しているビデオフレームであることができる。例えば文字認識、モデルによって検出されかつ文字を有しているビデオフレームであることができる。その場合、文字を有しているビデオフレームを、ビデオ画像において抽出することができる。
ステップS204において、前記安全区域のサイズを上回っている前記ビデオフレームの局部をインターセプト(intercept)することにより合成フレームを形成する。
本実施例において、前記安全区域のサイズを上回っている前記ビデオフレームの局部をインターセプトすることにより合成フレームを形成するステップは、前記ビデオフレームのサイズと前記安全区域のサイズに従ってインターセプト距離を計算することと、前記インターセプト距離に従って前記ビデオフレームの幅方向と/或いは高さ方向においてフレームセグメント(Frame segment)をインターセプトすることと、前記幅方向のフレームセグメントを結合させることにより合成フレームを形成することと/或いは前記高さ方向のフレームセグメントを結合させることにより合成フレームを形成することとを含む。前記ステップにおいて、前記ビデオフレームのサイズと前記安全区域のサイズに従ってインターセプト距離を計算するステップは、前記ビデオフレームの幅から安全区域のサイズを直接に減ずるものであるか或いは前記ビデオフレームの高さから安全区域のサイズを直接に減ずるものであることができる。具体的に、図3に示すとおり、ビデオフレーム302のサイズが700×1080であり、安全区域301のサイズが540×960である場合、幅方向のインターセプト距離303は(700-540)/2=80であり、高さ方向のインターセプト距離304は(1080-960)/2=60であることができる。前記ビデオフレームのサイズと前記安全区域のサイズによりインターセプト距離を計算するステップは、前記ビデオフレームの幅から安全区域の幅を減じて得た結果の閾値によりインターセプト距離を計算するものであることもできる。図3の例において、80は幅方向のインターセプト距離の最大値であり、60は高さ方向のインターセプト距離の最大値であり、その2つの数値により幅方向のインターセプト距離と高さ方向のインターセプト距離を確定することができる。例えばインターセプト距離の最大値の50%をインターセプト距離にする場合、幅方向のインターセプト距離は40であり、高さ方向のインターセプト距離30である。前記ステップによりインターセプト距離を獲得した後、前記インターセプト距離に従って前記ビデオフレームの幅方向と/或いは高さ方向においてフレームセグメントをインターセプトし、かつ前記幅方向のフレームセグメントを結合させることにより合成フレームを形成するか或いは前記高さ方向のフレームセグメントを結合させることにより合成フレームを形成する。すなわち、幅方向においてインターセプトした2個のフレームセグメントを結合させることにより合成フレームを形成し、高さ方向においてインターセプトした2個のフレームセグメントを結合させることにより合成フレームを形成する。図4に示されている幅方向の合成フレームにおいて、左側のフレームセグメントには文字「我」が含まれており、右側のフレームセグメントには文字「人」が含まれている。図4には幅方向の合成フレームのみが示されているが、高さ方向の合成フレームの場合、上下方向の2個のフレームセグメントを結合させることにより合成フレームを形成することができ、本発明はそれを再び説明しない。図4の合成フレームには文字が含まれているが、他の実施例において獲得する合成フレームのフレームセグメントは文字を含まないこともある。合成フレームに文字が含まれていないことはサブタイトルのクロスボーダーが生じないことを意味し、本発明はそれを詳細に説明しない。
ステップS205において、前記合成フレームに文字が含まれているかを検出する。
本実施例において、前記合成フレームに文字が含まれているかを検出するステップは、前記合成フレームを文字判断モデルに入力することと、前記文字判断モデルの出力により前記合成フレームに文字が含まれているかを判断することとを含む。前記文字判断モデルは畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)のトレーニングにより獲得するものであり、分類標識がついているトレーニング・セット(Training set)を前記畳み込みニューラルネットワークに入力し、前記畳み込みニューラルネットワークの出力結果を検出することにより前記畳み込みニューラルネットワークを前記文字判断モデルにトレーニングすることができる。前記ステップにおいて、トレーニングを予めした畳み込みニューラルネットワークにより前記合成フレームに文字が含まれているかを判断することができる。前記畳み込みニューラルネットワークはいずれかの畳み込みニューラルネットワークであることができ、本発明はそれを限定しない。前記モデルをトレーニングするとき、まずトレーニング・セットを形成する必要がある。前記トレーニング・セットは標識がついている合成フレーム画像の集合である。例えば図4に示されている複数の画像は文字が含まれている画像を指す。トレーニング・セット中の画像を前記畳み込みニューラルネットワークに入力した後sigmoid関数によりその結果を出力し、かつその出力結果と前記標識がついている合成フレーム画像を比較する。その2つが合うとき、前記畳み込みニューラルネットワークのパラメーターを保存し、その2つが合わないとき、その状況を前記畳み込みニューラルネットワークにフィードバックすることにより畳み込みニューラルネットワークがパラメーターを調節するようにし、かつ画像を入力するステップを反復する。トレーニング・セット中の各画像に適合するパラメーターが出るまでトレーニングを繰り返す。トレーニングが終わると、文字判断モデルが形成される。ステップS204において獲得する合成フレームを前記文字判断モデルに入力し、モデルの出力により前記合成フレームに文字が含まれているかを判断する。モデルの出力1は合成フレームに文字が含まれていることを意味し、モデルの出力0は合成フレームに文字が含まれていないことを意味する。
注意されたいことは、前記合成フレームに文字が含まれているかを検出する検出方法を例として説明してきたが、画像中に文字が含まれているかを検出できる検出方法であればいずれも、本発明に用いることができ、本発明はそれを限定しない。
ステップS206において、前記合成フレームに文字が含まれていると、前記ビデオ画像にサブタイトルのクロスボーダーが生じたと判断する。
本実施例において、前記合成フレームに文字が含まれていると、前記ビデオ画像にサブタイトルのクロスボーダーが生じたと判断するステップは、前記合成フレームに文字が含まれていると、前記ビデオ画像中のサブタイトルが前記ビデオ画像の幅方向と/或いは高さ方向の境界線を越えた(クロスボーダー)と判断することを含む。ステップS205において、前記合成フレームに文字が含まれているという結果を獲得すると、前記ビデオ画像中のサブタイトルが境界線を越えた(クロスボーダー)と判断する。つぎに、前記合成フレームが幅方向の合成フレームであるか或いは高さ方向の合成フレームであるかを判断することにより、前記サブタイトルが前記ビデオ画像の幅方向の境界線を越えたか或いは高さ方向の境界線を越えたかを判断する。
本発明の実施例において、サブタイトルのクロスボーダーの処理方法、装置及び電子装置を提供する。前記サブタイトルのクロスボーダーの処理方法は、端末の表示装置のサイズ情報を獲得するステップであって、前記サイズ情報は前記表示装置のサイズを指すステップと、前記サイズ情報に従って安全区域を形成するステップであって、前記安全区域は前記表示装置のサイズより小さいか或いは等しいステップと、前記端末が再生するビデオ画像において前記ビデオ画像中のビデオフレームを抽出するステップと、前記安全区域のサイズを上回っている前記ビデオフレームの局部をインターセプトすることにより合成フレームを形成するステップと、前記合成フレームに文字が含まれているかを検出するステップと、前記合成フレームに文字が含まれていると、前記ビデオ画像にサブタイトルのクロスボーダーが生じたと判断するステップとを含む。本発明の実施例において、サブタイトルのクロスボーダーの処理方法は、安全区域を形成し、かつ安全区域の境界線を越えたフレームセグメントに文字が含まれているかを判断することにより、従来の技術においてユーザがサブタイトルのクロスボーダーが生じたかを手動で検出する必要がある技術的問題を解決することができる。
図5に示すとおり、前記サブタイトルのクロスボーダーの処理方法は下記ステップS501を更に含む。
ステップS501において、前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることによりそれを前記安全区域内に位置させる。
具体的に、前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることによりそれを前記安全区域内に位置させるステップは、前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることにより前記サブタイトル全体を前記安全区域内に位置させるか或いは、前記ビデオ画像のサイズを減少させることにより前記サブタイトル全体を前記安全区域内に位置させることを含む。前記ステップはサブタイトルのクロスボーダーを検出した後自動に実施されるステップである。サブタイトルが境界線を越えるとき、サブタイトルが前記安全区域内に位置するまでサブタイトルのサイズを減少させる。サブタイトルのサイズを減少させる方法は下記2種がある。一つ目の方法はサブタイトルのサイズを直接減少させることである。通常、サブタイトルとビデオ画像はそれぞれ存在し、サブタイトルはビデオ画像上に付加されるものであるので、コンフィグレーションファイルによりサブタイトルの位置、字体のサイズ及びカラー等を調節することができる。安全区域の幅と高さは既知の事項であるので、安全区域の幅と高さに従ってコンフィグレーションファイル中のサブタイトルの表示位置と/或いは字体のサイズ等を調節することにより、サブタイトルを前記安全区域内に位置させることができる。二つ目の方法はビデオ画像のサイズを直接減少させることである。サブタイトルとビデオ画像が一体に形成される場合、サブタイトルはビデオ画像の一部分になっているので、サブタイトルのサイズのみを減少させることができない。そのとき、ビデオ画像のサイズが安全区域のサイズと同一になるようにビデオ画像のサイズを減少させる。それにより前記サブタイトルを安全区域内に位置させ、サブタイトルのクロスボーダーを解決することができる。
注意されたいことは、前記サブタイトルのサイズを減少させることにより前記サブタイトルを前記安全区域内に位置させる前記2つの方法は本発明の例示にしか過ぎないものである。サブタイトルのサイズを直接または間接的に減少させる方法であればいずれも本発明に用いることができる、本発明はそれを1つずつ説明しない。
以上、本発明の実施例に係るサブタイトルのクロスボーダーの処理方法中の各ステップを順に説明してきたが、この技術分野の技術者はサブタイトルのクロスボーダーの処理方法中の各ステップを前述の順序で実施しなくてもよい。すなわちサブタイトルのクロスボーダーの処理方法中の各ステップを逆の順序、並行、交差に実施してもよい。また、この技術分野の技術者は本発明のサブタイトルのクロスボーダーの処理方法に他のステップを更に増加させることもできる。そのような変形例または代替例は本発明の要旨を逸脱しない範囲内において実施されるものであるため、それらがあっても本発明に含まれることは勿論である。
以下、本発明の実施例に係るサブタイトルのクロスボーダーの処理装置を記述する。本発明の実施例に係るサブタイトルのクロスボーダーの処理装置により本発明の実施例に係るサブタイトルのクロスボーダーの処理方法中の各ステップを実施することができる。説明を簡単にするため、以下、サブタイトルのクロスボーダーの処理装置に係る事項のみを説明し、説明しない事項はサブタイトルのクロスボーダーの処理方法の説明を参照することができる。
本発明の実施例において、サブタイトルのクロスボーダーの処理装置を提供する。前記装置により本発明の実施例に係るサブタイトルのクロスボーダーの処理方法中のステップを実施することができる。図6に示すとおり、前記サブタイトルのクロスボーダーの処理装置600は、サイズ獲得モジュール601、安全区域形成モジュール602、ビデオフレーム抽出モジュール603、フレーム合成モジュール604、文字検出モジュール605及びクロスボーダー判断モジュール606を含む。
サイズ獲得モジュール601は端末の表示装置のサイズ情報を獲得することに用いられる。前記サイズ情報は前記表示装置のサイズを指す。
安全区域形成モジュール602は前記サイズ情報に従って安全区域を形成することに用いられる。前記安全区域は前記表示装置のサイズより小さいか或いは等しい。
ビデオフレーム抽出モジュール603は前記端末が再生するビデオ画像において前記ビデオ画像中のビデオフレームを抽出することに用いられる。
フレーム合成モジュール604は前記安全区域のサイズを上回っている前記ビデオフレームの局部をインターセプトすることにより合成フレームを形成することに用いられる。
文字検出モジュール605は前記合成フレームに文字が含まれているかを検出することに用いられる。
クロスボーダー判断モジュール606は、前記合成フレームに文字が含まれていると、前記ビデオ画像にサブタイトルのクロスボーダーが生じたと判断することに用いられる。
前記サブタイトルのクロスボーダーの処理装置600はサイズ減少モジュールを更に含む。前記サイズ減少モジュールは、前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることによりそれを前記安全区域内に位置させることに用いられる。
前記サイズ獲得モジュール601はディスプレイ属性獲得モジュールを更に含む。前記ディスプレイ属性獲得モジュールは前記端末のディスプレイ属性を獲得することに用いられる。前記ディスプレイ属性は表示装置の高さ及び幅を含む。
前記安全区域形成モジュール602は、第一パーセンテージにより前記安全区域の幅を計算する安全区域幅計算モジュールと/或いは第二パーセンテージにより前記安全区域の高さを計算する安全区域高さ計算モジュールを更に含む。前記第一パーセンテージは前記安全区域の幅が前記表示装置の幅に占めるパーセンテージであり、前記第二パーセンテージは前記安全区域の高さが前記表示装置の高さに占めるパーセンテージである。
前記ビデオフレーム抽出モジュール603は前記端末が再生するビデオ画像において前記ビデオ画像中の少なくとも1個のビデオフレームをランダムに抽出するか或いは、前記ビデオ画像中の所定のビデオフレームを抽出することに用いられる。前記所定のビデオフレームは予め設定された方法によって抽出されかつ所定の特徴を有しているビデオフレームである。
前記フレーム合成モジュール604は、
前記ビデオフレームのサイズと前記安全区域のサイズに従ってインターセプト距離を計算するインターセプト距離計算モジュールと、
前記インターセプト距離に従って前記ビデオフレームの幅方向と/或いは高さ方向においてフレームセグメントをインターセプトするフレームセグメント・インターセプトモジュールと、
前記幅方向のフレームセグメントを結合させることにより合成フレームを形成することと/或いは前記高さ方向のフレームセグメントを結合させることにより合成フレームを形成する合成モジュールとを更に含む。
前記文字検出モジュール605は、前記合成フレームを文字判断モデルに入力する入力モジュールと、前記文字判断モデルの出力により前記合成フレームに文字が含まれているかを判断する判断モジュールとを更に含む。前記文字判断モデルは畳み込みニューラルネットワークのトレーニングにより獲得するものであり、分類標識がついているトレーニング・セットを前記畳み込みニューラルネットワークに入力し、前記畳み込みニューラルネットワークの出力結果を検出することにより前記畳み込みニューラルネットワークを前記文字判断モデルにトレーニングする。
前記クロスボーダー判断モジュール606は、前記合成フレームに文字が含まれていると、前記ビデオ画像中のサブタイトルが前記ビデオ画像の幅方向と/或いは高さ方向の境界線を越えた(クロスボーダー)と判断するクロスボーダータイプ判断モジュールを更に含む。
前記サイズ減少モジュールは、前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることにより前記サブタイトル全体を前記安全区域内に位置させるか或いは、前記ビデオ画像のサイズを減少させることにより前記サブタイトル全体を前記安全区域内に位置させることにも用いられる。
図6に示される装置により図2と図5の実施例に示される方法を実施することができる。装置の実施例において説明しない部分は図2と図5の実施例に係る方法の記述を参照することができる。図6の装置を実施する過程と発明の効果は図2と図5の実施例に係る方法の記述を参照することができるので、ここで再び説明しない。
図7を参照すると、図7は本発明の実施例に係る電子装置700の構造を示す図である。本発明の実施例に係る電子装置はいろいろな端末、例えば携帯電話、ノートブックコンピューター、デジタル放送受信機(Digital broadcasting receiver)、携帯情報端末(PDA、Personal Digital Assistant)、タブレット(PAD)、ポータブルメディアプレーヤー(PMP、Portable Media Player)、車用端末装置(例えばナビゲーション)等の携帯式端末と、例えばデジタルTV、デスクトップコンピュータ等の非携帯式端末とを含むことができるが、本発明はそれらにのみ限定されるものでない。図7に示される電子装置は、本発明の例示にしか過ぎないものであり、本発明の実施例の機能と使用の範囲を限定するものでない。
図7に示すとおり、電子装置700は処理装置(例えば中央処理装置、画像処理装置等)701を含み、その処理装置701はリードオンリーメモリー(ROM、Read-Only Memory)702に記憶されるプログラムまたは記憶装置708からランダムアクセスメモリ(RAM、Random Access Memory)703に送信されるプログラムにより所定の作業と処理をすることができる。RAM703には電子装置700の操作に必要であるいろいろなプログラムとデータが更に記憶されている。処理装置701、ROM702及びRAM703はバス704により互いに接続される。入力/出力(I/O、Input/Output)インターフェース705もバス704に接続される。
下記装置は入力/出力(I/O)インターフェース705に接続されることができる。その装置は、例えばタッチパネル、タッチ基板、キーボード、マウス、画像センサー、マイク、加速度計、ジャイロスコープ等を含む入力装置706と、液晶表示装置(LCD、Liquid Crystal Display)、スピーカー、振動機等を含む出力装置707と、テープ、ハードディスク等を含む記憶装置708と、通信装置709とであることができる。通信装置709は電子装置700と他の装置が無線または有線で通信をするようにサポートすることによりデータを交換することができる。図7にはいろいろな装置を具備する電子装置700が示されているが、電子装置700は前記いろいろな装置を全部具備するか或いは全部用いる必要はない。すなわち電子装置700はより多いか或いはより少ない装置を具備するか或いは用いることができる。
特に、本発明の実施例において、前記流れ図に示されるステップはコンピュータソフトウェアプログラムにより実施されることができる。例えば、本発明の実施例はコンピュータプログラム製品を含み、そのコンピュータプログラム製品はコンピュータ読み取り可能な媒体に記憶されるコンピュータプログラムを含み、そのコンピュータプログラムは前記流れ図中の方法を実施するプログラムコードを含むことができる。その実施例において、通信装置709により前記コンピュータプログラムをネットワークからダウンロードするとともにインストールするか或いは、記憶装置708からダウンロードするとともにインストールするか或いは、ROM702からダウンロードするとともにインストールすることができる。前記コンピュータプログラムが処理装置701により実行されるとき、前記実施例に係る方法中の所定の機能を実施することができる。
注意されたいことは、前記コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、コンピュータ読み取り可能な記憶媒体またはその2つの組合せであることができる。コンピュータ読み取り可能な記憶媒体は、電気、磁性、光、電磁、赤外線であるか或いは、半導体のシステム、装置または部品であるか或いはそれらの任意の組合せであることができる。コンピュータ読み取り可能な記憶媒体の具体的な例として、1つまたは複数の導線により接続される携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM、Random Access Memory)、リードオンリーメモリー(ROM、Read-Only Memory)、消去可能プログラム可能ROM(EPROM、Erasable Programmable Read-Only Memory)、フラッシュメモリー、光ファイバー、シーディーロム(CD-ROM、Compact Disc Read Only Memory)、光記憶部品、磁性記憶部品またはそれらの任意の組合せを含むことができるが、本発明はそれらにのみ限定されるものでない。本発明の実施例において、コンピュータ読み取り可能な記憶媒体はプログラムを含むか或いは記憶する実物型媒体であり、前記プログラムは、命令実行システム、装置またはそれらの組合せに用いられることができる。本発明の実施例において、コンピュータ読み取り可能な信号媒体はベースバンド(base band)またはキャリアの一部分により伝送されるデータ信号を含み、コンピュータ読み取り可能な信号媒体にはコンピュータ読み取り可能なプログラムコードが記憶される。その方法により伝送されるデータ信号は、いろいろな信号、例えば電磁信号、光信号またはそれらの組合せであることができるが、それらにのみ限定されるものでない。コンピュータ読み取り可能な信号媒体はコンピュータ読み取り可能な記憶媒体以外のいずれかのコンピュータ読み取り可能な媒体であることができる。前記コンピュータ読み取り可能な信号媒体は、命令実行システム、装置またはそれらの組合せに用いられるプログラムを送信、伝播または伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは適当な媒体、例えば電線、光ケーブル、RF(Radio Frequency)等により伝送されるか或いはそれらの組合せにより伝送されることができる。
前記コンピュータ読み取り可能な媒体は前記電子装置に設けられるか或いは前記電子装置に設けられず前記電子装置とそれぞれ存在するものであることができる。
前記コンピュータ読み取り可能な媒体には1つまたは複数のプログラムが記憶され、1つまたは複数のプログラムが前記電子装置により実行されるとき、前記電子装置は、端末の表示装置のサイズ情報を獲得するステップであって、前記サイズ情報は前記表示装置のサイズを指すステップと、前記サイズ情報に従って安全区域を形成するステップであって、前記安全区域は前記表示装置のサイズより小さいか或いは等しいステップと、前記端末が再生するビデオ画像において前記ビデオ画像中のビデオフレームを抽出するステップと、前記安全区域のサイズを上回っている前記ビデオフレームの局部をインターセプトすることにより合成フレームを形成するステップと、前記合成フレームに文字が含まれているかを検出するステップと、前記合成フレームに文字が含まれていると、前記ビデオ画像にサブタイトルのクロスボーダーが生じたと判断するステップとを実施する。
1つまたは複数のプログラミング言語(programming language)またはそれらの組合せにより本発明の実施例に係る方法を実施するコンピュータプログラムコードを作成することができる。前記プログラミング言語は対象に向くプログラミング言語、例えばJava、Smalltalk、C++を含むか或いは常用する過程式プログラミング言語、例えば「C」プログラミング言語またはそれに類似しているプログラミング言語を更に含むことができる。プログラムコードはクライアントコンピュータにより実行されるか或いは、一部分がクライアントコンピュータにより実行されるか或いは、独立しているソフトウェアパッケージとして実行されるか或いは、一部分がクライアントコンピュータにより実行されかつ一部分がリモートコンピュータにより実行されか或いは、リモートコンピュータまたはサーバーにより実行されることができる。リモートコンピュータにより実行される場合、リモートコンピュータはいずれかのネットワーク、例えばローカルエリアネットワーク(LAN、local area network)またはワイドエリアネットワーク(WAN、Wide Area Network)によりクライアントコンピュータに接続されるか或いは外部のコンピュータに接続されることができる(例えばインターネットサービスプロバイダー(Internet Service Provider)が提供するインターネットにより外部のコンピュータに接続される)。
図面中の流れ図とブロックダイアグラム(block diagram)には本発明の実施例に係るシステム、方法及びコンピュータプログラムを実施することができるシステムの構造、機能及び操作方法が記載されている。流れ図とブロックダイアグラム中の各枠は、1つのモジュール、プログラムの一部分、コードの一部分を示し、前記モジュール、プログラムの一部分、コードの一部分は所定の機能を実現する実行可能な命令を含むことができる。注意されたいことは、他の実施例において、ブロックダイアグラムの各枠中の各ステップは図面に示される順番に実施されなくてもよい。例えば、隣接している各枠中のステップは通常、並行の順番に実施されるが、実現しようとする機能が異なることにより逆の順番に実施されることもできる。注意されたいことは、ブロックダイアグラムと/或いは流れ図中の各枠、ブロックダイアグラムと/或いは流れ図中の各枠の組合せは、所定の機能を獲得するか或いは所定の操作をすることができるハードウェアにより実施されるか或いは専用ハードウェアとコンピュータ命令の組合せにより実施されることができる。
本発明の実施例に係るユニットはソフトウェアにより実施されるか或いはハードウェアにより実施されることができる。特別な説明がない限り、ユニットの名称はそのユニットを限定するものでない。
以上、本発明の実施例とそれらに用いられる技術的事項を説明してきた。本技術分野の技術者が知っているように、本発明が公開する範囲は、前記技術的特徴の組合せによって構成される技術的事項にのみ限定されるものでなく、本発明の要旨を逸脱しない範囲において前記技術的特徴または類似の技術的特徴の組合せにより形成される他の技術的事項を更に含むこともできる。例えば、前記技術的特徴と本発明の実施例に公開される類似の技術的特徴(それにのみ限定されるものでない)により形成される技術的事項を更に含むこともできる。

Claims (13)

  1. 端末の表示装置のサイズ情報を獲得するステップであって、前記サイズ情報は前記表示装置のサイズを指すステップと、
    前記サイズ情報に従って安全区域を形成するステップであって、前記安全区域は前記表示装置のサイズより小さいか或いは等しいステップと、
    前記端末が再生するビデオ画像において前記ビデオ画像中のビデオフレームを抽出するステップと、
    前記安全区域のサイズを上回っている前記ビデオフレームの局部をインターセプトし、インターセプトした複数個のフレームセグメントを結合することにより合成フレームを形成するステップと、
    前記合成フレームに文字が含まれているかを検出するステップと、
    前記合成フレームに文字が含まれていると、前記ビデオ画像にサブタイトルのクロスボーダーが生じたと判断するステップとを含むことを特徴とするサブタイトルのクロスボーダーの処理方法。
  2. 前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることによりそれを前記安全区域内に位置させるステップを更に含むことを特徴とする請求項1に記載のサブタイトルのクロスボーダーの処理方法。
  3. 前記端末の表示装置のサイズ情報を獲得するステップであって、前記サイズ情報は前記表示装置のサイズを指すステップは、前記端末のディスプレイ属性を獲得することを含み、前記ディスプレイ属性は表示装置の高さ及び幅を含むことを特徴とする請求項1に記載のサブタイトルのクロスボーダーの処理方法。
  4. 前記サイズ情報に従って安全区域を形成するステップであって、前記安全区域は前記表示装置のサイズより小さいか或いは等しいステップは、第一パーセンテージにより前記安全区域の幅を計算すること及び/または第二パーセンテージにより前記安全区域の高さを計算することを含み、
    前記第一パーセンテージは前記安全区域の幅が前記表示装置の幅に占めるパーセンテージであり、前記第二パーセンテージは前記安全区域の高さが前記表示装置の高さに占めるパーセンテージであることを特徴とする請求項2に記載のサブタイトルのクロスボーダーの処理方法。
  5. 前記端末が再生するビデオ画像において前記ビデオ画像中のビデオフレームを抽出するステップは、前記端末が再生するビデオ画像において前記ビデオ画像中の少なくとも1個のビデオフレームをランダムに抽出するか或いは、前記ビデオ画像中の所定のビデオフレームを抽出することを含み、前記所定のビデオフレームは予め設定された方法によって抽出されかつ所定の特徴を有しているビデオフレームであることを特徴とする請求項1に記載のサブタイトルのクロスボーダーの処理方法。
  6. 前記安全区域のサイズを上回っている前記ビデオフレームの局部をインターセプトし、インターセプトした複数個のフレームセグメントを結合することにより合成フレームを形成するステップは、
    前記ビデオフレームのサイズと前記安全区域のサイズに従ってインターセプト距離を計算することと、
    前記インターセプト距離に従って前記ビデオフレームの幅方向及び/または高さ方向においてフレームセグメントをインターセプトすることと、
    前記幅方向のフレームセグメントを結合させることにより合成フレームを形成すること及び/または
    前記高さ方向のフレームセグメントを結合させることにより合成フレームを形成することとを含むことを特徴とする請求項1に記載のサブタイトルのクロスボーダーの処理方法。
  7. 前記合成フレームに文字が含まれているかを検出するステップは、
    前記合成フレームを文字判断モデルに入力することと、
    前記文字判断モデルの出力により前記合成フレームに文字が含まれているかを判断することとを含むことを特徴とする請求項1に記載のサブタイトルのクロスボーダーの処理方法。
  8. 前記文字判断モデルは畳み込みニューラルネットワークのトレーニングにより獲得するものであり、分類標識がついているトレーニング・セットを前記畳み込みニューラルネットワークに入力し、前記畳み込みニューラルネットワークの出力結果を検出することにより前記畳み込みニューラルネットワークを前記文字判断モデルにトレーニングすることを特徴とする請求項7に記載のサブタイトルのクロスボーダーの処理方法。
  9. 前記合成フレームに文字が含まれていると、前記ビデオ画像にサブタイトルのクロスボーダーが生じたと判断するステップは、前記合成フレームに文字が含まれていると、前記ビデオ画像中のサブタイトルが前記ビデオ画像の幅方向及び/または高さ方向の境界線を越えたと判断することを含むことを特徴とする請求項6に記載のサブタイトルのクロスボーダーの処理方法。
  10. 前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることによりそれを前記安全区域内に位置させるステップは、前記ビデオ画像にサブタイトルのクロスボーダーが生じたことを検出すると、前記サブタイトルのサイズを減少させることにより前記サブタイトル全体を前記安全区域内に位置させるか或いは、前記ビデオ画像のサイズを減少させることにより前記サブタイトル全体を前記安全区域内に位置させることを含むことを特徴とする請求項2に記載のサブタイトルのクロスボーダーの処理方法。
  11. 端末の表示装置のサイズ情報を獲得するサイズ獲得モジュールであって、前記サイズ情報は前記表示装置のサイズを指すサイズ獲得モジュールと、
    前記サイズ情報に従って安全区域を形成する安全区域形成モジュールであって、前記安全区域は前記表示装置のサイズより小さいか或いは等しい安全区域形成モジュールと、
    前記端末が再生するビデオ画像において前記ビデオ画像中のビデオフレームを抽出するビデオフレーム抽出モジュールと、
    前記安全区域のサイズを上回っている前記ビデオフレームの局部をインターセプトし、インターセプトした複数個のフレームセグメントを結合することにより合成フレームを形成するフレーム合成モジュールと、
    前記合成フレームに文字が含まれているかを検出する文字検出モジュールと、
    前記合成フレームに文字が含まれていると、前記ビデオ画像にサブタイトルのクロスボーダーが生じたと判断するクロスボーダー判断モジュールとを含むことを特徴とするサブタイトルのクロスボーダーの処理装置。
  12. コンピュータ読み取り可能命令を記憶する記憶装置と、
    前記コンピュータ読み取り可能命令を実行することにより請求項1~10のうちいずれか一項に記載のサブタイトルのクロスボーダーの処理方法を実施する処理装置とを含むことを特徴とする電子装置。
  13. コンピュータ読み取り可能命令を記憶し、コンピュータが前記コンピュータ読み取り可能命令を実行することにより請求項1~10のうちいずれか一項に記載のサブタイトルのクロスボーダーの処理方法を実施することを特徴とする非一時的コンピュータ読み取り可能記憶媒体。
JP2021571922A 2019-06-06 2020-06-03 サブタイトルのクロスボーダーの処理方法、装置及び電子装置 Active JP7331146B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910493548.7 2019-06-06
CN201910493548.7A CN110177295B (zh) 2019-06-06 2019-06-06 字幕越界的处理方法、装置和电子设备
PCT/CN2020/094191 WO2020244553A1 (zh) 2019-06-06 2020-06-03 字幕越界的处理方法、装置和电子设备

Publications (2)

Publication Number Publication Date
JP2022535549A JP2022535549A (ja) 2022-08-09
JP7331146B2 true JP7331146B2 (ja) 2023-08-22

Family

ID=67698044

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021571922A Active JP7331146B2 (ja) 2019-06-06 2020-06-03 サブタイトルのクロスボーダーの処理方法、装置及び電子装置

Country Status (4)

Country Link
US (1) US11924520B2 (ja)
JP (1) JP7331146B2 (ja)
CN (1) CN110177295B (ja)
WO (1) WO2020244553A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110177295B (zh) * 2019-06-06 2021-06-22 北京字节跳动网络技术有限公司 字幕越界的处理方法、装置和电子设备
CN111225288A (zh) * 2020-01-21 2020-06-02 北京字节跳动网络技术有限公司 展示字幕信息的方法、装置以及电子设备
CN111414494A (zh) * 2020-02-17 2020-07-14 北京达佳互联信息技术有限公司 一种多媒体作品的展示方法、装置、电子设备及存储介质
CN112738629B (zh) * 2020-12-29 2023-03-10 北京达佳互联信息技术有限公司 视频展示方法、装置、电子设备和存储介质
CN114302211B (zh) * 2021-12-29 2023-08-01 北京百度网讯科技有限公司 视频播放方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009216815A (ja) 2008-03-07 2009-09-24 Sanyo Electric Co Ltd 投写型映像表示装置
JP2013040976A (ja) 2009-12-11 2013-02-28 Panasonic Corp 画像表示装置及び画像表示方法
JP2013255123A (ja) 2012-06-07 2013-12-19 Ricoh Co Ltd 画像配信装置、表示装置及び画像配信システム
JP2018152026A (ja) 2017-03-15 2018-09-27 ソフネック株式会社 文字認識方法及びコンピュータプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4552426B2 (ja) 2003-11-28 2010-09-29 カシオ計算機株式会社 表示制御装置および表示制御処理のプログラム
CN101064177A (zh) * 2006-04-26 2007-10-31 松下电器产业株式会社 字幕显示控制设备
US8346049B2 (en) * 2007-05-21 2013-01-01 Casio Hitachi Mobile Communications Co., Ltd. Captioned video playback apparatus and recording medium
CN101668132A (zh) * 2008-09-02 2010-03-10 华为技术有限公司 一种字幕匹配处理的方法和系统
CN102082931A (zh) * 2009-11-30 2011-06-01 新奥特(北京)视频技术有限公司 一种自适应调整字幕区域的方法及装置
CN102082930B (zh) * 2009-11-30 2015-09-30 新奥特(北京)视频技术有限公司 一种字幕文本替换的方法及装置
CN102088571B (zh) * 2009-12-07 2012-11-21 联想(北京)有限公司 一种字幕显示方法和终端设备
CN102111601B (zh) 2009-12-23 2012-11-28 大猩猩科技股份有限公司 内容可适性的多媒体处理系统与处理方法
JP5930363B2 (ja) * 2011-11-21 2016-06-08 株式会社ソニー・インタラクティブエンタテインメント 携帯情報機器およびコンテンツ表示方法
CA2917221A1 (en) * 2013-07-02 2015-01-08 Lg Electronics Inc. Method and apparatus for processing 3-dimensional image including additional object in system providing multi-view image
CN103700360A (zh) * 2013-12-09 2014-04-02 乐视致新电子科技(天津)有限公司 一种屏幕显示比例调整方法和电子设备
KR102187195B1 (ko) * 2014-07-28 2020-12-04 삼성전자주식회사 주변 소음에 기초하여 자막을 생성하는 동영상 디스플레이 방법 및 사용자 단말
KR102227088B1 (ko) * 2014-08-11 2021-03-12 엘지전자 주식회사 전자기기 및 그것의 제어방법
EP3297274A4 (en) * 2015-05-14 2018-10-10 LG Electronics Inc. Display device and operation method therefor
US10019412B2 (en) * 2016-03-22 2018-07-10 Verizon Patent And Licensing Inc. Dissociative view of content types to improve user experience
CN106210838B (zh) * 2016-07-14 2019-05-24 腾讯科技(深圳)有限公司 字幕显示方法及装置
CN106657965A (zh) * 2016-12-13 2017-05-10 奇酷互联网络科技(深圳)有限公司 识别3d格式视频的方法、装置及用户终端
CN108769821B (zh) * 2018-05-25 2019-03-29 广州虎牙信息科技有限公司 游戏场景描述方法、装置、设备及存储介质
CN109743613B (zh) * 2018-12-29 2022-01-18 腾讯音乐娱乐科技(深圳)有限公司 一种字幕处理方法、装置、终端及存储介质
CN110177295B (zh) * 2019-06-06 2021-06-22 北京字节跳动网络技术有限公司 字幕越界的处理方法、装置和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009216815A (ja) 2008-03-07 2009-09-24 Sanyo Electric Co Ltd 投写型映像表示装置
JP2013040976A (ja) 2009-12-11 2013-02-28 Panasonic Corp 画像表示装置及び画像表示方法
JP2013255123A (ja) 2012-06-07 2013-12-19 Ricoh Co Ltd 画像配信装置、表示装置及び画像配信システム
JP2018152026A (ja) 2017-03-15 2018-09-27 ソフネック株式会社 文字認識方法及びコンピュータプログラム

Also Published As

Publication number Publication date
WO2020244553A1 (zh) 2020-12-10
US20220248102A1 (en) 2022-08-04
CN110177295B (zh) 2021-06-22
US11924520B2 (en) 2024-03-05
CN110177295A (zh) 2019-08-27
JP2022535549A (ja) 2022-08-09

Similar Documents

Publication Publication Date Title
JP7331146B2 (ja) サブタイトルのクロスボーダーの処理方法、装置及び電子装置
JP7488333B2 (ja) ビデオ検索方法、装置、端末、及び記憶媒体
US11023716B2 (en) Method and device for generating stickers
CN110796664B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
US20160275374A1 (en) Multi-stage image classification
US20210281744A1 (en) Action recognition method and device for target object, and electronic apparatus
US9536161B1 (en) Visual and audio recognition for scene change events
US10701301B2 (en) Video playing method and device
WO2022105740A1 (zh) 视频的处理方法、装置、可读介质和电子设备
EP2797331A1 (en) Display apparatus for providing recommendation information and method thereof
US10572572B2 (en) Dynamic layout generation for an electronic document
CN112306235B (zh) 一种手势操作方法、装置、设备和存储介质
CN110321454B (zh) 视频的处理方法、装置、电子设备及计算机可读存储介质
WO2023138441A1 (zh) 视频生成方法、装置、设备及存储介质
CN109299416B (zh) 一种网页处理方法、装置、电子设备及存储介质
US20220245920A1 (en) Object display method and apparatus, electronic device, and computer readable storage medium
US20230185444A1 (en) Multimedia information playback and apparatus, electronic device, and computer storage medium
CN113255812B (zh) 视频边框检测方法、装置和电子设备
CN116137662A (zh) 页面展示方法及装置、电子设备、存储介质和程序产品
CN114640876A (zh) 多媒体业务视频显示方法、装置、计算机设备及存储介质
CN110825909A (zh) 视频图像的识别方法、装置、服务器、终端和存储介质
CN111797591B (zh) 版面恢复方法、装置和电子设备
TW201415888A (zh) 顯示系統以及通訊方法
CN112766285B (zh) 图像样本生成方法、装置和电子设备
CN110223325B (zh) 对象跟踪方法、装置及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230809

R150 Certificate of patent or registration of utility model

Ref document number: 7331146

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150