JP2019212308A - 動画サービス提供方法およびこれを用いるサービスサーバ - Google Patents

動画サービス提供方法およびこれを用いるサービスサーバ Download PDF

Info

Publication number
JP2019212308A
JP2019212308A JP2019102475A JP2019102475A JP2019212308A JP 2019212308 A JP2019212308 A JP 2019212308A JP 2019102475 A JP2019102475 A JP 2019102475A JP 2019102475 A JP2019102475 A JP 2019102475A JP 2019212308 A JP2019212308 A JP 2019212308A
Authority
JP
Japan
Prior art keywords
character string
unit
keyword
subtitle
moving image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019102475A
Other languages
English (en)
Other versions
JP6824332B2 (ja
Inventor
キム,ジンジュン
Jin Joong Kim
ウ,ソンソプ
Sung Sub Woo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Z Intermediate Global Corp
Naver Corp
Original Assignee
Line Corp
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Line Corp, Naver Corp filed Critical Line Corp
Publication of JP2019212308A publication Critical patent/JP2019212308A/ja
Application granted granted Critical
Publication of JP6824332B2 publication Critical patent/JP6824332B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

【課題】動画を複数の単位区間に分離し、各単位区間に対するキーワードを自動で生成する動画サービス提供方法、コンピュータプログラム及びサービスサーバを提供する。【解決手段】動画サービス提供方法におけるサービスサーバ100は、動画内に含まれる音声の特性変化を基準に、動画を複数の単位区間に分離する単位区間分離部110と、単位区間に含まれる音声を認識して、音声に対応するスクリプト文字列を生成するスクリプト文字列生成部120と、単位区間に含まれる字幕イメージを認識して、字幕イメージに対応する字幕文字列を生成する字幕文字列生成部130と、スクリプト文字列および字幕文字列に自然言語処理を適用して、単位区間に対応するキーワードを生成するキーワード生成部140と、を備える。【選択図】図2

Description

本出願は、動画サービス提供方法およびこれを用いるサービスサーバに関し、動画を意味に基づく単位区間に分離して、各単位区間に対するキーワードを自動で生成できる動画サービス提供方法およびこれを用いるサービスサーバに関する。
最近、インターネット技術の発達により、インターネットを介して動画を提供する動画サービスなどが広く活用されている。ユーザがインターネットを介して動画を視聴しようとする場合、インターネット上で提供される数多くの動画の中から所望の動画を検索する必要があり、効果的な動画検索のための様々な動画検索方法などが提示されてきた。
しかし、最近では、ユーザが動画全体でなく動画内の一部分に対して関心を持ち、その部分だけを視聴しようとする場合が増えている。例えば、サッカー中継を視聴しようとするユーザは、サッカー中継プログラムの全体を視聴するよりは特定の選手がゴールを入れるシーンだけを視聴しようとすることがある。しかし、一般的な動画検索方法は、サッカー中継全体をその検索の対象にするため、ユーザが所望する動画の一部のシーンなどを検索するのが難しかった。
韓国登録特許第10−0721409号公報
本出願は、動画を意味に基づく単位区間に分離して、各単位区間に対するキーワードを自動で生成できる動画サービス提供方法およびこれを用いるサービスサーバを提供する。
本出願は、動画内の音声の特性変化に基づいて動画を複数の単位区間に分離できる動画サービス提供方法およびこれを用いるサービスサーバを提供する。
本出願は、動画を分離した各々の単位区間に音声認識および字幕認識を適用して、単位区間の内容に応じたキーワードを自動で生成できる動画サービス提供方法およびこれを用いるサービスサーバを提供する。
本出願は、機械学習を用いた自然言語処理を適用して、動画の各単位区間の内容に応じたキーワードを自動で生成できる動画サービス提供方法およびこれを用いるサービスサーバを提供する。
本発明の一実施形態による動画サービス提供方法は、サービスサーバが端末装置に動画を提供する動画サービス提供方法に関し、動画内に含まれる音声の特性変化を基準に、前記動画を複数の単位区間に分離する単位区間分離ステップ、前記単位区間に含まれる音声を認識して、前記音声に対応するスクリプト文字列を生成するスクリプト文字列生成ステップ、前記単位区間に含まれる字幕イメージを認識して、前記字幕イメージに対応する字幕文字列を生成する字幕文字列生成ステップ、および前記スクリプト文字列および字幕文字列に自然言語処理(Natural Language Processing)を適用して、前記単位区間に対応するキーワードを生成するキーワード生成ステップを含む。
本発明の一実施形態によるサービスサーバは、動画内に含まれる音声の特性変化を基準に、前記動画を複数の単位区間に分離する単位区間分離部、前記単位区間に含まれる音声を認識して、前記音声に対応するスクリプト文字列を生成するスクリプト文字列生成部、前記単位区間に含まれる字幕イメージを認識して、前記字幕イメージに対応する字幕文字列を生成する字幕文字列生成部、および前記スクリプト文字列および字幕文字列に自然言語処理を適用して、前記単位区間に対応するキーワードを生成するキーワード生成部を含む。
本発明の他の実施形態によるサービスサーバは、プロセッサ、および前記プロセッサに結合されたメモリを含むものであって、前記メモリは前記プロセッサにより実行されるように構成される1つ以上のモジュールを含み、前記1つ以上のモジュールは、動画内に含まれる音声の特性変化を基準に、前記動画を複数の単位区間に分離し、前記単位区間に含まれる音声を認識して、前記音声に対応するスクリプト文字列を生成し、前記単位区間に含まれる字幕イメージを認識して、前記字幕イメージに対応する字幕文字列を生成し、前記スクリプト文字列および字幕文字列に自然言語処理を適用して、前記単位区間に対応するキーワードを生成する、命令語を含む。
また、課題を解決するための手段の欄に記載される事項は、本発明の特徴を全て列挙したものではない。本発明の様々な特徴とそれに応じた長所および効果は下記の具体的な実施形態を参照してより詳細に理解できるものである。
本発明の一実施形態による動画サービス提供方法およびこれを用いるサービスサーバによれば、動画内の音声の特性変化に基づいて動画を分離するため、文脈や意味の損傷なしに動画を分離することができる。
本発明の一実施形態による動画サービス提供方法およびこれを用いるサービスサーバによれば、音声認識および字幕認識を適用して単位区間内に含まれる内容を抽出し、その後、それを用いて各々の単位区間に対するキーワードを設定するため、単位区間の内容に応じたキーワードを設定することができる。
本発明の一実施形態による動画サービス提供方法およびこれを用いるサービスサーバによれば、ユーザは、内容に基づいて動画に含まれる特定のシーンを検索することができ、特定の主題や内容に基づいて要約動画を生成することができる。
また、本発明の実施形態による動画サービス提供方法およびこれを用いるサービスサーバが達成できる効果は上記で言及したものに制限されず、言及されていない他の効果は下記の記載によって本発明が属する技術分野で通常の知識を有する者に明らかに理解できるものである。
本発明の一実施形態による動画サービス提供システムを示す概略図である。 本発明の一実施形態によるサービスサーバを示すブロック図である。 本発明の一実施形態によるサービスサーバを示すブロック図である。 本発明の一実施形態による動画の単位区間の分離を示す概略図である。 本発明の一実施形態によるスクリプト文字列および字幕文字列の生成を示す概略図である。 本発明の一実施形態による字幕イメージの検出を示す概略図である。 本発明の他の実施形態による動画サービス提供方法を示すフローチャートである。
以下では添付図面を参照して本明細書に開示された実施形態について詳しく説明するが、図面に関係なく同一または類似した構成要素には同一の参照番号を付し、それに対する重複する説明は省略することにする。以下の説明で用いられる構成要素に対する接尾辞「モジュール」および「部」は、明細書の作成の容易さだけを考慮して付与または混用されるものであって、それ自体で互いに区別される意味または役割を有するものではない。すなわち、本発明で用いられる「部」という用語はソフトウェア、FPGAまたはASICのようなハードウェア構成要素を意味し、「部」はある役割をする。ところが、「部」はソフトウェアまたはハードウェアに限定される意味ではない。「部」は、アドレッシングできる格納媒体にあるように構成されてもよく、一つまたはそれ以上のプロセッサを再生させるように構成されてもよい。よって、一例として「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素と「部」の中から提供される機能は、さらに小さい数の構成要素および「部」で結合されるか、または追加の構成要素と「部」にさらに分離されてもよい。
また、本明細書に開示された実施形態について説明するにおいて、関連の公知技術に関する具体的な説明が本明細書に開示された実施形態の要旨をあいまいにする恐れがあると判断される場合には、その詳細な説明は省略する。また、添付された図面は本明細書に開示された実施形態を容易に理解できるようにするためのものに過ぎず、添付された図面によって本明細書に開示された技術的思想が制限されるものではなく、本発明の思想および技術範囲に含まれる全ての変更、均等物乃至代替物を含むものとして理解しなければならない。
図1は、本発明の一実施形態による動画サービス提供システムを示す概略図である。
図1を参照すれば、本発明の一実施形態による動画サービス提供システムは、端末装置1およびサービスサーバ100を含むことができる。
以下では、図1を参照して、本発明の一実施形態による動画サービス提供システムについて説明する。
端末装置1は、ネットワークを介してサービスサーバ100と通信を行うことができ、サービスサーバ100が提供する動画サービスの提供を受けることができる。端末装置1は、動画などのコンテンツをユーザに視覚的または聴覚的に提供するためのディスプレイ部、スピーカなどを含むことができ、ユーザの入力を受ける入力部、少なくとも一つのプログラムが格納されたメモリおよびプロセッサを含むことができる。
端末装置1はスマートフォン、タブレットPCなどの移動端末またはデスクトップなどの固定型装置であってもよく、実施形態によっては、携帯電話、スマートフォン(Smart phone)、ラップトップ型コンピュータ(laptop computer)、デジタル放送用端末、PDA(personal digital assistants)、PMP(portable multimedia player)、スレートPC(slate PC)、タブレットPC(tablet PC)、ウルトラブック(ultrabook)、ウェアラブルデバイス(wearable device、例えば、スマートウォッチ(smart watch)、スマートメガネ(smart glass)、ヘッドマウントディスプレイ(HMD:head mounted display))などが端末装置1に該当することができる。
端末装置1とサービスサーバ100を連結するネットワークは、有線ネットワークおよび無線ネットワークを含むことができ、具体的には、ローカル・エリア・ネットワーク(LAN:Local Area Network)、メトロポリタン・エリア・ネットワーク(MAN:Metropolitan Area Network)、広域ネットワーク(WAN:Wide Area Network)などのような様々なネットワークを含むことができる。また、ネットワークは、公知のワールド・ワイド・ウェブ(WWW:World Wide Web)を含むこともできる。但し、本発明に係るネットワークは、上記で列挙されたネットワークに限定されず、公知の無線データネットワーク、公知の電話ネットワーク、公知の有線または無線テレビネットワークなどを含むことができる。
サービスサーバ100は、ネットワークを介して端末装置1に動画サービスを提供することができる。サービスサーバ100には端末装置1に提供可能な複数の動画コンテンツが格納されており、端末装置1の要請に応じて端末装置1に動画を提供することができる。例えば、サービスサーバ100は、動画などのコンテンツをリアルタイムでストリーミング(streaming)するか、またはそのようなコンテンツをダウンロード(download)するように提供することができる。
サービスサーバ100は、動画サービスを提供するとき、動画に対するメタ情報をさらに含めて提供することができる。すなわち、動画そのものに対するメタ情報を設定して、動画の登場人物、ストーリー、ジャンルなどのような追加的な情報をユーザに提供することができ、それを活用してユーザに動画検索や推薦サービスなどを提供することもできる。
ここで、本発明の一実施形態によるサービスサーバ100は、動画そのものに対するメタ情報を設定することの他に、動画内に含まれる内容に対するメタ情報を設定することもできる。すなわち、サービスサーバ100は、動画を意味に基づく単位区間に分離した後、各々の単位区間に対するキーワードを設定することによって、全体動画のうちユーザが所望する区間だけを探索するように提供することができる。また、同一のキーワードを有する単位区間を取り集めて全体動画を要約した要約動画をユーザに提供することもできる。
図2は、本発明の一実施形態によるサービスサーバを示すブロック図である。
図2を参照すれば、本発明の一実施形態によるサービスサーバ100は、単位区間分離部110、スクリプト文字列生成部120、字幕文字列生成部130、キーワード生成部140、検索部150および要約動画生成部160を含むことができる。
以下では、図2を参照して、本発明の一実施形態によるサービスサーバ100について説明する。
単位区間分離部110は、動画を複数の単位区間に分離することができる。すなわち、単位区間分離部110は、対象となる動画をロードすることができ、ロードした動画内に含まれる音声の特性変化を基準に、動画を複数の単位区間に分離することができる。ここで、音声の特性変化は音量または音質の変化であってもよく、実施形態によっては、音の高低、音色などの変化も含むことができる。
具体的には、単位区間分離部110は、音声の特性変化を確認するために、動画内の音量を追跡することができる。例えば、音量は、動画内の一定区間の間には特定の範囲内に維持され、急に特定の範囲を脱して急激に高くなったり低くなったりする。このとき、単位区間分離部110は、動画内の音量を追跡して、音量の変化が発生した動画内の地点を検知することができる。すなわち、単位区間分離部110は、音量の変化量を用いて音量の急激な上昇地点や下降地点を検知することができる。
ここで、音量の変化量は、動画内の一定区間の間の音量の平均値や、該区間内に現れる音量の最大値または最小値を基準に計算することができる。すなわち、単位区間分離部110は、測定した音量を平均値などの基準と比較してどのくらい変化したかを計算することができ、音量の変化量が一定の閾値(threshold)以上に増加した地点を上昇地点、減少した地点を下降地点に設定することができる。このとき、上昇地点、下降地点を設定するための閾値は各々互いに異なるように設定されてもよく、閾値は各々の動画ごとに互いに異なるように設定されてもよい。
単位区間分離部110は、音量の上昇地点または下降地点を基準に動画を複数の単位区間に分離することができ、それにより、野球で打者がホームランを打ったときの喚声を用いてホームランシーンを検知したり、ニュースでアンカーが話しをする中で次のニュースに移るために間をおく部分などを検知したりすることができる。
また、実施形態によっては、単位区間分離部110が動画内に含まれる音声の特性変化を確認するために、動画内の音質を把握することができる。例えば、単位区間分離部110は、動画内の音質が良好な状態から突然ノイズが多くなる部分を検知することができ、検知された部分を基準に単位区間に分離することができる。すなわち、単位区間分離部110は、ニュースでアンカーが話をする中で現場のアナウンサにマイクを渡すときに発生する音質の変化などを検知した後、それを基準に動画を分離することもできる。さらに、動画内に複数の話者が存在する場合、単位区間分離部110は、音色を用いて各々の話者を区別した後、話者別に単位区間に分離することもできる。この他にも、単位区間分離部110は、様々な方法で音声の特性変化を検知し、それに応じて単位区間に分離することができる。
一方、ニュース動画の場合、アンカーは原稿(script)を一定の速度で読んで行き、1つの段落が終われば、しばらく切って、次の段落を継続して読んで行く。すなわち、動画内の話者が読む各々の段落は、話者の音量の変化量を基準に区別することができる。同一の段落内には同一主題の内容が含まれるのが一般的であるため、それを基準に動画を区分すれば、動画を意味に基づいて分離することができる。また、定められた原稿がない動画などの場合にも、動画内の話者が話す文脈を維持するためには、話者の音量の変化量を基準に動画を区分することが有利である。したがって、単位区間分離部110においては、動画内に含まれる音声の音量の変化量を基準に、動画を複数の単位区間に分離することができる。
例えば、図4に示すように、ニュース動画V内のアンカーの音量変化量を用いれば、全体動画をアンカーが発話する区間Aと発話を中断した停止区間Bに区分することができる。ここで、アンカーの音量の変化量を基準に動画を分離するため、1つの単位区間内に複数の画面転換が起こり得ることを確認することができる。
一方、アンカーが発話する区間Aが各々の単位区間に該当するため、発話を中断した停止区間Bを編集点(Cutting point)に設定して各々の単位区間を分離することができる。ここで、停止区間Bは、音量が設定値未満に減少し、設定値未満に減少した音量が基準時間以上維持される区間に設定することができる。停止区間Bの長さは、各々の動画ごとに互いに異なるように設定されてもよい。
したがって、単位区間分離部110は、音声の特性変化を用いて、動画内に含まれる停止区間Bを判別することができ、それを用いて複数の単位区間に分離することができる。
スクリプト文字列生成部120は、単位区間に含まれる音声を認識して、音声に対応するスクリプト文字列を生成することができる。動画を複数の単位区間に分離した後には、各々の単位区間内に含まれる内容を認識する必要がある。このために、スクリプト文字列生成部120は、話者が発話した音声を認識し、それを文字に変換し、変換された文字を結合してスクリプト文字列を生成することができる。
実施形態によっては、サービスサーバ100内に別の音声認識装置が備えられていてもよく、スクリプト文字列生成部120は音声認識装置を用いて音声を文字に変換することができる。例えば、単位区間に含まれる音声を、電気的信号である音声パターンで表すことができ、音声モデルデータベースなどに各々の文字に対応する標準音声パターンが格納されていてもよい。この場合、音声認識装置は、入力される音声パターンを、音声モデルデータベースに格納された標準音声パターンと比較することができ、各々の音声パターンに対応する標準音声パターンを抽出することができる。その後、抽出した標準音声パターンを対応する文字に変換することができ、変換された文字を結合してスクリプト文字列を生成することができる。すなわち、図5に示すように、スクリプト文字列生成部120は、動画内で話者が発話した音声を認識してスクリプト文字列S1を生成することができる。
但し、スクリプト文字列生成部120が音声を文字に変換する方式はこれに限定されず、スクリプト文字列生成部120はこの他にも様々な方式で動画に含まれる音声を文字に変換することができる。
字幕文字列生成部130は、単位区間に含まれる字幕イメージを認識して、字幕イメージに対応する字幕文字列を生成することができる。動画内には話者が話す内容や、動画が伝達しようとする内容を強調するために、字幕イメージが含まれることがある。例えば、図5に示すように、ニュース動画の場合にも、ニュースの主な内容を要約して伝達するために字幕イメージCが含まれる。
このように字幕イメージには動画の内容が要約されて表示されるため、各々の単位区間の内容を確認するために、字幕イメージに含まれる文字を認識する必要がある。但し、字幕イメージは文字でなく形状として認識されるため、字幕イメージに含まれる文字を認識するためには、文字認識アルゴリズムなどを適用する必要がある。
実施形態によっては、サービスサーバ100内に別の文字認識装置が備えられていてもよく、字幕文字列生成部130は文字認識装置を用いて字幕イメージを文字に変換することができる。例えば、単位区間に含まれる字幕イメージをスキャンして字幕イメージに対するピクセル値の分布を電気的信号である形状パターンで表すことができ、文字モデルデータベースなどに各々の文字に対応する標準形状パターンが格納されていてもよい。この場合、文字認識装置は、入力される形状パターンを文字モデルデータベースに格納された標準形状パターンと比較することができ、各々の形状パターンに対応する標準形状パターンを抽出することができる。その後、抽出した標準形状パターンに対応する文字に各々変換して字幕文字列を生成することができる。すなわち、図5に示すように、動画フレームf内の字幕イメージCに含まれる形状を文字に変換して字幕文字列S2として抽出することができる。
一方、字幕文字列生成部130が字幕イメージから字幕文字列を抽出するためには、単位区間内での字幕イメージの存在有無と、字幕イメージの動画フレーム内の位置を判別する必要がある。すなわち、字幕イメージが含まれる動画フレームに限って文字認識を実行し、動画フレーム内に字幕イメージが位置する領域に限って文字認識を実行するようにして、より効率的な文字認識が実行されるようにすることができる。また、それにより、動画フレーム内に含まれる字幕イメージでない他の文字を変換するなどの問題を防止することができる。したがって、字幕文字列生成部130においては、字幕文字列を生成する前に、まず、単位区間内の字幕イメージを含む動画フレームを検出し、動画フレーム内に含まれる字幕イメージの位置を特定することができる。
具体的には、字幕文字列生成部130は、単位区間に含まれる各々の動画フレームに複数のランドマークを設定することができる。すなわち、図6に示すように、動画フレーム内にランドマークLが均一に位置するように設定することができ、各々のランドマークLにおいて色相または輝度などを測定することができる。具体的には、ランドマークLの位置に対応するピクセルから各々のピクセルの色相、輝度などの入力を受けることができる。
その後、ランドマークにおいて測定された色相または輝度などが字幕イメージに対応する基準色相または基準輝度に該当すれば、その動画フレーム内に字幕イメージが位置すると判別することができる。図6に示すように、字幕イメージCは原本画像Dを覆う形態で表示されることがあり、字幕イメージCは基準色相と基準輝度を有するように設定されることができる。ここで、字幕イメージCの基準色相、基準輝度は、原本画像Dとは区別される特徴的な色相や輝度を有するように設定されるため、字幕文字列生成部130は、色相や輝度を用いて字幕イメージを区別することができる。
また、字幕文字列生成部130は、動画フレーム上に均一に分布する複数のランドマークのうち、字幕イメージに対応する基準色相または基準輝度が測定されたランドマークを抽出することができ、抽出されたランドマークを用いて字幕イメージの位置または大きさを特定することができる。すなわち、各々のランドマークの動画フレーム内での設定座標などが予め設定されていてもよく、字幕文字列生成部130は、字幕イメージを検出したランドマークの設定座標を用いて、該字幕イメージの位置と大きさを特定することができる。この場合、字幕文字列生成部130は、特定された字幕イメージ領域内でのみ文字認識を実行するように制御することができる。すなわち、全体動画フレームのうち文字認識を実行する領域を特定することができるため、より効率的な文字認識が可能である。
一方、字幕文字列生成部130は、動画製作者から各々の動画に用いた字幕イメージの基準色相や基準輝度、動画フレーム内での位置や大きさなどの特徴情報の提供を受け、字幕イメージの抽出時にそれを活用することができる。例えば、字幕イメージの位置や大きさなどに対する特徴情報を受け取る場合には、ランドマークを動画フレーム全体に均一に設定せず、字幕イメージが位置するものとして設定された領域内に限定して、ランドマークを設定することができる。
キーワード生成部140は、スクリプト文字列および字幕文字列に自然言語処理(Natural Language Processing)を適用して、単位区間に対応するキーワードを生成することができる。すなわち、ユーザが単位区間の内容を確認した後、それに対応してキーワードや注釈などを設定するのではなく、各々の単位区間に対する意味を基にしたキーワードを自動で設定することができる。ここで、スクリプト文字列および字幕文字列に適用する自然言語処理には様々な方法などが適用されることができ、実施形態によっては、word2vec、LDA(Latent Dirichlet Allocation)などの機械学習(machine learning)が適用されることができる。
一実施形態によれば、キーワード生成部140は、word2vecを用いて単語埋め込み(word embedding)したword2vecモデルを実現することができ、字幕文字列またはスクリプト文字列から抽出した単語をword2vecモデルに対する入力単語に設定して、入力単語に対応する関連単語を抽出することができる。その後、抽出された関連単語を、その単位区間に対するキーワードとして設定することができる。
例えば、サービスサーバ100が提供する動画がニュース動画である場合には、最近5年間のニュース記事などを、word2vecを用いて単語埋め込みする方式で、word2vecモデルを実現することができる。Word2vecの場合、各々の単語をベクトル空間に埋め込んで単語をベクトルで表すものであり、互いに関連する単語は空間上で隣接して配置される特徴がある。すなわち、word2vecモデルが学習する複数のサンプルにおいて各々の単語が互いに隣接して現れる頻度が高いほど、ベクトル空間上で隣接して表示されることができる。例えば、サンプルに用いられた既存のニュース記事において、「ブレグジット」と関連して「英国」、「ユーロ圏」、「脱退」などがよく言及されると、「ブレグジット」と「英国」、「ユーロ圏」、「脱退」などに対応するベクトルは互いに隣接して埋め込まれることができ、これらは互いに関連があると判別することができる。
但し、スクリプト文字列には複数の単語が含まれるため、スクリプト文字列に含まれる各々の単語に対応して抽出される関連単語を全てキーワードに設定するにはキーワードが過度に多くなりうる。それを防止するために、キーワード生成部140は、関連単語と入力単語を比較して類似度が高い関連単語だけをキーワードに設定することができる。
具体的には、キーワード生成部140は、word2vecモデルに入力した入力単語に対応する入力単語ベクトルと、関連単語に対応する関連単語ベクトルとの間の類似度を計算して、類似度が高い関連単語だけを抽出してキーワードに設定することができる。
単語埋め込みを通じて各々の単語は空間上でベクトル化して分布されることができ、学習したサンプルにおいて互いに類似するかまたは関連していると設定された単語は、ベクトル空間上で隣接した位置に位置するようになる。したがって、入力単語ベクトルと関連単語ベクトルとの間の類似度を計算して、入力単語と関連単語の間の関係を把握することができる。ここで、ベクトル間の類似度はコサイン類似度(cosine similarity)を用いて計算することができるが、これに限定されず、ベクトル間の類似度を計算できるものであれば、いかなるものを適用してもよい。
キーワード生成部140は、入力ベクトルとの類似度が所定値以上の関連単語ベクトルを抽出することができ、抽出された関連単語ベクトルに対応する関連単語をキーワードに設定することができる。すなわち、類似度が所定値以上の関連単語ベクトルに該当する関連単語だけをキーワードに設定することができる。また、実施形態によっては、入力ベクトルとの類似度が高い順に応じて既に設定された個数の関連単語ベクトルを抽出することができ、抽出された既に設定された個数の関連単語ベクトルに対応する関連単語をキーワードに設定することもできる。例えば、最も類似度が大きい関連単語ベクトルを10個抽出し、抽出された10個の関連単語をキーワードに設定することができる。
さらに、キーワード生成部140がリアルタイム検索語情報を用いてキーワードを設定する実施形態も可能である。リアルタイム検索語情報は、ポータルサイトなどが提供する検索サービスで用いられる検索語のうち、リアルタイムで検索量が急増した検索語に対する情報であってもよい。リアルタイム検索語情報に含まれる各々の検索語は現在イシューになっている主題に関するものであるため、キーワード生成部140はリアルタイム検索語と関連する単語を優先的にキーワードに設定することができる。リアルタイム検索語情報は、サービスサーバ100が外部から受信してキーワード生成部140に提供されることができる。
具体的には、キーワード生成部140は、word2vecモデルから抽出した関連単語のうち、リアルタイム検索語情報に含まれる検索語に対応する関連単語を抽出し、抽出された関連単語に対しては類似度の計算時に加重値を付加することができる。すなわち、相対的に類似度が低い場合にも、リアルタイム検索語情報に対応する関連単語に対しては加重値によりキーワードに設定されることができる。このとき、検索語のリアルタイム検索順位に応じて、検索語に対応する関連単語に提供する加重値を互いに異なるように付与することもできる。例えば、リアルタイム検索語の1位に該当する検索語と5位に該当する検索語に対して加重値を互いに異なるように設定することができる。
キーワード設定時にリアルタイム検索語情報を活用する場合には、キーワード生成部140が、各々の単位区間に対して設定するキーワードを毎回互いに異なるように設定することができる。すなわち、ユーザの興味や需要を反映してキーワードを設定することができ、それにより、イシューとなった内容と関連した単位区間をユーザが容易に検索できるように提供することができる。
一方、実施形態によっては、キーワード生成部140は、LDA(Latent Dirichlet Allocation)を用いてキーワードを設定することもできる。すなわち、LDAで学習した機械学習モデルにスクリプト文字列および字幕文字列を適用して単位区間に対応する主題語を抽出することができ、その後、抽出された主題語を該単位区間のキーワードに設定することができる。
LDAは、トピックモデル(topic model)の1つであり、複数の文書集合を用いて各文書にどのような主題が存在するかを分類できる教師なし学習アルゴリズムに該当する。LDAを用いてモデリングをすれば、特定の主題に該当する単語と、特定の文書に含まれる主題を結果物として得ることができる。
例えば、サービスサーバ100が提供する動画がニュース動画である場合には、LDAを用いて最近5年間のニュース記事などを学習させて機械学習モデルを実現することができる。この場合、各々の記事に含まれる主題を示す主題語と、各々の主題語に対応する単語の集合を抽出することができる。例えば、ブレグジットに関する記事に対して、「英国」、「ユーロ圏」、「ハードブレックシート」、「ノディルブレックシート」の主題を含むものに分類することができ、「ノディルブレックシート」主題と関連して「ノディル」、「合意案」、「否決」、「脱退」などの単語が該主題に含まれるものに設定することができる。したがって、ニュース動画のいずれか1つの単位区間から抽出したスクリプト文字列と字幕文字列を機械学習モデルに入力すれば、入力したスクリプト文字列と字幕文字列に含まれる単語がどのような主題語に該当する単語であるかを確認することができ、それにより、該ニュース動画内にどのような主題語に対応する内容が含まれているかを把握することができる。その後、キーワード生成部140は、機械学習モデルを介して抽出された主題語を、該単位区間に対するキーワードに設定することができる。
また、実施形態によっては、キーワード生成部140が全体動画に対するキーワードを生成することもできる。具体的には、動画内に含まれる各々の単位区間に設定されたキーワードに自然言語処理を適用して、該動画に対応するキーワードを生成するようにすることができる。ここで、自然言語処理技法には、word2vec、LDAなどの機械学習などが適用されることができる。すなわち、該動画全体の内容に対するキーワードを設定することがユーザの便宜上有利であるため、キーワード生成部140は該動画に対するキーワードも生成することができる。このとき、動画の内容を反映するために、各々の単位区間に対するキーワードを用いて、該動画のキーワードを生成することができる。
検索部150は、ユーザから入力されたキーワードに対応する単位区間を検索し、検索された単位区間をユーザに提供することができる。各々の単位区間にはキーワードが設定されているため、検索部150は特定の内容を含む単位区間を検索してユーザに提供することができる。また、検索部150は動画から分離された単位区間別に検索が可能であるため、ユーザが所望する単位区間だけを提供することができる。すなわち、検索部150によれば、動画サービスの提供時のユーザ利便性を大幅に向上させることができる。
要約動画生成部160は、同一の動画に対し、基準キーワードに対応する単位区間を抽出し、抽出された単位区間を結合して該動画に対する要約動画を生成することができる。ここで、基準キーワードは管理者により予め設定されるか、またはユーザから入力を受けてもよい。
例えば、サッカー中継動画の場合、基準キーワードを「ゴール」、「得点」などに設定すれば、単位区間の中から得点シーンだけを抽出してゴールシーンをまとめた要約動画を生成することができ、基準キーワードを特定の選手の名前に設定すれば、その特定の選手がボールに触れる単位区間だけを抽出して、その特定の選手に対するハイライト要約動画を生成することができる。また、ニュース動画の場合には、基準キーワードを「経済」に設定して経済分野に対する要約動画を生成したり、「仮想通貨」などのような特定のイシューに対するニュースを集約して1つの要約動画に生成したりすることもできる。すなわち、動画に対する別の編集作業などを実行する必要がなく、容易に要約動画を生成してユーザに提供することができる。
一方、本発明の一実施形態によるサービスサーバ100は、図3に示すように、プロセッサ10、メモリ40などの物理的な構成を含むものであり、メモリ40内には、プロセッサ10により実行されるように構成される1つ以上のモジュールが含まれることができる。具体的には、1つ以上のモジュールには、単位区間分離モジュール、スクリプト文字列生成モジュール、字幕文字列生成モジュール、キーワード生成モジュール、検索モジュールおよび要約動画生成モジュールなどが含まれることができる。
プロセッサ10は、様々なソフトウェアプログラムと、メモリ40に格納されている命令語集合を実行して色々な機能を実行しデータを処理する機能を実行することができる。周辺インターフェース部30は、コンピュータ装置の入出力周辺装置をプロセッサ10、メモリ40に連結することができ、メモリ制御部20は、プロセッサ10やコンピュータ装置の構成要素がメモリ40にアクセスする場合に、メモリアクセスを制御する機能を実行することができる。実施形態によっては、プロセッサ10、メモリ制御部20および周辺インターフェース部30を単一チップ上に実現するか、または別個のチップに実現してもよい。
メモリ40は、高速ランダムアクセスメモリ、1つ以上の磁気ディスクストレージ、フラッシュメモリ装置のような不揮発性メモリなどを含むことができる。また、メモリ40は、プロセッサ10から離れて位置するストレージや、インターネットなどの通信ネットワークを介してアクセスされるネットワークアタッチトストレージなどをさらに含むことができる。
一方、図3に示すように、本発明の一実施形態によるサービスサーバ100は、メモリ40にオペレーティングシステムをはじめとして、アプリケーションプログラムに該当する単位区間分離モジュール、スクリプト文字列生成モジュール、字幕文字列生成モジュール、キーワード生成モジュール、検索モジュールおよび要約動画生成モジュールなどを含むことができる。ここで、各々のモジュールは、上述した機能を実行するための命令語の集合として、メモリ40に格納されることができる。
したがって、本発明の一実施形態によるサービスサーバ100は、プロセッサ10がメモリ40にアクセスして各々のモジュールに対応する命令語を実行することができる。但し、単位区間分離モジュール、スクリプト文字列生成モジュール、字幕文字列生成モジュール、キーワード生成モジュール、検索モジュールおよび要約動画生成モジュールは、上述した単位区間分離部、スクリプト文字列生成部、字幕文字列生成部、キーワード生成部、検索部および要約動画生成部に各々対応するため、ここでは詳しい説明は省略する。
図7は、本発明の一実施形態による動画サービス提供方法を示すフローチャートである。
図7を参照すれば、本発明の一実施形態による動画サービス提供方法は、単位区間分離ステップ(S10)、スクリプト文字列生成ステップ(S20)、字幕文字列生成ステップ(S30)、キーワード生成ステップ(S40)、検索ステップ(S50)および要約動画生成ステップ(S60)を含むことができる。ここで、本発明の一実施形態による動画サービス提供方法は、サービスサーバにより実行されることができる。
以下では、図7を参照して、本発明の一実施形態による動画サービス提供方法について説明する。
単位区間分離ステップ(S10)では、動画内に含まれる音声の特性変化を基準に動画を複数の単位区間に分離することができる。ここで、音声の特性変化は音量または音質の変化を含むことができる。具体的には、音声の特性変化を用いて動画内の話者の発話が中断される停止区間を抽出することができ、停止区間を編集点に設定して動画を分離することができる。例えば、停止区間を、音量が設定値未満に減少し、設定値未満に減少した音量が基準時間以上維持される区間に設定することができる。すなわち、文脈などを考慮するとき、動画内の話者が話しを止めるまでを1つの区間に設定することができ、このために、単位区間の分離時に音量の変化量を用いることができる。
スクリプト文字列生成ステップ(S20)では、単位区間に含まれる音声を認識して、音声に対応するスクリプト文字列を生成することができる。動画を複数の単位区間に分離した後には、各々の単位区間内に含まれる内容を認識する必要がある。このために、話者が発話した音声を認識し、それを文字に変換し、変換された文字を結合してスクリプト文字列に生成することができる。
実施形態によっては、音声認識装置が備えられていてもよく、音声認識装置を用いて音声を文字に変換することができる。例えば、単位区間に含まれる音声を電気的信号である音声パターンで表すことができ、音声モデルデータベースなどに各々の文字に対応する標準音声パターンが格納されていてもよい。この場合、音声認識装置は、入力される音声パターンを音声モデルデータベースに格納された標準音声パターンと比較することができ、各々の音声パターンに対応する標準音声パターンを抽出することができる。その後、抽出した標準音声パターンを対応する文字に変換することができ、変換された文字を結合してスクリプト文字列を生成することができる。
字幕文字列生成ステップ(S30)では、単位区間に含まれる字幕イメージを認識して、字幕イメージに対応する字幕文字列を生成することができる。字幕イメージには動画の内容が要約されて表示されるため、字幕イメージに含まれる文字を認識する必要がある。但し、字幕イメージは文字でなく形状に認識されるため、字幕イメージに含まれる文字を認識するためには、文字認識アルゴリズムなどを適用する必要がある。ここで、字幕文字列生成ステップ(S30)はスクリプト文字列生成ステップ(S20)と同時に実行されることができるが、これに限定されるものではない。
実施形態によっては、別の文字認識装置が備えられていてもよく、文字認識装置を用いて字幕イメージを文字に変換することができる。例えば、単位区間に含まれる字幕イメージをスキャンして字幕イメージに対するピクセル値の分布を電気的信号である形状パターンで表すことができ、文字モデルデータベースなどに各々の文字に対応する標準形状パターンが格納されていてもよい。この場合、文字認識装置は、入力される形状パターンを文字モデルデータベースに格納された標準形状パターンと比較することができ、各々の形状パターンに対応する標準形状パターンを抽出することができる。その後、抽出した標準形状パターンに対応する文字に各々変換して字幕文字列を生成することができる。
一方、字幕イメージから字幕文字列を抽出するためには、単位区間内での字幕イメージの存在有無と、字幕イメージの動画フレーム内の位置を判別する必要がある。すなわち、字幕文字列を生成する前に、まず、単位区間内の字幕イメージを含む動画フレームを検出し、動画フレーム内に含まれる字幕イメージの位置を特定することができる。具体的には、字幕文字列生成ステップ(S30)では、単位区間に含まれる動画フレーム内に複数のランドマークを設定し、ランドマークにおいて色相または輝度を測定する方式で字幕イメージを検出することができる。また、字幕イメージの位置は、ランドマークを動画フレーム上に均一に分布させた後、字幕イメージに対応する基準色相または基準輝度が測定されたランドマークを抽出して特定することができる。
キーワード生成ステップ(S40)では、スクリプト文字列および字幕文字列に自然言語処理を適用して、単位区間に対応するキーワードを生成することができる。すなわち、ユーザが単位区間の内容を確認した後、それに対応してキーワードや注釈などを設定するのではなく、各々の単位区間に対する意味を基にしたキーワードを自動で設定することができる。ここで、スクリプト文字列および字幕文字列に適用する自然言語処理には様々な方法などが適用されることができ、実施形態によっては、word2vec、LDAなどの機械学習が適用されることができる。
一実施形態によれば、キーワード生成ステップ(S40)では、word2vecを用いて単語埋め込みしたword2vecモデルを実現することができ、字幕文字列またはスクリプト文字列から抽出した単語をword2vecモデルに対する入力単語に設定して、入力単語に対応する関連単語を抽出することができる。その後、抽出した関連単語を該単位区間に対するキーワードに設定することができる。
ここで、キーワード生成ステップ(S40)は、関連単語と入力単語を比較して類似度が高い関連単語だけをキーワードに設定するように制限することができる。具体的には、word2vecモデルに入力した入力単語に対応する入力単語ベクトルと、関連単語に対応する関連単語ベクトルとの間の類似度を計算して、類似度が高い関連単語だけを抽出してキーワードに設定することができる。
各々の単語は単語埋め込みを通じて空間上でベクトル化して分布されることができ、学習したサンプルにおいて互いに類似するかまたは関連していると設定された単語はベクトル空間上で隣接した位置に位置するようになる。したがって、入力単語ベクトルと関連単語ベクトルとの間の類似度を計算して、入力単語と関連単語の間の関係を把握することができる。ここで、ベクトル間の類似度はコサイン類似度を用いて計算することができる。
具体的には、入力ベクトルとの類似度が所定値以上の関連単語ベクトルを抽出することができ、抽出された関連単語ベクトルに対応する関連単語をキーワードに設定することができる。すなわち、類似度が所定値以上の関連単語ベクトルに該当する関連単語だけをキーワードに設定することができる。また、実施形態によっては、入力ベクトルとの類似度が高い順に応じて既に設定された個数の関連単語ベクトルを抽出することができ、抽出された既に設定された個数の関連単語ベクトルに対応する関連単語をキーワードに設定することもできる。例えば、最も類似度が大きい関連単語ベクトルを10個抽出し、抽出された10個の関連単語をキーワードに設定することができる。
さらに、キーワード生成ステップ(S40)では、リアルタイム検索語情報を用いて、キーワードを設定する実施形態も可能である。例えば、word2vecモデルから抽出した関連単語のうち、リアルタイム検索語情報に含まれる検索語に対応する関連単語を抽出することができ、抽出された関連単語に対しては類似度の計算時に加重値を付加することができる。すなわち、相対的に類似度が低い場合にも、リアルタイム検索語情報に対応する関連単語に対しては加重値によりキーワードに設定されることができる。この時、検索語のリアルタイム検索順位に応じて、検索語に対応する関連単語に提供する加重値を互いに異なるように付与することもできる。
一方、実施形態によっては、キーワード生成ステップ(S40)においてLDAを用いてキーワードを設定することもできる。すなわち、LDAを用いて学習した機械学習モデルにスクリプト文字列および字幕文字列を適用して単位区間に対応する主題語を抽出することができ、その後、抽出された主題語を該単位区間のキーワードに設定することができる。但し、LDAを用いて学習した機械学習モデルを用いてキーワードを設定する内容は前述したため、ここでは具体的な内容は省略する。
また、実施形態によっては、キーワード生成ステップ(S40)において全体動画に対するキーワードを生成することもできる。すなわち、動画内に含まれる各々の単位区間に設定されたキーワードに自然言語処理を適用して、該動画に対応するキーワードを生成するようにすることができる。ここで、自然言語処理技法にはword2vec、LDAなどの機械学習などが適用されることができる。
検索ステップ(S50)では、ユーザから入力されたキーワードに対応する単位区間を検索し、検索された単位区間をユーザに提供することができる。各々の単位区間にはキーワードが設定されているため、特定の内容を含む単位区間を検索してユーザに提供することができる。また、動画から分離された単位区間別に検索が可能であるため、ユーザが所望する単位区間だけを提供することができる。すなわち、動画サービスの提供時のユーザ利便性を大幅に向上させることができる。
要約動画生成ステップ(S60)では、同一の動画に対し、基準キーワードに対応する単位区間を抽出し、抽出された単位区間を結合して該動画に対する要約動画を生成することができる。ここで、基準キーワードは管理者により予め設定されるか、またはユーザから入力を受けてもよい。すなわち、動画に対する別の編集作業などを実行する必要がなく、容易に要約動画を生成してユーザに提供することができる。
前述した本発明は、プログラムが記録された媒体にコンピュータ読取可能なコードとして実現することができる。コンピュータ読取可能な媒体は、コンピュータで実行可能なプログラムを続けて格納するか、実行またはダウンロードのために臨時格納するものであってもよい。また、媒体は単一または数個のハードウェアが結合された形態の様々な記録手段または格納手段であってもよく、あるコンピュータ・システムに直接接続される媒体に限定されず、ネットワーク上に分散存在するものであってもよい。媒体の例示としては、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、CD−ROMおよびDVDのような光気録媒体、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical medium)、およびROM、RAM、フラッシュメモリなどを含めてプログラム命令語が格納されるように構成されたものがある。また、他の媒体の例示として、アプリケーションを流通するアプリストアやその他の様々なソフトウェアを供給乃至流通するサイト、サーバなどが管理する記録媒体乃至格納媒体も挙げられる。したがって、上記の詳細な説明は、全ての面で制限的に解釈されてはならず、例示的なものに考慮されなければならない。本発明の範囲は添付された請求項の合理的な解釈によって決定されなければならず、本発明の等価的な範囲内での全ての変更は本発明の範囲に含まれる。
本発明は、前述した実施形態および添付された図面によって限定されるものではない。本発明が属する技術分野で通常の知識を有した者であれば、本発明の技術的思想を逸脱しない範囲内で本発明に係る構成要素を置換、変形および変更できることは明らかである。
1 ・・・端末装置
10 ・・・プロセッサ
20 ・・・メモリ制御部
30 ・・・周辺インターフェース部
40 ・・・メモリ
100 ・・・サービスサーバ
110 ・・・単位区間分離部
120 ・・・スクリプト文字列生成部
130 ・・・字幕文字列生成部
140 ・・・キーワード生成部
150 ・・・検索部
160 ・・・要約動画生成部

Claims (18)

  1. サービスサーバが端末装置に動画を提供する動画サービス提供方法であって、
    動画内に含まれる音声の特性変化を基準に、前記動画を複数の単位区間に分離する単位区間分離ステップ、
    前記単位区間に含まれる音声を認識して、前記音声に対応するスクリプト文字列を生成するスクリプト文字列生成ステップ、
    前記単位区間に含まれる字幕イメージを認識して、前記字幕イメージに対応する字幕文字列を生成する字幕文字列生成ステップ、および
    前記スクリプト文字列および字幕文字列に自然言語処理を適用して、前記単位区間に対応するキーワードを生成するキーワード生成ステップ
    を含む動画サービス提供方法。
  2. 前記単位区間分離ステップは、
    前記音声の特性変化を用いて前記動画内の話者の発話が中断される停止区間を抽出し、前記停止区間を編集点に設定して前記動画を分離することを特徴とする、請求項1に記載の動画サービス提供方法。
  3. 前記単位区間分離ステップは、
    前記音声の音量が設定値未満に減少し、前記設定値未満の音量が基準時間以上維持されれば、前記停止区間として判別することを特徴とする、請求項2に記載の動画サービス提供方法。
  4. 前記スクリプト文字列生成ステップは、
    音声認識装置を用いて、前記音声から抽出した音声パターンを対応する文字に変換し、前記変換された文字を結合して前記スクリプト文字列を生成することを特徴とする、請求項1に記載の動画サービス提供方法。
  5. 前記字幕文字列生成ステップは、
    文字認識装置を用いて、前記字幕イメージから抽出した形状パターンを対応する文字に変換し、前記変換された文字を結合して前記字幕文字列を生成することを特徴とする、請求項1に記載の動画サービス提供方法。
  6. 前記字幕文字列生成ステップは、
    前記単位区間に含まれる動画フレーム内に複数のランドマークを設定し、前記ランドマークにおいて測定した色相または輝度を用いて前記字幕イメージを検出することを特徴とする、請求項1に記載の動画サービス提供方法。
  7. 前記字幕文字列生成ステップは、
    前記動画フレーム上に均一に分布する複数のランドマークのうち、前記字幕イメージに対応する基準色相または基準輝度が測定されたランドマークを抽出し、前記抽出されたランドマークを用いて前記字幕イメージの位置を特定することを特徴とする、請求項6に記載の動画サービス提供方法。
  8. 前記キーワード生成ステップは、
    word2vecを用いて単語埋め込みしたword2vecモデルに前記字幕文字列またはスクリプト文字列から抽出した入力単語を入力して、対応する関連単語を抽出し、前記関連単語を前記キーワードに設定することを特徴とする、請求項1に記載の動画サービス提供方法。
  9. 前記キーワード生成ステップは、
    前記word2vecモデルに入力した前記入力単語に対応する入力単語ベクトルと前記関連単語に対応する関連単語ベクトルとの間の類似度を計算するステップ、
    前記類似度が所定値以上の関連単語ベクトルまたは前記類似度が高い順に応じて選択される既に設定された個数の関連単語ベクトルを抽出するステップ、および
    前記抽出された関連単語ベクトルに対応する関連単語を前記キーワードに設定することを特徴とする、請求項8に記載の動画サービス提供方法。
  10. 前記類似度を計算するステップは、
    リアルタイム検索語情報に含まれる検索語に対応する関連単語を抽出し、前記抽出された関連単語に対して前記類似度の計算時に加重値を付加することを特徴とする、請求項9に記載の動画サービス提供方法。
  11. 前記キーワード生成ステップは、
    前記検索語のリアルタイム検索順位に応じて、前記検索語に対応する関連単語に提供する加重値を互いに異なるように付与することを特徴とする、請求項10に記載の動画サービス提供方法。
  12. 前記キーワード生成ステップは、
    LDA(Latent Dirichlet Allocation)を用いて学習した機械学習モデルに前記スクリプト文字列および字幕文字列を適用して前記単位区間に対応する主題語を抽出し、前記主題語を前記キーワードに設定することを特徴とする、請求項1に記載の動画サービス提供方法。
  13. 前記キーワード生成ステップは、
    前記単位区間に対応するキーワードに自然言語処理を適用して、前記動画に対応するキーワードを生成することを特徴とする、請求項1に記載の動画サービス提供方法。
  14. ユーザから入力されたキーワードに対応する単位区間を検索し、前記検索された単位区間をユーザに提供する検索ステップをさらに含むことを特徴とする、請求項1に記載の動画サービス提供方法。
  15. 同一の動画に対し、基準キーワードに対応する単位区間を抽出し、前記抽出された単位区間を結合して要約動画を生成する要約動画生成ステップをさらに含むことを特徴とする、請求項1に記載の動画サービス提供方法。
  16. ハードウェアと結合されて、ハードウェアに請求項1〜15のいずれか1項に記載の動画サービス提供方法を実行させるためのコンピュータプログラム。
  17. 動画内に含まれる音声の特性変化を基準に、前記動画を複数の単位区間に分離する単位区間分離部、
    前記単位区間に含まれる音声を認識して、前記音声に対応するスクリプト文字列を生成するスクリプト文字列生成部、
    前記単位区間に含まれる字幕イメージを認識して、前記字幕イメージに対応する字幕文字列を生成する字幕文字列生成部、および
    前記スクリプト文字列および字幕文字列に自然言語処理を適用して、前記単位区間に対応するキーワードを生成するキーワード生成部
    を含むサービスサーバ。
  18. プロセッサ、および
    前記プロセッサに結合されたメモリを含む、サービスサーバであって、
    前記メモリは前記プロセッサにより実行されるように構成される1つ以上のモジュールを含み、
    前記1つ以上のモジュールは、
    動画内に含まれる音声の特性変化を基準に、前記動画を複数の単位区間に分離し、
    前記単位区間に含まれる音声を認識して、前記音声に対応するスクリプト文字列を生成し、
    前記単位区間に含まれる字幕イメージを認識して、前記字幕イメージに対応する字幕文字列を生成し、
    前記スクリプト文字列および字幕文字列に自然言語処理を適用して、前記単位区間に対応するキーワードを生成する、
    命令語を含むサービスサーバ。
JP2019102475A 2018-06-01 2019-05-31 動画サービス提供方法およびこれを用いるサービスサーバ Active JP6824332B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0063439 2018-06-01
KR1020180063439A KR102080315B1 (ko) 2018-06-01 2018-06-01 동영상 서비스 제공 방법 및 이를 이용하는 서비스 서버

Publications (2)

Publication Number Publication Date
JP2019212308A true JP2019212308A (ja) 2019-12-12
JP6824332B2 JP6824332B2 (ja) 2021-02-03

Family

ID=68846812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019102475A Active JP6824332B2 (ja) 2018-06-01 2019-05-31 動画サービス提供方法およびこれを用いるサービスサーバ

Country Status (2)

Country Link
JP (1) JP6824332B2 (ja)
KR (1) KR102080315B1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021125501A1 (ko) * 2019-12-20 2021-06-24 조문옥 기계학습이 완료된 사물 인식 모델을 통해 동영상에 대한 상황 정보 판단이 가능한 동영상 정보 판단장치
CN113722540A (zh) * 2020-05-25 2021-11-30 中国移动通信集团重庆有限公司 基于视频字幕的知识图谱构建方法、装置及计算设备
KR20220048248A (ko) * 2020-10-12 2022-04-19 금오공과대학교 산학협력단 주제 도메인에 기초한 음성 데이터 세트 구축 방법, 주제 도메인에 기초한 음성 데이터 세트 구축 시스템, 이를 위한 컴퓨터 프로그램
CN114946193A (zh) * 2020-01-23 2022-08-26 张衡淳 使用基于云的语音结合的定制视频制作服务提供系统
JP2023005038A (ja) * 2021-06-28 2023-01-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 動画要約装置、動画要約方法、及びプログラム
WO2024135874A1 (ko) * 2022-12-20 2024-06-27 주식회사 하비텐 방송 소스들의 라벨 빅데이터를 활용한 비대면 외국어 학습 영상 ai 주문 추천 시스템
JP7548633B1 (ja) 2023-12-21 2024-09-10 株式会社インタラクティブソリューションズ セグメント検索装置及びプログラム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12127726B2 (en) 2020-04-30 2024-10-29 Samsung Electronics Co., Ltd. System and method for robust image-query understanding based on contextual features
KR102190658B1 (ko) * 2020-07-27 2020-12-14 (주)하이퍼월 텍스트에 기반하여 비디오를 검색하기 위한 전자 장치 및 방법
WO2022065537A1 (ko) * 2020-09-23 2022-03-31 주식회사 파이프랩스 자막 동기화를 제공하는 영상 재생 장치 및 그 동작 방법
KR102487589B1 (ko) * 2020-12-24 2023-01-11 주식회사 소셜임팩트 음성인식서버, 번역서버와 집단지성을 이용한 동영상의 자막 제공 방법 및 그를 이용한 시스템
KR20220114379A (ko) 2021-02-08 2022-08-17 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102467081B1 (ko) * 2021-04-05 2022-11-11 한밭대학교 산학협력단 동영상 검토 시스템, 방법 그리고 프로그램
KR102350359B1 (ko) * 2021-06-18 2022-01-12 노마드웍스 주식회사 음성 인식 알고리즘을 이용한 영상 편집 방법
KR102564174B1 (ko) * 2021-06-25 2023-08-09 주식회사 딥하이 딥러닝 기반의 비디오 스트림 처리 방법 및 그 시스템
KR20230000633A (ko) * 2021-06-25 2023-01-03 주식회사 딥하이 딥러닝 기반의 중심 오브젝트 기반 비디오 스트림 처리 방법 및 그 시스템
KR102582445B1 (ko) * 2021-07-20 2023-09-25 임욱빈 인터랙티브 자연어 처리 기반의 동영상 생성 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005033619A (ja) * 2003-07-08 2005-02-03 Matsushita Electric Ind Co Ltd コンテンツ管理装置およびコンテンツ管理方法
JP2010049384A (ja) * 2008-08-20 2010-03-04 Yahoo Japan Corp 動画評価方法、装置及びプログラム
JP2015526831A (ja) * 2012-09-05 2015-09-10 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 製品識別子のラベル付けおよび製品のナビゲーション
JP2017157990A (ja) * 2016-03-01 2017-09-07 京セラドキュメントソリューションズ株式会社 動画生成装置、動画生成プログラムおよび動画生成方法
JP2018055548A (ja) * 2016-09-30 2018-04-05 株式会社Nextremer 対話装置、学習装置、対話方法、学習方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100650407B1 (ko) * 2005-11-15 2006-11-29 삼성전자주식회사 멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치
KR100721409B1 (ko) 2005-12-20 2007-05-23 엔에이치엔(주) 동영상 장면 검색 방법 및 이를 이용한 장면 검색 시스템
JP4905103B2 (ja) * 2006-12-12 2012-03-28 株式会社日立製作所 動画再生装置
KR101265960B1 (ko) * 2007-08-21 2013-05-22 삼성전자주식회사 하이라이트 추출 장치 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005033619A (ja) * 2003-07-08 2005-02-03 Matsushita Electric Ind Co Ltd コンテンツ管理装置およびコンテンツ管理方法
JP2010049384A (ja) * 2008-08-20 2010-03-04 Yahoo Japan Corp 動画評価方法、装置及びプログラム
JP2015526831A (ja) * 2012-09-05 2015-09-10 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 製品識別子のラベル付けおよび製品のナビゲーション
JP2017157990A (ja) * 2016-03-01 2017-09-07 京セラドキュメントソリューションズ株式会社 動画生成装置、動画生成プログラムおよび動画生成方法
JP2018055548A (ja) * 2016-09-30 2018-04-05 株式会社Nextremer 対話装置、学習装置、対話方法、学習方法、およびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021125501A1 (ko) * 2019-12-20 2021-06-24 조문옥 기계학습이 완료된 사물 인식 모델을 통해 동영상에 대한 상황 정보 판단이 가능한 동영상 정보 판단장치
CN114946193A (zh) * 2020-01-23 2022-08-26 张衡淳 使用基于云的语音结合的定制视频制作服务提供系统
CN113722540A (zh) * 2020-05-25 2021-11-30 中国移动通信集团重庆有限公司 基于视频字幕的知识图谱构建方法、装置及计算设备
KR20220048248A (ko) * 2020-10-12 2022-04-19 금오공과대학교 산학협력단 주제 도메인에 기초한 음성 데이터 세트 구축 방법, 주제 도메인에 기초한 음성 데이터 세트 구축 시스템, 이를 위한 컴퓨터 프로그램
KR102413514B1 (ko) * 2020-10-12 2022-06-24 금오공과대학교 산학협력단 주제 도메인에 기초한 음성 데이터 세트 구축 방법
JP2023005038A (ja) * 2021-06-28 2023-01-18 エヌ・ティ・ティ・コミュニケーションズ株式会社 動画要約装置、動画要約方法、及びプログラム
JP7369739B2 (ja) 2021-06-28 2023-10-26 エヌ・ティ・ティ・コミュニケーションズ株式会社 動画要約装置、動画要約方法、及びプログラム
WO2024135874A1 (ko) * 2022-12-20 2024-06-27 주식회사 하비텐 방송 소스들의 라벨 빅데이터를 활용한 비대면 외국어 학습 영상 ai 주문 추천 시스템
JP7548633B1 (ja) 2023-12-21 2024-09-10 株式会社インタラクティブソリューションズ セグメント検索装置及びプログラム

Also Published As

Publication number Publication date
KR102080315B1 (ko) 2020-02-24
KR20190137359A (ko) 2019-12-11
JP6824332B2 (ja) 2021-02-03

Similar Documents

Publication Publication Date Title
JP6824332B2 (ja) 動画サービス提供方法およびこれを用いるサービスサーバ
KR102085908B1 (ko) 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법
US8938393B2 (en) Extended videolens media engine for audio recognition
US10504513B1 (en) Natural language understanding with affiliated devices
KR102241972B1 (ko) 환경 콘텍스트를 이용한 질문 답변
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
JP4920395B2 (ja) 動画要約自動作成装置、方法、及びコンピュータ・プログラム
CN114465737B (zh) 一种数据处理方法、装置、计算机设备及存储介质
US8521007B2 (en) Information processing method, information processing device, scene metadata extraction device, loss recovery information generation device, and programs
US10474669B2 (en) Control apparatus, control method and computer program
US11457061B2 (en) Creating a cinematic storytelling experience using network-addressable devices
CN110069608A (zh) 一种语音交互的方法、装置、设备和计算机存储介质
US20170003933A1 (en) Information processing device, information processing method, and computer program
JP6389296B1 (ja) 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム
KR20200027331A (ko) 음성 합성 장치
WO2020226727A1 (en) Systems and methods for leveraging acoustic information of voice queries
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
KR20120083025A (ko) 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법
KR102156912B1 (ko) 동영상 내 포함된 음원에 대한 검색 서비스 제공 방법 및 이를 이용하는 서버
JP6322125B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US7949667B2 (en) Information processing apparatus, method, and program
JP2018170001A (ja) 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム
JP2009060567A (ja) 情報処理装置および方法、並びにプログラム
WO2020154883A1 (zh) 语音信息的处理方法、装置、存储介质及电子设备
WO2020154916A1 (zh) 视频字幕合成方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190531

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210112

R150 Certificate of patent or registration of utility model

Ref document number: 6824332

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350