JP6359229B1 - 表示タイミング決定装置、表示タイミング決定方法、及びプログラム - Google Patents

表示タイミング決定装置、表示タイミング決定方法、及びプログラム Download PDF

Info

Publication number
JP6359229B1
JP6359229B1 JP2018514484A JP2018514484A JP6359229B1 JP 6359229 B1 JP6359229 B1 JP 6359229B1 JP 2018514484 A JP2018514484 A JP 2018514484A JP 2018514484 A JP2018514484 A JP 2018514484A JP 6359229 B1 JP6359229 B1 JP 6359229B1
Authority
JP
Japan
Prior art keywords
timing
voice
character information
information
display timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018514484A
Other languages
English (en)
Other versions
JPWO2018047275A1 (ja
Inventor
ビヨン シュテンガー
ビヨン シュテンガー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Application granted granted Critical
Publication of JP6359229B1 publication Critical patent/JP6359229B1/ja
Publication of JPWO2018047275A1 publication Critical patent/JPWO2018047275A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

音声の出力タイミングと文字の表示タイミングとを合わせる。表示タイミング決定装置(10,20)の音声格納データ取得手段(100)は、順次出力される複数の音声が格納された音声格納データを取得する。タイミングデータ取得手段(101)は、音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得する。波形解析手段(103)は、音声格納データの音声波形を解析し、各音声の出力タイミングを取得する。表示タイミング決定手段(104)は、波形解析手段(103)により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する。

Description

本発明は、表示タイミング決定装置、表示タイミング決定方法、及びプログラムに関する。
従来、順次出力される複数の音声が格納された音声格納データ(例えば、動画データ)の再生中において、各音声が出力されるたびに、当該音声を示す文字情報(例えば、字幕)を表示させる技術が知られている。
例えば、特許文献1には、生放送のテレビ番組において、出演者の音声を示す文字情報を作成して視聴者に提供するシステムが記載されている。このシステムでは、生放送中の音声を聞いたテレビ関係者が手入力で文字を作成する。このため、各音声の出力タイミングの間隔と、各文字情報の表示タイミングの間隔と、が概ね合っていたとしても、手入力の時間だけ、文字情報の表示タイミングは、音声の出力タイミングに対して全体的に遅延する。この点、特許文献1の技術では、生放送のテレビ番組が録画される場合に、テレビ番組のジャンルコードに基づいて遅延時間を推測し、ジャンルコードに応じた遅延時間分だけ、録画時の文字の表示タイミングを全体的に早めている。
特開2008−172421号公報
しかしながら、特許文献1の技術では、テレビ番組のジャンルコードを利用して遅延時間を推定するので、ジャンルコードがなければ、音声の出力タイミングと文字の表示タイミングとを合わせることができない。更に、音声の出力タイミングに対する文字の表示タイミングの遅延時間は、音声が示す内容の複雑さや文字を入力するテレビ関係者の技能などによって異なるので、ジャンルコードを利用しても、音声の出力タイミングと文字の表示タイミングとを正確に合わせることができない可能性がある。
本発明は上記課題に鑑みてなされたものであって、その目的は、音声の出力タイミングと文字の表示タイミングとを合わせることである。
上記課題を解決するために、本発明に係る表示タイミング決定装置は、順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段と、前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段と、前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段と、前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、を含むことを特徴とする。
本発明に係る表示タイミング決定方法は、順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得ステップと、前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得ステップと、前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析ステップと、前記波形解析ステップにより取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、を含むことを特徴とする。
本発明に係るプログラムは、順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段、前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段、前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段、前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段、としてコンピュータを機能させる。
また、本発明に係る情報記憶媒体は、上記のプログラムが記憶されたコンピュータ読み取り可能な情報記憶媒体である。
また、本発明の一態様では、前記表示タイミング決定手段は、各文字情報の仮の表示タイミングの変更量を複数取得し、前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の一致度に関する一致度情報を取得し、前記一致度情報が示す一致度が最も高い前記変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。
また、本発明の一態様では、前記表示タイミング決定手段は、前記文字情報ごとに、当該文字情報の仮の表示タイミングと、当該仮の表示タイミングに最も近い前記出力タイミングと、の一致度に関する個別一致度情報を取得し、前記文字情報ごとに取得した前記個別一致度情報に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。
また、本発明の一態様では、前記複数の文字情報には、音声以外の情報を示す文字情報が含まれており、前記表示タイミング決定手段は、音声以外の情報を示す文字情報は、前記個別一致度情報の取得対象から除外する、ことを特徴とする。
また、本発明の一態様では、前記表示タイミング決定手段は、前記音声ごとに、当該音声の出力タイミングと、当該出力タイミングに最も近い前記文字情報の仮の表示タイミングと、の一致度を示す個別一致度情報を取得し、前記音声ごとに取得した前記個別一致度情報に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。
また、本発明の一態様では、前記音声格納データには、対応する文字情報がない音声も格納されており、前記表示タイミング決定手段は、対応する文字情報がない音声は、前記個別一致度情報の取得対象から除外する、ことを特徴とする。
また、本発明の一態様では、前記音声格納データには、前記複数の音声と、音声以外の音と、を含む複数の音が格納されており、前記波形解析手段は、前記音声格納データに格納された複数の音の各々の出力タイミングを取得し、前記表示タイミング決定手段は、前記音ごとに、当該音が音声である確率に関する確率情報を取得し、前記音ごとに取得された前記確率情報に更に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。
また、本発明の一態様では、前記表示タイミング決定手段は、各文字情報の仮の表示タイミングの変更量を繰り返し取得可能であり、前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の全体的な一致度を示す全体一致度情報を取得し、一致度が最も高い前記全体一致度情報と、一致度が2番目に高い前記全体一致度情報と、の差が閾値未満である場合は、新たな前記変更量を取得し、前記差が閾値以上である場合は、新たな前記変更量は取得せず、一致度が最も小さい前記全体一致度情報に対応する変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。
また、本発明の一態様では、前記表示タイミング決定装置は、各音声に対応する発声者に関する音声発声者情報を取得する音声発声者情報取得手段と、各文字情報に対応する発声者に関する文字情報発声者情報を取得する文字情報発声者情報取得手段と、を更に含み、前記表示タイミング決定手段は、各音声の前記音声発声者情報と各文字情報の前記文字情報発声者情報とに更に基づいて、各文字情報の最終的な表示タイミングを決定する、ことを特徴とする。
本発明によれば、音声の出力タイミングと文字の表示タイミングとを合わせることが可能になる。
表示タイミング決定システムの全体構成を示す図である。 動画が再生される際に実行される処理の概要を示す図である。 表示タイミング決定システムで実現される機能の一例を示す機能ブロック図である。 タイミングデータのデータ格納例を示す図である。 スペクトログラムの一例を示す図である。 最終的な表示タイミングが取得される様子を示す図である。 サーバにおいて実行される処理の一例を示すフロー図である。 音声以外の情報を示す文字情報の仮の表示タイミングを示す図である。 対応する文字のない音声の出力タイミングを示す図である。 変形例における機能ブロック図である。
[1.表示タイミング決定システムのハードウェア構成]
以下、本発明に関わる表示タイミング決定装置の一例であるサーバを含む表示タイミング決定システムの実施形態の例を説明する。図1は、表示タイミング決定システムの全体構成を示す図である。図1に示すように、表示タイミング決定システム1は、サーバ10及びユーザ装置20を含む。これら各装置は、それぞれ有線又は無線によりネットワークを介して通信可能に接続されるようにしてよい。
サーバ10は、サーバコンピュータであり、例えば、制御部11、記憶部12、及び通信部13を含む。制御部11は、少なくとも1つのプロセッサを含む。制御部11は、記憶部12に記憶されたプログラムやデータに従って処理を実行する。記憶部12は、主記憶部及び補助記憶部を含む。例えば、主記憶部はRAMなどの揮発性メモリであり、補助記憶部は、ハードディスクやフラッシュメモリなどの不揮発性メモリである。通信部13は、有線通信又は無線通信用の通信インタフェースを含み、例えば、ネットワークを介してデータ通信を行う。
ユーザ装置20は、ユーザが操作するコンピュータであり、例えば、パーソナルコンピュータ、携帯情報端末(タブレット型コンピュータを含む)、又は携帯電話機(スマートフォンを含む)等である。ユーザ装置20は、制御部21、記憶部22、通信部23、操作部24、表示部25、及び音声出力部26を含む。制御部21、記憶部22、及び通信部23のハードウェア構成は、それぞれ制御部11、記憶部12、及び通信部13と同様であってよい。
操作部24は、ユーザが操作を行うための入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスやキーボード等である。操作部24は、ユーザの操作内容を制御部21に伝達する。表示部25は、例えば、液晶表示部又は有機EL表示部等であり、動画や静止画などの各種画像を表示可能である。音声出力部26は、例えば、スピーカーであり、各種音声を出力可能である。
なお、記憶部12,22に記憶されるものとして説明するプログラム及びデータは、ネットワークを介してこれらに供給されるようにしてもよい。また、サーバ10及びユーザ装置20のハードウェア構成は、上記の例に限られず、種々のコンピュータのハードウェアを適用可能である。例えば、サーバ10及びユーザ装置20は、それぞれコンピュータ読み取り可能な情報記憶媒体を読み取る読取部(例えば、光ディスクドライブやメモリカードスロット)や外部機器と直接的に接続するための入出力部(例えば、USBポートや映像入出力端子)を含んでもよい。この場合、情報記憶媒体に記憶されたプログラムやデータが読取部又は入出力部を介して、サーバ10又はユーザ装置20に供給されるようにしてもよい。
本実施形態では、サーバ10は、複数の動画を管理している。例えば、ユーザ装置20において、ユーザが視聴したい動画を指定すると、ダウンロード配信又はストリーミング配信により動画を視聴することができる。ユーザ装置20において動画が再生されると、動画とともに字幕が表示部25に表示され、音声出力部26から動画の音声が出力される。
図2は、動画が再生される際に実行される処理の概要を示す図である。図2では、動画をVidの符号で示し、動画の音声をVoiの符号で示し、字幕をSubの符号で示す。図2に示すように、サーバ10は、動画Vidと字幕Subをデータとして別々に管理している。なお、図2に示す字幕Subのt軸は、時間軸である。図2の字幕Subは、画面に表示される字幕を時系列順に示している。
本実施形態では、字幕Subは、動画Vidの中に埋め込まれた状態で管理されているのではなく、動画Vidとは別物として管理されている。そして、動画Vidが表示される場合に、図2に示すように、動画Vidと字幕Subが合成される。これにより、動画の音声Voiが出力される場合に、当該音声Voiに対応する字幕Subが表示される。例えば、サーバ10は、動画Vidのデータと字幕Subのデータとを別々にユーザ装置20に送信し、ユーザ装置20において、字幕Subと動画Vidとが合成される。また例えば、サーバ10は、ユーザが指定した動画Vidに字幕Subを合成したうえで、当該合成後の動画Vidのデータをユーザ装置20に送信する。
字幕Subは、サーバ10に動画Vidが登録される前又は後の任意のタイミングにおいて、任意の方法により作成される。例えば、システムの管理者は、動画Vidを視聴しながら字幕Subのテキストと、字幕Subの表示タイミングと、を手入力するようにしてよい。字幕Subが作成されたばかりの時点では、音声の出力タイミングと字幕Subの表示タイミングとは合っていなくてもよく、ある程度のタイミング的なずれがあってよい。ただし、各音声の出力順と各字幕Subの表示順とは合っており、出力タイミングの間隔と表示タイミングの間隔とは概ね合っているものとする。
本実施形態のサーバ10は、動画Vidの音声波形を解析し、動画Vid中の各音声の出力タイミングを取得する。そして、サーバ10は、各字幕Subの表示タイミングを調整しつつ、音声波形の解析により得られた各音声の出力タイミングと比較し、タイミング的に最も一致する表示タイミングを見つけることによって、各音声の出力タイミングと、各字幕Subの表示タイミングと、を合わせるようにしている。以降、この技術の詳細を説明する。なお、以降の説明では、図2において動画、音声、及び字幕に付した符号は省略する。
[2.本実施形態において実現される機能]
図3は、表示タイミング決定システム1で実現される機能の一例を示す機能ブロック図である。図3に示すように、本実施形態では、音声格納データ取得部100、タイミングデータ取得部101、データ記憶部102、波形解析部103、及び表示タイミング決定部104が、サーバ10で実現される。
[2−1.音声格納データ取得部]
音声格納データ取得部100は、制御部11を主として実現される。音声格納データ取得部100は、順次出力される複数の音声が格納された音声格納データを取得する。本実施形態では、音声格納データ取得部100は、後述するデータ記憶部102から音声格納データを取得する場合を説明するが、サーバ10以外のコンピュータに音声格納データが記憶されている場合には、当該コンピュータから音声格納データを取得してもよい。
音声は、人が実際に発した音がマイクで集音されてもよい、コンピュータで合成された人工的な音であってもよい。音声格納データが再生される期間(再生の開始時点から終了時点までの期間)は、各音声がそれぞれ出力される複数の期間を含むことになる。個々の音声は、ある1つの期間内に出力される音声のかたまりといえる。音声は、少なくとも1つの単語を含むようにしてもよいし、文章ごとに区切られていてもよいし、複数の文章から構成されてもよい。更に、音声は、特に意味のある単語を含まない叫び声や悲鳴であってもよい。例えば、音声は、映画・ドラマ・アニメなどにおける個々のセリフであってもよいし、動画に撮影された人の個々の発言であってもよいし、歌や詩などの個々のフレーズであってもよい。
音声格納データは、再生することで音声を出力可能なデータであればよく、例えば、画像と音声が格納された動画データであってもよいし、画像を含まない音声データであってもよい。動画データ及び音声データのデータ形式及び圧縮形式自体は、公知の種々の形式を適用可能であってよく、例えば、avi形式、mpeg形式、又はmp3形式であってよい。本実施形態では、音声格納データが動画データである場合を説明する。
音声格納データが再生されると、時間経過に応じて、音声格納データに格納された各音声が、予め定められた順番で、予め定められたタイミングで出力される。別の言い方をすれば、予め定められた順番で予め定められたタイミングで出力されるように、各音声が音声格納データに格納されている。なお、音声の出力タイミングは、音声が出力される期間の任意のタイミングであればよく、例えば、音声の出力を開始するタイミングを示してもよいし、音声の出力を終了する終了タイミングを示してもよいし、その中間のタイミングを示してもよい。
[2−2.タイミングデータ取得部]
タイミングデータ取得部101は、制御部11を主として実現される。タイミングデータ取得部101は、音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得する。本実施形態では、タイミングデータ取得部101は、後述するデータ記憶部102からタイミングデータを取得する場合を説明するが、サーバ10以外のコンピュータにタイミングデータが記憶されている場合には、当該コンピュータからタイミングデータを取得してもよい。
文字情報は、音声の内容を少なくとも1つの文字として示し、例えば、字幕、キャプション、又はテロップと呼ばれるテキストであってよい。文字情報は、1つの文字のみから構成されてもよいし、複数の文字を含む文字列であってもよい。また、文字情報は、文字以外の記号を含んでいてもよい。なお、文字情報は、音声の内容と一言一句まで完全に一致している必要はなく、音声の内容と文字情報の内容とはある程度の違いがあってよい。本実施形態では、音声格納データが動画データを説明するので、文字情報が動画の字幕である場合を説明する。
図4は、タイミングデータのデータ格納例を示す図である。図4に示すように、タイミングデータは、文字情報を一意に識別する文字情報ID、文字情報の表示タイミング、及び文字情報が格納される。なお、文字情報は、タイミングデータとは別のデータに格納されていてもよい。
タイミングデータに格納される表示タイミングは、文字情報が表示される期間内の任意のタイミングを示せばよく、例えば、文字情報の表示を開始する開始タイミングを示してもよいし、文字情報の表示を終了する終了タイミングを示してもよいし、その中間のタイミングを示してもよい。本実施形態では、開始タイミングが表示タイミングとして用いられる場合を説明するが、図4に示すように、終了タイミング及び表示時間の長さもタイミングデータに格納されていてよい。なお、表示時間の長さは、文字情報によって異なってもよいし、全ての文字情報で共通であってもよい。
なお、タイミングデータに予め設定されている表示タイミングは、後述する表示タイミング決定部104により調整されるので、本実施形態では、調整前の表示タイミングを「仮の表示タイミング」と記載し、調整後の表示タイミングを「最終的な表示タイミング」と記載する。後述する表示タイミング決定部104は、仮の表示タイミングの変更し、音声の出力タイミングと全体的に合うような最終的な表示タイミングを見つけることになる。
以降、文字情報をi(i=1〜Nの整数。Nは、文字情報の総数。)と記載し、タイミングデータに格納された仮の表示タイミングの集合を{x}と記載する。例えば、図4のように、各文字情報に対し、時系列順に文字情報IDを1から順番に付与する場合には、iの数値は、文字情報IDを示すことになる。先述したように、本実施形態では、文字情報iの表示が開始される開始タイミングが、当該文字情報iの仮の表示タイミングxとなる。
[2−3.データ記憶部]
データ記憶部102は、記憶部12を主として実現される。データ記憶部102は、音声格納データとタイミングデータとを記憶する。本実施形態では、音声格納データごとにタイミングデータが用意されているので、データ記憶部102は、これらの組み合わせを記憶することになる。なお、データ記憶部102は、音声格納データ以外のデータを記憶してもよい。
[2−4.波形解析部]
波形解析部103は、制御部11を主として実現される。波形解析部103は、音声格納データの音声波形を解析し、各音声の出力タイミングを取得する。例えば、波形解析部103は、音声格納データに基づいて、周波数ごとの信号の強さを時系列的に示すスペクトログラムを生成する。スペクトログラムは、公知のソノグラフを利用して生成されるようにすればよく、例えば、バンドパスフィルタを利用してもよいし、短時間フーリエ変換を利用してもよい。なお、ソノグラフは、スペクトログラムの生成アルゴリズムを備えた機器の総称である。波形解析部103は、周波数ごとに、音声波形が示す強さ(振幅)の時系列的な変化を取得することによって、スペクトログラムを生成する。
図5は、スペクトログラムの一例を示す図である。図5のスペクトログラムは、縦軸が周波数を示し、横軸が時間を示す。スペクトログラムは、各周波数の信号の強さをカラーで示すことが多いが、ここでは、各周波数の信号の強さを模式的にモノクロで示す。図5の例では、網点が濃い周波数帯域は音が強いことを示し、網点が薄い周波数帯域は音が弱いことを示す。
波形解析部103は、スペクトログラムに基づくディープラーニング(機械学習の一種)を実行することにより、各音声の出力タイミングを取得する。ディープラーニングに必要な音声の特性を示すパターン情報は、データ記憶部102に記憶されているようにしてよい。例えば、波形解析部103は、音声に対応する周波数帯域(例えば、100Hz〜数千Hz程度)の強度が閾値以上である場合は、音声の出力中であると判定し、当該周波数帯域の強度が閾値未満である場合は、音声の出力中ではないと判定する。音声に対応する周波数帯域は、予め指定されていればよく、システム管理者の入力により可変であってよい。
例えば、波形解析部103は、音声が出力中ではない状態から音声が出力中の状態に変化した場合、音声を一意に識別する音声IDを発行し、当該音声IDにより識別される音声の出力の開始タイミングであると判定する。そして、波形解析部103は、音声が出力中の状態から出力中ではない状態に変化した場合、当該音声IDにより識別される音声の出力の終了タイミングであると判定する。開始タイミングから終了タイミングまでの期間は、当該音声IDにより識別される音声が出力される期間となる。先述したように、本実施形態では、音声の開始タイミングが出力タイミングとして用いられる場合を説明するが、終了タイミング及び出力期間の長さも保持されるようにしてもよい。
以降、音声をj(j=1〜Nの整数。Nは、音声の総数。)と記載し、出力タイミングの集合を{y}と記載する。例えば、各音声に対し、時系列順に音声IDを1から順番に付与する場合には、jの数値は、音声IDを示すことになる。本実施形態では、開始タイミングを出力タイミングとして用いるので、音声jの出力が開始されるタイミングが、当該音声jの出力タイミングyとなる。
[2−5.表示タイミング決定部]
表示タイミング決定部104は、制御部11を主として実現される。表示タイミング決定部104は、波形解析部103により取得された各音声の出力タイミング{y}と、タイミングデータにより定まる各文字情報の仮の表示タイミング{x}と、に基づいて、各文字情報の最終的な表示タイミングを決定する。
表示タイミング決定部104は、各音声の出力タイミング{y}と、各文字情報の仮の表示タイミング{x}と、に基づいて、一致度情報を取得し、一致度情報が示す一致度が高くなるように、仮の表示タイミング{x}を変更し、最終的な表示タイミングを決定する。一致度情報は、タイミング的にどの程度一致しているかを示す指標である。別の言い方をすれば、一致度情報は、タイミング的なずれ具合を示す指標である。一致度情報は、各音声の出力タイミング{y}と、後述する変更量により変更される前又は後の各文字情報の仮の表示タイミング{x}との一致度を示してもよい。
例えば、一致度情報が示す一致度が高いほど(即ち、一致度が示すずれ具合が小さいほど)タイミングが合っていることを示し、一致度情報が示す一致度が低いほど(即ち、一致度が示すずれ具合が大きいほど)タイミングが合っていないことを示す。一致度情報は、数値により示される。一致度情報は、出力タイミング{y}と仮の表示タイミング{x}との時間差に基づいて算出され、これらを変数とする数式に基づいて算出される。この数式は、データ記憶部102に記憶されているものとする。
例えば、表示タイミング決定部104は、各文字情報の仮の表示タイミングの変更量を複数取得し、複数の変更量の中から、一致度情報が示す一致度が最も高い変更量を選択する。この変更量は、仮の表示タイミング{x}のタイミング的な移動量であり、時間的にどれだけ前後させるかを示す。文字情報ごとに変更量が異なってもよいし、文字情報全体として共通の変更量が用いられてもよい。本実施形態では、文字情報全体として共通の変更量が用いられる場合を説明する。変更量は、少なくとも1つの数値により示されてよく、例えば、下記の数式1のa及びbの係数が変更量として用いられるようにしてよい。
Figure 0006359229
数式1の左辺は、変更量である係数a及びbにより変更された後の仮の表示タイミングを示す。即ち、T(x)は、最終的な表示タイミングの候補である。数式1の右辺の係数aは、仮の表示タイミング{x}の個々の間隔の変更量である。係数aを変更すると、文字情報全体の表示時間が伸びるため、係数aは、文字情報のスケールを示す。一方、係数bは、仮の表示タイミング{x}を全体的にシフトする場合の移動量である。係数bを変更すると、文字情報が全体的に前又は後の何れかに移動するため、係数bは、平行移動量を示す。
上記説明したように、表示タイミング決定部104は、仮の表示タイミング{x}の変更量である係数a及びbの組み合わせを複数取得することになる。複数の組み合わせの各々は、係数a及びbの少なくとも一方の値が他の組み合わせと異なっている。係数a及びbの組み合わせの取得方法自体は、公知のサンプル抽出方法を適用可能であり、例えば、RANSAC(Random sample consensus)に基づいて抽出してもよいし、係数a及びbの組み合わせが予めシステム管理者により指定されているようにしてよい。なお、組み合わせの取得数は任意であってよく、例えば、数十〜数百程度のサンプルが抽出されてよい。
表示タイミング決定部104は、変更量ごとに、変更後の各文字情報の仮の表示タイミング{T(x)}と、各音声の出力タイミング{y}と、の一致度に関する一致度情報を取得する。一致度情報は、変更後の仮の表示タイミング{T(x)}と出力タイミング{y}とを変数とする数式に基づいて算出される。当該数式は、データ記憶部102に記憶されているものとする。本実施形態では、下記の数式2を例に挙げる。
Figure 0006359229
数式2の左辺は、一致度情報である。一致度情報Dは、変更量である係数a及びbによって変わるので、当該変更量による変更後の各文字情報の仮の表示タイミングTが変数となっている。このため、一致度情報Dは、変更量である係数a及びbの組み合わせごとに算出される。
また、数式2の右辺第1項に示すように、表示タイミング決定部104は、文字情報ごとに、当該文字情報の仮の表示タイミングT(x)と、当該仮の表示タイミングT(x)に最も近い出力タイミング{y}と、の一致度に関する個別一致度情報dを取得する。例えば、表示タイミング決定部104は、ある変更量による変更後の仮の表示タイミングT(x)ごとに、当該仮の表示タイミングT(x)に最も近い出力タイミング{y}との距離(即ち、時間差)を、個別一致度情報dとして取得する。そして、表示タイミング決定部104は、当該個別一致度情報dの総和を取得することになる。
また例えば、数式2の右辺第2項に示すように、表示タイミング決定部104は、音声ごとに、当該音声の出力タイミング{y}と、当該出力タイミング{y}に最も近い文字情報の仮の表示タイミングT(x)と、の一致度を示す個別一致度情報dを取得する。例えば、表示タイミング決定部104は、音声の出力タイミング{y}ごとに、当該出力タイミング{y}に最も近い変更後の仮の表示タイミングT(x)との距離(即ち、時間差)を、個別一致度情報dとして取得する。そして、表示タイミング決定部104は、当該個別一致度情報dの総和を取得することになる。
数式2に示すように、表示タイミング決定部104は、文字情報ごとに取得される個別一致度情報dの総和(右辺第1項)と、音声ごとに取得される個別一致度情報dの総和(右辺第2項)と、を取得する。左辺に示される一致度情報は、全体的なタイミングの一致度を示すので、以降では全体一致度情報Dと記載する。即ち、全体一致度情報Dは、タイミングの全体的な一致度を示す情報である。ここでは、一致度情報Dの数値が小さいほど一致度が高く(ずれが小さく)、一致度情報Dの数値が大きいほど一致度が低い(ずれが大きい)ことを示している。
例えば、表示タイミング決定部104は、一致度情報Dが示す一致度が最も高い変更量に基づいて、各文字情報の最終的な表示タイミングを決定する。本実施形態では、表示タイミング決定部104は、係数a及びbの組み合わせのうち、全体一致度情報Dの数値が最も小さい(一致度が最も高い)組み合わせに基づいて変更した仮の表示タイミングT(x)を、最終的な表示タイミングとして取得する。
また例えば、本実施形態では、文字情報ごとに個別一致度情報dが取得されるので、表示タイミング決定部104は、文字情報ごとに取得した個別一致度情報dに基づいて、各文字情報の最終的な表示タイミングを決定することになる。更に例えば、本実施形態では、音声ごとに個別一致度情報dが取得されるので、表示タイミング決定部104は、音声ごとに取得した個別一致度情報dに基づいて、各文字情報の最終的な表示タイミングを決定することになる。
図6は、最終的な表示タイミングが取得される様子を示す図である。図6に示すt軸は時間軸であり、一部の音声の出力タイミングy〜yと、一部の文字情報の表示タイミングx〜xと、を示している。例えば、種々の係数a及びbの組み合わせのうち、係数aが1.05であり、かつ、係数bが−2.0である場合に、全体一致度情報Dが示す一致度が最も高くなるものとする。図6に示すように、音声の出力タイミング{y}と、各文字情報の仮の表示タイミング{x}と、のずれがあったとしても、一致度が最も高い全体一致度情報Dにより仮の表示タイミング{x}が変更されることによって、タイミング的なずれが小さくなる。
なお、本実施形態では、各文字情報の開始タイミングが表示タイミングに相当する場合を説明するが、表示タイミング決定部104は、各文字情報の終了タイミング及び表示時間も、開始タイミングの変更に合わせて変更してもよい。例えば、表示タイミング決定部104は、全体一致度情報Dが示す一致度が最も高くなる変更量に応じて終了タイミング及び表示時間を変更してもよい。また、表示タイミング決定部104は、表示時間は変えずに、変更後の開始タイミングと同じ量だけ終了タイミングをずらしてもよい。
[3.本実施形態において実行される処理]
図7は、サーバ10において実行される処理の一例を示すフロー図である。図7に示す処理は、図3に示す機能ブロックにより実行される処理の一例であり、制御部11が、記憶部12に記憶されたプログラムに従って動作することによって実行される。なお、図7に示す処理は、所定の条件が満たされた場合に実行されるようにすればよく、例えば、音声格納データとタイミングデータがサーバ10に登録された場合に実行されてもよいし、システム管理者の指示などの任意のタイミングで実行されてもよい。
図7に示すように、まず、制御部11は、記憶部12に記憶された音声格納データを取得する(S1)。制御部11は、S1で取得した音声格納データに基づいて、スペクトログラムを生成する(S2)。S2においては、先述したように、制御部11は、ソノグラフを利用して音声格納データに対して周波数解析を行い、周波数ごとの信号の強さを時系列的に取得することによって、スペクトログラムを生成する。
制御部11は、S2で生成したスペクトログラムに基づいて、各音声の出力タイミング{y}を取得する(S3)。S3においては、制御部11は、音声格納データの再生時間の最初から時系列順に、所定の周波数帯域の音の強さが閾値以上となる時間を探索することによって、音声の出力を開始する開始タイミングを取得する。制御部11は、最初の音声の開始タイミングを取得すると、当該音声に音声ID=1を付与する。次いで、制御部11は、所定の周波数帯域の音の強さが閾値未満となる時間を探索することによって、音声の出力を終了する終了タイミングを取得する。制御部11は、最初の音声の終了タイミングを取得すると、当該終了タイミング及び最初の音声の出力時間を記憶部12に保持してよい。以降、制御部11は、音声格納データの再生時間の最後まで、上記の処理を繰り返し、音声の開始タイミングを見つけるたびに、音声IDをインクリメントして、その開始タイミング等を記憶部12に保持する。
制御部11は、記憶部12に記憶されたタイミングデータを取得する(S4)。制御部11は、文字情報の表示タイミングの変更量を複数取得する(S5)。S5においては、先述したように、制御部11は、RANSACを利用して、係数a及びbの組み合わせを一定数以上取得する。
制御部11は、S5で取得した変更量ごとに、全体一致度情報Dを取得する(S6)。S6においては、制御部11は、先述した数式1及び2を利用して、変更量ごとに全体一致度情報Dを取得して記憶部12に保持する。
制御部11は、全体一致度情報Dに基づいて、文字情報の最終的な表示タイミングを決定し(S7)、本処理は終了する。S7においては、制御部11は、全体一致情報が示す一致度が最も高い変更量により変更される仮の表示タイミングT(x)が最終的な表示タイミングとなるように、タイミングデータを更新する。即ち、制御部11は、当該変更量により変更された仮の表示タイミングT(x)に基づいて、タイミングデータを上書きする。これにより、サーバ10は、音声格納データと、最終的な表示タイミングが決定されたタイミングデータと、に基づいて、音声格納データの再生及び文字情報の表示制御を実行可能となる。
以上説明した表示タイミング決定システム1によれば、音声格納データに対する音声波形の解析により得られる各音声の出力タイミングと、各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングが決定されるので、音声の出力タイミングと文字の表示タイミングとを合わせることができる。音声波形は、音声格納データさえあれば解析可能なので、例えば、番組のジャンルコードのような情報が無かったとしても、音声の出力タイミングと文字の表示タイミングとを合わせることができる。別の言い方をすれば、番組のジャンルコードが存在しない音声格納データであっても、音声の出力タイミングと文字の表示タイミングとを合わせることができる。
また、表示タイミング決定システム1は、仮の表示タイミングの複数の変更量の中からタイミング的な一致度が最も高い変更量に基づいて最終的な表示タイミングを決定する。即ち、表示タイミング決定システム1は、文字情報ごとに別個の変更量を計算するのではなく、全体的にタイミングの合う変更量(各文字情報に共通の変更量)を決定するため、より簡易的な処理によって、サーバ10の処理負荷を軽減しつつ、タイミングが合った表示タイミングを迅速に取得することができる。
また、文字情報ごとに個別一致度情報dが取得されることにより、文字情報の表示タイミングの個々の一致度を考慮して、文字情報の最終的な表示タイミングを決定することができる。このため、音声と文字情報のタイミング合わせの精度をより高めることができる。
また、音声ごとに個別一致度情報dが取得されることにより、音声の出力タイミングの個々の一致度を考慮して、文字情報の最終的な表示タイミングを決定することができる。このため、音声と文字情報のタイミング合わせの精度をより高めることができる。
[4.変形例]
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
(1)例えば、実施形態では、全ての文字情報に対して個別一致度情報dが取得されたが、タイミングデータに仮の表示タイミング{x}が格納されている複数の文字情報の中に、音声以外の情報を示す文字情報が含まれている場合には、対応する音声が存在しないので、この文字情報に対しては、個別一致度情報dが取得されないようにしてもよい。
音声以外の情報を示す文字情報は、対応する音声が存在しない文字情報であり、例えば、説明文、タイトル、又は注釈などである。例えば、音声格納データが動画データであれば、動画に写された場所の名前、登場人物の役職・氏名、役者名、又は映画・番組・アニメ・曲のタイトルなどが、音声以外の情報を示す文字情報に相当する。このような文字情報が存在する場合、当該文字情報についても表示タイミングを識別する必要があるので、タイミングデータには、当該文字情報の仮の表示タイミングも格納される。
図8は、音声以外の情報を示す文字情報の仮の表示タイミングを示す図である。図8に示すように、仮の表示タイミングがx12とx14の文字情報は、動画中の場所や登場人物の役職を示す説明文であり、所定時間以内に音声の出力タイミングが存在しないので、対応する音声が存在しない。このような文字情報は、そもそも対応する音声が存在せずタイミングを合わせる必要がないので、個別一致度情報dを取得するとノイズになってしまう。このため、表示タイミング決定部104は、音声以外の情報を示す文字は、個別一致度情報dの取得対象から除外する。
例えば、表示タイミング決定部104は、仮の表示タイミング{x}の所定時間以内に出力タイミング{y}が存在するかを判定する。表示タイミング決定部104は、所定時間以内に出力タイミング{y}が存在する仮の表示タイミング{x}は、対応する音声が存在すると判定し、所定時間以内に出力タイミング{y}が存在しない仮の表示タイミング{x}は、対応する音声が存在しないと判定する。表示タイミング決定部104は、対応する音声が存在する文字情報だけ、実施形態で説明した方法と同様に個別一致度情報dを取得し、対応する音声が存在しない文字情報は、個別一致度情報dを取得しない。
変形例(1)によれば、音声以外の情報を示す文字は個別一致度情報dの取得対象から除外されるので、タイミングの一致度を判定する際のノイズを低減することができ、音声と文字情報のタイミング合わせの精度をより向上させることができる。
(2)また例えば、実施形態では、全ての音声に対して個別一致度情報dが取得されたが、音声格納データに格納された複数の音声の中に、対応する文字情報がない音声が含まれている場合には、個別一致度情報dが取得されないようにしてもよい。
対応する文字情報がない音声は、当該音声を示す文字情報が存在しない音声であり、例えば、感動詞、相槌、叫び声、又は悲鳴などである。別の言い方をすれば、対応する文字がない音声は、当該音声が出力されても文字情報が表示されない音声である。音声波形の解析では、対応する文字情報があるか否かは関係ないので、波形解析部103は、このような音声であったとしても、音声の出力タイミングを取得してしまうことになる。
図9は、対応する文字のない音声の出力タイミングを示す図である。図9に示すように、出力タイミングがy22,23の音声は、感動詞や掛け声などであり、対応する文字情報が存在しない。このような音声は、そもそもタイミングを合わせるべき文字情報が存在しないので、個別一致度情報dを取得するとノイズになってしまう。このため、表示タイミング決定部104は、対応する文字がない音声は、個別一致度情報dの取得対象から除外する。
例えば、表示タイミング決定部104は、出力タイミング{y}の所定時間以内に仮の表示タイミング{x}が存在するかを判定する。表示タイミング決定部104は、所定時間以内に仮の表示タイミング{x}が存在する出力タイミング{y}は、対応する文字情報が存在すると判定し、所定時間以内に仮の表示タイミング{x}が存在しない出力タイミング{y}は、対応する音声が存在しないと判定する。表示タイミング決定部104は、対応する文字情報が存在する音声だけ、実施形態で説明した方法と同様に個別一致度情報dを取得し、対応する文字情報が存在しない音声は、個別一致度情報dを取得しない。
変形例(2)によれば、対応する文字情報がない音声は個別一致度情報dの取得対象から除外されるので、タイミングの一致度を判定する際のノイズを低減することができ、音声と文字情報のタイミング合わせの精度をより向上させることができる。
(3)また例えば、音声に対応する文字情報が存在しなかったり、文字情報に対応する音声が存在しなかったりすると、タイミングのずれが非常に大きな個別一致度情報d,dが存在することがある。このような個別一致度情報d,dをそのまま加算して全体一致度情報Dが取得されると、他の部分のタイミングが合っていたとしても、全体としてタイミングが合っていないことになってしまう。このため、ある一定以上のずれを示す個別一致度情報d,dについては、そのずれを低減させたうえで全体一致度情報Dが計算されるようにしてよい。
本変形例でも、実施形態で説明したように、表示タイミング決定部104は、個別一致度情報d,dにより定まる全体的な一致度に関する全体一致度情報Dに基づいて、各文字の最終的な表示タイミングを決定することになる。ただし、本変形例の表示タイミング決定部104は、一致度が閾値未満の個別一致度情報d,dは、当該一致度を増加させたうえで、全体一致度情報Dを取得する。
例えば、表示タイミング決定部104は、個別一致度情報d,dの数値が閾値未満(即ち、一致度が閾値以上)である場合は、下記の数式3により最終的な個別一致度情報d,dを再取得し、個別一致度情報d,dの数値が閾値以上(即ち、一致度が閾値未満)である場合は、下記の数式4により最終的な個別一致度情報d,dを再取得する。なお、下記の数式3及び4では、個別一致度情報d,dをそれぞれdで示し、閾値をcで示す。
Figure 0006359229
Figure 0006359229
なお、表示タイミング決定部104が個別一致度情報d,dが示す一致度を増加させる方法は、数式3及び4に限られない。表示タイミング決定部104は、一致度が閾値未満の個別一致度情報d,dについては、その一致度が上がるように変化すればよく、例えば、個別一致度情報d,dを変数とした数式により変化量が算出されてもよいし、個別一致度情報d,dを一律で所定値にしてもよい。表示タイミング決定部104は、一致度が閾値未満の個別一致度情報d,dが全体一致度情報Dに与える影響を低減するように、当該個別一致度情報d,dの一致度を上げるようにすればよい。
変形例(3)によれば、一致度が閾値未満の個別一致度情報d,dは、その一致度を増加させたうえで全体一致度情報Dが取得されるので、一部の低い個別一致度情報d,dのために、全体としてタイミングが一致していないとみなされることを防止することができる。その結果、音声と文字情報のタイミング合わせの精度を向上させることができる。
(4)また例えば、音声格納データに、複数の音声と、音声以外の音と、を含む複数の音が格納されている場合、波形パターンの傾向により、各音が音声を示すか他の音を示すかを推測可能である。このため、音が音声である確率を考慮して全体一致度情報Dが取得されるようにしてもよい。なお、本変形例において、波形解析部103が音声格納データに格納された複数の音の各々の出力タイミングを取得する方法は、実施形態で説明した方法と同様であってよい。
表示タイミング決定部104は、音ごとに、当該音が音声である確率に関する確率情報を取得する。表示タイミング決定部104は、音声格納データの音声波形を解析することによって、確率情報を取得する。確率情報の取得方法自体は、公知の手法を適用可能であり、例えば、VAD(Voice Activity Detection)分類を利用してよい。例えば、音声波形の基本パターンをデータ記憶部102に記憶しておき、表示タイミング決定部104は、当該基本パターンと、音声格納データが示す音声波形と、の一致度に基づいて確率情報を取得してもよい。確率情報は、数値で示され、例えば、0以上1以下の数値で示されてよい。ここでは、確率情報が示す数値が0に近いほど、音声である確率が低く、確率情報が示す数値が1に近いほど、音声である確率が高いことを示すものとする。
表示タイミング決定部104は、音ごとに取得された確率情報に更に基づいて、各文字情報の最終的な表示タイミングを決定する。例えば、表示タイミング決定部104は、下記の数式5に基づいて、全体一致度情報Dを取得するようにしてよい。なお、下記の数式5では、確率情報をc(y)で示す。全体一致度情報Dに基づいて最終的な表示タイミングを決定する方法自体は、実施形態で説明した方法と同様である。
Figure 0006359229
なお、表示タイミング決定部104が確率情報に基づいて文字情報の最終的な表示タイミングを決定する方法は、上記の例に限られない。例えば、数式5以外の数式を用いてもよく、表示タイミング決定部104は、確率情報の低い音声に基づく個別一致度情報d,dが全体一致度情報Dに与える影響を低くし、確率情報の高い音声に基づく個別一致度情報d,dが全体一致度情報Dに与える影響を高くすればよく、確率情報に基づいて、全体一致度情報Dを取得する際の重み付けが行われるようにすればよい。他にも例えば、表示タイミング決定部104は、確率情報が閾値未満の音声の出力タイミングは、全体一致度情報Dを算出する際に参照しないようにしてもよい。
変形例(4)によれば、音声であるか否かの確率情報を利用して文字情報の最終的な表示タイミングが決定されるので、音声と文字情報のタイミング合わせの精度をより向上させることができる。
(5)また例えば、実施形態では、複数の変更量の全てについて全体一致度情報Dを計算し、最も一致度の高い変更量を探す場合を説明したが、タイミングが合っている変更量は、その次にタイミングが合っている変更量と、全体一致度情報Dの差が大きいことがある。このため、このような変更量が見つかった時点で変更量の探索を停止してもよい。
実施形態で説明したように、本変形例でも、表示タイミング決定部104は、各文字の仮の表示タイミングの変更量を繰り返し取得可能であり、変更量ごとに、変更後の各文字の仮の表示タイミング{x}と、各音声の出力タイミング{y}と、の全体的な一致度を示す全体一致度情報Dを取得するようにしてよい。
本変形例の表示タイミング決定部104は、一致度が最も高い全体一致度情報Dと、一致度が2番目に高い全体一致度情報Dと、の差が閾値未満である場合は、新たな変更量を取得し、取得した新たな変更量に基づいて、全体一致度情報Dを取得する。例えば、表示タイミング決定部104は、全体一致度情報Dを取得するたびに、過去に取得した全体一致度情報Dと比較し、一致度が最も高いかを判定する。そして、表示タイミング決定部104は、一致度が最も高いと判定した場合、最新の全体一致度情報D(即ち、一致度が最も高い全体一致度情報D)と、その次に一致度の高い全体一致度情報Dと、の差が閾値未満であるかを判定する。閾値は、予め定められた値であればよく、固定値であってもよいし、可変値であってもよい。表示タイミング決定部104は、差が閾値未満であれば、実施形態で説明した方法と同様にして、次の変更量に対応する全体一致度情報Dを取得することになる。
一方、表示タイミング決定部104は、差が閾値以上である場合は、新たな変更量は取得せず、一致度が最も小さい全体一致度情報Dに対応する変更量に基づいて、各文字情報の最終的な表示タイミングを決定する。即ち、表示タイミング決定部104は、差が閾値以上の全体一致度情報Dが存在する場合、それ以上の全体一致度情報Dの取得は実行せず、その時点で一致度が最も高い全体一致度情報Dに基づいて、最終的な表示タイミングを決定する。なお、表示タイミング決定部104は、全ての変更量に対応する全体一致度情報Dを取得しても、差が閾値以上にならなかった場合は、その時点で最も一致度の高い全体一致度情報Dに対応する変更量に基づいて、最終的な表示タイミングを決定してよい。
変形例(5)によれば、ある程度タイミングの合う変更量が見つかった時点で変更量の取得が停止されるので、不必要な処理を実行する必要がなくなり、最終的な表示タイミングをより迅速に見つけることが可能になるとともに、サーバ10の処理負荷を軽減することができる。
(6)また例えば、各音声の波形パターンの傾向から、音声の発声者が男性であるか女性であるかを特定可能である。各文字情報に、男性の音声であるか女性の音声であるかを関連付けて記録しておき、発声者に関する情報を利用して各文字情報の表示タイミングが決定されてもよい。
図10は、変形例における機能ブロック図である。図10に示すように変形例では、実施形態で説明した機能の他に、音声発声者情報取得部105と文字発声者情報取得部106とが実現される。これらは、制御部11を主として実現される。
音声発声者情報取得部105は、各音声に対応する発声者に関する音声発声者情報を取得する。音声発声者情報は、音声の発声者の特性を示し、例えば、発声者の性別又は年齢である。ここでは、音声発声者情報が発声者の性別を示す場合を説明する。男性の声は女性の声よりも周波数が低いため、音声発声者情報取得部105は、スペクトログラムが示す音声の周波数に基づいて、音声発声者情報を取得するようにしてよい。
文字発声者情報取得部106は、各文字に対応する発声者に関する文字発声者情報を取得する。文字発声者情報は、文字情報が示す音声の発声者の特性を示し、例えば、発声者の性別又は年齢である。ここでは、文字発声者情報が発声者の性別を示す場合を説明する。文字発声者情報取得部106は、文字情報の入力者が指定した文字発声者情報を取得するようにしてよい。この場合、タイミングデータにおいて、文字情報IDに関連付けて文字発声者情報が格納されているようにしてよい。
表示タイミング決定部104は、各音声の音声発声者情報と各文字情報の文字発声者情報とに更に基づいて、各文字情報の最終的な表示タイミングを決定する。例えば、表示タイミング決定部104は、各文字情報の仮の表示タイミングと比較する出力タイミングを探す場合に、当該文字情報の文字発声者情報と音声発声者情報とが一致する出力タイミングを特定する。そして、表示タイミング決定部104は、当該特定した出力タイミングと仮の表示タイミングとを比較することになる。
変形例(6)によれば、音声発声者情報と文字発声者情報とを利用することによって、音声と文字情報との対応関係を見つけやすくなるので、音声と文字情報のタイミング合わせの精度をより向上させることができる。
(7)また例えば、実施形態及び上記変形例では、音声の出力タイミングと、文字情報の表示タイミングと、をそれぞれの開始タイミングとしたが、他の情報によって、音声の出力タイミングと文字情報の表示タイミングとが特定されるようにしてもよい。例えば、音声の出力タイミングの時間差を第1の配列に格納し、文字情報の表示タイミングの時間差を第2の配列に格納することによって、音声の出力タイミングと文字情報の表示タイミングとが特定されるようにしてもよい。この場合、表示タイミング決定部104は、第2の配列に格納された時間差を変更することによって、各文字情報の最終的な表示タイミングを決定する。
また例えば、全体一致度情報Dは、全体的なタイミングの一致度を示せばよく、時間差の総和ではなく、タイミングのずれが閾値未満である文字情報又は音声の数を示してもよい。また例えば、実施形態では、複数の変更量を取得して、変更量ごとに全体一致度情報Dが取得される場合を説明したが、他の方法に基づいて、各文字情報の最終的な表示タイミングが決定されてもよい。例えば、表示タイミング決定部104は、各文字情報の仮の表示タイミング{x}を、最も近い音声の出力タイミング{y}と一致又はずれが閾値未満となるように変更してもよい。即ち、表示タイミング決定部104は、全体的なタイミングの変更量ではなく、個別のタイミングの変更量に基づいて、各文字情報の仮の表示タイミング{x}を変更してもよい。この場合、特に全体一致度情報Dは取得されなくてもよい。
また例えば、文字情報ごとに個別一致度情報dが取得される場合を説明したが、音声ごとの個別一致度情報dだけが取得されてもよいし、ランダムに選出した一部の文字情報だけに対して個別一致度情報dが取得されるようにしてもよい。同様に、音声ごとに個別一致度情報dが取得される場を説明したが、文字情報ごとの個別一致度情報dだけが取得されてもよいし、ランダムに選出した一部の音声だけに対して個別一致度情報dが取得されるようにしてもよい。
また例えば、音声格納データ取得部100、タイミングデータ取得部101、波形解析部103、及び表示タイミング決定部104は、ユーザ装置20で実現されるようにしてもよい。この場合、これら各機能は、制御部21を主として実現され、ユーザ装置20が本発明に係る表示タイミング決定装置に相当する。他にも例えば、サーバ10及びユーザ装置20以外のコンピュータにおいて、音声格納データ取得部100、タイミングデータ取得部101、波形解析部103、及び表示タイミング決定部104が実現されるようにしてもよい。この場合、当該コンピュータが本発明に係る表示タイミング決定装置に相当する。

Claims (16)

  1. 順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段と、
    前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段と、
    前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段と、
    前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、
    を含み、
    前記表示タイミング決定手段は、
    各文字情報の仮の表示タイミングの変更量を複数取得し、
    前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の一致度に関する一致度情報を取得し、
    前記一致度情報が示す一致度が最も高い前記変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、
    ことを特徴とする表示タイミング決定装置。
  2. 順次出力される複数の音声と、音声以外の音と、を含む複数の音が格納された音声格納データを取得する音声格納データ取得手段と、
    前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段と、
    前記音声格納データの音声波形を解析し、前記複数の音の各々の出力タイミングを取得する波形解析手段と、
    前記音ごとに、当該音が音声である確率に関する確率情報を取得し、前記音ごとに取得された前記確率情報と、前記波形解析手段により取得された各音の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、
    を含むことを特徴とする表示タイミング決定装置。
  3. 順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段と、
    前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段と、
    前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段と、
    前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、
    を含み、
    前記表示タイミング決定手段は、
    各文字情報の仮の表示タイミングの変更量を繰り返し取得可能であり、
    前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の全体的な一致度を示す全体一致度情報を取得し、
    一致度が最も高い前記全体一致度情報と、一致度が2番目に高い前記全体一致度情報と、の差が閾値未満である場合は、新たな前記変更量を取得し、
    前記差が閾値以上である場合は、新たな前記変更量は取得せず、一致度が最も小さい前記全体一致度情報に対応する変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、
    ことを特徴とする表示タイミング決定装置。
  4. 順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段と、
    前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段と、
    前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段と、
    各音声に対応する発声者に関する音声発声者情報を取得する音声発声者情報取得手段と、
    各文字情報に対応する発声者に関する文字情報発声者情報を取得する文字情報発声者情報取得手段と、
    各音声の前記音声発声者情報と各文字情報の前記文字情報発声者情報と、前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、
    を含むことを特徴とする表示タイミング決定装置。
  5. 前記表示タイミング決定手段は、
    前記文字情報ごとに、当該文字情報の仮の表示タイミングと、当該仮の表示タイミングに最も近い前記出力タイミングと、の一致度に関する個別一致度情報を取得し、
    前記文字情報ごとに取得した前記個別一致度情報に基づいて、各文字情報の最終的な表示タイミングを決定する、
    ことを特徴とする請求項1〜4の何れかに記載の表示タイミング決定装置。
  6. 前記複数の文字情報には、音声以外の情報を示す文字情報が含まれており、
    前記表示タイミング決定手段は、音声以外の情報を示す文字情報は、前記個別一致度情報の取得対象から除外する、
    ことを特徴とする請求項に記載の表示タイミング決定装置。
  7. 前記表示タイミング決定手段は、
    前記音声ごとに、当該音声の出力タイミングと、当該出力タイミングに最も近い前記文字情報の仮の表示タイミングと、の一致度を示す個別一致度情報を取得し、
    前記音声ごとに取得した前記個別一致度情報に基づいて、各文字情報の最終的な表示タイミングを決定する、
    ことを特徴とする請求項1〜の何れかに記載の表示タイミング決定装置。
  8. 前記音声格納データには、対応する文字情報がない音声も格納されており、
    前記表示タイミング決定手段は、対応する文字情報がない音声は、前記個別一致度情報の取得対象から除外する、
    ことを特徴とする請求項に記載の表示タイミング決定装置。
  9. 順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得ステップと、
    前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得ステップと、
    前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析ステップと、
    前記波形解析ステップにより取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、
    を含み、
    前記表示タイミング決定ステップは、
    各文字情報の仮の表示タイミングの変更量を複数取得し、
    前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の一致度に関する一致度情報を取得し、
    前記一致度情報が示す一致度が最も高い前記変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、
    ことを特徴とする表示タイミング決定方法。
  10. 順次出力される複数の音声と、音声以外の音と、を含む複数の音が格納された音声格納データを取得する音声格納データ取得ステップと、
    前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得ステップと、
    前記音声格納データの音声波形を解析し、前記複数の音の各々の出力タイミングを取得する波形解析ステップと、
    前記音ごとに、当該音が音声である確率に関する確率情報を取得し、前記音ごとに取得された前記確率情報と、前記波形解析ステップにより取得された各音の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、
    を含むことを特徴とする表示タイミング決定方法。
  11. 順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得ステップと、
    前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得ステップと、
    前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析ステップと、
    前記波形解析ステップにより取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、
    を含み、
    前記表示タイミング決定ステップは、
    各文字情報の仮の表示タイミングの変更量を繰り返し取得可能であり、
    前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の全体的な一致度を示す全体一致度情報を取得し、
    一致度が最も高い前記全体一致度情報と、一致度が2番目に高い前記全体一致度情報と、の差が閾値未満である場合は、新たな前記変更量を取得し、
    前記差が閾値以上である場合は、新たな前記変更量は取得せず、一致度が最も小さい前記全体一致度情報に対応する変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、
    ことを特徴とする表示タイミング決定方法。
  12. 順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得ステップと、
    前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得ステップと、
    前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析ステップと、
    各音声に対応する発声者に関する音声発声者情報を取得する音声発声者情報取得ステップと、
    各文字情報に対応する発声者に関する文字情報発声者情報を取得する文字情報発声者情報取得ステップと、
    各音声の前記音声発声者情報と各文字情報の前記文字情報発声者情報と、前記波形解析ステップにより取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定ステップと、
    を含むことを特徴とする表示タイミング決定方法。
  13. 順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段、
    前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段、
    前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段、
    前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段、
    としてコンピュータを機能させるためのプログラムであって、
    前記表示タイミング決定手段は、
    各文字情報の仮の表示タイミングの変更量を複数取得し、
    前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の一致度に関する一致度情報を取得し、
    前記一致度情報が示す一致度が最も高い前記変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、
    プログラム
  14. 順次出力される複数の音声と、音声以外の音と、を含む複数の音が格納された音声格納データを取得する音声格納データ取得手段、
    前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段、
    前記音声格納データの音声波形を解析し、前記複数の音の各々の出力タイミングを取得する波形解析手段、
    前記音ごとに、当該音が音声である確率に関する確率情報を取得し、前記音ごとに取得された前記確率情報と、前記波形解析手段により取得された各音の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段、
    としてコンピュータを機能させるためのプログラム。
  15. 順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段と、
    前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段と、
    前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段と、
    前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、
    としてコンピュータを機能させるためのプログラムであって、
    前記表示タイミング決定手段は、
    各文字情報の仮の表示タイミングの変更量を繰り返し取得可能であり、
    前記変更量ごとに、変更後の各文字情報の仮の表示タイミングと、各音声の出力タイミングと、の全体的な一致度を示す全体一致度情報を取得し、
    一致度が最も高い前記全体一致度情報と、一致度が2番目に高い前記全体一致度情報と、の差が閾値未満である場合は、新たな前記変更量を取得し、
    前記差が閾値以上である場合は、新たな前記変更量は取得せず、一致度が最も小さい前記全体一致度情報に対応する変更量に基づいて、各文字情報の最終的な表示タイミングを決定する、
    プログラム。
  16. 順次出力される複数の音声が格納された音声格納データを取得する音声格納データ取得手段と、
    前記音声格納データの再生中に順次表示され、それぞれ音声の内容を示す複数の文字情報の仮の表示タイミングに関するタイミングデータを取得するタイミングデータ取得手段と、
    前記音声格納データの音声波形を解析し、各音声の出力タイミングを取得する波形解析手段と、
    各音声に対応する発声者に関する音声発声者情報を取得する音声発声者情報取得手段と、
    各文字情報に対応する発声者に関する文字情報発声者情報を取得する文字情報発声者情報取得手段と、
    各音声の前記音声発声者情報と各文字情報の前記文字情報発声者情報と、前記波形解析手段により取得された各音声の出力タイミングと、前記タイミングデータにより定まる各文字情報の仮の表示タイミングと、に基づいて、各文字情報の最終的な表示タイミングを決定する表示タイミング決定手段と、
    としてコンピュータを機能させるためのプログラム。
JP2018514484A 2016-09-08 2016-09-08 表示タイミング決定装置、表示タイミング決定方法、及びプログラム Active JP6359229B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/076466 WO2018047275A1 (ja) 2016-09-08 2016-09-08 表示タイミング決定装置、表示タイミング決定方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP6359229B1 true JP6359229B1 (ja) 2018-07-18
JPWO2018047275A1 JPWO2018047275A1 (ja) 2018-09-06

Family

ID=61562814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018514484A Active JP6359229B1 (ja) 2016-09-08 2016-09-08 表示タイミング決定装置、表示タイミング決定方法、及びプログラム

Country Status (3)

Country Link
US (1) US10652623B1 (ja)
JP (1) JP6359229B1 (ja)
WO (1) WO2018047275A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2005286969A (ja) * 2004-03-31 2005-10-13 Sharp Corp 記録再生装置、表示装置、及び字幕放送の字幕表示遅れ補正方法
JP2010015088A (ja) * 2008-07-07 2010-01-21 Panasonic Corp データ生成装置及びデータ生成プログラム、並びに、再生装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100771624B1 (ko) * 2006-03-06 2007-10-30 엘지전자 주식회사 텔레비전 수신기의 언어 설정 장치 및 방법
JP2008172421A (ja) 2007-01-10 2008-07-24 Sony Corp 記録装置および方法、再生装置および方法、並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2005286969A (ja) * 2004-03-31 2005-10-13 Sharp Corp 記録再生装置、表示装置、及び字幕放送の字幕表示遅れ補正方法
JP2010015088A (ja) * 2008-07-07 2010-01-21 Panasonic Corp データ生成装置及びデータ生成プログラム、並びに、再生装置

Also Published As

Publication number Publication date
US10652623B1 (en) 2020-05-12
WO2018047275A1 (ja) 2018-03-15
US20200169791A1 (en) 2020-05-28
JPWO2018047275A1 (ja) 2018-09-06

Similar Documents

Publication Publication Date Title
JP5740814B2 (ja) 情報処理装置および方法
US9798934B2 (en) Method and apparatus for providing combined-summary in imaging apparatus
US20230185862A1 (en) Scene aware searching
US20180068690A1 (en) Data processing apparatus, data processing method
KR20150093425A (ko) 콘텐츠 추천 방법 및 장치
US10141010B1 (en) Automatic censoring of objectionable song lyrics in audio
JP4568144B2 (ja) 情報提示装置及び情報提示プログラム
US20220021942A1 (en) Systems and methods for displaying subjects of a video portion of content
CN114143479B (zh) 视频摘要的生成方法、装置、设备以及存储介质
US20170092277A1 (en) Search and Access System for Media Content Files
JP2014153977A (ja) コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム
JP2019003585A (ja) 要約映像生成装置およびそのプログラム
CN116567351B (zh) 一种视频处理方法、装置、设备及介质
JP6295381B1 (ja) 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
JP6359229B1 (ja) 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
JP2019197210A (ja) 音声認識誤り修正支援装置およびそのプログラム
US11099811B2 (en) Systems and methods for displaying subjects of an audio portion of content and displaying autocomplete suggestions for a search related to a subject of the audio portion
US20210089781A1 (en) Systems and methods for displaying subjects of a video portion of content and displaying autocomplete suggestions for a search related to a subject of the video portion
US20210089577A1 (en) Systems and methods for displaying subjects of a portion of content and displaying autocomplete suggestions for a search related to a subject of the content
WO2011161820A1 (ja) 映像処理装置、映像処理方法及び映像処理プログラム
JP2022067478A (ja) 情報処理プログラム、装置、及び方法
CN112165626A (zh) 图像处理方法、资源获取方法、相关设备及介质
CN115484503B (zh) 弹幕生成方法及装置、电子设备和存储介质
JP2009103945A (ja) 映像コンテンツ処理装置およびプログラム
CN109977239B (zh) 一种信息处理方法和电子设备

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180619

R150 Certificate of patent or registration of utility model

Ref document number: 6359229

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250