JP6745381B2 - シーンメタ情報生成装置およびシーンメタ情報生成方法 - Google Patents
シーンメタ情報生成装置およびシーンメタ情報生成方法 Download PDFInfo
- Publication number
- JP6745381B2 JP6745381B2 JP2019089618A JP2019089618A JP6745381B2 JP 6745381 B2 JP6745381 B2 JP 6745381B2 JP 2019089618 A JP2019089618 A JP 2019089618A JP 2019089618 A JP2019089618 A JP 2019089618A JP 6745381 B2 JP6745381 B2 JP 6745381B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- unit
- image
- section
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 35
- 238000012937 correction Methods 0.000 claims description 47
- 239000000284 extract Substances 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 17
- 238000000691 measurement method Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 48
- 238000010586 diagram Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 19
- 230000004044 response Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000007774 longterm Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000010454 slate Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
- H04N21/2335—Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4398—Processing of audio elementary streams involving reformatting operations of audio signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Signal Processing For Recording (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Image Analysis (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
W(“cat”)=(0.2,-0.4,0.7,...)
W(“mat”)=(0.0,0.6,-0.1,...)
本実施形態で使用可能な単語埋め込みモデルとしてはNNLM(Neural Net Language Model)モデル、RNNLM(Recurrent Neural Net Language Model)モデルなどのような人工神経ネットワークモデルが用いられることができ、より好ましくはWord2Vecモデルが用いられることができる。
100 ・・・通信ネットワーク
200 ・・・サーバ
300 ・・・ユーザ端末
400 ・・・シーンメタ情報生成装置
410 ・・・字幕情報生成部
420 ・・・オーディオ情報生成部
430 ・・・イメージ情報生成部
440 ・・・シーンメタ情報構成部
Claims (20)
- 画像コンテンツと関連した字幕ファイルに基づいて複数の単位字幕を検出し、前記複数の単位字幕を補正する字幕情報生成部、
前記画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出し、各音声区間内のオーディオ情報に対して音声認識を実行するオーディオ情報生成部、および
各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対して画像認識を実行し、前記画像フレームの中から代表イメージを選択するイメージ情報生成部
を含むシーンメタ情報生成装置。 - 前記字幕情報生成部は、前記画像コンテンツと関連した単位字幕を検出するための字幕抽出部、前記単位字幕の字幕区間を検出するための字幕区間検出部、および前記単位字幕を補正するための字幕補正部を含むことを特徴とする、請求項1に記載のシーンメタ情報生成装置。
- 前記字幕補正部は、前記オーディオ情報を通じて検出された音声区間に基づいて前記単位字幕の字幕区間を補正することを特徴とする、請求項2に記載のシーンメタ情報生成装置。
- 前記字幕補正部は、各音声区間内のオーディオ情報に対する音声認識結果に基づいて、前記単位字幕の字幕テキスト情報を補正することを特徴とする、請求項2に記載のシーンメタ情報生成装置。
- 前記字幕補正部は、各音声区間内のオーディオ情報に対する音声認識結果に基づいて、一つの単位字幕を二つ以上の単位字幕に分割するか、または二つ以上の単位字幕を一つの単位字幕に併合することを特徴とする、請求項2に記載のシーンメタ情報生成装置。
- 前記オーディオ情報生成部は、前記画像コンテンツからオーディオ情報を抽出するためのオーディオ抽出部、前記画像コンテンツの音声区間を検出するための音声区間分析部、および各音声区間内のオーディオ情報に対して音声認識を実行するための音声認識部を含むことを特徴とする、請求項1に記載のシーンメタ情報生成装置。
- 前記音声区間分析部は、オーディオストリームを信号処理に好適な大きさを有する複数のオーディオフレームに分割し、前記オーディオフレームの特性を抽出して各音声区間の開始時点と終了時点を検出することを特徴とする、請求項6に記載のシーンメタ情報生成装置。
- 前記音声認識部は、各音声区間に対応するオーディオ情報の特徴ベクトルを検出し、前記特徴ベクトルのパターン分析を通じて音声認識を実行することを特徴とする、請求項6に記載のシーンメタ情報生成装置。
- 前記イメージ情報生成部は、前記画像コンテンツを構成するイメージを検出するための画像抽出部、各音声区間に対応するビデオ区間を検出するためのビデオ区間検出部、前記ビデオ区間内のイメージに関するイメージタグ情報を生成するイメージタグ部、および前記ビデオ区間の代表イメージを選択するシーン選択部を含むことを特徴とする、請求項1に記載のシーンメタ情報生成装置。
- 前記イメージタグ部は、各ビデオ区間内に存在する複数のイメージに対して画像認識を実行して、前記複数のイメージ各々に対するイメージタグ情報を生成することを特徴とする、請求項9に記載のシーンメタ情報生成装置。
- 前記シーン選択部は、予め決定された単語埋め込みモデルを用いて各音声区間に該当するテキスト化された音声情報と各ビデオ区間に該当するイメージタグ情報をベクトル情報に変換することを特徴とする、請求項9に記載のシーンメタ情報生成装置。
- 前記単語埋め込みモデルはWord2Vecモデルであることを特徴とする、請求項11に記載のシーンメタ情報生成装置。
- 前記シーン選択部は、予め決定された類似度測定技法を用いて前記イメージタグ情報に対応する第1ベクトル情報と前記テキスト化された音声情報に対応する第2ベクトル情報との間の類似度を測定することを特徴とする、請求項11に記載のシーンメタ情報生成装置。
- 前記類似度測定技法は、コサイン類似度測定技法、ユークリッド類似度測定技法、Jaccard係数を用いた類似度測定技法、ピアソン相関係数を用いた類似度測定技法およびマンハッタン距離を用いた類似度測定技法のうち少なくとも一つを含むことを特徴とする、請求項13に記載のシーンメタ情報生成装置。
- 前記シーン選択部は、各ビデオ区間内のイメージのうち、前記テキスト化された音声情報と最も類似度が高いイメージタグ情報に対応するイメージを該当区間の代表イメージに選択することを特徴とする、請求項13に記載のシーンメタ情報生成装置。
- 前記字幕情報生成部から受信した字幕情報、前記オーディオ情報生成部から受信したオーディオ情報および前記イメージ情報生成部から受信した代表イメージ情報に基づいてシーンメタ情報を生成するシーンメタ情報構成部をさらに含むことを特徴とする、請求項1に記載のシーンメタ情報生成装置。
- 前記シーンメタ情報のフレームは、シーンメタ情報を識別するためのIDフィールド、字幕区間または音声区間を示すタイムコードフィールド、代表イメージを示す代表イメージフィールド、音声情報を示す音声フィールド、字幕情報を示す字幕フィールドおよびイメージタグ情報を示すイメージタグフィールドのうち少なくとも一つを含むことを特徴とする、請求項16に記載のシーンメタ情報生成装置。
- 前記シーンメタ情報構成部は、シーンメタ情報の代表イメージが類似した場合、前記シーンメタ情報を一つのシーンメタ情報に併合することを特徴とする、請求項16に記載のシーンメタ情報生成装置。
- 画像コンテンツと関連した字幕ファイルに基づいて字幕情報を検出するステップ、
前記画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出するステップ、
各音声区間内のオーディオ情報に対する音声認識結果に基づいて前記字幕情報を補正するステップ、および
各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対する画像認識結果に基づいて代表イメージを選択するステップ
を含むシーンメタ情報生成方法。 - 画像コンテンツからオーディオ情報を抽出し、前記オーディオ情報に基づいて複数の音声区間を検出し、各音声区間内のオーディオ情報に対して音声認識を実行するオーディオ情報生成部、
各音声区間内のオーディオ情報に対する音声認識結果に基づいて字幕情報を生成する字幕情報生成部、および
各音声区間に対応するビデオ区間を検出し、前記ビデオ区間内の画像フレームに対して画像認識を実行し、前記画像フレームの中から代表イメージを選択するイメージ情報生成部
を含むシーンメタ情報生成装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2018-0053643 | 2018-05-10 | ||
KR1020180053643A KR102085908B1 (ko) | 2018-05-10 | 2018-05-10 | 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019198074A JP2019198074A (ja) | 2019-11-14 |
JP6745381B2 true JP6745381B2 (ja) | 2020-08-26 |
Family
ID=68464403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019089618A Active JP6745381B2 (ja) | 2018-05-10 | 2019-05-10 | シーンメタ情報生成装置およびシーンメタ情報生成方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11350178B2 (ja) |
JP (1) | JP6745381B2 (ja) |
KR (1) | KR102085908B1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7210938B2 (ja) * | 2018-08-29 | 2023-01-24 | 富士通株式会社 | テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 |
US12073177B2 (en) * | 2019-05-17 | 2024-08-27 | Applications Technology (Apptek), Llc | Method and apparatus for improved automatic subtitle segmentation using an artificial neural network model |
US11652801B2 (en) | 2019-09-24 | 2023-05-16 | Pribit Technology, Inc. | Network access control system and method therefor |
KR102267403B1 (ko) * | 2019-12-13 | 2021-06-22 | 주식회사 코난테크놀로지 | 음성 및 영상 정보를 활용한 의미있는 구간을 검출하기 위한 방법 및 이를 위한 장치 |
CN111031349B (zh) * | 2019-12-19 | 2021-12-17 | 三星电子(中国)研发中心 | 用于控制视频播放的方法及装置 |
CN111259109B (zh) * | 2020-01-10 | 2023-12-05 | 腾讯科技(深圳)有限公司 | 一种基于视频大数据的音频转视频的方法 |
KR102522989B1 (ko) * | 2020-02-28 | 2023-04-18 | 주식회사 아토맘코리아 | 멀티미디어 콘텐츠 내 상품 정보 제공 장치 및 방법 |
KR20210134866A (ko) * | 2020-04-29 | 2021-11-11 | 엠랩 주식회사 | 동영상 내부의 정보를 검색하는 방법 및 장치 |
CN111770375B (zh) * | 2020-06-05 | 2022-08-23 | 百度在线网络技术(北京)有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN111753558B (zh) | 2020-06-23 | 2022-03-04 | 北京字节跳动网络技术有限公司 | 视频翻译方法和装置、存储介质和电子设备 |
CN112100436B (zh) * | 2020-09-29 | 2021-07-06 | 新东方教育科技集团有限公司 | 舞蹈片段识别方法、舞蹈片段识别装置和存储介质 |
CN112689188B (zh) * | 2020-12-21 | 2022-06-21 | 威创集团股份有限公司 | 一种大屏滚动字幕显示方法、装置、终端及存储介质 |
KR102591314B1 (ko) | 2021-02-15 | 2023-10-20 | 한국전자통신연구원 | 비디오 의미 구간 검출 장치 및 이를 이용한 방법 |
CN117939193A (zh) * | 2021-03-16 | 2024-04-26 | 花瓣云科技有限公司 | 视频播放方法、视频客户端、视频播放系统及存储介质 |
US12041321B2 (en) * | 2021-07-30 | 2024-07-16 | Rovi Guides, Inc. | Systems and methods of providing content segments with transition elements |
CN114025235A (zh) * | 2021-11-12 | 2022-02-08 | 北京捷通华声科技股份有限公司 | 视频生成方法、装置、电子设备及存储介质 |
CN114385859B (zh) * | 2021-12-29 | 2024-07-16 | 北京理工大学 | 一种面向视频内容的多模态检索方法 |
KR102701785B1 (ko) * | 2022-08-25 | 2024-08-30 | 한리경 | 의미 단위 이동이 가능한 미디어 플레이어를 갖는 사용자 단말장치 및 그의 동작 방법 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3252282B2 (ja) | 1998-12-17 | 2002-02-04 | 松下電器産業株式会社 | シーンを検索する方法及びその装置 |
JP2002335473A (ja) | 2001-05-10 | 2002-11-22 | Webstream:Kk | 動画コンテンツの検索情報抽出システム、検索情報抽出方法、検索情報保存システム、動画コンテンツのストリーミング配信方法 |
JP4920395B2 (ja) | 2006-12-12 | 2012-04-18 | ヤフー株式会社 | 動画要約自動作成装置、方法、及びコンピュータ・プログラム |
JP5246948B2 (ja) * | 2009-03-27 | 2013-07-24 | Kddi株式会社 | 字幕ずれ補正装置、再生装置および放送装置 |
US8281231B2 (en) * | 2009-09-11 | 2012-10-02 | Digitalsmiths, Inc. | Timeline alignment for closed-caption text using speech recognition transcripts |
US8989503B2 (en) * | 2012-08-03 | 2015-03-24 | Kodak Alaris Inc. | Identifying scene boundaries using group sparsity analysis |
KR101516995B1 (ko) * | 2013-08-22 | 2015-05-15 | 주식회사 엘지유플러스 | 컨텍스트 기반 브이오디 검색 시스템 및 이를 이용한 브이오디 검색 방법 |
KR102340196B1 (ko) | 2014-10-16 | 2021-12-16 | 삼성전자주식회사 | 동영상 처리 장치 및 방법 |
WO2016067734A1 (ja) * | 2014-10-27 | 2016-05-06 | 株式会社ソニー・コンピュータエンタテインメント | 動画像処理装置、動画像処理方法及びプログラム |
US9818450B2 (en) * | 2015-03-31 | 2017-11-14 | Sony Interactive Entertainment Europe Limited | System and method of subtitling by dividing script text into two languages |
US9697825B2 (en) * | 2015-04-07 | 2017-07-04 | Nexidia Inc. | Audio recording triage system |
JP6601944B2 (ja) | 2015-06-09 | 2019-11-06 | 日本放送協会 | コンテンツ生成装置およびプログラム |
US11856315B2 (en) * | 2017-09-29 | 2023-12-26 | Apple Inc. | Media editing application with anchored timeline for captions and subtitles |
-
2018
- 2018-05-10 KR KR1020180053643A patent/KR102085908B1/ko active IP Right Grant
-
2019
- 2019-05-10 JP JP2019089618A patent/JP6745381B2/ja active Active
- 2019-05-10 US US16/409,029 patent/US11350178B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
KR102085908B1 (ko) | 2020-03-09 |
JP2019198074A (ja) | 2019-11-14 |
KR20190129266A (ko) | 2019-11-20 |
US20190349641A1 (en) | 2019-11-14 |
US11350178B2 (en) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6745381B2 (ja) | シーンメタ情報生成装置およびシーンメタ情報生成方法 | |
CN113709561B (zh) | 视频剪辑方法、装置、设备及存储介质 | |
KR102142623B1 (ko) | 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법 | |
CN106688035B (zh) | 声音合成装置及声音合成方法 | |
KR20090130028A (ko) | 분산 음성 검색을 위한 방법 및 장치 | |
JP2010161722A (ja) | データ処理装置、データ処理方法、及び、プログラム | |
EP4322029A1 (en) | Method and apparatus for generating video corpus, and related device | |
KR101968599B1 (ko) | 입력 텍스트에 따른 스토리 동영상 생성방법 및 장치 | |
JP5910379B2 (ja) | 情報処理装置、情報処理方法、表示制御装置および表示制御方法 | |
JP5522369B2 (ja) | 会議記録要約システム、会議記録要約方法及びプログラム | |
US11899716B2 (en) | Content providing server, content providing terminal, and content providing method | |
KR102148021B1 (ko) | 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치 | |
CN115883935A (zh) | 视频剪辑方法及装置 | |
KR101618777B1 (ko) | 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법 | |
JP6602423B2 (ja) | コンテンツ提供サーバ、コンテンツ提供端末及びコンテンツ提供方法 | |
KR20140137219A (ko) | 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히 추출하거나 저장하여 s,e,u-컨텐츠를 만드는 장치 및 그 방법 또는 요점 추출 저장 | |
CN114360545A (zh) | 语音识别与音视频处理方法、设备、系统及存储介质 | |
KR102636708B1 (ko) | 프레젠테이션 문서에 대한 수어 발표 영상을 제작할 수 있는 전자 단말 장치 및 그 동작 방법 | |
KR102701785B1 (ko) | 의미 단위 이동이 가능한 미디어 플레이어를 갖는 사용자 단말장치 및 그의 동작 방법 | |
US20230410848A1 (en) | Method and apparatus of generating audio and video materials | |
US20240134597A1 (en) | Transcript question search for text-based video editing | |
US20240135973A1 (en) | Video segment selection and editing using transcript interactions | |
US20240134909A1 (en) | Visual and text search interface for text-based video editing | |
JP2005173731A (ja) | コンテンツ縮約装置、コンテンツ縮約方法およびコンテンツ縮約プログラム | |
KR20230059311A (ko) | 언어 학습용 콘텐츠를 제공하기 위한 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200714 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200721 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200803 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6745381 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |