CN110796140B - 一种字幕检测方法和装置 - Google Patents
一种字幕检测方法和装置 Download PDFInfo
- Publication number
- CN110796140B CN110796140B CN201910988833.6A CN201910988833A CN110796140B CN 110796140 B CN110796140 B CN 110796140B CN 201910988833 A CN201910988833 A CN 201910988833A CN 110796140 B CN110796140 B CN 110796140B
- Authority
- CN
- China
- Prior art keywords
- character strings
- subtitle
- video file
- picture
- pictures
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Studio Circuits (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明公开一种字幕检测方法和装置,该方法包括以下步骤:抽取视频文件中的语音,并定位出所述语音对应的时间段;根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。本发明根在图像和音频两个维度识别字幕,能够在保证时效性的前提下,提升识别结果的精确度。
Description
技术领域
本发明涉及视频技术领域,特别涉及一种字幕检测方法和装置。
背景技术
随着视频技术的发展,从视频文件中获取字幕的需求越来越大。然而,在一些中文视频中,存在有大量的硬字幕,即无法通过爬取字幕文件获取的字幕,若想获取此类字幕,必须依靠人工标注,非常耗费资源。
现有技术中,许多公司尝试使用OCR(Optical Character Recognition,光学字符识别)来获取视频中的字幕,但识别结果受视频背景的复杂度影响较大,而且,若对视频文件逐帧进行OCR,会消耗大量的时间;若对视频文件跳帧进行OCR,则有可能会遗漏关键信息。
发明内容
本发明提供了一种字幕检测方法和装置,以解决现有技术中字幕检测方法无法兼顾准确性和时效性的缺陷。
本发明提供了一种字幕检测方法,包括以下步骤:
抽取视频文件中的语音,并定位出所述语音对应的时间段;
根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;
从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。
可选地,所述根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧,包括:
确定所述时间段对应的视频帧;
对所述视频帧进行均匀抽帧,得到具有字幕的目标视频帧。
可选地,所述从所述目标视频帧中识别出多个字符串,包括:
从所述目标视频帧中识别出字幕区域,并对所述字幕区域进行分割,得到多个图片,其中,每个所述图片对应一个字符;
分别对所述多个图片进行识别,得到每个所述图片对应的字符的多个识别结果;
根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串。
可选地,所述根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串,包括:
根据所述每个所述图片对应的字符的多个识别结果的置信度,从所述多个识别结果中选择置信度最高的预设数量的多个候选字符;
根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的候选字符进行排列组合,得到多个字符串。
可选地,所述通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕,包括:
将所述多个字符串输入到所述语音模型;
通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。
本发明还提供了一种字幕检测装置,包括:
定位模块,用于抽取视频文件中的语音,并定位出所述语音对应的时间段;
确定模块,用于根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;
检测模块,用于从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。
可选地,所述确定模块,具体用于确定所述时间段对应的视频帧;对所述视频帧进行均匀抽帧,得到具有字幕的目标视频帧。
可选地,所述检测模块,具体用于从所述目标视频帧中识别出字幕区域,并对所述字幕区域进行分割,得到多个图片,其中,每个所述图片对应一个字符;分别对所述多个图片进行识别,得到每个所述图片对应的字符的多个识别结果;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串。
可选地,所述检测模块,具体用于根据所述每个所述图片对应的字符的多个识别结果的置信度,从所述多个识别结果中选择置信度最高的预设数量的多个候选字符;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的候选字符进行排列组合,得到多个字符串。
可选地,所述检测模块,具体用于将所述多个字符串输入到所述语音模型;通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。
本发明根据视频文件中的语音对应的时间段,确定具有字幕的目标视频帧,并从目标视频帧中识别出置信度最高的字符串作为视频文件的字幕,从而实现在图像和音频两个维度识别字幕,能够在保证时效性的前提下,提升识别结果的精确度。
附图说明
图1为本发明实施例中的一种字幕检测方法流程图;
图2为本发明实施例中的视频文件中的语音及其对应的时间段的示意图;
图3为本发明实施例中的目标视频帧中的字幕区域的示意图;
图4为本发明实施例中的字符区域的分割结果的示意图;
图5为本发明实施例中的语音模型的示意图;
图6为本发明实施例中的一种字幕检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种字幕检测方法,如图1所示,包括以下步骤:
步骤101,抽取视频文件中的语音,并定位出所述语音对应的时间段。
具体地,在从视频文件中抽取出语音后,可以对语音进行VAD(Voice ActivityDetection,语音端点检测),从带有噪声的语音中定位出语音的开始点和结束点,即,语音对应的时间段。例如,如图2所示,可以从视频文件中抽取出语音,即,音频文件abc.wav,从该音频文件abc.wav中定位出语音对应的时间段000080-0000278以及0.80和2.78,均表示0.8秒到2.78秒有音频。
步骤102,根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;
具体地,可以确定所述时间段对应的视频帧;对所述视频帧进行均匀抽帧,得到具有字幕的目标视频帧。
例如,若视频文件的帧率为25帧/秒,则时间段0.8秒到2.78秒对应的视频帧为第20帧~第70帧,包含51帧;从上述51帧中均匀抽出若干帧,即得到的目标视频帧为第20帧、第30帧、第40帧、第50帧、第60帧和第70帧。
步骤103,从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。
具体地,可以从所述目标视频帧中识别出字幕区域,并对所述字幕区域进行分割,得到多个图片,其中,每个所述图片对应一个字符;分别对所述多个图片进行识别,得到每个所述图片对应的字符的多个识别结果;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串。
例如,使用CTPN(Connectionist Text Proposal Network,连接文本提议网络)算法做字幕区域识别,得到目标视频帧中表示字幕区域的矩形框,如图3所示。对上述矩形框进行分割,得到多个图片,如图4所示。每个图片可以对应的字符可以具有多个识别结果,即,具有多个字符。
本实施例中,可以根据所述每个所述图片对应的字符的多个识别结果的置信度,从所述多个识别结果中选择置信度最高的预设数量的多个候选字符;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的候选字符进行排列组合,得到多个字符串。
优选地,可以将所述多个字符串输入到所述语音模型;通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。
以图4为例,字幕区域被分给为6个图片(我来中国之前),每个图片输出置信度前四的字符(例如,第1个图片输出:我,哦,饿,俄),则输出的字符串有46=4096种可能性,将这些字符串输入到语音模型,可以得到一个置信度(表征的是该句话在语音模型中的合理程度),输出最高置信度的话,即为识别结果:我来中国之前。
本实施例中,可以先训练语音模型,在使用该语音模型进行OCR识别,该模型可以为Tesseract模型,如图5所示,每一竖列表示置信度前四的字符,0.97表示识别为该字符的置信度;每横排表示一种组合搭配的方式,每个箭头组合表示这六张图片识别结果的组合。
本发明实施例根据视频文件中的语音对应的时间段,确定具有字幕的目标视频帧,并从目标视频帧中识别出置信度最高的字符串作为视频文件的字幕,从而实现在图像和音频两个维度识别字幕,能够在保证时效性的前提下,提升识别结果的精确度。
基于上述方法,本发明实施例还提供了一种字幕检测装置,如图6所示,包括:
定位模块601,用于抽取视频文件中的语音,并定位出所述语音对应的时间段;
确定模块602,用于根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;
具体地,上述确定模块602,具体用于确定所述时间段对应的视频帧;对所述视频帧进行均匀抽帧,得到具有字幕的目标视频帧。
检测模块603,用于从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。
具体地,上述检测模块603,具体用于从所述目标视频帧中识别出字幕区域,并对所述字幕区域进行分割,得到多个图片,其中,每个所述图片对应一个字符;分别对所述多个图片进行识别,得到每个所述图片对应的字符的多个识别结果;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串。
此外,上述检测模块603,还具体用于根据所述每个所述图片对应的字符的多个识别结果的置信度,从所述多个识别结果中选择置信度最高的预设数量的多个候选字符;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的候选字符进行排列组合,得到多个字符串。
此外,上述检测模块603,还具体用于将所述多个字符串输入到所述语音模型;通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。
本发明实施例根据视频文件中的语音对应的时间段,确定具有字幕的目标视频帧,并从目标视频帧中识别出置信度最高的字符串作为视频文件的字幕,从而实现在图像和音频两个维度识别字幕,能够在保证时效性的前提下,提升识别结果的精确度。
结合本文中所公开的实施例描述的方法中的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (4)
1.一种字幕检测方法,其特征在于,包括以下步骤:
抽取视频文件中的语音,并定位出所述语音对应的时间段;
根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;
从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕;
所述从所述目标视频帧中识别出多个字符串,包括:
从所述目标视频帧中识别出字幕区域,并对所述字幕区域进行分割,得到多个图片,其中,每个所述图片对应一个字符;
分别对所述多个图片进行识别,得到每个所述图片对应的字符的多个识别结果;
根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串;
所述根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串,包括:
根据所述每个所述图片对应的字符的多个识别结果的置信度,从所述多个识别结果中选择置信度最高的预设数量的多个候选字符;
根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的候选字符进行排列组合,得到多个字符串;
所述通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕,包括:
将所述多个字符串输入到所述语音模型;
通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。
2.如权利要求1所述的方法,其特征在于,所述根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧,包括:
确定所述时间段对应的视频帧;
对所述视频帧进行均匀抽帧,得到具有字幕的目标视频帧。
3.一种字幕检测装置,其特征在于,包括:
定位模块,用于抽取视频文件中的语音,并定位出所述语音对应的时间段;
确定模块,用于根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;
检测模块,用于从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕;
所述检测模块,具体用于从所述目标视频帧中识别出字幕区域,并对所述字幕区域进行分割,得到多个图片,其中,每个所述图片对应一个字符;分别对所述多个图片进行识别,得到每个所述图片对应的字符的多个识别结果;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串;
所述检测模块,具体用于根据所述每个所述图片对应的字符的多个识别结果的置信度,从所述多个识别结果中选择置信度最高的预设数量的多个候选字符;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的候选字符进行排列组合,得到多个字符串;
所述检测模块,具体用于将所述多个字符串输入到所述语音模型;通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。
4.如权利要求3所述的装置,其特征在于,
所述确定模块,具体用于确定所述时间段对应的视频帧;对所述视频帧进行均匀抽帧,得到具有字幕的目标视频帧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910988833.6A CN110796140B (zh) | 2019-10-17 | 2019-10-17 | 一种字幕检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910988833.6A CN110796140B (zh) | 2019-10-17 | 2019-10-17 | 一种字幕检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110796140A CN110796140A (zh) | 2020-02-14 |
CN110796140B true CN110796140B (zh) | 2022-08-26 |
Family
ID=69439341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910988833.6A Active CN110796140B (zh) | 2019-10-17 | 2019-10-17 | 一种字幕检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110796140B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112738640B (zh) * | 2020-12-28 | 2022-08-19 | 出门问问(武汉)信息科技有限公司 | 一种视频流的字幕的确定方法、装置及可读存储介质 |
CN112995749B (zh) * | 2021-02-07 | 2023-05-26 | 北京字节跳动网络技术有限公司 | 视频字幕的处理方法、装置、设备和存储介质 |
CN113052169A (zh) * | 2021-03-15 | 2021-06-29 | 北京小米移动软件有限公司 | 视频字幕识别方法、装置、介质及电子设备 |
CN113361462B (zh) * | 2021-06-30 | 2022-11-08 | 北京百度网讯科技有限公司 | 视频处理和字幕检测模型的方法及装置 |
CN114398952B (zh) * | 2021-12-14 | 2023-05-05 | 北京百度网讯科技有限公司 | 训练文本生成方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479332A (zh) * | 2010-11-30 | 2012-05-30 | 富士施乐株式会社 | 图像处理装置和图像处理方法 |
US10299008B1 (en) * | 2017-11-21 | 2019-05-21 | International Business Machines Corporation | Smart closed caption positioning system for video content |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100555312C (zh) * | 2006-09-19 | 2009-10-28 | 北京三星通信技术研究有限公司 | 利用字符结构信息进行后处理的手写识别的方法和装置 |
KR102561711B1 (ko) * | 2016-02-26 | 2023-08-01 | 삼성전자주식회사 | 컨텐트를 인식하는 방법 및 장치 |
JP6605995B2 (ja) * | 2016-03-16 | 2019-11-13 | 株式会社東芝 | 音声認識誤り修正装置、方法及びプログラム |
CN106529529B (zh) * | 2016-10-31 | 2018-01-30 | 腾讯科技(深圳)有限公司 | 一种视频字幕识别方法及系统 |
CN106792071A (zh) * | 2016-12-19 | 2017-05-31 | 北京小米移动软件有限公司 | 字幕处理方法及装置 |
CN106604125B (zh) * | 2016-12-29 | 2019-06-14 | 北京奇艺世纪科技有限公司 | 一种视频字幕的确定方法及装置 |
CN108229481B (zh) * | 2017-12-25 | 2020-09-11 | 中国移动通信集团江苏有限公司 | 屏幕内容分析方法、装置、计算设备及存储介质 |
CN109766883B (zh) * | 2018-12-24 | 2021-10-22 | 北京科技大学 | 基于深度神经网络的网络视频字幕的快速提取方法 |
-
2019
- 2019-10-17 CN CN201910988833.6A patent/CN110796140B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479332A (zh) * | 2010-11-30 | 2012-05-30 | 富士施乐株式会社 | 图像处理装置和图像处理方法 |
US10299008B1 (en) * | 2017-11-21 | 2019-05-21 | International Business Machines Corporation | Smart closed caption positioning system for video content |
Also Published As
Publication number | Publication date |
---|---|
CN110796140A (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796140B (zh) | 一种字幕检测方法和装置 | |
CN111968649B (zh) | 一种字幕纠正方法、字幕显示方法、装置、设备及介质 | |
CN111723791A (zh) | 文字纠错方法、装置、设备及存储介质 | |
JP4635891B2 (ja) | 情報処理装置および方法、並びにプログラム | |
CN109754783B (zh) | 用于确定音频语句的边界的方法和装置 | |
CN109766883B (zh) | 基于深度神经网络的网络视频字幕的快速提取方法 | |
CN113450774B (zh) | 一种训练数据的获取方法及装置 | |
CN110276351B (zh) | 多语言场景文本检测与识别方法 | |
CN113052169A (zh) | 视频字幕识别方法、装置、介质及电子设备 | |
CN109922334A (zh) | 一种视频质量的识别方法及系统 | |
US20240064383A1 (en) | Method and Apparatus for Generating Video Corpus, and Related Device | |
CN113838460A (zh) | 视频语音识别方法、装置、设备和存储介质 | |
CN116013299A (zh) | 一种局部语义指导的多特征融合视频文本生成方法 | |
KR102148021B1 (ko) | 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치 | |
CN116567351B (zh) | 一种视频处理方法、装置、设备及介质 | |
JP5488077B2 (ja) | 文字列検知装置、文字評価装置、画像処理装置、文字列検知方法、文字評価方法、制御プログラムおよび記録媒体 | |
CN111414908A (zh) | 一种视频中字幕字符的识别方法及装置 | |
CN116017088A (zh) | 视频字幕处理方法、装置、电子设备和存储介质 | |
CN111079504A (zh) | 一种文字识别方法及电子设备 | |
CN116524906A (zh) | 用于语音识别的训练数据生成方法、系统和电子设备 | |
CN115396690A (zh) | 音频与文本组合方法、装置、电子设备及存储介质 | |
CN113221718B (zh) | 公式识别方法、装置、存储介质和电子设备 | |
KR102320851B1 (ko) | 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 | |
CN115438223B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN114222193B (zh) | 一种视频字幕时间对齐模型训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 411, 4th floor, building 4, No.44, Middle North Third Ring Road, Haidian District, Beijing 100088 Patentee after: Beijing Qingshu Intelligent Technology Co.,Ltd. Address before: 100044 1415, 14th floor, building 1, yard 59, gaoliangqiaoxie street, Haidian District, Beijing Patentee before: BEIJING AISHU WISDOM TECHNOLOGY CO.,LTD. |
|
CP03 | Change of name, title or address |