CN113660501A - 一种匹配字幕的方法和设备 - Google Patents

一种匹配字幕的方法和设备 Download PDF

Info

Publication number
CN113660501A
CN113660501A CN202110920703.6A CN202110920703A CN113660501A CN 113660501 A CN113660501 A CN 113660501A CN 202110920703 A CN202110920703 A CN 202110920703A CN 113660501 A CN113660501 A CN 113660501A
Authority
CN
China
Prior art keywords
data
text
live
live broadcast
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110920703.6A
Other languages
English (en)
Inventor
马晨光
陈吉胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
Unisound Shanghai Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Shanghai Intelligent Technology Co Ltd filed Critical Unisound Shanghai Intelligent Technology Co Ltd
Priority to CN202110920703.6A priority Critical patent/CN113660501A/zh
Publication of CN113660501A publication Critical patent/CN113660501A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)
  • Studio Devices (AREA)

Abstract

本发明实施例提出了一种匹配字幕的方法和设备,该方法包括:获取直播数据;对所述直播数据进行识别,得到所述直播数据对应的文本;根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;输出匹配有文本的直播数据进行直播。本方案中通过预先获取到直播数据,并对直播数据进行识别得到字幕的文本,并基于时间将文本与直播数据进行匹配,得到匹配有文本的直播数据,以此当输出匹配有文本的直播数据时,观看者的体验更佳。

Description

一种匹配字幕的方法和设备
技术领域
本发明涉及语音识别技术领域,具体涉及一种匹配字幕的方法和设备。
背景技术
目前,直播平台发展的越来多,涉及到例如直播带货,直播宣讲以及直播讲课等等不同的领域。但是目前的直播平台在进行直播时,只有直播人员在进行口头表达,并没有字幕展示,这导致影响到直播观看者的观看体验。
由此,目前需要有一种更好的方案来解决现有技术中的问题。
发明内容
本发明提供一种匹配字幕的方法和设备,能够解决现有技术中的技术问题,实现直播视频带有字幕,提高了直播观看者的观看体验。
本发明解决上述技术问题的技术方案如下:
本发明实施例提出了一种匹配字幕的方法,包括:
获取直播数据;
对所述直播数据进行识别,得到所述直播数据对应的文本;
根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;
输出匹配有文本的直播数据进行直播。
在一个具体的实施例中,所述“获取直播数据”包括:
若接收到匹配字幕的请求时或获取到直播请求时,获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。
在一个具体的实施例中,所述直播数据包括:音频数据和视频数据。
在一个具体的实施例中,所述“对所述直播数据进行识别,得到所述直播数据对应的文本”,包括:
对所述直播数据中的音频数据进行语音识别,得到与时间对应的音频文本;
对所述直播数据中的视频数据进行唇语识别,得到与时间对应的视频文本;
综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。
在一个具体的实施例中,所述“根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据”,包括:
将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对,确定所述直播数据各个视频帧时间戳对应的文本内容;
将互相对应的所述文本内容与所述直播数据的视频帧进行匹配,得到携带有所述文本的直播数据。
本发明实施例还提出了一种匹配字幕的设备,包括:
获取模块,用于获取直播数据;
识别模块,用于对所述直播数据进行识别,得到所述直播数据对应的文本;
匹配模块,用于根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;
输出模块,用于输出匹配有文本的直播数据进行直播。
在一个具体的实施例中,所述获取模块,用于:
若接收到匹配字幕的请求时或获取到直播请求时,获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。
在一个具体的实施例中,所述直播数据包括:音频数据和视频数据。
在一个具体的实施例中,所述识别模块,用于:
对所述直播数据中的音频数据进行语音识别,得到与时间对应的音频文本;
对所述直播数据中的视频数据进行唇语识别,得到与时间对应的视频文本;
综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。
在一个具体的实施例中,所述匹配模块,用于:
将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对,确定所述直播数据各个视频帧时间戳对应的文本内容;
将互相对应的所述文本内容与所述直播数据的视频帧进行匹配,得到携带有所述文本的直播数据。
本发明的有益效果是:
本发明实施例提出了一种匹配字幕的方法和设备,该方法包括:获取直播数据;对所述直播数据进行识别,得到所述直播数据对应的文本;根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;输出匹配有文本的直播数据进行直播。本方案中通过预先获取到直播数据,并对直播数据进行识别得到字幕的文本,并基于时间将文本与直播数据进行匹配,得到匹配有文本的直播数据,以此当输出匹配有文本的直播数据时,观看者的体验更佳。
附图说明
图1为本发明实施例提供的一种匹配字幕的方法的流程示意图;
图2为本发明实施例提供的一种匹配字幕的方法中得到最终的文本的示意图;
图3为本发明实施例提供的一种匹配字幕的方法中得到带有文本字幕的示意图;
图4为本发明实施例提供的一种匹配字幕的装置的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1
本发明实施例1公开了一种匹配字幕的方法,如图1所示,包括以下步骤:
步骤S101、获取直播数据;
具体的,在一个实际的应用场景下,步骤S101中的所述“获取直播数据”包括:
若接收到匹配字幕的请求时或获取到直播请求时,获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。
具体的,直播并不是绝对实时的,在获取到实时的直播数据之后,还需要进行压制传输等过程,因此一定会存在一定的时间延迟,只要该时间延迟在一定的范围内,例如在一般用户观看所无法明显感觉到,即可认为是直播。
基于此,本申请的方案中,当获取到有匹配字幕的请求时,会获取直播数据;或者只要有直播请求,就获取该直播数据,以便后续进行匹配字幕。具体的,获取直播数据的触发条件可以根据实际的情况而事先有不同的设置。
步骤S102、对所述直播数据进行识别,得到所述直播数据对应的文本;
具体的,直播是通过采集现场发生的图像数据,且目前一般的直播还涉及到主持人的语音,因此直播数据包括:音频数据和视频数据。
在此情况下,所述“对所述直播数据进行识别,得到所述直播数据对应的文本”,包括:
对所述直播数据中的音频数据进行语音识别,得到与时间对应的音频文本;
对所述直播数据中的视频数据进行唇语识别,得到与时间对应的视频文本;
综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。
具体的,直播数据在时间轴上如图2以及图3中的从左到右的直线,每两个时间点之间存在一个区间,对该区间的直播数据进行识别,由于识别方式的不同,得到音频文本与视频文本;
由于单纯采用某一种识别方式得到的文本可能有不准确的,因此可以综合两种识别方式来进行识别,得到最终的文本。
具体的,例如针对第2个时间区间,对应的音频文本为子文本2,对应的视频文本也为子文本2,在此情况下,可以结合前后语境与语义判断哪个子文本2更准确,选择更准确的子文本2作为最终的子文本2;也可以针对子文本2中的每个字符来单独进行判断,由此综合两个子文本2得到最终的子文本2。
得到一个子文本后,汇总所有的子文本得到最终的文本。
步骤S103、根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;
具体的,步骤S103中的所述“根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据”,包括:
将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对,确定所述直播数据各个视频帧时间戳对应的文本内容;
将互相对应的所述文本内容与所述直播数据的视频帧进行匹配,得到携带有所述文本的直播数据。
具体的,如图3所示,直播数据中包括多个视频帧时间戳(也即图3中的时间点),将每个子文本与对应的视频帧时间戳进行匹配,以此可以得到准确的带有字幕的直播数据。
步骤S104、输出匹配有文本的直播数据进行直播。
具体的,基于上述操作,得到匹配有文本(也即字幕)的直播数据,由于上述操作的是自动化的智能处理过程,速度很快,例如为毫秒级别,经过上述操作得到带有字幕的操作,进行直播,用户也不会察觉到,因此仍可以认为是直播数据进行直播,与用户的交互也不会受到影响。
实施例2
为了对本申请方案进行进一步的说明,本发明实施例2还公开了一种匹配字幕的设备,如图所示,包括:
获取模块201,用于获取直播数据;
识别模块202,用于对所述直播数据进行识别,得到所述直播数据对应的文本;
匹配模块203,用于根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;
输出模块204,用于输出匹配有文本的直播数据进行直播。
在一个具体的实施例中,所述获取模块201,用于:
若接收到匹配字幕的请求时或获取到直播请求时,获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。
在一个具体的实施例中,所述直播数据包括:音频数据和视频数据。
在一个具体的实施例中,所述识别模块202,用于:
对所述直播数据中的音频数据进行语音识别,得到与时间对应的音频文本;
对所述直播数据中的视频数据进行唇语识别,得到与时间对应的视频文本;
综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。
在一个具体的实施例中,所述匹配模块203,用于:
将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对,确定所述直播数据各个视频帧时间戳对应的文本内容;
将互相对应的所述文本内容与所述直播数据的视频帧进行匹配,得到携带有所述文本的直播数据。
本发明实施例提出了一种匹配字幕的方法和设备,该方法包括:获取直播数据;对所述直播数据进行识别,得到所述直播数据对应的文本;根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;输出匹配有文本的直播数据进行直播。本方案中通过预先获取到直播数据,并对直播数据进行识别得到字幕的文本,并基于时间将文本与直播数据进行匹配,得到匹配有文本的直播数据,以此当输出匹配有文本的直播数据时,观看者的体验更佳。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种匹配字幕的方法,其特征在于,包括:
获取直播数据;
对所述直播数据进行识别,得到所述直播数据对应的文本;
根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;
输出匹配有文本的直播数据进行直播。
2.根据权利要求1所述的方法,其特征在于,所述“获取直播数据”包括:
若接收到匹配字幕的请求时或获取到直播请求时,获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。
3.如权利要求1所述的方法,其特征在于,所述直播数据包括:音频数据和视频数据。
4.如权利要求3所述的方法,其特征在于,所述“对所述直播数据进行识别,得到所述直播数据对应的文本”,包括:
对所述直播数据中的音频数据进行语音识别,得到与时间对应的音频文本;
对所述直播数据中的视频数据进行唇语识别,得到与时间对应的视频文本;
综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。
5.如权利要求4所述的方法,其特征在于,所述“根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据”,包括:
将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对,确定所述直播数据各个视频帧时间戳对应的文本内容;
将互相对应的所述文本内容与所述直播数据的视频帧进行匹配,得到携带有所述文本的直播数据。
6.一种匹配字幕的设备,其特征在于,包括:
获取模块,用于获取直播数据;
识别模块,用于对所述直播数据进行识别,得到所述直播数据对应的文本;
匹配模块,用于根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;
输出模块,用于输出匹配有文本的直播数据进行直播。
7.根据权利要求6所述的设备,其特征在于,所述获取模块,用于:
若接收到匹配字幕的请求时或获取到直播请求时,获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。
8.如权利要求6所述的设备,其特征在于,所述直播数据包括:音频数据和视频数据。
9.如权利要求8所述的设备,其特征在于,所述识别模块,用于:
对所述直播数据中的音频数据进行语音识别,得到与时间对应的音频文本;
对所述直播数据中的视频数据进行唇语识别,得到与时间对应的视频文本;
综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。
10.如权利要求9所述的设备,其特征在于,所述匹配模块,用于:
将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对,确定所述直播数据各个视频帧时间戳对应的文本内容;
将互相对应的所述文本内容与所述直播数据的视频帧进行匹配,得到携带有所述文本的直播数据。
CN202110920703.6A 2021-08-11 2021-08-11 一种匹配字幕的方法和设备 Pending CN113660501A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110920703.6A CN113660501A (zh) 2021-08-11 2021-08-11 一种匹配字幕的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110920703.6A CN113660501A (zh) 2021-08-11 2021-08-11 一种匹配字幕的方法和设备

Publications (1)

Publication Number Publication Date
CN113660501A true CN113660501A (zh) 2021-11-16

Family

ID=78491404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110920703.6A Pending CN113660501A (zh) 2021-08-11 2021-08-11 一种匹配字幕的方法和设备

Country Status (1)

Country Link
CN (1) CN113660501A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106537901A (zh) * 2014-03-26 2017-03-22 马克·W·帕布利科弗 用于提供定制的娱乐内容的计算机处理方法和系统
CN106875949A (zh) * 2017-04-28 2017-06-20 深圳市大乘科技股份有限公司 一种语音识别的校正方法及装置
CN108346427A (zh) * 2018-02-05 2018-07-31 广东小天才科技有限公司 一种语音识别方法、装置、设备及存储介质
CN109637521A (zh) * 2018-10-29 2019-04-16 深圳壹账通智能科技有限公司 一种基于深度学习的唇语识别方法及装置
US20190279642A1 (en) * 2018-02-15 2019-09-12 DMAI, Inc. System and method for speech understanding via integrated audio and visual based speech recognition
WO2019205886A1 (zh) * 2018-04-25 2019-10-31 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
CN110570862A (zh) * 2019-10-09 2019-12-13 三星电子(中国)研发中心 一种语音识别方法及智能语音引擎装置
CN111010614A (zh) * 2019-12-26 2020-04-14 北京奇艺世纪科技有限公司 一种显示直播字幕的方法、装置、服务器及介质
CN111447325A (zh) * 2020-04-03 2020-07-24 上海闻泰电子科技有限公司 通话辅助方法、装置、终端及存储介质
CN111901615A (zh) * 2020-06-28 2020-11-06 北京百度网讯科技有限公司 直播视频的播放方法和装置
CN113157080A (zh) * 2020-01-07 2021-07-23 宝马股份公司 用于车辆的指令输入方法、存储介质、系统及车辆

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106537901A (zh) * 2014-03-26 2017-03-22 马克·W·帕布利科弗 用于提供定制的娱乐内容的计算机处理方法和系统
CN106875949A (zh) * 2017-04-28 2017-06-20 深圳市大乘科技股份有限公司 一种语音识别的校正方法及装置
CN108346427A (zh) * 2018-02-05 2018-07-31 广东小天才科技有限公司 一种语音识别方法、装置、设备及存储介质
US20190279642A1 (en) * 2018-02-15 2019-09-12 DMAI, Inc. System and method for speech understanding via integrated audio and visual based speech recognition
WO2019205886A1 (zh) * 2018-04-25 2019-10-31 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
CN109637521A (zh) * 2018-10-29 2019-04-16 深圳壹账通智能科技有限公司 一种基于深度学习的唇语识别方法及装置
CN110570862A (zh) * 2019-10-09 2019-12-13 三星电子(中国)研发中心 一种语音识别方法及智能语音引擎装置
CN111010614A (zh) * 2019-12-26 2020-04-14 北京奇艺世纪科技有限公司 一种显示直播字幕的方法、装置、服务器及介质
CN113157080A (zh) * 2020-01-07 2021-07-23 宝马股份公司 用于车辆的指令输入方法、存储介质、系统及车辆
CN111447325A (zh) * 2020-04-03 2020-07-24 上海闻泰电子科技有限公司 通话辅助方法、装置、终端及存储介质
CN111901615A (zh) * 2020-06-28 2020-11-06 北京百度网讯科技有限公司 直播视频的播放方法和装置

Similar Documents

Publication Publication Date Title
TWI730348B (zh) 建立及使用時間映射之方法、運算系統及非暫時性電腦可讀媒體
EP2901706B1 (en) Methods and apparatus for identifying media
CN113038241A (zh) 动态控制指纹识别速率以促进媒体内容的时间精确修正
KR20150063138A (ko) 브로드캐스트 미디어 관련 전자 메시징 향상
US11317144B2 (en) Detection of mute and compensation therefor during media replacement event
CN111954026A (zh) 利用基于参考流比较的多匹配检测的媒体频道识别和动作
EP2876891A1 (en) Method and apparatus for matching of corresponding frames in multimedia streams
CN110881115B (zh) 会议视频的拆条方法及系统
DE112015005408T5 (de) Systeme und Verfahren zum Identifizieren von Benutzern, die eine Fernsehwerbung angesehen haben
CN112601101B (zh) 一种字幕显示方法、装置、电子设备及存储介质
CN112437337A (zh) 一种直播实时字幕的实现方法、系统及设备
CN112954434B (zh) 字幕处理方法、系统、电子设备和存储介质
CN112616062B (zh) 一种字幕显示方法、装置、电子设备及存储介质
CN101365102A (zh) 基于视频内容识别的收视率统计的方法和系统
CN103607635A (zh) 一种字幕识别方法、装置和终端
CN112601102A (zh) 同声传译字幕的确定方法、装置、电子设备及存储介质
EP3839953A1 (en) Automatic caption synchronization and positioning
CN113365109A (zh) 一种生成视频字幕的方法、装置、电子设备和存储介质
CN113660501A (zh) 一种匹配字幕的方法和设备
EP2555540A1 (en) Method for auto-detecting audio language name and television using the same
US8234158B1 (en) Analyzing text streams for cue points of advertisements in a media stream
EP3140991B1 (en) Synchronizing broadcast timeline metadata
JP5213572B2 (ja) 手話映像生成システム、サーバ、端末装置、情報処理方法、及びプログラム
CN108924588B (zh) 字幕显示方法及装置
CN115209175B (zh) 一种语音传输方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211116

RJ01 Rejection of invention patent application after publication