CN113660501A - 一种匹配字幕的方法和设备 - Google Patents
一种匹配字幕的方法和设备 Download PDFInfo
- Publication number
- CN113660501A CN113660501A CN202110920703.6A CN202110920703A CN113660501A CN 113660501 A CN113660501 A CN 113660501A CN 202110920703 A CN202110920703 A CN 202110920703A CN 113660501 A CN113660501 A CN 113660501A
- Authority
- CN
- China
- Prior art keywords
- data
- text
- live
- live broadcast
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/242—Synchronization processes, e.g. processing of PCR [Program Clock References]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8547—Content authoring involving timestamps for synchronizing content
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Studio Circuits (AREA)
- Studio Devices (AREA)
Abstract
本发明实施例提出了一种匹配字幕的方法和设备,该方法包括:获取直播数据;对所述直播数据进行识别,得到所述直播数据对应的文本;根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;输出匹配有文本的直播数据进行直播。本方案中通过预先获取到直播数据,并对直播数据进行识别得到字幕的文本,并基于时间将文本与直播数据进行匹配,得到匹配有文本的直播数据,以此当输出匹配有文本的直播数据时,观看者的体验更佳。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种匹配字幕的方法和设备。
背景技术
目前,直播平台发展的越来多,涉及到例如直播带货,直播宣讲以及直播讲课等等不同的领域。但是目前的直播平台在进行直播时,只有直播人员在进行口头表达,并没有字幕展示,这导致影响到直播观看者的观看体验。
由此,目前需要有一种更好的方案来解决现有技术中的问题。
发明内容
本发明提供一种匹配字幕的方法和设备,能够解决现有技术中的技术问题,实现直播视频带有字幕,提高了直播观看者的观看体验。
本发明解决上述技术问题的技术方案如下:
本发明实施例提出了一种匹配字幕的方法,包括:
获取直播数据;
对所述直播数据进行识别,得到所述直播数据对应的文本;
根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;
输出匹配有文本的直播数据进行直播。
在一个具体的实施例中,所述“获取直播数据”包括:
若接收到匹配字幕的请求时或获取到直播请求时,获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。
在一个具体的实施例中,所述直播数据包括:音频数据和视频数据。
在一个具体的实施例中,所述“对所述直播数据进行识别,得到所述直播数据对应的文本”,包括:
对所述直播数据中的音频数据进行语音识别,得到与时间对应的音频文本;
对所述直播数据中的视频数据进行唇语识别,得到与时间对应的视频文本;
综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。
在一个具体的实施例中,所述“根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据”,包括:
将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对,确定所述直播数据各个视频帧时间戳对应的文本内容;
将互相对应的所述文本内容与所述直播数据的视频帧进行匹配,得到携带有所述文本的直播数据。
本发明实施例还提出了一种匹配字幕的设备,包括:
获取模块,用于获取直播数据;
识别模块,用于对所述直播数据进行识别,得到所述直播数据对应的文本;
匹配模块,用于根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;
输出模块,用于输出匹配有文本的直播数据进行直播。
在一个具体的实施例中,所述获取模块,用于:
若接收到匹配字幕的请求时或获取到直播请求时,获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。
在一个具体的实施例中,所述直播数据包括:音频数据和视频数据。
在一个具体的实施例中,所述识别模块,用于:
对所述直播数据中的音频数据进行语音识别,得到与时间对应的音频文本;
对所述直播数据中的视频数据进行唇语识别,得到与时间对应的视频文本;
综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。
在一个具体的实施例中,所述匹配模块,用于:
将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对,确定所述直播数据各个视频帧时间戳对应的文本内容;
将互相对应的所述文本内容与所述直播数据的视频帧进行匹配,得到携带有所述文本的直播数据。
本发明的有益效果是:
本发明实施例提出了一种匹配字幕的方法和设备,该方法包括:获取直播数据;对所述直播数据进行识别,得到所述直播数据对应的文本;根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;输出匹配有文本的直播数据进行直播。本方案中通过预先获取到直播数据,并对直播数据进行识别得到字幕的文本,并基于时间将文本与直播数据进行匹配,得到匹配有文本的直播数据,以此当输出匹配有文本的直播数据时,观看者的体验更佳。
附图说明
图1为本发明实施例提供的一种匹配字幕的方法的流程示意图;
图2为本发明实施例提供的一种匹配字幕的方法中得到最终的文本的示意图;
图3为本发明实施例提供的一种匹配字幕的方法中得到带有文本字幕的示意图;
图4为本发明实施例提供的一种匹配字幕的装置的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1
本发明实施例1公开了一种匹配字幕的方法,如图1所示,包括以下步骤:
步骤S101、获取直播数据;
具体的,在一个实际的应用场景下,步骤S101中的所述“获取直播数据”包括:
若接收到匹配字幕的请求时或获取到直播请求时,获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。
具体的,直播并不是绝对实时的,在获取到实时的直播数据之后,还需要进行压制传输等过程,因此一定会存在一定的时间延迟,只要该时间延迟在一定的范围内,例如在一般用户观看所无法明显感觉到,即可认为是直播。
基于此,本申请的方案中,当获取到有匹配字幕的请求时,会获取直播数据;或者只要有直播请求,就获取该直播数据,以便后续进行匹配字幕。具体的,获取直播数据的触发条件可以根据实际的情况而事先有不同的设置。
步骤S102、对所述直播数据进行识别,得到所述直播数据对应的文本;
具体的,直播是通过采集现场发生的图像数据,且目前一般的直播还涉及到主持人的语音,因此直播数据包括:音频数据和视频数据。
在此情况下,所述“对所述直播数据进行识别,得到所述直播数据对应的文本”,包括:
对所述直播数据中的音频数据进行语音识别,得到与时间对应的音频文本;
对所述直播数据中的视频数据进行唇语识别,得到与时间对应的视频文本;
综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。
具体的,直播数据在时间轴上如图2以及图3中的从左到右的直线,每两个时间点之间存在一个区间,对该区间的直播数据进行识别,由于识别方式的不同,得到音频文本与视频文本;
由于单纯采用某一种识别方式得到的文本可能有不准确的,因此可以综合两种识别方式来进行识别,得到最终的文本。
具体的,例如针对第2个时间区间,对应的音频文本为子文本2,对应的视频文本也为子文本2,在此情况下,可以结合前后语境与语义判断哪个子文本2更准确,选择更准确的子文本2作为最终的子文本2;也可以针对子文本2中的每个字符来单独进行判断,由此综合两个子文本2得到最终的子文本2。
得到一个子文本后,汇总所有的子文本得到最终的文本。
步骤S103、根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;
具体的,步骤S103中的所述“根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据”,包括:
将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对,确定所述直播数据各个视频帧时间戳对应的文本内容;
将互相对应的所述文本内容与所述直播数据的视频帧进行匹配,得到携带有所述文本的直播数据。
具体的,如图3所示,直播数据中包括多个视频帧时间戳(也即图3中的时间点),将每个子文本与对应的视频帧时间戳进行匹配,以此可以得到准确的带有字幕的直播数据。
步骤S104、输出匹配有文本的直播数据进行直播。
具体的,基于上述操作,得到匹配有文本(也即字幕)的直播数据,由于上述操作的是自动化的智能处理过程,速度很快,例如为毫秒级别,经过上述操作得到带有字幕的操作,进行直播,用户也不会察觉到,因此仍可以认为是直播数据进行直播,与用户的交互也不会受到影响。
实施例2
为了对本申请方案进行进一步的说明,本发明实施例2还公开了一种匹配字幕的设备,如图所示,包括:
获取模块201,用于获取直播数据;
识别模块202,用于对所述直播数据进行识别,得到所述直播数据对应的文本;
匹配模块203,用于根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;
输出模块204,用于输出匹配有文本的直播数据进行直播。
在一个具体的实施例中,所述获取模块201,用于:
若接收到匹配字幕的请求时或获取到直播请求时,获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。
在一个具体的实施例中,所述直播数据包括:音频数据和视频数据。
在一个具体的实施例中,所述识别模块202,用于:
对所述直播数据中的音频数据进行语音识别,得到与时间对应的音频文本;
对所述直播数据中的视频数据进行唇语识别,得到与时间对应的视频文本;
综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。
在一个具体的实施例中,所述匹配模块203,用于:
将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对,确定所述直播数据各个视频帧时间戳对应的文本内容;
将互相对应的所述文本内容与所述直播数据的视频帧进行匹配,得到携带有所述文本的直播数据。
本发明实施例提出了一种匹配字幕的方法和设备,该方法包括:获取直播数据;对所述直播数据进行识别,得到所述直播数据对应的文本;根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;输出匹配有文本的直播数据进行直播。本方案中通过预先获取到直播数据,并对直播数据进行识别得到字幕的文本,并基于时间将文本与直播数据进行匹配,得到匹配有文本的直播数据,以此当输出匹配有文本的直播数据时,观看者的体验更佳。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种匹配字幕的方法,其特征在于,包括:
获取直播数据;
对所述直播数据进行识别,得到所述直播数据对应的文本;
根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;
输出匹配有文本的直播数据进行直播。
2.根据权利要求1所述的方法,其特征在于,所述“获取直播数据”包括:
若接收到匹配字幕的请求时或获取到直播请求时,获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。
3.如权利要求1所述的方法,其特征在于,所述直播数据包括:音频数据和视频数据。
4.如权利要求3所述的方法,其特征在于,所述“对所述直播数据进行识别,得到所述直播数据对应的文本”,包括:
对所述直播数据中的音频数据进行语音识别,得到与时间对应的音频文本;
对所述直播数据中的视频数据进行唇语识别,得到与时间对应的视频文本;
综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。
5.如权利要求4所述的方法,其特征在于,所述“根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据”,包括:
将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对,确定所述直播数据各个视频帧时间戳对应的文本内容;
将互相对应的所述文本内容与所述直播数据的视频帧进行匹配,得到携带有所述文本的直播数据。
6.一种匹配字幕的设备,其特征在于,包括:
获取模块,用于获取直播数据;
识别模块,用于对所述直播数据进行识别,得到所述直播数据对应的文本;
匹配模块,用于根据所述识别的时间与所述直播数据的视频帧时间戳进行比对,实现直播数据与所述文本的时间匹配,得到匹配有文本的直播数据;
输出模块,用于输出匹配有文本的直播数据进行直播。
7.根据权利要求6所述的设备,其特征在于,所述获取模块,用于:
若接收到匹配字幕的请求时或获取到直播请求时,获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。
8.如权利要求6所述的设备,其特征在于,所述直播数据包括:音频数据和视频数据。
9.如权利要求8所述的设备,其特征在于,所述识别模块,用于:
对所述直播数据中的音频数据进行语音识别,得到与时间对应的音频文本;
对所述直播数据中的视频数据进行唇语识别,得到与时间对应的视频文本;
综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。
10.如权利要求9所述的设备,其特征在于,所述匹配模块,用于:
将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对,确定所述直播数据各个视频帧时间戳对应的文本内容;
将互相对应的所述文本内容与所述直播数据的视频帧进行匹配,得到携带有所述文本的直播数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110920703.6A CN113660501A (zh) | 2021-08-11 | 2021-08-11 | 一种匹配字幕的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110920703.6A CN113660501A (zh) | 2021-08-11 | 2021-08-11 | 一种匹配字幕的方法和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113660501A true CN113660501A (zh) | 2021-11-16 |
Family
ID=78491404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110920703.6A Pending CN113660501A (zh) | 2021-08-11 | 2021-08-11 | 一种匹配字幕的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113660501A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106537901A (zh) * | 2014-03-26 | 2017-03-22 | 马克·W·帕布利科弗 | 用于提供定制的娱乐内容的计算机处理方法和系统 |
CN106875949A (zh) * | 2017-04-28 | 2017-06-20 | 深圳市大乘科技股份有限公司 | 一种语音识别的校正方法及装置 |
CN108346427A (zh) * | 2018-02-05 | 2018-07-31 | 广东小天才科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN109637521A (zh) * | 2018-10-29 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 一种基于深度学习的唇语识别方法及装置 |
US20190279642A1 (en) * | 2018-02-15 | 2019-09-12 | DMAI, Inc. | System and method for speech understanding via integrated audio and visual based speech recognition |
WO2019205886A1 (zh) * | 2018-04-25 | 2019-10-31 | 腾讯科技(深圳)有限公司 | 字幕数据推送方法、字幕展示方法、装置、设备及介质 |
CN110570862A (zh) * | 2019-10-09 | 2019-12-13 | 三星电子(中国)研发中心 | 一种语音识别方法及智能语音引擎装置 |
CN111010614A (zh) * | 2019-12-26 | 2020-04-14 | 北京奇艺世纪科技有限公司 | 一种显示直播字幕的方法、装置、服务器及介质 |
CN111447325A (zh) * | 2020-04-03 | 2020-07-24 | 上海闻泰电子科技有限公司 | 通话辅助方法、装置、终端及存储介质 |
CN111901615A (zh) * | 2020-06-28 | 2020-11-06 | 北京百度网讯科技有限公司 | 直播视频的播放方法和装置 |
CN113157080A (zh) * | 2020-01-07 | 2021-07-23 | 宝马股份公司 | 用于车辆的指令输入方法、存储介质、系统及车辆 |
-
2021
- 2021-08-11 CN CN202110920703.6A patent/CN113660501A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106537901A (zh) * | 2014-03-26 | 2017-03-22 | 马克·W·帕布利科弗 | 用于提供定制的娱乐内容的计算机处理方法和系统 |
CN106875949A (zh) * | 2017-04-28 | 2017-06-20 | 深圳市大乘科技股份有限公司 | 一种语音识别的校正方法及装置 |
CN108346427A (zh) * | 2018-02-05 | 2018-07-31 | 广东小天才科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
US20190279642A1 (en) * | 2018-02-15 | 2019-09-12 | DMAI, Inc. | System and method for speech understanding via integrated audio and visual based speech recognition |
WO2019205886A1 (zh) * | 2018-04-25 | 2019-10-31 | 腾讯科技(深圳)有限公司 | 字幕数据推送方法、字幕展示方法、装置、设备及介质 |
CN109637521A (zh) * | 2018-10-29 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 一种基于深度学习的唇语识别方法及装置 |
CN110570862A (zh) * | 2019-10-09 | 2019-12-13 | 三星电子(中国)研发中心 | 一种语音识别方法及智能语音引擎装置 |
CN111010614A (zh) * | 2019-12-26 | 2020-04-14 | 北京奇艺世纪科技有限公司 | 一种显示直播字幕的方法、装置、服务器及介质 |
CN113157080A (zh) * | 2020-01-07 | 2021-07-23 | 宝马股份公司 | 用于车辆的指令输入方法、存储介质、系统及车辆 |
CN111447325A (zh) * | 2020-04-03 | 2020-07-24 | 上海闻泰电子科技有限公司 | 通话辅助方法、装置、终端及存储介质 |
CN111901615A (zh) * | 2020-06-28 | 2020-11-06 | 北京百度网讯科技有限公司 | 直播视频的播放方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI730348B (zh) | 建立及使用時間映射之方法、運算系統及非暫時性電腦可讀媒體 | |
EP2901706B1 (en) | Methods and apparatus for identifying media | |
CN113038241A (zh) | 动态控制指纹识别速率以促进媒体内容的时间精确修正 | |
KR20150063138A (ko) | 브로드캐스트 미디어 관련 전자 메시징 향상 | |
US11317144B2 (en) | Detection of mute and compensation therefor during media replacement event | |
CN111954026A (zh) | 利用基于参考流比较的多匹配检测的媒体频道识别和动作 | |
EP2876891A1 (en) | Method and apparatus for matching of corresponding frames in multimedia streams | |
CN110881115B (zh) | 会议视频的拆条方法及系统 | |
DE112015005408T5 (de) | Systeme und Verfahren zum Identifizieren von Benutzern, die eine Fernsehwerbung angesehen haben | |
CN112601101B (zh) | 一种字幕显示方法、装置、电子设备及存储介质 | |
CN112437337A (zh) | 一种直播实时字幕的实现方法、系统及设备 | |
CN112954434B (zh) | 字幕处理方法、系统、电子设备和存储介质 | |
CN112616062B (zh) | 一种字幕显示方法、装置、电子设备及存储介质 | |
CN101365102A (zh) | 基于视频内容识别的收视率统计的方法和系统 | |
CN103607635A (zh) | 一种字幕识别方法、装置和终端 | |
CN112601102A (zh) | 同声传译字幕的确定方法、装置、电子设备及存储介质 | |
EP3839953A1 (en) | Automatic caption synchronization and positioning | |
CN113365109A (zh) | 一种生成视频字幕的方法、装置、电子设备和存储介质 | |
CN113660501A (zh) | 一种匹配字幕的方法和设备 | |
EP2555540A1 (en) | Method for auto-detecting audio language name and television using the same | |
US8234158B1 (en) | Analyzing text streams for cue points of advertisements in a media stream | |
EP3140991B1 (en) | Synchronizing broadcast timeline metadata | |
JP5213572B2 (ja) | 手話映像生成システム、サーバ、端末装置、情報処理方法、及びプログラム | |
CN108924588B (zh) | 字幕显示方法及装置 | |
CN115209175B (zh) | 一种语音传输方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211116 |
|
RJ01 | Rejection of invention patent application after publication |