CN111709253B - 一种将方言自动转换为字幕的ai翻译方法和系统 - Google Patents
一种将方言自动转换为字幕的ai翻译方法和系统 Download PDFInfo
- Publication number
- CN111709253B CN111709253B CN202010455108.5A CN202010455108A CN111709253B CN 111709253 B CN111709253 B CN 111709253B CN 202010455108 A CN202010455108 A CN 202010455108A CN 111709253 B CN111709253 B CN 111709253B
- Authority
- CN
- China
- Prior art keywords
- voice
- stream
- audio
- audio stream
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013519 translation Methods 0.000 title claims abstract description 19
- 241001672694 Citrus reticulata Species 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 9
- 239000012634 fragment Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4856—End-user interface for client configuration for language selection, e.g. for the menu or subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Studio Devices (AREA)
- Machine Translation (AREA)
- Studio Circuits (AREA)
Abstract
本发明公开了一种将方言自动转换为字幕的AI翻译方法和系统,包括以下步骤:获取视频流和音频流,对音频流进行预处理;生成预处理后的音频流的语音特征,并与方言语音特征库进行对比,对音频流进行翻译得到普通话;将翻译得到的普通话转换为TTS语音和文字,将文字作为字幕添加到视频流中。本发明根据各地方言和大陆普通话设计一个翻译系统,可以把各地方言翻译为普通话,转换成TTS语音和字幕,方便审核人员进行校对。
Description
技术领域
本发明涉及人工智能技术领域,特别是指一种将方言自动转换为字幕的AI翻译方法和系统。
背景技术
现在记者采访时会通过录像和录音的方式记录受访者的视频和音频,后期需要在视频上添加字幕,方便观众查看和理解,采访有时会遇到全国各地的方言,有可能导致编辑和审核人员无法准确理解和匹配字幕。
发明内容
本发明提出一种将方言自动转换为字幕的AI翻译方法和系统,解决了现有技术中采访有时会遇到全国各地的方言,有可能导致编辑和审核人员无法准确理解和匹配字幕的问题。
本发明的技术方案是这样实现的:
一种将方言自动转换为字幕的AI翻译方法,包括以下步骤:
S1,获取视频流和音频流,对音频流进行预处理;
S2,生成预处理后的音频流的语音特征,并与方言语音特征库进行对比,对音频流进行翻译得到普通话;
S3,将翻译得到的普通话转换为TTS语音和文字,将文字作为字幕添加到视频流中。
作为本发明的一个优选实施例,步骤S1中对音频流进行预处理具体包括以下;
对音频流进行语音活动检测、语音增强、语音分离操作,将人声从语音流中分离出来,并记录人声在音频流中的时间轴;
根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点。
作为本发明的一个优选实施例,步骤S3中根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中。
作为本发明的一个优选实施例,还包括以下步骤:
S4,消除音频流,根据视频流的时间轴上的打点位置,将TTS语音添加到视频流中。
作为本发明的一个优选实施例,步骤S2中,将方言语音特征库按使用频率进行排序,生成预处理后的音频流的语音特征后,按顺序与方言语音特征库进行对比,对音频流进行翻译得到普通话。
一种将方言自动转换为字幕的AI翻译系统,包括
音视频处理单元,获取视频流和音频流,对音频流进行预处理;
音频翻译单元,为预处理后的音频流生成语音特征,并与方言语音特征库进行对比,对音频流进行翻译得到普通话;
转换单元,将翻译得到的普通话转换为TTS语音和文字,并将文字发送给音视频处理单元,由音视频处理单元将文字作为字幕添加到视频流。
作为本发明的一个优选实施例,所述音视频处理单元对音频流进行预处理具体指的是对音频流进行语音活动检测、语音增强、语音分离操作,将人声从语音流中分离出来,并记录人声在音频流中的时间轴;根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点。
作为本发明的一个优选实施例,所述音视频处理单元根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中。
作为本发明的一个优选实施例,所述音视频处理单元还用于消除音频流,根据视频流的时间轴上的打点位置,将TTS语音添加到视频流中。
本发明的有益效果在于:根据各地方言和普通话设计一个翻译系统,可以把各地方言翻译为普通话,转换成TTS语音和字幕,方便审核人员进行校对。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种将方言自动转换为字幕的AI翻译方法一个实施例的平面流程图;
图2为本发明一种将方言自动转换为字幕的AI翻译方法一个实施例的原理框图。
实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“竖直”、“上”、“下”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
如图1所示,本发明提出了一种将方言自动转换为字幕的AI翻译方法,包括以下步骤:
S1,获取视频流和音频流,对音频流进行预处理;视频流和音频流可以为互相独立的由摄像头获取的视频流以及由麦克风获取的音频流,摄像头和麦克风同时工作,保证视频流和音频流的时间轴对齐。视频流和音频流也可从视频文件中分离得到,视频文件的视频格式可为rm、rmvb、mpeg1-4、mov、mtv、dat、wmv、avi、3gp、amv、dmv、flv等等。
S2,生成预处理后的音频流的语音特征,可通过对音频流进行傅里叶变换、离散傅里叶变换,通过一些滤波器组、加窗平滑、倒谱分析等时频变换操作提取语音特征向量;并与方言语音特征库进行对比,对音频流进行翻译得到普通话;
在具体操作过程中,可通过获取常用词语的语音特征向量,比如你、我、大家、你好等等,与方言语音特征库中对应词语的语音特征向量进行对比,判断是否为该方言。
方言语音特征库存储的是不同方言的语音片段及其对应的语音特征向量。
S3,将翻译得到的普通话转换为TTS语音和文字,将文字作为字幕添加到视频流中。
作为本发明的一个优选实施例,步骤S1中对音频流进行预处理具体包括以下;
对音频流进行语音活动检测、语音增强、语音分离操作,通过语音活动检测可滤除音频流中的噪声片段,仅保留可能带有噪声的人声片段,利用语音增强可抑制噪声并增强人声,而通过语音分离可去除非目标用户语音而只保留目标用户语音数据,通过这些预处理操作可获得较干净的目标用户语音,将人声从语音流中分离出来,并记录人声在音频流中的时间轴;根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点。
作为本发明的一个优选实施例,步骤S3中根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中。
作为本发明的一个优选实施例,还包括以下步骤:
S4,消除音频流,根据视频流的时间轴上的打点位置,将TTS语音添加到视频流中。通过消除音频流,可以起到对被访人员的隐私保护的作用。
作为本发明的一个优选实施例,步骤S2中,将方言语音特征库按使用频率进行排序,生成预处理后的音频流的语音特征后,按顺序与方言语音特征库进行对比,对音频流进行翻译得到普通话。
在步骤S2中,可通过语音特征向量的一一对比实现对音频流的翻译,也可通过训练方言语音识别模型并将音频流输入到该模型中实现对音频流的翻译。
作为本发明的一个优选实施例,还可通过获取受访者地理位置的方式进一步缩小对比范围。
如图2所示,本发明还提出了一种将方言自动转换为字幕的AI翻译系统,包括;
音视频处理单元,获取视频流和音频流,对音频流进行预处理;视频流和音频流可以为互相独立的由摄像头获取的视频流以及由麦克风获取的音频流,摄像头和麦克风同时工作,保证视频流和音频流的时间轴对齐。视频流和音频流也可从视频文件中分离得到,视频文件的视频格式可为rm、rmvb、mpeg1-4、mov、mtv、dat、wmv、avi、3gp、amv、dmv、flv等等。
音频翻译单元,为预处理后的音频流生成语音特征,可通过对音频流进行傅里叶变换、离散傅里叶变换,通过一些滤波器组、加窗平滑、倒谱分析等时频变换操作提取语音特征向量;并与方言语音特征库进行对比,对音频流进行翻译得到普通话;
在具体操作过程中,可通过获取常用词语的语音特征向量,比如你、我、大家、你好等等,与方言语音特征库中对应词语的语音特征向量进行对比,判断是否为该方言。
方言语音特征库存储的是不同方言的语音片段及其对应的语音特征向量。
转换单元,将翻译得到的普通话转换为TTS语音和文字,并将文字发送给音视频处理单元,由音视频处理单元将文字作为字幕添加到视频流。
作为本发明的一个优选实施例,所述音视频处理单元对音频流进行预处理具体指的是对音频流进行语音活动检测、语音增强、语音分离操作,通过语音活动检测可滤除音频流中的噪声片段,仅保留可能带有噪声的人声片段,利用语音增强可抑制噪声并增强人声,而通过语音分离可去除非目标用户语音而只保留目标用户语音数据,通过这些预处理操作可获得较干净的目标用户语音,将人声从语音流中分离出来,并记录人声在音频流中的时间轴;根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点。
作为本发明的一个优选实施例,所述音视频处理单元根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中。字幕的起始位置和结束位置与语音的起始位置和结束位置相对应。
作为本发明的一个优选实施例,所述音视频处理单元还用于消除音频流,根据视频流的时间轴上的打点位置,将TTS语音添加到视频流中。通过消除音频流,可以起到对被访人员的隐私保护的作用。
作为本发明的一个优选实施例,本发明还包括定位单元,定位单元通过获取受访者地理位置,进一步缩小对比范围。
本发明的有益效果在于:根据各地方言和普通话设计一个翻译系统,可以把各地方言翻译为普通话,转换成TTS语音和字幕,方便审核人员进行校对。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种将方言自动转换为字幕的AI翻译方法,其特征在于,包括以下步骤:
S1,获取视频流和音频流,对音频流进行预处理;
S2,生成预处理后的音频流的语音特征,并与方言语音特征库进行对比,对音频流进行翻译得到普通话;
S3,将翻译得到的普通话转换为TTS语音和文字,将文字作为字幕添加到视频流中;
S4,消除音频流,根据视频流的时间轴上的打点位置,将TTS语音添加到视频流中;
步骤S1中对音频流进行预处理具体包括以下对音频流进行语音活动检测、语音增强、语音分离操作,将人声从语音流中分离出来,并记录人声在音频流中的时间轴;
根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点;步骤S3中根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中;
步骤S2中,将方言语音特征库按使用频率进行排序,生成预处理后的音频流的语音特征后,按顺序与方言语音特征库进行对比,对音频流进行翻译得到普通话;
基于该方法的系统包括音视频处理单元,获取视频流和音频流,对音频流进行预处理;
音频翻译单元,为预处理后的音频流生成语音特征,并与方言语音特征库进行对比,对音频流进行翻译得到普通话;
转换单元,将翻译得到的普通话转换为TTS语音和文字,并将文字发送给音视频处理单元,由音视频处理单元将文字作为字幕添加到视频流;
所述音视频处理单元对音频流进行预处理具体指的是对音频流进行语音活动检测、语音增强、语音分离操作,将人声从语音流中分离出来,并记录人声在音频流中的时间轴;根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点;
所述音视频处理单元根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中;
所述音视频处理单元还用于消除音频流,根据视频流的时间轴上的打点位置,将TTS语音添加到视频流中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010455108.5A CN111709253B (zh) | 2020-05-26 | 2020-05-26 | 一种将方言自动转换为字幕的ai翻译方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010455108.5A CN111709253B (zh) | 2020-05-26 | 2020-05-26 | 一种将方言自动转换为字幕的ai翻译方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709253A CN111709253A (zh) | 2020-09-25 |
CN111709253B true CN111709253B (zh) | 2023-10-24 |
Family
ID=72538538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010455108.5A Active CN111709253B (zh) | 2020-05-26 | 2020-05-26 | 一种将方言自动转换为字幕的ai翻译方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709253B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112684967A (zh) * | 2021-03-11 | 2021-04-20 | 荣耀终端有限公司 | 一种用于字幕显示的方法及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102209227A (zh) * | 2010-03-30 | 2011-10-05 | 宝利通公司 | 在视频会议中增加翻译的方法和系统 |
CN105704579A (zh) * | 2014-11-27 | 2016-06-22 | 南京苏宁软件技术有限公司 | 媒体播放中实时自动翻译字幕的方法和系统 |
CN106340294A (zh) * | 2016-09-29 | 2017-01-18 | 安徽声讯信息技术有限公司 | 基于同步翻译的新闻直播字幕在线制作系统 |
CN109714608A (zh) * | 2018-12-18 | 2019-05-03 | 深圳壹账通智能科技有限公司 | 视频数据处理方法、装置、计算机设备和存储介质 |
-
2020
- 2020-05-26 CN CN202010455108.5A patent/CN111709253B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102209227A (zh) * | 2010-03-30 | 2011-10-05 | 宝利通公司 | 在视频会议中增加翻译的方法和系统 |
CN105704579A (zh) * | 2014-11-27 | 2016-06-22 | 南京苏宁软件技术有限公司 | 媒体播放中实时自动翻译字幕的方法和系统 |
CN106340294A (zh) * | 2016-09-29 | 2017-01-18 | 安徽声讯信息技术有限公司 | 基于同步翻译的新闻直播字幕在线制作系统 |
CN109714608A (zh) * | 2018-12-18 | 2019-05-03 | 深圳壹账通智能科技有限公司 | 视频数据处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111709253A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102250460B1 (ko) | 사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템 | |
US8478578B2 (en) | Mobile speech-to-speech interpretation system | |
CN110298252A (zh) | 会议纪要生成方法、装置、计算机设备及存储介质 | |
CN110853615B (zh) | 一种数据处理方法、装置及存储介质 | |
CA2717992C (en) | Speech understanding method and system | |
CN102122506B (zh) | 一种语音识别的方法 | |
JP6462651B2 (ja) | 音声翻訳装置、音声翻訳方法及びプログラム | |
KR20140120560A (ko) | 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말 | |
JP2002125047A5 (zh) | ||
KR20070118038A (ko) | 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램 | |
KR20100111164A (ko) | 사용자의 발화의도를 파악하는 음성 대화 처리장치 및 음성 대화 처리방법 | |
CN111709253B (zh) | 一种将方言自动转换为字幕的ai翻译方法和系统 | |
US11714973B2 (en) | Methods and systems for control of content in an alternate language or accent | |
KR20190040891A (ko) | 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법 | |
Yang et al. | An automated analysis and indexing framework for lecture video portal | |
CN113327619B (zh) | 一种基于云—边缘协同架构的会议记录方法及系统 | |
CN112541324A (zh) | 一种标点符号添加方法、装置及电子设备 | |
Ramabhadran et al. | Towards automatic transcription of large spoken archives-English ASR for the MALACH project | |
Enzinger et al. | Voice source features for forensic voice comparison-an evaluation of the GLOTTEX software package. | |
CN106228984A (zh) | 语音识别信息获取方法 | |
CN111108553A (zh) | 一种声音采集对象声纹检测方法、装置和设备 | |
CN111768773B (zh) | 一种智能决策会议机器人 | |
CN211788155U (zh) | 智能会议记录系统 | |
Chodroff et al. | New release of Mixer-6: Improved validity for phonetic study of speaker variation and identification | |
JP6830148B1 (ja) | 修正候補特定装置、修正候補特定方法及び修正候補特定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |