CN111709253B

CN111709253B - 一种将方言自动转换为字幕的ai翻译方法和系统

Info

Publication number: CN111709253B
Application number: CN202010455108.5A
Authority: CN
Inventors: 白志勇
Original assignee: Zhuhai Jiusong Technology Co ltd
Current assignee: Zhuhai Jiusong Technology Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2023-10-24
Anticipated expiration: 2040-05-26
Also published as: CN111709253A

Abstract

本发明公开了一种将方言自动转换为字幕的AI翻译方法和系统，包括以下步骤：获取视频流和音频流，对音频流进行预处理；生成预处理后的音频流的语音特征，并与方言语音特征库进行对比，对音频流进行翻译得到普通话；将翻译得到的普通话转换为TTS语音和文字，将文字作为字幕添加到视频流中。本发明根据各地方言和大陆普通话设计一个翻译系统，可以把各地方言翻译为普通话，转换成TTS语音和字幕，方便审核人员进行校对。

Description

一种将方言自动转换为字幕的AI翻译方法和系统

技术领域

本发明涉及人工智能技术领域，特别是指一种将方言自动转换为字幕的AI翻译方法和系统。

背景技术

现在记者采访时会通过录像和录音的方式记录受访者的视频和音频，后期需要在视频上添加字幕，方便观众查看和理解，采访有时会遇到全国各地的方言，有可能导致编辑和审核人员无法准确理解和匹配字幕。

发明内容

本发明提出一种将方言自动转换为字幕的AI翻译方法和系统，解决了现有技术中采访有时会遇到全国各地的方言，有可能导致编辑和审核人员无法准确理解和匹配字幕的问题。

本发明的技术方案是这样实现的：

一种将方言自动转换为字幕的AI翻译方法，包括以下步骤：

S1，获取视频流和音频流，对音频流进行预处理；

S2，生成预处理后的音频流的语音特征，并与方言语音特征库进行对比，对音频流进行翻译得到普通话；

S3，将翻译得到的普通话转换为TTS语音和文字，将文字作为字幕添加到视频流中。

作为本发明的一个优选实施例，步骤S1中对音频流进行预处理具体包括以下；

对音频流进行语音活动检测、语音增强、语音分离操作，将人声从语音流中分离出来，并记录人声在音频流中的时间轴；

根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点。

作为本发明的一个优选实施例，步骤S3中根据视频流的时间轴上的打点位置，将文字作为字幕添加到视频流中。

作为本发明的一个优选实施例，还包括以下步骤：

S4，消除音频流，根据视频流的时间轴上的打点位置，将TTS语音添加到视频流中。

作为本发明的一个优选实施例，步骤S2中，将方言语音特征库按使用频率进行排序，生成预处理后的音频流的语音特征后，按顺序与方言语音特征库进行对比，对音频流进行翻译得到普通话。

一种将方言自动转换为字幕的AI翻译系统，包括

音视频处理单元，获取视频流和音频流，对音频流进行预处理；

音频翻译单元，为预处理后的音频流生成语音特征，并与方言语音特征库进行对比，对音频流进行翻译得到普通话；

转换单元，将翻译得到的普通话转换为TTS语音和文字，并将文字发送给音视频处理单元，由音视频处理单元将文字作为字幕添加到视频流。

作为本发明的一个优选实施例，所述音视频处理单元对音频流进行预处理具体指的是对音频流进行语音活动检测、语音增强、语音分离操作，将人声从语音流中分离出来，并记录人声在音频流中的时间轴；根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点。

作为本发明的一个优选实施例，所述音视频处理单元根据视频流的时间轴上的打点位置，将文字作为字幕添加到视频流中。

作为本发明的一个优选实施例，所述音视频处理单元还用于消除音频流，根据视频流的时间轴上的打点位置，将TTS语音添加到视频流中。

本发明的有益效果在于：根据各地方言和普通话设计一个翻译系统，可以把各地方言翻译为普通话，转换成TTS语音和字幕，方便审核人员进行校对。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种将方言自动转换为字幕的AI翻译方法一个实施例的平面流程图；

图2为本发明一种将方言自动转换为字幕的AI翻译方法一个实施例的原理框图。

实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“竖直”、“上”、“下”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

如图1所示，本发明提出了一种将方言自动转换为字幕的AI翻译方法，包括以下步骤：

S1，获取视频流和音频流，对音频流进行预处理；视频流和音频流可以为互相独立的由摄像头获取的视频流以及由麦克风获取的音频流，摄像头和麦克风同时工作，保证视频流和音频流的时间轴对齐。视频流和音频流也可从视频文件中分离得到，视频文件的视频格式可为rm、rmvb、mpeg1-4、mov、mtv、dat、wmv、avi、3gp、amv、dmv、flv等等。

S2，生成预处理后的音频流的语音特征，可通过对音频流进行傅里叶变换、离散傅里叶变换，通过一些滤波器组、加窗平滑、倒谱分析等时频变换操作提取语音特征向量；并与方言语音特征库进行对比，对音频流进行翻译得到普通话；

在具体操作过程中，可通过获取常用词语的语音特征向量，比如你、我、大家、你好等等，与方言语音特征库中对应词语的语音特征向量进行对比，判断是否为该方言。

方言语音特征库存储的是不同方言的语音片段及其对应的语音特征向量。

对音频流进行语音活动检测、语音增强、语音分离操作，通过语音活动检测可滤除音频流中的噪声片段，仅保留可能带有噪声的人声片段，利用语音增强可抑制噪声并增强人声，而通过语音分离可去除非目标用户语音而只保留目标用户语音数据，通过这些预处理操作可获得较干净的目标用户语音，将人声从语音流中分离出来，并记录人声在音频流中的时间轴；根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点。

作为本发明的一个优选实施例，还包括以下步骤：

S4，消除音频流，根据视频流的时间轴上的打点位置，将TTS语音添加到视频流中。通过消除音频流，可以起到对被访人员的隐私保护的作用。

在步骤S2中，可通过语音特征向量的一一对比实现对音频流的翻译，也可通过训练方言语音识别模型并将音频流输入到该模型中实现对音频流的翻译。

作为本发明的一个优选实施例，还可通过获取受访者地理位置的方式进一步缩小对比范围。

如图2所示，本发明还提出了一种将方言自动转换为字幕的AI翻译系统，包括；

音视频处理单元，获取视频流和音频流，对音频流进行预处理；视频流和音频流可以为互相独立的由摄像头获取的视频流以及由麦克风获取的音频流，摄像头和麦克风同时工作，保证视频流和音频流的时间轴对齐。视频流和音频流也可从视频文件中分离得到，视频文件的视频格式可为rm、rmvb、mpeg1-4、mov、mtv、dat、wmv、avi、3gp、amv、dmv、flv等等。

音频翻译单元，为预处理后的音频流生成语音特征，可通过对音频流进行傅里叶变换、离散傅里叶变换，通过一些滤波器组、加窗平滑、倒谱分析等时频变换操作提取语音特征向量；并与方言语音特征库进行对比，对音频流进行翻译得到普通话；

作为本发明的一个优选实施例，所述音视频处理单元对音频流进行预处理具体指的是对音频流进行语音活动检测、语音增强、语音分离操作，通过语音活动检测可滤除音频流中的噪声片段，仅保留可能带有噪声的人声片段，利用语音增强可抑制噪声并增强人声，而通过语音分离可去除非目标用户语音而只保留目标用户语音数据，通过这些预处理操作可获得较干净的目标用户语音，将人声从语音流中分离出来，并记录人声在音频流中的时间轴；根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点。

作为本发明的一个优选实施例，所述音视频处理单元根据视频流的时间轴上的打点位置，将文字作为字幕添加到视频流中。字幕的起始位置和结束位置与语音的起始位置和结束位置相对应。

作为本发明的一个优选实施例，所述音视频处理单元还用于消除音频流，根据视频流的时间轴上的打点位置，将TTS语音添加到视频流中。通过消除音频流，可以起到对被访人员的隐私保护的作用。

作为本发明的一个优选实施例，本发明还包括定位单元，定位单元通过获取受访者地理位置，进一步缩小对比范围。

所述技术领域的技术人员可以清楚的了解到，未描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种将方言自动转换为字幕的AI翻译方法，其特征在于，包括以下步骤：

S1，获取视频流和音频流，对音频流进行预处理；

S3，将翻译得到的普通话转换为TTS语音和文字，将文字作为字幕添加到视频流中；

S4，消除音频流，根据视频流的时间轴上的打点位置，将TTS语音添加到视频流中；

步骤S1中对音频流进行预处理具体包括以下对音频流进行语音活动检测、语音增强、语音分离操作，将人声从语音流中分离出来，并记录人声在音频流中的时间轴；

根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点；步骤S3中根据视频流的时间轴上的打点位置，将文字作为字幕添加到视频流中；

步骤S2中，将方言语音特征库按使用频率进行排序，生成预处理后的音频流的语音特征后，按顺序与方言语音特征库进行对比，对音频流进行翻译得到普通话；

基于该方法的系统包括音视频处理单元，获取视频流和音频流，对音频流进行预处理；

转换单元，将翻译得到的普通话转换为TTS语音和文字，并将文字发送给音视频处理单元，由音视频处理单元将文字作为字幕添加到视频流；

所述音视频处理单元对音频流进行预处理具体指的是对音频流进行语音活动检测、语音增强、语音分离操作，将人声从语音流中分离出来，并记录人声在音频流中的时间轴；根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点；

所述音视频处理单元根据视频流的时间轴上的打点位置，将文字作为字幕添加到视频流中；

所述音视频处理单元还用于消除音频流，根据视频流的时间轴上的打点位置，将TTS语音添加到视频流中。