CN111709253B - 一种将方言自动转换为字幕的ai翻译方法和系统 - Google Patents

一种将方言自动转换为字幕的ai翻译方法和系统 Download PDF

Info

Publication number
CN111709253B
CN111709253B CN202010455108.5A CN202010455108A CN111709253B CN 111709253 B CN111709253 B CN 111709253B CN 202010455108 A CN202010455108 A CN 202010455108A CN 111709253 B CN111709253 B CN 111709253B
Authority
CN
China
Prior art keywords
voice
stream
audio
audio stream
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010455108.5A
Other languages
English (en)
Other versions
CN111709253A (zh
Inventor
白志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Jiusong Technology Co ltd
Original Assignee
Zhuhai Jiusong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Jiusong Technology Co ltd filed Critical Zhuhai Jiusong Technology Co ltd
Priority to CN202010455108.5A priority Critical patent/CN111709253B/zh
Publication of CN111709253A publication Critical patent/CN111709253A/zh
Application granted granted Critical
Publication of CN111709253B publication Critical patent/CN111709253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4856End-user interface for client configuration for language selection, e.g. for the menu or subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Studio Devices (AREA)
  • Machine Translation (AREA)
  • Studio Circuits (AREA)

Abstract

本发明公开了一种将方言自动转换为字幕的AI翻译方法和系统,包括以下步骤:获取视频流和音频流,对音频流进行预处理;生成预处理后的音频流的语音特征,并与方言语音特征库进行对比,对音频流进行翻译得到普通话;将翻译得到的普通话转换为TTS语音和文字,将文字作为字幕添加到视频流中。本发明根据各地方言和大陆普通话设计一个翻译系统,可以把各地方言翻译为普通话,转换成TTS语音和字幕,方便审核人员进行校对。

Description

一种将方言自动转换为字幕的AI翻译方法和系统
技术领域
本发明涉及人工智能技术领域,特别是指一种将方言自动转换为字幕的AI翻译方法和系统。
背景技术
现在记者采访时会通过录像和录音的方式记录受访者的视频和音频,后期需要在视频上添加字幕,方便观众查看和理解,采访有时会遇到全国各地的方言,有可能导致编辑和审核人员无法准确理解和匹配字幕。
发明内容
本发明提出一种将方言自动转换为字幕的AI翻译方法和系统,解决了现有技术中采访有时会遇到全国各地的方言,有可能导致编辑和审核人员无法准确理解和匹配字幕的问题。
本发明的技术方案是这样实现的:
一种将方言自动转换为字幕的AI翻译方法,包括以下步骤:
S1,获取视频流和音频流,对音频流进行预处理;
S2,生成预处理后的音频流的语音特征,并与方言语音特征库进行对比,对音频流进行翻译得到普通话;
S3,将翻译得到的普通话转换为TTS语音和文字,将文字作为字幕添加到视频流中。
作为本发明的一个优选实施例,步骤S1中对音频流进行预处理具体包括以下;
对音频流进行语音活动检测、语音增强、语音分离操作,将人声从语音流中分离出来,并记录人声在音频流中的时间轴;
根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点。
作为本发明的一个优选实施例,步骤S3中根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中。
作为本发明的一个优选实施例,还包括以下步骤:
S4,消除音频流,根据视频流的时间轴上的打点位置,将TTS语音添加到视频流中。
作为本发明的一个优选实施例,步骤S2中,将方言语音特征库按使用频率进行排序,生成预处理后的音频流的语音特征后,按顺序与方言语音特征库进行对比,对音频流进行翻译得到普通话。
一种将方言自动转换为字幕的AI翻译系统,包括
音视频处理单元,获取视频流和音频流,对音频流进行预处理;
音频翻译单元,为预处理后的音频流生成语音特征,并与方言语音特征库进行对比,对音频流进行翻译得到普通话;
转换单元,将翻译得到的普通话转换为TTS语音和文字,并将文字发送给音视频处理单元,由音视频处理单元将文字作为字幕添加到视频流。
作为本发明的一个优选实施例,所述音视频处理单元对音频流进行预处理具体指的是对音频流进行语音活动检测、语音增强、语音分离操作,将人声从语音流中分离出来,并记录人声在音频流中的时间轴;根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点。
作为本发明的一个优选实施例,所述音视频处理单元根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中。
作为本发明的一个优选实施例,所述音视频处理单元还用于消除音频流,根据视频流的时间轴上的打点位置,将TTS语音添加到视频流中。
本发明的有益效果在于:根据各地方言和普通话设计一个翻译系统,可以把各地方言翻译为普通话,转换成TTS语音和字幕,方便审核人员进行校对。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种将方言自动转换为字幕的AI翻译方法一个实施例的平面流程图;
图2为本发明一种将方言自动转换为字幕的AI翻译方法一个实施例的原理框图。
实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“竖直”、“上”、“下”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
如图1所示,本发明提出了一种将方言自动转换为字幕的AI翻译方法,包括以下步骤:
S1,获取视频流和音频流,对音频流进行预处理;视频流和音频流可以为互相独立的由摄像头获取的视频流以及由麦克风获取的音频流,摄像头和麦克风同时工作,保证视频流和音频流的时间轴对齐。视频流和音频流也可从视频文件中分离得到,视频文件的视频格式可为rm、rmvb、mpeg1-4、mov、mtv、dat、wmv、avi、3gp、amv、dmv、flv等等。
S2,生成预处理后的音频流的语音特征,可通过对音频流进行傅里叶变换、离散傅里叶变换,通过一些滤波器组、加窗平滑、倒谱分析等时频变换操作提取语音特征向量;并与方言语音特征库进行对比,对音频流进行翻译得到普通话;
在具体操作过程中,可通过获取常用词语的语音特征向量,比如你、我、大家、你好等等,与方言语音特征库中对应词语的语音特征向量进行对比,判断是否为该方言。
方言语音特征库存储的是不同方言的语音片段及其对应的语音特征向量。
S3,将翻译得到的普通话转换为TTS语音和文字,将文字作为字幕添加到视频流中。
作为本发明的一个优选实施例,步骤S1中对音频流进行预处理具体包括以下;
对音频流进行语音活动检测、语音增强、语音分离操作,通过语音活动检测可滤除音频流中的噪声片段,仅保留可能带有噪声的人声片段,利用语音增强可抑制噪声并增强人声,而通过语音分离可去除非目标用户语音而只保留目标用户语音数据,通过这些预处理操作可获得较干净的目标用户语音,将人声从语音流中分离出来,并记录人声在音频流中的时间轴;根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点。
作为本发明的一个优选实施例,步骤S3中根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中。
作为本发明的一个优选实施例,还包括以下步骤:
S4,消除音频流,根据视频流的时间轴上的打点位置,将TTS语音添加到视频流中。通过消除音频流,可以起到对被访人员的隐私保护的作用。
作为本发明的一个优选实施例,步骤S2中,将方言语音特征库按使用频率进行排序,生成预处理后的音频流的语音特征后,按顺序与方言语音特征库进行对比,对音频流进行翻译得到普通话。
在步骤S2中,可通过语音特征向量的一一对比实现对音频流的翻译,也可通过训练方言语音识别模型并将音频流输入到该模型中实现对音频流的翻译。
作为本发明的一个优选实施例,还可通过获取受访者地理位置的方式进一步缩小对比范围。
如图2所示,本发明还提出了一种将方言自动转换为字幕的AI翻译系统,包括;
音视频处理单元,获取视频流和音频流,对音频流进行预处理;视频流和音频流可以为互相独立的由摄像头获取的视频流以及由麦克风获取的音频流,摄像头和麦克风同时工作,保证视频流和音频流的时间轴对齐。视频流和音频流也可从视频文件中分离得到,视频文件的视频格式可为rm、rmvb、mpeg1-4、mov、mtv、dat、wmv、avi、3gp、amv、dmv、flv等等。
音频翻译单元,为预处理后的音频流生成语音特征,可通过对音频流进行傅里叶变换、离散傅里叶变换,通过一些滤波器组、加窗平滑、倒谱分析等时频变换操作提取语音特征向量;并与方言语音特征库进行对比,对音频流进行翻译得到普通话;
在具体操作过程中,可通过获取常用词语的语音特征向量,比如你、我、大家、你好等等,与方言语音特征库中对应词语的语音特征向量进行对比,判断是否为该方言。
方言语音特征库存储的是不同方言的语音片段及其对应的语音特征向量。
转换单元,将翻译得到的普通话转换为TTS语音和文字,并将文字发送给音视频处理单元,由音视频处理单元将文字作为字幕添加到视频流。
作为本发明的一个优选实施例,所述音视频处理单元对音频流进行预处理具体指的是对音频流进行语音活动检测、语音增强、语音分离操作,通过语音活动检测可滤除音频流中的噪声片段,仅保留可能带有噪声的人声片段,利用语音增强可抑制噪声并增强人声,而通过语音分离可去除非目标用户语音而只保留目标用户语音数据,通过这些预处理操作可获得较干净的目标用户语音,将人声从语音流中分离出来,并记录人声在音频流中的时间轴;根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点。
作为本发明的一个优选实施例,所述音视频处理单元根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中。字幕的起始位置和结束位置与语音的起始位置和结束位置相对应。
作为本发明的一个优选实施例,所述音视频处理单元还用于消除音频流,根据视频流的时间轴上的打点位置,将TTS语音添加到视频流中。通过消除音频流,可以起到对被访人员的隐私保护的作用。
作为本发明的一个优选实施例,本发明还包括定位单元,定位单元通过获取受访者地理位置,进一步缩小对比范围。
本发明的有益效果在于:根据各地方言和普通话设计一个翻译系统,可以把各地方言翻译为普通话,转换成TTS语音和字幕,方便审核人员进行校对。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种将方言自动转换为字幕的AI翻译方法,其特征在于,包括以下步骤:
S1,获取视频流和音频流,对音频流进行预处理;
S2,生成预处理后的音频流的语音特征,并与方言语音特征库进行对比,对音频流进行翻译得到普通话;
S3,将翻译得到的普通话转换为TTS语音和文字,将文字作为字幕添加到视频流中;
S4,消除音频流,根据视频流的时间轴上的打点位置,将TTS语音添加到视频流中;
步骤S1中对音频流进行预处理具体包括以下对音频流进行语音活动检测、语音增强、语音分离操作,将人声从语音流中分离出来,并记录人声在音频流中的时间轴;
根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点;步骤S3中根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中;
步骤S2中,将方言语音特征库按使用频率进行排序,生成预处理后的音频流的语音特征后,按顺序与方言语音特征库进行对比,对音频流进行翻译得到普通话;
基于该方法的系统包括音视频处理单元,获取视频流和音频流,对音频流进行预处理;
音频翻译单元,为预处理后的音频流生成语音特征,并与方言语音特征库进行对比,对音频流进行翻译得到普通话;
转换单元,将翻译得到的普通话转换为TTS语音和文字,并将文字发送给音视频处理单元,由音视频处理单元将文字作为字幕添加到视频流;
所述音视频处理单元对音频流进行预处理具体指的是对音频流进行语音活动检测、语音增强、语音分离操作,将人声从语音流中分离出来,并记录人声在音频流中的时间轴;根据上述时间轴中人声起始和结束点在视频流的时间轴上进行打点;
所述音视频处理单元根据视频流的时间轴上的打点位置,将文字作为字幕添加到视频流中;
所述音视频处理单元还用于消除音频流,根据视频流的时间轴上的打点位置,将TTS语音添加到视频流中。
CN202010455108.5A 2020-05-26 2020-05-26 一种将方言自动转换为字幕的ai翻译方法和系统 Active CN111709253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010455108.5A CN111709253B (zh) 2020-05-26 2020-05-26 一种将方言自动转换为字幕的ai翻译方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010455108.5A CN111709253B (zh) 2020-05-26 2020-05-26 一种将方言自动转换为字幕的ai翻译方法和系统

Publications (2)

Publication Number Publication Date
CN111709253A CN111709253A (zh) 2020-09-25
CN111709253B true CN111709253B (zh) 2023-10-24

Family

ID=72538538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010455108.5A Active CN111709253B (zh) 2020-05-26 2020-05-26 一种将方言自动转换为字幕的ai翻译方法和系统

Country Status (1)

Country Link
CN (1) CN111709253B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112684967A (zh) * 2021-03-11 2021-04-20 荣耀终端有限公司 一种用于字幕显示的方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102209227A (zh) * 2010-03-30 2011-10-05 宝利通公司 在视频会议中增加翻译的方法和系统
CN105704579A (zh) * 2014-11-27 2016-06-22 南京苏宁软件技术有限公司 媒体播放中实时自动翻译字幕的方法和系统
CN106340294A (zh) * 2016-09-29 2017-01-18 安徽声讯信息技术有限公司 基于同步翻译的新闻直播字幕在线制作系统
CN109714608A (zh) * 2018-12-18 2019-05-03 深圳壹账通智能科技有限公司 视频数据处理方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102209227A (zh) * 2010-03-30 2011-10-05 宝利通公司 在视频会议中增加翻译的方法和系统
CN105704579A (zh) * 2014-11-27 2016-06-22 南京苏宁软件技术有限公司 媒体播放中实时自动翻译字幕的方法和系统
CN106340294A (zh) * 2016-09-29 2017-01-18 安徽声讯信息技术有限公司 基于同步翻译的新闻直播字幕在线制作系统
CN109714608A (zh) * 2018-12-18 2019-05-03 深圳壹账通智能科技有限公司 视频数据处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111709253A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
KR102250460B1 (ko) 사용자 성문 모델을 구축하기 위한 방법, 장치 및 시스템
US8478578B2 (en) Mobile speech-to-speech interpretation system
CN110298252A (zh) 会议纪要生成方法、装置、计算机设备及存储介质
CN110853615B (zh) 一种数据处理方法、装置及存储介质
CA2717992C (en) Speech understanding method and system
CN102122506B (zh) 一种语音识别的方法
JP6462651B2 (ja) 音声翻訳装置、音声翻訳方法及びプログラム
KR20140120560A (ko) 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말
JP2002125047A5 (zh)
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
KR20100111164A (ko) 사용자의 발화의도를 파악하는 음성 대화 처리장치 및 음성 대화 처리방법
CN111709253B (zh) 一种将方言自动转换为字幕的ai翻译方法和系统
US11714973B2 (en) Methods and systems for control of content in an alternate language or accent
KR20190040891A (ko) 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법
Yang et al. An automated analysis and indexing framework for lecture video portal
CN113327619B (zh) 一种基于云—边缘协同架构的会议记录方法及系统
CN112541324A (zh) 一种标点符号添加方法、装置及电子设备
Ramabhadran et al. Towards automatic transcription of large spoken archives-English ASR for the MALACH project
Enzinger et al. Voice source features for forensic voice comparison-an evaluation of the GLOTTEX software package.
CN106228984A (zh) 语音识别信息获取方法
CN111108553A (zh) 一种声音采集对象声纹检测方法、装置和设备
CN111768773B (zh) 一种智能决策会议机器人
CN211788155U (zh) 智能会议记录系统
Chodroff et al. New release of Mixer-6: Improved validity for phonetic study of speaker variation and identification
JP6830148B1 (ja) 修正候補特定装置、修正候補特定方法及び修正候補特定プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant