CN108628859A - 一种实时语音翻译系统 - Google Patents

一种实时语音翻译系统 Download PDF

Info

Publication number
CN108628859A
CN108628859A CN201810380922.8A CN201810380922A CN108628859A CN 108628859 A CN108628859 A CN 108628859A CN 201810380922 A CN201810380922 A CN 201810380922A CN 108628859 A CN108628859 A CN 108628859A
Authority
CN
China
Prior art keywords
languages
unit
module
correction
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810380922.8A
Other languages
English (en)
Inventor
程恭正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HEFEI SHANGCHENG INFORMATION TECHNOLOGY Co Ltd
Original Assignee
HEFEI SHANGCHENG INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HEFEI SHANGCHENG INFORMATION TECHNOLOGY Co Ltd filed Critical HEFEI SHANGCHENG INFORMATION TECHNOLOGY Co Ltd
Priority to CN201810380922.8A priority Critical patent/CN108628859A/zh
Publication of CN108628859A publication Critical patent/CN108628859A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种实时语音翻译系统,涉及语音翻译技术领域。本发明包括录音器,语音识别单元、初始语种校正模块和文本校正单元,语音识别初始语音并进行通过一文字转换模块将语言数据转换为文字数据并存储于一存储单元,存储单元包括录入语言与语种字/词/句存储模块;其中,初始语种校正模块用于将所录入语言与语种字/词/句存储模块中存储数据进行对比以及句意校正;文本校正单元将转换为文字数据的初始语种信息翻译为第二语种,并通过一第二语种校正模块进行第二语言语法校正;文本校正单元分别与显示单元和语音合成单元连接。本发明通过对实时语音进行文字转换并对转换文字进行校正对比,增加文字实时翻译的准确性。

Description

一种实时语音翻译系统
技术领域
本发明属于语音翻译技术领域,特别是涉及一种实时语音翻译系统。
背景技术
语音识别的研究时在20世纪50年代开始的,和计算机几乎同时起步,半个实际来,经历了从特定人到非特定人、从小词汇到大词汇表、从孤立词到连续语音的发展历程,在各个时期都有大量的研究成成果出现,推动者语音识别研究正在走向成熟,随着语音技术的成熟,推动了人机交互的进步,而随着时代的发展,跨国交易的逐渐增加,而翻译人员逐渐被人机翻译替代,在交易过程中,由于翻译人员的有限,而现有及其翻译的不稳定特别时同声翻译,给现代翻译带来极大的挑战,并且现在的翻译多为逐字翻译,使用者体验较差。
发明内容
本发明的目的在于提供一种实时语音翻译系统,通过通过对实时语音进行文字转换并对转换文字进行校正并对初始语言进行语法校正,提高语言翻译的准确性。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种实时语音翻译系统,包括录音器、语音识别单元、初始语种校正模块和文本校正单元,所述语音识别初始语音并进行通过一文字转换模块将语言数据转换为文字数据并存储于一存储单元,所述存储单元包括语种字/词/句存储模块;其中,所述初始语种校正模块用于将所录入语言与语种字/词/句存储模块中存储数据进行对比以及句意校正;所述文本校正单元将转换为文字数据的初始语种信息翻译为第二语种,并通过一第二语种校正模块进行第二语言语法校正;所述文本校正单元分别与显示单元和语音合成单元连接,用于将翻译完成的第二语种进行文字显示以及进行机器语音模拟。
优选地,所述语音识别单元包括对比识别单元和手动调整模块;所述对比识别模块用于录入语言自动识别语种,所述手动调整模块用于得知接收语种并选中文字转换的语种。
优选地,所述录音器包括噪声抑制模块和语音存储模块,用于所需翻译语种的存储和对录入语音进行降噪处理;所述录音器通过一语音录入单元进行与声纹识别单元进行语音数据存储的数据的单一语调提取,所述声纹识别单元对声纹识别单元中声音进行语种特征识别。
优选地,所述显示单元为一显示屏,所述语音合成单元为一语音合成播放器。
优选地,所述显示单元上文字显示优先级高于语音合成的优先级。
本发明具有以下有益效果:
本发明首先对录音进行降噪处理,提高人体发生的辨识度,进而进行声纹提取,使得本发明适用于多人交流翻译试用,并且在多录音进行单一声纹提取时,将低其他声音干扰,增加声音翻译的准确性,在对将语言信息转换为文字信息,减小翻译难度,并且在逐字/词翻译之后通过文本校正单元进行语法和文字上的校正,增加语言阅读或者聆听的流畅性,文字翻译为第一优先级,提高聆听着接收信息的速度。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种实时语音翻译系统框图;
图2为本发明的一种实时语音翻译系统文字校正框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-2所示,本发明为一种实时语音翻译系统,语音识别初始语音并进行通过一文字转换模块将语言数据转换为文字数据并存储于一存储单元,存储单元包括语种字/词/句存储模块;
其中,初始语种校正模块用于将所录入语言与语种字/词/句存储模块中存储数据进行对比以及句意校正;
文本校正单元将转换为文字数据的初始语种信息翻译为第二语种,并通过一第二语种校正模块进行第二语言语法校正;
文本校正单元分别与显示单元和语音合成单元连接,用于将翻译完成的第二语种进行文字显示以及进行机器语音模拟。
语音识别单元包括对比识别单元和手动调整模块;
对比识别模块用于录入语言自动识别语种,手动调整模块用于得知接收语种并选中文字转换的语种。
录音器包括噪声抑制模块和语音存储模块,用于所需翻译语种的存储和对录入语音进行降噪处理;
录音器通过一语音录入单元进行与声纹识别单元进行语音数据存储的数据的单一语调提取,声纹识别单元对声纹识别单元中声音进行语种特征识别。
显示单元为一显示屏,语音合成单元为一语音合成播放器。
显示单元上文字显示优先级高于语音合成的优先级。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (5)

1.一种实时语音翻译系统,包括录音器,其特征在于,还包括语音识别单元、初始语种校正模块和文本校正单元,所述语音识别初始语音并进行通过一文字转换模块将语言数据转换为文字数据并存储于一存储单元,所述存储单元包括语种字/词/句存储模块;
其中,所述初始语种校正模块用于将所录入语言与语种字/词/句存储模块中存储数据进行对比以及以及句意校正;
所述文本校正单元将转换为文字数据的初始语种信息翻译为第二语种,并通过一第二语种校正模块进行第二语言语法校正;
所述文本校正单元分别与显示单元和语音合成单元连接,用于将翻译完成的第二语种进行文字显示以及进行机器语音模拟。
2.根据权利要求1所述的一种实时语音翻译系统,其特征在于,所述语音识别单元包括对比识别单元和手动调整模块;
所述对比识别模块用于录入语言自动识别语种,所述手动调整模块用于得知接收语种并选中文字转换的语种。
3.根据权利要求1所述的一种实时语音翻译系统,其特征在于,所述录音器包括噪声抑制模块和语音存储模块,用于所需翻译语种的存储和对录入语音进行降噪处理;
所述录音器通过一语音录入单元进行与声纹识别单元进行语音数据存储的数据的单一语调提取,所述声纹识别单元对声纹识别单元中声音进行语种特征识别。
4.根据权利要求1所述的一种实时语音翻译系统,其特征在于,所述显示单元为一显示屏,所述语音合成单元为一语音合成播放器。
5.根据权利要求1所述的一种实时语音翻译系统,其特征在于,所述显示单元上文字显示优先级高于语音合成的优先级。
CN201810380922.8A 2018-04-25 2018-04-25 一种实时语音翻译系统 Withdrawn CN108628859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810380922.8A CN108628859A (zh) 2018-04-25 2018-04-25 一种实时语音翻译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810380922.8A CN108628859A (zh) 2018-04-25 2018-04-25 一种实时语音翻译系统

Publications (1)

Publication Number Publication Date
CN108628859A true CN108628859A (zh) 2018-10-09

Family

ID=63694488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810380922.8A Withdrawn CN108628859A (zh) 2018-04-25 2018-04-25 一种实时语音翻译系统

Country Status (1)

Country Link
CN (1) CN108628859A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522564A (zh) * 2018-12-17 2019-03-26 北京百度网讯科技有限公司 语音翻译方法和装置
CN110059313A (zh) * 2019-04-03 2019-07-26 百度在线网络技术(北京)有限公司 翻译处理方法和装置
CN110970025A (zh) * 2019-11-26 2020-04-07 广州市万豪智能科技有限公司 机器人对讲系统
CN111274828A (zh) * 2020-01-21 2020-06-12 陈刚 基于留言的语言翻译方法、系统、计算机程序和手持终端
CN112447168A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 语音识别系统、方法、音箱、显示设备和交互平台
CN112818704A (zh) * 2021-01-19 2021-05-18 传神语联网网络科技股份有限公司 基于线程间共识反馈的多语种翻译系统与方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522564A (zh) * 2018-12-17 2019-03-26 北京百度网讯科技有限公司 语音翻译方法和装置
CN109522564B (zh) * 2018-12-17 2022-05-31 北京百度网讯科技有限公司 语音翻译方法和装置
CN110059313A (zh) * 2019-04-03 2019-07-26 百度在线网络技术(北京)有限公司 翻译处理方法和装置
CN110059313B (zh) * 2019-04-03 2021-02-12 百度在线网络技术(北京)有限公司 翻译处理方法和装置
CN112447168A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 语音识别系统、方法、音箱、显示设备和交互平台
CN110970025A (zh) * 2019-11-26 2020-04-07 广州市万豪智能科技有限公司 机器人对讲系统
CN111274828A (zh) * 2020-01-21 2020-06-12 陈刚 基于留言的语言翻译方法、系统、计算机程序和手持终端
CN112818704A (zh) * 2021-01-19 2021-05-18 传神语联网网络科技股份有限公司 基于线程间共识反馈的多语种翻译系统与方法
CN112818704B (zh) * 2021-01-19 2024-04-02 传神语联网网络科技股份有限公司 基于线程间共识反馈的多语种翻译系统与方法

Similar Documents

Publication Publication Date Title
CN108628859A (zh) 一种实时语音翻译系统
CN105957518B (zh) 一种蒙古语大词汇量连续语音识别的方法
CN105845125B (zh) 语音合成方法和语音合成装置
US20220246136A1 (en) Multilingual neural text-to-speech synthesis
Grice et al. An introduction to intonation-functions and models
Prahallad et al. The IIIT-H Indic speech databases.
CN106575502B (zh) 用于在合成语音中提供非词汇线索的系统和方法
CN107103900A (zh) 一种跨语言情感语音合成方法及系统
CN103680498A (zh) 一种语音识别方法和设备
CN104217713A (zh) 汉藏双语语音合成方法及装置
CN105426362A (zh) 语音翻译装置、方法及程序
CN106463113A (zh) 在语音辨识中预测发音
CN106856091A (zh) 一种多语言文本的自动播报方法及系统
CN115485766A (zh) 使用bert模型的语音合成韵律
CN103020048A (zh) 一种语言翻译方法及系统
Jones et al. Variation in voice onset time in stops in Gurindji Kriol: Picture naming and conversational speech
CN106057192A (zh) 一种实时语音转换方法和装置
Schuppler et al. GRASS: the Graz corpus of Read And Spontaneous Speech.
CN103632663B (zh) 一种基于hmm的蒙古语语音合成前端处理的方法
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
Imseng et al. MediaParl: Bilingual mixed language accented speech database
US8015008B2 (en) System and method of using acoustic models for automatic speech recognition which distinguish pre- and post-vocalic consonants
Schuppler et al. A corpus of read and conversational Austrian German
Murthy et al. Effect of TTS Generated Audio on OOV Detection and Word Error Rate in ASR for Low-resource Languages.
CN110767233A (zh) 一种语音转换系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20181009

WW01 Invention patent application withdrawn after publication