CN114550693A - 一种多语种语音翻译方法及系统 - Google Patents
一种多语种语音翻译方法及系统 Download PDFInfo
- Publication number
- CN114550693A CN114550693A CN202210204940.7A CN202210204940A CN114550693A CN 114550693 A CN114550693 A CN 114550693A CN 202210204940 A CN202210204940 A CN 202210204940A CN 114550693 A CN114550693 A CN 114550693A
- Authority
- CN
- China
- Prior art keywords
- audio
- speech
- text
- source
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 15
- 230000003993 interaction Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000014616 translation Effects 0.000 description 31
- 238000005516 engineering process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多语种语音翻译方法及系统,涉及语音翻译技术领域,首先获取源语音音频和目标语种类别;对源语音音频进行音频预处理,得到预处理后的源语音音频;对于预处理后的源语音音频,进行语种识别,得到待翻译的源语种类别;依据源语种类别,采用对应的语音识别模型,将预处理后的源语音音频转换成源语音文本;将源语音文本输入文本翻译模型中,得到目标语种文本。本发明能够克服源语音的噪声影响,提高模型识别的准确率,并且能够对多种不同的语言类型进行准确的识别和翻译,提高用户的使用体验感。
Description
技术领域
本发明涉及语音翻译技术领域,更具体的说是涉及一种多语种语音翻译方法及系统。
背景技术
随着人工智能、自然语言处理等技术的发展,语音翻译技术在同传、外语教学等场景中得到了广泛的应用。语音翻译的目的是将一种语言的语音转化为另一种语言的文本。
语音翻译过程通常包括两个步骤,即,由语音翻译模型实现语音识别和文本翻译。具体地,首先,将一段语音经过语音识别技术,识别成与之同一语种的文本,然后,利用文本翻译技术将该识别文本翻译成另一语种的文本,从而实现语音翻译过程。
但是,联合语音识别技术和文本翻译技术进行语音翻译,存在错误累积的缺点,尤其对于初始的语音识别这一环节,容易受到源语音的噪声影响,导致识别结果准确率较低,并且由于大多的语音翻译仅支持单一的语种翻译,对于不同语种的音频进行翻译时,由于模型的单一性限制,导致语音识别不准确,因此,如何提高语音翻译过程,尤其是语音识别环节的准确性,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种多语种语音翻译方法及系统。
为了实现上述目的,本发明提供如下技术方案:
一种多语种语音翻译方法,包括以下步骤:
步骤1、获取源语音音频和目标语种类别;
步骤2、对源语音音频进行音频预处理,得到预处理后的源语音音频;
步骤3、对于预处理后的源语音音频,进行语种识别,得到待翻译的源语种类别;
步骤4、依据源语种类别,采用对应的语音识别模型,将预处理后的源语音音频转换成源语音文本;
步骤5、将源语音文本输入文本翻译模型中,得到目标语种文本。
可选的,所述步骤2中,所述预处理包括语音增强和噪声过滤。通过语音预处理,消除源语音音频中的噪声信息,提高后续进行特征提取和语音识别的准确率。
可选的,所述步骤3中,进行语种识别的具体过程为:
步骤3.1、对于待识别的语音音频,进行特征提取,得到多个音频特征;
步骤3.2、基于神经网络的注意力机制,选出主要音频特征;
步骤3.3、基于所述主要音频特征,确定语种识别结果。
基于音频中的主要音频特征来确定该音频的语种类别,克服了部分音频中掺杂其他语言而无法准确确定待翻译音频语种的问题。
可选的,所述步骤3.1中,进行特征提取的具体过程为:
对待识别的语音音频进行分段,对于每段语音音频,提取其ZCPA特征作为音频特征。选用ZCPA特征作为音频特征,能够更好地反映音频的特点,克服音频中的噪声影响,提高系统鲁棒性。
可选的,所述步骤3.3中,需调用预设的语种特征库,根据音频特征,确定语种识别结果。
可选的,所述步骤4中,预设有多个语音识别模型,用于对不同语种的语音音频进行语音识别。
可选的,所述步骤4中,对语音识别模型进行训练的方法为:
使用网络爬虫获取不同语种的训练数据,所述训练数据中至少包括语音音频和对应的语音文本;
使用对应语种的训练数据,训练对应的神经网络模型,得到多个语音识别模型。
可选的,所述步骤5中,进行文本翻译的过程为:
调取目标语种类别的词向量库和语法规则库;
将源语音文本输入文本翻译模型中,依据对应的词向量库和语法规则库,进行词向量整合,得到目标语种文本。
一种多语种语音翻译系统,包括语音采集装置、交互装置、存储器和处理器、文本显示装置;所述处理器分别与语音采集装置、交互装置、存储器、文本显示装置连接;
所述语音采集装置用于采集源语音音频;
所述交互装置用于获取目标语种类别;
所述处理器内存储有计算机程序,用于对源语音音频进行处理,得到目标语种文本;所述处理器执行所述计算机程序时实现如上任一所述的一种多语种语音翻译方法;
所述存储器,包含有多个数据库;
所述文本显示装置用于显示目标语种文本。
可选的,所述交互装置和文本显示装置集成于一体,通过显示屏的方式进行交互和文本显示。
经由上述的技术方案可知,本发明公开提供了一种多语种语音翻译方法及系统,与现有技术相比,具有以下有益效果:
本发明对源语音音频进行预处理操作,进行增强和噪声过滤,提高后续进行特征提取和语音识别的准确率。基于ZCPA特征进行语种识别,准确识别出待翻译音频语种类别,进而选取对应的语音识别模型进行语音识别,将源语音音频转换成源语音文本,并对该文本进行翻译,得到最终的目标语种文本。本发明能够克服源语音的噪声影响,提高模型识别的准确率,并且能够对多种不同的语言类型进行准确的识别和翻译,提高用户的使用体验感。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的方法步骤示意图;
图2为本发明的系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种多语种语音翻译方法,参见图1,包括以下步骤:
步骤1、获取源语音音频和目标语种类别;
步骤2、对源语音音频进行音频预处理,得到预处理后的源语音音频;
其中,预处理包括语音增强和噪声过滤。在具体实施例中,音频的预处理包括自适应滤波器法、谱减法、维纳滤波法等。
步骤3、对于预处理后的源语音音频,进行语种识别,得到待翻译的源语种类别。
在具体实施例中,进行语种识别的具体过程为:
步骤3.1、对待识别的语音音频进行分段,对于每段语音音频,提取其ZCPA特征作为音频特征,进而得到多个音频特征;
步骤3.2、基于神经网络的注意力机制,选出多个音频特征中的主要音频特征;
步骤3.3、基于所述主要音频特征,调用预设的语种特征库,确定最终的语种识别结果。所述语种特征库中存储有多个语种类别标签及其对应的音频特征。
值得注意的是,对于待识别的源语音音频,识别其音频语种类别尤为重要。例如,对于一段音频中,英文中包含了少部分的中文,该音频主要内容是英文,目的是将英文音频转化为中文文本,如果使用普通的特征识别,容易将中文部分的特征识别为音频的语种,进而将待翻译音频作为中文文本,后续调用语音识别模型时调取错误,影响音频的识别,因此识别一段音频的主要特征尤为重要。
步骤4、依据源语种类别,采用对应的语音识别模型,将预处理后的源语音音频转换成源语音文本。所述语音识别模型设置有多个,用于对不同语种的音频进行语音识别,转换成文本。
所述语音识别模型的训练过程为:
使用网络爬虫获取不同语种的训练数据,所述训练数据中至少包括语音音频和对应的语音文本;
使用对应语种的训练数据,训练对应的神经网络模型,得到多个语音识别模型。
步骤5、将源语音文本输入文本翻译模型中,得到目标语种文本。
具体的,进行文本翻译的过程为:
调取目标语种类别的词向量库和语法规则库;
将源语音文本输入文本翻译模型中,依据对应的词向量库和语法规则库,进行词向量整合,得到目标语种文本。
在具体实施例中,所述文本翻译模型的训练过程还可以使用其他现有方法,本发明对此不做限制。
本发明实施例还公开一种多语种语音翻译系统,参加图2,包括语音采集装置、交互装置、存储器和处理器、文本显示装置;所述处理器分别与语音采集装置、交互装置、存储器、文本显示装置连接;
所述语音采集装置用于采集源语音音频;具体实施情形中,语音采集装置可以是麦克风等,也可以通过无线数据传输的方式将待处理音频进行传输。
所述交互装置用于获取目标语种类别;
所述处理器内存储有计算机程序,用于对源语音音频进行处理,得到目标语种文本;所述处理器执行所述计算机程序时实现如上任一所述的一种多语种语音翻译方法;
所述存储器,包含有多个数据库;
所述文本显示装置用于显示目标语种文本。
可选的,所述交互装置和文本显示装置集成于一体,通过显示屏(或触摸屏,或网页)的方式进行交互和文本显示。
用户首先通过交互装置进行操作,设置目标语种类别,并输入待翻译的源语音音频,所述处理器处理用户输入的源语音音频,将其转化为目标语种文本,并将目标语种文本显示在显示屏上。用户可以通过无线数据传输的方式下载目标语种文本。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种多语种语音翻译方法,其特征在于,包括以下步骤:
步骤1、获取源语音音频和目标语种类别;
步骤2、对源语音音频进行音频预处理,得到预处理后的源语音音频;
步骤3、对于预处理后的源语音音频,进行语种识别,得到待翻译的源语种类别;
步骤4、依据源语种类别,采用对应的语音识别模型,将预处理后的源语音音频转换成源语音文本;
步骤5、将源语音文本输入文本翻译模型中,得到目标语种文本。
2.根据权利要求1所述的一种多语种语音翻译方法,其特征在于,所述步骤2中,所述预处理包括语音增强和噪声过滤。
3.根据权利要求1所述的一种多语种语音翻译方法,其特征在于,所述步骤3中,进行语种识别的具体过程为:
步骤3.1、对于待识别的语音音频,进行特征提取,得到多个音频特征;
步骤3.2、基于神经网络的注意力机制,选出主要音频特征;
步骤3.3、基于所述主要音频特征,确定语种识别结果。
4.根据权利要求3所述的一种多语种语音翻译方法,其特征在于,所述步骤3.1中,进行特征提取的具体过程为:
对待识别的语音音频进行分段,对于每段语音音频,提取其ZCPA特征作为音频特征。
5.根据权利要求3所述的一种多语种语音翻译方法,其特征在于,所述步骤3.3中,需调用预设的语种特征库,根据音频特征,确定语种识别结果。
6.根据权利要求1所述的一种多语种语音翻译方法,其特征在于,所述步骤4中,预设有多个语音识别模型,用于对不同语种的语音音频进行语音识别。
7.根据权利要求6所述的一种多语种语音翻译方法,其特征在于,所述步骤4中,对语音识别模型进行训练的方法为:
使用网络爬虫获取不同语种的训练数据,所述训练数据中至少包括语音音频和对应的语音文本;
使用对应语种的训练数据,训练对应的神经网络模型,得到多个语音识别模型。
8.根据权利要求1所述的一种多语种语音翻译方法,其特征在于,所述步骤5中,进行文本翻译的过程为:
调取目标语种类别的词向量库和语法规则库;
将源语音文本输入文本翻译模型中,依据对应的词向量库和语法规则库,进行词向量整合,得到目标语种文本。
9.一种多语种语音翻译系统,其特征在于,包括语音采集装置、交互装置、存储器和处理器、文本显示装置;所述处理器分别与语音采集装置、交互装置、存储器、文本显示装置连接;
所述语音采集装置用于采集源语音音频;
所述交互装置用于获取目标语种类别;
所述处理器内存储有计算机程序,用于对源语音音频进行处理,得到目标语种文本;所述处理器执行所述计算机程序时实现如权利要求1-8任一所述的一种多语种语音翻译方法;
所述存储器,包含有多个数据库;
所述文本显示装置用于显示目标语种文本。
10.根据权利要求9所述的一种多语种语音翻译系统,其特征在于,所述交互装置和文本显示装置集成于一体,通过显示屏的方式进行交互和文本显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210204940.7A CN114550693A (zh) | 2022-03-02 | 2022-03-02 | 一种多语种语音翻译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210204940.7A CN114550693A (zh) | 2022-03-02 | 2022-03-02 | 一种多语种语音翻译方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114550693A true CN114550693A (zh) | 2022-05-27 |
Family
ID=81661039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210204940.7A Pending CN114550693A (zh) | 2022-03-02 | 2022-03-02 | 一种多语种语音翻译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114550693A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116450771A (zh) * | 2022-12-16 | 2023-07-18 | 镁佳(北京)科技有限公司 | 一种多语种语音翻译模型构建方法及语音翻译方法、装置 |
-
2022
- 2022-03-02 CN CN202210204940.7A patent/CN114550693A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116450771A (zh) * | 2022-12-16 | 2023-07-18 | 镁佳(北京)科技有限公司 | 一种多语种语音翻译模型构建方法及语音翻译方法、装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111968649B (zh) | 一种字幕纠正方法、字幕显示方法、装置、设备及介质 | |
CN109255113B (zh) | 智能校对系统 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN106485984B (zh) | 一种钢琴的智能教学方法和装置 | |
CN108549637A (zh) | 基于拼音的语义识别方法、装置以及人机对话系统 | |
CN110970018B (zh) | 语音识别方法和装置 | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN108305618B (zh) | 语音获取及搜索方法、智能笔、搜索终端及存储介质 | |
CN104969288A (zh) | 基于话音记录日志提供话音识别系统的方法和系统 | |
CN113707125A (zh) | 一种多语言语音合成模型的训练方法及装置 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
CN113935339A (zh) | 翻译方法、装置、电子设备及存储介质 | |
CN109918677B (zh) | 一种英文单词语义解析的方法及系统 | |
CN114550693A (zh) | 一种多语种语音翻译方法及系统 | |
CN110931018A (zh) | 智能语音交互的方法、装置及计算机可读存储介质 | |
CN111475129A (zh) | 一种语音识别候选同音词的展示方法及设备 | |
CN115186070A (zh) | 信息处理方法、装置、设备、存储介质及程序产品 | |
CN113920987A (zh) | 一种语音识别的方法、装置、设备及存储介质 | |
CN113096667A (zh) | 一种错别字识别检测方法和系统 | |
CN114078470A (zh) | 模型处理方法及装置、语音识别方法及装置 | |
CN108630192B (zh) | 一种非汉语语音识别方法、系统及其构造方法 | |
CN111104118A (zh) | 一种基于aiml的自然语言指令执行方法及系统 | |
CN110930992A (zh) | 数据处理方法、装置、智能终端和存储介质 | |
CN116386611B (zh) | 一种教学声场环境的去噪方法 | |
JP7409475B2 (ja) | 発話終端検出装置、制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |