CN109637555A

CN109637555A - 一种商务会议用日语语音识别翻译系统

Info

Publication number: CN109637555A
Application number: CN201910117668.7A
Authority: CN
Inventors: 冯涛; 杨彬
Original assignee: Guangdong Institute of Science and Technology
Current assignee: Guangdong Chuangfeng Precision Machinery Co ltd
Priority date: 2019-02-15
Filing date: 2019-02-15
Publication date: 2019-04-16
Anticipated expiration: 2039-02-15
Also published as: CN109637555B

Abstract

本发明公开了一种商务会议用日语语音识别翻译系统，包括固定于中心塔外表面的麦克风阵列，麦克风阵列电性连接至处理器输入接口，处理器输出接口电性连接至扬声器，麦克风阵列中单个的麦克风包括单向筒，收集语音录音，判断发言人位置，将对应方向的麦克风采集声音作为原声，原声中高于日语频谱的声音过滤，将原声根据发声的间隔切割为语段，语段输入语音‑语义对比库进行对比，匹配出原声对应的翻译后语义，将翻译后语义通过扬声器播放；本发明实施中，降低采集到语音信息的杂音，提高翻译的成功率；将采集到的语音模拟电流信息除杂后叠加增益，并根据日语的特点进一步过滤杂声，转化为语义信息后进行翻译。

Description

一种商务会议用日语语音识别翻译系统

技术领域

本发明涉及会务翻译领域，具体涉及一种商务会议用日语语音识别翻译系统。

背景技术

随着科技的进步，国际交流的日益繁杂和信息量急剧增加，不同语言之间的障碍所导致的信息问题越来越影响沟通的效率。中日语商务会议中，需要人工翻译对与会人员的发言进行实时翻译，不仅人力成本高昂，而且人工翻译过程中经常出现因为思考而导致的中断。

现有技术中采用机器翻译方式对会议中的发言进行实时翻译，但是由于会议室中的复杂声源状况，直接使用麦克风进行采集，采集到的声音夹杂大量无关语音，会导致后期的语音识别和翻译出现错误。尤其是针对日语的识别和实时翻译，由于日语中每个发音短促，未经除杂降噪处理的声音信息直接处理更容易导致识别错误。

在公开号为CN100440150C的专利中公开了一种将源语言输入机器翻译成使用目标语言的翻译输出的一种方法，其特征在于，包括：将源语言输入的片段与例库中的例子的源语言片段进行匹配；将源语言输入中所有匹配的块识别为源语言输入中的一组项，这组项由例子中的一个或多个源语言片段匹配；选择匹配的块的块组合，以包含源语言输入的一个或多个片段；关于所选择的块组合中的每个块，识别与该块有关的例子；将所识别的例子的目标语言部分与所识别的例子的源语言部分进行对准，所识别的例子的源语言部分与源语言输入的一个或多个片段相匹配；访问项库以获得源语言输入中未被所识别的例子覆盖的项的译文；以及，根据被调准的部分来提供翻译输出，以作为所识别的例子的目标语言部分。但是上述专利中，将采集到的声音直接进行识别翻译，依旧存在识别不准确的问题。

发明内容

本发明的目的在于克服现有技术中存在的上述问题，提供一种商务会议用日语语音识别翻译系统，降低采集到语音信息的杂音，提高翻译的成功率。

为实现上述技术目的，达到上述技术效果，本发明是通过以下技术方案实现：

一种商务会议用日语语音识别翻译装置，包括固定于中心塔外表面的麦克风阵列，麦克风阵列电性连接至处理器输入接口，处理器输出接口电性连接至扬声器；

所述麦克风阵列中单个的麦克风包括单向筒，单向筒底部设置有震动膜，震动膜相对设置有基板，震动膜和基板电性连接至放大电路，放大电路经过数字采样电路后电性连接至处理器；

球形中心塔表面均匀分布的麦克风阵列采集会议中的语音，由于声波为纵波，与单向筒方向相同的声波才会直接进入单向筒内，引起震动膜的震动，震动膜与基板之间的相对距离改变，产生的电信号经过放大电路产生声波模拟电流信号，经过数字采样电路后变为声波数字信号，进入处理器进行接下来的处理。

进一步地，所述中心塔为球形，麦克风阵列均匀分布于中心塔表面。

进一步地，所述单向筒内设置有一个以上板状或筒状导向机构。

进一步地，所述震动膜为铝箔，与放大电路连接处镀设有金箔。

一种商务会议用日语语音识别翻译方法，包括以下步骤：

步骤S1：收集语音录音；

步骤S2：判断发言人位置，将对应方向的麦克风采集声音作为原声(Initialization-Voice)；

步骤S3：原声(Initialization-Voice)中高于日语频谱的声音过滤；

步骤S4：将原声(Initialization-Voice)根据发声的间隔切割为语段(Segment)，语段(Segment)输入语音-语义对比库进行对比，匹配出原声(Initialization-Voice)对应的翻译后语义(Post-translational-Semantics)；

步骤S5：将翻译后语义(Post-translational-Semantics)通过扬声器播放。

进一步地，所述步骤S2具体包括以下步骤：

步骤S2.1：麦克风阵列中每个麦克风同步实时采集声音，将每个麦克风采集声音的时间按照时间排序，标记为集合A₀[V₁，V₂，V₃…V_n]；

步骤S2.2：时间最早收集到的声音为原声(Initialization-Voice)，标记该麦克风为标准音麦克风(Standard-microphone)；

步骤S2.3：将集合A₀中的声音波形按照相位差进行调整，将初始位置对齐，将集合A₀中的声音波形叠加增益后输入至处理器。

进一步地，由于回声也会被麦克风阵列采集，将回声进行处理，拟合为声波，并增益至原声(Initialization-Voice)。

进一步地，麦克风阵列采集A₀[V₁，V₂，V₃…V_n]后，继续采集回声，其中每个麦克风采集的声音标记为P[P₁，P₂，…P_n]建立关于麦克风序号为变量的散点函数I(P_n)，设f(x)为待合成语音以时间为变量的波形函数图，b代表P_n处收集声波的响度与原声(Initialization-Voice)的比值，k_x与k_n分别代表麦克风阵列与回声障碍物的法向量，S为人声频率范围集合，则

若麦克风阵列与发言人之间有障碍物，则V等于0，无障碍物则等于1；

反向计算出f(x)，为利用回声合成的语音，声音波形叠加增益后输入至处理器。

进一步地，所述步骤S4中，将原声(Initialization-Voice)中高于以及低于日语频谱的声音过滤。

进一步地，所述步骤S4中，语音-语义对比库包括本地对比库与云端对比库，本地对比库中包含常用语段，非常用语段存储至云端；

进行对比时，优先与本地对比库进行对比，未匹配则将其上传至云端与云端对比库进行对比。

本发明的收益效果是：

降低采集到语音信息的杂音，提高翻译的成功率；将采集到的语音模拟电流信息除杂后叠加增益，并根据日语的特点进一步过滤杂声，转化为语义信息后进行翻译。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述商务会议用日语语音识别翻译装置的结构示意图；

图2为本发明所述麦克风阵列中单个麦克风的结构示意图；

图3为本发明所述装置中放大电路连接的示意图；

图4为本发明所述商务会议用日语语音识别翻译方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1-4所示，本发明为：

一种商务会议用日语语音识别翻译装置，包括固定于中心塔1外表面的麦克风阵列2，麦克风阵列2电性连接至处理器3输入接口，处理器3输出接口电性连接至扬声器4；

所述麦克风阵列2中单个的麦克风包括单向筒21，单向筒21，单向筒21底部设置有震动膜22，震动膜22相对设置有基板23，震动膜22和基板23电性连接至放大电路，放大电路经过数字采样电路后电性连接至处理器3；

球形中心塔1表面均匀分布的麦克风阵列2采集会议中的语音，由于声波为纵波，与单向筒21方向相同的声波才会直接进入单向筒21内，引起震动膜22的震动，震动膜22与基板23之间的相对距离改变，产生的电信号经过放大电路产生声波模拟电流信号，经过数字采样电路后变为声波数字信号，进入处理器3进行接下来的处理。

进一步地，所述中心塔1为球形，麦克风阵列2均匀分布于中心塔1表面。

进一步地，所述单向筒21内设置有一个以上板状或筒状导向机构24。

进一步地，所述震动膜22为铝箔，与放大电路连接处镀设有金箔。

一种商务会议用日语语音识别翻译方法，包括以下步骤：

步骤S1：收集语音录音；

步骤S3：原声(Initialization-Voice)中高于日语频谱的声音过滤；

步骤S5：将翻译后语义(Post-translational-Semantics)通过扬声器播放

进一步地，所述步骤S2具体包括以下步骤：

步骤S2.1：麦克风阵列2中每个麦克风同步实时采集声音，将每个麦克风采集声音的时间按照时间排序，标记为集合A₀[V₁，V₂,V₃…V_n]；

步骤S2.3：将集合A₀中的声音波形按照相位差进行调整，将初始位置对齐，将集合A₀中的声音波形叠加增益后输入至处理器3。

进一步地，由于回声也会被麦克风阵列2采集，将回声进行处理，拟合为声波，并增益至原声(Initialization-Voice)。

进一步地，麦克风阵列2采集A₀[V₁，V₂，V₃…V_n]后，继续采集回声，其中每个麦克风采集的声音标记为P[P₁，P₂，…P_n]建立关于麦克风序号为变量的散点函数I(P_n)，设f(x)为待合成语音以时间为变量的波形函数图，b代表P_n处收集声波的响度与原声(Initialization-Voice)的比值，k_x与k_n分别代表麦克风阵列2与回声障碍物的法向量，S为人声频率范围集合，则

若麦克风阵列2与发言人之间有障碍物，则V等于0，无障碍物则等于1；

反向计算出f(x)，为利用回声合成的语音，声音波形叠加增益后输入至处理器3；

上述公式中，即是将会议室墙面以及相关物体反射的声波进行拟合。

本实施例的一个具体应用为：

判断发言人位置，将对应方向的麦克风采集声音作为原声(Initialization-Voice)，由于单向筒21分布于球星中心塔1表面，因此发言人对应方向的麦克风采集到的声音即为原声(Initialization-Voice)；

由于震动膜22震动产生的电流过于微弱，放大电路放大倍数过高会导致输出电流畸变，因此将其它麦克风收集的回声进行处理，与原声(Initialization-Voice)相互叠加，可以起到降低信号畸变的作用，麦克风阵列2中每个麦克风同步实时采集声音，将每个麦克风采集声音的时间按照时间排序，标记为集合A₀[V₁，V₂，V₃…V_n]，时间最早收集到的声音为原声(Initialization-Voice)，标记该麦克风为标准音麦克风(Standard-microphone)；

麦克风阵列2采集A₀[V₁，V₂，V₃…V_n]后，继续采集回声，其中每个麦克风采集的声音标记为P[P₁，P₂，…P_n]建立关于麦克风序号为变量的散点函数I(P_n)，设f(x)为待合成语音以时间为变量的波形函数图，b代表P_n处收集声波的响度与原声(Initialization-Voice)的比值，k_x与k_n分别代表麦克风阵列2与回声障碍物的法向量，S为人声频率范围集合，则

反向计算出f(x)，为利用回声合成的语音，该声音波形按照相位差进行调整，将初始位置对齐，将集合A₀中的声音波形叠加增益后输入至处理器3；

由于每种语言频谱具有相对固定的率范围，因为过滤频谱外的声音，可以起到除去杂音的作用。

将原声(Initialization-Voice)根据发声的间隔切割为语段(Segment)，语段(Segment)输入语音-语义对比库进行对比，语音-语义对比库包括本地对比库与云端对比库，本地对比库中包含常用语段，非常用语段存储至云端，进行对比时，优先与本地对比库进行对比，未匹配则将其上传至云端与云端对比库进行对比，匹配出原声(Initialization-Voice)对应的翻译后语义(Post-translational-Semantics)。

将翻译后语义(Post-translational-Semantics)通过扬声器4播放。

上述操作中，相比较传统方式，降低采集到语音信息的杂音，提高翻译的成功率。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等描述意指结合该实施例或示例描述的具体特征、结构、材料过着特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种商务会议用日语语音识别翻译装置，其特征在于：包括固定于中心塔(1)外表面的麦克风阵列(2)，麦克风阵列(2)电性连接至处理器(3)输入接口，处理器(3)输出接口电性连接至扬声器(4)；

所述麦克风阵列(2)中单个的麦克风包括单向筒(21)，单向筒(21)，单向筒(21)底部设置有震动膜(22)，震动膜(22)相对设置有基板(23)，震动膜(22)和基板(23)电性连接至放大电路，放大电路经过数字采样电路后电性连接至处理器(3)。

2.根据权利要求1所述的装置，其特征在于：所述中心塔(1)为球形，麦克风阵列(2)均匀分布于中心塔(1)表面。

3.根据权利要求1所述的装置，其特征在于：所述单向筒(21)内设置有一个以上板状或筒状导向机构(24)。

4.根据权利要求1所述的装置，其特征在于：所述震动膜(22)为铝箔，与放大电路连接处镀设有金箔。

5.一种商务会议用日语语音识别翻译方法，其特征在于：包括以下步骤：

步骤S1：收集语音录音；

步骤S3：原声(Initialization-Voice)中高于或低于日语频谱的声音过滤；

步骤S5：将翻译后语义(Post-translational-Semantics)通过扬声器(4)播放。

6.根据权利要求5所述的方法，其特征在于：所述步骤S2具体包括以下步骤：

步骤S2.1：麦克风阵列(2)中每个麦克风同步实时采集声音，将每个麦克风采集声音的时间按照时间排序，标记为集合A₀[V₁，V₂，V₃…V_n]；

步骤S2.3：将集合A₀中的声音波形按照相位差进行调整，将初始位置对齐，将集合A₀中的声音波形叠加增益后输入至处理器(3)。

7.根据权利要求6所述的方法，其特征在于：

由于回声也会被麦克风阵列(2)采集，将回声进行处理，拟合为声波，并增益至原声(Initialization-Voice)。

8.根据权利要求7所述的方法，其特征在于：麦克风阵列(2)采集A₀[V₁，V₂，V₃…V_n]后，继续采集回声，其中每个麦克风采集的声音标记为P[P₁，P₂，…P_n]建立关于麦克风序号为变量的散点函数I(P_n)，设f(x)为待合成语音以时间为变量的波形函数图，b代表P_n处收集声波的响度与原声(Initialization-Voice)的比值，k_x与k_n分别代表麦克风阵列(2)与回声障碍物的法向量，S为人声频率范围集合，则

若麦克风阵列(2)与发言人之间有障碍物，则V等于0，无障碍物则等于1；

反向计算出f(x)，为利用回声合成的语音，声音波形叠加增益后输入至处理器(3)。

9.根据权利要求5所述的方法，其特征在于：所述步骤S4中，将原声(Initialization-Voice)中高于以及低于日语频谱的声音过滤。

10.根据权利要求5所述的方法，其特征在于：所述步骤S4中，语音-语义对比库包括本地对比库与云端对比库，本地对比库中包含常用语段，非常用语段存储至云端；