CN109446536A - 一种根据声强判断翻译器输入源语言的系统及方法 - Google Patents
一种根据声强判断翻译器输入源语言的系统及方法 Download PDFInfo
- Publication number
- CN109446536A CN109446536A CN201811257466.4A CN201811257466A CN109446536A CN 109446536 A CN109446536 A CN 109446536A CN 201811257466 A CN201811257466 A CN 201811257466A CN 109446536 A CN109446536 A CN 109446536A
- Authority
- CN
- China
- Prior art keywords
- short
- audio signal
- time
- frame
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000005236 sound signal Effects 0.000 claims abstract description 63
- 238000009432 framing Methods 0.000 claims abstract description 8
- 238000000926 separation method Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种根据声强判断翻译器输入源语言的系统,包括:语音处理模块、服务器、扬声器和最少2个拾音模块;拾音模块实时采集用户的音频信号,获取音频信号的某一短时间内的音频信号,并分帧,计算音频信号的每一帧的短时能量;语音处理模块将拾音模块分别求出的短时能量值进行比较大小,判断哪个拾音模块的能量高,从而判定哪个对话者在说话,并将此拾音模块的音频信号发送给服务器;服务器将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来;扬声器将翻译后的结果播放出来。本发明通过加入麦克风的判断,可以给出一个很经济的方法判定翻译机两端对话源,可以提升现有翻译机的操作方式,解放人按钮的操作。
Description
技术领域
本发明涉及翻译机技术领域,具体涉及一种根据声强判断翻译器输入源语言的系统及方法。
背景技术
CN107862060A一种追踪目标人的语义识别装置及识别方法,此发明公开了一种追踪目标人的语义识别装置,包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块;麦克风阵列模块采集来自外界声场的多路音频信号并进行语音增强处理,处理后的音频信号只增强了外界声场中特定位置声源的音频信号;说话人辨识模块提取麦克风阵列模块采集的声纹特征,与目标人的声纹模型进行匹配,判断通过麦克风阵列模块增强处理后的特定声源信号是否来自于目标人;语义匹配模块识别音频中的语义信息并以一定形式输出。本发明配置了声纹提取模块和声源定位模块,可以在噪杂的外界声场中定位到目标人的声源位置,并通过音频数据缓存区和语义匹配模块将目标人的语音信号转换为目标人语义。
可见目前市场的翻译机主要是默认相互翻译的两种语言,然后通过两颗按键,两颗按键分别对应其中的某个语言,然后翻译为另外一方的语言。
发明内容
有鉴于此,为了解决现有技术中的上述问题,本发明提出一种根据声强判断翻译器输入源语言的系统及方法,可以根据分居两端的人对话输入语音,麦克风进行采集,采集语音之后,语音处理模块通过处理可以判断哪个麦克风的声强大,判断出是哪个方向的语音输入,从而知道输入源的语音,进行翻译。
本发明通过以下技术手段解决上述问题:
一方面,本发明提供一种根据声强判断翻译器输入源语言的系统,包括:语音处理模块、服务器、扬声器和最少2个拾音模块;
所述拾音模块用于实时采集用户的音频信号,获取音频信号的某一短时间内的音频信号,并分帧,计算音频信号的每一帧的短时能量;
所述语音处理模块用于将拾音模块分别求出的短时能量值进行比较大小,判断哪个拾音模块的能量高,从而判定哪个对话者在说话,并将此拾音模块的音频信号发送给服务器;
所述服务器用于将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来;
所述扬声器用于将翻译后的结果播放出来。
进一步地,所述拾音模块为麦克风。
进一步地,所述拾音模块计算音频信号的每一帧的短时能量具体方法如下:
音频信号的特征是随时间变化的,但是在一个短时间范围内,通常认为在10~30ms的短时内,其特征基本保持不变,相对稳定,具有短时平稳性,所以将音频信号分割成一帧一帧的短时信号来进行分析,对每个拾音模块的每一帧的短时信号X进行求平方和,得到此短时间内的短时能量值E,
E=X1 2+X2 2+X3 2.........+XN 2;
其中X1、X2、X3、.........XN是代表每一帧的短时信号。
另一方面,本发明提供一种根据声强判断翻译器输入源语言的方法,包括如下步骤:
S1、拾音模块实时采集用户的音频信号,获取音频信号的某一短时间内的音频信号,并分帧,计算音频信号的每一帧的短时能量;
S2、语音处理模块将拾音模块分别求出的短时能量值进行比较大小,判断哪个拾音模块的能量高,从而判定哪个对话者在说话,并将此拾音模块的音频信号发送给服务器;
S3、服务器将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来;
S4、扬声器将翻译后的结果播放出来。
进一步地,所述拾音模块为麦克风。
进一步地,所述拾音模块计算音频信号的每一帧的短时能量具体方法如下:
音频信号的特征是随时间变化的,但是在一个短时间范围内,通常认为在10~30ms的短时内,其特征基本保持不变,相对稳定,具有短时平稳性,所以将音频信号分割成一帧一帧的短时信号来进行分析,对每个拾音模块的每一帧的短时信号X进行求平方和,得到此短时间内的短时能量值E,
E=X1 2+X2 2+X3 2.........+XN 2;
其中X1、X2、X3、.........XN是代表每一帧的短时信号。
与现有技术相比,本发明的有益效果至少包括:
本发明通过加入麦克风的判断,可以给出一个很经济的方法判定翻译机两端对话源,可以提升现有翻译机的操作方式,解放人按钮的操作。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明根据声强判断翻译器输入源语言的系统的结构示意图;
图2为本发明根据声强判断翻译器输入源语言的方法的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明提供一种根据声强判断翻译器输入源语言的系统,包括:语音处理模块、服务器、扬声器和最少2个拾音模块;
所述拾音模块用于实时采集用户的音频信号,获取音频信号的某一短时间内的音频信号,并分帧,计算音频信号的每一帧的短时能量;
所述语音处理模块用于将拾音模块分别求出的短时能量值进行比较大小,判断哪个拾音模块的能量高,从而判定哪个对话者在说话,并将此拾音模块的音频信号发送给服务器;
所述服务器用于将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来;
所述扬声器用于将翻译后的结果播放出来。
具体地,所述拾音模块为麦克风。
拾音模块——分居设备两端的麦克风(最少2个麦克风,中间的距离不能太近),需要通过软件预设相互翻译的语言对应分居麦克风。
语音处理模块——通过短时能量检测的方式判断哪个麦克风的能量高,可以判断出是哪个对话者在说话。
本发明根据声强判断翻译器输入源语言的系统的工作过程如下:
①用户开启系统,对话者也对应分居麦克风对应的两端;
②系统的麦克风实时采集用户对着麦克风输出的音频信号;获取音频信号实时采集的某一短时间内的音频信号,并分帧。计算采集的音频信号的每一帧的短时能量;
音频信号的特征是随时间变化的,但是在一个短时间范围内,通常认为在10~30ms的短时内,其特征基本保持不变,相对稳定,具有短时平稳性。所以可以将音频信号分割成一帧一帧的短时信号来进行分析;
③设备的拾音模块通过计算,对每个麦克风的每一帧的短时信号X进行求平方和,得到此短时间内的短时能量值E,发送给语音处理模块
E=X1 2+X2 2+X3 2.........+XN 2;
其中X1、X2、X3、.........XN是代表每一帧的短时信号。
④语音处理模块将此时两个麦克风分别求出的短时能量值进行比较大小,判断哪个麦克风的能量高,从而判定哪个对话者在说话,并将此麦克风的音频信号发送给服务器;
⑤服务器将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来。
实施例2
如图2所示,本发明还提供一种根据声强判断翻译器输入源语言的方法,包括如下步骤:
S1、拾音模块实时采集用户的音频信号,获取音频信号的某一短时间内的音频信号,并分帧,计算音频信号的每一帧的短时能量;
S2、语音处理模块将拾音模块分别求出的短时能量值进行比较大小,判断哪个拾音模块的能量高,从而判定哪个对话者在说话,并将此拾音模块的音频信号发送给服务器;
S3、服务器将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来;
S4、扬声器将翻译后的结果播放出来。
具体地,所述拾音模块为麦克风。
具体地,所述拾音模块计算音频信号的每一帧的短时能量具体方法如下:
音频信号的特征是随时间变化的,但是在一个短时间范围内,通常认为在10~30ms的短时内,其特征基本保持不变,相对稳定,具有短时平稳性,所以将音频信号分割成一帧一帧的短时信号来进行分析,对每个拾音模块的每一帧的短时信号X进行求平方和,得到此短时间内的短时能量值E,
E=X1 2+X2 2+X3 2.........+XN 2;
其中X1、X2、X3、.........XN是代表每一帧的短时信号。
本发明可以根据分居两端的人对话输入语音,麦克风模块进行采集,采集语音之后,语音处理模块通过处理可以判断哪个麦克风的声强大,判断出是哪个方向的语音输入,从而知道输入源的语音,进行翻译。可用于机器人听觉、人机语音交互系统、翻译设备以及音频监控等诸多领域。
与现有技术相比,本发明的有益效果至少包括:
本发明通过加入麦克风的判断,可以给出一个很经济的方法判定翻译机两端对话源,可以提升现有翻译机的操作方式,解放人按钮的操作。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种根据声强判断翻译器输入源语言的系统,其特征在于,包括:语音处理模块、服务器、扬声器和最少2个拾音模块;
所述拾音模块用于实时采集用户的音频信号,获取音频信号的某一短时间内的音频信号,并分帧,计算音频信号的每一帧的短时能量;
所述语音处理模块用于将拾音模块分别求出的短时能量值进行比较大小,判断哪个拾音模块的能量高,从而判定哪个对话者在说话,并将此拾音模块的音频信号发送给服务器;
所述服务器用于将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来;
所述扬声器用于将翻译后的结果播放出来。
2.如权利要求1所述的根据声强判断翻译器输入源语言的系统,其特征在于,所述拾音模块为麦克风。
3.如权利要求1所述的根据声强判断翻译器输入源语言的系统,其特征在于,所述拾音模块计算音频信号的每一帧的短时能量具体方法如下:
音频信号的特征是随时间变化的,但是在一个短时间范围内,通常认为在10~30ms的短时内,其特征基本保持不变,相对稳定,具有短时平稳性,所以将音频信号分割成一帧一帧的短时信号来进行分析,对每个拾音模块的每一帧的短时信号X进行求平方和,得到此短时间内的短时能量值E,
E=X1 2+X2 2+X3 2.........+XN 2;
其中X1、X2、X3、.........XN是代表每一帧的短时信号。
4.一种根据声强判断翻译器输入源语言的方法,其特征在于,包括如下步骤:
S1、拾音模块实时采集用户的音频信号,获取音频信号的某一短时间内的音频信号,并分帧,计算音频信号的每一帧的短时能量;
S2、语音处理模块将拾音模块分别求出的短时能量值进行比较大小,判断哪个拾音模块的能量高,从而判定哪个对话者在说话,并将此拾音模块的音频信号发送给服务器;
S3、服务器将接收到的音频信号进行识别翻译后,翻译后的结果通过扬声器播放出来;
S4、扬声器将翻译后的结果播放出来。
5.如权利要求4所述的根据声强判断翻译器输入源语言的方法,其特征在于,所述拾音模块为麦克风。
6.如权利要求4所述的根据声强判断翻译器输入源语言的方法,其特征在于,所述拾音模块计算音频信号的每一帧的短时能量具体方法如下:
音频信号的特征是随时间变化的,但是在一个短时间范围内,通常认为在10~30ms的短时内,其特征基本保持不变,相对稳定,具有短时平稳性,所以将音频信号分割成一帧一帧的短时信号来进行分析,对每个拾音模块的每一帧的短时信号X进行求平方和,得到此短时间内的短时能量值E,
E=X1 2+X2 2+X3 2.........+XN 2;
其中X1、X2、X3、.........XN是代表每一帧的短时信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811257466.4A CN109446536A (zh) | 2018-10-26 | 2018-10-26 | 一种根据声强判断翻译器输入源语言的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811257466.4A CN109446536A (zh) | 2018-10-26 | 2018-10-26 | 一种根据声强判断翻译器输入源语言的系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109446536A true CN109446536A (zh) | 2019-03-08 |
Family
ID=65547708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811257466.4A Pending CN109446536A (zh) | 2018-10-26 | 2018-10-26 | 一种根据声强判断翻译器输入源语言的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446536A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429905A (zh) * | 2020-03-23 | 2020-07-17 | 北京声智科技有限公司 | 语音信号处理方法、装置、语音智能电梯、介质和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN205450969U (zh) * | 2016-06-07 | 2016-08-10 | 马玉斌 | 一种实时语音翻译系统 |
CN106953961A (zh) * | 2017-04-28 | 2017-07-14 | 苏州科技大学 | 一种双麦克风的手机语音应用装置及其应用方法 |
CN107924395A (zh) * | 2015-08-24 | 2018-04-17 | 微软技术许可有限责任公司 | 个人翻译器 |
CN207764798U (zh) * | 2017-12-28 | 2018-08-24 | 科大讯飞股份有限公司 | 电子装置 |
US10074381B1 (en) * | 2017-02-20 | 2018-09-11 | Snap Inc. | Augmented reality speech balloon system |
-
2018
- 2018-10-26 CN CN201811257466.4A patent/CN109446536A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107924395A (zh) * | 2015-08-24 | 2018-04-17 | 微软技术许可有限责任公司 | 个人翻译器 |
CN205450969U (zh) * | 2016-06-07 | 2016-08-10 | 马玉斌 | 一种实时语音翻译系统 |
US10074381B1 (en) * | 2017-02-20 | 2018-09-11 | Snap Inc. | Augmented reality speech balloon system |
CN106953961A (zh) * | 2017-04-28 | 2017-07-14 | 苏州科技大学 | 一种双麦克风的手机语音应用装置及其应用方法 |
CN207764798U (zh) * | 2017-12-28 | 2018-08-24 | 科大讯飞股份有限公司 | 电子装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429905A (zh) * | 2020-03-23 | 2020-07-17 | 北京声智科技有限公司 | 语音信号处理方法、装置、语音智能电梯、介质和设备 |
CN111429905B (zh) * | 2020-03-23 | 2024-06-07 | 北京声智科技有限公司 | 语音信号处理方法、装置、语音智能电梯、介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN112397083B (zh) | 语音处理方法及相关装置 | |
CN105161093B (zh) | 一种判断说话人数目的方法及系统 | |
US9336780B2 (en) | Identification of a local speaker | |
US9881616B2 (en) | Method and systems having improved speech recognition | |
CN110049270A (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
CN110136727A (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
CN106157956A (zh) | 语音识别的方法及装置 | |
CN110310623A (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
CN104811559B (zh) | 降噪方法、通信方法及移动终端 | |
CN110364143A (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN103456305A (zh) | 终端和基于多个声音采集单元的语音处理方法 | |
CN110223711A (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
CN110097875A (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
CN109935226A (zh) | 一种基于深度神经网络的远场语音识别增强系统及方法 | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN110428806A (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
CN111583936A (zh) | 一种智能语音电梯控制方法及装置 | |
CN114141230A (zh) | 电子设备及其语音识别方法和介质 | |
CN110111776A (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
CN109887510A (zh) | 一种基于经验模态分解与mfcc的声纹识别方法及装置 | |
CN113744742B (zh) | 对话场景下的角色识别方法、装置和系统 | |
CN105679323A (zh) | 一种号码发现方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190308 |
|
RJ01 | Rejection of invention patent application after publication |