CN116611457A - 一种基于手机的实时传译方法和设备 - Google Patents
一种基于手机的实时传译方法和设备 Download PDFInfo
- Publication number
- CN116611457A CN116611457A CN202310609971.5A CN202310609971A CN116611457A CN 116611457 A CN116611457 A CN 116611457A CN 202310609971 A CN202310609971 A CN 202310609971A CN 116611457 A CN116611457 A CN 116611457A
- Authority
- CN
- China
- Prior art keywords
- voice
- owner
- voice information
- mobile phone
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000006854 communication Effects 0.000 claims abstract description 106
- 238000004891 communication Methods 0.000 claims abstract description 100
- 238000013519 translation Methods 0.000 claims description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 14
- 238000003786 synthesis reaction Methods 0.000 claims description 14
- 230000002194 synthesizing effect Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 description 11
- 230000002457 bidirectional effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
Abstract
本发明公开一种基于手机的实时传译方法和设备,传译方法包括:步骤S1:设置交流对象语种类型;步骤S2:采集待翻译语音信息,并判断待翻译语音信息是否来自机主,若是,则进入步骤S3,若否,进入步骤S4;步骤S3:根据预设的机主语种和交流对象的语种类型将所述待翻译语音信息转换成与交流对象语种类型相同的第一语音信息,并将第一语音信息通过机主手机扬声器播放;步骤S4:根据预设的机主语种和交流对象的语种类型将待翻译语音信息转化成与机主语种相同的第二语音信息,并将第二语音信息通过机主耳机播放,所述机主耳机与机主手机通讯连接。本发明提供的方法只需设置交流对象的语种信息,无需进行其他操作,操作简便,使得交流过程更加流畅。
Description
技术领域
本发明涉及语音处理领域,具体为一种基于手机的实时传译方法和设备。
背景技术
语音转文字和文字转语音技术已得到广泛运用,各种翻译装置基本由语音采集、语音识别、文本翻译、语音合成、语音播放构成,叠加对各种场景的特殊需求,例如关注语音保真、语音定位、语音分离、通讯方式、通讯效率,现有技术的差异主要体现在对于具体场景的使用便利性、价性比,单向实时语音翻译已经普遍且成熟。
基于语音信息识别语种,从而实现双向实时语音翻译的技术仍不够成熟。语音特征、发音特征、声信号特征都是一个人的个人声学特征,一个人可以说不同语言,但是他在说不同语言时的个人声学特征却是相同的。同时,许多语言也有相似的语音语调等语音特征。因此,以语音信息识别语种实现双向实时语音翻译在实施上有重大缺陷。
就个人日常双向翻译需求而言,现有技术便捷性较差,以一些手持设备为例,包括安装有特定APP的手机,使用场景是,两个语言不通的人进行语言交流时,若仅使用一台手机,需不停地进行翻译方向转换操作,若各手持一台翻译设备,实际情况为很难同时持有这类设备,即便某人持有两台,基于信任、个人卫生、隐私等原因,分享多有不便。
就个人日常的双向翻译需求,①偶发即兴的街市场景,从可实施性角度看,远程播放装置的连接较为复杂,语言不通、互不相识的两个人也很难接受使用对方耳机,也就是说,方法改进的要点是基于机主自己完成所有操作。②相识有一定信任基础,交流时间较长,双方都有交流协作的意愿,此时提升用户感受的重点在于交流的真实性和流畅性。
基于前述场景的需求和现有技术,改进应聚焦在解决说话者是谁的问题,在操作层面要做到,①基于交流对象不需进行任何协作。②装置极简,尽量减少部件,减少增加部件带来的收纳、连接需求。③操作极简,不需交流对象参与操作,机主本人也较少或无需操作。④注重现场感受。⑤注重流畅性。提高语音翻译的效率和便利性,提升用户体验。
发明内容
本发明的目的是针对现有技术存在的问题,提供一种基于手机的实时传译方法和设备,用以解决上述技术问题中的至少一个。
基于本发明说明书的一方面,提供一种基于手机的实时传译方法,包括:
步骤S1:设置交流对象语种类型;机主可以根据交流场景的发生地或交流对象提供的国籍特征等信息设置交流对象的语种类型;
步骤S2:采集待翻译语音信息;
步骤S3:判断待翻译语音信息是否来自机主,若是,则进入步骤S4,若否,进入步骤S5;所述判断待翻译语音信息是否来自机主的方法包括:
提取待翻译语音信息的语音特征;
判断待翻译语音信息的语音特征与预存储的机主语音特征是否相符,若是,则待翻译语音信息来自机主,若否,则待翻译语音信息来自交流对象;
步骤S4:根据预设的机主语种和交流对象的语种类型将所述待翻译语音信息转换成与交流对象语种类型相同的第一语音信息,并将第一语音信息通过机主手机扬声器播放;第一语音信息的信息内容及语音特征均与机主所说的话相同,不同之处是,第一语音信息是以交流对象的语种呈现的;
步骤S5:根据预设的机主语种和交流对象的语种类型将待翻译语音信息转化成与机主语种相同的第二语音信息,并将第二语音信息通过机主耳机播放,所述机主耳机与机主手机通讯连接。第二语音信息的信息内容及语音特征均与交流对象所说的话相同,不同之处是,第一语音信息是以机主的语种呈现的。
在上述技术方案中,在设置好交流对象的语种特征后,利用语音特征对比实现对待翻译语音信息的来源进行判断,进而得到待翻译语音信息对应的语种类型,根据语种类型将说话者的待翻译语音信息转换成倾听者的语种对应的第一语音信息或第二语音信息,机主通过机主耳机收听第二语音信息,交流对象通过机主手机扬声器收听第一语音信息,从而实现双向传译。
每个人说出的话均具有不同的语音特征,例如不同人的声纹特征不同,因此,可以根据声纹特征分别待翻译语音是由哪一个人说出的,本发明中在机主手机内预存有机主的语音特征,当手机传声器(常见为手机麦克风)采集到待翻译语音信息后,通过比对机主的语音特征和待翻译语音信息的语音特征即可判断待翻译语音信息是否是由机主本人说的,由于机主手机已经获取了机主的语种和交流对象的语种,在判断出待翻译语音信息的来源后,即可直接获得待翻译语音信息对应的语种以及需要将语音转换成何种语种类型,从而进行后续的语音识别、文本翻译及语音合成等过程。
进一步地,所述步骤S4包括:
步骤S4.1:按照预设的机主语种识别逐段识别待翻译语音信息,得到第一机主语言文本;在这一步骤之前已经判定处待翻译语音信息来自机主,机主手机中预设有机主语种,此时根据机主语种可以将待翻译语音信息进行识别,得到一机主语种呈现的文本,即为第一机主语言文本;
步骤S4.2:将所述第一机主语言文本翻译为与交流对象语种类型相同的第一对象语言文本;在获得第一机主语言文本后,此时已经知晓机主语种和交流对象语种,因此可以直接将第一机主语言文本的文本内容翻译成以交流对象语种呈现的文本,即为第一对象语言文本;
步骤S4.3:将所述第一对象语言文本合成为与机主语音特征相符的第一语音信息;得到第一对象语言文本后,根据机主的语音特征,将第一对象语言文本合成语音,即为第一语音信息,第一语音信息包含机主的语音特征和语义,不仅能使交流对象清楚的知晓机主所说的话的含义,还能使交流对象听到的语音符合机主的语音特征,交流对象听起来会有自然真实感。
步骤S4.4:将所述第一语音信息传输至机主手机扬声器进行播放,同时控制手机传声器停止采集待翻译语音信息。当手机扬声器播放第一语音信息时,若此时手机传声器继续采集语音,会导致后续流程出现错乱,因为手机扬声器播放的声音是具有机主语音特征且语种为交流对象语种的语音,若对些语音进行分析,会导致流程无法实现,且增加了工作量,因此,在手机扬声器播放完语音的时候,应停止手机传声器对语音的采集。
逐段提取语音时,是根据语音有所停顿的特征来划分段落的,考虑到不同语言间主宾、时态、语序位置不同,往往要在听完整句后才能翻译,因此翻译实时性是相对的,往往落后实际说话者一个语句的时间。
将待翻译语音信息进行不同语言之间的转化通常需要经过语音识别,文本翻译和语音合成等步骤。语音识别,文本翻译,语音合成等技术均属现有技术,有各种模型和算法,例如,语音特征的提取可以采用梅尔频率倒谱系数(MFCC)或线性预测系数(LPC)等模型实现,文本信息的分析可以采用马尔可夫模型、深度神经网络模型或其他语言模型识别;语音合成可以采用基于HMM参数合成技术活DNN/CNN/RNN等深度学习算法模型进行语音合成;这些技术也处在蓬勃发展之中,执行效率和执行效果日新月异。一些技术需要一定的算法算力资源,可以在线调用技术开发商开放的端口随时采用最新的技术成果,也可以将成熟的算法资源下载到手机中离线使用。考虑到需要实时翻译的场景通常不会处于机主熟悉的地方,离线模式应为主要模式,在网络流畅时,可启用下载更新功能更新资源。
进一步地,所述步骤S5包括:
步骤S5.1:按照交流对象语种类型逐段识别待翻译语音信息,得到第二对象语言文本;在前面步骤中已经判断出待翻译语音信息来自交流对象,根据设定的交流对象的语种,以交流对象的语种识别待翻译语音信息得到一个文本,该文本即为第二对象语言文本;
步骤S5.2:将所述第二对象语言文本翻译成与机主语种相同的第二机主语言文本;在已知机主的语种的情况下,将第二对象语言文本翻译成以机主语言呈现的文本,该文本即为第二机主语言文本;
步骤S5.3:将所述第二机主语言文本合成为与交流对象语音特征相符的第二语音信息;
步骤S5.4:将所述第二语音信息传输至机主耳机进行播放。
当交流对象的语音被转换成具有交流对象语音特征的以机主语种呈现的语音后,机主是通过机主耳机收听翻译后的语音的,手机扬声器不会播放声音,可知此时手机传声器不会接收到翻译后的语音,因此,手机传声器可以继续采集语音作为待翻译语音信息并进行转换,从而实现交流对象可以不间断的说话,实现交流对象的说话的流畅性,且由于对交流对象的说话节奏无限制,在这样的模式下,易于被交流对象接受,极大的提高沟通的可行性。
进一步地,在所述步骤S1之前还包括:设置机主语种类型和机主语音特征;所述设置机主语音特征包括:获取一段机主语音信息,提取机主语音信息的语音特征作为机主语音特征并保存在机主手机内。
机主可以预先手动设置机主语种类型并保存在机主手机内,或机主进行注册时获取机主的国籍信息等与语种类型密切相关的信息,然后分析得到机主语种类型。为了获得机主语音特征,需要获取一段机主的语音,然后提取其中的语音特征即可得到机主语音特征。机主只需对机主语种类型和机主语音特征进行一次设定,后续使用过程无需重复设置,从而提升便利性。
进一步地,所述机主语音特征至少包括一种,每种机主语音特征对应同一种语种类型。
在一些特殊场景下,当机主与关系密切的同伴(此种情况下机主与同伴的语种类型相同)一起与交流对象沟通时,除了将手机机主本人外的语音特征作为机主语音特征外,可以将同伴的语音特征也作为机主语音特征。当采集到待翻译语音信息并提取语音特征后,将提取的语音特征与所有的机主语音特征进行比对,判断是否提取的语音特征是否与某一个机主语音特征相符,若是,则将待翻译语音信息来源视为机主并进行后续的处理,若提取的语音特征与所有的机主语音特征均不相互,则表明待翻译语音信息来自交流对象,然后做相应的转换处理。基于上述方法,可以实现机主与同伴共用一部手机,一方面降低对硬件(手机)的需求,另一方面提升交流效率(无需开启多个手机)。
基于本发明说明书的另一方面,提供一种基于手机的实时传译设备,用于实现所述的一种基于手机的实时传译方法的步骤,包括:
语种设置单元:所述语种设置单元用于设置交流对象的语种类型;
语音采集单元:所述语音采集单元与手机传声器连接,用于控制手机传声器采集待翻译语音信息;
语音识别单元:所述语音识别单元用于分析提取待翻译语音信息的语音特征和文本信息;
判断单元:所述判断单元用于判断待翻译语音信息是否来自机主;
文本翻译单元:所述文本翻译单元用于将第一机主语言文本翻译成第一对象语言文本,文本翻译单元还用于将第二对象语言文本翻译成第二机主语言文本;
语音合成单元:所述语音合成单元用于将第一对象语言文本合成为第一语音信息;语音合成单元还用于将第二机主语言文本合成为第二语音信息;
播放单元:所述播放单元与机主手机扬声器和机主耳机通讯连接,播放单元用于将第一语音信息传输至机主手机传声器进行播放,播放单元还用于将第二语音信息传输至机主耳机进行播放。
在上述技术方案中,硬件上只需要一个机主手机和一个机主耳机,即可实现双向的传译过程,所有对机主手机和机主耳机的操作均由机主本人完成,无需交流对象参与,可行性强。机主手机预先安装实时传译设备并设置机主语音特征和语种类别,后续使用时,仅仅需要打开软件并输入交流对象语种类型即可,无需其他操作,简化了操作过程,提升了交流效率。
进一步地,所述语音采集单元通讯连接有机主传声器,语音采集单元用于控制机主传声器采集待翻译语音信息。
当手机扬声器在播放第一语音信息时,手机传声器停止采集语音,手机扬声器的语音不会被手机传声器接收,但此时,机主可以继续说话,机主说的话会被机主传声器采集并传输至机主手机,机主手机判断出接收的语音来自机主传声器,则可直接判断该语音由机主所说,进而获得该段语音的语种为机主语种,后续进行相应的处理得到播放给交流对象听的语音。基于上述过程,机主在交流过程中可以不间断的说话,不必等到手机扬声器完成语音播放,提升了机主说话的流畅性。
进一步地,所述设备还包括:预设置单元,所述预设置单元用于设置机主语音特征和机主语种类型。
与现有技术相比,本发明的有益效果是:
(1)本发明提供的一种基于手机的实时传译方法,在设置好交流对象的语种后,通过判断待翻译语音信息是由机主还是交流对象所说,进而得到待翻译语音信息对应的语种类型,根据语种类型将说话者的待翻译语音信息转换成倾听者的语种对应的第一语音信息或第二语音信息,机主通过机主耳机收听第二语音信息,交流对象通过机主手机扬声器收听第二语音信息,从而实现双向传译。在交流过程中,只需设置交流对象的语种信息,无需进行其他操作,操作简便,使得交流过程更加流畅;无需与交流对象的硬件(如耳机或传声器等)进行连接或需要交流对象佩戴机主提供的硬件,便于交流关系的建立,提升了交流过程建立的可能性。
(2)本发明提供的传译方法,翻译后合成的语音保留说话者的个人语音特征,真实感更强。
(3)本发明提供的一种基于手机的实时传译装置,硬件设备上只需要一个机主手机和一个机主耳机,即可实现双向的传译过程,装置极简,完全不增加手机外部部件。所有对机主手机和机主耳机的操作均由机主本人完成,无需交流对象参与,可行性强。机主手机预先安装传译软件并设置机主语音特征和语种类别,后续使用时,仅仅需要打开软件并输入交流对象语种类型即可,无需其他操作,简化操作过程,提升交流效率。
附图说明
图1为根据本发明实施例的实时传译方法流程图;
图2为根据本发明实施例的实时传译方法步骤S3的详细流程图;
图3为根据本发明实施例的实时传译方法步骤S4的详细流程图;
图4为根据本发明实施例的实时传译设备的结构示意图;
图5为根据本发明实施例的另一种实时传译设备的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提供一种基于手机的实时传译方法,本实施例提供的传译方法的应用背景为机主为中国人,机主语种类型为中文,机主与同伴一同至德国游玩,同伴的语种类型与机主相同,均为中文,此时将机主本人和同伴共同视为机主。具体交流场景为机主与同伴一起和一个德国本地人沟通,实时传译过程包括:
步骤S0:机主预先在机主手机上设置机主语种类型,并获取机主本人和同伴的语音特征(如声纹特征)作为多个机主语音特征存储在机主手机上,获取机主本人和同伴的语音特征的方式为:通过手机传声器采集机主本人和同伴的语音,并从语音中提取机主本人和同伴的语音特征。
步骤S1:设置交流对象语种类型,在本实施例中交流对象为一个德国本地人,其语种类型为德语,机主开启手机并在手机上将交流对象语种类型设置为德语;
安装APP后首次使用时,须先执行步骤S0和步骤S1,后续每次打开APP后可以直接执行步骤S2,不再需要任何操作,后续需要改变对象语言时,例如旅行到了另一个国家时,可以后退进入步骤S1重新设置对象语言。
机主佩戴上机主耳机(机主耳机与机主手机通讯连接),并控制机主手机的传译软件开始传译工作。
步骤S2:连续采集待翻译语音信息(这里的连续采集,指没有接到停止采集的指令时,采集过程不会停止);
步骤S3:判断待翻译语音信息是否来自机主,若是,则进入步骤S4,若否,进入步骤S5;
步骤S3.1:在本实施例中采用机主手机传声器采集待翻译语音信息,机主手机逐段提取待翻译语音信息的语音特征;
步骤S3.2:将提取到的语音特征与机主手机内存储的所有机主语音特征进行比对,若提取到的语音特征与其中一种机主语音特征相符,说明该待翻译语音信息是由机主本人或同伴说的,则可确定该待翻译语音信息是中文语音;若提取到的语音特征与所有的机主语音特征均布相符,说明该待翻译语音信息是由交流对象(即德国本地人)说的,则可以确定待翻译语音信息为德文语音;
步骤S4:根据预设的机主语种和交流对象的语种类型将所述待翻译语音信息转换成与交流对象语种类型相同的第一语音信息,并将第一语音信息通过机主手机扬声器播放;
本实施例中,步骤S3中判定待翻译语音信息由机主本人或同伴说出,因此该待翻译语音信息对应的语言为中文,则将该待翻译语音信息转换成德国本地人能理解的语音信息,需要执行的步骤如图2所示:
步骤S4.1:按照预设的机主语种(中文)识别逐段识别待翻译语音信息,得到第一机主语言文本(第一机主语言文本为中文文本);
步骤S4.2:将所述第一机主语言文本翻译为与交流对象语种类型相同的第一对象语言文本(第一对象语音文本为德文文本);
步骤S4.3:将所述第一对象语言文本合成为与机主语音特征相符的第一语音信息(具有机主语音特征的德文语音);
步骤S4.4:将所述第一语音信息传输至机主手机扬声器进行播放,同时控制手机传声器停止采集待翻译语音信息。
将机主说的话翻译后,通过手机扬声器播放给交流对象听,由于手机传声器离手机外放扬声器很近,如果此时继续采集语音,将受到扬声器极大的干扰,并且此时无论谁说话,都会和正在外放播出的语音叠加,受限于手机硬件配置,难以应用多传声器多声道语音定位和语音分离技术,因此此时停止语音采集是一种合适的选择。
同时,此时机主应暂时停止说话,避免干扰交流对象倾听手机外放扬声器播放的语音。
当将机主的话翻译并播放给交流对象听后,返回至步骤S2,重新开启手机传声器开始采集下一个待翻译语音信息,并重复后续步骤,直至交流过程结束。
步骤S5:根据预设的机主语种和交流对象的语种类型将待翻译语音信息转化成与机主语种相同的第二语音信息,并将第二语音信息通过机主耳机播放,所述机主耳机与机主手机通讯连接。
在本实施例中,步骤S3中判定待翻译语音信息是由交流对象(德国本地人)说的,因此接下来的流程是将该待翻译语音信息由德文语音翻译成中文语音,具体过程如图3所示:
步骤S5.1:按照交流对象语种类型(德语)逐段识别待翻译语音信息,得到第二对象语言文本(德文文本);
步骤S5.2:将所述第二对象语言文本翻译成与机主语种相同的第二机主语言文本(中文文本);
步骤S5.3:将所述第二机主语言文本合成为与交流对象语音特征相符的第二语音信息(带有交流对象语音特征的中文语音);
步骤S5.4:将所述第二语音信息传输至机主耳机进行播放。
返回步骤S2继续采集下一个待翻译语音信息并进行后续处理,直至交流结束。
当机主与同伴同时出现在交流场景中时,机主可以为每一个同伴提供一个机主耳机,由于机主与同伴的关系较为密切,同伴通常不会因为信任问题、隐私问题或个人卫生问题不愿佩戴机主耳机。若机主耳机数量有限,也可以让同伴的耳机与机主的手机通过蓝牙等无线方式连接,此时将同伴的耳机也视为机主耳机,因此,机主和同伴均可以通过机主耳机收听翻译后的第二语音信息。
通过机主耳机播放第二语音信息,不会影响对交流对象语音采集的质量,交流对象完全可以一句接一句长篇大段的说话,机主只是会略有滞后的听到翻译后的语音,基本上实时且流畅。本实施例的方法对机主略有约束,对交流对象全无限制,在这样的模式下,易于被交流对象接受,极大的提高可行性。
如图4所示,本实施例还提供一种基于手机的实时传译设备,包括:
预设置单元:所述预设置单元用于设置机主语音特征和机主语种类型;
语种设置单元:所述语种设置单元用于设置交流对象的语种类型;
语音采集单元:所述语音采集单元与手机传声器连接,用于控制手机传声器采集待翻译语音信息;
语音识别单元:所述语音识别单元用于分析提取待翻译语音信息的语音特征和文本信息;
判断单元:所述判断单元用于判断待翻译语音信息是否来自机主;本实施例中,判断单元完成判断过程所执行的过程包括:
判断待翻译语音信息的语音特征与预存储的机主语音特征是否相符,若是,则待翻译语音信息来自机主(包括机主本人和同伴),若否,则待翻译语音信息来自交流对象。
文本翻译单元:所述文本翻译单元用于将第一机主语言文本翻译成第一对象语言文本,文本翻译单元还用于将第二对象语言文本翻译成第二机主语言文本;
语音合成单元:所述语音合成单元用于将第一对象语言文本合成为第一语音信息;语音合成单元还用于将第二机主语言文本合成为第二语音信息;
播放单元:所述播放单元与机主手机扬声器和机主耳机通讯连接,播放单元用于将第一语音信息传输至机主手机传声器进行播放,播放单元还用于将第二语音信息传输至机主耳机进行播放。
本实施例的实时传译设备的工作过程基于机主手机实现,所述机主手机包括机主手机传声器和机主手机扬声器。语音采集单元与机主手机传声器通讯连接,语音采集单元控制手机传声器采集待翻译语音信息,并接收手机传声器采集到的待翻译语音传输至语音识别单元。
机主手机连接有机主耳机,机主耳机接收播放单元传输的第二语音信息并播放给机主听。
实施例2
如图5所示,本实施例与实施例1不同之处在于,所述机主耳机上设置有机主传声器(可以为无线麦克风),机主传声器与语音采集单元通讯连接,机主传声器将采集到的语音信息传输至语音采集单元。当手机扬声器在播放语音时,手机传声器停止采集语音,但机主传声器可以继续采集语音,因此,机主无需等待手机扬声器播放完毕后才可说话,提升了交流的流畅性。
优选的,机主传声器具有降噪功能,能有效防止手机扬声器的语音被机主传声器采集并传输至语音采集单元。
实施例3
与实施例1不同之处在于,本实施例在开始交流前,机主给交流对象提供一个耳机(可视为视为对象耳机),对象耳机与机主手机通讯连接;转换得到的第一语音信息通过对象耳机进行播放。由于手机扬声器无需播放第一语音信息,手机传声器对语音的采集不会受到手机扬声器的影响,因此,手机传声器可以不用停止语音采集,机主可以不间断的说话,从而提升了机主说话的流畅性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于手机的实时传译方法,其特征在于,包括:
步骤S1:设置交流对象语种类型;
步骤S2:采集待翻译语音信息;
步骤S3:判断待翻译语音信息是否来自机主,若是,则进入步骤S4,若否,进入步骤S5;所述判断待翻译语音信息是否来自机主的方法包括:
提取待翻译语音信息的语音特征;
判断待翻译语音信息的语音特征与预存储的机主语音特征是否相符,若是,则待翻译语音信息来自机主,若否,则待翻译语音信息来自交流对象;
步骤S4:根据预设的机主语种和交流对象的语种类型将所述待翻译语音信息转换成与交流对象语种类型相同的第一语音信息,并将第一语音信息通过机主手机扬声器播放;
步骤S5:根据预设的机主语种和交流对象的语种类型将待翻译语音信息转化成与机主语种相同的第二语音信息,并将第二语音信息通过机主耳机播放,所述机主耳机与机主手机通讯连接。
2.根据权利要求1所述的一种基于手机的实时传译方法,其特征在于,所述步骤S4包括:
步骤S4.1:按照预设的机主语种识别逐段识别待翻译语音信息,得到第一机主语言文本;
步骤S4.2:将所述第一机主语言文本翻译为与交流对象语种类型相同的第一对象语言文本;
步骤S4.3:将所述第一对象语言文本合成为与机主语音特征相符的第一语音信息;
步骤S4.4:将所述第一语音信息传输至机主手机扬声器进行播放,同时控制手机传声器停止采集待翻译语音信息。
3.根据权利要求1所述的一种基于手机的实时传译方法,其特征在于,所述步骤S5包括:
步骤S5.1:按照交流对象语种类型逐段识别待翻译语音信息,得到第二对象语言文本;
步骤S5.2:将所述第二对象语言文本翻译成与机主语种相同的第二机主语言文本;
步骤S5.3:将所述第二机主语言文本合成为与交流对象语音特征相符的第二语音信息;
步骤S5.4:将所述第二语音信息传输至机主耳机进行播放。
4.根据权利要求1所述的一种基于手机的实时传译方法,其特征在于,在所述步骤S1之前还包括:设置机主语种类型和机主语音特征;所述设置机主语音特征包括:获取一段机主语音信息,提取机主语音信息的语音特征作为机主语音特征并保存在机主手机内。
5.根据权利要求1所述的一种基于手机的实时传译方法,其特征在于,所述机主语音特征至少包括一种,每种机主语音特征对应同一种语种类型。
6.一种基于手机的实时传译设备,用于实现如权利要求1-5任一项所述的一种基于手机的实时传译方法的步骤,其特征在于,包括:
语种设置单元:所述语种设置单元用于设置交流对象的语种类型;
语音采集单元:所述语音采集单元与手机传声器连接,用于控制手机传声器采集待翻译语音信息;
语音识别单元:所述语音识别单元用于分析提取待翻译语音信息的语音特征和文本信息;
判断单元:所述判断单元用于判断待翻译语音信息是否来自机主;
文本翻译单元:所述文本翻译单元用于将第一机主语言文本翻译成第一对象语言文本,文本翻译单元还用于将第二对象语言文本翻译成第二机主语言文本;
语音合成单元:所述语音合成单元用于将第一对象语言文本合成为第一语音信息;语音合成单元还用于将第二机主语言文本合成为第二语音信息;
播放单元:所述播放单元与机主手机扬声器和机主耳机通讯连接,播放单元用于将第一语音信息传输至机主手机传声器进行播放,播放单元还用于将第二语音信息传输至机主耳机进行播放。
7.根据权利要求6所述的一种基于手机的实时传译设备,其特征在于,所述语音采集单元通讯连接有机主传声器,语音采集单元用于控制机主传声器采集待翻译语音信息。
8.根据权利要求6所述的一种基于手机的实时传译设备,其特征在于,所述设备还包括:预设置单元,所述预设置单元用于设置机主语音特征和机主语种类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310609971.5A CN116611457A (zh) | 2023-05-29 | 2023-05-29 | 一种基于手机的实时传译方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310609971.5A CN116611457A (zh) | 2023-05-29 | 2023-05-29 | 一种基于手机的实时传译方法和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116611457A true CN116611457A (zh) | 2023-08-18 |
Family
ID=87685075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310609971.5A Pending CN116611457A (zh) | 2023-05-29 | 2023-05-29 | 一种基于手机的实时传译方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116611457A (zh) |
-
2023
- 2023-05-29 CN CN202310609971.5A patent/CN116611457A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108228699B (zh) | 协作性语音控制装置 | |
CN110049270B (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
US20230230572A1 (en) | End-to-end speech conversion | |
US9552815B2 (en) | Speech understanding method and system | |
WO2020006935A1 (zh) | 动物声纹特征提取方法、装置及计算机可读存储介质 | |
US8768701B2 (en) | Prosodic mimic method and apparatus | |
JP2023022150A (ja) | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム | |
CN111583944A (zh) | 变声方法及装置 | |
WO2016165590A1 (zh) | 语音翻译方法及装置 | |
CN111508511A (zh) | 实时变声方法及装置 | |
JP2016507772A (ja) | 音声データの伝送方法及び装置 | |
CN104538043A (zh) | 一种通话中实时情感提示装置 | |
CN109360549A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
WO2019075829A1 (zh) | 语音翻译方法、装置和翻译设备 | |
CN116417003A (zh) | 语音交互系统、方法、电子设备和存储介质 | |
KR20210124050A (ko) | 자동 통역 서버 및 그 방법 | |
CN109616116B (zh) | 通话系统及其通话方法 | |
JP7400364B2 (ja) | 音声認識システム及び情報処理方法 | |
JP2000349865A (ja) | 音声通信装置 | |
CN116611457A (zh) | 一种基于手机的实时传译方法和设备 | |
EP2541544A1 (en) | Voice sample tagging | |
CN111179943A (zh) | 一种对话辅助设备及获取信息的方法 | |
KR102000282B1 (ko) | 청각 기능 보조용 대화 지원 장치 | |
KR20220140301A (ko) | 인공지능을 통해 학습자 식별이 가능한 화상 학습 시스템 및 그 방법 | |
Roy et al. | Voice E-Mail Synced with Gmail for Visually Impaired |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |