CN114999535A - 在线翻译过程中的语音数据处理方法及装置 - Google Patents
在线翻译过程中的语音数据处理方法及装置 Download PDFInfo
- Publication number
- CN114999535A CN114999535A CN202210497559.4A CN202210497559A CN114999535A CN 114999535 A CN114999535 A CN 114999535A CN 202210497559 A CN202210497559 A CN 202210497559A CN 114999535 A CN114999535 A CN 114999535A
- Authority
- CN
- China
- Prior art keywords
- voice data
- terminal
- data packet
- attribute value
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 180
- 238000000034 method Methods 0.000 title claims abstract description 83
- 230000008569 process Effects 0.000 title claims abstract description 38
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000004891 communication Methods 0.000 claims abstract description 75
- 230000006854 communication Effects 0.000 claims abstract description 75
- 238000012545 processing Methods 0.000 claims description 52
- 239000006185 dispersion Substances 0.000 claims description 42
- 238000005070 sampling Methods 0.000 claims description 17
- 230000001965 increasing effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 31
- 238000013461 design Methods 0.000 description 29
- 238000007726 management method Methods 0.000 description 15
- 238000010295 mobile communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 210000000988 bone and bone Anatomy 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2242/00—Special services or facilities
- H04M2242/12—Language recognition, selection or translation arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例提供一种在线翻译过程中的语音数据处理方法及装置,应用于终端进行语音通信,涉及通信技术领域,能够节省在线翻译的流量消耗。该方法包括:终端获取第一语音数据包,该第一语音数据包包括预设时间段内的语音数据;并且终端确定第一语音数据包中不存在有效语音数据,终端停止向翻译服务器上传语音数据。
Description
本申请是分案申请,原申请的申请号是201811199111.4,原申请日是2018年10月15日,原申请的全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及通信技术领域,尤其涉及一种在线翻译过程中的语音数据处理方法及装置。
背景技术
通过终端进行通话的两个用户,当通话双方的母语不同时,可以进行在线翻译将各自的语音翻译成对方的母语,以消除通话双方的语言障碍。
目前,在双方通话的过程中,终端1采集到的语音数据中包括无效的语音数据(例如通话过程中用户在一段时间内未讲话时终端采集的音频数据)时,终端仍然将该语音数据上传至翻译服务器以使得翻译服务器对该语音数据进行翻译,由于提供翻译服务的提供商通常按照语音数据的流量或时长进行收费,因此当终端将无效的语音数据上传至翻译服务器会导致终端消耗更多的流量,从而增加通话成本。
发明内容
本申请实施例提供一种在线翻译过程中的语音数据处理方法及装置,能够节省在线翻译的流量消耗。
为达到上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供一种在线翻译过程中的语音数据处理方法,应用于终端进行语音通信的场景中,该方法包括:终端获取第一语音数据包,该第一语音数据包包括预设时间段内的语音数据;并且终端确定该第一语音数据包中不存在有效语音数据时,终端停止向翻译服务器上传语音数据。
本申请实施例提供的在线翻译过程中的语音数据处理方法,在两个终端进行语音通信的过程中,对于其中的一个终端,该终端获取第一语音数据包之后,可以确定第一语音数据包中是否存在有效语音数据,若第一语音数据包中不存在有效语音数据,则终端停止向翻译服务器上传语音数据,由于终端可以确定是否停止向翻译服务器上传语音数据,因此,能够使得终端更加智能化,并且在第一语音数据包不存在有效语音数据时,终端无需再向翻译服务器上传语音数据,如此,能够节省在线翻译的流量消耗。
在一种可能的设计中,上述终端确定该第一语音数据包中是否存在有效语音数据的方法可以包括:终端根据该第一语音数据包的第一属性值,确定第一语音数据包是否满足预设条件,该预设条件包括以下条件中的一个或多个:离散性条件、连续性条件、紧致性条件;第一语音数据包的第一属性值不满足该预设条件,则终端确定第一语音数据包中不存在有效语音数据;第一语音数据包的第一属性值满足上述预设条件,则终端确定第一语音数据包中存在有效语音数据。
一种可能的设计中,本申请实施例提供的在线翻译过程中的语音数据处理方法还包括:终端确定第一语音数据包中存在有效语音数据,并且终端继续向翻译服务器上传语音数据,从而翻译服务器继续对终端上传的语音数据进行翻译,保证终端顺利地进行语音通信。
一种可能的设计中,终端停止向翻译服务器发送语音数据之后,当终端获取到新的语音数据包(称为第二语音数据包)时,终端确定该第二语音数据包中存在有效语音数据,则终端恢复与翻译服务器之间的连接,并且开始向翻译服务器上传该第二语音数据包。
一种可能的设计中,本申请实施例提供的在线翻译过程中的语音数据处理方法还包括:终端向翻译服务器发送第一语音数据包;并且终端从翻译服务器接收该第一语音数据包的翻译结果;终端确定第一语音数据包满足第一条件,则终端停止向翻译服务器上传语音数据;其中,上述第一条件包括以下条件中的一个或多个:上述第一语音数据包中不存在有效语音数据;第一语音数据包的翻译结果为空。本申请实施例中,终端确定第一语音数据包中不存在有效语音数据(即第一语音数据包的第一属性值不满足预设条件)时,终端还可以结合翻译服务器返回的翻译结果,确定是否停止向翻译服务器上传语音数据。
一种可能的设计中,当第一语音数据包中不存在有效语音数据,并且翻译服务器返回的翻译结果为空(即没有翻译结果),进一步说明第一语音数据包中不存在有效语音数据,如此,能够提升检测有效语音数据的正确率;进一步的,终端不再向翻译服务器上传语音数据,能够节省在线翻译的流量消耗,降低用户的通话费用。
一种可能的设计中,上述终端停止向翻译服务器上传语音数据的方法可以包括:终端显示第一提示框;并且终端接收用户对该第一提示框的第一操作,响应于第一操作,断开与翻译服务器之间的连接。本申请实施例中,终端确定第一语音数据包中不存在有效语音数据时,终端可以向用户提示是否需要断开与翻译服务器之间的连接,如此,可以提升用户体验。
一种可能的设计中,上述终端停止向翻译服务器上传语音数据的方法可以包括:终端保持与翻译服务器之间的连接,并且终端停止向翻译服务器发送语音数据。本申请实施例中,当终端确定该第一语音数据包中不存在有效语音数据时,终端可以继续保持与翻译服务器之间的连接,但终端停止向翻译服务器上传语音数据。在这种情况下,终端还是会继续获取用户发出的语音数据包,并且确定新获取的语音数据包的第一属性值是否满足预设条件。
一种可能的设计中,上述预设条件包括离散性条件、连续性条件以及紧致性条件;若第一语音数据包的第一属性值不满足离散性条件,且不满足连续性条件,且不满足紧致性条件,则终端确定第一语音数据包中不存在有效语音数据。本申请实施例中,当第一语音数据包的第一属性值不满足上述离散性条件,且不满足连续性条件,且不满足紧致性条件时,终端可以更加准确地确定该第一语音数据包中不存在有效语音数据。
一种可能的设计中,第一语音数据包的第一属性值包括第一语音数据包的各个数据帧的信噪比。
一种可能的设计中,上述离散性条件包括:第一语音数据包的第一属性值的方差大于方差阈值。本申请实施例中,上述第一语音数据包的第一属性值的方差大于方差阈值(即满足离散性条件)时,说明第一语音数据包的第一属性值具有离散性,进一步说明第一语音数据包中存在有效语音数据(即用户有发出语音);第一语音数据包的第一属性值的方差小于或者等于方差阈值(即不满足离散性条件)时,说明第一语音数据包的第一属性值不具备离散性,进一步说明第一语音数据包中不存在有效语音数据(即用户未发出语音)。
一种可能的设计中,上述连续性条件包括:第一语音数据包的第一属性值连续性计数大于连续性阈值,该连续性阈值满足:Tc=θc×Fs,其中,Tc为连续性阈值,θc为连续性系数,Fs为第一语音数据包的采样频率。本申请实施例中,第一语音数据包的第一属性值的连续性计数大于连续性阈值(即满足连续性条件)时,说明第一属性值具有连续性,进一步说明第一语音数据包中存在有效语音数据(即用户有发出语音);第一属性值的连续性计数小于或者等于连续性阈值(即不满足连续性条件)时,说明第一属性值不具备连续性,进一步说明第一语音数据包中不存在有效语音数据(即用户未发出语音)。
上述第一语音数据包的第一属性值包括N个,N为大于或者等于1的整数,终端确定第一语音数据包的第一属性值的连续性计数的方法包括:终端确定第i个第一属性值是否大于第一属性值的阈值,1≤i≤N-1;若第i个第一属性值大于第一属性值的阈值,则终端将第一属性值的连续性计数增加1;若第i个第一属性值小于或者等于第一属性值的阈值,则第一属性值的离散性计数增加1;在离散性计数小于或者等于离散性阈值的情况下,确定第i+1个第一属性值是否大于第一属性值的阈值,该离散性阈值满足:Td=θd×Fs,其中,Td为离散性阈值,θd为离散性系数,Fs为第一语音数据包的采样频率;若第一属性值的离散性计数大于离散性阈值,则将第一属性值的连续性计数和第一属性值的离散性计数清零,该终端从第i+1个第一属性值开始重新确定连续性计数。本申请实施例中,当第一属性值的离散性计数大于离散性阈值,即前i个第一属性值不具备连续性,说明在前i个第一属性值对应的语音数据中不存在有效语音数据,因此将第一属性值的连续性计数与第一属性值的离散性计数清零,再继续确定剩下的N-i个第一属性值是否具备连续性。上述引入第一属性值的离散性计数和离散性阈值,能够更加准确地确定第一属性值是否具有连续性。
一种可能的设计中,上述紧致性条件包括:第一语音数据包的第一属性值的紧致性计数大于紧致性阈值,该紧致性阈值满足:Ti=θi×N,其中,Ti为紧致性阈值,θi为紧致性系数,N为第一语音数据包中包括的第一属性值的数量,该第一属性值的紧致性计数为大于第一属性值的阈值的第一属性值的数量。本申请实施例中,上述第一语音数据包的第一属性值的紧致性计数大于紧致性阈值(即满足紧致性条件)时,说明第一属性值具有紧致性,进一步说明第一语音数据包中存在有效语音数据(即用户有发出语音);第一属性值的紧致性计数小于或者等于紧致性阈值(即不满足紧致性条件)时,说明第一属性值不具备紧致性,进一步说明第一语音数据包中不存在有效语音数据(即用户未发出语音)。
第二方面,本申请实施例提供一种终端,包括:一个或多个处理器、存储器、通信接口以及麦克风;该存储器、通信接口与处理器耦合;该麦克风用于捕获语音数据;该存储器用于存储计算机程序代码;该计算机程序代码包括计算机指令,当处理器执行上述计算机指令时,该处理器,用于控制麦克风获取第一语音数据包,该第一语音数据包包括预设时间段内的语音数据;该处理器,还用于确定第一语音数据包中不存在有效语音数据的情况下,停止向翻译服务器上传语音数据。
一种可能的设计中,上述处理器,具体用于确定麦克风获取的第一语音数据包的第一属性值是否满足预设条件,该预设条件包括以下条件中的一个或多个:离散性条件、连续性条件、紧致性条件;该第一语音数据包的第一属性值不满足预设条件,则确定第一语音数据包中不存在有效语音数据;该第一语音数据包的第一属性值满足预设条件,则确定第一语音数据包中存在有效语音数据。
一种可能的设计中,上述处理器,还用于确定第一语音数据包中存在有效语音数据,并且通过通信接口继续向翻译服务器上传语音数据。
一种可能的设计中,上述处理器还用于通过通信接口向翻译服务器发送第一语音数据包;并且从翻译服务器接收第一语音数据包的翻译结果;上述处理器,还用于在第一语音数据包满足第一条件的情况下,停止向翻译服务器上传语音数据;其中,第一条件包括以下条件中的一个或多个:第一语音数据包中不存在有效语音数据;第一语音数据包的翻译结果为空。
一种可能的设计中,本申请实施例提供的终端还包括触摸屏;上述处理器,还用于控制触摸屏显示第一提示框;上述处理器,还用于接收用户对触摸屏显示的第一提示框的第一操作;响应于第一操作,断开与翻译服务器之间的连接。
一种可能的设计中,上述处理器,还用于保持与翻译服务器之间的连接,并且停止向翻译服务器发送语音数据。
一种可能的设计中,上述预设条件包括离散性条件、连续性条件以及紧致性条件;上述处理器,具体用于在第一语音数据包的第一属性值不满足离散性条件,且不满足连续性条件,且不满足紧致性条件的情况下,确定第一语音数据包中不存在有效语音数据。
一种可能的设计中,第一语音数据包的第一属性值包括第一语音数据包的各个数据帧的信噪比。
一种可能的设计中,上述离散性条件包括:第一语音数据包的第一属性值的方差大于方差阈值。
一种可能的设计中,连续性条件包括:第一语音数据包的第一属性值的连续性计数大于连续性阈值,该连续性阈值满足:Tc=θc×Fs,其中,Tc为连续性阈值,θc为连续性系数,Fs为第一语音数据包的采样频率。其中,第一语音数据包的第一属性值包括N个,N为大于或者等于1的整数,上述处理器,还用于确定第i个第一属性值是否大于第一属性值的阈值,1≤i≤N-1;若第i个第一属性值大于第一属性值的阈值,则将第一属性值的连续性计数增加1;若第i个第一属性值小于或者等于第一属性值的阈值,则第一属性值的离散性计数增加1;上述处理器,还用于在第一属性值的离散性计数小于或者等于离散性阈值的情况下,确定第i+1个第一属性值是否大于第一属性值的阈值,该离散性阈值满足:Td=θd×Fs,其中,Td为离散性阈值,θd为离散性系数,Fs为第一语音数据包的采样频率;在第一属性值的离散性计数大于离散性阈值的情况下,将第一属性值的连续性计数和第一属性值的离散性计数清零,并且从第i+1个第一属性值开始重新确定第一属性值的连续性计数。
一种可能的设计中,上述紧致性条件包括:第一语音数据包的第一属性值的紧致性计数大于紧致性阈值,该紧致性阈值满足:Ti=θi×N,其中,Ti为紧致性阈值,θi为紧致性系数,N为第一语音数据包中包括的第一属性值的数量,该第一属性值的紧致性计数为大于第一属性值的阈值的第一属性值的数量。
第三方面,本申请实施例提供一种计算机存储介质,该计算机存储介质包括计算机指令,当该计算机指令在终端上运行时,使得终端执行上述第一方面及其各种可能的设计中任意之一所述的在线翻译过程中的语音数据处理方法。
第四方面,本申请实施例提供一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面及其各种可能的设计中任意之一所述的在线翻译过程中的语音数据处理方法。
第二方面及其任一种设计方式所述的终端,以及第三方面所述的计算机存储介质、第四方面所述的计算机程序产品所带来的技术效果可参见上述第一方面及其不同设计方式所带来的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种终端的硬件示意图;
图2为本申请实施例提供的一种语音通信场景实例示意图一;
图3为本申请实施例提供的一种语音通信场景实例示意图二;
图4为本申请实施例提供的在线翻译过程中的语音数据处理方法示意图一;
图5为本申请实施例提供的在线翻译过程中的语音数据处理方法示意图二;
图6为现有技术提供的一种显示界面实例示意图;
图7为本申请实施例提供的在线翻译过程中的语音数据处理方法示意图三;
图8为本申请实施例提供的一种终端的结构示意图。
具体实施方式
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。例如,多个处理单元是指两个或两个以上的处理单元;多个系统是指两个或两个以上的系统。
本申请实施例提供一种在线翻译过程中的语音数据的处理方法及装置,可以应用于两个终端进行语音通信的过程中,通过语音活性检测检测(voice activity detection,VAD)技术检测终端采集到的语音数据中是否存在有效语音数据,进而确定是否向翻译服务器上传语音数据。具体的,终端获取预设时间段内的语音数据(以下均称为第一语音数据包)之后,终端确定第一语音数据包中不存在有效语音数据(即真实的语音数据),终端停止向翻译服务器上传语音数据,具体的,终端可以确定该第一语音数据包的第一属性值是否满足预设条件;若第一语音数据包的第一属性值不满足预设条件,则第一语音数据包中不存在有效语音数据,进而停止向翻译服务器上传语音数据,即终端后续不再向翻译服务器上传语音数据。其中,该预设条件包括以下条件中的一个或多个:离散性条件、连续性条件、紧致性条件。
当然,当终端获取的第一语音数据包中存在有效语音数据时,终端继续或开始向翻译服务器上传语音数据。
综上所述,在两个终端进行语音通信的过程中,对于任意一个终端,该终端在确定其获取的语音数据包不存在有效语音数据时,停止向翻译服务器上传语音数据。通过本方案,使得终端更加智能化,并且能够节省在线翻译的流量消耗。
本申请实施例中的终端可以为便携式计算机(如手机)、笔记本电脑、个人计算机(personal computer,PC)、可穿戴终端(如智能手表)、平板电脑、增强现实(augmentedreality,AR)\虚拟现实(virtual reality,VR)设备、车载电脑等,以下实施例对该终端的具体形式不做特殊限制。
请参考图1,其示出本申请实施例提供一种终端100的结构示意图。其中,终端100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universalserial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中,终端100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如,处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
上述控制器可以是终端100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现终端100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现终端100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现终端100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为终端100充电,也可以用于终端100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他终端,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端100的结构限定。在本申请另一些实施例中,终端100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过终端100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为终端供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
终端100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,终端100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得终端100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(globalnavigation satellite system,GLONASS),北斗卫星导航系统(beidou navigationsatellite system,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
终端100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,终端100可以包括1个或N个显示屏194,N为大于1的正整数。
终端100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,终端100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当终端100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样,终端100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行终端100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。
终端100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中,终端100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,终端100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动终端平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。终端100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,终端100根据压力传感器180A检测所述触摸操作强度。终端100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定终端100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定终端100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测终端100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消终端100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,终端100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。终端100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当终端100是翻盖机时,终端100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测终端100在各个方向上(一般为三轴)加速度的大小。当终端100静止时可检测出重力的大小及方向。还可以用于识别终端姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。终端100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,终端100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。终端100通过发光二极管向外发射红外光。终端100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定终端100附近有物体。当检测到不充分的反射光时,终端100可以确定终端100附近没有物体。终端100可以利用接近光传感器180G检测用户手持终端100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。终端100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测终端100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。终端100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,终端100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,终端100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,终端100对电池142加热,以避免低温导致终端100异常关机。在其他一些实施例中,当温度低于又一阈值时,终端100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于终端100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。终端100可以接收按键输入,产生与终端100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和终端100的接触和分离。终端100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,终端100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在终端100中,不能和终端100分离。
图2为本申请实施例提供的一种在线翻译过程中的语音数据处理方法所应用的通信场景实例示意图,用户210使用终端200与使用终端300的用户310进行语音通信,即终端200与终端300进行语音通信,以终端200为本申请实施例中的终端为例,假设终端200的持有者(即用户210)的母语为英语,终端300的持有者(即用户310)的母语为汉语,终端200采集到的语音数据可以包括上行语音数据(本端用户(用户210)发出的语音数据)和下行语音数据(对端用户(用户310)发出的语音数据),终端200可以控制翻译上行语音数据或下行语音数据,并将翻译结果在终端200上以文本进行显示或语音进行播报。
结合图2,用户210发出语音数据1“Are you Mr Wang?”(该语音数据1为上行语音数据),该用户210使用的终端200采集到该语音数据1后将该语音数据上传至翻译服务器400,翻译服务器400将该语音数据1翻译完成之后,将该翻译后的语音数据或文本数据发送至终端200,从而终端000向通过该终端200的受话器播放翻译后的语音数据“您是王先生吗?”,用户310听到该翻译后的语音数据之后,用户310回应语音数据2“不,我不是!”,同理终端200采集到该语音数据2(该语音数据2为下行语音数据)之后将其上传至翻译服务器400,翻译服务器400将该语音数据2翻译完成之后,将该翻译后的语音数据或文本数据发送至终端200,从而终端200通过该终端200的受话器播放翻译后的语音数据“No,I am not!”,如此,终端200与终端300按照上述的过程进行后续的通话。
图3为本申请实施例提供的另一种在线翻译过程中的语音数据处理方法应用的通信场景示意图,用户210使用终端200与使用终端300的用户310进行语音信息,即终端200与终端300进行语音通信,若上述终端200与终端300均具有识别或播放对方母语的功能,则终端200和终端300均可以控制翻译各自的上行语音数据,并且终端200和终端300在在线翻译过程中的执行的动作类似。以终端200为例,假设用户210的母语为英语,用户310的母语为汉语,如图2所示,用户210发出语音数据1“Are you Mr Wang?”,该用户210使用的终端200采集到该语音数据1之后将该语音数据1上传至翻译服务器400,翻译服务器400将该语音数据1翻译完成之后,将该翻译后的语音数据或文本数据发送至终端200,从而终端200通过该终端200的受话器播放翻译后的语音数据“您是王先生吗?”,用户310听到该翻译后的语音数据之后,用户310回应语音数据2“不,我不是!”,同理终端300采集到该语音数据2之后将该语音数据2上传至翻译服务器400,翻译服务器400将该语音数据2翻译完成之后,将该翻译后的语音数据或文本数据发送至终端300,从而终端300通过该终端300的受话器播放翻译后的语音数据“No,I am not!”,如此,终端200与终端300按照上述的过程进行后续的通话。
本申请实施例提供一种在线翻译过程中的语音数据处理方法,可以应用于两个终端进行语音通信,如图4所示,该在线翻译过程中的语音数据处理处理可以包括S101-S104:
S101、终端获取第一语音数据包。
其中,该终端可以为上述进行语音通信的两个终端中的本端设备,可以应用于任意一个终端,该第一语音数据包包括预设时间段内的语音数据。
在终端(例如上述终端200)与另一个终端(例如上述终端300)进行语音通信的过程中,终端的麦克风170C(也称“话筒”)可以获取语音数据。该语音数据可以为上行语音数据,也可以为下行语音数据,为了便于描述,在以下实施例中统一简称为语音数据,该语音数据包括用户(本端用户或对端用户)发出的语音数据和终端的周围的环境噪音等。本申请实施例中,终端的麦克风可以获取预设时间段(例如1分钟或40秒)内的语音数据,构成第一语音数据包。
S102、终端确定第一语音数据包中是否存在有效语音数据。
S103、终端确定第一语音数据包中不存在有效语音数据,则终端停止向翻译服务器上传语音数据。
本申请实施例中,第一语音数据包不存在有效语音数据时,终端无需再向翻译服务器上传语音数据,如此,能够节省在线翻译的流量消耗。
S104、终端确定第一语音数据包中存在有效语音数据,则终端继续向翻译服务器上传语音数据。
本申请实施例中,当第一语音数据包中存在有效语音数据,终端继续将向翻译服务器上传语音数据,从而翻译服务器继续对终端上传的语音数据进行翻译,保证终端顺利地进行语音通信。
需要说明的是,本申请实施例中,终端停止向翻译服务器发送语音数据之后,当终端获取到新的语音数据包(称为第二语音数据包)时,若终端确定该第二语音数据包中存在有效语音数据,则终端恢复与翻译服务器之间的连接,并且开始向翻译服务器上传该第二语音数据包。
可选的,终端还可以结合翻译服务器返回的第一语音数据包的翻译结果,确定是否停止向翻译服务器上传语音数据。如图5所示,本申请实施例提供的在线翻译过程中的语音数据处理方法还可以包括S105-S106:
S105、终端向翻译服务器发送第一语音数据包。
S106、终端从翻译服务器接收第一语音数据包的翻译结果。
需要说明的是,本申请实施例中,上述S105-S106与S102的执行顺序可以不作限制,即终端可以先执行S102,后执行S105-S106,或者终端先执行S105-S106,后执行S102,又或者终端同时执行S102和S105-S106。
本申请实施例中,终端可以通过下述S107确定是否停止向翻译服务器上传语音数据:
S107、终端确定第一语音数据包满足第一条件,则终端停止向翻译服务器上传语音数据,其中,第一条件包括以下条件中的一个或多个:第一语音数据包中不存在有效语音数据;第一语音数据包的翻译结果为空。
本申请实施例中,终端确定第一语音数据包不存在有效有语音数据时,终端还结合翻译服务器返回的翻译结果,确定是否停止向翻译服务器上传语音数据,在一种实现方式中,当第一语音数据包不存在有效有语音数据,并且翻译服务器返回的翻译结果为空(即没有翻译结果),进一步说明第一语音数据包中不存在有效语音数据,能够提升检测有效语音数据的正确率;进一步的,终端不再向翻译服务器上传语音数据,能够节省在线翻译的流量消耗,降低用户的通话费用。
可选的,上述S103中,终端停止向翻译服务器上传语音数据包括S1031-S1032:
S1031、终端显示第一提示框。
本申请实施例中,当终端确定第一语音数据包不满足预设条件时,终端在该终端的显示屏上显示第一提示框,该第一提示框用于提示用户是否断开终端与翻译服务器之间的连接。
S1032、终端接收用户对第一提示框的第一操作,响应于该第一操作,断开与翻译服务器之间的连接。
具体的,终端可以接收用户对第一提示框的第一操作,该第一操作为用户触发终端断开与翻译服务器的连接的操作。例如,该第一操作可以是用户对第一提示框的单击操作、双击操作或者长按操作等任一种操作。然后终端响应于用户对第一提示框的第一操作,终端断开终端与翻译服务器之间的连接。
示例性的,如图6所示,终端200与终端300进行语音通信的过程中,终端200确定该终端200获取的第一语音数据包不满足预设条件时,终端200的显示屏上显示第一提示框500,该提示框500中的内容包括:“是否断开与翻译服务器之间的连接”以及“是”、“否”两个按钮,用户可以单击第一提示框中的按钮“是”,从而终端200响应于用户的操作,断开与翻译服务器之间的连接,或者用户也可以单击第一提示框中的“否”,拒绝断开与翻译服务器之间的连接。
可选的,上述S103中,终端停止向翻译服务器上传语音数据包括S1033:
S1033、终端保持与翻译服务器之间的连接,并且终端停止向翻译服务器发送语音数据
本申请实施例中,当终端确定该第一语音数据包中不存在有效语音数据时,终端可以继续保持与翻译服务器之间的连接,但终端停止向翻译服务器上传语音数据。可以理解的是,在这种情况下,终端还是会继续获取用户发出的语音数据包。
本申请实施例提供一种在线翻译过程中的语音数据的处理方法,在两个终端进行语音通信的过程中,对于其中的一个终端,该终端获取第一语音数据包之后,可以确定第一语音数据包中是否存在有效语音数据,若第一语音数据包中存在有效语音数据,则终端停止向翻译服务器上传语音数据,由于终端可以确定是否停止向翻译服务器上传语音数据,因此,能够使得终端更加智能化,并且在第一语音数据包不存在有效语音数据时,终端无需再向翻译服务器上传语音数据,如此,能够节省在线翻译的流量消耗。
进一步的,上述在线翻译过程中的语音数据处理方法,是在终端的应用层实现,对终端的硬件性能要求比较低,具有更好的适用性。
可选的,上述终端确定第一语音数据包中是否存在有效语音数据可以通过S201-S203实现:
S201、终端确定第一语音数据包的第一属性值是否满足预设条件,该预设条件包括以下条件中的一个或多个:离散性条件、连续性条件、紧致性条件。
其中,第一语音数据包的第一属性值包括第一语音数据包的各个数据帧的第一属性值。
本申请实施例中,终端获取到第一语音数据包之后,终端按照一定的采用频率对第一语音数据包进行采样,得到N(N为大于或者等于1的整数)帧语音数据,然后终端提取第一语音数据包中每一帧语音数据的第一属性值,即第一属性值包括N个属性值。
具体的,第一语音数据包的采样频率为:Fs=N/S,其中,Fs为采样频率,N为采样点数(即上述第一语音数据包包括的数据帧的帧数),S为采样时长。
本申请实施例中,上述第一语音数据包的第一属性值可以为语音数据的信噪比或者语音数据的强度(例如语音数据的振幅)。以第一语音数据包中的一个数据帧(称为第一数据帧),第一属性值为语音数据的信噪比为例,可以采用下述公式(1)确定第一语音数据包中每一帧语音数据的第一属性值:
其中,Lp为第一数据帧的第一属性值,prms为第一数据帧的信号响度,pref为第一数据帧的噪音强度,Fs为第一语音数据包的采样频率。
综上,采用公式(1)得到第一语音数据包中的N个数据帧的第一属性值,从而得到第一语音数据包的N个第一属性值。
本申请实施例中,上述离散性条件包括:第一语音数据包的第一属性值的方差大于方差阈值。第一语音数据包的第一属性值的方差可以根据下述公式(2)计算:
其中,σ2为第一语音数据包的第一属性值的方差,xi为第i个数据帧的第一属性值,μ为N个数据帧的第一属性值的平均值。
具体的,上述第一语音数据包的第一属性值的方差大于方差阈值(即满足离散性条件)时,说明第一语音数据包的第一属性值具有离散性,进一步说明第一语音数据包中存在有效语音数据(即用户有发出语音);第一语音数据包的第一属性值的方差小于或者等于方差阈值(即不满足离散性条件)时,说明第一语音数据包的第一属性值不具备离散性,进一步说明第一语音数据包中不存在有效语音数据(即用户未发出语音)。
本申请实施例中,上述连续性条件包括:第一语音数据包的第一属性值的连续性计数大于连续性阈值,该连续性阈值满足:Tc=θc×Fs,其中,Tc为连续性阈值,θc为连续性系数,Fs为第一语音数据包的采样频率。
具体的,上述第一语音数据包的第一属性值的连续性计数大于连续性阈值(即满足连续性条件)时,说明第一属性值具有连续性,进一步说明第一语音数据包中存在有效语音数据(即用户有发出语音);第一属性值的连续性计数小于或者等于连续性阈值(即不满足连续性条件)时,说明第一属性值不具备连续性,进一步说明第一语音数据包中不存在有效语音数据(即用户未发出语音)。
本申请实施例中,上述紧致性条件包括:第一语音数据包的第一属性值的紧致性计数大于紧致性阈值,该紧致性阈值满足:Ti=θi×N,其中,Ti为紧致性阈值,θi为紧致性系数,该紧致性计数为上述N个第一属性值中大于第一属性值的阈值的第一属性值的数量。
具体的,上述第一语音数据包的第一属性值的紧致性计数大于紧致性阈值(即满足紧致性条件)时,说明第一属性值具有紧致性,进一步说明第一语音数据包中存在有效语音数据(即用户有发出语音);第一属性值的紧致性计数小于或者等于紧致性阈值(即不满足紧致性条件)时,说明第一属性值不具备紧致性,进一步说明第一语音数据包中不存在有效语音数据(即用户未发出语音)。
S202、第一语音数据包的第一属性值不满足预设条件,则终端确定第一语音数据包中不存在有效语音数据。
本申请实施例中,第一语音数据包的第一属性值不满足预设条件即指的是的第一属性值不满足上述三个条件中的一个或多个,具体包括下述表1中示例的几种情况,在这几种情况下,终端确定第一语音数据包中不存在有效语音数据,即终端确定用户未发出语音从而终端后续停止向翻译服务器上传语音数据。
表1
不满足预设条件 | 终端判断结果 |
不满足离散性条件 | 第一语音数据包中不存在有效语音数据 |
不满足连续性条件 | 第一语音数据包中不存在有效语音数据 |
不满足紧致性条件 | 第一语音数据包中不存在有效语音数据 |
不满足离散性条件和连续性条件 | 第一语音数据包中不存在有效语音数据 |
不满足离散性条件和紧致性条件 | 第一语音数据包中不存在有效语音数据 |
不满足连续性条件和紧致性条件 | 第一语音数据包中不存在有效语音数据 |
不满足离散性条件、连续性条件以及紧致性条件 | 第一语音数据包中不存在有效语音数据 |
结合表1,终端确定第一语音数据包中不存在有效语音数据时,终端继续获取语音数据,但是终端停止向翻译服务器上传语音数据,例如终端确定第一语音数据包的第一属性值不满足上述预设条件,当终端的麦克风获取到第二语音数据包时,终端不再向翻译服务器上传该第二语音数据包,如此,可以节省在线翻译过程中终端的流量消耗。可以理解的是,终端仍然根据上述S201确定该第二语音数据是否存在有效语音数据。
本申请实施例中,当第一语音数据包的第一属性值不满足上述离散性条件,且不满足连续性条件,且不满足紧致性条件时,终端可以更加准确地确定该第一语音数据包中不存在有效语音数据。
S203、第一语音数据包的第一属性值满足预设条件,则终端确定第一语音数据包中存在有效语音数据。
可选的,本申请实施例中,如图7所示,第一语音数据包的第一属性值包括N个,N为大于或者等于1的整数,上述终端确定第一语音数据包的第一属性值的连续性计数的方法具体可以包括S301-S306:
S301、终端确定第i个第一属性值是否大于第一属性值的阈值。
其中,1≤i≤N-1。
S302、若第i个第一属性值大于第一属性值的阈值,则终端将第一属性值的连续性计数增加1。
S303、若第i个第一属性值小于或者等于第一属性值的阈值,则第一属性值的离散性计数增加1。
S304、终端确定第一属性值的离散性计数是否小于或者等于离散性阈值。
S305、若第一属性值的离散性计数小于或者等于离散性阈值,i=i+1,返回执行上述S301。
本申请实施例中,在第一属性值的离散性计数小于或者等于离散性阈值的情况下,将i增加1,也就是说终端继续确定第i+1个第一属性值是否大于第一属性值的阈值(返回S301)。
S306、若第一属性值的离散性计数大于离散性阈值,则将第一属性值的连续性计数和第一属性值的离散性计数清零。
本申请实施例中,在第一属性值的离散性计数大于离散性阈值的情况下,终端将第一属性值的连续性计数清零,并且将第一属性值的离散性计数也清零,然后终端从下一个(即第i+1个)第一属性值开始重新确定第一属性值的连续性计数。
示例性的,假设第一语音数据包中包括100个数据帧,即第一属性值包括100个,终端确定该100个第一属性值中前15个第一属性值均大于第一属性的阈值,可知当前的第一属性值的连续性计数为15;若终端确定第16个第一属性值小于第一属性值的阈值,则第一属性值的离散性计数为1,若第一属性值的离散性阈值设置为8,由于该第一属性值的离散性计数小于离散性阈值,因此终端继续确定第17个第一属性值是否大于第一属性值的阈值,若第17个第一属性值大于第一属性值的阈值,可知第一属性值的连续性计数更新为16,依此类推,若第18-26个第一属性值均小于第一属性值的阈值,可知第一属性值的离散计数更新为10,由于该第一属性值的离散性计数大于离散性阈值,在这种情况下,终端将第一属性值的连续性计数和第一属性值的离散性计数清零),终端从第27个第一属性值开始,按照上述的方法重新确定第一语音数据包的第一属性值的连续性计数。
本申请实施例中,当第一属性值的离散性计数大于离散性阈值,即前i个第一属性值不具备连续性,说明在前i个第一属性值对应的语音数据中不存在有效语音数据,因此将第一属性值的连续性计数与第一属性值的离散性计数清零,再继续确定剩下的N-i个第一属性值是否具备连续性。上述引入第一属性值的离散性计数和离散性阈值,能够更加准确地确定第一属性值是否具有连续性。
可选的,本申请实施例中,终端还可以调整上述在线翻译过程中的语音数据处理方法中涉及到的各个阈值中的一个或多个,例如,第一属性值的阈值、方差阈值、连续性阈值、离散性阈值或紧致性阈值中的一个或多个。具体的,终端根据该终端确定的第一语音数据包的第一属性值是否满足预设条件的结果与翻译服务器返回的翻译结果,调整各个阈值。
示例性的,以上述紧致性阈值为例,若终端确定第一语音数据包的第一属性值不满足上述紧致性条件,即紧致性计数小于或者等于紧致性阈值(说明终端确定第一语音数据包中不存在有效语音数据),并且翻译服务器返回的翻译结果不为空(即说明第一语音数据包中存在有效语音数据),可见,可能是因为上述紧致性条件过于严苛导致终端确定第一语音数据包中不存在有效语音数据,基于此,终端可以将紧致性阈值减小,使得上述紧致性计数大于调整后的紧致性阈值,从而终端确定第一语音数据包的第一属性值满足紧致性条件。
若终端确定第一语音数据包的第一属性值满足上述预设条件,即紧致性计数大于紧致性阈值(说明终端确定第一语音数据包中存在有效语音数据),并且翻译服务器返回的翻译结果为空(即说明第一语音数据包中不存在有效语音数据),可见,可能是因为上述紧致性条件过于宽松导致终端确定第一语音数据包中存在有效语音数据,基于此,终端可以将紧致性阈值增加,使得上述紧致性计数小于或者等于调整后的紧致性阈值,从而终端确定第一语音数据包的第一属性值不满足紧致性条件。
可以理解的是,上述其他阈值的调整方法与上述紧致性阈值类似,本申请实施例不再一一列举。
可以理解的是,上述终端为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
本申请实施例可以根据上述方法示例对上述终端进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
示例性的,图8示出了上述实施例中所涉及的终端的一种可能的结构示意图,该终端1000包括:处理模块1001、存储模块1002、语音捕获模块1003、通信模块1004以及显示模块1005。其中,处理模块1001用于控制语音捕获模块1003获取第一语音数据包,例如,处理模块1001用于支持终端执行上述实施例中的S101,处理器还用于在确定第一语音数据包中不存在有效语音数据的情况下,停止向翻译服务器上传语音数据,处理模块1001用于支持终端执行上述实施例中的S103。存储模块1002可以用于缓存通过语音捕获模块1003获取的语音数据。该处理模块1001还用于确定该第一语音数据包是否满足存在有效语音数据例如,处理模块1001用于支持终端执行上述实施例中的S102。
可选的,本申请实施例中,上述处理模块1001具体用于确定第一语音数据包的第一属性值是否满足预设条件,该预设条件包括以下条件中的一个或多个:离散性条件、连续性条件、紧致性条件;并且第一语音数据包的第一属性值不满足预设条件,确定第一语音数据包中不存在有效语音数据;或者,第一语音数据包的第一属性值满足预设条件,则确定第一语音数据包中存在有效语音数据。例如,处理模块1001用于支持终端执行上述实施例中的S201-S203。
上述处理模块1001还用于确定第一语音数据包中存在有效语音数据,并且通过通信模块1004继续向翻译服务器上传语音数据,例如,处理模块1001用于支持终端执行上述实施例中的S104。
可选的,上述处理模块1001还用于通过通信模块1004向翻译服务器发送第一语音数据包;并且从翻译服务器接收第一语音数据包的翻译结果,例如,处理模块1001用于支持终端执行上述实施例中的S105和S106。该处理模块1001还用于在第一语音数据包满足第一条件的情况下,停止向翻译服务器上传语音数据,该第一条件包括以下条件中的一个或多个:第一语音数据包中不存在有效语音数据,并且第一语音数据包的翻译结果为空。例如处理模块1001用于支持终端执行上述实施例中的S107。
上述处理模块1001还可以用于控制显示模块1005显示第一提示框,并且接收用户对显示模块1005显示的第一提示框的第一操作;响应于第一操作,断开与翻译服务器之间的连接,例如,处理模块1001用于支持终端执行上述实施例中的S1031-S1032。
上述处理模块1001还用于保持与翻译服务器之间的连接,并且停止向翻译服务器发送语音数据,处理模块1001用于支持终端执行上述实施例中的S1033。
可选的,本申请实施例中,上述预设条件包括离散性条件、连续性条件以及紧致性条件;上述处理模块1001,具体用于在第一语音数据包不满足离散性条件,且不满足连续性条件,且不满足紧致性条件的情况下,确定第一语音数据包中不存在有效语音数据。
上述处理模块1001,还用于在确定第一语音数据包的第一属性值的连续性计数过程中,确定第i个第一属性值是否大于第一属性值的阈值,1≤i≤N-1;若第i个第一属性值大于第一属性值的阈值,则将第一属性值的连续性计数增加1;若第i个第一属性值小于或者等于第一属性值的阈值,则第一属性值的离散性计数增加1;该处理模块1001,还用于在离散性计数小于或者等于离散性阈值的情况下,确定第i+1个第一属性值是否大于第一属性值的阈值,该离散性阈值满足:Td=θd×Fs,其中,Td为离散性阈值,θd为离散性系数,Fs为第一语音数据包的采样频率;在离散性计数大于离散性阈值,将连续性计数和离散性计数清零,并且从第i+1个第一属性值开始重新确定连续性计数,例如,处理模块1001用于支持终端执行上述实施例中的S301-S306。
当然,终端1000包括但不限于上述所列举的单元模块。例如,终端1000还可以包括接收模块和发送模块。接收模块用于接收其他终端发送的数据或者指令。发送模块用于向其他终端发送数据或者指令。并且,上述功能单元的具体所能够实现的功能也包括但不限于上述实例所述的方法步骤对应的功能,终端1000的其他单元的详细描述可以参考其所对应方法步骤的详细描述,本申请实施例这里不再赘述。
本申请实施例中,处理模块1001可以是处理器或控制器,例如可以是中央处理器(central processing unit,CPU),通用处理器,数字信号处理器(digital signalprocessor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块可以是收发器、收发电路或通信接口等。存储模块1002可以是存储器。
其中,处理模块1001为处理器(如图1所示的处理器110),存储模块1002为存储器(如图1所示的内部存储器121),语音捕获模块1003可以包括麦克风(如图1所示的麦克风170),通信模块1004可以为如图1所示的移动通信模块150或无线通信模块160,通信模块1004可以统称为通信接口。显示模块1005为触摸屏(包括图1所示的显示屏194,该显示屏194中集成了显示面板和触控面板)。本申请实施例所提供的终端可以为图1所示的终端100。其中,上述处理器、通信接口、触摸屏、存储器、麦克风等可以通过总线耦合在一起。
本申请实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机程序代码,当上述处理器执行该计算机程序代码时,该终端执行图4、图5或图7任一附图中的相关方法步骤实现上述实施例中的方法。
本申请实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行图4、图5或图7任一附图中的相关方法步骤实现上述实施例中的方法。
其中,本申请实施例提供的终端1000、计算机存储介质或者计算机程序产品均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以使用硬件的形式实现,也可以使用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (23)
1.一种在线翻译过程中的语音数据处理方法,其特征在于,应用于终端进行语音通信,所述方法包括:
终端获取第一语音数据包,所述第一语音数据包包括预设时间段内的语音数据;
所述终端确定所述第一语音数据包中不存在有效语音数据,所述终端停止向翻译服务器上传语音数据。
2.根据权利要求1所述的方法,其特征在于,所述终端确定所述第一语音数据包中是否存在有效语音数据,包括:
所述终端确定所述第一语音数据包的第一属性值是否满足预设条件,所述预设条件包括以下条件中的一个或多个:离散性条件、连续性条件、紧致性条件;
所述第一语音数据包的第一属性值不满足所述预设条件,则所述终端确定所述第一语音数据包中不存在有效语音数据;或者
所述第一语音数据包的第一属性值满足所述预设条件,则所述终端确定所述第一语音数据包中存在有效语音数据。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
所述终端确定所述第一语音数据包中存在有效语音数据;
所述终端继续向所述翻译服务器上传语音数据。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
所述终端向所述翻译服务器发送所述第一语音数据包;
所述终端从所述翻译服务器接收所述第一语音数据包的翻译结果;
所述终端确定所述第一语音数据包满足第一条件,则所述终端停止向所述翻译服务器上传语音数据;其中,所述第一条件包括以下条件中的一个或多个:
所述第一语音数据包中不存在有效语音数据;
所述第一语音数据包的翻译结果为空。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述终端停止向翻译服务器上传语音数据,包括:
所述终端显示第一提示框;
所述终端接收用户对所述第一提示框的第一操作,响应于所述第一操作,断开与所述翻译服务器之间的连接。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述终端停止向翻译服务器上传语音数据,包括:
所述终端保持与所述翻译服务器之间的连接,并且所述终端停止向所述翻译服务器发送语音数据。
7.根据权利要求2至6所述的方法,其特征在于,所述预设条件包括离散性条件、连续性条件以及紧致性条件;
若所述第一属性值不满足所述离散性条件,且不满足所述连续性条件,且不满足所述紧致性条件,则所述终端确定所述第一语音数据包中不存在有效语音数据。
8.根据权利要求2至7任一项所述的方法,其特征在于,
所述第一语音数据包的第一属性值包括所述第一语音数据包的各个数据帧的信噪比。
9.根据权利要求2至8任一项所述的方法,其特征在于,
所述离散性条件包括:所述第一语音数据包的第一属性值的方差大于方差阈值。
10.根据权利要求2至8任一项所述的方法,其特征在于,
所述连续性条件包括:所述第一语音数据包的第一属性值的连续性计数大于连续性阈值,所述连续性阈值满足:Tc=θc×Fs,其中,Tc为所述连续性阈值,θc为连续性系数,Fs为所述第一语音数据包的采样频率;
其中,所述第一语音数据包的第一属性值包括N个,N为大于或者等于1的整数,确定所述第一属性值的连续性计数,包括:
终端确定第i个第一属性值是否大于第一属性值的阈值,1≤i≤N-1;
若所述第i个第一属性值大于第一属性值的阈值,则所述终端将所述第一属性值的连续性计数增加1;
若所述第i个第一属性值小于或者等于所述第一属性值的阈值,则所述第一属性值的离散性计数增加1;
在所述离散性计数小于或者等于离散性阈值的情况下,确定第i+1个第一属性值是否大于所述第一属性值的阈值,所述离散性阈值满足:Td=θd×Fs,其中,Td为所述离散性阈值,θd为离散性系数,Fs为所述第一语音数据包的采样频率;
若所述离散性计数大于所述离散性阈值,则将所述连续性计数和离散性计数清零,所述终端从第i+1个第一属性值开始重新确定所述连续性计数。
11.根据权利要求2至8任一项所述的方法,其特征在于,
所述紧致性条件包括:所述第一语音数据包的第一属性值的紧致性计数大于紧致性阈值,所述紧致性阈值满足:Ti=θi×N,其中,Ti为所述紧致性阈值,θi为紧致性系数,N为所述第一语音数据包中包括的第一属性值的数量,所述紧致性计数为大于第一属性值的阈值的第一属性值的数量。
12.一种终端,其特征在于,所述终端包括:一个或多个处理器、存储器、通信接口以及麦克风;所述存储器、所述通信接口与所述处理器耦合;所述麦克风用于捕获语音数据;所述存储器用于存储计算机程序代码;所述计算机程序代码包括计算机指令,当所述处理器执行上述计算机指令时,
所述处理器,用于控制所述麦克风获取第一语音数据包,所述第一语音数据包包括预设时间段内的语音数据;
所述处理器,还用于确定所述第一语音数据包中不存在有效语音数据,停止向翻译服务器上传语音数据。
13.根据权利要求12所述的终端,其特征在于,
所述处理器,具体用于确定所述麦克风获取的第一语音数据包的第一属性值是否满足预设条件,所述预设条件包括以下条件中的一个或多个:离散性条件、连续性条件、紧致性条件;所述第一语音数据包的第一属性值不满足所述预设条件,则确定所述第一语音数据包中不存在有效语音数据;或者,所述第一语音数据包的第一属性值满足所述预设条件,则所述确定所述第一语音数据包中存在有效语音数据。
14.根据权利要求12或13所述的终端,其特征在于,
所述处理器,还用于确定所述第一语音数据包中存在有效语音数据,并且通过所述通信接口继续向所述翻译服务器上传语音数据。
15.根据权利要求12至14任一项所述的终端,其特征在于,
所述处理器还用于通过所述通信接口向所述翻译服务器发送所述第一语音数据包;并且从所述翻译服务器接收所述第一语音数据包的翻译结果;
所述处理器,还用于在确定所述第一语音数据包满足第一条件的情况下,停止向所述翻译服务器上传语音数据;其中,所述第一条件包括以下条件中的一个或多个:
所述第一语音数据包中不存在有效语音数据;
所述第一语音数据包的翻译结果为空。
16.根据权利要求12至15任一项所述的终端,其特征在于,所述终端还包括触摸屏;
所述处理器,还用于控制所述触摸屏显示第一提示框;
所述处理器,还用于接收用户对所述触摸屏显示的所述第一提示框的第一操作;响应于所述第一操作,断开与所述翻译服务器之间的连接。
17.根据权利要求12至15任一项所述的终端,其特征在于,
所述处理器,还用于保持与所述翻译服务器之间的连接,并且停止向所述翻译服务器发送语音数据。
18.根据权利要求13至17任一项所述的终端,其特征在于,所述预设条件包括离散性条件、连续性条件以及紧致性条件;
所述处理器,具体用于在所述第一属性值不满足所述离散性条件,且不满足所述连续性条件,且不满足所述紧致性条件的情况下,确定所述第一语音数据包中不存在有效语音数据。
19.根据权利要求13至18任一项所述的终端,其特征在于,
第一语音数据包的第一属性值包括所述第一语音数据包的各个数据帧的信噪比。
20.根据权利要求13至19任一项所述的终端,其特征在于,
所述离散性条件包括:所述第一语音数据包的第一属性值的方差大于方差阈值。
21.根据权利要求13至19任一项所述的终端,其特征在于,
所述连续性条件包括:所述第一语音数据包的第一属性值的连续性计数大于连续性阈值,所述连续性阈值满足:Tc=θc×Fs,其中,Tc为所述连续性阈值,θc为连续性系数,Fs为所述第一语音数据包的采样频率;
其中,所述第一语音数据包的第一属性值包括N个,N为大于或者等于1的整数;
所述处理器,还用于确定第i个第一属性值是否大于第一属性值的阈值,1≤i≤N-1;若所述第i个第一属性值大于第一属性值的阈值,则将所述第一属性值的连续性计数增加1;若所述第i个第一属性值小于或者等于所述第一属性值的阈值,则所述第一属性值的离散性计数增加1;
所述处理器,还用于在所述离散性计数小于或者等于离散性阈值的情况下,确定第i+1个第一属性值是否大于所述第一属性值的阈值,所述离散性阈值满足:Td=θd×Fs,其中,Td为所述离散性阈值,θd为离散性系数,Fs为所述第一语音数据包的采样频率;在所述离散性计数大于所述离散性阈值的情况下,将所述连续性计数和离散性计数清零,并且从第i+1个第一属性值开始重新确定所述连续性计数。
22.根据权利要求13至19任一项所述的终端,其特征在于,
所述紧致性条件包括:所述第一语音数据包的第一属性值的紧致性计数大于紧致性阈值,所述紧致性阈值满足:Ti=θi×N,其中,Ti为所述紧致性阈值,θi为紧致性系数,N为所述第一语音数据包中包括的第一属性值的数量,所述紧致性计数为大于第一属性值的阈值的第一属性值的数量。
23.一种计算机存储介质,其特征在于,所述计算机存储介质包括计算机指令,当所述计算机指令在终端上运行时,使得所述终端执行如权利要求1至11中任意一项所述的在线翻译过程中的语音数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210497559.4A CN114999535A (zh) | 2018-10-15 | 2018-10-15 | 在线翻译过程中的语音数据处理方法及装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210497559.4A CN114999535A (zh) | 2018-10-15 | 2018-10-15 | 在线翻译过程中的语音数据处理方法及装置 |
CN201811199111.4A CN109285563B (zh) | 2018-10-15 | 2018-10-15 | 在线翻译过程中的语音数据处理方法及装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811199111.4A Division CN109285563B (zh) | 2018-10-15 | 2018-10-15 | 在线翻译过程中的语音数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114999535A true CN114999535A (zh) | 2022-09-02 |
Family
ID=65176569
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210497559.4A Pending CN114999535A (zh) | 2018-10-15 | 2018-10-15 | 在线翻译过程中的语音数据处理方法及装置 |
CN201811199111.4A Active CN109285563B (zh) | 2018-10-15 | 2018-10-15 | 在线翻译过程中的语音数据处理方法及装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811199111.4A Active CN109285563B (zh) | 2018-10-15 | 2018-10-15 | 在线翻译过程中的语音数据处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (2) | CN114999535A (zh) |
WO (1) | WO2020078267A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999535A (zh) * | 2018-10-15 | 2022-09-02 | 华为技术有限公司 | 在线翻译过程中的语音数据处理方法及装置 |
CN110265061B (zh) * | 2019-06-26 | 2021-08-20 | 广州三星通信技术研究有限公司 | 对通话语音进行实时翻译的方法及设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9165567B2 (en) * | 2010-04-22 | 2015-10-20 | Qualcomm Incorporated | Systems, methods, and apparatus for speech feature detection |
JP5242826B1 (ja) * | 2012-03-22 | 2013-07-24 | 株式会社東芝 | 情報処理装置及び情報処理方法 |
CN104424956B9 (zh) * | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
JP2015060423A (ja) * | 2013-09-19 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
CN104202321B (zh) * | 2014-09-02 | 2017-10-03 | 上海天脉聚源文化传媒有限公司 | 一种声音录制的方法及装置 |
US20160267075A1 (en) * | 2015-03-13 | 2016-09-15 | Panasonic Intellectual Property Management Co., Ltd. | Wearable device and translation system |
CN105185375B (zh) * | 2015-08-10 | 2019-03-08 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
US10366173B2 (en) * | 2016-09-09 | 2019-07-30 | Electronics And Telecommunications Research Institute | Device and method of simultaneous interpretation based on real-time extraction of interpretation unit |
CN106710606B (zh) * | 2016-12-29 | 2019-11-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN107153541B (zh) * | 2017-04-20 | 2020-07-03 | 北京小米移动软件有限公司 | 浏览交互处理方法及装置 |
CN107146617A (zh) * | 2017-06-15 | 2017-09-08 | 成都启英泰伦科技有限公司 | 一种新型语音识别设备及方法 |
CN107343113A (zh) * | 2017-06-26 | 2017-11-10 | 深圳市沃特沃德股份有限公司 | 语音通话方法和装置 |
CN107885731A (zh) * | 2017-11-06 | 2018-04-06 | 深圳市沃特沃德股份有限公司 | 语音翻译方法和装置 |
CN114999535A (zh) * | 2018-10-15 | 2022-09-02 | 华为技术有限公司 | 在线翻译过程中的语音数据处理方法及装置 |
-
2018
- 2018-10-15 CN CN202210497559.4A patent/CN114999535A/zh active Pending
- 2018-10-15 CN CN201811199111.4A patent/CN109285563B/zh active Active
-
2019
- 2019-10-11 WO PCT/CN2019/110556 patent/WO2020078267A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2020078267A1 (zh) | 2020-04-23 |
CN109285563B (zh) | 2022-05-06 |
CN109285563A (zh) | 2019-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347269B (zh) | 一种空鼠模式实现方法及相关设备 | |
CN112289313A (zh) | 一种语音控制方法、电子设备及系统 | |
CN110401767B (zh) | 信息处理方法和设备 | |
CN115344173A (zh) | 一种分屏显示的操作方法及电子设备 | |
CN111132234A (zh) | 一种数据传输方法及对应的终端 | |
CN112312366B (zh) | 一种通过nfc标签实现功能的方法、电子设备及系统 | |
WO2022022319A1 (zh) | 一种图像处理方法、电子设备、图像处理系统及芯片系统 | |
WO2021190314A1 (zh) | 触控屏的滑动响应控制方法及装置、电子设备 | |
CN112651510A (zh) | 模型更新方法、工作节点及模型更新系统 | |
CN114221402A (zh) | 终端设备的充电方法、装置和终端设备 | |
CN114339429A (zh) | 音视频播放控制方法、电子设备和存储介质 | |
CN111930335A (zh) | 声音调节方法及装置、计算机可读介质及终端设备 | |
CN114880251A (zh) | 存储单元的访问方法、访问装置和终端设备 | |
CN113126948A (zh) | 一种音频播放方法及相关设备 | |
CN109285563B (zh) | 在线翻译过程中的语音数据处理方法及装置 | |
CN114095602B (zh) | 索引显示方法、电子设备及计算机可读存储介质 | |
CN113593567A (zh) | 视频声音转文本的方法及相关设备 | |
CN114822525A (zh) | 语音控制方法和电子设备 | |
CN114089902A (zh) | 手势交互方法、装置及终端设备 | |
CN113129916A (zh) | 一种音频采集方法、系统及相关装置 | |
CN113467747B (zh) | 音量调节方法、电子设备及存储介质 | |
CN114120987B (zh) | 一种语音唤醒方法、电子设备及芯片系统 | |
CN111026285B (zh) | 一种调节压力阈值的方法及电子设备 | |
CN115393676A (zh) | 手势控制优化方法、装置、终端和存储介质 | |
CN113467904A (zh) | 确定协同模式的方法、装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |