CN110956950A - 一种数据处理方法、装置和电子设备 - Google Patents

一种数据处理方法、装置和电子设备 Download PDF

Info

Publication number
CN110956950A
CN110956950A CN201911212686.XA CN201911212686A CN110956950A CN 110956950 A CN110956950 A CN 110956950A CN 201911212686 A CN201911212686 A CN 201911212686A CN 110956950 A CN110956950 A CN 110956950A
Authority
CN
China
Prior art keywords
language
audio data
data
conversation
sampling rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911212686.XA
Other languages
English (en)
Inventor
李凡智
刘旭国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201911212686.XA priority Critical patent/CN110956950A/zh
Publication of CN110956950A publication Critical patent/CN110956950A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请提供了一种数据处理方法、装置和电子设备,方法包括:在对话场景中获取对话发送方收集的第一语言的第一音频数据;确认接收所述第一音频数据的对话接收方所需要的第二语言;将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据;发送所述第二语言的第二音频数据到所述对话接收方,本申请实现了能够在对话场景中实现语言的转换,从而避免通话双方出现交流障碍。

Description

一种数据处理方法、装置和电子设备
技术领域
本申请涉及数据处理技术领域,更具体的说是涉及一种数据处理方法、装置和电子设备。
背景技术
目前,在对话场景下,对话发送方和对话接收方在通过电子设备进行通话过程中,经常会出现由于语言不通无法理解对方的表达内容或无法被对方理解自己的表达内容的情况,从而产生交流障碍。
发明内容
有鉴于此,本申请提供一种数据处理方法和电子设备,以解决现有技术中由于语言不通导致对话发送方和对话接收方产生交流障碍的技术问题。
为实现上述目的,本申请提供如下技术方案:
一种数据处理方法,包括:
在对话场景中获取对话发送方收集的第一语言的第一音频数据;
确认接收所述第一音频数据的对话接收方所需要的第二语言;
将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据;
发送所述第二语言的第二音频数据到所述对话接收方。
优选的,所述将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据,包括:
将所述第一语言的第一音频数据识别为所述第一语言的第一文本数据;
将所述第一语言的第一文本数据转换为所述第二语言的第二文本数据;
将所述第二语言的第二文本数据转换为所述第二语言的第二音频数据。
优选的,所述第一音频数据的音频采样率为第一采样率;该方法还包括:
将所述第一语言的第一音频数据音频采样率由所述第一采样率转换为第二采样率,所述第二采样率小于所述第一采样率;
相应的,将所述第一语言的第一音频数据转换为第二语言的第二音频数据,包括:
将具有所述第二采样率的所述第一语言的第一音频数据转换为第二语言的第二音频数据。
优选的,还包括:
控制所述对话发送方的第一显示单元上显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据;
和/或,控制所述对话接收方的第二显示单元显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据。
优选的,还包括:
对所述第一音频数据进行分析,确定所述对话发送方关于所述第一音频数据的语言情感数据;
相应的,所述将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据,包括:
将所述第一语言的第一音频数据转换为具有所述语言情感数据的所述第二语言的第二音频数据。
优选的,所述确认接收所述第一音频数据的对话接收方所需要的第二语言,包括:
获取与所述对话接收方所在位置相关的目标信息;
对所述目标信息进行分析确定所述对话接收方能够使用的第二语言。
一种电子设备,包括:
采集器,用于在对话场景中获取对话发送方收集的第一语言的第一音频数据;
处理器,用于确认接收所述第一音频数据的对话接收方所需要的第二语言,将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据,发送所述第二语言的第二音频数据到所述对话接收方。
优选的,还包括:
混频器,用于所述第一音频数据进行混频处理;
采样器,用于对混频处理后的第一音频数据采用第一采样率进行采样;
所述处理器具体还用于将所述第一语言的第一音频数据音频采样率由所述第一采样率转换为第二采样率,将具有所述第二采样率的所述第一语言的第一音频数据转换为第二语言的第二音频数据;所述第二采样率小于所述第一采样率。
优选的,还包括:
显示单元,用于显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据。
一种数据处理装置,包括:
获取数据单元,用于在对话场景中获取对话发送方收集的第一语言的第一音频数据;
确定语言单元,用于确认接收所述第一音频数据的对话接收方所需要的第二语言;
转换语言单元,用于将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据;
发送数据单元,用于发送所述第二语言的第二音频数据到所述对话接收方。
经由上述的技术方案可知,与现有技术相比,本申请提供了一种数据处理方法,包括在对话场景中获取对话发送方收集的第一语言的第一音频数据,确定接收第一音频数据的对话接收方所需要的第二语言,将第一语言的第一音频数据转换为第二语言的第二音频数据,发送第二语言的第二音频数据到对话接收方,由此可见,本申请能够在对话场景中实现语言的转换,从而避免通话双方出现交流障碍。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请一个实施例提供的一种数据处理方法的流程示意图;
图2为本申请另一实施例提供的一种数据处理方法的流程示意图;
图3为本申请又一实施例提供的一种数据处理方法的流程示意图;
图4为本申请又一实施例提供的一种数据处理方法的流程示意图;
图5为本申请一个实施例提供的一种电子设备的结构示意图;
图6为本申请另一实施例提供的一种电子设备的结构示意图;
图7为本申请又一实施例提供的一种电子设备的结构示意图;
图8为本申请一个实施例的提供的一种数据处理装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请一个实施例公开了一种数据处理方法,如图1所示,该方法包括如下步骤:
步骤101:在对话场景中获取对话发送方收集的第一语言的第一音频数据;
对话场景可以指代为对话发送方和对话接收方正在进行通话的场景,如直接通过拨打电话的方式所建立的对话场景,或者通过语音应用所建立的对话场景,语音应用可以包括微信应用、QQ应用等等。
其中,在获取对话发送方收集的第一语言的第一音频数据时,可以在通信网络中获取对话发送方收集的第一音频数据,或者直接获取对话发送方的电子设备上的声音采集器收集的第一音频数据。
需说明的是,本申请提供的一种数据处理方法可以应用于对话发送方的电子设备中,也可以应用于区别于对话发送方的电子设备和对话接收方的电子设备的另一电子设备中,如中转设备。
步骤102:确认接收所述第一音频数据的对话接收方所需要的第二语言;
为了避免对话发送方和对话接收方之间出现交流障碍,需先确定接收第一音频数据的对话接收方所需要的第二语言,以实现将第一音频数据由第一语言转换到第二语言。
作为可选的实现方式,可以直接由用户输入对话接收方所需要的第二语言,或者系统中预先设定对话接收方所需要的第二语言。
另外可选的实现方式下,所述确认接收所述第一音频数据的对话接收方所需要的第二语言,可以包括如下步骤:
(1)获取与所述对话接收方所在位置相关的目标信息;
该目标信息与对话接收方所在位置相关,如对话接收方的地理位置信息、对话接收方的设备注册地信息、对话接收方的设备绑定的用户身份信息,该目标信息可以存储在本申请的一种数据处理方法的执行设备中,如对话发送方所在设备或中转设备,具体的,可以将目标信息与对话接收方标识的对应关系存储在对话发送方所在设备或者中转设备中,通过对话接收方的标识来确定与其对应的目标信息,或者,该目标信息也可以存储在对话接收方所在设备,通过与对话接收方的电子设备通信来获取目标信息。
(2)对所述目标信息进行分析确定所述对话接收方能够使用的第二语言。
对目标信息进行分析能够确定对话接收方所在位置,从而确定所在位置所使用的第二语言。
在具体实现中,如目标信息为设备注册地信息,那么通过对设备注册地信息进行分析,能够确定设备注册地,从而将设备注册地所使用的语言确定为第二语言。
如目标信息为用户身份信息,那么通过对用户身份信息进行分析能够确定用户所在地,从而将用户所在地所使用的语言确定为第二语言。
如目标信息为地理位置信息,那么通过对地理位置信息进行分析能够确定用户所在地,从而将用户所在地所使用的语言确定为第二语言。
步骤103:将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据;
在本实施例中,将第一语言的第一音频数据转换为第二语言的第二音频数据,可以包括如下步骤:
(1)将所述第一语言的第一音频数据识别为所述第一语言的第一文本数据;
可选的,可以利用自动语言识别技术(ASR)将第一语言的第一音频数据识别为第一语言的第一文本数据。
(2)将所述第一语言的第一文本数据转换为所述第二语言的第二文本数据;
可选的,通过智能翻译工具将第一语言的第一文本数据转换为第二语言的第二文本数据。
(3)将所述第二语言的第二文本数据转换为所述第二语言的第二音频数据。
可选的,通过文本语言转换工具(TTS)将第二语言的第二文本数据转换为第二语言的第二音频数据。
步骤104:发送所述第二语言的第二音频数据到所述对话接收方。
如果该对话场景为通过拨打电话建立的通话场景或为通过语音应用建立的通话场景,或者其他对话场景,本申请中,对话发送方发送的是第一语言的第一音频数据,而对话接收方接收到的是第二语言的第二音频数据,提高了交流效率。
由此可见,在本实施例中,通过在对话场景中获取对话发送方收集的第一语言的第一音频数据,确定接收第一音频数据的对话接收方所需要的第二语言,将第一语言的第一音频数据转换为第二语言的第二音频数据,发送第二语言的第二音频数据到对话接收方,实现了在对话场景中的语言转换,从而避免通话双方出现交流障碍。
本申请另一实施例提供了一种数据处理方法,如图2所示,该方法包括如下步骤:
步骤201:在对话场景中获取对话发送方收集的第一语言的第一音频数据;
其中,所述第一音频数据的音频采样率为第一采样率。
可选的,第一音频数据可以为混频处理后的,基于第一采样率采集的数据。
步骤202:将所述第一语言的第一音频数据的音频采样率由第一采样率转换为第二采样率;
其中,第二采样率小于所述第一采样率。
在语言识别时,针对低采样率的音频数据识别准确性高,因此为了提高语言识别的准确性,可以将第一音频数据的音频采样率由第一采样率转换为第二采样率。
步骤203:确认接收所述第一音频数据的对话接收方所需要的第二语言;
步骤204:将具有所述第二采样率的所述第一语言的第一音频数据转换为第二语言的第二音频数据;
步骤205:发送所述第二语言的第二音频数据到所述对话接收方。
由此可见,在本实施例中,通过在对话场景中获取对话发送方收集的第一语言的第一音频数据,确定接收第一音频数据的对话接收方所需要的第二语言,将第一语言的第一音频数据转换为第二语言的第二音频数据,发送第二语言的第二音频数据到对话接收方,实现了在对话场景中的语言转换,从而避免通话双方出现交流障碍;
进一步的,在转换前,通过将所述第一语言的第一音频数据的音频采样率由高采样率转换为低采样率,提高了语言识别的准确性。
本申请又一实施例还提供了一种数据处理方法,如图3所示,该方法包括如下步骤:
步骤301:在对话场景中获取对话发送方收集的第一语言的第一音频数据;
步骤302:确认接收第一音频数据的对话接收方所需要的第二语言;
步骤303:将所述第一语言的第一音频数据识别为所述第一语言的第一文本数据;
步骤304:将所述第一语言的第一文本数据转换为所述第二语言的第二文本数据;
步骤305:将所述第二语言的第二文本数据转换为所述第二语言的第二音频数据;
步骤306:发送所述第二语言的第二音频数据到所述对话接收方;
步骤307:控制所述对话发送方的第一显示单元上显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据;
为了便于对话发送方清晰的获知转换前的数据和/或转换后的数据,可以控制对话发送方的第一显示单元上显示第一语言的第一文本数据和/或第二语言的第二文本数据。
步骤308:控制所述对话接收方的第二显示单元显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据。
为了便于对话接收方清晰的获知转换前的数据和/或转换后的数据,可以控制对话接收方的第二显示单元上显示第一语言的第一文本数据和/或第二语言的第二文本数据。
其中,在本实施例中,步骤307和步骤308以和/或的形式存在。
由此可见,在本实施例中,通过在对话场景中获取对话发送方收集的第一语言的第一音频数据,确定接收第一音频数据的对话接收方所需要的第二语言,将第一语言的第一音频数据转换为第二语言的第二音频数据,发送第二语言的第二音频数据到对话接收方,实现了在对话场景中的语言转换,从而避免通话双方出现交流障碍;
进一步的,通过控制所述对话发送方的第一显示单元上显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据,提高了对话发送方获知转换前的数据和/或转换后的数据的便捷性;和/或,通过控制对话接收方的第二显示单元显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据,提高了对话接收方获知转换前的数据和/或转换后的数据的便捷性。
本申请又一实施例还提供了一种数据处理方法,如图4所示,该方法包括如下步骤:
步骤401:在对话场景中获取对话发送方收集的第一语言的第一音频数据;
步骤402:确认接收所述第一音频数据的对话接收方所需要的第二语言;
步骤403:对所述第一音频数据进行分析,确定所述对话发送方关于所述第一音频数据的语言情感数据;
可以理解的是,对话发送方与对话接收方通话的过程中,会夹带个人的情感信息,在第一音频数据上可以体现为语速的快慢、语调的高低、男声或女声等等,如果仅是单纯的进行音频数据的语言转换,可能会导致转换后的第二音频数据在视觉上比较单一,给人一种机器发出的声音的感觉,因此,可以对第一音频数据进行分析,确定对话发送方关于第一音频数据的语言情感数据,以便后续在转换时携带该语言情感数据。其中,该语言情感数据可以包括第一音频数据中的语速信息、语调信息、男女声信息、声线信息等中的至少一种或多种。
步骤404:将所述第一语言的第一音频数据转换为具有所述语言情感数据的所述第二语言的第二音频数据;
当确定了对话发送方关于第一音频数据的语言情感数据后,在转换过程中,可以将该语言情感数据插入到第二音频数据过程中,具体的,插入方式可以基于语言情感数据在第一音频数据中的发生时刻或语言情感数据在第一音频数据中对应的语言内容进行插入,即将语言情感数据插入到第二音频数据中,与第一音频数据中的语言情感数据的发生时刻相同的时刻的位置上;或者,将语言情感数据插入到第二音频数据中,与第一音频数据中的语言情感数据对应的语言内容相同的语言内容的位置上。
例如,一段长为5秒钟的第一音频数据,在2.5秒处产生语言情感数据1,那么,在转换为第二音频数据时,则也在2.5秒处插入语言情况数据1。或者,一段长为5秒钟的第一音频数据,在第一语言内容表达的“天气”处产生语言情感数据2,那么在转换为第二音频数据时,则也在第二语言内容表达的“天气”处插入语言情感数据2。
步骤405:发送所述第二语言的第二音频数据到所述对话接收方。
由此可见,在本实施例中,通过在对话场景中获取对话发送方收集的第一语言的第一音频数据,确定接收第一音频数据的对话接收方所需要的第二语言,将第一语言的第一音频数据转换为第二语言的第二音频数据,发送第二语言的第二音频数据到对话接收方,实现了在对话场景中的语言转换,从而避免通话双方出现交流障碍;
进一步的,通过在第二音频数据中插入第一音频数据的语言情感数据,便于对话接收方获知对话发送方的语言情感,进一步避免了交流障碍。
与上述一种数据处理方法对应的,本申请实施例还提供了一种电子设备,在一个实施例中,如图5所示,该电子设备包括:采集器110、处理器120;其中:
采集器110,用于在对话场景中获取对话发送方收集的第一语言的第一音频数据;
对话场景可以指代为对话发送方和对话接收方正在进行通话的场景,如直接通过拨打电话的方式所建立的对话场景,或者通过语音应用所建立的对话场景,语音应用可以包括微信应用、QQ应用等等。
其中,采集器110在获取对话发送方收集的第一语言的第一音频数据时,可以在通信网络中获取对话发送方收集的第一音频数据,或者直接以声音采集器的方式收集对话发送方的第一音频数据。
需说明的是,本申请中的电子设备可以为对话发送方的电子设备,也可以应用于区别于对话发送方的电子设备和对话接收方的电子设备的另一电子设备中,如中转设备。
处理器120,用于确认接收所述第一音频数据的对话接收方所需要的第二语言,将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据,发送所述第二语言的第二音频数据到所述对话接收方。
为了避免对话发送方和对话接收方之间出现交流障碍,处理器120需先确定接收第一音频数据的对话接收方所需要的第二语言,以实现第一音频数据由第一语言转换到第二语言。
作为可选的实现方式,处理器120可以直接接收用户输入的对话接收方所需要的第二语言,或者获取系统中预先设定的对话接收方所需要的第二语言。
另外可选的实现方式下,所述处理器120确认接收所述第一音频数据的对话接收方所需要的第二语言,可以包括:
(1)获取与所述对话接收方所在位置相关的目标信息;
该目标信息与对话接收方所在位置相关,如对话接收方的地理位置信息、对话接收方的设备注册地信息、对话接收方的设备绑定的用户身份信息,该目标信息可以存储在本申请的电子设备中,如对话发送方所在设备或中转设备,具体的,可以将目标信息与对话接收方标识的对应关系存储在电子设备中,通过对话接收方的标识来确定与其对应的目标信息,或者,该目标信息也可以存储在对话接收方所在设备中,通过与对话接收方通信来获取目标信息。
(2)对所述目标信息进行分析确定所述对话接收方能够使用的第二语言。
对目标信息进行分析能够确定对话接收方所在位置,从而确定所在位置所使用的第二语言。
在具体实现中,如目标信息为设备注册地信息,那么通过对设备注册地信息进行分析,能够确定设备注册地,从而将设备注册地所使用的语言确定为第二语言。
如目标信息为用户身份信息,那么通过对用户身份信息进行分析能够确定用户所在地,从而将用户所在地所使用的语言确定为第二语言。
如目标信息为地理位置信息,那么通过对地理位置信息进行分析能够确定用户所在地,从而将用户所在地所使用的语言确定为第二语言。
在本实施例中,处理器120将第一语言的第一音频数据转换为第二语言的第二音频数据,可以包括:
(1)将所述第一语言的第一音频数据识别为所述第一语言的第一文本数据;
可选的,可以利用自动语言识别技术(ASR)将第一语言的第一音频数据识别为第一语言的第一文本数据。
(2)将所述第一语言的第一文本数据转换为所述第二语言的第二文本数据;
可选的,通过智能翻译工具将第一语言的第一文本数据转换为第二语言的第二文本数据。
(3)将所述第二语言的第二文本数据转换为所述第二语言的第二音频数据。
可选的,通过文本语言转换工具(TTS)将第二语言的第二文本数据转换为第二语言的第二音频数据。
如果该对话场景为通过拨打电话建立的通话场景或为通过语音应用建立的通话场景,或者其他对话场景,本申请中,对话发送方发送的是第一语言的第一音频数据,而对话接收方接收到的是第二语言的第二音频数据,提高了交流效率。
由此可见,在本实施例中,通过在对话场景中获取对话发送方收集的第一语言的第一音频数据,确定接收第一音频数据的对话接收方所需要的第二语言,将第一语言的第一音频数据转换为第二语言的第二音频数据,发送第二语言的第二音频数据到对话接收方,实现了在对话场景中的语言转换,从而避免通话双方出现交流障碍。
本申请另一实施例还提供了一种电子设备,如图6所示,该电子设备包括:采集器110、处理器120、混频器130、采样器140;其中:
混频器130,用于在对话场景中对对话发送方产生的第一语言的第一音频数据进行混频处理;
采样器140,用于对混频处理后的第一音频数据采用第一采样率进行采样;
采集器110,用于获取具有第一采样率的第一语言的第一音频数据;
处理器120,用于将所述第一语言的第一音频数据音频采样率由所述第一采样率转换为第二采样率,确认接收所述第一音频数据的对话接收方所需要的第二语言,将具有所述第二采样率的所述第一语言的第一音频数据转换为第二语言的第二音频数据,发送所述第二语言的第二音频数据到所述对话接收方。
其中,第二采样率小于所述第一采样率。在语言识别时,针对低采样率的音频数据识别准确性高,因此为了提高语言识别的准确性,可以将第一音频数据的音频采样率由第一采样率转换为第二采样率。
由此可见,在本实施例中,通过在对话场景中获取对话发送方收集的第一语言的第一音频数据,确定接收第一音频数据的对话接收方所需要的第二语言,将第一语言的第一音频数据转换为第二语言的第二音频数据,发送第二语言的第二音频数据到对话接收方,实现了在对话场景中的语言转换,从而避免通话双方出现交流障碍;
进一步的,在转换前,通过将所述第一语言的第一音频数据的音频采样率由高采样率转换为低采样率,提高了语言识别的准确性。
本申请又一实施例还提供了一种电子设备,在一个实施例中,如图7所示,该电子设备包括:采集器110、处理器120、显示单元150;其中:
采集器110,用于在对话场景中获取对话发送方收集的第一语言的第一音频数据。
处理器120,用于确认接收所述第一音频数据的对话接收方所需要的第二语言,将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据,发送所述第二语言的第二音频数据到所述对话接收方。
显示单元150,用于显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据。
在本实施例中,电子设备可以为对话发送方的电子设备,从而在对话发送方的电子设备的显示单元上显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据。
在本申请又一实施例中,处理器还可以用于对第一音频数据进行分析,确定所述对话发送方关于所述第一音频数据的语言情感数据,将所述第一语言的第一音频数据转换为具有所述语言情感数据的所述第二语言的第二音频数据。
可以理解的是,对话发送方与对话接收方通话的过程中,会夹带个人的情感信息,在第一音频数据上可以体现为语速的快慢、语调的高低、男声或女声等等,如果仅是单纯的进行音频数据的语言转换,可能会导致转换后的第二音频数据在视觉上比较单一,给人一种机器发出的声音的感觉,因此,处理器可以对第一音频数据进行分析,确定对话发送方关于第一音频数据的语言情感数据,以便后续在转换时携带该语言情感数据。其中,该语言情感数据可以包括第一音频数据中的语速信息、语调信息、男女声信息、声线信息等中的至少一种或多种。
具体的,处理器当确定了对话发送方关于第一音频数据的语言情感数据后,在转换过程中,可以将该语言情感数据插入到第二音频数据过程中,具体的,插入方式可以基于语言情感数据在第一音频数据中的发生时刻或语言情感数据在第一音频数据中对应的语言内容进行插入,即将语言情感数据插入到第二音频数据中,与第一音频数据中的语言情感数据的发生时刻相同的时刻的位置上;或者,将语言情感数据插入到第二音频数据中,与第一音频数据中的语言情感数据对应的语言内容相同的语言内容的位置上。
本实施例中,通过在第二音频数据中插入第一音频数据的语言情感数据,便于对话接收方获知对话发送方的语言情感,进一步避免了交流障碍。
与上述一种数据处理方法对应的,本申请还提供了一种数据处理装置,如图8所示,包括:获取数据单元801、确定语言单元802、转换语言单元803、发送数据单元804;其中:
获取数据单元801,用于在对话场景中获取对话发送方收集的第一语言的第一音频数据;
对话场景可以指代为对话发送方和对话接收方正在进行通话的场景,如直接通过拨打电话的方式所建立的对话场景,或者通过语音应用所建立的对话场景,语音应用可以包括微信应用、QQ应用等等。
其中,获取数据单元801在获取对话发送方收集的第一语言的第一音频数据时,可以在通信网络中获取对话发送方收集的第一音频数据,或者直接获取对话发送方的电子设备上的声音采集器收集的第一音频数据。
需说明的是,本申请提供的一种数据处理装置可以应用于对话发送方的电子设备中,也可以应用于区别于对话发送方的电子设备和对话接收方的电子设备的另一电子设备中,如中转设备。
确定语言单元802,用于确认接收所述第一音频数据的对话接收方所需要的第二语言;
为了避免对话发送方和对话接收方之间出现交流障碍,需先确定接收第一音频数据的对话接收方所需要的第二语言,以实现第一音频数据由第一语言转换到第二语言。
作为可选的实现方式,确定语言单元802可以直接获取由用户输入对话接收方所需要的第二语言,或者获取系统中预先设定的对话接收方所需要的第二语言。
另外可选的实现方式下,确定语言单元,可以包括:
获取信息模块,用于获取与所述对话接收方所在位置相关的目标信息;
该目标信息与对话接收方所在位置相关,如对话接收方的地理位置信息、对话接收方的设备注册地信息、对话接收方的设备绑定的用户身份信息,该目标信息可以存储在本申请的一种数据处理方法的执行设备中,如对话发送方所在设备或中转设备,具体的,可以将目标信息与对话接收方标识的对应关系存储在对话发送方所在设备或者中转设备中,通过对话接收方的标识来确定与其对应的目标信息,或者,该目标信息也可以存储在对话接收方所在设备,通过与对话接收方通信来获取目标信息。
语言确定模块,用于对所述目标信息进行分析确定所述对话接收方能够使用的第二语言。
对目标信息进行分析能够确定对话接收方所在位置,从而确定所在位置所使用的第二语言。
在具体实现中,如目标信息为设备注册地信息,那么通过对设备注册地信息进行分析,能够确定设备注册地,从而将设备注册地所使用的语言确定为第二语言。
如目标信息为用户身份信息,那么通过对用户身份信息进行分析能够确定用户所在地,从而将用户所在地所使用的语言确定为第二语言。
如目标信息为地理位置信息,那么通过对地理位置信息进行分析能够确定用户所在地,从而将用户所在地所使用的语言确定为第二语言。
转换语言单元803,用于将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据;
在本实施例中,转换语言单元可以包括:文本识别模块,文本转换模块,识别语言模块。其中,
文本识别模块,用于将所述第一语言的第一音频数据识别为所述第一语言的第一文本数据;
可选的,可以利用自动语言识别技术(ASR)将第一语言的第一音频数据识别为第一语言的第一文本数据。
文本转换模块,用于将所述第一语言的第一文本数据转换为所述第二语言的第二文本数据;
可选的,通过智能翻译工具将第一语言的第一文本数据转换为第二语言的第二文本数据。
识别语言模块,用于将所述第二语言的第二文本数据转换为所述第二语言的第二音频数据。
可选的,通过文本语言转换工具(TTS)将第二语言的第二文本数据转换为第二语言的第二音频数据。
发送数据单元804,用于发送所述第二语言的第二音频数据到所述对话接收方。
如果该对话场景为通过拨打电话建立的通话场景或为通过语音应用建立的通话场景,或者其他对话场景,通过本申请对话发送方发送的是第一语言的第一音频数据,而对话接收方接收到的是第二语言的第二音频数据,提高了交流效率。
由此可见,在本实施例中,通过在对话场景中获取对话发送方收集的第一语言的第一音频数据,确定接收第一音频数据的对话接收方所需要的第二语言,将第一语言的第一音频数据转换为第二语言的第二音频数据,发送第二语言的第二音频数据到对话接收方,实现了在对话场景中的语言转换,从而避免通话双方出现交流障碍。
在本申请另一实施例中,第一音频数据的音频采样率为第一采样率;该装置还包括:第一转换单元。其中:
第一转换单元,用于将所述第一语言的第一音频数据音频采样率由所述第一采样率转换为第二采样率,所述第二采样率小于所述第一采样率;
相应的,转换语言单元具体用于将具有所述第二采样率的所述第一语言的第一音频数据转换为第二语言的第二音频数据。
在本申请又一实施例中,该装置还包括:第一控制单元和/或第二控制单元;其中:
第一控制单元,用于控制所述对话发送方的第一显示单元上显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据;
和/或,第二控制单元,用于控制所述对话接收方的第二显示单元显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据。
在本申请又一实施例中,该装置还包括:语言分析单元;
语言分析单元,用于对所述第一音频数据进行分析,确定所述对话发送方关于所述第一音频数据的语言情感数据;
可以理解的是,对话发送方与对话接收方通话的过程中,会夹带个人的情感信息,在第一音频数据上可以体现为语速的快慢、语调的高低、男声或女声等等,如果仅是单纯的进行音频数据的语言转换,可能会导致转换后的第二音频数据在视觉上比较枯燥,给人一种机器发出的声音的感觉,因此,可以对第一音频数据进行分析,确定对话发送方关于第一音频数据的语言情感数据,以便后续在转换时携带该语言情感数据。其中,该语言情感数据可以包括第一音频数据中的语速信息、语调信息、男女声信息、声线信息等中的至少一种或多种。
相应的,所述转换语言单元具体用于将所述第一语言的第一音频数据转换为具有所述语言情感数据的所述第二语言的第二音频数据。
当确定了对话发送方关于第一音频数据的语言情感数据后,在转换过程中,可以将该语言情感数据插入到第二音频数据过程中,具体的,插入方式可以基于语言情感数据在第一音频数据中的发生时刻或语言情感数据在第一音频数据中对应的语言内容进行插入,即将语言情感数据插入到第二音频数据中,与第一音频数据中的语言情感数据的发生时刻相同的时刻的位置上;或者,将语言情感数据插入到第二音频数据中,与第一音频数据中的语言情感数据对应的语言内容相同的语言内容的位置上。
本实施例中,通过在第二音频数据中插入第一音频数据的语言情感数据,便于对话接收方获知对话发送方的语言情感,进一步避免了交流障碍。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,包括:
在对话场景中获取对话发送方收集的第一语言的第一音频数据;
确认接收所述第一音频数据的对话接收方所需要的第二语言;
将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据;
发送所述第二语言的第二音频数据到所述对话接收方。
2.根据权利要求1所述的方法,其中,所述将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据,包括:
将所述第一语言的第一音频数据识别为所述第一语言的第一文本数据;
将所述第一语言的第一文本数据转换为所述第二语言的第二文本数据;
将所述第二语言的第二文本数据转换为所述第二语言的第二音频数据。
3.根据权利要求1所述的方法,所述第一音频数据的音频采样率为第一采样率;该方法还包括:
将所述第一语言的第一音频数据音频采样率由所述第一采样率转换为第二采样率,所述第二采样率小于所述第一采样率;
相应的,将所述第一语言的第一音频数据转换为第二语言的第二音频数据,包括:
将具有所述第二采样率的所述第一语言的第一音频数据转换为第二语言的第二音频数据。
4.根据权利要求2所述的方法,还包括:
控制所述对话发送方的第一显示单元上显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据;
和/或,控制所述对话接收方的第二显示单元显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据。
5.根据权利要求1所述的方法,还包括:
对所述第一音频数据进行分析,确定所述对话发送方关于所述第一音频数据的语言情感数据;
相应的,所述将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据,包括:
将所述第一语言的第一音频数据转换为具有所述语言情感数据的所述第二语言的第二音频数据。
6.根据权利要求1所述的方法,所述确认接收所述第一音频数据的对话接收方所需要的第二语言,包括:
获取与所述对话接收方所在位置相关的目标信息;
对所述目标信息进行分析确定所述对话接收方能够使用的第二语言。
7.一种电子设备,包括:
采集器,用于在对话场景中获取对话发送方收集的第一语言的第一音频数据;
处理器,用于确认接收所述第一音频数据的对话接收方所需要的第二语言,将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据,发送所述第二语言的第二音频数据到所述对话接收方。
8.根据权利要求7所述的电子设备,还包括:
混频器,用于所述第一音频数据进行混频处理;
采样器,用于对混频处理后的第一音频数据采用第一采样率进行采样;
所述处理器具体还用于将所述第一语言的第一音频数据音频采样率由所述第一采样率转换为第二采样率,将具有所述第二采样率的所述第一语言的第一音频数据转换为第二语言的第二音频数据;所述第二采样率小于所述第一采样率。
9.根据权利要求7所述的电子设备,还包括:
显示单元,用于显示所述第一语言的第一文本数据和/或所述第二语言的第二文本数据。
10.一种数据处理装置,包括:
获取数据单元,用于在对话场景中获取对话发送方收集的第一语言的第一音频数据;
确定语言单元,用于确认接收所述第一音频数据的对话接收方所需要的第二语言;
转换语言单元,用于将所述第一语言的第一音频数据转换为所述第二语言的第二音频数据;
发送数据单元,用于发送所述第二语言的第二音频数据到所述对话接收方。
CN201911212686.XA 2019-12-02 2019-12-02 一种数据处理方法、装置和电子设备 Pending CN110956950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911212686.XA CN110956950A (zh) 2019-12-02 2019-12-02 一种数据处理方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911212686.XA CN110956950A (zh) 2019-12-02 2019-12-02 一种数据处理方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN110956950A true CN110956950A (zh) 2020-04-03

Family

ID=69979227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911212686.XA Pending CN110956950A (zh) 2019-12-02 2019-12-02 一种数据处理方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN110956950A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379392A (zh) * 2001-04-11 2002-11-13 国际商业机器公司 具有情感的语音-语音翻译系统和方法
CN106156009A (zh) * 2015-04-13 2016-11-23 中兴通讯股份有限公司 语音翻译方法及装置
CN106464768A (zh) * 2014-05-27 2017-02-22 微软技术许可有限责任公司 通话中的翻译
CN108009159A (zh) * 2017-11-30 2018-05-08 上海与德科技有限公司 一种同声传译方法和移动终端
CN108965614A (zh) * 2018-07-13 2018-12-07 深圳市简能网络技术有限公司 一种通话翻译方法以及系统
CN109582976A (zh) * 2018-10-15 2019-04-05 华为技术有限公司 一种基于语音通话的翻译方法及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379392A (zh) * 2001-04-11 2002-11-13 国际商业机器公司 具有情感的语音-语音翻译系统和方法
CN106464768A (zh) * 2014-05-27 2017-02-22 微软技术许可有限责任公司 通话中的翻译
CN106156009A (zh) * 2015-04-13 2016-11-23 中兴通讯股份有限公司 语音翻译方法及装置
CN108009159A (zh) * 2017-11-30 2018-05-08 上海与德科技有限公司 一种同声传译方法和移动终端
CN108965614A (zh) * 2018-07-13 2018-12-07 深圳市简能网络技术有限公司 一种通话翻译方法以及系统
CN109582976A (zh) * 2018-10-15 2019-04-05 华为技术有限公司 一种基于语音通话的翻译方法及电子设备

Similar Documents

Publication Publication Date Title
EP1981256A1 (en) Speech recognition method and system and speech recognition server
DE602004011109T2 (de) Verfahren und system zum senden von sprachnachrichten
EP2205010A1 (en) Messaging
CN111739553A (zh) 会议声音采集、会议记录以及会议记录呈现方法和装置
CA2717992A1 (en) Speech understanding method and system
CN105100360A (zh) 用于语音通话的通话辅助方法和装置
CN110418098B (zh) 一种视联网会议的开启方法和装置
CN108924583B (zh) 视频文件生成方法及其设备、系统、存储介质
WO2015176287A1 (zh) 应用文本信息进行通信的方法及装置
EP1531401A3 (en) Sequential multimodal input
US9332406B2 (en) Method, apparatus, and system for updating contact information
CN112887194B (zh) 实现听障人士通话的交互方法、装置、终端及存储介质
CN111885341A (zh) 视频通话过程语音采集方法、装置、计算机设备及介质
CN105338204A (zh) 一种交互式语音应答方法及装置
CN111263016A (zh) 通讯辅助方法、装置、计算机设备和计算机可读存储介质
CN111554280A (zh) 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务系统
CN111681650A (zh) 一种智能会议控制方法和装置
CN110956950A (zh) 一种数据处理方法、装置和电子设备
KR101351264B1 (ko) 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법
CN105450970A (zh) 一种信息处理方法及电子设备
CN112600824A (zh) 电话语音通信方法、装置、服务器及存储介质
CN110931004A (zh) 一种基于对接技术实现的语音对话分析方法和装置
KR100846923B1 (ko) 문자메시지 전송 및 회신 방법
KR101951847B1 (ko) IoT 기기의 가시성을 확보하기 위한 장치 및 그를 위한 컴퓨터 프로그램
KR101597248B1 (ko) VoIP 기반 음성 통화 시 음성 인식을 이용한 광고 제공 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200403

RJ01 Rejection of invention patent application after publication