CN115527538B - 对话语音生成方法、装置 - Google Patents

对话语音生成方法、装置 Download PDF

Info

Publication number
CN115527538B
CN115527538B CN202211517134.1A CN202211517134A CN115527538B CN 115527538 B CN115527538 B CN 115527538B CN 202211517134 A CN202211517134 A CN 202211517134A CN 115527538 B CN115527538 B CN 115527538B
Authority
CN
China
Prior art keywords
text
voice
reasoning
sample
inference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211517134.1A
Other languages
English (en)
Other versions
CN115527538A (zh
Inventor
蒋建辉
李敏
龙文
蔡仲辉
申苗
刘智睿
艾永军
黄家琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GAC Aion New Energy Automobile Co Ltd
Original Assignee
GAC Aion New Energy Automobile Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GAC Aion New Energy Automobile Co Ltd filed Critical GAC Aion New Energy Automobile Co Ltd
Priority to CN202211517134.1A priority Critical patent/CN115527538B/zh
Publication of CN115527538A publication Critical patent/CN115527538A/zh
Application granted granted Critical
Publication of CN115527538B publication Critical patent/CN115527538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Machine Translation (AREA)

Abstract

本公开的实施例公开了对话语音生成方法、装置。该方法的一具体实施方式包括:采集用户语音,以及将用户语音转换为语音文本;将语音文本输入预先训练的常识推理模型,以生成多个推理维度中每个推理维度对应的推理文本,得到推理文本集合;根据推理文本集合和语音文本,生成对话文本;将对话文本转化为对话语音以及播放对话语音。该实施方式实现了生成准确的对话语音。

Description

对话语音生成方法、装置
技术领域
本公开的实施例涉及计算机技术领域,具体涉及对话语音生成方法、装置。
背景技术
车载智能设备是集主动安全预警、音视频监控、行车记录、卫星定位于一体的新一代智能车载终端,功能丰富,可扩展性强,既能为驾驶员提供驾驶风险预警,又能提供完整的行车数据和关键事件影像。在用户使用车载智能设备的过程中,通常通过语音实现对话和交互。现有的车载智能设备一般使用seq2seq等网络生成对话语音。
然而,发明人发现,当采用上述方式生成对话语音时,经常会存在如下技术问题:
第一,seq2seq等网络都是针对特定任务的数据集和目标进行训练的,这导致了能够有效发现特定任务相关性的模型,但缺乏简单的常识推理。例如,当采集到用户语音“打电话报警”,作为人可以很容易知道:用户想要向警察讲述紧急事件、用户是个乐于助人的人或用户感到害怕、用户目睹了紧急事件。而seq2seq等网络难以推理出这些常识,由于缺乏常识推理能力,导致生成的对话语音无法真实模拟实际对话,导致用户使用不便。
第二,目前,车载设备显示的地图为二维地图,用户在查看地图或利用地图进行导航时,经常无法将实际位置与二维地图中所显示的内容进行对应;
第三,在训练常识推理能力的过程中,存在不同的推理维度。不同的推理维度的训练会引导模型向不同的方向收敛,进而产生互相干扰,导致无法生成准确的推理结果;
第四,同一用户语音往往表示多种用户意图,给训练造成了困难。例如,当用户提问“牛肉面中有香菜吗”,可能表示用户不想吃香菜,也可能表示用户想吃香菜,这给训练造成的困难;
第五,车载智能设备上的智能生活助理在进行日程安排时,往往按照时间对各项代办事项进行排序。对于一些事项,由于需要一些前置操作,现有的智能生活助理无法推理出事件的前置操作,进而无法将前置操作作为代办排入代办事项中,导致用户容易遗忘前置操作。例如,用户在去往A地点申领B证件之前,需要先去照相馆拍摄照片。
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了对话语音生成方法、装置,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种对话语音生成方法,该方法包括:采集用户语音,以及将用户语音转换为语音文本;将语音文本输入预先训练的常识推理模型,以生成多个推理维度中每个推理维度对应的推理文本,得到推理文本集合;根据推理文本集合和语音文本,生成对话文本;将对话文本转化为对话语音以及播放对话语音。
第二方面,本公开的一些实施例提供了一种对话语音生成装置,装置包括:采集单元,被配置成采集用户语音,以及将用户语音转换为语音文本;推理单元,被配置成将语音文本输入预先训练的常识推理模型,以生成多个推理维度中每个推理维度对应的推理文本,得到推理文本集合;生成单元,被配置成根据推理文本集合和语音文本,生成对话文本;播放单元,被配置成将对话文本转化为对话语音以及播放对话语音。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例具有如下有益效果:生成的对话语音能够模拟真实对话,并能够生成更加准确的对话语音。相关的对话语音生成方法之所以无法模拟实际对话导致用户使用不便的原因在于:缺乏常识推理能力。基于此,本公开的一些实施例引入常识推理模型,并从不同的推理维度进行推理,从而能够生成表征常识的推理文本,进而生成带有常识能力的对话语音,因此能够模拟真实对话。另外,研究发现,在与车载智能设备进行语音交互的应用场景下,用户意图、用户个性和前置操作是影响对话的主要维度,基于此,通过对推理维度分类为用户意图维度、用户个性维度、前置操作维度,从而匹配车载智能设备语音交互的应用场景,生成适用于该应用场景的推理常识,进而生成准确的对话语音。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的对话语音生成方法的一些实施例的流程图;
图2是根据本公开的对话语音生成装置的一些实施例的结构示意图;
图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
参考图1,示出了根据本公开的对话语音生成方法的一些实施例的流程100。该对话语音生成方法,包括以下步骤:
步骤101,采集用户语音,以及将用户语音转换为语音文本。
在一些实施例中,车载智能设备可以利用语音采集设备(麦克风)来采集用户语音。在此基础上,通过ASR(Automatic Speech Recognition,语音识别)技术转换为语音文本。车载智能设备可以是各种车载智能终端。
步骤102,将语音文本输入预先训练的常识推理模型,以生成多个推理维度中每个推理维度对应的推理文本,得到推理文本集合,多个推理维度包括:用户意图维度、用户个性维度、前置操作维度。其中,用户意图维度可以是表示用户深层次意图的维度,用户个性维度可以是表示用户个性的维度,前置操作维度可以是表示需要何种前置操作的维度。实践中,这三个维度可以用数字、字符等各种形式表示。例如,用“1”表示用户意图维度,用“2”表示用户个性维度,用“3”表示前置操作维度等等。
在一些实施例中,车载智能设备可以部署有预先训练的常识推理模型。其中,常识推理模型可以是用于常理推理的模型。例如,常理推理模型可以是经过训练的bert(Bidirectional Encoder Representation from Transformers,语言表征模型)模型。
实践中,由于对于同一个语音文本,其关联的常识有很多。为了有效的对常识推理进行归类,结合智能生活助理的应用场景,即首先需要了解用户深层次的用户意图,其次需要了解用户个性,最后需要了解用户语音文本的前置操作。其中,用户深层次的用户意图与用户表层的意图不同,举例来说,当用户说“你真漂亮”,用户意图是希望对方也夸奖自己好看。又如,当用户说“开始做咖啡”,那么其前置操作是用户准备好了咖啡豆。在车载智能设备语音交互的应用场景,充分了解深层次的用户意图、用户个性以及前置操作,对于对话语音的语气、内容至关重要,有助于生成准确的对话语音。其中,前置操作是用户语音对应的操作之前需要的操作,用户语音对应的操作可以是用户语音对应的语音文本中所包含的操作信息所表征的操作。实践中,可以通过人工标注的方式识别语音文本中的操作信息。
步骤103,根据推理文本集合和语音文本,生成对话文本。
在一些实施例中,车载智能设备可以根据以下步骤生成对话文本:
步骤一、分别对推理文本集合和语音文本进行特征提取,得到推理文本特征和语音文本特征。
步骤二、对推理文本特征和语音文本特征进行融合,得到融合文本特征。
步骤三、将融合文本特征输入对话生成网络,生成对话文本。其中,对话生成网络可以是经过训练的seq2seq网络。
步骤104,将对话文本转化为对话语音以及播放对话语音。
在一些实施例中,车载智能设备可以利用语音合成技术,将对话文本转化为对话语音以及播放对话语音。
在一些实施例的一些可选的实现方式中,为了解决背景技术部分描述的技术问题二“目前,车载设备显示的地图为二维地图,用户在查看地图或利用地图进行导航时,经常无法将实际位置与二维地图中所显示的内容进行对应”,本公开的一些实施例,在根据推理文本集合和语音文本,生成对话文本之前,上述方法还包括:获取车载智能设备的屏幕中当前所显示的元宇宙场景。此时,根据推理文本集合和语音文本,生成对话文本,包括:根据推理文本集合、语音文本、元宇宙场景,生成对话文本。在此过程中,通过将现实中的场景(例如道路、建筑等)映射在元宇宙中,从而用户可以更加直观的将现实场景与地图场景对应。
在此基础上,用户可以在元宇宙中设置对应的虚拟数字人物,用户对应的虚拟数字人物在元宇宙中不断移动,用户对应的虚拟数字人物可以与用户在实际中的位置相对应。可以理解,当前所显示的元宇宙场景是用户对应的虚拟数字人物所在的元宇宙场景。在生成对话文本的过程中,通过增加元宇宙场景,可以增加对话文本与当前的元宇宙场景的契合度,更加准确的模拟真实对话。例如,在“导航去图书馆”场景中,当用户提问“明天天气怎么样”车载智能设备可以回答“今天是阴天,很适合在图书馆看书”。具体的,可以分别对元宇宙场景、推理文本集合、语音文本进行特征提取和融合,得到融合文本特征。之后,融合文本特征输入对话生成网络,生成对话文本。另外,可以通过语音合成技术,来实现文本向语音的转换。
本公开的一些实施例提供的方法,生成的对话语音能够模拟真实对话,并能够生成更加准确的对话语音。相关的对话语音生成方法之所以无法模拟实际对话导致用户使用不便的原因在于:缺乏常识推理能力。基于此,本公开的一些实施例引入常识推理模型,并从不同的推理维度进行推理,从而能够生成表征常识的推理文本,进而生成带有常识能力的对话语音,因此能够模拟真实对话。另外,研究发现,在与车载智能设备进行语音交互的应用场景下,用户意图、用户个性和前置操作是影响生成的对话的准确率的主要维度,基于此,通过对推理维度分类为用户意图维度、用户个性维度、前置操作维度,从而匹配车载智能设备语音交互的应用场景,生成适用于该应用场景的推理常识,进而生成准确的对话语音。
在一些实施例中,为了解决背景技术部分的技术问题三“在训练常识推理能力的过程中,存在不同的推理维度。不同的推理维度的训练会引导模型向不同的方向收敛,进而产生互相干扰,导致无法生成准确的推理结果”,常识推理模型可以通过以下步骤生成:
步骤一、获取初始模型,初始模型为多任务模型,初始模型包括一个编码器和多个解码器,其中,多个解码器中每个解码器对应一个推理维度,编码器用于将语音文本编码为文本向量,多个解码器中的每个解码器用于根据文本向量,生成所对应的推理维度的推理文本。
实践中,经过对比发现,本公开的多个推理维度,用户意图维度、用户个性维度、前置操作维度对应的主体一致,均为用户,因此可以通过共用一个编码器以减小模型的参数量。在此基础上,通过每个推理维度采用不同的解码器,实现多任务训练,也避免不同的推理维度相互干扰,提高推理文本的准确率。
实践中,编码器和解码器可以采用例如bert模型。
步骤二、获取训练样本集,训练样本集中的每个训练样本包括样本语音文本和样本语音文本的样本推理文本和样本推理维度。
在一些实施例中,训练样本可以是三元组,包括语音文本、样本推理文本和样本推理维度。
具体的,可以通过以下方式生成训练样本:将多个样本语音文本中的每个样本语音文本发送至一个目标终端,以使目标终端对样本语音文本进行显示;获取目标终端发送的、用户针对样本语音文本的标注信息,标注信息包括用户推理维度和用户推理文本;根据样本语音文本和样本语音文本对应的标注信息,生成训练样本。从而通过这种分布式标注的方式,减少标注工作量,节约标注时间。
步骤三、将样本语音文本输入编码器,得到文本编码向量。
在一些实施例中,车载智能设备可以将样本语音文本输入编码器,得到文本编码向量。
步骤四、将文本编码向量输入样本推理维度对应的解码器,生成实际推理文本。
步骤五、基于实际推理文本和样本推理文本之间的差异调整编码器和解码器的参数,直至满足训练结束条件,得到常识推理模型。
在一些实施例中,可以通过各种损失函数来确定实际推理文本和样本推理文本之间的差异,进而通过反向传播、随机梯度下降等算法调整编码器和解码器的参数。当满足训练结束条件时,得到常识推理模型。
可以看出,通过设置多个解码器,可以避免多个推理维度互相干扰。与此同时,由于本公开的推理维度都属于用户侧的推理维度,不涉及其他主体侧的推理维度,其特征拥有一定的共性,从而可以在设置不同的解码器的同时,采用同一编码器,以减少模型参数。
在一些实施例中,为了解决背景技术部分的技术问题四“同一用户语音往往表示多种用户意图,给训练造成了困难”。为了解决该技术问题,训练样本集中的训练样本在设置时,充分考虑到这一情况。具体的,训练样本集中既存在包含正向推理文本的训练样本,也存在包含反向推理文本的训练样本。从而模型可以充分学习到多种意图的推理常识,从而有效解决模型无法应对多种用户意图的问题。作为示例,“牛肉面中有香菜吗;用户想吃香菜;用户意图”为一个包含正向推理文本(即用户想吃香菜)的训练样本;而“牛肉面中有香菜吗;用户不想吃香菜;用户意图” 为一个包含反向推理文本(即用户不想吃香菜)的训练样本。从而模型可以同时学习到正向和反向用户意图,从而更好的理解用户意图。
在一些实施例中,为了解决背景技术部分的技术问题五“无法根据事件的前置操作,进而无法进前置操作作为代办排入代办事项表中,导致用户容易遗忘前置操作”,本公开的一些实施例中,根据推理文本集合、语音文本、元宇宙场景,生成对话文本,包括以下步骤:
步骤一、响应于前置操作维度对应的推理文本的置信度大于预设置信度阈值,获取用户虚拟数字人物对应的历史场景视频。
在一些实施例中,可以对用户虚拟数字人物(即用户对应的虚拟数字人物)在元宇宙中的活动进行视频记录,得到历史场景视频。
步骤二、对历史场景视频的视频帧进行图像识别,以确定历史场景视频中是否包含推理文本所对应的前置操作信息。
在一些实施例中,从而可以通过查询历史场景视频,确定前置操作是否已完成。作为示例,可以对历史时间段内历史场景视频的关键帧进行识别,得到关键帧语义信息。之后,将前置操作信息与关键帧语义信息进行匹配。
步骤三、响应于历史场景视频中包含推理文本所对应的前置操作信息,根据推理文本集合、语音文本、元宇宙场景,生成对话文本。
在一些实施例中,若存在与前置操作信息相匹配的关键帧语义信息,则历史场景视频中包含推理文本所对应的前置操作信息,说明前置操作已经完成,可以根据推理文本集合、语音文本、元宇宙场景,生成对话文本。反之,如果不存在与前置操作信息相匹配的关键帧语义信息,则历史场景视频中不包含推理文本所对应的前置操作信息,说明前置操作未完成,可以将前置操作信息对应的事项作为代办事项排入代办事项表。然后,可以将代表事项表中的内容通过语音向用户进行播放,从而提醒用户进行处理,避免用户遗忘。
进一步参考图2,作为对上述各图所示方法的实现,本公开提供了一种对话语音生成装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图2所示,一些实施例的对话语音生成装置200包括:采集单元201被配置成采集用户语音,以及将用户语音转换为语音文本。推理单元202被配置成将语音文本输入预先训练的常识推理模型,以生成多个推理维度中每个推理维度对应的推理文本,得到推理文本集合,多个推理维度包括:用户意图维度、用户个性维度、前置操作维度。生成单元203被配置成根据推理文本集合和语音文本,生成对话文本。播放单元204被配置成将对话文本转化为对话语音以及播放对话语音。
可以理解的是,对话语音生成装置200中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置200及其中包含的单元,在此不再赘述。
下面参考图3,其示出了适于用来实现本公开的一些实施例的电子设备300的结构示意图。本公开的一些实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:采集用户语音,以及将用户语音转换为语音文本;将语音文本输入预先训练的常识推理模型,以生成多个推理维度中每个推理维度对应的推理文本,得到推理文本集合,多个推理维度包括:用户意图维度、用户个性维度、前置操作维度;根据推理文本集合和语音文本,生成对话文本;将对话文本转化为对话语音以及播放对话语音。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括:采集单元、推理单元、生成单元和播放单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,采集单元还可以被描述为“采集用户语音的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (8)

1.一种对话语音生成方法,应用于车载智能设备,包括:
采集用户语音,以及将所述用户语音转换为语音文本;
将所述语音文本输入预先训练的常识推理模型,以生成多个推理维度中每个推理维度对应的推理文本,得到推理文本集合;
根据所述推理文本集合和所述语音文本,生成对话文本;
将所述对话文本转化为对话语音以及播放所述对话语音;
其中,所述常识推理模型是通过以下步骤训练得到的:
获取训练样本集,所述训练样本集中的每个训练样本包括样本语音文本和所述样本语音文本的样本推理文本和样本推理维度;
将所述样本语音文本输入编码器,得到文本编码向量;
将所述文本编码向量输入所述样本推理维度对应的解码器,生成实际推理文本;
基于所述实际推理文本和所述样本推理文本之间的差异,调整所述编码器和所述解码器的参数,直至满足训练结束条件,得到所述常识推理模型。
2.根据权利要求1所述的方法,其中,所述常识推理模型为多任务模型,包括编码器和多个解码器,其中,所述多个解码器中每个解码器对应一个推理维度,所述编码器用于将所述语音文本编码为文本向量,所述多个解码器中的解码器用于根据所述文本向量,生成所对应的推理维度的推理文本。
3.根据权利要求2所述的方法,其中,所述根据所述推理文本集合和所述语音文本,生成对话文本,包括:
分别对所述推理文本集合和所述语音文本进行特征提取,得到推理文本特征和语音文本特征;
对所述推理文本特征和语音文本特征进行融合,得到融合文本特征;
将所述融合文本特征输入对话生成网络,生成对话文本。
4.根据权利要求3所述的方法,其中,所述训练样本是通过以下步骤生成的:
将多个样本语音文本中的每个样本语音文本发送至一个目标终端,以使所述目标终端对所述样本语音文本进行显示;
获取所述目标终端发送的、用户针对所述样本语音文本的标注信息,所述标注信息包括用户推理维度和用户推理文本;
根据所述样本语音文本和所述样本语音文本对应的标注信息,生成所述训练样本。
5.根据权利要求4所述的方法,其中,在所述根据所述推理文本集合和所述语音文本,生成对话文本之前,所述方法包括:
获取所述车载智能设备的屏幕中当前所显示的元宇宙场景;以及
所述根据所述推理文本集合和所述语音文本,生成对话文本,包括:
根据所述推理文本集合、所述语音文本、所述元宇宙场景,生成对话文本。
6.一种对话语音生成装置,包括:
采集单元,被配置成采集用户语音,以及将所述用户语音转换为语音文本;
推理单元,被配置成将所述语音文本输入预先训练的常识推理模型,以生成多个推理维度中每个推理维度对应的推理文本,得到推理文本集合;
生成单元,被配置成根据所述推理文本集合和所述语音文本,生成对话文本;
播放单元,被配置成将所述对话文本转化为对话语音以及播放所述对话语音;
其中,所述常识推理模型是通过以下步骤训练得到的:
获取训练样本集,所述训练样本集中的每个训练样本包括样本语音文本和所述样本语音文本的样本推理文本和样本推理维度;
将所述样本语音文本输入编码器,得到文本编码向量;
将所述文本编码向量输入所述样本推理维度对应的解码器,生成实际推理文本;
基于所述实际推理文本和所述样本推理文本之间的差异,调整所述编码器和所述解码器的参数,直至满足训练结束条件,得到所述常识推理模型。
7.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN202211517134.1A 2022-11-30 2022-11-30 对话语音生成方法、装置 Active CN115527538B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211517134.1A CN115527538B (zh) 2022-11-30 2022-11-30 对话语音生成方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211517134.1A CN115527538B (zh) 2022-11-30 2022-11-30 对话语音生成方法、装置

Publications (2)

Publication Number Publication Date
CN115527538A CN115527538A (zh) 2022-12-27
CN115527538B true CN115527538B (zh) 2023-04-07

Family

ID=84704726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211517134.1A Active CN115527538B (zh) 2022-11-30 2022-11-30 对话语音生成方法、装置

Country Status (1)

Country Link
CN (1) CN115527538B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020077814A1 (en) * 2000-12-18 2002-06-20 Harinath Garudadri Voice recognition system method and apparatus
CN106056207B (zh) * 2016-05-09 2018-10-23 武汉科技大学 一种基于自然语言的机器人深度交互与推理方法与装置
CN108197191B (zh) * 2017-12-27 2018-11-23 神思电子技术股份有限公司 一种多轮对话的场景意图中断方法
CN113191161A (zh) * 2021-05-12 2021-07-30 清华大学深圳国际研究生院 基于逻辑增强的机器人互动方法、存储介质和电子设备
CN114372120A (zh) * 2021-12-02 2022-04-19 上海速擎软件有限公司 一种基于聊天场景的自动化运维系统
CN114267345B (zh) * 2022-02-25 2022-05-17 阿里巴巴达摩院(杭州)科技有限公司 模型训练方法、语音处理方法及其装置

Also Published As

Publication number Publication date
CN115527538A (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN112069309A (zh) 信息获取方法、装置、计算机设备及存储介质
CN110619099B (zh) 一种评论内容显示方法、装置、设备及存储介质
WO2022042634A1 (zh) 音频数据的处理方法、装置、设备及存储介质
CN112364144B (zh) 交互方法、装置、设备和计算机可读介质
CN112380365A (zh) 一种多媒体的字幕交互方法、装置、设备及介质
CN116863935B (zh) 语音识别方法、装置、电子设备与计算机可读介质
CN111726691A (zh) 视频推荐方法、装置、电子设备及计算机可读存储介质
CN113395538B (zh) 音效渲染方法、装置、计算机可读介质和电子设备
CN110837334B (zh) 用于交互控制的方法、装置、终端及存储介质
CN111427647A (zh) 应用程序的页面展示方法、装置、存储介质和电子设备
CN115908640A (zh) 生成图像的方法、装置、可读介质及电子设备
CN114863214A (zh) 图像生成模型训练、图像生成方法、装置、介质及设备
CN113253885A (zh) 目标内容的显示方法、装置、设备、可读存储介质及产品
CN113850890A (zh) 动物形象的生成方法、装置、设备及存储介质
CN115527538B (zh) 对话语音生成方法、装置
CN113628097A (zh) 图像特效配置方法、图像识别方法、装置及电子设备
CN115565519B (zh) 对话语音生成方法、装置、设备、计算机可读介质
CN113435528A (zh) 对象分类的方法、装置、可读介质和电子设备
CN113177176A (zh) 特征构建方法、内容显示方法及相关装置
CN112346615A (zh) 信息处理方法及装置
CN113709573A (zh) 配置视频特效方法、装置、设备及存储介质
CN112070888A (zh) 图像生成方法、装置、设备和计算机可读介质
CN111986669A (zh) 信息处理方法及装置
CN117785009A (zh) 信息处理方法、装置及终端设备
CN114882155A (zh) 表情数据的生成方法、装置、可读介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant