CN111429882A - 播放语音的方法、装置及电子设备 - Google Patents

播放语音的方法、装置及电子设备 Download PDF

Info

Publication number
CN111429882A
CN111429882A CN201910020801.7A CN201910020801A CN111429882A CN 111429882 A CN111429882 A CN 111429882A CN 201910020801 A CN201910020801 A CN 201910020801A CN 111429882 A CN111429882 A CN 111429882A
Authority
CN
China
Prior art keywords
user
vehicle
target user
owner user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910020801.7A
Other languages
English (en)
Other versions
CN111429882B (zh
Inventor
张文涛
乔慧丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201910020801.7A priority Critical patent/CN111429882B/zh
Publication of CN111429882A publication Critical patent/CN111429882A/zh
Application granted granted Critical
Publication of CN111429882B publication Critical patent/CN111429882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

公开了一种播放语音的方法,包括:确定车内目标用户的声音的声学参数和韵律参数;根据所述目标用户的声学参数和韵律参数,合成车载语音;使用合成的所述车载语音播报预设内容。播放语音的装置包括:确定模块、合成模块和播放模块。通过确定车内目标用户的声音的声学参数和韵律参数,根据所述目标用户的声学参数和韵律参数,合成车载语音,使用合成的所述车载语音播报预设内容,增加了车载语音的种类,提高了车载语音的多样性和选择性,可以满足众多用户的需求。

Description

播放语音的方法、装置及电子设备
技术领域
本发明涉及车载电子技术领域,具体涉及一种播放语音的方法、装置及电子设备。
背景技术
随着汽车技术的发展,汽车越来越智能化,汽车的各种车载设施也越来越先进。在车载领域,智能语音助手越来越普及,但是音色单一、无法满足众多用户的需求。
发明内容
为了解决上述技术问题,本申请实施例提供了一种播放语音的方法、装置及电子设备。
根据本申请的一个方面,提供了一种播放语音的方法,包括:确定车内目标用户的声音的声学参数和韵律参数;根据所述目标用户的声学参数和韵律参数,合成车载语音;使用合成的所述车载语音播报预设内容。
根据本申请的另一个方面,提供了一种播放语音的装置,包括:确定模块,用于确定车内目标用户的声音的声学参数和韵律参数;合成模块,用于根据所述目标用户的声学参数和韵律参数,合成车载语音;播放模块,用于使用合成的所述车载语音播报预设内容。
根据本申请的另一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的方法。
根据本申请的另一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的方法。
本申请实施例提供的播放语音的方法,通过确定车内目标用户的声音的声学参数和韵律参数,根据所述目标用户的声学参数和韵律参数,合成车载语音,使用合成的所述车载语音播报预设内容,增加了车载语音的种类,提高了车载语音的多样性和选择性,可以满足众多用户的需求。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本申请一示例性实施例提供的播放语音的方法的流程示意图。
图2是本申请另一示例性实施例提供的播放语音的方法的流程示意图。
图3是本申请一示例性实施例提供的根据所述目标用户的人脸特征信息和声纹特征信息,确定所述目标用户的用户类型的流程示意图。
图4是本申请再一示例性实施例提供的播放语音的方法的流程示意图。
图5是本申请一示例性实施例提供的根据所述车主用户与所述非车主用户之间的对话,确定所述车主用户与所述非车主用户之间的关系的流程示意图。
图6是本申请又一示例性实施例提供的根据所述车主用户与所述非车主用户之间的对话,确定所述车主用户与所述非车主用户之间的关系的流程示意图。
图7是本申请一示例性实施例提供的根据所述车主用户的人脸图像和所述非车主用户的人脸图像,确定所述车主用户与所述非车主用户之间的关系的流程示意图。
图8是本申请一示例性实施例提供的根据所述目标用户的声学参数和韵律参数,合成车载语音的流程示意图。
图9是本申请再一示例性实施例提供的播放语音的方法的流程示意图。
图10是本申请一示例性实施例提供的播放语音的装置的结构示意图。
图11是本申请又一示例性实施例提供的播放语音的装置的结构示意图。
图12是本申请一示例性实施例提供的播放语音的装置中的用户类型确定模块的结构示意图。
图13是本申请再一示例性实施例提供的播放语音的装置的结构示意图。
图14是本申请一示例性实施例提供的播放语音的装置中的关系确定模块的结构示意图。
图15是本申请又一示例性实施例提供的播放语音的装置中的关系确定模块的结构示意图。
图16是本申请一示例性实施例提供的播放语音的装置中的第二关系确定单元的结构示意图。
图17是本申请一示例性实施例提供的播放语音的装置中的语音合成模块的结构示意图。
图18是本申请再一示例性实施例提供的播放语音的装置的结构示意图。
图19是本申请一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
目前,可以通过智能语音助手进行导航或进行语音播报提醒,然而现有智能语音助手大部分都是按照出厂默认的音色进行导航或者进行语音播报提醒,音色单一、无法满足众多用户的需求。
针对上述技术问题,本申请的基本构思是提出一种播放语音的方法、装置及电子设备,该播放语音的方法通过确定车内目标用户的声音的声学参数和韵律参数,根据目标用户的声学参数和韵律参数,合成车载语音,使用合成的车载语音播报预设内容,增加了车载语音的种类,提高了车载语音的多样性和选择性,可以满足众多用户的需求。
需要说明的是,本申请的应用范围不局限于车载电子技术领域。例如,本申请实施例提及的技术方案还可以应用于其他智能可移动设备,具体用于对智能可移动设备的语音助手提供播放技术支持。
下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1是本申请一示例性实施例提供的播放语音的方法的流程示意图。本申请实施例提供的播放语音的方法可应用到汽车的车载电子播放技术领域,亦可应用到智能机器人的播放类功能领域。如图1所示,本申请实施例提供的播放语音的方法包括如下步骤:
步骤101,确定车内目标用户的声音的声学参数和韵律参数。
需要说明的是,目标用户可以是乘坐车辆的任何一个用户。可以根据实际应用状况,采用任何一种可行方式确定车内目标用户的声音的声学参数和韵律参数,对此不做具体限定。例如:可以利用麦克风采集目标用户的声音,对声音进行处理,提取声音的声学参数,以及基频、时长、节奏等多种韵律参数。
步骤102,根据目标用户的声学参数和韵律参数,合成车载语音。
需要说明的是,可以根据实际应用状况,采用任何一种方式将目标用户的声学参数和韵律参数,合成车载语音,对此不做具体限定。
步骤103,使用合成的车载语音播报预设内容。
需要说明的是,预设内容可以是导航信息、提醒信息、交互信息等。
本申请实施例所提及的播放语音的方法,确定车内目标用户的声音的声学参数和韵律参数,根据目标用户的声学参数和韵律参数,合成车载语音,使用合成的车载语音播报预设内容,增加了车载语音的种类,提高了车载语音的多样性和选择性,可以满足众多用户的需求。
图2是本申请另一示例性实施例提供的播放语音的方法的流程示意图。在本申请图1所示实施例的基础上延伸出本申请图2所示实施例,下面着重叙述图2所示实施例与图1所示实施例的不同之处,相同之处不再赘述。
如图2所示,在本申请实施例提供的播放语音的方法中,确定车内目标用户的声音的声学参数和韵律参数(即步骤101)之前,还包括:
步骤98,采集车内目标用户的人脸图像和声音。
需要说明的是,采集车内目标用户的人脸图像可以采用任何可行的方式实现,对此不做具体限定。例如:可以利用摄像头监测目标用户的脸部位置,根据声源定位信息辅助调整摄像头的拍摄角度,拍摄目标用户的正脸图片作为目标用户的人脸图像。
需要说明的是,采集车内目标用户的声音可以采用任何可行的方式实现,对此不做具体限定。例如:可以采用麦克风阵列形式的声音采集模块采集目标用户的声音,并通过对麦克风阵列的各路输出信号进行分析和处理,得到一个或多个声源的位置信息,实现声源定位功能,形成定向拾音波束,并对波束以外的噪音进行抑制、对回声进行消除,保证采集到的声音的质量。
步骤99,从目标用户的人脸图像中提取目标用户的人脸特征信息,从目标用户的声音中提取目标用户的声纹特征信息。
需要说明的是,从目标用户的人脸图像中提取目标用户的人脸特征信息,可以采用任何可行的方式实现,对此不做具体限定。
需要说明的是,从目标用户的声音中提取目标用户的声纹特征信息,可以采用任何可行的方式实现,对此不做具体限定。
步骤100,根据目标用户的人脸特征信息和声纹特征信息,确定目标用户的用户类型。
需要说明的是,目标用户的用户类型可以包括车主用户和非车主用户。根据目标用户的人脸特征信息和声纹特征信息,确定目标用户的用户类型,可以采用任何可行的方式实现,对此不做具体限定。
本申请实施例所提及的播放语音的方法,采集车内目标用户的人脸图像和声音,从目标用户的人脸图像中提取目标用户的人脸特征信息,从目标用户的声音中提取目标用户的声纹特征信息,根据目标用户的人脸特征信息和声纹特征信息,确定目标用户的用户类型,根据目标用户的用户类型,可以提高更准确的播放服务。
图3是本申请一示例性实施例提供的根据目标用户的人脸特征信息和声纹特征信息,确定目标用户的用户类型的流程示意图。在本申请图2所示实施例的基础上延伸出本申请图3所示实施例,下面着重叙述图3所示实施例与图2所示实施例的不同之处,相同之处不再赘述。
如图3所示,在本申请实施例提供的播放语音的方法中,根据目标用户的人脸特征信息和声纹特征信息,确定目标用户的用户类型(即步骤100),包括:
步骤100a,将目标用户的人脸特征信息,分别与预设人物匹配库中,车主用户的人脸特征信息和非车主用户的人脸特征信息进行匹配;将目标用户的声纹特征信息,分别与预设人物匹配库中,车主用户的声纹特征信息和非车主用户的声纹特征信息进行匹配。
需要说明的是,预设人物匹配库中保存有车主用户的人脸特征信息、非车主用户的人脸特征信息、车主用户的声纹特征信息和非车主用户的声纹特征信息。
需要说明的是,可以通过包括车主用户的人脸图像和声音的车主用户的注册信息,确定车主用户的人脸特征信息和声纹特征信息,将车主用户的人脸特征信息和声纹特征信息保存在预设人物匹配库中;或,可以采集驾驶座椅上的用户的人脸图像和声音,根据驾驶座椅上的用户的人脸图像和声音确定同一用户乘坐在驾驶座椅上的次数,根据驾驶座椅乘坐次数和预设第一次数阈值,确定车主用户,根据确定出的车主用户人脸图像和声音,得到车主用户的人脸特征信息和声纹特征信息,将车主用户的人脸特征信息和声纹特征信息保存在预设人物匹配库中。其中,预设第一次数阈值的取值可以根据实际应用状况进行设置,对此不做限定。例如:预设第一次数阈值的取值可以为1、3等。为了尽快实现使用合成的车载语音播报预设内容,预设第一次数阈值的取值可以设置的小一点,如取值为1;实际应用中,可能存在只是临时乘坐该车辆的驾驶座椅的用户,例如:代驾、车辆借用等情况,为了保证车主用户的准确性,可以增大预设第一次数阈值的取值。
需要说明的是,可以通过包括非车主用户的人脸图像和声音的非车主用户的注册信息,确定非车主用户的人脸特征信息和声纹特征信息,将非车主用户的人脸特征信息和声纹特征信息保存在预设人物匹配库中;或,可以采集非驾驶座椅上的用户的人脸图像和声音,根据非驾驶座椅上的用户的人脸图像和声音确定同一用户乘坐在非驾驶座椅上的次数,根据非驾驶座椅乘坐次数和预设第二次数阈值,确定非车主用户,根据确定出的非车主用户人脸图像和声音,得到非车主用户的人脸特征信息和声纹特征信息,将非车主用户的人脸特征信息和声纹特征信息保存在预设人物匹配库中。其中,预设第二次数阈值的取值可以根据实际应用状况进行设置,对此不做限定。例如:预设第二次数阈值的取值可以为2、3、10等。为了尽快实现使用合成的车载语音播报预设内容,预设第二次数阈值的取值可以设置的小一点,如取值为1;实际应用中,可能存在只是临时乘坐该车辆的非驾驶座椅的用户,例如:顺风车乘客等情况,为了保证非车主用户的准确性,可以增大预设第二次数阈值的取值。
步骤100b,若目标用户的人脸特征信息和声纹特征信息,与预设人物匹配库中车主用户的人脸特征信息和声纹特征信息的匹配度,满足预设第一匹配条件,确定目标用户的用户类型为车主用户。
需要说明的是,预设第一匹配条件可以根据实际应用状况进行设置,对此不做限定。例如:预设第一匹配条件为匹配度到达90%等。
步骤100c,若目标用户的人脸特征信息和声纹特征信息,与预设人物匹配库中非车主用户的人脸特征信息和声纹特征信息的匹配度,满足预设第二匹配条件,确定目标用户的用户类型为非车主用户。
需要说明的是,预设第二匹配条件可以根据实际应用状况进行设置,对此不做限定。例如:预设第二匹配条件为匹配度到达80%等。并且,在进行匹配时,可以统计满足预设第二匹配条件的次数,得到非车主用户乘坐该车辆的次数,作为确定非车主用户与车主用户的关系的参考。
本申请实施例所提及的播放语音的方法,将目标用户的人脸特征信息,分别与预设人物匹配库中,车主用户的人脸特征信息和非车主用户的人脸特征信息进行匹配;将目标用户的声纹特征信息,分别与预设人物匹配库中,车主用户的声纹特征信息和非车主用户的声纹特征信息进行匹配,若目标用户的人脸特征信息和声纹特征信息,与预设人物匹配库中车主用户的人脸特征信息和声纹特征信息的匹配度,满足预设第一匹配条件,确定目标用户的用户类型为车主用户,若目标用户的人脸特征信息和声纹特征信息,与预设人物匹配库中非车主用户的人脸特征信息和声纹特征信息的匹配度,满足预设第二匹配条件,确定目标用户的用户类型为非车主用户,确定目标用户的用户类型为车主用户或非车主用户,对目标用户进行细分,可以更好地提供语音的播放。
图4是本申请再一示例性实施例提供的播放语音的方法的流程示意图。在本申请图3所示实施例的基础上延伸出本申请图4所示实施例,下面着重叙述图4所示实施例与图3所示实施例的不同之处,相同之处不再赘述。
如图4所示,在本申请实施例提供的播放语音的方法中,根据目标用户的人脸特征信息和声纹特征信息,确定目标用户的用户类型(即步骤100)之后,还包括:
步骤104,收集车主用户与非车主用户之间的对话。
需要说明的是,收集车主用户与非车主用户之间的对话,可以采用任何可行的方式实现,对此不做具体限定。
步骤105,根据车主用户与非车主用户之间的对话,确定车主用户与非车主用户之间的关系。
需要说明的是,根据车主用户与非车主用户之间的对话,确定车主用户与非车主用户之间的关系,可以采用任何可行的方式实现,对此不做具体限定。车主用户与非车主用户之间的关系可以是父子、夫妻等。
本申请实施例所提及的播放语音的方法,收集车主用户与非车主用户之间的对话,根据车主用户与非车主用户之间的对话,确定车主用户与非车主用户之间的关系,根据对话可以确定两人的具体关系是什么,方便选择使用合成的车载语音。
图5是本申请一示例性实施例提供的根据车主用户与非车主用户之间的对话,确定车主用户与非车主用户之间的关系的流程示意图。在本申请图4所示实施例的基础上延伸出本申请图5所示实施例,下面着重叙述图5所示实施例与图4所示实施例的不同之处,相同之处不再赘述。
如图5所示,在本申请实施例提供的播放语音的方法中,根据车主用户与非车主用户之间的对话,确定车主用户与非车主用户之间的关系(即步骤105),包括:
步骤105a,利用预设消极积极词汇数据库,对车主用户与非车主用户之间的对话进行关键词匹配,得到关键词匹配结果。
需要说明的是,预设消极积极词汇数据库中保存有预先选择的一些脏话、辱骂等消极词汇,以及亲昵称呼、幸福喜悦等积极词汇。实际应用中,预设消极积极词汇数据库可以通过一个消极词汇数据库和一个积极词汇数据库实现。
步骤105b,根据关键词匹配结果,确定车主用户与非车主用户之间的关系。
需要说明的是,关键词匹配结果可以包括匹配的消极词汇、匹配的消极词汇的数量、匹配的积极词汇和匹配的积极词汇的数量等。将匹配的消极词汇的数量和匹配的积极词汇的数量进行比较,根据消极词汇、积极词汇和数量比较结果,确定车主用户与非车主用户之间的关系。例如:积极词汇的数量多于消极词汇的数量的个数大于预设阈值,且积极词汇包含有儿子、老爸等词汇,可以确定车主用户与非车主用户之间的关系为父子。
本申请实施例所提及的播放语音的方法,利用预设消极积极词汇数据库,对车主用户与非车主用户之间的对话进行关键词匹配,得到关键词匹配结果,根据关键词匹配结果,确定车主用户与非车主用户之间的关系,通过预设消极积极词汇数据库、关键词匹配即可以实现确定车主用户与非车主用户之间的关系,实现方式快捷简便。
图6是本申请又一示例性实施例提供的根据车主用户与非车主用户之间的对话,确定车主用户与非车主用户之间的关系的流程示意图。在本申请图4所示实施例的基础上延伸出本申请图6所示实施例,下面着重叙述图6所示实施例与图4所示实施例的不同之处,相同之处不再赘述。
如图6所示,在本申请实施例提供的播放语音的方法中,根据车主用户与非车主用户之间的对话,确定车主用户与非车主用户之间的关系(即步骤105),包括:
步骤1051,当车主用户与非车主用户之间对话时,收集车主用户的人脸图像和非车主用户的人脸图像。
需要说明的是,当车主用户与非车主用户之间对话时,每隔一预设时间段,拍摄述车主用户与非车主用户之间对话时的人脸图像。预设时间段的取值可以根据实际应用状况进行设置,对此不做限定,例如:预设时间段的取值可以为30秒、1分钟等。
步骤1052,根据车主用户的人脸图像和非车主用户的人脸图像,确定车主用户与非车主用户之间的关系。
需要说明的是,根据车主用户的人脸图像和非车主用户的人脸图像,确定车主用户与非车主用户之间的关系,可以采用任何可行的方式实现,对此不做具体限定。
本申请实施例所提及的播放语音的方法,当车主用户与非车主用户之间对话时,收集车主用户的人脸图像和非车主用户的人脸图像,根据车主用户的人脸图像和非车主用户的人脸图像,确定车主用户与非车主用户之间的关系,通过车主用户的人脸图像和非车主用户的人脸图像即可以实现确定车主用户与非车主用户之间的关系,实现方式快捷简便。
图7是本申请一示例性实施例提供的根据车主用户的人脸图像和非车主用户的人脸图像,确定车主用户与非车主用户之间的关系的流程示意图。在本申请图6所示实施例的基础上延伸出本申请图7所示实施例,下面着重叙述图7所示实施例与图6所示实施例的不同之处,相同之处不再赘述。
如图7所示,在本申请实施例提供的播放语音的方法中,根据车主用户的人脸图像和非车主用户的人脸图像,确定车主用户与非车主用户之间的关系(即步骤1052),包括:
步骤1052a,将车主用户的人脸图像和非车主用户的人脸图像,输入预设表情库中进行表情匹配,得到表情匹配结果。
需要说明的是,预设表情库中包括厌恶、愤怒、惊讶、开心、平静和恐惧等各种情绪的表情对照图片。可以预先收集多个同一情绪的表情图片,统计生成相应情绪的表情对照图片。表情匹配结果可以包括任一情绪的表情对照图片和任一情绪的表情对照图片的数量等。
步骤1052b,根据表情匹配结果,确定车主用户与非车主用户之间的关系。
需要说明的是,当表情匹配结果包括任一情绪的表情对照图片和任一情绪的表情对照图片的数量等时,根据任一情绪的表情对照图片和任一情绪的表情对照图片的数量,可以确定车主用户与非车主用户之间是友好、开心等,还是厌恶、愤怒等,从而确定车主用户与非车主用户之间的关系。
本申请实施例所提及的播放语音的方法,将车主用户的人脸图像和非车主用户的人脸图像,输入预设表情库中进行表情匹配,得到表情匹配结果,根据表情匹配结果,确定车主用户与非车主用户之间的关系,通过预设表情库、表情匹配即可以实现确定车主用户与非车主用户之间的关系,实现方式快捷简便。
图8是本申请一示例性实施例提供的根据目标用户的声学参数和韵律参数,合成车载语音的流程示意图。在本申请图1所示实施例的基础上延伸出本申请图8所示实施例,下面着重叙述图8所示实施例与图1所示实施例的不同之处,相同之处不再赘述。
如图8所示,在本申请实施例提供的播放语音的方法中,根据目标用户的声学参数和韵律参数,合成车载语音(即步骤102),包括:
步骤102a,将目标用户的声学参数和韵律参数,压缩为车载语音编码。
需要说明的是,将目标用户的声学参数和韵律参数,压缩为车载语音编码,作为目标用户的专属编码。
步骤102b,将车载语音编码存储在预设定制车载语音库中。
需要说明的是,将车载语音编码存储在预设定制车载语音库中,当后续再次选择使用该目标用户的语音进行播报时,可以从预设定制车载语音库中提取车载语音编码进行合成。
步骤102c,利用预设语音合成算法,将车载语音编码,合成为车载语音。
需要说明的是,预设语音合成算法可以采用任何可行的方式,对此不做具体限定。
需要说明的是,随着后续收集的目标用户的声音的数据的逐步增加,机器自动学习持续优化,在音色、音调和语速上与目标用户的声音逐步接近,甚至模拟声音达到目标用户本人的方言发音特点。
本申请实施例所提及的播放语音的方法,将目标用户的声学参数和韵律参数,压缩为车载语音编码,将车载语音编码存储在预设定制车载语音库中,利用预设语音合成算法,将车载语音编码,合成为车载语音,通过将车载语音编码存储在预设定制车载语音库中,当后续再次选择使用该目标用户的语音进行播报时,可以从预设定制车载语音库中提取车载语音编码进行合成,方便快捷,并且随着后续收集的目标用户的声音的数据的逐步增加,可以对预设定制车载语音库中的车载语音编码进行持续优化,使得合成的车载语音更加逼真。
图9是本申请再一示例性实施例提供的播放语音的方法的流程示意图。在本申请图2-8所示实施例的基础上延伸出本申请图9所示实施例,下面着重叙述图9所示实施例与图2-8所示实施例的不同之处,相同之处不再赘述。
如图9所示,在本申请实施例提供的播放语音的方法中,使用合成的车载语音播报预设内容之前,还包括:
步骤103-1,采集车内目标用户的人脸图像和声音。
需要说明的是,采集车内目标用户的人脸图像可以采用任何可行的方式实现,对此不做具体限定。例如:可以利用摄像头监测目标用户的脸部位置,根据声源定位信息辅助调整摄像头的拍摄角度,拍摄目标用户的正脸图片作为目标用户的人脸图像。
需要说明的是,采集车内目标用户的声音可以采用任何可行的方式实现,对此不做具体限定。例如:可以采用麦克风阵列形式的声音采集模块采集目标用户的声音,并通过对麦克风阵列的各路输出信号进行分析和处理,得到一个或多个声源的位置信息,实现声源定位功能,形成定向拾音波束,并对波束以外的噪音进行抑制、对回声进行消除,保证采集到的声音的质量。
步骤103-2,从目标用户的人脸图像中提取目标用户的人脸特征信息,从目标用户的声音中提取目标用户的声纹特征信息。
需要说明的是,从目标用户的人脸图像中提取目标用户的人脸特征信息,可以采用任何可行的方式实现,对此不做具体限定。
需要说明的是,从目标用户的声音中提取目标用户的声纹特征信息,可以采用任何可行的方式实现,对此不做具体限定。
步骤103-3,根据目标用户的人脸特征信息和声纹特征信息,确定目标用户是否为注册的车主用户。
需要说明的是,根据目标用户的人脸特征信息和声纹特征信息,确定目标用户是否为注册的车主用户,可以采用任何可行的方式实现,对此不做具体限定例如。例如:将目标用户的人脸特征信息和声纹特征信息,分别于注册的车主用户的人脸特征信息和声纹特征信息进行比较,根据比较结果,确定目标用户是否为注册的车主用户。
步骤103-4,若目标用户为注册的车主用户,展示预设合成车载语音列表。
需要说明的是,预设合成车载语音列表中包括多个目标用户和默认发音人选项。将预设合成车载语音列表展示给注册的车主用户,供车主用户按自己的喜好和心情去选择不同的发音人的声音去播报。
步骤103-5,确定目标用户从预设合成车载语音列表中,选择使用的合成的车载语音。
需要说明的是,确定目标用户从预设合成车载语音列表中,选择使用的合成的车载语音,可以采用任何可行的方式实现,对此不做具体限定。
本申请实施例所提及的播放语音的方法,采集车内目标用户的人脸图像和声音,从目标用户的人脸图像中提取目标用户的人脸特征信息,从目标用户的声音中提取目标用户的声纹特征信息,根据目标用户的人脸特征信息和声纹特征信息,确定目标用户是否为注册的车主用户,若目标用户为注册的车主用户,展示预设合成车载语音列表,确定目标用户从预设合成车载语音列表中,选择使用的合成的车载语音,通过确定目标用户是否为注册的车主用户,若目标用户为注册的车主用户时,才展示预设合成车载语音列表,供目标用户选择使用,提供了播放语音的私密性和安全性。
示例性装置
图10是本申请一示例性实施例提供的播放语音的装置的结构示意图。本申请实施例提供的播放语音的装置可应用到汽车的播放语音领域,亦可应用到智能机器人的播放类功能领域。如图10所示,本申请实施例提供的播放语音的装置,包括:
参数确定模块201,用于确定车内目标用户的声音的声学参数和韵律参数;
语音合成模块202,用于根据目标用户的声学参数和韵律参数,合成车载语音;
语音播放模块203,用于使用合成的车载语音播报预设内容。
图11是本申请又一示例性实施例提供的播放语音的装置的结构示意图。在本申请图10所示实施例的基础上延伸出本申请图11所示实施例,下面着重叙述图11所示实施例与图10所示实施例的不同之处,相同之处不再赘述。
如图11所示,在本申请实施例提供的播放语音的装置中,还包括:
第一采集模块198,用于采集车内目标用户的人脸图像和声音;
第一提取模块199,用于从目标用户的人脸图像中提取目标用户的人脸特征信息,从目标用户的声音中提取目标用户的声纹特征信息;
用户类型确定模块200,用于根据目标用户的人脸特征信息和声纹特征信息,确定目标用户的用户类型。
图12是本申请一示例性实施例提供的播放语音的装置中的用户类型确定模块的结构示意图。在本申请图11所示实施例的基础上延伸出本申请图12所示实施例,下面着重叙述图12所示实施例与图11所示实施例的不同之处,相同之处不再赘述。
如图12所示,用户类型确定模块200,包括:
信息匹配单元200a,用于将目标用户的人脸特征信息,分别与预设人物匹配库中,车主用户的人脸特征信息和非车主用户的人脸特征信息进行匹配;将目标用户的声纹特征信息,分别与预设人物匹配库中,车主用户的声纹特征信息和非车主用户的声纹特征信息进行匹配;
第一用户类型确定单元200b,用于若目标用户的人脸特征信息和声纹特征信息,与预设人物匹配库中车主用户的人脸特征信息和声纹特征信息的匹配度,满足预设第一匹配条件,确定目标用户的用户类型为车主用户;
第二用户类型确定单元200c,用于若目标用户的人脸特征信息和声纹特征信息,与预设人物匹配库中非车主用户的人脸特征信息和声纹特征信息的匹配度,满足预设第二匹配条件,确定目标用户的用户类型为非车主用户。
图13是本申请再一示例性实施例提供的播放语音的装置的结构示意图。在本申请图12所示实施例的基础上延伸出本申请图13所示实施例,下面着重叙述图13所示实施例与图12所示实施例的不同之处,相同之处不再赘述。
如图13所示,在本申请实施例提供的播放语音的装置中,还包括:
收集模块204,用于收集车主用户与非车主用户之间的对话;
关系确定模块205,用于根据车主用户与非车主用户之间的对话,确定车主用户与非车主用户之间的关系。
图14是本申请一示例性实施例提供的播放语音的装置中的关系确定模块的结构示意图。在本申请图13所示实施例的基础上延伸出本申请图14所示实施例,下面着重叙述图14所示实施例与图13所示实施例的不同之处,相同之处不再赘述。
如图14所示,在本申请实施例提供的播放语音的装置中,关系确定模块205,包括:
关键词匹配单元2051,用于利用预设消极积极词汇数据库,对车主用户与非车主用户之间的对话进行关键词匹配,得到关键词匹配结果;
第一关系确定单元2052,用于根据关键词匹配结果,确定车主用户与非车主用户之间的关系。
图15是本申请又一示例性实施例提供的播放语音的装置中的关系确定模块的结构示意图。在本申请图13所示实施例的基础上延伸出本申请图15所示实施例,下面着重叙述图15所示实施例与图13所示实施例的不同之处,相同之处不再赘述。
如图15所示,在本申请实施例提供的播放语音的装置中,关系确定模块205,包括:
收集单元2053,用于当车主用户与非车主用户之间对话时,收集车主用户的人脸图像和非车主用户的人脸图像;
第二关系确定单元2054,用于根据车主用户的人脸图像和非车主用户的人脸图像,确定车主用户与非车主用户之间的关系。
图16是本申请一示例性实施例提供的播放语音的装置中的第二关系确定单元的结构示意图。在本申请图15所示实施例的基础上延伸出本申请图16所示实施例,下面着重叙述图16所示实施例与图15所示实施例的不同之处,相同之处不再赘述。
如图16所示,在本申请实施例提供的播放语音的装置中,第二关系确定单元2054,包括:
表情匹配子单元20541,用于将车主用户的人脸图像和非车主用户的人脸图像,输入预设表情库中进行表情匹配,得到表情匹配结果;
关系确定子单元20542,用于根据表情匹配结果,确定车主用户与非车主用户之间的关系。
图17是本申请一示例性实施例提供的播放语音的装置中的语音合成模块的结构示意图。在本申请图10所示实施例的基础上延伸出本申请图17所示实施例,下面着重叙述图17所示实施例与图10所示实施例的不同之处,相同之处不再赘述。
如图17所示,在本申请实施例提供的播放语音的装置中,语音合成模块202,包括:
压缩单元202a,用于将目标用户的声学参数和韵律参数,压缩为车载语音编码;
存储单元202b,用于将车载语音编码存储在预设定制车载语音库中;
合成单元202c,用于利用预设语音合成算法,将车载语音编码,合成为车载语音。
图18是本申请再一示例性实施例提供的播放语音的装置的结构示意图。在本申请图10-17任一图所示实施例的基础上延伸出本申请图18所示实施例,下面着重叙述图18所示实施例与图10-17所示实施例的不同之处,相同之处不再赘述。
如图18所示,在本申请实施例提供的播放语音的装置中,还包括:
第二采集模块203-1,用于采集车内目标用户的人脸图像和声音;
第二提取模块203-2,用于从目标用户的人脸图像中提取目标用户的人脸特征信息,从目标用户的声音中提取目标用户的声纹特征信息;
注册确定模块203-3,用于根据目标用户的人脸特征信息和声纹特征信息,确定目标用户是否为注册的车主用户;
展示模块203-4,用于若目标用户为注册的车主用户,展示预设合成车载语音列表;
选择确定模块203-5,用于确定目标用户从预设合成车载语音列表中,选择使用的合成的车载语音。
应当理解,图10至图18提供的播放语音的装置中的第一采集模块198、第一提取模块199、用户类型确定模块200、参数确定模块201、语音合成模块202、语音播放模块203、收集模块204、关系确定模块205、第二采集模块203-1、第二提取模块203-2、注册确定模块203-3、展示模块203-4和选择确定模块203-5,以及用户类型确定模块200中包括的信息匹配单元200a、第一用户类型确定单元200b和第二用户类型确定单元200c,关系确定模块205中包括的关键词匹配单元2051、第一关系确定单元2052、收集单元2053和第二关系确定单元2054,第二关系确定单元2054中包括的表情匹配子单元20541和关系确定子单元20542,以及语音合成模块202中包括的压缩单元202a、存储单元202b和合成单元202c的操作和功能可以参考上述图1至图9提供的播放语音的方法,为了避免重复,在此不再赘述。
示例性电子设备
图19图示了根据本申请实施例的电子设备的框图。
如图19所示,电子设备11包括一个或多个处理器11a和存储器11b。
处理器11a可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的其他组件以执行期望的功能。
存储器11b可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11a可以运行所述程序指令,以实现上文所述的本申请的各个实施例的功率参数调整方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备11还可以包括:输入装置11c和输出装置11d,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置11c可以是上述的摄像头或麦克风、麦克风阵列等,用于捕捉图像或声源的输入信号。在该电子设备是单机设备时,该输入装置11c可以是通信网络连接器,用于从神经网络处理器接收所采集的输入信号。
此外,该输入设备11c还可以包括例如键盘、鼠标等等。
该输出装置11d可以向外部输出各种信息,包括确定出的输出电压、输出电流信息等。该输出设备11d可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图19中仅示出了该电子设备11中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的功率参数调整方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的功率参数调整方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (12)

1.一种播放语音的方法,包括:
确定车内目标用户的声音的声学参数和韵律参数;
根据所述目标用户的声学参数和韵律参数,合成车载语音;
使用合成的所述车载语音播报预设内容。
2.根据权利要求1所述的方法,其中,确定车内目标用户的声音的声学参数和韵律参数之前,还包括:
采集车内所述目标用户的人脸图像和声音;
从所述目标用户的人脸图像中提取所述目标用户的人脸特征信息,从所述目标用户的声音中提取所述目标用户的声纹特征信息;
根据所述目标用户的人脸特征信息和声纹特征信息,确定所述目标用户的用户类型。
3.根据权利要求2所述的方法,其中,根据所述目标用户的人脸特征信息和声纹特征信息,确定所述目标用户的用户类型,包括:
将所述目标用户的人脸特征信息,分别与预设人物匹配库中,车主用户的人脸特征信息和非车主用户的人脸特征信息进行匹配;将所述目标用户的声纹特征信息,分别与所述预设人物匹配库中,所述车主用户的声纹特征信息和所述非车主用户的声纹特征信息进行匹配;
若所述目标用户的人脸特征信息和声纹特征信息,与所述预设人物匹配库中所述车主用户的人脸特征信息和声纹特征信息的匹配度,满足预设第一匹配条件,确定所述目标用户的用户类型为所述车主用户;
若所述目标用户的人脸特征信息和声纹特征信息,与所述预设人物匹配库中所述非车主用户的人脸特征信息和声纹特征信息的匹配度,满足预设第二匹配条件,确定所述目标用户的用户类型为所述非车主用户。
4.根据权利要求3所述的方法,其中,根据所述目标用户的人脸特征信息和声纹特征信息,确定所述目标用户的用户类型之后,还包括:
收集所述车主用户与所述非车主用户之间的对话;
根据所述车主用户与所述非车主用户之间的对话,确定所述车主用户与所述非车主用户之间的关系。
5.根据权利要求4所述的方法,其中,根据所述车主用户与所述非车主用户之间的对话,确定所述车主用户与所述非车主用户之间的关系,包括:
利用预设消极积极词汇数据库,对所述车主用户与所述非车主用户之间的对话进行关键词匹配,得到关键词匹配结果;
根据所述关键词匹配结果,确定所述车主用户与所述非车主用户之间的关系。
6.根据权利要求4所述的方法,其中,根据所述车主用户与所述非车主用户之间的对话,确定所述车主用户与所述非车主用户之间的关系,包括:
当所述车主用户与所述非车主用户之间对话时,收集所述车主用户的人脸图像和所述非车主用户的人脸图像;
根据所述车主用户的人脸图像和所述非车主用户的人脸图像,确定所述车主用户与所述非车主用户之间的关系。
7.根据权利要求6所述的方法,其中,根据所述车主用户的人脸图像和所述非车主用户的人脸图像,确定所述车主用户与所述非车主用户之间的关系,包括:
将所述车主用户的人脸图像和所述非车主用户的人脸图像,输入预设表情库中进行表情匹配,得到表情匹配结果;
根据所述表情匹配结果,确定所述车主用户与所述非车主用户之间的关系。
8.根据权利要求1所述的方法,其中,根据所述目标用户的声学参数和韵律参数,合成车载语音,包括:
将所述目标用户的声学参数和韵律参数,压缩为车载语音编码;
将所述车载语音编码存储在预设定制车载语音库中;
利用预设语音合成算法,将所述车载语音编码,合成为所述车载语音。
9.根据权利要求1-8任一权利要求所述的方法,其中,使用合成的所述车载语音播报预设内容之前,还包括:
采集车内所述目标用户的人脸图像和声音;
从所述目标用户的人脸图像中提取所述目标用户的人脸特征信息,从所述目标用户的声音中提取所述目标用户的声纹特征信息;
根据所述目标用户的人脸特征信息和声纹特征信息,确定所述目标用户是否为注册的车主用户;
若所述目标用户为注册的车主用户,展示预设合成车载语音列表;
确定所述目标用户从所述预设合成车载语音列表中,选择使用的合成的车载语音。
10.一种播放语音的装置,包括:
确定模块,用于确定车内目标用户的声音的声学参数和韵律参数;
合成模块,用于根据所述目标用户的声学参数和韵律参数,合成车载语音;
播放模块,用于使用合成的所述车载语音播报预设内容。
11.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-9任一所述的播放语音的方法。
12.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-9任一所述的播放语音的方法。
CN201910020801.7A 2019-01-09 2019-01-09 播放语音的方法、装置及电子设备 Active CN111429882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910020801.7A CN111429882B (zh) 2019-01-09 2019-01-09 播放语音的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910020801.7A CN111429882B (zh) 2019-01-09 2019-01-09 播放语音的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111429882A true CN111429882A (zh) 2020-07-17
CN111429882B CN111429882B (zh) 2023-08-08

Family

ID=71545639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910020801.7A Active CN111429882B (zh) 2019-01-09 2019-01-09 播放语音的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111429882B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627417A (zh) * 2019-02-26 2020-09-04 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN113053373A (zh) * 2021-02-26 2021-06-29 上海声通信息科技股份有限公司 一种支持声音克隆的智能车载语音交互系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1474379A (zh) * 2002-07-02 2004-02-11 �ձ������ȷ湫˾ 语音识别/响应系统、语音/识别响应程序及其记录介质
EP2256642A2 (en) * 2009-05-28 2010-12-01 Samsung Electronics Co., Ltd. Animation system for generating animation based on text-based data and user information
US20120185237A1 (en) * 2001-03-20 2012-07-19 At&T Intellectual Property Ii, L.P. System and method of performing user-specific automatic speech recognition
CN105183717A (zh) * 2015-09-23 2015-12-23 东南大学 一种基于随机森林和用户关系的osn用户情感分析方法
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法
JP2016133378A (ja) * 2015-01-19 2016-07-25 株式会社デンソー カーナビゲーション装置
CN106161018A (zh) * 2015-03-23 2016-11-23 中兴通讯股份有限公司 一种管理分级密码的方法和装置
CN106683673A (zh) * 2016-12-30 2017-05-17 智车优行科技(北京)有限公司 驾驶模式的调整方法、装置和系统、车辆
CN108847215A (zh) * 2018-08-29 2018-11-20 北京云知声信息技术有限公司 基于用户音色进行语音合成的方法及装置
CN111177329A (zh) * 2018-11-13 2020-05-19 奇酷互联网络科技(深圳)有限公司 一种智能终端的用户交互方法、智能终端及存储介质
CN114005428A (zh) * 2021-12-31 2022-02-01 科大讯飞股份有限公司 语音合成方法、装置、电子设备、存储介质和程序产品

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120185237A1 (en) * 2001-03-20 2012-07-19 At&T Intellectual Property Ii, L.P. System and method of performing user-specific automatic speech recognition
CN1474379A (zh) * 2002-07-02 2004-02-11 �ձ������ȷ湫˾ 语音识别/响应系统、语音/识别响应程序及其记录介质
EP2256642A2 (en) * 2009-05-28 2010-12-01 Samsung Electronics Co., Ltd. Animation system for generating animation based on text-based data and user information
JP2016133378A (ja) * 2015-01-19 2016-07-25 株式会社デンソー カーナビゲーション装置
CN106161018A (zh) * 2015-03-23 2016-11-23 中兴通讯股份有限公司 一种管理分级密码的方法和装置
CN105304080A (zh) * 2015-09-22 2016-02-03 科大讯飞股份有限公司 语音合成装置及方法
CN105183717A (zh) * 2015-09-23 2015-12-23 东南大学 一种基于随机森林和用户关系的osn用户情感分析方法
CN106683673A (zh) * 2016-12-30 2017-05-17 智车优行科技(北京)有限公司 驾驶模式的调整方法、装置和系统、车辆
CN108847215A (zh) * 2018-08-29 2018-11-20 北京云知声信息技术有限公司 基于用户音色进行语音合成的方法及装置
CN111177329A (zh) * 2018-11-13 2020-05-19 奇酷互联网络科技(深圳)有限公司 一种智能终端的用户交互方法、智能终端及存储介质
CN114005428A (zh) * 2021-12-31 2022-02-01 科大讯飞股份有限公司 语音合成方法、装置、电子设备、存储介质和程序产品

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KIICHI TAGO: "Influence Analysis of Emotional Behavious and User relationship based on Twitter data" *
谭慧: "数字娱乐产品中的自然交互方式研究" *
赵志浩: "数字人脸表情实时识别系统的设计与实现" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627417A (zh) * 2019-02-26 2020-09-04 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN111627417B (zh) * 2019-02-26 2023-08-08 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN113053373A (zh) * 2021-02-26 2021-06-29 上海声通信息科技股份有限公司 一种支持声音克隆的智能车载语音交互系统

Also Published As

Publication number Publication date
CN111429882B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
US11854550B2 (en) Determining input for speech processing engine
CN106373569B (zh) 语音交互装置和方法
CN107053186B (zh) 对话装置、机器人、对话方法以及存储介质
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
CN110874137A (zh) 一种交互方法以及装置
CN102693725A (zh) 依赖于文本信息语境的语音识别
CN113126951B (zh) 音频播放方法、装置、计算机可读存储介质及电子设备
JP2023539947A (ja) 音声信号のメタデータを生成するためのシステムおよび方法
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
DE112018007847B4 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
CN115088033A (zh) 代表对话中的人参与者生成的合成语音音频数据
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
CN111429882B (zh) 播放语音的方法、装置及电子设备
EP3994686A1 (en) Contextual voice-based presentation assistance
CN116129852A (zh) 语音合成模型的训练方法、语音合成方法及相关设备
CN110737422B (zh) 一种声音信号采集方法及装置
US20220399030A1 (en) Systems and Methods for Voice Based Audio and Text Alignment
CN111627417B (zh) 播放语音的方法、装置及电子设备
JP7347511B2 (ja) 音声処理装置、音声処理方法、およびプログラム
US11250853B2 (en) Sarcasm-sensitive spoken dialog system
CN110232911B (zh) 跟唱识别方法、装置、存储介质及电子设备
CN115113739A (zh) 用于生成表情符号的装置、车辆和用于生成表情符号的方法
CN110738995B (zh) 一种声音信号采集方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant