CN108766428A - 一种语音播报控制方法及系统 - Google Patents

一种语音播报控制方法及系统 Download PDF

Info

Publication number
CN108766428A
CN108766428A CN201810566322.0A CN201810566322A CN108766428A CN 108766428 A CN108766428 A CN 108766428A CN 201810566322 A CN201810566322 A CN 201810566322A CN 108766428 A CN108766428 A CN 108766428A
Authority
CN
China
Prior art keywords
target
event
vehicle
vocal print
semanteme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810566322.0A
Other languages
English (en)
Inventor
袁媛
周奇文
王运
孙露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Jianghuai Automobile Group Corp
Original Assignee
Anhui Jianghuai Automobile Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Jianghuai Automobile Group Corp filed Critical Anhui Jianghuai Automobile Group Corp
Priority to CN201810566322.0A priority Critical patent/CN108766428A/zh
Publication of CN108766428A publication Critical patent/CN108766428A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种语音播报控制方法及系统,方法包括:车载语音终端采集当前语音数据;提取目标声纹和目标语义并上传至云端服务器,以便云端服务器:确定目标声纹对应的目标账户,以及将根据目标语义生成的特征向量输入至预先建立的播报事件生成模型,由播报事件生成模型输出与当前语音数据相对应的目标事件,且当检测到目标事件到达对应的目标时间时,向车载语音终端发送语音播报指令和目标事件;车载语音终端当接收到语音播报指令时,播报目标事件对应的目标事项。应用本发明提供的语音播报控制方案进行语音播报时,云端服务器可以通过基于用户的历史行为数据所建立的播报时间模型生成目标事件,而非仅仅像闹钟一样定时提醒用户,交互性好。

Description

一种语音播报控制方法及系统
技术领域
本发明涉及智能汽车和语音识别技术领域,特别涉及一种语音播报控制方法及系统。
背景技术
随着智能化技术在汽车应用上的深入,给用户提供的驾驶体验也在不断得以优化,对于用户而言,也更加注重汽车的在交互过程的友好程度,例如,用户希望车载语音系统能够提供更加智能的用户体验,具体来说,用户希望车载语音系统能够提供主动语音播报服务。
目前,现有技术提供了这样一种语音播报控制方案:用户可以通过车载语音终端将用户的备忘录等文本信息同步至云端服务器,云端服务器通过提取备忘录中的时间点和事项建立播报事件,当云端服务器检测到达所提取的目标时间时,向车载语音终端发送语音播报指令,并由车载语音终端向用户主动播报该时间中的目标事项,以为用户提供语音播报服务。
由以上可见,现有技术中提供的语音播报控制方案,虽然能够为用户提供主动语音播报服务,但是由于车载语音终端所播报的内容即目标事项是基于用户同步至云端的备忘录等文本信息,也仅仅是在用户在备忘录中所设定的时间点才触发相应播报事件,这种语音播报服务类似于闹钟的功能,交互性差,用户体验不好。
发明内容
本发明实施例的目的在于提供一种语音播报控制方法及系统,以提高为用户提供主动语音播报过程的交互性,提高用户体验。
为达到上述目的,本发明实施例公开了一种语音播报控制方法,应用于车载语音终端,所述车载语音终端与云端服务器通信连接,所述语音播报方法包括:
当所述车载语音终端处于工作状态时,采集目标用户的当前语音数据;
提取所述当前语音数据对应的目标声纹和目标语义;
将所述目标声纹和目标语义上传至所述云端服务器,以便所述云端服务器:
基于预先建立的声纹与账户对应关系,确定所述目标声纹对应的目标账户,并将所述目标语义存储至所述目标账户中,以及将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型,由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件,且当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述目标事件;其中,所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型;所述目标事件至少包括目标时间和目标事项;
当接收到所述云端服务器发送的所述语音播报指令时,播报所述云端服务器发送的所述目标事件对应的目标事项。
优选地,所述提取所述当前语音数据对应的目标声纹和目标语义的步骤,包括:
对所述当前语音数据进行降噪处理;
对降噪处理后的当前语音数据进行声纹和语义提取,获得当前语音数据对应的目标声纹和初始语义;
过滤掉所述初始语义中的无效信息,获得所述当前语音数据对应的目标语义;其中,所述无效信息是指为空语义、重复语义或错误语义的初始语义。
优选地,按照以下方式建立的声纹与用户账户的对应关系:
采集目标用户的目标语音数据;
基于预设声纹识别算法,提取所述目标语音数据对应的目标声纹;
以账户注册或扫描微信二维码以绑定微信账户的方式,建立所述目标用户的目标账户;
将所述目标声纹与所述目标账户一一对应,建立所述目标声纹与所述目标账户的对应关系。
优选地,所述当接收到所述云端服务器发送的所述语音播报指令时,播报所述云端服务器发送的所述目标事件对应的目标事项的步骤包括:
当接收到所述云端服务器发送的所述语音播报指令时,检测是否满足本地播报条件,若满足则播报所述云端服务器发送的所述目标事件对应的目标事项;其中,所述本地播报条件与安装所述车载语音终端的目标车辆的车况、路况、位置、所处场景和天气环境有关。
为达到上述目的,本发明实施例还公开了一种语音播报控制方法,应用于云端服务器,所述云端服务器与车载语音终端通信连接,所述语音播报方法包括:
接收所述车载语音终端上传的目标声纹和目标语义;其中,所述目标声纹和目标语义是由所述车载语音终端处于工作状态时,对所采集目标用户的当前语音数据进行声纹和语义提取而得到的;
基于预先建立的声纹与账户对应关系,确定所述目标声纹对应的目标账户,并将所述目标语义存储至所述目标账户中;
将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型,由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件;其中,所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型;所述目标事件至少包括目标时间和目标事项;
当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述目标事件,以便所述车载语音终端:在接收到所述云端服务器发送的所述语音播报指令时,播报所述云端服务器发送的所述目标事件对应的目标事项。
优选地,所述将所述目标语义存储至所述目标账户中的步骤包括:
按照预设语义标准化规则,对所述目标语义进行数据标准化处理;
基于预设的语义与类别的对应关系,将标准化处理后的目标语义存储至所述目标账户中对应的类别数据库中。
优选地,按照以下方式建立所述播报事件生成模型:
获得待构建的播报事件生成模型的语音训练样本;其中,各个语音训练样本用于反映用户的历史行为数据;
提取所述语音训练样本的语义,并构成与各个训练样本对应的特征向量;
将所述特征向量输入值预先搭建的分类器模型或生成上一次播报事件的事件播报生成模型中,并基于相似度最大或距离最短的原则对待构建的播报事件生成模型进行参数优化。
优选地,所述目标事件中还包括:用户喜好程度和历史播报频次。
优选地,所述当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述目标事件的步骤包括:
当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述用户喜好程度最大和/或历史播报频次最高的目标事项。
为达到上述目的,本发明实施例公开了一种语音播报控制系统控制系统,所述语音播报控制系统包括:车载语音终端和云端服务器;其中,
所述车载语音终端,用于当所述车载语音终端处于工作状态时,采集目标用户的当前语音数据;提取所述当前语音数据对应的目标声纹和目标语义;将所述目标声纹和目标语义上传至所述云端服务器;以及,当接收到所述云端服务器发送的所述语音播报指令时,播报所述云端服务器发送的所述目标事件对应的目标事项;
所述云端服务器,用于接收所述车载语音终端上传的目标声纹和目标语义;基于预先建立的声纹与账户对应关系,确定所述目标声纹对应的目标账户,并将所述目标语义存储至所述目标账户中;将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型,由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件;以及,当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述目标事件;其中,所述目标声纹和目标语义是由所述车载语音终端处于工作状态时,对所采集目标用户的当前语音数据进行声纹和语义提取而得到的;其中,所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型;所述目标事件至少包括目标时间和目标事项。
由此可见,应用本发明实施例提供的方案进行语音播报时,首先由车载语音终端采集当前语音数据,然后提取当前语音数据的目标声纹和目标语义,并将所提取的目标声纹和目标语义上传至云端服务器;云端服务器在接收到车载语音终端上传的目标声纹后,一方面,根据声纹与账户对应关系,确定出对应的目标账户,并将目标语义存储于目标账户中,另一方面,云端服务器根据该目标语义生成对应的特征输入向量并输入至播报事件生成模型,从而由该模型输出与当前目标语音数据相对应的目标事件,进而根据目标事件中的目标时间和目标事项向车载语音终端发送语音播报控制指令,并由车载语音终端根据目标时间来播放目标事项。
需要说明的是,这里的“播报事件生成模型”为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型。在模型建立过程中,是通过对大量训练样本的历史行为数据进行机器学习得到的,模型一旦建立后可以通过将特征向量输入该模型来推测出用户可能发生的目标事件,这是基于用户的大量历史行为数据而得到的预测结果,而非仅仅像闹钟一样定时提醒用户,本发明并不需要用户在车载语音终端侧设定其希望播报的具体事项,显然本发明实施例提供的语音播报方案交互性更加友好,用户体验佳;另外,通过将每次上传的目标语义存入目标账户,可以实现对目标用户的历史行为数据的不断更新,这样使得语音播报生成模型能够不断基于用户最近的历史行为数据来进行模型优化,从而实现能够根据用户行为习惯的改变而不断更新所播报的目标时间的目标事项,进一步提升用户体验,给用户带来一种管家式智能化的体验感。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音播报控制方法的流程示意图;
图2为本发明实施例提供的另一种语音播报控制方法的流程示意图;
图3为本发明实施例提供的另一种语音播报控制系统的架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高语音播报过程的交互性,提高用户体验,本发明实施例提供了如下语音播报控制方法和语音播报控制系统,首先先对本发明实施例提供的语音播报控制方法进行介绍。
如图1所示,为本发明实施例提供的一种语音播报控制方法的流程示意图,该语音播报控制方法,应用于车载语音终端,所述车载语音终端与云端服务器通信连接,所述语音播报方法可以包括以下步骤:
S101:当所述车载语音终端处于工作状态时,采集目标用户的当前语音数据。
可以理解的是,对于车载设备而言,在不需要其提供服务的情况下,可以设定该车载设备进入休眠状态,以实现节能的目的。因此,当用户需要进行与车载语音终端的交互时,可以先唤醒车载语音终端,使其处于工作状态,具体的,可以通过点击车载中控屏幕上的语音助手按键来唤醒该车载语音终端。
当车载语音终端被唤醒之后,可以利用车载语音终端的音频采集模块或声音拾取器来采集目标用户当前所说的音频信号,进而获得当前语音数据。
S102:提取所述当前语音数据对应的目标声纹和目标语义。
一种实现方式中,可以按照以下方式提取所述当前语音数据对应的目标声纹和目标语义:
(11)对所述当前语音数据进行降噪处理。
具体地,由车载语音终端所采集到的当前语音数据通常是带有噪声的,而噪声容易对后续的声纹和语义的提取造成干扰,因此,这里通过对当前语音数据进行降噪处理能够有效提高当前语音数据的音频质量。
(12)对降噪处理后的当前语音数据进行声纹和语义提取,获得当前语音数据对应的目标声纹和初始语义。
(13)过滤掉所述初始语义中的无效信息,获得所述当前语音数据对应的目标语义;其中,所述无效信息是指为空语义、重复语义或错误语义的初始语义。
需要说明的是,声纹也是可以用来唯一标识用户的生物特征,这里通过频谱分析提取出用户的声纹,从而可以实现后续利用声纹查找用户在云端服务器的目标账户的功能,另外,提取当前语音数据的声纹的具体方式可以参见现有技术中所公开的方式,此处不做赘述。
需要说明的是,语义可以简单地看作是数据所对应的现实世界中事物所代表的概念的含义,以及这些含义之间的关系,是数据在某个领域上的解释和逻辑表示。可以理解的是,数据实际上就是各种符号,而这些数据本身没有任何意义,只有被赋予含义的数据才能够被使用,这时候数据就转化为了信息,而数据的含义就是语义。
一种实现方式中,可以基于语音识别的方式,将当前语音数据识别为文本信息,进而根据所获得的文本信息来去除信息为空信息、重复信息或错误信息的文本信息,也就是,去除初始语义中为空语义、重复语义或错误语义的初始语义。
需要说明的是,这里仅仅是列举了一种提取目标声纹和目标语义的优选方式,并不应该构成对本发明实施例的限定。
S103:将所述目标声纹和目标语义上传至所述云端服务器,以便所述云端服务器:
基于预先建立的声纹与账户对应关系,确定所述目标声纹对应的目标账户,并将所述目标语义存储至所述目标账户中,以及将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型,由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件,且当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述目标事件;其中,所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型;所述目标事件至少包括目标时间和目标事项。
一种实现方式中,可以按照以下方式建立的声纹与用户账户的对应关系:
采集目标用户的目标语音数据;
基于预设声纹识别算法,提取所述目标语音数据对应的目标声纹;
以账户注册或扫描微信二维码以绑定微信账户的方式,建立所述目标用户的目标账户;
将所述目标声纹与所述目标账户一一对应,建立所述目标声纹与所述目标账户的对应关系。
需要说明的是,上述建立声纹与用户账户的对应关系的方式仅为本发明实施例提供的一种优选实现方式而已,并不应该构成对本发明实施例的限定。
S104:当接收到所述云端服务器发送的所述语音播报指令时,播报所述云端服务器发送的所述目标事件对应的目标事项。
一种实现方式中,当接收到所述云端服务器发送的所述语音播报指令时,询问目标用户是否需要进行语音播报,以及在检测用户输入的允许播报的操作后,播报所述云端服务器发送的所述目标事件对应的目标事项。
另一种实现方式中,当接收到所述云端服务器发送的所述语音播报指令时,检测是否满足本地播报条件,若满足则播报所述云端服务器发送的所述目标事件对应的目标事项。其中,所述本地播报条件与安装所述车载语音终端的目标车辆的车况、路况、位置、所处场景和天气环境有关。
需要说明的是,对于车载语音终端而言,从云端服务器获得的目标事件是通过模型预测得到的,而模型的建立需要依赖于大量的用户历史行为数据,对于用户行为习惯突然变化或临时变化的情况而言,模型预测出的目标事件有可能会不符合用户需求,因此,该实现方式中通过询问用户是否需要进行语音播报或是检测是否满足本地播报条件或者来确定是否需要为用户进行主动地语音播报,使得本发明实施例提供的方案在进行语音播报控制时的鲁棒性更好。
可以理解的是,当车载语音终端进行语音播报之前,车载语音终端所完成的仅仅是采集当前语音数据、提取目标声纹和目标语义并上传的动作,并未进行预先的备忘录式的编辑或录入动作,云端服务器在接收到所上传的目标声纹和目标语义后可以利用播报事件生成模型预测出对应的目标事件,给用户带来的感觉是云端服务器决定了所要播报的目标事件,给用户提供了一种管家式的用户体验,更加智能化。
由此可见,应用本发明实施例提供的方案进行语音播报时,首先由车载语音终端采集当前语音数据,然后提取当前语音数据的目标声纹和目标语义,并将所提取的目标声纹和目标语义上传至云端服务器;云端服务器在接收到车载语音终端上传的目标声纹后,一方面,根据声纹与账户对应关系,确定出对应的目标账户,并将目标语义存储于目标账户中,另一方面,云端服务器根据该目标语义生成对应的特征输入向量并输入至播报事件生成模型,从而由该模型输出与当前目标语音数据相对应的目标事件,进而根据目标事件中的目标时间和目标事项向车载语音终端发送语音播报控制指令,并由车载语音终端根据目标时间来播放目标事项。
需要说明的是,这里的“播报事件生成模型”为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型。在模型建立过程中,是通过对大量训练样本的历史行为数据进行机器学习得到的,模型一旦建立后可以通过将特征向量输入该模型来推测出用户可能发生的目标事件,这是基于用户的大量历史行为数据而得到的预测结果,而非仅仅像闹钟一样定时提醒用户,本发明并不需要用户在车载语音终端侧设定其希望播报的具体事项,显然本发明实施例提供的语音播报方案交互性更加友好,用户体验佳;另外,通过将每次上传的目标语义存入目标账户,可以实现对目标用户的历史行为数据的不断更新,这样使得语音播报生成模型能够不断基于用户最近的历史行为数据来进行模型优化,从而实现能够根据用户行为习惯的改变而不断更新所播报的目标时间的目标事项,进一步提升用户体验,给用户带来一种管家式智能化的体验感。
相对于图1所示的方法实施例,本发明实施例还提供了一种语音播报控制方法,应用于云端服务器,所述云端服务器与车载语音终端通信连接,所述语音播报方法可以包括以下步骤:
S201:接收所述车载语音终端上传的目标声纹和目标语义。
其中,所述目标声纹和目标语义是由所述车载语音终端处于工作状态时,对所采集目标用户的当前语音数据进行声纹和语义提取而得到的。
需要说明的是,该步骤与图1所示方法实施例中的步骤S101至S102相同或类似,此处不再一一赘述。
S202:基于预先建立的声纹与账户对应关系,确定所述目标声纹对应的目标账户,并将所述目标语义存储至所述目标账户中。
一种实现方式中,可以按照以下方式将所述目标语义存储至所述目标账户中:
(21)按照预设语义标准化规则,对所述目标语义进行数据标准化处理;
(22)基于预设的语义与类别的对应关系,将标准化处理后的目标语义存储至所述目标账户中对应的类别数据库中。
可以理解的是,为了给每一个用户提供有针对性的主动语音播报服务,首先要做的就是确定用户的身份,这里通过预先建立的声纹与账户之间的对应关系来获得与用户相对应的用户数据库,进而根据该用户数据库对当前的播报事件生成模型进行优化,使其更符合用户当前的行为习惯。
S203:将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型,由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件。
其中,所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型;所述目标事件至少包括目标时间和目标事项。
一种实现方式中,可以按照以下方式建立所述播报事件生成模型:
(31)获得待构建的播报事件生成模型的语音训练样本;其中,各个语音训练样本用于反映用户的历史行为数据;
(32)提取所述语音训练样本的语义,并构成与各个训练样本对应的特征向量;
(33)将所述特征向量输入值预先搭建的分类器模型或生成上一次播报事件的事件播报生成模型中,并基于相似度最大或距离最短的原则对待构建的播报事件生成模型进行参数优化。
需要说明的是,这里仅仅列举了一种进行语音识别模型建立的具体实现方式,当然还可以有其他可行的实现方式,现有技术中公开了众多建立语音识别模型的具体方式,实际应用中可以参照现有技术中的具体方式,此处不再一一赘述。
S204:当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述目标事件,以便所述车载语音终端:在接收到所述云端服务器发送的所述语音播报指令时,播报所述云端服务器发送的所述目标事件对应的目标事项。
一种优选实现方式中,所述目标事件中还包括:用户喜好程度和历史播报频次。
相应地,当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述用户喜好程度最大和/或历史播报频次最高的目标事项。
可以理解的是,在提供主动播报时增加了用户喜好程度和历史播报频次两个维度,这样能够更加人性化智能化地为用户提供主动语音播报,进一步提高了用户与车载语音终端之间的交互友好性,进一步提升了用户体验。
由此可见,应用本发明实施例提供的方案进行语音播报时,首先由车载语音终端采集当前语音数据,然后提取当前语音数据的目标声纹和目标语义,并将所提取的目标声纹和目标语义上传至云端服务器;云端服务器在接收到车载语音终端上传的目标声纹后,一方面,根据声纹与账户对应关系,确定出对应的目标账户,并将目标语义存储于目标账户中,另一方面,云端服务器根据该目标语义生成对应的特征输入向量并输入至播报事件生成模型,从而由该模型输出与当前目标语音数据相对应的目标事件,进而根据目标事件中的目标时间和目标事项向车载语音终端发送语音播报控制指令,并由车载语音终端根据目标时间来播放目标事项。
需要说明的是,这里的“播报事件生成模型”为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型。在模型建立过程中,是通过对大量训练样本的历史行为数据进行机器学习得到的,模型一旦建立后可以通过将特征向量输入该模型来推测出用户可能发生的目标事件,这是基于用户的大量历史行为数据而得到的预测结果,而非仅仅像闹钟一样定时提醒用户,本发明并不需要用户在车载语音终端侧设定其希望播报的具体事项,显然本发明实施例提供的语音播报方案交互性更加友好,用户体验佳;另外,通过将每次上传的目标语义存入目标账户,可以实现对目标用户的历史行为数据的不断更新,这样使得语音播报生成模型能够不断基于用户最近的历史行为数据来进行模型优化,从而实现能够根据用户行为习惯的改变而不断更新所播报的目标时间的目标事项,进一步提升用户体验,给用户带来一种管家式智能化的体验感。
相对于上述语音播报控制方法,本发明实施例提供了一种语音播报控制系统,如图3所示,为本发明实施例提供的一种语音播报控制系统的架构示意图。具体地,该语音播报控制系统包括:车载语音终端310和云端服务器320。
其中,所述车载语音终端310,用于当所述车载语音终端310处于工作状态时,采集目标用户的当前语音数据;提取所述当前语音数据对应的目标声纹和目标语义;将所述目标声纹和目标语义上传至所述云端服务器320;以及,当接收到所述云端服务器320发送的所述语音播报指令时,播报所述云端服务器320发送的所述目标事件对应的目标事项。
所述云端服务器320,用于接收所述车载语音终端310上传的目标声纹和目标语义;基于预先建立的声纹与账户对立关系,确定所述目标声纹对应的目标账户,并将所述目标语义存储至所述目标账户中;将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型,由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件;以及,当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端310发送语音播报指令和所述目标事件;其中,所述目标声纹和目标语义是由所述车载语音终端310处于工作状态时,对所采集目标用户的当前语音数据进行声纹和语义提取而得到的;其中,所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型;所述目标事件至少包括目标时间和目标事项。
由此可见,应用本发明实施例提供的方案进行语音播报时,首先由车载语音终端采集当前语音数据,然后提取当前语音数据的目标声纹和目标语义,并将所提取的目标声纹和目标语义上传至云端服务器;云端服务器在接收到车载语音终端上传的目标声纹后,一方面,根据声纹与账户对应关系,确定出对应的目标账户,并将目标语义存储于目标账户中,另一方面,云端服务器根据该目标语义生成对应的特征输入向量并输入至播报事件生成模型,从而由该模型输出与当前目标语音数据相对应的目标事件,进而根据目标事件中的目标时间和目标事项向车载语音终端发送语音播报控制指令,并由车载语音终端根据目标时间来播放目标事项。
需要说明的是,这里的“播报事件生成模型”为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型。在模型建立过程中,是通过对大量训练样本的历史行为数据进行机器学习得到的,模型一旦建立后可以通过将特征向量输入该模型来推测出用户可能发生的目标事件,这是基于用户的大量历史行为数据而得到的预测结果,而非仅仅像闹钟一样定时提醒用户,本发明并不需要用户在车载语音终端侧设定其希望播报的具体事项,显然本发明实施例提供的语音播报方案交互性更加友好,用户体验佳;另外,通过将每次上传的目标语义存入目标账户,可以实现对目标用户的历史行为数据的不断更新,这样使得语音播报生成模型能够不断基于用户最近的历史行为数据来进行模型优化,从而实现能够根据用户行为习惯的改变而不断更新所播报的目标时间的目标事项,进一步提升用户体验,给用户带来一种管家式智能化的体验感。
对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种语音播报控制方法,其特征在于,应用于车载语音终端,所述车载语音终端与云端服务器通信连接,所述语音播报方法包括:
当所述车载语音终端处于工作状态时,采集目标用户的当前语音数据;
提取所述当前语音数据对应的目标声纹和目标语义;
将所述目标声纹和目标语义上传至所述云端服务器,以便所述云端服务器:
基于预先建立的声纹与账户对应关系,确定所述目标声纹对应的目标账户,并将所述目标语义存储至所述目标账户中,以及将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型,由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件,且当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述目标事件;其中,所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型;所述目标事件至少包括目标时间和目标事项;
当接收到所述云端服务器发送的所述语音播报指令时,播报所述云端服务器发送的所述目标事件对应的目标事项。
2.根据权利要求1所述的语音播报方法,其特征在于,所述提取所述当前语音数据对应的目标声纹和目标语义的步骤,包括:
对所述当前语音数据进行降噪处理;
对降噪处理后的当前语音数据进行声纹和语义提取,获得当前语音数据对应的目标声纹和初始语义;
过滤掉所述初始语义中的无效信息,获得所述当前语音数据对应的目标语义;其中,所述无效信息是指为空语义、重复语义或错误语义的初始语义。
3.根据权利要求1所述的语音播报方法,其特征在于,按照以下方式建立的声纹与用户账户的对应关系:
采集目标用户的目标语音数据;
基于预设声纹识别算法,提取所述目标语音数据对应的目标声纹;
以账户注册或扫描微信二维码以绑定微信账户的方式,建立所述目标用户的目标账户;
将所述目标声纹与所述目标账户一一对应,建立所述目标声纹与所述目标账户的对应关系。
4.根据权利要求1-3任一项所述的语音播报方法,其特征在于,所述当接收到所述云端服务器发送的所述语音播报指令时,播报所述云端服务器发送的所述目标事件对应的目标事项的步骤包括:
当接收到所述云端服务器发送的所述语音播报指令时,检测是否满足本地播报条件,若满足则播报所述云端服务器发送的所述目标事件对应的目标事项;其中,所述本地播报条件与安装所述车载语音终端的目标车辆的车况、路况、位置、所处场景和天气环境有关。
5.一种语音播报控制方法,其特征在于,应用于云端服务器,所述云端服务器与车载语音终端通信连接,所述语音播报方法包括:
接收所述车载语音终端上传的目标声纹和目标语义;其中,所述目标声纹和目标语义是由所述车载语音终端处于工作状态时,对所采集目标用户的当前语音数据进行声纹和语义提取而得到的;
基于预先建立的声纹与账户对应关系,确定所述目标声纹对应的目标账户,并将所述目标语义存储至所述目标账户中;
将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型,由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件;其中,所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型;所述目标事件至少包括目标时间和目标事项;
当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述目标事件,以便所述车载语音终端:在接收到所述云端服务器发送的所述语音播报指令时,播报所述云端服务器发送的所述目标事件对应的目标事项。
6.根据权利要求5所述的语音播报方法,其特征在于,所述将所述目标语义存储至所述目标账户中的步骤包括:
按照预设语义标准化规则,对所述目标语义进行数据标准化处理;
基于预设的语义与类别的对应关系,将标准化处理后的目标语义存储至所述目标账户中对应的类别数据库中。
7.根据权利要求5所述的语音播报方法,其特征在于,按照以下方式建立所述播报事件生成模型:
获得待构建的播报事件生成模型的语音训练样本;其中,各个语音训练样本用于反映用户的历史行为数据;
提取所述语音训练样本的语义,并构成与各个训练样本对应的特征向量;
将所述特征向量输入值预先搭建的分类器模型或生成上一次播报事件的事件播报生成模型中,并基于相似度最大或距离最短的原则对待构建的播报事件生成模型进行参数优化。
8.根据权利要求5-7任一项所述的语音播报方法,其特征在于,所述目标事件中还包括:用户喜好程度和历史播报频次。
9.根据权利要求8所述的语音播报方法,其特征在于,所述当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述目标事件的步骤包括:
当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述用户喜好程度最大和/或历史播报频次最高的目标事项。
10.一种语音播报控制系统控制系统,其特征在于,所述语音播报控制系统包括:车载语音终端和云端服务器;其中,
所述车载语音终端,用于当所述车载语音终端处于工作状态时,采集目标用户的当前语音数据;提取所述当前语音数据对应的目标声纹和目标语义;将所述目标声纹和目标语义上传至所述云端服务器;以及,当接收到所述云端服务器发送的所述语音播报指令时,播报所述云端服务器发送的所述目标事件对应的目标事项;
所述云端服务器,用于接收所述车载语音终端上传的目标声纹和目标语义;基于预先建立的声纹与账户对应关系,确定所述目标声纹对应的目标账户,并将所述目标语义存储至所述目标账户中;将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型,由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件;以及,当检测到所述目标事件到达对应的目标时间时,向所述车载语音终端发送语音播报指令和所述目标事件;其中,所述目标声纹和目标语义是由所述车载语音终端处于工作状态时,对所采集目标用户的当前语音数据进行声纹和语义提取而得到的;其中,所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型;所述目标事件至少包括目标时间和目标事项。
CN201810566322.0A 2018-06-01 2018-06-01 一种语音播报控制方法及系统 Pending CN108766428A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810566322.0A CN108766428A (zh) 2018-06-01 2018-06-01 一种语音播报控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810566322.0A CN108766428A (zh) 2018-06-01 2018-06-01 一种语音播报控制方法及系统

Publications (1)

Publication Number Publication Date
CN108766428A true CN108766428A (zh) 2018-11-06

Family

ID=63998888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810566322.0A Pending CN108766428A (zh) 2018-06-01 2018-06-01 一种语音播报控制方法及系统

Country Status (1)

Country Link
CN (1) CN108766428A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637525A (zh) * 2019-01-25 2019-04-16 百度在线网络技术(北京)有限公司 用于生成车载声学模型的方法和装置
CN109688565A (zh) * 2018-12-11 2019-04-26 广州小鹏汽车科技有限公司 车辆控制方法、装置、服务器及车辆控制系统
CN110120222A (zh) * 2019-05-23 2019-08-13 九牧厨卫股份有限公司 一种带语音播报功能的智能镜柜的语音播报方法
CN110534117A (zh) * 2019-09-10 2019-12-03 百度在线网络技术(北京)有限公司 用于优化语音生成模型的方法、装置、设备和计算机介质
CN110602203A (zh) * 2019-09-10 2019-12-20 北京阿帕科蓝科技有限公司 基于云平台的语音播报方法及具有该方法的系统、发声装置
CN111415642A (zh) * 2020-03-31 2020-07-14 广东美的制冷设备有限公司 用电设备的语音播报方法、装置、空调器和存储介质
CN111599202A (zh) * 2020-05-27 2020-08-28 四川邮电职业技术学院 一种车载通信终端及车载通信系统
CN112085463A (zh) * 2020-08-11 2020-12-15 广州汽车集团股份有限公司 一种车载语音日程管理装置、方法及车载终端
CN112185362A (zh) * 2020-09-24 2021-01-05 苏州思必驰信息科技有限公司 针对用户个性化服务的语音处理方法及装置
CN112331199A (zh) * 2020-10-29 2021-02-05 效生软件科技(上海)有限公司 一种车载语音控制系统
CN112562674A (zh) * 2021-02-19 2021-03-26 智道网联科技(北京)有限公司 车联网智能语音处理方法及相关装置
CN113297428A (zh) * 2021-05-18 2021-08-24 百度在线网络技术(北京)有限公司 体脂检测设备的数据存储方法、装置及电子设备
CN113409615A (zh) * 2021-06-18 2021-09-17 深圳市易流科技股份有限公司 一种驾驶员监控系统及驾驶员监控方法
CN114724566A (zh) * 2022-04-18 2022-07-08 中国第一汽车股份有限公司 语音处理方法、装置、存储介质及电子设备
CN114783156A (zh) * 2022-03-09 2022-07-22 青岛海尔科技有限公司 提醒事项的播报方法、存储介质及电子装置
WO2023273749A1 (zh) * 2021-06-30 2023-01-05 华为技术有限公司 一种播报文本生成的方法、装置和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775178B2 (en) * 2008-10-27 2014-07-08 International Business Machines Corporation Updating a voice template
CN103956162A (zh) * 2014-04-04 2014-07-30 上海元趣信息技术有限公司 针对儿童的语音识别方法及装置
CN105389400A (zh) * 2015-12-24 2016-03-09 Tcl集团股份有限公司 语音交互方法及装置
CN105868360A (zh) * 2016-03-29 2016-08-17 乐视控股(北京)有限公司 基于语音识别的内容推荐方法及装置
CN106297780A (zh) * 2015-06-03 2017-01-04 深圳市轻生活科技有限公司 一种语音交互方法及系统、以及智能语音播报终端
CN108062354A (zh) * 2017-11-22 2018-05-22 上海博泰悦臻电子设备制造有限公司 信息推荐方法、系统、存储介质、电子设备及车辆
CN108091329A (zh) * 2017-12-20 2018-05-29 江西爱驰亿维实业有限公司 基于语音识别控制汽车的方法、装置及计算设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775178B2 (en) * 2008-10-27 2014-07-08 International Business Machines Corporation Updating a voice template
CN103956162A (zh) * 2014-04-04 2014-07-30 上海元趣信息技术有限公司 针对儿童的语音识别方法及装置
CN106297780A (zh) * 2015-06-03 2017-01-04 深圳市轻生活科技有限公司 一种语音交互方法及系统、以及智能语音播报终端
CN105389400A (zh) * 2015-12-24 2016-03-09 Tcl集团股份有限公司 语音交互方法及装置
CN105868360A (zh) * 2016-03-29 2016-08-17 乐视控股(北京)有限公司 基于语音识别的内容推荐方法及装置
CN108062354A (zh) * 2017-11-22 2018-05-22 上海博泰悦臻电子设备制造有限公司 信息推荐方法、系统、存储介质、电子设备及车辆
CN108091329A (zh) * 2017-12-20 2018-05-29 江西爱驰亿维实业有限公司 基于语音识别控制汽车的方法、装置及计算设备

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109688565A (zh) * 2018-12-11 2019-04-26 广州小鹏汽车科技有限公司 车辆控制方法、装置、服务器及车辆控制系统
CN109637525A (zh) * 2019-01-25 2019-04-16 百度在线网络技术(北京)有限公司 用于生成车载声学模型的方法和装置
CN109637525B (zh) * 2019-01-25 2020-06-09 百度在线网络技术(北京)有限公司 用于生成车载声学模型的方法和装置
CN110120222A (zh) * 2019-05-23 2019-08-13 九牧厨卫股份有限公司 一种带语音播报功能的智能镜柜的语音播报方法
CN110534117A (zh) * 2019-09-10 2019-12-03 百度在线网络技术(北京)有限公司 用于优化语音生成模型的方法、装置、设备和计算机介质
CN110602203A (zh) * 2019-09-10 2019-12-20 北京阿帕科蓝科技有限公司 基于云平台的语音播报方法及具有该方法的系统、发声装置
CN111415642A (zh) * 2020-03-31 2020-07-14 广东美的制冷设备有限公司 用电设备的语音播报方法、装置、空调器和存储介质
CN111599202A (zh) * 2020-05-27 2020-08-28 四川邮电职业技术学院 一种车载通信终端及车载通信系统
CN112085463A (zh) * 2020-08-11 2020-12-15 广州汽车集团股份有限公司 一种车载语音日程管理装置、方法及车载终端
CN112185362A (zh) * 2020-09-24 2021-01-05 苏州思必驰信息科技有限公司 针对用户个性化服务的语音处理方法及装置
CN112331199A (zh) * 2020-10-29 2021-02-05 效生软件科技(上海)有限公司 一种车载语音控制系统
CN112562674A (zh) * 2021-02-19 2021-03-26 智道网联科技(北京)有限公司 车联网智能语音处理方法及相关装置
CN113297428A (zh) * 2021-05-18 2021-08-24 百度在线网络技术(北京)有限公司 体脂检测设备的数据存储方法、装置及电子设备
CN113409615A (zh) * 2021-06-18 2021-09-17 深圳市易流科技股份有限公司 一种驾驶员监控系统及驾驶员监控方法
WO2023273749A1 (zh) * 2021-06-30 2023-01-05 华为技术有限公司 一种播报文本生成的方法、装置和电子设备
CN114783156A (zh) * 2022-03-09 2022-07-22 青岛海尔科技有限公司 提醒事项的播报方法、存储介质及电子装置
CN114724566A (zh) * 2022-04-18 2022-07-08 中国第一汽车股份有限公司 语音处理方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN108766428A (zh) 一种语音播报控制方法及系统
CN102842306B (zh) 语音控制方法及装置、语音响应方法及装置
CN102436812B (zh) 会议记录装置及利用该装置对会议进行记录的方法
CN108694942A (zh) 一种基于家居智能服务机器人的智能家居交互问答系统
CN107578769B (zh) 语音数据标注方法和装置
CN103370739B (zh) 用于辨识环境声音的系统和方法
CN103918247B (zh) 基于背景环境的智能手机传感器逻辑
CN102111314B (zh) 一种基于蓝牙传输的智能家居语音控制系统及方法
CN107146611A (zh) 一种语音响应方法、装置及智能设备
CN105590626B (zh) 持续语音人机交互方法和系统
CN105354196A (zh) 信息推送方法和信息推送装置
CN105094798A (zh) 触觉设计创作工具
CN109036412A (zh) 语音唤醒方法和系统
CN105390136A (zh) 用于用户适配型服务的车辆设备控制装置及方法
CN103635962A (zh) 声音识别系统、识别字典登记系统以及声学模型标识符序列生成装置
CN104170413A (zh) 基于环境上下文控制移动装置中的应用程序
CN103970861A (zh) 信息呈现方法和设备
JP2017192091A (ja) 音声制御機能付きiotシステム及びその情報処理方法
CN103139047A (zh) 推送好友推荐信息的方法、客户端和系统
CN111178081A (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
US11521626B2 (en) Device, system and method for identifying a scene based on an ordered sequence of sounds captured in an environment
CN111508491A (zh) 一种基于深度学习的智能语音交互设备
Arce et al. FIWARE based low-cost wireless acoustic sensor network for monitoring and classification of urban soundscape
Dargie Adaptive audio-based context recognition
CN113011195A (zh) 基于预训练语言模型的推荐系统效果增强方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 230601 No. 99 Ziyun Road, Hefei Economic and Technological Development Zone, Anhui Province

Applicant after: Anhui Jianghuai Automobile Group Limited by Share Ltd

Address before: 230601 No. 669 Shixin Road, Taohua Industrial Park, Hefei City, Anhui Province

Applicant before: Anhui Jianghuai Automobile Group Limited by Share Ltd

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106