CN108281138A - 年龄判别模型训练及智能语音交互方法、设备及存储介质 - Google Patents

年龄判别模型训练及智能语音交互方法、设备及存储介质 Download PDF

Info

Publication number
CN108281138A
CN108281138A CN201711365962.7A CN201711365962A CN108281138A CN 108281138 A CN108281138 A CN 108281138A CN 201711365962 A CN201711365962 A CN 201711365962A CN 108281138 A CN108281138 A CN 108281138A
Authority
CN
China
Prior art keywords
voice data
age
user
cutting
age categories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711365962.7A
Other languages
English (en)
Other versions
CN108281138B (zh
Inventor
陆永帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201711365962.7A priority Critical patent/CN108281138B/zh
Publication of CN108281138A publication Critical patent/CN108281138A/zh
Application granted granted Critical
Publication of CN108281138B publication Critical patent/CN108281138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了年龄判别模型训练及智能语音交互方法、设备及存储介质,可预先训练得到一个年龄判别模型,当获取到用户输入的语音数据后,可按照预定时长对语音数据进行切分,并分别获取切分得到的各语音数据段的语谱图,之后,可分别将各语谱图输入年龄判别模型,得到输出的语谱图对应的年龄类别,并根据得到的各年龄类别确定出用户的年龄类别,进而向用户返回与用户的年龄类别以及语音数据的语音识别结果相对应的服务内容。应用本发明所述方案,能够提升获取到的年龄信息的准确性,并提升智能语音交互设备的智能性和趣味性等。

Description

年龄判别模型训练及智能语音交互方法、设备及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及年龄判别模型训练及智能语音交互方法、设备及存储介质。
【背景技术】
随着技术的发展,智能语音交互设备越来越普及,如音箱、故事机等。
使用音箱或故事机等智能语音交互设备的,可能是儿童,也可能是成人,还可能是老人等,对于不同年龄类别(儿童、成人等)的用户输入的语音数据即语音query,按照现有处理方式,返回的服务内容通常都是一样的。
如果能够区分出用户的年龄类别,然后有针对性地返回与用户的年龄类别相对应的服务内容,无疑能够提升智能语音交互设备的智能性和趣味性。
另外,现有技术中,通常采用以下方式来获取用户的年龄信息:让用户绑定某个账号,从后台的账号关联数据得到用户的年龄信息,但后台的账号关联数据有可能是用户胡乱填写的,从而导致得到的年龄信息不准确。
【发明内容】
有鉴于此,本发明提供了年龄判别模型训练及智能语音交互方法、设备及存储介质,能够提升获取到的年龄信息的准确性,并提升智能语音交互设备的智能性和趣味性。
具体技术方案如下:
一种年龄判别模型训练方法,包括:
分别获取不同年龄类别的语音数据;
分别按照预定时长对各语音数据进行切分;
分别获取切分得到的各语音数据段的语谱图;
将获取到的各语谱图作为样本,将每个样本对应的语音数据的年龄类别作为所述样本的标签;
根据所述样本及标签训练得到年龄判别模型。
根据本发明一优选实施例,所述分别按照预定时长对各语音数据进行切分包括:
分别对各语音数据按秒进行切分,得到时长为1秒的各语音数据段。
根据本发明一优选实施例,所述分别按照预定时长对各语音数据进行切分之前,进一步包括:
分别将各语音数据转换为预定格式。
根据本发明一优选实施例,所述年龄判别模型包括:支持向量机模型、卷积神经网络模型、深度残差网络模型。
一种智能语音交互方法,包括:
获取用户向智能语音交互设备输入的语音数据;
按照预定时长对所述语音数据进行切分;
分别获取切分得到的各语音数据段的语谱图;
分别将各语谱图输入预先训练得到的年龄判别模型,得到输出的语谱图对应的年龄类别;
根据得到的各年龄类别确定出所述用户的年龄类别;
向所述用户返回与所述用户的年龄类别以及所述语音数据的语音识别结果相对应的服务内容。
根据本发明一优选实施例,所述按照预定时长对所述语音数据进行切分包括:
对所述语音数据按秒进行切分,得到时长为1秒的各语音数据段。
根据本发明一优选实施例,所述按照预定时长对所述语音数据进行切分之前,进一步包括:
将所述语音数据转换为预定格式。
根据本发明一优选实施例,所述根据得到的各年龄类别确定出所述用户的年龄类别包括:
将得到的各年龄类别中出现次数最多的年龄类别作为所述用户的年龄类别。
根据本发明一优选实施例,所述根据得到的各年龄类别确定出所述用户的年龄类别进一步包括:
若得到的各年龄类别中出现次数最多的年龄类别数大于一,则根据所述智能语音交互设备的类型,从出现次数最多的年龄类别中选出一个作为所述用户的年龄类别。
一种年龄判别模型训练设备,包括:第一数据获取单元、第一数据切分单元、第一特征提取单元、样本获取单元以及模型训练单元;
所述第一数据获取单元,用于分别获取不同年龄类别的语音数据;
所述第一数据切分单元,用于分别按照预定时长对各语音数据进行切分;
所述第一特征提取单元,用于分别获取切分得到的各语音数据段的语谱图;
所述样本获取单元,用于将获取到的各语谱图作为样本,将每个样本对应的语音数据的年龄类别作为所述样本的标签;
所述模型训练单元,用于根据所述样本及标签训练得到年龄判别模型。
根据本发明一优选实施例,所述第一数据切分单元分别对各语音数据按秒进行切分,得到时长为1秒的各语音数据段。
根据本发明一优选实施例,所述第一数据切分单元进一步用于,在分别按照预定时长对各语音数据进行切分之前,分别将各语音数据转换为预定格式。
根据本发明一优选实施例,所述年龄判别模型包括:支持向量机模型、卷积神经网络模型、深度残差网络模型。
一种智能语音交互设备,包括:第二数据获取单元、第二数据切分单元、第二特征提取单元、年龄判别单元以及内容返回单元;
所述第二数据获取单元,用于获取用户输入的语音数据;
所述第二数据切分单元,用于按照预定时长对所述语音数据进行切分;
所述第二特征提取单元,用于分别获取切分得到的各语音数据段的语谱图;
所述年龄判别单元,用于分别将各语谱图输入预先训练得到的年龄判别模型,得到输出的语谱图对应的年龄类别,并根据得到的各年龄类别确定出所述用户的年龄类别;
所述内容返回单元,用于向所述用户返回与所述用户的年龄类别以及所述语音数据的语音识别结果相对应的服务内容。
根据本发明一优选实施例,所述第二数据切分单元对所述语音数据按秒进行切分,得到时长为1秒的各语音数据段。
根据本发明一优选实施例,所述第二数据切分单元进一步用于,在按照预定时长对所述语音数据进行切分之前,将所述语音数据转换为预定格式。
根据本发明一优选实施例,所述年龄判别单元将得到的各年龄类别中出现次数最多的年龄类别作为所述用户的年龄类别。
根据本发明一优选实施例,所述年龄判别单元进一步用于,若得到的各年龄类别中出现次数最多的年龄类别数大于一,则根据所述智能语音交互设备的类型,从出现次数最多的年龄类别中选出一个作为所述用户的年龄类别。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可预先训练得到一个年龄判别模型,这样,在获取到用户向智能语音交互设备输入的语音数据后,可按照预定时长对语音数据进行切分,并分别获取切分得到的各语音数据段的语谱图,之后,可分别将各语谱图输入年龄判别模型,从而得到输出的语谱图对应的年龄类别,进一步地,可根据得到的各年龄类别确定出用户的年龄类别,进而可向用户返回与用户的年龄类别以及语音数据的语音识别结果相对应的服务内容,也就是说,可根据各语音数据段的语谱图并结合年龄判别模型,确定出用户的年龄类别,从而相比于现有技术提升了获取到的年龄信息的准确性,而且,可根据用户的年龄类别等,有针对性地返回与用户的年龄类别相对应的服务内容,从而提升了智能语音交互设备的智能性和趣味性等。
【附图说明】
图1为本发明所述年龄判别模型训练方法实施例的流程图。
图2为本发明所述语音数据的示意图。
图3为本发明所述语谱图的示意图。
图4为本发明所述卷积神经网络模型的网络结构示意图。
图5为本发明所述智能语音交互方法实施例的流程图。
图6为本发明所述年龄判别模型训练设备实施例的组成结构示意图。
图7为本发明所述智能语音交互设备实施例的组成结构示意图。
图8示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
针对现有技术中存在的问题,本发明中提出一种年龄判别模型训练及智能语音交互方法,基于训练得到的年龄判别模型,可准确地判断出向智能语音交互设备输入语音数据的用户的年龄类别,进而可根据用户的年龄类别等,有针对性地向用户返回与用户的年龄类别相对应的服务内容。
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述年龄判别模型训练方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,分别获取不同年龄类别的语音数据。
在102中,分别按照预定时长对各语音数据进行切分。
在103中,分别获取切分得到的各语音数据段的语谱图。
在104中,将获取到的各语谱图作为样本,将每个样本对应的语音数据的年龄类别作为样本的标签。
在105中,根据样本及标签训练得到年龄判别模型。
为训练得到年龄判别模型,需要首先进行数据收集,即分别获取不同年龄类别的若干条语音数据。
年龄类别的划分方式可根据实际需要而定。比如,可划分为儿童和成人两个年龄类别,14岁及14以下的为儿童,大于14岁的为成人。
各年龄类别获取的语音数据的数量同样可根据实际需要而定。比如,可分别获取5000条儿童的语音数据以及5000条成人的语音数据。
在获取到各语音数据后,可进一步对其进行预处理,如分别将各语音数据转换为预定格式等。
比如,对于智能语音交互设备来说,轻量级设备的麦克风一般只能录取到16k采样率的单声道wav音频,因此,可将获取到的各语音数据分别转换为16k的单声道wav格式。
另外,原始的语音数据,数据量比较大,而且不直观,因此可进行特征提取。本实施例中,选用语音数据作傅里叶变换后得到的语谱图作为特征,语谱图的横轴是时间(Time),纵轴是频率(Frequency),坐标点值为语音数据能量。由于是采用二维平面表达三维信息,因此能量的大小是通过颜色来表示的,颜色越深,表示能量越强。语谱图上有一条条的声纹,这些声纹中就包含着语音的年龄信息。
图2为本发明所述语音数据的示意图。图3为本发明所述语谱图的示意图。
语谱图的具体参数可根据实际需要而定,比如,可以选择窗长190,重叠区域设置为48,则一秒钟(16000个数据点)可以得到112长度的语谱图,将纵轴也降采样为112的数量,那么每秒钟的语音数据可以分别变换为112×112的语谱图。
相应地,可分别按照预定时长对获取到的各语音数据进行切分,并分别获取切分得到的各语音数据段的语谱图。如上所述,可分别对各语音数据按秒进行切分,从而得到各时长为1秒的语音数据段,进而分别获取每个语音数据段的语谱图。
假设共获取到了10000条语音数据,那么可针对其中的每条语音数据,分别对其进行按秒切分,不足一秒的可以用留白补全,如一条语音数据为5秒,那么共可得到5个语音数据段,分别获取每个语音数据段的语谱图。
可将每秒的语谱图分别作为一个样本,并将每个样本对应的语音数据的年龄类别作为样本的标签。比如,一条儿童的语音数据,切分得到5个语音数据段,相应地,则可得到5个样本,每个样本的标签均为儿童这一年龄类别。再比如,一条成人的语音数据,切分得到4个语音数据段,相应地,则可得到4个样本,每个样本的标签均为成人这一年龄类别。
之后,可根据样本及标签训练得到年龄判别模型。在实际应用中,可以将带标签的样本用任何一种机器学习的方法进行训练,均能够得到相应的年龄判别模型。比如,年龄判别模型可以为:支持向量机(SVM,Support Vector Machine)模型、卷积神经网络(CNN,Convolutional Neural Network)模型、深度残差网络模型如resnet等。
以卷积神经网络模型为例进行说明,112×112的语谱图可以很好地适应卷积神经网络。图4为本发明所述卷积神经网络模型的网络结构示意图。如图4所示,将语谱图输入网络后,最后输出为2个节点的值,若第一个节点的值较大,则可判定年龄类别为儿童,若第二个节点的值较大,则可判定年龄类别为成人,即执行一个softmax操作。网络中还有许多微调参数,均可以根据实际需要进行调整,比如,可将学习率设置为0.001,激活函数均选择修正线性单元(ReLu,Rectified Linear Units)等。
根据上述网络结构,用任何一款深度学习框架都可以搭建出本发明的模型,如可包括Tensorflow、caffe以及百度的paddlepaddle等,搭建好模型后使用带标签的样本进行训练,收敛后即可得到所需的年龄判别模型。
获取到年龄判别模型后,可将其应用到智能语音交互设备中,利用该模型来判别用户的年龄,并返回相应的服务内容等。
图5为本发明所述智能语音交互方法实施例的流程图。如图5所示,包括以下具体实现方式。
在501中,获取用户向智能语音交互设备输入的语音数据。
在502中,按照预定时长对用户的语音数据进行切分。
在503中,分别获取切分得到的各语音数据段的语谱图。
在504中,分别将各语谱图输入预先训练得到的年龄判别模型,得到输出的语谱图对应的年龄类别。
在505中,根据得到的各年龄类别确定出用户的年龄类别。
在506中,向用户返回与用户的年龄类别以及语音数据的语音识别结果相对应的服务内容。
在获取到用户输入的语音数据后,可首先对其进行预处理,即转换为预定格式,如转换为16k的单声道wav格式。
之后,可对用户的语音数据按秒进行切分,不足一秒的可以用留白补全,从而得到时长为1秒的各语音数据段,进一步地,可分别获取各语音数据段的语谱图,并分别将每个语谱图输入年龄判别模型,从而分别得到每个语谱图对应的年龄类别。
之后,可对得到的各年龄类别进行汇总,从而确定出用户的年龄类别。较佳地,可将得到的各年龄类别中出现次数最多的年龄类别作为用户的年龄类别。进一步地,如果得到的各年龄类别中出现次数最多的年龄类别数大于一,那么可根据智能语音交互设备的类型,从出现次数最多的年龄类别中选出一个作为用户的年龄类别。
比如,用户输入的语音数据的时长为6秒,那么则可切分得到6个语音数据段,相应地,可得到6个语谱图,并可得到6个年龄类别判别结果,假设其中的5个年龄类别判别结果为儿童,剩下的1个为成人,那么则可确定用户的年龄类别为儿童,假设其中的3个年龄类别判别结果为儿童,剩下的3个为成人,即出现次数最多的年龄类别数大于一,那么则可根据智能语音交互设备的类型来选出一个年龄类别作为用户的年龄类别,如智能语音交互设备为故事机,则将儿童作为用户的年龄类别,若智能语音交互设备为音箱,则将成人作为用户的年龄类别,这主要是考虑到使用故事机的多为儿童,而使用音箱的多为成人。
在获取到用户的年龄类别后,可向用户返回与用户的年龄类别以及语音数据的语音识别结果相对应的服务内容,即向用户返回定制化结果。
具体的定制化方法不作限制。
比如,用户向智能语音交互设备输入以下语音数据(语音query):我要听歌,若根据语音数据确定出用户的年龄类别为儿童,则可为用户播放儿童歌曲,若根据语音数据确定出用户的年龄类别为成人,则可为用户播放流行歌曲。
再比如,用户向智能语音交互设备输入以下语音数据(语音query):今天的天气,若根据语音数据确定出用户的年龄类别为儿童,则可用萌萌的语音播报天气,并提醒今天会下雨(如果有雨的话),上学路上小心等,若根据语音数据确定出用户的年龄类别为成人,则可用比较清晰的语音提醒今天有雨,上班路上小心等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
总之,采用上述各方法实施例所述方案,可根据用户输入的语音数据中的各语音数据段的语谱图并结合年龄判别模型,确定出用户的年龄类别,从而相比于现有技术提升了获取到的年龄信息的准确性,而且,可根据用户的年龄类别等,有针对性地向用户返回与用户的年龄类别相对应的服务内容,从而提升了智能语音交互设备的智能性和趣味性等。
以上是关于方法实施例的介绍,以下通过设备实施例,对本发明所述方案进行进一步说明。
图6为本发明所述年龄判别模型训练设备实施例的组成结构示意图。如图6所示,包括:第一数据获取单元601、第一数据切分单元602、第一特征提取单元603、样本获取单元604以及模型训练单元605。
第一数据获取单元601,用于分别获取不同年龄类别的语音数据。
第一数据切分单元602,用于分别按照预定时长对各语音数据进行切分。
第一特征提取单元603,用于分别获取切分得到的各语音数据段的语谱图。
样本获取单元604,用于将获取到的各语谱图作为样本,将每个样本对应的语音数据的年龄类别作为样本的标签。
模型训练单元605,用于根据样本及标签训练得到年龄判别模型。
为训练得到年龄判别模型,第一数据获取单元601需要首先进行数据收集,即分别获取不同年龄类别的若干条语音数据。
年龄类别的划分方式可根据实际需要而定。比如,可划分为儿童和成人两个年龄类别,14岁及14以下的为儿童,大于14岁的为成人。
之后,第一数据切分单元602可分别对各语音数据进行预处理,如分别将各语音数据转换为预定格式等。进一步地,第一数据切分单元602可对各语音数据按秒进行切分,从而得到时长为1秒的各语音数据段。
针对每个语音数据段,第一特征提取单元603可分别获取该语音数据段的语谱图。样本获取单元604可将每秒的语谱图分别作为一个样本,并将每个样本对应的语音数据的年龄类别作为样本的标签。进而由模型训练单元605根据样本及标签训练得到年龄判别模型。
年龄判别模型可以为支持向量机模型、卷积神经网络模型、深度残差网络模型等。
图7为本发明智能语音交互设备实施例的组成结构示意图。如图7所示,包括:第二数据获取单元701、第二数据切分单元702、第二特征提取单元703、年龄判别单元704以及内容返回单元705。
第二数据获取单元701,用于获取用户输入的语音数据。
第二数据切分单元702,用于按照预定时长对语音数据进行切分。
第二特征提取单元703,用于分别获取切分得到的各语音数据段的语谱图。
年龄判别单元704,用于分别将各语谱图输入预先训练得到的年龄判别模型,得到输出的语谱图对应的年龄类别,并根据得到的各年龄类别确定出用户的年龄类别。
内容返回单元705,用于向用户返回与用户的年龄类别以及语音数据的语音识别结果相对应的服务内容。
在智能语音交互过程中,用户可向智能语音交互设备输入语音数据。对于通过第二数据获取单元701获取到的用户的语音数据,可首先由第二数据切分单元702对其进行预处理,即转换为预定格式,之后,第二数据切分单元702可对用户的语音数据按秒进行切分,从而得到时长为1秒的各语音数据段。进一步地,第二特征提取单元703可分别获取各语音数据段的语谱图,并由年龄判别单元704分别将每个语谱图输入年龄判别模型,从而分别得到每个语谱图对应的年龄类别。
年龄判别单元704还可对得到的各年龄类别进行汇总,从而确定出用户的年龄类别。较佳地,年龄判别单元704可将得到的各年龄类别中出现次数最多的年龄类别作为用户的年龄类别。进一步地,如果得到的各年龄类别中出现次数最多的年龄类别数大于一,那么年龄判别单元704可根据智能语音交互设备的类型,从出现次数最多的年龄类别中选出一个作为用户的年龄类别。
比如,用户输入的语音数据的时长为6秒,那么则可切分得到6个语音数据段,相应地,可得到6个语谱图,并可得到6个年龄类别判别结果,假设其中的5个年龄类别判别结果为儿童,剩下的1个为成人,那么则可确定用户的年龄类别为儿童,假设其中的3个年龄类别判别结果为儿童,剩下的3个为成人,即出现次数最多的年龄类别数大于一,那么则可根据智能语音交互设备的类型来选出一个年龄类别作为用户的年龄类别,如智能语音交互设备为故事机,则将儿童作为用户的年龄类别,若智能语音交互设备为音箱,则将成人作为用户的年龄类别,这主要是考虑到使用故事机的多为儿童,而使用音箱的多为成人。
在获取到用户的年龄类别后,内容返回单元705可向用户返回与用户的年龄类别以及语音数据的语音识别结果相对应的服务内容,即向用户返回定制化结果。
具体的定制化方法不作限制。
比如,用户向智能语音交互设备输入以下语音数据:我要听歌,若根据语音数据确定出用户的年龄类别为儿童,则可为用户播放儿童歌曲,若根据语音数据确定出用户的年龄类别为成人,则可为用户播放流行歌曲。
再比如,用户向智能语音交互设备输入以下语音数据:今天的天气,若根据语音数据确定出用户的年龄类别为儿童,则可用萌萌的语音播报天气,并提醒今天会下雨(如果有雨的话),上学路上小心等,若根据语音数据确定出用户的年龄类别为成人,则可用比较清晰的语音提醒今天有雨,上班路上小心等。
图6和图7所示设备实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
图8示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图8显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图8所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1或4所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1或4所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种年龄判别模型训练方法,其特征在于,包括:
分别获取不同年龄类别的语音数据;
分别按照预定时长对各语音数据进行切分;
分别获取切分得到的各语音数据段的语谱图;
将获取到的各语谱图作为样本,将每个样本对应的语音数据的年龄类别作为所述样本的标签;
根据所述样本及标签训练得到年龄判别模型。
2.根据权利要求1所述的方法,其特征在于,
所述分别按照预定时长对各语音数据进行切分包括:
分别对各语音数据按秒进行切分,得到时长为1秒的各语音数据段。
3.根据权利要求1所述的方法,其特征在于,
所述分别按照预定时长对各语音数据进行切分之前,进一步包括:
分别将各语音数据转换为预定格式。
4.根据权利要求1所述的方法,其特征在于,
所述年龄判别模型包括:支持向量机模型、卷积神经网络模型、深度残差网络模型。
5.一种智能语音交互方法,其特征在于,包括:
获取用户向智能语音交互设备输入的语音数据;
按照预定时长对所述语音数据进行切分;
分别获取切分得到的各语音数据段的语谱图;
分别将各语谱图输入预先训练得到的年龄判别模型,得到输出的语谱图对应的年龄类别;
根据得到的各年龄类别确定出所述用户的年龄类别;
向所述用户返回与所述用户的年龄类别以及所述语音数据的语音识别结果相对应的服务内容。
6.根据权利要求5所述的方法,其特征在于,
所述按照预定时长对所述语音数据进行切分包括:
对所述语音数据按秒进行切分,得到时长为1秒的各语音数据段。
7.根据权利要求5所述的方法,其特征在于,
所述按照预定时长对所述语音数据进行切分之前,进一步包括:
将所述语音数据转换为预定格式。
8.根据权利要求5所述的方法,其特征在于,
所述根据得到的各年龄类别确定出所述用户的年龄类别包括:
将得到的各年龄类别中出现次数最多的年龄类别作为所述用户的年龄类别。
9.根据权利要求8所述的方法,其特征在于,
所述根据得到的各年龄类别确定出所述用户的年龄类别进一步包括:
若得到的各年龄类别中出现次数最多的年龄类别数大于一,则根据所述智能语音交互设备的类型,从出现次数最多的年龄类别中选出一个作为所述用户的年龄类别。
10.一种年龄判别模型训练设备,其特征在于,包括:第一数据获取单元、第一数据切分单元、第一特征提取单元、样本获取单元以及模型训练单元;
所述第一数据获取单元,用于分别获取不同年龄类别的语音数据;
所述第一数据切分单元,用于分别按照预定时长对各语音数据进行切分;
所述第一特征提取单元,用于分别获取切分得到的各语音数据段的语谱图;
所述样本获取单元,用于将获取到的各语谱图作为样本,将每个样本对应的语音数据的年龄类别作为所述样本的标签;
所述模型训练单元,用于根据所述样本及标签训练得到年龄判别模型。
11.根据权利要求10所述的设备,其特征在于,
所述第一数据切分单元分别对各语音数据按秒进行切分,得到时长为1秒的各语音数据段。
12.根据权利要求10所述的设备,其特征在于,
所述第一数据切分单元进一步用于,在分别按照预定时长对各语音数据进行切分之前,分别将各语音数据转换为预定格式。
13.根据权利要求10所述的设备,其特征在于,
所述年龄判别模型包括:支持向量机模型、卷积神经网络模型、深度残差网络模型。
14.一种智能语音交互设备,其特征在于,包括:第二数据获取单元、第二数据切分单元、第二特征提取单元、年龄判别单元以及内容返回单元;
所述第二数据获取单元,用于获取用户输入的语音数据;
所述第二数据切分单元,用于按照预定时长对所述语音数据进行切分;
所述第二特征提取单元,用于分别获取切分得到的各语音数据段的语谱图;
所述年龄判别单元,用于分别将各语谱图输入预先训练得到的年龄判别模型,得到输出的语谱图对应的年龄类别,并根据得到的各年龄类别确定出所述用户的年龄类别;
所述内容返回单元,用于向所述用户返回与所述用户的年龄类别以及所述语音数据的语音识别结果相对应的服务内容。
15.根据权利要求14所述的设备,其特征在于,
所述第二数据切分单元对所述语音数据按秒进行切分,得到时长为1秒的各语音数据段。
16.根据权利要求14所述的设备,其特征在于,
所述第二数据切分单元进一步用于,在按照预定时长对所述语音数据进行切分之前,将所述语音数据转换为预定格式。
17.根据权利要求14所述的设备,其特征在于,
所述年龄判别单元将得到的各年龄类别中出现次数最多的年龄类别作为所述用户的年龄类别。
18.根据权利要求17所述的设备,其特征在于,
所述年龄判别单元进一步用于,若得到的各年龄类别中出现次数最多的年龄类别数大于一,则根据所述智能语音交互设备的类型,从出现次数最多的年龄类别中选出一个作为所述用户的年龄类别。
19.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~9中任一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~9中任一项所述的方法。
CN201711365962.7A 2017-12-18 2017-12-18 年龄判别模型训练及智能语音交互方法、设备及存储介质 Active CN108281138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711365962.7A CN108281138B (zh) 2017-12-18 2017-12-18 年龄判别模型训练及智能语音交互方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711365962.7A CN108281138B (zh) 2017-12-18 2017-12-18 年龄判别模型训练及智能语音交互方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108281138A true CN108281138A (zh) 2018-07-13
CN108281138B CN108281138B (zh) 2020-03-31

Family

ID=62801734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711365962.7A Active CN108281138B (zh) 2017-12-18 2017-12-18 年龄判别模型训练及智能语音交互方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108281138B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377229A (zh) * 2019-06-24 2019-10-25 北京百度网讯科技有限公司 数据分析方法、装置、计算机设备及存储介质
CN110619889A (zh) * 2019-09-19 2019-12-27 Oppo广东移动通信有限公司 体征数据识别方法、装置、电子设备和存储介质
CN110648672A (zh) * 2019-09-05 2020-01-03 深圳追一科技有限公司 人物图像生成方法、交互方法、装置及终端设备
CN111179915A (zh) * 2019-12-30 2020-05-19 苏州思必驰信息科技有限公司 基于语音的年龄识别方法及装置
CN111179944A (zh) * 2020-01-03 2020-05-19 达闼科技成都有限公司 语音唤醒及年龄检测方法、装置及计算机可读存储介质
CN111933148A (zh) * 2020-06-29 2020-11-13 厦门快商通科技股份有限公司 基于卷神经网络的年龄识别方法、装置及终端
CN112002346A (zh) * 2020-08-20 2020-11-27 深圳市卡牛科技有限公司 基于语音的性别年龄识别方法、装置、设备和存储介质
CN113192510A (zh) * 2020-12-29 2021-07-30 云从科技集团股份有限公司 实现语音年龄和/或性别识别服务的方法、系统及介质
CN114157899A (zh) * 2021-12-03 2022-03-08 北京奇艺世纪科技有限公司 一种分级投屏方法、装置、可读存储介质及电子设备
US11908453B2 (en) 2021-02-10 2024-02-20 Direct Cursus Technology L.L.C Method and system for classifying a user of an electronic device

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040362A1 (en) * 2006-03-30 2008-02-14 Sony France S.A. Hybrid audio-visual categorization system and method
CN103151039A (zh) * 2013-02-07 2013-06-12 中国科学院自动化研究所 一种基于向量机svm的说话者年龄段识别方法
CN103310788A (zh) * 2013-05-23 2013-09-18 北京云知声信息技术有限公司 一种语音信息识别方法及系统
CN104700843A (zh) * 2015-02-05 2015-06-10 海信集团有限公司 一种年龄识别的方法及装置
CN105895105A (zh) * 2016-06-06 2016-08-24 北京云知声信息技术有限公司 语音处理方法及装置
CN106887225A (zh) * 2017-03-21 2017-06-23 百度在线网络技术(北京)有限公司 基于卷积神经网络的声学特征提取方法、装置和终端设备
CN107170457A (zh) * 2017-06-29 2017-09-15 深圳市泰衡诺科技有限公司 年龄识别方法、装置及终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040362A1 (en) * 2006-03-30 2008-02-14 Sony France S.A. Hybrid audio-visual categorization system and method
CN103151039A (zh) * 2013-02-07 2013-06-12 中国科学院自动化研究所 一种基于向量机svm的说话者年龄段识别方法
CN103310788A (zh) * 2013-05-23 2013-09-18 北京云知声信息技术有限公司 一种语音信息识别方法及系统
CN104700843A (zh) * 2015-02-05 2015-06-10 海信集团有限公司 一种年龄识别的方法及装置
CN105895105A (zh) * 2016-06-06 2016-08-24 北京云知声信息技术有限公司 语音处理方法及装置
CN106887225A (zh) * 2017-03-21 2017-06-23 百度在线网络技术(北京)有限公司 基于卷积神经网络的声学特征提取方法、装置和终端设备
CN107170457A (zh) * 2017-06-29 2017-09-15 深圳市泰衡诺科技有限公司 年龄识别方法、装置及终端

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377229A (zh) * 2019-06-24 2019-10-25 北京百度网讯科技有限公司 数据分析方法、装置、计算机设备及存储介质
CN110377229B (zh) * 2019-06-24 2023-04-25 北京百度网讯科技有限公司 数据分析方法、装置、计算机设备及存储介质
CN110648672A (zh) * 2019-09-05 2020-01-03 深圳追一科技有限公司 人物图像生成方法、交互方法、装置及终端设备
CN110619889B (zh) * 2019-09-19 2022-03-15 Oppo广东移动通信有限公司 体征数据识别方法、装置、电子设备和存储介质
CN110619889A (zh) * 2019-09-19 2019-12-27 Oppo广东移动通信有限公司 体征数据识别方法、装置、电子设备和存储介质
CN111179915A (zh) * 2019-12-30 2020-05-19 苏州思必驰信息科技有限公司 基于语音的年龄识别方法及装置
CN111179944B (zh) * 2020-01-03 2022-11-08 达闼机器人股份有限公司 语音唤醒及年龄检测方法、装置及计算机可读存储介质
CN111179944A (zh) * 2020-01-03 2020-05-19 达闼科技成都有限公司 语音唤醒及年龄检测方法、装置及计算机可读存储介质
CN111933148A (zh) * 2020-06-29 2020-11-13 厦门快商通科技股份有限公司 基于卷神经网络的年龄识别方法、装置及终端
CN112002346A (zh) * 2020-08-20 2020-11-27 深圳市卡牛科技有限公司 基于语音的性别年龄识别方法、装置、设备和存储介质
CN113192510A (zh) * 2020-12-29 2021-07-30 云从科技集团股份有限公司 实现语音年龄和/或性别识别服务的方法、系统及介质
CN113192510B (zh) * 2020-12-29 2024-04-30 云从科技集团股份有限公司 实现语音年龄和/或性别识别服务的方法、系统及介质
US11908453B2 (en) 2021-02-10 2024-02-20 Direct Cursus Technology L.L.C Method and system for classifying a user of an electronic device
CN114157899A (zh) * 2021-12-03 2022-03-08 北京奇艺世纪科技有限公司 一种分级投屏方法、装置、可读存储介质及电子设备

Also Published As

Publication number Publication date
CN108281138B (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
CN108281138A (zh) 年龄判别模型训练及智能语音交互方法、设备及存储介质
CN110838286B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
US20210233521A1 (en) Method for speech recognition based on language adaptivity and related apparatus
CN107507612B (zh) 一种声纹识别方法及装置
JP7062851B2 (ja) 声紋の作成・登録の方法及び装置
CN110853618B (zh) 一种语种识别的方法、模型训练的方法、装置及设备
CN107481720B (zh) 一种显式声纹识别方法及装置
CN107221320A (zh) 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN107180628A (zh) 建立声学特征提取模型的方法、提取声学特征的方法、装置
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN107134279A (zh) 一种语音唤醒方法、装置、终端和存储介质
CN108595443A (zh) 同声翻译方法、装置、智能车载终端及存储介质
JP7213943B2 (ja) 車載機器の音声処理方法、装置、機器及び記憶媒体
CN108133707A (zh) 一种内容分享方法及系统
CN107545029A (zh) 智能设备的语音反馈方法、设备及可读介质
CN102404278A (zh) 一种基于声纹识别的点歌系统及其应用方法
CN110348002A (zh) 实现语音请求的系统和方法
CN110444206A (zh) 语音交互方法及装置、计算机设备与可读介质
CN110972112B (zh) 地铁运行方向的确定方法、装置、终端及存储介质
CN111081280A (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN107221344A (zh) 一种语音情感迁移方法
CN109063624A (zh) 信息处理方法、系统、电子设备和计算机可读存储介质
CN107045867A (zh) 自动作曲方法、装置和终端设备
CN108492819A (zh) 语言练习方法、装置、智能车载终端及存储介质
CN108681398A (zh) 基于虚拟人的视觉交互方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210511

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Patentee after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.