CN112002306B - 语音类别的识别方法、装置、电子设备及可读存储介质 - Google Patents

语音类别的识别方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112002306B
CN112002306B CN202010867251.5A CN202010867251A CN112002306B CN 112002306 B CN112002306 B CN 112002306B CN 202010867251 A CN202010867251 A CN 202010867251A CN 112002306 B CN112002306 B CN 112002306B
Authority
CN
China
Prior art keywords
voice
sentence
sample
recognized
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010867251.5A
Other languages
English (en)
Other versions
CN112002306A (zh
Inventor
谷姗姗
纪诚
刘斌彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Insurance Group Co Ltd
Original Assignee
Sunshine Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Insurance Group Co Ltd filed Critical Sunshine Insurance Group Co Ltd
Priority to CN202010867251.5A priority Critical patent/CN112002306B/zh
Publication of CN112002306A publication Critical patent/CN112002306A/zh
Application granted granted Critical
Publication of CN112002306B publication Critical patent/CN112002306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种语音类别的识别方法、装置、电子设备及可读存储介质,所述识别方法包括:将获取到的待识别语音转换为相应的待识别语句;确定所述待识别语句在每个特征维度下对应的语句特征;基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵;将所述多维特征矩阵输入至训练好的分类模型中,确定出所述待识别语音所属类别。这样,在确定待识别语音的所属类别时,可以充分利用待识别语音在每个特征维度下的特征,使得表征待识别语音的特征更加丰富,有助于提高待识别语音的类别识别结果的准确性,从而可以根据待识别语音的类别更加准确地确定出客户的呼入目的。

Description

语音类别的识别方法、装置、电子设备及可读存储介质
技术领域
本申请涉及文本处理技术领域,尤其是涉及一种语音类别的识别方法、装置、电子设备及可读存储介质。
背景技术
随着科学技术的不断发展,人们生活水平的逐渐提高,企业为了保证自己的服务质量,会为人们提供相应的咨询以及投诉等服务,通常情况下用户可以通过致电的方式来咨询自己想要询问的问题。但是,随着一个企业的逐渐发展,企业客户的数量逐渐增多,以致电方式进行咨询的用户也就越来越多。
目前,当客户拨打电话咨询时,为了减少人工成本,通常会利用自然语言处理(Natural Language Processing,NLP)技术代替客服服务,解答客户提出的相关问题,NLP技术是通过从客户的语音中识别出关键词信息来确定用户的呼入目的,但是经常会因为客户的发音不准确,而无法准确地识别出客户的呼入目的。因此,如何准确地确定出客户的呼入目的,将客户快速、准确导航到对应自助服务流程中,成为了亟待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种语音类别的识别方法、装置、电子设备及可读存储介质,可以充分利用待识别语音在每个特征维度下的特征,使得表征待识别语音的特征更加丰富,有助于提高待识别语音的类别识别结果的准确性,从而可以根据待识别语音的类别更加准确地确定出客户的呼入目的。
本申请实施例提供了一种语音类别的识别方法,所述识别方法包括:
将获取到的待识别语音转换为相应的待识别语句;
确定所述待识别语句在每个特征维度下对应的语句特征;
基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵;
将所述多维特征矩阵输入至训练好的分类模型中,确定出所述待识别语音所属类别。
进一步的,所述基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵,包括:
将确定出的每个语句特征转换为相应的语句特征向量;
将得到的多个语句特征向量按照每两个语句特征之间的关联关系,构建所述待识别语句对应的多维特征矩阵。
进一步的,通过以下步骤训练所述分类模型:
获取多个样本识别语音,以及每个样本识别语音对应的真实类别标签;
针对于每个样本识别语音,将所述样本识别语音转换为相应的样本识别语句;
确定所述样本识别语句在每个特征维度下对应的样本特征;
基于确定出的多个样本特征,构建所述样本识别语音的多维样本矩阵;
将每个样本识别语音的多维样本矩阵作为输入特征,将每个样本识别语音对应的真实类别标签作为输出特征,训练构建好的卷积神经网络,得到训练好的分类模型。
进一步的,所述将每个样本识别语音的多维样本矩阵作为输入特征,将每个样本识别语音对应的真实类别标签作为输出特征,训练构建好的卷积神经网络,得到训练好的分类模型,包括:
将每个样本识别语音的多维样本矩阵输入至构建好的卷积神经网络中,得到每个样本识别语音的预测类别标签;
基于每个样本识别语音的预测类别标签以及每个样本识别语音对应的真实类别标签,确定所述卷积神经网络的损失值;
当所述损失值到达预设阈值时,确定所述卷积神经网络训练完毕,得到训练好的分类模型。
进一步的,所述语句特征包括字特征、拼音特征以及音调特征。
本申请实施例还提供了一种语音类别的识别装置,所述识别装置包括:
转换模块,用于将获取到的待识别语音转换为相应的待识别语句;
特征确定模块,用于确定所述待识别语句在每个特征维度下对应的语句特征;
矩阵构建模块,用于基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵;
类别确定模块,用于将所述多维特征矩阵输入至训练好的分类模型中,确定出所述待识别语音所属类别。
进一步的,所述矩阵构建模块在用于基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵时,所述矩阵构建模块用于:
将确定出的每个语句特征转换为相应的语句特征向量;
将得到的多个语句特征向量按照每两个语句特征之间的关联关系,构建所述待识别语句对应的多维特征矩阵。
进一步的,所述识别装置还包括模型训练模块,所述模型训练模块用于:
获取多个样本识别语音,以及每个样本识别语音对应的真实类别标签;
针对于每个样本识别语音,将所述样本识别语音转换为相应的样本识别语句;
确定所述样本识别语句在每个特征维度下对应的样本特征;
基于确定出的多个样本特征,构建所述样本识别语音的多维样本矩阵;
将每个样本识别语音的多维样本矩阵作为输入特征,将每个样本识别语音对应的真实类别标签作为输出特征,训练构建好的卷积神经网络,得到训练好的分类模型。
进一步的,所述模型训练模块在用于将每个样本识别语音的多维样本矩阵作为输入特征,将每个样本识别语音对应的真实类别标签作为输出特征,训练构建好的卷积神经网络,得到训练好的分类模型时,所述模型训练模块用于:
将每个样本识别语音的多维样本矩阵输入至构建好的卷积神经网络中,得到每个样本识别语音的预测类别标签;
基于每个样本识别语音的预测类别标签以及每个样本识别语音对应的真实类别标签,确定所述卷积神经网络的损失值;
当所述损失值到达预设阈值时,确定所述卷积神经网络训练完毕,得到训练好的分类模型。
进一步的,所述语句特征包括字特征、拼音特征以及音调特征。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的语音类别的识别方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述的语音类别的识别方法的步骤。
本申请实施例提供的语音类别的识别方法,将获取到的待识别语音转换为相应的待识别语句;确定所述待识别语句在每个特征维度下对应的语句特征;基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵;将所述多维特征矩阵输入至训练好的分类模型中,确定出所述待识别语音所属类别。
这样,本申请通过将获取到的待识别语音转换为相应的待识别语句,确定出待识别语句在每个特征维度下的语句特征,并基于确定出的待识别语音的语句特征,构建出待识别语音对应的多维特征矩阵,再将构建出的多维特征向量输入至训练好的分类模型中,确定出待识别语音所属类别。从而与现有的语音类别识别技术相比,本申请通过提取不同特征维度下的语句特征,使得构建出的待识别语音对应的多维特征矩阵中包括有更多的语句特征,因此,在确定待识别语音的类别时,可以充分利用待识别语音在每个特征维度下的特征,有助于提高待识别语音的类别识别结果的准确性,从而可以根据待识别语音的类别更加准确地确定出客户的呼入目的。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种语音类别的识别方法的流程图;
图2为本申请另一实施例提供的一种语音类别的识别方法的流程图;
图3为本申请实施例所提供的一种语音类别的识别装置的结构示意图之一;
图4为本申请实施例所提供的一种语音类别的识别装置的结构示意图之二;
图5为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于文本处理技术领域。将获取到的待识别语音转换为相应的待识别语句,确定出待识别语句在每个特征维度下的语句特征,基于确定出的语句特征,构建出待识别语音对应的多维特征矩阵,并将构建出的多维特征向量输入至训练好的分类模型中,确定出待识别语音所属类别,可以采用更加丰富的特征标识待识别语音,有助于提高待识别语音分类的准确性。
经研究发现,目前,当客户拨打电话咨询时,为了减少人工成本,通常会利用自然语言处理(Natural Language Processing,NLP)技术代替客服服务,解答客户提出的相关问题,NLP技术是通过从客户的语音中识别出关键词信息来确定用户的呼入目的,但是经常会因为客户的发音不准确,而无法准确的识别出客户的呼入目的。因此,如何准确的确定出客户的呼入目的,将客户快速、准确导航到对应自助服务流程中,成为了亟待解决的问题。
基于此,本申请实施例提供了一种语音类别的识别方法,可以充分利用待识别语音在每个特征维度下的特征,有助于提高待识别语音类别识别结果的准确性。
请参阅图1,图1为本申请实施例所提供的一种语音类别的识别方法的流程图。如图1中所示,本申请实施例提供的语音类别的识别方法,包括:
S101、将获取到的待识别语音转换为相应的待识别语句。
该步骤中,当有需要进行分类的待识别语音时,将获取到的待识别语音转换为相应的待识别语句。
这里,待识别语音可以为普通话语音或者方言语音中的任意一种或多种。
这样,无论是普通话语音或者是方言语音均可以被转换为相应的语句,用于后续的语音类别识别过程中。
S102、确定所述待识别语句在每个特征维度下对应的语句特征。
该步骤中,在将待识别语音转换为相应的待识别语句之后,确定出待识别语句在每个特征维度下对应的语句特征。
其中,语句特征可以包括字特征、拼音特征以及音调特征等。
示例性的,以“我爱北京天安门”为例,确定出其对应的字特征“我-爱-北-京-天-安-门”;还可以确定出其对应的拼音特征“wo-ai-bei-jing-tian-an-men”;还可以确定出其对应的音调特征“wo4-ai4-bei3-jing1-tian1-an1-men2”。
S103、基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵。
该步骤中,在确定出多个语句特征后,基于确定出的多个语句特征,构建待识别语音的多维特征矩阵。
这样,在确定待识别语音对应的类别时能够考虑待识别语音的多个维度的特征,从而可以增加分类结果的准确性。
S104、将所述多维特征矩阵输入至训练好的分类模型中,确定出所述待识别语音所属类别。
该步骤中,将构建得到的待识别语音对应的多维特征矩阵输入至训练好的分类模型中,确定出待识别语音所属类别。
本申请实施例提供的语音类别的识别方法,将获取到的待识别语音转换为相应的待识别语句;确定所述待识别语句在每个特征维度下对应的语句特征;基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵;将所述多维特征矩阵输入至训练好的分类模型中,确定出所述待识别语音所属类别。
这样,本申请通过将获取到的待识别语音转换为相应的待识别语句,确定出待识别语句在每个特征维度下的语句特征,并基于确定出的待识别语音的语句特征,构建出待识别语音对应的多维特征矩阵,再将构建出的多维特征向量输入至训练好的分类模型中,确定出待识别语音所属类别,从而与现有的语音类别识别技术相比,本申请通过提取不同特征维度下的语句特征,使得构建出的待识别语音对应的多维特征矩阵中包括有更多的语句特征,因此,在确定待识别语音的类别时,可以充分利用待识别语音在每个特征维度下的特征,有助于提高待识别语音的类别识别结果的准确性,从而可以根据待识别语音的类别更加准确地确定出客户的呼入目的。
请参阅图2,图2为本申请另一实施例提供的一种语音类别的识别方法的流程图。如图2中所示,本申请实施例提供的语音类别的识别方法,包括:
S201、将获取到的待识别语音转换为相应的待识别语句。
S202、确定所述待识别语句在每个特征维度下对应的语句特征。
S203、将确定出的每个语句特征转换为相应的语句特征向量。
该步骤中,在确定出待识别语句在每个特征维度下的语句特征后,将每个语句特征转换为相应的语句特征向量。
对应于上述实施例,在确定出对应的字特征“我-爱-北-京-天-安-门”、对应的拼音特征“wo-ai-bei-jing-tian-an-men”、以及对应的音调特征“wo4-ai4-bei3-jing1-tian1-an1-men2”之后,分别将字特征“我-爱-北-京-天-安-门”转换为相应的语句特征向量[a1、b1、c1、d1、e1、f1、g1],将拼音特征“wo-ai-bei-jing-tian-an-men”转换为相应的语句特征向量[a2、b2、c2、d2、e2、f2、g2],以及将音调特征“wo4-ai4-bei3-jing1-tian1-an1-men2”转换为相应的语句特征向量[a3、b3、c3、d3、e3、f3、g3]。
S204、将得到的多个语句特征向量按照每两个语句特征之间的关联关系,构建所述待识别语句对应的多维特征矩阵。
该步骤中,将转换得到的多个语句特征向量,按照预先设置的每两个语句特征之间的关联关系,构建待识别语句对应的多维特征矩阵。
对应于上述实施例,在确定出字特征对应的语句特征向量[a1、b1、c1、d1、e1、f1、g1],拼音特征对应的语句特征向量[a2、b2、c2、d2、e2、f2、g2],以及音调特征对应的语句特征向量[a3、b3、c3、d3、e3、f3、g3]之后,按照语句特征之间的关联关系,例如,首先,需要从待识别语句中确定出字特征,其次,才能够基于字特征确定出待识别语句的拼音特征,最后,再根据拼音特征确定出待识别语句的音调特征,因此,在构建待识别语音对应的多维特征矩阵时,字特征对应的语句特征向量可以作为多维特征矩阵中的第一行向量,拼音特征对应的语句特征向量可以作为多维特征矩阵中的第二行向量,音调特征对应的语句特征向量可以作为多维特征矩阵中的第三行向量,即构建出的多维特征矩阵为
值得注意的是,本申请中构建多维特征矩阵时所采用的方法为非拼接的方式,即构建出的多维特征矩阵为m行n列,且m与n均为大于1的正整数。
这样,本申请可以采用更丰富的特征表示待识别语句,也就是说采用更丰富的特征表示待识别语音,有助于提高文本分类的准确率。
S205、将所述多维特征矩阵输入至训练好的分类模型中,确定出所述待识别语音所属类别。
其中,S201、S202以及S205的描述可以参照S101、S102以及S104的描述,并且能达到相同的技术效果,对此不做赘述。
进一步的,通过以下步骤训练所述分类模型:获取多个样本识别语音,以及每个样本识别语音对应的真实类别标签;针对于每个样本识别语音,将所述样本识别语音转换为相应的样本识别语句;确定所述样本识别语句在每个特征维度下对应的样本特征;基于确定出的多个样本特征,构建所述样本识别语音的多维样本矩阵;将每个样本识别语音的多维样本矩阵作为输入特征,将每个样本识别语音对应的真实类别标签作为输出特征,训练构建好的卷积神经网络,得到训练好的分类模型。
该步骤中,获取多个样本识别语音,以及每个样本识别语音对应的真实类别标签;针对于获取到的每个样本识别语音,将该样本识别语音转换为相应的样本识别语句;并确定出每个样本识别语句在每个特征维度下对应的样本特征;基于确定出的样本识别语音的多个样本特征,构建样本识别语音对应的多维样本矩阵,将构建得到的每个样本识别语音对应的多维样本矩阵作为输入特征,以及将每个样本识别语音对应的真实类别标签作为输出特征,训练构建好的卷积神经网络,得到训练好的分类模型。
进一步的,所述将每个样本识别语音的多维样本矩阵作为输入特征,将每个样本识别语音对应的真实类别标签作为输出特征,训练构建好的卷积神经网络,得到训练好的分类模型,包括:将每个样本识别语音的多维样本矩阵输入至构建好的卷积神经网络中,得到每个样本识别语音的预测类别标签;基于每个样本识别语音的预测类别标签以及每个样本识别语音对应的真实类别标签,确定所述卷积神经网络的损失值;当所述损失值到达预设阈值时,确定所述卷积神经网络训练完毕,得到训练好的分类模型。
该步骤中,将构建出的每个样本识别语音的多维样本矩阵输入至构建好的卷积神经网络中,得到每个样本识别语音的预测类别标签;再基于每个样本识别语音的预测类别标签,以及每个样本识别语音的真实类别标签,确定出卷积神经网络的损失值;当损失值达到预设阈值时,确定卷积神经网络训练完毕,得到训练好的分类模型。
若卷积神经网络的损失值未达到预设阈值,则使用样本识别语音重新训练卷积神经网络,直至卷积神经网络的损失值到达预设阈值为止。
其中,卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。它包括卷积层(convolutional layer)和池化层(pooling layer),首先,经过若干卷积层对每个样本识别语音对应的多维样本矩阵进行卷积处理,提取出相应的特征图;再将提取出的特征图输入至池化层,进行特征图压缩,以减少网络计算的复杂度;最后,将得到的特征图输入至分类器(例如,softmax等)进行分类处理,得到每个样本识别语音的预测类别标签。
本申请实施例提供的语音类别的识别方法,将获取到的待识别语音转换为相应的待识别语句;确定所述待识别语句在每个特征维度下对应的语句特征;将确定出的每个语句特征转换为相应的语句特征向量;将得到的多个语句特征向量按照每两个语句特征之间的关联关系,构建所述待识别语句对应的多维特征矩阵;将所述多维特征矩阵输入至训练好的分类模型中,确定出所述待识别语音所属类别。
这样,本申请通过将获取到的待识别语音转换为相应的待识别语句,确定出待识别语句在每个特征维度下的语句特征,并基于确定出的待识别语音的语句特征按照每两个语句特征之间的关联关系,构建出待识别语音对应的多维特征矩阵,再将构建出的多维特征向量输入至训练好的分类模型中,确定出待识别语音所属类别,从而与现有的语音类别识别技术相比,本申请通过提取不同特征维度下的语句特征,使得构建出的待识别语音对应的多维特征矩阵中包括有更多的语句特征,因此,在确定待识别语音的类别时,可以充分利用待识别语音在每个特征维度下的特征,有助于提高待识别语音的类别识别结果的准确性,从而可以根据待识别语音的类别更加准确地确定出客户的呼入目的。
请参阅图3、图4,图3为本申请实施例所提供的一种语音类别的识别装置的结构示意图之一,图4为本申请实施例所提供的一种语音类别的识别装置的结构示意图之二。如图3中所示,所述识别装置300包括:
转换模块310,用于将获取到的待识别语音转换为相应的待识别语句;
特征确定模块320,用于确定所述待识别语句在每个特征维度下对应的语句特征;
矩阵构建模块330,用于基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵;
类别确定模块340,用于将所述多维特征矩阵输入至训练好的分类模型中,确定出所述待识别语音所属类别。
进一步的,如图4所示,所述识别装置300还包括模型训练模块350,所述模型训练模块350用于:
获取多个样本识别语音,以及每个样本识别语音对应的真实类别标签;
针对于每个样本识别语音,将所述样本识别语音转换为相应的样本识别语句;
确定所述样本识别语句在每个特征维度下对应的样本特征;
基于确定出的多个样本特征,构建所述样本识别语音的多维样本矩阵;
将每个样本识别语音的多维样本矩阵作为输入特征,将每个样本识别语音对应的真实类别标签作为输出特征,训练构建好的卷积神经网络,得到训练好的分类模型。
进一步的,所述矩阵构建模块330在用于基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵时,所述矩阵构建模块330用于:
将确定出的每个语句特征转换为相应的语句特征向量;
将得到的多个语句特征向量按照每两个语句特征之间的关联关系,构建所述待识别语句对应的多维特征矩阵。
进一步的,所述模型训练模块350在用于将每个样本识别语音的多维样本矩阵作为输入特征,将每个样本识别语音对应的真实类别标签作为输出特征,训练构建好的卷积神经网络,得到训练好的分类模型时,所述模型训练模块350用于:
将每个样本识别语音的多维样本矩阵输入至构建好的卷积神经网络中,得到每个样本识别语音的预测类别标签;
基于每个样本识别语音的预测类别标签以及每个样本识别语音对应的真实类别标签,确定所述卷积神经网络的损失值;
当所述损失值到达预设阈值时,确定所述卷积神经网络训练完毕,得到训练好的分类模型。
进一步的,所述语句特征包括字特征、拼音特征以及音调特征。
本申请实施例提供的语音类别的识别装置,将获取到的待识别语音转换为相应的待识别语句;确定所述待识别语句在每个特征维度下对应的语句特征;基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵;将所述多维特征矩阵输入至训练好的分类模型中,确定出所述待识别语音所属类别。
这样,本申请通过将获取到的待识别语音转换为相应的待识别语句,确定出待识别语句在每个特征维度下的语句特征,并基于确定出的待识别语音的语句特征,构建出待识别语音对应的多维特征矩阵,再将构建出的多维特征向量输入至训练好的分类模型中,确定出待识别语音所属类别,从而与现有的语音类别识别技术相比,本申请通过提取不同特征维度下的语句特征,使得构建出的待识别语音对应的多维特征矩阵中包括有更多的语句特征,因此,在确定待识别语音的类别时,可以充分利用待识别语音在每个特征维度下的特征,有助于提高待识别语音的类别识别结果的准确性,从而可以根据待识别语音的类别更加准确地确定出客户的呼入目的。
请参阅图5,图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图1以及图2所示方法实施例中的语音类别的识别方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的语音类别的识别方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种语音类别的识别方法,其特征在于,所述识别方法包括:
将获取到的待识别语音转换为相应的待识别语句;
确定所述待识别语句在每个特征维度下对应的语句特征;其中,所述语句特征包括字特征、拼音特征以及音调特征;
基于确定出的多个所述语句特征,按照每两个语句特征之间的关联关系,构建所述待识别语音的多维特征矩阵;
将所述多维特征矩阵输入至训练好的分类模型中,确定出所述待识别语音所属类别。
2.根据权利要求1所述的识别方法,其特征在于,所述基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵,包括:
将确定出的每个语句特征转换为相应的语句特征向量;
将得到的多个语句特征向量按照每两个语句特征之间的关联关系,构建所述待识别语句对应的多维特征矩阵。
3.根据权利要求1所述的识别方法,其特征在于,通过以下步骤训练所述分类模型:
获取多个样本识别语音,以及每个样本识别语音对应的真实类别标签;
针对于每个样本识别语音,将所述样本识别语音转换为相应的样本识别语句;
确定所述样本识别语句在每个特征维度下对应的样本特征;
基于确定出的多个样本特征,构建所述样本识别语音的多维样本矩阵;
将每个样本识别语音的多维样本矩阵作为输入特征,将每个样本识别语音对应的真实类别标签作为输出特征,训练构建好的卷积神经网络,得到训练好的分类模型。
4.根据权利要求3所述的识别方法,其特征在于,所述将每个样本识别语音的多维样本矩阵作为输入特征,将每个样本识别语音对应的真实类别标签作为输出特征,训练构建好的卷积神经网络,得到训练好的分类模型,包括:
将每个样本识别语音的多维样本矩阵输入至构建好的卷积神经网络中,得到每个样本识别语音的预测类别标签;
基于每个样本识别语音的预测类别标签以及每个样本识别语音对应的真实类别标签,确定所述卷积神经网络的损失值;
当所述损失值到达预设阈值时,确定所述卷积神经网络训练完毕,得到训练好的分类模型。
5.一种语音类别的识别装置,其特征在于,所述识别装置包括:
转换模块,用于将获取到的待识别语音转换为相应的待识别语句;
特征确定模块,用于确定所述待识别语句在每个特征维度下对应的语句特征;其中,所述语句特征包括字特征、拼音特征以及音调特征;
矩阵构建模块,用于基于确定出的多个所述语句特征,按照每两个语句特征之间的关联关系,构建所述待识别语音的多维特征矩阵;
类别确定模块,用于将所述多维特征矩阵输入至训练好的分类模型中,确定出所述待识别语音所属类别。
6.根据权利要求5所述的识别装置,其特征在于,所述矩阵构建模块在用于基于确定出的多个所述语句特征,构建所述待识别语音的多维特征矩阵时,所述矩阵构建模块用于:
将确定出的每个语句特征转换为相应的语句特征向量;
将得到的多个语句特征向量按照每两个语句特征之间的关联关系,构建所述待识别语句对应的多维特征矩阵。
7.根据权利要求5所述的识别装置,其特征在于,所述识别装置还包括模型训练模块,所述模型训练模块用于:
获取多个样本识别语音,以及每个样本识别语音对应的真实类别标签;
针对于每个样本识别语音,将所述样本识别语音转换为相应的样本识别语句;
确定所述样本识别语句在每个特征维度下对应的样本特征;
基于确定出的多个样本特征,构建所述样本识别语音的多维样本矩阵;
将每个样本识别语音的多维样本矩阵作为输入特征,将每个样本识别语音对应的真实类别标签作为输出特征,训练构建好的卷积神经网络,得到训练好的分类模型。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至4中任一项所述的语音类别的识别方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至4中任一项所述的语音类别的识别方法的步骤。
CN202010867251.5A 2020-08-26 2020-08-26 语音类别的识别方法、装置、电子设备及可读存储介质 Active CN112002306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010867251.5A CN112002306B (zh) 2020-08-26 2020-08-26 语音类别的识别方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010867251.5A CN112002306B (zh) 2020-08-26 2020-08-26 语音类别的识别方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112002306A CN112002306A (zh) 2020-11-27
CN112002306B true CN112002306B (zh) 2024-04-05

Family

ID=73471886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010867251.5A Active CN112002306B (zh) 2020-08-26 2020-08-26 语音类别的识别方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112002306B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223502B (zh) * 2021-04-28 2024-01-30 平安科技(深圳)有限公司 语音识别系统优化方法、装置、设备及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6131089A (en) * 1998-05-04 2000-10-10 Motorola, Inc. Pattern classifier with training system and methods of operation therefor
JP2006201265A (ja) * 2005-01-18 2006-08-03 Matsushita Electric Ind Co Ltd 音声認識装置
CN107452371A (zh) * 2017-05-27 2017-12-08 北京字节跳动网络技术有限公司 一种语音分类模型的构建方法及装置
CN108986789A (zh) * 2018-09-12 2018-12-11 携程旅游信息技术(上海)有限公司 语音识别方法、装置、存储介质及电子设备
CN109949798A (zh) * 2019-01-03 2019-06-28 刘伯涵 基于音频的广告检测方法以及装置
CN110288980A (zh) * 2019-06-17 2019-09-27 平安科技(深圳)有限公司 语音识别方法、模型的训练方法、装置、设备及存储介质
CN110765772A (zh) * 2019-10-12 2020-02-07 北京工商大学 拼音作为特征的中文语音识别后的文本神经网络纠错模型
CN111081223A (zh) * 2019-12-31 2020-04-28 广州市百果园信息技术有限公司 一种语音识别方法、装置、设备和存储介质
CN111583911A (zh) * 2020-04-30 2020-08-25 深圳市优必选科技股份有限公司 基于标签平滑的语音识别方法、装置、终端及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6131089A (en) * 1998-05-04 2000-10-10 Motorola, Inc. Pattern classifier with training system and methods of operation therefor
JP2006201265A (ja) * 2005-01-18 2006-08-03 Matsushita Electric Ind Co Ltd 音声認識装置
CN107452371A (zh) * 2017-05-27 2017-12-08 北京字节跳动网络技术有限公司 一种语音分类模型的构建方法及装置
CN108986789A (zh) * 2018-09-12 2018-12-11 携程旅游信息技术(上海)有限公司 语音识别方法、装置、存储介质及电子设备
CN109949798A (zh) * 2019-01-03 2019-06-28 刘伯涵 基于音频的广告检测方法以及装置
CN110288980A (zh) * 2019-06-17 2019-09-27 平安科技(深圳)有限公司 语音识别方法、模型的训练方法、装置、设备及存储介质
CN110765772A (zh) * 2019-10-12 2020-02-07 北京工商大学 拼音作为特征的中文语音识别后的文本神经网络纠错模型
CN111081223A (zh) * 2019-12-31 2020-04-28 广州市百果园信息技术有限公司 一种语音识别方法、装置、设备和存储介质
CN111583911A (zh) * 2020-04-30 2020-08-25 深圳市优必选科技股份有限公司 基于标签平滑的语音识别方法、装置、终端及介质

Also Published As

Publication number Publication date
CN112002306A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN110428820B (zh) 一种中英文混合语音识别方法及装置
CN111339278B (zh) 训练话术生成模型、生成应答话术的方法和装置
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
WO2021114841A1 (zh) 一种用户报告的生成方法及终端设备
KR20200119410A (ko) 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법
CN113240510B (zh) 异常用户预测方法、装置、设备及存储介质
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN111695338A (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN114328817A (zh) 一种文本处理方法和装置
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN113435208B (zh) 学生模型的训练方法、装置及电子设备
CN112002306B (zh) 语音类别的识别方法、装置、电子设备及可读存储介质
CN111241843A (zh) 基于复合神经网络的语义关系推断系统和方法
CN111400489B (zh) 对话文本摘要生成方法、装置、电子设备和存储介质
CN110782221A (zh) 一种面试智能评测系统及方法
CN114913871A (zh) 目标对象分类方法、系统、电子设备及存储介质
CN113823271A (zh) 语音分类模型的训练方法、装置、计算机设备及存储介质
CN112149389A (zh) 简历信息结构化处理方法、装置、计算机设备和存储介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN116521875B (zh) 引入群体情绪感染的原型增强小样本对话情感识别方法
CN117453895B (zh) 一种智能客服应答方法、装置、设备及可读存储介质
CN111507085B (zh) 句型识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant