CN110570853A - 基于语音数据的意图识别方法和装置 - Google Patents

基于语音数据的意图识别方法和装置 Download PDF

Info

Publication number
CN110570853A
CN110570853A CN201910738953.0A CN201910738953A CN110570853A CN 110570853 A CN110570853 A CN 110570853A CN 201910738953 A CN201910738953 A CN 201910738953A CN 110570853 A CN110570853 A CN 110570853A
Authority
CN
China
Prior art keywords
feature extraction
voice data
extraction layer
data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910738953.0A
Other languages
English (en)
Inventor
王雅芳
龙翀
张晓彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910738953.0A priority Critical patent/CN110570853A/zh
Publication of CN110570853A publication Critical patent/CN110570853A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供一种基于语音数据的意图识别方法和装置。方法包括:获取用户与机器人客服交互的语音数据,以及语音数据经过转换后的文本数据;至少对语音数据进行时频转换处理,得到语音数据对应的频谱数据;将频谱数据输入第一特征提取层,通过第一特征提取层输出第一特征表示;将文本数据输入第二特征提取层,通过第二特征提取层输出第二特征表示;对第一特征表示和第二特征表示,采取注意力机制进行整合得到综合特征表示;将综合特征表示输入第三特征提取层,通过第三特征提取层输出语音数据的意图类别,意图类别用于指示语音数据所表示的用户意图。能够提高基于语音数据的意图识别的准确性。

Description

基于语音数据的意图识别方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及基于语音数据的意图识别方法和装置。
背景技术
在机器人客服回答用户问题时,常常会涉及到针对用户问句的分类。例如,确定用户问句对应的标准问句,以便由机器人客服提供该标准问句对应的答案。其中,标准问句也称为标准问题,是根据业务整理的一些用户可能问的问题。每个问题有一个问题标识。通常地,可以通过用户的语音数据获取上述用户问句。用户的语音数据可能具有不同的意图,例如,在多轮对话场景下,用户的语音数据用于对上一轮输入的信息继续补充信息;或者,用户的语音数据用于确认机器人客服提供的标准问题。意图识别是根据用户的语音数据,来判断用户的交互动作意图。机器人客服依靠意图识别的结果来执行下一步的处理。
现有技术中,基于语音数据的意图识别方法得到的意图识别的结果都不够准确,导致后续的处理不符合用户述求,用户体验不佳。
因此,希望能有改进的方案,能够提高基于语音数据的意图识别的准确性。
发明内容
本说明书一个或多个实施例描述了一种基于语音数据的意图识别方法和装置,能够提高基于语音数据的意图识别的准确性。
第一方面,提供了一种基于语音数据的意图识别方法,方法包括:
获取用户与机器人客服交互的语音数据,以及所述语音数据经过转换后的文本数据;
至少对所述语音数据进行时频转换处理,得到所述语音数据对应的频谱数据;
将所述频谱数据输入第一特征提取层,通过所述第一特征提取层输出第一特征表示;
将所述文本数据输入第二特征提取层,通过所述第二特征提取层输出第二特征表示;
对所述第一特征表示和所述第二特征表示,采取注意力机制进行整合得到综合特征表示;
将所述综合特征表示输入第三特征提取层,通过所述第三特征提取层输出所述语音数据的意图类别,所述意图类别用于指示所述语音数据所表示的用户意图。
在一种可能的实施方式中,所述至少对所述语音数据进行时频转换处理,得到所述语音数据对应的频谱数据,包括:
对所述语音数据进行语音边界检测,以从所述语音数据里识别和消除静音片段,得到所述语音数据的各有效片段;
对所述各有效片段进行时频转换处理,得到所述语音数据对应的频谱数据。
进一步地,所述对所述各有效片段进行时频转换处理,得到所述语音数据对应的频谱数据,包括:
将所述各有效片段进行分帧处理,得到多个帧;
将所述多个帧中各帧对应的时域信号分别转换为各帧对应的频域信号;
基于人的听觉特征提取所述各帧对应的频域信号的特征参数集合,所述特征参数集合作为所述语音数据对应的频谱数据。
进一步地,所述基于人的听觉特征提取所述各帧对应的频域信号的特征参数集合,所述特征参数集合作为所述语音数据对应的频谱数据,包括:
针对所述各帧对应的频域信号中目标频域信号,计算预先配置的三角形滤波器组中各个三角形滤波器对所述目标频域信号滤波后的输出信号;
分别确定各所述三角形滤波器的输出信号分别对应的对数能量;
对所述各对数能量分别进行离散余弦变换,得到所述目标频域信号的特征参数集合,所述各帧对应的频域信号的特征参数集合作为所述语音数据对应的频谱数据。
进一步地,所述频谱数据为所述各帧对应的特征参数集合组成的矩阵;所述第一特征提取层包括卷积神经网络(convolutional neural networks,CNN)。
在一种可能的实施方式中,所述将所述文本数据输入第二特征提取层,通过所述第二特征提取层输出第二特征表示,包括:
获取所述文本数据中的各个字符对应的字符嵌入向量;
至少将各个字符对应的字符嵌入向量输入所述第二特征提取层,通过所述第二特征提取层输出第二特征表示。
进一步地,所述至少将各个字符对应的字符嵌入向量输入所述第二特征提取层,包括:
获取所述各个字符的位置嵌入向量,和/或获取所述各个字符所在词的词性嵌入向量;
对所述字符嵌入向量与所述位置嵌入向量和/或所述词性嵌入向量进行综合处理后输入所述第二特征提取层。
进一步地,所述至少将各个字符对应的字符嵌入向量输入所述第二特征提取层,包括:
至少对各个字符对应的所述字符嵌入向量进行拼接处理,得到嵌入矩阵;
将所述嵌入矩阵输入所述第二特征提取层。
进一步地,所述第二特征提取层包括卷积神经网络CNN。
在一种可能的实施方式中,所述第三特征提取层包括卷积神经网络CNN。
在一种可能的实施方式中,所述意图类别用于指示所述语音数据所表示的用户意图为用户提供信息;
所述方法还包括:
确定所述语音数据对应的标准问题。
在一种可能的实施方式中,所述意图类别用于指示所述语音数据所表示的用户意图为用户确认机器人客服提供的标准问题。
在一种可能的实施方式中,所述意图类别用于指示所述语音数据所表示的用户意图为用户否认机器人客服提供的标准问题;
所述方法还包括:
获取用户与机器人客服进行交互的轮数;
当所述轮数小于预设阈值时,确定所述语音数据对应的标准问题。
进一步地,所述方法还包括:
当所述轮数大于或等于所述预设阈值时,确定所述语音数据对应的人工客服技能组类别。
第二方面,提供了一种基于语音数据的意图识别装置,装置包括:
获取单元,用于获取用户与机器人客服交互的语音数据,以及所述语音数据经过转换后的文本数据;
转换单元,用于至少对所述获取单元获取的语音数据进行时频转换处理,得到所述语音数据对应的频谱数据;
第一特征提取单元,用于将所述转换单元得到的频谱数据输入第一特征提取层,通过所述第一特征提取层输出第一特征表示;
第二特征提取单元,用于将所述获取单元获取的文本数据输入第二特征提取层,通过所述第二特征提取层输出第二特征表示;
整合单元,用于对所述第一特征提取单元输出的所述第一特征表示和所述第二特征提取单元输出的所述第二特征表示,采取注意力机制进行整合得到综合特征表示;
第三特征提取单元,用于将所述整合单元得到的所述综合特征表示输入第三特征提取层,通过所述第三特征提取层输出所述语音数据的意图类别,所述意图类别用于指示所述语音数据所表示的用户意图。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先获取用户与机器人客服交互的语音数据,以及所述语音数据经过转换后的文本数据;然后至少对所述语音数据进行时频转换处理,得到所述语音数据对应的频谱数据;接着将所述频谱数据输入第一特征提取层,通过所述第一特征提取层输出第一特征表示;再将所述文本数据输入第二特征提取层,通过所述第二特征提取层输出第二特征表示;再然后对所述第一特征表示和所述第二特征表示,采取注意力机制进行整合得到综合特征表示;最后将所述综合特征表示输入第三特征提取层,通过所述第三特征提取层输出所述语音数据的意图类别,所述意图类别用于指示所述语音数据所表示的用户意图。由上可见,本说明书实施例,采用了语音数据和转换后的文本数据相结合进行意图识别,由于语音数据转换为文本数据的过程中会引入一定的识别噪音,单纯采用文本数据意图识别的结果不准确,语音数据不包含语义信息,单纯采用语义数据意图识别的结果也不准确,将二者相结合能够提高基于语音数据的意图识别的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的机器人客服与用户的交互过程示意图;
图3示出根据一个实施例的基于语音数据的意图识别方法流程图;
图4示出根据一个实施例的意图识别模型的结构示意图;
图5示出根据一个实施例的基于语音数据的意图识别装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及基于语音数据的意图识别。可以理解的是,当接收到用户输入的语音数据后,可以先识别该语音数据对应的意图类别,然后根据意图识别的结果来执行下一步的处理。
本说明书实施例中,可以预先设定如下的多个意图类别:
GREETING:打招呼,比如说“喂,您好”等
HANG_UP:对应的文本是沉默(silence)
MANUAL:寻求人工服务
MANUAL_OTHER:寻求人工服务并提供额外信息(一般是描述自己的问题或在哪方面遇到了错误等)
NO:用户否定系统的猜问
NO_MANUAL:用户否定系统的猜问并寻求人工服务
NO_OTHER:用户否定系统的猜问并提供额外信息(一般是进一步描述自己的问题)
OTHER:用户提供信息(一般是描述自己的问题或在哪方面遇到了错误等)
SILENCE:用户沉默
UNKNOWN:未识别用户的意图
YES:用户肯定系统的猜问
YES_MANUAL:用户肯定系统的猜问并寻求人工服务
YES_OTHER:用户肯定系统的猜问并提供额外信息(一般是重述或进一步描述自己的问题)
空值:用户动作存在空值,需要分析,待补充。
可以理解的是,上述多个意图类别的划分仅为举例说明,实际应用中可以划分为更少的类别,例如,将后续机器人客服会执行同一交互行为的多个意图类别归为一个意图类别;或者,当出现新增的机器人客服执行的交互行为时,对应增加相应的意图类别。
参照图1,在用户与机器人客服的多轮对话中,根据用户首次输入的语音数据,确定的意图类别为前述OTHER,也就是说,用户提供信息,根据意图识别的结果,可以进一步确定该语音数据对应的标准问题;根据用户第二轮输入的语音数据,确定的意图类别为前述NO_OTHER,也就是说,用户否定系统的猜问并提供额外信息,根据意图识别的结果,可以进一步确定该语音数据对应的标准问题;根据用户第三轮输入的语音数据,确定的意图类别为前述YES,也就是说,用户肯定系统的猜问,根据意图识别的结果,可以将第二轮对话中猜测的标准问题展示给用户,也就是说,将标准问句2及相应的答案展示给用户。
可以理解的是,通过提高意图识别的准确性,有助于客服系统与用户的交互更为顺畅,提升用户体验。
图2示出根据一个实施例的机器人客服与用户的交互过程示意图。本说明书实施例,用户输入语音数据,机器人客服确定该语音数据的意图类别,并根据该意图类别确定下一步的交互。参照图2,该交互过程包括:
步骤21,引导描述。也就是说,在用户拨通电话之后,机器人客服引导用户描述问题。
例如,在图1所示的应用场景中,机器人客服可以输出“请简单描述一下您的问题”类似的引导描述。
步骤22,用户描述。可以理解的是,用户描述可以体现不同的意图,例如,打招呼,或者,用户提供信息等。
例如,在图1所示的应用场景中,用户可以通过语音输出用户问句1。
本说明书实施例,根据用户描述,识别出用户的意图为用户提供信息,则执行步骤23。其中,可以采用意图识别模型来识别出用户的意图。
步骤23,猜问题。也就是说,根据用户描述猜测用户问题。
其中,可以采用猜问题模型猜测用户问题。
可以理解的是,用户对系统给出的问题,会给出肯定或否定,或者其他反馈。
步骤24,用户确认描述。
本说明书实施例,根据用户描述,识别出用户的意图为用户确认描述,也就是说,用户肯定了问题,则结束交互。
步骤25,用户否认描述。
本说明书实施例,根据用户描述,识别出用户的意图为用户否认描述,也就是说,用户否定了问题,则继续根据用户描述猜问题。
其中,可以预先设定机器人客服与用户之间的交互轮数的阈值,例如,设定该阈值为4,4轮交互之后结束交互.
可以理解的是,上述交互过程中,步骤21和步骤23为机器人客服的描述,步骤22、步骤24和步骤25为用户描述,并且,步骤22、步骤24和步骤25中用户描述分属不同的意图类别。
需要说明的是,上述交互过程涉及多轮交互场景,针对每轮用户描述,均需要进行意图识别,各轮意图识别的结果可能相同,也可能不同。其中,用户描述具体为语音数据。
图3示出根据一个实施例的基于语音数据的意图识别方法流程图,该方法可以基于图1所示的应用场景。如图3所示,该实施例中基于语音数据的意图识别方法包括以下步骤:步骤31,获取用户与机器人客服交互的语音数据,以及所述语音数据经过转换后的文本数据;步骤32,至少对所述语音数据进行时频转换处理,得到所述语音数据对应的频谱数据;步骤33,将所述频谱数据输入第一特征提取层,通过所述第一特征提取层输出第一特征表示;步骤34,将所述文本数据输入第二特征提取层,通过所述第二特征提取层输出第二特征表示;步骤35,对所述第一特征表示和所述第二特征表示,采取注意力机制进行整合得到综合特征表示;步骤36,将所述综合特征表示输入第三特征提取层,通过所述第三特征提取层输出所述语音数据的意图类别,所述意图类别用于指示所述语音数据所表示的用户意图。下面描述以上各个步骤的具体执行方式。
首先在步骤31,获取用户与机器人客服交互的语音数据,以及所述语音数据经过转换后的文本数据。可以理解的是,用户与机器人客服交互时,通过语音的方式输出用户描述,因此可以获取用户的语音数据。此外,还可以利用语音识别技术,获取所述语音数据经过转换后的文本数据。
然后在步骤32,至少对所述语音数据进行时频转换处理,得到所述语音数据对应的频谱数据。可以理解的是,通过获取语音数据对应的频谱数据,能够更易于提取语音数据的特征。
本说明书实施例,上述频谱数据具体可以为频谱图,或者,频域信号的特征参数集合。
在一个示例中,对所述语音数据进行语音边界检测,以从所述语音数据里识别和消除静音片段,得到所述语音数据的各有效片段;对所述各有效片段进行时频转换处理,得到所述语音数据对应的频谱数据。
可以理解的是,因为语音数据是一种信号,具体可以将其称为音频信号。原始的音频信号通常由于人类发声器官或者语音采集设备所带来的静音片段、混叠、噪声、高次谐波失真等因素,一定程度上会对语音信号质量产生影响。所以需要对音频信号进行预处理。最初始的预处理工作就是静音切除,也叫语音激活检测(voice activity detection,VAD)或者语音边界检测。目的是从音频信号里识别和消除长时间的静音片段,在截取出来的有效片段上进行后续处理会很大程度上降低静音片段带来的干扰。此外,还可以采用其他的音频预处理技术。
进一步地,将所述各有效片段进行分帧处理,得到多个帧;将所述多个帧中各帧对应的时域信号分别转换为各帧对应的频域信号;基于人的听觉特征提取所述各帧对应的频域信号的特征参数集合,所述特征参数集合作为所述语音数据对应的频谱数据。
进一步地,针对所述各帧对应的频域信号中目标频域信号,计算预先配置的三角形滤波器组中各个三角形滤波器对所述目标频域信号滤波后的输出信号;分别确定各所述三角形滤波器的输出信号分别对应的对数能量;对所述各对数能量分别进行离散余弦变换,得到所述目标频域信号的特征参数集合,所述各帧对应的频域信号的特征参数集合作为所述语音数据对应的频谱数据。
可以理解的是,音频信号中通常包含着非常丰富的特征参数,不同的特征向量表征着不同的声学意义,从音频信号中选择有效的音频表征的过程就是语音特征提取。在一个示例中,可以提取梅尔频率倒谱系数(mel-scalefrequency cepstral coefficients,MFCC)作为语音特征,其中MFCC特征是基于人的听觉特征提取出来的特征参数,是对人耳听觉的特征表征。MFCC主要由预加重、分帧、加窗、快速傅里叶变换(fast Fouriertransform,FFT)、梅尔滤波器组、离散余弦变换几部分组成,其中FFT与梅尔滤波器组是MFCC中重要的部分。
接着在步骤33,将所述频谱数据输入第一特征提取层,通过所述第一特征提取层输出第一特征表示。可以理解的是,所述频谱数据的具体形式可以为矩阵或向量,所述第一特征提取层可以包括卷积神经网络(convolutional neural networks,CNN)或其他类型的神经网络。
在一个示例中,所述频谱数据为所述各帧对应的特征参数集合组成的矩阵;所述第一特征提取层包括卷积神经网络CNN。
再在步骤34,将所述文本数据输入第二特征提取层,通过所述第二特征提取层输出第二特征表示。可以理解的是,所述文本数据的具体形式可以为矩阵或向量,所述第二特征提取层可以包括CNN或其他类型的神经网络。
在一个示例中,获取所述文本数据中的各个字符对应的字符嵌入向量;至少将各个字符对应的字符嵌入向量输入所述第二特征提取层,通过所述第二特征提取层输出第二特征表示。
进一步地,获取所述各个字符的位置嵌入向量,和/或获取所述各个字符所在词的词性嵌入向量;对所述字符嵌入向量与所述位置嵌入向量和/或所述词性嵌入向量进行综合处理后输入所述第二特征提取层。
进一步地,至少对各个字符对应的所述字符嵌入向量进行拼接处理,得到嵌入矩阵;将所述嵌入矩阵输入所述第二特征提取层。
进一步地,所述第二特征提取层包括卷积神经网络CNN。
可以理解的是,本说明书实施例中,在获取语音数据转换后的文本数据后,可以先对文本数据进行文本预处理,然后再将经过文本预处理后的文本数据输入第二特征提取层。在一个示例中,上述文本预处理过程,先针对一段用户说的话的每个字符转化成字符嵌入向量(charembedding),该字符嵌入向量可以是Bert或XLNet等预训练模型训练的嵌入向量(embedding)。之后再将字符嵌入向量经过CNN或循环神经网络(recurrent neuralnetworks,RNN)或Bert等模型得到文本嵌入向量。CNN或Bert模型是将字符嵌入向量拼成矩阵作为模型的输入。RNN模型是将各字符嵌入向量分别作为每个单元的输入。同时还可以获取各字符的位置嵌入向量(positional embedding)、或字所在词的词性嵌入向量,将字符嵌入向量、位置嵌入向量和词性嵌入向量进行拼接或相加后,作为模型的输入,得到文本嵌入向量。
其中,上述位置嵌入向量可以使用transformer模型的位置嵌入向量的公式,在此不做赘述。
再然后在步骤35,对所述第一特征表示和所述第二特征表示,采取注意力机制进行整合得到综合特征表示。
本说明书实施例,注意力机制具体可以采取多种运算方式,比如可以是点积、乘法或加法等。
最后在步骤36,将所述综合特征表示输入第三特征提取层,通过所述第三特征提取层输出所述语音数据的意图类别,所述意图类别用于指示所述语音数据所表示的用户意图。可以理解的是,所述综合特征表示的具体形式可以为矩阵或向量,所述第三特征提取层可以包括CNN或其他类型的神经网络。
在一个示例中,所述第三特征提取层包括卷积神经网络CNN。
参照图1对应的场景描述,可以预先设定多个意图类别,步骤36中会从多个意图类别中确定出所述语音数据的意图类别。
在一个示例中,步骤36确定的所述意图类别用于指示所述语音数据所表示的用户意图为用户提供信息;所述方法还包括:确定所述语音数据对应的标准问题。
在另一个示例中,步骤36确定的所述意图类别用于指示所述语音数据所表示的用户意图为用户确认机器人客服提供的标准问题;所述方法还包括:确定结束交互。
在另一个示例中,步骤36确定的所述意图类别用于指示所述语音数据所表示的用户意图为用户否认机器人客服提供的标准问题;所述方法还包括:获取用户与机器人客服进行交互的轮数;当所述轮数小于预设阈值时,确定所述语音数据对应的标准问题;或者,当所述轮数大于或等于所述预设阈值时,确定所述语音数据对应的人工客服技能组类别。
通过本说明书实施例提供的方法,首先获取用户与机器人客服交互的语音数据,以及所述语音数据经过转换后的文本数据;然后至少对所述语音数据进行时频转换处理,得到所述语音数据对应的频谱数据;接着将所述频谱数据输入第一特征提取层,通过所述第一特征提取层输出第一特征表示;再将所述文本数据输入第二特征提取层,通过所述第二特征提取层输出第二特征表示;再然后对所述第一特征表示和所述第二特征表示,采取注意力机制进行整合得到综合特征表示;最后将所述综合特征表示输入第三特征提取层,通过所述第三特征提取层输出所述语音数据的意图类别,所述意图类别用于指示所述语音数据所表示的用户意图。由上可见,本说明书实施例,采用了语音数据和转换后的文本数据相结合进行意图识别,由于语音数据转换为文本数据的过程中会引入一定的识别噪音,单纯采用文本数据意图识别的结果不准确,语音数据不包含语义信息,单纯采用语义数据意图识别的结果也不准确,将二者相结合能够提高基于语音数据的意图识别的准确性。
图4示出根据一个实施例的意图识别模型的结构示意图。该意图识别模型用于将用户的语音数据和语音数据转换后的文本数据作为输入,输出该语音数据的意图类别。参照图4,将语音数据做预处理之后跟文本数据的嵌入向量,分别通过若干层CNN,再经过一个注意力(attention)层,再经过若干层CNN,最后再输出softmax分类的结构。其中,上述若干层具体可以为多层。文本数据除了经过CNN,也可以经过RNN、长短期记忆网络(long short-term memory,LSTM)、门控循环单元(gated recurrent unit,GRU)、双向LSTM或双向GRU等。注意力层具体可以采取多种运算方式,比如可以包括点积、乘法或加法等。
根据另一方面的实施例,还提供一种基于语音数据的意图识别装置,该装置用于执行本说明书实施例提供的基于语音数据的意图识别方法。图5示出根据一个实施例的基于语音数据的意图识别装置的示意性框图。如图5所示,该装置500包括:
获取单元51,用于获取用户与机器人客服交互的语音数据,以及所述语音数据经过转换后的文本数据;
转换单元52,用于至少对所述获取单元51获取的语音数据进行时频转换处理,得到所述语音数据对应的频谱数据;
第一特征提取单元53,用于将所述转换单元52得到的频谱数据输入第一特征提取层,通过所述第一特征提取层输出第一特征表示;
第二特征提取单元54,用于将所述获取单元51获取的文本数据输入第二特征提取层,通过所述第二特征提取层输出第二特征表示;
整合单元55,用于对所述第一特征提取单元53输出的所述第一特征表示和所述第二特征提取单元54输出的所述第二特征表示,采取注意力机制进行整合得到综合特征表示;
第三特征提取单元56,用于将所述整合单元55得到的所述综合特征表示输入第三特征提取层,通过所述第三特征提取层输出所述语音数据的意图类别,所述意图类别用于指示所述语音数据所表示的用户意图。
可选地,作为一个实施例,所述转换单元52,包括:
预处理子单元,用于对所述获取单元51获取的语音数据进行语音边界检测,以从所述语音数据里识别和消除静音片段,得到所述语音数据的各有效片段;
第一特征提取子单元,用于对所述预处理子单元得到的各有效片段进行时频转换处理,得到所述语音数据对应的频谱数据。
进一步地,所述第一特征提取子单元,包括:
分帧模块,用于将所述各有效片段进行分帧处理,得到多个帧;
转换模块,用于将所述分帧模块得到的多个帧中各帧对应的时域信号分别转换为各帧对应的频域信号;
特征提取模块,用于基于人的听觉特征提取所述转换模块得到的各帧对应的频域信号的特征参数集合,所述特征参数集合作为所述语音数据对应的频谱数据。
进一步地,所述特征提取模块,具体用于:
针对所述各帧对应的频域信号中目标频域信号,计算预先配置的三角形滤波器组中各个三角形滤波器对所述目标频域信号滤波后的输出信号;
分别确定各所述三角形滤波器的输出信号分别对应的对数能量;
对所述各对数能量分别进行离散余弦变换,得到所述目标频域信号的特征参数集合,所述各帧对应的频域信号的特征参数集合作为所述语音数据对应的频谱数据。
进一步地,所述频谱数据为所述各帧对应的特征参数集合组成的矩阵;所述第一特征提取层包括卷积神经网络CNN。
可选地,作为一个实施例,所述第二特征提取单元54,包括:
获取子单元,用于获取所述文本数据中的各个字符对应的字符嵌入向量;
第二特征提取子单元,用于至少将所述获取子单元获取的各个字符对应的字符嵌入向量输入所述第二特征提取层,通过所述第二特征提取层输出第二特征表示。
进一步地,所述第二特征提取子单元,具体用于:
获取所述各个字符的位置嵌入向量,和/或获取所述各个字符所在词的词性嵌入向量;
对所述字符嵌入向量与所述位置嵌入向量和/或所述词性嵌入向量进行综合处理后输入所述第二特征提取层。
进一步地,所述第二特征提取子单元,具体用于:
至少对各个字符对应的所述字符嵌入向量进行拼接处理,得到嵌入矩阵;
将所述嵌入矩阵输入所述第二特征提取层。
进一步地,所述第二特征提取层包括卷积神经网络CNN。
可选地,作为一个实施例,所述第三特征提取层包括卷积神经网络CNN。
可选地,作为一个实施例,所述第三特征提取单元56输出的意图类别用于指示所述语音数据所表示的用户意图为用户提供信息;
所述装置还包括:
第一确定单元,用于确定所述语音数据对应的标准问题。
可选地,作为一个实施例,所述第三特征提取单元56输出的意图类别用于指示所述语音数据所表示的用户意图为用户确认机器人客服提供的标准问题;
所述装置还包括:
第二确定单元,用于确定结束交互。
可选地,作为一个实施例,所述第三特征提取单元56输出的意图类别用于指示所述语音数据所表示的用户意图为用户否认机器人客服提供的标准问题;
所述获取单元51,还用于获取用户与机器人客服进行交互的轮数;
所述装置还包括:
第三确定单元,用于当所述获取单元51获取的轮数小于预设阈值时,确定所述语音数据对应的标准问题。
进一步地,所述装置还包括:
第四确定单元,用于当所述获取单元51获取的轮数大于或等于所述预设阈值时,确定所述语音数据对应的人工客服技能组类别。
通过本说明书实施例提供的装置,首先获取单元51获取用户与机器人客服交互的语音数据,以及所述语音数据经过转换后的文本数据;然后转换单元52至少对所述语音数据进行时频转换处理,得到所述语音数据对应的频谱数据;接着第一特征提取单元53将所述频谱数据输入第一特征提取层,通过所述第一特征提取层输出第一特征表示;再由第二特征提取单元54将所述文本数据输入第二特征提取层,通过所述第二特征提取层输出第二特征表示;再然后由整合单元55对所述第一特征表示和所述第二特征表示,采取注意力机制进行整合得到综合特征表示;最后第三特征提取单元56将所述综合特征表示输入第三特征提取层,通过所述第三特征提取层输出所述语音数据的意图类别,所述意图类别用于指示所述语音数据所表示的用户意图。由上可见,本说明书实施例,采用了语音数据和转换后的文本数据相结合进行意图识别,由于语音数据转换为文本数据的过程中会引入一定的识别噪音,单纯采用文本数据意图识别的结果不准确,语音数据不包含语义信息,单纯采用语义数据意图识别的结果也不准确,将二者相结合能够提高基于语音数据的意图识别的准确性。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (30)

1.一种基于语音数据的意图识别方法,所述方法包括:
获取用户与机器人客服交互的语音数据,以及所述语音数据经过转换后的文本数据;
至少对所述语音数据进行时频转换处理,得到所述语音数据对应的频谱数据;
将所述频谱数据输入第一特征提取层,通过所述第一特征提取层输出第一特征表示;
将所述文本数据输入第二特征提取层,通过所述第二特征提取层输出第二特征表示;
对所述第一特征表示和所述第二特征表示,采取注意力机制进行整合得到综合特征表示;
将所述综合特征表示输入第三特征提取层,通过所述第三特征提取层输出所述语音数据的意图类别,所述意图类别用于指示所述语音数据所表示的用户意图。
2.如权利要求1所述的方法,其中,所述至少对所述语音数据进行时频转换处理,得到所述语音数据对应的频谱数据,包括:
对所述语音数据进行语音边界检测,以从所述语音数据里识别和消除静音片段,得到所述语音数据的各有效片段;
对所述各有效片段进行时频转换处理,得到所述语音数据对应的频谱数据。
3.如权利要求2所述的方法,其中,所述对所述各有效片段进行时频转换处理,得到所述语音数据对应的频谱数据,包括:
将所述各有效片段进行分帧处理,得到多个帧;
将所述多个帧中各帧对应的时域信号分别转换为各帧对应的频域信号;
基于人的听觉特征提取所述各帧对应的频域信号的特征参数集合,所述特征参数集合作为所述语音数据对应的频谱数据。
4.如权利要求3所述的方法,其中,所述基于人的听觉特征提取所述各帧对应的频域信号的特征参数集合,所述特征参数集合作为所述语音数据对应的频谱数据,包括:
针对所述各帧对应的频域信号中目标频域信号,计算预先配置的三角形滤波器组中各个三角形滤波器对所述目标频域信号滤波后的输出信号;
分别确定各所述三角形滤波器的输出信号分别对应的对数能量;
对所述各对数能量分别进行离散余弦变换,得到所述目标频域信号的特征参数集合,所述各帧对应的频域信号的特征参数集合作为所述语音数据对应的频谱数据。
5.如权利要求4所述的方法,其中,所述频谱数据为所述各帧对应的特征参数集合组成的矩阵;所述第一特征提取层包括卷积神经网络CNN。
6.如权利要求1所述的方法,其中,所述将所述文本数据输入第二特征提取层,通过所述第二特征提取层输出第二特征表示,包括:
获取所述文本数据中的各个字符对应的字符嵌入向量;
至少将各个字符对应的字符嵌入向量输入所述第二特征提取层,通过所述第二特征提取层输出第二特征表示。
7.如权利要求6所述的方法,其中,所述至少将各个字符对应的字符嵌入向量输入所述第二特征提取层,包括:
获取所述各个字符的位置嵌入向量,和/或获取所述各个字符所在词的词性嵌入向量;
对所述字符嵌入向量与所述位置嵌入向量和/或所述词性嵌入向量进行综合处理后输入所述第二特征提取层。
8.如权利要求6所述的方法,其中,所述至少将各个字符对应的字符嵌入向量输入所述第二特征提取层,包括:
至少对各个字符对应的所述字符嵌入向量进行拼接处理,得到嵌入矩阵;
将所述嵌入矩阵输入所述第二特征提取层。
9.如权利要求8所述的方法,其中,所述第二特征提取层包括卷积神经网络CNN。
10.如权利要求1或9所述的方法,其中,所述第三特征提取层包括卷积神经网络CNN。
11.如权利要求1所述的方法,其中,所述意图类别用于指示所述语音数据所表示的用户意图为用户提供信息;
所述方法还包括:
确定所述语音数据对应的标准问题。
12.如权利要求1所述的方法,其中,所述意图类别用于指示所述语音数据所表示的用户意图为用户确认机器人客服提供的标准问题;
所述方法还包括:
确定结束交互。
13.如权利要求1所述的方法,其中,所述意图类别用于指示所述语音数据所表示的用户意图为用户否认机器人客服提供的标准问题;
所述方法还包括:
获取用户与机器人客服进行交互的轮数;
当所述轮数小于预设阈值时,确定所述语音数据对应的标准问题。
14.如权利要求13所述的方法,其中,所述方法还包括:
当所述轮数大于或等于所述预设阈值时,确定所述语音数据对应的人工客服技能组类别。
15.一种基于语音数据的意图识别装置,所述装置包括:
获取单元,用于获取用户与机器人客服交互的语音数据,以及所述语音数据经过转换后的文本数据;
转换单元,用于至少对所述获取单元获取的语音数据进行时频转换处理,得到所述语音数据对应的频谱数据;
第一特征提取单元,用于将所述转换单元得到的频谱数据输入第一特征提取层,通过所述第一特征提取层输出第一特征表示;
第二特征提取单元,用于将所述获取单元获取的文本数据输入第二特征提取层,通过所述第二特征提取层输出第二特征表示;
整合单元,用于对所述第一特征提取单元输出的所述第一特征表示和所述第二特征提取单元输出的所述第二特征表示,采取注意力机制进行整合得到综合特征表示;
第三特征提取单元,用于将所述整合单元得到的所述综合特征表示输入第三特征提取层,通过所述第三特征提取层输出所述语音数据的意图类别,所述意图类别用于指示所述语音数据所表示的用户意图。
16.如权利要求15所述的装置,其中,所述转换单元,包括:
预处理子单元,用于对所述获取单元获取的语音数据进行语音边界检测,以从所述语音数据里识别和消除静音片段,得到所述语音数据的各有效片段;
第一特征提取子单元,用于对所述预处理子单元得到的各有效片段进行时频转换处理,得到所述语音数据对应的频谱数据。
17.如权利要求16所述的装置,其中,所述第一特征提取子单元,包括:
分帧模块,用于将所述各有效片段进行分帧处理,得到多个帧;
转换模块,用于将所述分帧模块得到的多个帧中各帧对应的时域信号分别转换为各帧对应的频域信号;
特征提取模块,用于基于人的听觉特征提取所述转换模块得到的各帧对应的频域信号的特征参数集合,所述特征参数集合作为所述语音数据对应的频谱数据。
18.如权利要求17所述的装置,其中,所述特征提取模块,具体用于:
针对所述各帧对应的频域信号中目标频域信号,计算预先配置的三角形滤波器组中各个三角形滤波器对所述目标频域信号滤波后的输出信号;
分别确定各所述三角形滤波器的输出信号分别对应的对数能量;
对所述各对数能量分别进行离散余弦变换,得到所述目标频域信号的特征参数集合,所述各帧对应的频域信号的特征参数集合作为所述语音数据对应的频谱数据。
19.如权利要求18所述的装置,其中,所述频谱数据为所述各帧对应的特征参数集合组成的矩阵;所述第一特征提取层包括卷积神经网络CNN。
20.如权利要求15所述的装置,其中,所述第二特征提取单元,包括:
获取子单元,用于获取所述文本数据中的各个字符对应的字符嵌入向量;
第二特征提取子单元,用于至少将所述获取子单元获取的各个字符对应的字符嵌入向量输入所述第二特征提取层,通过所述第二特征提取层输出第二特征表示。
21.如权利要求20所述的装置,其中,所述第二特征提取子单元,具体用于:
获取所述各个字符的位置嵌入向量,和/或获取所述各个字符所在词的词性嵌入向量;
对所述字符嵌入向量与所述位置嵌入向量和/或所述词性嵌入向量进行综合处理后输入所述第二特征提取层。
22.如权利要求20所述的装置,其中,所述第二特征提取子单元,具体用于:
至少对各个字符对应的所述字符嵌入向量进行拼接处理,得到嵌入矩阵;
将所述嵌入矩阵输入所述第二特征提取层。
23.如权利要求22所述的装置,其中,所述第二特征提取层包括卷积神经网络CNN。
24.如权利要求15或23所述的装置,其中,所述第三特征提取层包括卷积神经网络CNN。
25.如权利要求15所述的装置,其中,所述第三特征提取单元输出的意图类别用于指示所述语音数据所表示的用户意图为用户提供信息;
所述装置还包括:
第一确定单元,用于确定所述语音数据对应的标准问题。
26.如权利要求15所述的装置,其中,所述第三特征提取单元输出的意图类别用于指示所述语音数据所表示的用户意图为用户确认机器人客服提供的标准问题;
所述装置还包括:
第二确定单元,用于确定结束交互。
27.如权利要求15所述的装置,其中,所述第三特征提取单元输出的意图类别用于指示所述语音数据所表示的用户意图为用户否认机器人客服提供的标准问题;
所述获取单元,还用于获取用户与机器人客服进行交互的轮数;
所述装置还包括:
第三确定单元,用于当所述获取单元获取的轮数小于预设阈值时,确定所述语音数据对应的标准问题。
28.如权利要求27所述的装置,其中,所述装置还包括:
第四确定单元,用于当所述获取单元获取的轮数大于或等于所述预设阈值时,确定所述语音数据对应的人工客服技能组类别。
29.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-14中任一项的所述的方法。
30.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-14中任一项的所述的方法。
CN201910738953.0A 2019-08-12 2019-08-12 基于语音数据的意图识别方法和装置 Pending CN110570853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910738953.0A CN110570853A (zh) 2019-08-12 2019-08-12 基于语音数据的意图识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910738953.0A CN110570853A (zh) 2019-08-12 2019-08-12 基于语音数据的意图识别方法和装置

Publications (1)

Publication Number Publication Date
CN110570853A true CN110570853A (zh) 2019-12-13

Family

ID=68775089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910738953.0A Pending CN110570853A (zh) 2019-08-12 2019-08-12 基于语音数据的意图识别方法和装置

Country Status (1)

Country Link
CN (1) CN110570853A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544472A (zh) * 2019-09-29 2019-12-06 上海依图信息技术有限公司 提升使用cnn网络结构的语音任务的性能的方法
CN111462752A (zh) * 2020-04-01 2020-07-28 北京思特奇信息技术股份有限公司 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN111506292A (zh) * 2020-04-15 2020-08-07 苏州思必驰信息科技有限公司 用于人机对话的语音技能跳转方法、电子设备及存储介质
CN111833849A (zh) * 2020-03-10 2020-10-27 北京嘀嘀无限科技发展有限公司 语音识别和语音模型训练的方法及存储介质和电子设备
CN111883115A (zh) * 2020-06-17 2020-11-03 马上消费金融股份有限公司 语音流程质检的方法及装置
CN112289299A (zh) * 2020-10-21 2021-01-29 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN113704432A (zh) * 2021-08-31 2021-11-26 广州方舟信息科技有限公司 一种基于互联网医院的人工智能客服系统构建方法及装置
CN113822020A (zh) * 2021-11-22 2021-12-21 湖北亿咖通科技有限公司 文本处理方法、设备、存储介质及程序产品
CN114913845A (zh) * 2021-02-09 2022-08-16 北京小米移动软件有限公司 语音识别方法、语音识别模型的训练方法和装置
CN115938365A (zh) * 2023-03-09 2023-04-07 广州小鹏汽车科技有限公司 语音交互方法、车辆及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745722A (zh) * 2014-02-10 2014-04-23 上海金牌软件开发有限公司 一种语音交互智能家居系统及语音交互方法
CN108829667A (zh) * 2018-05-28 2018-11-16 南京柯基数据科技有限公司 一种基于记忆网络的多轮对话下的意图识别方法
CN109036382A (zh) * 2018-08-15 2018-12-18 武汉大学 一种基于kl散度的音频特征提取方法
CN109741751A (zh) * 2018-12-11 2019-05-10 上海交通大学 面向智能语音控制的意图识别方法及装置
KR20190080234A (ko) * 2017-12-28 2019-07-08 포항공과대학교 산학협력단 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
CN110110062A (zh) * 2019-04-30 2019-08-09 贝壳技术有限公司 机器智能问答方法、装置与电子设备
CN110110059A (zh) * 2019-05-20 2019-08-09 挂号网(杭州)科技有限公司 一种基于深度学习的医疗对话系统意图识别分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745722A (zh) * 2014-02-10 2014-04-23 上海金牌软件开发有限公司 一种语音交互智能家居系统及语音交互方法
KR20190080234A (ko) * 2017-12-28 2019-07-08 포항공과대학교 산학협력단 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
CN108829667A (zh) * 2018-05-28 2018-11-16 南京柯基数据科技有限公司 一种基于记忆网络的多轮对话下的意图识别方法
CN109036382A (zh) * 2018-08-15 2018-12-18 武汉大学 一种基于kl散度的音频特征提取方法
CN109741751A (zh) * 2018-12-11 2019-05-10 上海交通大学 面向智能语音控制的意图识别方法及装置
CN110110062A (zh) * 2019-04-30 2019-08-09 贝壳技术有限公司 机器智能问答方法、装置与电子设备
CN110110059A (zh) * 2019-05-20 2019-08-09 挂号网(杭州)科技有限公司 一种基于深度学习的医疗对话系统意图识别分类方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544472A (zh) * 2019-09-29 2019-12-06 上海依图信息技术有限公司 提升使用cnn网络结构的语音任务的性能的方法
CN111833849A (zh) * 2020-03-10 2020-10-27 北京嘀嘀无限科技发展有限公司 语音识别和语音模型训练的方法及存储介质和电子设备
CN111833849B (zh) * 2020-03-10 2024-06-11 北京嘀嘀无限科技发展有限公司 语音识别和语音模型训练的方法及存储介质和电子设备
CN111462752A (zh) * 2020-04-01 2020-07-28 北京思特奇信息技术股份有限公司 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN111462752B (zh) * 2020-04-01 2023-10-13 北京思特奇信息技术股份有限公司 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN111506292A (zh) * 2020-04-15 2020-08-07 苏州思必驰信息科技有限公司 用于人机对话的语音技能跳转方法、电子设备及存储介质
CN111883115A (zh) * 2020-06-17 2020-11-03 马上消费金融股份有限公司 语音流程质检的方法及装置
CN112289299B (zh) * 2020-10-21 2024-05-14 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112289299A (zh) * 2020-10-21 2021-01-29 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN114913845A (zh) * 2021-02-09 2022-08-16 北京小米移动软件有限公司 语音识别方法、语音识别模型的训练方法和装置
CN114913845B (zh) * 2021-02-09 2024-05-24 北京小米移动软件有限公司 语音识别方法、语音识别模型的训练方法和装置
CN113704432A (zh) * 2021-08-31 2021-11-26 广州方舟信息科技有限公司 一种基于互联网医院的人工智能客服系统构建方法及装置
CN113822020A (zh) * 2021-11-22 2021-12-21 湖北亿咖通科技有限公司 文本处理方法、设备、存储介质及程序产品
CN115938365A (zh) * 2023-03-09 2023-04-07 广州小鹏汽车科技有限公司 语音交互方法、车辆及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110570853A (zh) 基于语音数据的意图识别方法和装置
US11875775B2 (en) Voice conversion system and training method therefor
JP6465077B2 (ja) 音声対話装置および音声対話方法
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
US8694316B2 (en) Methods, apparatus and computer programs for automatic speech recognition
US10135989B1 (en) Personalized support routing based on paralinguistic information
CN109313892B (zh) 稳健的语言识别方法和系统
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
US10460729B1 (en) Binary target acoustic trigger detecton
CN108597496A (zh) 一种基于生成式对抗网络的语音生成方法及装置
JP2017097162A (ja) キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
Darabkh et al. An efficient speech recognition system for arm‐disabled students based on isolated words
CN107871499B (zh) 语音识别方法、系统、计算机设备及计算机可读存储介质
KR20060022156A (ko) 분산 음성 인식 시스템 및 그 방법
CN105654955B (zh) 语音识别方法及装置
CN111883135A (zh) 语音转写方法、装置和电子设备
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
US10460722B1 (en) Acoustic trigger detection
CN111986675A (zh) 语音对话方法、设备及计算机可读存储介质
Gupta et al. Speech feature extraction and recognition using genetic algorithm
US20220392485A1 (en) System and Method For Identifying Sentiment (Emotions) In A Speech Audio Input
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
CN114627896A (zh) 语音评测方法、装置、设备及存储介质
KR20210000802A (ko) 인공지능 음성 인식 처리 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191213