CN107240398A - 智能语音交互方法及装置 - Google Patents

智能语音交互方法及装置 Download PDF

Info

Publication number
CN107240398A
CN107240398A CN201710538745.7A CN201710538745A CN107240398A CN 107240398 A CN107240398 A CN 107240398A CN 201710538745 A CN201710538745 A CN 201710538745A CN 107240398 A CN107240398 A CN 107240398A
Authority
CN
China
Prior art keywords
data
result
information
semantic
health
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710538745.7A
Other languages
English (en)
Other versions
CN107240398B (zh
Inventor
李深安
马军涛
王兴宝
庄纪军
王雪初
孔祥星
韩后岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xunfei Jizhi Technology Co ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201710538745.7A priority Critical patent/CN107240398B/zh
Publication of CN107240398A publication Critical patent/CN107240398A/zh
Application granted granted Critical
Publication of CN107240398B publication Critical patent/CN107240398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明公开了一种智能语音交互方法及装置,该方法包括:获取人机交互语音数据,对人机交互语音数据进行语义理解,得到当前语义理解结果,然后判断当前语义理解结果是否可信,并对可信语义理解结果做出响应,当语义理解结果不可信时,基于存储的人人交互数据的相关信息对当前语义理解结果进行校正,得到校正后的语义理解结果,然后对所述校正后的语义理解结果做出响应。由于现有车载环境下的智能交互方法,只利用了人机交互信息,然而车内用户与其他乘客交谈,与他人打电话等过程中都隐含着与车机业务相关的信息,本发明采用人人交互数据的相关信息来校正人机交互中意图理解,提高对人机交互语音理解的正确率,提升用户体验。

Description

智能语音交互方法及装置
技术领域
本发明涉及语音信号处理领域,具体涉及一种智能语音交互方法及装置。
背景技术
随着人工智能相关技术的日益成熟,人们的生活开始走向智能化,各种智能设备逐渐进入人们的日常生活中,如智能车机。语音交互作为智能设备应用中主流的交互方式之一,其方便快捷的优势有目共睹,然而其交互的效果受环境影响较大,虽然现在已有较多成熟的技术方案提升语音交互的效果,但对于较为复杂的交互环境,其准确性还是难以得到很高的保证。如在车载环境下,受以下因素的影响:用户离车机麦克风一般有一定的距离、车载环境下存在各种噪声(如胎噪、空调噪声、外界噪声等)、用户表达多样化,对于用户的交互语音可能会做出错误的理解,从而导致车机做出错误的响应,带来较差的用户体验。
发明内容
本发明实施例提供一种智能语音交互方法及装置,以提高对人机交互语音理解的正确率,提升用户体验。
为此,本发明提供如下技术方案:
一种智能语音交互方法,所述方法包括:
获取人机交互语音数据;
对所述人机交互语音数据进行语义理解,得到当前语义理解结果;
判断所述当前语义理解结果是否可信,并对可信语义理解结果做出响应;
当语义理解结果不可信时,基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正,得到校正后的语义理解结果;然后对所述校正后的语义理解结果做出响应。
优选地,所述方法还包括:
接收交互语音数据;
判断所述交互语音数据的类型,所述交互语音数据的类型包括:人人交互数据和人机交互数据;
如果所述交互语音数据为人人交互数据,则对所述人人交互数据进行处理,并存储处理后的人人交互数据的相关信息。
优选地,所述方法还包括:预先构建语音交互环境判断模型;
所述判断所述交互语音数据的类型包括:
提取所述交互语音数据的类别特征;
将所述类别特征输入所述语音交互环境判断模型,根据所述语音交互环境判断模型的输出判断所述交互语音数据的类型。
优选地,所述类别特征包括以下任意两种或多种:是否有唤醒词、唤醒后间隔时间、与上一句时间间隔、与上一句内容的关联度、声源定位信息。
优选地,所述人人交互数据的相关信息包括:人人交互数据产生的时间信息及对人人交互数据进行处理后得到的处理结果;
所述对所述人人交互数据进行处理包括:
对所述人人交互数据进行语音识别,得到识别文本;
对所述识别文本进行语义理解,得到所述人人交互数据对应的语义理解结果;
所述存储处理后的人人交互数据的相关信息包括:
将所述人人交互数据产生的时间信息、语义理解结果存储到数据库中。
优选地,所述基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正,得到校正后的语义理解结果包括:
在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息,并将所述相关信息作为候选校准信息;
对于每个候选校准信息,依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息,得到候选语义理解结果,并计算替换得分,每个语意槽信息对应语义理解结果中的一部分;
将总替换得分最高的候选语义理解结果作为校正结果。
优选地,所述方法还包括:预先构建数据相关性判断模型;
所述在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息,并将所述相关信息作为候选校准信息包括:
将人机交互数据的识别文本的文本向量、数据库中人人交互数据的识别文本的文本向量、人人交互数据产生的时间信息和人机交互数据产生的时间信息输入所述数据相关性判断模型,得到数据库中各人人交互数据的相关信息与该人机交互数据的相关性;
将不超过设定个数的相关性最高的人人交互数据的相关信息或者相关性大于设定阈值的人人交互数据的相关信息作为候选校准信息。
优选地,所述方法还包括:预先构建语义槽替换判断模型,预先设定各语义槽的权重;
所述依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息,得到候选语义理解结果,并计算替换得分包括:
将候选校准信息中的各语义槽信息、当前语义理解结果中对应的各语义槽信息、人人交互数据产生的时间信息、人机交互数据产生的时间信息和当前车机状态输入所述语义槽替换判断模型,得到候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息的概率;
将各概率的加权和作为候选语义理解结果的得分。
优选地,所述人人交互数据包括以下任意一种或多种:
乘客交谈语音数据、乘客电话语音数据、乘客视频语音数据。
相应地,本发明还提供了一种智能语音交互装置,所述装置包括:
获取模块,用于获取人机交互语音数据;
语义理解模块,用于对所述人机交互数据进行语义理解,得到当前语义理解结果;
可信度判断模块,用于判断所述当前语义理解结果是否可信;
校正模块,用于当语义理解结果不可信时,基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正,得到校正后的语义理解结果;
响应模块,用于对可信语义理解结果做出响应或者对所述校正后的语义理解结果做出响应。
优选地,所述装置还包括:
语音接收模块,用于接收交互语音数据;
类型判断模块,用于判断所述交互语音数据的类型,所述交互语音数据的类型包括:人人交互数据和人机交互数据;
处理模块,用于在所述交互语音数据为人人交互数据时,对所述人人交互数据进行处理;
存储模块,用于存储处理后的人人交互数据的相关信息。
优选地,所述装置还包括:
语音交互环境判断模型构建模块,用于预先构建语音交互环境判断模型;
所述类型判断模块包括:
特征提取单元,用于提取所述交互语音数据的类别特征;
类型输出单元,用于将所述类别特征输入所述语音交互环境判断模型,根据所述语音交互环境判断模型的输出判断所述交互语音数据的类型。
优选地,所述人人交互数据的相关信息包括:人人交互数据产生的时间信息及对人人交互数据进行处理后得到的处理结果;
所述处理模块包括:
文本获取单元,用于对所述人人交互数据进行语音识别,得到识别文本;
语义理解单元,用于对所述识别文本进行语义理解,得到所述人人交互数据对应的语义理解结果;
所述存储模块具体用于将所述人人交互数据产生的时间信息、语义理解结果存储到数据库中。
优选地,所述校正模块包括:
候选校准信息获取单元,用于在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息,并将所述相关信息作为候选校准信息;
替换得分计算单元,用于对于每个候选校准信息,依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息,得到候选语义理解结果,并计算替换得分,每个语意槽信息对应语义理解结果中的一部分;
校正结果获取单元,用于将总替换得分最高的候选语义理解结果作为校正结果。
优选地,所述装置还包括:
数据相关性判断模型构建模块,用于预先构建数据相关性判断模型;
所述候选校准信息获取单元包括:
相关性获取子单元,用于将人机交互数据的识别文本的文本向量、数据库中人人交互数据的识别文本的文本向量、人人交互数据产生的时间信息和人机交互数据产生的时间信息输入所述数据相关性判断模型,得到数据库中各人人交互数据的相关信息与该人机交互数据的相关性;
候选校准信息获取子单元,用于将不超过设定个数的相关性最高的人人交互数据的相关信息或者相关性大于设定阈值的人人交互数据的相关信息作为候选校准信息。
优选地,所述装置还包括:
语义槽替换判断模型构建模块,用于预先构建语义槽替换判断模型;
权重设定模块,用于预先设定各语义槽的权重;
所述替换得分计算单元包括:
替换概率获取子单元,用于将候选校准信息中的各语义槽信息、当前语义理解结果中对应的各语义槽信息、人人交互数据产生的时间信息、人机交互数据产生的时间信息和当前车机状态输入所述语义槽替换判断模型,得到候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息的概率;
候选得分获取子单元,用于将各概率的加权和作为候选语义理解结果的得分。
本发明实施例提供的智能语音交互方法及装置,在获取人机交互语音数据之后,对所述人机交互语音数据进行语义理解,得到当前语义理解结果,然后判断所述当前语义理解结果是否可信,并对可信语义理解结果做出响应,当语义理解结果不可信时,基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正,得到校正后的语义理解结果;然后对所述校正后的语义理解结果做出响应。由于现有车载环境下的智能交互方法,只利用了人机交互信息,例如上一次人机交互时的交互信息,然而车内用户与其他乘客交谈,与他人打电话等过程中都隐含着与车机业务相关的信息,本发明采用人人交互数据的相关信息来校正人机交互中意图理解,例如,驾驶员通过语音设定导航目的地之前的一段时间内,可能会与其他乘员讨论要去的地方(即导航的目的地),当噪声等环境因素导致人机交互的语义理解结果不可信时,可以根据驾驶员与其他乘员讨论产生的人人交互数据进行校正,得到校正后的语义理解结果,并进行响应。这样可以更加全面的利用现有的车载环境下的交互信息,提高对人机交互语音理解的正确率,提升用户体验。
进一步地,本发明实施例提供的智能语音交互方法及装置,还给出了人人交互数据的相关信息的获取方法;接收交互语音数据,包括人人交互和人机交互,然后对该交互语音数据进行分类来获取人人交互数据,这样的好处是这两种数据的相关性更高,使得获取的人人交互数据的校正参考价值更高。
进一步地,本发明实施例提供的智能语音交互方法及装置,还预先构建了语音交互环境判断模型,利用该模型可以准确判断接收的交互语音数据的类型。
进一步地,本发明实施例提供的智能语音交互方法及装置,还提供了基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正的具体方法,通过对语义槽信息进行替换,并计算替换得分,这样可以量化替换的效果,便于根据得分准确判断该替换过程是否提升了语义理解结果的可信度。
进一步地,本发明实施例提供的智能语音交互方法及装置,从存储的相关信息中筛选出相关性高的相关信息作为候选校准信息,这样有效减少了校正数据的数量,且有效排除了不相关信息,有助于提升校正的准确度。
进一步地,本发明实施例提供的智能语音交互方法及装置,还设定了各语义槽的权重:给更重要的语义槽设定更大的权重,有助于提升人机交互语音理解的正确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例智能语音交互方法的一种流程图;
图2是本发明实施例对所述当前语义理解结果进行校正的一种流程图;
图3是本发明实施例获取候选校准信息的一种流程图;
图4是本发明实施例获取候选语义理解结果并计算替换得分的一种流程图;
图5是本发明实施例智能语音交互装置的第一种结构示意图;
图6是本发明实施例智能语音交互装置的第二种结构示意图;
图7是本发明实施例类型判断模块的一种结构示意图;
图8是本发明实施例相关信息获取模块的一种结构示意图;
图9是本发明实施例校正模块的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
现有车载环境下的智能交互方法,在进行语义理解时,一般是针对该轮交互进行语义理解。然而在一些人机交互的环境中,还会有一些人人交互的语音,而这些人人交互的语音通常会包含有与人机交互内容相关的信息,比如车内用户与其他乘客交谈、或者与他人打电话过程中大都隐含着与车机业务相关的信息,这些信息对提升人机交互中意图理解有较大帮助。为此,本发明实施例提供一种智能交互方法及装置,利用多重语音信息辅助用户意图理解完成智能交互,由于充分利用了各种可利用的信息,因此,可进一步提高语义理解的准确性,提升用户体验。
如图1所示,是本发明实施例智能语音交互方法的一种流程图,包括以下步骤:
步骤101,获取人机交互语音数据。
在本实施例中,该人机交互数据可以是包括唤醒词的人机交互数据,当然,也可以是通过其它现有技术获取的人机交互数据,在此不做限定。
需要说明的是,所述人机交互语音数据是指去除噪声后的有效语音数据。而且,在人机交互的场景下,时常还会存在人人交互的语音,因此,在本发明实施例中,在接收到人机交互语音数据的同一时间段内,还可能会存在人人交互数据。比如,在车载环境下,所述交互语音数据可以是用户与车机的人机交互数据,以及车内的人人交互数据,如乘客交谈语音数据、乘客电话语音数据、乘客视频语音数据等,该人人交互数据中可能包含可对人机交互数据进行校正的有用信息。
在一个具体实施例中,所述方法还包括:
首先,接收交互语音数据,该交互语音数据可以为通过麦克风等装置采集的语音数据。由于一段时间内的语音数据可能包含人机交互数据和人人交互数据。因此,在接收到交互语音数据后,判断所述交互语音数据的类型。具体可以采用现有技术中确定人机交互数据的方法确定人机交互数据,例如,将同一时间段内的非人机交互数据的语音数据作为人人交互数据即可。
如果是人人交互数据,可以将其存入相应的数据库中,以便后续利用这些人人交互数据对人机交互语音数据进行语义理解得到的语义理解结果进行校正。此外,在实际应用中,也可以预先构建人人交互数据库,然后通过分类、语义理解等技术手段从该数据库中筛选出用于校正的候选人人交互数据,在此不做限定。
进一步地,本发明还可以对得到的人人交互数据进行处理,以获取所述人人交互数据的相关信息。例如,如果所述交互语音数据为人人交互数据,则对所述人人交互数据进行处理,并存储处理后的人人交互数据的相关信息。
人人交互数据产生的时间信息可以根据接收交互语音数据的时间来得到。其中,对人人交互数据进行处理具体可以包括:首先对所述人人交互数据进行语音识别,得到识别文本,然后对所述识别文本进行语义理解,得到所述人人交互数据对应的语义理解结果,语义理解过程可以同现有技术,当然,也可以与人机交互数据的语义理解过程相同。所述存储处理后的人人交互数据的相关信息包括:将所述人人交互数据产生的时间信息、语义理解结果存储到数据库中。
相应地,在存储时,为了后续查找方便,可以将上述时间信息、语义理解结果等信息做成数据索引结构,进行存储。
在其他实施例中,还可以通过预先训练的语音交互环境判断模型来判断所述交互语音数据的类型,这样可以有效提升判断语音数据的类型的准确度。例如,在接收到交互语音数据后,对该交互语音数据类型的判断可以利用分类或回归模型如CNN(卷积神经网络)、DNN(深度神经网络)、RNN(循环神经网络)、SVM(支持向量机)等来进行判断。
比如,可以预先构建语音交互环境判断模型,该模型的具体构建过程如下步骤:
(1)确定语音交互环境判断模型的拓扑结构。
其中,所述类别特征包括以下任意两种或多种:是否有唤醒词、唤醒后间隔时间、与上一句时间间隔、与上一句内容的关联度、声源定位信息。具体地,模型的输入可以是提取的类别特征:是否有唤醒词(可以为1维向量,如有唤醒词为1,没有为0)、唤醒后间隔时间、与上一句时间间隔、与上一句内容的关联度(可以为语义理解结果的相似度,例如文本向量的相似度)、声源定位信息(比如,在车载环境,可以为一个5维的向量,每一维分别表示主驾驶、副驾驶、后左、后中、后右)等。需要说明的是,输入的类别特征都是以VAD(语音端点检测)断句后一个句子为分析对象。
模型的输出可以是交互语音数据的类型,如输出为2个节点,分别为人人交互数据和人机交互数据,属于哪种类型哪种输出为1,否则为0;当然,模型的输出也可以是所属环境的概率。
(2)收集大量交互语音数据作为训练数据,并对所述训练数据进行交互环境标注。
(3)提取所述训练数据的类别特征。
(4)利用所述类别特征及标注信息训练得到模型参数。
相应地,在利用该语音交互环境判断模型对接收的交互语音数据进行类型判断时,需要提取所述交互语音数据的类别特征;然后将提取的类别特征输入该语音交互环境判断模型,根据语音交互环境判断模型的输出判断所述交互语音数据的类型。如果采用回归模型,则模型的输出为所属环境的概率,选取概率最大的环境对应的语音数据类型作为所述交互语音数据的类型。
步骤102,对所述人机交互语音数据进行语义理解,得到当前语义理解结果。
对人机交互数据进行语义理解,需要先对人机交互数据进行语音识别,得到识别文本,然后再对所述识别文本进行语义理解,得到语义理解结果,所述语义理解结果包括语义理解内容及对应的置信度。
所述语音识别可采用现有相关技术,在此不再详细描述,所述语义理解可以采用与对人人交互数据进行语义理解同样的方法。
具体地,语义理解结果可以包括语义理解结果对应的置信度,以及以下任意一种或多种:意图类别、原始语义和词集语义。其中,意图类别为:人机数据的意图归类,如查询目的地、路况、天气、听音乐等,具体可根据收集的现有网络数据及对应的标定结果训练意图类别判断模型,该意图类别判断模型可以为回归模型也可以为分类模型,本实施例以SVM为例进行说明,其输入为人人交互数据的文本向量,输出为意图判断结果。原始语义可采用现有语义理解相关技术实现,如基于文法网络等,需要说明的是:此处文本语义理解可以是利用历史人机交互数据的语义理解,也可以是不考虑历史人机交互数据的语义理解,对此本案不做限定。词集语义为利用已知的同义词、集合词关系,对原始语义进行归一化。比如用户说的目的地是“KFC”,根据同义词关系,映射成目的地“肯德基”,通过词集语义映射后的目的地信息能更好的作为POI搜索的条件,另外,词集语义映射还包括对POI的类型进行确定,比如道路,火锅店,公园等(利用更多的POI类型信息做到更精确的搜索)。需要说明的是,采用词集语义相对于采用原始语义能提升最终结果的可信度。
步骤103,判断所述当前语义理解结果是否可信,并对可信语义理解结果做出响应。
具体地,可以根据各语义理解结果的置信度来判断对应的语义理解结果是否可信,如果语义理解结果对应的置信度大于设定阈值,则确定该语义理解结果可信;否则确定该语义理解结果不可信。所述阈值可以根据实际应用情况和/或大量实验、经验确定。
对可信语义理解结果做出响应可以根据应用需要而定,可以有多种响应方式,比如,根据所述语义理解结果生成响应文本,并通过语音播报的方式将所述响应文本反馈给用户;再比如,可以是执行语义理解结果对应的动作等。
步骤104,基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正,得到校正后的语义理解结果;然后对所述校正后的语义理解结果做出响应。
具体地,如图2所示,是本发明实施例对所述当前语义理解结果进行校正的一种流程图,可以包括以下步骤:
步骤201,在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息,并将所述相关信息作为候选校准信息。
例如,可以为在预设时间内,与当前语义理解结果的文本向量的相似距离小于预设阈值的人人交互数据的相关信息,当然,也可以采用训练的模型来确定候选校准信息,在此不做限定。
步骤202,对于每个候选校准信息,依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息,得到候选语义理解结果,并计算替换得分,每个语意槽信息对应语义理解结果中的一部分。
步骤203,将总替换得分最高的候选语义理解结果作为校正结果。
需要说明的是,校正后的语义理解结果的响应方式可以同步骤105,在此不再详述。
本发明实施例提供的智能语音交互方法及装置,在获取人机交互语音数据之后,对所述人机交互语音数据进行语义理解,得到当前语义理解结果,然后判断所述当前语义理解结果是否可信,并对可信语义理解结果做出响应,当语义理解结果不可信时,基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正,得到校正后的语义理解结果;然后对所述校正后的语义理解结果做出响应。由于现有车载环境下的智能交互方法,只利用了人机交互信息,然而车内用户与其他乘客交谈,与他人打电话等过程中都隐含着与车机业务相关的信息,本发明在噪声等环境因素导致人机交互的语义理解结果不可信时,可以根据人人交互数据的语义理解结果对人机交互数据的语义理解结果进行校正,得到校正后的语义理解结果,并进行响应。这样可以更加全面的利用现有的车载环境下的交互信息,提高对人机交互语音理解的正确率,提升用户体验。
如图3所示,是本发明实施例获取候选校准信息的一种流程图。在本实施例中,所述方法还包括:预先构建数据相关性判断模型。所述在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息,并将所述相关信息作为候选校准信息包括:
步骤301,将人机交互数据的识别文本的文本向量、数据库中人人交互数据的识别文本的文本向量、人人交互数据产生的时间信息和人机交互数据产生的时间信息输入所述数据相关性判断模型,得到数据库中各人人交互数据的相关信息与该人机交互数据的相关性。
具体地,可通过回归模型(如DNN、RNN等)得到预设时间内每条人人数据与当前人机交互数据的相关性。以DNN为例,模型的输入为当前人机交互数据的文本向量、人人交互数据的文本向量、人人交互数据时间和人机交互数据实际,输出为人人交互数据与当前人机交互数据的相关性,可以是一个0-1之间的值。
步骤302,将不超过设定个数的相关性最高的人人交互数据的相关信息或者相关性大于设定阈值的人人交互数据的相关信息作为候选校准信息。
具体地,将相关性大于设定阈值的对应人人交互数据的相关信息作为当前人机交互语义理解结果相关的数个候选人人交互数据的相关信息。此外,为了简化计算,也可以是时间相近的数条人人交互数据,在此不做限定。
如图4所示,是本发明实施例获取候选语义理解结果并计算替换得分的一种流程图。在本实施例中,所述方法还包括:预先构建语义槽替换判断模型,预先设定各语义槽的权重。所述依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息,得到候选语义理解结果,并计算替换得分包括:
步骤401,将候选校准信息中的各语义槽信息、当前语义理解结果中对应的各语义槽信息、人人交互数据产生的时间信息、人机交互数据产生的时间信息和当前车机状态输入所述语义槽替换判断模型,得到候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息的概率。
其中,语义理解结果校正主要指利用人人交互数据对应语义槽信息校正当前人机交互数据对应语义槽信息。语义槽信息反应的就是语义理解结果中的一个个信息。
具体地,通过神经网络模型(如DNN、CNN、RNN等)来判断候选校准信息的每个语义槽能否将对应人机交互数据的语义槽替换,以DNN网络为例,模型的输入为当前人机交互数据每个语义槽信息(如目的地)、候选校准信息对应的每个语义槽信息(对应为人人交互数据的目的地)、当前人机交互数据时间、候选校准信息对应的人人交互数据时间、当前车机状态(如导航界面、音乐界面);输出为人人交互数据的各语义槽信息替换对应人机交互数据的各语义槽信息的概率(0-1之间)。其中,语义槽替换判断模型的训练过程可以同现有的神经网络模型训练方法,在此不再详述。
步骤402,将各概率的加权和作为候选语义理解结果的得分。
每个候选校准信息对应替换后(即校正后)的一个语义理解结果,该语义理解结果得分为替换后每个语义槽的得分加权和,根据槽信息的重要程度设定不同槽的权重,也可以设定各语义槽的权重都为1,其中,权重可以根据经验设定或者通过大量现有网络数据训练模型得到,如导航时,出发地、目的地对应的语义槽的权重应该高于途径地对应的语义槽的权重。在这里,被替换的语义槽的替换得分为上述替换概率,未替换的语义槽的替换得分为1。根据数个候选校准信息,校正当前人机交互数据的语义理解结果得到替换得分,选择对应总替换得分最高的语义理解结果作为最终当前人机交互语义理解结果。
以下举例进行说明:当前人机交互数据语义理解结果:出发点—北京、目的地—南昌、意图—导航,如果语义理解结果为不可信,则需要对人机交互数据的语义结果进行校正。
根据数据相关性判断模型,得到2个对应的人人交互数据的相关信息作为候选校准信息,分别为:1、出发点—天津、目的地—南京、意图—导航,2、出发点—北京、目的地——南京、意图—导航。
根据语义槽替换判断模型得到候选校准信息1中,出发点对应替换得分为0.3、目的地对应替换得分为0.8、意图替换得分为1,则根据候选校准信息1校正后的语义理解结果得分为2.1分。候选校准信息2中,出发点对应替换得分为1、目的地对应替换得分为0.8、意图替换得分为1,则根据候选校正信息2校正后的语义理解结果得分为2.8分。则最后将基于候选校准信息2校正后的语义理解结果作为可信度最高的语义理解结果,然后进行响应。
本发明实施例提供的智能语音交互方法,还提供了基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正的具体方法,通过对语义槽信息进行替换,并计算替换得分,这样可以量化替换的效果,便于根据得分准确判断该替换过程是否提升了语义理解结果的可信度。
相应地,本发明还提供了一种智能语音交互装置,如图5所示,是本发明实施例智能语音交互装置的第一种结构示意图。所述装置包括:
获取模块501,用于获取人机交互语音数据。
语义理解模块502,用于对所述人机交互数据进行语义理解,得到当前语义理解结果。
可信度判断模块503,用于判断所述当前语义理解结果是否可信。
校正模块504,用于当语义理解结果不可信时,基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正,得到校正后的语义理解结果。
响应模块505,用于对可信语义理解结果做出响应或者对所述校正后的语义理解结果做出响应。
在本实施例中,为了提升判断语音数据的类型的准确度,所述装置还可以包括:
语音接收模块,用于接收交互语音数据。
类型判断模块5012,用于判断所述交互语音数据的类型,所述交互语音数据的类型包括:人人交互数据和人机交互数据。
处理模块5013,用于在所述交互语音数据为人人交互数据时,对所述人人交互数据进行处理。
存储模块,用于存储处理后的人人交互数据的相关信息。
如图6所示,是本发明实施例智能语音交互装置的第二种结构示意图。在实际应用中,可以通过预先构建的语音交互环境判断模型来判断所述交互语音数据的类型,具体地,所述装置还包括:
语音交互环境判断模型构建模块601,用于预先构建语音交互环境判断模型。
在本实施例中,如图7所示,是本发明实施例类型判断模块5012的一种结构示意图,其中,所述类型判断模块5012包括:
特征提取单元50121,用于提取所述交互语音数据的类别特征。
类型输出单元50122,用于将所述类别特征输入所述语音交互环境判断模型,根据所述语音交互环境判断模型的输出判断所述交互语音数据的类型。
其中,所述人人交互数据的相关信息包括:人人交互数据产生的时间信息及对人人交互数据进行处理后得到的处理结果。
如图8所示,是本发明实施例处理模块5013的一种结构示意图,所述处理模块5013包括:
文本获取单元50131,用于对所述人人交互数据进行语音识别,得到识别文本。
语义理解单元50132,用于对所述识别文本进行语义理解,得到所述人人交互数据对应的语义理解结果。需要说明的是,语义理解模块可以与语义理解单元为同一功能块,在此不做限定。
所述存储模块具体用于将所述人人交互数据产生的时间信息、语义理解结果存储到数据库中。
进一步地,本发明还给出了校正模块504的具体结构,如图9所示,是本发明实施例校正模块504的一种结构示意图,所述校正模块504包括:
候选校准信息获取单元5041,用于在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息,并将所述相关信息作为候选校准信息。
替换得分计算单元5042,用于对于每个候选校准信息,依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息,得到候选语义理解结果,并计算替换得分,每个语意槽信息对应语义理解结果中的一部分。
校正结果获取单元5043,用于将总替换得分最高的候选语义理解结果作为校正结果。
优选地,所述装置还包括:
数据相关性判断模型构建模块901,用于预先构建数据相关性判断模型。
其中,所述候选校准信息获取单元5041包括:
相关性获取子单元50411,用于将人机交互数据的识别文本的文本向量、数据库中人人交互数据的识别文本的文本向量、人人交互数据产生的时间信息和人机交互数据产生的时间信息输入所述数据相关性判断模型,得到数据库中各人人交互数据的相关信息与该人机交互数据的相关性。
候选校准信息获取子单元50412,用于将不超过设定个数的相关性最高的人人交互数据的相关信息或者相关性大于设定阈值的人人交互数据的相关信息作为候选校准信息。
此外,所述装置还可以包括:
语义槽替换判断模型构建模块902,用于预先构建语义槽替换判断模型。
权重设定模块903,用于预先设定各语义槽的权重。
所述替换得分计算单元5042包括:
替换概率获取子单元50421,用于将候选校准信息中的各语义槽信息、当前语义理解结果中对应的各语义槽信息、人人交互数据产生的时间信息、人机交互数据产生的时间信息和当前车机状态输入所述语义槽替换判断模型,得到候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息的概率。
候选得分获取子单元50422,用于将各概率的加权和作为候选语义理解结果的得分。
本发明实施例提供的智能语音交互装置,与现有技术相比,还包括:校正模块504,由于现有车载环境下的智能交互方法,只利用了人机交互信息,然而车内用户与其他乘客交谈,与他人打电话过程中都隐含着与车机业务相关的信息,本发明基于存储的人人交互数据的相关信息对提升人机交互中意图理解有较大帮助,如果人机交互信息数据的语义理解结果不可信,则校正模块504会对所述当前语义理解结果进行校正,得到校正后的语义理解结果。这样可以更加全面的利用现有的车载环境下的交互信息,提高对人机交互语音理解的正确率,提升用户体验。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种智能语音交互方法,其特征在于,所述方法包括:
获取人机交互语音数据;
对所述人机交互语音数据进行语义理解,得到当前语义理解结果;
判断所述当前语义理解结果是否可信,并对可信语义理解结果做出响应;
当语义理解结果不可信时,基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正,得到校正后的语义理解结果;然后对所述校正后的语义理解结果做出响应。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收交互语音数据;
判断所述交互语音数据的类型,所述交互语音数据的类型包括:人人交互数据和人机交互数据;
如果所述交互语音数据为人人交互数据,则对所述人人交互数据进行处理,并存储处理后的人人交互数据的相关信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:预先构建语音交互环境判断模型;
所述判断所述交互语音数据的类型包括:
提取所述交互语音数据的类别特征;
将所述类别特征输入所述语音交互环境判断模型,根据所述语音交互环境判断模型的输出判断所述交互语音数据的类型。
4.根据权利要求3所述的方法,其特征在于,所述类别特征包括以下任意两种或多种:是否有唤醒词、唤醒后间隔时间、与上一句时间间隔、与上一句内容的关联度、声源定位信息。
5.根据权利要求2所述的方法,其特征在于,所述人人交互数据的相关信息包括:人人交互数据产生的时间信息及对人人交互数据进行处理后得到的处理结果;
所述对所述人人交互数据进行处理包括:
对所述人人交互数据进行语音识别,得到识别文本;
对所述识别文本进行语义理解,得到所述人人交互数据对应的语义理解结果;
所述存储处理后的人人交互数据的相关信息包括:
将所述人人交互数据产生的时间信息、语义理解结果存储到数据库中。
6.根据权利要求5所述的方法,其特征在于,所述基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正,得到校正后的语义理解结果包括:
在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息,并将所述相关信息作为候选校准信息;
对于每个候选校准信息,依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息,得到候选语义理解结果,并计算替换得分,每个语意槽信息对应语义理解结果中的一部分;
将总替换得分最高的候选语义理解结果作为校正结果。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:预先构建数据相关性判断模型;
所述在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息,并将所述相关信息作为候选校准信息包括:
将人机交互数据的识别文本的文本向量、数据库中人人交互数据的识别文本的文本向量、人人交互数据产生的时间信息和人机交互数据产生的时间信息输入所述数据相关性判断模型,得到数据库中各人人交互数据的相关信息与该人机交互数据的相关性;
将不超过设定个数的相关性最高的人人交互数据的相关信息或者相关性大于设定阈值的人人交互数据的相关信息作为候选校准信息。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:预先构建语义槽替换判断模型,预先设定各语义槽的权重;
所述依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息,得到候选语义理解结果,并计算替换得分包括:
将候选校准信息中的各语义槽信息、当前语义理解结果中对应的各语义槽信息、人人交互数据产生的时间信息、人机交互数据产生的时间信息和当前车机状态输入所述语义槽替换判断模型,得到候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息的概率;
将各概率的加权和作为候选语义理解结果的得分。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述人人交互数据包括以下任意一种或多种:
乘客交谈语音数据、乘客电话语音数据、乘客视频语音数据。
10.一种智能语音交互装置,其特征在于,所述装置包括:
获取模块,用于获取人机交互语音数据;
语义理解模块,用于对所述人机交互数据进行语义理解,得到当前语义理解结果;
可信度判断模块,用于判断所述当前语义理解结果是否可信;
校正模块,用于当语义理解结果不可信时,基于存储的人人交互数据的相关信息对所述当前语义理解结果进行校正,得到校正后的语义理解结果;
响应模块,用于对可信语义理解结果做出响应或者对所述校正后的语义理解结果做出响应。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
语音接收模块,用于接收交互语音数据;
类型判断模块,用于判断所述交互语音数据的类型,所述交互语音数据的类型包括:人人交互数据和人机交互数据;
处理模块,用于在所述交互语音数据为人人交互数据时,对所述人人交互数据进行处理;
存储模块,用于存储处理后的人人交互数据的相关信息。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
语音交互环境判断模型构建模块,用于预先构建语音交互环境判断模型;
所述类型判断模块包括:
特征提取单元,用于提取所述交互语音数据的类别特征;
类型输出单元,用于将所述类别特征输入所述语音交互环境判断模型,根据所述语音交互环境判断模型的输出判断所述交互语音数据的类型。
13.根据权利要求11所述的装置,其特征在于,所述人人交互数据的相关信息包括:人人交互数据产生的时间信息及对人人交互数据进行处理后得到的处理结果;
所述处理模块包括:
文本获取单元,用于对所述人人交互数据进行语音识别,得到识别文本;
语义理解单元,用于对所述识别文本进行语义理解,得到所述人人交互数据对应的语义理解结果;
所述存储单元具体用于将所述人人交互数据产生的时间信息、语义理解结果存储到数据库中。
14.根据权利要求13所述的装置,其特征在于,所述校正模块包括:
候选校准信息获取单元,用于在所述数据库中搜索得到数条在预设时间内与所述当前语义理解结果相关的所述人人交互数据的相关信息,并将所述相关信息作为候选校准信息;
替换得分计算单元,用于对于每个候选校准信息,依次用该候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息,得到候选语义理解结果,并计算替换得分,每个语意槽信息对应语义理解结果中的一部分;
校正结果获取单元,用于将总替换得分最高的候选语义理解结果作为校正结果。
15.根据权利要求13所述的装置,其特征在于,所述装置还包括:
数据相关性判断模型构建模块,用于预先构建数据相关性判断模型;
所述候选校准信息获取单元包括:
相关性获取子单元,用于将人机交互数据的识别文本的文本向量、数据库中人人交互数据的识别文本的文本向量、人人交互数据产生的时间信息和人机交互数据产生的时间信息输入所述数据相关性判断模型,得到数据库中各人人交互数据的相关信息与该人机交互数据的相关性;
候选校准信息获取子单元,用于将不超过设定个数的相关性最高的人人交互数据的相关信息或者相关性大于设定阈值的人人交互数据的相关信息作为候选校准信息。
16.根据权利要求13所述的装置,其特征在于,所述装置还包括:
语义槽替换判断模型构建模块,用于预先构建语义槽替换判断模型;
权重设定模块,用于预先设定各语义槽的权重;
所述替换得分计算单元包括:
替换概率获取子单元,用于将候选校准信息中的各语义槽信息、当前语义理解结果中对应的各语义槽信息、人人交互数据产生的时间信息、人机交互数据产生的时间信息和当前车机状态输入所述语义槽替换判断模型,得到候选校准信息中的各语义槽信息替换当前语义理解结果中对应的语义槽信息的概率;
候选得分获取子单元,用于将各概率的加权和作为候选语义理解结果的得分。
CN201710538745.7A 2017-07-04 2017-07-04 智能语音交互方法及装置 Active CN107240398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710538745.7A CN107240398B (zh) 2017-07-04 2017-07-04 智能语音交互方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710538745.7A CN107240398B (zh) 2017-07-04 2017-07-04 智能语音交互方法及装置

Publications (2)

Publication Number Publication Date
CN107240398A true CN107240398A (zh) 2017-10-10
CN107240398B CN107240398B (zh) 2020-11-17

Family

ID=59990422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710538745.7A Active CN107240398B (zh) 2017-07-04 2017-07-04 智能语音交互方法及装置

Country Status (1)

Country Link
CN (1) CN107240398B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107799126A (zh) * 2017-10-16 2018-03-13 深圳狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN108520746A (zh) * 2018-03-22 2018-09-11 北京小米移动软件有限公司 语音控制智能设备的方法、装置及存储介质
CN108538294A (zh) * 2018-04-27 2018-09-14 科大讯飞股份有限公司 一种语音交互方法及装置
CN108735216A (zh) * 2018-06-12 2018-11-02 广东小天才科技有限公司 一种基于语义识别的语音搜题方法及家教设备
CN109584877A (zh) * 2019-01-02 2019-04-05 百度在线网络技术(北京)有限公司 语音交互控制方法和装置
CN109785838A (zh) * 2019-01-28 2019-05-21 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN110136707A (zh) * 2019-04-22 2019-08-16 北京云知声信息技术有限公司 一种用于进行多设备自主决策的人机交互系统
CN110377908A (zh) * 2019-07-19 2019-10-25 科大讯飞股份有限公司 语义理解方法、装置、设备及可读存储介质
CN110706707A (zh) * 2019-11-13 2020-01-17 百度在线网络技术(北京)有限公司 用于语音交互的方法、装置、设备和计算机可读存储介质
CN110750617A (zh) * 2018-07-06 2020-02-04 北京嘀嘀无限科技发展有限公司 确定输入文本与兴趣点间的相关性的方法和系统
CN110931018A (zh) * 2019-12-03 2020-03-27 珠海格力电器股份有限公司 智能语音交互的方法、装置及计算机可读存储介质
CN110956958A (zh) * 2019-12-04 2020-04-03 深圳追一科技有限公司 搜索方法、装置、终端设备及存储介质
CN110992956A (zh) * 2019-11-11 2020-04-10 上海市研发公共服务平台管理中心 语音转换的信息处理方法、装置、设备和存储介质
CN111081220A (zh) * 2019-12-10 2020-04-28 广州小鹏汽车科技有限公司 车载语音交互方法、全双工对话系统、服务器和存储介质
CN111159350A (zh) * 2019-12-30 2020-05-15 科大讯飞股份有限公司 用户说法挖掘扩增方法、装置、终端及存储介质
CN111428017A (zh) * 2020-03-24 2020-07-17 科大讯飞股份有限公司 人机交互优化方法以及相关装置
CN111462734A (zh) * 2020-03-31 2020-07-28 苏州思必驰信息科技有限公司 语义槽填充模型训练方法及系统
CN111914983A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 交互方法及装置、音箱、电子设备和存储介质
US11205431B2 (en) 2019-01-02 2021-12-21 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for presenting state of voice interaction device, and storage medium
CN114005447A (zh) * 2021-11-15 2022-02-01 中国第一汽车股份有限公司 一种语音对话交互方法、装置、车辆及介质
CN115083412A (zh) * 2022-08-11 2022-09-20 科大讯飞股份有限公司 语音交互方法及相关装置、电子设备、存储介质
CN116483960A (zh) * 2023-03-30 2023-07-25 阿波罗智联(北京)科技有限公司 对话识别方法、装置、设备以及存储介质
CN116721768A (zh) * 2023-08-07 2023-09-08 华中科技大学协和深圳医院 一种包含可信度因素的交互数据的获取方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477798A (zh) * 2009-02-17 2009-07-08 北京邮电大学 一种分析和提取设定场景的音频数据的方法
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法
CN103645876A (zh) * 2013-12-06 2014-03-19 百度在线网络技术(北京)有限公司 语音输入方法和装置
US8682660B1 (en) * 2008-05-21 2014-03-25 Resolvity, Inc. Method and system for post-processing speech recognition results
CN104123936A (zh) * 2013-04-25 2014-10-29 伊莱比特汽车公司 对话系统自动训练方法、对话系统及用于车辆的控制装置
CN105659316A (zh) * 2013-11-25 2016-06-08 三菱电机株式会社 对话控制装置和对话控制方法
CN105810188A (zh) * 2014-12-30 2016-07-27 联想(北京)有限公司 一种信息处理方法和电子设备
CN106228983A (zh) * 2016-08-23 2016-12-14 北京谛听机器人科技有限公司 一种人机自然语言交互中的场景处理方法及系统
CN106354835A (zh) * 2016-08-31 2017-01-25 上海交通大学 基于上下文语义理解的人工对话辅助系统
CN106373569A (zh) * 2016-09-06 2017-02-01 北京地平线机器人技术研发有限公司 语音交互装置和方法
CN106649278A (zh) * 2016-12-30 2017-05-10 三星电子(中国)研发中心 扩展口语对话系统语料库的方法和系统
CN106663424A (zh) * 2014-03-31 2017-05-10 三菱电机株式会社 意图理解装置以及方法
CN106777013A (zh) * 2016-12-07 2017-05-31 科大讯飞股份有限公司 对话管理方法和装置
US20170162190A1 (en) * 2015-03-20 2017-06-08 Kabushiki Kaisha Toshiba Spoken language understanding apparatus, method, and program

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8682660B1 (en) * 2008-05-21 2014-03-25 Resolvity, Inc. Method and system for post-processing speech recognition results
CN101477798A (zh) * 2009-02-17 2009-07-08 北京邮电大学 一种分析和提取设定场景的音频数据的方法
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法
CN104123936A (zh) * 2013-04-25 2014-10-29 伊莱比特汽车公司 对话系统自动训练方法、对话系统及用于车辆的控制装置
CN105659316A (zh) * 2013-11-25 2016-06-08 三菱电机株式会社 对话控制装置和对话控制方法
CN103645876A (zh) * 2013-12-06 2014-03-19 百度在线网络技术(北京)有限公司 语音输入方法和装置
CN106663424A (zh) * 2014-03-31 2017-05-10 三菱电机株式会社 意图理解装置以及方法
CN105810188A (zh) * 2014-12-30 2016-07-27 联想(北京)有限公司 一种信息处理方法和电子设备
US20170162190A1 (en) * 2015-03-20 2017-06-08 Kabushiki Kaisha Toshiba Spoken language understanding apparatus, method, and program
CN106228983A (zh) * 2016-08-23 2016-12-14 北京谛听机器人科技有限公司 一种人机自然语言交互中的场景处理方法及系统
CN106354835A (zh) * 2016-08-31 2017-01-25 上海交通大学 基于上下文语义理解的人工对话辅助系统
CN106373569A (zh) * 2016-09-06 2017-02-01 北京地平线机器人技术研发有限公司 语音交互装置和方法
CN106777013A (zh) * 2016-12-07 2017-05-31 科大讯飞股份有限公司 对话管理方法和装置
CN106649278A (zh) * 2016-12-30 2017-05-10 三星电子(中国)研发中心 扩展口语对话系统语料库的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王文: ""人机交互中的文本语意理解研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107799126A (zh) * 2017-10-16 2018-03-13 深圳狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN107799126B (zh) * 2017-10-16 2020-10-16 苏州狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN108520746A (zh) * 2018-03-22 2018-09-11 北京小米移动软件有限公司 语音控制智能设备的方法、装置及存储介质
CN108520746B (zh) * 2018-03-22 2022-04-01 北京小米移动软件有限公司 语音控制智能设备的方法、装置及存储介质
CN108538294A (zh) * 2018-04-27 2018-09-14 科大讯飞股份有限公司 一种语音交互方法及装置
CN108538294B (zh) * 2018-04-27 2020-11-17 科大讯飞股份有限公司 一种语音交互方法及装置
CN108735216A (zh) * 2018-06-12 2018-11-02 广东小天才科技有限公司 一种基于语义识别的语音搜题方法及家教设备
CN108735216B (zh) * 2018-06-12 2020-10-16 广东小天才科技有限公司 一种基于语义识别的语音搜题方法及家教设备
CN110750617A (zh) * 2018-07-06 2020-02-04 北京嘀嘀无限科技发展有限公司 确定输入文本与兴趣点间的相关性的方法和系统
US11205431B2 (en) 2019-01-02 2021-12-21 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for presenting state of voice interaction device, and storage medium
CN109584877A (zh) * 2019-01-02 2019-04-05 百度在线网络技术(北京)有限公司 语音交互控制方法和装置
CN109785838B (zh) * 2019-01-28 2021-08-31 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN109785838A (zh) * 2019-01-28 2019-05-21 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN110136707A (zh) * 2019-04-22 2019-08-16 北京云知声信息技术有限公司 一种用于进行多设备自主决策的人机交互系统
CN111914983B (zh) * 2019-05-07 2023-10-24 阿里巴巴集团控股有限公司 交互方法及装置、音箱、电子设备和存储介质
CN111914983A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 交互方法及装置、音箱、电子设备和存储介质
CN110377908A (zh) * 2019-07-19 2019-10-25 科大讯飞股份有限公司 语义理解方法、装置、设备及可读存储介质
CN110992956A (zh) * 2019-11-11 2020-04-10 上海市研发公共服务平台管理中心 语音转换的信息处理方法、装置、设备和存储介质
US11393490B2 (en) 2019-11-13 2022-07-19 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, device and computer-readable storage medium for voice interaction
CN110706707A (zh) * 2019-11-13 2020-01-17 百度在线网络技术(北京)有限公司 用于语音交互的方法、装置、设备和计算机可读存储介质
CN110931018A (zh) * 2019-12-03 2020-03-27 珠海格力电器股份有限公司 智能语音交互的方法、装置及计算机可读存储介质
CN110956958A (zh) * 2019-12-04 2020-04-03 深圳追一科技有限公司 搜索方法、装置、终端设备及存储介质
CN111081220B (zh) * 2019-12-10 2022-08-16 广州小鹏汽车科技有限公司 车载语音交互方法、全双工对话系统、服务器和存储介质
CN111081220A (zh) * 2019-12-10 2020-04-28 广州小鹏汽车科技有限公司 车载语音交互方法、全双工对话系统、服务器和存储介质
CN111159350B (zh) * 2019-12-30 2022-12-06 科大讯飞股份有限公司 用户说法挖掘扩增方法、装置、终端及存储介质
CN111159350A (zh) * 2019-12-30 2020-05-15 科大讯飞股份有限公司 用户说法挖掘扩增方法、装置、终端及存储介质
CN111428017B (zh) * 2020-03-24 2022-12-02 科大讯飞股份有限公司 人机交互优化方法以及相关装置
CN111428017A (zh) * 2020-03-24 2020-07-17 科大讯飞股份有限公司 人机交互优化方法以及相关装置
CN111462734B (zh) * 2020-03-31 2022-07-26 思必驰科技股份有限公司 语义槽填充模型训练方法及系统
CN111462734A (zh) * 2020-03-31 2020-07-28 苏州思必驰信息科技有限公司 语义槽填充模型训练方法及系统
CN114005447A (zh) * 2021-11-15 2022-02-01 中国第一汽车股份有限公司 一种语音对话交互方法、装置、车辆及介质
CN115083412A (zh) * 2022-08-11 2022-09-20 科大讯飞股份有限公司 语音交互方法及相关装置、电子设备、存储介质
CN116483960A (zh) * 2023-03-30 2023-07-25 阿波罗智联(北京)科技有限公司 对话识别方法、装置、设备以及存储介质
CN116483960B (zh) * 2023-03-30 2024-01-02 阿波罗智联(北京)科技有限公司 对话识别方法、装置、设备以及存储介质
CN116721768A (zh) * 2023-08-07 2023-09-08 华中科技大学协和深圳医院 一种包含可信度因素的交互数据的获取方法
CN116721768B (zh) * 2023-08-07 2024-01-16 华中科技大学协和深圳医院 一种包含可信度因素的交互数据的获取方法

Also Published As

Publication number Publication date
CN107240398B (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN107240398A (zh) 智能语音交互方法及装置
CN107316643A (zh) 语音交互方法及装置
WO2021136054A1 (zh) 语音唤醒方法、装置、设备及存储介质
CN106202476B (zh) 一种基于知识图谱的人机对话的方法及装置
CN103903619B (zh) 一种提高语音识别准确率的方法及系统
CN105487663B (zh) 一种面向智能机器人的意图识别方法和系统
CN107665706A (zh) 快速语音交互方法及系统
CN106297785B (zh) 一种基于车联网的智能服务系统
CN103458056B (zh) 自动外呼系统基于自动分类技术的语音意图判定系统
CN110660201B (zh) 到站提醒方法、装置、终端及存储介质
CN101329868B (zh) 一种针对地区语言使用偏好的语音识别优化系统及其方法
CN110648553B (zh) 一种站点提醒方法、电子设备及计算机可读存储介质
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN103514170B (zh) 一种语音识别的文本分类方法和装置
CN107767863A (zh) 语音唤醒方法、系统及智能终端
CN108694942A (zh) 一种基于家居智能服务机器人的智能家居交互问答系统
CN107767861A (zh) 语音唤醒方法、系统及智能终端
CN105700682A (zh) 基于视觉和语音的智能性别、情绪识别检测系统及方法
CN104462600A (zh) 实现来电原因自动分类的方法及装置
CN108447471A (zh) 语音识别方法及语音识别装置
CN108074576A (zh) 审讯场景下的说话人角色分离方法及系统
CN105100353B (zh) 一种对移动终端的新增联系人进行通讯录分组的方法
CN109815310B (zh) 一种语音处理方法、装置、存储介质及终端
CN103488752B (zh) 一种poi智能检索的检索方法
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240318

Address after: Room 201, 2nd Floor, Building 7, No. 8 Dongbei Wangxi Road, Haidian District, Beijing, 100193

Patentee after: Beijing Xunfei Jizhi Technology Co.,Ltd.

Country or region after: China

Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui

Patentee before: IFLYTEK Co.,Ltd.

Country or region before: China