CN107437415B - 一种智能语音交互方法及系统 - Google Patents

一种智能语音交互方法及系统 Download PDF

Info

Publication number
CN107437415B
CN107437415B CN201710676203.6A CN201710676203A CN107437415B CN 107437415 B CN107437415 B CN 107437415B CN 201710676203 A CN201710676203 A CN 201710676203A CN 107437415 B CN107437415 B CN 107437415B
Authority
CN
China
Prior art keywords
semantic
voice
instruction
model
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710676203.6A
Other languages
English (en)
Other versions
CN107437415A (zh
Inventor
李锐
陈志刚
王智国
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201710676203.6A priority Critical patent/CN107437415B/zh
Publication of CN107437415A publication Critical patent/CN107437415A/zh
Priority to PCT/CN2018/096705 priority patent/WO2019029352A1/zh
Application granted granted Critical
Publication of CN107437415B publication Critical patent/CN107437415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开了一种智能语音交互方法及系统,该方法包括:接收用户交互语音;对所述交互语音进行语音识别及语义理解,得到识别文本及语义理解结果;确定当前语音段是否为单人语音;如果是,如果是,则根据所述语义理解结果进行响应;否则,根据当前语音段及其对应的语义理解结果确定所述当前语音段中各角色间指令关系,然后根据所述各角色间指令关系进行响应。本发明可以提高多人参与的人机交互环境下响应的正确率,提升用户体验。

Description

一种智能语音交互方法及系统
技术领域
本发明涉及语音信号处理及自然语言理解领域,具体涉及一种智能语音交互方法及系统。
背景技术
随着人工智能技术的不断进步,人机语音交互也取得了长足的发展,各种语音助手APP和人机交互机器人大肆兴起,随之人们对自然便捷的人机交互渴望也达到了空前的高度。现有的人机交互方法多是基于端点检测技术确定用户有效交互语音,再对所述交互语音进行识别、语义理解,最后系统针对语义理解结果做出相应的响应。然而,人机交互常存在多人参与交互的情况,在该种情况下,不同角色的语音,可能是相互间的干扰、也有可能是补充或者是不同的交互指令,但现有的人机交互方法,会将多人的语音数据同作为一条语音指令数据进行识别、语义理解,最后进行响应,最终可能导致一次错误的交互。
发明内容
本发明实施例提供一种智能语音交互方法及系统,以避免在有多人参与的交互场景下,产生错误的理解及响应。
为此,本发明提供如下技术方案:
一种智能语音交互方法,所述方法包括:
接收用户交互语音数据;
对所述交互语音数据进行语音识别及语义理解,得到识别文本及语义理解结果;
确定当前语音段是否为单人语音;
如果是,则根据所述语义理解结果进行响应;
否则,根据当前语音段及其对应的语义理解结果确定所述当前语音段中各角色间指令关系,然后根据所述各角色间指令关系进行响应。
优选地,所述方法还包括:预先构建说话人转折点判断模型,所述说话人转折点判断模型的构建过程包括:
确定说话人转折点判断模型的拓扑结构;
收集大量包含多人参与的交互语音数据,并对所述交互语音数据进行转折点标注;
利用所述交互语音数据及标注信息训练得到说话人转折点判断模型参数;
所述确定当前语音段是否为单人语音包括:
对于当前语音段中的每帧语音,提取其频谱特征;
将提取的频谱特征输入所述说话人转折点判断模型,根据所述说话人转折点判断模型的输出确定每帧语音是否有转折点;
如果当前语音段中有至少一帧语音有转折点,则确定当前语音段不是单人语音;否则,确定当前语音段是单人语音。
优选地,所述根据当前语音段及其对应的语义理解结果确定所述当前语音段中各角色间指令关系包括:
从当前语音段及其对应的语义理解结果中提取指令关联特征;
根据所述指令关联特征确定当前语音段中各角色间指令关系。
优选地,所述指令关联特征包括:声学特征和语义相关度特征;所述声学特征包括以下任意一种或多种:语音段的平均音量大小、语音段的信噪比、语音段与主麦克风的关系夹角,所述关系夹角是指语音段所属声源与主麦克风连线与水平线之间的夹角;所述语义相关度特征为语义相关度值;
所述从当前语音段及其对应的语义理解结果中提取指令关联特征包括:
从当前语音段中提取所述声学特征;
根据当前语音段对应的语义理解结果确定当前语音段的语义相关度值。
优选地,所述方法还包括:预先构建语义相关度模型,所述语义相关度模型的构建过程包括:
确定语义相关度模型的拓扑结构;
收集大量包含多人参与的交互语音数据作为训练数据,并对所述训练数据进行语义相关度标注;
提取所述训练数据的语义相关特征;
利用所述语义相关特征及标注信息训练得到指令关联识别模型;
所述根据当前语音段对应的语义理解结果确定当前语音段的语义相关度值包括:
从当前语音段对应的语义理解结果中提取语义相关特征;
将所述语义相关特征输入所述语义相关度模型,根据所述语义相关度模型的输出得到当前语音段的语义相关度值。
优选地,所述语义相关特征包括:交互语音数据对应的文本词向量、交互语音数据中的用户指令涉及的业务类型。
优选地,所述方法还包括:预先构建指令关联识别模型,所述指令关联识别模型的构建过程包括;
确定指令关联识别模型的拓扑结构;
收集大量包含多人参与的交互语音数据作为训练数据,并对所述训练数据进行角色间关联关系标注;
提取所述训练数据的指令关联特征;
利用所述指令关联特征及标注信息训练得到指令关联识别模型;
所述根据所述指令关联特征确定当前语音段中各角色间指令关系包括:
将所述指令关联特征输入所述指令关联识别模型,根据所述指令关联识别模型的输出得到当前语音段中各角色间指令关系。
优选地,所述各角色间指令关系包括:干扰、补充和独立。
一种智能语音交互系统,所述系统包括:
接收模块,用于接收用户交互语音数据;
语音识别模块,用于对所述交互语音数据进行语音识别,得到识别文本;
语义理解模块,用于对所述识别文本进行语义理解,得到语义理解结果;
判断模块,用于判断当前语音段是否为单人语音;
响应模块,用于在所述判断模块判断当前语音段是单人语音后,对所述语义理解结果进行响应;
指令关系识别模块,用于在所述判断模块判断当前语音段不是单人语音后,根据当前语音段及其对应的语义理解结果确定所述当前语音段中各角色间指令关系;
所述响应模块,还用于根据所述指令关系识别模块确定的各角色间指令关系进行响应。
优选地,所述系统还包括:说话人转折点判断模型构建模块,用于预先构建说话人转折点判断模型;所述说话人转折点判断模型构建模块包括:
第一拓扑结构确定单元,用于确定说话人转折点判断模型的拓扑结构;
第一数据收集单元,用于收集大量包含多人参与的交互语音数据,并对所述交互语音数据进行转折点标注;
第一参数训练单元,用于利用所述交互语音数据及标注信息训练得到说话人转折点判断模型参数;
所述判断模块包括:
频谱特征提取单元,用于对于当前语音段中的每帧语音,提取其频谱特征;
转折点确定单元,用于将提取的频谱特征输入所述说话人转折点判断模型,根据所述说话人转折点判断模型的输出确定每帧语音是否有转折点;
判断单元,用于在当前语音段中有至少一帧语音有转折点时,确定当前语音段不是单人语音;否则,确定当前语音段是单人语音。
优选地,所述指令关系识别模块包括:
指令关联特征提取单元,用于从当前语音段及其对应的语义理解结果中提取指令关联特征;
指令关系确定单元,用于根据所述指令关联特征确定当前语音段中各角色间指令关系。
优选地,所述指令关联特征包括:声学特征和语义相关度特征;所述声学特征包括以下任意一种或多种:语音段的平均音量大小、语音段的信噪比、语音段与主麦克风的关系夹角,所述关系夹角是指语音段所属声源与主麦克风连线与水平线之间的夹角;所述语义相关度特征为语义相关度值;
所述指令关联特征提取单元包括:
声学特征提取子单元,用于从当前语音段中提取所述声学特征;
语义相关度特征提取子单元,用于根据当前语音段对应的语义理解结果确定当前语音段的语义相关度值。
优选地,所述系统还包括:语义相关度模型构建模块,用于预先构建语义相关度模型;所述语义相关度模型构建模块包括:
第二拓扑结构确定单元,用于确定语义相关度模型的拓扑结构;
第二数据收集单元,用于收集大量包含多人参与的交互语音数据作为训练数据,并对所述训练数据进行语义相关度标注;
语义相关特征提取单元,用于提取所述训练数据的语义相关特征;
第二训练单元,用于利用所述语义相关特征及标注信息训练得到指令关联识别模型;
所述语义相关度特征提取子单元,具体用于从当前语音段对应的语义理解结果中提取语义相关特征;将所述语义相关特征输入所述语义相关度模型,根据所述语义相关度模型的输出得到当前语音段的语义相关度值。
优选地,所述系统还包括:指令关联识别模型构建模块,用于预先构建指令关联识别模型;所述指令关联识别模型构建模块包括;
第三拓扑结构确定单元,用于确定指令关联识别模型的拓扑结构;
第三数据收集单元,收集大量包含多人参与的交互语音数据作为训练数据,并对所述训练数据进行角色间关联关系标注;
指令关联特征提取单元,用于提取所述训练数据的指令关联特征;
第三训练单元,用于利用所述指令关联特征及标注信息训练得到指令关联识别模型;
所述指令关系确定单元,具体用于将所述指令关联特征输入所述指令关联识别模型,根据所述指令关联识别模型的输出得到当前语音段中各角色间指令关系。
本发明实施例提供的智能语音交互方法及系统,针对多人参与的交互场景的特点,对接收到的用户交互语音数据,判断是否为单人语音;如果不是,则通过对交互数据进行更细致准确的分析,得到多人参与交互情况下各角色指令间关系,根据各角色指令间关系合理地做出交互响应,从而解决了传统语音交互方案因未考虑多人参与交互情况所带来的用户意图理解错误、系统交互响应错误的问题,有效地提高了用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例智能语音交互方法的流程图;
图2是本发明实施例中构建说话人转折点判断模型的流程图;
图3是本发明实施例中说话人转折点判断模型的时序示意图;
图4是本发明实施例中构建语义相关度模型的流程图;
图5是本发明实施例中语义相关度模型的拓扑结构示意图;
图6是本发明实施例中构建指令关联识别模型的流程图;
图7是本发明实施例智能语音交互系统的结构示意图;
图8是本发明实施例中指令关系识别模块的一种具体结构示意图;
图9是本发明实施例中语音段与主麦克风的关系夹角的一种示意图;
图10是本发明实施例中语音段与主麦克风的关系夹角的另一种示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
现有的语音交互系统中,仅根据端点检测技术确定一条条用户语音指令,并未考虑存在多人说话的情形,因此一轮交互指令中的后半句可能是前半句的干扰,或者是前半句的一个补充,或者是完全独立的两个子指令,此时如果不加以区分,有可能会得到错误的指令,进而会导致系统做出错误的响应,影响用户体验。针对这一情况,本发明实施例提供一种智能语音交互方法,针对多人参与的交互场景的特点,通过对交互语音数据进行更细致准确的分析判断,得到多人参与交互情况下各角色指令间关系,并根据各角色指令间关系合理地做出交互响应。
如图1所示,是本发明实施例智能语音交互方法的流程图,包括以下步骤:
步骤101,接收用户交互语音数据。
具体地,可以基于现有端点检测技术对音频流进行检测,得到音频流中的有效语音,作为用户的交互语音。所述端点检测技术需要设定停顿时长阈值eos(通常为0.5s-1s),如果语音停顿时间大于所述停顿时长阈值,则将音频流切断,将该段语音作为有效的用户交互语音。
步骤102,对所述交互语音数据进行语音识别及语义理解,得到识别文本及语义理解结果。
所述语音识别可以实时进行,即实时识别出截止到当前时刻用户所说的内容。具体地,由声学模型和语言模型构成解码网络,解码网络包含截止到当前时刻,所有候选的识别结果路径,从当前时刻选取解码得分最大的识别结果路径作为当前时刻的识别结果。接收到新的用户交互语音数据后,重新选取得分最大的识别结果路径,并更新之前的识别结果。
对语音识别结果进行语义理解可以采用现有技术,比如,基于文法规则的语义理解、基于本体知识库的语义理解、基于模型的语义理解等,对此本发明不做限定。
步骤103,确定当前语音段是否为单人语音。如果是,则执行步骤104;否则,执行步骤105。
在确定当前语音段是否为单人语音时,可以采用现有技术,比如,多说话人识别技术等。
步骤104,根据所述语义理解结果进行响应。
具体响应方式比如可以是生成响应文本,并将响应文本反馈给用户,或者是对所述语义理解结果的一个具体动作,对此本发明实施例不做限定。如果是响应文本,可以通过语音播报的方式将所述响应文本反馈给用户;如果是一个具体操作,可以将该操作的结果呈现给用户。
步骤105,根据当前语音段及其对应的语义理解结果确定所述当前语音段中各角色间指令关系。
具体地,可以首先从当前语音段及其对应的语义理解结果中提取指令关联特征;然后根据所述指令关联特征确定当前语音段中各角色间指令关系
步骤106,根据所述各角色间指令关系进行响应。
具体地,可以根据各角色间指令关系及预先设定的响应策略做出响应,如后半段是对前半段的干扰则只响应前半段意图、后半段是对前半段的补充则响应整句意图、前后半段独立(即重启新的一轮对话)则只响应后半段意图。
进一步地,在上述步骤103中,确定当前语音段是否为单人语音时,本发明实施例还可以采用基于说话人转折点判断模型的方法。具体地,可以预先构建说话人转折点判断模型,基于该说话人转折点判断模型来确定当前语音段是否为单人语音。
如图2所示,是本发明实施例中说话人转折点判断模型的构建流程,包括以下步骤:
步骤201,确定说话人转折点判断模型的拓扑结构。
所述说话人转折点判断模型的拓扑结构可以采用神经网络,如DNN(深度神经网络)、RNN(循环神经网络)、CNN(卷积神经网络)等,以BiLSTM(双向长短期记忆网络)为例,充分考虑到BiLSTM既能利用历史信息,又能利用未来信息的优势,可以更好地进行说话人转折点判断。
说话人转折点判断模型的拓扑结构主要包括输入层、隐层和输出层,其中输入层的输入为每帧语音的频谱特征,如39维的PLP(Perceptual Linear Predictive,感知线性预测)特征;隐层比如包含2层;输出层有2个节点,为是否有转折点判断的2维向量,有转折点为1,没有转折点则为0。
图3示出出了说话人转折点判断模型的时序示意图,其中,F1~Ft表示输入层节点输入的频谱特征向量,h1~ht为隐层各节点的输出向量。
步骤202,收集大量包含多人参与的交互语音数据,并对所述交互语音数据进行转折点标注。
步骤203,利用所述交互语音数据及标注信息训练得到说话人转折点判断模型参数。
模型参数的具体训练方法可采用现有技术,如BPTT(反向传播)算法,在此不再详细描述。
相应地,基于上述说话人转折点判断模型,在确定当前语音段是否为单人语音时,可以从当前语音段的每帧语音中提取相应的频谱特征,将提取的频谱特征输入所述说话人转折点判断模型,根据模型输出即可确定每帧语音中是否有转折点,如果有转折点,则表明转折点前后是不同的说话人的语音,相应地,如果当前语音段中有一帧语音有转折点,则确定当前语音段不是单人语音。当然,为了避免误判,还可以在当前语音段中有连续多帧(比如连续5帧)语音均有转折点时,才确定当前语音段不是单人语音,否则,确定当前语音段是单人语音。
前面提到,在确定当前语音段中各角色间指令关系时,可以先从当前语音段及其对应的语义理解结果中提取指令关联特征,然后根据所述指令关联特征确定当前语音段中各角色间指令关系。
所述指令关联特征包括:声学特征和语义相关度特征;其中,所述声学特征包括以下任意一种或多种:语音段的平均音量大小、语音段的信噪比、语音段与主麦克风的关系夹角,所述关系夹角是指语音段所属声源与主麦克风连线与水平线之间的夹角,如图9和图10所示,分别针对线性麦克风和环形麦克风阵列,示出了语音段所属声源与主麦克风连线与水平线之间的夹角θ。这些声学特征可以根据当前语音段得到。所述语义相关度特征可以用0-1之间的数值来表示,即语义相关度值,具体可以根据当前语音段对应的语义理解结果及预先构建的语义相关度模型来确定。
如图4所示,是本发明实施例中构建语义相关度模型的流程图,包括以下步骤:
步骤401,确定语义相关度模型的拓扑结构;
所述语义相关度模型的拓扑结构可以采用神经网络,比如以DNN为例,如图5所示,文本词向量经过卷积及线性变换层之后得到低阶词向量特征,然后与业务类型特征进行拼接,送入DNN回归网络,最终输出一个0-1之间的语义相关度值。
步骤402,收集大量包含多人参与的交互语音数据作为训练数据,并对所述训练数据进行语义相关度标注;
步骤403,提取所述训练数据的语义相关特征;
所述语义相关特征包括用户交互语音数据对应的文本词向量、用户指令涉及的业务类型。其中,文本词向量的提取可以采用现有技术,比如利用已知的字嵌入(wordembedding)矩阵,提取识别文本中每个词的词向量(如50维),然后再将前后两个语音片段的词向量进行拼接,形成一个固定长度的向量,不够的补0,如总计50*20=1000维。用户指令涉及的业务类型,比如可以是:闲聊、订票、天气、导航、音乐、乱说构成的6维向量。
步骤404,利用所述指令关联特征及标注信息训练得到指令关联识别模型
进一步地,在本发明实施例中,语音段中各角色间指令关系的确定也可以采用基于预先训练的模型来实现,即预先训练指令关联识别模型,将提取的指令关联特征输入该模型,根据模型的输出得到当前语音段中各角色间指令关系。
如图6所示,是本发明实施例中构建指令关联识别模型的流程图,包括以下步骤:
步骤601,确定指令关联识别模型的拓扑结构;
所述指令关联识别模型可以采用神经网络模型,以DNN为例,其模型拓扑结构主要包括输入层、隐层、输出层,其中输入层各节点分别输入相应的声学特征和语义相关度特征,比如可以优选上述三个声学特征,则输入层有4个节点;隐层同于常见的DNN隐层,一般取3-7层;输出层为3个节点,分别输出三种指令关联关系,即干扰、补充和独立。
步骤602,收集大量包含多人参与的交互语音数据作为训练数据,并对所述训练数据进行角色间关联关系标注;
角色间关联关系即:干扰、补充和独立这三种关系。
步骤603,提取所述训练数据的指令关联特征;
所述指令关联特征即前面提到的声学特征和语义相关度特征;所述声学特征包括:语音段的平均音量大小、语音段的信噪比、语音段与主麦克风的关系夹角;所述语义相关度特征为语义相关度值,具体可以从所述训练数据的每个语音段及对应的语义理解结果中提取,语义相关度特征的提取可以采用基于语义相关度模型的方式,具体过程可参照前面的描述,在此不再赘述。
步骤604,利用所述指令关联特征及标注信息训练得到指令关联识别模型。
模型的具体训练方法可采用现有技术,在此不再详细描述。
基于该指令关联识别模型,在确定当前语音段中各角色间指令关系时,可以将从当前语音段及其对应的语义理解结果中提取的指令关联特征输入所述指令关联识别模型,根据所述指令关联识别模型的输出即可得到当前语音段中各角色间指令关系。
本发明实施例提供的智能语音交互方法,针对多人参与的交互场景的特点,对接收到的用户交互语音数据,判断是否为单人语音;如果不是,则通过对交互数据进行更细致准确的分析,得到多人参与交互情况下各角色指令间关系,根据各角色指令间关系合理地做出交互响应,从而解决了传统语音交互方案因未考虑多人参与交互情况所带来的用户意图理解错误、系统交互响应错误的问题,有效地提高了用户体验。
相应地,本发明实施例还提供一种智能语音交互系统,如图7所示,是该系统的一种结构示意图,该系统包括以下各模块:
接收模块701,用于接收用户交互语音数据;
语音识别模块702,用于对所述交互语音数据进行语音识别,得到识别文本;
语义理解模块703,用于对所述识别文本进行语义理解,得到语义理解结果;
判断模块704,用于判断当前语音段是否为单人语音;
响应模块705,用于在所述判断模块704判断当前语音段是单人语音后,对所述语义理解结果进行响应;
指令关系识别模块706,用于在所述判断模块704判断当前语音段不是单人语音后,根据当前语音段及其对应的语义理解结果确定所述当前语音段中各角色间指令关系;
相应地,在该实施例中,所述响应模块705,还用于根据所述指令关系识别模块706确定的各角色间指令关系进行响应。
也就是说,在当前语音是单人语音的情况下,响应模块705直接语义理解结果进行响应,否则根据语义识别结果中各角色间指令关系进行响应。如后半段是对前半段的干扰则只响应前半段意图、后半段是对前半段的补充则响应整句意图、前后半段独立(即重启新的一轮对话)则只响应后半段意图,从而避免了在有多人参与交互的情况下响应错误的问题,提高了用户体验。
需要说明的是,上述判断模块704在判断当前语音段是否为单人语音时,可以采用现有技术,比如,多说话人识别技术等;也可以采用基于模型的方式,比如,由说话人转折点判断模型构建模块预先构建说话人转折点判断模型,所述说话人转折点判断模型构建模块可以作为本发明系统的一部分,也可以独立于本发明系统,对此本发明实施例不做限定。
如前面所述,所述说话人转折点判断模型可以采用深层神经网络,如DNN、RNN、CNN等,所述说话人转折点判断模型构建模块的一种具体结构可以包括以下各单元:
第一拓扑结构确定单元,用于确定说话人转折点判断模型的拓扑结构;
第一数据收集单元,用于收集大量包含多人参与的交互语音数据,并对所述交互语音数据进行转折点标注;
第一参数训练单元,用于利用所述交互语音数据及标注信息训练得到说话人转折点判断模型参数。
相应地,基于该说话人转折点判断模型,上述判断模块704的一种具体结构可以包括以下各单元:
频谱特征提取单元,用于对于当前语音段中的每帧语音,提取其频谱特征;
转折点确定单元,用于将提取的频谱特征输入所述说话人转折点判断模型,根据所述说话人转折点判断模型的输出确定每帧语音是否有转折点;
判断单元,用于在当前语音段中有至少一帧语音有转折点时,确定当前语音段不是单人语音;否则,确定当前语音段是单人语音。
上述指令关系识别模块706具体可以从当前语音段及其对应的语义理解结果中提取指令关联特征,然后利用这些特征确定当前语音段中各角色间指令关系。如图8所示,所述指令关系识别模块706的一种具体结构包括:指令关联特征提取单元761和指令关系确定单元762,其中:所述指令关联特征提取单元761用于从当前语音段及其对应的语义理解结果中提取指令关联特征;所述指令关系确定单元762用于根据所述指令关联特征确定当前语音段中各角色间指令关系。
所述指令关联特征包括:声学特征和语义相关度特征;所述声学特征包括以下任意一种或多种:语音段的平均音量大小、语音段的信噪比、语音段与主麦克风的关系夹角;所述语义相关度特征为语义相关度值。相应地,所述指令关联特征提取单元可以包括以下各子单元:
声学特征提取子单元,用于从当前语音段中提取所述声学特征,具体可以采用现有技术;
语义相关度特征提取子单元,用于根据当前语音段对应的语义理解结果确定当前语音段的语义相关度值,具体可以采用基于模型的方式,比如,由语义相关度模型构建模块预先构建语义相关度模型。
所述语义相关度模型构建模块的一种具体结构包括以下各单元:
第二拓扑结构确定单元,用于确定语义相关度模型的拓扑结构;
第二数据收集单元,用于收集大量包含多人参与的交互语音数据作为训练数据,并对所述训练数据进行语义相关度标注;
语义相关特征提取单元,用于提取所述训练数据的语义相关特征;
第二训练单元,用于利用所述语义相关特征及标注信息训练得到指令关联识别模型。
相应地,基于上述语义相关度模型,所述语义相关度特征提取子单元可以首先从当前语音段对应的语义理解结果中提取语义相关特征;然后将所述语义相关特征输入所述语义相关度模型,根据所述语义相关度模型的输出即可得到当前语音段的语义相关度值。
需要说明的是,上述所述语义相关度模型构建模块可以作为本发明系统的一部分,也可以独立于本发明系统,对此本发明实施例不做限定。
上述指令关系确定单元762具体可以采用基于模型的方式来确定当前语音段中各角色间指令关系,比如,由指令关联识别模型构建模块预先构建指令关联识别模型。
所述指令关联识别模型构建模块的一种具体结构包括以下各单元;
第三拓扑结构确定单元,用于确定指令关联识别模型的拓扑结构;
第三数据收集单元,收集大量包含多人参与的交互语音数据作为训练数据,并对所述训练数据进行角色间关联关系标注;
指令关联特征提取单元,用于提取所述训练数据的指令关联特征;
第三训练单元,用于利用所述指令关联特征及标注信息训练得到指令关联识别模型。
相应地,基于上述指令关联识别模型指令关系确定单元762可以将所述指令关联特征输入所述指令关联识别模型,根据所述指令关联识别模型的输出即可得到当前语音段中各角色间指令关系。
本发明实施例提供的智能语音交互系统,针对多人参与的交互场景的特点,对接收到的用户交互语音数据,判断是否为单人语音;如果不是,则通过对交互数据进行更细致准确的分析,得到多人参与交互情况下各角色指令间关系,根据各角色指令间关系合理地做出交互响应,从而解决了传统语音交互方案因未考虑多人参与交互情况所带来的用户意图理解错误、系统交互响应错误的问题,有效地提高了用户体验。本发明智能语音交互系统可以应用于各种人机交互设备或装置中,对交互环境适应性强,响应准确率高。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种智能语音交互方法,其特征在于,所述方法包括:
接收用户交互语音数据;
对所述交互语音数据进行语音识别及语义理解,得到识别文本及语义理解结果;
确定当前语音段是否为单人语音;
如果是,则根据所述语义理解结果进行响应;
否则,根据当前语音段及其对应的语义理解结果确定所述当前语音段中各角色间指令关系,然后根据所述各角色间指令关系进行响应。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:预先构建说话人转折点判断模型,所述说话人转折点判断模型的构建过程包括:
确定说话人转折点判断模型的拓扑结构;
收集大量包含多人参与的交互语音数据,并对所述交互语音数据进行转折点标注;
利用所述交互语音数据及标注信息训练得到说话人转折点判断模型参数;
所述确定当前语音段是否为单人语音包括:
对于当前语音段中的每帧语音,提取其频谱特征;
将提取的频谱特征输入所述说话人转折点判断模型,根据所述说话人转折点判断模型的输出确定每帧语音是否有转折点;
如果当前语音段中有至少一帧语音有转折点,则确定当前语音段不是单人语音;否则,确定当前语音段是单人语音。
3.根据权利要求1所述的方法,其特征在于,所述根据当前语音段及其对应的语义理解结果确定所述当前语音段中各角色间指令关系包括:
从当前语音段及其对应的语义理解结果中提取指令关联特征;
根据所述指令关联特征确定当前语音段中各角色间指令关系。
4.根据权利要求3所述的方法,其特征在于,所述指令关联特征包括:声学特征和语义相关度特征;所述声学特征包括以下任意一种或多种:语音段的平均音量大小、语音段的信噪比、语音段与主麦克风的关系夹角,所述关系夹角是指语音段所属声源与主麦克风连线与水平线之间的夹角;所述语义相关度特征为语义相关度值;
所述从当前语音段及其对应的语义理解结果中提取指令关联特征包括:
从当前语音段中提取所述声学特征;
根据当前语音段对应的语义理解结果确定当前语音段的语义相关度值。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:预先构建语义相关度模型,所述语义相关度模型的构建过程包括:
确定语义相关度模型的拓扑结构;
收集大量包含多人参与的交互语音数据作为训练数据,并对所述训练数据进行语义相关度标注;
提取所述训练数据的语义相关特征;
利用所述语义相关特征及标注信息训练得到指令关联识别模型;
所述根据当前语音段对应的语义理解结果确定当前语音段的语义相关度值包括:
从当前语音段对应的语义理解结果中提取语义相关特征;
将所述语义相关特征输入所述语义相关度模型,根据所述语义相关度模型的输出得到当前语音段的语义相关度值。
6.根据权利要求5所述的方法,其特征在于,所述语义相关特征包括:交互语音数据对应的文本词向量、交互语音数据中的用户指令涉及的业务类型。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:预先构建指令关联识别模型,所述指令关联识别模型的构建过程包括;
确定指令关联识别模型的拓扑结构;
收集大量包含多人参与的交互语音数据作为训练数据,并对所述训练数据进行角色间关联关系标注;
提取所述训练数据的指令关联特征;
利用所述指令关联特征及标注信息训练得到指令关联识别模型;
所述根据所述指令关联特征确定当前语音段中各角色间指令关系包括:
将所述指令关联特征输入所述指令关联识别模型,根据所述指令关联识别模型的输出得到当前语音段中各角色间指令关系。
8.根据权利要求3至7任一项所述的方法,其特征在于,所述各角色间指令关系包括:干扰、补充和独立。
9.一种智能语音交互系统,其特征在于,所述系统包括:
接收模块,用于接收用户交互语音数据;
语音识别模块,用于对所述交互语音数据进行语音识别,得到识别文本;
语义理解模块,用于对所述识别文本进行语义理解,得到语义理解结果;
判断模块,用于判断当前语音段是否为单人语音;
响应模块,用于在所述判断模块判断当前语音段是单人语音后,对所述语义理解结果进行响应;
指令关系识别模块,用于在所述判断模块判断当前语音段不是单人语音后,根据当前语音段及其对应的语义理解结果确定所述当前语音段中各角色间指令关系;
所述响应模块,还用于根据所述指令关系识别模块确定的各角色间指令关系进行响应。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括:说话人转折点判断模型构建模块,用于预先构建说话人转折点判断模型;所述说话人转折点判断模型构建模块包括:
第一拓扑结构确定单元,用于确定说话人转折点判断模型的拓扑结构;
第一数据收集单元,用于收集大量包含多人参与的交互语音数据,并对所述交互语音数据进行转折点标注;
第一参数训练单元,用于利用所述交互语音数据及标注信息训练得到说话人转折点判断模型参数;
所述判断模块包括:
频谱特征提取单元,用于对于当前语音段中的每帧语音,提取其频谱特征;
转折点确定单元,用于将提取的频谱特征输入所述说话人转折点判断模型,根据所述说话人转折点判断模型的输出确定每帧语音是否有转折点;
判断单元,用于在当前语音段中有至少一帧语音有转折点时,确定当前语音段不是单人语音;否则,确定当前语音段是单人语音。
11.根据权利要求9所述的系统,其特征在于,所述指令关系识别模块包括:
指令关联特征提取单元,用于从当前语音段及其对应的语义理解结果中提取指令关联特征;
指令关系确定单元,用于根据所述指令关联特征确定当前语音段中各角色间指令关系。
12.根据权利要求11所述的系统,其特征在于,所述指令关联特征包括:声学特征和语义相关度特征;所述声学特征包括以下任意一种或多种:语音段的平均音量大小、语音段的信噪比、语音段与主麦克风的关系夹角,所述关系夹角是指语音段所属声源与主麦克风连线与水平线之间的夹角;所述语义相关度特征为语义相关度值;
所述指令关联特征提取单元包括:
声学特征提取子单元,用于从当前语音段中提取所述声学特征;
语义相关度特征提取子单元,用于根据当前语音段对应的语义理解结果确定当前语音段的语义相关度值。
13.根据权利要求12所述的系统,其特征在于,所述系统还包括:语义相关度模型构建模块,用于预先构建语义相关度模型;所述语义相关度模型构建模块包括:
第二拓扑结构确定单元,用于确定语义相关度模型的拓扑结构;
第二数据收集单元,用于收集大量包含多人参与的交互语音数据作为训练数据,并对所述训练数据进行语义相关度标注;
语义相关特征提取单元,用于提取所述训练数据的语义相关特征;
第二训练单元,用于利用所述语义相关特征及标注信息训练得到指令关联识别模型;
所述语义相关度特征提取子单元,具体用于从当前语音段对应的语义理解结果中提取语义相关特征;将所述语义相关特征输入所述语义相关度模型,根据所述语义相关度模型的输出得到当前语音段的语义相关度值。
14.根据权利要求11所述的系统,其特征在于,所述系统还包括:指令关联识别模型构建模块,用于预先构建指令关联识别模型;所述指令关联识别模型构建模块包括;
第三拓扑结构确定单元,用于确定指令关联识别模型的拓扑结构;
第三数据收集单元,收集大量包含多人参与的交互语音数据作为训练数据,并对所述训练数据进行角色间关联关系标注;
指令关联特征提取单元,用于提取所述训练数据的指令关联特征;
第三训练单元,用于利用所述指令关联特征及标注信息训练得到指令关联识别模型;
所述指令关系确定单元,具体用于将所述指令关联特征输入所述指令关联识别模型,根据所述指令关联识别模型的输出得到当前语音段中各角色间指令关系。
CN201710676203.6A 2017-08-09 2017-08-09 一种智能语音交互方法及系统 Active CN107437415B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710676203.6A CN107437415B (zh) 2017-08-09 2017-08-09 一种智能语音交互方法及系统
PCT/CN2018/096705 WO2019029352A1 (zh) 2017-08-09 2018-07-23 一种智能语音交互方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710676203.6A CN107437415B (zh) 2017-08-09 2017-08-09 一种智能语音交互方法及系统

Publications (2)

Publication Number Publication Date
CN107437415A CN107437415A (zh) 2017-12-05
CN107437415B true CN107437415B (zh) 2020-06-02

Family

ID=60460483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710676203.6A Active CN107437415B (zh) 2017-08-09 2017-08-09 一种智能语音交互方法及系统

Country Status (2)

Country Link
CN (1) CN107437415B (zh)
WO (1) WO2019029352A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437415B (zh) * 2017-08-09 2020-06-02 科大讯飞股份有限公司 一种智能语音交互方法及系统
CN108159687B (zh) * 2017-12-19 2021-06-04 芋头科技(杭州)有限公司 一种基于多人交互过程的自动引导系统及智能音箱设备
CN108053828A (zh) * 2017-12-25 2018-05-18 无锡小天鹅股份有限公司 确定控制指令的方法、装置和家用电器
CN108197115B (zh) * 2018-01-26 2022-04-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
CN108520749A (zh) * 2018-03-06 2018-09-11 杭州孚立计算机软件有限公司 一种基于语音的网格化管理控制方法及控制装置
CN111819626A (zh) * 2018-03-07 2020-10-23 华为技术有限公司 一种语音交互的方法及装置
CN108766460B (zh) * 2018-05-15 2020-07-10 浙江口碑网络技术有限公司 基于语音的交互方法及系统
CN108874895B (zh) * 2018-05-22 2021-02-09 北京小鱼在家科技有限公司 交互信息推送方法、装置、计算机设备及存储介质
CN108847225B (zh) * 2018-06-04 2021-01-12 上海智蕙林医疗科技有限公司 一种机场多人语音服务的机器人及其方法
CN109102803A (zh) * 2018-08-09 2018-12-28 珠海格力电器股份有限公司 家电设备的控制方法、装置、存储介质及电子装置
CN109065051B (zh) * 2018-09-30 2021-04-09 珠海格力电器股份有限公司 一种语音识别处理方法及装置
WO2020211006A1 (zh) * 2019-04-17 2020-10-22 深圳市欢太科技有限公司 语音识别方法、装置、存储介质及电子设备
CN112992132A (zh) * 2019-12-02 2021-06-18 浙江思考者科技有限公司 一种ai智能语音交互程序桥接一键申请小程序
CN111081220B (zh) * 2019-12-10 2022-08-16 广州小鹏汽车科技有限公司 车载语音交互方法、全双工对话系统、服务器和存储介质
CN111583956B (zh) * 2020-04-30 2024-03-26 联想(北京)有限公司 语音处理方法和装置
CN111785266A (zh) * 2020-05-28 2020-10-16 博泰车联网(南京)有限公司 一种语音交互方法及系统
CN111897909B (zh) * 2020-08-03 2022-08-05 兰州理工大学 一种基于深度感知哈希的密文语音检索方法及系统
CN111968680A (zh) * 2020-08-14 2020-11-20 北京小米松果电子有限公司 一种语音处理方法、装置及存储介质
CN114822539A (zh) * 2022-06-24 2022-07-29 深圳市友杰智新科技有限公司 双窗口语音解码方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102800315A (zh) * 2012-07-13 2012-11-28 上海博泰悦臻电子设备制造有限公司 车载语音控制方法及系统
CN104333956A (zh) * 2014-11-19 2015-02-04 国网冀北电力有限公司廊坊供电公司 用于继电保护机房内的照明设备的控制方法和系统
CN104732969A (zh) * 2013-12-23 2015-06-24 鸿富锦精密工业(深圳)有限公司 语音处理系统及语音处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379638A1 (en) * 2015-06-26 2016-12-29 Amazon Technologies, Inc. Input speech quality matching
CN107437415B (zh) * 2017-08-09 2020-06-02 科大讯飞股份有限公司 一种智能语音交互方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102800315A (zh) * 2012-07-13 2012-11-28 上海博泰悦臻电子设备制造有限公司 车载语音控制方法及系统
CN104732969A (zh) * 2013-12-23 2015-06-24 鸿富锦精密工业(深圳)有限公司 语音处理系统及语音处理方法
CN104333956A (zh) * 2014-11-19 2015-02-04 国网冀北电力有限公司廊坊供电公司 用于继电保护机房内的照明设备的控制方法和系统

Also Published As

Publication number Publication date
CN107437415A (zh) 2017-12-05
WO2019029352A1 (zh) 2019-02-14

Similar Documents

Publication Publication Date Title
CN107437415B (zh) 一种智能语音交互方法及系统
CN107665708B (zh) 智能语音交互方法及系统
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN108509619B (zh) 一种语音交互方法及设备
CN107767863B (zh) 语音唤醒方法、系统及智能终端
CN107240398B (zh) 智能语音交互方法及装置
CN108711421B (zh) 一种语音识别声学模型建立方法及装置和电子设备
CN108305643B (zh) 情感信息的确定方法和装置
CN101923854B (zh) 一种交互式语音识别系统和方法
KR101622111B1 (ko) 대화 시스템 및 그의 대화 방법
CN107767861B (zh) 语音唤醒方法、系统及智能终端
CN104036774A (zh) 藏语方言识别方法及系统
CN110136749A (zh) 说话人相关的端到端语音端点检测方法和装置
CN108074576A (zh) 审讯场景下的说话人角色分离方法及系统
CN111261162B (zh) 语音识别方法、语音识别装置及存储介质
CN110634469B (zh) 基于人工智能的语音信号处理方法、装置及存储介质
JP6915637B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN113314119B (zh) 语音识别智能家居控制方法及装置
CN112825248A (zh) 语音处理方法、模型训练方法、界面显示方法及设备
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
CN111178081A (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
CN107507627B (zh) 语音数据热度分析方法及系统
CN110853669A (zh) 音频识别方法、装置及设备
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
CN112037772B (zh) 基于多模态的响应义务检测方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant