CN108492824A - 一种ai智能式的语音交互方法 - Google Patents

一种ai智能式的语音交互方法 Download PDF

Info

Publication number
CN108492824A
CN108492824A CN201810185769.3A CN201810185769A CN108492824A CN 108492824 A CN108492824 A CN 108492824A CN 201810185769 A CN201810185769 A CN 201810185769A CN 108492824 A CN108492824 A CN 108492824A
Authority
CN
China
Prior art keywords
voice data
speech recognition
voice
text
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810185769.3A
Other languages
English (en)
Inventor
王亚光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Sino Guangdong Communication Technology Co Ltd
Original Assignee
Zhuhai Sino Guangdong Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Sino Guangdong Communication Technology Co Ltd filed Critical Zhuhai Sino Guangdong Communication Technology Co Ltd
Priority to CN201810185769.3A priority Critical patent/CN108492824A/zh
Publication of CN108492824A publication Critical patent/CN108492824A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种AI智能式的语音交互方法,包括:该方法包括如下步骤:S1、接收语音数据;对所述语音数据进行语音识别,得到语音识别结果;S2、根据预先构建的基于语义层面的判断模型对所述语音识别结果进行判断,得到模型输出结果;S3、根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。该方法能够有效地确定所述语音数据是否为人机交互语音数据,有效地减少了噪声语音数据对人机交互的影响,降低了人机交互系统的误响应。

Description

一种AI智能式的语音交互方法
技术领域
本发明涉及一种语音交互方法的技术领域,尤其是一种AI智能式的语音交互方法。
背景技术
近年来,随着人工智能技术的迅猛发展,语音识别、语义理解、语音合成等技术也随之进入了实用水平。人们越来越来渴望可以自然便捷地与机器进行交流,从传统的一问一答的语音交互系统到目前较流行的多轮问答的语音交互系统,AI交互越来越接近人人交互,在用户体验上有了很大的提升。然而由于实际的交互环境复杂多变,经常会有各种噪声语音的输入,引起交互系统的误响应。为了防止这种情况的出现,现有交互系统一般采用提示语机制,即在接收语音数据后,先进行提示语识别,识别到提示语后,机器被唤醒,然后再进行后续交互。
然而,由于在实际语音交互时,交互环境经常是复杂多变的,现有系统并不能防止交互过程中噪声的输入;在语音交互过程中,机器接收的语音数据经常会存在噪声,如背景噪声、机器自身的播报声、非交互语音(如人人交谈的语音)等,都会对交互过程产生影响,干扰交互系统,导致机器的误响应,尤其是人人交谈的语音,现有系统无法判断当前人人交谈的语音数据是否是交互语音数据,从而在很大程度上引起机器的误响应,增加了系统负载,降低了用户体验。
发明内容
本发明的目的是为了解决上述现有技术的不足而提供一种AI智能式的语音交互方法。
为了实现上述目的,本发明所设计的一种AI智能式的语音交互方法,该方法包括如下步骤:
S1、接收语音数据;对所述语音数据进行语音识别,得到语音识别结果;
S2、根据预先构建的基于语义层面的判断模型对所述语音识别结果进行判断,得到模型输出结果;
S3、根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。
进一步,在步骤S1中的语音识别的数据识别方法是:在识别过程中预先隔离噪音以及杂音。
进一步,所述方法还包括:按以下方式构建判断模型:确定判断模型拓扑结构;收集大量人机交互语音数据及其对应的语音识别文本;对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;提取所述分词词串中各词的语义特征,并标注判断结果;基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征,训练得到判断模型。
进一步,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;所述输入层的输入包括:语音识别文本包含每个词的语义特征;所述输出层的输出包括:判断结果。
进一步,所述输入层的输入还包括:语音识别文本的对话历史状态特征,所述对话历史状态特征包括:上一轮交互的响应文本信息,及上一轮交互语音识别文本对信息槽的填充情况。
进一步,在对所述语音数据进行语音识别之前,对所述语音数据进行提示语检测;如果检测到提示语,则执行对所述语音数据进行语音识别的步骤;如果未检测到提示语,则判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间;如果否,则执行对所述语音数据进行语音识别的步骤。
本发明得到的一种AI智能式的语音交互方法,能够有效地确定所述语音数据是否为人机交互语音数据,有效地减少了噪声语音数据对人机交互的影响,降低了人机交互系统的误响应。
具体实施方式
下面结合实施例对发明创造作进一步说明。
实施例1:
本实施例提供的一种AI智能式的语音交互方法,该方法包括如下步骤:
S1、接收语音数据;对所述语音数据进行语音识别,得到语音识别结果;
S2、根据预先构建的基于语义层面的判断模型对所述语音识别结果进行判断,得到模型输出结果;
S3、根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。
进一步,所在步骤S1中的语音识别的数据识别方法是:在识别过程中预先隔离噪音以及杂音。
进一步,所述方法还包括:按以下方式构建判断模型:确定判断模型拓扑结构;收集大量人机交互语音数据及其对应的语音识别文本;对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;提取所述分词词串中各词的语义特征,并标注判断结果;基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征,训练得到判断模型
进一步,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;所述输入层的输入包括:语音识别文本包含每个词的语义特征;所述输出层的输出包括:判断结果。
进一步,所述输入层的输入还包括:语音识别文本的对话历史状态特征,所述对话历史状态特征包括:上一轮交互的响应文本信息,及上一轮交互语音识别文本对信息槽的填充情况。
进一步,所在对所述语音数据进行语音识别之前,对所述语音数据进行提示语检测;如果检测到提示语,则执行对所述语音数据进行语音识别的步骤;如果未检测到提示语,则判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间;如果否,则执行对所述语音数据进行语音识别的步骤。

Claims (6)

1.一种AI智能式的语音交互方法,其特征在于,该方法包括如下步骤:
S1、接收语音数据;对所述语音数据进行语音识别,得到语音识别结果;
S2、根据预先构建的基于语义层面的判断模型对所述语音识别结果进行判断,得到模型输出结果;
S3、根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。
2.根据权利要求 1 所述的一种AI智能式的语音交互方法,其特征在于,在步骤S1中的语音识别的数据识别方法是:在识别过程中预先隔离噪音以及杂音。
3.根据权利要求 2所述的一种AI智能式的语音交互方法,其特征在于,所述方法还包括:按以下方式构建判断模型:确定判断模型拓扑结构;收集大量人机交互语音数据及其对应的语音识别文本;对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;提取所述分词词串中各词的语义特征,并标注判断结果;基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征,训练得到判断模型。
4.根据权利要求 3所述的一种AI智能式的语音交互方法,其特征在于,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;所述输入层的输入包括:语音识别文本包含每个词的语义特征;所述输出层的输出包括:判断结果。
5.根据权利要求 4所述的一种AI智能式的语音交互方法,其特征在于,所述输入层的输入还包括:语音识别文本的对话历史状态特征,所述对话历史状态特征包括:上一轮交互的响应文本信息,及上一轮交互语音识别文本对信息槽的填充情况。
6.根据权利要求5所述的一种AI智能式的语音交互方法,其特征在于,在对所述语音数据进行语音识别之前,对所述语音数据进行提示语检测;如果检测到提示语,则执行对所述语音数据进行语音识别的步骤;如果未检测到提示语,则判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间;如果否,则执行对所述语音数据进行语音识别的步骤。
CN201810185769.3A 2018-03-07 2018-03-07 一种ai智能式的语音交互方法 Pending CN108492824A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810185769.3A CN108492824A (zh) 2018-03-07 2018-03-07 一种ai智能式的语音交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810185769.3A CN108492824A (zh) 2018-03-07 2018-03-07 一种ai智能式的语音交互方法

Publications (1)

Publication Number Publication Date
CN108492824A true CN108492824A (zh) 2018-09-04

Family

ID=63341762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810185769.3A Pending CN108492824A (zh) 2018-03-07 2018-03-07 一种ai智能式的语音交互方法

Country Status (1)

Country Link
CN (1) CN108492824A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119078A (zh) * 2018-10-26 2019-01-01 北京石头世纪科技有限公司 自动机器人控制方法、装置、自动机器人和介质
CN109366504A (zh) * 2018-12-17 2019-02-22 广州天高软件科技有限公司 一种智能展会服务机器人系统
CN110058835A (zh) * 2019-02-26 2019-07-26 百度国际科技(深圳)有限公司 设备控制方法、装置及设备
CN111583956A (zh) * 2020-04-30 2020-08-25 联想(北京)有限公司 语音处理方法和装置
CN113223501A (zh) * 2021-04-27 2021-08-06 北京三快在线科技有限公司 一种语音交互业务的执行方法及执行装置
CN114283794A (zh) * 2021-12-14 2022-04-05 达闼科技(北京)有限公司 噪音过滤方法、装置、电子设备和计算机可读存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109119078A (zh) * 2018-10-26 2019-01-01 北京石头世纪科技有限公司 自动机器人控制方法、装置、自动机器人和介质
CN109366504A (zh) * 2018-12-17 2019-02-22 广州天高软件科技有限公司 一种智能展会服务机器人系统
CN110058835A (zh) * 2019-02-26 2019-07-26 百度国际科技(深圳)有限公司 设备控制方法、装置及设备
CN111583956A (zh) * 2020-04-30 2020-08-25 联想(北京)有限公司 语音处理方法和装置
CN111583956B (zh) * 2020-04-30 2024-03-26 联想(北京)有限公司 语音处理方法和装置
CN113223501A (zh) * 2021-04-27 2021-08-06 北京三快在线科技有限公司 一种语音交互业务的执行方法及执行装置
CN113223501B (zh) * 2021-04-27 2022-11-04 北京三快在线科技有限公司 一种语音交互业务的执行方法及执行装置
CN114283794A (zh) * 2021-12-14 2022-04-05 达闼科技(北京)有限公司 噪音过滤方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108492824A (zh) 一种ai智能式的语音交互方法
CN103021409B (zh) 一种语音启动拍照系统
CN106328166B (zh) 人机对话异常检测系统及方法
US10446150B2 (en) In-vehicle voice command recognition method and apparatus, and storage medium
CN107437415A (zh) 一种智能语音交互方法及系统
CN106940998A (zh) 一种设定操作的执行方法及装置
US20140156276A1 (en) Conversation system and a method for recognizing speech
CN107665708A (zh) 智能语音交互方法及系统
CN105070290A (zh) 人机语音交互方法及系统
US20020069055A1 (en) Apparatus and method for automatically generating punctuation marks continuous speech recognition
CN108320738A (zh) 语音数据处理方法及装置、存储介质、电子设备
CN107767863A (zh) 语音唤醒方法、系统及智能终端
CN106710599A (zh) 一种基于深度神经网络的特定声源检测方法与系统
CN109036412A (zh) 语音唤醒方法和系统
CN107122807A (zh) 一种家庭监控方法、服务端及计算机可读存储介质
CN106373558A (zh) 语音识别文本处理方法及系统
CN107704612A (zh) 用于智能机器人的对话交互方法及系统
WO2021212929A1 (zh) 主动式外呼智能语音机器人多语种交互方法及装置
CN107767861A (zh) 语音唤醒方法、系统及智能终端
CN108320732A (zh) 生成目标说话人语音识别计算模型的方法和装置
CN112581938B (zh) 基于人工智能的语音断点检测方法、装置和设备
CN105895080A (zh) 语音识别模型训练方法、说话人类型识别方法及装置
CN101510423B (zh) 一种分层次、交互式发音质量评估与诊断系统
CN112837401A (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN108899033A (zh) 一种确定说话人特征的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180904