CN108492824A - 一种ai智能式的语音交互方法 - Google Patents
一种ai智能式的语音交互方法 Download PDFInfo
- Publication number
- CN108492824A CN108492824A CN201810185769.3A CN201810185769A CN108492824A CN 108492824 A CN108492824 A CN 108492824A CN 201810185769 A CN201810185769 A CN 201810185769A CN 108492824 A CN108492824 A CN 108492824A
- Authority
- CN
- China
- Prior art keywords
- voice data
- speech recognition
- voice
- text
- interactive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000003993 interaction Effects 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000035922 thirst Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种AI智能式的语音交互方法,包括:该方法包括如下步骤:S1、接收语音数据;对所述语音数据进行语音识别,得到语音识别结果;S2、根据预先构建的基于语义层面的判断模型对所述语音识别结果进行判断,得到模型输出结果;S3、根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。该方法能够有效地确定所述语音数据是否为人机交互语音数据,有效地减少了噪声语音数据对人机交互的影响,降低了人机交互系统的误响应。
Description
技术领域
本发明涉及一种语音交互方法的技术领域,尤其是一种AI智能式的语音交互方法。
背景技术
近年来,随着人工智能技术的迅猛发展,语音识别、语义理解、语音合成等技术也随之进入了实用水平。人们越来越来渴望可以自然便捷地与机器进行交流,从传统的一问一答的语音交互系统到目前较流行的多轮问答的语音交互系统,AI交互越来越接近人人交互,在用户体验上有了很大的提升。然而由于实际的交互环境复杂多变,经常会有各种噪声语音的输入,引起交互系统的误响应。为了防止这种情况的出现,现有交互系统一般采用提示语机制,即在接收语音数据后,先进行提示语识别,识别到提示语后,机器被唤醒,然后再进行后续交互。
然而,由于在实际语音交互时,交互环境经常是复杂多变的,现有系统并不能防止交互过程中噪声的输入;在语音交互过程中,机器接收的语音数据经常会存在噪声,如背景噪声、机器自身的播报声、非交互语音(如人人交谈的语音)等,都会对交互过程产生影响,干扰交互系统,导致机器的误响应,尤其是人人交谈的语音,现有系统无法判断当前人人交谈的语音数据是否是交互语音数据,从而在很大程度上引起机器的误响应,增加了系统负载,降低了用户体验。
发明内容
本发明的目的是为了解决上述现有技术的不足而提供一种AI智能式的语音交互方法。
为了实现上述目的,本发明所设计的一种AI智能式的语音交互方法,该方法包括如下步骤:
S1、接收语音数据;对所述语音数据进行语音识别,得到语音识别结果;
S2、根据预先构建的基于语义层面的判断模型对所述语音识别结果进行判断,得到模型输出结果;
S3、根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。
进一步,在步骤S1中的语音识别的数据识别方法是:在识别过程中预先隔离噪音以及杂音。
进一步,所述方法还包括:按以下方式构建判断模型:确定判断模型拓扑结构;收集大量人机交互语音数据及其对应的语音识别文本;对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;提取所述分词词串中各词的语义特征,并标注判断结果;基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征,训练得到判断模型。
进一步,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;所述输入层的输入包括:语音识别文本包含每个词的语义特征;所述输出层的输出包括:判断结果。
进一步,所述输入层的输入还包括:语音识别文本的对话历史状态特征,所述对话历史状态特征包括:上一轮交互的响应文本信息,及上一轮交互语音识别文本对信息槽的填充情况。
进一步,在对所述语音数据进行语音识别之前,对所述语音数据进行提示语检测;如果检测到提示语,则执行对所述语音数据进行语音识别的步骤;如果未检测到提示语,则判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间;如果否,则执行对所述语音数据进行语音识别的步骤。
本发明得到的一种AI智能式的语音交互方法,能够有效地确定所述语音数据是否为人机交互语音数据,有效地减少了噪声语音数据对人机交互的影响,降低了人机交互系统的误响应。
具体实施方式
下面结合实施例对发明创造作进一步说明。
实施例1:
本实施例提供的一种AI智能式的语音交互方法,该方法包括如下步骤:
S1、接收语音数据;对所述语音数据进行语音识别,得到语音识别结果;
S2、根据预先构建的基于语义层面的判断模型对所述语音识别结果进行判断,得到模型输出结果;
S3、根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。
进一步,所在步骤S1中的语音识别的数据识别方法是:在识别过程中预先隔离噪音以及杂音。
进一步,所述方法还包括:按以下方式构建判断模型:确定判断模型拓扑结构;收集大量人机交互语音数据及其对应的语音识别文本;对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;提取所述分词词串中各词的语义特征,并标注判断结果;基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征,训练得到判断模型
进一步,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;所述输入层的输入包括:语音识别文本包含每个词的语义特征;所述输出层的输出包括:判断结果。
进一步,所述输入层的输入还包括:语音识别文本的对话历史状态特征,所述对话历史状态特征包括:上一轮交互的响应文本信息,及上一轮交互语音识别文本对信息槽的填充情况。
进一步,所在对所述语音数据进行语音识别之前,对所述语音数据进行提示语检测;如果检测到提示语,则执行对所述语音数据进行语音识别的步骤;如果未检测到提示语,则判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间;如果否,则执行对所述语音数据进行语音识别的步骤。
Claims (6)
1.一种AI智能式的语音交互方法,其特征在于,该方法包括如下步骤:
S1、接收语音数据;对所述语音数据进行语音识别,得到语音识别结果;
S2、根据预先构建的基于语义层面的判断模型对所述语音识别结果进行判断,得到模型输出结果;
S3、根据所述模型输出结果确定所述语音数据是否为人机交互语音数据;如果是,则对所述语音识别结果进行语义理解,根据语义理解结果生成交互结果,所述交互结果包括响应文本。
2.根据权利要求 1 所述的一种AI智能式的语音交互方法,其特征在于,在步骤S1中的语音识别的数据识别方法是:在识别过程中预先隔离噪音以及杂音。
3.根据权利要求 2所述的一种AI智能式的语音交互方法,其特征在于,所述方法还包括:按以下方式构建判断模型:确定判断模型拓扑结构;收集大量人机交互语音数据及其对应的语音识别文本;对所述语音识别文本中用户提问或回答语句文本进行分词,并以单轮回答或提问为单位,获取分词词串;提取所述分词词串中各词的语义特征,并标注判断结果;基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征,训练得到判断模型。
4.根据权利要求 3所述的一种AI智能式的语音交互方法,其特征在于,所述模型拓扑结构采用RNN模型,包括输入层、中间隐层和输出层;所述输入层的输入包括:语音识别文本包含每个词的语义特征;所述输出层的输出包括:判断结果。
5.根据权利要求 4所述的一种AI智能式的语音交互方法,其特征在于,所述输入层的输入还包括:语音识别文本的对话历史状态特征,所述对话历史状态特征包括:上一轮交互的响应文本信息,及上一轮交互语音识别文本对信息槽的填充情况。
6.根据权利要求5所述的一种AI智能式的语音交互方法,其特征在于,在对所述语音数据进行语音识别之前,对所述语音数据进行提示语检测;如果检测到提示语,则执行对所述语音数据进行语音识别的步骤;如果未检测到提示语,则判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间;如果否,则执行对所述语音数据进行语音识别的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810185769.3A CN108492824A (zh) | 2018-03-07 | 2018-03-07 | 一种ai智能式的语音交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810185769.3A CN108492824A (zh) | 2018-03-07 | 2018-03-07 | 一种ai智能式的语音交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108492824A true CN108492824A (zh) | 2018-09-04 |
Family
ID=63341762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810185769.3A Pending CN108492824A (zh) | 2018-03-07 | 2018-03-07 | 一种ai智能式的语音交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108492824A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109119078A (zh) * | 2018-10-26 | 2019-01-01 | 北京石头世纪科技有限公司 | 自动机器人控制方法、装置、自动机器人和介质 |
CN109366504A (zh) * | 2018-12-17 | 2019-02-22 | 广州天高软件科技有限公司 | 一种智能展会服务机器人系统 |
CN110058835A (zh) * | 2019-02-26 | 2019-07-26 | 百度国际科技(深圳)有限公司 | 设备控制方法、装置及设备 |
CN111583956A (zh) * | 2020-04-30 | 2020-08-25 | 联想(北京)有限公司 | 语音处理方法和装置 |
CN113223501A (zh) * | 2021-04-27 | 2021-08-06 | 北京三快在线科技有限公司 | 一种语音交互业务的执行方法及执行装置 |
CN114283794A (zh) * | 2021-12-14 | 2022-04-05 | 达闼科技(北京)有限公司 | 噪音过滤方法、装置、电子设备和计算机可读存储介质 |
-
2018
- 2018-03-07 CN CN201810185769.3A patent/CN108492824A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109119078A (zh) * | 2018-10-26 | 2019-01-01 | 北京石头世纪科技有限公司 | 自动机器人控制方法、装置、自动机器人和介质 |
CN109366504A (zh) * | 2018-12-17 | 2019-02-22 | 广州天高软件科技有限公司 | 一种智能展会服务机器人系统 |
CN110058835A (zh) * | 2019-02-26 | 2019-07-26 | 百度国际科技(深圳)有限公司 | 设备控制方法、装置及设备 |
CN111583956A (zh) * | 2020-04-30 | 2020-08-25 | 联想(北京)有限公司 | 语音处理方法和装置 |
CN111583956B (zh) * | 2020-04-30 | 2024-03-26 | 联想(北京)有限公司 | 语音处理方法和装置 |
CN113223501A (zh) * | 2021-04-27 | 2021-08-06 | 北京三快在线科技有限公司 | 一种语音交互业务的执行方法及执行装置 |
CN113223501B (zh) * | 2021-04-27 | 2022-11-04 | 北京三快在线科技有限公司 | 一种语音交互业务的执行方法及执行装置 |
CN114283794A (zh) * | 2021-12-14 | 2022-04-05 | 达闼科技(北京)有限公司 | 噪音过滤方法、装置、电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108492824A (zh) | 一种ai智能式的语音交互方法 | |
CN103021409B (zh) | 一种语音启动拍照系统 | |
CN106328166B (zh) | 人机对话异常检测系统及方法 | |
US10446150B2 (en) | In-vehicle voice command recognition method and apparatus, and storage medium | |
CN107437415A (zh) | 一种智能语音交互方法及系统 | |
CN106940998A (zh) | 一种设定操作的执行方法及装置 | |
US20140156276A1 (en) | Conversation system and a method for recognizing speech | |
CN107665708A (zh) | 智能语音交互方法及系统 | |
CN105070290A (zh) | 人机语音交互方法及系统 | |
US20020069055A1 (en) | Apparatus and method for automatically generating punctuation marks continuous speech recognition | |
CN108320738A (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
CN107767863A (zh) | 语音唤醒方法、系统及智能终端 | |
CN106710599A (zh) | 一种基于深度神经网络的特定声源检测方法与系统 | |
CN109036412A (zh) | 语音唤醒方法和系统 | |
CN107122807A (zh) | 一种家庭监控方法、服务端及计算机可读存储介质 | |
CN106373558A (zh) | 语音识别文本处理方法及系统 | |
CN107704612A (zh) | 用于智能机器人的对话交互方法及系统 | |
WO2021212929A1 (zh) | 主动式外呼智能语音机器人多语种交互方法及装置 | |
CN107767861A (zh) | 语音唤醒方法、系统及智能终端 | |
CN108320732A (zh) | 生成目标说话人语音识别计算模型的方法和装置 | |
CN112581938B (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN105895080A (zh) | 语音识别模型训练方法、说话人类型识别方法及装置 | |
CN101510423B (zh) | 一种分层次、交互式发音质量评估与诊断系统 | |
CN112837401A (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
CN108899033A (zh) | 一种确定说话人特征的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180904 |