CN110415693A - 一种基于智能语音产品语音交互场景的动态多轮交互方式 - Google Patents
一种基于智能语音产品语音交互场景的动态多轮交互方式 Download PDFInfo
- Publication number
- CN110415693A CN110415693A CN201910634645.3A CN201910634645A CN110415693A CN 110415693 A CN110415693 A CN 110415693A CN 201910634645 A CN201910634645 A CN 201910634645A CN 110415693 A CN110415693 A CN 110415693A
- Authority
- CN
- China
- Prior art keywords
- mode
- wheel
- natural language
- language processing
- interactive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 38
- 238000003058 natural language processing Methods 0.000 claims abstract description 30
- 230000003993 interaction Effects 0.000 claims abstract description 27
- 235000013399 edible fruits Nutrition 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 abstract description 4
- 230000002159 abnormal effect Effects 0.000 abstract description 2
- 230000003213 activating effect Effects 0.000 abstract 1
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于智能语音产品语音交互场景的动态多轮交互方式,该方式包括激活多轮对话条件、各条件所进入的预设模式、以及对应模式内的意图集合;其中预设模式包含:拒绝模式和接受模式;当开始为接受模式时,开启该次多轮交互流程,进入下轮语音交互后,将对下轮语音交互自然语言处理结果进行裁定。本发明一种基于智能语音产品语音交互场景的动态多轮交互方式针对当前市场主流产品中多轮交互方案进行优化解决,在开启多轮对话的同时,对多轮交互过程中异常情况进行合理处理,使整个交互流程合理可控。
Description
技术领域
本发明涉及语音交互领域,尤其是一种基于智能语音产品语音交互场景的动态多轮交互方式。
背景技术
在机器学习与大数据的驱动下,语音产品快速发展,越来越多的语音产品对用户提供了提供多轮交互能力,以解决用户在与智能语音助手交互时,需要多次使用唤醒词进行唤醒的问题。亚马逊于2018年3月为其智能语音助手Alexa添加了名为「后续模式」(Follow-Up Mode)的新技能,也正是用于解决这样的问题,通过后续模式,Alexa会在回复用户问题后保持唤醒状态等待5秒,看用户是否有其他问题;强行让Alexa重新进入待机状态可以使用「thank you」或「stop」这两个词来结束对话。
中国专利CN109635085A(智能交互流程的管理方法、对轮对话方法及装置)的技术方案是在用户对话满足节点的触发条件时,触发对应节点;根据所述节点设置的回复内容,生成针对用户对话的回复;根据所述节点设置的后续动作,在生成回复后跳转到多轮对话流程的其他节点。
现有技术在完成了语音多轮交互方案的配置,但是在实际场景中,自然语言处理的结果存在不稳定性,多轮对话节点存在被误触的可能,多轮对话触发后也存在误识别用户语音,自然语言处理后退出多轮对话。为了克服现有技术的缺陷,需要设计一种基于智能语音产品语音交互场景的动态多轮交互方式。
发明内容
为了克服现有技术中的缺陷,提供一种基于智能语音产品语音交互场景的动态多轮交互方式。
本发明通过下述方案实现:
一种基于智能语音产品语音交互场景的动态多轮交互方式,该方式包括激活多轮对话条件、各条件所进入的预设模式、以及对应模式内的意图集合;
其中预设模式包含:拒绝模式和接受模式;拒绝模式定义为下轮对话自然语言处理结果跟模式内意图集合有匹配,则判定该自然语言处理结果无效,智能语音终端重新开启拾音,等待下轮自然语言处理结果;当无匹配时,则判定当前结果有效,结束当前多轮对话;接受模式与拒绝模式的差异为模式内所配置的意图集合为结束当前多轮对话的意图集合,当进入接受模式,自然语言处理结果在集合内有匹配时,则结束当前多轮对话;
当开始为接受模式时,开启该次多轮交互流程为:
一、智能语音产品进行语音采集;
二、语音采集数据上传到云端处理,自然语言处理服务器对数据进行处理,将处理结果返回给客户端;
三、客户端收到处理结果,判定是否开启多轮交互,结果为是,进入配置的预设模式,预设下轮交互中目标意图集合;
四、开启下轮语音交互,并开始对下轮结果进行裁定;
进入下轮语音交互后,将对下轮语音交互自然语言处理结果进行裁定,具体步骤为:
一、根据自然语言处理服务器返回的结果,裁定该自然语言处理结果是否符合预期;
二、如果没在预期结果集中,播放引导提示语音,引导用户下次操作,重新开启拾音;如果在预期结果集中,将自然语言处理结果发送到实际应用中处理操作;
三、判断多轮交互是否继续。
本发明的有益效果为:
本发明一种基于智能语音产品语音交互场景的动态多轮交互方式针对当前市场主流产品中多轮交互方案进行优化解决,在开启多轮对话的同时,对多轮交互过程中异常情况进行合理处理,使整个交互流程合理可控。
具体实施方式
下面对本发明优选的实施例进一步说明:
一种基于智能语音产品语音交互场景的动态多轮交互方式,该方式包括激活多轮对话条件、各条件所进入的预设模式、以及对应模式内的意图集合;
其中预设模式包含:拒绝模式和接受模式;拒绝模式定义为下轮对话自然语言处理结果跟模式内意图集合有匹配,则判定该自然语言处理结果无效,智能语音终端重新开启拾音,等待下轮自然语言处理结果;当无匹配时,则判定当前结果有效,结束当前多轮对话;接受模式与拒绝模式的差异为模式内所配置的意图集合为结束当前多轮对话的意图集合,当进入接受模式,自然语言处理结果在集合内有匹配时,则结束当前多轮对话;
如当激活多轮对话条件中包含“我想看电影”意图,预设模式为接受模式,模式内意图配置为选择电影意图时,用户发送“我想看电影”指令,智能语音终端接收后进行查询电影操作,查询完毕询问用户想看第几个,用户发送除选择电影意图指令外的其他指令时,智能语音终端将判定指令无效重复指引用户选择电影,要正确完成该轮交互,用户只需发送“第一个”、“第一部”等选择电影指令或“退出”等强制退出指令即可。
当开始为接受模式时,开启该次多轮交互流程为:
一、智能语音产品进行语音采集;
二、语音采集数据上传到云端处理,自然语言处理服务器对数据进行处理,将处理结果返回给客户端;
三、客户端收到处理结果,判定是否开启多轮交互,结果为是,进入配置的预设模式,预设下轮交互中目标意图集合;
四、开启下轮语音交互,并开始对下轮结果进行裁定;
进入下轮语音交互后,将对下轮语音交互自然语言处理结果进行裁定,具体步骤为:
一、根据自然语言处理服务器返回的结果,裁定该自然语言处理结果是否符合预期;
二、如果没在预期结果集中,播放引导提示语音,引导用户下次操作,重新开启拾音;如果在预期结果集中,将自然语言处理结果发送到实际应用中处理操作;
三、判断多轮交互是否继续。
在开启多轮交互后,下轮终端实际操作将与当前场景强关联,在实际应用中,如当用户想智能语音产品发送“我想看电影指令”时,语音产品返回多个影片序列供用户选择,此时多轮交互开启,用户下一轮指令应该是选择电影操作,将选择电影意图加入到预设结果集中,那么下一轮交互中,非该类结果返回到智能语音产品端时,智能语音产品将播放引导用户选择电影的语音提示,并重新开启拾音;另外将退出等结束当前交互意图也加入到预设结果集中,当用户想要退出本轮交互时,退出指令同样生效。
本申请的技术方案解决了在传统多轮交互中语音误识别而导致完整交互中断的情况,减少重复唤醒智能语音设备,减少重复语言指令,并减少了用户重复唤醒智能语音设备次数,提高了交互体验。
尽管已经对本发明的技术方案做了较为详细的阐述和列举,应当理解,对于本领域技术人员来说,对上述实施例做出修改或者采用等同的替代方案,这对本领域的技术人员而言是显而易见,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (1)
1.一种基于智能语音产品语音交互场景的动态多轮交互方式,其特征在于,该方式包括激活多轮对话条件、各条件所进入的预设模式、以及对应模式内的意图集合;
其中预设模式包含:拒绝模式和接受模式;拒绝模式定义为下轮对话自然语言处理结果跟模式内意图集合有匹配,则判定该自然语言处理结果无效,智能语音终端重新开启拾音,等待下轮自然语言处理结果;当无匹配时,则判定当前结果有效,结束当前多轮对话;接受模式与拒绝模式的差异为模式内所配置的意图集合为结束当前多轮对话的意图集合,当进入接受模式,自然语言处理结果在集合内有匹配时,则结束当前多轮对话;
当开始为接受模式时,开启该次多轮交互流程为:
一、智能语音产品进行语音采集;
二、语音采集数据上传到云端处理,自然语言处理服务器对数据进行处理,将处理结果返回给客户端;
三、客户端收到处理结果,判定是否开启多轮交互,结果为是,进入配置的预设模式,预设下轮交互中目标意图集合;
四、开启下轮语音交互,并开始对下轮结果进行裁定;
进入下轮语音交互后,将对下轮语音交互自然语言处理结果进行裁定,具体步骤为:
一、根据自然语言处理服务器返回的结果,裁定该自然语言处理结果是否符合预期;
二、如果没在预期结果集中,播放引导提示语音,引导用户下次操作,重新开启拾音;如果在预期结果集中,将自然语言处理结果发送到实际应用中处理操作;
三、判断多轮交互是否继续。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910634645.3A CN110415693A (zh) | 2019-07-15 | 2019-07-15 | 一种基于智能语音产品语音交互场景的动态多轮交互方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910634645.3A CN110415693A (zh) | 2019-07-15 | 2019-07-15 | 一种基于智能语音产品语音交互场景的动态多轮交互方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110415693A true CN110415693A (zh) | 2019-11-05 |
Family
ID=68361406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910634645.3A Pending CN110415693A (zh) | 2019-07-15 | 2019-07-15 | 一种基于智能语音产品语音交互场景的动态多轮交互方式 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110415693A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111324409A (zh) * | 2020-02-14 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 基于人工智能的互动方法和相关装置 |
CN112148848A (zh) * | 2020-08-28 | 2020-12-29 | 出门问问(苏州)信息科技有限公司 | 一种问答处理方法及装置 |
CN117496973A (zh) * | 2024-01-02 | 2024-02-02 | 四川蜀天信息技术有限公司 | 一种提升人机对话交互体验感的方法、装置、设备及介质 |
-
2019
- 2019-07-15 CN CN201910634645.3A patent/CN110415693A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111324409A (zh) * | 2020-02-14 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 基于人工智能的互动方法和相关装置 |
CN111324409B (zh) * | 2020-02-14 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 基于人工智能的互动方法和相关装置 |
CN112148848A (zh) * | 2020-08-28 | 2020-12-29 | 出门问问(苏州)信息科技有限公司 | 一种问答处理方法及装置 |
CN117496973A (zh) * | 2024-01-02 | 2024-02-02 | 四川蜀天信息技术有限公司 | 一种提升人机对话交互体验感的方法、装置、设备及介质 |
CN117496973B (zh) * | 2024-01-02 | 2024-03-19 | 四川蜀天信息技术有限公司 | 一种提升人机对话交互体验感的方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415693A (zh) | 一种基于智能语音产品语音交互场景的动态多轮交互方式 | |
US10789950B2 (en) | User dedicated automatic speech recognition | |
JP6530023B2 (ja) | 複数のデバイス上でのホットワード検出 | |
CN108159687B (zh) | 一种基于多人交互过程的自动引导系统及智能音箱设备 | |
US11798554B2 (en) | Dynamic contact ingestion | |
DE102017129939A1 (de) | Gesprächsbewusste proaktive Benachrichtigungen für eine Sprachschnittstellenvorrichtung | |
CN109086282A (zh) | 一种具备多任务驱动能力的多轮对话的方法和系统 | |
CN109410952A (zh) | 一种语音唤醒方法、装置及系统 | |
CN111048066A (zh) | 一种儿童机器人上利用图像辅助的语音端点检测系统 | |
CN103914147B (zh) | 眼控视频交互方法和系统 | |
CN102842308A (zh) | 家电设备语音控制方法 | |
CN109859752A (zh) | 一种语音控制方法、装置、存储介质及语音联控系统 | |
CN115146048A (zh) | 一种多npc对话文本生成、展示方法、设备及介质 | |
CN106799733A (zh) | 机器人动作方法与系统 | |
US20170036250A1 (en) | A method and device for cleaning hands | |
CN108597515A (zh) | 洗碗机的状态展示系统和方法 | |
CN110232918A (zh) | 一种无人机地面控制站语音控制系统及控制方法 | |
CN103533083B (zh) | 一种跨终端操控网络游戏的方法 | |
CN113889104A (zh) | 一种语音交互方法、装置、计算机可读存储介质及服务器 | |
CN109448714A (zh) | 语音唤醒装置、机器人及语音唤醒的方法 | |
CN106541412A (zh) | 智能机器人状态机制的切换方法、智能机器人及装置 | |
US11244677B2 (en) | Voice control system and method for moving a column | |
CN202679391U (zh) | 一种网络会议的来宾邀请系统 | |
CN113139045A (zh) | 一种基于任务驱动型人机对话的选择性问答方法 | |
Xu et al. | Successful experiences improve setback psychology of undergraduates with low perseverance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191105 |