CN111312242A - 一种不影响对话管理的意图打断智能语音机器人方案 - Google Patents

一种不影响对话管理的意图打断智能语音机器人方案 Download PDF

Info

Publication number
CN111312242A
CN111312242A CN202010089897.5A CN202010089897A CN111312242A CN 111312242 A CN111312242 A CN 111312242A CN 202010089897 A CN202010089897 A CN 202010089897A CN 111312242 A CN111312242 A CN 111312242A
Authority
CN
China
Prior art keywords
module
intention
asr
robot
intelligent voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010089897.5A
Other languages
English (en)
Inventor
朱敬礼
周园园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kaian Information Technology Co ltd
Original Assignee
Shanghai Kaian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kaian Information Technology Co ltd filed Critical Shanghai Kaian Information Technology Co ltd
Priority to CN202010089897.5A priority Critical patent/CN111312242A/zh
Publication of CN111312242A publication Critical patent/CN111312242A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

本发明公开了一种不影响对话管理的意图打断智能语音机器人方案,包括外呼控制中心、NLU模块、DM模块、NLG模块、TTS模块,还包括带标示位的ASR模块:在原有语音转文字功能上添加了标示位,通过标示位区分当前ASR结果;打断过滤模块:当所述带标示位的ASR模块的playStatus为1时,通过相应方法,将ASR结果进行意图过滤,对用户打断意图检测。本发明,通过修改ASR模块和添加打断过滤模块,解决了传统基于音量检测(VAD)无法却分噪声和客户声音的问题,根据客户的意图进行准确高效的打断,提升了智能语音外呼机器人的对话效率和客户体验;同时支持根据客户类别配置不同的打断意图,实现了多样化和个性化,极大提高了系统的集成性和可维护性,降低了系统的维护成本。

Description

一种不影响对话管理的意图打断智能语音机器人方案
技术领域
本发明涉及产品软件和应用软件技术领域,具体为一种不影响对话管理的意图打断智能语音机器人方案。
背景技术
目前,现有的智能语音外呼机器人在实现打断时,智能外呼机器人并不能根据意图打断,而是基于当说话人音量高于某个阀值后打断。由于外呼场景下,通话人所处环境的多样性和通信设备质量不一,这种打断方式显的很不实用。2.目前也有少数公司实现了基于关键词的打断用于解决问题1,常规的实现方法是在自动外呼系统侧实现,这种方式优点是简单易实现:只有携带关键词的ASR结果才会发送给NLU、DM等模块处理。这不仅会导致系统的集成性低、运行和维护成本高而且不能差异化配置。
发明内容
本发明的目的在于提供一种不影响对话管理的意图打断智能语音机器人方案,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种不影响对话管理的意图打断智能语音机器人方案,包括外呼控制中心、NLU模块、DM模块、NLG模块、TTS模块,还包括:
带标示位的ASR模块:在原有语音转文字功能上添加了标示位,通过标示位区分当前ASR结果;
打断过滤模块:当所述带标示位的ASR模块的playStatus为1时,通过相应方法,将ASR结果进行意图过滤,对用户打断意图检测。
优选的,所述相应方法为意图分类算法或者关键词匹配方法。
优选的,所述打断过滤模块和带标示位的ASR模块均包括用户类别区分模块,所述用户类别区分模块是根据配置的打断参数来对用户进行区分。
优选的,所述标示位为1时表示机器人正在说话,所述标示位为0时表示机器人当前没有说话。
与现有技术相比,本发明的有益效果是:
本发明,本发明通过修改ASR模块和添加打断过滤模块,解决了传统基于音量检测(VAD)无法却分噪声和客户声音的问题,根据客户的意图进行准确高效的打断,提升了智能语音外呼机器人的对话效率和客户体验;同时支持根据客户类别配置不同的打断意图,实现了多样化和个性化,极大提高了系统的集成性和可维护性,降低了系统的维护成本。
附图说明
图1为本发明的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种不影响对话管理的意图打断智能语音机器人方案,包括外呼控制中心、NLU(语音理解)模块、DM(对话管理)模块、NLG(语音生成)模块、TTS(语音合成)模块,还包括:
带标示位的ASR(语音识别)模块,在原有语音转文字功能上添加了标示位,通过标示位区分当前ASR结果,例如,ASR结果:
{
"text":"喂,你好",
"enterpriseId":7000002,
"cno":"2000",
"uniqueId":"xxxxxx101",
"extraParams":"ivrId=1&cutomerNumber=139xxxxxxx",
"playStatus":"1"
}
若"playStatus":"1","text":"喂,你好"则表示:机器人正在说话时,对方说"喂,你好";相应的若"playStatus":"0","text":"喂,你好"则表示:机器人当前没有说话,对方说"喂,你好"。其中,ivrId表示当前用户的分类,用于区分不同的客户类群,实现对不同客户的多样化设置;
打断过滤模块,当带标示位的ASR模块的playStatus为1时,通过相应方法,将ASR结果进行意图过滤,对用户打断意图检测。
优选的,相应方法为意图分类算法或者关键词匹配方法。
具体的,打断过滤模块和带标示位的ASR模块均包括用户类别区分模块,用户类别区分模块是根据配置的打断参数来对用户进行区分,带标示位的ASR(语音识别)模块中playStatus为1时,该模块工作:主要通过意图分类算法或者关键词匹配方法,将ASR结果进行简单意图过滤,针对需要打断的ASR结果进入后续智能机器人NLU和DM等模块参与真正的对话;针对一些不在打断意图范围内的ASR结果,则不进入智能机器人,以免影响机器人的对话轮次和上下文管理的状态,假如,我配置了打断意图参数如{"ivrId_1":["你好","你说什么","好的"],"ivrId_2":["等一下"]},
当ASR结果:
{
"text":"我在测试打断",
"enterpriseId":7000002,
"cno":"2000",
"uniqueId":"xxxxxx101",
"extraParams":"ivrId=1&cutomerNumber=139xxxxxxx",
"playStatus":"1"
}
该例子表示:客户类别为1类,机器人正在说话,客户说了:"我在测试打断";但由于该类用户配置的打断意图中没有"我在测试打断"相关的意图,所以相应的ASR结果被过滤掉,机器人不会有任何反应,继续说当前未说完的话。
当ASR结果:
{
"text":"你能等一下吗",
"enterpriseId":7000002,
"cno":"2000",
"uniqueId":"xxxxxx101",
"extraParams":"ivrId=2&cutomerNumber=139xxxxxxx",
"playStatus":"1"
}
该例子表示:客户类别为2类,机器人正在说话,客户说了:"你能等一下吗";该类用户配置的打断意图中有"等一下"相关的意图,所以相应的ASR结果不会被过滤掉,当前的文本:"你能等一下吗"会进入机器人的NLU等后续模块,参与对话,机器人会立刻返回回复该文本的TTS结果,外呼控制中心,播放相应的TTS音频,从而实现了打断。
当"playStatus":"0"时,带标示位ASR模块和原来ASR模块功能一致。
另外,我们可以看到,该实现方式可以针对不同的用户群体配置不同的打断意图或者关键词,可以做到多样化和个性型化配置,解决了关键词配置在外呼控制中心侧,只能所有打断相关功能必须全局的问题。
综上,整个过程的实现逻辑如下:
if playStatus是1:
if在相应客户分类中判断当前文本内容是存在:
进入机器人NLU,DM等后续模块,参与对话
else:
进入机器人NLU,DM等后续模块,参与对话。
具体的,标示位为1时表示机器人正在说话,标示位为0时表示机器人当前没有说话。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种不影响对话管理的意图打断智能语音机器人方案,包括外呼控制中心、NLU模块、DM模块、NLG模块、TTS模块,其特征在于还包括:
带标示位的ASR模块:在原有语音转文字功能上添加了标示位,通过标示位区分当前ASR结果;
打断过滤模块:当所述带标示位的ASR模块的playStatus为1时,通过相应方法,将ASR结果进行意图过滤,对用户打断意图检测。
2.根据权利要求1所述的一种不影响对话管理的意图打断智能语音机器人方案,其特征在于:所述相应方法为意图分类算法或者关键词匹配方法。
3.根据权利要求1所述的一种不影响对话管理的意图打断智能语音机器人方案,其特征在于:所述打断过滤模块和带标示位的ASR模块均包括用户类别区分模块,所述用户类别区分模块是根据配置的打断参数来对用户进行区分。
4.根据权利要求1所述的一种不影响对话管理的意图打断智能语音机器人方案,其特征在于:所述标示位为1时表示机器人正在说话,所述标示位为0时表示机器人当前没有说话。
CN202010089897.5A 2020-02-13 2020-02-13 一种不影响对话管理的意图打断智能语音机器人方案 Pending CN111312242A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010089897.5A CN111312242A (zh) 2020-02-13 2020-02-13 一种不影响对话管理的意图打断智能语音机器人方案

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010089897.5A CN111312242A (zh) 2020-02-13 2020-02-13 一种不影响对话管理的意图打断智能语音机器人方案

Publications (1)

Publication Number Publication Date
CN111312242A true CN111312242A (zh) 2020-06-19

Family

ID=71147056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010089897.5A Pending CN111312242A (zh) 2020-02-13 2020-02-13 一种不影响对话管理的意图打断智能语音机器人方案

Country Status (1)

Country Link
CN (1) CN111312242A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487170A (zh) * 2020-12-14 2021-03-12 南京三眼精灵信息技术有限公司 面向场景配置的人机交互对话机器人系统
CN112951226A (zh) * 2021-01-29 2021-06-11 成都锐美动力科技有限公司 一种支持自然对话的语音处理系统
CN113113013A (zh) * 2021-04-15 2021-07-13 北京帝派智能科技有限公司 一种智能语音交互打断处理方法、装置及系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
JP2004325848A (ja) * 2003-04-25 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音声対話制御方法、音声対話制御装置、音声対話制御プログラム
US6882973B1 (en) * 1999-11-27 2005-04-19 International Business Machines Corporation Speech recognition system with barge-in capability
JP2007072331A (ja) * 2005-09-09 2007-03-22 Matsushita Electric Ind Co Ltd 音声対話方法および音声対話システム
US20110246190A1 (en) * 2010-03-31 2011-10-06 Kabushiki Kaisha Toshiba Speech dialog apparatus
JP2011227236A (ja) * 2010-04-19 2011-11-10 Honda Motor Co Ltd 音声対話装置
CN105070290A (zh) * 2015-07-08 2015-11-18 苏州思必驰信息科技有限公司 人机语音交互方法及系统
US9922650B1 (en) * 2013-12-20 2018-03-20 Amazon Technologies, Inc. Intent-specific automatic speech recognition result generation
CN108197191A (zh) * 2017-12-27 2018-06-22 神思电子技术股份有限公司 一种多轮对话的场景意图中断方法
CN109509471A (zh) * 2018-12-28 2019-03-22 浙江百应科技有限公司 一种基于vad算法打断智能语音机器人对话的方法
CN109672794A (zh) * 2018-12-04 2019-04-23 天津深思维科技有限公司 一种智能语音外呼系统
CN109714491A (zh) * 2019-02-26 2019-05-03 上海凯岸信息科技有限公司 基于语音信箱的智能语音外呼检测系统
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
CN110557451A (zh) * 2019-08-30 2019-12-10 北京百度网讯科技有限公司 对话交互处理方法、装置、电子设备和存储介质
CN111128140A (zh) * 2019-12-30 2020-05-08 云知声智能科技股份有限公司 语音播报的中断方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
US6882973B1 (en) * 1999-11-27 2005-04-19 International Business Machines Corporation Speech recognition system with barge-in capability
JP2004325848A (ja) * 2003-04-25 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音声対話制御方法、音声対話制御装置、音声対話制御プログラム
JP2007072331A (ja) * 2005-09-09 2007-03-22 Matsushita Electric Ind Co Ltd 音声対話方法および音声対話システム
US20110246190A1 (en) * 2010-03-31 2011-10-06 Kabushiki Kaisha Toshiba Speech dialog apparatus
JP2011227236A (ja) * 2010-04-19 2011-11-10 Honda Motor Co Ltd 音声対話装置
US9922650B1 (en) * 2013-12-20 2018-03-20 Amazon Technologies, Inc. Intent-specific automatic speech recognition result generation
CN105070290A (zh) * 2015-07-08 2015-11-18 苏州思必驰信息科技有限公司 人机语音交互方法及系统
CN108197191A (zh) * 2017-12-27 2018-06-22 神思电子技术股份有限公司 一种多轮对话的场景意图中断方法
CN109672794A (zh) * 2018-12-04 2019-04-23 天津深思维科技有限公司 一种智能语音外呼系统
CN109509471A (zh) * 2018-12-28 2019-03-22 浙江百应科技有限公司 一种基于vad算法打断智能语音机器人对话的方法
CN109714491A (zh) * 2019-02-26 2019-05-03 上海凯岸信息科技有限公司 基于语音信箱的智能语音外呼检测系统
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
CN110557451A (zh) * 2019-08-30 2019-12-10 北京百度网讯科技有限公司 对话交互处理方法、装置、电子设备和存储介质
CN111128140A (zh) * 2019-12-30 2020-05-08 云知声智能科技股份有限公司 语音播报的中断方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487170A (zh) * 2020-12-14 2021-03-12 南京三眼精灵信息技术有限公司 面向场景配置的人机交互对话机器人系统
CN112487170B (zh) * 2020-12-14 2023-12-15 南京三眼精灵信息技术有限公司 面向场景配置的人机交互对话机器人系统
CN112951226A (zh) * 2021-01-29 2021-06-11 成都锐美动力科技有限公司 一种支持自然对话的语音处理系统
CN113113013A (zh) * 2021-04-15 2021-07-13 北京帝派智能科技有限公司 一种智能语音交互打断处理方法、装置及系统

Similar Documents

Publication Publication Date Title
CN111312242A (zh) 一种不影响对话管理的意图打断智能语音机器人方案
US9292488B2 (en) Method for embedding voice mail in a spoken utterance using a natural language processing computer system
CN106409283B (zh) 基于音频的人机混合交互系统及方法
TWI489372B (zh) 語音操控方法與行動終端裝置
CN108257616A (zh) 人机对话的检测方法以及装置
CN107134286A (zh) 基于语音交互的无线音频播放方法、音乐播放器及存储介质
CN110557451B (zh) 对话交互处理方法、装置、电子设备和存储介质
CN103067608B (zh) 一种移动终端查找通话记录的方法及系统
CN111508474B (zh) 一种语音打断方法、电子设备及存储装置
CN106847291A (zh) 一种本地和云端相结合的语音识别系统及方法
US20080004880A1 (en) Personalized speech services across a network
CN111833875B (zh) 一种嵌入式语音交互系统
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
CN111128241A (zh) 语音通话的智能质检方法及系统
CN107016070A (zh) 一种用于智能机器人的人机对话方法及装置
CN109830234A (zh) 一种智能车载信息交互设备及交互方法
CN116417003A (zh) 语音交互系统、方法、电子设备和存储介质
WO2002023526A1 (en) Cancellation of loudspeaker words in speech recognition
CN111629110A (zh) 一种语音交互方法和语音交互系统
CN204231479U (zh) 一种智能会议电话机
CN214796749U (zh) 一种ai学习智能语音助手
CN212181920U (zh) 智能语音交互后视镜
CN111901488B (zh) 一种基于号码状态提升语音机器人外呼效率的方法
CN110534084B (zh) 一种基于FreeSWITCH的智能语音控制方法及系统
CN111933139A (zh) 一种离在线语音识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination