CN111835923B - 一种基于人工智能的移动式语音交互对话系统 - Google Patents

一种基于人工智能的移动式语音交互对话系统 Download PDF

Info

Publication number
CN111835923B
CN111835923B CN202010670413.6A CN202010670413A CN111835923B CN 111835923 B CN111835923 B CN 111835923B CN 202010670413 A CN202010670413 A CN 202010670413A CN 111835923 B CN111835923 B CN 111835923B
Authority
CN
China
Prior art keywords
voice
robot
module
communication
call
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010670413.6A
Other languages
English (en)
Other versions
CN111835923A (zh
Inventor
司马华鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Silicon Intelligence Technology Co Ltd
Original Assignee
Nanjing Silicon Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Silicon Intelligence Technology Co Ltd filed Critical Nanjing Silicon Intelligence Technology Co Ltd
Priority to CN202010670413.6A priority Critical patent/CN111835923B/zh
Publication of CN111835923A publication Critical patent/CN111835923A/zh
Application granted granted Critical
Publication of CN111835923B publication Critical patent/CN111835923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及人工智能领域,公开了一种基于人工智能的移动式语音交互对话系统,其技术方案要点是包括:通信系统,用于支持通话对象和机器人系统通信;机器人系统,包括机器人终端和后端处理模块,所述机器人终端用于输入和输出语音,所述后端处理模块用于对机器人终端接收的语音进行处理并通过所述机器人终端反馈处理结果;语音连接模块,用于连接所述机器人系统和所述通信系统,设立机器人终端将机器人系统和通信系统进行解耦,降低了整个对话系统的复杂性,使之易于部署,便于灵活切换,可以大幅度降低电话机器人系统的开发、部署和维护成本。

Description

一种基于人工智能的移动式语音交互对话系统
技术领域
本发明涉及人工智能领域,更具体地说,它涉及一种基于人工智能的移动式语音交互对话系统。
背景技术
随着计算机技术、通信技术、互联网和人工智能技术的快速进步,各种智能家用电器不断走进人们的生活。例如,智能电视、智能冰箱、智能空调、智能音箱、智能手表、智能手环、智能眼镜等等。目前各种品牌的基于语音交互的智能设备已经大量上市,用户可以通过发出语音指令的方式与智能设备进行交互,实现听歌、报时、闲聊、游戏、陪伴、信息查询、设备控制等功能。
随着人工智能技术和通信科技的蓬勃发展,智能语音交互机器人已广泛应用各行各业,大幅度降低人工外呼成本,提高外呼效率。但目前的语音交互机器人特别是电话机器人系统涵盖了以人工智能技术和对话系统为主的机器人系统和以通信网络和VOIP技术为主的语音通信系统,两者紧密绑定,系统异常复杂,开发、部署和维护难度都很大,成本很高,而替换其中任何一个组件都非常困难,很不灵活。基于此开发的电话机器人过于复杂和庞大,一旦部署就很难移动,从而很难针对个人用户应用在To-C领域。这种电话机器人基于大规模云服务器,没有一个普通人可以方便认知的实体,无法给人以直观亲切的印象。
发明内容
本发明的目的是提供一种基于人工智能的移动式语音交互对话系统,设立机器人终端将机器人系统和通信系统进行解耦,降低了整个对话系统的复杂性,使之易于部署,便于灵活切换,可以大幅度降低电话机器人系统的开发、部署和维护成本。
本发明的上述技术目的是通过以下技术方案得以实现的:一种基于人工智能的移动式语音交互对话系统,包括:
通信系统,用于支持通话对象和机器人系统通信;
机器人系统,包括机器人终端和后端处理模块,所述机器人终端用于输入和输出语音,所述后端处理模块用于对机器人终端接收的语音进行处理并通过所述机器人终端反馈处理结果;
语音连接模块,用于连接所述机器人系统和所述通信系统。
作为本发明的一种优选技术方案,所述通信系统包括通信网络和通信终端,所述通信终端用于采集通话对象语音和传输机器人终端语音给通话对象,所述通信终端内部配置有命令芯片,所述通信终端内还配置有实现所述命令芯片功能的特定应用软件,所述特定应用软件与通话控制模块通信连接,用于拨打通话和接听通话以及接收控制指令、号码数据。
作为本发明的一种优选技术方案,所述机器人终端包括拾音播音子模块、联网子模块、数据处理子模块;
所述拾音播音子模块用于接收语音和播放语音;
所述联网子模块用于和所述后端处理模块连接;
数据处理子模块用于处理语音数据,与后端处理模块进行数据传递。
作为本发明的一种优选技术方案,所述机器人终端还包括显示屏、按键子模块;所述显示屏用于显示所述机器人系统和通话对象的通话记录或通话相关信息;所述按键子模块用于输入控制指令。
作为本发明的一种优选技术方案,所述后端处理模块用于对机器人终端发来的语音数据进行意图识别,并根据语音意图生成回复语音发回给机器人终端。
作为本发明的一种优选技术方案,所述后端处理模块包括对话管理子模块、语音识别子模块、意图识别子模块、语音合成子模块;
所述对话管理子模块用于控制对话的流程和逻辑,生成应答文本;
所述语音识别子模块用于识别接收到的通话对象语音并转化为文字;
所述意图识别子模块用于根据识别的语音文本识别出通话对象意图;
所述语音合成子模块用于将应答文本合成为语音并发送到机器人终端。
作为本发明的一种优选技术方案,还包括通话控制模块,用于控制通信系统和机器人系统之间进行批量通话。
作为本发明的一种优选技术方案,所述通话控制模块包括:通话对象数据库、系统数据库、任务管理模块、通信控制器子模块;
所述通话对象数据库,用于存储通话对象相关的数据;
所述系统数据库,用于存储通话记录及通话过程相关的其它数据;
所述任务管理模块,用于管理通话任务;
所述通信控制器模块,调度其它模块,获取或存入数据;控制通信系统实现批量通话;和机器人系统通信,并同步数据。
作为本发明的一种优选技术方案,所述语音连接模块包括话筒听筒设备、音频信号线、无线通信设备的任意一种或多种;
所述话筒听筒设备,用于采集所述机器人终端播音端和所述通信系统播音端发出的语音再分别传递到所述通信系统的收音端和所述机器人终端的收音端;
所述音频信号线的两端分别接入所述机器人终端和所述通信系统,用于实现所述通信系统和所述机器人终端之间的数据传输;
所述无线通信子模块,用于在所述机器人终端和通信系统之间进行数据的无线传输。
综上所述,本发明具有以下有益效果:本发明通过设立机器人终端将机器人系统和通信系统进行解耦,降低了整个对话系统的复杂性,使之易于部署,便于灵活切换,可以大幅度降低电话机器人系统的开发、部署和维护成本;可以更灵活地选择搭配各种通信系统,甚至可以直接使用现有的移动运营商网络和普通手机,从而使研发人员可以更专注于人工智能算法和机器人系统的研发和改进;还为电话机器人提供了可移动性,机器人终端可以方便地放置在各种场合,也可以为电话机器人提供一个直观、可触摸的实体,使之更具有亲和力,从而能够将电话机器人的应用场景扩展到个人和办公当中。
附图说明
图1本发明的通话流程图。
图2是本发明的系统总体框图;
图3是本发明的通信系统框图;
图4是本发明的机器人终端框图;
图5是本发明的通话流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
本发明提供一种基于人工智能的移动式语音交互对话系统,如图1和3所示,包括:
通信系统,用于支持通话对象和机器人系统通信;
机器人系统,用于处理通信系统发来的语音数据并回复,具体包括机器人终端和后端处理模块,机器人终端用于输入和输出语音,后端处理模块用于对机器人终端接收的语音进行处理并通过机器人终端反馈处理结果,其中机器人终端具有实体结构,而后端处理模块可以设置于云端服务器;
语音连接模块,用于在机器人系统和通信系统解耦后,连接机器人系统和通信系统,使得两者之间能够进行数据传输。
本发明的优点在于:把通信系统与机器人系统进行解耦,降低了系统的复杂性,使之易于部署,便于灵活切换,可以大幅度降低电话机器人系统的开发、部署和维护成本;为机器人提供了可移动性,机器人终端可以方便地放置在各种场合,也可以为机器人提供一个直观、可触摸的实体,使之更具有亲和力;便捷的接入个人手机或者通话终端;提供蓝牙端、音频端口接入方式,应用范围广泛。
并延续了传统电话客服机器人系统功能:提供屏幕显示,可以方便的设置,调取通话记录和切换,使用更便捷;支持外放设备如头戴式耳机,随时进行通话跟踪以便人工坐席介入。
具体的,如图2所示,通信系统包括通信网络和通信终端,通信网络可以直接对接已有的或第三方的通信网络和系统,使用已有通信设备,例如移动、联通、电信等各大运营商的网络;
通信终端用于采集通话对象语音和传输机器人终端语音给通话对象,通信终端可以兼容手机、固定电话、基于PC的VOIP电话、微信电话、Skype或其他APP语音电话;通信终端内部配置有命令芯片,也可以再通信终端内配置实现命令芯片功能的特定应用软件,用于发送特定命令或信号,例如装置唤醒命令,通话接通或挂断信号等,可以用包含特定命令词的一段语音实现,也可以用事先约定的一组信令实现;特定应用软件与通话控制模块通信连接,用于拨打通话和接听通话以及接收控制指令、号码数据,配合实现批量拨打。
具体的,如图4所示,机器人终端包括拾音播音子模块、联网子模块、数据处理子模块;
拾音播音子模块,还包括第一语音接口和第二语音接口,第一语音接口和第二语音接口可以为蓝牙端或者音频端口,第一语音接口用于传输通话对象和后端处理模块的通话音频;第二语音接口用于传输人工坐席和通话对象的通话音频,在通话过程中,人工坐席可以通过第二语音接口接收到通话音频,从而判断是否要进行人工介入,需要介入时,也从第二语音接口将人工坐席语音发给机器人终端
其中在音频端口可以设置一个或多个普通麦克风或者MEMS麦克风,也可以采用远场麦克风阵列,用于接收通信终端通过语音连接模块发来的通话对象语音,还可以设置扬声器等放音设备,用于播放机器人应答语音;如有必要,在不会导致回响、啸叫和混响的前提下,也可以通过扬声器播放通话对象的语音。
数据处理子模块,用于调度控制机器人终端中的其他模块,用于处理语音数据并发到后端处理模块,处理来自后端处理模块的语音数据,调用拾音播音子模块通过语音连接模块将语音发给通信终端,通过拾音收音子模块播放机器人语音,控制显示屏显示通话的文字记录,接收来自触摸屏的用户指令;
此外机器人终端还包括显示屏和按键子模块,显示屏可以显示机器人系统和通话对象的通话记录或其他通话相关信息,也可以使用触摸屏,同时实现按键功能,让用户通过触摸的方式输入控制指令;
机器人终端还可以设置蓝牙等无线通信系统,用于和语音连接模块进行通信;
机器人终端还可以设置音频电路,使得音频的输入输出能够直接以数字形式进行;
机器人终端还可以设置功率放大模块,用于放大来自语音连接模块的声音信号;
机器人终端还可以设置语音降噪模块,对收到的音频信号作降噪处理;
机器人终端还可以设置AD/DA转换芯片,用于把接收到的通话对象的语音转成数字信号传输,把接收到的机器人语音转成模拟信号通过扬声器播放;
机器人终端还可以设置联网子模块,通过有线链路、WIFI或4G/5G网络连接后端处理模块,发送/接收语音及其它数据;
机器人终端还可以设置控制接口,包括按钮、旋钮等,用于外部控制。
机器人终端的运行过程为:
A1、连接机器人终端和通信终端;
A2、连接机器人终端和后端处理模块;
A3、开启会话并接通通话对象;
A4、通话对象语音通过通信终端、机器人终端传输到后端处理模块;
A5、后端处理模块处理通话对象语音后生成机器人应答语音和文字;
A6、机器人应答语音通过机器人终端、通信终端传输给通话对象;
A7、机器人应答文字传输到机器人终端并显示;
A8、人工坐席通过机器人终端随时跟踪通话过程,必要时可以转入人工接听,实现人机协作呼叫功能。
具体的,后端处理模块用于对机器人终端发来的语音数据进行意图识别,并根据语音意图生成回复语音发回给机器人终端。后端处理模块包括对话管理子模块、语音识别子模块、意图识别子模块、语音合成子模块、分词子模块、声音分离子模块、声纹识别、会话管理子模块;后端处理模块部署在云端服务器上,通过有线或无线网络与机器人终端通信。
对话管理子模块用于控制对话的流程和逻辑,生成应答文本;
语音识别子模块用于识别接收到的通话对象语音并转化为文字;
意图识别子模块用于根据识别的语音文本识别出通话对象意图;
语音合成子模块用于将应答文本合成为语音并发送到机器人终端。
后端处理模块的对话系统运行过程如下:
S1、通话控制模块通过通信终端接通(主动拨打或被动接听)通话对象的电话后,把根据业务逻辑编写的话术、通话对象的数据同步到后端处理模块的会话管理子模块和对话管理子模块;
S2、会话管理子模块开启一个新的会话;
S3、会话管理子模块向机器人终端发送指令,使之进入接听模式;
S4、会话管理子模块向机器人终端发送开场白/欢迎词的语音和文本;
S5、机器人终端通过语音连接模块和通信系统把语音发送给通话对象,开启机器人和通话对象之间的通话;
S6、机器人终端收到通话对象语音,通过网络发送到后端处理模块的语音识别子模块;
S7、语音识别子模块把通话对象语音转成文本,发送到意图识别子模块;
S8、意图识别子模块调用分词子模块先分词,再根据分词结果,结合话术识别出通话对象的意图,发送到对话管理子模块;
S9、可选地,意图识别也可以通过意图识别子模块直接由通话对象的语音得到;
S10、对话管理子模块根据话术内置的策略和规则,生成应答句子文本,发送到语音合成子模块;
S11、语音合成子模块把文本转换成机器人应答语音;可选地,机器人应答语音也可以事先由录音师录好,根据应答句子检索出来;
S12、把应答句子文本和语音一起发送到机器人终端,由机器人终端播放并通过语音连接模块和通信系统发送给通话对象;
S13、如此循环,直到对话结束;
S14、会话管理子模块关闭会话,把通话记录传输到通话控制模块,保存到系统数据库,供以后查询分析。
具体的,语音交互对话系统还包括通话控制模块,用于控制通信系统和机器人系统之间进行批量通话。
通话控制模块包括:通话对象数据库、系统数据库、任务管理模块、通信控制器子模块;
通话对象数据库,用于存储通话对象相关的数据;
系统数据库,用于存储通话记录及通话过程相关的其它数据;
任务管理模块,用于管理通话任务;
通信控制器模块,调度其它模块,获取或存入数据;控制通信系统实现批量通话;和机器人系统通信,并同步数据;
此外通话控制模块还包括话术编辑器和话术数据库,话术编辑器用于话术制作人员制作和修改话术,话术数据库用于存储话术制作人员通过话术编辑器制作的话术。
通话控制模块的工作流程如下:
根据管理员的操作或者事先计划好的任务,通过任务管理模块加载任务清单;
从话术数据库检索出任务需要的、由话术制作人员事先制作好的话术;其中一个话术就代表一套完整的业务流程,包括其对话规则、所有可能的应答句子文本、对通话对象的意向评价的规则等对话和业务相关数据,如果使用录音师录音,则还包括录音音频;
从通话对象数据库中查询出所需数据,例如电话号码、姓名、性别等,以及其它和业务相关的数据比如欠款金额之类;
通过网络把话术和通话对象数据同步到后端处理模块;
控制通信终端接通(主动拨打或被动接听)通话对象;
等待通话结束,从后端处理模块接收通话记录存储到数据库;
根据需要,以上流程可以批量执行;也可以并发执行,前提是有多个通信终端和机器人终端,同时后端处理模块支持并发任务。
具体的,语音连接模块包括话筒听筒设备、音频信号线、无线通信设备的任意一种或多种;
话筒听筒设备用于采集机器人终端播音端和通信系统播音端发出的语音再分别传递到通信系统的收音端和机器人终端的收音端,收音部分可以采用麦克风,麦克风可以采用普通麦克风或者MEMS麦克风,放音部分可以采用听筒、扬声器等放音设备,可以直接将语音播放出来;采用话筒听筒设备实际是对语音进行转播,减少语音在传播时的损耗;
音频信号线的两端分别接入机器人终端和通信系统,用于实现通信系统和机器人终端之间的数据传输;
无线通信子模块,可以采用蓝牙模块,用于在机器人终端和通信系统之间进行数据的无线传输。
本发明提供的一种基于人工智能的移动式语音交互对话系统的使用步骤大致如下:
把语音连接模块连接到机器人终端。可选的连接方式有:话筒听筒设备,蓝牙,音频信号线;
把语音连接模块连接到通信终端。可选的连接方式有:话筒听筒设备,蓝牙,音频信号线;
用通信终端拨打/接听通话对象的电话;
通话对象的语音通过语音连接模块传输到机器人终端,机器人终端再通过网络传输到后端处理模块;
后端处理模块经过语音识别子模块、意图识别子模块等处理后,生成语音和文字答复,发送到机器人终端;
机器人终端通过语音连接模块把机器人语音传输到通信终端,后者通过通信网络把机器人语音发送给通话对象,从而实现和通话对象的自动对话。
实施例1、本发明的语音交互对话系统可用于实现呼出电话机器人(即外呼机器人),如图4所示,步骤如下:
G1、把语音连接模块的音频信号线一端插入通信终端设备,播放器插入机器人终端的耳机孔,触发机器人终端的接听模式。可选地,也可以通过音频信号线把语音连接模块连接到机器人终端。可选地,也可以通过蓝牙把语音连接模块连接到机器人终端;
G2、根据管理员的操作或者预定的任务计划,通话控制模块从通话对象数据库取出通话对象数据,从话术数据库读取相应话术,控制通信终端通过通信网络拨通通话对象的电话;
G3、通话控制模块把包括通话对象数据和通话话术的通话相关数据同步到后端处理模块会话管理子模块和对话管理子模块;
G4、后端处理模块会话管理子模块开启会话,向机器人终端发送指令使它进入等待通话模式,同时把开场白语音/文字、通话对象名称等必要的数据发送给它;
G5、通信终端接通通话对象的电话时,通过内置命令芯片或APP发送接通信号,再通过语音连接模块的音频信号线传到机器人终端;
G6、机器人终端的数据处理子模块模块检测到电话接通信号,通过扬声器播放开场白语音,在显示屏显示相关文字信息。可选地,同时通过音频信号线或蓝牙模块向语音连接模块发送开场白语音;
G7、语音连接模块通过通信网络向通话对象发送开场白语音;
G8、机器人终端通过语音连接模块接收到通话对象的语音。若通过麦克风接收,则需要AD/DA转换芯片转成数字信号再传输。然后经过数据处理子模块和联网子模块发送到后端处理模块;
G9、后端处理模块调用语音识别模块把语音转换成文字,再通过意图识别子模块识别出通话对象的意图,经过加载有指定话术的对话管理子模块判断决策后,生成机器人答复文字和语音。可选地,也可以通过意图识别子模块直接把通话对象的语音识别为通话对象的意图;
G10、机器人答复文字和语音经由联网子模块发送到机器人终端;
G11、机器人答复语音经机器人终端中的数据处理子模块处理后播放出来,同时依次通过音频输出电路、音频信号线传输到通信终端,再经过通信网络发送给通话对象;
G12、答复文字经机器人终端中的数据处理子模块处理后,以通话记录的形式显示在显示屏上;
G13、如此循环,直到通话结束;
G14、如果对话逻辑要求机器人挂断,则对话管理子模块通过通话控制模块向通信终端发送挂断指令,然后关闭会话;
G15、如果数据处理子模块检测到通话对象挂断的信号,则直接关闭会话;
G16、后端处理模块关闭会话时,上传通话记录等相关数据到通话控制模块。
实施例2、本发明的语音交互对话系统可以用于实现呼入电话机器人,如图4所示,步骤如下:
H1、和G1相同,用语音连接模块连接机器人终端和通信终端;
H2、通信控制子系统控制通信终端使之处于接听模式;
H3、通信控制子系统控制后端处理模块使之处于等待呼入模式,并加载相应业务话术数据;
H4、后端处理模块把欢迎语音和文字发送到机器人终端;
H5、通信终端接通通话对象的呼入电话时,通过内置命令芯片或APP发送接通信号和来电号码,再通过语音连接模块的音频信号线传到机器人终端;
H6、机器人终端的数据处理子模块检测到电话接通信号,开启会话,通过扬声器播放欢迎语音,在显示屏显示相关文字信息。可选地,同时通过音频信号线向语音连接模块发送欢迎语音;
H7、语音连接模块通过通信网络向通话对象发送欢迎语音;
H8、进入对话循环,后续步骤和实施例1的G8~G16相同。
实施例3、本发明的语音交互对话系统可以用于实现协呼电话机器人,步骤如下:
I1、按实施例1的相同步骤,拨通通话对象的电话,由机器人和通话对象的对话,通话文字记录显示在显示屏上;
I2、人工坐席可以通过专门的耳机收听机器人语音和通话对象的语音,或者通过观看屏幕文字,了解通话进程;
I3、在人工坐席认为必要的时候,按下机器人终端上的介入按钮开始人工介入;
I4、机器人终端内的数据处理子模块把会话转为人工介入模式,此时对通信网络本身没有任何影响,切断与后端处理模块的连接,关闭语音连接模块与通信终端的麦克风;
I5、人工坐席直接对着机器人终端内的麦克风讲话,按照前述相同的路径,发送到通话对象,直接和通话对象对话,实现无缝切换。机器人语音和坐席语音已经通过声音克隆技术进行匹配,所以能够较好地模拟坐席的声音;
I6、人工坐席和通话对象的对话也可以通过后端处理模块的语音识别模块识别成文字,显示在显示屏并记录到数据库;
I7、可选地,人工坐席也可以选择切断机器人终端,直接通过通信终端或语音连接模块的麦克风与通话对象的对话。
实施例4、本发明的语音交互对话系统可以用于实现会议记录机器人,步骤如下:
J1、通过机器人终端上的按钮设置为会议记录模式,关闭扬声器外放;
J2、会议过程中,通过远场麦克风阵列接受参会人员的语音;
J3、通过网络把会议语音传输到后端处理模块;
J4、后端处理模块调用声音分离模块分离不同说话人的声音,调用声纹识别模块识别出各个说话人的身份,调用语音识别模块把每个说话人的语音分别转换成文字;把上述信息整合为带有说话人身份标识的文字会议记录。
J5、把上述文字会议记录发送到机器人终端,在显示屏上显示;同时把文字会议记录保存到数据库。
实施例5、本发明的语音交互对话系统可以用于实现个人语音助手,帮助客户自动接听电话。当客户在做别的事情例如做饭、休息、开会、睡觉等,无法接听电话,就可以用语音命令机器人终端代接电话,让机器人和对方对话,了解一些简单信息,或回答一些简单问题,或者安抚对方。实现步骤如下:
K1、同G1,用语音连接模块连接机器人终端和通信终端;
K2、预先登录自己的用户名,并且定制一个或多个自动接听电话的话术;可以根据电话号码、区号、联系人分组、性别、来电时间等因素自定规则,选择合适的话术;
K3、设置机器人终端为自动接听电话模式。可选地,也可以在来电时用语音命令机器人终端代接电话,例如,冲着机器人终端大喊:“小硅同学,帮我接一下电话!”;
K4、有来电呼入时,如果机器人终端处于自动接听电话模式,就通过音频信号线发送一个指令给手机内的APP,APP就自动接听电话,并把对方语音接入机器人终端;
K5、机器人终端连接后端处理模块,加载符合条件的话术;
K6、后续步骤和呼入实施例相同;
K7、类似于协呼实施例,机器人接听过程中,机主也可以随时切入,亲自和对方讲话。
除了上述实施例以外,本发明还能够实现免语音唤醒机器人终端,即实现通过耳机唤醒机器人终端,实现基本功能,例如个人管家、定制闹钟、查询信息、语音备忘、日程管理等;再如语音购物、手机充值、叫外卖、网约车、在线音乐播放等,在此不再详述。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于人工智能的移动式语音交互对话系统,其特征是:包括:
通信系统,用于支持通话对象和机器人系统通信;
机器人系统,包括机器人终端和后端处理模块,所述机器人终端用于输入和输出语音,所述后端处理模块用于对所述机器人终端接收的语音进行处理并通过所述机器人终端反馈处理结果;
语音连接模块,用于连接所述机器人系统和所述通信系统;
所述通信系统包括通信网络和通信终端,所述通信终端用于采集通话对象语音和传输所述机器人终端语音给通话对象,所述通话对象为与通信终端建立通信连接的用户终端的使用者。
2.根据权利要求1所述的一种基于人工智能的移动式语音交互对话系统,其特征是:所述通信终端内部配置有命令芯片,所述通信终端内还配置有实现所述命令芯片功能的特定应用软件,所述特定应用软件与通话控制模块通信连接,用于拨打通话和接听通话以及接收控制指令、号码数据。
3.根据权利要求1和2任一所述的一种基于人工智能的移动式语音交互对话系统,其特征是:所述机器人终端包括拾音播音子模块、联网子模块、数据处理子模块;
所述拾音播音子模块用于接收语音和播放语音;
所述联网子模块用于和所述后端处理模块连接;
数据处理子模块用于处理语音数据,与后端处理模块进行数据传递。
4.根据权利要求3所述的一种基于人工智能的移动式语音交互对话系统,其特征是:所述机器人终端还包括显示屏、按键子模块;所述显示屏用于显示所述机器人系统和通话对象的通话记录或通话相关信息;所述按键子模块用于输入控制指令。
5.根据权利要求1、2、4任一所述的一种基于人工智能的移动式语音交互对话系统,其特征是:所述后端处理模块用于对所述机器人终端发来的语音数据进行意图识别,并根据语音意图生成回复语音发回给所述机器人终端。
6.根据权利要求5所述的一种基于人工智能的移动式语音交互对话系统,其特征是:所述后端处理模块包括对话管理子模块、语音识别子模块 、意图识别子模块、语音合成子模块;
所述对话管理子模块用于控制对话的流程和逻辑,生成应答文本;
所述语音识别子模块用于识别接收到的通话对象语音并转化为文字;
所述意图识别子模块用于根据识别的语音文本识别出通话对象意图;
所述语音合成子模块用于将应答文本合成为语音并发送到所述机器人终端。
7.根据权利要求1、2、4、6任一所述的一种基于人工智能的移动式语音交互对话系统,其特征是:还包括通话控制模块,用于控制通信系统和机器人系统之间进行批量通话。
8.根据权利要求7所述的一种基于人工智能的移动式语音交互对话系统,其特征是:所述通话控制模块包括:通话对象数据库、系统数据库、任务管理模块、通信控制器子模块;
所述通话对象数据库,用于存储通话对象相关的数据;
所述系统数据库,用于存储通话记录及通话过程相关的其它数据;
所述任务管理模块,用于管理通话任务;
所述通信控制器模块,调度其它模块,获取或存入数据;控制通信系统实现批量通话;和机器人系统通信,并同步数据。
9.根据权利要求1、2、4、6、8任一所述的一种基于人工智能的移动式语音交互对话系统,其特征是:所述语音连接模块包括话筒听筒设备、音频信号线、无线通信设备的任意一种或多种;
所述话筒听筒设备,用于采集所述机器人终端播音端和所述通信系统播音端发出的语音再分别传递到所述通信系统的收音端和所述机器人终端的收音端;
所述音频信号线的两端分别接入所述机器人终端和所述通信系统,用于实现所述通信系统和所述机器人终端之间的数据传输;
所述无线通信子模块,用于在所述机器人终端和通信系统之间进行数据的无线传输。
CN202010670413.6A 2020-07-13 2020-07-13 一种基于人工智能的移动式语音交互对话系统 Active CN111835923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010670413.6A CN111835923B (zh) 2020-07-13 2020-07-13 一种基于人工智能的移动式语音交互对话系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010670413.6A CN111835923B (zh) 2020-07-13 2020-07-13 一种基于人工智能的移动式语音交互对话系统

Publications (2)

Publication Number Publication Date
CN111835923A CN111835923A (zh) 2020-10-27
CN111835923B true CN111835923B (zh) 2021-10-19

Family

ID=72922744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010670413.6A Active CN111835923B (zh) 2020-07-13 2020-07-13 一种基于人工智能的移动式语音交互对话系统

Country Status (1)

Country Link
CN (1) CN111835923B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113395393B (zh) * 2021-05-06 2022-09-02 浙江贝才之神网络科技有限公司 通讯客户端、系统和方法
CN113676601A (zh) * 2021-09-30 2021-11-19 百可录(北京)科技有限公司 一种智能语音交互系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
CN110401777A (zh) * 2019-08-02 2019-11-01 上海尊源通讯技术有限公司 一种基于移动通讯终端的ai电话秘书系统
CN110502631A (zh) * 2019-07-17 2019-11-26 招联消费金融有限公司 一种输入信息响应方法、装置、计算机设备和存储介质
CN110891124A (zh) * 2019-12-11 2020-03-17 厦门韭黄科技有限公司 一种人工智能代接来电的系统
CN111343346A (zh) * 2020-05-18 2020-06-26 腾讯科技(深圳)有限公司 基于人机对话的来电代接方法、装置、存储介质及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10455088B2 (en) * 2015-10-21 2019-10-22 Genesys Telecommunications Laboratories, Inc. Dialogue flow optimization and personalization

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
CN110502631A (zh) * 2019-07-17 2019-11-26 招联消费金融有限公司 一种输入信息响应方法、装置、计算机设备和存储介质
CN110401777A (zh) * 2019-08-02 2019-11-01 上海尊源通讯技术有限公司 一种基于移动通讯终端的ai电话秘书系统
CN110891124A (zh) * 2019-12-11 2020-03-17 厦门韭黄科技有限公司 一种人工智能代接来电的系统
CN111343346A (zh) * 2020-05-18 2020-06-26 腾讯科技(深圳)有限公司 基于人机对话的来电代接方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN111835923A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
US9948772B2 (en) Configurable phone with interactive voice response engine
WO2020216107A1 (zh) 会议数据处理方法、装置、系统及电子设备
JP3651508B2 (ja) 情報処理装置および情報処理方法
CN105556955B (zh) 视频通话装置和视频通话处理方法
CN107134286A (zh) 基于语音交互的无线音频播放方法、音乐播放器及存储介质
US20050027539A1 (en) Media center controller system and method
JP2008099330A (ja) 情報処理装置、携帯電話機
CN111835923B (zh) 一种基于人工智能的移动式语音交互对话系统
CN103685711A (zh) 一种基于手机自动接通的通话控制和处理方法
US6563911B2 (en) Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs
CN101510917B (zh) 一种移动终端无声通话的方法
CN101754143B (zh) 一种移动终端及其多方通话补充业务的改进方法
CN111263014A (zh) 用于聊天机器人与人类通话的可编程智能代理机
EP3968619B1 (en) Three-party call terminal for use in mobile man-machine collaborative calling robot
CN112887194B (zh) 实现听障人士通话的交互方法、装置、终端及存储介质
CN113194203A (zh) 一种用于听障人士的沟通系统、接听拨打方法及通讯系统
CN111775165A (zh) 一种实现移动式智能客服机器人的系统、机器人终端以及后端处理模块
CN102160335A (zh) 周围电话系统中的对话检测
EP1511277A1 (en) Method for answering an incoming event with a phone device, and adapted phone device
CN117544727A (zh) 一种家用智能音箱内置话机系统及实现方法
CN110336919A (zh) 一种智能监控设备的语音通话系统及其通话方案
JP2001230885A (ja) 注釈のついた音声メール応答のための方法および装置
JP2005102033A (ja) 携帯電話での同報通話システム
JP3732722B2 (ja) 電話用情報重畳装置および電話機
CN105306656B (zh) 呼叫留言方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: SiMa Huapeng

Inventor after: Chen Liping

Inventor before: SiMa Huapeng

CB03 Change of inventor or designer information