CN109739971B - 一种基于微信小程序实现全双工智能语音对话的方法 - Google Patents

一种基于微信小程序实现全双工智能语音对话的方法 Download PDF

Info

Publication number
CN109739971B
CN109739971B CN201910004606.5A CN201910004606A CN109739971B CN 109739971 B CN109739971 B CN 109739971B CN 201910004606 A CN201910004606 A CN 201910004606A CN 109739971 B CN109739971 B CN 109739971B
Authority
CN
China
Prior art keywords
real
time
audio stream
signaling
websocket
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910004606.5A
Other languages
English (en)
Other versions
CN109739971A (zh
Inventor
刘鹏
张忠远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Baiying Technology Co Ltd
Original Assignee
Zhejiang Baiying Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Baiying Technology Co Ltd filed Critical Zhejiang Baiying Technology Co Ltd
Priority to CN201910004606.5A priority Critical patent/CN109739971B/zh
Publication of CN109739971A publication Critical patent/CN109739971A/zh
Application granted granted Critical
Publication of CN109739971B publication Critical patent/CN109739971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于微信小程序实现全双工智能语音对话的方法,所述方法包括:用户访问微信小程序,在微信小程序的页面发起语音对话;微信小程序通过中继服务器将用户的实时音频流编码转换并经过软交换模块传递给SIP服务器,微信小程序通过WEBSOCKET协议全双工控制中继服务器中的实时音频流;SIP客户端将实时音频流转化成AI语音流;对话分析引擎对AI语音流进行识别和分析理解,并将分析结果发送至AI话术模块中;AI话术模块匹配合适的AI话术反馈至SIP客户端,由SIP客户端将AI话术依次通过软交换模块和中继服务器反馈至微信小程序、用户中。本发明解决了现有基于微信小程序实现交互功能的技术方案交互方式复杂、不及时、不直接、有局限的技术问题。

Description

一种基于微信小程序实现全双工智能语音对话的方法
技术领域
本发明涉及智能语音对话领域,尤其涉及一种基于微信小程序实现全双工智能语音对话的方法。
背景技术
随着计算机和人工智能技术的飞速发展,智能语音对话被广泛的开发和应用,微信小程序是一种不需要下载安装即可使用的应用,它实现了应用“触手可及”的梦想,能够实现消息通知、线下扫码、公众号关联等功能,同时可以基于微信社交生态,发布、转发各种各样的内容,以更低地成本开发、获取用户和传播信息,微信小程序越来越成为人们日常生活和工作的助手。在此基础上,如何基于微信小程序进行高效率的交互成为亟需解决的问题。
现有的基于微信小程序的交互主要还停留在图文信息推送、异步语音等形式上,其通常使用HTTP或者WebSocket协议进行数据传输,目前微信小程序交互的技术方案还存在有以下几个缺点:
1、交互方式复杂,用户需要点击小程序上特定的对话入口,在对话窗口中以文字或语音的方式发送消息或留言;
2、交互不及时,用户发送消息后,需要花时间等待对方回复,每一轮的交互都存在不确定时间的等待过程,交互不及时、效率低下;
3、交互不直接,部分小程序植入机器人辅助接待或机器人自动接待,其实现方式是先在后台配置问题关键词与答案,系统对用户发送的消息文本进行语义分析,匹配关键词后自动发送相应的答案,但用户与机器人仍是基于文本互动,需要互相发送消息,交互方式不够智能、直接;
4、交互内容有局限,目前的技术方案只实现了以图文、异步语音的形式来交互,关于操作类的问题,光靠单纯的图文或不及时的异步语音互动等是很难实现的,从而增加用户的使用成本。
发明内容
为了提高微信小程序的交互智能水平,提升用户基于微信小程序的交互体验、交互效率、交互效果,实现用户基于微信小程序开展的交互更加贴近拟人化,本发明提出了一种基于微信小程序实现全双工智能语音对话的方法。
本发明采用如下技术方案:
一种基于微信小程序实现全双工智能语音对话的方法,所述方法包括:用户访问微信小程序,在所述微信小程序的页面发起语音对话,所述微信小程序包括用于传输实时音频流的实时消息传输协议、添加控制信令的WEBSOCKET协议;所述微信小程序通过中继服务器将用户的实时音频流编码转换并经过软交换模块传递给SIP服务器,所述微信小程序通过WEBSOCKET协议全双工控制中继服务器中的实时音频流;所述SIP服务器中的SIP客户端将实时音频流转化为能够被对话分析引擎识别的AI语音流;所述对话分析引擎对AI语音流进行识别和分析理解,并将分析结果发送至AI话术模块中;所述AI话术模块匹配合适的AI话术反馈至所述SIP客户端,由所述SIP客户端将AI话术依次通过所述软交换模块和中继服务器反馈至微信小程序中。
作为优选,所述中继服务器将微信小程序采集的实时音频流编码转换的步骤如下:
所述微信小程序通过实时消息传输协议与实时消息服务器双向传递实时音频流;即时压缩模块接收实时消息服务器中传送的压缩格式的实时音频流,并将其转换为高保真格式的实时音频流;所述即时压缩模块与实时消息客户端双向传递高保真格式的实时音频流,所述实时消息客户端与所述软交换模块双向传递高保真格式的实时音频流。
作为优选,所述微信小程序通过WEBSOCKET协议全双工控制中继服务器中的实时音频流的步骤如下:所述微信小程序通过WEBSOCKET协议与WEBSOCKET服务器双向传递全双工控制信令;所述WEBSOCKET服务器向控制信令转换模块双向传递WEBSOCKET信令,控制信令转换模块将WEBSOCKET信令转换为实时消息信令;实时消息客户端与控制信令转换模块双向传递实时消息信令,实时消息客户端接收实时消息信令并作出应答和反馈。
作为优选,所述对话分析引擎包括语音识别模块、语义理解模块和知识图谱,所述语音识别模块对AI语音流进行识别,所述语义理解模块对AI语音流进行理解分析,所述知识谱图用于补充理解AI语音流语义层面上的用户意图。
本发明的有益效果是:1、针对现有方案的不足,本发明在小程序RTMP协议的基
础上组合WEBSOCKET协议(基于TCP的全双工通信协议),为实时消息传输添加全双工控制信令,从而实现全双工语音对话的交互模式,以提升交互体验、提高交互效率、优化交互效果、丰富交互内容;2、人机能够实现连续对话,且无需用户每轮交互都说出唤醒词;3、用户进入小程序后,可随时唤起语音对话,AI机器人能实时进行语音识别与自然语言处理,并做出语音回复;4、对话过程中,AI机器人会主动响应用户问题并按照预设流程推进对话,不需用户使用特定唤醒词激活AI机器人,并且用户可随时打断AI机器人;5、如果对话过程中出现了机器人暂时无法回答的问题,系统可无缝切换到人工客服,人工客服可继续进行实时语音对话,保证了服务的连贯性与一致性;6、相比文本消息往来,全双工语音对话更接近自然人交流方式,大大降低了咨询门槛、提升了交互体验;7、另外,在语音对话过程中,系统仍可针对用户问题推送图文消息,或控制用户页面内容,为用户提供更直观的操作演示,进而提高效率与服务质量。
附图说明
图1是本发明的流程和结构的示意图。
图1中:1、微信小程序,10、实时消息传输协议,11、WEBSOCKET协议,2、中继服务器,20、实时消息服务器,21、即时压缩模块,22、实时消息客户端,23、WEBSOCKET服务器,24、控制信令转换模块,3、软交换模块,4、SIP服务器,40、SIP客户端,41、对话分析引擎,410、语音识别模块,411、语义理解模块,412、知识图谱,42、AI话术模块。
具体实施方式
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例:如附图1所示的一种基于微信小程序实现全双工智能语音对话的方法,所述方法包括:用户访问微信小程序1,在所述微信小程序1的页面发起语音对话,所述微信小程序1包括用于传输实时音频流的实时消息传输协议10、添加控制信WEBSOCKET协议11;所述微信小程序1通过中继服务器2将用户的实时音频流编码转换并经过软交换模块3传递给SIP服务器4,所述微信小程序1通过WEBSOCKET协议11全双工控制中继服务器2中的实时音频流;所述SIP服务器4中的SIP客户端40将实时音频流转化能够被对话分析引擎41识别的AI语音流;所述对话分析引擎41对AI语音流进行识别和分析理解,并将分析结果发送至AI话术模块42中;所述AI话术模块42匹配合适的AI话术反馈至所述SIP客户端40,由所述SIP客户端40将AI话术依次通过所述软交换模块3和中继服务器2反馈至微信小程序1、用户中。
所述对话分析引擎41包括语音识别模块410、语义理解模块411和知识图谱412,所述语音识别模块410对AI语音流进行识别,所述语义理解模块411对AI语音流进行理解分析,所述知识谱图412用于补充理解AI语音流语义层面上的用户意图。
在微信小程序1实时消息传输协议10的基础上组合WEBSOCKET协议11(在单个TCP连接上进行全双工通信的协议),为实时消息传输添加控制信令,相当于在微信小程序1与软交换模块3之间建立一个中继服务器2,弥补现有技术无法实现全双工信息传输的不足,从而实现全双工实时智能语言对话。
当用户访问微信小程序1时,可在微信小程序1任意界面任意时刻发起对话,如咨询产品信息、咨询操作步骤等,中继服务器2将微信小程序1页面采集到的实时音频流编码转换并经过软交换模块3将语音数据传递给SIP服务器4,SIP服务器4基于SIP信令控制实时音频流的传输,将实时音频流通过SIP客户端40转化成能够被对话分析引擎41识别的AI语音流;并经过对话分析引擎41,基于语音识别、语义理解、知识图谱等技术,对用户的问答进行理解和分析,并将分析结果发送至AI话术模块42中,由AI话术模块42匹配应答用户咨询的智能语音AI话术返回给用户,返回的内容包含且不限于自然语言录音、NLG(机器语言生成)、TTS(文本转语音)以及图文等多媒体信息。
所述中继服务器2将微信小程序1采集的实时音频流编码转换的步骤如下:所述微信小程序1通过实时消息传输协议10与实时消息服务器20双向传递实时音频流;即时压缩模块21接收实时消息服务器20中传送的压缩格式的实时音频流,并将其转换为高保真格式的实时音频流;所述即时压缩模块21与实时消息客户端22双向传递高保真格式的实时音频流,所述实时消息客户端22与所述软交换模块3双向传递高保真格式的实时音频流。
所述微信小程序1通过WEBSOCKET协议11全双工控制中继服务器2中的实时音频流的步骤如下:所述微信小程序1通过WEBSOCKET协议11与WEBSOCKET服务器23双向传递全双工控制信令;所述WEBSOCKET服务器23向控制信令转换模块24双向传递WEBSOCKET信令,控制信令转换模块24将WEBSOCKET信令转换为实时消息信令;实时消息客户端22与控制信令转换模块24双向传递实时消息信令,实时消息客户端22接收实时消息信令并作出应答和反馈。
中继服务器2同时包含实时音频流编码转换处理和全双工控制信令处理两个进程:
1、实时音频处理:基于实时消息协议10传输的来自微信小程序1的实时音频流,由即时压缩模块21完成实时音频流数据格式由ACC_DATA压缩格式与PCM_DATA高保真格式之间的转换(AAC,Advanced Audio Coding,高级音频编码,是一种专为声音数据设计的文件压缩格式,能够压缩音频数据的大小;PCM,Pulse Code Modulation,脉冲编码调制,数字通信的编码方式之一,主要过程是将话音、图像等模拟信号每隔一定时间进行取样,使其离散化,同时将抽样值按分层单位四舍五入取整量化,同时将抽样值按一组二进制码来表示抽样脉冲的幅值,具有高保真性。),从而实现在实时消息服务器20与实时消息客户端22之间的握手请求与应答。
2、全双工控制信令处理:基于WEBSOCKET协议11,可在微信小程序1页面随时随地发起全双工控制信令(如页面停留时间超过3s,用户点击会话按钮,用户直接发起语言对话等),由控制信令转换模块24实现将WEBSOCKET信令转换成能够被实时消息客户端22应答的实时消息信令;实时消息客户端22接收实时消息信令并对实时音频流进行控制与处理后,将反馈结果通过实时消息信令传输至控制信令转换模块24中,转换为WEBSOCKET信令后传输至微信小程序1中,从而实现对实时音频流的全双工控制。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (3)

1.一种基于微信小程序实现全双工智能语音对话的方法,其特征是,所述方法包括:用户访问微信小程序,在所述微信小程序的页面发起语音对话,所述微信小程序包括用于传输实时音频流的实时消息传输协议、添加控制信令的WEBSOCKET协议;所述微信小程序通过中继服务器将用户的实时音频流编码转换并经过软交换模块传递给SIP服务器,所述微信小程序通过WEBSOCKET协议全双工控制中继服务器中的实时音频流;所述SIP服务器中的SIP客户端将实时音频流转化为能够被对话分析引擎识别的AI语音流;所述对话分析引擎对AI语音流进行识别和分析理解,并将分析结果发送至AI话术模块中;所述AI话术模块匹配合适的AI话术反馈至所述SIP客户端,由所述SIP客户端将AI话术依次通过所述软交换模块和中继服务器反馈至微信小程序中;所述中继服务器将微信小程序采集的实时音频流编码转换的步骤如下:所述微信小程序通过实时消息传输协议与实时消息服务器双向传递实时音频流;即时压缩模块接收实时消息服务器中传送的压缩格式的实时音频流,并将其转换为高保真格式的实时音频流;所述即时压缩模块与实时消息客户端双向传递高保真格式的实时音频流,所述实时消息客户端与所述软交换模块双向传递高保真格式的实时音频流;所述中继服务器同时包含实时音频流编码转换处理和全双工控制信令处理两个进程,所述实时音频流编码转换处理为基于实时消息协议传输的来自微信小程序的实时音频流,由即时压缩模块完成实时音频流数据格式由ACC_DATA压缩格式与PCM_DATA高保真格式之间的转换,用于实现在实时消息服务器与实时消息客户端之间的握手请求与应答;所述全双工控制信令处理基于WEBSOCKET协议,在微信小程序页面随时随地发起全双工控制信令,并由控制信令转换模块实现将WEBSOCKET信令转换成能够被实时消息客户端应答的实时消息信令;实时消息客户端接收实时消息信令并对实时音频流进行控制与处理后,将反馈结果通过实时消息信令传输至控制信令转换模块中,转换为WEBSOCKET信令后传输至微信小程序中,实现对实时音频流的全双工控制。
2.根据权利要求1所述的一种基于微信小程序实现全双工智能语音对话的方法,其特征是,所述微信小程序通过WEBSOCKET协议全双工控制中继服务器中的实时音频流的步骤如下:所述微信小程序通过WEBSOCKET协议与WEBSOCKET服务器双向传递全双工控制信令;所述WEBSOCKET服务器向控制信令转换模块双向传递WEBSOCKET信令,控制信令转换模块将WEBSOCKET信令转换为实时消息信令;实时消息客户端与控制信令转换模块双向传递实时消息信令,实时消息客户端接收实时消息信令并作出应答和反馈。
3.根据权利要求1所述的一种基于微信小程序实现全双工智能语音对话的方法,其特征是,所述对话分析引擎包括语音识别模块、语义理解模块和知识图谱,所述语音识别模块对AI语音流进行识别,所述语义理解模块对AI语音流进行理解分析,所述知识图谱用于补充理解AI语音流语义层面上的用户意图。
CN201910004606.5A 2019-01-03 2019-01-03 一种基于微信小程序实现全双工智能语音对话的方法 Active CN109739971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910004606.5A CN109739971B (zh) 2019-01-03 2019-01-03 一种基于微信小程序实现全双工智能语音对话的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910004606.5A CN109739971B (zh) 2019-01-03 2019-01-03 一种基于微信小程序实现全双工智能语音对话的方法

Publications (2)

Publication Number Publication Date
CN109739971A CN109739971A (zh) 2019-05-10
CN109739971B true CN109739971B (zh) 2021-04-23

Family

ID=66363329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910004606.5A Active CN109739971B (zh) 2019-01-03 2019-01-03 一种基于微信小程序实现全双工智能语音对话的方法

Country Status (1)

Country Link
CN (1) CN109739971B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264791A (zh) * 2019-05-30 2019-09-20 合肥阿拉丁智能科技有限公司 手表机器人智能化自主运行系统
CN110557451B (zh) * 2019-08-30 2021-02-05 北京百度网讯科技有限公司 对话交互处理方法、装置、电子设备和存储介质
CN110610705B (zh) * 2019-09-20 2023-07-25 上海数鸣人工智能科技有限公司 一种基于人工智能的语音交互提示器
CN112732340B (zh) * 2019-10-14 2022-03-15 思必驰科技股份有限公司 人机对话处理方法及装置
CN112992132A (zh) * 2019-12-02 2021-06-18 浙江思考者科技有限公司 一种ai智能语音交互程序桥接一键申请小程序
CN110943910A (zh) * 2019-12-10 2020-03-31 杭州当虹科技股份有限公司 一种基于WebSocket的对讲机实现方法
CN111081247A (zh) * 2019-12-24 2020-04-28 腾讯科技(深圳)有限公司 语音识别的方法以及终端、服务器和计算机可读存储介质
CN111598577B (zh) * 2020-07-24 2020-11-13 深圳市声扬科技有限公司 资源转移方法、装置、计算机设备和存储介质
CN112417532A (zh) * 2020-12-08 2021-02-26 浙江百应科技有限公司 一种支持语音和隐私输入的智能ai信息查询方法
CN112600824B (zh) * 2020-12-09 2023-01-03 广州亿语智能科技有限公司 电话语音通信方法、装置、服务器及存储介质
CN112965593A (zh) * 2021-02-25 2021-06-15 浙江百应科技有限公司 基于ai算法实现多模态控制数字人交互方法及装置
CN113542301B (zh) * 2021-07-30 2023-06-02 深圳追一科技有限公司 交互方法方法、装置、电子设备及存储介质
CN113691686A (zh) * 2021-09-17 2021-11-23 杭州一知智能科技有限公司 一种基于微信的智能语音外呼系统及方法
CN113783771A (zh) * 2021-09-17 2021-12-10 杭州一知智能科技有限公司 一种基于微信的ai虚拟人交互方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107053208B (zh) * 2017-05-24 2018-06-01 北京无忧创新科技有限公司 一种主动交互式对话机器人系统及该系统主动对话的方法
CN107656969A (zh) * 2017-08-31 2018-02-02 深圳市谷熊网络科技有限公司 一种信息推荐方法及装置
CN109005190B (zh) * 2018-08-31 2020-10-30 浙江百应科技有限公司 一种在网页上实现全双工语音对话和页面控制的方法

Also Published As

Publication number Publication date
CN109739971A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109739971B (zh) 一种基于微信小程序实现全双工智能语音对话的方法
CN109413286B (zh) 一种智能客服语音应答系统及方法
CN109005190B (zh) 一种在网页上实现全双工语音对话和页面控制的方法
KR101442312B1 (ko) 도메인이 상이한 실시간 다중 언어 통신 서비스 기반형 개방 아키텍처
CN110557451B (zh) 对话交互处理方法、装置、电子设备和存储介质
US20080295040A1 (en) Closed captions for real time communication
US20040267527A1 (en) Voice-to-text reduction for real time IM/chat/SMS
WO2005107157A1 (en) Mixed mode conferencing
CN104010267A (zh) 支持基于翻译的通信服务方法和系统和支持该服务的终端
JP2006528804A (ja) 電話ユーザがインスタント・メッセージングベースの会議に参加できるようにするための方法、システム、およびコンピュータ・プログラム(テレチャット・システムを使用する拡張会議サービスへのアクセス)
CN112838978B (zh) 支持人机协作的实时简讯机器人的系统及方法
WO2003079328A1 (fr) Appareil, procede et programme de conversion audio video
TW201106341A (en) System and method for speech processing and speech to text
CN116229977A (zh) 基于虚拟数字人实现智能化实时交互问答的系统及其处理方法
CN111833875B (zh) 一种嵌入式语音交互系统
CN111629110A (zh) 一种语音交互方法和语音交互系统
CN111554280A (zh) 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务系统
CN113783771A (zh) 一种基于微信的ai虚拟人交互方法和系统
JPWO2018198791A1 (ja) 信号処理装置および方法、並びにプログラム
US8787531B1 (en) Systems and methods for providing instant messaging to TDD/TTY users
Tucker et al. SoftBridge in action: The first deaf telephony pilot
CN115148205A (zh) 一种语音交互方法、系统、电子设备及存储介质
US7929672B2 (en) Constrained automatic speech recognition for more reliable speech-to-text conversion
CN114143401A (zh) 一种电话客服应答适配方法和装置
CN112583984A (zh) 基于语音交互的坐席分配方法、装置、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method of realizing full duplex intelligent voice dialogue based on wechat applet

Effective date of registration: 20211203

Granted publication date: 20210423

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2021980013964

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220322

Granted publication date: 20210423

Pledgee: Hangzhou High-tech Financing Guarantee Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2021980013964

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method of realizing full duplex intelligent voice dialogue based on wechat applet

Effective date of registration: 20220322

Granted publication date: 20210423

Pledgee: Shanghai Guotai Junan Securities Asset Management Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2022990000161

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230131

Granted publication date: 20210423

Pledgee: Shanghai Guotai Junan Securities Asset Management Co.,Ltd.

Pledgor: ZHEJIANG BYAI TECHNOLOGY Co.,Ltd.

Registration number: Y2022990000161