CN110136712A - 实现智能语音ai功能的方法及装置 - Google Patents

实现智能语音ai功能的方法及装置 Download PDF

Info

Publication number
CN110136712A
CN110136712A CN201910376683.3A CN201910376683A CN110136712A CN 110136712 A CN110136712 A CN 110136712A CN 201910376683 A CN201910376683 A CN 201910376683A CN 110136712 A CN110136712 A CN 110136712A
Authority
CN
China
Prior art keywords
voice
data
service
server
stream data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910376683.3A
Other languages
English (en)
Inventor
曾景文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhen Ten Information Technology (shanghai) Co Ltd
Original Assignee
Zhen Ten Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhen Ten Information Technology (shanghai) Co Ltd filed Critical Zhen Ten Information Technology (shanghai) Co Ltd
Priority to CN201910376683.3A priority Critical patent/CN110136712A/zh
Publication of CN110136712A publication Critical patent/CN110136712A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/53Network services using third party service providers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明的目的是提供一种实现智能语音AI功能的方法及装置,本发明通过从设备端获取语音流数据,并将所述语音流数据发送至第三方语音AI服务器;接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的AI服务回复数据;对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备,能够实现非智能设备或老旧平台的设备,能够通过中转服务器迅速接入第三方语音AI服务器的语音AI服务功能,流畅使用智能语音服务,使智能语音服务能够在非智能设备上成功商用。中转服务器可根据需求切换第三方AI服务厂商,对设备无影响,无须设备重发固件版本。

Description

实现智能语音AI功能的方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种实现智能语音AI功能的方法及系统。
背景技术
语音AI(人工智能,Artificial Intelligence)技术,近几年突飞猛进的发展,各大智能设备均以搭载智能语音AI技术为卖点,然而智能设备上只是语音输入的入口,后端接入了大量云端AI服务。目前国内的语音AI服务提供商有很多,主流的有小米、百度、科大讯飞等厂商。这些厂商在提供接入服务时对设备的类型、平台、操作系统均有要求。大部分只提供了安卓、IOS、Linux等主流操作系统的SDK接入,其他非使用该操作系统的设备无机会接入,如何解决这些老旧平台的设备接入语音AI,成为急需解决一个实际问题。
发明内容
本发明的一个目的是提供一种实现智能语音AI功能的方法及装置。
根据本发明的一个方面,提供了一种实现智能语音AI功能的方法,该方法包括:
从设备端获取语音流数据,并将所述语音流数据发送至第三方语音AI 服务器;
接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的AI服务回复数据;
对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备。
进一步的,上述方法中,所述中转服务器为Linux操作系统的云端服务器,从设备端获取语音流数据,并将所述语音流数据发送至第三方语音 AI服务器,包括:
与设备建立长连接链路;
通过所述长连接链路,从设备端获取各段压缩后的语音流数据,并将各段压缩后的语音流数据解压后,使用第三方语音AI服务器提供的Linux 的SDK接入语音AI服务将解压后的语音流数据透传至第三方语音AI服务器,并维持所述长连接链路。
进一步的,上述方法中,对所述AI服务回复数据进行解析,得到AI 服务文本数据和AI服务语音数据并发送给所述设备,包括:
对所述AI服务回复数据进行解析,从中抽取出ASR语音识别结果、 NLP语义理解结果和TTS语音合成结果;
将所述ASR语音识别结果、NLP语义理解结果和TTS语音合成结果分别组包,并分段下发至所述设备。
根据本发明的另一方面,还提供一种在设备端实现智能语音AI功能的方法,其中,该方法包括:
录制用户输入的指令语音,将所述指令语音转换为语音流数据,并将所述语音流数据发送至中转服务器;
接收所述中转服务器返回的AI服务文本数据和AI服务语音数据,其中,所述AI服务文本数据和AI服务语音数据由所述中转服务器解析第三方语音AI服务器返回的AI服务回复数据得到,所述语音流数据由所述中转服务器发送给所述第三方语音AI服务器,所述第三方语音AI服务器识别所述语音流数据后向所述中转服务器反馈对应的AI服务回复数据;
基于所述AI服务文本数据进行对应的文本显示,AI服务语音数据进行对应的语音播报。
进一步的,上述方法中,当所述中转服务器为Linux操作系统的云端服务器时,录制用户输入段指令语音,将所述指令语音转换为语音流数据,并将所述语音流数据发送至中转服务器,包括:
录制用户输入的指令语音,将所述指令语音转换为各段语音流数据;
与所述中转服务器建立长连接链路;
将各段语音流数据压缩后通过所述长连接链路发送至中转服务器,并维持长连接链路。
进一步的,上述方法中,接收所述中转服务器返回的AI服务文本数据和AI服务语音数据,包括:
从所述中转服务器接收分别组包并分段下发的ASR语音识别结果、NLP 语义理解结果和TTS语音合成结果,其中,所述中转服务器对所述AI服务回复数据进行解析,从中抽取出ASR语音识别结果、NLP语义理解结果和TTS语音合成结果;
将所述ASR语音识别结果、NLP语义理解结果作为AI服务文本数据;将TTS语音合成结果作为AI服务语音数据。
根据本发明的另一方面,还提供一种基于计算的装置,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
从设备端获取语音流数据,并将所述语音流数据发送至第三方语音AI 服务器;
接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的 AI服务回复数据;
对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
从设备端获取语音流数据,并将所述语音流数据发送至第三方语音AI 服务器;
接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的 AI服务回复数据;
对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备。
根据本发明的另一方面,还提供一种基于计算的装置,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
录制用户输入的指令语音,将所述指令语音转换为语音流数据,并将所述语音流数据发送至中转服务器;
接收所述中转服务器返回的AI服务文本数据和AI服务语音数据,其中,所述AI服务文本数据和AI服务语音数据由所述中转服务器解析第三方语音AI服务器返回的AI服务回复数据得到,所述语音流数据由所述中转服务器发送给所述第三方语音AI服务器,所述第三方语音AI服务器识别所述语音流数据后向所述中转服务器反馈对应的AI服务回复数据;
基于所述AI服务文本数据进行对应的文本显示,AI服务语音数据进行对应的语音播报。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
录制用户输入的指令语音,将所述指令语音转换为语音流数据,并将所述语音流数据发送至中转服务器;
接收所述中转服务器返回的AI服务文本数据和AI服务语音数据,其中,所述AI服务文本数据和AI服务语音数据由所述中转服务器解析第三方语音AI服务器返回的AI服务回复数据得到,所述语音流数据由所述中转服务器发送给所述第三方语音AI服务器,所述第三方语音AI服务器识别所述语音流数据后向所述中转服务器反馈对应的AI服务回复数据;
基于所述AI服务文本数据进行对应的文本显示,AI服务语音数据进行对应的语音播报。
与现有技术相比,本发明通过从设备端获取语音流数据,并将所述语音流数据发送至第三方语音AI服务器;接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的AI服务回复数据;对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备,能够实现非智能设备或老旧平台的设备,能够通过中转服务器迅速接入第三方语音AI服务器的语音AI服务功能,流畅使用智能语音服务,使智能语音服务能够在非智能设备上成功商用。中转服务器可根据需求切换第三方AI服务厂商,对设备无影响,无须设备重发固件版本。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一实施例的实现智能语音AI功能的方法及装置的原理图;
图2示出本发明一实施例的语音流数据的组包发送格式示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如图1所示,本发明提供一种在中转服务器端(server)实现智能语音AI功能的方法,所述方法包括:
步骤S11,从设备端(device)获取语音流数据,并将所述语音流数据发送至第三方语音AI服务器;
例如,设备可以采集用户输入的指令语音,如:某人是谁?
在此,所述语音流数据可以是自然人发出的任意语音数据,包括指令、查询、获取信息甚至是闲聊均可;
步骤S12,接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的AI服务回复数据;
步骤S13,对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备。
在此,AI服务文本数据,例如可以是回答某人是谁的文本数据,AI 服务语音数据,如可以是回答某人是谁的语音数据。
第三方语音AI服务器可以有AI服务厂家提供,例如可以是百度、小米、科大讯飞等企业。
本发明能够实现非智能设备或老旧平台的设备,能够通过中转服务器迅速接入第三方语音AI服务器的语音AI服务功能,流畅使用智能语音服务,使智能语音服务能够在非智能设备上成功商用。中转服务器可根据需求切换第三方AI服务厂商,对设备无影响,无须设备重发固件版本。
本发明的在中转服务器端实现智能语音AI功能的方法一实施例中,所述中转服务器为Linux操作系统的云端服务器,步骤S11,从设备端获取语音流数据,并将所述语音流数据发送至第三方语音AI服务器,包括:
与设备建立长连接链路;
通过所述长连接链路,从设备端获取各段压缩后的语音流数据,并将各段压缩后的语音流数据解压后,使用第三方语音AI服务器提供的Linux 的SDK接入语音AI服务将解压后的语音流数据透传至第三方语音AI服务器,并维持所述长连接链路。
在此,Linux操作系统的云端服务器可以使用第三方语音AI服务器提供的Linux的SDK接入语音AI服务,并把设备传过来的语音流数据解压,再透传至第三方语音AI服务器,维持长连接链路等待第三方语音AI服务器返回对语音流数据识别处理结果。
设备与使用Linux操作系统的云端服务器建立长连接,录音并生成自定义二进制语音流数据进行精简并压缩,如图2所示,发送每段语音流数据时,可以依次发送开始符、语音流数据和结束符至Linux操作系统的云端服务器。
通过Linux操作系统的云端服务器、建立长连接链路、将语音流数据切分为多段传输、压缩和解压语音流数据的各种手段,保证语音流数据的高效、可靠传输。
如图1所示,本发明的在中转服务器端实现智能语音AI功能的方法一实施例中,步骤S13,对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备,包括:
对所述AI服务回复数据进行解析,从中抽取出ASR语音识别结果、 NLP语义理解结果和TTS语音合成结果;
将所述ASR语音识别结果、NLP语义理解结果和TTS语音合成结果分别组包,并分段下发至所述设备。
在此,所述中转服务器解析第三方语音AI服务器的回复结果,从中抽取出ASR语音识别结果,NLP语义理解结果,TTS语音合成结果三段主要数据,如果未取到可自定义数据,亦可根据要求自行替换处理,ASR、 NLP、TTS分别组包,分段下发至设备。
通过中转服务器自行解析第三方语音AI服务器的回复结果,得到ASR、NLP、TTS数据并透传至设备,可以让非智能设备能后流畅的使用智能语音AI服务。
设备接收到述中转服务器下发的ASR、NLP数据后,可以解压显示到设备屏幕;另外,设备接收到述中转服务器下发的TTS数据,可以边收边播,降低响应延时,提高用户体验。
如图1所示,本发明提供一种在设备端(device)实现智能语音AI 功能的方法,所述方法包括:
步骤S21,录制用户输入的指令语音,将所述指令语音转换为语音流数据,并将所述语音流数据发送至中转服务器;
例如,设备可以采集用户输入的指令语音,如:某人是谁?
步骤S22,接收所述中转服务器返回的AI服务文本数据和AI服务语音数据,其中,所述AI服务文本数据和AI服务语音数据由所述中转服务器解析第三方语音AI服务器返回的AI服务回复数据得到,所述语音流数据由所述中转服务器发送给所述第三方语音AI服务器,所述第三方语音 AI服务器识别所述语音流数据后向所述中转服务器反馈对应的AI服务回复数据;
步骤S23,基于所述AI服务文本数据进行对应的文本显示,AI服务语音数据进行对应的语音播报。
在此,AI服务文本数据,例如可以是回答某人是谁的文本数据,AI 服务语音数据,如可以是回答某人是谁的语音数据。
第三方语音AI服务器可以有AI服务厂家提供,例如可以是百度、小米、科大讯飞等企业。
本发明能够实现非智能设备或老旧平台的设备,能够通过中转服务器迅速接入第三方语音AI服务器的语音AI服务功能,流畅使用智能语音服务,使智能语音服务能够在非智能设备上成功商用。中转服务器可根据需求切换第三方AI服务厂商,对设备无影响,无须设备重发固件版本。
本发明的在设备端实现智能语音AI功能的方法一实施例中,当所述中转服务器为Linux操作系统的云端服务器时,步骤S21,录制用户输入段指令语音,将所述指令语音转换为语音流数据,并将所述语音流数据发送至中转服务器,包括:
录制用户输入的指令语音,将所述指令语音转换为各段语音流数据;
与所述中转服务器建立长连接链路;
将各段语音流数据压缩后通过所述长连接链路发送至中转服务器,并维持长连接链路。
在此,Linux操作系统的云端服务器可以使用第三方语音AI服务器提供的Linux的SDK接入语音AI服务,并把设备传过来的语音流数据解压,再透传至第三方语音AI服务器,维持长连接链路等待第三方语音AI服务器返回对语音流数据识别处理结果。
设备与使用Linux操作系统的云端服务器建立长连接,录音并生成自定义二进制语音流数据进行精简并压缩,如图2所示,发送每段语音流数据时,可以依次发送开始符(start index)、语音流数据(voice pay load) 和结束符(end index)至Linux操作系统的云端服务器。
通过Linux操作系统的云端服务器、建立长连接链路、将语音流数据切分为多段传输、压缩和解压语音流数据的各种手段,保证语音流数据的高效、可靠传输。
如图1所示,本发明的在设备端实现智能语音AI功能的方法一实施例中,步骤S22,接收所述中转服务器返回的AI服务文本数据和AI服务语音数据,包括:
从所述中转服务器接收分别组包并分段下发的ASR语音识别结果、NLP 语义理解结果和TTS语音合成结果,其中,所述中转服务器对所述AI服务回复数据进行解析,从中抽取出ASR语音识别结果、NLP语义理解结果和TTS语音合成结果;
将所述ASR语音识别结果、NLP语义理解结果作为AI服务文本数据;将TTS语音合成结果作为AI服务语音数据。
在此,所述中转服务器解析第三方语音AI服务器的回复结果,从中抽取出ASR语音识别结果,NLP语义理解结果,TTS语音合成结果三段主要数据,如果未取到可自定义数据,亦可根据要求自行替换处理,ASR、 NLP、TTS分别组包,分段下发至设备。
通过中转服务器自行解析第三方语音AI服务器的回复结果,得到 ASR、NLP、TTS数据并透传至设备,可以让非智能设备能后流畅的使用智能语音AI服务。
设备接收到述中转服务器下发的ASR、NLP数据后,可以解压显示到设备屏幕;另外,设备接收到述中转服务器下发的TTS数据,可以边收边播,降低响应延时,提高用户体验。
根据本发明的另一方面,还提供一种基于计算的装置,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
从设备端获取语音流数据,并将所述语音流数据发送至第三方语音AI 服务器;
接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的 AI服务回复数据;
对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
从设备端获取语音流数据,并将所述语音流数据发送至第三方语音AI 服务器;
接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的 AI服务回复数据;
对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备。
根据本发明的另一方面,还提供一种基于计算的装置,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
录制用户输入的指令语音,将所述指令语音转换为语音流数据,并将所述语音流数据发送至中转服务器;
接收所述中转服务器返回的AI服务文本数据和AI服务语音数据,其中,所述AI服务文本数据和AI服务语音数据由所述中转服务器解析第三方语音AI服务器返回的AI服务回复数据得到,所述语音流数据由所述中转服务器发送给所述第三方语音AI服务器,所述第三方语音AI服务器识别所述语音流数据后向所述中转服务器反馈对应的AI服务回复数据;
基于所述AI服务文本数据进行对应的文本显示,AI服务语音数据进行对应的语音播报。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
录制用户输入的指令语音,将所述指令语音转换为语音流数据,并将所述语音流数据发送至中转服务器;
接收所述中转服务器返回的AI服务文本数据和AI服务语音数据,其中,所述AI服务文本数据和AI服务语音数据由所述中转服务器解析第三方语音AI服务器返回的AI服务回复数据得到,所述语音流数据由所述中转服务器发送给所述第三方语音AI服务器,所述第三方语音AI服务器识别所述语音流数据后向所述中转服务器反馈对应的AI服务回复数据;
基于所述AI服务文本数据进行对应的文本显示,AI服务语音数据进行对应的语音播报。
本发明的各装置和存储介质实施例的详细内容,具体可参见各方法实施例的对应部分,在此,不再赘述。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种在中转服务器端实现智能语音AI功能的方法,其中,该方法包括:
从设备端获取语音流数据,并将所述语音流数据发送至第三方语音AI服务器;
接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的AI服务回复数据;
对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备。
2.根据权利要求1所述的方法,其中,所述中转服务器为Linux操作系统的云端服务器,从设备端获取语音流数据,并将所述语音流数据发送至第三方语音AI服务器,包括:
与设备建立长连接链路;
通过所述长连接链路,从设备端获取各段压缩后的语音流数据,并将各段压缩后的语音流数据解压后,使用第三方语音AI服务器提供的Linux的SDK接入语音AI服务将解压后的语音流数据透传至第三方语音AI服务器,并维持所述长连接链路。
3.根据权利要求2所述的方法,其中,对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备,包括:
对所述AI服务回复数据进行解析,从中抽取出ASR语音识别结果、NLP语义理解结果和TTS语音合成结果;
将所述ASR语音识别结果、NLP语义理解结果和TTS语音合成结果分别组包,并分段下发至所述设备。
4.一种在设备端实现智能语音AI功能的方法,其中,该方法包括:
录制用户输入的指令语音,将所述指令语音转换为语音流数据,并将所述语音流数据发送至中转服务器;
接收所述中转服务器返回的AI服务文本数据和AI服务语音数据,其中,所述AI服务文本数据和AI服务语音数据由所述中转服务器解析第三方语音AI服务器返回的AI服务回复数据得到,所述语音流数据由所述中转服务器发送给所述第三方语音AI服务器,所述第三方语音AI服务器识别所述语音流数据后向所述中转服务器反馈对应的AI服务回复数据;
基于所述AI服务文本数据进行对应的文本显示,AI服务语音数据进行对应的语音播报。
5.根据权利要求4所述的方法,其中,当所述中转服务器为Linux操作系统的云端服务器时,录制用户输入段指令语音,将所述指令语音转换为语音流数据,并将所述语音流数据发送至中转服务器,包括:
录制用户输入的指令语音,将所述指令语音转换为各段语音流数据;
与所述中转服务器建立长连接链路;
将各段语音流数据压缩后通过所述长连接链路发送至中转服务器,并维持长连接链路。
6.根据权利要求5所述的方法,其中,接收所述中转服务器返回的AI服务文本数据和AI服务语音数据,包括:
从所述中转服务器接收分别组包并分段下发的ASR语音识别结果、NLP语义理解结果和TTS语音合成结果,其中,所述中转服务器对所述AI服务回复数据进行解析,从中抽取出ASR语音识别结果、NLP语义理解结果和TTS语音合成结果;
将所述ASR语音识别结果、NLP语义理解结果作为AI服务文本数据;将TTS语音合成结果作为AI服务语音数据。
7.一种基于计算的装置,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
从设备端获取语音流数据,并将所述语音流数据发送至第三方语音AI服务器;
接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的AI服务回复数据;
对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备。
8.一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
从设备端获取语音流数据,并将所述语音流数据发送至第三方语音AI服务器;
接收所述第三方语音AI服务器识别所述语音流数据后反馈的对应的AI服务回复数据;
对所述AI服务回复数据进行解析,得到AI服务文本数据和AI服务语音数据并发送给所述设备。
9.一种基于计算的装置,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
录制用户输入的指令语音,将所述指令语音转换为语音流数据,并将所述语音流数据发送至中转服务器;
接收所述中转服务器返回的AI服务文本数据和AI服务语音数据,其中,所述AI服务文本数据和AI服务语音数据由所述中转服务器解析第三方语音AI服务器返回的AI服务回复数据得到,所述语音流数据由所述中转服务器发送给所述第三方语音AI服务器,所述第三方语音AI服务器识别所述语音流数据后向所述中转服务器反馈对应的AI服务回复数据;
基于所述AI服务文本数据进行对应的文本显示,AI服务语音数据进行对应的语音播报。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
录制用户输入的指令语音,将所述指令语音转换为语音流数据,并将所述语音流数据发送至中转服务器;
接收所述中转服务器返回的AI服务文本数据和AI服务语音数据,其中,所述AI服务文本数据和AI服务语音数据由所述中转服务器解析第三方语音AI服务器返回的AI服务回复数据得到,所述语音流数据由所述中转服务器发送给所述第三方语音AI服务器,所述第三方语音AI服务器识别所述语音流数据后向所述中转服务器反馈对应的AI服务回复数据;
基于所述AI服务文本数据进行对应的文本显示,AI服务语音数据进行对应的语音播报。
CN201910376683.3A 2019-05-07 2019-05-07 实现智能语音ai功能的方法及装置 Pending CN110136712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910376683.3A CN110136712A (zh) 2019-05-07 2019-05-07 实现智能语音ai功能的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910376683.3A CN110136712A (zh) 2019-05-07 2019-05-07 实现智能语音ai功能的方法及装置

Publications (1)

Publication Number Publication Date
CN110136712A true CN110136712A (zh) 2019-08-16

Family

ID=67576634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910376683.3A Pending CN110136712A (zh) 2019-05-07 2019-05-07 实现智能语音ai功能的方法及装置

Country Status (1)

Country Link
CN (1) CN110136712A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201240A (zh) * 2020-09-27 2021-01-08 上汽通用五菱汽车股份有限公司 车辆控制方法、车载无屏装置、服务器及可读存储介质
CN112364140A (zh) * 2020-11-04 2021-02-12 北京致远互联软件股份有限公司 一种通过配置单实现语音识别意图定制的方法
CN113421564A (zh) * 2021-06-22 2021-09-21 广州小鹏汽车科技有限公司 语音交互方法、语音交互系统、服务器和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN206849495U (zh) * 2017-05-03 2018-01-05 深圳车盒子科技有限公司 车载语音交互终端及车载语音交互系统
CN108735214A (zh) * 2018-05-30 2018-11-02 出门问问信息科技有限公司 设备的语音控制方法及装置
CN108831434A (zh) * 2018-05-29 2018-11-16 尹绍华 语音交互系统及方法
CN109040188A (zh) * 2018-07-03 2018-12-18 四川斐讯信息技术有限公司 一种智能音箱的音频处理方法及系统
CN109377987A (zh) * 2018-08-31 2019-02-22 百度在线网络技术(北京)有限公司 智能语音设备间的交互方法、装置、设备及存储介质
CN109429522A (zh) * 2016-12-06 2019-03-05 吉蒂机器人私人有限公司 语音交互方法、装置及系统
CN109599111A (zh) * 2019-01-02 2019-04-09 百度在线网络技术(北京)有限公司 语音交互方法、装置和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109429522A (zh) * 2016-12-06 2019-03-05 吉蒂机器人私人有限公司 语音交互方法、装置及系统
CN206849495U (zh) * 2017-05-03 2018-01-05 深圳车盒子科技有限公司 车载语音交互终端及车载语音交互系统
CN108831434A (zh) * 2018-05-29 2018-11-16 尹绍华 语音交互系统及方法
CN108735214A (zh) * 2018-05-30 2018-11-02 出门问问信息科技有限公司 设备的语音控制方法及装置
CN109040188A (zh) * 2018-07-03 2018-12-18 四川斐讯信息技术有限公司 一种智能音箱的音频处理方法及系统
CN109377987A (zh) * 2018-08-31 2019-02-22 百度在线网络技术(北京)有限公司 智能语音设备间的交互方法、装置、设备及存储介质
CN109599111A (zh) * 2019-01-02 2019-04-09 百度在线网络技术(北京)有限公司 语音交互方法、装置和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201240A (zh) * 2020-09-27 2021-01-08 上汽通用五菱汽车股份有限公司 车辆控制方法、车载无屏装置、服务器及可读存储介质
CN112201240B (zh) * 2020-09-27 2023-03-14 上汽通用五菱汽车股份有限公司 车辆控制方法、车载无屏装置、服务器及可读存储介质
CN112364140A (zh) * 2020-11-04 2021-02-12 北京致远互联软件股份有限公司 一种通过配置单实现语音识别意图定制的方法
CN112364140B (zh) * 2020-11-04 2022-09-13 北京致远互联软件股份有限公司 一种通过配置单实现语音识别意图定制的方法
CN113421564A (zh) * 2021-06-22 2021-09-21 广州小鹏汽车科技有限公司 语音交互方法、语音交互系统、服务器和存储介质

Similar Documents

Publication Publication Date Title
US10425365B2 (en) System and method for relaying messages
CN110136712A (zh) 实现智能语音ai功能的方法及装置
CN106375942B (zh) 一种数据信息的传输的方法以及装置
CN104700836A (zh) 一种语音识别方法和系统
US9195641B1 (en) Method and apparatus of processing user text input information
CN104158889A (zh) 名片信息查询方法和云服务器
CN110062115A (zh) 通信方法、终端、运营商服务器和智能设备
CN104580310A (zh) 日志处理方法和服务器
CN111865881A (zh) 一种接口转换方法、装置、介质及计算机设备
CN106453582B (zh) 异步消息推送方法及系统
US7292160B1 (en) Context sensitive encoding and decoding
CN108198549A (zh) 一种设备控制方法、装置、存储介质、服务器及用户终端
WO2011104260A2 (en) Short message processing method and apparatus
KR101719926B1 (ko) 데이터 수집 api를 통해 저장된 이질적인 데이터 간 변환 시스템 및 방법
WO2007097598A1 (en) Icon transforming system, and service method for the same
CN113672488A (zh) 日志文本处理方法及装置
CN113077252A (zh) 银行柜台业务办理方法及装置
CN113282590A (zh) 基于5g消息的接口联调方法及装置
US9544252B2 (en) Compressing and decompressing electronic messages in message threads
CN103905661A (zh) 信息转发的方法和云服务器
CN112866268B (zh) 报文处理方法及系统
KR20170143261A (ko) 지능망 환경에서의 전화 상담 및 채팅 상담 간의 전환을 위한 채팅 서버 및 지능망 서버의 동작 방법, 채팅 서버, 및 지능망 서버
CN105610701A (zh) 一种即时通信的方法、装置及系统
CN103095885B (zh) 一种移动终端及其邮箱地址管理方法
CN107977381B (zh) 数据配置方法、索引管理方法、相关装置以及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190816