CN111787417A - 基于人工智能ai的音视频的传输控制方法及相关设备 - Google Patents
基于人工智能ai的音视频的传输控制方法及相关设备 Download PDFInfo
- Publication number
- CN111787417A CN111787417A CN202010583485.7A CN202010583485A CN111787417A CN 111787417 A CN111787417 A CN 111787417A CN 202010583485 A CN202010583485 A CN 202010583485A CN 111787417 A CN111787417 A CN 111787417A
- Authority
- CN
- China
- Prior art keywords
- audio
- real
- video stream
- virtual image
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 60
- 230000005540 biological transmission Effects 0.000 title claims abstract description 58
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 18
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000012546 transfer Methods 0.000 claims abstract description 11
- 230000004044 response Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract 1
- 230000003993 interaction Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 229920002776 polycyclohexyl methacrylate Polymers 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/643—Communication protocols
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/141—Setup of application sessions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/643—Communication protocols
- H04N21/6437—Real-time Transport Protocol [RTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/858—Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
- H04N21/8586—Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种基于人工智能AI的音视频的传输控制方法,包括:向虚拟形象平台发送建立请求,并与虚拟形象平台建立超文本传输协议HTTP连接;向所述虚拟形象平台发送文本话术,以使所述虚拟形象平台根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流;通过实时流传输协议RTSP,从所述虚拟形象平台拉取所述实时音视频流,获得RTSP流;将所述RTSP流以传输控制协议TCP方式传输至对外服务器,以通过所述对外服务器将所述RTSP流传输至用户终端中。本发明还涉及区块链技术,可以将所述RTSP流上传至区块链。本发明可应用于智慧政务/智慧社区场景中,从而推动智慧城市的建设。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能AI的音视频的传输控制方法及相关设备。
背景技术
随着人工智能(Artificial Intelligence,AI)技术的兴起,AI的应用越来越广泛,其中,基于AI的人机对话场景越来越受欢迎。在目前的人机对话场景中,通常是根据文本预先生成MP4文件,然后在播放MP4文件。然而,这种方式却不能满足人机对话中的音视频实时交互要求。
因此,如何控制音视频的传输,以满足实时交互的要求是一个亟待解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种基于人工智能AI的音视频的传输控制方法及相关设备,能通过HTTP+RTSP流方式,实现了控制服务器和虚拟形象平台之间的音视频流对接,能够满足用户在人机对话场景中的实时交互要求。
本发明的第一方面提供一种基于人工智能AI的音视频的传输控制方法,应用于控制服务器,所述方法包括:
向虚拟形象平台发送建立请求,并与虚拟形象平台建立超文本传输协议HTTP连接;
向所述虚拟形象平台发送文本话术,以使所述虚拟形象平台根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流;
通过实时流传输协议RTSP,从所述虚拟形象平台拉取所述实时音视频流,获得RTSP流;
将所述RTSP流以传输控制协议TCP方式传输至对外服务器,以通过所述对外服务器将所述RTSP流传输至用户终端中。
在一种可能的实现方式中,所述方法还包括:
接收所述虚拟形象平台返回的RTSP的统一资源定位符URL地址;
所述通过实时流传输协议RTSP,从所述虚拟形象平台拉取所述实时音视频流,获得RTSP流包括:
根据所述URL地址,从所述虚拟形象平台,通过实时流传输协议RTSP拉取所述实时音视频流,获得RTSP流。
在一种可能的实现方式中,所述方法还包括:
将检测到用户终端上的音视频流被关闭时,向所述虚拟形象平台发送HTTP的DELETE请求,所述DELETE请求中携带有音视频流标识streamID,所述DELETE请求用于请求所述虚拟形象平台停止播放针对所述streamID的音视频流。
在一种可能的实现方式中,所述方法还包括:
检测所述文本话术是否存在结束关键词;
若所述文本话术存在结束关键词,当接收到所述虚拟形象平台发送的关于所述文本话术的最后一帧的音视频流时,向所述虚拟形象平台发送HTTP的DELETE请求,所述DELETE请求中携带有音视频流标识streamID,所述DELETE请求用于请求所述虚拟形象平台停止播放针对所述streamID的音视频流。
本发明的第二方面提供一种基于人工智能AI的音视频的传输控制方法,应用于虚拟形象平台,所述方法包括:
接收控制服务器发送的建立请求,并与所述控制服务器建立超文本传输协议HTTP连接;
接收所述控制服务器发送的文本话术;
根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流;
将所述实时音视频流通过实时流传输协议RTSP的方式转换成RTSP流,发送给所述控制服务器,以播放所述RTSP流。
在一种可能的实现方式中,所述方法还包括:
接收所述控制服务器发送的音视频流设置信息,所述音视频流设置信息包括音视频流标识streamID、音视频流格式、音视频流大小以及像素大小;
所述根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流包括:
根据所述文本话术以及真人虚拟形象合成算法,按照所述音视频流格式、所述音视频流大小以及所述像素大小生成实时音视频流,所述实时音视频流采用所述streamID标识。
在一种可能的实现方式中,所述方法还包括:
根据所述文本话术的接收时间以及所述实时音视频流的生成时间,计算文本响应时长;
获取日志标准时长;
判断所述文本响应时长是否大于所述日志标准时长;
若所述文本响应时长大于所述日志标准时长,抓取所述实时音视频流的实时传输协议RTP包,以获取所述RTP包的音视频文件,并对所述音视频文件进行分析。
本发明的第三方面提供一种控制服务器,所述控制服务器包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现所述的基于人工智能AI的音视频的传输控制方法。
本发明的第四方面提供一种虚拟形象平台,所述虚拟形象平台包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现所述的基于人工智能AI的音视频的传输控制方法。
本发明的第五方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于人工智能AI的音视频的传输控制方法。
在上述技术方案中,通过HTTP+RTSP流方式,实现了控制服务器和虚拟形象平台之间的音视频流对接,能够满足用户在人机对话场景中的实时交互要求。同时,虚拟形象平台在生成实时音视频流后,能够主动对实时音视频流的响应时长进行校验,有利于降低响应时长,提高交互的实时性,此外,虚拟形象平台播完最后一帧音视频流,能够及时准确地向控制服务器发送MRCP消息,有利于控制服务器及时地收音,保证了交互时效。
附图说明
图1是本发明公开的一种基于人工智能AI的音视频的传输控制方法的较佳实施例的流程图。
图2是本发明公开的另一种基于人工智能AI的音视频的传输控制方法的较佳实施例的流程图。
图3是本发明公开的一种传输控制装置的较佳实施例的功能模块图。
图4是本发明公开的另一种传输控制装置的较佳实施例的功能模块图。
图5是本发明实现基于人工智能AI的音视频的传输控制方法的较佳实施例的控制服务器的结构示意图。
图6是本发明实现基于人工智能AI的音视频的传输控制方法的较佳实施例的虚拟形象平台的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
其中,控制服务器可以是指能对网络中其它设备(如虚拟形象平台、用户终端)提供服务的计算机系统。
所述虚拟形象平台是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。
所述用户终端包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA等。
请参见图1,图1是本发明公开的一种基于人工智能AI的音视频的传输控制方法的较佳实施例的流程图。其中,该基于人工智能AI的音视频的传输控制方法应用于控制服务器,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、向虚拟形象平台发送建立请求,并与虚拟形象平台建立超文本传输协议HTTP连接。
其中,当控制服务器检测到用户在用户终端的APP上呼入时,控制服务器可以向虚拟形象平台发送建立请求(比如HTTP的POST请求),并与虚拟形象平台建立HTTP连接。
其中,控制服务器主要用于处理上行网络用户侧的音视频流,以及下行网络虚拟形象平台的音视频流对接。本案重点关注控制服务器是如何与虚拟形象平台的音视频对接的。
其中,所述建立请求携带有音视频流设置信息,所述音视频流设置信息包括音视频流标识streamID、音视频流格式、音视频流大小以及像素大小。
视频格式如下:
视频编码 | H.264AVC |
AVC分辨率 | 640x480 |
帧率 | 15per second |
I帧间隔 | 1-2秒一个I帧 |
Profile | BaseLine Profile |
Level | 3.1 |
NAL/SLICE | 每一帧单SLICE,单NAL |
音频格式如下:
音频编码 | PCMA |
采样率 | 8K |
通道数 | 单声道 |
S12、向所述虚拟形象平台发送文本话术,以使虚拟形象平台根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流。
其中,控制服务器可以从其他设备(比如对话管理平台)获取文本话术,其中,其他设备可以识别出不同用户的不同场景,不同用户在不同场景下的文本话术是不同的。
其中,该实时音视频流是根据当前的文本话术来生成的,不同用户在不同场景下的实时音视频是不同的,可以满足实时交互的要求。
其中,虚拟形象平台建立一通视频后,通过虚拟形象平台的HTTP交互容器接收外部关联系统发送的文本,HTTP交互容器将播报的文本发送给编解码容器,编解码器生成包含音频和视频的RTP包,HTTP交互容器接收到包含音频和视频的RTP包后,在发送到RTSP合成容器,将RTP包按照前端格式要求进行编解码操作,打包生成RTSP流,即实时音视频流。
具体的,所述向所述虚拟形象平台发送文本话术包括:
向所述虚拟形象平台发送针对所述streamID的文本话术。
其中,可以发送HTTP的PUT请求,该PUT请求中携带有所述streamID的以及文本话术。不同的streamID,对应不同的文本话术,有利于区分不同用户的音视频流。
S13、通过实时流传输协议RTSP,从所述虚拟形象平台拉取所述实时音视频流,获得RTSP流。
其中,RTSP(Real Time Streaming Protocol,实时流传输协议)是双向的,使用RTSP时,客户机和服务器都可以发出请求。RTSP是用来控制声音或影像的多媒体串流协议,并允许同时多个串流需求控制,传输时所用的网络通讯协定并不在其定义的范围内,服务器端可以自行选择使用TCP或UDP来传送串流内容。
所述方法还包括:
接收所述虚拟形象平台返回的RTSP的统一资源定位符URL地址;
所述通过实时流传输协议RTSP,从所述虚拟形象平台拉取所述实时音视频流,获得RTSP流包括:
根据所述URL地址,从所述虚拟形象平台,通过实时流传输协议RTSP拉取所述实时音视频流,获得RTSP流。
其中,在与虚拟形象平台建立HTTP连接的时候,虚拟形象平台就会返回URL地址,以便后续跟进URL地址找到对应的音视频的存储位置。其中,URL(Uniform ResourceLocator,统一资源定位符),即网络地址,它是WWW的统一资源定位标志。
S14、将所述RTSP流以传输控制协议TCP方式传输至对外服务器,以通过所述对外服务器将所述RTSP流传输至用户终端中。
其中,传输控制协议(TCP,Transmission Control Protocol)是一种面向连接的、可靠的、基于字节流的传输层通信协议。
当RTSP流传输至用户终端中,用户终端的APP就开始播放该RTSP流,从而实现了音视频流的实时交互。
可选的,所述方法还包括:
将所述RTSP流上传至区块链。
其中,为了确保数据的私密性和安全性,可以将所述RTSP流上传至区块链进行保存。
可选的,所述方法还包括:
将检测到用户终端上的音视频流被关闭时,向虚拟形象平台发送HTTP的DELETE请求,所述DELETE请求中携带有所述streamID,所述DELETE请求用于请求所述虚拟形象平台停止播放针对所述streamID的音视频流。
可选的,所述方法还包括:
检测所述文本话术是否存在结束关键词;
若所述文本话术存在结束关键词,当接收到所述虚拟形象平台发送的关于所述文本话术的最后一帧的音视频流时,向虚拟形象平台发送HTTP的DELETE请求,所述DELETE请求中携带有所述streamID,所述DELETE请求用于请求所述虚拟形象平台停止播放针对所述streamID的音视频流。
在图1所描述的方法流程中,通过HTTP+RTSP流方式,实现了控制服务器和虚拟形象平台之间的音视频流对接,能够满足用户在人机对话场景中的实时交互要求。
请参见图2,图2是本发明公开的另一种基于人工智能AI的音视频的传输控制方法的较佳实施例的流程图。其中,该基于人工智能AI的音视频的传输控制方法应用于虚拟形象平台,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S21、接收控制服务器发送的建立请求,并与所述控制服务器建立超文本传输协议HTTP连接。
S22、接收所述控制服务器发送的文本话术。
S23、根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流。
所述方法还包括:
接收控制服务器发送的音视频流设置信息,所述音视频流设置信息包括音视频流标识streamID、音视频流格式、音视频流大小以及像素大小;
所述根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流包括:
根据所述文本话术以及真人虚拟形象合成算法,按照所述音视频流格式、音视频流大小以及像素大小生成实时音视频流,所述实时音视频流采用所述streamID标识。
所述方法还包括:
根据所述文本话术的接收时间以及所述实时音视频流的生成时间,计算文本响应时长;
获取日志标准时长;
判断所述文本响应时长是否大于所述日志标准时长;
若所述文本响应时长大于所述日志标准时长,抓取所述实时音视频流的实时传输协议RTP包,以获取所述RTP包的音视频文件,并对所述音视频文件进行分析。
本案中,在实时交互过程中,对生成流的速度要求快,即发送一个文本,需要在几百毫秒内播放文本的首帧。
其中,日志标准时长也即预先设置的标准时长,如果文本响应时长是否大于所述日志标准时长,表明虚拟形象平台响应较慢,这会严重影响实时交互过程,影响用户体验。为了降低文本响应时长,需要抓取所述实时音视频流的实时传输协议(Real-timeTransport Protocol,RTP)包,以获取所述RTP包的音视频文件,并对所述音视频文件进行分析,并采取相应的措施。其中,抓取RTP包,分析音视频文件的技术属于现有技术,在此不再赘述。
本案中,虚拟形象平台在生成音视频流后,也对该音视频流的文本响应时长进行校验,有利于及时的发现问题,降低响应时长,同时,提高文本响应的实时性。
S24、将所述实时音视频流通过实时流传输协议RTSP的方式转换成RTSP流,发送给控制服务器,以播放所述RTSP流。
所述方法还包括:
当文本话术的最后一帧音视频流被播报完后,向控制服务器发送媒体资源控制协议MRCP通知消息,所述MRCP通知消息用于指示播报结束。
其中,当虚拟形象平台播完文本话术的最后一帧音视频流后,向控制服务器发送媒体资源控制协议MRCP通知消息,有利于控制服务器及时地收音,实现了对收音的精确控制,避免了漏音和完全丢音的问题。
在图2所描述的方法流程中,虚拟形象平台在生成实时音视频流后,能够主动对实时音视频流的响应时长进行校验,有利于降低响应时长,提高交互的实时性,此外,虚拟形象平台播完最后一帧音视频流,能够及时准确地向控制服务器发送MRCP消息,有利于控制服务器及时地收音,保证了交互时效。
以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
请参见图3,图3是本发明公开的一种传输控制装置的较佳实施例的功能模块图。在一些实施例中,所述传输控制装置运行于控制服务器中。所述传输控制装置可以包括多个由程序代码段所组成的功能模块。所述传输控制装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的基于人工智能AI的音视频的传输控制方法中的部分或全部步骤,具体请参见图1中的相关描述,在此不再赘述。
本实施例中,所述传输控制装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:发送模块301、建立模块302及拉取模块303。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
发送模块301,用于向虚拟形象平台发送建立请求。
建立模块302,用于与虚拟形象平台建立超文本传输协议HTTP连接。
所述发送模块301,还用于向所述虚拟形象平台发送文本话术,以使所述虚拟形象平台根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流;
拉取模块303,用于通过实时流传输协议RTSP,从所述虚拟形象平台拉取所述实时音视频流,获得RTSP流。
所述发送模块301,还用于将所述RTSP流以传输控制协议TCP方式传输至对外服务器,以通过所述对外服务器将所述RTSP流传输至用户终端中。
在图3所描述的传输装置中,通过HTTP+RTSP流方式,实现了控制服务器和虚拟形象平台之间的音视频流对接,能够满足用户在人机对话场景中的实时交互要求。
请参见图4,图4是本发明公开的另一种传输控制装置的较佳实施例的功能模块图。在一些实施例中,所述传输控制装置运行于虚拟形象平台中。所述传输控制装置可以包括多个由程序代码段所组成的功能模块。所述传输控制装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图2所描述的基于人工智能AI的音视频的传输控制方法中的部分或全部步骤,具体请参见图2中的相关描述,在此不再赘述。
本实施例中,所述传输控制装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:接收模块401、建立模块402、生成模块403及发送模块404。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
接收模块401,用于接收控制服务器发送的建立请求。
建立模块402,用于与所述控制服务器建立超文本传输协议HTTP连接。
所述接收模块401,还用于接收所述控制服务器发送的文本话术。
生成模块403,用于根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流。
发送模块404,用于将所述实时音视频流通过实时流传输协议RTSP的方式转换成RTSP流,发送给所述控制服务器,以播放所述RTSP流。
在图4所描述的传输装置中,在生成实时音视频流后,能够主动对实时音视频流的响应时长进行校验,有利于降低响应时长,提高交互的实时性,此外,虚拟形象平台播完最后一帧音视频流,能够及时准确地向控制服务器发送MRCP消息,有利于控制服务器及时地收音,保证了交互时效。
如图5所示,图5是本发明实现基于人工智能AI的音视频的传输控制方法的较佳实施例的控制服务器的结构示意图。所述控制服务器5包括存储器51、至少一个处理器52、存储在所述存储器51中并可在所述至少一个处理器52上运行的计算机程序53及至少一条通讯总线54。
本领域技术人员可以理解,图5所示的示意图仅仅是所述控制服务器5的示例,并不构成对所述控制服务器5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述控制服务器5还可以包括输入输出设备、网络接入设备等。
所述至少一个处理器52可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器52可以是微处理器或者该处理器52也可以是任何常规的处理器等,所述处理器52是所述控制服务器5的控制中心,利用各种接口和线路连接整个控制服务器5的各个部分。
所述存储器51可用于存储所述计算机程序53和/或模块/单元,所述处理器52通过运行或执行存储在所述存储器51内的计算机程序和/或模块/单元,以及调用存储在存储器51内的数据,实现所述控制服务器5的各种功能。所述存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据控制服务器5的使用所创建的数据(比如音频数据)等。此外,存储器51可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
结合图1,所述控制服务器5中的所述存储器51存储多个指令以实现一种基于人工智能AI的音视频的传输控制方法,所述处理器52可执行所述多个指令从而实现:
向虚拟形象平台发送建立请求,并与虚拟形象平台建立超文本传输协议HTTP连接;
向所述虚拟形象平台发送文本话术,以使所述虚拟形象平台根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流;
通过实时流传输协议RTSP,从所述虚拟形象平台拉取所述实时音视频流,获得RTSP流;
将所述RTSP流以传输控制协议TCP方式传输至对外服务器,以通过所述对外服务器将所述RTSP流传输至用户终端中。
具体地,所述处理器52对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图5所描述的控制服务器5中,通过HTTP+RTSP流方式,实现了控制服务器和虚拟形象平台之间的音视频流对接,能够满足用户在人机对话场景中的实时交互要求。
如图6所示,图6是本发明实现基于人工智能AI的音视频的传输控制方法的较佳实施例的虚拟形象平台的结构示意图。所述虚拟形象平台6包括存储器61、至少一个处理器62、存储在所述存储器61中并可在所述至少一个处理器62上运行的计算机程序63及至少一条通讯总线64。
本领域技术人员可以理解,图6所示的示意图仅仅是所述虚拟形象平台6的示例,并不构成对所述虚拟形象平台6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述虚拟形象平台6还可以包括输入输出设备、网络接入设备等。
所述至少一个处理器62可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器62可以是微处理器或者该处理器62也可以是任何常规的处理器等,所述处理器62是所述虚拟形象平台6的控制中心,利用各种接口和线路连接整个虚拟形象平台6的各个部分。
所述存储器61可用于存储所述计算机程序63和/或模块/单元,所述处理器62通过运行或执行存储在所述存储器61内的计算机程序和/或模块/单元,以及调用存储在存储器61内的数据,实现所述虚拟形象平台6的各种功能。所述存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据虚拟形象平台6的使用所创建的数据(比如音频数据)等。此外,存储器61可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
结合图2,所述虚拟形象平台6中的所述存储器61存储多个指令以实现一种基于人工智能AI的音视频的传输控制方法,所述处理器62可执行所述多个指令从而实现:
接收控制服务器发送的建立请求,并与所述控制服务器建立超文本传输协议HTTP连接;
接收所述控制服务器发送的文本话术;
根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流;
将所述实时音视频流通过实时流传输协议RTSP的方式转换成RTSP流,发送给所述控制服务器,以播放所述RTSP流。
具体地,所述处理器62对上述指令的具体实现方法可参考图2对应实施例中相关步骤的描述,在此不赘述。
在图6所描述的虚拟形象平台6中,在生成实时音视频流后,能够主动对实时音视频流的响应时长进行校验,有利于降低响应时长,提高交互的实时性,此外,虚拟形象平台播完最后一帧音视频流,能够及时准确地向控制服务器发送MRCP消息,有利于控制服务器及时地收音,保证了交互时效。
所述控制服务器5/虚拟形象平台6集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器以及只读存储器(ROM,Read-OnlyMemory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。系统权利要求中陈述的多个单元或装置也可以通过软件或者硬件来实现。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于人工智能AI的音视频的传输控制方法,应用于控制服务器,其特征在于,所述方法包括:
向虚拟形象平台发送建立请求,并与虚拟形象平台建立超文本传输协议HTTP连接;
向所述虚拟形象平台发送文本话术,以使所述虚拟形象平台根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流;
通过实时流传输协议RTSP,从所述虚拟形象平台拉取所述实时音视频流,获得RTSP流;
将所述RTSP流以传输控制协议TCP方式传输至对外服务器,以通过所述对外服务器将所述RTSP流传输至用户终端中。
2.根据权利要求1所述的基于人工智能AI的音视频的传输控制方法,其特征在于,所述方法还包括:
接收所述虚拟形象平台返回的RTSP的统一资源定位符URL地址;
所述通过实时流传输协议RTSP,从所述虚拟形象平台拉取所述实时音视频流,获得RTSP流包括:
根据所述URL地址,从所述虚拟形象平台,通过实时流传输协议RTSP拉取所述实时音视频流,获得RTSP流。
3.根据权利要求1所述的基于人工智能AI的音视频的传输控制方法,其特征在于,所述方法还包括:
将检测到用户终端上的音视频流被关闭时,向所述虚拟形象平台发送HTTP的DELETE请求,所述DELETE请求中携带有音视频流标识streamID,所述DELETE请求用于请求所述虚拟形象平台停止播放针对所述streamID的音视频流。
4.根据权利要求1所述的基于人工智能AI的音视频的传输控制方法,其特征在于,所述方法还包括:
检测所述文本话术是否存在结束关键词;
若所述文本话术存在结束关键词,当接收到所述虚拟形象平台发送的关于所述文本话术的最后一帧的音视频流时,向所述虚拟形象平台发送HTTP的DELETE请求,所述DELETE请求中携带有音视频流标识streamID,所述DELETE请求用于请求所述虚拟形象平台停止播放针对所述streamID的音视频流。
5.一种基于人工智能AI的音视频的传输控制方法,应用于虚拟形象平台,其特征在于,所述方法包括:
接收控制服务器发送的建立请求,并与所述控制服务器建立超文本传输协议HTTP连接;
接收所述控制服务器发送的文本话术;
根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流;
将所述实时音视频流通过实时流传输协议RTSP的方式转换成RTSP流,发送给所述控制服务器,以播放所述RTSP流。
6.根据权利要求5所述的基于人工智能AI的音视频的传输控制方法,其特征在于,所述方法还包括:
接收所述控制服务器发送的音视频流设置信息,所述音视频流设置信息包括音视频流标识streamID、音视频流格式、音视频流大小以及像素大小;
所述根据所述文本话术以及真人虚拟形象合成算法,生成实时音视频流包括:
根据所述文本话术以及真人虚拟形象合成算法,按照所述音视频流格式、所述音视频流大小以及所述像素大小生成实时音视频流,所述实时音视频流采用所述streamID标识。
7.根据权利要求5所述的基于人工智能AI的音视频的传输控制方法,其特征在于,所述方法还包括:
根据所述文本话术的接收时间以及所述实时音视频流的生成时间,计算文本响应时长;
获取日志标准时长;
判断所述文本响应时长是否大于所述日志标准时长;
若所述文本响应时长大于所述日志标准时长,抓取所述实时音视频流的实时传输协议RTP包,以获取所述RTP包的音视频文件,并对所述音视频文件进行分析。
8.一种控制服务器,其特征在于,所述控制服务器包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至4中任意一项所述的基于人工智能AI的音视频的传输控制方法。
9.一种虚拟形象平台,其特征在于,所述虚拟形象平台包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求5至7中任意一项所述的基于人工智能AI的音视频的传输控制方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至4或5至7中任意一项所述的基于人工智能AI的音视频的传输控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583485.7A CN111787417B (zh) | 2020-06-23 | 2020-06-23 | 基于人工智能ai的音视频的传输控制方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583485.7A CN111787417B (zh) | 2020-06-23 | 2020-06-23 | 基于人工智能ai的音视频的传输控制方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111787417A true CN111787417A (zh) | 2020-10-16 |
CN111787417B CN111787417B (zh) | 2024-05-17 |
Family
ID=72757707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010583485.7A Active CN111787417B (zh) | 2020-06-23 | 2020-06-23 | 基于人工智能ai的音视频的传输控制方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111787417B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114385285A (zh) * | 2021-11-30 | 2022-04-22 | 重庆长安汽车股份有限公司 | 一种基于汽车ai智慧助手的形象创建方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110066703A1 (en) * | 2009-05-20 | 2011-03-17 | Creative Ad Technology Proprietary Limited | Methods and systems for delivering media to client device |
US20160171065A1 (en) * | 2014-12-12 | 2016-06-16 | Microsoft Technology Licensing, Llc | Computer System |
CN105872453A (zh) * | 2015-12-15 | 2016-08-17 | 乐视致新电子科技(天津)有限公司 | 网络摄像头监控方法、服务器及系统 |
CN106937154A (zh) * | 2017-03-17 | 2017-07-07 | 北京蜜枝科技有限公司 | 处理虚拟形象的方法及装置 |
CN110609620A (zh) * | 2019-09-05 | 2019-12-24 | 深圳追一科技有限公司 | 基于虚拟形象的人机交互方法、装置及电子设备 |
JP2020004392A (ja) * | 2019-05-08 | 2020-01-09 | 株式会社バーチャルキャスト | データ送信装置、端末およびプログラム |
CN110767220A (zh) * | 2019-10-16 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 一种智能语音助手的交互方法、装置、设备及存储介质 |
CN111010586A (zh) * | 2019-12-19 | 2020-04-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的直播方法、装置、设备及存储介质 |
CN111294463A (zh) * | 2020-02-06 | 2020-06-16 | 广州市讯飞樽鸿信息技术有限公司 | 一种智能应答方法、系统及装置 |
-
2020
- 2020-06-23 CN CN202010583485.7A patent/CN111787417B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110066703A1 (en) * | 2009-05-20 | 2011-03-17 | Creative Ad Technology Proprietary Limited | Methods and systems for delivering media to client device |
US20160171065A1 (en) * | 2014-12-12 | 2016-06-16 | Microsoft Technology Licensing, Llc | Computer System |
CN105872453A (zh) * | 2015-12-15 | 2016-08-17 | 乐视致新电子科技(天津)有限公司 | 网络摄像头监控方法、服务器及系统 |
CN106937154A (zh) * | 2017-03-17 | 2017-07-07 | 北京蜜枝科技有限公司 | 处理虚拟形象的方法及装置 |
JP2020004392A (ja) * | 2019-05-08 | 2020-01-09 | 株式会社バーチャルキャスト | データ送信装置、端末およびプログラム |
CN110609620A (zh) * | 2019-09-05 | 2019-12-24 | 深圳追一科技有限公司 | 基于虚拟形象的人机交互方法、装置及电子设备 |
CN110767220A (zh) * | 2019-10-16 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 一种智能语音助手的交互方法、装置、设备及存储介质 |
CN111010586A (zh) * | 2019-12-19 | 2020-04-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的直播方法、装置、设备及存储介质 |
CN111294463A (zh) * | 2020-02-06 | 2020-06-16 | 广州市讯飞樽鸿信息技术有限公司 | 一种智能应答方法、系统及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114385285A (zh) * | 2021-11-30 | 2022-04-22 | 重庆长安汽车股份有限公司 | 一种基于汽车ai智慧助手的形象创建方法 |
CN114385285B (zh) * | 2021-11-30 | 2024-02-06 | 重庆长安汽车股份有限公司 | 一种基于汽车ai智慧助手的形象创建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111787417B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10187668B2 (en) | Method, system and server for live streaming audio-video file | |
CN113423018B (zh) | 一种游戏数据处理方法、装置及存储介质 | |
CN102263959B (zh) | 直播中转方法和系统 | |
CN111935443B (zh) | 一种视频会议实时直播分享到即时通讯工具的方法和装置 | |
CN112653700B (zh) | 一种基于webrtc网页视频通信的方法 | |
CN104243430A (zh) | 一种流媒体播放方法及装置 | |
US8782721B1 (en) | Closed captions for live streams | |
US20070028278A1 (en) | System and method for providing pre-encoded audio content to a television in a communications network | |
US20160044368A1 (en) | Method, apparatus and system for acquiring playback data stream of real-time video communication | |
JP7100052B2 (ja) | 電子装置及びその制御方法 | |
US20170187986A1 (en) | Live streaming media method, publish side live, server and terminal | |
KR20160100370A (ko) | 정보 푸시 방법, 기기, 및 시스템 | |
CN102325181A (zh) | 一种基于共享业务的音视频即时交互通信方法及系统 | |
CN103167327A (zh) | 信息互动方法、装置及系统 | |
CN107801049B (zh) | 一种实时视频传送、播放方法及装置 | |
CN103916678A (zh) | 多媒体数据转码方法、转码设备及多媒体数据播放系统 | |
CN105872579A (zh) | 流媒体直播方法、发布端、客户端及系统 | |
CN101547335A (zh) | 一种使用iptv系统召开多媒体会议的方法及系统 | |
CN113225585A (zh) | 一种视频清晰度的切换方法、装置、电子设备以及存储介质 | |
WO2016205768A1 (en) | Media-timed web interactions | |
US20140201368A1 (en) | Method and apparatus for enforcing behavior of dash or other clients | |
CN105681817A (zh) | 一种智能终端视音频采集传输播放系统和方法 | |
CN113301359A (zh) | 音视频处理方法、装置及电子设备 | |
CN110113298B (zh) | 数据传输方法、装置、信令服务器和计算机可读介质 | |
CN111787417B (zh) | 基于人工智能ai的音视频的传输控制方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20240415 Address after: No. 81, Lane 685, Tangshan Road, Hongkou District, Shanghai, 200080 Applicant after: Liu Ye Country or region after: China Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Applicant before: PING AN PUHUI ENTERPRISE MANAGEMENT Co.,Ltd. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |