CN112087672A - 一种使用智能终端及服务器的视频流描述生成方法 - Google Patents
一种使用智能终端及服务器的视频流描述生成方法 Download PDFInfo
- Publication number
- CN112087672A CN112087672A CN202010810278.0A CN202010810278A CN112087672A CN 112087672 A CN112087672 A CN 112087672A CN 202010810278 A CN202010810278 A CN 202010810278A CN 112087672 A CN112087672 A CN 112087672A
- Authority
- CN
- China
- Prior art keywords
- video
- server
- mobile phone
- thread
- description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000007717 exclusion Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/544—Buffers; Shared memory; Pipes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/95—Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/27—Server based end-user applications
- H04N21/274—Storing end-user multimedia data in response to end-user request, e.g. network recorder
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
- H04N21/4316—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/637—Control signals issued by the client directed to the server or network components
- H04N21/6377—Control signals issued by the client directed to the server or network components directed to server
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5018—Thread allocation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种使用智能终端及服务器的视频流描述生成方法,其特征在于,包括如下步骤:手机端:以下多个线程同步执行:线程1)手机软件通过无线局域网连接服务器,并传送操作指令;线程2)手机软件录制视频流,并实时传送给服务器端;线程3)手机软件接收服务器端返回的视频描述并显示;服务器端:以下多个线程同步执行:线程1)对指定IP地址和端口号进行监听;线程2)读取手机发送的视频流;线程3)对截取的视频进行抽帧,预处理,并运行模型生成描述;线程3)将生成的服务器生成描述返回手机进行显示;本发明具有的有益效果是:用户可在智能终端上查看其在智能终端上指定的视频片段的描述。
Description
技术领域
本发明涉及计算机视觉与人工智能领域,尤其涉及一种使用智能终端及服务器的视频流描述生成方法。
背景技术
近年来,人们将越来越多的视频上传到互联网。视频作为一种重要的信息传播媒介,越来越引起计算机视觉研究者的兴趣。相比于图像来说,视频含有更多的信息,包括时序和音频信息。计算机视觉社区针对视频理解技术的特点,制定了几大任务。这些任务包括视频分类,行为检测,和视频描述等。视频分类任务意味着对每种视频进行分类,并给予他们标签,如篮球比赛视频。行为检测目标是判断一段视频中人的行为的类别,如弹吉他。视频描述任务是用自然语言去描述一段视频。视频描述任务又可以分为几个子任务:1.经典视频描述任务:用一句话描述一段视频。2.视频文章描述:用一个篇章去描述一段视频。3.密集事件描述:在一段长视频中发生了多个事件,需要用多个句子去分别描述这些事件。在众多视频理解任务中,视频描述任务属于相对较高层次的视频理解任务。相比于视频理解的基础任务如视频分类,动作检测和视频分割等,视频描述任务在语义层次理解和表达了视频信息。
视频描述生成技术在现实生活中有极大的应用价值。例如,盲人导航,视频搜索等。迄今为止,已有很多研究者对视频描述生成进行了充分的研究。很多通用场景都能进行概括性的描述。之前的做法是将不同的视频片段提前保存到硬盘中,并逐一生成视频描述显示在服务器上。然而,在现实应用中,视频往往是以视频流而非视频片段的形式存在,而目前还没有针对流式视频的描述方案。所以我们提出一种新的解决方案,用户能够在智能终端所拍摄的实时视频流中选取指定的视频片段并在智能终端上获得视频描述。相比于之前的做法,这种解决方案能够让用户获得更好的使用体验。
发明内容
本发明的目的是针对现有技术的不足,提供一种使用智能终端及服务器的视频流描述生成解决方案。
本发明的技术方案如下:
一种使用智能终端及服务器的视频流描述生成方法,分为手机端和服务器端两部分进行,其特征在于,包括如下步骤:
1)手机端:
以下多个线程同步执行:
线程1)手机软件通过无线局域网连接服务器,并传送操作指令;
线程2)手机软件录制视频流,并实时传送给服务器端;
线程3)手机软件接收服务器端返回的视频描述并显示;
2)服务器端:
以下多个线程同步执行:
线程1)对指定IP地址和端口号进行监听,当接收到手机端发出的连接信号时,服务器端即进行视频流读入操作。当接收到手机端发出的开始信号时,服务器端即开始截取视频流;当接收到手机端发出的停止信号时,服务器端即完成摄像头视频流截取操作,并保存视频片段到硬盘;
线程2)读取手机发送的视频流;
线程3)对截取的视频进行抽帧,预处理,并运行模型生成描述;
线程4)将生成的服务器生成描述返回手机进行显示;
所述一种使用智能终端及服务器的视频流描述生成方法,其特征在于,所述手机端线程1)具有输入IP地址和端口号的功能;可发送连接指令,与服务器端通过HTTP协议进行连接。可发送开始截取视频指令。可发送停止截取视频指令。
所述一种使用智能终端及服务器的视频流描述生成方法,其特征在于,所述手机端线程2)所录制的视频不在手机端显示,而是以视频流的形式直接发送到服务器端。
所述一种使用智能终端及服务器的视频流描述生成方法,其特征在于,所述手机端线程3)接收服务器端返回的文本描述,并显示在“接收(Receiving)”窗口,格式为[视频名称,视频起止时间,生成的描述]。
所述一种使用智能终端及服务器的视频流描述生成方法,其特征在于,所述服务器端线程1)中为保证对视频流数据进行正确读写操作,采用互斥锁这一变量进行读取控制;第一个在读取视频流阶段,在当前时间段内进行视频数据信息读取时,不允许其他进程对该视频段进行任何操作;第二个在写入全局队列信息时,只能写入当前视频名称并进行锁定,写入后,该互斥锁释放,并且队列数加1。
所述一种使用智能终端及服务器的视频流描述生成方法,其特征在于,所述服务器端线程2)中采用OpenCV的cv2.VideoCapture()方法,读取视频流。
所述一种使用智能终端及服务器的视频流描述生成方法,其特征在于,所述服务器端线程3)中步骤分为视频帧图像预处理,视频帧特征抽取,生成视频描述;在运行前先在MSR-VTT或者MSVD数据集上训练并保存好Boundary-awareencoder模型;在视频帧图像预处理阶段,在视频队列中,出队列操作取第一个视频名称并根据此名称读取视频;然后,对于每一个视频,等间隔抽取图像并对每一个帧进行颜色变换;在视频帧特征抽取阶段,用ImageNet数据集预训练好的resnet152网络对已处理好的图像帧提取图像特征;创建保存其视频特征的hdf5文件,存储格式为[视频个数,抽取的视频帧数,特征大小];在生成视频描述阶段,载入训练好的Boundary-awareencoder模型,将处理好的视频帧特征送入模型,生成文本描述。
本发明与现有技术相比,具有的有益效果是用户可在智能终端上自行操作想要截取视频流的开始和停止命令,截取任意时长的视频流,并在智能终端上查看其指定的视频片段的描述。相比于以往方法,大多针对视频片段,将其存储在硬盘上,再回传给服务器端生成描述并显示在服务器上,我们的解决方案能够让用户近乎实时地在终端上得到反馈,以便获得更好的使用体验。
附图说明
图1为本发明的总体流程示意图;
图2为本发明的服务器端软件流程示意图;
图3为本发明的手机软件界面开始截取视频示意图;
图4为本发明的手机软件界面停止截取视频示意图;
图5为本发明的使用效果图。
具体实施方法
以下结合附图进一步说明本发明的具体实施方法。
1)整体流程
参见图1,本发明的总体步骤如下:
在手机软件中输入设定的IP地址和端口号,点击“CONNECT”选项,与服务器端通过HTTP协议进行连接,若输入无误,手机软件的“接收(Receiving)”窗口会显示“连接成功”的信息提示。连接成功后,手机端通过局域网自动将视频流上传到服务器端。点击“START”选项,服务器端自动开始截取视频并保存到硬盘,然后点击“STOP”停止视频截取。训练好的视频描述生成模型将对截取到的视频生成相关描述。
以上为一次视频录制的处理方法,针对流式视频,我们在服务器端采用“队列”来存储视频流中的视频名称。队列是一种特殊的数据结构,进入队列的元素均遵循先进先出的次序,即在队列的前端进行数据的删除操作,队列后端则进行所有数据的插入操作。针对我们这里的情况,对于视频流而言,截取到视频片段后,将视频片段名称依次存储进队列中,按照时间顺序,最先截取的视频名称从队列前端出列,进行操作再从队列中删除,后续截取的视频名称都从队列后端存储进入队列。
同时,采取多线程同步操作的方式对视频进行顺序存储、抽帧及图像预处理、生成描述。由于我们使用的多线程要使用诸如“视频队列”、信号锁等共享数据,为保证这些数据资源在同一时刻只能有一个线程对其进行访问,我们采取“互斥”方式,做到当有线程操作共享数据时,不允许其他线程参与进来,以此保证该操作的唯一性和排它性。为实现互斥操作,我们引入“互斥锁”这一变量。在使用互斥锁时,它能够将需要共享的数据进行标记,当有线程想要访问这些共享数据时,必须先获得该互斥锁,执行完毕后,再释放该锁。当任何一个线程获取到互斥锁后,其他线程如果需要使用该共享数据,则必须等待前一个线程使用完毕后释放锁,才能继续使用。
针对我们这里的情况,对于视频流而言,首先按用户指定的起始及结束时间点截取视频片段并保存到硬盘,然后将其名称写入“视频队列”中时。这期间使用“互斥锁”,同一时刻,只能写入当前视频名称并进行锁定,写入后,释放该互斥锁,队列数加1。之后其它线程才能使用“视频队列”这一共享资源,进行如删除或者插入数据等的操作。再比如,为保障服务器端读取视频数据信息时不受干扰,加入互斥锁,不允许其他进程对此视频段进行任何操作,使得代码更具健壮性。
2)服务器端
参见图2,本发明在服务器端的软件流程示意图。
视频帧图像预处理
在视频队列中,出队列操作取第一个视频名称并根据此名称读取视频。然后,对于每一个视频,等间隔抽取20帧图像,并将其转换为RGB格式。每一个帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换。
视频帧特征抽取
用ImageNet数据集预训练好的resnet152网络,对上述图像特征进行提取。一个视频的特征的大小是20x2048,其中20是对一个视频抽取的帧数,2048是单帧图像的特征大小。如果帧的数量小于最大帧数20,则剩余的部分帧用0补足。创建保存其视频特征的hdf5文件,存储格式为[视频个数,抽取的视频帧数,特征大小];
生成视频描述
将处理好的视频帧特征输入到载入的已训练好的模型,然后生成相应视频描述。此处使用的是Boundary-awareencoder模型,并在解码器阶段使用beamsearch策略生成文本。可使用MSR-VTT或者MSVD数据集进行模型的训练。训练前需按照上文进行针对训练集中已标注的视频的视频帧抽取及图像预处理。此外,训练前还需进行文本标注预处理。对人工标注好的数据集进行词汇表的构建。使用NLTK工具来进行分词,即将句子分为一个个单词。在数据集中出现次数小于3的单词将会被略去。MSR-VTT数据集应分为训练集,验证集,测试集,且其比例为:6513:497:2990。MSVD数据集对应部分的比例为:1200:100:670。
3)软件界面介绍
参见图3和图4,进行软件界面的详细介绍:
在智能终端上编写和运行软件,使之能够与服务器端共同完成视频流的传输和相关信息的通信。相关信息包括但不限于如截取视频流的开始和停止命令、生成的视频描述信息等。如下以运行Android系统的智能终端为例来验证本文所述方法。视频流的传输功能由免许可证软件DroidCam实现。在开源软件OKSocket基础上进行修改,使智能终端能够与服务器完成Socket通信,以此完成相关信息的通信。
正确输入设定的IP地址和端口号,点击“CONNECT”选项,手机端连接服务器,可在“接收(Receiving)”窗口收到服务器“已连接”的反馈显示。此时,服务器端已开始接收手机端发送的视频流。
点击“START”选项,开启本次视频流的截取并实时上传到服务器。接收到手机发送的点击“STOP”选项所发出的停止信号后,完成视频片段的截取和保存。同时,“视频队列”数加1,视频名称进入“视频队列”。
服务器端回传模型生成的描述,在“接收(Receiving)”窗口进行显示,格式如[视频名称,视频起止时间,生成的描述]。
若窗口生成描述过多,可点击“清除显示”选项进行清空操作。
相比于之前的视频描述生成方法,本方法提出视频流描述生成方案,并有以下创新:系统分为智能终端和服务器两部分。智能终端负责拍摄视频流上传服务器和接收服务器返回的描述。服务器负责接收终端发送的视频流并生成描述返回智能终端。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的包含范围之内。
Claims (7)
1.一种使用智能终端及服务器的视频流描述生成方法,分为手机端和服务器两部分进行,其特征在于,包括如下步骤:
1)手机端:
以下多个线程同步执行:
线程1)手机软件通过无线局域网连接服务器,并传送操作指令;
线程2)手机软件录制视频流,并实时传送给服务器端;
线程3)手机软件接收服务器端返回的视频描述并显示;
2)服务器端:
以下多个线程同步执行:
线程1)对指定IP地址和端口号进行监听,当接收到手机端发出的连接信号时,服务器端即进行视频流读入操作,当接收到手机端发出的开始信号时,服务器端即开始截取视频流;当接收到手机端发出的停止信号时,服务器端即完成摄像头视频流截取操作,并保存视频片段到硬盘;
线程2)读取手机发送的视频流;
线程3)对截取的视频进行抽帧,预处理,并运行模型生成描述;
线程4)将生成的服务器生成描述返回手机进行显示。
2.根据权利要求1所述一种使用智能终端及服务器的视频流描述生成方法,其特征在于,所述手机端线程1)具有输入IP地址和端口号的功能;可发送连接指令,与服务器端通过HTTP协议进行连接;可发送开始截取视频指令;可发送停止截取视频指令。
3.根据权利要求1所述一种使用智能终端及服务器的视频流描述生成方法,其特征在于,所述手机端线程2)所录制的视频不在手机端显示,而是以视频流的形式直接发送到服务器端。
4.根据权利要求1所述一种使用智能终端及服务器的视频流描述生成方法,其特征在于,所述手机端线程3)接收服务器端返回的文本描述,并显示在接收(Receiving)窗口,格式为[视频名称,视频起止时间,生成的描述]。
5.根据权利要求1所述一种使用智能终端及服务器的视频流描述生成方法,其特征在于,所述服务器端线程1)中为保证对视频流数据进行正确读写操作,采用互斥锁这一变量进行读取控制;第一个在读取视频流阶段,在当前时间段内进行视频数据信息读取时,不允许其他进程对该视频段进行任何操作;第二个在写入全局队列信息时,只能写入当前视频名称并进行锁定,写入后,该互斥锁释放,并且队列数加1。
6.根据权利要求1所述一种使用智能终端及服务器的视频流描述生成方法,其特征在于,所述服务器端线程2)中采用OpenCV的cv2.VideoCapture()方法,读取视频流。
7.根据权利要求1所述一种使用智能终端及服务器的视频流描述生成方法,其特征在于,所述服务器端线程3)中步骤分为视频帧图像预处理,视频帧特征抽取,生成视频描述;在运行前先在MSR-VTT或者MSVD数据集上训练并保存好Boundary-aware encoder模型;在视频帧图像预处理阶段,在视频队列中,出队列操作取第一个视频名称并根据此名称读取视频;然后,对于每一个视频,等间隔抽取图像并对每一个帧进行颜色变换;在视频帧特征抽取阶段,用ImageNet数据集预训练好的resnet152网络对已处理好的图像帧提取图像特征;创建保存其视频特征的hdf5文件,存储格式为[视频个数,抽取的视频帧数,特征大小];在生成视频描述阶段,载入训练好的Boundary-aware encoder模型,将处理好的视频帧特征送入模型,生成文本描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010810278.0A CN112087672B (zh) | 2020-08-13 | 2020-08-13 | 一种使用智能终端及服务器的视频流描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010810278.0A CN112087672B (zh) | 2020-08-13 | 2020-08-13 | 一种使用智能终端及服务器的视频流描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112087672A true CN112087672A (zh) | 2020-12-15 |
CN112087672B CN112087672B (zh) | 2021-11-23 |
Family
ID=73728191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010810278.0A Expired - Fee Related CN112087672B (zh) | 2020-08-13 | 2020-08-13 | 一种使用智能终端及服务器的视频流描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112087672B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113225615A (zh) * | 2021-04-20 | 2021-08-06 | 深圳市九洲电器有限公司 | 电视节目播放方法、终端设备、服务器以及存储介质 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070273696A1 (en) * | 2006-04-19 | 2007-11-29 | Sarnoff Corporation | Automated Video-To-Text System |
US20090259473A1 (en) * | 2008-04-14 | 2009-10-15 | Chang Hisao M | Methods and apparatus to present a video program to a visually impaired person |
US20120303834A1 (en) * | 2010-10-07 | 2012-11-29 | Stellatus, LLC | Seamless digital streaming over different device types |
CN106878736A (zh) * | 2017-03-17 | 2017-06-20 | 郑州云海信息技术有限公司 | 一种视频编解码的方法与装置 |
CN107007437A (zh) * | 2017-03-31 | 2017-08-04 | 北京邮电大学 | 交互式盲人辅助方法及设备 |
CN107527045A (zh) * | 2017-09-19 | 2017-12-29 | 桂林安维科技有限公司 | 一种面向多路视频的人体行为事件实时分析方法 |
US20180160192A1 (en) * | 2016-12-06 | 2018-06-07 | At&T Mobility Ii Llc | Multimedia broadcast system |
CN109325469A (zh) * | 2018-10-23 | 2019-02-12 | 北京工商大学 | 一种基于深度神经网络的人体姿态识别方法 |
US20190069045A1 (en) * | 2017-08-30 | 2019-02-28 | Arris Enterprises Llc | Automatic generation of descriptive video service tracks |
CN110478204A (zh) * | 2019-07-25 | 2019-11-22 | 李高轩 | 一种结合图像识别的导盲眼镜及其构成的导盲系统 |
CN110704198A (zh) * | 2018-07-10 | 2020-01-17 | 阿里巴巴集团控股有限公司 | 数据操作方法、装置、存储介质以及处理器 |
CN110851148A (zh) * | 2019-09-23 | 2020-02-28 | 上海意略明数字科技股份有限公司 | 一种基于智能图像识别用户行为数据的分析系统及其方法 |
US20200106955A1 (en) * | 2018-09-29 | 2020-04-02 | Apple Inc. | Devices, Methods, and Graphical User Interfaces for Assisted Photo-Taking |
CN111198966A (zh) * | 2019-12-22 | 2020-05-26 | 同济大学 | 基于多智能体边界感知网络的自然语言视频片段检索方法 |
US20200204878A1 (en) * | 2018-12-21 | 2020-06-25 | Bce Inc. | System and method for providing descriptive video |
US10699129B1 (en) * | 2019-11-15 | 2020-06-30 | Fudan University | System and method for video captioning |
CN111368656A (zh) * | 2020-02-21 | 2020-07-03 | 华为技术有限公司 | 一种视频内容描述方法和视频内容描述装置 |
CN111401310A (zh) * | 2020-04-08 | 2020-07-10 | 天津中科智能识别产业技术研究院有限公司 | 基于人工智能的厨房卫生安全监督管理方法 |
-
2020
- 2020-08-13 CN CN202010810278.0A patent/CN112087672B/zh not_active Expired - Fee Related
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070273696A1 (en) * | 2006-04-19 | 2007-11-29 | Sarnoff Corporation | Automated Video-To-Text System |
US20090259473A1 (en) * | 2008-04-14 | 2009-10-15 | Chang Hisao M | Methods and apparatus to present a video program to a visually impaired person |
US20120303834A1 (en) * | 2010-10-07 | 2012-11-29 | Stellatus, LLC | Seamless digital streaming over different device types |
US20180160192A1 (en) * | 2016-12-06 | 2018-06-07 | At&T Mobility Ii Llc | Multimedia broadcast system |
CN106878736A (zh) * | 2017-03-17 | 2017-06-20 | 郑州云海信息技术有限公司 | 一种视频编解码的方法与装置 |
CN107007437A (zh) * | 2017-03-31 | 2017-08-04 | 北京邮电大学 | 交互式盲人辅助方法及设备 |
US20190069045A1 (en) * | 2017-08-30 | 2019-02-28 | Arris Enterprises Llc | Automatic generation of descriptive video service tracks |
CN107527045A (zh) * | 2017-09-19 | 2017-12-29 | 桂林安维科技有限公司 | 一种面向多路视频的人体行为事件实时分析方法 |
CN110704198A (zh) * | 2018-07-10 | 2020-01-17 | 阿里巴巴集团控股有限公司 | 数据操作方法、装置、存储介质以及处理器 |
US20200106955A1 (en) * | 2018-09-29 | 2020-04-02 | Apple Inc. | Devices, Methods, and Graphical User Interfaces for Assisted Photo-Taking |
CN109325469A (zh) * | 2018-10-23 | 2019-02-12 | 北京工商大学 | 一种基于深度神经网络的人体姿态识别方法 |
US20200204878A1 (en) * | 2018-12-21 | 2020-06-25 | Bce Inc. | System and method for providing descriptive video |
CN110478204A (zh) * | 2019-07-25 | 2019-11-22 | 李高轩 | 一种结合图像识别的导盲眼镜及其构成的导盲系统 |
CN110851148A (zh) * | 2019-09-23 | 2020-02-28 | 上海意略明数字科技股份有限公司 | 一种基于智能图像识别用户行为数据的分析系统及其方法 |
US10699129B1 (en) * | 2019-11-15 | 2020-06-30 | Fudan University | System and method for video captioning |
CN111198966A (zh) * | 2019-12-22 | 2020-05-26 | 同济大学 | 基于多智能体边界感知网络的自然语言视频片段检索方法 |
CN111368656A (zh) * | 2020-02-21 | 2020-07-03 | 华为技术有限公司 | 一种视频内容描述方法和视频内容描述装置 |
CN111401310A (zh) * | 2020-04-08 | 2020-07-10 | 天津中科智能识别产业技术研究院有限公司 | 基于人工智能的厨房卫生安全监督管理方法 |
Non-Patent Citations (3)
Title |
---|
LORENZO BARALDI等: "Hierarchical Boundary-Aware Neural Encoder for Video Captioning", 《IEEE》 * |
XIANGXI SHI等: "Video Captioning with Boundary-aware Hierarchical Language Decoding and Joint Video Prediction", 《RESEARCHGATE》 * |
汪悦: "基于深度学习的视频描述技术研究与应用", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113225615A (zh) * | 2021-04-20 | 2021-08-06 | 深圳市九洲电器有限公司 | 电视节目播放方法、终端设备、服务器以及存储介质 |
CN113225615B (zh) * | 2021-04-20 | 2023-08-08 | 深圳市九洲电器有限公司 | 电视节目播放方法、终端设备、服务器以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112087672B (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019242222A1 (zh) | 用于生成信息的方法和装置 | |
CN113365147B (zh) | 基于音乐卡点的视频剪辑方法、装置、设备及存储介质 | |
CN110162164B (zh) | 一种基于增强现实的学习互动方法、装置及存储介质 | |
US20110151971A1 (en) | Technological platform for gaming | |
CN104796448B (zh) | 网络系统的数据处理方法和装置 | |
CN111476871A (zh) | 用于生成视频的方法和装置 | |
CN113221706A (zh) | 基于多进程的多路视频流的ai分析方法及系统 | |
CN113515998B (zh) | 一种视频数据处理方法、设备以及可读存储介质 | |
CN109408672B (zh) | 一种文章生成方法、装置、服务器及存储介质 | |
CN113515997B (zh) | 一种视频数据处理方法、装置以及可读存储介质 | |
CN112668492A (zh) | 一种自监督学习与骨骼信息的行为识别方法 | |
CN113015005A (zh) | 一种视频剪辑方法、装置、设备及计算机可读存储介质 | |
CN112087672B (zh) | 一种使用智能终端及服务器的视频流描述生成方法 | |
CN107633058B (zh) | 一种基于深度学习的数据动态过滤系统及其方法 | |
CN110415318B (zh) | 图像处理方法和装置 | |
CN111918083A (zh) | 视频片段的识别方法、装置、设备及存储介质 | |
CN109040838B (zh) | 一种视频数据的处理方法、装置及视频播放方法、客户端 | |
CN109684177A (zh) | 信息反馈方法及装置 | |
CN110084306B (zh) | 用于生成动态图像的方法和装置 | |
WO2023065963A1 (zh) | 互动展示方法、装置、电子设备及可读介质 | |
CN112791401B (zh) | 拍摄方法、装置、电子设备及存储介质 | |
CN114449297B (zh) | 一种多媒体信息的处理方法、计算设备及存储介质 | |
CN113784058A (zh) | 一种影像生成方法、装置、存储介质及电子设备 | |
CN110381367B (zh) | 一种视频处理方法、设备及计算机可读存储介质 | |
CN112118410B (zh) | 业务处理方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211123 |
|
CF01 | Termination of patent right due to non-payment of annual fee |