CN114615226A

CN114615226A - 基于多媒体信息的内容理解方法和交互系统

Info

Publication number: CN114615226A
Application number: CN202210275936.XA
Authority: CN
Inventors: 宋耀; 魏传强; 矫娟; 吕冰; 郭强; 司君波
Original assignee: Shandong Qilu Yidian Media Co ltd
Current assignee: Shandong Qilu Yidian Media Co ltd
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-06-10

Abstract

基于多媒体信息的内容理解方法，所述理解方法包括以下步骤：用户通过终端设备向服务器传输发布多媒体内容，所述多媒体内容包括文本内容、图片内容、音频内容和视频内容；服务器根据多媒体内容的类型按照二进制标记码将文本内容、图片内容、音频内容和视频内容分类进行存储；对分类存储在服务器内的多媒体内容分别进行提取处理，以获取多媒体内容的实体；将获取的多媒体内容实体输入到服务器的智能点评组件，生成评论内容；将生成的评论内容输出到用户发布的多媒体内容下面，以对用户发布的多媒体内容进行点评；检测用户是否对生成的评论内容进行回复，以根据检测结果来使服务器是否触发智能对话组件与用户进行智能对话。

Description

基于多媒体信息的内容理解方法和交互系统

技术领域：

本发明涉及基于多媒体信息的内容理解方法和交互系统。

背景技术：

多媒体是多种媒体的综合，一般包括文本、声音、动画、图像和视频影像等多种媒体形式，具体的，文本是以文字和各种专用符号表达的信息形式，它是现实生活中使用得最多的一种信息存储和传递方式；图像是多媒体软件中最重要的信息表现形式之一，它是决定一个多媒体软件视觉效果的关键因素；动画是利用人的视觉暂留特性，快速播放一系列连续运动变化的图形图像；视频影像具有时序性与丰富的信息内涵，常用于交待事物的发展过程。

在新兴的自媒体网络交际平台中，用户可以上传发布多类型的日常内容来展示用户近期日常动态，因此对用户上传到平台内容的理解、平台与用户之间的信息交互是自媒体网络交际平台日常工作中重要组成内容，以达到提升用户参与交互积极性的目的。

而现有自媒体网络交际平台由于接收用户上传的信息数据类型较多，不能将不同类型的信息数据分别进行细化、区分和解析，导致对用户上传内容不能进行精准理解和识别，会出现较大的操作偏差和信息数据混乱现象，影响平台和用户的实时交互效果，造成用户参与度较低。

发明内容：

本发明实施例提供了基于多媒体信息的内容理解方法和交互系统，结构和方法设计合理，基于多个功能模块的相互配合作用，能够应用于朋友圈、情报站、圈子等用户主动分享多媒体内容的场景中，采集获取用户上传的多类型信息数据，并对信息数据进行理解、分析和提取，进而对用户发布的内容进行针对性的智能点评和对话交互，提高用户的参与度和积极性，解决了现有技术中存在的问题。

本发明为解决上述技术问题所采用的技术方案是：

基于多媒体信息的内容理解方法，所述理解方法包括以下步骤：

S1，用户通过终端设备向服务器传输发布多媒体内容，所述多媒体内容包括文本内容、图片内容、音频内容和视频内容；

S2，服务器根据多媒体内容的类型按照二进制标记码将文本内容、图片内容、音频内容和视频内容分类进行存储；

S3，对分类存储在服务器内的多媒体内容分别进行提取处理，以获取多媒体内容的实体；

S4，将获取的多媒体内容实体输入到服务器的智能点评组件，生成评论内容；

S5，将生成的评论内容输出到用户发布的多媒体内容下面，以对用户发布的多媒体内容进行点评；

S6，检测用户是否对生成的评论内容进行回复，以根据检测结果来使服务器是否触发智能对话组件与用户进行智能对话。

服务器根据多媒体内容的类型按照二进制标记码将文本内容、图片内容、音频内容和视频内容分类进行存储包括以下步骤：

S2.1，设置与多媒体内容相对应的二进制标记码，所述文本内容的二进制标记码为00，所述图片内容的二进制标记码为01，所述音频内容的二进制标记码为10，所述视频内容的二进制标记码为11；

S2.2，根据输入的具体多媒体内容对应匹配设置实际二进制标记码；

S2.3，根据实际二进制标记码将多媒体内容分类进行存储。

对分类存储在服务器内的多媒体内容分别进行提取处理，以获取多媒体内容的实体包括以下步骤：

S3.1，基于自然语言处理技术提取文本内容中包含的实体；

S3.2，基于音频处理技术将音频转换成文本，以提取音频内容中包含的实体；

S3.3，基于图像实体识别技术提取图片内容中包含的实体，基于光学字符识别技术检测图片内容中包含的文本，以转换成文本内容进行实体提取；

3.4，提取视频内容中的音频内容，提取视频内容中的关键帧转换成图片内容，进而提取视频内容中包含的实体。

所述智能点评组件包括处理器，所述处理器的型号为TLP290，所述处理器的一号引脚为输入引脚，用于将多媒体内容实体输入到处理器，所述处理器的三号引脚与服务器相连以生成评论内容；在处理器的一号引脚和二号引脚之间设有相并联的第一电阻和第一电容，在处理器的三号引脚和四号引脚之间设有相并联第二电容和第二电阻。

所述智能对话组件包括语音播放器，所述语音播放器的型号为WT588D，在语音播放器上设有20个引脚，所述语音播放器的七号引脚与服务器相连；在语音播放器的十号引脚上通过第三电容接地设置；在语音播放器的十一号引脚通过指示灯和第四电阻连接有电源；在语音播放器的十六号引脚上连接有扬声器，在扬声器上并联有第三电阻和第四电容接地设置。

基于多媒体信息的内容交互系统，所述交互系统包括：

通讯模块，所述通讯模块用于用户通过终端设备向服务器传输发布多媒体内容，所述多媒体内容包括文本内容、图片内容、音频内容和视频内容；

存储模块，所述存储模块用于服务器根据多媒体内容的类型按照二进制标记码将文本内容、图片内容、音频内容和视频内容分类进行存储；

处理模块，所述处理模块用于对分类存储在服务器内的多媒体内容分别进行提取处理，以获取多媒体内容的实体；

传输模块，所述传输模块用于将获取的多媒体内容实体输入到服务器的智能点评组件，生成评论内容；

发布模块，所述发布模块用于将生成的评论内容输出到用户发布的多媒体内容下面，以对用户发布的多媒体内容进行点评；

检测模块，所述检测模块用于检测用户是否对生成的评论内容进行回复，以根据检测结果来使服务器是否触发智能对话组件与用户进行智能对话。

所述存储模块包括：

设置模块，所述设置模块用于设置与多媒体内容相对应的二进制标记码，所述文本内容的二进制标记码为00，所述图片内容的二进制标记码为01，所述音频内容的二进制标记码为10，所述视频内容的二进制标记码为11；

匹配模块，所述匹配模块用于根据输入的具体多媒体内容对应匹配设置实际二进制标记码；

执行模块，所述执行模块用于根据实际二进制标记码将多媒体内容分类进行存储。

所述处理模块包括：

文本内容提取模块，所述文本内容提取模块用于基于自然语言处理技术提取文本内容中包含的实体；

音频内容提取模块，所述音频内容提取模块用于基于音频处理技术将音频转换成文本，以提取音频内容中包含的实体；

图片内容提取模块，所述图片内容提取模块用于基于图像实体识别技术提取图片内容中包含的实体，基于光学字符识别技术检测图片内容中包含的文本，以转换成文本内容进行实体提取；

视频内容提取模块，所述视频内容提取模块用于提取视频内容中的音频内容，提取视频内容中的关键帧转换成图片内容，进而提取视频内容中包含的实体。

本发明采用上述结构，通过通讯模块在用户终端设备和服务器之间建立通讯连接，向服务器传输发布多类型的多媒体内容；通过存储模块根据多媒体内容的类型按照二进制标记码将文本内容、图片内容、音频内容和视频内容分类进行存储；通过处理模块根据多媒体内容的类型按照二进制标记码将文本内容、图片内容、音频内容和视频内容分类进行存储；通过传输模块将获取的多媒体内容实体输入到服务器的智能点评组件，生成评论内容；通过发布模块将生成的评论内容输出到用户发布的多媒体内容下面，以对用户发布的多媒体内容进行点评；通过检测模块来检测用户是否对生成的评论内容进行回复，以根据检测结果来使服务器是否触发智能对话组件与用户进行智能对话，具有实用可靠、精准高效的优点。

附图说明：

图1为本发明的结构示意图。

图2为本发明的存储模块的结构示意图。

图3为本发明的处理模块的结构示意图。

图4为本发明的智能点评组件的电气原理图。

图5为本发明的智能对话组件的电气原理图。

图6为本发明的流程示意图。

具体实施方式：

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。

如图1-6中所示，基于多媒体信息的内容理解方法，所述理解方法包括以下步骤：

S2.3，根据实际二进制标记码将多媒体内容分类进行存储。

S3.1，基于自然语言处理技术提取文本内容中包含的实体；

基于多媒体信息的内容交互系统，所述交互系统包括：

所述存储模块包括：

所述处理模块包括：

本发明实施例中的基于多媒体信息的内容理解方法和交互系统的工作原理为：基于多个功能模块的相互配合作用，能够应用于朋友圈、情报站、圈子等用户主动分享多媒体内容的场景中，采集获取用户上传的多类型信息数据，并对信息数据进行理解、分析和提取，进而对用户发布的内容进行针对性的智能点评和对话交互，提高用户的参与度和积极性，丰富用户画像维度。

在整体方案中，主要包括设置在服务器内的通讯模块，用于用户通过终端设备向服务器传输发布多媒体内容；存储模块，用于服务器根据多媒体内容的类型按照二进制标记码将文本内容、图片内容、音频内容和视频内容分类进行存储；处理模块，用于对分类存储在服务器内的多媒体内容分别进行提取处理，以获取多媒体内容的实体；传输模块，用于将获取的多媒体内容实体输入到服务器的智能点评组件，生成评论内容；发布模块，用于将生成的评论内容输出到用户发布的多媒体内容下面，以对用户发布的多媒体内容进行点评；检测模块，用于检测用户是否对生成的评论内容进行回复，以根据检测结果来使服务器是否触发智能对话组件与用户进行智能对话。

当检测到用户对评论内容进行回复时，触发智能对话组件，与用户进行多轮对话和交互；一般来说，对话交互的内容可以是文本、图片或音频；而在本技术方案中，主要输出的是音频信息，智能对话组件包括语音播放器，所述语音播放器的型号为WT588D，在语音播放器上设有20个引脚，所述语音播放器的七号引脚与服务器相连；在语音播放器的十号引脚上通过第三电容接地设置；在语音播放器的十一号引脚通过指示灯和第四电阻连接有电源；在语音播放器的十六号引脚上连接有扬声器，在扬声器上并联有第三电阻和第四电容接地设置，从而通过扬声器与用户进行智能对话交互。

对于智能点评组件，包括处理器，所述处理器的型号为TLP290，所述处理器的一号引脚为输入引脚，用于将多媒体内容实体输入到处理器，所述处理器的三号引脚与服务器相连以生成评论内容；在处理器的一号引脚和二号引脚之间设有相并联的第一电阻和第一电容，在处理器的三号引脚和四号引脚之间设有相并联第二电容和第二电阻，根据输入到处理器的多媒体内容实体来自动生成文本评论内容以输出到用户发布的多媒体内容下面。

在多媒体内容分类存储的过程中，首先要根据多媒体内容的类型来设置相对应的二进制标记码，使每种类型的多媒体内容都拥有唯一确定的二进制标记码，防止多媒体内容信息数据在存储过程中出现交互和偏差；再根据输入的具体多媒体内容对应匹配设置实际二进制标记码，一组多媒体内容的输入必须要匹配设置相应的二进制标记码，避免信息数据出现遗漏。

在获取不同类型多媒体内容的实体过程中，需要根据多媒体内容的类型来选取不同的处理方式进行实体处理，从而保证实体提取的精准度和实用性。

优选的，对于基于多媒体信息的内容理解方法，主要包括以下步骤：用户通过终端设备向服务器传输发布多媒体内容，所述多媒体内容包括文本内容、图片内容、音频内容和视频内容；服务器根据多媒体内容的类型按照二进制标记码将文本内容、图片内容、音频内容和视频内容分类进行存储；对分类存储在服务器内的多媒体内容分别进行提取处理，以获取多媒体内容的实体；将获取的多媒体内容实体输入到服务器的智能点评组件，生成评论内容；将生成的评论内容输出到用户发布的多媒体内容下面，以对用户发布的多媒体内容进行点评；检测用户是否对生成的评论内容进行回复，以根据检测结果来使服务器是否触发智能对话组件与用户进行智能对话。

实际使用时，服务器按照既定的步骤和配合多类型的功能模块，对用户发布的多媒体内容进行理解、分析和提取，进而对用户发布的内容进行针对性的智能点评和对话交互，能够高概率的调动起用户的参与交互的积极性。

综上所述，本发明实施例中的基于多媒体信息的内容理解方法和交互系统基于多个功能模块的相互配合作用，能够应用于朋友圈、情报站、圈子等用户主动分享多媒体内容的场景中，采集获取用户上传的多类型信息数据，并对信息数据进行理解、分析和提取，进而对用户发布的内容进行针对性的智能点评和对话交互，提高用户的参与度和积极性，丰富用户画像维度，同时实现对用户发布的多媒体内容进行精准实体识别。

上述具体实施方式不能作为对本发明保护范围的限制，对于本技术领域的技术人员来说，对本发明实施方式所做出的任何替代改进或变换均落在本发明的保护范围内。

本发明未详述之处，均为本技术领域技术人员的公知技术。

Claims

1.基于多媒体信息的内容理解方法，其特征在于，所述理解方法包括以下步骤：

2.根据权利要求1所述的基于多媒体信息的内容理解方法，其特征在于，服务器根据多媒体内容的类型按照二进制标记码将文本内容、图片内容、音频内容和视频内容分类进行存储包括以下步骤：

S2.3，根据实际二进制标记码将多媒体内容分类进行存储。

3.根据权利要求1所述的基于多媒体信息的内容理解方法，其特征在于，对分类存储在服务器内的多媒体内容分别进行提取处理，以获取多媒体内容的实体包括以下步骤：

S3.1，基于自然语言处理技术提取文本内容中包含的实体；

S3.4，提取视频内容中的音频内容，提取视频内容中的关键帧转换成图片内容，进而提取视频内容中包含的实体。

4.根据权利要求1所述的基于多媒体信息的内容理解方法，其特征在于：所述智能点评组件包括处理器，所述处理器的型号为TLP290，所述处理器的一号引脚为输入引脚，用于将多媒体内容实体输入到处理器，所述处理器的三号引脚与服务器相连以生成评论内容；在处理器的一号引脚和二号引脚之间设有相并联的第一电阻和第一电容，在处理器的三号引脚和四号引脚之间设有相并联第二电容和第二电阻。

5.根据权利要求1所述的基于多媒体信息的内容理解方法，其特征在于：所述智能对话组件包括语音播放器，所述语音播放器的型号为WT588D，在语音播放器上设有20个引脚，所述语音播放器的七号引脚与服务器相连；在语音播放器的十号引脚上通过第三电容接地设置；在语音播放器的十一号引脚通过指示灯和第四电阻连接有电源；在语音播放器的十六号引脚上连接有扬声器，在扬声器上并联有第三电阻和第四电容接地设置。

6.基于多媒体信息的内容交互系统，其特征在于，所述交互系统包括：

7.根据权利要求6所述的基于多媒体信息的内容交互系统，其特征在于，所述存储模块包括：

8.根据权利要求6所述的基于多媒体信息的内容交互系统，其特征在于，所述处理模块包括：