CN111882371A - 内容信息处理、图文内容处理方法、计算机设备、介质 - Google Patents

内容信息处理、图文内容处理方法、计算机设备、介质 Download PDF

Info

Publication number
CN111882371A
CN111882371A CN201910301323.7A CN201910301323A CN111882371A CN 111882371 A CN111882371 A CN 111882371A CN 201910301323 A CN201910301323 A CN 201910301323A CN 111882371 A CN111882371 A CN 111882371A
Authority
CN
China
Prior art keywords
information
content
information element
processed
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910301323.7A
Other languages
English (en)
Inventor
王辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Singapore Holdings Pte Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910301323.7A priority Critical patent/CN111882371A/zh
Publication of CN111882371A publication Critical patent/CN111882371A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0629Directed, with specific intent or strategy for generating comparisons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种内容信息处理方法。所述方法包括:从内容信息中解析出信息元素,以及信息元素的至少一种元素属性,识别相关的信息元素,确定相关的信息元素之间的相关性数据,基于至少一种元素属性和/或相关性数据,确定内容信息中待处理的信息元素,对待处理的信息元素进行处理,使得将内容信息分成信息元素来分析,兼顾信息元素本身的元素属性和信息元素之间的相关性两个方面,更准确地确定信息元素是否需要处理,例如,将内容质量不高的信息元素或者与其他信息元素相关性较低的信息元素,确定为待处理的信息元素,自动定位到内容信息中需处理的信息元素,对待处理的信息元素进行处理,继而提升对于内容信息的处理效果。

Description

内容信息处理、图文内容处理方法、计算机设备、介质
技术领域
本申请涉及数据处理技术领域,具体涉及一种内容信息处理方法、一种图文内容处理方法、一种计算机设备、一种计算机可读存储介质。
背景技术
社交电商是通过社交网络帮助交易的电商,一般来说,社交电商需要通过内容来驱动成交。目前,内容创作来源主要由UGC(User Generated Content,用户生成内容)、PGC(Professional Generated Content,专业生成内容)、DGC(基于数据生成内容)、抓取等方式。其中,抓取受版权问题影响较大,内容没有办法直接使用,而DGC要生成图文并茂的长篇文章在深度学习领域仍需努力,PGC则依赖于达人网红创作,存在规模化困难和成本开销大的问题。
申请人经研究发现,UGC作为电商首选,其创作质量参差不齐,无法直接当做优质内容来使用,内容质量亟待提高。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的内容信息处理方法、图文内容处理方法、以及计算机设备、计算机可读存储介质。
依据本申请的一个方面,提供了一种内容信息处理方法,包括:
从内容信息中解析出信息元素,以及所述信息元素的至少一种元素属性;
识别相关的信息元素,确定所述相关的信息元素之间的相关性数据;
基于所述至少一种元素属性和/或相关性数据,确定所述内容信息中待处理的信息元素;
对所述待处理的信息元素进行处理。
可选地,所述从内容信息中解析出信息元素,以及所述信息元素的至少一种元素属性包括:
获取信息元素的元素表征数据,将所述元素表征数据与预设属性条件的比较结果作为所述信息元素的元素属性。
可选地,所述识别相关的信息元素,确定所述相关的信息元素之间的相关性数据包括:
识别所述信息元素所包括的含义信息;
根据所述内容信息的内容结构,确定相关的信息元素;
对所述相关的信息元素的含义信息进行比对,得到所述信息元素之间的相关性数据。
可选地,所述信息元素包括图片信息元素或视频信息元素,所述含义信息包括对象含义信息,所述识别所述信息元素所包括的含义信息包括:
检测所述图片信息元素或视频信息元素中包括的目标对象的类别及其数量,得到对象含义信息。
可选地,所述含义信息包括描述含义信息,所述识别所述信息元素所包括的含义信息还包括:
确定所述目标对象的类别包括预设类别;
识别预设类别的目标对象的描述信息,得到描述含义信息。
可选地,所述对所述相关的信息元素的含义信息进行比对,得到所述信息元素之间的相关性数据包括:
提取所述文本信息元素的含义信息中的信息关键词;
采用所述信息关键词替换所述含义信息。
可选地,所述基于所述至少一种元素属性,确定所述内容信息中待处理的信息元素包括:
根据所述至少一种元素属性对应的元素质量数据,确定所述信息元素为待处理的信息元素。
可选地,在所述基于所述至少一种元素属性和相关性数据,确定所述内容信息中待处理的信息元素之前,所述方法还包括:
确定所述内容信息的内容质量数据;
判定所述内容质量数据满足设定范围、则确定所述内容信息中包括待处理的信息元素。
可选地,所述确定所述内容信息的内容质量数据包括:
根据所述至少一种元素属性,确定所述信息元素的元素质量数据;
综合各个信息元素的元素质量数据及其与相关的信息元素的相关性数据,确定所述内容信息的内容质量数据。
可选地,在所述确定所述内容信息的内容质量数据之前,所述方法还包括:
根据上一次处理后的信息元素,确定处理后信息元素的元素属性和信息元素之间的相关性数据,以便更新所述内容信息的内容质量数据。
可选地,在所述对所述待处理的信息元素进行处理之前,所述方法还包括:
判定对所述待处理的信息元素的处理次数未达到设定次数。
可选地,所述对所述待处理的信息元素进行处理包括:删除处理、替换处理、添加处理中至少一种。
可选地,在所述对所述待处理的信息元素进行处理之前,所述方法还包括:
根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案。
可选地,所述根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案包括:
当所述待处理的信息元素为根据所述至少一种元素属性对应的元素质量数据确定的信息元素时,或者当所述待处理的信息元素为根据所述信息元素与多个相关的信息元素的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括删除处理。
可选地,所述根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案包括:
当所述待处理的信息元素为根据所述信息元素与目标信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括替换处理。
可选地,所述替换处理包括:
从与所述待处理的信息元素相关的第一信息元素中提取第一关键词;
从所述内容信息中的目标信息元素中提取目标关键词;
基于所述第一关键词、目标关键词和预设信息库,生成替换信息元素。
可选地,所述第一关键词与目标关键词具有对应的权重,所述目标信息元素的目标关键词的权重大于第一信息元素的第一关键词的权重。
可选地,所述根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案包括:
当所述待处理的信息元素为根据所述信息元素与除目标信息元素外的第二信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括添加处理。
可选地,所述添加处理包括:
在所述待处理的信息元素和相关的第二信息元素之间添加第三信息元素。
可选地,在所述在所述待处理的信息元素和相关的第二信息元素之间添加第三信息元素之前,所述方法还包括:
从所述待处理的信息元素、相关的第二信息元素以及目标信息元素中,提取第二关键词;
基于所述第二关键词和预设信息库,生成所述第三信息元素。
依据本申请的另一个方面,提供了一种图文内容处理方法,所述方法包括:
接收客户端提交的图文内容,所述图文内容包括文本或图片或视频中的至少一种;
利用内容质量模型对所述图文内容进行质量评价,得到所述图文内容的质量评价结果;
基于所述质量评价结果,确定所述图文内容的改编方案。
可选地,所述内容质量模型为基于文本质量、图片质量、视频质量、关系网络相关性特征、热度特征中的至少一种,建立的内容质量模型。
可选地,所述方法还包括:
将确定的所述改编方案提供给用户;
接收所述用户对所述改编方案的接受反馈信息,对所述图文内容进行对应的修改。
可选地,在所述对所述图文内容进行对应的修改之后,所述方法还包括:
提供修改前后的对比,以供所述用户确认。
依据本申请的另一个方面,提供了一种图文内容处理方法,所述方法包括:
提交待发布的图文内容;
接收针对所述图文内容的改编方案,所述改编方案是利用内容质量模型对所述待发布的图文内容进行质量评价得到的质量评价结果,并基于所述质量评价结果确定改编方案;
显示所述改编方案。
可选地,所述方法还包括:
提交对所述改编方案的接受反馈信息。
依据本申请的另一个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述一个或多个的方法。
依据本申请的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一个或多个的方法。
依据本申请实施例,通过从内容信息中解析出信息元素,以及信息元素的至少一种元素属性,识别相关的信息元素,确定相关的信息元素之间的相关性数据,基于至少一种元素属性和/或相关性数据,确定内容信息中待处理的信息元素,对待处理的信息元素进行处理,使得将内容信息分成信息元素来分析,兼顾信息元素本身的元素属性和信息元素之间的相关性两个方面,更准确地确定信息元素是否需要处理,例如,将内容质量不高的信息元素或者与其他信息元素相关性较低的信息元素,确定为待处理的信息元素,自动定位到内容信息中需处理的信息元素,对待处理的信息元素进行处理,继而提升对于内容信息的处理效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了图片质量模型的示意图;
图2示出了文本质量模型的示意图;
图3示出了抽取文本含义的示意图;
图4示出了抽取图片含义的示意图;
图5示出了内容信息处理过程的示意图;
图6示出了根据本申请实施例一的一种内容信息处理方法实施例的流程图;
图7示出了根据本申请实施例二的一种内容信息处理方法实施例的流程图;
图8示出了信息元素的关系网络的示意图;
图9示出了含义信息转化的示意图;
图10示出了综合质量分模型的示意图;
图11示出了处理方案的示意图;
图12示出了替换信息元素生成过程的示意图;
图13示出了信息元素新增方式的示意图;
图14示出了根据本申请实施例三的一种图文内容处理方法实施例的流程图;
图15示出了根据本申请实施例四的一种图文内容处理方法实施例的流程图;
图16示出了内容信息处理系统的结构示意图;
图17示出了内容信息处理流程的示意图;
图18示出了根据本申请实施例五的一种内容信息处理装置实施例的结构框图;
图19示出了根据本申请实施例六的一种图文内容处理装置实施例的结构框图;
图20示出了根据本申请实施例七的一种图文内容处理装置实施例的结构框图;
图21示出了可被用于实现本公开中所述的各个实施例的示例性系统。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为使本领域技术人员更好地理解本申请,以下对本申请涉及的概念进行说明:
内容信息包括文本、图片、视频等多种形式的信息,可以包括单一形式的信息,也可以包括多种形式的信息,例如,由用户生产的图文内容、包含有视频的文章等,具体可以包括任意适用的内容信息,本申请实施例对此不做限制。
内容信息由信息元素组成,内容信息可以有一种或多种信息元素,各种信息元素可以有一个或多个。信息元素可以包括文本、图片、音频或视频等形式,例如,一篇图文内容中的标题、副标题、各个文本段落、以及段落之间的图片、视频等都可以作为该图文内容的信息元素,具体可以包括任意适用的信息元素,本申请实施例对此不做限制。
信息元素具有至少一种元素属性,元素属性用于表征信息元素某个方面的属性,对于图片信息元素或视频信息元素来说,可以有图片的长宽比、清晰度、违规、广告等方面的元素属性,对于文本信息元素来说,可以有文本的字数、违规、敏感词、广告等方面的元素属性,具体可以包括任意适用的元素属性,本申请实施例对此不做限制。
例如,用户在阅读图文内容时,对于图片信息元素,图片过小或过大、图片比例是否协调、图片模糊或清晰、图片是否存在逆光或暗光、图片中是否有文字、图片中是否有违规内容、图片中是否有广告等方面都会影响用户的体验,为此可以从以上各个方面得到图片信息元素的元素属性;对于文本信息元素,文本字数的多少、文本中是否有违规内容、文本中是否有广告、文本所带有的情绪色彩等方面都会影响用户的体验,为此可以从以上各个方面得到文本信息元素的元素属性。
多个信息元素同属于一个内容信息,因此信息元素之间会具有相关性。信息元素之间的相关性有程度上的差别,可以用相关性数据来表征信息元素之间的相关性的强弱大小。例如,图文内容中,图片信息元素与其前面和后面的文本信息元素一般应该是相关的,对图片信息元素进行图片识别,识别出图片中的人物和物体等信息,对文本信息元素进行文本识别,识别出文本中的人名、地名、专有名词、主题词等信息,然后通过比对上述信息之间的相似度,作为图片信息元素和文本信息元素之间的相关性数据。
在本申请的一种可选实施例中,为了将信息元素的元素表征数据与预设属性条件的比较结果作为信息元素的元素属性,一种信息元素可以具有多种的元素表征数据,不同种的信息元素可以具有不同种的元素表征数据。元素表征数据包括图片大小、长宽比、像素方差、像素直方图、切词结果等,或者其他任意适用的元素表征数据,本申请实施例对此不做限制。预设属性条件包括经验阈值、颜色空间的分布、敏感词库、广告词库或者其他任意适用的属性条件,本申请实施例对此不做限制。
例如,如图1所示的图片质量模型的示意图,对于图片信息元素来说,元素属性可以分为客观评价、基础质量评价、主观体验评价,其包括的维度不局限于以下几种:
客观评价可以包括图片大小、长宽比等元素表征数据,通过PIL(Phthon ImagingLibrary,Phthon语言的图像处理类库),计算出图片大小、长宽比等元素表征数据,与经验阈值对比,将比较结果(例如,图片过小、比例不协调等)作为元素属性。
基础质量评价可以包括模糊检测、光线检测等。模糊检测通过Laplacian(拉普拉斯算子,n维欧几里得空间中的一个二阶微分算子)滤波处理灰度图后,计算像素方差,方差小于经验阈值则判定图片模糊,将图片是否模糊的结果作为元素属性。光线检测通过计算像素直方图在颜色空间的分布,判断图像是否存在逆光、暗光等,将判断的结果作为元素属性。
主观体验评价可以包括牛皮癣(图片中存在文字的情况)打分、黄图打分、广告打分、敏感内容识别等。敏感内容识别可以通过OCR(Optical Character Recognition,光学字符识别)获取图片中的文字,然后进行切词,与敏感词库对比,以此识别是否含有敏感内容(例如,反动内容)。分类打分特征则是通过提前训练好的DL(Deep Learning,深度学习)分类模型如GoogLeNet(一种神经网络结构)/ResNet(Residual Network,深度残差网络),对图片进行分类预测打分。
如图2所示的文本质量模型的示意图,对于文本信息元素来说,元素属性可以分为敏感内容属性、涉黄属性、广告属性、情绪属性,其包括的维度不局限于以下几种:
首先,对文本信息元素进行切词(例如,适用Jieba库),去除文本中的无关停用词(如“的”,“在”等),将切词结果分别进行敏感词库、广告词库匹配,确定文本信息元素中是否包含敏感词、广告词、涉黄内容,得到敏感内容属性、广告属性、涉黄属性。然后,接着使用SVM情感分类模型,对切词结果分类,识别情绪属性。
在本申请的一种可选实施例中,信息元素之间的相关性数据可以通过比对信息元素所包括的含义信息得到。含义信息包括图片信息元素或视频信息元素的对象含义信息、文本信息元素的描述含义信息等,例如,图片中所包括的人物或物体等信息,文本中所包括的人名、地点、机构名、主题词、主题类别等,具体可以包括任意适用的含义信息,本申请实施例对此不做限制。
如图3所示的抽取文本含义的示意图,文本信息元素的含义信息包括但不限于命名实体、主题词、主题类别等。首先,通过命名实体识别(Named Entity Recognition,NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。常见的识别方法有基于规则的方法、基于特征模板的方法、基于神经网络的方法等,例如,基于Tensorflow(一个基于数据流编程的符号数学系统)以BiLSTM-CRF(Bi-directional Long Short-Term Memory-conditional random field,双向长短期记忆网络-条件随机场)算法进行命名实体识别。
然后,主题词提取可以有多种实施方案,如文字主题模型、TF-IDF、LDA、TextRank等。在本申请中,通过识别的命名实体与分词得到候选词集,接着对词的TF-IDF特征、词的长度特征、词与内容信息的相关性特征进行线性加权得到候选词分数,筛选候选词分数大于阈值的候选词,作为文本信息元素的主题词。而主题类别可以使用TextCNN模型,来对文本分类、输出金融、娱乐、支付、建议等,即文本信息元素的主题类别。
另外,确定相关性数据时,不需要对任意两个信息元素之间的相关性数据进行确定,可以仅确定相关的信息元素之间的相关性数据。相关的信息元素可以根据内容信息的内容结构确定。内容信息的内容结构包括总分式结构、并列式结构、对照式结构、递进式结构、分论点列述式结构等,或者其他任意适用的内容结构,本申请实施例对此不做限制。例如,一般的图文内容采取总分式结构,文章中各个信息元素围绕标题这一信息元素进行阐述,相邻的信息元素之间存在含义上的承接,因此,标题信息元素与其他各个信息元素是相关的,相邻的信息元素也是相关的。
在本申请的一种可选实施例中,当信息元素包括图片信息元素或视频信息元素时,含义信息包括对象含义信息,对象含义信息包括但不限于图片或视频中包括的目标对象的类别及其数量,其中,目标对象包括但不限于图片或视频中包括的人物、物体等,目标对象的类别可以根据实际需要进行设定,本申请实施例对此不做限制。
在本申请的一种可选实施例中,描述含义信息是指目标对象的描述信息,例如,目标对象是人物时,描述含义信息包括姓名、性别、年龄等,目标对象是某种商品时,描述含义信息包括品牌名称、规格、颜色等,具体可以包括任意适用的描述含义信息,本申请实施例对此不做限制。
例如,如图4所示的抽取图片含义的示意图,采用Mask R-CNN(Mask Region-basedConvolutional Neural Network,掩膜基于区域的卷积神经网络)模型对图片信息元素进行像素级目标检测并进行实例分割,打上粗略的分类标签(如,图中有5个人物、5个水杯),即对象含义信息。可选地,考虑主体是人物时,若需要对人脸身份进行识别,可以进一步结合人脸识别系统,为人物打上身份标签(如,普通女性、X明星),即描述含义信息。
在本申请的一种可选实施例中,根据至少一种元素属性确定待处理的信息元素的一种实现方式,将至少一种元素属性转化为元素质量数据,元素质量数据用于表征信息元素的质量高低。信息元素的元素质量数据与至少一种元素属性对应,根据至少一种元素属性确定元素质量数据的实现方式包括但不局限于以下几种:基于各元素属性建立回归模型,计算元素质量数据;或者基于预设规则将各元素属性对应的分值进行加权求和,计算综合分值,作为元素质量数据,本申请实施例对此不做限制。
例如,解析一个图片信息元素的元素属性,包括图片过小、图片比例不协调、图片模糊、图片包括广告,上述每种元素属性可以对应成一个分数,将各种元素属性对应的分数进行加权平均,得到一个综合质量分数,作为元素质量数据。
在本申请的一种可选实施例中,确定内容信息中待处理的信息元素前,可以先根据信息元素的内容质量数据,判断内容信息中是否包括待处理的信息元素。内容质量数据用于表征内容信息的质量高低,可以通过综合各个信息元素的元素质量数据及其与相关的信息元素的相关性数据来确定内容质量数据,例如,各信息元素的元素质量数据、相关的信息元素之间的相关性数据建立逻辑回归模型,计算内容质量数据。
在本申请的一种可选实施例中,对信息元素的处理方案包括但不限于删除处理、替换处理、添加处理。删除处理即删除一个待处理的信息元素,替换处理即用一个替换信息元素替换掉待处理的信息元素,添加处理即新添加一个信息元素。
根据本申请的一种实施例,在处理内容信息时,由于部分内容信息的创作质量参差不齐,无法直接当做优质内容来使用,存在内容质量亟待提高的问题。如图5所示的内容信息处理过程的示意图,本申请提供了一种内容信息处理机制,通过从内容信息中解析出信息元素,以及信息元素的至少一种元素属性,识别相关的信息元素,确定相关的信息元素之间的相关性数据,基于至少一种元素属性和/或相关性数据,确定内容信息中待处理的信息元素,对待处理的信息元素进行处理,使得将内容信息分成信息元素来分析,兼顾信息元素本身的元素属性和信息元素之间的相关性两个方面,更准确地确定信息元素是否需要处理,例如,将内容质量不高的信息元素或者与其他信息元素相关性较低的信息元素,确定为待处理的信息元素,自动定位到内容信息中需处理的信息元素,对待处理的信息元素进行处理,继而提升对于内容信息的处理效果。本申请适用但不局限于上述应用场景。
参照图6,示出了根据本申请实施例一的一种内容信息处理方法实施例的流程图,该方法具体可以包括以下步骤:
步骤101,从内容信息中解析出信息元素,以及所述信息元素的至少一种元素属性。
在本申请实施例中,为了对内容信息进行处理,可以将内容信息分成信息元素来进行分析。从内容信息中解析出信息元素,例如,按图文内容的顺序依次提取标题、段落、图片等信息元素。
解析出信息元素后,再对各个信息元素分别进行解析,得到各个信息元素的至少一种元素属性。针对不同种的信息元素,需要采取不同的方式来解析出元素属性,例如,图片信息元素对应由图片质量模型来解析元素属性,文本信息元素对应有文本质量模型来解析元素属性,元素属性的解析方式不局限于本申请提到的方式。
解析元素属性的方式包括多种,例如,获取信息元素的元素表征数据,将元素表征数据与预设属性条件的比较结果作为信息元素的元素属性,可以根据实际需要采取任意适用的解析方式,本申请实施例对此不做限制。
步骤102,识别相关的信息元素,确定所述相关的信息元素之间的相关性数据。
在本申请实施例中,内容信息中含有多个信息元素,信息元素之间存在关联性,信息元素之间的相关性对内容信息的整体可以产生较大的影响,为此需要确定信息元素之间的相关性数据。
识别相关的信息元素,确定相关的信息元素之间的相关性数据的实现方式可以包括多种,例如,识别信息元素所包括的含义信息,根据内容信息的内容结构,确定相关的信息元素,对相关的信息元素的含义信息进行比对,得到信息元素之间的相关性数据;或者对同种的信息元素(如都是文本信息元素),通过直接比对信息元素得到信息元素之间的相关性数据,对不同种的信息元素,则可以识别信息元素所包括的含义信息,通过比对信息元素的含义信息得到相关性数据;或者其他任意适用的方式,本申请实施例对此不做限制。
步骤103,基于所述至少一种元素属性和/或相关性数据,确定所述内容信息中待处理的信息元素。
在本申请实施例中,对内容信息进行处理时,可以分成信息元素分别进行处理。对于提高内容信息的质量来说,有的信息元素不需要处理,而有的信息元素则需要处理,这就需要对信息元素进行分析,确定待处理的信息元素。确定内容信息中待处理的信息元素时,可以基于至少一种元素属性进行分析,也可以基于相关性数据进行分析,还可以基于至少一种元素属性和相关性数据进行分析。
基于至少一种元素属性,确定待处理的信息元素的实现方式可以包括多种,例如,根据至少一种元素属性对应的元素质量数据,确定信息元素为待处理的信息元素;或者通过判断至少一种元素属性是否符合预设的待处理要求,若至少一种元素属性符合预设的待处理要求,则将信息元素确定为待处理的信息元素,具体可以包括任意适用的方式,本申请实施例对此不做限制。
基于相关性数据,确定待处理的信息元素的实现方式包括但不局限于以下几种:通过判定信息元素与多个相关的信息元素的相关性数据不符合设定要求,确定信息元素为待处理的信息元素;或者通过判定信息元素与目标信息元素之间的相关性数据不符合设定要求,确定信息元素为待处理的信息元素;或者通过判定信息元素与除目标信息元素外的第二信息元素之间的相关性数据不符合设定要求,确定信息元素为待处理的信息元素,本申请实施例对实现方式不做限制。
步骤104,对所述待处理的信息元素进行处理。
在本申请实施例中,对待处理的信息元素进行处理,处理方案包括但不局限于删除处理、替换处理、添加处理。在处理之前,可以根据确定信息元素待处理的元素属性和/或相关性数据,确定对待处理的信息元素的处理方案。
例如,当信息元素自身存在质量问题,即至少一种元素属性对应的元素质量数据不符合设定质量阈值时,或者信息元素与上下文相邻的信息元素的相关性都很差,即与相关的信息元素的相关性数据低于设定相关性阈值时,优选可以对待处理的信息元素进行删除。
对待处理的信息元素进行处理后,可以重新解析内容信息中的信息元素以及信息元素的至少一种元素属性,识别相关的信息元素,确定相关的信息元素之间的相关性数据,然后基于至少一种元素属性和/或相关性数据,重新确定内容信息中待处理的信息元素,并再次对待处理的信息元素进行处理,不断迭代这一处理过程,直至达到最大迭代次数或者无法确定内容信息中有信息元素待处理为止,以实现对于内容信息的处理效果的最优化。
依据本申请实施例,通过从内容信息中解析出信息元素,以及信息元素的至少一种元素属性,识别相关的信息元素,确定相关的信息元素之间的相关性数据,基于至少一种元素属性和/或相关性数据,确定内容信息中待处理的信息元素,对待处理的信息元素进行处理,使得将内容信息分成信息元素来分析,兼顾信息元素本身的元素属性和信息元素之间的相关性两个方面,更准确地确定信息元素是否需要处理,例如,将内容质量不高的信息元素或者与其他信息元素相关性较低的信息元素,确定为待处理的信息元素,自动定位到内容信息中需处理的信息元素,对待处理的信息元素进行处理,继而提升对于内容信息的处理效果。
参照图7,示出了根据本申请实施例二的一种内容信息处理方法实施例的流程图,该方法具体可以包括以下步骤:
步骤201,从内容信息中解析出信息元素,获取信息元素的元素表征数据,将所述元素表征数据与预设属性条件的比较结果作为所述信息元素的元素属性。
在本申请实施例中,从内容信息中解析出信息元素后,通过检测或识别等方式获取信息元素的元素表征数据,然后对元素表征数据与预设属性条件进行比较,将比较结果作为信息元素的元素属性。
步骤202,识别所述信息元素所包括的含义信息。
在本申请实施例中,对于不同种的信息元素,采取对应的识别方式,例如,对于文本信息元素,通过命名实体识别识别文本中具有特定意义的实体,作为含义信息;对于图片信息元素或视频信息元素,采用Mask R-CNN模型检测出图片或视频中的目标对象,将目标对象的类别和数量作为对象含义信息。
在本申请实施例中,可选地,信息元素包括图片信息元素或视频信息元素,含义信息包括对象含义信息,所述识别所述信息元素所包括的含义信息的一种实现方式可以包括:检测图片信息元素或视频信息元素中包括的目标对象的类别及其数量,得到对象含义信息。
在本申请实施例中,可选地,含义信息包括描述含义信息,识别所述信息元素所包括的含义信息的一种实现方式中还可以包括:确定目标对象的类别包括预设类别,识别预设类别的目标对象的描述信息,得到描述含义信息。
步骤203,根据所述内容信息的内容结构,确定相关的信息元素。
在本申请实施例中,内容信息含有多个信息元素,信息元素之间存在关联性。根据内容信息的内容结构,确定相关的信息元素,即将信息元素之间的关联性链接起来,形成关系网络。
例如,如图8所示的信息元素的关系网络的示意图,对一篇图文内容进行结构化处理,按照正文顺序提取出标题、段落与图片,跳过空白行,根据上下文顺序,建立信息元素之间的关系,其中,标题作为全文的中心,需要和全文其他信息元素都建立元素关系。
步骤204,对所述相关的信息元素的含义信息进行比对,得到所述信息元素之间的相关性数据。
在本申请实施例中,对相关的信息元素的含义信息进行比对,得到比对结果是含义信息之间的相关性数据,由于含义信息是从信息元素中识别出的,因此,含义信息之间的相关性数据可以作为信息元素之间的相关性数据。相关性计算可以优选simnet模型(一种有监督的神经网络语义匹配模型),或者其他任意适用的模型计算,本申请实施例对此不做限制。
例如,如图8所示的信息元素的关系网络的示意图,根据一篇图文内容的内容结构,其关系网络结构包含标题、文本、图片三种信息元素,以及关系边。标题信息元素和文本信息元素的结构体为{类型:标题/段落,字数:X,语义:{主题:Y,关键词:Z,实体:W,热度:R},质量:{综合质量分(即元素质量数据):F,是否广告:G,是否黄反:H}};图片信息元素的结构体为{类型:图片,长度:C,宽度:K,大小:D,语义:{主题:人物,关键词:J明星,T物体},质量:{综合质量分(即元素质量数据):F,图过小:P,比例不协调:B,是否广告:G}}。关系边结构体为{相关性:N},即相关性数据。
在本申请实施例中,可选地,对所述相关的信息元素的含义信息进行比对,得到所述信息元素之间的相关性数据的一种实现方式可以包括:提取文本信息元素的含义信息中的信息关键词;采用信息关键词替换含义信息。
相关的信息元素之间的关系可以包括多种,同种信息元素之间的关系,以及不同种信息元素之间的关系。不同种的信息元素的含义信息的长度是不一样的,通常文本信息元素的含义信息较长,而图片信息元素的含义信息较短,对长短不一致的含义信息进行比对,所得到的相关性数据会有较大差距,无法准确表示信息元素之间的相关性。
例如,如图8所示的信息元素的关系网络的示意图,关系网络中边的形态共有3种:图片信息元素与图片信息元素之间的边、图片信息元素与文本信息元素之间的边、文本信息元素与文本信息元素之间的边。其中,图片信息元素的含义信息通常是短且离散的,如“蓝牙”、“耳机”,而段落信息元素的含义信息通常是长且连续的,如“在蓝牙耳机界,以绝佳的音质”,因此3种关系形态的相关性,实际转化为文字的三种相关性度量,包括:短&离散与短&离散、短&离散与长&连续、长&连续与长&连续。
为此,提取文本信息元素的含义信息中的信息关键词,采用信息关键词替换含义信息,将长&连续的含义信息转化为短&离散的含义信息。例如,如图9所示的含义信息转化的示意图,将长&连续的含义信息通过文本主题词提取模型提取信息关键词,转化为短&离散的含义信息。值得说明的是,由于关键词提取会较原文丢失一部分信息,因此,对于长&连续的含义信息需要引入长文本篇章相关性计算,以最大限度保留原本的含义,其计算可以优选PLSA(Probabilistic Latent Semantic Analysis,概率隐性语义分析)模型。
步骤205,确定所述内容信息的内容质量数据。
在本申请实施例中,在基于至少一种元素属性和相关性数据,确定内容信息中待处理的信息元素之前,可以先确定内容信息中包括待处理的信息元素,为此需要先确定内容信息的内容质量数据。内容信息的内容质量数据与信息元素的元素质量数据相对应,可以根据元素质量数据和相关性数据,确定内容质量数据。
在本申请实施例中,可选地,确定所述内容信息的内容质量数据的一种实现方式可以包括:根据至少一种元素属性,确定信息元素的元素质量数据,综合各个信息元素的元素质量数据及其与相关的信息元素的相关性数据,确定内容信息的内容质量数据。
内容信息的内容质量数据取决于各个信息元素的元素质量数据,而且不同的信息元素对应内容信息的影响大小是不同的。在内容信息中与其他信息元素的相关性越大的信息元素对于整个内容信息的影响越大,相反,与其他信息元素的相关性越小的信息元素对于整个内容信息的影响越小。因此,综合各个信息元素的元素质量数据及其与相关的信息元素的相关性数据,可以提高内容信息的内容质量数据的准确性。
例如,如图10所示的综合质量分模型的示意图,针对图文内容的关系网络中的3种信息元素:图片、标题、段落,确定出图片质量分和文本质量分,即图片信息元素的元素质量数据和文本信息元素的元素质量数据,将图片质量分、文本质量分、关系边相关性分(即相关的信息元素之间的相关性数据)通过逻辑回归模型进行加权计算,得到图文内容的综合质量分,即内容质量数据。
值得说明的是,短&离散的含义信息之间的相关性数据的计算模型和长&连续的含义信息之间的相关性数据的计算模型不同,所得到的相关性数据有较大差别,不能直接放在一起使用,需要根据经验公式重新确定关系边的相关性分,即相关性数据。
在本申请实施例中,可选地,在确定内容信息的内容质量数据之前,还可以包括:根据上一次处理后的信息元素,确定处理后信息元素的元素属性和信息元素之间的相关性数据,以便更新内容信息的内容质量数据。
对内容信息进行处理可以进行迭代,若已经对待处理的信息元素进行了一次处理,那么需要重新确定处理后信息元素的元素属性和信息元素之间的相关性数据,然后再次确定内容信息的内容质量数据,以便在内容质量数据不满足设定范围后终止迭代过程。
步骤206,判定所述内容质量数据满足设定范围、则确定所述内容信息中包括待处理的信息元素。
在本申请实施例中,在确定内容信息中的待处理的信息元素之前,可以先确定内容信息中包括待处理的信息元素,即内容信息需要处理。在一种实现方式中,判断内容质量数据是否满足设定范围,如果满足设定范围,则确定内容信息中包括待处理的信息元素,如果不满足设定范围,则确定内容信息中不包括待处理的信息元素,即内容信息不需要被处理。
步骤207,基于所述至少一种元素属性和/或相关性数据,确定所述内容信息中待处理的信息元素。
在本申请实施例中,可选地,一种实现方式中,在对所述待处理的信息元素进行处理之前,还可以包括:步骤208。
步骤208,判定对所述待处理的信息元素的处理次数未达到设定次数。
在本申请实施例中,对待处理的信息元素进行迭代处理时,设定迭代处理的终止条件为最大迭代次数,记为设定次数。对待处理的信息元素进行一次处理后,对处理次数进行计数,当处理次数达到设定次数时终止迭代处理,当处理次数未达到设定次数时可以继续迭代处理。
在本申请实施例中,可选地,在一种实现方式中,在对所述待处理的信息元素进行处理之前,还包括:步骤209。
步骤209,根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案。
在本申请实施例中,信息元素被确定为待处理的原因各有不同,对不同原因确定为待处理的信息元素,需要采取不同的处理方案。
在本申请实施例中,可选地,根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案的一种实现方式可以包括:当待处理的信息元素为根据至少一种元素属性对应的元素质量数据确定的信息元素时,或者当待处理的信息元素为根据信息元素与多个相关的信息元素的相关性数据确定的信息元素时,确定对待处理元素的处理方案包括删除处理。
如图11所示的处理方案的示意图,当目标信息元素自身存在质量问题,即元素质量数据低于预设质量阈值,或者信息元素与上下文相邻的信息元素相关性都很差时,即信息元素的多个相关性数据都低于预设相关性阈值,则采取删除处理,将目标信息元素进行删除。
在本申请实施例中,可选地,根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案的另一种实现方式可以包括:当待处理的信息元素为根据所述信息元素与目标信息元素之间的相关性数据确定的信息元素时,确定对待处理元素的处理方案包括替换处理。
如图11所示的处理方案的示意图,当目标信息元素与标题信息元素之间的相关性很差,即信息元素与标题信息元素之间的相关性数据都低于预设相关性阈值,或者当目标信息元素与标题信息元素以及上文的信息元素之间的相关性很差,与标题信息元素和上文的信息元素之间的相关性数据都低于相关性阈值,则采取替换处理,将目标信息元素替换为替换信息元素。
在本申请实施例中,可选地,根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案的另一种实现方式可以包括:当所述待处理的信息元素为根据所述信息元素与除目标信息元素外的第二信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括添加处理。
如图11所示的处理方案的示意图,当目标信息元素仅与第二信息元素之间的相关性很差,即信息元素与第二信息元素之间的相关性数据都低于预设相关性阈值,则采取添加处理,在目标信息元素和第二信息元素之间添加一个信息元素,常见于信息元素与上下文缺少衔接的情况。
步骤210,对所述待处理的信息元素进行处理。
在本申请实施例中,可选地,替换处理的一种实现方式可以包括:从与待处理的信息元素相关的第一信息元素中提取第一关键词;从内容信息中的目标信息元素中提取目标关键词;基于第一关键词、目标关键词和预设信息库,生成替换信息元素。
替换信息元素用于替换待处理的信息元素,为了使替换信息元素与内容信息的其他部分的相关性高,需要基于第一关键词、目标关键词和预设信息库,生成替换信息元素。由于生成的替换信息元素与第一关键词和目标关键词相关,因此替换信息元素与第一信息元素和目标信息元素都是相关的。
如图12所示的替换信息元素生成过程的示意图,对于图文内容来说,分为替换图片和文本两种结果。首先,获取待处理的信息元素的相邻的信息元素、标题信息元素的关键词。当替换成文本时,基于MTA LSTM(Long Short-Term Memory,长短期记忆网络)模型和文本语料库(即一种预设信息库)生成内容,作为替换信息元素;若替换成图片时,从图片语料库(即另一种预设信息库)中,对图片信息元素与图片语料库中的图片进行相关性计算,筛选出相关性最接近的图片TOP1,作为替换信息元素。
预设信息库来源于网络数据。针对文本语料,为了提高语料品质,便于处理时给出更好的语句,可以采取的策略是抽取出代表文章主题的综合性描述,基于以下4个维度筛选:按照句子相对词频,句子中的词的tf-idf加权后,归一化越大句子越重要;句子位置,位于句首或句尾的权重较高;句子长度,短句权重低;句子命名实体数量,实体数量越多,信息量越大,句子越重要。
在本申请实施例中,可选地,第一关键词与目标关键词具有对应的权重,目标信息元素的目标关键词的权重大于第一信息元素的第一关键词的权重。
如图12所示的替换信息元素生成过程的示意图,将信息元素的关键词初始化为Attention向量时,提升标题信息元素(即目标信息元素)的关键词的权重,以使替换信息元素与内容信息的标题的相关性更强。
在本申请实施例中,可选地,添加处理的一种实现方式可以包括:在待处理的信息元素和相关的第二信息元素之间添加第三信息元素,以使得待处理的信息元素和第三信息元素之间的相关性、以及相关的第二信息元素和第三信息元素之间的相关性是符合要求的,使得待处理的信息元素和第二信息元素之间增加了衔接。
在本申请实施例中,可选地,在在所述待处理的信息元素和相关的第二信息元素之间添加第三信息元素之前,还可以包括:从待处理的信息元素、相关的第二信息元素以及目标信息元素中,提取第二关键词;基于第二关键词和预设信息库,生成第三信息元素。
如图13所示的信息元素新增方式的示意图,首先,获取待处理的信息元素、相关的第二信息元素以及标题信息元素的关键词。当替换成文本时,基于MTA LSTM(Long Short-Term Memory,长短期记忆网络)模型和文本语料库(即一种预设信息库)生成内容,作为第三信息元素;若替换成图片时,从图片语料库(即另一种预设信息库)中,对图片信息元素与图片语料库中的图片进行相关性计算,筛选出相关性最接近的图片TOP1,作为第三信息元素。
依据本申请实施例,通过从内容信息中解析出信息元素,以及信息元素的至少一种元素属性,识别相关的信息元素,确定相关的信息元素之间的相关性数据,基于至少一种元素属性和/或相关性数据,确定内容信息中待处理的信息元素,对待处理的信息元素进行处理,使得将内容信息分成信息元素来分析,兼顾信息元素本身的元素属性和信息元素之间的相关性两个方面,更准确地确定信息元素是否需要处理,例如,将内容质量不高的信息元素或者与其他信息元素相关性较低的信息元素,确定为待处理的信息元素,自动定位到内容信息中需处理的信息元素,对待处理的信息元素进行处理,继而提升对于内容信息的处理效果。
参照图14,示出了根据本申请实施例三的一种图文内容处理方法实施例的流程图,该方法具体可以包括以下步骤:
步骤301,接收客户端提交的图文内容,所述图文内容包括文本或图片或视频中的至少一种。
在本申请实施例中,图文内容包括文本或图片或视频中的至少一种。为了对图文内容进行改编,客户端向服务器提交图文内容。
步骤302,利用内容质量模型对所述图文内容进行质量评价,得到所述图文内容的质量评价结果。
在本申请实施例中,内容质量模型用于对图文内容进行质量评价,包括从文本质量、或图片质量、或视频质量、或关系网络相关性特征、或热度特征等方面对图文内容进行质量评价,得到质量评价结果。
在本申请实施例中,利用内容质量模型对所述图文内容进行质量评价,得到所述图文内容的质量评价结果的一种实现方式可以包括:从内容信息中解析出信息元素,以及所述信息元素的至少一种元素属性;识别相关的信息元素,确定所述相关的信息元素之间的相关性数据。
其中,从内容信息中解析出信息元素,以及所述信息元素的至少一种元素属性的实现方式可以包括:获取信息元素的元素表征数据,将所述元素表征数据与预设属性条件的比较结果作为所述信息元素的元素属性。识别相关的信息元素,确定所述相关的信息元素之间的相关性数据的实现方式可以包括:识别所述信息元素所包括的含义信息;根据所述内容信息的内容结构,确定相关的信息元素;对所述相关的信息元素的含义信息进行比对,得到所述信息元素之间的相关性数据。
在本申请实施例中,可选地,内容质量模型为基于文本质量、图片质量、视频质量、关系网络相关性特征、热度特征中的至少一种,建立的内容质量模型。
例如,采用文本质量模型对图文内容中的文本进行质量评价,得到文本信息元素的元素属性,采用图片质量模型对图文内容中的图片进行质量评价,得到图片信息元素的元素属性,采用视频质量模型对视频内容中的视频进行质量评价,得到视频信息元素的元素属性,基于关系网络相关性特征对图文内容中的信息元素之间的关系进行质量评价,得到信息元素之间的相关性数据,基于热度特征对图文内容进行质量评价,得到图文内容的热度,然后还可以基于元素属性和相关性数据,确定图文内容的内容质量数据,上述得到的元素属性、相关性数据、热度、以及内容质量数据都属于图文内容的质量评价结果。
步骤303,基于所述质量评价结果,确定所述图文内容的改编方案。
在本申请实施例中,基于质量评价结果,可以确定对图文内容的改编方案。改编方案包括对图文内容进行增加、删除、修改。对图文内容进行增加,即在图文内容中新增加内容,对图文内容进行删除,即在图文内容中删除部分内容,对图文内容进行修改,即在图文内容中对全部或部分进行修改。
不同的质量评价结果,对应于不同的改编方案。例如,根据内容质量模型得到的元素属性、相关性数据、热度、以及内容质量数据,确定图文内容的处理方案,即改编方案,具体可以参见前述实施例中的描述,此处不另赘述。
在本申请实施例中,基于所述质量评价结果,确定所述图文内容的改编方案的一种实现方式可以包括:基于所述至少一种元素属性和/或相关性数据,确定所述内容信息中待处理的信息元素;对所述待处理的信息元素进行处理。在所述对所述待处理的信息元素进行处理之前,根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案。
其中,根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案的实现方式可以包括多种,例如:当所述待处理的信息元素为根据所述至少一种元素属性对应的元素质量数据确定的信息元素时,或者当所述待处理的信息元素为根据所述信息元素与多个相关的信息元素的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括删除处理。当所述待处理的信息元素为根据所述信息元素与目标信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括替换处理。当所述待处理的信息元素为根据所述信息元素与除目标信息元素外的第二信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括添加处理。
在本申请实施例中,可选地,还可以包括:将确定的改编方案提供给用户,接收用户对改编方案的接受反馈信息,对图文内容进行对应的修改,
改编方案可能存在不合理性,因此可以先不直接采用改编方案对图文内容进行改编,而是将改编方案提供给用户,用户可以选择接受改编方案的全部或部分,或完全不接受改编方案,并形成接受反馈信息,服务器接收接受反馈信息,并根据接受反馈信息,对图文内容进行对应的修改。例如,改编方案中包括对图文内容的两处修改,用户对改编方案的一处修改是接受的,另一处修改则不接受,根据接受反馈信息进行修改时,则只对用户接受的修改进行修改,对用户不接受的修改不进行修改,以免直接修改的结果并非用户所需要或所接受的,避免无效的修改,提高改编的效率。
在本申请实施例中,可选地,在对图文内容进行对应的修改之后,还可以包括:提供修改前后的对比,以供用户确认,
修改之后,还可以以各种形式将修改前后的对比提供给用户,例如,以修订模式显示,或者在同时显示两个版本的图文内容,或者其他任意适用的提供方式,本申请实施例对此不做限制,以便用户确认修改的部分,提高工作效率。
依据本申请实施例,通过接收客户端提交的图文内容,所述图文内容包括文本或图片或视频中的至少一种,利用内容质量模型对所述图文内容进行质量评价,得到所述图文内容的质量评价结果,基于所述质量评价结果,确定所述图文内容的改编方案,以实现自动确定对图文内容的改编方案,不同的质量评价结果对应于不同的改编方案,对图文内容的修改更加灵活,继而提升对图文内容的改编效率。
参照图15,示出了根据本申请实施例四的一种图文内容处理方法实施例的流程图,该方法具体可以包括以下步骤:
步骤401,提交待发布的图文内容。
在本申请实施例中,客户端对于要进行发布的图文内容,将图文内容提交至用于对图文内容进行改编的服务器。
步骤402,接收针对所述图文内容的改编方案,所述改编方案是利用内容质量模型对所述待发布的图文内容进行质量评价得到的质量评价结果,并基于所述质量评价结果确定改编方案。
在本申请实施例中,服务器确定图文内容的改编方案后,将改编方案发送给客户端,客户端接收改编方案。
步骤403,显示所述改编方案。
在本申请实施例中,显示改编方案,以供用户选择接受或不接受改编方案,或接受改编方案的全部或部分。
在本申请实施例中,可选地,还可以包括:提交对所述改编方案的接受反馈信息。
依据本申请实施例,通过提交待发布的图文内容,接收针对所述图文内容的改编方案,所述改编方案是利用内容质量模型对所述待发布的图文内容进行质量评价得到的质量评价结果,并基于所述质量评价结果确定改编方案,显示所述改编方案,以实现自动确定对图文内容的改编方案,不同的质量评价结果对应于不同的改编方案,对图文内容的修改更加灵活,继而提升对图文内容的改编效率。
为使本领域技术人员更好地理解本申请,以下通过具体的示例对本申请的一种验证方法进行说明。
参见图16,示出了内容信息处理系统的结构示意图。
内容信息处理系统包括关系网络、抽象模型、ML/DL组件、语料库四大部分,其中:
关系网络包括内容质量评分模型和内容智能改写模型。内容质量评分模型,用于确定内容信息的内容质量数据。内容智能改写模型,用于对待处理的信息元素进行处理。
抽象模型包括图像模型和文字模型两部分。图像模型包括基础质量模型、主观体验评价模型、主体识别模型、人脸识别模型。基础质量模型,用于对图片信息元素进行客观评价和基础质量评价。主观体验评价模型,用于对图片信息元素进行主观体验评价。主体识别模型,用于确定图片信息元素的对象含义信息。人脸识别模型,用于确定图片信息元素的描述含义信息。文字模型包括基础质量模型、文本主体模型、文本分类模型、相关性模型。基础质量模型,用于确定文本信息元素的元素属性。文本主题模型和文本分类模型,用于确定文本信息元素的含义信息。相关性模型,用于确定信息元素之间的相关性数据。
ML/DL组件包括DL分类模型如ResNet/GoogLeNet/Mask R-CNN等,SVM情绪分类器、TextCNN文本主题分类、BiLSTM-CRF命名实体识别、MTA-LSTM模型、SimNet短文本相似性模型、PLSA长文本相似性模型。
语料库包括文本语料、图片语料、人脸训练集、敏感词库、黄/反/广告词库。
参见图17,示出了内容信息处理流程的示意图。
步骤1、获取待改写的图文内容,即内容信息。
步骤2、建立图文内容中信息元素之间的关系网络。
步骤3、按正文顺序依次提取标题、段落、图片。
步骤4,计算关系网络中信息元素之间的相关性,计算元素属性。
步骤5,通过图片质量模型、文本质量模型、相关性模型计算得到元素属性和相关性数据。
步骤6,根据元素属性和相关性数据,通过内容质量评分模型,确定内容质量数据。
步骤7,对内容质量进行分析,基于所述至少一种元素属性和/或相关性数据,确定所述内容信息中待处理的信息元素,即发现可改写优化点。
步骤8,遍历各个待处理的信息元素。
步骤9,将待处理的信息元素输入内容智能改写模型。
步骤10,对待处理的信息元素进行处理,内容改写优化。
步骤11,输出处理后的内容信息,改写后的内容。
步骤12,重新确定内容质量评分,即内容质量数据,若内容质量评分大于改写前则保留修改。
步骤13,输出最终处理后的内容信息。
参照图18,示出了根据本申请实施例五的一种内容信息处理装置实施例的结构框图,具体可以包括:
属性解析模块501,用于从内容信息中解析出信息元素,以及所述信息元素的至少一种元素属性;
数据确定模块502,用于识别相关的信息元素,确定所述相关的信息元素之间的相关性数据;
元素确定模块503,用于基于所述至少一种元素属性和/或相关性数据,确定所述内容信息中待处理的信息元素;
处理模块504,用于对所述待处理的信息元素进行处理。
在本申请实施例中,可选地,所述属性解析模块包括:
属性解析子模块,用于获取信息元素的元素表征数据,将所述元素表征数据与预设属性条件的比较结果作为所述信息元素的元素属性。
在本申请实施例中,可选地,所述数据确定模块包括:
信息识别子模块,用于识别所述信息元素所包括的含义信息;
相关确定子模块,用于根据所述内容信息的内容结构,确定相关的信息元素;
比对子模块,用于对所述相关的信息元素的含义信息进行比对,得到所述信息元素之间的相关性数据。
在本申请实施例中,可选地,所述信息元素包括图片信息元素或视频信息元素,所述含义信息包括对象含义信息,所述信息识别子模块包括:
对象检测单元,用于检测所述图片信息元素或视频信息元素中包括的目标对象的类别及其数量,得到对象含义信息。
在本申请实施例中,可选地,所述含义信息包括描述含义信息,所述信息识别子模块还包括:
类别确定单元,用于确定所述目标对象的类别包括预设类别;
信息识别单元,用于识别预设类别的目标对象的描述信息,得到描述含义信息。
在本申请实施例中,可选地,所述比对子模块包括:
关键词提取单元,用于提取所述文本信息元素的含义信息中的信息关键词;
替换单元,用于采用所述信息关键词替换所述含义信息。
在本申请实施例中,可选地,所述元素确定模块包括:
元素确定子模块,用于根据所述至少一种元素属性对应的元素质量数据,确定所述信息元素为待处理的信息元素。
在本申请实施例中,可选地,所述装置还包括:
内容质量数据确定模块,用于在所述基于所述至少一种元素属性和相关性数据,确定所述内容信息中待处理的信息元素之前,确定所述内容信息的内容质量数据;
质量判定模块,用于判定所述内容质量数据满足设定范围、则确定所述内容信息中包括待处理的信息元素。
在本申请实施例中,可选地,所述内容质量数据确定模块包括:
质量数据确定子模块,用于根据所述至少一种元素属性,确定所述信息元素的元素质量数据;
数据综合子模块,用于综合各个信息元素的元素质量数据及其与相关的信息元素的相关性数据,确定所述内容信息的内容质量数据。
在本申请实施例中,可选地,所述装置还包括:
确定模块,用于在所述确定所述内容信息的内容质量数据之前,根据上一次处理后的信息元素,确定处理后信息元素的元素属性和信息元素之间的相关性数据,以便更新所述内容信息的内容质量数据。
在本申请实施例中,可选地,所述装置还包括:
次数判定模块,用于在所述对所述待处理的信息元素进行处理之前,判定对所述待处理的信息元素的处理次数未达到设定次数。
在本申请实施例中,可选地,所述对所述待处理的信息元素进行处理包括:删除处理、替换处理、添加处理中至少一种。
在本申请实施例中,可选地,所述装置还包括:
处理方案确定模块,用于在所述对所述待处理的信息元素进行处理之前,根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案。
在本申请实施例中,可选地,所述处理方案确定模块包括:
删除处理确定子模块,用于当所述待处理的信息元素为根据所述至少一种元素属性对应的元素质量数据确定的信息元素时,或者当所述待处理的信息元素为根据所述信息元素与多个相关的信息元素的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括删除处理。
在本申请实施例中,可选地,所述处理方案确定模块包括:
替换处理确定子模块,用于当所述待处理的信息元素为根据所述信息元素与目标信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括替换处理。
在本申请实施例中,可选地,所述处理模块包括:
第一提取子模块,用于关键词从与所述待处理的信息元素相关的第一信息元素中提取第一关键词;
第二提取子模块,用于从所述内容信息中的目标信息元素中提取目标关键词;
元素生成子模块,用于基于所述第一关键词、目标关键词和预设信息库,生成替换信息元素。
在本申请实施例中,可选地,所述第一关键词与目标关键词具有对应的权重,所述目标信息元素的目标关键词的权重大于第一信息元素的第一关键词的权重。
在本申请实施例中,可选地,所述处理方案确定模块包括:
添加处理确定子模块,用于当所述待处理的信息元素为根据所述信息元素与除目标信息元素外的第二信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括添加处理。
在本申请实施例中,可选地,所述处理模块包括:
添加处理子模块,用于在所述待处理的信息元素和相关的第二信息元素之间添加第三信息元素。
在本申请实施例中,可选地,所述装置还包括:
第三提取模块,用于在所述在所述待处理的信息元素和相关的第二信息元素之间添加第三信息元素之前,从所述待处理的信息元素、相关的第二信息元素以及目标信息元素中,提取第二关键词;
第三元素生成模块,用于基于所述第二关键词和预设信息库,生成所述第三信息元素。
依据本申请实施例,通过从内容信息中解析出信息元素,以及信息元素的至少一种元素属性,识别相关的信息元素,确定相关的信息元素之间的相关性数据,基于至少一种元素属性和/或相关性数据,确定内容信息中待处理的信息元素,对待处理的信息元素进行处理,使得将内容信息分成信息元素来分析,兼顾信息元素本身的元素属性和信息元素之间的相关性两个方面,更准确地确定信息元素是否需要处理,例如,将内容质量不高的信息元素或者与其他信息元素相关性较低的信息元素,确定为待处理的信息元素,自动定位到内容信息中需处理的信息元素,对待处理的信息元素进行处理,继而提升对于内容信息的处理效果。
参照图19,示出了根据本申请实施例六的一种图文内容处理装置实施例的结构框图,具体可以包括:
内容接收模块601,用于接收客户端提交的图文内容,所述图文内容包括文本或图片或视频中的至少一种;
质量评价模块602,用于利用内容质量模型对所述图文内容进行质量评价,得到所述图文内容的质量评价结果;
方案确定模块603,用于基于所述质量评价结果,确定所述图文内容的改编方案。
在本申请实施例中,可选地,所述内容质量模型为基于文本质量、图片质量、视频质量、关系网络相关性特征、热度特征中的至少一种,建立的内容质量模型。
在本申请实施例中,可选地,所述装置还包括:
方案提供模块,用于将确定的所述改编方案提供给用户;
修改模块,用于接收所述用户对所述改编方案的接受反馈信息,对所述图文内容进行对应的修改。
在本申请实施例中,可选地,所述装置还包括:
对比提供模块,用于在所述对所述图文内容进行对应的修改之后,提供修改前后的对比,以供所述用户确认。
依据本申请实施例,通过接收客户端提交的图文内容,所述图文内容包括文本或图片或视频中的至少一种,利用内容质量模型对所述图文内容进行质量评价,得到所述图文内容的质量评价结果,基于所述质量评价结果,确定所述图文内容的改编方案,以实现自动确定对图文内容的改编方案,不同的质量评价结果对应于不同的改编方案,对图文内容的修改更加灵活,继而提升对图文内容的改编效率。
参照图20,示出了根据本申请实施例七的一种图文内容处理装置实施例的结构框图,具体可以包括:
内容提交模块701,用于提交待发布的图文内容;
方案接收模块702,用于接收针对所述图文内容的改编方案,所述改编方案是利用内容质量模型对所述待发布的图文内容进行质量评价得到的质量评价结果,并基于所述质量评价结果确定改编方案;
方案显示模块703,用于显示所述改编方案。
在本申请实施例中,可选地,所述装置还包括:
信息提交模块,用于提交对所述改编方案的接受反馈信息。
依据本申请实施例,通过提交待发布的图文内容,接收针对所述图文内容的改编方案,所述改编方案是利用内容质量模型对所述待发布的图文内容进行质量评价得到的质量评价结果,并基于所述质量评价结果确定改编方案,显示所述改编方案,以实现自动确定对图文内容的改编方案,不同的质量评价结果对应于不同的改编方案,对图文内容的修改更加灵活,继而提升对图文内容的改编效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的系统。图21示意性地示出了可被用于实现本公开中所述的各个实施例的示例性系统(或装置)800。
对于一个实施例,图17示出了示例性系统800,该系统具有一个或多个处理器802、被耦合到(一个或多个)处理器802中的至少一个的系统控制模块(芯片组)804、被耦合到系统控制模块804的系统存储器806、被耦合到系统控制模块804的非易失性存储器(NVM)/存储设备808、被耦合到系统控制模块804的一个或多个输入/输出设备410,以及被耦合到系统控制模块806的网络接口412。
处理器802可包括一个或多个单核或多核处理器,处理器802可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,系统800能够作为本申请实施例中所述的浏览器。
在一些实施例中,系统800可包括具有指令的一个或多个计算机可读介质(例如,系统存储器806或NVM/存储设备808)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本公开中所述的动作的一个或多个处理器802。
对于一个实施例,系统控制模块804可包括任意适当的接口控制器,以向(一个或多个)处理器802中的至少一个和/或与系统控制模块804通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块804可包括存储器控制器模块,以向系统存储器806提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器806可被用于例如为系统800加载和存储数据和/或指令。对于一个实施例,系统存储器806可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器806可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块804可包括一个或多个输入/输出控制器,以向NVM/存储设备808及(一个或多个)输入/输出设备410提供接口。
例如,NVM/存储设备808可被用于存储数据和/或指令。NVM/存储设备808可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备808可包括在物理上作为系统800被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备808可通过网络经由(一个或多个)输入/输出设备410进行访问。
(一个或多个)输入/输出设备410可为系统800提供接口以与任意其他适当的设备通信,输入/输出设备410可以包括通信组件、音频组件、传感器组件等。网络接口412可为系统800提供接口以通过一个或多个网络通信,系统800可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器802中的至少一个可与系统控制模块804的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器802中的至少一个可与系统控制模块804的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器802中的至少一个可与系统控制模块804的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器802中的至少一个可与系统控制模块804的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统800可以但不限于是:浏览器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统800可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统800包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,如果显示器包括触摸面板,显示屏可以被实现为触屏显示器,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端设备时,可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。
在一个示例中提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如本申请实施例的方法。
在一个示例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本申请实施例的一个或多个的方法。
本申请实施例公开了一种内容信息处理方法和装置,示例1包括一种内容信息处理方法,包括:
从内容信息中解析出信息元素,以及所述信息元素的至少一种元素属性;
识别相关的信息元素,确定所述相关的信息元素之间的相关性数据;
基于所述至少一种元素属性和/或相关性数据,确定所述内容信息中待处理的信息元素;
对所述待处理的信息元素进行处理。
示例2可包括示例1所述的方法,其中,所述从内容信息中解析出信息元素,以及所述信息元素的至少一种元素属性包括:
获取信息元素的元素表征数据,将所述元素表征数据与预设属性条件的比较结果作为所述信息元素的元素属性。
示例3可包括示例1和/或示例2所述的方法,其中,所述识别相关的信息元素,确定所述相关的信息元素之间的相关性数据包括:
识别所述信息元素所包括的含义信息;
根据所述内容信息的内容结构,确定相关的信息元素;
对所述相关的信息元素的含义信息进行比对,得到所述信息元素之间的相关性数据。
示例4可包括示例1-示例3一个或多个所述的方法,其中,所述信息元素包括图片信息元素或视频信息元素,所述含义信息包括对象含义信息,所述识别所述信息元素所包括的含义信息包括:
检测所述图片信息元素或视频信息元素中包括的目标对象的类别及其数量,得到对象含义信息。
示例5可包括示例1-示例4一个或多个所述的方法,其中,所述含义信息包括描述含义信息,所述识别所述信息元素所包括的含义信息还包括:
确定所述目标对象的类别包括预设类别;
识别预设类别的目标对象的描述信息,得到描述含义信息。
示例6可包括示例1-示例5一个或多个所述的方法,其中,所述对所述相关的信息元素的含义信息进行比对,得到所述信息元素之间的相关性数据包括:
提取所述文本信息元素的含义信息中的信息关键词;
采用所述信息关键词替换所述含义信息。
示例7可包括示例1-示例6一个或多个所述的方法,其中,所述基于所述至少一种元素属性,确定所述内容信息中待处理的信息元素包括:
根据所述至少一种元素属性对应的元素质量数据,确定所述信息元素为待处理的信息元素。
示例8可包括示例1-示例7一个或多个所述的方法,其中,在所述基于所述至少一种元素属性和相关性数据,确定所述内容信息中待处理的信息元素之前,所述方法还包括:
确定所述内容信息的内容质量数据;
判定所述内容质量数据满足设定范围、则确定所述内容信息中包括待处理的信息元素。
示例9可包括示例1-示例8一个或多个所述的方法,其中,所述确定所述内容信息的内容质量数据包括:
根据所述至少一种元素属性,确定所述信息元素的元素质量数据;
综合各个信息元素的元素质量数据及其与相关的信息元素的相关性数据,确定所述内容信息的内容质量数据。
示例10可包括示例1-示例9一个或多个所述的方法,其中,在所述确定所述内容信息的内容质量数据之前,所述方法还包括:
根据上一次处理后的信息元素,确定处理后信息元素的元素属性和信息元素之间的相关性数据,以便更新所述内容信息的内容质量数据。
示例11可包括示例1-示例10一个或多个所述的方法,其中,在所述对所述待处理的信息元素进行处理之前,所述方法还包括:
判定对所述待处理的信息元素的处理次数未达到设定次数。
示例12可包括示例1-示例11一个或多个所述的方法,其中,所述对所述待处理的信息元素进行处理包括:删除处理、替换处理、添加处理中至少一种。
示例13可包括示例1-示例12一个或多个所述的方法,其中,在所述对所述待处理的信息元素进行处理之前,所述方法还包括:
根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案。
示例14可包括示例1-示例13一个或多个所述的方法,其中,所述根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案包括:
当所述待处理的信息元素为根据所述至少一种元素属性对应的元素质量数据确定的信息元素时,或者当所述待处理的信息元素为根据所述信息元素与多个相关的信息元素的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括删除处理。
示例15可包括示例1-示例14一个或多个所述的方法,其中,所述根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案包括:
当所述待处理的信息元素为根据所述信息元素与目标信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括替换处理。
示例16可包括示例1-示例15一个或多个所述的方法,其中,所述替换处理包括:
从与所述待处理的信息元素相关的第一信息元素中提取第一关键词;
从所述内容信息中的目标信息元素中提取目标关键词;
基于所述第一关键词、目标关键词和预设信息库,生成替换信息元素。
示例17可包括示例1-示例16一个或多个所述的方法,其中,所述第一关键词与目标关键词具有对应的权重,所述目标信息元素的目标关键词的权重大于第一信息元素的第一关键词的权重。
示例18可包括示例1-示例17一个或多个所述的方法,其中,所述根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案包括:
当所述待处理的信息元素为根据所述信息元素与除目标信息元素外的第二信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括添加处理。
示例19可包括示例1-示例18一个或多个所述的方法,其中,所述添加处理包括:
在所述待处理的信息元素和相关的第二信息元素之间添加第三信息元素。
示例20可包括示例1-示例19一个或多个所述的方法,其中,在所述在所述待处理的信息元素和相关的第二信息元素之间添加第三信息元素之前,所述方法还包括:
从所述待处理的信息元素、相关的第二信息元素以及目标信息元素中,提取第二关键词;
基于所述第二关键词和预设信息库,生成所述第三信息元素。
示例21包括一种图文内容处理方法,包括:
接收客户端提交的图文内容,所述图文内容包括文本或图片或视频中的至少一种;
利用内容质量模型对所述图文内容进行质量评价,得到所述图文内容的质量评价结果;
基于所述质量评价结果,确定所述图文内容的改编方案。
示例22可包括示例21所述的方法,其中,所述内容质量模型为基于文本质量、图片质量、视频质量、关系网络相关性特征、热度特征中的至少一种,建立的内容质量模型。
示例23可包括示例21和/或示例22所述的方法,其中,所述方法还包括:
将确定的所述改编方案提供给用户;
接收所述用户对所述改编方案的接受反馈信息,对所述图文内容进行对应的修改。
示例24可包括示例21-示例23一个或多个所述的方法,其中,在所述对所述图文内容进行对应的修改之后,所述方法还包括:
提供修改前后的对比,以供所述用户确认。
示例25包括一种图文内容处理方法,包括:
提交待发布的图文内容;
接收针对所述图文内容的改编方案,所述改编方案是利用内容质量模型对所述待发布的图文内容进行质量评价得到的质量评价结果,并基于所述质量评价结果确定改编方案;
显示所述改编方案。
示例26可包括示例25所述的方法,其中,所述方法还包括:
提交对所述改编方案的接受反馈信息。
示例27包括一种内容信息处理装置,包括:
属性解析模块,用于从内容信息中解析出信息元素,以及所述信息元素的至少一种元素属性;
数据确定模块,用于识别相关的信息元素,确定所述相关的信息元素之间的相关性数据;
元素确定模块,用于基于所述至少一种元素属性和/或相关性数据,确定所述内容信息中待处理的信息元素;
处理模块,用于对所述待处理的信息元素进行处理。
示例28可包括示例27所述的装置,其中,所述属性解析模块包括:
属性解析子模块,用于获取信息元素的元素表征数据,将所述元素表征数据与预设属性条件的比较结果作为所述信息元素的元素属性。
示例29可包括示例27和/或示例28所述的装置,其中,所述数据确定模块包括:
信息识别子模块,用于识别所述信息元素所包括的含义信息;
相关确定子模块,用于根据所述内容信息的内容结构,确定相关的信息元素;
比对子模块,用于对所述相关的信息元素的含义信息进行比对,得到所述信息元素之间的相关性数据。
示例30可包括示例27-示例29一个或多个所述的装置,其中,所述信息元素包括图片信息元素或视频信息元素,所述含义信息包括对象含义信息,所述信息识别子模块包括:
对象检测单元,用于检测所述图片信息元素或视频信息元素中包括的目标对象的类别及其数量,得到对象含义信息。
示例31可包括示例27-示例30一个或多个所述的装置,其中,所述含义信息包括描述含义信息,所述信息识别子模块还包括:
类别确定单元,用于确定所述目标对象的类别包括预设类别;
信息识别单元,用于识别预设类别的目标对象的描述信息,得到描述含义信息。
示例32可包括示例27-示例31一个或多个所述的装置,其中,所述比对子模块包括:
关键词提取单元,用于提取所述文本信息元素的含义信息中的信息关键词;
替换单元,用于采用所述信息关键词替换所述含义信息。
示例33可包括示例27-示例32一个或多个所述的装置,其中,所述元素确定模块包括:
元素确定子模块,用于根据所述至少一种元素属性对应的元素质量数据,确定所述信息元素为待处理的信息元素。
示例34可包括示例27-示例33一个或多个所述的装置,其中,所述装置还包括:
内容质量数据确定模块,用于在所述基于所述至少一种元素属性和相关性数据,确定所述内容信息中待处理的信息元素之前,确定所述内容信息的内容质量数据;
质量判定模块,用于判定所述内容质量数据满足设定范围、则确定所述内容信息中包括待处理的信息元素。
示例35可包括示例27-示例34一个或多个所述的装置,其中,所述内容质量数据确定模块包括:
质量数据确定子模块,用于根据所述至少一种元素属性,确定所述信息元素的元素质量数据;
数据综合子模块,用于综合各个信息元素的元素质量数据及其与相关的信息元素的相关性数据,确定所述内容信息的内容质量数据。
示例36可包括示例27-示例35一个或多个所述的装置,其中,所述装置还包括:
确定模块,用于在所述确定所述内容信息的内容质量数据之前,根据上一次处理后的信息元素,确定处理后信息元素的元素属性和信息元素之间的相关性数据,以便更新所述内容信息的内容质量数据。
示例37可包括示例27-示例36一个或多个所述的装置,其中,所述装置还包括:
次数判定模块,用于在所述对所述待处理的信息元素进行处理之前,判定对所述待处理的信息元素的处理次数未达到设定次数。
示例38可包括示例27-示例37一个或多个所述的装置,其中,所述对所述待处理的信息元素进行处理包括:删除处理、替换处理、添加处理中至少一种。
示例39可包括示例27-示例38一个或多个所述的装置,其中,所述装置还包括:
处理方案确定模块,用于在所述对所述待处理的信息元素进行处理之前,根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案。
示例40可包括示例27-示例39一个或多个所述的装置,其中,所述处理方案确定模块包括:
删除处理确定子模块,用于当所述待处理的信息元素为根据所述至少一种元素属性对应的元素质量数据确定的信息元素时,或者当所述待处理的信息元素为根据所述信息元素与多个相关的信息元素的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括删除处理。
示例41可包括示例27-示例40一个或多个所述的装置,其中,所述处理方案确定模块包括:
替换处理确定子模块,用于当所述待处理的信息元素为根据所述信息元素与目标信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括替换处理。
示例42可包括示例27-示例41一个或多个所述的装置,其中,所述处理模块包括:
第一提取子模块,用于关键词从与所述待处理的信息元素相关的第一信息元素中提取第一关键词;
第二提取子模块,用于从所述内容信息中的目标信息元素中提取目标关键词;
元素生成子模块,用于基于所述第一关键词、目标关键词和预设信息库,生成替换信息元素。
示例43可包括示例27-示例42一个或多个所述的装置,其中,所述第一关键词与目标关键词具有对应的权重,所述目标信息元素的目标关键词的权重大于第一信息元素的第一关键词的权重。
示例44可包括示例27-示例43一个或多个所述的装置,其中,所述处理方案确定模块包括:
添加处理确定子模块,用于当所述待处理的信息元素为根据所述信息元素与除目标信息元素外的第二信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括添加处理。
示例45可包括示例27-示例44一个或多个所述的装置,其中,所述处理模块包括:
添加处理子模块,用于在所述待处理的信息元素和相关的第二信息元素之间添加第三信息元素。
示例46可包括示例27-示例45一个或多个所述的装置,其中,所述装置还包括:
第三提取模块,用于在所述在所述待处理的信息元素和相关的第二信息元素之间添加第三信息元素之前,从所述待处理的信息元素、相关的第二信息元素以及目标信息元素中,提取第二关键词;
第三元素生成模块,用于基于所述第二关键词和预设信息库,生成所述第三信息元素。
示例47包括一种图文内容处理装置,包括:
内容接收模块,用于接收客户端提交的图文内容,所述图文内容包括文本或图片或视频中的至少一种;
质量评价模块,用于利用内容质量模型对所述图文内容进行质量评价,得到所述图文内容的质量评价结果;
方案确定模块,用于基于所述质量评价结果,确定所述图文内容的改编方案。
示例48可包括示例47所述的装置,所述内容质量模型为基于文本质量、图片质量、视频质量、关系网络相关性特征、热度特征中的至少一种,建立的内容质量模型。
示例49可包括示例47和/或示例48所述的装置,其中,所述装置还包括:
方案提供模块,用于将确定的所述改编方案提供给用户;
修改模块,用于接收所述用户对所述改编方案的接受反馈信息,对所述图文内容进行对应的修改。
示例50可包括示例47-示例49一个或多个所述的装置,其中,所述装置还包括:
对比提供模块,用于在所述对所述图文内容进行对应的修改之后,提供修改前后的对比,以供所述用户确认。
示例51包括一种图文内容处理装置,包括:
内容提交模块,用于提交待发布的图文内容;
方案接收模块,用于接收针对所述图文内容的改编方案,所述改编方案是利用内容质量模型对所述待发布的图文内容进行质量评价得到的质量评价结果,并基于所述质量评价结果确定改编方案;
方案显示模块,用于显示所述改编方案。
示例52可包括示例51所述的装置,所述装置还包括:
信息提交模块,用于提交对所述改编方案的接受反馈信息。
示例53包括一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如示例1-26一个或多个的方法。
示例54包括一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如示例1-26一个或多个的方法。
虽然某些实施例是以说明和描述为目的的,各种各样的替代、和/或、等效的实施方案、或计算来达到同样的目的实施例示出和描述的实现,不脱离本申请的实施范围。本申请旨在覆盖本文讨论的实施例的任何修改或变化。因此,显然本文描述的实施例仅由权利要求和它们的等同物来限定。

Claims (28)

1.一种内容信息处理方法,其特征在于,包括:
从内容信息中解析出信息元素,以及所述信息元素的至少一种元素属性;
识别相关的信息元素,确定所述相关的信息元素之间的相关性数据;
基于所述至少一种元素属性和/或相关性数据,确定所述内容信息中待处理的信息元素;
对所述待处理的信息元素进行处理。
2.根据权利要求1所述的方法,其特征在于,所述从内容信息中解析出信息元素,以及所述信息元素的至少一种元素属性包括:
获取信息元素的元素表征数据,将所述元素表征数据与预设属性条件的比较结果作为所述信息元素的元素属性。
3.根据权利要求1所述的方法,其特征在于,所述识别相关的信息元素,确定所述相关的信息元素之间的相关性数据包括:
识别所述信息元素所包括的含义信息;
根据所述内容信息的内容结构,确定相关的信息元素;
对所述相关的信息元素的含义信息进行比对,得到所述信息元素之间的相关性数据。
4.根据权利要求3所述的方法,其特征在于,所述信息元素包括图片信息元素或视频信息元素,所述含义信息包括对象含义信息,所述识别所述信息元素所包括的含义信息包括:
检测所述图片信息元素或视频信息元素中包括的目标对象的类别及其数量,得到对象含义信息。
5.根据权利要求4所述的方法,其特征在于,所述含义信息包括描述含义信息,所述识别所述信息元素所包括的含义信息还包括:
确定所述目标对象的类别包括预设类别;
识别预设类别的目标对象的描述信息,得到描述含义信息。
6.根据权利要求3所述的方法,其特征在于,所述对所述相关的信息元素的含义信息进行比对,得到所述信息元素之间的相关性数据包括:
提取所述文本信息元素的含义信息中的信息关键词;
采用所述信息关键词替换所述含义信息。
7.根据权利要求1所述的方法,其特征在于,所述基于所述至少一种元素属性,确定所述内容信息中待处理的信息元素包括:
根据所述至少一种元素属性对应的元素质量数据,确定所述信息元素为待处理的信息元素。
8.根据权利要求1所述的方法,其特征在于,在所述基于所述至少一种元素属性和相关性数据,确定所述内容信息中待处理的信息元素之前,所述方法还包括:
确定所述内容信息的内容质量数据;
判定所述内容质量数据满足设定范围、则确定所述内容信息中包括待处理的信息元素。
9.根据权利要求8所述的方法,其特征在于,所述确定所述内容信息的内容质量数据包括:
根据所述至少一种元素属性,确定所述信息元素的元素质量数据;
综合各个信息元素的元素质量数据及其与相关的信息元素的相关性数据,确定所述内容信息的内容质量数据。
10.根据权利要求9所述的方法,其特征在于,在所述确定所述内容信息的内容质量数据之前,所述方法还包括:
根据上一次处理后的信息元素,确定处理后信息元素的元素属性和信息元素之间的相关性数据,以便更新所述内容信息的内容质量数据。
11.根据权利要求1所述的方法,其特征在于,在所述对所述待处理的信息元素进行处理之前,所述方法还包括:
判定对所述待处理的信息元素的处理次数未达到设定次数。
12.根据权利要求1所述的方法,其特征在于,所述对所述待处理的信息元素进行处理包括:删除处理、替换处理、添加处理中至少一种。
13.根据权利要求1所述的方法,其特征在于,在所述对所述待处理的信息元素进行处理之前,所述方法还包括:
根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案。
14.根据权利要求13所述的方法,其特征在于,所述根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案包括:
当所述待处理的信息元素为根据所述至少一种元素属性对应的元素质量数据确定的信息元素时,或者当所述待处理的信息元素为根据所述信息元素与多个相关的信息元素的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括删除处理。
15.根据权利要求13所述的方法,其特征在于,所述根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案包括:
当所述待处理的信息元素为根据所述信息元素与目标信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括替换处理。
16.根据权利要求12所述的方法,其特征在于,所述替换处理包括:
从与所述待处理的信息元素相关的第一信息元素中提取第一关键词;
从所述内容信息中的目标信息元素中提取目标关键词;
基于所述第一关键词、目标关键词和预设信息库,生成替换信息元素。
17.根据权利要求16所述的方法,其特征在于,所述第一关键词与目标关键词具有对应的权重,所述目标信息元素的目标关键词的权重大于第一信息元素的第一关键词的权重。
18.根据权利要求13所述的方法,其特征在于,所述根据确定所述信息元素待处理的元素属性和/或相关性数据,确定对所述待处理的信息元素的处理方案包括:
当所述待处理的信息元素为根据所述信息元素与除目标信息元素外的第二信息元素之间的相关性数据确定的信息元素时,确定对所述待处理元素的处理方案包括添加处理。
19.根据权利要求12所述的方法,其特征在于,所述添加处理包括:
在所述待处理的信息元素和相关的第二信息元素之间添加第三信息元素。
20.根据权利要求19所述的方法,其特征在于,在所述在所述待处理的信息元素和相关的第二信息元素之间添加第三信息元素之前,所述方法还包括:
从所述待处理的信息元素、相关的第二信息元素以及目标信息元素中,提取第二关键词;
基于所述第二关键词和预设信息库,生成所述第三信息元素。
21.一种图文内容处理方法,其特征在于,所述方法包括:
接收客户端提交的图文内容,所述图文内容包括文本或图片或视频中的至少一种;
利用内容质量模型对所述图文内容进行质量评价,得到所述图文内容的质量评价结果;
基于所述质量评价结果,确定所述图文内容的改编方案。
22.根据权利要求21所述的方法,其特征在于,所述内容质量模型为基于文本质量、图片质量、视频质量、关系网络相关性特征、热度特征中的至少一种,建立的内容质量模型。
23.根据权利要求21所述的方法,其特征在于,所述方法还包括:
将确定的所述改编方案提供给用户;
接收所述用户对所述改编方案的接受反馈信息,对所述图文内容进行对应的修改。
24.根据权利要求23所述的方法,其特征在于,在所述对所述图文内容进行对应的修改之后,所述方法还包括:
提供修改前后的对比,以供所述用户确认。
25.一种图文内容处理方法,其特征在于,所述方法包括:
提交待发布的图文内容;
接收针对所述图文内容的改编方案,所述改编方案是利用内容质量模型对所述待发布的图文内容进行质量评价得到的质量评价结果,并基于所述质量评价结果确定改编方案;
显示所述改编方案。
26.根据权利要求25所述的方法,其特征在于,所述方法还包括:
提交对所述改编方案的接受反馈信息。
27.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-26一个或多个的方法。
28.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-26一个或多个的方法。
CN201910301323.7A 2019-04-15 2019-04-15 内容信息处理、图文内容处理方法、计算机设备、介质 Pending CN111882371A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910301323.7A CN111882371A (zh) 2019-04-15 2019-04-15 内容信息处理、图文内容处理方法、计算机设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910301323.7A CN111882371A (zh) 2019-04-15 2019-04-15 内容信息处理、图文内容处理方法、计算机设备、介质

Publications (1)

Publication Number Publication Date
CN111882371A true CN111882371A (zh) 2020-11-03

Family

ID=73154247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910301323.7A Pending CN111882371A (zh) 2019-04-15 2019-04-15 内容信息处理、图文内容处理方法、计算机设备、介质

Country Status (1)

Country Link
CN (1) CN111882371A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613775A (zh) * 2020-12-28 2021-04-06 深圳市欢太科技有限公司 资源质量评价方法及装置、电子设备、存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753350A (zh) * 2008-12-10 2010-06-23 北大方正集团有限公司 一种信息审核方法、装置及系统
CN102314457A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 信息自动审核方法与系统
CN104021158A (zh) * 2014-05-23 2014-09-03 北京金山网络科技有限公司 网页中网页元素的调整方法、装置和移动终端
CN105654057A (zh) * 2015-12-31 2016-06-08 中国建设银行股份有限公司 基于图片内容的图片审核系统及图片审核方法
CN105956180A (zh) * 2016-05-30 2016-09-21 北京京东尚科信息技术有限公司 一种敏感词过滤方法
CN106354857A (zh) * 2016-09-06 2017-01-25 中国传媒大学 一种新闻标签管理系统
CN106897422A (zh) * 2017-02-23 2017-06-27 百度在线网络技术(北京)有限公司 文本处理方法、装置及服务器
CN106973305A (zh) * 2017-03-20 2017-07-21 广东小天才科技有限公司 一种视频中不良内容的检测方法及装置
CN107133221A (zh) * 2017-06-09 2017-09-05 北京京东尚科信息技术有限公司 信息审核方法、装置、计算机可读介质和电子设备
CN107329885A (zh) * 2017-07-21 2017-11-07 金鹏电子信息机器有限公司 一种基于图像数据特征差异性的预警方法
CN107562864A (zh) * 2017-08-30 2018-01-09 努比亚技术有限公司 一种广告屏蔽方法、移动终端及计算机可读存储介质
CN108170813A (zh) * 2017-12-29 2018-06-15 智搜天机(北京)信息技术有限公司 一种全媒体内容智能审核的方法及其系统
CN108460106A (zh) * 2018-02-06 2018-08-28 北京奇虎科技有限公司 一种识别广告视频的方法和装置
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753350A (zh) * 2008-12-10 2010-06-23 北大方正集团有限公司 一种信息审核方法、装置及系统
CN102314457A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 信息自动审核方法与系统
CN104021158A (zh) * 2014-05-23 2014-09-03 北京金山网络科技有限公司 网页中网页元素的调整方法、装置和移动终端
CN105654057A (zh) * 2015-12-31 2016-06-08 中国建设银行股份有限公司 基于图片内容的图片审核系统及图片审核方法
CN105956180A (zh) * 2016-05-30 2016-09-21 北京京东尚科信息技术有限公司 一种敏感词过滤方法
CN106354857A (zh) * 2016-09-06 2017-01-25 中国传媒大学 一种新闻标签管理系统
CN106897422A (zh) * 2017-02-23 2017-06-27 百度在线网络技术(北京)有限公司 文本处理方法、装置及服务器
CN106973305A (zh) * 2017-03-20 2017-07-21 广东小天才科技有限公司 一种视频中不良内容的检测方法及装置
CN107133221A (zh) * 2017-06-09 2017-09-05 北京京东尚科信息技术有限公司 信息审核方法、装置、计算机可读介质和电子设备
CN107329885A (zh) * 2017-07-21 2017-11-07 金鹏电子信息机器有限公司 一种基于图像数据特征差异性的预警方法
CN107562864A (zh) * 2017-08-30 2018-01-09 努比亚技术有限公司 一种广告屏蔽方法、移动终端及计算机可读存储介质
CN108170813A (zh) * 2017-12-29 2018-06-15 智搜天机(北京)信息技术有限公司 一种全媒体内容智能审核的方法及其系统
CN108460106A (zh) * 2018-02-06 2018-08-28 北京奇虎科技有限公司 一种识别广告视频的方法和装置
CN108519970A (zh) * 2018-02-06 2018-09-11 平安科技(深圳)有限公司 文本中敏感信息的鉴定方法、电子装置及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613775A (zh) * 2020-12-28 2021-04-06 深圳市欢太科技有限公司 资源质量评价方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
Li et al. Video mining: Measuring visual information using automatic methods
CN108509465B (zh) 一种视频数据的推荐方法、装置和服务器
US20210201143A1 (en) Computing device and method of classifying category of data
WO2018157746A1 (zh) 一种视频数据的推荐方法和装置
CN108255857B (zh) 一种语句检测方法及装置
CN110325986B (zh) 文章处理方法、装置、服务器及存储介质
CN110134931B (zh) 媒介标题生成方法、装置、电子设备及可读介质
US20190392082A1 (en) Comprehensive search engine scoring and modeling of user relevance
US8156119B2 (en) Smart attribute classification (SAC) for online reviews
US20190318407A1 (en) Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
TW201734901A (zh) 屬性獲取方法和裝置
US20200288204A1 (en) Generating and providing personalized digital content in real time based on live user context
US20160239865A1 (en) Method and device for advertisement classification
CN110019790B (zh) 文本识别、文本监控、数据对象识别、数据处理方法
US20160179966A1 (en) Method and system for generating augmented product specifications
US11238225B2 (en) Reading difficulty level based resource recommendation
US20160063596A1 (en) Automatically generating reading recommendations based on linguistic difficulty
CN112347244A (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN110569502A (zh) 一种违禁广告语的识别方法、装置、计算机设备及存储介质
Chen et al. Integrating information theory and adversarial learning for cross-modal retrieval
CN113570413A (zh) 广告关键词的生成方法、装置、存储介质及电子设备
CN111276149A (zh) 语音识别方法、装置、设备及可读存储介质
CN112926471A (zh) 业务单据影像内容识别方法及装置
CN112732974A (zh) 一种数据处理方法、电子设备及存储介质
Wong et al. An unsupervised method for joint information extraction and feature mining across different web sites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240301

Address after: 51 Belarusian Road, Singapore

Applicant after: Alibaba Singapore Holdings Ltd.

Country or region after: Singapore

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: ALIBABA GROUP HOLDING Ltd.

Country or region before: Cayman Islands