CN110598095B - 一种识别包含指定信息文章的方法、装置及存储介质 - Google Patents

一种识别包含指定信息文章的方法、装置及存储介质 Download PDF

Info

Publication number
CN110598095B
CN110598095B CN201910797159.3A CN201910797159A CN110598095B CN 110598095 B CN110598095 B CN 110598095B CN 201910797159 A CN201910797159 A CN 201910797159A CN 110598095 B CN110598095 B CN 110598095B
Authority
CN
China
Prior art keywords
article
identified
information
probability
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910797159.3A
Other languages
English (en)
Other versions
CN110598095A (zh
Inventor
邓强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Shenzhen Yayue Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yayue Technology Co ltd filed Critical Shenzhen Yayue Technology Co ltd
Priority to CN201910797159.3A priority Critical patent/CN110598095B/zh
Publication of CN110598095A publication Critical patent/CN110598095A/zh
Application granted granted Critical
Publication of CN110598095B publication Critical patent/CN110598095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本申请公开了一种识别包含指定信息文章的方法、装置及存储介质,涉及人工智能技术,利用人工智能中机器学习技术对指定信息进行识别,用以解决现有技术中,不能准确的识别包含有指定信息的文章的问题。该方法中,分别获取待识别文章的多段文本信息的概率得分和多个图像信息的概率得分,并根据各段文本信息和各图像信息在待识别文章中的位置排列顺序,确定待识别文章的概率得分序列,并将概率得分序列已训练的神经网络模型中确定待识别文章包含指定信息的概率。根据最终得到的概率,确定待识别文章是否为包含指定信息的文章。这样,将待识别文章的文本信息和图像信息综合起来进行整体判断,可以更加准确的识别包含有指定信息的文章。

Description

一种识别包含指定信息文章的方法、装置及存储介质
技术领域
本申请涉及识别技术领域,尤其涉及一种识别包含指定信息文章的方法、装置及存储介质。
背景技术
网络文章中包含了许多令人不想看到的信息,如广告、低俗恶心等内容,为了提高用户的观看体验,需要对网络文章进行识别过滤。
然而含有这些信息的网络文章的形式是多种多样的,可能是文字类型的网络文章、也有可能是图片类型的网络文章,还有将以上两者结合的图文类型的网络文章。在现有技术中,并不能准确的识别包含有指定信息的文章。
发明内容
本申请实施例提供了一种识别包含指定信息文章的方法、装置及存储介质,用以解决现有技术中,不能准确的识别包含有指定信息的文章的问题。
第一方面,提供一种识别包含指定信息文章的方法,包括:
获取待识别文章中的文本信息划分的多个文本信息分段,以及待识别文章中包含的各个图像的图像信息;
将所述多个文本信息分段输入已训练的文本指定信息识别模型,得到各个文本信息分段为指定信息的概率得分;
将各个图像信息输入已训练的图像指定信息识别模型,得到各个图像信息为指定信息的概率得分;
根据多个文本信息分段以及各个图像在所述文本信息中的位置排列顺序,得到所述待识别文章的概率得分序列;
将所述概率得分序列输入到已训练的神经网络模型中,获得所述待识别文章包含指定信息的概率。
第二方面,提供一种识别包含指定信息文章的装置,包括:
获取信息模块,用于获取待识别文章中的文本信息划分的多个文本信息分段,以及待识别文章中包含的各个图像的图像信息;
第一确定概率得分模块,用于将所述多个文本信息分段输入已训练的文本指定信息识别模型,得到各个文本信息分段为指定信息的概率得分;
第二确定概率得分模块,用于将各个图像信息输入已训练的图像指定信息识别模型,得到各个图像信息为指定信息的概率得分;
确定概率得分序列模块,用于根据多个文本信息分段以及各个图像在所述文本信息中的位置排列顺序,得到所述待识别文章的概率得分序列;
确定概率模块,用于将所述概率得分序列输入到已训练的神经网络模型中,获得所述待识别文章包含指定信息的概率。
在一个实施例中,所述装置还包括:
确定页面面积模块,用于确定各元素在所述待识别文章的页面面积;
确定占比模块,用于根据所述待识别文章的总高度和总页面面积,确定各元素在所述待识别文章的高度占比和页面面积占比;
第一确定特征向量模块,用于将各元素在所述待识别文章的高度、高度占比、页面面积、页面面积占比和概率得分作为各元素的特征向量;
第二确定特征向量模块,用于根据各元素的位置排列顺序,得到所述待识别文章的特征向量;
确定概率模块具体用于将所述待识别文章的特征向量输入到已训练的神经网络模型中,获得所述待识别文章包含指定信息的概率。
在一个实施例中,确定概率模块包括:
确定第一特征向量单元,用于将所述特征向量与预设数量的第一卷积核分别进行卷积计算,得到指定维度的第一特征向量;其中,不同第一卷积核的卷积参数不完全相同;以及;
确定第二特征向量单元,用于将所述特征向量输入到已训练的长短时记忆神经网络模型中,得到指定维度的第二特征向量;其中,所述第一特征向量和所述第二特征向量的维度相同;
确定拼接特征向量单元,用于将所述第一特征向量和所述第二特征向量进行拼接,得到拼接后的特征向量;
确定概率单元,用于将所述拼接后的特征向量与预设数量的第二卷积核分别进行卷积计算,获得所述待识别文章包含指定信息的概率。
在一个实施例中,所述神经网络模型通过下列模块进行训练:
确定训练样本模块,用于获取训练样本;其中,所述训练样本带有标签,所述标签为所述训练样本包含指定信息的概率;
确定样本概率模块,用于将各训练样本输入到未训练的神经网络模型中,得到各训练样本包含指定信息的概率;
优化模块,用于通过优化算法更新所述第一卷积核和所述第二卷积核中的卷积参数以及长短时记忆神经网络模型中的参数,使得各训练样本标签中的概率与通过神经网络模型得到的概率的差值在指定范围内。
在一个实施例中,所述装置还包括:
删除模块,用于确定概率得分序列模块根据多个文本信息分段以及各个图像在所述文本信息中的位置排列顺序,得到所述待识别文章的概率得分序列之后,若所述概率得分序列的长度大于预设序列长度,则删除所述概率得分序列中超出所述预设序列长度对应的概率得分;
补齐模块,用于若所述概率得分序列的长度不大于预设序列长度,则补齐所述概率得分序列中少于预设序列长度对应的概率得分。
第三方面,提供一种计算装置,包括至少一个处理单元、以及至少一个存储单元,其中,存储单元存储有计算机程序,当程序被处理单元执行时,使得处理单元执行上述任意一种识别包含指定信息文章的方法的步骤。
在一个实施例中,计算装置可以使服务器,也可以是终端设备。
第四方面,提供一种计算机可读介质,其存储有可由终端设备执行的计算机程序,当程序在终端设备上运行时,使得终端设备执行上述任意一种识别包含指定信息文章的方法的步骤。
本申请实施例提供的一种识别包含指定信息文章的方法、装置及存储介质,分别获取待识别文章的多段文本信息的概率得分和多个图像信息的概率得分,并根据各段文本信息和各图像信息在待识别文章中的位置排列顺序,确定待识别文章的概率得分序列,并将概率得分序列已训练的神经网络模型中确定待识别文章包含指定信息的概率。根据最终得到的概率,确定待识别文章是否为包含指定信息的文章。这样,将待识别文章的文本信息和图像信息综合起来进行整体判断,可以更加准确的识别包含有指定信息的文章。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中用户通过应用软件浏览网络文章的示意图;
图2为本申请实施例中识别模型训练的流程示意图;
图3为本申请实施例中终端显示网络文章的示意图;
图4为本申请实施例中分布特征示意图;
图5为本申请实施例中神经网络模型的架构图;
图6为本申请实施例中神经网络模型中LSTM模型和CNN模型关注的区域示意图;
图7为本申请实施例中识别模型训练的整体流程示意图;
图8为本申请实施例中一种识别包含指定信息文章的流程示意图;
图9为本申请实施例中一种识别包含指定信息文章的装置的结构示意图;
图10为根据本申请实施方式中终端设备结构示意图。
具体实施方式
为了解决现有技术中,不能准确的识别包含有指定信息的文章的问题,本申请实施例中提供一种识别包含指定信息文章的方法、装置及存储介质。为了更好的理解本申请实施例提供的技术方案,这里对该方案的基本原理做一下简单说明:
随着互联网的飞速发展,用户的阅读习惯逐渐从书本、杂志等纸质文章转移到网络文章中。且用户可以从很多来源浏览网络文章,如图1所示,其为用户通过应用软件浏览网络文章的示意图。其中,用户通过点击该应用软件中的看一看功能,进入浏览网络文章的页面,并根据自己的喜好浏览相应的网络文章。但是网络文章中的信息十分庞大、驳杂,包含了许多令人不想看到的信息。例如:广告信息,低俗恶心信息等内容。这样,使得用户的观看体验并不是很好,为了提高用户的观看体验,需要对网络文章进行识别过滤。
网络文章的形式是多种多样的,可能是文字类型的网络文章、也有可能是图片类型的网络文章,还有将以上两者结合的图文类型的网络文章。因此在对网络文章进行识别时,如果仅从文本上进行识别过滤,则对于图片类型的网络文章不能很好地识别;若仅从图片方面进行识别过滤,对于文字类型的网络文章将不能跟好的识别;此外,对于图文类型的网络文章来说,仅从文本或者图片方面确定识别结果包含指定信息的意图并不明显,而需要将二者结合起来才能完整准确的判断。
有鉴于此,本申请实施例提供了一种识别包含指定信息文章的方法、装置及存储介质。该方法中,分别获取待识别文章的多段文本信息的概率得分和多个图像信息的概率得分,并根据各段文本信息和各图像信息在待识别文章中的位置排列顺序,确定待识别文章的概率得分序列,并将概率得分序列已训练的神经网络模型中确定待识别文章包含指定信息的概率。根据最终得到的概率,确定待识别文章是否为包含指定信息的文章。这样,将待识别文章的文本信息和图像信息综合起来进行整体判断,可以更加准确的识别包含有指定信息的文章。
根据本申请实施例提供了一种识别包含指定信息文章的方法、装置及存储介质,可以有效地对包含指定信息的文章进行识别过滤。例如:用户在通过应用软件浏览网络文章时,并不喜欢在网络文章中看到广告。因此,应用软件向用户推荐网络文章之前,通过本申请提供的方法对待推荐的网络文章进行识别,将确定为广告文章的网络文章过滤,并将过滤后的待推荐网络文章推荐给用户。如:若获取了10篇待推荐网络文章,通过识别包含指定信息文章的方法对这10篇推荐网络文章进行识别,得到这10篇待推荐网络文章含有广告信息的概率,并将概率大于0.5的网络文章进行过滤,若有3篇网络文章的概率大于0.5,则将这3篇网络文章作为广告文章并过滤,将剩余的7篇网络文章推荐给用户。这样,可以有效地避免用户在浏览网络文章时,在网络文章中看到广告的情况。
为便于理解,下面结合附图对本申请提供的技术方案做进一步说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中,识别包含指定信息文章的方法可分为两部分,包括训练部分和识别部分;其中,训练部分就涉及到机器学习这一技术领域,在训练部分中,通过机器学习这一技术训练神经网络模型,使得网络文章通过神经网络模型后,得到该网络文章含有指定信息的概率;识别部分用于通过使用在训练部分训练的神经网络模型,对待识别的网络文章进行识别。下面对训练部分以及识别部分分别进行说明。
一、训练部分:
在本申请实施例中,为了实现准确识别网络文章中含有指定信息的操作,首先需要建立一个识别模型,并通过训练样本对该识别模型进行训练,可以识别网络文章含有指定信息的概率,如图2所示,具体可包括以下步骤:
步骤201:获取训练样本;其中,所述训练样本带有标签,所述标签为所述训练样本包含指定信息的概率。
其中,指定信息可以是广告信息、恶心低俗信息等用户在浏览文章时看到的反感的信息。当然,若为了识别一些特定的文章,指定信息也可以是特定信息,本申请对此不作限定。
在本申请实施例中,若训练样本为包含指定信息的文章,则该训练样本的概率为1,若训练样本为不包含指定信息的文章,则该训练样本的概率为0。
在一个实施例中,为了更准确的对含有指定信息的文章进行分类,还可以根据指定信息在网络文章中的占比确定该网络文章的概率,可根据实际情况对其进行设置,本申请对此不作限定。
步骤202:将各训练样本输入到未训练的神经网络模型中,得到各训练样本包含指定信息的概率。
在本申请实施例中,得到的训练样本包含指定信息的概率为训练样本通过未训练的神经网络模型得到的概率。
步骤203:通过优化算法更新所述第一卷积核和所述第二卷积核中的卷积参数以及长短时记忆神经网络模型中的参数,使得各训练样本标签中的概率与通过神经网络模型得到的概率的差值在指定范围内。
在本申请实施例中,确定样本标签的概率与通过神经网络模型得到的概率的差值,并通过Adam(亚当)优化算法和binary cross entropy loss(二元交叉熵损失)优化算法对神经网络模型中的参数进行修改,从而使得通过神经网络模型得到的概率发生变化,以使差值在指定范围内。若差值在指定范围内,则该神经网络模型为训练好的模型。
在本申请实施例中,第一卷积核、第二卷积核和长短时记忆神经网络模型中的参数均为神经网络模型中的参数。后面会对此进行详细介绍,在此不做赘述。
这样,通过对识别模型进行训练,可以使识别模型更加准确的确定网络文章包含指定信息的概率,从而对网络文章进行准确的识别过滤。
如上所述,在本申请实施例中,步骤302将训练样本输入到未训练的神经网络模型,得到训练样本包含指定信息的概率,具体可实施为步骤A1-A5:
步骤A1:获取训练样本中的文本信息划分的多个文本信息分段,以及待识别文章中包含的各个图像的图像信息。
在本申请实施例中,对本申请信息进行分段前,首先要对文本信息进行预处理。即,将文本信息中的标点符号、特殊字符以及英文单词去掉。例如:若得到的文本信息为“天气真不错!我们出去玩吧。”,经过预处理后得到的文本信息为“天气真不错我们出去玩吧”,即,经过预处理后的文本信息中只有文字。
在本申请实施例中,根据预设的长度对文本信息进行分段。例如,若预设的长度为100字,获取的一个训练样本的文本共有2000字,对文本信息进行分段,每一段文本信息分段包含100个字,共有20个文本信息分段。
步骤A2:将所述多个文本信息分段输入已训练的文本指定信息识别模型,得到各个文本信息分段为指定信息的概率得分。
在本申请实施例中,文本指定信息识别模型是根据文本信息中的关键词来确定文本信息的概率得分的。
步骤A3:将各个图像信息输入已训练的图像指定信息识别模型,得到各个图像信息为指定信息的概率得分。
在本申请实施例中,图像指定信息识别模型是根据图片的特征向量确定各图像的概率得分的。
在本申请实施例中,若网络文章中还可以包含视频、音频、小程序等其他类型信息,通过可以根据相应的方法确定这些信息的概率得分。
步骤A4:根据多个文本信息分段以及各个图像在所述文本信息中的位置排列顺序,得到所述训练样本的概率得分序列。
在本申请实施例中,获取网络文章中文本信息和图像信息的位置,根据位置对文本信息分段和图像进行排序。如图3所示,网络文章共有1000字,2个图像,且文章的结构为:开始为500字,接一个图像,图像后接剩下的500字,最后为第2个图像。根据文章的结构进行排序,若该网络文章共有10个文本信息分段,每段文本信息共有100字,且各文本信息分段的概率得分依次为:0.1、0.1、0.1、0、0.5、0.2、0.3、0.1、0.2、0;两个图像信息的概率得分为0.3和0.2,因此,根据该网络文章的概率得分序列为:0.1、0.1、0.1、0、0.5、0.3、0.2、0.3、0.1、0.2、0、0.2。
步骤A5:将所述概率得分序列输入到未训练的神经网络模型中,获得所述待识别文章包含指定信息的概率。
在本申请实施例中,在可以准确识别包含指定信息的文章的基础上,为了让用户了解在文章任意位置下出现指定信息的概率,本申请还可以使网络文章的指定信息的分布特征显示给用户,具体可实施为步骤B1-B3:
步骤B1:根据各文本信息分段的长度与各图像高度的对应关系,将各图像拆分为多个元素;并,将一个文本信息分段作为一个元素。
在本申请实施例中,各文本信息分段的长度与各图像高度的对应关系为预先设置的。例如:若一个图片的高度为500,一段文本信息分段的长度为125字,图像高度和文本信息分段的长度的对应关系为每125字的文本信息分段的长度对应100的图像高度,这样,可以将该图片拆分为4个元素。其中拆分的4个元素的概率得分与该图片相同。例如,若图像的概率得分为0.2,则这4个元素的概率得分均为0.2。
步骤B2:确定各元素在所述训练样本中的高度。
在本申请实施例中,将文本信息分段的长度与图像高度统一归一化到实际网络文章对应的高度。例如:每个元素的高度均为100,则可以确定每一个元素在训练样本中的高度。若一个文章共有五个元素,依序分别为:元素1、元素2、元素3、元素4和元素5,则各元素在文章中的高度为:100、200、300、400、500。
步骤B3:根据所述训练样本中各元素的高度和各元素对应的概率得分,确定所述训练样本中指定信息的分布特征。
在本申请实施例中,可通过列表的形式为用户展示网络文章的指定信息的分布特征。如表1所示,其为网络文章的指定信息的分布特征。
表1网络文章的指定信息的分布特征
这样,通过列表的形式为用户展示网络文章的指定信息的分布特征,可以让用户了解在文章任意位置下出现指定信息的概率,使用户对文章中哪部分出现指定信息的情况有了直观的了解。
在本申请实施例中,为了使用户更加直观的了解文章中出现指定信息的情况,还可以通过分布特征图进行展示。如图4所示,其为分布特征图。在图4中,共选择了6篇网络文章进行分布特征展示,在图4中,可以清楚地看到文章中出现指定信息的概率得分。
这样,在可以准确识别包含指定信息的文章的基础上,可以让用户了解在文章任意位置下出现指定信息的概率,使用户对文章中哪部分出现指定信息的情况有了直观的了解。
为了对网络文章的识别更加准确,除了根据概率得分序列得到网络文章的概率,还可以将文章中的其他参数信息与概率得分序列作为特征向量输入到神经网络模型中,得到网络文章的概率。具体可实施为步骤C1-C5:
步骤C1:确定各元素在所述待识别文章的页面面积。
在本申请实施例中,页面面积为一个元素在终端上显示的面积大小。
步骤C2:根据所述待识别文章的总高度和总页面面积,确定各元素在所述待识别文章的高度占比和页面面积占比。
步骤C3:将各元素在所述待识别文章的高度、高度占比、页面面积、页面面积占比和概率得分作为各元素的特征向量。
在本申请实施例中,还可以将各元素的类型加入到特征向量中;其中,元素的类型可包括文本类型和图像类型。例如:将文本类型作为0,图像类型作为1,并将该类型作为特征向量的一维向量。此外,还可以将其他结构特征也融入到特征向量中。例如:文章是否会跳转、是否有分节符等信息。
步骤C4:根据各元素的位置排列顺序,得到所述待识别文章的特征向量。
步骤C5:将所述待识别文章的特征向量输入到已训练的神经网络模型中,获得所述待识别文章包含指定信息的概率。
这样,通过将文章中的其他参数信息与概率得分序列作为特征向量输入到神经网络模型中,可以对网络文章的识别更加准确。
在本申请实施例中,指定信息出现的位置区域和比例大小对用户的体验也有很大差别。例如,若指定信息出现在文章的顶部,那么用户在观看文章时,点击文章之后立刻就看到了指定信息,因此很容易引起用户反感;而指定信息出现在文章的尾部时,用户在观看文章时,看到指定信息比较容易接受。因此,为了在保证识别结果准确的情况下,需要删除文章一部分的概率得分,具体额可实施为:
若所述概率得分序列的长度大于预设序列长度,则删除所述概率得分序列中超出所述预设序列长度对应的概率得分。
其中,预设序列长度为预先设置的,可以是100,也可以是200,本申请对此不作限定。例如:若网络文章的概率得分序列的长度为130,而预设序列长度为100;则仅保留前100个概率得分,将后面的30个概率得分删除。这样,通过删除文章后面的概率得分,在不影响识别结果的情况下,可以更快的进行识别。
在本申请实施例中,同样地,在概率得分序列的长度不大于预设序列长度的情况下,具体可实施为:若所述概率得分序列的长度不大于预设序列长度,则补齐所述概率得分序列中少于预设序列长度对应的概率得分。
在本申请实施例中,可以用0将少于预设序列长度对应的概率得分补齐。例如:若概率得分序列的长度为80,而预设序列长度为100;则将概率得分序列相差的长度补齐到100,而多出的20个概率得分用0进行填补。这样,为了在不影响识别结果的情况下,可以更快的进行识别。
上面介绍了如何可以更加准确的对网络文章进行识别,下面对特征向量如何在神经网络模型中进行训练作进一步的说明。
在本申请实施例中,神经网络模型的架构图如图5所示,其中,多个卷积核可组成一个CNN(Convolutional Neural Networks,卷积神经网络)。在图5中,将特征向量分别输入到CNN模型和LSTM(Long Short-Term Memory,长短期记忆神经网络)模型中,从而得到多个特征向量。将获取的特征向量进行拼接,得到拼接后的特征向量,并将拼接后的特征向量通过全连接层的计算,最终得到一个概率值。
在本申请实施例中,在神经网络模型中进行的操作具体可实施为步骤D1-D4:
步骤D1:将所述特征向量与预设数量的第一卷积核分别进行卷积计算,得到指定维度的第一特征向量;其中,不同第一卷积核的卷积参数不完全相同。
步骤D2:将所述特征向量输入到未训练的长短时记忆神经网络模型中,得到指定维度的第二特征向量;其中,所述第一特征向量和所述第二特征向量的维度相同。
在本申请实施例中,以CNN模型和LSTM模型为基础构建了神经网络模型,其中,通过LSTM模型来拟合序列的连续变化趋势,而通过CNN来捕捉小段区域的异常突起。如图6所示,其为神经网络模型中LSTM模型和CNN模型关注的区域。其中,前面的方框为LSTM模型关注的区域,用以拟合序列的连续变化趋势;后面的方框为CNN模型关注的区域,用以捕捉小段区域的异常突起。当然,需要说明的是,还可以使用其他网络模型构建神经网络模型,只要可以完成本申请所要求的功能,任何网络模型都适用于本方案。
步骤D3:将所述第一特征向量和所述第二特征向量进行拼接,得到拼接后的特征向量。
其中,特征向量的拼接是将得到的多个特征向量前后拼接起来。
步骤D4:将所述拼接后的特征向量与预设数量的第二卷积核分别进行卷积计算,获得所述训练样本包含指定信息的概率。
在本申请实施例中,第二卷积核为全连接层中的参数,图5未示出,用以计算网络文章的概率。
这样,以CNN模型和LSTM模型为基础构建的神经网络模型,可以关注到概率得分序列的不同方面,从而可以多方面对网络文章的概率得分进行了解。
在本申请实施例中,通过上述方法对识别模型进行训练,最终得到训练好的神经网络模型。
在介绍了训练部分中各模块的功能之后,下面整体的对训练流程进行说明。如图7所示,其为识别模型训练的流程示意图。其中,将网络文章分为文本信息和图像信息,并对文本信息进行分段,得到各片段。将文本信息的各片段输入到文本指定信息的识别模型中,得到各片段的概率得分;将图像信息中的各图像输入到图像指定信息识别模型中,得到各图像的概率得分。将各片段的概率得分和各图像的概率得分根据文章的位置排序,得到概率得分序列。并将得到概率得分序列输入到神经网络模型中,得到网络文章的概率。在得到网络文章的概率后,确定标签中的概率与通过神经网络模型得到的概率的差值,若差值没有在指定范围内,则通过优化算法对神经网络中的参数进行调整,使得差值在指定范围内,从而完成神经网络模型的训练。
二、识别部分:
在本申请实施例中,训练好识别模型后,便可以通过识别模型确定待识别文章的概率了,如图8所示,具体可包括以下步骤:
步骤801:获取待识别文章中的文本信息划分的多个文本信息分段,以及待识别文章中包含的各个图像的图像信息。
步骤802:将所述多个文本信息分段输入已训练的文本指定信息识别模型,得到各个文本信息分段为指定信息的概率得分。
步骤803:将各个图像信息输入已训练的图像指定信息识别模型,得到各个图像信息为指定信息的概率得分。
步骤804:根据多个文本信息分段以及各个图像在所述文本信息中的位置排列顺序,得到所述待识别文章的概率得分序列。
步骤805:将所述概率得分序列输入到已训练的神经网络模型中,获得所述待识别文章包含指定信息的概率。
在本申请实施例中,可将概率大于0.5的网络文章作为包含指定信息的文章。这样,将待识别文章的文本信息和图像信息综合起来进行整体判断,可以更加准确的识别包含有指定信息的文章。
在本申请实施例中,在识别出网络文章的概率的同时,还可以向用户显示网络文章的指定信息的分布特征,这样,可以让用户对于网络文章中的指定信息的概率得分的分布情况有更加直观的了解。
基于相同的发明构思,本申请实施例还提供了一种识别包含指定信息文章的装置。如图9所示,该装置包括:
获取信息模块901,用于获取待识别文章中的文本信息划分的多个文本信息分段,以及待识别文章中包含的各个图像的图像信息;
第一确定概率得分模块902,用于将所述多个文本信息分段输入已训练的文本指定信息识别模型,得到各个文本信息分段为指定信息的概率得分;
第二确定概率得分模块903,用于将各个图像信息输入已训练的图像指定信息识别模型,得到各个图像信息为指定信息的概率得分;
确定概率得分序列模块904,用于根据多个文本信息分段以及各个图像在所述文本信息中的位置排列顺序,得到所述待识别文章的概率得分序列;
确定概率模块905,用于将所述概率得分序列输入到已训练的神经网络模型中,获得所述待识别文章包含指定信息的概率。
在一个实施例中,所述装置还包括:
确定元素模块,用于根据各文本信息分段的长度与各图像高度的对应关系,将各图像拆分为多个元素;并,将一个文本信息分段作为一个元素;
确定高度模块,用于确定各元素在所述待识别文章的高度;
确定分布特征模块,用于根据所述待识别文章中各元素的高度和各元素对应的概率得分,确定所述待识别文章中指定信息的分布特征。
在一个实施例中,所述装置还包括:
确定页面面积模块,用于确定各元素在所述待识别文章的页面面积;
确定占比模块,用于根据所述待识别文章的总高度和总页面面积,确定各元素在所述待识别文章的高度占比和页面面积占比;
第一确定特征向量模块,用于将各元素在所述待识别文章的高度、高度占比、页面面积、页面面积占比和概率得分作为各元素的特征向量;
第二确定特征向量模块,用于根据各元素的位置排列顺序,得到所述待识别文章的特征向量;
确定概率模块905具体用于将所述待识别文章的特征向量输入到已训练的神经网络模型中,获得所述待识别文章包含指定信息的概率。
在一个实施例中,确定概率模块905包括:
确定第一特征向量单元,用于将所述特征向量与预设数量的第一卷积核分别进行卷积计算,得到指定维度的第一特征向量;其中,不同第一卷积核的卷积参数不完全相同;以及;
确定第二特征向量单元,用于将所述特征向量输入到已训练的长短时记忆神经网络模型中,得到指定维度的第二特征向量;其中,所述第一特征向量和所述第二特征向量的维度相同;
确定拼接特征向量单元,用于将所述第一特征向量和所述第二特征向量进行拼接,得到拼接后的特征向量;
确定概率单元,用于将所述拼接后的特征向量与预设数量的第二卷积核分别进行卷积计算,获得所述待识别文章包含指定信息的概率。
在一个实施例中,所述神经网络模型通过下列模块进行训练:
确定训练样本模块,用于获取训练样本;其中,所述训练样本带有标签,所述标签为所述训练样本包含指定信息的概率;
确定样本概率模块,用于将各训练样本输入到未训练的神经网络模型中,得到各训练样本包含指定信息的概率;
优化模块,用于通过优化算法更新所述第一卷积核和所述第二卷积核中的卷积参数以及长短时记忆神经网络模型中的参数,使得各训练样本标签中的概率与通过神经网络模型得到的概率的差值在指定范围内。
在一个实施例中,所述装置还包括:
删除模块,用于确定概率得分序列模块904根据多个文本信息分段以及各个图像在所述文本信息中的位置排列顺序,得到所述待识别文章的概率得分序列之后,若所述概率得分序列的长度大于预设序列长度,则删除所述概率得分序列中超出所述预设序列长度对应的概率得分;
补齐模块,用于若所述概率得分序列的长度不大于预设序列长度,则补齐所述概率得分序列中少于预设序列长度对应的概率得分。
本申请实施例还提供了一种计算机可读存储介质,存储为执行上述处理器所需执行的计算机可执行指令,其包含用于执行上述处理器所需执行的程序。
在一些可能的实施方式中,本申请提供的一种识别包含指定信息文章的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种识别包含指定信息文章的方法中的步骤。例如,终端设备可以执行如实施图10所示的实施例。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于一种识别包含指定信息文章的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向实体的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (7)

1.一种识别包含指定信息文章的方法,其特征在于,所述方法包括:
获取待识别文章中的文本信息划分的多个文本信息分段,以及待识别文章中包含的各个图像的图像信息;
将所述多个文本信息分段输入已训练的文本指定信息识别模型,得到各个文本信息分段为指定信息的概率得分;
将各个图像信息输入已训练的图像指定信息识别模型,得到各个图像信息为指定信息的概率得分;
根据多个文本信息分段以及各个图像在所述文本信息中的位置排列顺序,得到所述待识别文章的概率得分序列;
根据各文本信息分段的长度与各图像高度的对应关系,将各图像拆分为多个元素;并,将一个文本信息分段作为一个元素;
确定各元素在所述待识别文章的高度;根据所述待识别文章中各元素的高度和各元素对应的概率得分,确定所述待识别文章中指定信息的分布特征;
确定各元素在所述待识别文章的页面面积;根据所述待识别文章的总高度和总页面面积,确定各元素在所述待识别文章的高度占比和页面面积占比;
将各元素在所述待识别文章的高度、高度占比、页面面积、页面面积占比和概率得分作为各元素的特征向量;
根据各元素的位置排列顺序,得到所述待识别文章的特征向量;
将所述待识别文章的特征向量输入到已训练的神经网络模型中,获得所述待识别文章包含指定信息的概率。
2.根据权利要求1所述的方法,其特征在于,所述将所述待识别文章的特征向量输入到已训练的神经网络模型中,获得所述待识别文章包含指定信息的概率,包括:
将所述特征向量与预设数量的第一卷积核分别进行卷积计算,得到指定维度的第一特征向量;其中,不同第一卷积核的卷积参数不完全相同;以及,
将所述特征向量输入到已训练的长短时记忆神经网络模型中,得到指定维度的第二特征向量;其中,所述第一特征向量和所述第二特征向量的维度相同;
将所述第一特征向量和所述第二特征向量进行拼接,得到拼接后的特征向量;
将所述拼接后的特征向量与预设数量的第二卷积核分别进行卷积计算,获得所述待识别文章包含指定信息的概率。
3.根据权利要求2所述的方法,其特征在于,所述神经网络模型通过下列方式进行训练:
获取训练样本;其中,所述训练样本带有标签,所述标签为所述训练样本包含指定信息的概率;
将各训练样本输入到未训练的神经网络模型中,得到各训练样本包含指定信息的概率;
通过优化算法更新所述第一卷积核和所述第二卷积核中的卷积参数以及长短时记忆神经网络模型中的参数,使得各训练样本标签中的概率与通过神经网络模型得到的概率的差值在指定范围内。
4.根据权利要求1-3任一所述的方法,其特征在于,所述根据多个文本信息分段以及各个图像在所述文本信息中的位置排列顺序,得到所述待识别文章的概率得分序列之后,所述方法还包括:
若所述概率得分序列的长度大于预设序列长度,则删除所述概率得分序列中超出所述预设序列长度对应的概率得分;
若所述概率得分序列的长度不大于预设序列长度,则补齐所述概率得分序列中少于预设序列长度对应的概率得分。
5.一种识别包含指定信息文章的装置,其特征在于,所述装置包括:
获取信息模块,用于获取待识别文章中的文本信息划分的多个文本信息分段,以及待识别文章中包含的各个图像的图像信息;
第一确定概率得分模块,用于将所述多个文本信息分段输入已训练的文本指定信息识别模型,得到各个文本信息分段为指定信息的概率得分;
第二确定概率得分模块,用于将各个图像信息输入已训练的图像指定信息识别模型,得到各个图像信息为指定信息的概率得分;
确定概率得分序列模块,用于根据多个文本信息分段以及各个图像在所述文本信息中的位置排列顺序,得到所述待识别文章的概率得分序列;
确定元素模块,用于根据各文本信息分段的长度与各图像高度的对应关系,将各图像拆分为多个元素;并,将一个文本信息分段作为一个元素;
确定高度模块,用于确定各元素在所述待识别文章的高度;
确定分布特征模块,用于根据所述待识别文章中各元素的高度和各元素对应的概率得分,确定所述待识别文章中指定信息的分布特征;
确定页面面积模块,用于确定各元素在所述待识别文章的页面面积;
确定占比模块,用于根据所述待识别文章的总高度和总页面面积,确定各元素在所述待识别文章的高度占比和页面面积占比;
第一确定特征向量模块,用于将各元素在所述待识别文章的高度、高度占比、页面面积、页面面积占比和概率得分作为各元素的特征向量;
第二确定特征向量模块,用于根据各元素的位置排列顺序,得到所述待识别文章的特征向量;
确定概率模块,用于将所述待识别文章的特征向量输入到已训练的神经网络模型中,获得所述待识别文章包含指定信息的概率。
6.一种计算装置,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行权利要求1~4任一权利要求所述方法的步骤。
7.一种计算机可读介质,其特征在于,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述终端设备执行权利要求1~4任一所述方法的步骤。
CN201910797159.3A 2019-08-27 2019-08-27 一种识别包含指定信息文章的方法、装置及存储介质 Active CN110598095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910797159.3A CN110598095B (zh) 2019-08-27 2019-08-27 一种识别包含指定信息文章的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910797159.3A CN110598095B (zh) 2019-08-27 2019-08-27 一种识别包含指定信息文章的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110598095A CN110598095A (zh) 2019-12-20
CN110598095B true CN110598095B (zh) 2024-02-13

Family

ID=68855960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910797159.3A Active CN110598095B (zh) 2019-08-27 2019-08-27 一种识别包含指定信息文章的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110598095B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377972A (zh) * 2020-03-09 2021-09-10 北京达佳互联信息技术有限公司 多媒体内容推荐方法、装置、计算设备和存储介质
CN111552790B (zh) * 2020-04-27 2024-03-08 北京明略昭辉科技有限公司 一种识别文章刷单的方法及装置
CN112561334A (zh) * 2020-12-16 2021-03-26 咪咕文化科技有限公司 阅读对象的评分方法、装置、电子设备及存储介质
CN113743050B (zh) * 2021-09-07 2023-11-24 平安科技(深圳)有限公司 文章布局评估方法、装置、电子设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288078A (zh) * 2017-12-07 2018-07-17 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质
CN108304365A (zh) * 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法及装置
CN108595422A (zh) * 2018-04-13 2018-09-28 卓望信息技术(北京)有限公司 一种过滤不良彩信的方法
CN109005145A (zh) * 2018-06-04 2018-12-14 上海交通大学 一种基于自动特征抽取的恶意url检测系统及其方法
CN109271477A (zh) * 2018-09-05 2019-01-25 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统
US10223616B1 (en) * 2018-06-30 2019-03-05 Figleaf Limited System and method identification and classification of internet advertising

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304365A (zh) * 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法及装置
CN108288078A (zh) * 2017-12-07 2018-07-17 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质
CN108595422A (zh) * 2018-04-13 2018-09-28 卓望信息技术(北京)有限公司 一种过滤不良彩信的方法
CN109005145A (zh) * 2018-06-04 2018-12-14 上海交通大学 一种基于自动特征抽取的恶意url检测系统及其方法
US10223616B1 (en) * 2018-06-30 2019-03-05 Figleaf Limited System and method identification and classification of internet advertising
CN109271477A (zh) * 2018-09-05 2019-01-25 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于深度学习与Labeled-LDA的文本分类方法;庞宇明;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;2018年(第03期);I138-2153 *

Also Published As

Publication number Publication date
CN110598095A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110598095B (zh) 一种识别包含指定信息文章的方法、装置及存储介质
US10459995B2 (en) Search engine for processing image search queries in multiple languages
CN104219559B (zh) 在视频内容中投放不明显叠加
US11275815B2 (en) System and method for integrating user feedback into website building system services
CN110390033B (zh) 图像分类模型的训练方法、装置、电子设备及存储介质
CN111159341B (zh) 基于用户投资理财偏好的资讯推荐方法及装置
CN110796204A (zh) 视频标签确定方法、装置和服务器
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
CN110738059B (zh) 一种文本相似度计算方法及系统
CN111400586A (zh) 群组展示方法、终端、服务器、系统及存储介质
US20230214423A1 (en) Video generation
CN111625715A (zh) 信息提取方法、装置、电子设备及存储介质
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
US20170193333A1 (en) Analyzing and exploring images posted on social media
CN116821475A (zh) 基于客户数据的视频推荐方法、装置及计算机设备
US20230351473A1 (en) Apparatus and method for providing user's interior style analysis model on basis of sns text
CN114677165A (zh) 上下文在线广告投放方法、装置、服务器和存储介质
CN110399527B (zh) 影视推荐方法、装置及存储介质
CN107368464A (zh) 一种获取招标产品信息的方法及装置
US10783398B1 (en) Image editor including localized editing based on generative adversarial networks
CN113806622A (zh) 推荐方法、装置及设备
CN109040774A (zh) 一种节目信息提取方法、终端设备及服务器
CN111797257B (zh) 基于词向量的图片推荐方法及相关设备
EP4266237A1 (en) Server, user terminal, and method for providing user interior decoration style analysis model on basis of sns text
CN112287184B (zh) 基于神经网络的迁移标注方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221123

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518,101

Applicant after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 35th floor, Tencent building, Keji Zhongyi Road, high tech Zone, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant