CN112667831B

CN112667831B - 素材存储方法、装置及电子设备

Info

Publication number: CN112667831B
Application number: CN202011574131.2A
Authority: CN
Inventors: 王传鹏; 符芳捷; 李腾飞; 周惠存; 陈春梅
Original assignee: Shanghai Hard Link Network Technology Co ltd
Current assignee: Shanghai Hard Link Network Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-08-05
Anticipated expiration: 2040-12-25
Also published as: CN112667831A

Abstract

本申请公开了一种素材存储方法、装置及电子设备，所述方法包括：获取素材库中的各素材；根据新增期对各素材进行分类，形成处于新增期的各第一类素材，以及处于非新增期的各第二类素材，其中，新增期为素材首次存储至素材库的预设时段内；对各第一类素材通过第一OCR模型进行文字识别，对各第二类素材通过第二OCR模型进行文字识别，获取文本信息集，其中，第一OCR模型的模型小于第二OCR模型，文本信息集包括与各第一类素材一一对应的各第一类文本信息，和与各第二类素材一一对应的各第二类文本信息；将文本信息集中的各文本信息与多个预设词条进行相似度匹配，根据匹配结果从各第一类素材和各第二类素材中筛选出可用素材，将各可用素材存储到素材库中。

Description

素材存储方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，特别涉及一种素材存储方法、装置及电子设备。

背景技术

在互联网媒体平台上进行广告投放时，为避免广告内容出现敏感信息，通常需要定期对素材库中的广告素材进行过滤筛选后再进行存储。为避免素材存储出现遗漏，现有技术中，在利用轻量的ocr模型进行初步过滤后，通过yolo3+crnn进行二次过滤后存储，以实现敏感素材的过滤。由于二次过滤的输入信息，是初步过滤的输出结果，时间上呈因果关系，因此未被过滤的素材的过滤耗时均为两次过滤耗时的总和，在进行多素材过滤存储时，无法根据素材的实时性要求和历史筛选情况进行调整，计算机资源调度效率差，对多素材进行过滤时效率低。

发明内容

本申请的目的在于至少解决现有技术中存在的技术问题之一，提供一种素材存储方法、装置以及电子设备，提高对多素材的过滤效率。

本申请实施例提供一种素材存储方法，包括：

获取素材库中的各素材；

根据新增期对各素材进行分类，形成处于新增期的各第一类素材，以及处于非新增期的各第二类素材，其中，所述新增期为所述素材首次存储至所述素材库的预设时段内；

对各所述第一类素材通过第一OCR模型进行文字识别，对各所述第二类素材通过第二OCR模型进行文字识别，获取文本信息集，其中，所述第一OCR模型的模型小于所述第二OCR模型，所述文本信息集包括与各所述第一类素材一一对应的各第一类文本信息，以及与各所述第二类素材一一对应的各第二类文本信息；

将所述文本信息集中的各文本信息与预设文本信息集中的多个预设词条进行相似度匹配，根据相似度匹配结果从各所述第一类素材和各所述第二类素材中筛选出各可用素材，将各所述可用素材存储到所述素材库中。

进一步的，所述获取素材库中的各素材，包括：

异步调用所述素材库中的各素材。

进一步的，所述对各所述第一类素材通过第一OCR模型进行文字识别，以及对各所述第二类素材通过第二OCR模型进行文字识别，包括：

对各所述第一类素材通过第一OCR模型进行文字识别，以及并行地对各所述第二类素材通过第二OCR模型进行文字识别。

进一步的，所述素材的素材类型包括图片素材和视频素材；

对各所述第一类素材通过第一OCR模型进行文字识别，包括：

对各所述第一类素材中的所述视频素材进行切帧，同时对由各第一类素材中的图片素材以及帧图像形成的图片素材集通过第一OCR模型进行文字识别。

进一步的，所述将所述文本信息集中的各文本信息与预设文本信息集中的多个预设词条进行相似度匹配，包括：

根据语料库对各所述第一类文本信息以及各所述第二类文本信息进行分词处理，获取多个对象分词；

将所述多个对象分词与所述语料库的多个预设词条进行相似度匹配。

进一步的，所述根据语料库对各所述第一类文本信息以及各所述第二类文本信息进行分词处理，获取多个对象分词，包括：

根据语料库对各所述第一类文本信息以及各所述第二类文本信息进行新词识别，获取N个新词，其中，所述新词由在各历史文本信息中以相邻文字组合出现的频次超过预设频次的至少两个单字组成，N≥0；

根据所述N个新词更新所述语料库；

根据更新后的所述语料库，对各所述第一类文本信息以及各所述第二类文本信息进行分词处理，获取多个所述对象分词。

进一步的，与所述相邻文字组合相邻的单字的变化频率大于预设频率。

进一步的，所述根据相似度匹配结果从各所述第一类素材和所述第二类素材中筛选出各可用素材，将各所述可用素材存储到所述素材库中，包括：

从各所述第一类素材和所述第二类素材中筛选出与所述多个预设词条的相似度小于预设阈值的各所述可用素材；

根据各所述可用素材的标签，将各所述可用素材分类存储到所述素材库中，所述标签在所述素材首次存储至所述素材库时形成。

进一步的，所述将各所述可用素材存储到所述素材库中，包括：

对所述可用素材的长像素和宽像素中满足预设标记策略的图像属性进行标记，其中，所述预设标记策略包括对所述可用素材的长像素和宽像素中像素值较大的一项所述图像属性进行标记；

根据被标记的所述图像属性，从目标广告位的多个基础属性中获取对应的目标基础属性，其中，多个所述基础属性包括所述目标广告位的长度属性和宽度属性，所述长度属性与所述长像素对应，所述宽度属性与所述宽像素对应；

根据被标记的所述图像属性与所述目标基础属性的属性比例，对所述可用素材进行等比缩放后，将等比缩放后的所述可用素材存储到所述素材库中。

进一步的，在本申请实施例中，还提供了一种素材存储装置，包括：

素材获取模块，用于获取素材库中的各素材；

素材分类模块，用于根据新增期对各素材进行分类，形成处于新增期的各第一类素材，以及处于非新增期的各第二类素材，其中，所述新增期为所述素材首次存储至所述素材库的预设时段内；

素材处理模块，用于对各所述第一类素材通过第一OCR模型进行文字识别，对各所述第二类素材通过第二OCR模型进行文字识别，获取文本信息集，其中，所述第一OCR模型的模型小于所述第二OCR模型，所述文本信息集包括与各所述第一类素材一一对应的各第一类文本信息，以及与各所述第二类素材一一对应的各第二类文本信息；

素材存储模块，用于将所述文本信息集中的各文本信息与预设文本信息集中的多个预设词条进行相似度匹配，根据相似度匹配结果从各所述第一类素材和各所述第二类素材中筛选出各可用素材，将各所述可用素材存储到所述素材库中。

进一步的，本申请实施例提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的素材存储方法。

进一步的，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述实施例所述的素材存储方法。

相比于现有技术，上述实施例通过将素材库中各素材依据存储时间分为新增期的第一类素材和非新增期的第二类素材，对第一类素材采用较小的第一OCR模型进行文字识别，对第二类素材采用较大的第二OCR模型进行文字识别，并将得到的所有文本信息与预设词条进行相似度匹配，筛选出可用素材存储到素材库中，使得对于有实时性要求的第一类素材能够进行快速筛选，对于没有实时性要求的且已经进行过快速筛选后存储在素材库中的第二类素材进行调取，并进行更进一步的筛选，进行计算机资源的合理调度，提高对多素材进行过滤的效率。

上述实施例中通过异步调用的方式获取素材库中的各素材，使得无需等待前一素材的过滤结果即可进行后一素材的过滤，更加高效地调度计算机资源，提高过滤的效率。

上述实施例中第一类素材通过第一OCR模型进行文字识别和第二类素材通过第二OCR模型进行文字识别以并行的方式进行，能够同时进行各种素材的筛选，更加高效地调度计算机资源，更进一步地提高过滤的效率。

上述实施例中素材包括图片素材和视频素材，通过对视频素材进行切帧处理形成图片素材，能够与图片素材一并通过第一OCR模型进行文字识别，使得视频素材也能进行筛选过滤，并且能够与图片素材同时进行筛选，更好地对各类素材进行筛选处理。

上述实施例通过对文本信息进行分词处理，并将获取的对象分词与语料库的多个预设词条进行相似度匹配来进行文本信息内容的筛选，进一步对文本信息内容进行了筛选，提高了筛选过滤的准确性。

上述实施例在对文本信息进行分词的过程中先对新词进行识别，并且对新词出现频率以及与新词相邻单字的变化频率进行了限定，使得在分词过程中对符合限定条件的新词进行考虑并获取，并依据新词对语料库进行更新，使得分词后获取词条的范围更大，能够避免遗漏新词造成误差过大，从而筛选过滤的准确度。

上述实施例通过对新词相邻单字的变化频率进行限定，能够更加准确地确定相应文字组合是否为新词，提高新词获取的准确度。

上述实施例通过设置与预设词条相似度的预设阈值来筛选得到可用素材，能够更好地限定筛选过滤的条件，提升筛选过滤效果，并在可用素材首次存储到素材库时形成相应标签，使得能够依据标签从素材库中获取相应素材以及对素材进行分类，提升可用素材存储和获取的效率。

上述实施例在获取可用素材的过程中，对可用素材中长像素和宽像素中像素较大的一个图像属性进行标记，根据标记的图像属性以及获取的对应的广告位的基础属性得到属性比例，根据该属性比例对可用素材进行等比缩放，截取等比缩放后的图像区域来更新可用素材，能够使的可用素材的长像素和宽像素缩放比例一致，不容易变形和失真，并且能够使可用素材的内容完整显示，避免对可用素材的显示质量造成影响。

附图说明

下面结合附图和实施例对本申请进一步地说明；

图1为一个实施例中素材存储方法的应用环境图；

图2为一个实施例中素材存储方法的流程示意图；

图3为一个实施例中素材存储装置的结构框图；

图4为又一个实施例中素材存储装置的结构框图；

图5为一个实施例中计算机设备的结构框图。

具体实施方式

本部分将详细描述本申请的具体实施例，本申请之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本申请的每个技术特征和整体技术方案，但其不能理解为对本申请保护范围的限制。

在互联网媒体平台上进行广告投放时，为避免广告内容出现敏感信息，通常需要定期对素材库中的广告素材进行过滤筛选后再进行存储。为避免素材存储出现遗漏，现有技术中，在利用轻量的ocr模型进行初步过滤后，通过yolo3+crnn进行二次过滤后存储，以实现敏感素材的过滤。由于二次过滤的输入信息，是初步过滤的输出结果，时间上呈因果关系，因此未被过滤的素材的过滤耗时均为两次过滤耗时的总和，在进行多素材过滤存储时，无法根据素材的实时性要求和历史筛选情况进行调整，计算机资源调度效率差，对多素材进行过滤时效率低。其中，广告素材可以为图片或者视频，素材库为存储有各种各样广告素材的数据库，OCR模型指的是用于进行OCR(Optical Character Recognition，光学字符识别)的模型，对于图片，OCR模型中可以采用CTPN、EAST、CRAFT、DBNet或者ABCNet等算法进行文字识别。

为了解决上述技术问题，如图1所示，是一个实施例中素材存储方法的应用环境图。参照图1，该素材存储系统包括用户终端110和服务器120。用户终端110和服务器120通过网络连接。用户终端110具体可以是台式用户终端。用户终端110可以用独立的用户终端或者是多个用户终端组成的用户终端集群来实现。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

下面，将通过几个具体的实施例对本申请实施例提供的素材存储方法进行详细介绍和说明。

如图2所示，在一个实施例中，提供了一种素材存储方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备具体可以是上述图1中的服务器120。

参照图2，该素材存储方法具体包括如下步骤：

S11、获取素材库中的各素材。

在本实施例中，服务器从素材库中获取各素材，其中，素材可以为图片或者视频，素材库为存储有各素材的数据库，数据库的数量不定。服务器从数据库调取素材时，调取方式可以为，对素材进行逐个调取并且在获取所调取的素材的处理结果后再进行下一个素材的调取；或者，对多个素材按顺序或者随机进行调取，在获取所调取的多个素材的处理结果后再进行后续多个素材的调取。并且服务器从素材库中调取素材的可以在素材库新增素材时进行调取；或者，在连续或不连续的时间段中进行调取。从数据库中调取相关数据的方式属于现有技术，在本实施例中不做具体限定。

在一个实施例中，获取素材库中的各素材，包括：

异步调用素材库中的各素材。

异步调用为无需等待被调用函数的返回值就让操作继续进行的方式，因此在本实施例中，服务器采用异步调用的方式调取素材库中的各素材，即服务器可以逐个调取素材并且无需获取所调取的素材的处理结果即可进行下一个素材的调取；或者，服务器可以对多个素材按顺序或者随机进行调取，并且无需获取所调取的多个素材的处理结果即可进行后续多个素材的调取。

在本实施例中，通过异步调用的方式获取素材库中的各素材，使得无需等待前一素材的过滤结果即可进行后一素材的过滤，更加高效地调度计算机资源，提高过滤的效率。

S12、根据新增期对各素材进行分类，形成处于新增期的各第一类素材，以及处于非新增期的各第二类素材，其中，新增期为素材首次存储至素材库的预设时段内。

在本实施例中，服务器根据素材首次存储到素材库的素材库的时间来确定素材是否处于新增期，其中，新增期为以素材首次存储到素材库的时间起算的一段时间，该段时间长度可以通过设定方式确定。第一类素材指的是处于新增期的素材，第二类素材指的是处于非新增期的素材。

服务器根据素材是否处于新增期来区分素材为第一类素材还是第二类素材。

S13、对各第一类素材通过第一OCR模型进行文字识别，对各第二类素材通过第二OCR模型进行文字识别，获取文本信息集，其中，第一OCR模型的模型小于第二OCR模型，文本信息集包括与各第一类素材一一对应的各第一类文本信息，以及与各第二类素材一一对应的各第二类文本信息。

其中，第一OCR模型和第二OCR模型均指的是对素材进行文字识别的模型，而第一OCR模型的总模型大小小于第二OCR模型的总模型大小，也就是第一OCR模型相较于第二OCR模型较为轻量，文字识别速度更快，但准确率稍差。并且轻量OCR模型，即第一OCR模型对于常规印刷字体的识别效果很好，但对于草书、隶书等书法字体的识别效果比较一般。

因此，在本实施例中，服务器先对各第一类素材进行文字识别，即对处在新增期内的素材，采用第一OCR模型进行文字识别，识别后得到对应的由若干计算机文字组成的第一文本信息集，其中，第一文本信息集中包括与各第一类素材一一对应的各文本信息，例如，第一类素材包括两个图片，第一个图片中有文字“欢迎加入”，第二个图片中有文字“下次继续”，两个图片通过总模型大小为8.6M的第一OCR模型文字识别后，得到对应的文本信息分别为“欢迎加入”和“下次继续”，这两个文本信息共同组成第一文本信息集。

在对第一类素材进行文字识别后，服务器再对处于非新增期内的素材，即第二类素材，采用第二OCR模型进行文字识别，识别后得到对应的由若干计算机文字组成的第二文本信息集，其中，第二文本信息集中包括与各第二类素材一一对应的各文本信息，例如，第二类素材包括两个图片，第一个图片中有文字“充值成功”，第二个图片中有文字“继续充值”，两个图片通过总模型大小为20M的第二OCR模型文字识别后，得到对应的文本信息分别为“充值成功”和“继续充值”，这两个文本信息共同组成第二文本信息集。第一文本信息集与第二文本信息集组成文本信息集，如组成的文本信息集中包括“欢迎加入”、“下次继续”、“充值成功”以及“继续充值”四组文字。

在一个实施例中，对各第一类素材通过第一OCR模型进行文字识别，以及对各第二类素材通过第二OCR模型进行文字识别，包括：

对各第一类素材通过第一OCR模型进行文字识别，以及并行地对各第二类素材通过第二OCR模型进行文字识别。

在本实施例中，对于服务器采用第一OCR模型对各第一类素材进行文字识别的过程，以及服务器采用第二OCR模型对第二类素材进行文字识别的过程，采用并行处理的方式进行，即服务器在采用第一OCR模型对各第一类素材进行文字识别的同时，也采用第二OCR模型对第二类素材进行文字识别。

例如，第一类素材包括两个图片，图片1中有文字“欢迎加入”，图片2中有文字“下次继续”，第二类素材包括两个图片，图片3中有文字“充值成功”，图片4中有文字“继续充值”，此时，服务器通过总模型大小为8.6M的第一OCR模型对图片1和图片2进行识别，同时，服务器通过总模型大小为20M的第二OCR模型对图片3和图片4进行识别。其中，在采用第一OCR模型对图片1和图片2进行文字识别的过程中，可以按顺序对图片1和图片2逐一进行文字识别，还可以对图片1和图片2同时进行文字识别。文字识别后得到的文本信息组成文本信息集。

在本实施例中，第一类素材通过第一OCR模型进行文字识别和第二类素材通过第二OCR模型进行文字识别以并行的方式进行，能够同时进行各种素材的筛选，更加高效地调度计算机资源，更进一步地提高过滤的效率。

在一个实施例中，素材的素材类型包括图片素材和视频素材。

对各第一类素材通过第一OCR模型进行文字识别，包括：

对各第一类素材中的视频素材进行切帧，同时对由各第一类素材中的图片素材以及帧图像形成的图片素材集通过第一OCR模型进行文字识别。

在本实施例中，当素材的素材类型为视频素材时，视频素材中包括多个图片素材，并且视频素材有根据视频中是否有字幕分为有字幕的视频素材和无字幕的视频素材，其中，无字幕的视频素材为音频素材，在本实施例中，视频素材认为是有字幕的视频素材。因此服务器需要先从第一类素材中的视频素材中获取对应的图片素材。服务器获取第一类素材中的视频素材后，对视频素材进行切帧操作，获取视频素材中各个帧图像。服务器获取图片素材后通过第一OCR模型同时对处于新增期内的图片素材以及由处于新增期内的视频素材切帧后得到的图片素材进行文字识别。文字识别后得到的文本信息组成文本信息集。

例如，第一类中的图片素材为有文字“欢迎加入”的图片，第一类素材中的视频素材为三七互娱的游戏《云上城之歌》的宣传视频，该视频时长为5秒，对该视频图像进行切帧处理，每一帧对应的时长为0.5秒，因此切帧处理后可获取包括《云上城之歌》宣传视频封面在内共10个帧的图片素材，其中，服务器可以采用OpenCV来对视频素材进行切帧。此时可以对得到的图片素材进行标记，其中，标记方式可以为自定义标记，如按照帧图像在视频中的播放顺序依次标记为1、2、3、4、5、6、7、8、9、10，还可以根据帧的内容来进行标记，在此不做具体限定。标记后服务器通过第一OCR模型，对有文字“欢迎加入”的图片素材和切帧处理后得到的10个帧的图片素材同时进行文字识别。其中，同时对图片素材以及视频素材切帧后得到的图片素材进行文字识别的方式，可以为将11个图片素材同时输入第一ORC模型进行文字识别，也可以为将11个图片素材按照一定顺序或者随机顺序依次输入到第一OCR模型进行文字识别。文字识别后得到的文本信息组成文本信息集。

在本实施例中，素材包括图片素材和视频素材，通过对视频素材进行切帧处理形成图片素材，能够与图片素材一并通过第一OCR模型进行文字识别，使得视频素材也能进行筛选过滤，并且能够与图片素材同时进行筛选，更好地对各类素材进行筛选处理。

在一个实施例中，素材的素材类型还可以包括音频素材，即无字幕的视频素材。当素材的素材类型为音频素材时，由于音频素材中包括图片素材，但由于没有字幕，进行文字识别的话效果一般，因此服务器不需要对第一类素材中的音频素材进行切帧处理，而需要先对音频素材进行语音抽取处理，其中，服务器可以采用ffmpeg对音频素材进行语音抽取。服务器对抽取后的语音进行语音转文字处理，其中，可以采用第三方API来进行语音转文字处理，根据转换后的文本信息组成文本信息集。

在本实施例中，获取图片素材、视频素材和音频素材对应的文本信息集的过程如图3所示。

S14、将文本信息集中的各文本信息与预设文本信息集中的多个预设词条进行相似度匹配，根据相似度匹配结果从各第一类素材和各第二类素材中筛选出各可用素材，将各可用素材存储到素材库中。

在一个实施例中，服务器将文本信息集的文本信息与预设词条进行相似度匹配，筛选出的符合相似度要求的第一类素材和第二类素材作为可用素材，将可用素材存储到素材库中。其中，预设词条为预设文本信息集中的词条，可以为人为设定的无敏感信息的内容，预设词条以及预设文本信息集存储在数据库中，相似度要求可以设定一个相似度阈值，当大于相似度匹配的结果大于该相似度阈值时，才筛选为可用素材。

例如，素材为有文字“欢迎加入”的图片素材，将其分别与预设词条“欢迎”和“加入”进行相似度匹配，相似度匹配的结果分别为80％和70％，当相似度阈值为75％时，可以认为该图片素材为可用素材，当相似度阈值为85％时，认为该图片素材不为可用素材。

在一个实施例中，将文本信息集中的各文本信息与预设文本信息集中的多个预设词条进行相似度匹配，包括：

根据语料库对各第一类文本信息以及各第二类文本信息进行分词处理，获取多个对象分词。

将多个对象分词与语料库的多个预设词条进行相似度匹配。

在本实施例中，服务器对文本信息集中的第一类文本信息和第二类文本信息进行分词处理来获取多个对象分词，其中，分词处理方式能够采用基于语料库的分词方法，具体通过构建一个语料库，将待分词处理的文本信息与所述语料库中的词条进行匹配。其中，所述语料库中包括若干词条。例如，第一类文本信息为“欢迎加入”与语料库中的词条“欢迎”和“加入”进行匹配，匹配结果为99％和98％，与设定的阈值90％相比较，大于设定的阈值则对此进行分词，得到对象分词“欢迎”和“加入”。语料库构建方法在现有技术中广泛存在，在此不再赘述。

在本实施例中，对象分词为过滤掉停用词等无具体含义的词语后剩下的词语，如名词、动词、形容词等有具体含义的词语。

服务器对第一类文本信息和第二类文本信息进行分词处理后，将得到的对象分词与预设文本信息集中的多个预设词条进行相似度匹配，根据相似度匹配结果来筛选可用素材。

在本实施例中，通过对文本信息进行分词处理，并将获取的对象分词与语料库的多个预设词条进行相似度匹配来进行文本信息内容的筛选，进一步对文本信息内容进行了筛选，提高了筛选过滤的准确性。

在一个实施例中，根据语料库对各第一类文本信息以及各第二类文本信息进行分词处理，获取多个对象分词，包括：

根据语料库对各第一类文本信息以及各第二类文本信息进行新词识别，获取N个新词，其中，新词由在各历史文本信息中以相邻文字组合出现的频次超过预设频次的至少两个单字组成，N≥0。

根据N个新词更新语料库。

根据更新后的语料库，对各第一类文本信息以及各第二类文本信息进行分词处理，获取多个对象分词。

在本实施例中，为了避免忽视语料库中没有词条的词语对于可用素材筛选的影响，因此在获取对象分词前对文本信息进行新词识别，获取新词。其中，新词为语料库，即语料库中没有对应词条的词语。例如，语料库中仅具有“太阳”和“月亮”这两词条，那么词语“星星”即为新词。

在本实施例中，服务器通过对文本信息集中的文本信息进行新词识别来获取新词。与通过比对语料库中的词条来获取对象分词的方式不同，新词通过检测字组合的频率。字组合为相邻的至少包括两个单字的文字组合，如“剑”、“定”、“云”、“霄”，当这四个单字的文字组合出现超过预设频次的频次后，将“剑定云霄”这文字组合作为新词。其中，预设频次为人为设定的针对文字组合出现的次数。

在本实施例中，服务器将获得的新词，作为一个新的词条存储到语料库中，对语料库进行更新。更新后服务器对文本信息集的第一类文本信息和第二类文本信息进行分词处理来获取多个对象分词，能够采用基于语料库的分词方法，具体通过构建一个语料库，将待分词处理的文本信息与所述语料库中的各预设词条进行匹配。其中，所述语料库中包括若干预设词条。语料库构建方法在现有技术中广泛存在，在此不再赘述。

在本实施例中，对文本信息进行分词的过程中先对新词进行识别，并且对新词出现频率进行了限定，使得在分词过程中对符合限定条件的新词进行考虑并获取，并依据新词对语料库进行更新，使得分词后获取词条的范围更大，能够避免遗漏新词造成误差过大，从而筛选过滤的准确度。

在一个实施例中，与相邻文字组合相邻的单字的变化频率大于预设频率，如“南京市长江大桥”中分词“市长”这文字组合前后单字“京”和“江”的变化频率需要大于大为设定的预设频率，否则可能将“南京市长江大桥”分词为“南京市”和“长江大桥”两个文字组合，即不存在“市长”这个分词。

在本实施例中，通过对新词进行识别，并且对新词出现频率进行限定，能够更快地获取并确认新词，并且考虑新词对应的词条情感类型来提高文本情感分析的准确度，有效地解决了由于遗漏相关新词对情感分析准确度产生影响的技术问题。

在本实施例中，通过对新词相邻单字的变化频率进行限定，能够更加准确地确定相应文字组合是否为新词，提高新词获取的准确度。

在一个实施例中，根据相似度匹配结果从各第一类素材和第二类素材中筛选出各可用素材，将各可用素材存储到素材库中，包括：

从各第一类素材和第二类素材中筛选出与多个预设词条的相似度小于预设阈值的各可用素材。

根据各可用素材的标签，将各可用素材分类存储到素材库中，标签在素材首次存储至素材库时形成。

在本实施例中，服务器从各第一类素材和第二类素材中筛选出与多个预设词条的相似度小于预设阈值的各可用素材，该预设阈值即为上述实施例中的相似度阈值，可以人为进行设定。获取可用素材后，服务器可以根据可用素材的标签将可用素材分类存储在素材库中，其中，标签在素材首次存储至素材库时形成，例如当有文字“欢迎加入”的图片素材首次存储到素材库时，对其设置标签，当视频素材首次存储到素材库时，对其设置标签，设置后由该视频素材切帧得到的图片素材的标签与视频素材的标签相同。标签设置依据可以为可用素材的类别，例如抽奖类素材、充值类素材或者登录类素材等等，标签形式可以为可用素材所属类别存储到素材库中的地址或者人为设定的分类标签，如抽奖类、充值类或登录类等。对此不作具体限定。

在本实施例中，通过设置与预设词条相似度的预设阈值来筛选得到可用素材，能够更好地限定筛选过滤的条件，提升筛选过滤效果，并在可用素材首次存储到素材库时形成相应标签，使得能够依据标签从素材库中获取相应素材以及对素材进行分类，提升可用素材存储和获取的效率。

在一个实施例中，将各可用素材存储到素材库中，包括：

对可用素材的长像素和宽像素中满足预设标记策略的图像属性进行标记，其中，预设标记策略包括对可用素材的长像素和宽像素中像素值较大的一项图像属性进行标记。

根据被标记的图像属性，从目标广告位的多个基础属性中获取对应的目标基础属性，其中，多个基础属性包括目标广告位的长度属性和宽度属性，长度属性与长像素对应，宽度属性与宽像素对应。

根据被标记的图像属性与目标基础属性的属性比例，对可用素材进行等比缩放后，将等比缩放后的可用素材存储到素材库中。

在本实施例中，对于可用素材的长像素和宽像素，服务器依据预设标记策略来选取其中一个进行标记。其中，预设标记策略指的是选取可用素材的长像素和宽像素的其中一个进行标记的依据。图像属性包括长像素和宽像素。

服务器选取可用素材的长像素和宽像素中像素值较大的一个来进行标记，例如，游戏《云上城之歌》的宣传图像为可用素材，可用素材为长像素为800，宽像素为1000的矩形区域。服务器根据预设标记策略，选取宽像素来进行标记。标记方式不做具体限定。服务器根据可用素材中被标记的图像属性，从目标广告位的多个基础属性中获取对应的目标基础属性。其中，基础属性指的是目标广告位的长度属性和宽度属性，分别表示目标广告位中所能投放的可用素材的最大长度和最大宽度。与可用素材中被标记的图像属性相对应的基础属性即为目标基础属性，其中，图像属性与基础属性的对应关系为长度属性对应长像素，宽度属性对应宽像素。例如，选取了图像素材中的宽像素进行标记，那么服务器从目标广告位获取的目标基础属性为宽度属性。

服务器获取被标记的图像属性与相应的目标基础属性的属性比例。例如，游戏《云上城之歌》的宣传图像为素材图像，可用素材为长像素为800，宽像素为1000的矩形区域。宽像素为被标记的图像属性，目标广告位的宽度属性为相应的目标基础属性，目标广告位的长度属性为800，宽度属性为500，此时宽像素和宽度属性的属性比例为2:1。

服务器根据属性比例对可用素材进行等比缩放，等比缩放即图像长像素和宽像素按照统一比例进行缩放。等比缩放后服务器根据等比缩放后的可用素材来更新目标素材。

例如，服务器根据宽像素和宽度属性为2:1的属性比例，对长像素为800，宽像素为1000的可用素材进行等比例缩放，这里的根据属性比例进行等比例缩放，可以将可用素材的长像素和宽像素缩小为原来的二分之一，也可以缩小为原来的四分之一，还可以缩小为原来的八分之一，等等。缩放后可以得到长像素为400，宽像素为500的可用素材，也可以得到长像素为200，宽像素为250的可用素材，还可以得到长像素为100，宽像素为125的可用素材，等等。等比缩放后，服务器将等比缩放后的可用素材存储到素材库中。

在本实施例中，在获取可用素材的过程中，对可用素材中长像素和宽像素中像素较大的一个图像属性进行标记，根据标记的图像属性以及获取的对应的广告位的基础属性得到属性比例，根据该属性比例对可用素材进行等比缩放，截取等比缩放后的图像区域来更新可用素材，能够使的可用素材的长像素和宽像素缩放比例一致，不容易变形和失真，并且能够使可用素材的内容完整显示，避免对可用素材的显示质量造成影响。

在上述实施例中，通过将素材库中各素材依据存储时间分为新增期的第一类素材和非新增期的第二类素材，对第一类素材采用较小的第一OCR模型进行文字识别，对第二类素材采用较大的第二OCR模型进行文字识别，并将得到的所有文本信息与预设词条进行相似度匹配，筛选出可用素材存储到素材库中，使得对于有实时性要求的第一类素材能够进行快速筛选，对于没有实时性要求的且已经进行过快速筛选后存储在素材库中的第二类素材进行调取，并进行更进一步的筛选，进行计算机资源的合理调度，提高对多素材进行过滤的效率。

在一个实施例中，如图4所示，提供了一种素材存储装置，包括：

素材获取模块101，用于获取素材库中的各素材.

素材分类模块102，用于根据新增期对各素材进行分类，形成处于新增期的各第一类素材，以及处于非新增期的各第二类素材，其中，新增期为素材首次存储至素材库的预设时段内。

素材处理模块103，用于对各第一类素材通过第一OCR模型进行文字识别，对各第二类素材通过第二OCR模型进行文字识别，获取文本信息集，其中，第一OCR模型的模型小于第二OCR模型，文本信息集包括与各第一类素材一一对应的各第一类文本信息，以及与各第二类素材一一对应的各第二类文本信息。

素材存储模块104，用于将文本信息集中的各文本信息与预设文本信息集中的多个预设词条进行相似度匹配，根据相似度匹配结果从各第一类素材和各第二类素材中筛选出各可用素材，将各可用素材存储到素材库中。

在一个实施例中，素材获取模块101，还用于：

异步调用素材库中的各素材。

在一个实施例中，素材处理模块103，还用于：

素材处理模块103，还用于：

在一个实施例中，素材存储模块104，还用于：

将多个对象分词与语料库的多个预设词条进行相似度匹配。

在一个实施例中，素材存储模块104，还用于：

根据N个新词更新语料库。

在一个实施例中，素材存储模块104，还用于：

在一个实施例中，提供了一种计算机设备，如图5所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现素材存储方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行素材存储方法。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的素材存储装置可以实现为一种计算机程序的形式，计算机程序可在如图5所示的计算机设备上运行。计算机设备的存储器中可存储组成该素材存储装置的各个程序模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的素材存储方法中的步骤。

在一个实施例中，提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时执行上述素材存储方法的步骤。此处素材存储方法的步骤可以是上述各个实施例的素材存储方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述素材存储方法的步骤。此处素材存储方法的步骤可以是上述各个实施例的素材存储方法中的步骤。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种素材存储方法，其特征在于，包括：

获取素材库中的各素材；

2.根据权利要求1所述的素材存储方法，其特征在于，所述获取素材库中的各素材，包括：

异步调用所述素材库中的各素材。

3.根据权利要求1所述的素材存储方法，其特征在于，所述对各所述第一类素材通过第一OCR模型进行文字识别，以及对各所述第二类素材通过第二OCR模型进行文字识别，包括：

4.根据权利要求1或3所述的素材存储方法，其特征在于，所述素材的素材类型包括图片素材和视频素材；

对各所述第一类素材通过第一OCR模型进行文字识别，包括：

5.根据权利要求1或3所述的素材存储方法，其特征在于，所述将所述文本信息集中的各文本信息与预设文本信息集中的多个预设词条进行相似度匹配，包括：

6.根据权利要求5所述的素材存储方法，其特征在于，所述根据语料库对各所述第一类文本信息以及各所述第二类文本信息进行分词处理，获取多个对象分词，包括：

根据所述N个新词更新所述语料库；

7.根据权利要求6所述的素材存储方法，其特征在于，与所述相邻文字组合相邻的单字的变化频率大于预设频率。

8.根据权利要求1所述的素材存储方法，其特征在于，所述根据相似度匹配结果从各所述第一类素材和所述第二类素材中筛选出各可用素材，将各所述可用素材存储到所述素材库中，包括：

从各所述第一类素材和所述第二类素材中筛选出与所述多个预设词条的相似度大于预设阈值的各所述可用素材；

9.根据权利要求1或8所述的素材存储方法，其特征在于，所述将各所述可用素材存储到所述素材库中，包括：

10.一种素材存储装置，其特征在于，包括：

素材获取模块，用于获取素材库中的各素材；

11.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9中任一项所述的素材存储方法。