CN116522011B - 一种基于大数据的推送方法及推送系统 - Google Patents

一种基于大数据的推送方法及推送系统 Download PDF

Info

Publication number
CN116522011B
CN116522011B CN202310550874.3A CN202310550874A CN116522011B CN 116522011 B CN116522011 B CN 116522011B CN 202310550874 A CN202310550874 A CN 202310550874A CN 116522011 B CN116522011 B CN 116522011B
Authority
CN
China
Prior art keywords
features
boundary
feature
text
pushing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310550874.3A
Other languages
English (en)
Other versions
CN116522011A (zh
Inventor
蒋绍君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Nine Star Interactive Technology Co ltd
Original Assignee
Shenzhen Nine Star Interactive Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Nine Star Interactive Technology Co ltd filed Critical Shenzhen Nine Star Interactive Technology Co ltd
Priority to CN202310550874.3A priority Critical patent/CN116522011B/zh
Publication of CN116522011A publication Critical patent/CN116522011A/zh
Application granted granted Critical
Publication of CN116522011B publication Critical patent/CN116522011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于大数据的推送方法及推送系统,该方法建立了两层结构的推送知识库,包括文字特征和边界轮廓特征,并通过对目标用户历史行为数据提取关键词和输入训练图像数据提取边界轮反向还原出对应的检索词,并从互联网中检索对应的内容,进行信息推送。本专利提供的技术方案具有高效、精准、扩展和个性化等优点,适用于各种信息推送场景,具有实用性和推广价值。

Description

一种基于大数据的推送方法及推送系统
技术领域
本发明涉及大数据处理技术领域,特别涉及一种基于大数据的推送方法及推送系统。
背景技术
随着移动互联网的快速发展,人们的信息获取途径和方式发生了巨大变革。用户的需求越来越多样化,对于信息的获取也变得更加迅速和便捷。为了满足用户的个性化需求,各大互联网企业纷纷采用推送技术为用户提供个性化的信息服务。推送技术作为一种广泛应用的信息传递手段,其主要目的是将相关的信息内容推送给目标用户,以满足用户的需求。
目前,已有大量关于推送技术的专利文献。例如,专利文献CN102558408B提供了一种基于用户画像的个性化信息推送方法;又如专利文献CN102465025B公开了一种基于用户兴趣的动态信息推送方法等。这些方法都是基于用户画像分析的推送技术,通过收集和分析用户的行为数据、兴趣数据等,形成用户画像,并据此为用户推送相关的信息内容。
现有的推送方法和推送系统大都在对用户画像分析的基础上,基于某个或某几个关键词进行推送。然而,在实际应用中,这种推送方式存在一些问题。首先,现有技术在关键词的选取上比较单一,导致推送内容缺乏多样性。其次,由于推送内容主要依赖于关键词匹配,这种方法无法在关键词基础上进行扩展推送,使得推送内容较为固定,无法真正满足用户多样化的需求。
现有技术的局限性主要体现在以下几个方面:
关键词匹配问题:现有的推送方法主要基于关键词匹配,而关键词匹配的准确性对推送结果影响较大。如果关键词匹配不准确,可能导致推送内容与用户需求不符,降低用户体验。
关键词覆盖面问题:现有的推送方法主要依赖于关键词匹配,关键词的数量和质量直接影响推送内容的多样性。然而,现有技术往往无法覆盖到用户所有的兴趣点,导致推送内容的局限性。
关键词扩展问题:由于现有技术主要依赖于关键词匹配,无法在关键词基础上进行扩展推送。这使得推送内容过于固定,无法根据用户需求的变化进行动态调整。
大数据分析问题:现有的推送技术虽然已经在一定程度上利用了大数据分析,但在挖掘用户需求、优化推送策略方面尚有待提高。现有技术很难对海量数据进行深入挖掘,从而挖掘出用户潜在需求,实现更精准的推送。
推送时效性问题:在现有的推送技术中,往往忽略了推送内容的时效性。如果推送内容过时,可能无法满足用户的实时需求,影响用户体验。
发明内容
本发明的目的是提供一种基于大数据的推送方法及推送系统,旨在优化现有的推送技术,使推送内容更加多样化、个性化和精准,从而提高用户体验。本发明将充分利用大数据分析技术,以扩大关键词覆盖范围,实现关键词的扩展推送。通过本发明的技术方案,可以在很大程度上改善现有推送技术的局限性,为用户提供更加优质的推送服务。
为解决上述技术问题,本发明提供一种基于大数据的推送方法,所述方法包括:
步骤S1:建立推送知识库;所述推送知识库为两层结构的数据库;所述推送知识库的第一层数据库为文字特征;所述推送知识库的第二层数据库为边界轮廓特征;所述文字特征通过获取目标用户的历史行为数据,对历史行为数据提取关键词得到;在提取关键词时,依据每个关键词在历史行为数据中的频次占比,赋予文字特征对应的权重值;所述边界轮廓特征通过输入训练图像数据,提取训练图像数据的边界轮廓得到;每个文字特征下包括多个边界轮廓特征;每个文字特征下的边界轮廓特征分属一个类别;
步骤S2:响应于目标用户的主动检索指令,为目标用户主动推送信息,具体包括:若主动检索指令为文字检索指令,则提取目标用户的主动检索指令的关键词在推送知识库的第一层数据库中进行关键词匹配检索,得到对应的文字特征;再利用该文字特征从互联网中检索对应的内容,推送给用户;若主动检索指令为图像检索指令或文字检索指令与图像检索指令的结合,则在得到对应的文字特征后,获取该文字特征下的边界轮廓特征,依次使用这些边界轮廓特征对得到的检索内容进行匹配验证,将通过匹配验证的内容,推送给用户;其中,若主动检索指令为图像检索指令,则首先提取该图像检索指令的边界轮廓特征,然后在第二层数据库中首先进行匹配检索,以找到分属的类别及对应的文字特征;
步骤S3:为目标用户进行信息的被动推送,具体包括:按照目标用户的推送知识库中的每个文字特征的权重值,获取权重值最高的文字特征下的边界轮廓特征;对这些边界轮廓特征进行归一化处理后,得到一个归一化边界轮廓特征,对归一化边界轮廓特征进行两个方向的特征扩展,以得到归一化边界轮廓特征的扩展特征,基于这些扩展特征,反向还原出对应的检索词,从互联网中检索对应的内容,推送给用户。
进一步的,所述步骤S1中历史行为数据提取关键词得到文字特征的方法包括:对 目标用户的历史行为数据进行文本预处理,得到文本数据集。对文本数据集中的每个文 本进行TF-IDF加权处理,得到文本的向量表示;对每个文本的向量表示进行主题建模,得到 文本的主题分布;对每个文本的主题分布进行聚类,得到每个文本的聚类标签;对每个聚类 中的文本,提取关键词作为该聚类的代表性词汇;将每个聚类的代表性词汇作为文字特征。
进一步的,所述步骤S1中在输入训练图像数据,提取训练图像数据的边界轮廓前,首先对训练图像数据按照文字特征进行分类,每个文字特征对应一个类别,每个文字特征下包括多个同属一个类别的训练图像数据;然后对这些训练图像数据进行边界轮廓特征提取。
进一步的,所述提取训练图像数据的边界轮廓的方法包括:对输入的训练图像数据进行灰度化处理,得到灰度图像;对灰度图像进行高斯滤波,以平滑图像并去除噪声;使用Sobel算子计算图像在水平和垂直方向上的梯度;基于非极大值抑制的方法,对梯度图像进行扫描,去除非边缘上的点;进行双阈值检测,根据两个阈值对图像进行二值化,得到边缘图像利用边缘跟踪算法,从二值化后的图像中提取边界轮廓。
进一步的,所述步骤S3对这些边界轮廓特征进行归一化处理后,得到一个归一化 边界轮廓特征的方法包括:设边界轮廓特征的数量为,计算每个边界轮廓特征的特征值, 记为,其中;采用金字塔或多重金字塔算法,将每个边界轮廓特征分解为多个 尺度下的边界轮廓特征;设金字塔或多重金字塔的总层数为,第个边界轮廓特征在第层 的特征值为,其中;设归一化边界轮廓特征为,是一个的矩阵,其中分别表示归一化边界轮廓特征的高度和宽度;使用如下公式计 算归一化边界轮廓特征:
;其 中,表示归一化边界轮廓特征中的像素位置,表示第个边界轮廓特征在第层的 权重,满足分别表示第个边界轮廓特征在第层中心像素的位 置;表示高斯函数;表示每个边界轮廓特征在每个金字塔层的梯度。
进一步的,所述每个边界轮廓特征在每个金字塔层的梯度使用如下公式进行计算:
其中,分别表示第个边界轮廓特征在第层的水平和垂 直梯度,使用Sobel算子的边缘检测算法进行计算。
进一步的,所述归一化边界轮廓特征进行特征扩展的方向包括:水平方向和垂直方向。
进一步的,所述在水平方向对归一化边界轮廓特征进行扩展的方法包括:将归一化边界轮廓特征进行放大、缩小或拉伸,以得到扩展的边界轮廓特征;所述放大、缩小和拉伸的比例为预设值。
进一步的,所述在水平方向对归一化边界轮廓特征进行扩展的方法包括:在归一化边界轮廓特征的基础上,进行边界线条扩展处理,具体包括:每次进行扩展边界线条处理时,在归一化边界轮廓特征的边界线条的数量基础上,增加一条边界线条。
进一步的,所述基于这些扩展特征,反向还原出对应的检索词的方法包括:使用基于轮廓特征的图像识别算法对这些扩展特征进行识别,以还原出对应的检索词。
一种基于大数据的推送系统,所述系统包括:
推送知识库,主动检索单元和被动检索单元;所述主动检索单元配置用于响应于目标用户的主动检索指令,结合推送知识库,为目标用户主动推送信息;所述被动检索单元配置用于结合推送知识库,为目标用户进行信息的被动推送。
本发明所提供的一种基于大数据的推送方法及推送系统,具备如下有益效果:
1. 提高推送准确性和效率:传统的信息推送方法常常采用基于广告主的推送方式,以达到广告宣传和推销的目的,然而这种推送方式常常存在信息不准确、信息冗余、信息遗漏等问题。本发明采用基于大数据的推送方法及推送系统,通过对目标用户的历史行为数据进行分析和挖掘,建立推送知识库,以此提高信息推送的准确性和效率。基于历史行为数据提取关键词和训练图像数据提取边界轮廓特征,可以为每个文字特征构建多个边界轮廓特征,实现更加精准的推送。
2. 实现信息扩展推送:传统的信息推送方法往往受到推送内容的限制,难以实现对相关信息的扩展推送。本发明提出了一种基于归一化边界轮廓特征的特征扩展方法,包括水平和垂直方向的特征扩展。通过对归一化边界轮廓特征进行特征扩展,可以扩大关键词的覆盖范围,从而实现对相关信息的扩展推送。此外,本发明还提供了基于轮廓特征的图像识别算法,可以对扩展特征进行识别,以反向还原出对应的检索词,进一步扩大了推送范围。
3. 提升用户体验:本发明通过响应目标用户的主动检索指令,为用户主动推送信息,实现了更加个性化的服务。此外,通过按照目标用户的推送知识库中的每个文字特征的权重值进行信息推送,可以为用户提供更加感兴趣的内容,提升了用户的体验。同时,本发明的信息推送方式更加便捷和快速,为用户提供了更好的使用体验。
4. 降低推送成本:本发明通过大数据分析和处理,可以实现对用户兴趣爱好的快速掌握和分析,从而更加有效地进行信息推送,降低了推送成本。此外,本发明还提供了边界轮廓特征提取算法和形状上下文描述算法等技术,可以实现更加高效和精准的信息推送,进一步降低了推送成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的一种基于大数据的推送方法的方法流程示意图;
图2为本发明实施例所提供的一种基于大数据的推送方法及推送系统的对边界轮廓进行水平方向的扩展的原理示意图;
图3为本发明实施例所提供的一种基于大数据的推送方法及推送系统的对边界轮廓进行垂直方向的扩展的原理示意图。
具体实施方式
本发明的核心是提供一种基于大数据的推送方法及推送系统,可以应用于各种信息推送场景,包括但不限于社交网络、电子商务、在线广告等领域。例如,在社交网络中,用户可以根据个人兴趣爱好建立推送知识库,系统可以根据用户历史行为数据和推送知识库,为用户推送与其兴趣相关的信息;在电子商务中,商家可以利用本发明的推送方法,根据用户历史购买记录和兴趣爱好,为用户推送个性化商品推荐;在在线广告中,广告主可以利用本发明的推送方法,根据用户历史浏览记录和推送知识库,为用户推送与其兴趣相关的广告。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参考图1,一种基于大数据的推送方法,所述方法包括:
步骤S1:建立推送知识库;所述推送知识库为两层结构的数据库;所述推送知识库的第一层数据库为文字特征;所述推送知识库的第二层数据库为边界轮廓特征;所述文字特征通过获取目标用户的历史行为数据,对历史行为数据提取关键词得到;在提取关键词时,依据每个关键词在历史行为数据中的频次占比,赋予文字特征对应的权重值;所述边界轮廓特征通过输入训练图像数据,提取训练图像数据的边界轮廓得到;每个文字特征下包括多个边界轮廓特征;每个文字特征下的边界轮廓特征分属一个类别;
步骤S2:响应于目标用户的主动检索指令,为目标用户主动推送信息,具体包括:若主动检索指令为文字检索指令,则提取目标用户的主动检索指令的关键词在推送知识库的第一层数据库中进行关键词匹配检索,得到对应的文字特征;再利用该文字特征从互联网中检索对应的内容,推送给用户;若主动检索指令为图像检索指令或文字检索指令与图像检索指令的结合,则在得到对应的文字特征后,获取该文字特征下的边界轮廓特征,依次使用这些边界轮廓特征对得到的检索内容进行匹配验证,将通过匹配验证的内容,推送给用户;其中,若主动检索指令为图像检索指令,则首先提取该图像检索指令的边界轮廓特征,然后在第二层数据库中首先进行匹配检索,以找到分属的类别及对应的文字特征;
步骤S3:为目标用户进行信息的被动推送,具体包括:按照目标用户的推送知识库中的每个文字特征的权重值,获取权重值最高的文字特征下的边界轮廓特征;对这些边界轮廓特征进行归一化处理后,得到一个归一化边界轮廓特征,对归一化边界轮廓特征进行两个方向的特征扩展,以得到归一化边界轮廓特征的扩展特征,基于这些扩展特征,反向还原出对应的检索词,从互联网中检索对应的内容,推送给用户。
具体的,本发明主要包括以下三个部分:
推送知识库的建立:推送知识库是一个两层结构的数据库,包括文字特征和边界轮廓特征。文字特征是根据目标用户的历史行为数据提取关键词而得到的,同时根据关键词在历史行为数据中的频次占比来赋予权重值。边界轮廓特征是通过输入训练图像数据提取边界轮廓得到的。每个文字特征下都包含多个边界轮廓特征,分属一个类别。
主动推送:当目标用户发出主动检索指令时,系统会根据指令类型(文字检索指令或图像检索指令)在推送知识库中进行关键词匹配检索,找到对应的文字特征。然后利用这些特征从互联网中检索相关内容并推送给用户。如果主动检索指令是图像检索指令,系统会先提取图像的边界轮廓特征,然后在第二层数据库中进行匹配检索,找到所属类别及对应的文字特征。
被动推送:系统根据目标用户推送知识库中每个文字特征的权重值来选择权重值最高的文字特征下的边界轮廓特征。接着,对这些边界轮廓特征进行归一化处理,得到归一化边界轮廓特征。然后,对归一化边界轮廓特征进行两个方向的特征扩展,以得到扩展特征。最后,基于这些扩展特征反向还原出对应的检索词,从互联网中检索相关内容并推送给用户。
得到归一化边界轮廓特征的扩展特征是为了扩大关键词的覆盖范围,从而提高信息推送的准确性和精度。这是因为有时候用户在输入搜索关键词时,可能会使用不同的词汇、近义词、缩写、简称等,导致可能会错过一些相关的信息。因此,在扩展特征的基础上反向还原出对应的检索词,可以增加关键词的覆盖范围,并且通过扩大关键词的覆盖范围,实现更准确、更全面的信息推送,提高用户的满意度和粘性。
实施例2
在上一实施例的基础上,所述步骤S1中历史行为数据提取关键词得到文字特征的 方法包括:对目标用户的历史行为数据进行文本预处理,得到文本数据集。对文本数据集中的每个文本进行TF-IDF加权处理,得到文本的向量表示;对每个文本的向量表示进行 主题建模,得到文本的主题分布;对每个文本的主题分布进行聚类,得到每个文本的聚类标 签;对每个聚类中的文本,提取关键词作为该聚类的代表性词汇;将每个聚类的代表性词汇 作为文字特征。
具体的,对目标用户的历史行为数据进行文本预处理,包括去除停用词、分词等操 作,得到文本数据集。对文本数据集中的每个文本进行TF-IDF加权处理,得到文本的向 量表示。其中,TF-IDF是词频-逆文档频率(term frequency-inverse document frequency)的缩写,它用于衡量一个词对于一个文档的重要程度。具体而言,对于一个文档和一个词,TF-IDF的计算公式如下:;其中,表示词在文 档中出现的频率,表示词的逆文档频率,计算公式如下:;其中, 表示文档总数,表示包含词的文档数量。TF-IDF的计算可以使用第三方库如scikit- learn进行实现。
对每个文本的向量表示进行主题建模,得到文本的主题分布。主题建模是一种无 监督学习的方法,它可以发现文本集合中隐藏的主题,并将每个文本表示为主题的概率分 布。计算公式如下:;其中,表示文本表示 文本的第个词,表示文本的第个词的主题,表示文本的主题分布,表示主题的 词分布,表示文本中主题的词数,表示文本中主题为的词的数量, 表示主题中词的数量,为超参数。
主题建模的计算过程如下:
随机初始化每个文本的主题分布和每个主题的词分布
对于每个文本中的每个词,计算,即在文本中的第 个词的主题为的概率。
对于每个文本中的每个词,根据上一步计算出的概率分布,随机采样一个主 题作为的主题
对于每个主题,更新其对应的词分布;其中,为指示函数,当时取值为1, 否则为0。对于每个文本,更新其对应的主题分布
重复上述步骤,直到模型收敛。
实施例3
在上一实施例的基础上,所述步骤S1中在输入训练图像数据,提取训练图像数据的边界轮廓前,首先对训练图像数据按照文字特征进行分类,每个文字特征对应一个类别,每个文字特征下包括多个同属一个类别的训练图像数据;然后对这些训练图像数据进行边界轮廓特征提取。
具体的,分类的目的是为了将训练图像数据分到不同的类别中,每个类别代表了一个文字特征。在分类时,可以采用有监督学习方法,通过标注的训练数据来训练分类器,也可以采用无监督学习方法,如聚类算法等,将训练图像数据分成不同的组别。
每个文字特征对应一个类别,每个类别下包括多个同属一个类别的训练图像数据。在每个类别下,可以使用图像处理技术提取边界轮廓特征。边界轮廓特征是图像处理中一种常用的特征,可以用于描述图像中的形状、轮廓等信息。通常可以使用边缘检测算法,如Canny算法等,来提取边界轮廓特征。在提取边界轮廓特征时,可以考虑使用形态学处理等技术来优化结果,从而提高边界轮廓特征的准确性和鲁棒性。
实施例4
在上一实施例的基础上,所述提取训练图像数据的边界轮廓的方法包括:对输入的训练图像数据进行灰度化处理,得到灰度图像;对灰度图像进行高斯滤波,以平滑图像并去除噪声;使用Sobel算子计算图像在水平和垂直方向上的梯度;基于非极大值抑制的方法,对梯度图像进行扫描,去除非边缘上的点;进行双阈值检测,根据两个阈值对图像进行二值化,得到边缘图像利用边缘跟踪算法,从二值化后的图像中提取边界轮廓。
具体的,对输入的训练图像数据进行灰度化处理,以将图像转换为灰度图像。这一步骤的目的是为了将彩色图像转换为灰度图像,从而方便后续的处理和分析。
对灰度图像进行高斯滤波,以平滑图像并去除噪声。高斯滤波是一种线性平滑滤波器,可以将图像中的噪声进行模糊化处理,从而得到更加平滑的图像。
使用Sobel算子计算图像在水平和垂直方向上的梯度。Sobel算子是一种常用的边缘检测算子,可以通过计算图像在水平和垂直方向上的梯度来检测边缘。
基于非极大值抑制的方法,对梯度图像进行扫描,去除非边缘上的点。这一步骤的目的是为了去除图像中非边缘的像素点,从而得到更加准确的边缘检测结果。
进行双阈值检测,根据两个阈值对图像进行二值化,得到边缘图像。双阈值检测可以将图像中的像素点分为强边缘、弱边缘和非边缘三类,从而对边缘进行更加准确的检测。
利用边缘跟踪算法,从二值化后的图像中提取边界轮廓。边缘跟踪算法是一种常用的边缘检测算法,可以通过遍历图像中的像素点,从而得到图像的边缘轮廓。
基于非极大值抑制的方法是边缘检测中常用的一种方法,它的基本思想是在梯度方向上,只保留局部极大值点,而抑制非极大值点。具体的过程如下:
对梯度图像进行扫描,遍历图像中的每个像素点,并计算该像素点的梯度大小和方向。
将当前像素点的梯度方向离散化为4或8个方向,以便后续的处理。
对于每个像素点,判断其是否为局部极大值点,方法是在梯度方向上,分别比较该像素点与相邻像素点的梯度大小,如果该像素点的梯度大小大于相邻像素点的梯度大小,则认为该像素点是局部极大值点,否则认为不是。
对于不是局部极大值点的像素点,将其置为0,从而实现抑制非极大值点的效果。
最终得到的结果是仅保留了局部极大值点的梯度图像,这些点构成了图像的边缘。
在具体实现过程中,基于非极大值抑制的方法还可以采用更加复杂的变体,例如基于双阈值的非极大值抑制(Canny边缘检测算法)等。这些方法的基本思想都是类似的,即在梯度方向上,只保留局部极大值点,并抑制非极大值点,从而实现较为准确的边缘检测。
实施例5
在上一实施例的基础上,所述步骤S3对这些边界轮廓特征进行归一化处理后,得 到一个归一化边界轮廓特征的方法包括:设边界轮廓特征的数量为,计算每个边界轮廓 特征的特征值,记为,其中;采用金字塔或多重金字塔算法,将每个边界轮廓特 征分解为多个尺度下的边界轮廓特征;设金字塔或多重金字塔的总层数为,第个边界轮 廓特征在第层的特征值为,其中;设归一化边界轮廓特征为,是一个的矩阵,其中分别表示归一化边界轮廓特征的高度和宽 度;使用如下公式计算归一化边界轮廓特征:
;其 中,表示归一化边界轮廓特征中的像素位置,表示第个边界轮廓特征在第层的 权重,满足分别表示第个边界轮廓特征在第层中心像素的位 置;表示高斯函数;表示每个边界轮廓特征在每个金字塔层的梯度。
具体的,表示高斯函数:
其中,表示第层高斯金字塔的标准差。可以用于对第张输入图像在第层的轮廓特征进行空间加权,以保证相邻像素对融合结果的贡献更大。是一个参数,用 于平衡轮廓匹配和轮廓加权的影响。
为了计算每个输入图像的权重,采用以下公式:
其中,分别表示第张和第张输入图像在第层的梯度。是一个参数,用 于控制梯度的平滑程度。
实施例6
在上一实施例的基础上,所述每个边界轮廓特征在每个金字塔层的梯度使用如下公式进行计算:
其中,分别表示第个边界轮廓特征在第层的水平和垂 直梯度,使用Sobel算子的边缘检测算法进行计算。
具体的,可以使用Sobel算子等边缘检测算法进行计算。
在得到后,还可以对进行归一化处理,使用以下公式:
最后,对进行平滑,可以使用以下公式:
其中,是一个高斯核函数:
其中,是一个参数,用于控制梯度的平滑程度。
实施例7
在上一实施例的基础上,所述归一化边界轮廓特征进行特征扩展的方向包括:水平方向和垂直方向。
实施例8
在上一实施例的基础上,所述在垂直方向对归一化边界轮廓特征进行扩展的方法包括:将归一化边界轮廓特征进行放大、缩小或拉伸,以得到扩展的边界轮廓特征;所述放大、缩小和拉伸的比例为预设值。
参考图3,展示了边界轮廓进行放大、缩小和拉伸护理后,从H3类的边界轮廓特征变化为H1、H2和H的过程。在垂直方向对归一化边界轮廓特征进行扩展的方法包括将归一化边界轮廓特征进行放大、缩小或拉伸,以得到扩展的边界轮廓特征。放大、缩小和拉伸的比例是预设值,可以根据具体情况进行调整。这些扩展的边界轮廓特征可以反向转换为检索词,实现关键词的扩展推送。
具体地说,放大操作可以通过增大边界轮廓特征点的纵坐标来实现;缩小操作可以通过减小边界轮廓特征点的纵坐标来实现;而拉伸操作则可以通过对边界轮廓特征点的纵坐标进行线性变换来实现。这些操作可以根据需要进行组合,从而得到更加丰富和多样的特征扩展方式。
实施例9
在上一实施例的基础上,所述在水平方向对归一化边界轮廓特征进行扩展的方法包括:在归一化边界轮廓特征的基础上,进行边界线条扩展处理,具体包括:每次进行扩展边界线条处理时,在归一化边界轮廓特征的边界线条的数量基础上,增加一条边界线条。
参考了图2,展示了边界轮廓通过扩展边界线条的数量,逐步从A类变扩展到A1、A2和A3的过程。
实施例10
在上一实施例的基础上,所述基于这些扩展特征,反向还原出对应的检索词的方法包括:使用基于轮廓特征的图像识别算法对这些扩展特征进行识别,以还原出对应的检索词。
具体的,基于归一化边界轮廓特征的扩展特征,需要反向还原出对应的检索词,从而在互联网中检索对应的内容。具体的方法是使用基于轮廓特征的图像识别算法对这些扩展特征进行识别,以还原出对应的检索词。
基于轮廓特征的图像识别算法可以分为两个主要部分:特征提取和分类器。在特征提取阶段,算法需要从输入的边界轮廓特征中提取出对于分类任务最有区分性的特征,例如边缘形状、纹理、颜色等。在分类器阶段,算法需要使用提取出来的特征对输入的扩展特征进行分类,以还原出对应的检索词。
具体的图像识别算法可以根据实际应用需求进行选择和调整。例如,可以使用基于深度学习的卷积神经网络(CNN)来进行图像识别任务,或者使用支持向量机(SVM)、决策树等经典机器学习算法来进行分类。这些算法需要通过训练样本来学习边界轮廓特征与检索词之间的映射关系,从而实现准确的反向还原操作。具体包括:
计算轮廓点的角度和距离信息
对于输入的归一化边界轮廓特征,首先需要计算每个边界轮廓点与其他点之间的距离和角度信息。这个过程可以通过计算极坐标系下的坐标来实现。假设轮廓点的坐标为(x,y),则可以将其转换为极坐标系下的坐标(r,θ),其中r是该点到图像原点的距离,θ是该点相对于x轴的偏角。
计算轮廓点之间的相对位置
接下来,需要计算轮廓点之间的相对位置信息。这个过程可以通过计算每个轮廓点与其他点之间的角度和距离差异来实现。具体地,对于每个轮廓点,可以计算它与其他点之间的极坐标距离和角度差异,然后将这些距离和角度差异组合成一个特征向量。
计算轮廓点的形状上下文描述符
基于计算出来的距离和角度差异,可以使用直方图将每个轮廓点的形状信息进行描述。具体地,可以将整个轮廓点集合分成若干个局部区域,然后计算每个区域内的距离和角度差异分布。将这些分布组合成一个向量,就可以得到该轮廓点的形状上下文描述符。
计算轮廓点的相似性分布矩阵
根据计算出来的形状上下文描述符,可以计算任意两个轮廓点之间的相似性分布矩阵。具体地,可以计算两个描述符之间的欧几里得距离,然后将距离转换为高斯核函数,最终得得到一个二维矩阵,表示所有轮廓点之间的相似性关系。
进行形状匹配
最后,可以使用类似于最小二乘法的方法,对相似性分布矩阵进行匹配,从而得到两个轮廓点集合之间的匹配关系。具体地,可以使用变换矩阵对一个轮廓点集合进行变换,使其与另一个轮廓点集合的匹配程度最大化。变换矩阵可以根据不同的应用需求进行选择,例如平移、旋转、缩放等。
一种基于大数据的推送系统,所述系统包括:
推送知识库,主动检索单元和被动检索单元;所述主动检索单元配置用于响应于目标用户的主动检索指令,结合推送知识库,为目标用户主动推送信息;所述被动检索单元配置用于结合推送知识库,为目标用户进行信息的被动推送。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (7)

1.一种基于大数据的推送方法,其特征在于,所述方法包括:
步骤S1:建立推送知识库;所述推送知识库为两层结构的数据库;所述推送知识库的第一层数据库为文字特征;所述推送知识库的第二层数据库为边界轮廓特征;所述文字特征通过获取目标用户的历史行为数据,对历史行为数据提取关键词得到;在提取关键词时,依据每个关键词在历史行为数据中的频次占比,赋予文字特征对应的权重值;所述边界轮廓特征通过输入训练图像数据,提取训练图像数据的边界轮廓得到;每个文字特征下包括多个边界轮廓特征;每个文字特征下的边界轮廓特征分属一个类别;
步骤S2:响应于目标用户的主动检索指令,为目标用户主动推送信息,具体包括:若主动检索指令为文字检索指令,则提取目标用户的主动检索指令的关键词在推送知识库的第一层数据库中进行关键词匹配检索,得到对应的文字特征;再利用该文字特征从互联网中检索对应的内容,推送给用户;若主动检索指令为图像检索指令或文字检索指令与图像检索指令的结合,则在得到对应的文字特征后,获取该文字特征下的边界轮廓特征,依次使用这些边界轮廓特征对得到的检索内容进行匹配验证,将通过匹配验证的内容,推送给用户;其中,若主动检索指令为图像检索指令,则首先提取该图像检索指令的边界轮廓特征,然后在第二层数据库中首先进行匹配检索,以找到分属的类别及对应的文字特征;
步骤S3:为目标用户进行信息的被动推送,具体包括:按照目标用户的推送知识库中的每个文字特征的权重值,获取权重值最高的文字特征下的边界轮廓特征;对这些边界轮廓特征进行归一化处理后,得到一个归一化边界轮廓特征,对归一化边界轮廓特征进行两个方向的特征扩展,以得到归一化边界轮廓特征的扩展特征,基于这些扩展特征,反向还原出对应的检索词,从互联网中检索对应的内容,推送给用户;
所述归一化边界轮廓特征进行特征扩展的方向包括:水平方向和垂直方向;垂直方向的归一化边界轮廓特征进行扩展的方法包括:将归一化边界轮廓特征进行放大、缩小或拉伸,以得到扩展的边界轮廓特征;所述放大、缩小和拉伸的比例为预设值;水平方向的归一化边界轮廓特征进行扩展的方法包括:在归一化边界轮廓特征的基础上,进行边界线条扩展处理,具体包括:每次进行扩展边界线条处理时,在归一化边界轮廓特征的边界线条的数量基础上,增加一条边界线条;所述基于这些扩展特征,反向还原出对应的检索词的方法包括:使用基于轮廓特征的图像识别算法对这些扩展特征进行识别,以还原出对应的检索词。
2.如权利要求1所述的方法,其特征在于,所述步骤S1中历史行为数据提取关键词得到文字特征的方法包括:对目标用户的历史行为数据进行文本预处理,得到文本数据集
对文本数据集中的每个文本进行TF-IDF加权处理,得到文本的向量表示;对每个文本的向量表示进行主题建模,得到文本的主题分布;对每个文本的主题分布进行聚类,得到每个文本的聚类标签;对每个聚类中的文本,提取关键词作为该聚类的代表性词汇;将每个聚类的代表性词汇作为文字特征。
3.如权利要求2所述的方法,其特征在于,所述步骤S1中在输入训练图像数据,提取训练图像数据的边界轮廓前,首先对训练图像数据按照文字特征进行分类,每个文字特征对应一个类别,每个文字特征下包括多个同属一个类别的训练图像数据;然后对这些训练图像数据进行边界轮廓特征提取。
4.如权利要求3所述的方法,其特征在于,所述提取训练图像数据的边界轮廓的方法包括:对输入的训练图像数据进行灰度化处理,得到灰度图像;对灰度图像进行高斯滤波,以平滑图像并去除噪声;使用Sobel算子计算图像在水平和垂直方向上的梯度;基于非极大值抑制的方法,对梯度图像进行扫描,去除非边缘上的点;进行双阈值检测,根据两个阈值对图像进行二值化,得到边缘图像利用边缘跟踪算法,从二值化后的图像中提取边界轮廓。
5.如权利要求4所述的方法,其特征在于,所述步骤S3对这些边界轮廓特征进行归一化处理后,得到一个归一化边界轮廓特征的方法包括:设边界轮廓特征的数量为,计算每个边界轮廓特征的特征值,记为/>,其中/>;采用金字塔或多重金字塔算法,将每个边界轮廓特征分解为多个尺度下的边界轮廓特征;设金字塔或多重金字塔的总层数为/>,第/>个边界轮廓特征在第/>层的特征值为/>,其中/>,/>;设归一化边界轮廓特征为/>,是一个/>的矩阵,其中/>和/>分别表示归一化边界轮廓特征的高度和宽度;使用如下公式计算归一化边界轮廓特征:
;其中,表示归一化边界轮廓特征中的像素位置,/>表示第/>个边界轮廓特征在第/>层的权重,满足/>;/>和/>分别表示第/>个边界轮廓特征在第/>层中心像素的位置;表示高斯函数;/>表示每个边界轮廓特征在每个金字塔层的梯度;/>是一个参数,用于平衡轮廓匹配和轮廓加权的影响。
6.如权利要求5所述的方法,其特征在于,所述每个边界轮廓特征在每个金字塔层的梯度使用如下公式进行计算:
其中,和/>分别表示第/>个边界轮廓特征在第/>层的水平和垂直梯度,使用Sobel算子的边缘检测算法进行计算。
7.一种用于实现权利要求1至6之一所述方法的基于大数据的推送系统,其特征在于,所述系统包括:
推送知识库,主动检索单元和被动检索单元;所述主动检索单元配置用于响应于目标用户的主动检索指令,结合推送知识库,为目标用户主动推送信息;所述被动检索单元配置用于结合推送知识库,为目标用户进行信息的被动推送。
CN202310550874.3A 2023-05-16 2023-05-16 一种基于大数据的推送方法及推送系统 Active CN116522011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310550874.3A CN116522011B (zh) 2023-05-16 2023-05-16 一种基于大数据的推送方法及推送系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310550874.3A CN116522011B (zh) 2023-05-16 2023-05-16 一种基于大数据的推送方法及推送系统

Publications (2)

Publication Number Publication Date
CN116522011A CN116522011A (zh) 2023-08-01
CN116522011B true CN116522011B (zh) 2024-02-13

Family

ID=87404575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310550874.3A Active CN116522011B (zh) 2023-05-16 2023-05-16 一种基于大数据的推送方法及推送系统

Country Status (1)

Country Link
CN (1) CN116522011B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116991919B (zh) * 2023-09-26 2023-12-08 中国铁塔股份有限公司吉林省分公司 结合平台数据库的业务数据检索方法及人工智能系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730343A (zh) * 2017-09-15 2018-02-23 广州唯品会研究院有限公司 一种基于图片属性提取的用户商品信息推送方法及设备
CN111950840A (zh) * 2020-06-19 2020-11-17 国网山东省电力公司 一种计量检定装置智能运维知识检索方法及系统
KR20210006662A (ko) * 2019-07-09 2021-01-19 (사)한국애니메이션제작자협회 지능정보기술기반 애니메이션 콘텐츠 리소스 서비스 시스템 및 방법
WO2021012570A1 (zh) * 2019-07-22 2021-01-28 深圳壹账通智能科技有限公司 数据录入方法、装置、设备及存储介质
CN112559684A (zh) * 2020-12-10 2021-03-26 中科院计算技术研究所大数据研究院 一种关键词提取及信息检索方法
CN113537206A (zh) * 2020-07-31 2021-10-22 腾讯科技(深圳)有限公司 推送数据检测方法、装置、计算机设备和存储介质
CN114780690A (zh) * 2022-06-20 2022-07-22 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115953215A (zh) * 2022-12-01 2023-04-11 上海交通大学 一种基于时间和图结构的搜索式推荐方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370360B2 (en) * 2005-12-31 2013-02-05 G & G Commerce Ltd. Merchandise recommending system and method thereof
CN107220386B (zh) * 2017-06-29 2020-10-02 北京百度网讯科技有限公司 信息推送方法和装置
EP4012608A1 (en) * 2020-12-09 2022-06-15 Tata Consultancy Services Limited Method and system for document classification and text information extraction
US11935106B2 (en) * 2020-12-30 2024-03-19 Beijing Wodong Tianjun Information Technology Co., Ltd. System and method for product recommendation based on multimodal fashion knowledge graph

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730343A (zh) * 2017-09-15 2018-02-23 广州唯品会研究院有限公司 一种基于图片属性提取的用户商品信息推送方法及设备
KR20210006662A (ko) * 2019-07-09 2021-01-19 (사)한국애니메이션제작자협회 지능정보기술기반 애니메이션 콘텐츠 리소스 서비스 시스템 및 방법
WO2021012570A1 (zh) * 2019-07-22 2021-01-28 深圳壹账通智能科技有限公司 数据录入方法、装置、设备及存储介质
CN111950840A (zh) * 2020-06-19 2020-11-17 国网山东省电力公司 一种计量检定装置智能运维知识检索方法及系统
CN113537206A (zh) * 2020-07-31 2021-10-22 腾讯科技(深圳)有限公司 推送数据检测方法、装置、计算机设备和存储介质
CN112559684A (zh) * 2020-12-10 2021-03-26 中科院计算技术研究所大数据研究院 一种关键词提取及信息检索方法
CN114780690A (zh) * 2022-06-20 2022-07-22 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115953215A (zh) * 2022-12-01 2023-04-11 上海交通大学 一种基于时间和图结构的搜索式推荐方法

Also Published As

Publication number Publication date
CN116522011A (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
US8391613B2 (en) Statistical online character recognition
EP1854051A2 (en) Intelligent importation of information from foreign application user interface using artificial intelligence
Surikov et al. Floor plan recognition and vectorization using combination unet, faster-rcnn, statistical component analysis and ramer-douglas-peucker
CN105718552A (zh) 基于服装手绘草图的服装图像检索方法
CN116522011B (zh) 一种基于大数据的推送方法及推送系统
Zhang et al. Improved adaptive image retrieval with the use of shadowed sets
Wang et al. Fingerprint pore extraction using U-Net based fully convolutional network
Meng et al. Ancient Asian character recognition for literature preservation and understanding
CN118015644B (zh) 基于图片和文字的社交媒体关键词数据分析方法及装置
Manjunath Aradhya et al. Decade research on text detection in images/videos: a review
Belhadj et al. Efficient fingerprint singular points detection algorithm using orientation-deviation features
Tian et al. Research on artificial intelligence of accounting information processing based on image processing
Kurar Barakat et al. Unsupervised learning of text line segmentation by differentiating coarse patterns
Mo et al. Off-line handwritten signature recognition based on discrete curvelet transform
Wang et al. 1D barcode region detection based on the Hough transform and support vector machine
Huang et al. Skew correction of handwritten Chinese character based on ResNet
Jian et al. Research on born-digital image text extraction based on conditional random field
CN113763313A (zh) 文本图像的质量检测方法、装置、介质及电子设备
Salagar et al. Analysis of PCA usage to detect and correct skew in document images
Li et al. Bank Card Number Identification Based on Template Matching Method
Jiang et al. Fingerprint feature data matching algorithm based on distributed computing
Li et al. Character Segmentation in Collector's Seal Images: An Attempt on Retrieval Based on Ancient Character Typeface.
Rahman et al. A statistical approach for offline signature verification using local gradient features
An et al. Hole Detection with Texture-Suppression on Wooden Plate Surfaces
Cao et al. Character segmentation and restoration of Qin-Han bamboo slips using local auto-focus thresholding method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant