CN108460098B - 信息推荐方法、装置和计算机设备 - Google Patents

信息推荐方法、装置和计算机设备 Download PDF

Info

Publication number
CN108460098B
CN108460098B CN201810100241.1A CN201810100241A CN108460098B CN 108460098 B CN108460098 B CN 108460098B CN 201810100241 A CN201810100241 A CN 201810100241A CN 108460098 B CN108460098 B CN 108460098B
Authority
CN
China
Prior art keywords
information
recommended
text
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810100241.1A
Other languages
English (en)
Other versions
CN108460098A (zh
Inventor
孟二利
肖思远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810100241.1A priority Critical patent/CN108460098B/zh
Publication of CN108460098A publication Critical patent/CN108460098A/zh
Application granted granted Critical
Publication of CN108460098B publication Critical patent/CN108460098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种信息推荐方法、装置和计算机设备,其中,方法包括:获取待推荐信息的文本部分,从向同一用户推荐的已推荐信息中,识别得到目标信息,识别待推荐信息的图片部分与各目标信息中的图片部分之间的图片相似度,根据图片相似度,识别待推荐信息是否为重复推荐,若不为重复推荐,向用户推荐待推荐信息。通过将文本相似度和图片相似度结合,来识别待推荐信息是否为重复推荐信息,双重机制的判别,提高了识别准确率,解决了相关技术中,只通过识别待推荐信息和已推荐信息的文本相似度来识别是否为重复推荐,致使信息识别不准确,识别准确率低的问题。

Description

信息推荐方法、装置和计算机设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种信息推荐方法、装置和计算机设备。
背景技术
随着移动互联网的普及,互联网用户有越来越多的碎片时间用来获取信息与知识,对信息的需求也越来越高。而随着信息需求的增加,在传统的互联网媒体之外,还涌现了大量的用户原创内容和专业生产内容,使得存在同一事件被多篇不同文章报道、论述,出现同一事件的内容多次推荐给用户,造成重复推荐的现象。为了提高用户阅读效率、提升用户阅读体验,需要识别哪些文章是重复内容。
相关技术中,是通过计算文章的文本相似度来识别文章是否重复,但由于语言的多样性,这种方法会造成文本识别不准确,无法准确识别文章是否重复的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种信息推荐方法,以实现通过从已推荐信息中,识别出与待推荐信息的文本部分相似的目标信息,进而识别待推荐信息的图片部分和各目标信息中的图像部分的图片相似度,通过将文本相似度和图片相似度结合来识别待推荐信息是否为重复推荐,双重机制的判别,提高了识别准确率。
本发明的第二个目的在于提出一种信息推荐装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种信息推荐方法,包括:
获取待推荐信息;
根据所述待推荐信息的文本部分,从向同一用户推荐的已推荐信息中,识别得到目标信息,其中,所述目标信息的文本部分与所述待推荐信息的文本部分相似;
识别所述待推荐信息的图片部分与各目标信息中的图片部分之间的图片相似度;
根据所述图片相似度,识别所述待推荐信息是否为重复推荐;
若不为重复推荐,向所述用户推荐所述待推荐信息。
本发明实施例的一种信息推荐方法中,获取待推荐信息之后,从已推荐信息中,识别与该待推荐信息的文本部分相似的目标信息,根据待推荐信息与目标信息之间的图片相似度,识别待推荐信息是否为重复推荐,若不为重复推荐,向用户推荐待推荐信息。尽管文本相似度计算效率较高但识别结果的可信度不高,为了解决该问题,在将文本相似度和图片相似度结合识别待推荐信息是否为重复推荐信息时,首先执行文本相似度的处理过程,进而将确定出的识别结果可信度不高的目标信息,进一步采用图片相似度进行判别,以提高识别准确率,同时,对于图片相似度计算来说,尽管计算效率较低,但通过文本相似度的预处理过程,仅对目标信息执行图片相似度计算过程,从而在一定程度上克服了计算效率较低的缺陷。与现有技术中,只通过识别待推荐信息和已推荐信息的文本相似度来识别是否为重复推荐相比,提高了重复推荐的识别准确率。
为达上述目的,本发明第二方面实施例提出了一种信息推荐装置,包括:
获取模块,用于获取待推荐信息;
识别模块,用于根据所述待推荐信息的文本部分,从向同一用户推荐的已推荐信息中,识别得到目标信息,其中,所述目标信息的文本部分与所述待推荐信息的文本部分相似;
确定模块,用于识别所述待推荐信息的图片部分与各目标信息中的图片部分之间的图片相似度;
判断模块,用于根据所述图片相似度,识别所述待推荐信息是否为重复推荐;
推荐模块,用于若不为重复推荐,向所述用户推荐所述待推荐信息。
本发明实施例的一种信息推荐装置中,获取模块用于获取待推荐信息,识别模块用于根据待推荐信息的文本部分,从向同一用户推荐的已推荐信息中,识别得到目标信息,确定模块用于识别待推荐信息的图片部分与各目标信息中的图片部分之间的图片相似度,判断模块用于根据图片相似度,识别待推荐信息是否为重复推荐,推荐模块用于若不为重复推荐,向用户推荐待推荐信息。通过将文本相似度和图片相似度结合,来识别待推荐信息是否为重复推荐信息,提高了识别准确率,解决了相关技术中,只通过识别待推荐信息和已推荐信息的文本相似度来识别是否为重复推荐,致使信息识别不准确,识别准确率低的问题。
为达上述目的,本发明第三方面实施例提出了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如第一方面所述的信息推荐方法。
为达上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的信息推荐方法。
为达上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面所述的信息推荐方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种信息推荐方法的流程示意图;
图2为本发明实施例所提供的另一种信息推荐方法的流程示意图;
图3为本发明实施例提供的一种信息推荐装置的结构示意图;
图4为本发明实施例所提供的另一种信息推荐装置的结构示意图;以及
图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的信息推荐方法、装置和计算机设备。
随着互联网的普及,信息需求增加,每天涌现出海量的信息,需要对信息进行去重,而相关技术中,一种是采用对信息的文本部分计算相似度,从而判断信息是否为重复信息,但是这种方法的缺陷是,因为文本的语言具有多样性,仅对文本部分进行相似度识别,会导致文本部分信息不相似,而图片部分重复的信息被推荐给用户,造成信息的重复推荐。另一种是采用对信息的图片部分计算图片相似度,来判断信息是否为重复信息,这种方法的缺陷是,因为很多图片重复的信息,文本并不相同,判定的准确率很低,且信息中一般包含较多的图片,通过图片判别,因已推荐信息较多,致使计算量巨大。而目前图文并茂的信息越来越多,相关技术中的方法,使得对信息是否为重复信息的识别准确度较低,影响用户体验。
针对这一问题,本发明实施例提供了一种可能的信息推荐方法,通过信息的文本相似度和图片相似度结合来识别待推荐信息是否为重复推荐,提高识别的准确度,避免对用户信息的重复推荐,图1为本发明实施例所提供的一种信息推荐方法的流程示意图,如图1所示,该方法包括以下步骤:
步骤101,获取待推荐信息。
具体地,获取需要推荐给用户的信息,称为待推荐信息。
步骤102,根据待推荐信息的文本部分,从向同一用户推荐的已推荐信息中,识别得到目标信息。
目标信息是从已推荐信息中获取的,目标信息的文本部分和待推荐信息的文本为部分相似,具体地,根据待推荐信息的的文本部分,生成第一向量,针对每一个已推荐信息,根据已推荐信息的文本部分,生成第二向量,若第一向量和第二向量之间的文本相似度大于或等于第二阈值,且小于或等于第一阈值,确定已推荐信息为目标信息,其中,目标信息为多个。
需要说明的是,第一向量和第二向量,是为了便于区分待推荐信息的文本部分生成的向量,以及已推荐信息的文本部分生成的向量,而定义的。第一阈值和第二阈值是为了和文本相似度比对,从而确定第一向量和第二向量的相似程度,而预先设定的,其中,第一阈值大于第二阈值。
步骤103,识别待推荐信息的图片部分与各目标信息中的图片部分之间的图片相似度。
具体地,分别对待推荐信息和目标信息提取图片部分的指纹特征,其中,指纹特征是将图片部分的灰度直方图,划分为多个灰度等级,针对每一个灰度等级,将灰度等级内各灰度值对应的像素之和,作为指纹特征中灰度等级对应元素的取值,根据待推荐信息图片部分的指纹特征和目标信息图片部分的指纹特征,确定图片相似度。
步骤104,根据图片相似度,识别待推荐信息是否为重复推荐。
具体地,计算得到图片相似度后,将图片相似度和预先设置好的第三阈值进行比对,在多个目标信息中,若存在图片相似度高于第三阈值的目标信息,确定待推荐信息为重复推荐,丢弃待推荐信息;若多个目标信息与待推荐信息的图片相似度均不高于第三阈值,则确定待推荐信息为不重复信息。
步骤105,若不为重复推荐,向用户推荐待推荐信息。
具体地,将确定待推荐信息为不重复信息,向用户推荐该待推荐信息。
本发明实施例的一种信息推荐方法中,获取待推荐信息之后,从已推荐信息中,识别与该待推荐信息的文本部分相似的目标信息,根据待推荐信息与目标信息之间的图片相似度,识别待推荐信息是否为重复推荐,若不为重复推荐,向用户推荐待推荐信息。尽管文本相似度计算效率较高但识别结果的可信度不高,为了解决该问题,在将文本相似度和图片相似度结合识别待推荐信息是否为重复推荐信息时,首先执行文本相似度的处理过程,进而将确定出的识别结果可信度不高的目标信息,进一步采用图片相似度进行判别,以提高识别准确率,同时,对于图片相似度计算来说,尽管计算效率较低,但通过文本相似度的预处理过程,仅对目标信息执行图片相似度计算过程,从而在一定程度上克服了计算效率较低的缺陷。与现有技术中,只通过识别待推荐信息和已推荐信息的文本相似度来识别是否为重复推荐相比,提高了重复推荐的识别准确率。
为了更加清楚的说明上一实施例,本实施例提供了另一种可能的信息推荐方法,图2为本发明实施例所提供的另一种信息推荐方法的流程示意图,如图2所示,该方法包括如下步骤:
步骤201,获取待推荐信息。
步骤202,根据待推荐信息的文本部分,和向同一用户推荐的已推荐信息的文本部分,计算文本相似度。
具体地,将待推荐信息的文本进行向量化表示,得到第一向量,针对每一个已推荐信息的文本进行向量化表示,得到第二向量,而对文本进行向量化表示有很多种可能的实现方式,其中,一种可能的实现方式为:获取待推荐信息的文本部分,将文本部分进行切词处理,根据停用词表去除停用词,采用词频-逆文档频率(Term Frequency–InverseDocument Frequency,TF-IDF)算法将切词后保留的词条进行词频统计,并根据各词条的词频进行排序,根据排序生成词条的词频向量,得到文本部分的第一向量,通过词频对各词条进行排序,将词频较高的词条排序较高,可以在词条数量较多时,依据排序选取部分词条,例如:排序靠前的部分词条,提高运算的速度。同理,采用同样的方法,可生成每一个已推荐信息的文本部分对应的词条的词频向量,即第二向量。
另一种可能的实现方式为:将待推荐信息的文本进行切词处理,根据停用词表去掉停用词,生成待推荐信息的文本部分对应的词条,采用预先训练好的Web2sec词向量模型生成词条的词向量,即第一向量,同理,可生成每一个已推荐信息的文本部分对应的词条的词向量,即第二向量。
进而,根据第一向量和第二向量,计算第一向量和第二向量之间的相似度,作为一种可能的实现方式,可采用余弦距离计算第一向量和第二向量之间的余弦相似度,作为文本相似度。
需要说明的是,对已推荐信息,切词后生成对应的词条,对词条和已推荐信息之间的索引关系的建立,作为一种可能的实现方式,可对词条和对应的信息采用倒排索引方式,以方便后续进行相似度对比,和识别信息时,能较快的查找到已推荐信息,提高信息查找的速率。
步骤203,判断文本相似度是否大于第一阈值,如果是,则执行步骤204,否则,执行步骤205。
具体地,将文本相似度和预先设定的第一阈值比对,若文本相似度大于第一阈值,则待推荐信息的文本部分和已推荐信息的文本部分内容重复,为重复推荐信息,将该待推荐信息丢弃。若文本相似度不大于第一阈值,也就是文本相似度都小于等于第一阈值,则将文本相似度和第二阈值比对,继续判断待推荐信息的文本部分和已推荐信息的文本部分的相似程度。
步骤204,确定待推荐信息为重复推荐,丢弃待推荐信息。
步骤205,判断文本相似度是否大于等于第二阈值,如果是,则执行步骤206,否则,执行步骤209。
具体地,步骤203中已经确定文本相似度是小于等于第一阈值,若文本相似程度大于等于第二阈值,则说明待推荐信息的文本部分和已推荐信息的文本部分不重复但是部分相似,需要进一步结合待推荐信息的图片部分和已推荐信息的图片部分,通过计算图片相似度来确定待推荐信息是否为重复推荐的信息。
步骤206,确定已推荐信息为目标信息。
具体地,将文本相似程度大于等于第二阈值,小于等于第一阈值对应的已推荐信息,确定为目标信息。
步骤207,根据待推荐信息的图片部分,和目标信息的图片部分,计算图片相似度。
对待推荐信息的图片部分和目标信息的图片部分进行图片处理,提取图片部分的指纹特征,进而生成指纹特征的向量,以提取待推荐信息的图片的指纹特征为例,进行说明,作为一种可能的实现方式,生成待推荐信息的图片部分的灰度直方图,灰度直方图是具有每种灰度级别的像素的个数,依据灰度等级,将灰度直方图划分为多个区域,每个区域具有多个灰度等级,例如,以灰度直方图划分为64个区域,每个区域为4个灰度等级为例,进行说明。针对每个区域,对每个灰度等级内灰度值对应的像素数求和,计算得到4个灰度等级内的像素数的和,从而得到该区域对应的像素数的和,同理,得到其它63个区域的像素数的和,将每一个区域像素数的和作为图片部分的指纹特征中对应元素的取值,使得指纹特征为一个具有64个元素的向量,即为待推荐信息的图片部分的指纹特征的向量,同理,可提取得到目标信息的图片部分的指纹特征的向量。
进而,根据待推荐信息的图片部分的指纹特征向量和目标信息的图片部分的指纹特征向量,计算图片相似度,作为一种可能的实现方式,可采用汉明距离来计算得到图片相似度。
步骤208,判断是否存在图片相似度大于第三阈值的目标图片,若是,则执行步骤204,否则,执行步骤209。
具体地,将图片相似度和第三阈值比对,若待推荐信息和目标信息的图片相似度大于第三阈值,则说明待推荐信息和目标信息重复,待推荐信息需要丢弃。
若多个目标信息与待推荐信息的图片相似度均不高于第三阈值,则说明该待推荐信息不为重复推荐,可以向用户推荐该信息。
步骤209,确定待推荐信息不为重复推荐,向用户推荐该待推荐信息。
本发明实施例的信息推荐方法中,计算待推荐信息的文本部分和已推荐信息的文本部分的相似程度,通过将相似度和阈值比对,确定待推荐信息的文本部分和已推荐信息的文本部分的相似程度,根据相似程度的小大,确定待推荐信息为重复信息,则丢弃,若不为重复信息,则推荐给用户,若和已推荐信息部分相似,则进一步比对已推荐信息的图片部分和待推荐信息的图片部分的图片相似度,根据图片相似度,确定待推荐信息是否为重复推荐,通过将文本部分的相似度和图片部分的相似度结合,来判断待推荐信息是否为重复推荐信息,提高了推荐信息识别的准确度,用户体验度好。
为了实现上述实施例,本发明还提出一种信息推荐装置。
图3为本发明实施例提供的一种信息推荐装置的结构示意图。
如图3所示,该装置包括:获取模块31、识别模块32、确定模块33、判断模块34和推荐模块35。
获取模块31,用于获取待推荐信息。
识别模块32,用于根据待推荐信息的文本部分,从向同一用户推荐的已推荐信息中,识别得到目标信息,其中,目标信息的文本部分与待推荐信息的文本部分相似。
确定模块33,用于识别待推荐信息的图片部分与各目标信息中的图片部分之间的图片相似度。
判断模块34,用于根据图片相似度,识别待推荐信息是否为重复推荐。
推荐模块35,用于若不为重复推荐,向用户推荐待推荐信息。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本发明实施例的一种信息推荐装置中,获取模块用于获取待推荐信息,识别模块用于根据待推荐信息的文本部分,从向同一用户推荐的已推荐信息中,识别得到目标信息,确定模块用于识别待推荐信息的图片部分与各目标信息中的图片部分之间的图片相似度,判断模块用于根据图片相似度,识别待推荐信息是否为重复推荐,推荐模块用于若不为重复推荐,向用户推荐待推荐信息。通过从已推荐信息中,识别出与待推荐信息的文本部分相似的目标信息,进而识别待推荐信息的图片部分和各目标信息中的图像部分的图片相似度,根据相似度识别待推荐信息是否为重复推荐,提高了识别准确率,解决了相关技术中,只通过识别待推荐信息和已推荐信息的文本相似度来识别是否为重复推荐,致使信息识别不准确,识别准确率低的问题。
基于上述实施例,本发明实施例还提供了一种信息推荐装置的可能的实现方式,图4为本发明实施例所提供的另一种信息推荐装置的结构示意图,在上一实施例的基础上,识别模块32还包括:第一生成单元321、第二生成单元322、计算单元323和确定单元324。
第一生成单元321,用于根据待推荐信息的文本部分,生成第一向量。
第二生成单元322,用于针对每一个已推荐信息,根据已推荐信息的文本部分,生成第二向量。
确定单元324,若第一向量和第二向量之间的文本相似度大于或等于第二阈值,且小于或等于第一阈值,确定已推荐信息为目标信息。
作为一种可能的实现方式,识别模块32,还可以包括:计算单元323。
计算单元323,用于计算第一向量和第二向量之间的余弦相似度,作为文本相似度。
作为一种可能的实现方式,第一生成单元321,具体用于:
对待推荐信息的文本部分进行切词,并根据待推荐文本对切词后的词条进行词频统计,依据各词条的词频对各词条进行排序,根据排序后的各词条,生成所述第一向量。
作为一种可能的实现方式,第二生成单元322,具体用于:
对已推荐信息的文本部分进行切词,并根据已推荐信息对切词后的词条进行词频统计,依据各词条的词频对各词条进行排序,根据排序后的各词条,生成第二向量。
作为一种可能的实现方式,确定单元324,还可以用于:
若第一向量和第二向量之间的文本相似度大于第一阈值,确定待推荐信息的文本部分与已推荐信息的文本部分内容重复,丢弃待推荐文本;若第一向量和第二向量之间的文本相似度小于所述第二阈值,确定待推荐信息的文本部分与已推荐信息的文本部分内容不重复,向用户推荐待推荐文本。
作为一种可能的实现方式,确定模块33,具体用于:
分别对待推荐信息和目标信息,提取图片部分的指纹特征,其中,指纹特征是将图片部分的灰度直方图,划分为多个灰度等级,针对每一个灰度等级,将灰度等级内各灰度值对应的像素数之和,作为指纹特征中灰度等级对应元素的取值,根据待推荐信息的指纹特征和目标信息的指纹特征,确定图片相似度。
作为一种可能的实现方式,判断模块34,具体用于:
在多个目标信息中,若存在图片相似度高于第三阈值的目标信息,确定待推荐信息为重复推荐,丢弃待推荐信息;若多个目标信息与待推荐信息的图片相似度均不高于第三阈值,向用户推荐待推荐信息。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本发明实施例的一种信息推荐装置中,获取模块用于获取待推荐信息,识别模块用于根据待推荐信息的文本部分,从向同一用户推荐的已推荐信息中,识别得到目标信息,确定模块用于识别待推荐信息的图片部分与各目标信息中的图片部分之间的图片相似度,判断模块用于根据图片相似度,识别待推荐信息是否为重复推荐,推荐模块用于若不为重复推荐,向用户推荐待推荐信息。通过从已推荐信息中,识别出与待推荐信息的文本部分相似的目标信息,进而识别待推荐信息的图片部分和各目标信息中的图像部分的图片相似度,根据相似度识别待推荐信息是否为重复推荐,提高了识别准确率,解决了相关技术中,只通过识别待推荐信息和已推荐信息的文本相似度来识别是否为重复推荐,致使信息识别不准确,识别准确率低的问题。
为了实现上述实施例,本发明还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述方法实施例所述的信息推荐方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,当该程序被处理器处理时,实现如前述方法实施例所述的信息推荐方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如前述方法实施例所述的信息推荐方法。
图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图5显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种信息推荐方法,其特征在于,包括以下步骤:
获取待推荐信息;
根据所述待推荐信息的文本部分,从向同一用户推荐的已推荐信息中,识别得到目标信息,其中,根据所述待推荐信息的文本部分,生成第一向量;针对每一个已推荐信息,根据所述已推荐信息的文本部分,生成第二向量;若所述第一向量和所述第二向量之间的文本相似度大于或等于第二阈值,且小于或等于第一阈值,确定所述已推荐信息为所述目标信息,所述目标信息为多个,所述目标信息的文本部分与所述待推荐信息的文本部分相似,所述目标信息从所述已推荐信息中获取;
识别所述待推荐信息的图片部分与各目标信息中的图片部分之间的图片相似度;
根据所述图片相似度,识别所述待推荐信息是否为重复推荐,其中,在多个目标信息中,若存在所述图片相似度高于第三阈值的目标信息,确定所述待推荐信息为重复推荐,丢弃所述待推荐信息;若所述多个目标信息与所述待推荐信息的图片相似度均不高于所述第三阈值,则确定所述待推荐信息为不重复信息;
若不为重复推荐,向所述用户推荐所述待推荐信息;
所述识别所述待推荐信息的图片部分与各目标信息中的图片部分之间的图片相似度,包括:
分别对所述待推荐信息和目标信息,提取图片部分的指纹特征;其中,所述指纹特征是将所述图片部分的灰度直方图,划分为多个灰度等级,针对每一个灰度等级,将所述灰度等级内各灰度值对应的像素数之和,作为所述指纹特征中所述灰度等级对应元素的取值;
根据所述待推荐信息的指纹特征和所述目标信息的指纹特征,确定所述图片相似度。
2.根据权利要求1所述的信息推荐方法,其特征在于,所述方法还包括:
若所述第一向量和所述第二向量之间的文本相似度大于第一阈值,确定所述待推荐信息的文本部分与所述已推荐信息的文本部分内容重复,丢弃待推荐文本;
若所述第一向量和所述第二向量之间的文本相似度小于所述第二阈值,确定所述待推荐信息的文本部分与所述已推荐信息的文本部分内容不重复,向所述用户推荐所述待推荐文本。
3.根据权利要求1所述的信息推荐方法,其特征在于,所述根据所述待推荐信息的文本部分,生成第一向量,包括:
对待推荐信息的文本部分进行切词,并根据待推荐文本对切词后的词条进行词频统计;
依据各词条的词频对各词条进行排序;
根据排序后的各词条,生成所述第一向量。
4.根据权利要求1所述的信息推荐方法,其特征在于,所述根据所述已推荐信息的文本部分,生成第二向量,包括:
对所述已推荐信息的文本部分进行切词,并根据所述已推荐信息对切词后的词条进行词频统计;
依据各词条的词频对各词条进行排序;
根据排序后的各词条,生成所述第二向量。
5.根据权利要求1所述的信息推荐方法,其特征在于,所述生成第一向量和生成第二向量之后,还包括:
计算所述第一向量和所述第二向量之间的余弦相似度,作为所述文本相似度。
6.一种信息推荐装置,其特征在于,包括:
获取模块,用于获取待推荐信息;
识别模块,用于根据所述待推荐信息的文本部分,从向同一用户推荐的已推荐信息中,识别得到目标信息,其中,根据所述待推荐信息的文本部分,生成第一向量;针对每一个已推荐信息,根据所述已推荐信息的文本部分,生成第二向量;若所述第一向量和所述第二向量之间的文本相似度大于或等于第二阈值,且小于或等于第一阈值,确定所述已推荐信息为所述目标信息,所述目标信息为多个,所述目标信息的文本部分与所述待推荐信息的文本部分相似,所述目标信息从所述已推荐信息中获取;
确定模块,用于识别所述待推荐信息的图片部分与各目标信息中的图片部分之间的图片相似度;
判断模块,用于根据所述图片相似度,识别所述待推荐信息是否为重复推荐,其中,在多个目标信息中,若存在所述图片相似度高于第三阈值的目标信息,确定所述待推荐信息为重复推荐,丢弃所述待推荐信息;若所述多个目标信息与所述待推荐信息的图片相似度均不高于所述第三阈值,则确定所述待推荐信息为不重复信息;
推荐模块,用于若不为重复推荐,向所述用户推荐所述待推荐信息;
所述识别所述待推荐信息的图片部分与各目标信息中的图片部分之间的图片相似度,包括:
分别对所述待推荐信息和目标信息,提取图片部分的指纹特征;其中,所述指纹特征是将所述图片部分的灰度直方图,划分为多个灰度等级,针对每一个灰度等级,将所述灰度等级内各灰度值对应的像素数之和,作为所述指纹特征中所述灰度等级对应元素的取值;
根据所述待推荐信息的指纹特征和所述目标信息的指纹特征,确定所述图片相似度。
7.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-5中任一项所述的信息推荐方法。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的信息推荐方法。
CN201810100241.1A 2018-02-01 2018-02-01 信息推荐方法、装置和计算机设备 Active CN108460098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810100241.1A CN108460098B (zh) 2018-02-01 2018-02-01 信息推荐方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810100241.1A CN108460098B (zh) 2018-02-01 2018-02-01 信息推荐方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN108460098A CN108460098A (zh) 2018-08-28
CN108460098B true CN108460098B (zh) 2023-04-07

Family

ID=63238373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810100241.1A Active CN108460098B (zh) 2018-02-01 2018-02-01 信息推荐方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN108460098B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476621B (zh) * 2019-01-24 2023-09-22 百度在线网络技术(北京)有限公司 用户物品推荐方法和装置
CN110427557A (zh) * 2019-07-30 2019-11-08 广州虎牙科技有限公司 主播推荐方法、装置、电子设备及计算机可读存储介质
CN110618888A (zh) * 2019-08-01 2019-12-27 平安科技(深圳)有限公司 对系统错误进行重复识别的方法和相关装置
CN113128923B (zh) * 2020-01-15 2024-05-21 北京京东乾石科技有限公司 一种储位推荐方法和装置
CN113033912A (zh) * 2021-04-16 2021-06-25 中国建设银行股份有限公司 问题解决人推荐方法及装置
CN113065619A (zh) * 2021-06-03 2021-07-02 明品云(北京)数据科技有限公司 数据处理方法、装置、计算机可读存储介质及设备
CN113495969B (zh) * 2021-09-08 2022-02-08 腾讯科技(深圳)有限公司 数字指纹生成、媒体数据推荐方法、装置和计算机设备
CN114117112B (zh) * 2022-01-25 2022-05-24 深圳爱莫科技有限公司 通用的文本图片查重方法、存储介质及处理设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8620083B2 (en) * 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
CN101645082B (zh) * 2009-04-17 2011-04-20 华中科技大学 基于并行编程模式的相似网页去重系统
CN102831127B (zh) * 2011-06-17 2015-04-22 阿里巴巴集团控股有限公司 重复数据处理方法、装置及系统
CN102567473A (zh) * 2011-12-14 2012-07-11 鸿富锦精密工业(深圳)有限公司 网络信息检索系统及检索方法
CN104809158B (zh) * 2015-03-26 2018-05-18 小米科技有限责任公司 网络内容过滤方法及装置
CN106021383A (zh) * 2016-05-11 2016-10-12 乐视控股(北京)有限公司 网页相似度计算方法及装置

Also Published As

Publication number Publication date
CN108460098A (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
CN108460098B (zh) 信息推荐方法、装置和计算机设备
CN107330023B (zh) 基于关注点的文本内容推荐方法和装置
CN110543592B (zh) 信息搜索方法、装置以及计算机设备
CN109918513B (zh) 图像处理方法、装置、服务器及存储介质
CN108182246B (zh) 敏感词检测过滤方法、装置和计算机设备
CN108563655B (zh) 基于文本的事件识别方法和装置
CN109376256B (zh) 图像搜索方法及装置
WO2014174932A1 (ja) 画像処理装置、プログラム及び画像処理方法
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN107766325B (zh) 文本拼接方法及其装置
CN108090211B (zh) 热点新闻推送方法和装置
CN107273883B (zh) 决策树模型训练方法、确定ocr结果中数据属性方法及装置
CN108170806B (zh) 敏感词检测过滤方法、装置和计算机设备
CN111836118B (zh) 视频处理方法、装置、服务器及存储介质
CN110826494A (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
CN108345700B (zh) 文章代表图片的选取方法、装置和计算机设备
CN113887375A (zh) 一种文本识别方法、装置、设备及存储介质
CN110475139B (zh) 一种视频字幕的遮挡方法、装置、存储介质及电子设备
CN108235126B (zh) 在视频中插入推荐信息的方法和装置
CN114639056A (zh) 直播内容的识别方法、装置、计算机设备及存储介质
US11935300B2 (en) Techniques for generating candidate match cuts
CN115861255A (zh) 用于图像处理的模型训练方法、装置、设备、介质及产品
JP2020525963A (ja) メディア特徴の比較方法及び装置
CN112818984B (zh) 标题生成方法、装置、电子设备和存储介质
CN109299294B (zh) 应用中的资源搜索方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant