CN112765342A - 一种基于时间与语义的文章推荐方法 - Google Patents

一种基于时间与语义的文章推荐方法 Download PDF

Info

Publication number
CN112765342A
CN112765342A CN202110301195.3A CN202110301195A CN112765342A CN 112765342 A CN112765342 A CN 112765342A CN 202110301195 A CN202110301195 A CN 202110301195A CN 112765342 A CN112765342 A CN 112765342A
Authority
CN
China
Prior art keywords
article
matrix
time
content
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110301195.3A
Other languages
English (en)
Other versions
CN112765342B (zh
Inventor
陆辰
王振宇
王羽
荀智德
葛唯益
郭成昊
陆宏
朱云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202110301195.3A priority Critical patent/CN112765342B/zh
Publication of CN112765342A publication Critical patent/CN112765342A/zh
Application granted granted Critical
Publication of CN112765342B publication Critical patent/CN112765342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于时间与语义的文章推荐方法,包括:从文章数据库中获取所有文章的信息,根据每篇文章的标题和内容,获得每篇文章的向量表示,文章的信息包括标题、内容和发表时间;构建文章向量矩阵,用于批量计算每两篇文章之间的余弦相似度和余弦距离;根据每篇文章的发表时间,构建时间矩阵,用于批量计算每两篇文章之间的距离;根据用户查看的目标文章向用户推荐相似文章。本发明能够避免面向海量文章逐个遍历、两两计算相似度及距离导致的处理效率过低的问题,且综合考虑了时间、语义两方面因素,提高了文章相似度及距离计算的性能,保障推荐文章的效果。

Description

一种基于时间与语义的文章推荐方法
技术领域
本发明涉及推荐技术领域,尤其涉及一种基于时间与语义的文章推荐方法。
背景技术
当前正处于互联网数据大爆炸的历史发展时期,网络信息的数据呈现指数级增长,海量的信息导致用户准确找到所需信息变得异常艰难,文章推荐已经成为减轻用户信息负载的重要途径。
论文《基于深度学习的个性化新闻推荐》、《基于项目特征和排序学习的新闻推荐系统设计及实现》等基于用户的浏览情况构建特征,向用户推荐其感兴趣的新闻,最终推荐的结果与用户感兴趣的领域相关,但是与当前浏览的新闻未必相关,不适用于用户希望针对特定新闻事件进行持续浏览的情况。现已公开的国家发明专利《一种文章相似度推荐方法和装置》,但在现有技术中,仅考虑了语义层面的因素,通过词频统计分析文章的相似度,进而向用户推荐文章,这可能导致推荐的文章虽然与用户浏览的文章相似,但时间相距甚远,与用户关注的特定时间段特定新闻事件并不相关。
此外,由于文章具有时效性,特定新闻事件发生同期会涌现大量相关文章,发生前以及发生后的一定时间以后往往没有相关新闻,因此文章的发表时间能够一定程度上表征文章的相关性。但是,与指定文章同期发表的其他文章,可能是其他新闻事件的相关报道,因此未必与该文章相关。
发明内容
本发明提供了一种基于时间与语义的文章推荐方法,以解决现有的文章推荐方法在进行相似度计算从而向用户推荐文章时,仅考虑语义层面的因素或者仅考虑时间层面的因素,导致推荐的文章与用户浏览的特定新闻事件相关度较低这一问题。
本发明提供的一种基于时间与语义的文章推荐方法,包括以下步骤:
步骤1,从文章数据库中获取所有文章的信息,根据每篇所述文章的标题和内容,获得所述每篇文章的向量表示,所述文章的信息包括标题、内容和发表时间;
步骤2,构建文章向量矩阵,用于批量计算每两篇所述文章之间的余弦相似度和余弦距离;
步骤3,根据所述每篇文章的发表时间,构建时间矩阵,用于批量计算所述每两篇文章之间的距离;
步骤4,根据用户查看的目标文章向用户推荐相似文章。
进一步地,在一种实现方式中,所述步骤1,包括:
步骤1.1,根据所述每篇文章的标题和内容,基于词嵌入模型获取所述每篇文章的标题的向量表示;本发明中,词嵌入模型可使用但不限于bert、word2vec等。
步骤1.2,对所述每篇文章的内容进行分词,对照停用词表,去除所述内容中的停用词,基于所述词嵌入模型获取文章的内容的向量表示;
步骤1.3,根据所述每篇文章的标题的向量表示和内容的向量表示,生成所述每篇文章的向量表示。
进一步地,在一种实现方式中,所述步骤1.3,包括:采用向量拼接方法或基于权重的累加方法生成所述每篇文章的向量表示;
所述向量拼接方法分别将每篇文章的标题的向量表示和内容的向量表示进行拼接,作为所述每篇文章的向量表示:
Xi=[Xi-title Xi-content]
其中,Xi为文章i的向量表示,Xi-title为文章i的标题的向量表示,Xi-content为文章i的内容的向量表示;
所述基于权重的累加方法对每篇文章的标题和内容分别设置权重,通过加权求和获得所述每篇文章的向量表示:
Xi=wi-titleXi-title+wi-contentXi-content
其中,wi-title为文章i的标题权重,wi-content为文章i的内容权重,
标题权重wi-title和内容权重wi-content的取值范围均为(0,1),wi-title+wi-content=1。
进一步地,在一种实现方式中,所述步骤2,包括:
步骤2.1,将所有所述文章的向量表示按行拼接,
其中,文章总篇数为n,每篇文章的向量维度为1×m,文章的i的编号为IDi,此处n≥2,m≥200,IDi≥0且唯一,记录文章拼接顺序向量ID=[ID1 ID2 … IDn],同时得到维度为n×m的文章矩阵:
Figure BDA0002986362510000031
步骤2.2,将所述文章矩阵与文章矩阵的转置矩阵相乘,得到维度为n×n的矩阵Y:Y=XXT
步骤2.3,对所述每篇文章的向量表示求模并按行拼接,得到文章模向量:
Z=[|X1||X2|…|Xn|]T
步骤2.4,将所述文章模向量与文章模向量的转置矩阵相乘,得到维度为n×n的矩阵A:A=ZZT
步骤2.5,将所述矩阵Y与矩阵A对应元素相除,得到文章余弦相似度矩阵Scos=Y./A,其中第i行第j列的元素代表文章i与文章j的余弦相似度;
步骤2.6,用全一矩阵减去所述文章余弦相似度矩阵Scos,得到文章余弦距离矩阵Dcos=1-Scos
进一步地,在一种实现方式中,所述步骤3,包括:
步骤3.1,判断所述文章余弦距离矩阵Dcos中的元素的绝对值是否小于10-5,将所述文章余弦距离矩阵Dcos中的绝对值小于10-5的元素赋值为0;
步骤3.2,根据所述每篇文章i的发表时间Ti,将所有所述文章的发表时间构建为时间矩阵:
Figure BDA0002986362510000041
步骤3.3,将所述时间矩阵减去时间矩阵的转置矩阵,得到时间差矩阵TD=T-TT
步骤3.4,比较所述时间差矩阵中元素绝对值与时间阈值Tt的大小;
若所述时间差矩阵中元素绝对值大于时间阈值Tt,将所述元素赋值为1;
若所述时间差矩阵中元素绝对值小于或等于时间阈值Tt,将所述元素赋值为0;
得到时间跨度表征矩阵T1,对所述矩阵T1取反得到时间跨度反向表征矩阵T2
步骤3.5,结合所述文章余弦距离矩阵矩阵Dcos、时间跨度表征矩阵T1和时间跨度反向表征矩阵T2,得到文章距离矩阵D=wTT1+T2.*Dcos,此处wT≥2。
进一步地,在一种实现方式中,所述步骤4,包括:
步骤4.1,根据用户查看的目标文章的文章编号IDs,检索所述目标文章的文章拼接顺序向量ID,得到所述用户查看的目标文章的IDs在文章拼接顺序向量ID所处的元素位置k;
步骤4.2,令文章距离阈值为Dt,根据元素位置k,搜索所述文章距离矩阵D的第k行,得到元素值小于所述距离阈值Dt的元素所属列位置,找到文章拼接顺序向量相应位置的文章ID,即确定所述相似文章,并将所述相似文章推荐给用户;
或者,
令文章距离阈值为Dt,根据元素位置k,搜索所述文章距离矩阵D的第k列,得到元素值小于所述距离阈值Dt的元素所属行位置,找到文章拼接顺序向量相应位置的文章ID,即确定所述相似文章,将所述相似文章推荐给用户。
现有技术中,在进行相似度计算从而向用户推荐文章时,仅考虑语义层面的因素或者仅考虑时间层面的因素,导致推荐的文章与用户浏览的特定新闻事件相关度较低。而采用前述方法,为了解决文章推荐问题,综合考虑了时间、语义两方面因素,批量计算文章距离,并基于文章距离向用户推荐相关文章,达到了提升文章推荐相关度的效果。本发明能够避免面向海量文章逐个遍历、两两计算相似度及距离导致的处理效率过低的问题,且综合考虑了时间、语义两方面因素,提高了文章相似度及距离计算的性能,保障推荐文章的效果。因此,相对于现有技术大大提高推荐的文章与用户浏览的文章的相关度,进而提升了用户浏览文章时的体验。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例部分提供的一种基于时间与语义的文章推荐方法的工作流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明实施例公开一种基于时间与语义的文章推荐方法,包括根据文章标题、文章内容,得到文章的向量表示;构建文章向量矩阵,批量计算文章之间的余弦相似度与余弦距离;根据文章发表时间,构建时间矩阵,批量计算文章距离;根据用户查看的文章向其推荐相似文章。本方法应用于针对反复发生的事件或持续发展的主题的分析,能够帮助用户聚焦关注的时间窗口内的资讯,或聚焦同一时间窗口、主题下针对相同事件的资讯。下面结合具体的实施例对本发明进行详细说明,应理解本实施例仅用于解释本发明,并不限定本发明的范围。
本发明实施例提供的一种基于时间与语义的文章推荐方法,包括以下步骤:
步骤1,从文章数据库中获取所有文章的信息,根据每篇所述文章的标题和内容,获得所述每篇文章的向量表示,所述文章的信息包括标题、内容和发表时间;
步骤2,构建文章向量矩阵,用于批量计算每两篇所述文章之间的余弦相似度和余弦距离;
步骤3,根据所述每篇文章的发表时间,构建时间矩阵,用于批量计算所述每两篇文章之间的距离;
步骤4,根据用户查看的目标文章向用户推荐相似文章。
本发明实施例所述的一种基于时间与语义的文章推荐方法中,所述步骤1,包括:
步骤1.1,根据所述每篇文章的标题和内容,基于词嵌入模型获取所述每篇文章的标题的向量表示;本实施例中,所述词嵌入模型可使用但不限于bert、word2vec等。
步骤1.2,对所述每篇文章的内容进行分词,对照停用词表,去除所述内容中的停用词,基于所述词嵌入模型获取文章的内容的向量表示;本实施例汇总,此处的停用词表基于哈工大停用词表、百度停用词表等进行汇总生成。
步骤1.3,根据所述每篇文章的标题的向量表示和内容的向量表示,生成所述每篇文章的向量表示。
本发明实施例所述的一种基于时间与语义的文章推荐方法中,所述步骤1.3,包括:采用向量拼接方法或基于权重的累加方法生成所述每篇文章的向量表示;
所述向量拼接方法分别将每篇文章的标题的向量表示和内容的向量表示进行拼接,作为所述每篇文章的向量表示:
Xi=[Xi-title Xi-content]
其中,Xi为文章i的向量表示,Xi-title为文章i的标题的向量表示,Xi-content为文章i的内容的向量表示;
本实施例中,所述向量拼接方法可用于标题和内容同等重要的应用场合。
所述基于权重的累加方法对每篇文章的标题和内容分别设置权重,通过加权求和获得所述每篇文章的向量表示:
Xi=wi-titleXi-title+wi-contentXi-content
其中,wi-title为文章i的标题权重,wi-content为文章i的内容权重,
标题权重wi-title和内容权重wi-content的取值范围均为(0,1),wi-title+wi-content=1。
本发明实施例所述的一种基于时间与语义的文章推荐方法中,所述步骤2,包括:
步骤2.1,将所有所述文章的向量表示按行拼接,
其中,文章总篇数为n,每篇文章的向量维度为1×m,文章的i的编号为IDi,此处n≥2,m≥200,IDi≥0且唯一,记录文章拼接顺序向量ID=[ID1 ID2 … IDn],同时得到维度为n×m的文章矩阵:
Figure BDA0002986362510000071
步骤2.2,将所述文章矩阵与文章矩阵的转置矩阵相乘,得到维度为n×n的矩阵Y:Y=XXT
步骤2.3,对所述每篇文章的向量表示求模并按行拼接,得到文章模向量:
Z=[|X1| |X2|…|Xn|]T
步骤2.4,将所述文章模向量与文章模向量的转置矩阵相乘,得到维度为n×n的矩阵A:A=ZZT
步骤2.5,将所述矩阵Y与矩阵A对应元素相除,得到文章余弦相似度矩阵Scos=Y./A,其中第i行第j列的元素代表文章i与文章j的余弦相似度;
步骤2.6,用全一矩阵减去所述文章余弦相似度矩阵Scos,得到文章余弦距离矩阵Dcos=1-Scos
本发明实施例所述的一种基于时间与语义的文章推荐方法中,所述步骤3,包括:
步骤3.1,判断所述文章余弦距离矩阵Dcos中的元素的绝对值是否小于10-5,将所述文章余弦距离矩阵Dcos中的绝对值小于10-5的元素赋值为0;
步骤3.2,根据所述每篇文章i的发表时间Ti,将所有所述文章的发表时间构建为时间矩阵:
Figure BDA0002986362510000081
步骤3.3,将所述时间矩阵减去时间矩阵的转置矩阵,得到时间差矩阵TD=T-TT
步骤3.4,比较所述时间差矩阵中元素绝对值与时间阈值Tt的大小;
若所述时间差矩阵中元素绝对值大于时间阈值Tt,将所述元素赋值为1;
若所述时间差矩阵中元素绝对值小于或等于时间阈值Tt,将所述元素赋值为0;
得到时间跨度表征矩阵T1,对所述矩阵T1取反得到时间跨度反向表征矩阵T2
步骤3.5,结合所述文章余弦距离矩阵矩阵Dcos、时间跨度表征矩阵T1和时间跨度反向表征矩阵T2,得到文章距离矩阵D=wTT1+T2.*Dcos,此处wT≥2。
本发明实施例所述的一种基于时间与语义的文章推荐方法中,所述步骤4,包括:
步骤4.1,根据用户查看的目标文章的文章编号IDs,检索所述目标文章的文章拼接顺序向量ID,得到所述用户查看的目标文章的IDs在文章拼接顺序向量ID所处的元素位置k;
步骤4.2,令文章距离阈值为Dt,根据元素位置k,搜索所述文章距离矩阵D的第k行,得到元素值小于所述距离阈值Dt的元素所属列位置,找到文章拼接顺序向量相应位置的文章ID,即确定所述相似文章,并将所述相似文章推荐给用户;
或者,令文章距离阈值为Dt,根据元素位置k,搜索所述文章距离矩阵D的第k列,得到元素值小于所述距离阈值Dt的元素所属行位置,找到文章拼接顺序向量相应位置的文章ID,即确定所述相似文章,将所述相似文章推荐给用户。
具体的,本发明实施例中,针对某货运平台的乘客跳车事件,收集46篇新闻存入数据库,人工标记为跳车事件分析、平台系统整改两个维度的新闻,使用BERT词嵌入模型生成标题向量、内容向量,将标题权重设置为0.7,内容权重设置为0.3,时间阈值设置为7天,文章距离阈值设置为0.13,随机浏览新闻时,推荐相似文章的准确率达到92%,召回率为86%,因此,采用本发明提供的一种基于时间与语义的文章推荐方法,能够帮助用户聚焦在其关注的维度,提高查阅文章的效率,可根据使用需要调节参数设置,在准确率和召回率之间达到比较均衡的效果。
现有技术中,在进行相似度计算从而向用户推荐文章时,仅考虑语义层面的因素或者仅考虑时间层面的因素,导致推荐的文章与用户浏览的特定新闻事件相关度较低。而采用前述方法,为了解决文章推荐问题,综合考虑了时间、语义两方面因素,批量计算文章距离,并基于文章距离向用户推荐相关文章,达到了提升文章推荐相关度的效果。本发明能够避免面向海量文章逐个遍历、两两计算相似度及距离导致的处理效率过低的问题,且综合考虑了时间、语义两方面因素,提高了文章相似度及距离计算的性能,保障推荐文章的效果。因此,相对于现有技术大大提高推荐的文章与用户浏览的文章的相关度,进而提升了用户浏览文章时的体验。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的一种基于时间与语义的文章推荐方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (6)

1.一种基于时间与语义的文章推荐方法,其特征在于,包括以下步骤:
步骤1,从文章数据库中获取所有文章的信息,根据每篇所述文章的标题和内容,获得所述每篇文章的向量表示,所述文章的信息包括标题、内容和发表时间;
步骤2,构建文章向量矩阵,用于批量计算每两篇所述文章之间的余弦相似度和余弦距离;
步骤3,根据所述每篇文章的发表时间,构建时间矩阵,用于批量计算所述每两篇文章之间的距离;
步骤4,根据用户查看的目标文章向用户推荐相似文章。
2.根据权利要求1所述的一种基于时间与语义的文章推荐方法,其特征在于,所述步骤1,包括:
步骤1.1,根据所述每篇文章的标题和内容,基于词嵌入模型获取所述每篇文章的标题的向量表示;
步骤1.2,对所述每篇文章的内容进行分词,对照停用词表,去除所述内容中的停用词,基于所述词嵌入模型获取文章的内容的向量表示;
步骤1.3,根据所述每篇文章的标题的向量表示和内容的向量表示,生成所述每篇文章的向量表示。
3.根据权利要求2所述的一种基于时间与语义的文章推荐方法,其特征在于,所述步骤1.3,包括:采用向量拼接方法或基于权重的累加方法生成所述每篇文章的向量表示;
所述向量拼接方法分别将每篇文章的标题的向量表示和内容的向量表示进行拼接,作为所述每篇文章的向量表示:
Xi=[Xi-title Xi-content]
其中,Xi为文章i的向量表示,Xi-title为文章i的标题的向量表示,Xi-content为文章i的内容的向量表示;
所述基于权重的累加方法对每篇文章的标题和内容分别设置权重,通过加权求和获得所述每篇文章的向量表示:
Xi=wi-titleXi-title+wi-contentXi-content
其中,wi-title为文章i的标题权重,wi-content为文章i的内容权重,
标题权重wi-title和内容权重wi-content的取值范围均为(0,1),wi-title+wi-content=1。
4.根据权利要求1所述的一种基于时间与语义的文章推荐方法,其特征在于,所述步骤2,包括:
步骤2.1,将所有所述文章的向量表示按行拼接,
其中,文章总篇数为n,每篇文章的向量维度为1×m,文章的i的编号为IDi,此处n≥2,m≥200,IDi≥0且唯一,记录文章拼接顺序向量ID=[ID1 ID2 … IDn],同时得到维度为n×m的文章矩阵:
Figure FDA0002986362500000021
步骤2.2,将所述文章矩阵与文章矩阵的转置矩阵相乘,得到维度为n×n的矩阵Y:Y=XXT
步骤2.3,对所述每篇文章的向量表示求模并按行拼接,得到文章模向量:
Z=[X1| |X2| … |Xn|]T
步骤2.4,将所述文章模向量与文章模向量的转置矩阵相乘,得到维度为n×n的矩阵A:A=ZZT
步骤2.5,将所述矩阵Y与矩阵A对应元素相除,得到文章余弦相似度矩阵Scos=Y./A,其中第i行第j列的元素代表文章i与文章j的余弦相似度;
步骤2.6,用全一矩阵减去所述文章余弦相似度矩阵Scos,得到文章余弦距离矩阵Dcos=1-Scos
5.根据权利要求1所述的一种基于时间与语义的文章推荐方法,其特征在于,所述步骤3,包括:
步骤3.1,判断所述文章余弦距离矩阵Dcos中的元素的绝对值是否小于10-5,将所述文章余弦距离矩阵Dcos中的绝对值小于10-5的元素赋值为0;
步骤3.2,根据所述每篇文章i的发表时间Ti,将所有所述文章的发表时间构建为时间矩阵:
Figure FDA0002986362500000031
步骤3.3,将所述时间矩阵减去时间矩阵的转置矩阵,得到时间差矩阵TD=T-TT
步骤3.4,比较所述时间差矩阵中元素绝对值与时间阈值Tt的大小;
若所述时间差矩阵中元素绝对值大于时间阈值Tt,将所述元素赋值为1;
若所述时间差矩阵中元素绝对值小于或等于时间阈值Tt,将所述元素赋值为0;
得到时间跨度表征矩阵T1,对所述矩阵T1取反得到时间跨度反向表征矩阵T2
步骤3.5,结合所述文章余弦距离矩阵矩阵Dcos、时间跨度表征矩阵T1和时间跨度反向表征矩阵T2,得到文章距离矩阵D=wTT1+T2.*Dcos,此处wT≥2。
6.根据权利要求1所述的一种基于时间与语义的文章推荐方法,其特征在于,所述步骤4,包括:
步骤4.1,根据用户查看的目标文章的文章编号IDs,检索所述目标文章的文章拼接顺序向量ID,得到所述用户查看的目标文章的IDs在文章拼接顺序向量ID所处的元素位置k;
步骤4.2,令文章距离阈值为Dt,根据元素位置k,搜索所述文章距离矩阵D的第k行,得到元素值小于所述距离阈值Dt的元素所属列位置,找到文章拼接顺序向量相应位置的文章ID,即确定所述相似文章,并将所述相似文章推荐给用户;
或者,
令文章距离阈值为Dt,根据元素位置k,搜索所述文章距离矩阵D的第k列,得到元素值小于所述距离阈值Dt的元素所属行位置,找到文章拼接顺序向量相应位置的文章ID,即确定所述相似文章,将所述相似文章推荐给用户。
CN202110301195.3A 2021-03-22 2021-03-22 一种基于时间与语义的文章推荐方法 Active CN112765342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110301195.3A CN112765342B (zh) 2021-03-22 2021-03-22 一种基于时间与语义的文章推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110301195.3A CN112765342B (zh) 2021-03-22 2021-03-22 一种基于时间与语义的文章推荐方法

Publications (2)

Publication Number Publication Date
CN112765342A true CN112765342A (zh) 2021-05-07
CN112765342B CN112765342B (zh) 2022-10-14

Family

ID=75691182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110301195.3A Active CN112765342B (zh) 2021-03-22 2021-03-22 一种基于时间与语义的文章推荐方法

Country Status (1)

Country Link
CN (1) CN112765342B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536763A (zh) * 2021-07-20 2021-10-22 北京中科闻歌科技股份有限公司 一种信息处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005045695A1 (en) * 2003-10-27 2005-05-19 Educational Testing Service Method and system for determining text coherence
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN106202394A (zh) * 2016-07-07 2016-12-07 腾讯科技(深圳)有限公司 文本资讯的推荐方法及系统
CN109145190A (zh) * 2018-08-27 2019-01-04 安徽大学 一种基于神经机器翻译技术的局部引文推荐方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005045695A1 (en) * 2003-10-27 2005-05-19 Educational Testing Service Method and system for determining text coherence
WO2010120101A2 (ko) * 2009-04-13 2010-10-21 (주)미디어레 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
CN106202394A (zh) * 2016-07-07 2016-12-07 腾讯科技(深圳)有限公司 文本资讯的推荐方法及系统
CN109145190A (zh) * 2018-08-27 2019-01-04 安徽大学 一种基于神经机器翻译技术的局部引文推荐方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536763A (zh) * 2021-07-20 2021-10-22 北京中科闻歌科技股份有限公司 一种信息处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112765342B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
US11222055B2 (en) System, computer-implemented method and computer program product for information retrieval
CN105989040B (zh) 智能问答的方法、装置及系统
CA2556202C (en) Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
US8515212B1 (en) Image relevance model
US20230205813A1 (en) Training Image and Text Embedding Models
US20110106743A1 (en) Method and system to predict a data value
US11488270B2 (en) System and method for context and sequence aware recommendation
CN111291765A (zh) 用于确定相似图片的方法和装置
US20090281975A1 (en) Recommending similar content identified with a neural network
US11461613B2 (en) Method and apparatus for multi-document question answering
CN110008396B (zh) 对象信息推送方法、装置、设备及计算机可读存储介质
US10042944B2 (en) Suggested keywords
US20180150534A1 (en) Job posting data normalization and enrichment
US20190155913A1 (en) Document search using grammatical units
Kim et al. Automated detection of influential patents using singular values
US9400944B2 (en) Space dilating two-way variable selection
CN115827990B (zh) 搜索方法及装置
US20140372090A1 (en) Incremental response modeling
CN112765342B (zh) 一种基于时间与语义的文章推荐方法
US20220019856A1 (en) Predicting neural network performance using neural network gaussian process
CN114677176A (zh) 兴趣内容的推荐方法及装置、电子设备、存储介质
CN110929528B (zh) 对语句情感分析的方法、装置、服务器及存储介质
CN113094584A (zh) 推荐学习资源的确定方法和装置
CN112256970A (zh) 一种新闻文本推送方法、装置、设备及存储介质
CN112785372A (zh) 一种基于语义关系的智能推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210000 No.1, Lingshan South Road, Qixia District, Nanjing City, Jiangsu Province

Applicant after: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp.

Address before: 210007 1 East Street, alfalfa garden, Qinhuai District, Nanjing, Jiangsu.

Applicant before: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp.

GR01 Patent grant
GR01 Patent grant