CN111563212A - 一种内链添加方法及装置 - Google Patents

一种内链添加方法及装置 Download PDF

Info

Publication number
CN111563212A
CN111563212A CN202010352398.0A CN202010352398A CN111563212A CN 111563212 A CN111563212 A CN 111563212A CN 202010352398 A CN202010352398 A CN 202010352398A CN 111563212 A CN111563212 A CN 111563212A
Authority
CN
China
Prior art keywords
keywords
text information
keyword
information
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010352398.0A
Other languages
English (en)
Inventor
马跃
乔超
杨一航
陈晶
王青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010352398.0A priority Critical patent/CN111563212A/zh
Publication of CN111563212A publication Critical patent/CN111563212A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种内链添加方法及装置,包括:获取待添加内链的文本信息;从所述文本信息中确定出具有信息页的候选关键词;确定各所述候选关键词与所述文本信息之间的相关度;基于所述相关度从所述候选关键词中筛选出目标关键词,并基于所述目标关键词为所述文本信息添加内链。

Description

一种内链添加方法及装置
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种内链添加方法及装置。
背景技术
内链是指在页面内部添加的、点击可跳转的链接。在页面信息创建或更新的过程中,可以为页面信息的部分内容添加内链以辅助用户对页面信息的理解,用户在信息浏览过程中,可以通过点击页面信息中添加了内链的内容,来获取该内容对应的详细信息。
相关技术中,需要人工去为页面中的内容添加内链,这种添加内链的方法效率比较低。
发明内容
本公开实施例至少提供一种内链添加方法及装置。
第一方面,本公开实施例提供了一种内链添加方法,包括:
获取待添加内链的文本信息;
从所述文本信息中确定出具有信息页的候选关键词;
确定各所述候选关键词与所述文本信息之间的相关度;
基于所述相关度从所述候选关键词中筛选出目标关键词,并基于所述目标关键词为所述文本信息添加内链。
一种可能的实施方式中,所述从所述文本信息中确定出具有信息页的候选关键词,包括:
对所述文本信息进行分词处理,确定所述文本信息中的至少一个初始关键词;
基于数据库中存储的具有信息页的各个关键词,从所述至少一个初始关键词中确定出所述候选关键词。
一种可能的实施方式中,所述基于数据库中存储的具有信息页的各个关键词,从所述至少一个初始关键词中确定出所述候选关键词,包括:
针对每一个所述初始关键词,若数据库中存储的各个关键词中存在与该初始关键词匹配的关键词,将该初始关键词确定为所述候选关键词。
一种可能的实施方式中,所述确定各所述候选关键词与所述文本信息之间的相关度,包括:
将所述候选关键词在所述文本信息中对应的句子、所述候选关键词对应的信息页的信息、以及所述文本信息输入至预先训练好的神经网络模型中,输出得到所述候选关键词与所述文本信息之间的相关度。
一种可能的实施方式中,所述基于所述目标关键词为所述文本信息添加内链,包括:
根据所述文本信息对应的领域信息,从所述目标关键词中筛选出与所述领域信息相匹配的关键词作为待添加内链的目标关键词,并为所述待添加内链的目标关键词添加内链。
一种可能的实施方式中,所述基于所述目标关键词为所述文本信息添加内链,包括:
基于预先设置的约束条件,从所述目标关键词中筛选出待添加内链的目标关键词,并为所述待添加内链的目标关键词添加内链。
一种可能的实施方式中,所述约束条件包括以下至少一种:
不属于预设的敏感词库中的关键词、属于文本信息中预设位置的关键词、不属于预先设置的不添加内链的内容类型。
第二方面,本公开实施例还提供一种内链添加装置,包括:
获取模块,用于获取待添加内链的文本信息;
第一确定模块,用于从所述文本信息中确定出具有信息页的候选关键词;
第二确定模块,用于确定各所述候选关键词与所述文本信息之间的相关度;
内链添加模块,用于基于所述相关度从所述候选关键词中筛选出目标关键词,并基于所述目标关键词为所述文本信息添加内链。
一种可能的实施方式中,所述第一确定模块,在从所述文本信息中确定出具有信息页的候选关键词时,用于:
对所述文本信息进行分词处理,确定所述文本信息中的至少一个初始关键词;
基于数据库中存储的具有信息页的各个关键词,从所述至少一个初始关键词中确定出所述候选关键词。
一种可能的实施方式中,所述第一确定模块,在基于数据库中存储的具有信息页的各个关键词,从所述至少一个初始关键词中确定出所述候选关键词时,用于:
针对每一个所述初始关键词,若数据库中存储的各个关键词中存在与该初始关键词匹配的关键词,将该初始关键词确定为所述候选关键词。
一种可能的实施方式中,所述第二确定模块,在确定各所述候选关键词与所述文本信息之间的相关度时,用于:
将所述候选关键词在所述文本信息中对应的句子、所述候选关键词对应的信息页的信息、以及所述文本信息输入至预先训练好的神经网络模型中,输出得到所述候选关键词与所述文本信息之间的相关度。
一种可能的实施方式中,所述内链添加模块,在基于所述目标关键词为所述文本信息添加内链时,用于:
根据所述文本信息对应的领域信息,从所述目标关键词中筛选出与所述领域信息相匹配的关键词作为待添加内链的目标关键词,并为所述待添加内链的目标关键词添加内链。
一种可能的实施方式中,所述内链添加模块,在基于所述目标关键词为所述文本信息添加内链时,用于:
基于预先设置的约束条件,从所述目标关键词中筛选出待添加内链的目标关键词,并为所述待添加内链的目标关键词添加内链。
一种可能的实施方式中,所述约束条件包括以下至少一种:
不属于预设的敏感词库中的关键词、属于文本信息中预设位置的关键词、不属于预先设置的不添加内链的内容类型。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本公开实施例提供的内链添加方法及装置,可以从待添加内链的文本信息中确定出具有信息页的候选关键词,然后根据候选关键词和文本信息之间的相关度,筛选出目标关键词,并基于目标关键词自动为文本信息添加内链。通过这种方法,可以筛选出具有信息页、并且与文本信息中的相关度较高的目标关键词来添加内链,因此,通过这种方法,无需人工手动添加内链,可以自动为文本信息准确地添加内链,提高内链添加的准确性和效率。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种内链添加方法的流程图;
图2示出了本公开实施例所提供的一种神经网络模型的训练方法的流程图;
图3示出了本公开实施例所提供的添加内链之后的文本信息的示意图;
图4示出了本公开实施例所提供的一种内链添加装置的架构示意图;
图5示出了本公开实施例所提供的计算机设备500的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
相关技术中,在为文本信息添加内链时,需要人工手动添加,这种手动添加内链的方法,一方面效率比较低,另一方面,由于在对需要添加内链的关键词进行选择时,增加了人工的主观色彩,所筛选出的关键词可能与文本信息之间的相关度不高。
基于此,本公开提供了一种内链添加方法,可以从待添加内链的文本信息中确定出具有信息页的候选关键词,然后根据候选关键词和文本信息之间的相关度,筛选出目标关键词,并基于目标关键词自动为文本信息添加内链。通过这种方法,可以筛选出具有信息页、并且与文本信息中的相关度较高的目标关键词来添加内链,因此,通过这种方法,无需人工手动添加内链,可以自动为文本信息准确地添加内链,可以提高内链添加的效率。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种内链添加方法进行详细介绍,本公开实施例的执行主体一般具有一定计算能力的电子设备,例如可以为服务器,参见图1所示,为本公开实施例提供的一种内链添加方法的流程图,所述方法包括步骤101~步骤104,其中:
步骤101、获取待添加内链的文本信息。
实际应用中,待添加内链的文本信息可以是在目标对象的目标信息页在编辑过程中所产生的文本信息;所述目标信息页可以包括对目标对象的详细描述信息;所述目标对象包括但不仅限于动物、人物、建筑物等,对于其他需要进行详细介绍的对象也可以作为所述目标对象,对此本公开并不限制。
在一种可能的实施方式中,所述获取待添加内链的文本信息的触发条件,可以是检测到用户触发到所述目标信息页的对应的编辑页面中的自动内链的按钮,在检测到自动添加内链的按钮被触发之后,响应于该触发操作,可以获取所述目标信息页的对应的编辑页面中的待添加内链的文本信息。
在另外一种可能的实施方式中,所述获取待添加内链的文本信息的触发条件还可以是检测到所述目标信息页中的文本信息发生变化,其中,检测目标信息页中的文本信息是否发生变化可以是周期性检测,也可以是实时监测。
在另外一种可能的实施方式中,所述获取待添加内链的文本信息的触发条件还可以是周期性自动获取。
步骤102、从所述文本信息中确定出具有信息页的候选关键词。
其中,关键词对应的信息页包括对关键词的详细描述信息,用户可以通过查看关键词的信息页,来增加对关键词的了解。示例性的,若用户想要了解关键词“XX大学”,则可以通过查看“XX大学”的信息页中的详细描述信息,来增加对“XX大学”的了解。
在从文本信息中确定出具有信息页的候选关键词时,可以先对文本信息进行分词处理,确定文本信息中的至少一个初始关键词,然后基于数据库中存储的具有信息页的各个关键词,从至少一个初始关键词中确定出具有信息页的候选关键词。
在一种可能的实施方式中,在对文本信息进行分词处理,确定文本信息中的至少一个初始关键词时,示例性的,可以通过预先训练好的语言模型N-gram模型,将待添加内链的文本信息输入至N-gram模型中,输出得到文本信息中的至少一个初始关键词。
这里,采用N-gram模型确定文本信息中的至少一个初始关键词仅仅是一种示例性的方法,对于其他可以分割出文本信息中的词语的方法,也可以适用于本公开所提供的方法,对此,本公开并不限制。
由于需要选取出关键词,然后根据关键词对文本信息添加内链,因此,所选取出的关键词需要有对应的信息页。针对每一个初始关键词,若数据库中存储的各个关键词中存在与该初始关键词匹配的关键词,则可以将该初始关键词确定为候选关键词。
具体实施中,针对每一个初始关键词,可以在数据库中存储的有信息页的各个关键词中,查找是否存在与该初始关键词相同的关键词,若是,则将该初始关键词确定为候选关键词。
步骤103、确定各所述候选关键词与所述文本信息之间的相关度。
其中,在确定各候选关键词与文本信息之间的相关度时,可以将候选关键词所在的句子、候选关键词对应的信息页的信息、以及文本信息输入至预先训练好的神经网络模型中,输出得到候选关键词与文本信息之间的相关度。
这里,在确定各候选关键词与文本信息之间的相关度时,引入了候选关键词对应的信息页的信息,当候选关键词与文本信息之间相关度较高时,候选关键词对应的页的信息与文本信息之间相关度也比较高;候选关键词所在的句子表征候选关键词的局部特征,候选关键词对应的信息页的信息表征候选关键词的详细信息,文本信息表征候选关键字的整体特征,因此,通过候选关键词所在的句子、候选关键词对应的信息页的信息、以及文本信息所确定出的候选关键词与文本信息之间的相关度精度较高。
在一种可能的实施方式中,在确定各候选关键词与文本信息之间的相关度时所用的神经网络模型在训练过程时,可以通过如图2所示的神经网络模型训练方法,包括以下几个步骤:
步骤201、获取样本文本信息、样本文本信息中的样本关键词、样本关键词在样本文本信息中对应的句子,以及样本关键词与样本文本信息之间的相关度标签。
其中,获取的样本文本信息可以是从数据库中提取的预选存储的文本信息,也可以是从目标对象的目标信息页中获取的,所述样本文本信息中的样本关键词可以是人工从样本文本信息中选取的;所述样本关键词与样本文本信息之间的相关度标签包括预先设置好的样本关键词与样本文本信息之间相关度。
步骤202、将获取样本文本信息、样本文本信息中的样本关键词、样本关键词在样本文本信息中对应的句子输入至待训练的神经网络模型中,输出得到预测相关度。
步骤203、基于预测相关度和相关度标签,计算本次训练过程中的损失值。
步骤204、判断计算出的损失值是否满足预设条件。
其中所述预设条件可以是小于预设损失阈值。
若判断结果为是,则执行步骤205;
若判断结果为否,则调整神经网络模型的模型参数,并返回执行步骤202。
步骤205、将当前训练过程中使用的神经网络模型作为训练好的神经网络模型。
步骤104、基于所述相关度从所述候选关键词中筛选出目标关键词,并基于所述目标关键词为所述文本信息添加内链。
具体实施中,在基于相关度从候选关键词中筛选出目标关键词时,可以先根据文本信息对应的领域信息,从目标关键词中筛选出与领域信息相匹配的关键词作为待添加内链的目标关键词,并未待添加内链的目标关键词添加内链。
每一个文本信息对应的领域信息相匹配的目标领域信息可以是预先设置好的,在从目标关键词中筛选出与领域信息相匹配的关键词时,可以先确定各目标关键词对应的领域信息,针对每一个目标关键词,判断该目标关键词对应的领域信息是否属于、与文本信息对应的领域信息相匹配的目标领域信息,若是,则将该目标关键词作为待添加内链的目标关键词。
这里需要说明的是,目标关键词均对应有信息页,在为目标关键词设置信息时,已经设置了目标关键词对应的领域信息,因此,可以直接通过目标关键词的信息页,来确定目标关键词对应的领域信息。
示例性的文本信息对应的领域信息可以包括电影明星、文化古迹、科学发现等,而对于领域信息“电影明星”对应的目标领域信息可以包括电影名称、电视剧名称、参与的比赛名称等。
通过上述方法,可以筛选出与文本信息对应的领域信息相匹配的待添加内链的目标关键词,这样,在对文本信息中待添加内链的目标关键词添加内链之后,由于添加内链的关键词与文本信息的领域相关,可以增加用户在浏览文本信息时对添加内链的关键字的点击概率。
在另外一种可能的实施方式中,在基于目标关键词为文本信息添加内链时,还可以基于预先设置的约束条件,从目标关键词中筛选出待添加内链的目标关键词,并为待添加内链的目标关键词添加内链。
其中,所述约束条件可以包括以下至少一种:
不属于预设的敏感词库中的关键词、属于文本信息中预设位置的关键词、不属于预先设置的不添加内链的内容类型。
具体的,当约束条件包括不属于预设敏感词库中的关键词时,在基于预先设置的约束条件,从目标关键词中筛选出待添加内链的目标关键词,并为待添加内链的目标关键词添加内链时,可以将目标关键词与敏感词库中所包含的每一个关键词进行匹配,并将匹配不成功的目标关键词作为待添加内链的目标关键词,并为待添加内链的目标关键词添加内链。
当约束条件包括属于文本信息中预设位置的关键词时,在基于预先设置的约束条件,从目标关键词中筛选出待添加内链的目标关键词,并为待添加内链的目标关键词添加内链时,可以先确定每一个目标关键词的位置信息,然后根据每一个关键词的位置信息,筛选出位于目标位置的目标关键词,并将筛选出的目标关键词作为待添加内链的目标关键词,并为待添加内链的目标关键词添加内链。
示例性的,关键词的位置信息可以包括正文、摘要、目录、简介等,可以先确定每一个目标关键词的位置信息,若仅为正文部分的文字添加内链,则可以将位于正文部分的目标关键词确定为待添加内链的目标关键词。
这样,一方面仅为目标位置的目标关键词添加内链,可以减少为文本信息中内链的个数,避免内链资源的浪费,另一方面,用户在浏览信息页时,对于不同位置的关注程度可能不同,目标位置可以是用户关注度较高的位置,因此,通过为目标位置的目标关键词添加内链,可以增加内链对应的关键词被点击的概率,增加内链的利用率。
所述不属于预先设置的不添加内链的内容类型,示例性的可以包括性别、数字、标点符号、日期等。
在为文本信息中的关键字添加内链之后,可以为文本信息中添加内链的关键字添加标注信息,所述标注信息用于指示用户触发该关键字对应的内链。用户在触发文本信息中添加内链的关键字之后,可以由当前页面跳转到该关键字对应的信息页中。
其中,所述标注信息可以是改变关键字的字体、字号、颜色、为关键字添加下划线、或者对关键字进行倾斜中的至少一种,示例性的,为添加内链之后的文本信息的示意图可以如图3所示。
所述触发文本信息中添加内链的关键字可以包括但不仅限于单击、双击、长按、重按等。
本公开实施例提供的内链添加方法,可以从待添加内链的文本信息中确定出具有信息页的候选关键词,然后根据候选关键词和文本信息之间的相关度,筛选出目标关键词,并基于目标关键词自动为文本信息添加内链。通过这种方法,可以筛选出具有信息页、并且与文本信息中的相关度较高的目标关键词来添加内链,因此,通过这种方法,无需人工手动添加内链,可以自动为文本信息准确地添加内链,可以提高内链添加的效率。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与内链添加方法对应的内链添加装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述内链添加方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图4所示,为本公开实施例提供的一种内链添加装置的架构示意图,所述装置包括:获取模块401、第一确定模块402、第二确定模块403、以及内链添加模块404;其中,
获取模块401,用于获取待添加内链的文本信息;
第一确定模块402,用于从所述文本信息中确定出具有信息页的候选关键词;
第二确定模块403,用于确定各所述候选关键词与所述文本信息之间的相关度;
内链添加模块404,用于基于所述相关度从所述候选关键词中筛选出目标关键词,并基于所述目标关键词为所述文本信息添加内链。
一种可能的实施方式中,所述第一确定模块402,在从所述文本信息中确定出具有信息页的候选关键词时,用于:
对所述文本信息进行分词处理,确定所述文本信息中的至少一个初始关键词;
基于数据库中存储的具有信息页的各个关键词,从所述至少一个初始关键词中确定出所述候选关键词。
一种可能的实施方式中,所述第一确定模块402,在基于数据库中存储的具有信息页的各个关键词,从所述至少一个初始关键词中确定出所述候选关键词时,用于:
针对每一个所述初始关键词,若数据库中存储的各个关键词中存在与该初始关键词匹配的关键词,将该初始关键词确定为所述候选关键词。
一种可能的实施方式中,所述第二确定模块403,在确定各所述候选关键词与所述文本信息之间的相关度时,用于:
将所述候选关键词在所述文本信息中对应的句子、所述候选关键词对应的信息页的信息、以及所述文本信息输入至预先训练好的神经网络模型中,输出得到所述候选关键词与所述文本信息之间的相关度。
一种可能的实施方式中,所述内链添加模块404,在基于所述目标关键词为所述文本信息添加内链时,用于:
根据所述文本信息对应的领域信息,从所述目标关键词中筛选出与所述领域信息相匹配的关键词作为待添加内链的目标关键词,并为所述待添加内链的目标关键词添加内链。
一种可能的实施方式中,所述内链添加模块404,在基于所述目标关键词为所述文本信息添加内链时,用于:
基于预先设置的约束条件,从所述目标关键词中筛选出待添加内链的目标关键词,并为所述待添加内链的目标关键词添加内链。
一种可能的实施方式中,所述约束条件包括以下至少一种:
不属于预设的敏感词库中的关键词、属于文本信息中预设位置的关键词、不属于预先设置的不添加内链的内容类型。
本公开实施例提供的内链添加装置,可以从待添加内链的文本信息中确定出具有信息页的候选关键词,然后根据候选关键词和文本信息之间的相关度,筛选出目标关键词,并基于目标关键词自动为文本信息添加内链。通过这种装置,可以筛选出具有信息页、并且与文本信息中的相关度较高的目标关键词来添加内链,因此,通过这种方法,无需人工手动添加内链,可以自动为文本信息准确地添加内链,可以提高内链添加的效率。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一技术构思,本申请实施例还提供了一种计算机设备。参照图5所示,为本申请实施例提供的计算机设备500的结构示意图,包括处理器501、存储器502、和总线503。其中,存储器502用于存储执行指令,包括内存5021和外部存储器5022;这里的内存5021也称内存储器,用于暂时存放处理器501中的运算数据,以及与硬盘等外部存储器5022交换的数据,处理器501通过内存5021与外部存储器5022进行数据交换,当计算机设备500运行时,处理器501与存储器502之间通过总线503通信,使得处理器501在执行以下指令:
获取待添加内链的文本信息;
从所述文本信息中确定出具有信息页的候选关键词;
确定各所述候选关键词与所述文本信息之间的相关度;
基于所述相关度从所述候选关键词中筛选出目标关键词,并基于所述目标关键词为所述文本信息添加内链。
一种可能的实施方式中,处理器501执行的指令中,所述从所述文本信息中确定出具有信息页的候选关键词,包括:
对所述文本信息进行分词处理,确定所述文本信息中的至少一个初始关键词;
基于数据库中存储的具有信息页的各个关键词,从所述至少一个初始关键词中确定出所述候选关键词。
一种可能的实施方式中,处理器501执行的指令中,所述基于数据库中存储的具有信息页的各个关键词,从所述至少一个初始关键词中确定出所述候选关键词,包括:
针对每一个所述初始关键词,若数据库中存储的各个关键词中存在与该初始关键词匹配的关键词,将该初始关键词确定为所述候选关键词。
一种可能的实施方式中,处理器501执行的指令中,所述确定各所述候选关键词与所述文本信息之间的相关度,包括:
将所述候选关键词在所述文本信息中对应的句子、所述候选关键词对应的信息页的信息、以及所述文本信息输入至预先训练好的神经网络模型中,输出得到所述候选关键词与所述文本信息之间的相关度。
一种可能的实施方式中,处理器501执行的指令中,所述基于所述目标关键词为所述文本信息添加内链,包括:
根据所述文本信息对应的领域信息,从所述目标关键词中筛选出与所述领域信息相匹配的关键词作为待添加内链的目标关键词,并为所述待添加内链的目标关键词添加内链。
一种可能的实施方式中,处理器501执行的指令中,所述基于所述目标关键词为所述文本信息添加内链,包括:
基于预先设置的约束条件,从所述目标关键词中筛选出待添加内链的目标关键词,并为所述待添加内链的目标关键词添加内链。
一种可能的实施方式中,处理器501执行的指令中,所述约束条件包括以下至少一种:
不属于预设的敏感词库中的关键词、属于文本信息中预设位置的关键词、不属于预先设置的不添加内链的内容类型。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的内链添加方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例所提供的内链添加方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的内链添加方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本公开实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种内链添加方法,其特征在于,包括:
获取待添加内链的文本信息;
从所述文本信息中确定出具有信息页的候选关键词;
确定各所述候选关键词与所述文本信息之间的相关度;
基于所述相关度从所述候选关键词中筛选出目标关键词,并基于所述目标关键词为所述文本信息添加内链。
2.根据权利要求1所述的方法,其特征在于,所述从所述文本信息中确定出具有信息页的候选关键词,包括:
对所述文本信息进行分词处理,确定所述文本信息中的至少一个初始关键词;
基于数据库中存储的具有信息页的各个关键词,从所述至少一个初始关键词中确定出所述候选关键词。
3.根据权利要求2所述的方法,其特征在于,所述基于数据库中存储的具有信息页的各个关键词,从所述至少一个初始关键词中确定出所述候选关键词,包括:
针对每一个所述初始关键词,若数据库中存储的各个关键词中存在与该初始关键词匹配的关键词,将该初始关键词确定为所述候选关键词。
4.根据权利要求1所述的方法,其特征在于,所述确定各所述候选关键词与所述文本信息之间的相关度,包括:
将所述候选关键词在所述文本信息中对应的句子、所述候选关键词对应的信息页的信息、以及所述文本信息输入至预先训练好的神经网络模型中,输出得到所述候选关键词与所述文本信息之间的相关度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标关键词为所述文本信息添加内链,包括:
根据所述文本信息对应的领域信息,从所述目标关键词中筛选出与所述领域信息相匹配的关键词作为待添加内链的目标关键词,并为所述待添加内链的目标关键词添加内链。
6.根据权利要求1所述的方法,其特征在于,所述基于所述目标关键词为所述文本信息添加内链,包括:
基于预先设置的约束条件,从所述目标关键词中筛选出待添加内链的目标关键词,并为所述待添加内链的目标关键词添加内链。
7.根据权利要求6所述的方法,其特征在于,所述约束条件包括以下至少一种:
不属于预设的敏感词库中的关键词、属于文本信息中预设位置的关键词、不属于预先设置的不添加内链的内容类型。
8.一种内链添加装置,其特征在于,包括:
获取模块,用于获取待添加内链的文本信息;
第一确定模块,用于从所述文本信息中确定出具有信息页的候选关键词;
第二确定模块,用于确定各所述候选关键词与所述文本信息之间的相关度;
内链添加模块,用于基于所述相关度从所述候选关键词中筛选出目标关键词,并基于所述目标关键词为所述文本信息添加内链。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的内链添加方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任意一项所述的内链添加方法的步骤。
CN202010352398.0A 2020-04-28 2020-04-28 一种内链添加方法及装置 Pending CN111563212A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010352398.0A CN111563212A (zh) 2020-04-28 2020-04-28 一种内链添加方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010352398.0A CN111563212A (zh) 2020-04-28 2020-04-28 一种内链添加方法及装置

Publications (1)

Publication Number Publication Date
CN111563212A true CN111563212A (zh) 2020-08-21

Family

ID=72074501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010352398.0A Pending CN111563212A (zh) 2020-04-28 2020-04-28 一种内链添加方法及装置

Country Status (1)

Country Link
CN (1) CN111563212A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255349A (zh) * 2021-05-28 2021-08-13 北京字节跳动网络技术有限公司 一种信息处理的方法、装置以及计算机存储介质
CN113919347A (zh) * 2021-12-14 2022-01-11 山东捷瑞数字科技股份有限公司 一种文本数据的内链词提取匹配方法及装置
CN115438145A (zh) * 2022-04-13 2022-12-06 盐城金堤科技有限公司 企业详情内链的添加方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140236715A1 (en) * 2013-02-20 2014-08-21 Kenshoo Ltd. Targeted advertising in social media networks
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN107885888A (zh) * 2017-12-11 2018-04-06 北京百度网讯科技有限公司 信息处理方法及装置、终端设备以及计算机可读存储介质
CN109783798A (zh) * 2018-12-12 2019-05-21 平安科技(深圳)有限公司 文本信息添加图片的方法、装置、终端及存储介质
CN109800303A (zh) * 2018-12-28 2019-05-24 深圳市世强元件网络有限公司 一种文档信息提取方法、存储介质及终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140236715A1 (en) * 2013-02-20 2014-08-21 Kenshoo Ltd. Targeted advertising in social media networks
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN107885888A (zh) * 2017-12-11 2018-04-06 北京百度网讯科技有限公司 信息处理方法及装置、终端设备以及计算机可读存储介质
CN109783798A (zh) * 2018-12-12 2019-05-21 平安科技(深圳)有限公司 文本信息添加图片的方法、装置、终端及存储介质
CN109800303A (zh) * 2018-12-28 2019-05-24 深圳市世强元件网络有限公司 一种文档信息提取方法、存储介质及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
水淼、昂娟: "《互联网信息编辑实务》", 30 June 2016 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255349A (zh) * 2021-05-28 2021-08-13 北京字节跳动网络技术有限公司 一种信息处理的方法、装置以及计算机存储介质
CN113255349B (zh) * 2021-05-28 2024-09-06 抖音视界有限公司 一种信息处理的方法、装置以及计算机存储介质
CN113919347A (zh) * 2021-12-14 2022-01-11 山东捷瑞数字科技股份有限公司 一种文本数据的内链词提取匹配方法及装置
CN115438145A (zh) * 2022-04-13 2022-12-06 盐城金堤科技有限公司 企业详情内链的添加方法及装置
CN115438145B (zh) * 2022-04-13 2024-05-14 盐城天眼察微科技有限公司 企业详情内链的添加方法及装置

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN109299228B (zh) 计算机执行的文本风险预测方法及装置
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
JP5544602B2 (ja) 単語意味関係抽出装置及び単語意味関係抽出方法
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN107102993B (zh) 一种用户诉求分析方法和装置
CN111563212A (zh) 一种内链添加方法及装置
US20080162528A1 (en) Content Management System and Method
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN112307337B (zh) 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN109299233A (zh) 文本数据处理方法、装置、计算机设备及存储介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
WO2018171295A1 (zh) 一种给文章标注标签的方法、装置、终端及计算机可读存储介质
CN110413996B (zh) 构造零指代消解语料的方法及装置
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
CN113392195A (zh) 舆情监测方法及装置、电子设备及存储介质
CN102982025B (zh) 一种搜索需求识别方法及装置
CN114222000A (zh) 信息推送方法、装置、计算机设备和存储介质
JP2021163477A (ja) 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
CN112270189A (zh) 一种提问式的分析节点生成方法、系统及存储介质
US11599580B2 (en) Method and system to extract domain concepts to create domain dictionaries and ontologies
JP7043373B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN110929513A (zh) 基于文本的标签体系构建方法及装置
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200821