CN108399254A - 关联词调整方法及调整系统 - Google Patents

关联词调整方法及调整系统 Download PDF

Info

Publication number
CN108399254A
CN108399254A CN201810181822.2A CN201810181822A CN108399254A CN 108399254 A CN108399254 A CN 108399254A CN 201810181822 A CN201810181822 A CN 201810181822A CN 108399254 A CN108399254 A CN 108399254A
Authority
CN
China
Prior art keywords
keyword
keywords database
word
core word
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810181822.2A
Other languages
English (en)
Other versions
CN108399254B (zh
Inventor
王海泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810181822.2A priority Critical patent/CN108399254B/zh
Publication of CN108399254A publication Critical patent/CN108399254A/zh
Application granted granted Critical
Publication of CN108399254B publication Critical patent/CN108399254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种关联词调整方法及调整系统,该关联词调整方法通过设置多个关键词库,且将关键词库中的核心词和多个原始关键词赋予原始权重,并记录各关键词库中的各核心词和原始关键词的使用次数;可获取文章资源的工作单位中各作者其余文章资源或文章资源的作者的其余文章资源的关键词;还可依据首个关键词查找与核心词的关联度大于预设关联度阈值的关键词库;而将各关键词加入到查找到的关键词库中;并依据首个关键词和核心词的关联度,按各关键词的排列顺序由高到低的顺次赋予权重。本发明的关联词调整方法,通过设置关键词库,并根据用户搜索内容,在关键词库中不断增加关键词并赋予新增加的关键词权重,可使搜索工作快速高效,方便使用。

Description

关联词调整方法及调整系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种关联词调整方法,以及基于该方法下的关联词调整系统。
背景技术
随着互联网的迅猛发展、WEB信息的增加,移动互联网、物联网、人工智能、大数据、区块链等各种场景,使得信息越来越多,但是信息之间的关联度越来越差,用户要在信息海洋里查找自己所需的信息,就像大海捞针一样,用户面临的不是查找不到信息,而是干扰信息过多,找不到真正想要的信息。搜索系统和推荐系统等的出现恰好解决了这一难题,它可以为用户提供智能、准确的信息检索、推荐服务,根据使用者提供的相关信息能够找到真正需要信息。
然而,目前各行各业的推荐系统、搜索系统等基本上都是基于关键词直接查询到结果或者基于用户行为找到不同词之间的关联关系,这种传统的方法只能满足简单的应用场景和基于大数据的分析才能实现。
百度就是明显的基于关键词的搜索系统,但是其搜索出来的结果必须和输入的关键词匹配才可以。此外,基于用户行为分析的推荐算法必须基于海量的数据积累以及算法的训练,对于很多公司来说有很高的门槛,不能快速在企业达到效果。
例如,用户输入“腾讯”,用户想要知道的结果肯定包括“QQ”、“微信”、“企鹅”等和这个词关联的信息,然而现有的搜索系统和推荐系统等只会将和“腾讯”相关的内容推荐给客户,难以满足客户的需求。
发明内容
有鉴于此,本发明旨在提出一种关联词调整方法,以可使搜索工作更加快速且有效。
为达到上述目的,本发明的技术方案是这样实现的:
一种关联词调整方法,该方法包括:
设置多个关键词库,各所述关键词库中包含有与一核心词相互关联的原始关键词,所述核心词和多个所述原始关键词被赋予原始权重,并记录各所述关键词库中的各所述核心词和所述原始关键词的使用次数;
获取文章资源;
在所述文章资源中,查找所述文章资源的作者其余文章资源、或所述文章资源的作者的工作单位中各作者的其余文章资源给出的关键词集合,所述关键词集合中包含有多个按顺序排列的关键词;
依据所述关键词集合中的首个所述关键词,查找与各所述关键词库中包含的所述核心词的关联度大于预设关联度阈值的所述关键词库;
将所述关键词集合中的各所述关键词,加入到查找到的所述关键词库中;并依据该所述关键词集合的首个所述关键词和该所述关键词库中的所述核心词的关联度,按所述关键词集合中的各所述关键词的排列顺序,由高到低的顺次赋予所述关键词集合中的各所述关键词的权重。
进一步的,还包括调整步骤:依据各所述原始关键词、所述核心词以及补入的各所述关键词的使用次数,动态调整各所述原始关键词、所述核心词以及补入的各所述关键词的权重。
进一步的,依据所述关键词集合中的首个所述关键词,查找与各所述关键词库中包含的所述核心词的关联度大于预设关联度阈值的所述关键词库时,是依据所述关键词集合中的首个所述关键词,查找该首个所述关键词对应的所述关键词库中的所述原始关键词,以查找到的所述原始关键词和所述核心词的关联度作为首个所述关键词和所述核心词的关联度。
进一步的,将所述关键词集合中的各所述关键词,加入到查找到的所述关键词库中时,以查找到的所述原始关键词的权重,作为补入到所述关键词中的首个所述关键词的权重。
进一步的,首个所述关键词和所述核心词的关联度=a/|a-b|;
其中,a为首个所述关键词对应的所述关键词库中的所述原始关键词的权重;
b为核心词的权重。
本发明的关联词调整方法,通过设置关键词库,并根据用户搜索内容,在关键词库中不断增加关键词并赋予新增加的关键词权重,可以使搜索工作快速高效,方便使用。
此外,本发明的关键词调整方法,适用于当今社会网络信息繁杂、不断变化的情况,其可随着社会热点的出现而动态调整关键词库,并且这种关联关系及动态调整过程是自动维护的,使用户可以在最少的时间内获得最有效的信息,节约用户时间,方便用户使用。
此外,本发明同时提供一种关联词调整系统,包括:
存储模块,用于存储多个关键词库,各所述关键词库中包含有与一核心词相互关联的原始关键词,所述核心词和多个所述原始关键词被赋予原始权重,并记录各所述关键词库中的各所述核心词和所述原始关键词的使用次数;
获取模块,用于获取文章资源;
查找模块,查找所述文章资源的作者其余文章资源、或所述文章资源的作者的工作单位中各作者的其余文章资源给出的关键词集合,所述关键词集合中包含有多个按顺序排列的关键词;
计算单元,依据所述关键词集合中的首个所述关键词,计算与各所述关键词库中包含的所述核心词的关联度大于预设关联度阈值的所述关键词库;
添加模块,用于将所述关键词集合中的各所述关键词,加入到查找到的所述关键词库中;并依据该所述关键词集合的首个所述关键词和该所述关键词库中的所述核心词的关联度,按所述关键词集合中的各所述关键词的排列顺序,由高到低的顺次赋予所述关键词集合中的各所述关键词的权重。
进一步的,还包括:
记录模块,用于记录各所述原始关键词、所述核心词以及补入的各所述关键词的使用次数,以动态调整各所述原始关键词、所述核心词以及补入的各所述关键词的权重。
本发明所述的关联词调整系统,可以将前述的关键词调整方法形成模块化结构,使得搜索工作更加简单。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合实施例来详细说明本发明。
本实施例涉及一种关联词调整方法,该方法包括通过相同作者、相同工作单位等查找到相关文章的关键词,并提取出相关资源的关键词设置多个关键词库,各关键词库中包含有与一核心词相互关联的原始关键词,核心词和多个原始关键词被赋予原始权重,并记录各关键词库中的各核心词和原始关键词的使用次数。其中,权重可以采用分数计算,其代表原始关键词与核心词之间的关联度,10分是强关联,1分是弱关联。
例如,其一关键词库中,核心词是“腾讯”,权重是10,使用次数为100,然后原始关键词1为“微信”,对应的权重是9,使用次数为20,原始关键词2为“QQ”,权重是8,使用次数为30等;
再如,另一关键词库中,核心词是“麻省理工”,权重是10,使用次数为100,然后原始关键词1为“MIT”,对应的权重是10,使用次数为90,原始关键词2为“名校”,权重是5,使用次数为50等;
以上两个例子,可综合列表如表1所示。
表1 关键词库中核心词和原始关键词权重及使用次数
为了使用户快速准确的得到需求的信息,本发明的关键词调整方法还包括动态的扩充关键词库的方法,其可通过获取文章资源,查找发表该文章资源的工作单位中各作者的其余文章资源,如网页文章、论文、期刊、博客、微博等中的关键词,动态的扩充关键词库。
比如,网页文章都有该文章的多个关健词,一般都是按照和文章的关联度进行排序。论文中也有关键词,关键词的选取也是按照和文章内容的关联度进行排序。基本认为同一个文章资源中的关键词是高度相关的,并且可以配置默认第二个关键词,第三个关键词等的权重,这样就能实现动态的扩充关键词库和设置权重。
具体来讲,认为不同的文章中单位一样,则在同一单位中各作者的研究方向一样,可通过获取文章资源,查找文章资源的作者的工作单位中各作者的其余文章资源给出的关键词集合,关键词集合中包含有多个按顺序排列的关键词;依据关键词集合中的首个关键词,查找与各关键词库中包含的核心词的关联度大于预设关联度阈值的关键词库;将关键词集合中的各关键词,加入到查找到的关键词库中;并依据该关键词集合的首个关键词和该关键词库中的核心词的关联度,按关键词集合中的各关键词的排列顺序,由高到低的顺次赋予关键词集合中的各关键词的权重。
例如,“张三”、“李四”的工作单位都是“腾讯公司”,张三写了一篇文章的关键词是“腾讯”、“企鹅”,李四写了一篇文章的关键词是“吃鸡游戏”,这样就可以把两篇文章的关键词合并到一起是“腾讯"、“企鹅”、“吃鸡游戏”,则可以将“吃鸡游戏”补充到对应的关键词库中。
除此之外,动态的扩充关键词库的方法,还可通过获取文章资源的作者其余的文章资源,如网页文章、论文、期刊、博客、微博等中的关键词,动态的扩充关键词库。
具体来讲,认为同一个作者研究的方向基本一样,在同一个作者下的文章资源的关键词认为关联度比较大,可以补充到对应的关键词库中。例如,作者是张三,发表了两篇文章,第一篇文章的关键词是“腾讯”、“微信”;第二篇文章的关键词是“QQ”、“马化腾”、“社交软件”;则认为这两篇文章的关键词属于同一类,并入到相应的关键词库中。
以上方法中,首个关键词和核心词的关联度可采用如下公式计算:
a/|a-b|;
其中,a为首个关键词对应的关键词库中的原始关键词的权重;b为核心词的权重。
此外,本实施例中,依据关键词集合中的首个关键词,查找与各关键词库中包含的核心词的关联度大于预设关联度阈值的关键词库时,是依据关键词集合中的首个关键词,查找该首个关键词对应的关键词库中的原始关键词,以查找到的原始关键词和核心词的关联度作为首个关键词和核心词的关联度。
另外,将关键词集合中的各关键词,加入到查找到的关键词库中时,以查找到的原始关键词的权重,作为补入到关键词中的首个关键词的权重。
举例来讲,比如预设关联度阈值为3,查找到的关键词依次为“微信”、“聊天软件”和“支付软件”,其中首个关键词为“微信”,“微信”在其对应的关键词库中的权重是8,其与核心词的关联度为8/|8-10|=4,而4大于3,则将“聊天软件”和“支付软件”增加到含有“微信”的关键词库中,并将“聊天软件”和“支付软件”这两个关键词顺次赋予权重,由于“微信”的权重是8,则“聊天软件”和“支付软件”的权重分别是7和6。
为了进一步提高用户搜索工作的快速有效性,本发明的关键词调整方法还包括动态权重调整步骤:依据各原始关键词、核心词以及补入的各关键词的使用次数,动态调整各原始关键词、核心词以及补入的各关键词的权重。
使用次数的记录可以基于用户输入或点击。比如,用户是通过点击使用词语,则记录用户点击当前词语的次数。在用户使用词语“腾讯”的时候,出来的会是“腾讯”、“微信”、“QQ”等内容,如果20个用户点击“微信”,则记录微信的使用次数是20;如果30个用户点击“QQ”,则记录“QQ”的使用次数是30。
记录用户点击量之后,采用冒泡排序法将当前词语和前一个词语的点击量进行排序,如果当前词语点击次数>前一个词语的点击次数,则将两个词的权重互换。例如,“QQ”的点击量是30,“微信”的点击量是20,“QQ"比“微信”的点击量大,则应将“QQ”和“微信”的权重互换,所以此时“QQ”的权重变成9,“微信”的权重变成8,动态变化之后,结果如下表所示:
表3 动态调整权重后关键词库中核心词和原始关键词权重及使用次数
以上方法中,通过对关键词库中核心词和原始关键词的权重进行动态调整,可根据社会热点的变换而对词库进行动态调整,有利于用户快速高效的得到需要的信息。
本发明的关联词调整方法,可使搜索和推荐系统基于关键词库中的词语进行搜索和推荐,而非基于海量的互联网信息,通过设置关键词库,并根据用户搜索内容,在关键词库中不断增加关键词并赋予新增加的关键词权重,可以使搜索工作快速高效,方便使用。
此外,本发明的关键词调整方法,适用于当今社会网络信息繁杂、不断变化的情况,其可随着社会热点的出现而动态调整关键词库,并且这种关联关系及动态调整过程是自动维护的,使用户可以在最少的时间内获得最有效的信息,节约用户时间,方便用户使用。
同时,本实施例还涉及一种关联词调整系统,主要包括存储模块、获取模块、查找模块、计算单元和添加模块。
其中:
存储模块用于存储多个关键词库,各关键词库中包含有与一核心词相互关联的原始关键词,核心词和多个原始关键词被赋予原始权重,并记录各关键词库中的各核心词和原始关键词的使用次数。
获取模块用于获取网络发布的文章资源。
查找模块用于在所述文章资源中,查找所述文章资源的作者其余文章资源、或所述文章资源的作者的工作单位中各作者的其余文章资源给出的关键词集合,所述关键词集合中包含有多个按顺序排列的关键词。
计算单元用于依据关键词集合中的首个关键词,计算与各关键词库中包含的核心词的关联度大于预设关联度阈值的关键词库。
添加模块用于将关键词集合中的各关键词,加入到查找到的关键词库中;并依据该关键词集合的首个关键词和该关键词库中的核心词的关联度,按关键词集合中的各关键词的排列顺序,由高到低的顺次赋予关键词集合中的各关键词的权重。
本实施例的关联词调整系统,还包括记录模块,用于记录各原始关键词、核心词以及补入的各关键词的使用次数,以动态调整各原始关键词、核心词以及补入的各关键词的权重。
本发明的关联词调整系统,可以将前述的关键词调整方法形成模块化结构,使得搜索工作更加简单。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种关联词调整方法,其特征在于该方法包括:
设置多个关键词库,各所述关键词库中包含有与一核心词相互关联的原始关键词,所述核心词和多个所述原始关键词被赋予原始权重,并记录各所述关键词库中的各所述核心词和所述原始关键词的使用次数;
获取文章资源;
在所述文章资源中,查找所述文章资源的作者其余文章资源、或所述文章资源的作者的工作单位中各作者的其余文章资源给出的关键词集合,所述关键词集合中包含有多个按顺序排列的关键词;
依据所述关键词集合中的首个所述关键词,查找与各所述关键词库中包含的所述核心词的关联度大于预设关联度阈值的所述关键词库;
将所述关键词集合中的各所述关键词,加入到查找到的所述关键词库中;并依据该所述关键词集合的首个所述关键词和该所述关键词库中的所述核心词的关联度,按所述关键词集合中的各所述关键词的排列顺序,由高到低的顺次赋予所述关键词集合中的各所述关键词的权重。
2.根据权利要求1所述的关联词调整方法,其特征在于还包括调整步骤:依据各所述原始关键词、所述核心词以及补入的各所述关键词的使用次数,动态调整各所述原始关键词、所述核心词以及补入的各所述关键词的权重。
3.根据权利要求1所述的关联词调整方法,其特征在于:依据所述关键词集合中的首个所述关键词,查找与各所述关键词库中包含的所述核心词的关联度大于预设关联度阈值的所述关键词库时,是依据所述关键词集合中的首个所述关键词,查找该首个所述关键词对应的所述关键词库中的所述原始关键词,以查找到的所述原始关键词和所述核心词的关联度作为首个所述关键词和所述核心词的关联度。
4.根据权利要求3所述的关联词调整方法,其特征在于:将所述关键词集合中的各所述关键词,加入到查找到的所述关键词库中时,以查找到的所述原始关键词的权重,作为补入到所述关键词中的首个所述关键词的权重。
5.根据权利要求3所述的关联词调整方法,其特征在于:首个所述关键词和所述核心词的关联度=a/|a-b|;
其中,a为首个所述关键词对应的所述关键词库中的所述原始关键词的权重;
b为核心词的权重。
6.一种关联词调整系统,其特征在于包括:
存储模块,用于存储多个关键词库,各所述关键词库中包含有与一核心词相互关联的原始关键词,所述核心词和多个所述原始关键词被赋予原始权重,并记录各所述关键词库中的各所述核心词和所述原始关键词的使用次数;
获取模块,用于获取文章资源;
查找模块,查找所述文章资源的作者其余文章资源、或所述文章资源的作者的工作单位中各作者的其余文章资源给出的关键词集合,所述关键词集合中包含有多个按顺序排列的关键词;
计算单元,依据所述关键词集合中的首个所述关键词,计算与各所述关键词库中包含的所述核心词的关联度大于预设关联度阈值的所述关键词库;
添加模块,用于将所述关键词集合中的各所述关键词,加入到查找到的所述关键词库中;并依据该所述关键词集合的首个所述关键词和该所述关键词库中的所述核心词的关联度,按所述关键词集合中的各所述关键词的排列顺序,由高到低的顺次赋予所述关键词集合中的各所述关键词的权重。
7.根据权利要求6所述的关联词调整系统,其特征在于还包括:
记录模块,用于记录各所述原始关键词、所述核心词以及补入的各所述关键词的使用次数,以动态调整各所述原始关键词、所述核心词以及补入的各所述关键词的权重。
CN201810181822.2A 2018-03-06 2018-03-06 关联词调整方法及调整系统 Active CN108399254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810181822.2A CN108399254B (zh) 2018-03-06 2018-03-06 关联词调整方法及调整系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810181822.2A CN108399254B (zh) 2018-03-06 2018-03-06 关联词调整方法及调整系统

Publications (2)

Publication Number Publication Date
CN108399254A true CN108399254A (zh) 2018-08-14
CN108399254B CN108399254B (zh) 2023-02-24

Family

ID=63091888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810181822.2A Active CN108399254B (zh) 2018-03-06 2018-03-06 关联词调整方法及调整系统

Country Status (1)

Country Link
CN (1) CN108399254B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101359330A (zh) * 2008-05-04 2009-02-04 索意互动(北京)信息技术有限公司 内容扩展的方法和系统
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN104123279A (zh) * 2013-04-24 2014-10-29 腾讯科技(深圳)有限公司 关键词的聚类方法和装置
JP2017072963A (ja) * 2015-10-07 2017-04-13 Necソリューションイノベータ株式会社 情報分析装置及び情報分析方法
CN107391556A (zh) * 2017-06-07 2017-11-24 百度在线网络技术(北京)有限公司 基于推荐应用的搜索方法、服务器及计算机可读介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101359330A (zh) * 2008-05-04 2009-02-04 索意互动(北京)信息技术有限公司 内容扩展的方法和系统
CN101393545A (zh) * 2008-11-06 2009-03-25 新百丽鞋业(深圳)有限公司 一种利用关联模型实现自动摘要的方法
CN104123279A (zh) * 2013-04-24 2014-10-29 腾讯科技(深圳)有限公司 关键词的聚类方法和装置
JP2017072963A (ja) * 2015-10-07 2017-04-13 Necソリューションイノベータ株式会社 情報分析装置及び情報分析方法
CN107391556A (zh) * 2017-06-07 2017-11-24 百度在线网络技术(北京)有限公司 基于推荐应用的搜索方法、服务器及计算机可读介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘萍等: "利用作者关键词网络探测作者相似性", 《现代图书情报技术》 *
邱利茂等: "基于文档词典的文本关联关键词推荐技术", 《现代计算机(专业版)》 *

Also Published As

Publication number Publication date
CN108399254B (zh) 2023-02-24

Similar Documents

Publication Publication Date Title
JP5662961B2 (ja) レビュー処理方法およびシステム
US8548995B1 (en) Ranking of documents based on analysis of related documents
JP4837040B2 (ja) ブログ文書のランク付け
Wang et al. Exploring online social activities for adaptive search personalization
US8332426B2 (en) Indentifying referring expressions for concepts
US20070174319A1 (en) Method for adjusting concept-based keyword functions, and search engine employing the same
Wang et al. Using evidence based content trust model for spam detection
Kirsch et al. Beyond the web: Retrieval in social information spaces
Kennedy et al. Query-adaptive fusion for multimodal search
CN108416019A (zh) 关联词调整方法及调整系统
Cantador et al. Semantic contextualisation of social tag-based profiles and item recommendations
US9400789B2 (en) Associating resources with entities
CN108399253A (zh) 关联词调整方法及调整系统
CN108399254A (zh) 关联词调整方法及调整系统
Ban et al. CICPV: A new academic expert search model
CN110147424B (zh) 一种Top-k组合空间关键字查询方法和系统
Gaou et al. The optimization of search engines to improve the ranking to detect user’s intent
Batra et al. Content based hidden web ranking algorithm (CHWRA)
Beck et al. What to read next? challenges and preliminary results in selecting representative documents
Kulkarni et al. Information Retrieval based Improvising Search using Automatic Query Expansion
Hu et al. A personalised search approach for web service recommendation
CN107423298B (zh) 一种搜索方法和装置
Cai et al. Question recommendation in medical community-based question answering
Gaou et al. Search Engine Optimization to detect user's intent
Kalinov et al. Let's Trust Users It is Their Search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant