CN113065070A - 一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质 - Google Patents

一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质 Download PDF

Info

Publication number
CN113065070A
CN113065070A CN202110443497.4A CN202110443497A CN113065070A CN 113065070 A CN113065070 A CN 113065070A CN 202110443497 A CN202110443497 A CN 202110443497A CN 113065070 A CN113065070 A CN 113065070A
Authority
CN
China
Prior art keywords
result information
retrieval result
retrieval
information
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110443497.4A
Other languages
English (en)
Inventor
刘伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Ruitong Huixing E Commerce Co ltd
Original Assignee
Wuhan Ruitong Huixing E Commerce Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Ruitong Huixing E Commerce Co ltd filed Critical Wuhan Ruitong Huixing E Commerce Co ltd
Priority to CN202110443497.4A priority Critical patent/CN113065070A/zh
Publication of CN113065070A publication Critical patent/CN113065070A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质,通过对互联网搜索引擎输入的检索文字进行检索关键词提取,并根据检索关键词进行检索,以此将检索得到的后台检索结果信息先进行初步处理,得到目标检索结果信息,再对目标检索结果信息进行深度分析,进而将分析结果进行综合,得出各条目标检索结果信息对应的综合价值系数,由此对各条目标检索结果信息按照综合价值系数由大到小的顺序进行排序,完善深化了目前互联网搜索引擎对应的检索功能,进而提高了检索水平,实现了人们在互联网上高效检索高价值信息的需求,大大增强了人们利用互联网搜索引擎进行信息检索的检索体验感。

Description

一种移动互联网信息搜索检索智能排序方法、系统、设备和计 算机存储介质
技术领域
本发明属于互联网信息检索技术领域,具体涉及一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质。
背景技术
随着计算机技术及网络技术的发展,人们越来越习惯于在互联网上进行信息检索,但伴随着互联网上信息爆炸式的增长以及网络环境的日益复杂,搜索引擎作为信息检索的重要工具在网络经济中的作用变得越来越重要,但目前互联网搜索引擎检索功能还不完善,智能化水平较低,导致检索得到的结果价值较低,这具体体现以下方面:
1.目前互联网搜索引擎没有对检索得到的信息进行去重和无效信息过滤,导致用户在浏览检索结果中经常会浏览到重复的信息和无效信息,这些重复信息和无效信息一方面会占用网站内存空间,导致网站访问速度变慢;另一方面该无效信息与用户输入的检索文字无关,而浏览这些无效信息会无端浪费用户的浏览时间,进而降低了浏览效率;
2.目前互联网搜索引擎在对检索得到的结果进行排序过程中,没有统一的排序依据,经常出现无依据排序,而有排序依据的则只是针对检索结果的某一种价值特征进行排序,如时间价值特征、匹配关联度价值特征、访问量价值特征等,导致排序方式过于单一、片面,无法将检索结果对应的多个价值特征进行综合,从而对检索结果进行综合价值排序。
综上可见,目前互联网搜索引擎检索水平不高,难以满足人们在互联网上高效检索高价值信息的需求。
发明内容
为了至少克服现有技术中的上述不足,本发明提出一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质,通过将互联网搜索引擎根据检索文字检索得到的后台检索结果信息先进行初步处理,得到目标检索结果信息,再对目标检索结果信息进行深度分析,进而将分析结果进行综合,得出各条目标检索结果信息对应的综合价值系数,由此对各条目标检索结果信息按照综合价值系数进行排序,有效解决了背景技术提到的问题。
本发明的目的可以通过以下技术方案来实现:
第一方面,本发明提供一种移动互联网信息搜索检索智能排序方法,包括以下步骤;
S1.检索文字检索关键词提取:通过检索文字检索关键词提取模块对互联网搜索引擎上输入的检索文字进行检索关键词提取;
S2.检索关键词检索:根据提取的检索关键词在互联网搜索引擎进行检索;
S3.后台检索结果信息统计:通过后台检索结果信息集合构建模块将检索得到的所有后台检索结果信息构成后台检索结果信息集合;
S4.后台检索结果信息初步处理:通过后台检索结果信息初步处理模块对后台检索结果信息集合中的所有后台检索结果信息进行初步处理,其中初步处理包括去重和无效信息识别,具体处理步骤为先将所有后台检索结果信息进行去重,并将去重后的各条后台检索结果信息进行无效信息识别,进而剔除属于无效信息的后台检索结果信息,保留不属于无效信息的后台检索结果信息,同时将保留下来的后台检索结果信息记为目标检索结果信息,并对其进行编号:
S5.目标检索结果信息深度分析:通过目标检索结果信息深度分析模块对保留下来的各条目标检索结果信息进行深度分析,具体深度分析过程执行以下步骤:
S51:对各条目标检索结果信息进行文本信息分析,并提取文本信息关键词,以此将提取的文本信息关键词与检索关键词进行匹配,进而统计各条目标检索结果信息对应的匹配关联度;
S52:对各条目标检索结果信息进行网页历史累计访问量分析,得到各条目标检索结果信息对应的网页历史累计访问量,其具体分析过程如下:
S521:获取各条目标检索结果信息对应网页的上传时间和当前时间,以此统计各条目标检索结果信息对应的上传天数;
S522:记录各条目标检索结果信息对应上传天数中的每天上传对应的网页访问量;
S523:将各条目标检索结果信息对应上传天数中的每天上传对应的网页访问量进行累加,得到各条目标检索结果信息对应的网页历史累计访问量;
S53:对各条目标检索结果信息进行信息类型分析,得到各条目标检索结果信息对应的信息类型;
S6.综合价值系数评估:对各条目标检索结果信息对应的网页历史累计访问量和信息类型进行分析,得到各条目标检索结果信息对应的访问价值指数和专业价值指数,进而根据各条目标检索结果信息对应的匹配关联度、专业价值指数和访问价值指数评估各条目标检索结果信息对应的综合价值系数;
S7.智能排序显示:将各条目标检索结果信息按照其对应的综合价值系数由大到小的顺序进行排序,以此得到各条目标检索结果信息对应的排序结果,并将其显示在互联网搜索引擎对应的检索结果界面;
该方法在具体实施过程中需要用到一种移动互联网信息搜索检索智能排序系统,该系统包括检索文字检索关键词提取模块、后台检索结果信息集合构建模块、排序数据库、后台检索结果信息初步处理模块、目标检索结果信息深度分析模块、分析云平台和智能排序显示终端;
所述检索文字检索关键词提取模块用于对互联网搜索引擎上输入的检索文字进行检索关键词提取,并将提取的检索关键词发送至目标检索结果信息深度分析模块;
所述后台检索结果信息集合构建模块用于根据提取的检索关键词在互联网搜索引擎上进行检索,得到对应的后台检索结果信息,并对得到的后台检索结果信息进行统计,进而构成后台检索结果信息集合;
所述后台检索结果信息初步处理模块用于对构成的后台检索结果信息集合中的所有后台检索结果信息进行去重,并将去重后的各条后台检索结果信息进行无效信息识别,进而对属于无效信息的后台检索结果信息进行剔除,对不属于无效信息的后台检索结果信息进行保留,以此得到保留下的各条后台检索结果信息,其中保留下的后台检索结果信息记为目标检索结果信息,此时获取各条目标检索结果信息对应的上传时间,从而将各条目标检索结果信息按照其对应的上传时间先后顺序进行编号,依次标记为1,2,...,i,...n;
所述排序数据库用于存储各种信息类型对应的专业价值指数,其中各种信息类型包括广告、企业网站、文库文章、论坛评论和学术论文,并存储匹配关联度、访问价值、专业价值对应综合价值的权重系数;
所述目标检索结果信息深度分析模块用于对保留下的各条目标检索结果信息进行深度分析,其中深度分析包括文本信息分析、网页访问量分析和信息类型分析,其中文本信息分析的结果为提取文本信息关键词,以此将提取的文本信息关键词与检索关键词进行匹配,进而统计各条目标检索结果信息对应的匹配关联度,网页访问量分析的结果为得到各条目标检索结果信息对应的网页历史累计访问量,信息类型分析的结果为得到各条目标检索结果信息对应的信息类型,进而将各条目标检索结果信息对应的匹配关联度、网页历史累计访问量和信息类型发送至分析云平台;
所述分析云平台接收目标检索结果信息深度分析模块发送的各条目标检索结果信息对应的匹配关联度、网页历史累计访问量和信息类型,并将各条目标检索结果信息对应的信息类型与排序数据库中各种信息类型对应的专业价值指数进行对比,以此得到各条目标检索结果信息对应的专业价值指数,同时将各条目标检索结果信息对应的网页历史累计访问量根据设置的访问价值指数计算公式计算各条目标检索结果信息对应的访问价值指数,进而根据各条目标检索结果信息对应的匹配关联度、专业价值指数和访问价值指数评估各条目标检索结果信息对应的综合价值系数,并传输至智能排序显示终端;
所述智能排序显示终端将各条目标检索结果信息按照其对应的综合价值系数由大到小的顺序进行排序,以此得到各条目标检索结果信息对应的排序结果,并将其显示在互联网搜索引擎对应的检索结果界面。
根据本发明第一方面的一种能够实现的方式,所述检索文字检索关键词提取模块在对互联网搜索引擎上输入的检索文字进行检索关键词提取过程中,还包括将提取的检索关键词进行相近关键词查询,得到检索关键词对应的相近关键词,并将其补充到检索关键词中,进而构成检索关键词集合。
根据本发明第一方面的一种能够实现的方式,所述后台检索结果信息初步处理模块对构成的后台检索结果信息集合中的所有后台检索结果信息进行去重,其具体去重方法包括以下步骤:
H1:获取后台检索结果信息集合中各条后台检索结果信息对应的网页网址;
H2:将各条后台检索结果信息对应的网页网址进行相互对比,若某几条后台检索结果信息对应的网页网址完全一致,则表明该几条后台检索结果信息重复;
H3:统计重复的后台检索结果信息数量,并对该重复的若干条后台检索结果信息进行去重,即只保留一条后台检索结果信息。
根据本发明第一方面的一种能够实现的方式,所述后台检索结果信息初步处理模块将去重后的各条后台检索结果信息进行无效信息识别,其具体识别过程如下:
G1:将去重后的各条后台检索结果信息对应的网页网址进行网址域名特征提取;
G2:将提取的各条后台检索结果信息对应的网址域名特征与各种无效网页对应的网址域名特征进行匹配,若提取的某条后台检索结果信息对应的网址域名特征与某种无效网页对应的网址域名特征匹配成功,则表明该条后台检索结果信息对应的网页属于无效网页,该条后台检索结果信息即为无效信息。
根据本发明第一方面的一种能够实现的方式,所述目标检索结果信息深度分析模块包括文本信息分析单元、网页访问量分析单元和信息类型分析单元,其中文本信息分析单元对应的具体分析过程包括以下步骤:
F1:将各条目标检索结果信息对应的网页内容进行文本信息识别,并对识别出的文本信息进行提取;
F2:将提取的文本信息进行预处理操作,其中预处理操作包括断句、分词和去除停用词,以此得到预处理后的各个词组;
F3:从得到的各个词组中提取出文本信息关键词,并统计各条目标检索结果信息对应提取的文本信息关键词数量,进而将各文本信息关键词分别与检索关键词进行匹配,以此统计匹配成功的文本信息关键词数量;
F4:根据各条目标检索结果信息对应提取的文本信息关键词数量和各条目标检索结果信息对应匹配成功的文本信息关键词数量统计各条目标检索结果信息对应的匹配关联度。
根据本发明第一方面的一种能够实现的方式,所述各条目标检索结果信息对应的匹配关联度的计算公式为
Figure BDA0003036015660000071
式中ηi表示为第i条目标检索结果信息对应的匹配关联度,Xi、xi分别表示为第i条目标检索结果信息对应提取的文本信息关键词数量、匹配成功的文本信息关键词数量。
根据本发明第一方面的一种能够实现的方式,所述各条目标检索结果信息对应的访问价值指数的计算公式为
Figure BDA0003036015660000072
式中σi表示为第i条目标检索结果信息对应的访问价值指数,ki表示为第i条目标检索结果信息对应的网页历史累计访问量。
根据本发明第一方面的一种能够实现的方式,所述各条目标检索结果信息对应的综合价值系数的计算公式为
Figure BDA0003036015660000073
式中
Figure BDA0003036015660000074
表示为第i条目标检索结果信息对应的综合价值系数,λi表示为第i条目标检索结果信息对应的专业价值指数,a、b、c分别表示为匹配关联度、访问价值、专业价值对应综合价值的权重系数,且a+b+c=1,a>c>b。
第二方面,本发明提供一种设备,包括处理器,以及与处理器连接的内存和网络接口;所述网络接口与服务器中的非易失性存储器连接;所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序,并通过所述内存运行所述计算机程序,以执行本发明所述的移动互联网信息搜索检索智能排序方法。
第三方面,本发明提供一种计算机存储介质,所述计算机存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现本发明所述的移动互联网信息搜索检索智能排序方法。
基于上述任一方面,本发明的有益效果如下:
(1)本发明通过将互联网搜索引擎根据检索文字检索得到的后台检索结果信息进行去重和无效信息识别,进而对属于无效信息的后台检索结果信息进行剔除,对不属于无效信息的后台检索结果信息进行保留,实现了对检索结果的初步处理,弥补了目前互联网搜索引擎没有对检索得到的信息进行去重和无效信息过滤的不足,缓解了重复信息和无效信息过多造成的占用网站内存空间的情况,提高了网站访问速度,同时节省了用户的信息浏览时间,进而提高了浏览效率。
(2)本发明通过将初步处理后的目标检索结果信息进行深度分析,并根据分析结果得到各条目标检索结果信息对应的匹配关联度、访问价值指数和专业价值指数,由此综合以上评估各条目标检索结果信息对应的综合价值系数,从而将各条目标检索结果信息按照其对应的综合价值系数进行综合排序,进而显示在互联网搜索引擎对应的检索结果界面,实现了对检索结果信息的综合排序,克服了目前互联网搜索引擎对检索得到的结果没有统一排序依据的弊端,同时避免了单一、片面的排序方式,提高了检索结果的综合价值性,避免了目前互联网搜索引擎检索结果价值较低情况的发生。
(3)本发明在进行检索文字检索之前,对检索文字进行检索关键词提取,进而根据检索关键词进行检索,相对于对所有的检索文字均进行检索,该检索方式提高了检索结果信息与检索文字对应的匹配精准度,同时提高了检索效率。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明的方法实施步骤流程图;
图2为本发明的系统模块连接示意图;
图3为本发明的目标检索结果信息深度分析模块连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,第一方面,本发明提供一种移动互联网信息搜索检索智能排序方法,包括以下步骤;
S1.检索文字检索关键词提取:通过检索文字检索关键词提取模块对互联网搜索引擎上输入的检索文字进行检索关键词提取;
S2.检索关键词检索:根据提取的检索关键词在互联网搜索引擎进行检索;
S3.后台检索结果信息统计:通过后台检索结果信息集合构建模块将检索得到的所有后台检索结果信息构成后台检索结果信息集合;
S4.后台检索结果信息初步处理:通过后台检索结果信息初步处理模块对后台检索结果信息集合中的所有后台检索结果信息进行初步处理,其中初步处理包括去重和无效信息识别,具体处理步骤为先将所有后台检索结果信息进行去重,并将去重后的各条后台检索结果信息进行无效信息识别,进而剔除属于无效信息的后台检索结果信息,保留不属于无效信息的后台检索结果信息,同时将保留下来的后台检索结果信息记为目标检索结果信息,并对其进行编号:
S5.目标检索结果信息深度分析:通过目标检索结果信息深度分析模块对保留下来的各条目标检索结果信息进行深度分析,具体深度分析过程执行以下步骤:
S51:对各条目标检索结果信息进行文本信息分析,并提取文本信息关键词,以此将提取的文本信息关键词与检索关键词进行匹配,进而统计各条目标检索结果信息对应的匹配关联度;
S52:对各条目标检索结果信息进行网页历史累计访问量分析,得到各条目标检索结果信息对应的网页历史累计访问量,其具体分析过程如下:
S521:获取各条目标检索结果信息对应网页的上传时间和当前时间,以此统计各条目标检索结果信息对应的上传天数;
S522:记录各条目标检索结果信息对应上传天数中的每天上传对应的网页访问量;
S523:将各条目标检索结果信息对应上传天数中的每天上传对应的网页访问量进行累加,得到各条目标检索结果信息对应的网页历史累计访问量;
S53:对各条目标检索结果信息进行信息类型分析,得到各条目标检索结果信息对应的信息类型;
S6.综合价值系数评估:对各条目标检索结果信息对应的网页历史累计访问量和信息类型进行分析,得到各条目标检索结果信息对应的访问价值指数和专业价值指数,进而根据各条目标检索结果信息对应的匹配关联度、专业价值指数和访问价值指数评估各条目标检索结果信息对应的综合价值系数;
S7.智能排序显示:将各条目标检索结果信息按照其对应的综合价值系数由大到小的顺序进行排序,以此得到各条目标检索结果信息对应的排序结果,并将其显示在互联网搜索引擎对应的检索结果界面。
参照图2所示,该方法在具体实施过程中需要用到一种移动互联网信息搜索检索智能排序系统,该系统包括检索文字检索关键词提取模块、后台检索结果信息集合构建模块、排序数据库、后台检索结果信息初步处理模块、目标检索结果信息深度分析模块、分析云平台和智能排序显示终端,其中检索文字检索关键词提取模块分别与后台检索结果信息集合构建模块和目标检索结果信息深度分析模块连接,后台检索结果信息集合构建模块与后台检索结果信息初步处理模块连接,后台检索结果信息初步处理模块与目标检索结果信息深度分析模块连接,目标检索结果信息深度分析模块与分析云平台连接,分析云平台与智能排序显示终端连接。
检索文字检索关键词提取模块用于对互联网搜索引擎上输入的检索文字进行检索关键词提取,并将将提取的检索关键词进行相近关键词查询,得到检索关键词对应的相近关键词,并将其补充到检索关键词中,进而构成检索关键词集合,并将构成的检索关键词集合分别发送至后台检索结果信息集合构建模块和目标检索结果信息深度分析模块。
本实施例在进行检索文字检索之前,对检索文字进行检索关键词提取,进而根据检索关键词进行检索,相对于对所有的检索文字均进行检索,该检索方式提高了检索结果信息与检索文字对应的匹配精准度,同时提高了检索效率。
本实施例在提取检索关键词过程中通过对提取的检索关键词进行相近关键词查询,进而实现了对检索关键词的补充,扩大了检索范围,提高了检索结果的覆盖面,使得得到的检索结果更加全面。
后台检索结果信息集合构建模块用于接收检索文字检索关键词提取模块发送的检索关键词集合,并从检索关键词集合中依次提取各检索关键词在互联网搜索引擎上进行检索,得到各检索关键词对应的后台检索结果信息,并将各检索关键词对应的后台检索结果信息进行汇总统计,进而构成后台检索结果信息集合。
后台检索结果信息初步处理模块用于对构成的后台检索结果信息集合中的所有后台检索结果信息进行去重,其具体去重方法包括以下步骤:
H1:获取后台检索结果信息集合中各条后台检索结果信息对应的网页网址;
H2:将各条后台检索结果信息对应的网页网址进行相互对比,若某几条后台检索结果信息对应的网页网址完全一致,则表明该几条后台检索结果信息重复;
H3:统计重复的后台检索结果信息数量,并对该重复的若干条后台检索结果信息进行去重,即只保留一条后台检索结果信息;
并将去重后的各条后台检索结果信息进行无效信息识别,其具体识别过程如下:
G1:将去重后的各条后台检索结果信息对应的网页网址进行网址域名特征提取;
G2:将提取的各条后台检索结果信息对应的网址域名特征与各种无效网页对应的网址域名特征进行匹配,若提取的某条后台检索结果信息对应的网址域名特征与某种无效网页对应的网址域名特征匹配成功,则表明该条后台检索结果信息对应的网页属于无效网页,该条后台检索结果信息即为无效信息;
进而对属于无效信息的后台检索结果信息进行剔除,对不属于无效信息的后台检索结果信息进行保留,以此得到保留下的各条后台检索结果信息,其中保留下的后台检索结果信息记为目标检索结果信息,此时获取各条目标检索结果信息对应的上传时间,从而将各条目标检索结果信息按照其对应的上传时间先后顺序进行编号,依次标记为1,2,...,i,...n,进而将各条目标检索结果信息发送至目标检索结果信息深度分析模块。
本实施例通过将互联网搜索引擎根据检索文字检索得到的后台检索结果信息进行去重和无效信息识别,进而对属于无效信息的后台检索结果信息进行剔除,对不属于无效信息的后台检索结果信息进行保留,实现了对检索结果的初步处理,弥补了目前互联网搜索引擎没有对检索得到的信息进行去重和无效信息过滤的不足,缓解了重复信息和无效信息过多造成的占用网站内存空间的情况,提高了网站访问速度,同时节省了用户的信息浏览时间,进而提高了浏览效率。
排序数据库用于存储各种信息类型对应的专业价值指数,所述各种信息类型包括广告、企业网站、文库文章、论坛评论和学术论文,其中各种信息类型对应专业价值指数的大小关系为学术论文>文库文章>论坛评论>企业网站>广告,并存储匹配关联度、访问价值、专业价值对应综合价值的权重系数。
目标检索结果信息深度分析模块用于接收后台检索结果信息初步处理模块发送的各条目标检索结果信息,并对各条目标检索结果信息进行深度分析,参照图3所示,所述目标检索结果信息深度分析模块包括文本信息分析单元、网页访问量分析单元和信息类型分析单元,其中文本信息分析单元对应的具体分析过程包括以下步骤:
F1:将各条目标检索结果信息对应的网页内容进行文本信息识别,并对识别出的文本信息进行提取;
F2:将提取的文本信息进行预处理操作,其中预处理操作包括断句、分词和去除停用词,以此得到预处理后的各个词组;
F3:从得到的各个词组中提取出文本信息关键词,并统计各条目标检索结果信息对应提取的文本信息关键词数量,进而将各文本信息关键词分别与检索关键词进行匹配,以此统计匹配成功的文本信息关键词数量;
F4:根据各条目标检索结果信息对应提取的文本信息关键词数量和各条目标检索结果信息对应匹配成功的文本信息关键词数量统计各条目标检索结果信息对应的匹配关联度
Figure BDA0003036015660000141
式中ηi表示为第i条目标检索结果信息对应的匹配关联度,Xi、xi分别表示为第i条目标检索结果信息对应提取的文本信息关键词数量、匹配成功的文本信息关键词数量;
所述网页访问量分析单元用于对各条目标检索结果信息对应的网页历史累计访问量进行分析,其具体分析过程如下:
R1:获取各条目标检索结果信息对应网页的上传时间和当前时间,以此统计各条目标检索结果信息对应的上传天数;
R2:记录各条目标检索结果信息对应上传天数中的每天上传对应的网页访问量;
R3:将各条目标检索结果信息对应上传天数中的每天上传对应的网页访问量进行累加,得到各条目标检索结果信息对应的网页历史累计访问量;
所述信息类型分析单元用于对各条目标检索结果信息对应的信息类型进行分析,其具体分析过程如下:
U1:对各条目标检索结果信息对应的网页网址进行网址域名特征提取;
U2:将提取的各条目标检索结果信息对应的网址域名特征与各种信息类型对应的网址域名特征进行匹配,若某条目标检索结果信息对应的网址域名特征与某种信息类型对应的网址域名特征匹配成功,则表明该条目标检索结果信息对应的信息类型为该信息类型,由此得到各条目标检索结果信息对应的信息类型;
目标检索结果信息深度分析模块将各条目标检索结果信息对应的匹配关联度、网页历史累计访问量和信息类型发送至分析云平台。
分析云平台接收目标检索结果信息深度分析模块发送的各条目标检索结果信息对应的匹配关联度、网页历史累计访问量和信息类型,并将各条目标检索结果信息对应的信息类型与排序数据库中各种信息类型对应的专业价值指数进行对比,以此得到各条目标检索结果信息对应的专业价值指数,同时将各条目标检索结果信息对应的网页历史累计访问量根据设置的访问价值指数计算公式计算各条目标检索结果信息对应的访问价值指数
Figure BDA0003036015660000151
式中σi表示为第i 条目标检索结果信息对应的访问价值指数,ki表示为第i条目标检索结果信息对应的网页历史累计访问量,进而根据各条目标检索结果信息对应的匹配关联度、专业价值指数和访问价值指数评估各条目标检索结果信息对应的综合价值系数
Figure BDA0003036015660000152
式中
Figure BDA0003036015660000153
表示为第i条目标检索结果信息对应的综合价值系数,λi表示为第i条目标检索结果信息对应的专业价值指数,a、b、c分别表示为匹配关联度、访问价值、专业价值对应综合价值的权重系数,且a+b+c=1, a>c>b,并将各条目标检索结果信息对应的综合价值系数传输至智能排序显示终端。
本实施例通过对各条目标检索结果信息进行深度分析,以此得到各条目标检索结果信息对应的匹配关联度、专业价值指数和访问价值指数,并综合以上得出各条目标检索结果信息对应的综合价值系数,实现了将检索结果对应的多个价值特征进行综合的检索功能,提高了检索结果的综合价值性,避免了目前互联网搜索引擎检索结果价值较低情况的发生。
智能排序显示终端将各条目标检索结果信息按照其对应的综合价值系数由大到小的顺序进行排序,以此得到各条目标检索结果信息对应的排序结果,并将其显示在互联网搜索引擎对应的检索结果界面。
本实施例通过将各条目标检索结果信息按照其对应的综合价值系数由大到小的顺序进行排序,实现了对检索结果信息的综合排序,克服了目前互联网搜索引擎对检索得到的结果没有统一排序依据的弊端,同时避免了单一、片面的排序方式,同时“由大到小的排序方法”使得排在前列的目标检索结果信息综合价值较大,便于人们直观快速地获取到综合价值较大的检索结果,具有实用性强的特点。
本发明通过将互联网搜索引擎根据检索文字检索得到的后台检索结果信息先进行初步处理,得到目标检索结果信息,再对目标检索结果信息进行深度分析,进而将分析结果进行综合,得出各条目标检索结果信息对应的综合价值系数,由此对各条目标检索结果信息按照综合价值系数进行排序,完善深化了目前互联网搜索引擎对应的检索功能,进而提高了检索水平,实现了人们在互联网上高效检索高价值信息的需求,大大增强了人们利用互联网搜索引擎进行信息检索的检索体验感。
第二方面,本发明提供一种设备,包括处理器,以及与处理器连接的内存和网络接口;所述网络接口与服务器中的非易失性存储器连接;所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序,并通过所述内存运行所述计算机程序,以执行本发明所述的移动互联网信息搜索检索智能排序方法。
第三方面,本发明提供一种计算机存储介质,所述计算机存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现本发明所述的移动互联网信息搜索检索智能排序方法。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (10)

1.一种移动互联网信息搜索检索智能排序方法,其特征在于:该方法在具体实施过程中需要用到一种移动互联网信息搜索检索智能排序系统,该系统包括检索文字检索关键词提取模块、后台检索结果信息集合构建模块、排序数据库、后台检索结果信息初步处理模块、目标检索结果信息深度分析模块、分析云平台和智能排序显示终端;
所述检索文字检索关键词提取模块用于对互联网搜索引擎上输入的检索文字进行检索关键词提取,并将提取的检索关键词发送至目标检索结果信息深度分析模块;
所述后台检索结果信息集合构建模块用于根据提取的检索关键词在互联网搜索引擎上进行检索,得到对应的后台检索结果信息,并对得到的后台检索结果信息进行统计,进而构成后台检索结果信息集合;
所述后台检索结果信息初步处理模块用于对构成的后台检索结果信息集合中的所有后台检索结果信息进行去重,并将去重后的各条后台检索结果信息进行无效信息识别,进而对属于无效信息的后台检索结果信息进行剔除,对不属于无效信息的后台检索结果信息进行保留,以此得到保留下的各条后台检索结果信息,其中保留下的后台检索结果信息记为目标检索结果信息,此时获取各条目标检索结果信息对应的上传时间,从而将各条目标检索结果信息按照其对应的上传时间先后顺序进行编号,依次标记为1,2,...,i,...n;
所述排序数据库用于存储各种信息类型对应的专业价值指数,其中各种信息类型包括广告、企业网站、文库文章、论坛评论和学术论文,并存储匹配关联度、访问价值、专业价值对应综合价值的权重系数;
所述目标检索结果信息深度分析模块用于对保留下的各条目标检索结果信息进行深度分析,其中深度分析包括文本信息分析、网页访问量分析和信息类型分析,其中文本信息分析的结果为提取文本信息关键词,以此将提取的文本信息关键词与检索关键词进行匹配,进而统计各条目标检索结果信息对应的匹配关联度,网页访问量分析的结果为得到各条目标检索结果信息对应的网页历史累计访问量,信息类型分析的结果为得到各条目标检索结果信息对应的信息类型,进而将各条目标检索结果信息对应的匹配关联度、网页历史累计访问量和信息类型发送至分析云平台;
所述分析云平台接收目标检索结果信息深度分析模块发送的各条目标检索结果信息对应的匹配关联度、网页历史累计访问量和信息类型,并将各条目标检索结果信息对应的信息类型与排序数据库中各种信息类型对应的专业价值指数进行对比,以此得到各条目标检索结果信息对应的专业价值指数,同时将各条目标检索结果信息对应的网页历史累计访问量根据设置的访问价值指数计算公式计算各条目标检索结果信息对应的访问价值指数,进而根据各条目标检索结果信息对应的匹配关联度、专业价值指数和访问价值指数评估各条目标检索结果信息对应的综合价值系数,并传输至智能排序显示终端;
所述智能排序显示终端将各条目标检索结果信息按照其对应的综合价值系数由大到小的顺序进行排序,以此得到各条目标检索结果信息对应的排序结果,并将其显示在互联网搜索引擎对应的检索结果界面;
所述一种移动互联网信息搜索检索智能排序方法,包括以下步骤;
S1.检索文字检索关键词提取:通过检索文字检索关键词提取模块对互联网搜索引擎上输入的检索文字进行检索关键词提取;
S2.检索关键词检索:根据提取的检索关键词在互联网搜索引擎进行检索;
S3.后台检索结果信息统计:通过后台检索结果信息集合构建模块将检索得到的所有后台检索结果信息构成后台检索结果信息集合;
S4.后台检索结果信息初步处理:通过后台检索结果信息初步处理模块对后台检索结果信息集合中的所有后台检索结果信息进行初步处理,其中初步处理包括去重和无效信息识别,具体处理步骤为先将所有后台检索结果信息进行去重,并将去重后的各条后台检索结果信息进行无效信息识别,进而剔除属于无效信息的后台检索结果信息,保留不属于无效信息的后台检索结果信息,同时将保留下来的后台检索结果信息记为目标检索结果信息,并对其进行编号:
S5.目标检索结果信息深度分析:通过目标检索结果信息深度分析模块对保留下来的各条目标检索结果信息进行深度分析,具体深度分析过程执行以下步骤:
S51:对各条目标检索结果信息进行文本信息分析,并提取文本信息关键词,以此将提取的文本信息关键词与检索关键词进行匹配,进而统计各条目标检索结果信息对应的匹配关联度;
S52:对各条目标检索结果信息进行网页历史累计访问量分析,得到各条目标检索结果信息对应的网页历史累计访问量,其具体分析过程如下:
S521:获取各条目标检索结果信息对应网页的上传时间和当前时间,以此统计各条目标检索结果信息对应的上传天数;
S522:记录各条目标检索结果信息对应上传天数中的每天上传对应的网页访问量;
S523:将各条目标检索结果信息对应上传天数中的每天上传对应的网页访问量进行累加,得到各条目标检索结果信息对应的网页历史累计访问量;
S53:对各条目标检索结果信息进行信息类型分析,得到各条目标检索结果信息对应的信息类型;
S6.综合价值系数评估:对各条目标检索结果信息对应的网页历史累计访问量和信息类型进行分析,得到各条目标检索结果信息对应的访问价值指数和专业价值指数,进而根据各条目标检索结果信息对应的匹配关联度、专业价值指数和访问价值指数评估各条目标检索结果信息对应的综合价值系数;
S7.智能排序显示:将各条目标检索结果信息按照其对应的综合价值系数由大到小的顺序进行排序,以此得到各条目标检索结果信息对应的排序结果,并将其显示在互联网搜索引擎对应的检索结果界面。
2.根据权利要求1所述的一种移动互联网信息搜索检索智能排序方法,其特征在于:所述检索文字检索关键词提取模块在对互联网搜索引擎上输入的检索文字进行检索关键词提取过程中,还包括将提取的检索关键词进行相近关键词查询,得到检索关键词对应的相近关键词,并将其补充到检索关键词中,进而构成检索关键词集合。
3.根据权利要求1所述的一种移动互联网信息搜索检索智能排序方法,其特征在于:所述后台检索结果信息初步处理模块对构成的后台检索结果信息集合中的所有后台检索结果信息进行去重,其具体去重方法包括以下步骤:
H1:获取后台检索结果信息集合中各条后台检索结果信息对应的网页网址;
H2:将各条后台检索结果信息对应的网页网址进行相互对比,若某几条后台检索结果信息对应的网页网址完全一致,则表明该几条后台检索结果信息重复;
H3:统计重复的后台检索结果信息数量,并对该重复的若干条后台检索结果信息进行去重,即只保留一条后台检索结果信息。
4.根据权利要求1所述的一种移动互联网信息搜索检索智能排序方法,其特征在于:所述后台检索结果信息初步处理模块将去重后的各条后台检索结果信息进行无效信息识别,其具体识别过程如下:
G1:将去重后的各条后台检索结果信息对应的网页网址进行网址域名特征提取;
G2:将提取的各条后台检索结果信息对应的网址域名特征与各种无效网页对应的网址域名特征进行匹配,若提取的某条后台检索结果信息对应的网址域名特征与某种无效网页对应的网址域名特征匹配成功,则表明该条后台检索结果信息对应的网页属于无效网页,该条后台检索结果信息即为无效信息。
5.根据权利要求1所述的一种移动互联网信息搜索检索智能排序方法,其特征在于:所述目标检索结果信息深度分析模块包括文本信息分析单元、网页访问量分析单元和信息类型分析单元,其中文本信息分析单元对应的具体分析过程包括以下步骤:
F1:将各条目标检索结果信息对应的网页内容进行文本信息识别,并对识别出的文本信息进行提取;
F2:将提取的文本信息进行预处理操作,其中预处理操作包括断句、分词和去除停用词,以此得到预处理后的各个词组;
F3:从得到的各个词组中提取出文本信息关键词,并统计各条目标检索结果信息对应提取的文本信息关键词数量,进而将各文本信息关键词分别与检索关键词进行匹配,以此统计匹配成功的文本信息关键词数量;
F4:根据各条目标检索结果信息对应提取的文本信息关键词数量和各条目标检索结果信息对应匹配成功的文本信息关键词数量统计各条目标检索结果信息对应的匹配关联度。
6.根据权利要求5所述的一种移动互联网信息搜索检索智能排序方法,其特征在于:所述各条目标检索结果信息对应的匹配关联度的计算公式为
Figure FDA0003036015650000061
式中ηi表示为第i条目标检索结果信息对应的匹配关联度,Xi、xi分别表示为第i条目标检索结果信息对应提取的文本信息关键词数量、匹配成功的文本信息关键词数量。
7.根据权利要求1所述的一种移动互联网信息搜索检索智能排序方法,其特征在于:所述各条目标检索结果信息对应的访问价值指数的计算公式为
Figure FDA0003036015650000062
式中σi表示为第i条目标检索结果信息对应的访问价值指数,ki表示为第i条目标检索结果信息对应的网页历史累计访问量。
8.根据权利要求1所述的一种移动互联网信息搜索检索智能排序方法,其特征在于:所述各条目标检索结果信息对应的综合价值系数的计算公式为
Figure FDA0003036015650000063
式中
Figure FDA0003036015650000064
表示为第i条目标检索结果信息对应的综合价值系数,λi表示为第i条目标检索结果信息对应的专业价值指数,a、b、c分别表示为匹配关联度、访问价值、专业价值对应综合价值的权重系数,且a+b+c=1,a>c>b。
9.一种设备,其特征在于:包括处理器,以及与处理器连接的内存和网络接口;所述网络接口与服务器中的非易失性存储器连接;所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序,并通过所述内存运行所述计算机程序,以执行上述权利要求1-8任一项所述的方法。
10.一种计算机存储介质,其特征在于:所述计算机存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现上述权利要求1-8任一项所述的方法。
CN202110443497.4A 2021-04-23 2021-04-23 一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质 Withdrawn CN113065070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110443497.4A CN113065070A (zh) 2021-04-23 2021-04-23 一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110443497.4A CN113065070A (zh) 2021-04-23 2021-04-23 一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质

Publications (1)

Publication Number Publication Date
CN113065070A true CN113065070A (zh) 2021-07-02

Family

ID=76567693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110443497.4A Withdrawn CN113065070A (zh) 2021-04-23 2021-04-23 一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN113065070A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610982A (zh) * 2022-04-06 2022-06-10 微纵联合网络科技(武汉)有限公司 一种计算机网络数据采集分析管理方法、设备及存储介质
CN115048581A (zh) * 2022-06-17 2022-09-13 武汉叶子互娱文化传媒有限公司 一种网络数据分析处理方法、系统及计算机存储介质
CN115098804A (zh) * 2022-06-24 2022-09-23 武汉楷瀚文化传媒有限公司 一种基于大数据分析的网页搜索历史记录智能管理系统
CN116775974A (zh) * 2023-06-29 2023-09-19 中咨高技术咨询中心有限公司 一种信息的筛选方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610982A (zh) * 2022-04-06 2022-06-10 微纵联合网络科技(武汉)有限公司 一种计算机网络数据采集分析管理方法、设备及存储介质
CN114610982B (zh) * 2022-04-06 2023-01-06 中咨数据有限公司 一种计算机网络数据采集分析管理方法、设备及存储介质
CN115048581A (zh) * 2022-06-17 2022-09-13 武汉叶子互娱文化传媒有限公司 一种网络数据分析处理方法、系统及计算机存储介质
CN115048581B (zh) * 2022-06-17 2023-12-08 广东朝阳全网通科技有限公司 一种网络数据分析处理方法、系统及计算机存储介质
CN115098804A (zh) * 2022-06-24 2022-09-23 武汉楷瀚文化传媒有限公司 一种基于大数据分析的网页搜索历史记录智能管理系统
CN115098804B (zh) * 2022-06-24 2023-11-03 上海上班族数字科技有限公司 一种基于大数据分析的网页搜索历史记录智能管理系统
CN116775974A (zh) * 2023-06-29 2023-09-19 中咨高技术咨询中心有限公司 一种信息的筛选方法
CN116775974B (zh) * 2023-06-29 2024-02-23 中咨高技术咨询中心有限公司 一种信息的筛选方法

Similar Documents

Publication Publication Date Title
CN110532451B (zh) 针对政策文本的检索方法和装置、存储介质、电子装置
CN113065070A (zh) 一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
US20080154886A1 (en) System and method for summarizing search results
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
KR20150036117A (ko) 쿼리 확장
JP2005085285A5 (zh)
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN107844493B (zh) 一种文件关联方法及系统
CN112131863A (zh) 一种评论观点主题抽取方法、电子设备及存储介质
CN112559684A (zh) 一种关键词提取及信息检索方法
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN113297457B (zh) 一种高精准性的信息资源智能推送系统及推送方法
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN111310011A (zh) 一种信息推送方法、装置、电子设备及存储介质
CN113868235A (zh) 一种基于大数据的信息检索分析系统
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN110209659A (zh) 一种简历过滤方法、系统和计算机可读存储介质
CN111625621A (zh) 一种文档检索方法、装置、电子设备及存储介质
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
CN107943937B (zh) 一种基于司法公开信息分析的债务人资产监控方法及系统
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN108509449B (zh) 一种信息处理的方法及服务器
CN113282817A (zh) 基于网页搜索引擎数据分析的网页内容智能收藏处理方法、系统及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210702