CN112632394A - 基于企业用户搜索行为特征的企业级搜索方法及搜索引擎 - Google Patents

基于企业用户搜索行为特征的企业级搜索方法及搜索引擎 Download PDF

Info

Publication number
CN112632394A
CN112632394A CN202011624061.7A CN202011624061A CN112632394A CN 112632394 A CN112632394 A CN 112632394A CN 202011624061 A CN202011624061 A CN 202011624061A CN 112632394 A CN112632394 A CN 112632394A
Authority
CN
China
Prior art keywords
searching
enterprise
search
employee
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011624061.7A
Other languages
English (en)
Inventor
王三明
王聪明
胡小敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiye Cloud Big Data Nanjing Co ltd
Original Assignee
Qiye Cloud Big Data Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiye Cloud Big Data Nanjing Co ltd filed Critical Qiye Cloud Big Data Nanjing Co ltd
Priority to CN202011624061.7A priority Critical patent/CN112632394A/zh
Publication of CN112632394A publication Critical patent/CN112632394A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出基于企业用户搜索行为特征的企业级搜索方法及搜索引擎,该方法包括以下步骤:收录企业员工搜索时常用的关键词和企业行业属性相关的关键词,形成企业内部的搜索词库;搭建员工搜索行为权重模型;当企业内的员工登录系统并进行搜索操作时,系统从员工输入的搜索内容中提取关键词,以及从员工的往期搜索行为数据中提取员工的搜索行为特征,然后通过员工搜索行为权重模型计算出提取的关键词的权重;系统后台依据搜索条件返回相应的结果数据,并将结果数据按照相应关键词权重值由大到小的顺序在页面上排列显示。本发明为企业级用户提供一种快速搜索方案,使企业员工在搜索企业内部数据时,能够快速获得符合搜索习惯的数据结果。

Description

基于企业用户搜索行为特征的企业级搜索方法及搜索引擎
技术领域
本发明涉及信息检索技术领域,具体涉及一种基于企业用户搜索行为特征的企业级搜索方法及搜索引擎。
背景技术
随着互联网的快速蓬勃的发展,获取各领域各方面的信息变得迫在眉睫,谷歌,百度等一些大型的搜索引擎应运而生,让人们可以随时随地的得到自己想要的内容。
但是,在进行搜索的过程中,从各大型搜素引擎获取到的内容是斑驳的,是杂乱的;特别是企业用户,在大量的网上垃圾信息中,无法快速的找到有关自己业务的信息。
发明内容
发明目的:本发明旨在克服现有技术的缺陷,为企业级用户提供一种基于企业用户搜索行为特征的企业级搜索方法及搜索引擎,使企业员工在搜索企业内部数据时,能够快速获得符合搜索习惯的数据结果。
技术方案:为实现上述目的,本发明提出以下技术方案:
基于企业用户搜索行为特征的企业级搜索方法,包括以下步骤:
(1)收录企业员工搜索时常用的关键词和企业行业属性相关的关键词,形成企业内部的搜索词库;
(2)搭建员工搜索行为权重模型,用于根据员工往期的搜索行为特征计算出不同的关键词的权重;
(3)当企业内的员工登录系统并进行搜索操作时,系统从员工输入的搜索内容中提取关键词,以及从员工的往期搜索行为数据中提取员工的搜索行为特征,然后通过员工搜索行为权重模型计算出提取的关键词的权重;
(4)将每个关键词的权重写入搜索条件中反馈给系统后台,系统后台依据搜索条件返回相应的结果数据,并将结果数据按照相应关键词权重值由大到小的顺序在页面上排列显示。
针对上述方法,以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
可选的,所述每个员工的搜索行为特征包括:每个关键词的使用频率、搜索结果页面的停留时间。
可选的,对于每个员工来说,关键词的权重与关键词使用频率以及员工在采用相应关键词搜索得到的结果页面上停留的时长呈正比关系。
相应地,本发明还提出基于企业用户搜索行为特征的企业级搜索引擎,包括处理器和存储器,存储器内存储有计算机程序,所述计算机程序能够被处理器执行,以实现所述基于企业用户搜索行为特征的企业级搜索方法。
有益效果:与现有技术相比,本发明具有以下优势:
本发明对不同员工的搜索习惯进行分析,提取出员工搜索行为特征,并根据搜索行为特征计算出关键词相对每个员工的权重,并写入搜索条件中;当系统后台返回搜索结果后,即可按照关键词的权重进行搜索结果显示,即将权重较大的关键词的搜索结果排列在前面,权重较小的关键词的搜索结果排列在后面,优化用户体验。
附图说明
图1为实施例涉及的搜索流程图。
具体实施方式
下面将结合附图和具体实施例对本发明作更进一步的说明。但应当理解的是,本发明可以以各种形式实施,以下在附图中出示并且在下文中描述的一些示例性和非限制性实施例,并不意图将本发明限制于所说明的具体实施例。
应当理解的是,在技术上可行的情况下,以上针对不同实施例所列举的技术特征可以相互组合,从而形成本发明范围内的另外的实施例。此外,本发明所述的特定示例和实施例是非限制性的,并且可以对以上所阐述的结构、步骤、顺序做出相应修改而不脱离本发明的保护范围。
实施例:
本实施提出一种基于企业用户搜索行为特征的企业级搜索方法,包括以下步骤:
步骤1:收录企业员工搜索时常用的关键词和企业行业属性相关的关键词,形成企业内部的搜索词库。
在构建搜索词库时,需要根据企业的属性特征,构建出和该企业所含行业相关的词语,比如说化工行业的、有机材料行业的、机械安全行业的一些常用词语。另外,还可以爬取企业内部的系统日志,从中提取出员工在搜索过程中使用的关键词。
步骤2:搭建员工搜索行为权重模型,用于根据员工往期的搜索行为特征计算出不同的关键词的权重。
员工搜索行为权重模型通过计算函数实现,所述计算函数遵循以下规则:对于每个员工来说,关键词的权重与关键词使用频率以及员工在采用相应关键词搜索得到的结果页面上停留的时长呈正比关系。
步骤3:当企业内的员工登录系统并进行搜索操作时,系统从员工输入的搜索内容中提取关键词,以及从员工的往期搜索行为数据中提取员工的搜索行为特征,然后通过员工搜索行为权重模型计算出提取的关键词的权重。每个员工的搜索行为特征包括:每个关键词的使用频率、搜索结果页面的停留时间。
步骤4:将每个关键词的权重写入搜索条件中反馈给系统后台,系统后台依据搜索条件返回相应的结果数据,并将结果数据按照相应关键词权重值由大到小的顺序在页面上排列显示。
相应地,本实施例还提出一种基于企业用户搜索行为特征的企业级搜索系统,包括处理器和存储器,存储器内存储有计算机程序,所述计算机程序能够被处理器执行,以实现所述基于企业用户搜索行为特征的企业级搜索方法。
图1所示即为本实施例所述搜索系统的搜索流程图,具体流程如下:
S1、用户登录系统并输入搜索内容;
S2:对输入的内容进行搜索词库匹配,包括:
对输入的内容进行纠错;
对输入内容中的关键词进行提示;
将搜索词或短语分成易于搜索的词。
S3:通过分词系统对匹配后的内容进行进一步处理,包括:
明确搜索动作信息:比如是要打开某条业务数据,搜索文档内容或标题,搜索同事联系方式,还是下载附件等;
通过确定搜索关键词的权重,确定各个关键词在本次搜索中占得的比重信息;
返回查找类型表示:比如是要搜索应用信息,还是搜索文档,还是通讯录等信息。
S4:搜索引擎根据登录用户的日志系统分析用户的搜索意图,并执行以下操作:
搜索出包含搜索关键词的内容;
根据搜索出来的内容进行排序,将用户最希望看到的数据在前面返回;
为用户提供人为手动设置搜索关键词权重的功能。
S5:将搜索结果进行按照关键词权重在页面上进行展示。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (4)

1.基于企业用户搜索行为特征的企业级搜索方法,其特征在于,包括以下步骤:
(1)收录企业员工搜索时常用的关键词和企业行业属性相关的关键词,形成企业内部的搜索词库;
(2)搭建员工搜索行为权重模型,用于根据员工往期的搜索行为特征计算出不同的关键词的权重;
(3)当企业内的员工登录系统并进行搜索操作时,系统从员工输入的搜索内容中提取关键词,以及从员工的往期搜索行为数据中提取员工的搜索行为特征,然后通过员工搜索行为权重模型计算出提取的关键词的权重;
(4)将每个关键词的权重写入搜索条件中反馈给系统后台,系统后台依据搜索条件返回相应的结果数据,并将结果数据按照相应关键词权重值由大到小的顺序在页面上排列显示。
2.根据权利要求1所述的基于企业用户搜索行为特征的企业级搜索方法,其特征在于,所述每个员工的搜索行为特征包括:每个关键词的使用频率、搜索结果页面的停留时间。
3.根据权利要求2所述的基于企业用户搜索行为特征的企业级搜索方法,其特征在于,对于每个员工来说,关键词的权重与关键词使用频率以及员工在采用相应关键词搜索得到的结果页面上停留的时长呈正比关系。
4.基于企业用户搜索行为特征的企业级搜索引擎,其特征在于,包括处理器和存储器,存储器内存储有计算机程序,所述计算机程序能够被处理器执行,以实现所述权利要求1至3任意一项所述的基于企业用户搜索行为特征的企业级搜索方法。
CN202011624061.7A 2020-12-31 2020-12-31 基于企业用户搜索行为特征的企业级搜索方法及搜索引擎 Pending CN112632394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011624061.7A CN112632394A (zh) 2020-12-31 2020-12-31 基于企业用户搜索行为特征的企业级搜索方法及搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011624061.7A CN112632394A (zh) 2020-12-31 2020-12-31 基于企业用户搜索行为特征的企业级搜索方法及搜索引擎

Publications (1)

Publication Number Publication Date
CN112632394A true CN112632394A (zh) 2021-04-09

Family

ID=75289710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011624061.7A Pending CN112632394A (zh) 2020-12-31 2020-12-31 基于企业用户搜索行为特征的企业级搜索方法及搜索引擎

Country Status (1)

Country Link
CN (1) CN112632394A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020213A (zh) * 2012-12-07 2013-04-03 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和系统
CN107577726A (zh) * 2017-08-22 2018-01-12 努比亚技术有限公司 一种搜索方法、服务器及计算机可读存储介质
CN111782956A (zh) * 2020-07-08 2020-10-16 重庆帮企科技集团有限公司 一种基于用户行为和关键词分类的搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020213A (zh) * 2012-12-07 2013-04-03 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和系统
CN107577726A (zh) * 2017-08-22 2018-01-12 努比亚技术有限公司 一种搜索方法、服务器及计算机可读存储介质
CN111782956A (zh) * 2020-07-08 2020-10-16 重庆帮企科技集团有限公司 一种基于用户行为和关键词分类的搜索方法

Similar Documents

Publication Publication Date Title
CA2638558C (en) Topic word generation method and system
CN111970186B (zh) 确定电子通信回复中包括的非文本回复内容的方法和装置
US8666984B2 (en) Unsupervised message clustering
Zamani et al. Situational context for ranking in personal search
US9552393B2 (en) Adaptive record linking in a distributed computing system
CN100595753C (zh) 一种文本主题推荐方法和装置
JP5759228B2 (ja) 拡張されたエンティティ抽出を基礎とするメッセージ及び会話間の意味的類似性の計算方法
US8990225B2 (en) Outbound content filtering via automated inference detection
US8478756B2 (en) Contextual document attribute values
CN101315624A (zh) 一种文本主题推荐的方法和装置
US20090089279A1 (en) Method and Apparatus for Detecting Spam User Created Content
US10296622B1 (en) Item attribute generation using query and item data
US20170147834A1 (en) Identifying query patterns and associated aggregate statistics among search queries
WO2016133538A1 (en) Search query modification using personalized profile
KR102292092B1 (ko) 개인화된 검색 결과 제공 방법 및 그 장치
US11176520B2 (en) Email content modification system
CN101088082A (zh) 全文查询和搜索系统及其使用方法
CN102591897A (zh) 文件检索装置以及文件检索方法
CN112632394A (zh) 基于企业用户搜索行为特征的企业级搜索方法及搜索引擎
Santoso et al. An Ontological Crawling Approach for Improving Information Aggregation over eGovernment Websites.
CN114090877A (zh) 职位信息推荐方法、装置、电子设备及存储介质
CN113392329A (zh) 内容推荐方法、装置、电子设备及存储介质
US10482128B2 (en) Scalable approach to information-theoretic string similarity using a guaranteed rank threshold
WO2011062599A1 (en) System and method for automated generation of advertising
CN107818091B (zh) 文档处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210409

RJ01 Rejection of invention patent application after publication