CN115470323B - 一种基于分词技术提高建筑行业搜索精度的方法 - Google Patents

一种基于分词技术提高建筑行业搜索精度的方法 Download PDF

Info

Publication number
CN115470323B
CN115470323B CN202211341694.6A CN202211341694A CN115470323B CN 115470323 B CN115470323 B CN 115470323B CN 202211341694 A CN202211341694 A CN 202211341694A CN 115470323 B CN115470323 B CN 115470323B
Authority
CN
China
Prior art keywords
word segmentation
word
knowledge base
search
analysis engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211341694.6A
Other languages
English (en)
Other versions
CN115470323A (zh
Inventor
韩雷
蒋敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunzhu Information Technology Chengdu Co ltd
China State Construction eCommerce Co Ltd
Original Assignee
Yunzhu Information Technology Chengdu Co ltd
China State Construction eCommerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunzhu Information Technology Chengdu Co ltd, China State Construction eCommerce Co Ltd filed Critical Yunzhu Information Technology Chengdu Co ltd
Priority to CN202211341694.6A priority Critical patent/CN115470323B/zh
Publication of CN115470323A publication Critical patent/CN115470323A/zh
Application granted granted Critical
Publication of CN115470323B publication Critical patent/CN115470323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于分词技术提高建筑行业搜索精度的方法,属于供应搜索技术领域,包括专业的知识库建立与分词字段录入、构建分词字段与知识库地址之间的映射关系、构建并加载IK分词器、设定分词逻辑、以及分词搜索与评分。本发明创建了适用于建筑行业各类场景的专业性知识库,还可根据行业发展实时录入并更新,并将专业的知识库与传统的默认词库相结合进行分词,极大提高了搜索精度;并通过修改分词器的分词逻辑实现词库的隔离,保证了各词库之间不受影响。

Description

一种基于分词技术提高建筑行业搜索精度的方法
技术领域
本发明属于供应搜索技术领域,具体涉及一种基于分词技术提高建筑行业搜索精度的方法。
背景技术
建筑行业供应链系统中,采购商和供应商两端均有搜索场景。比如在商机搜索中,供应商需要搜索有哪些采购商发出了采购需求;在采购商端中,采购商发起投标邀请也需要搜索供应商。通常供采双方两端会根据约定成俗的字词或者行业特殊术语进行关键字搜索,但搜索精度不高。例如在商机搜索中,供应商需要搜索“中国建筑第七局建筑有限公司”,常常会输入关键字“七局”进行搜索,但这种搜索场景无法获得中国建筑第七局建筑有限公司的相关数据。
因此,本发明提供了一种基于分词技术提高建筑行业搜索精度的方法,用于解决建筑行业整个细分领域的搜索精度。
发明内容
本发明要解决的技术问题是:提供一种基于分词技术提高建筑行业搜索精度的方法,以至少解决上述部分技术问题。
为实现上述目的,本发明采用的技术方案如下:
一种基于分词技术提高建筑行业搜索精度的方法包括以下步骤:
步骤1、在词库管理系统中创建不同知识库,并将建筑行业各类场景中的分词字段录入对应的知识库;
步骤2、构建分词字段与知识库地址之间的第一映射关系;
步骤3、构建IK分词器,分布式搜索和分析引擎加载并初始化IK分词器, 并将知识库加载于分布式搜索和分析引擎的内存中;
步骤4、在分布式搜索和分析引擎中写入文本数据并生成文档编号,根据第一映射将所需知识库加载至IK分词器中,并进行分词得到第一分词,然后调用IK分词器的默认词库进行分词得到第二分词,将第一分词和第二分词组合一个单词流;
步骤5、分布式搜索和分析引擎根据单词流建立倒排索引,构建分词字段与文档编号之间的第二映射关系;
步骤6、在分布式搜索和分析引擎写入搜索词,调用IK分词器对搜索词进行分词得到分词字段,根据第二映射关系得到对应的文档编号和该文档编号对应的文本数据,对获取的文本数据进行相关性评分,根据评分返回至最终需要的文本数据。
进一步地,所述IK分词器的构建为:根据分词字段获取对应的知识库地址,对知识库地址通过降维算法转化为唯一的关键字,并在IK分词器中初始化一个哈希映射存放关键字和对应的知识库。
进一步地,所述分布式搜索和分析引擎加载并初始化IK分词器后,根据不同的知识库地址加载知识库至分布式搜索和分析引擎内存中。
进一步地,所述第一映射关系的构建为:根据不同的分词字段、以及索引的映射设置知识库的url地址。
进一步地,所述知识库的数据结构包括分词字段编号、分词字段类型、分词字段、更新时间、创建时间、更新用户。
进一步地,在所述IK分词器中创建定时任务,每间隔一小时,知识库重新加载至分布式搜索和分析引擎内存中。
进一步地,所述分布式搜索和分析引擎采用BM25算法对获取的文本数据进行相关性评分。
与现有技术相比,本发明具有以下有益效果:
原有的IK分词器中,搜索的映射共享一个默认词库,并且这个词库是通用的,没有任何行业属性,包含37万个词,其字词量巨大并且无法满足特有词的搜索,具有明显的搜索缺陷。本发明创建了适用于建筑行业各类场景的专业性知识库,还可根据行业发展实时录入并更新,并将专业的知识库与传统的默认词库相结合进行搜索,极大提高了搜索精度。
原有的IK分词器中,存在多种搜索场景,其不支持词库的隔离和索引级别的分词隔离。本发明通过修改分词器的逻辑,实现知识库隔离,保证了各词库之间不受影响。
附图说明
图1为本发明方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一步详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供的一种基于分词技术提高建筑行业搜索精度的方法,包括以下步骤:
步骤1、在词库管理系统中创建不同知识库,并将建筑行业各类场景中的分词字段录入对应的知识库;
步骤2、构建分词字段与知识库地址之间的第一映射关系;
步骤3、构建IK分词器,分布式搜索和分析引擎加载并初始化IK分词器,并将知识库加载于分布式搜索和分析引擎(ES)的内存中;
步骤4、在分布式搜索和分析引擎中写入文本数据并生成文档编号,根据第一映射将所需知识库加载至IK分词器中,并进行分词得到第一分词,然后调用IK分词器的默认词库进行分词得到第二分词,将第一分词和第二分词组合一个单词流;
步骤5、分布式搜索和分析引擎根据单词流建立倒排索引,构建分词字段与文档编号之间的第二映射关系;
步骤6、在分布式搜索和分析引擎写入搜索词,调用IK分词器对搜索词进行分词得到分词字段,根据第二映射关系得到对应的文档编号和该文档编号对应的文本数据,对获取的文本数据进行相关性评分,根据评分返回至最终需要的文本数据。
由于原有的IK分词器中,搜索的映射共享一个默认词库,并且这个词库是通用的,没有任何行业属性,包含37万个词,其字词量巨大并且无法满足特有词的搜索,具有明显的搜索缺陷。本发明根据建筑行业各类场景,在词库管理系统中创建不同知识库,例如供应商品牌库、供应商产品库、建筑工人的工种库等,并将建筑行业各类场景中的字词录入对应的知识库,如此可极大覆盖建筑行业各技术用词。所述知识库的数据结构为“id”(分词字段编号)、“wold_type”(分词字段类型)、“word” (分词字段)、“update_time” (更新时间)、“create_time” (创建时间)和“update_user” (更新用户)。
引入了专业的知识库后,由于存在多种搜索场景,比如搜商品、搜单位、搜品牌等。在原有的IK分词器中,不支持词库的隔离和索引级别的分词隔离。为此,本发明通过修改分词器的逻辑实现知识库隔离,保证了各词库之间不受影响,具体为通过降维算法将知识库地址转化为唯一的关键字,并在IK分词器中初始化一个哈希映射存放关键字和对应的知识库,为此后续根据哈希映射将所需知识库加载至IK分词器中进行分词,如此实现知识库隔离,大大提高搜索精准性。所述分布式搜索和分析引擎加载并初始化IK分词器,然后根据不同的知识库地址加载知识库至分布式搜索和分析引擎内存中。
本发明还将专业的知识库与传统的默认词库相结合进行搜索,分词会优先调用知识库进行分词得到第一分词,然后调用IK分词器的默认词库得到第二分词,将第一分词和第二分词组合一个单词流,极大提高了搜索精度。分布式搜索和分析引擎根据单词流建立倒排索引,构建分词字段与文档编号之间的第二映射关系。
当进行搜索操作时,在分布式搜索和分析引擎搜索框中写入搜索词,比如“中建七局”,分布式搜索和分析引擎获取搜索框中的搜索词,调用IK分词器对搜索词进行分词得到例如“中建”、“七局”两个分词字段;根据倒排索引映射得到对应的文档编号和该文档编号对应的文本数据,对获取的文本数据进行相关性评分,根据评分返回至最终需要的文本数据。所述分布式搜索和分析引擎采用BM25算法对获取的文本数据进行相关性评分,可通过相关性评分快速筛选出相关性较高即评分较高的文本数据。
运用传统的分词搜索方法,搜索“中国建筑第七局有限公司”得到分词为“中国建筑”、“中国”、“国建”、“建筑”、“第七”、“七”、“局”、“有限公司”、“有限”和“公司”。而运用于本发明所述的分词搜索方法,搜索“中国建筑第七局有限公司”,可得到分词为“中国建筑”、“中国”、“国建”、“建筑”、“第七”、“七”、“局”、“七局”“有限公司”“有限”和“公司”,极大提高了搜索精度。
本发明还可根据行业发展实时录入并更新知识库,用于知识库的不断优化。在所述IK分词器中创建定时任务,每间隔一小时,知识库重新加载至分布式搜索和分析引擎内存中,在不影响分词搜索的前提下实现知识持续更新加载。
最后应说明的是:以上各实施例仅仅为本发明的较优实施例用以说明本发明的技术方案,而非对其限制,当然更不是限制本发明的专利范围;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围;也就是说,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内;另外,将本发明的技术方案直接或间接的运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种基于分词技术提高建筑行业搜索精度的方法,其特征在于,包括以下步骤:
步骤1、在词库管理系统中创建不同知识库,并将建筑行业各类场景中的分词字段录入对应的知识库;
步骤2、构建分词字段与知识库地址之间的第一映射关系;
步骤3、构建IK分词器,分布式搜索和分析引擎加载并初始化IK分词器, 并将知识库加载于分布式搜索和分析引擎的内存中;
步骤4、在分布式搜索和分析引擎中写入文本数据并生成文档编号,根据第一映射将所需知识库加载至IK分词器中,并进行分词得到第一分词,然后调用IK分词器的默认词库进行分词得到第二分词,将第一分词和第二分词组合一个单词流;
步骤5、分布式搜索和分析引擎根据单词流建立倒排索引,构建分词字段与文档编号之间的第二映射关系;
步骤6、在分布式搜索和分析引擎写入搜索词,调用IK分词器对搜索词进行分词得到分词字段,根据第二映射关系得到对应的文档编号和该文档编号对应的文本数据,对获取的文本数据进行相关性评分,根据评分返回至最终需要的文本数据。
2.根据权利要求1所述的一种基于分词技术提高建筑行业搜索精度的方法,其特征在于,所述IK分词器的构建为:根据分词字段获取对应的知识库地址,对知识库地址通过降维算法转化为唯一的关键字,并在IK分词器中初始化一个哈希映射存放关键字和对应的知识库。
3.根据权利要求1所述的一种基于分词技术提高建筑行业搜索精度的方法,其特征在于,所述分布式搜索和分析引擎加载并初始化IK分词器后,根据不同的知识库地址加载知识库至分布式搜索和分析引擎内存中。
4.根据权利要求1所述的一种基于分词技术提高建筑行业搜索精度的方法,其特征在于,所述第一映射关系的构建:根据不同的分词字段、以及索引的映射设置知识库的url地址。
5.根据权利要求1所述的一种基于分词技术提高建筑行业搜索精度的方法,其特征在于,所述知识库的数据结构包括分词字段编号、分词字段类型、分词字段、更新时间、创建时间、更新用户。
6.根据权利要求1所述的一种基于分词技术提高建筑行业搜索精度的方法,其特征在于,在所述IK分词器中创建定时任务,每间隔一小时,知识库重新加载至分布式搜索和分析引擎内存中。
7.根据权利要求1所述的一种基于分词技术提高建筑行业搜索精度的方法,其特征在于,所述分布式搜索和分析引擎采用BM25算法对获取的文本数据进行相关性评分。
CN202211341694.6A 2022-10-31 2022-10-31 一种基于分词技术提高建筑行业搜索精度的方法 Active CN115470323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211341694.6A CN115470323B (zh) 2022-10-31 2022-10-31 一种基于分词技术提高建筑行业搜索精度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211341694.6A CN115470323B (zh) 2022-10-31 2022-10-31 一种基于分词技术提高建筑行业搜索精度的方法

Publications (2)

Publication Number Publication Date
CN115470323A CN115470323A (zh) 2022-12-13
CN115470323B true CN115470323B (zh) 2023-03-10

Family

ID=84337034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211341694.6A Active CN115470323B (zh) 2022-10-31 2022-10-31 一种基于分词技术提高建筑行业搜索精度的方法

Country Status (1)

Country Link
CN (1) CN115470323B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115936737B (zh) * 2023-03-10 2023-06-23 云筑信息科技(成都)有限公司 一种确定建材真伪的方法和系统
CN116737697B (zh) * 2023-08-10 2023-10-20 云筑信息科技(成都)有限公司 建筑行业物料主数据管理方法、装置及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0597630A1 (en) * 1992-11-04 1994-05-18 Conquest Software Inc. Method for resolution of natural-language queries against full-text databases
US6665666B1 (en) * 1999-10-26 2003-12-16 International Business Machines Corporation System, method and program product for answering questions using a search engine
CN100557610C (zh) * 2007-11-26 2009-11-04 北京九城网络软件有限公司 一种互联网搜索引擎的搜索方法
US20140040275A1 (en) * 2010-02-09 2014-02-06 Siemens Corporation Semantic search tool for document tagging, indexing and search
CN104408173A (zh) * 2014-12-11 2015-03-11 焦点科技股份有限公司 一种基于b2b平台的核心关键词自动提取方法
CN111125299A (zh) * 2019-12-25 2020-05-08 苏州视锐信息科技有限公司 一种基于用户行为分析的动态词库更新方法
CN111858851A (zh) * 2020-06-30 2020-10-30 银盛支付服务股份有限公司 一种智能客服知识库多维度训练方法及装置
CN111966790A (zh) * 2020-08-21 2020-11-20 苏州浪潮智能科技有限公司 一种云管理平台知识库的搜索的方法和设备
CN113486156A (zh) * 2021-07-30 2021-10-08 北京鼎普科技股份有限公司 一种基于es的关联文档检索方法
CN114547253A (zh) * 2022-03-03 2022-05-27 北京伽睿智能科技集团有限公司 一种基于知识库应用的语义搜索方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0597630A1 (en) * 1992-11-04 1994-05-18 Conquest Software Inc. Method for resolution of natural-language queries against full-text databases
US6665666B1 (en) * 1999-10-26 2003-12-16 International Business Machines Corporation System, method and program product for answering questions using a search engine
CN100557610C (zh) * 2007-11-26 2009-11-04 北京九城网络软件有限公司 一种互联网搜索引擎的搜索方法
US20140040275A1 (en) * 2010-02-09 2014-02-06 Siemens Corporation Semantic search tool for document tagging, indexing and search
CN104408173A (zh) * 2014-12-11 2015-03-11 焦点科技股份有限公司 一种基于b2b平台的核心关键词自动提取方法
CN111125299A (zh) * 2019-12-25 2020-05-08 苏州视锐信息科技有限公司 一种基于用户行为分析的动态词库更新方法
CN111858851A (zh) * 2020-06-30 2020-10-30 银盛支付服务股份有限公司 一种智能客服知识库多维度训练方法及装置
CN111966790A (zh) * 2020-08-21 2020-11-20 苏州浪潮智能科技有限公司 一种云管理平台知识库的搜索的方法和设备
CN113486156A (zh) * 2021-07-30 2021-10-08 北京鼎普科技股份有限公司 一种基于es的关联文档检索方法
CN114547253A (zh) * 2022-03-03 2022-05-27 北京伽睿智能科技集团有限公司 一种基于知识库应用的语义搜索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Knowledge maps: A systematic literature review and directions for future research;AliBalaid等;《International Journal of Information Management》;20160630;第36卷(第3期);第451-475页 *
具有中文人名识别功能的汉语自动分词算法研究;潘景剑;《中国优秀硕士学位论文全文数据库信息科技辑》;20071215;第I138-796页 *
基于语义网的站内搜索引擎模块的研究与实现;王子木;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115;第I138-5590页 *

Also Published As

Publication number Publication date
CN115470323A (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN115470323B (zh) 一种基于分词技术提高建筑行业搜索精度的方法
WO2021083239A1 (zh) 一种进行图数据查询的方法、装置、设备及存储介质
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
CN100504866C (zh) 一种综合搜索结果的排序系统及方法
KR101700585B1 (ko) 온라인 제품 검색 방법 및 시스템
CN102253936B (zh) 记录用户访问商品信息的方法及搜索方法和服务器
CN104598439B (zh) 信息对象的标题修正方法及装置和推送信息对象的方法
CN104951468A (zh) 数据搜索处理方法和系统
CN109740152A (zh) 文本类目的确定方法、装置、存储介质和计算机设备
JP2007080210A (ja) 情報管理装置、情報管理方法、情報管理プログラムおよび記録媒体
CN110727857A (zh) 针对业务对象识别潜在用户的关键特征的方法及装置
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
US20160078401A1 (en) Taxonomy based database partitioning
CN108509545B (zh) 一种文章的评论处理方法及系统
US20110179013A1 (en) Search Log Online Analytic Processing
CN111310032A (zh) 资源推荐方法、装置、计算机设备及可读存储介质
US8862609B2 (en) Expanding high level queries
US11947608B2 (en) Search term recommendation method and system based on multi-branch tree
CN116975052A (zh) 数据处理方法及相关设备
CN103164407A (zh) 一种信息搜索方法和系统
US20050216449A1 (en) System for obtaining, managing and providing retrieved content and a system thereof
KR102256814B1 (ko) 목적 데이터 선별 방법 및 시스템
CN110941952A (zh) 一种完善审计分析模型的方法及装置
CN114579766A (zh) 知识图谱构建方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant