CN108520079B - 一种Migo搜索引擎 - Google Patents

一种Migo搜索引擎 Download PDF

Info

Publication number
CN108520079B
CN108520079B CN201810370233.9A CN201810370233A CN108520079B CN 108520079 B CN108520079 B CN 108520079B CN 201810370233 A CN201810370233 A CN 201810370233A CN 108520079 B CN108520079 B CN 108520079B
Authority
CN
China
Prior art keywords
relationship
objects
keywords
search engine
migo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810370233.9A
Other languages
English (en)
Other versions
CN108520079A (zh
Inventor
冯少龙
梁镜泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Xindehui Information Technology Co ltd
Original Assignee
Zhuhai Xindehui Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Xindehui Information Technology Co ltd filed Critical Zhuhai Xindehui Information Technology Co ltd
Priority to CN201810370233.9A priority Critical patent/CN108520079B/zh
Publication of CN108520079A publication Critical patent/CN108520079A/zh
Application granted granted Critical
Publication of CN108520079B publication Critical patent/CN108520079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种Migo搜索引擎,包括索引数据库、全文检索模块、精确检索模块、时空分析模块,关系扩展模块。本发明的有益效果是,在相同的硬件配置下,使用Migo搜索引擎,硬件成本更廉价,检索效率更快,分析应用更高效的低成本内存数据库。

Description

一种Migo搜索引擎
技术领域
本发明涉及搜索引擎改进,特别是一种Migo搜索引擎。
背景技术
公安信息在情报的应用主要基于大数据的实时分析和处理,而目前大部分公安系统使用的仍是以长驻磁盘的传统数据库,随着数据的增长和规模化应用,传统的数据库已达到了维持系统高效运转的瓶颈,在服务器配置有限的情况下,Oracle数据库在数十亿数据量中检索效率低下;数据维护困难复杂,当数据字段发生变化,数据与数据之间原有的关系代码无法适用,需要重新调整代码,成本高,且不利于维护。
发明内容
本发明的目的是为了解决上述问题,设计了一种Migo搜索引擎。
实现上述目的本发明的技术方案为,一种Migo搜索引擎,包括,
索引数据库,用于储存数据索引信息,供搜索引擎使用;
全文检索模块,利用Key-Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结束位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索;
精确检索模块,用于应用到批量比对,无需分词;
时空分析模块,用于通过把时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;
关系扩展模块,用于提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系。
作为优选,所述全文检索模块,利用Key-Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结束位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索,其具体为,系统会根据词表对检索的关键字进行判断是否能分词,判断该关键字能否分词,若可以分词,则根据分词的个数各自进行操作,通过索引块数据表读取字节流,取得行号,再回到数据锚点表,查对应的字节流位置,并将各个分词的搜索结果进行交集从数据明细表中获取详细记录;若未取到行号,则停止操作。
作为优选,所述时空分析模块根据人员对时间的粒度大小和空间的分布进行关联。
作为优选,所述关系扩展模块用于提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系,其具体为,输入对象,系统根据精确索引的方式检索出所有相关的详细记录;在记录中提取标识对象,则该对象与主体对象存在关联。
作为优选,所述关系扩展模块通过两个对象分别进行关联扩展,再对各自分析关联的标识对象进行交集,从而扩线分析两者之间存在关联关系的层数。
一种应用于Migo搜索引擎的搜索方法,该方法包括,
步骤一:全文检索,判断输入的关键词是否能分词,并将分离后的关键词分别进行检索,并对检索结果进行交集,显示交集后的详细记录,
步骤二:精确检索,对输入的关键词进行检索,并输出检索结果;
步骤三:时空分析,将时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;
步骤四:关系扩展,提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系或者可以通过两个对象分别进行关联扩展,再对各自分析关联的标识对象进行交集,从而扩线分析两者之间存在关联关系的层数。
作为优选,所述关系扩展步骤中,在记录中提取标识对象为证件号、车牌、手机号码或地址,则该标识对象与主体对象存在关联。
利用本发明的技术方案制作的Migo搜索引擎,基于内存库技术的Migo搜索引擎,在相同服务器配置的前提下,使用Migo搜索引擎对数据数据进行数据关联、快速检索等应用,大大减少了服务器的成本,检索效率更快,分析应用更高效的低成本内存数据库;数据维护应用更简单,当数据有变更,有新需求时,用户只需要简单操作即可实现,而不需要等待专业的数据库人员才能进行。作下即可掌握,不需要专业的数据分类中数据关系管理更便捷,当需要新增新关系或修改关系时,无需重新导数据,只需简单调整数据属性即可解决。
附图说明
图1是本发明所述Migo搜索引擎的实施例二的逻辑框图;
具体实施方式
下面结合附图对本发明进行具体描述,一种Migo搜索引擎,包括,
索引数据库1,用于储存数据索引信息,供搜索引擎使用;
全文检索模块2,利用Key-Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结束位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索;
精确检索模块3,用于应用到批量比对,无需分词;
时空分析模块4,用于通过把时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;
关系扩展模块5,用于提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系。
全文检索模块6,利用Key-Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结束位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索,其具体为,系统会根据词表对检索的关键字进行判断是否能分词,判断该关键字能否分词,若可以分词,则根据分词的个数各自进行操作,通过索引块数据表读取字节流,取得行号,再回到数据锚点表,查对应的字节流位置,并将各个分词的搜索结果进行交集从数据明细表中获取详细记录;若未取到行号,则停止操作。
时空分析模块4根据人员对时间的粒度大小和空间的分布进行关联。
关系扩展模块5用于提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系,其具体为,输入对象,系统根据精确索引的方式检索出所有相关的详细记录;在记录中提取标识对象,则该对象与主体对象存在关联。
关系扩展模块5通过两个对象分别进行关联扩展,再对各自分析关联的标识对象进行交集,从而扩线分析两者之间存在关联关系的层数。
一种应用于Migo搜索引擎的搜索方法,该方法包括,
步骤一:全文检索,判断输入的关键词是否能分词,并将分离后的关键词分别进行检索,并对检索结果进行交集,显示交集后的详细记录,
步骤二:精确检索,对输入的关键词进行检索,并输出检索结果;
步骤三:时空分析,将时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;
步骤四:关系扩展,提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系或者可以通过两个对象分别进行关联扩展,再对各自分析关联的标识对象进行交集,从而扩线分析两者之间存在关联关系的层数。
关系扩展步骤中,在记录中提取标识对象为证件号、车牌、手机号码或地址,则该对象与主体对象存在关联。
实施例一:
Migo搜索引擎的全文索引基于词表进行分词,目前词表中共有8千万个词,包括全国名录、地址库、常用词和所有中文字等等。在索引建立过程中,利用Key-Value的格式分别对词与行ID集合的存储。由于行ID集合(Value)占用空间非常大,所以Value的内容是存储在磁盘中,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结束位置,从而大大节省内存空间,首先系统会根据词表对检索的关键字进行判断是否能分词,比如检索“珠海市新德汇”,根据词表判断关键字能否分词;
判断该关键字能否分词:把这个词分成“珠海市”和“新德汇”;
然后根据分词的个数各自进行操作。在哈希表中分别定位“珠海市”、“新德汇”的键,取出键值,如“新德汇”的键值为[312,364](以下以单个词进行检索为例讲解);
通过索引块数据表,读取从位置在312至364的字节流,字节数组转换成N个行号,假设转换成[4,7,8]。
再回到数据锚点表,查找第4行、第7行、第8行所对应的字节流位置,从而从数据明细表中获取详细记录。
当没有取到行号,停止操作;
当取到行号后再把“珠海市”、“新德汇”的结果进行交集,显示交集后的详细记录。
精确检索:精确索引相对于全文索引的逻辑判断相似,区别在于不需要分词,大大减少关键词占用的内存空间。
时空分析:输入人员的证件号,设置同行的时间范围;
系统根据人员对时间的粒度大小和空间的分布进行关联,判断该人员在哪个时间内在哪个酒店入住过或在乘坐过哪个航班;
然后根据这些酒店和航班再查出在相同时间内有哪些人员同时住过该酒店或乘坐过该航班。
关系扩展:
输入对象,系统根据精确索引的方式检索出所有相关的详细记录;
在记录中提取标识对象,一般是证件号、车牌、手机号码、地址等,则该对象与主体对象存在关联;
另外可以通过两个对象分别进行关联扩展,再对各自分析关联的标识对象进行交集,从而扩线分析两者之间存在几层关联关系;
实施例二:
如图1所示,
一种应用于Migo搜索引擎的搜索方法,该方法包括,
在步骤S01中,输入关键词;
在步骤S02中,进行全文检索,判断输入的关键词是否能分词,并将分离后的关键词分别进行检索,并对检索结果进行交集,显示交集后的详细记录,
在步骤S03中,进行精确检索,对输入的关键词进行检索,并输出检索结果;
在步骤S04中,进行时空分析,将时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;
在步骤S05中,进行关系扩展,提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系或者可以通过两个对象分别进行关联扩展,再对各自分析关联的标识对象进行交集,从而扩线分析两者之间存在关联关系的层数;
在步骤S06中,进行其他检索;
在步骤S07中,将根据S02-SO6的搜索方法的搜索结果进行显示。
在步骤S08中,结束搜索。
上述技术方案仅体现了本发明技术方案的优选技术方案,本技术领域的技术人员对其中某些部分所可能做出的一些变动均体现了本发明的原理,属于本发明的保护范围之内。

Claims (7)

1.一种Migo搜索引擎,其特征在于,包括,
索引数据库,用于储存数据索引信息,供搜索引擎使用;
全文检索模块,利用Key-Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结束位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索;
精确检索模块,用于应用到批量比对,无需分词;
时空分析模块,用于通过把时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;
关系扩展模块,用于提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系。
2.根据权利要求1所述的一种Migo搜索引擎,其特征在于,所述全文检索模块,利用Key-Value的格式分别对词与行ID集合的存储,Value中只存储锚点信息,锚点信息标识ID集的开始位置与结束位置,对检索的关键字进行判断是否能分词,若可以分词,则将关键词分开进行检索,若不能分词,则直接检索,其具体为,系统会根据词表对检索的关键字进行判断是否能分词,判断该关键字能否分词,若可以分词,则根据分词的个数各自进行操作,通过索引块数据表读取字节流,取得行号,再回到数据锚点表,查对应的字节流位置,并将各个分词的搜索结果进行交集从数据明细表中获取详细记录;若未取到行号,则停止操作。
3.根据权利要求1所述的一种Migo搜索引擎,其特征在于,所述时空分析模块根据人员对时间的粒度大小和空间的分布进行关联。
4.根据权利要求1所述的一种Migo搜索引擎,其特征在于,所述关系扩展模块用于提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系,其具体为,输入对象,系统根据精确索引的方式检索出所有相关的详细记录;在记录中提取标识对象,则该对象与主体对象存在关联。
5.根据权利要求4所述的一种Migo搜索引擎,其特征在于,所述关系扩展模块通过两个对象分别进行关联扩展,再对各自分析关联的标识对象进行交集,从而扩线分析两者之间存在关联关系的层数。
6.一种应用于根据权利要求1所述的Migo搜索引擎的搜索方法,其特征在于,该方法包括,
步骤一:全文检索,判断输入的关键词是否能分词,并将分离后的关键词分别进行检索,并对检索结果进行交集,显示交集后的详细记录,
步骤二:精确检索,对输入的关键词进行检索,并输出检索结果;
步骤三:时空分析,将时间的粒度大小和空间的广度进行预设,再通过聚合索引分析出人的同行关系,以此分析与主体对象的伴随关系;
步骤四:关系扩展,提供标识对象的功能,当两个对象在同一条记录中,则认为可建立关系或者可以通过两个对象分别进行关联扩展,再对各自分析关联的标识对象进行交集,从而扩线分析两者之间存在关联关系的层数。
7.根据权利要求6所述的一种应用于Migo搜索引擎的搜索方法,其特征在于,所述关系扩展步骤中,在记录中提取标识对象为证件号、车牌、手机号码或地址,则该标识对象与主体对象存在关联。
CN201810370233.9A 2018-04-24 2018-04-24 一种Migo搜索引擎 Active CN108520079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810370233.9A CN108520079B (zh) 2018-04-24 2018-04-24 一种Migo搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810370233.9A CN108520079B (zh) 2018-04-24 2018-04-24 一种Migo搜索引擎

Publications (2)

Publication Number Publication Date
CN108520079A CN108520079A (zh) 2018-09-11
CN108520079B true CN108520079B (zh) 2021-10-26

Family

ID=63429973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810370233.9A Active CN108520079B (zh) 2018-04-24 2018-04-24 一种Migo搜索引擎

Country Status (1)

Country Link
CN (1) CN108520079B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182148B (zh) * 2020-09-14 2023-08-25 山西和耀科技有限公司 一种基于全文检索的标准辅助编写方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915365A (zh) * 2012-10-24 2013-02-06 苏州两江科技有限公司 基于Hadoop的分布式搜索引擎构建方法
CN107590250A (zh) * 2017-09-18 2018-01-16 广州汇智通信技术有限公司 一种时空轨迹生成方法及装置
CN107862098A (zh) * 2017-12-21 2018-03-30 中通服公众信息产业股份有限公司 一种基于全文检索的关联对象检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016914B2 (en) * 2002-06-05 2006-03-21 Microsoft Corporation Performant and scalable merge strategy for text indexing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915365A (zh) * 2012-10-24 2013-02-06 苏州两江科技有限公司 基于Hadoop的分布式搜索引擎构建方法
CN107590250A (zh) * 2017-09-18 2018-01-16 广州汇智通信技术有限公司 一种时空轨迹生成方法及装置
CN107862098A (zh) * 2017-12-21 2018-03-30 中通服公众信息产业股份有限公司 一种基于全文检索的关联对象检索方法

Also Published As

Publication number Publication date
CN108520079A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
US11620397B2 (en) Methods and apparatus to provide group-based row-level security for big data platforms
Kaleel et al. Cluster-discovery of Twitter messages for event detection and trending
US20140317117A1 (en) Method, device and computer storage media for user preferences information collection
CN108460582B (zh) 制度信息处理方法、装置、计算机设备和存储介质
CN105760469B (zh) 云计算环境下基于倒排lsh的高维近似图象检索方法
CN105760468B (zh) 移动环境下基于倒排位置敏感哈希索引的大规模图象查询系统
CN107194006A (zh) 一种视频特征结构化管理方法
CN110543477B (zh) 一种标签构建系统及方法
CN113407785B (zh) 一种基于分布式储存系统的数据处理方法和系统
Aved et al. Multi-int query language for dddas designs
CN112506925A (zh) 一种基于区块链的数据检索系统及方法
CN108520079B (zh) 一种Migo搜索引擎
CN111178455B (zh) 图像聚类方法、系统、设备及介质
TW202211081A (zh) 目標資料更新方法、電子設備及電腦可讀儲存介質
Yao et al. Detecting bursty events in collaborative tagging systems
CN111859042A (zh) 一种检索方法、装置及电子设备
CN108228101B (zh) 一种管理数据的方法和系统
Yang et al. Content-based video retrieval (cbvr) system for cctv surveillance videos
CN116028467A (zh) 智能服务大数据建模方法、系统、存储介质及计算机设备
CN115203136A (zh) 一种基于大数据的人工智能管理系统
CN115146103A (zh) 图像检索方法、装置、计算机设备、存储介质和程序产品
Cuzzocrea Multidimensional mining of big social data for supporting advanced big data analytics
Luo et al. Image retrieval in the unstructured data management system AUDR
Dong et al. Discovering relationships among data resources in dataspace
Sun et al. Key technology research for mobile police terminal fingerprint collection for quick comparison using automated fingerprint identification system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant