CN107451280A - 数据打通方法、装置及电子设备 - Google Patents

数据打通方法、装置及电子设备 Download PDF

Info

Publication number
CN107451280A
CN107451280A CN201710668151.8A CN201710668151A CN107451280A CN 107451280 A CN107451280 A CN 107451280A CN 201710668151 A CN201710668151 A CN 201710668151A CN 107451280 A CN107451280 A CN 107451280A
Authority
CN
China
Prior art keywords
data
search engine
document
directory
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710668151.8A
Other languages
English (en)
Other versions
CN107451280B (zh
Inventor
王永会
谭星
徐龙飞
魏尧
刘梦宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaodu Information Technology Co Ltd
Original Assignee
Beijing Xiaodu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaodu Information Technology Co Ltd filed Critical Beijing Xiaodu Information Technology Co Ltd
Priority to CN201710668151.8A priority Critical patent/CN107451280B/zh
Publication of CN107451280A publication Critical patent/CN107451280A/zh
Application granted granted Critical
Publication of CN107451280B publication Critical patent/CN107451280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Abstract

本申请提供了对互联网平台多个子系统实现数据打通的方法、装置及电子设备,该数据打通方法包括:获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;根据生成的文档构建搜索引擎的数据索引;将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索;显示所述搜索引擎输出的与所述检索内容匹配的数据索引对应的数据。在数据层以更高效和低耦合的方式解决了多个子系统间的数据打通,从而有助于查找出该互联网平台中的作弊行为。

Description

数据打通方法、装置及电子设备
技术领域
本申请涉及互联网技术,具体涉及一种数据打通方法、装置及电子设备。
背景技术
随着互联网平台的功能越来越多,该平台会相应出现很多子系统。同一个对象的数据和行为可能会分散出现在各个子系统中,在一些场景中,需要方便快捷地知道该对象在多个子系统的各种数据和行为。比如一个平台提供了用户点餐功能,商家外卖功能,销售员签约商户的功能,而这些功能是彼此分散和独立的,如果一个人同时兼有消费者、商户、业务员三个角色,那么在任何一个功能里是无法发现其他身份的,需要将他在各个系统的全部信息和行为挖掘出来才能处理这种情况。
目前,针对分散到每个子系统中的数据和行为,通常利用数据库进行解析和存储并对外提供查询功能。
发明内容
本申请的发明人发现,如果采用现有技术方案,需要通过一系列脚本任务对各个子系统数据进行解析,然后提取所需要的字段,最后把结果存入数据库(例如Mysql),在界面层利用对应的查询语句查询具体的字段。在这个过程中需要对针对提取的字段对数据进行解析,对提取的结果进行格式重组,更改查询字段时还要重复上述所有工作,整个过程将会非常繁琐。有鉴于此,本申请实施例提供了一种数据打通方法、装置及电子设备,以解决上述技术问题。
根据本申请实施例的一个方面,提供了一种数据打通方法,所述方法包括:获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;根据生成的文档构建搜索引擎的数据索引,将多个子系统的数据打通;将检索内容输入搜索引擎,在搜索引擎的数据索引中进行检索;显示搜索引擎输出的与检索内容匹配的数据索引对应的数据。
根据本申请实施例的另一个方面,提供了一种数据打通装置,包括:文档化处理模块,用于获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;索引构建模块,用于根据生成的文档构建搜索引擎的数据索引,将多个子系统的数据打通;内容输入模块,用于将检索内容输入搜索引擎,在搜索引擎的数据索引中进行检索;数据显示模块,用于显示搜索引擎输出的与检索内容匹配的数据索引对应的数据。
根据本申请实施例的另一个方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行本申请实施例提供的数据打通方法。
根据本申请实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现本申请实施例提供的数据打通方法。
本申请实施例的有益效果包括:将互联网平台多个子系统的数据通过文档化处理直接汇集到一起,按照搜索引擎的适配格式建立数据索引,使得搜索引擎可以利用数据索引对互联网平台多个子系统的数据进行检索,在数据层以更高效和低耦合的方式解决了多个子系统间的数据打通,从而有助于查找出该互联网平台中的作弊行为。
附图说明
通过以下参照附图对本申请实施例的描述,本申请的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本申请实施例实现多个子系统之间数据打通的架构示意图;
图2是本申请实施例实现数据索引和数据检索的过程示意图;
图3是本申请实施例对每个对象的数据按照其所属子系统分类进行显示的界面示意图;
图4(a)-(b)是本申请实施例显示具有多个版本的对象数据时的界面示意图;
图5是本申请实施例提供的数据打通方法的框图;
图6是本申请实施例提供的数据打通装置的框图。
具体实施方式
以下基于实施例对本申请进行描述,但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例将互联网平台的多个子系统的数据通过文档化处理直接汇集到一起,按照搜索引擎的适配格式建立数据索引,使得搜索引擎可以对互联网平台的多个子系统的数据进行检索,在数据层实现了多个子系统之间的数据打通;利用该搜索引擎进行检索后,能够显示出检索内容在每个子系统内的关联数据,从而将数据打通的效果在界面层展示出来;通过打通多个子系统之间的数据,可以查询出用户是否在该互联网平台同时具备多种身份,并检查其是否存在作弊行为。通过文档化处理打通各子系统之间的数据,减少了对原系统中数据含义的理解、格式解析以及对提取结果的格式化存储等工作,以更高效和低耦合的方式实现了数据打通。
图1是本申请实施例实现多个子系统之间数据打通的架构示意图。互联网平台包括子系统1、子系统2……子系统n,例如,该互联网平台为互联网外卖送餐平台,其内部进一步包括商户子系统、消费者子系统、业务子系统,配送子系统等。将所有子系统的数据通过文档化处理汇集到一起生成对应的文档,根据该文档构建搜索引擎的数据索引。将检索内容输入搜索引擎进行全文检索,搜索引擎输出的检索结果在显示系统进行显示。
各子系统通常将数据保存在内部数据库中,例如Oracle、MySQL、PostgreSQL等。进行文档化处理时,针对每个子系统配置一个工作(Job),用于提取对应的子系统中的数据并生成为预设的文档形式,将生成的所有文档汇集到一起并存储为文本格式。例如,针对Oracle数据库中的数据进行文档化处理的Job中,利用what参数定义将要被执行的PL/SQL代码块,该PL/SQL代码块用于拷贝(copy)Oracle的现有数据并按预设的文档形式生成文档;如果需要定期重新获取所有数据,可利用interval参数设置何时重新执行这个Job,例如每月定时执行或者每季度定时执行。
提取数据后生成的文档形式可根据实际服务需求进行配置。其中一种文档形式包括多个内容(content)字段,用于分别存储不同类型的数据,该文档形式可以被描述为:
contentcontentcontentcontent…;
每两个内容字段之间以“空格”(其他字符也可以)相互分隔,在以“空格”相分隔时content内部不能再含有“空格”。
例如,对商户子系统的数据生成文档时,将某个商户的手机号,设备号,联系人,风险值等数据分别保存在不同的内容字段中,文档内容表现为:
15210011001 0000091D2B01B09C52FF5A1147CF2459张三10。
在通过显示系统显示查询到的数据并且不需要对各种信息进行分类显示已达到更好的可视化效果时,可配置这种文档形式。在需要对分别来自各个子系统的数据进行分类并且对不同类型的数据进行分类显示时,可采用另一种文档形式,这种文档形式包括多个内容(content)字段和对应的多个类型(type)字段,内容字段用于分别存储不同类型的数据,对应的类型字段用于区分数据的类型,该文档形式可以被描述为:
[type#]content[type#]content[type#]content…;
每两组type#content之间以“空格”(其他字符也可以)相互分隔,以“空格”分隔时content中不能再含有“空格”。
类型字段的格式设定为n位比特位,本申请实施例中采用的是16位,前4位表示子系统的编号,后12位表示content在该子系统内的数据类型,最后类型字段整体以十进制数呈现。
在类型字段中设置多少位表示子系统编号,设置多少位表示数据类型,取决于具体的需求场景,视子系统和数据类型的数量而定。通常用4位来表示子系统编号就已经足够。
例如:从商户子系统(其4位子系统编码为0000)中抽取的数据有:商户的手机号,商户的设备号,商户的联系人,商户的风险值,类型字段分别标记为0000 0000 0000 0001即1(十进制),0000 0000 0000 0010即2,0000 0000 0000 0011即3,0000 0000 0000 0100即4,该文档内容表示为:
1#15210011001 2#0000091D2B01B09C52FF5A1147CF2459 3#张三4#10。
在生成预设形式的文档时,可以直接将子系统内的数据罗列在一起,而不对子系统内部的对象做进一步区分,在后续更新数据索引时采用全量更新的情形下可以采用这种文档生成形式。
子系统内部的对象是指相对该子系统而言的不同用户,例如,商户子系统的各家商户,业务子系统的各个业务员等等。在需要对子系统的每个对象分别生成文档并在后续采用增量更新的方式更新对应的数据索引时,生成的文档形式中进一步包括文档标识,用于区分不同对象的文档;文档标识进一步包括子系统标识和子系统内部的对象标识。此时文档形式被描述为:
doc_id:[type#]content[type#]content[type#]content…;
例如,子系统标识从1开始编号,对象标识可直接采用子系统内的对象ID,并以下划线连接。商户子系统的子系统标识为1,其中一个商户ID是10002,那么文档标识就为1_10002。那么,针对商户子系统内部的每个对象分别生成对应的文档为:
1_10001:1#15210011001 2#0000091D2B01B09C52FF5A1147CF24593#张三4#10;
1_10002:1#15300011234 2#0000091D2B03C09B51FF3A1037BF22391#李四4#10;
1_10003:1#13310011000 2#0000091D2B01B07B52FF3A1145BF21764#王五4#9;
……;
其中类型字段如前文所述不是必须的,可根据实际需求进行配置。
针对子系统内部的每个对象分别生成对应的文档时,可以根据该对象在其所属子系统内部的关联数据生成对应的文档。例如,前文所述的针对商户子系统内部的每个对象,可根据其在商户子系统中的手机号、设备号、联系人、健康度等关联数据生成对应的文档。这种方式更容易实现,效率更高,在数据层直接将各个子系统的数据汇集到一起,不需要考虑不同子系统数据之间是否具有关联关系,而将该问题通过后续的检索结果进行体现。
此外,还可以根据该对象在多个子系统的所有关联数据生成对应的文档,此时生成的文档更能反应出该对象在所有子系统数据中的关联性。例如,商户子系统中的一个商户,在商户子系统的ID为10001,根据其在商户子系统中的ID能够在其他子系统中查询到相关联的数据,将查询到的所有关联数据和该商户在商户子系统中的关联数据一起生成对应的文档1_10001。这种实现方式实现起来会相对复杂,但能够在数据层反映出每个对象在所有子系统数据中的关联性。
上述文档化处理完毕后,将生成的所有文档保存为文本格式,例如text、plain、.txt等格式,再根据生成的文档构建搜索引擎的数据索引。搜索引擎用于根据输入的检索内容对生成的文档进行全文检索,然后输出检索结果由显示系统进行显示。搜索引擎可以是任何支持全文检索的搜索引擎,例如Lucene,Sphinx,Elasticsearch等。针对使用的搜索引擎来建立与其适配的数据索引,可以针对每个文档构建单条索引,或者针对所有文档批量构建索引。
以搜索引擎ElasticSearch的单条索引的构建为例,可以json格式通过其提供的应用编程接口(Application Programming Interface,API)来完成:
curl-XPOST'http://ip:port/index/fulltext/1_10002'-d'{
"field_name":"1#15210011001 2#0000091D2B01B09C52FF5A1147CF2459 3#张三4#10"
}'
在构建ElasticSearch的数据索引之前,需要将文档从文本格式转换为与ElasticSearch索引文件适配的json格式,可以将文档中内容字段保存的数据用作json格式的字符串来进行转换。
根据文档构建搜索引擎的数据索引时,如果该搜索引擎的索引文件不支持文本格式,则需要将文档从文本格式转换为搜索引擎适配的索引文件格式,以便建立与搜索引擎适配的数据索引。
本申请实施例将文档内容构建为数据索引从而灌入具有全文检索能力的搜索引擎,彻底避免了通过数据库查询语句来查询字段数据并将查询到的数据进行格式化重组的过程,直接利用搜索引擎对文档化的数据进行全文检索即可查询到数据在所有子系统中的关联情况,更高效和低耦合的方式解决了多个子系统间的数据打通。
通过上述方法构建数据索引后,可根据预设策略更新数据索引。更新数据索引的方式包括全量更新和增量更新。
全量更新是指把各个子系统中的数据每次都是全量的进行文档化,然后与构建数据索引的过程一致来重新构建全部数据索引。采用全量更新的好处是不需要关心数据内部的变化,但是很多未发生变化的数据每次都进行更新会显得没有必要,因此其索引代价相对更高。
增量更新是指每次只把发生变化的数据生成对应的文档并重新构建对应的部分数据索引。可以通过子系统的日志数据来监测子系统数据变化状况,也可以采用全量提取子系统数据,文档化后通过对比前后两次的文档来确定产生变化的数据。采用增量更新的方式索引代价更低,数据索引更新的效率更高。
更新数据索引时,还可以将更新前和更新后的数据索引分别保存为不同的版本。采用全量更新时,将更新前和更新后的所有文档的数据索引分别保存为不同的版本;采用增量更新时,将发生变化的部分数据索引保存为不同的版本。在后续数据检索过程中,能够同时对所有版本的数据索引进行检索并显示,能够反映出每个对象的关联数据的变化过程,以便查到更隐蔽的作弊行为。
利用搜索引擎及其数据索引进行检索时,通过搜索引擎的服务接口输入检索内容。以ElasticSearch为例,可通过json格式的API完成,例如输入的检索内容为“张三”时:
如图2所示的本申请实施例的数据打通和数据检索过程,通过数据索引服务设备20来完成对多个子系统数据的文档化处理和构建数据索引;而输入检索内容并显示检索结果过程可以在数据索引服务设备20完成,也可以在数据索引服务设备20外接的其他显示终端21上完成,该显示终端21可以是计算机、笔记本电脑、平板设备、智能移动终端等。
搜索引擎根据输入的检索内容对数据索引中的内容字段数据进行检索,将匹配到的数据索引对应的文档数据作为检索结果返回。例如上例中输入的检索内容为“张三”,则将数据索引中所有包含“张三”的文档数据作为检索结果返回,并在屏幕上显示检索结果。此时可以在显示的检索内容中查询到所有与“张三”有关的数据。
在前面的数据打通过程中,如果针对子系统的每个对象分别生成对应的文档并构建了数据索引,则可以将匹配到的数据索引对应的数据按照不同的对象分别进行显示。如果针对不同对象生成的文档还进一步配置了文档标识,则能够进一步将返回的不同对象的数据按照其来源的子系统做进一步区分并分别进行显示,同时显示该数据所属的子系统信息,例如,商户、业务、配送员等。
在前面的数据打通过程中,构建数据索引的文档如果同时包括多个内容字段和对应的多个类型字段,则根据类型字段显示对应数据的类型信息。此时,类型字段以模式(schema)的形式存在,供文档化和显示系统同时使用。显示系统与文档化共用一份schema,能够更方便地解析文档中的数据类型信息,以更人性化的方式输出出来。
例如,检索出的结果为:
1#15210011001 2#0000091D2B01B09C52FF5A1147CF2459 3#张三4#10;根据共用的schema可以将对应的数据解释为商户的手机号:15210011001,商户的设备号:0000091D2B01B09C52FF5A1147CF2459,商户的联系人:张三,商户的风险值:10分。在显示返回的检索结果时,能够同时显示解释得到的每个数据的数据类型。
如图3所示,将手机号“137XXXX8525”输入搜索引擎,对每个对象的数据索引进行全文检索,将所有包含手机号“137XXXX8525”的数据索引对应的数据按照其来源的子系统分类进行显示。如图3中共检索到三个包含该手机号的对象,两个为业务员,一个为商户,同时展示这三个对象的其他数据及数据类型,如姓名、健康度、帐号、设备号、状态等。
在前面的数据打通过程中,构建的数据索引如果存在多个版本,包括全部数据索引都存在多个版本以及部分数据索引存在多个版本的情形。搜索引擎根据输入的检索内容进行检索时,对所有版本内的内容字段分别进行检索,只要有一个版本的内容字段与检索内容匹配,则将该数据索引所有版本对应的数据作为检索结果返回。这样,在显示检索结果时,能够显示匹配到的数据索引的最新版本对应的数据以及表明存在历史版本的提示信息。响应于打开历史版本的指令,即可同时显示匹配到的数据索引的所有版本对应的数据,从而能够查看该对象数据的变化过程,有助于发现更隐蔽的作弊行为。
如图4(a)所示,在检索到的三个对象中,第一个对象的数据包括其他历史版本,显示“展示历史”的提示信息。如果检测到点击该信息操作,则触发显示该对象所有历史版本的数据,如图4(b)所示,同时显示该对象的当前数据和所有历史版本的数据。
基于以上论述,本申请实施例提供了一种数据打通方法,如图5所示,该方法包括以下步骤。
S11,获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;
S12,根据生成的文档构建搜索引擎的数据索引,将多个子系统的数据打通;
S13,将检索内容输入搜索引擎,在搜索引擎的数据索引中进行检索;
S14,显示搜索引擎输出的与检索内容匹配的数据索引对应的数据。
该方法将互联网平台多个子系统的数据通过文档化处理直接汇集到一起,按照搜索引擎的适配格式构建数据索引,使得搜索引擎可以对互联网平台多个子系统的数据进行检索,在数据层实现了多个子系统之间的数据打通。
在一个实施例中,S11中对获取到的数据进行文档化处理,生成对应的文档可进一步包括以下步骤。
S110,获取该对象在其所属子系统内部的关联数据并生成对应的文档;或者,
S111,获取该对象在多个子系统的所有关联数据并生成对应的文档。
针对每个对象分别生成对应的文档,更便于查询每个对象的所有关联数据并判断其是否存在作弊行为。根据该对象在其所属子系统内部的关联数据生成文档时,实现起来更加简便,跨子系统的数据关系在数据层不进行体现,而是通过后续的检索结果来体现;根据该对象在多个子系统的所有关联数据生成文档,实现起来较为复杂,但在数据层即可体现出跨子系统的数据关系。
在一个实施例中,文档包括文档内容和文档标识;其中,文档标识进一步包括子系统标识和子系统内部的对象标识,用于区分不同对象的文档。为不同对象的文档设立文档标识,能够在数据索引中标识出对应的对象,便于对数据索引进行针对个别对象的增量更新。
在一个实施例中,文档包括多个内容(content)字段,用于分别存储不同类型的数据;S13进一步包括以下步骤。
S130,根据输入搜索引擎的检索内容对数据索引中的内容字段保存的数据进行全文检索;
S131,输出检索到的数据索引对应的数据,用于显示。
将子系统数据中不同类型的数据分别对应存储在文档的不同内容字段中,便于将不同类型的数据分开显示。
在一个实施例中,文档包括多个内容(content)字段和对应的多个类型(type)字段,内容字段用于分别存储不同类型的数据,对应的类型字段用于区分数据的类型;S13进一步包括以下步骤。
S132,根据输入搜索引擎的检索内容与数据索引中的内容字段保存的数据进行全文检索;
S133,输出检索到的数据索引对应的数据,用于显示,以便在显示时根据类型字段来区分不同的数据类型。
在文档中为每个内容字段设置对应的类型字段,该类型字段以模式的形式存在并且与显示系统共用同一份模式,能够在显示时根据该类型字段显示出对应的数据类型信息,进一步提升检索结果的显示效果。
在一个实施例中,在执行S12之后,执行S13之前该数据打通方法还包括以下步骤。
S15,根据预设策略更新数据索引。使搜索引擎的数据得到及时更新,使检索结果更全面、更准确。
优选的,S15进一步包括:
S151,重新获取多个子系统的全量数据并更新搜索引擎的全部数据索引;或者,S152检测每个子系统内部的数据变化并获取变化后的数据,根据变化后的数据更新对应的数据索引。
更新数据索引时可采取全量更新或增量更新,采取增量更新时的索引代价更小,更新效率更高。
优选的,在执行S151或S152之后还可以进一步包括:
S153,响应于更新数据索引的指令,将更新前和更新后的数据索引分别保存为不同的版本。保存不同版本的数据索引,有利于查询数据的变化情况,发现更多的作弊行为。
此时,S13进一步包括:
S134,根据输入搜索引擎的检索内容分别对数据索引的每个版本的内容字段保存的数据进行全文检索;
S135,输出检索到的数据索引的所有版本对应的数据,用于显示。
检索到的数据索引对应的不同版本的数据都会出现在检索结果中,从而根据数据的变化情况发现更多作弊行为。
对应于上述数据打通方法,本申请实施例还提供了一种数据打通装置,如图6所示,该数据打通装置包括:
文档化处理模块30,用于获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;
索引构建模块31,用于根据生成的文档构建搜索引擎的数据索引,将多个子系统的数据打通;
内容输入模块32,用于将检索内容输入搜索引擎,在搜索引擎的数据索引中进行检索;
数据显示模块33,用于显示搜索引擎输出的与检索内容匹配的数据索引对应的数据。
在一个实施例中,文档化处理模块30进一步用于获取对象在其所属子系统内部的关联数据并生成对应的文档;或者,进一步用于获取对象在多个子系统的所有关联数据并生成对应的文档。
在一个实施例中,文档包括多个内容(content)字段,用于分别存储不同类型的数据,内容输入模块32进一步用于根据输入搜索引擎的检索内容对数据索引中的内容字段保存的数据进行全文检索;输出检索到的数据索引对应的数据并显示。
在一个实施例中,文档包括多个内容(content)字段和对应的多个类型(type)字段,内容字段用于分别存储不同类型的数据,对应的类型字段用于区分数据的类型,内容输入模块32进一步用于根据输入搜索引擎的检索内容对数据索引中的内容字段保存的数据进行全文检索;输出检索到的数据索引对应的数据并显示,以便在显示时根据类型字段来区分不同的数据类型。
在一个实施例中,数据打通装置还包括:索引更新模块,用于根据预设策略更新数据索引。
优选的,索引更新模块进一步用于重新获取多个子系统的全量数据并更新搜索引擎的全部数据索引;或者,进一步用于检测每个子系统内部的数据变化并获取变化后的数据,根据变化后的数据更新对应的数据索引。
优选的,索引更新模块还进一步用于响应于更新数据索引的指令,将更新前和更新后的数据索引分别保存为不同的版本。
此时,内容输入模块32进一步用于根据输入搜索引擎的检索内容分别对数据索引的每个版本的内容字段保存的数据进行全文检索;输出检索到的数据索引的所有版本对应的数据并显示。
在一个实施例中,索引构建模块31进一步用于将生成的文档转换为搜索引擎的适配格式,按照所述适配格式构建数据索引。
此外,数据打通装置可以通过硬件处理器(hardware processor)来实现上述各个程序步骤。本申请实施例还提供了一种电子设备,该电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行本申请实施例提供的上述数据打通方法。
本申请实施例提供的数据打通方法、装置及电子设备,除了适用于互联网外卖送餐平台之外,还可适用于任何同一用户可能具有多种身份的互联网平台,例如电商平台、直播平台等等,都能够实现其多个子系统的数据打通并查找作弊行为。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。该计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现本申请实施例提供的数据打通方法。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域技术人员而言,本申请可以有各种改动和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
a1、一种数据打通方法,所述方法包括:获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;根据生成的文档构建搜索引擎的数据索引,将所述多个子系统的数据打通;将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索;显示所述搜索引擎输出的与所述检索内容匹配的数据索引对应的数据。
a2、根据a1所述的方法,对获取到的数据进行文档化处理,生成对应的文档包括:
获取所述对象在其所属子系统内部的关联数据并生成对应的文档;或者,获取所述对象在所述多个子系统的所有关联数据并生成对应的文档。
a3、根据a2所述的方法,所述文档包括文档内容和文档标识;其中,所述文档标识进一步包括子系统标识和所述子系统内部的对象标识,用于区分不同对象的文档。
a4、根据a1所述的方法,所述文档包括多个内容字段,用于分别存储不同类型的数据;将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索包括:
根据输入所述搜索引擎的检索内容对数据索引中的内容字段保存的数据进行全文检索;输出检索到的数据索引对应的数据,用于显示。
a5、根据a1所述的方法,所述文档包括多个内容字段和对应的多个类型字段,内容字段用于分别存储不同类型的数据,对应的类型字段用于区分所述数据的类型;
将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索包括:
根据输入所述搜索引擎的检索内容与数据索引中的内容字段保存的数据进行全文检索;输出检索到的数据索引对应的数据,用于显示,以便在显示时根据所述类型字段来区分不同的数据类型。
a6、根据a1所述的方法,根据生成的文档构建搜索引擎的数据索引,将所述多个子系统的数据打通之后,所述方法还包括:根据预设策略更新所述数据索引。
a7、根据a6所述的方法,根据预设策略更新所述数据索引包括:
重新获取所述多个子系统的全量数据并更新所述搜索引擎的全部数据索引;或者,
检测每个子系统内部的数据变化并获取变化后的数据,根据变化后的数据更新对应的数据索引。
a8、根据a7所述的方法,根据预设策略更新所述数据索引进一步包括:响应于更新所述数据索引的指令,将更新前和更新后的数据索引分别保存为不同的版本。
a9、根据a8所述的方法,将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索包括:
根据输入所述搜索引擎的检索内容分别对数据索引的每个版本的内容字段保存的数据进行全文检索;输出检索到的数据索引的所有版本对应的数据,用于显示。
a10、根据a1所述的方法,根据生成的文档构建搜索引擎的数据索引包括:将生成的文档转换为搜索引擎的适配格式,按照所述适配格式构建数据索引。
b11、一种数据打通装置,包括:
文档化处理模块,用于获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;
索引构建模块,用于根据生成的文档构建搜索引擎的数据索引,将所述多个子系统的数据打通;
内容输入模块,用于将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索;
数据显示模块,用于显示所述搜索引擎输出的与所述检索内容匹配的数据索引对应的数据。
b12、根据b11所述的装置,所述文档化处理模块进一步用于获取所述对象在其所属子系统内部的关联数据并生成对应的文档;或者,用于获取所述对象在所述多个子系统的所有关联数据并生成对应的文档。
b13、根据b11所述的装置,所述文档包括多个内容字段,用于分别存储不同类型的数据,
所述内容输入模块进一步用于根据输入搜索引擎的检索内容对数据索引中的内容字段保存的数据进行全文检索;输出检索到的数据索引对应的数据并显示。
b14、根据b11所述的装置,所述文档包括多个内容字段和对应的多个类型字段,内容字段用于分别存储不同类型的数据,对应的类型字段用于区分所述数据的类型,
所述内容输入模块进一步用于根据输入所述搜索引擎的检索内容对数据索引中的内容字段保存的数据进行全文检索;输出检索到的数据索引对应的数据并显示,以便在显示时根据所述类型字段来区分不同的数据类型。
b15、根据b11所述的装置,所述装置还包括:
索引更新模块,用于根据预设策略更新所述数据索引。
b16、根据b15所述的装置,所述索引更新模块进一步用于重新获取所述多个子系统的全量数据并更新所述搜索引擎的全部数据索引;或者,进一步用于检测每个子系统内部的数据变化并获取变化后的数据,根据变化后的数据更新对应的数据索引。
b17、根据b16所述的装置,所述索引更新模块进一步用于响应于更新所述数据索引的指令,将更新前和更新后的数据索引分别保存为不同的版本。
b18、根据b17所述的装置,所述内容输入模块进一步用于根据输入所述搜索引擎的检索内容分别对数据索引的每个版本的内容字段保存的数据进行全文检索;输出检索到的数据索引的所有版本对应的数据并显示。
b19、根据b11所述的装置,所述索引构建模块进一步用于将生成的文档转换为搜索引擎的适配格式,按照所述适配格式构建数据索引。
c20、一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;
根据生成的文档构建搜索引擎的数据索引,将所述多个子系统的数据打通;
将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索;
显示所述搜索引擎输出的与所述检索内容匹配的数据索引对应的数据。
d21、一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现以下步骤:
获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;
根据生成的文档构建搜索引擎的数据索引,将所述多个子系统的数据打通;
将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索;
显示所述搜索引擎输出的与所述检索内容匹配的数据索引对应的数据。

Claims (10)

1.一种数据打通方法,其特征在于,所述方法包括:
获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;
根据生成的文档构建搜索引擎的数据索引,将所述多个子系统的数据打通;
将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索;
显示所述搜索引擎输出的与所述检索内容匹配的数据索引对应的数据。
2.根据权利要求1所述的方法,其特征在于,对获取到的数据进行文档化处理,生成对应的文档包括:
获取所述对象在其所属子系统内部的关联数据并生成对应的文档;或者,
获取所述对象在所述多个子系统的所有关联数据并生成对应的文档。
3.根据权利要求2所述的方法,其特征在于,所述文档包括文档内容和文档标识;其中,所述文档标识进一步包括子系统标识和所述子系统内部的对象标识,用于区分不同对象的文档。
4.根据权利要求1所述的方法,其特征在于,所述文档包括多个内容字段,用于分别存储不同类型的数据;
将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索包括:
根据输入所述搜索引擎的检索内容对数据索引中的内容字段保存的数据进行全文检索;
输出检索到的数据索引对应的数据,用于显示。
5.根据权利要求1所述的方法,其特征在于,所述文档包括多个内容字段和对应的多个类型字段,内容字段用于分别存储不同类型的数据,对应的类型字段用于区分所述数据的类型;
将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索包括:
根据输入所述搜索引擎的检索内容与数据索引中的内容字段保存的数据进行全文检索;
输出检索到的数据索引对应的数据,用于显示,以便在显示时根据所述类型字段来区分不同的数据类型。
6.根据权利要求1所述的方法,其特征在于,根据生成的文档构建搜索引擎的数据索引,将所述多个子系统的数据打通之后,所述方法还包括:根据预设策略更新所述数据索引。
7.根据权利要求6所述的方法,其特征在于,根据预设策略更新所述数据索引包括:
重新获取所述多个子系统的全量数据并更新所述搜索引擎的全部数据索引;或者,
检测每个子系统内部的数据变化并获取变化后的数据,根据变化后的数据更新对应的数据索引。
8.一种数据打通装置,其特征在于,包括:
文档化处理模块,用于获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;
索引构建模块,用于根据生成的文档构建搜索引擎的数据索引,将所述多个子系统的数据打通;
内容输入模块,用于将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索;
数据显示模块,用于显示所述搜索引擎输出的与所述检索内容匹配的数据索引对应的数据。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;
根据生成的文档构建搜索引擎的数据索引,将所述多个子系统的数据打通;
将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索;
显示所述搜索引擎输出的与所述检索内容匹配的数据索引对应的数据。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现以下步骤:
获取互联网平台多个子系统的数据并进行文档化处理,生成对应的文档;
根据生成的文档构建搜索引擎的数据索引,将所述多个子系统的数据打通;
将检索内容输入搜索引擎,在所述搜索引擎的数据索引中进行检索;
显示所述搜索引擎输出的与所述检索内容匹配的数据索引对应的数据。
CN201710668151.8A 2017-08-07 2017-08-07 数据打通方法、装置及电子设备 Active CN107451280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710668151.8A CN107451280B (zh) 2017-08-07 2017-08-07 数据打通方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710668151.8A CN107451280B (zh) 2017-08-07 2017-08-07 数据打通方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107451280A true CN107451280A (zh) 2017-12-08
CN107451280B CN107451280B (zh) 2020-08-11

Family

ID=60490988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710668151.8A Active CN107451280B (zh) 2017-08-07 2017-08-07 数据打通方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107451280B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897819A (zh) * 2018-06-20 2018-11-27 北京密境和风科技有限公司 一种数据搜索方法和装置
CN109447701A (zh) * 2018-10-24 2019-03-08 麒麟合盛网络技术股份有限公司 应用程序反作弊方法、装置和服务端
CN110069573A (zh) * 2019-03-19 2019-07-30 深圳壹账通智能科技有限公司 产品数据集成方法、装置、计算机设备及存储介质
CN111580881A (zh) * 2020-04-30 2020-08-25 支付宝(杭州)信息技术有限公司 文件加载方法、装置和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091671A1 (en) * 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
US20080189195A1 (en) * 2007-02-02 2008-08-07 Hong Fu Jin Precision Industry (Shenzhen) Co., Ltd. System and method for account reconciliation
CN101656720A (zh) * 2009-08-12 2010-02-24 北京握奇数据系统有限公司 对信息系统中访问对象信息统一维护的方法及装置
CN102117318A (zh) * 2011-01-04 2011-07-06 江苏科技大学 一种企业信息化系统的数据处理方法
CN102469144A (zh) * 2010-11-19 2012-05-23 中国电信股份有限公司 实现多个系统通讯录数据融合的方法及系统
CN102571720A (zh) * 2010-12-27 2012-07-11 中国移动通信集团辽宁有限公司 一种异构信息内容处理方法及装置
CN102968495A (zh) * 2012-11-29 2013-03-13 河海大学 搜索对比关联购物信息的垂直搜索引擎及方法
US20150213035A1 (en) * 2014-01-24 2015-07-30 Bit Stew Systems Inc. Search Engine System and Method for a Utility Interface Platform

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091671A1 (en) * 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
US20080189195A1 (en) * 2007-02-02 2008-08-07 Hong Fu Jin Precision Industry (Shenzhen) Co., Ltd. System and method for account reconciliation
CN101656720A (zh) * 2009-08-12 2010-02-24 北京握奇数据系统有限公司 对信息系统中访问对象信息统一维护的方法及装置
CN102469144A (zh) * 2010-11-19 2012-05-23 中国电信股份有限公司 实现多个系统通讯录数据融合的方法及系统
CN102571720A (zh) * 2010-12-27 2012-07-11 中国移动通信集团辽宁有限公司 一种异构信息内容处理方法及装置
CN102117318A (zh) * 2011-01-04 2011-07-06 江苏科技大学 一种企业信息化系统的数据处理方法
CN102968495A (zh) * 2012-11-29 2013-03-13 河海大学 搜索对比关联购物信息的垂直搜索引擎及方法
US20150213035A1 (en) * 2014-01-24 2015-07-30 Bit Stew Systems Inc. Search Engine System and Method for a Utility Interface Platform

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897819A (zh) * 2018-06-20 2018-11-27 北京密境和风科技有限公司 一种数据搜索方法和装置
CN108897819B (zh) * 2018-06-20 2021-09-21 北京密境和风科技有限公司 一种数据搜索方法和装置
CN109447701A (zh) * 2018-10-24 2019-03-08 麒麟合盛网络技术股份有限公司 应用程序反作弊方法、装置和服务端
CN110069573A (zh) * 2019-03-19 2019-07-30 深圳壹账通智能科技有限公司 产品数据集成方法、装置、计算机设备及存储介质
CN111580881A (zh) * 2020-04-30 2020-08-25 支付宝(杭州)信息技术有限公司 文件加载方法、装置和电子设备

Also Published As

Publication number Publication date
CN107451280B (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
KR101775883B1 (ko) 정보 스트림의 정보를 처리하는 방법 및 시스템
JP6101563B2 (ja) 情報構造化システム
US7925672B2 (en) Metadata management for a data abstraction model
US9038014B2 (en) Intelligently recommending schemas based on user input
CN107451280A (zh) 数据打通方法、装置及电子设备
US9251133B2 (en) Approximate named-entity extraction
US10565351B2 (en) Analysis and rule generation of medical documents
BRPI0520649A2 (pt) busca por dados estruturados
US20150052118A1 (en) Personalized search result summary
US10482169B2 (en) Recommending form fragments
CN104050223A (zh) 用于文本挖掘和搜索的数据透视面
CN107545023B (zh) 文本型指标的提取方法和装置
WO2011031336A1 (en) Technique for providing supplemental internet search
CN103688260A (zh) 实体解析
US11947567B2 (en) System and method for computing and managing datasets using hierarchical analytics
Berendzen et al. The legume information system and associated online genomic resources
WO2021169203A1 (zh) 基于多层级结构相似度的单基因病名称推荐方法和系统
CN112328805A (zh) 基于nlp的漏洞描述信息与数据库表的实体映射方法
US20130254225A1 (en) Device, method, and non-transitory computer-readable medium for medical information search
US20170255752A1 (en) Continuous adapting system for medical code look up
CN109299238B (zh) 一种数据查询方法和装置
US20210158902A1 (en) System and method for allele interpretation using a graph-based reference genome
AU2022201117B2 (en) Frameworks and methodologies for enabling searching and/or categorisation of digitised information, including clinical report data
AU2007228610B2 (en) Data input method
CN112685389B (zh) 数据管理方法、数据管理装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 202, 2 / F, 1-3 / F, No. 11, Shangdi Information Road, Haidian District, Beijing 100084

Applicant after: Beijing Xingxuan Technology Co.,Ltd.

Address before: 100085 Beijing, Haidian District on the road to the information on the ground floor of the 1 to the 3 floor of the 2 floor, room 11, 202

Applicant before: Beijing Xiaodu Information Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant