CN112507227B - 一种智能感知搜索平台 - Google Patents
一种智能感知搜索平台 Download PDFInfo
- Publication number
- CN112507227B CN112507227B CN202011469103.4A CN202011469103A CN112507227B CN 112507227 B CN112507227 B CN 112507227B CN 202011469103 A CN202011469103 A CN 202011469103A CN 112507227 B CN112507227 B CN 112507227B
- Authority
- CN
- China
- Prior art keywords
- data
- search
- module
- forming
- distributed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008447 perception Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims abstract description 44
- 230000004927 fusion Effects 0.000 claims abstract description 39
- 230000004044 response Effects 0.000 claims abstract description 39
- 238000007726 management method Methods 0.000 claims abstract description 24
- 238000013523 data management Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 15
- 230000010354 integration Effects 0.000 claims abstract description 12
- 238000012546 transfer Methods 0.000 claims description 19
- 230000006399 behavior Effects 0.000 claims description 18
- 238000013500 data storage Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 18
- 230000002452 interceptive effect Effects 0.000 claims description 10
- 238000013139 quantization Methods 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种智能感知搜索平台,解决搜索结果质量较低的技术问题。包括:数据驱动层,用于形成基础数据和增量数据的存储结构,形成数据融合的数据结构,形成数据资源的管理响应接口、客户系统和终端系统的服务响应接口;数据应用层,用于在数据响应服务过程中根据搜索需求反馈响应信息,并将响应服务中的交互数据和交互过程形成需求增量数据;数据治理层,用于对基础数据和需求增量数据进行内涵信息分析形成数据分类的描述维度和融合规则;数据整合层,用于根据数据描述维度形成数据分类,根据数据融合规则建立分类数据的融合结构;数据增强层,用于形成数据的高级信息特征,响应搜索需求。实现摆脱搜索技能为搜索需求提供实质信息。
Description
技术领域
本发明涉及搜索技术领域,更具体地说,涉及一种智能感知搜索平台。
背景技术
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材,数据可以是连续的值,比如声音、图像,称为模拟数据,也可以是离散的,如符号、文字,称为数字数据。存在于计算机系统中的各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据承载信息。
将有效信息从海量数据中准确提取通过现有搜索技术难于实现。现有搜素技术的缺陷在于将关键词作为解析和索引主体,无法对数据本身作出分析,往往只能局限于关键词上下文的简单联系,对非结构化数据源中丰富构型的数据的含义无法理解,无法建立数据处理规则,无法形成数据整合进程,无法满足搜索需求。
同时,现有技术在处理计算机数据时由于处理逻辑的局限性存在着不能对海量、增量数据进行良好管理的缺陷,从而导致数据不能有序存储,为大数据量的聚类、统计及分析造成了困扰。
发明内容
1.要解决的技术问题
针对现有技术中存在的问题,本发明的目的在于提供一种智能感知搜索平台,解决受限于现有技术缺陷搜索结果质量较低的技术问题。
2.技术方案
为解决上述问题,本发明采用如下的技术方案:
一种智能感知搜索平台,包括:
数据驱动层,用于形成基础数据和增量数据的存储结构,形成数据融合的数据结构,形成数据资源的管理响应接口,形成客户系统和终端系统的服务响应接口;
数据应用层,用于在数据响应服务过程中根据搜索需求反馈响应信息,并将响应服务中的交互数据和交互过程形成需求增量数据;
数据治理层,用于对基础数据和需求增量数据进行内涵信息分析形成数据分类的描述维度和分类数据的融合规则;
数据整合层,用于建立数据处理专用接口,对基础数据和增量数据进行提取、识别和过滤,根据数据描述维度形成数据分类,根据数据融合规则建立分类数据的融合结构;
数据增强层,用于根据持续更新的数据分类和融合结构对基础数据和增量数据进行特征重建,形成数据的高级信息特征,响应搜索需求。
3.有益效果
本发明实施例的智能感知搜索平台将多样性的原始数据与搜索应用的需求进行有效信息适配,建立针对搜索需求从数据中获取实质信息的洞察能力。为用户提供决策和行动所必需的准确而深刻的需求理解。避免搜索结果受限于个人知识体系仅能够实现查找数据。本发明根据搜索需求理解向用户提供见解全面的企业内容和数据,形成发现、描述、组织和分析后的数据反馈,形成具有与搜索需求一致的主动或交互式的合成信息。本发明利用成熟的自然语言理解和机器学习技术结合专家知识形成数据分类和融合结构最终形成信息特征,有效增强搜索结果相关性和完整性。
在实际应用中可以针对应用领域和行业特点做出持续的实质性信息搜索提升。针对信息深度和信息质量进行数据检索,改变搜索需求受限于搜索技能的现实缺陷。
附图说明
图1为本发明一实施例智能感知搜索平台的架构示意图。
图2为本发明一实施例智能感知搜索平台中数据驱动层的架构示意图。
图3为本发明一实施例数据驱动层中分布式数据存储区和分布式发布订阅消息系统处的架构示意图。
图4为本发明一实施例数据驱动层中分布式数据存储区和分布式日志收集服务器处的架构示意图。
图5为本发明一实施例智能感知搜索平台中数据应用层的架构示意图。
图6为本发明一实施例智能感知搜索平台中数据治理层的架构示意图。
图7为本发明一实施例智能感知搜索平台中数据整合层的架构示意图。
图8为本发明一实施例智能感知搜索平台中数据增强层的架构示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明一实施例智能感知搜索平台如图1所示。在图1中,本实施例包括:
数据驱动层100,用于形成基础数据和增量数据的存储结构,形成数据融合的数据结构,形成数据资源的管理响应接口,形成客户系统和终端系统的服务响应接口。
存储结构包括但不限于以多媒体形式存在的图、文、影像数据结构,以及保存上述结构数据的文件结构、库结构、数据文件和数据库。
数据融合的数据结构包括但不限于基础数据和增量数据中治理数据、整合数据、增强数据和应用数据变化导致的数据结构更新,数据结构更新包括数据结构的局部更新和全新设置。
客户系统包括但不限于第三方服务系统或第三方数据接入系统,终端系统包括但不限于搜索引擎用户接口、定制搜索用户接口和搜索应用程序。
管理响应接口适应平台的数据请求和响应,服务响应接口适应客户系统或客户终端数据请求和响应。
数据应用层200,用于在数据响应服务过程中根据搜索需求反馈响应信息,并将响应服务中的交互数据和交互过程形成需求增量数据。
搜索需求主要体现为利用关键字的检索式。响应信息是针对检索式返回的与检索式信息含义匹配但不唯一的关键信息集合。关键信息集合的数据量和数据形式具有扩展性,所承载信息具有线性或非线性的指向性但不必然是关键字匹配数据。
增量数据包括但不限于搜索行为、搜索数据或搜索交互数据和搜索过程触发数据。
数据治理层300,用于对基础数据和增量数据进行内涵信息分析形成数据分类的描述维度和分类数据的融合规则。
内涵信息分析是指数据的信息含义分析。内涵分析包括但不限于数据表现形式、数据上下文关联、数据形成过程、数据应用领域和应用场景等。
数据分类的描述维度体现了数据中信息含义的丰富性,分类数据的融合规则体现了数据丰富含义间的合理逻辑指向。描述维度和融合规则的获得方式包括但不限于基于频率、图论的自然语言处理过程和机器学习过程,以及专家介入方式。
数据整合层400,用于建立数据处理专用接口,对基础数据和增量数据进行提取、识别和过滤,根据数据描述维度形成数据分类,根据数据融合规则建立分类数据的融合结构。
数据处理专用接口用于对异构数据源中的类型数据进行提取、识别和过滤,根据持续更新的描述维度和融合规则形成新的信息增量数据。
数据增强层500,用于根据持续更新的数据分类和融合结构对基础数据和增量数据进行特征重建,形成数据的高级信息特征,响应搜索需求。
进行数据特征重建包括但不限于对基础数据和增量数据描述维度的统一,对基础数据和增量数据在确定描述维度的信息增量量化形成高级信息特征,对基础数据和增量数据在信息种类、信息内涵和信息质量上的量化形成高级信息特征。
本发明实施例的智能感知搜索平台将多样性的原始数据与搜索应用的需求进行有效信息适配,建立针对搜索需求从数据中获取实质信息的洞察能力。为用户提供决策和行动所必需的准确而深刻的需求理解。避免搜索结果受限于个人知识体系仅能够实现查找数据。本发明根据搜索需求理解向用户提供见解全面的企业内容和数据,形成发现、描述、组织和分析后的数据反馈,形成具有与搜索需求一致的主动或交互式的合成信息。本发明利用成熟的自然语言理解和机器学习技术结合专家知识形成数据分类和融合结构最终形成信息特征,有效增强搜索结果相关性和完整性。
本发明一实施例智能感知搜索平台中数据驱动层如图2所示。在图2中,数据驱动层包括:
与客户系统和终端系统数据连接的服务管理系统4,客户系统2和终端系统3输送数据至服务管理系统4,用于实现数据管理,其中,服务管理系统4包括:
数据管理服务模块41,负责管理数据仓库及对源数据进行维护和深层次加工处理以及系统任务的管理;
数据服务平台模块42,负责客户使用数据提供接口,录入搜索、推荐以及阅读文档只读操作;
数据地图服务模块43,提供数据画像、行为画像及用户画像的描述,便于还原客户使用场景;
词云服务模块44,负责对词云的生成、维护已经管理,并负责对主题和分类的图形化存储,词云服务模块44的输出端连接有图形数据库5,词云服务模块44输出数据至图形数据库5内;以及
客户管理系统45,客户管理系统45在API层级进行权限控制,此模块实现对客户的权限控制和用户的权限控制两个部分,其中用户的权限依附于客户的权限,客户管理系统45的输出端连接有关系数据库6,客户管理系统45输出数据至关系数据库6内;
计算平台7,利用Spark Cluster能力进行实时计算和/或离线计算以及人工智能模型的生成;
分布式资源管理系统8,实现数据的分布式管理。
本发明一实施例智能感知搜索平台中数据驱动层如图3所示。在图3中,在数据驱动层中,分布式资源管理系统8包括分布式数据存储区81、分布式发布订阅消息系统82和分布式日志收集服务器83;
为了实现对数据的处理:数据管理服务模块41和数据服务平台模块42的输出端与分布式数据存储区81的输入端连接,分布式数据存储区81的输出端与分布式发布订阅消息系统82的输入端连接,分布式发布订阅消息系统82连接有日志Web在线监控工具,日志Web在线监控工具与分布式发布订阅消息系统82双向互联,分布式发布订阅消息系统82的输出端和日志Web在线监控工具的输出端分别连接数据地图服务模块43和搜索应用服务器9,数据地图服务模块43的输出端与搜索应用服务器9的输入端连接,搜索应用服务器9与计算平台7双向互联,数据管理服务模块41和数据服务平台模块42输出数据至分布式数据存储区81予以存储,分布式数据存储区81还将数据输出至分布式发布订阅消息系统82予以处理,分布式发布订阅消息系统82与日志Web在线监控工具互联,分布式发布订阅消息系统82处理数据后输出至数据地图服务模块43,数据地图服务模块43输出数据至搜索应用服务器9,日志Web在线监控工具同时监控搜索应用服务器9内的数据;
本发明一实施例智能感知搜索平台中数据驱动层如图4所示。在图4中,在数据驱动层中,为了实现对日志的处理:数据地图服务模块43的输出端与分布式数据存储区81的输入端连接,分布式数据存储区81的输入端与分布式日志收集服务器83的输入端连接,分布式日志收集服务器83的输出端与搜索应用服务器9的输入端连接,计算平台7的输出端与搜索应用服务器9的输入端连接,数据地图服务模块43输出数据至分布式数据存储区81,分布式数据存储区81输出数据至分布式日志收集服务器83实现日志收集,分布式日志收集服务器83输出日志至搜索应用服务器9,此处采用log4j来记录用户访问日志,每个日志有request和response两部分组成,根据API的不同,request和response的数据结构也会有区别,日志采集由数据地图服务模块43负责,只需要监视可收集的正确的日志信息,并直接发送给分布式数据存储区81供其他模块使用,或者保存到搜索应用服务器9或者实时消费,日志的发布采用当前主流的分布式日志收集服务器83对日志进行集中采集发布给各个日志消费系统,客户也可以提出申请对日志进行收集,当日志发送给分布式数据存储区81后,有分布式日志收集服务器83进行日志流的处理并完善相关信息,然后保存到相应的数据集中,最后在把该条完整日志发送给分布式数据存储区81的消费者的topic中,供各个具体模块使用,对于有统计需求的模块,需要在后期对数据进行离线计算,计算框架采用计算平台7的流处理,实现大数据量的聚类、统计及分析;以及
搜索应用服务器9,数据管理服务模块41、数据服务平台模块42和数据地图服务模块43的输出端与搜索应用服务器9的输入端连接,存储数据管理服务模块41、数据服务平台模块42和数据地图服务模块43输出的数据。
本发明实施例的智能感知搜索平台利用数据驱动层实现通过数据管理服务模块负责管理数据仓库及对源数据进行维护和深层次加工处理以及系统任务的管理。通过数据服务平台模块负责客户使用数据提供接口,录入搜索、推荐以及阅读文档只读操作。通过数据地图服务模块提供数据画像、行为画像及用户画像的描述,便于还原客户使用场景。通过词云服务模块负责对词云的生成、维护已经管理,并负责对主题和分类的图形化存储。通过客户管理系统在API层级进行权限控制,此模块实现对客户的权限控制和用户的权限控制两个部分,其中用户的权限依附于客户的权限。通过计算平台利用Spark Cluster能力进行实时计算和/或离线计算以及人工智能模型的生成,从而实现大数据量的聚类、统计及分析。
本发明一实施例智能感知搜索平台中数据治理层如图5所示。在图5中,数据应用层200包括:
请求数据采集模块210,用于根据搜索请求建立搜索来源、搜索领域和搜索用户的特征数据。
搜索请求具有目的性,目标是确定信息的具体数据体现。同时搜索请求也是信息需求的一种表达状态,来源、领域和用户的特征可以体现信息展现的单向性维度。
交互数据采集模块220,用于在搜索请求过程中和搜索响应过程中确定交互数据来源和交互行为序列。
搜索请求过程涉及索引数据和响应数据,可以反映数据检索、遍历、转发和触发的数据处理状态,通过标记、量化可以形成完整的请求-响应过程描述。
交互逻辑采集模块230,用于在搜索请求过程中和搜索响应过程中确定连续搜索请求的量化过程。
将搜索过程形成持续化采集过程,对搜索需求体现的一致性和差异性,以及数据响应过程的一致性和差异性进行量化,获得相似搜素需求的量化一致性和量化差异。
增量过程描述模块240,用于形成与搜索结果向对应的逻辑量化过程。
对具有来源、领域和用户一致性的搜索需求和搜索结果进行过程量化描述,形成搜索需求和搜索结果的量化描述,体现信息请求和信息反馈的差异性。
增量数据描述模块250,用于逻辑量化过程形成描述搜索需求的需求增量数据。
将信息请求和信息反馈的差异性作为搜索需求的状态表达数据,进一步作为对搜索过程进行调节的技术手段的优化数据,使得搜索算法或模型可以获得持续的增量数据作为优化参量。
本发明实施例的智能感知搜索平台对搜索需求产生的搜索行为采集和量化,将搜索需求体现的交互过程和交互数据进行量化和定义,形成针对搜索行为的增量数据。将搜索行为的过程和结果作为搜索过程的改进参量作用于相关的数据感知和机器学习算法,提高算法的领域适应性和鲁棒性。
本发明一实施例智能感知搜索平台中数据整合层如图6所示。在图6中,数据治理层300包括:
数据清洗模块310,用于持续建立基础数据不同领域内多媒体数据的清洗规则。
多媒体数据具有编码演进,数据内涵信息需要通过对编码规则、传输规则、组织规则的剥离获得基本数据。数据内涵信息在不同领域内有效载荷存在差异,需要建立针对性规则。
文本挖掘模块320,用于持续建立基础数据不同领域内富文本数据的语法规则。
文本作为主要的信息准确表达形式,存在丰富的修饰格式。文本内涵信息在不同领域内有效载荷存在差异,需要建立针对性规则。
数据分类模块330,用于持续建立基础数据不同领域内根据领域特征形成的分类规则。
分类是对数据在不同领域内专业信息含义的量化识别。分类数据在不同领域内有效载荷存在差异,需要建立针对性规则。
用户分析模块340,用于根据需求增量数据的用户信息持续建立基础数据不同领域内的用户描述规则。
用户是对数据流转过程中信息载荷变化的量化识别。用户数据在不同领域内有效载荷存在差异,需要建立针对性规则。
行为分析模块350,用于根据需求增量数据的行为信息持续建立基础数据不同领域内用户行为描述规则。
需求增量数据具有量化维度的巨大差异性。搜索行为反映的隐含数据需求状态在不同领域内存在差异,需要建立针对性规则。
数据分析模块360,用于根据需求增量数据的类型信息持续建立基础数据不同领域内数据类型描述规则。
基础数据的数据组成具有量化维度的巨大差异性。数据类型反映的隐含数据需求状态在不同领域内存在差异,需要建立针对性规则。
数据描述维度形成模块370,用于根据清洗规则、分类规则和语法规则形成机器学习的维度参量建立不同领域内数据的描述维度。
数据的描述维度往往具有不可读的特征,需要利用不同的识别工具或学习工具持续迭代建立,并将描述维度量化和集合化,用于模块化应用。
数据交互维度形成模块380,用于根据用户描述规则、行为描述规则和数据类型描述规则形成自然语言处理的的交互传递参量建立不同领域内数据的关联维度。
数据的关联维度往往具有不可读的特征,需要利用不同的识别工具或学习工具持续迭代建立,并将关联维度量化和集合化,用于模块化应用。
数据融合规则形成模块390,用于根据描述维度和关联维度形成基础数据不同领域内的信息传递维度,用于优化数据信息融合算法。
数据间的传递与信息传递具有相关性,但信息间的传递与数据传递弱相关。需要利用不同的识别工具或学习工具持续迭代建立传递维度,并将传递维度量化和集合化,用于模块化应用。
本发明实施例的智能感知搜索平台利用机器学习和自然语言感知技术对基础数据和搜索需求进丰富维度识别,并根据识别维度形成数据描述的维度规则和数据间信息传递的规则,建立基础数据内涵信息描述和信息理解的技术基础。
本发明一实施例智能感知搜索平台中数据增强层如图7所示。在图7中,数据整合层400包括:
专用处理接口集合410,用于形成针对数据源的数据采集接口形成持续的基础数据源。
针对的数据源包括但不限于业务应用数据、非结构化文件数据、数据仓库数据、日志数据和专家知识库数据。
数据规则整合模块420,用于根据需求领域获取信息传递维度对基础数据源进行描述维度和关联维度的识别。
根据需求领域获取信息传递维度可以有效降低数据处理复杂度使得数据的内涵信息指向性得以局限。通过获得的信息传递维度对基础数据源进行需求领域识别可以降低数据量级。
数据分类形成模块430,用于根据描述维度形成基础数据的特征分类。
利用获得的信息传递维度进行特征分类可以对有限数据在内涵信息指向性引导下获得尽可能丰富的特征分类,使得内涵信息可以充分披露量化。
数据融合形成模块440,用于根据关联维度形成基础数据的维度关联。
利用获得的信息传递维度进行特征分类可以对有限数据在内涵信息指向性引导下获得尽可能丰富的维度传递关系,使得内涵信息可以充分关联量化。
本发明实施例的智能感知搜索平台利用获得的信息传递维度针对需求领域进行基础数据的提取、识别和过滤,根据描述维度和关联维度形成基础数据内涵信息的关联基础,使得基础数据的信息表达和信息传递具有语言学和信息学上的具体量化体现。
本发明一实施例智能感知搜索平台中数据应用层如图8所示。在图8中,数据增强层500包括:
分类数据融合模块510,用于将需求领域内的基础数据根据特征维度进行特征维度融合,形成基础数据特征维度的扩展。
利用学习工具进行必要的特征维度聚类,形成差异特征间的融合维度,使得基础数据获得特征维度的扩展。
融合数据分析模块520,用于将需求领域内的基础数据根据关联维度进行信息关联,形成基础数据关联维度的扩展。
利用学习工具进行必要的关联维度聚类,形成差异特征间的融合维度,使得基础数据获得关联维度的扩展。
数据特征重构模块530,用于根据扩展的特征维度和关联维度形成基础数据的信息增量数据。
利用获得的特征维度和关联维度对基础数据进行特征重构,使得基础数据获得表达内涵信息的增量数据作为信息表达特征。
数据信息响应模块540,用于根据信息增量数据形成基础数据的高级信息特征响应搜索需求。
搜索需求在响应过程中被解析为确定的信息表达特征,通过信息表达特征获得数据和数据间的传递、转换、衍生和冗余信息,形成完整的搜索相应数据。
本发明实施例的智能感知搜索平台通过持续获得的融合策略对持续获得的基础数据进行信息特征量化和信息关联提取,逐渐建立基础数据的高级信息特征,逐渐建立数据信息内涵的衡量基础,建立信息内涵的数据联系过程,形成搜索需求的可靠准确的响应结果。
本发明实施例的智能感知搜索平台在实际应用中可以针对应用领域和行业特点做出持续的实质性信息搜索提升。针对信息深度和信息质量进行数据检索,改变搜索需求受限于搜索技能的现实缺陷。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其改进构思加以等同替换或改变,都应涵盖在本发明的保护范围内。
Claims (9)
1.一种智能感知搜索平台,其特征在于,包括:
数据驱动层,用于形成基础数据和增量数据的存储结构,形成数据融合的数据结构,形成数据资源的管理响应接口,形成客户系统和终端系统的服务响应接口;
数据应用层,用于在数据响应服务过程中根据搜索需求反馈响应信息,并将响应服务中的交互数据和交互过程形成需求增量数据;
数据治理层,用于对基础数据和需求增量数据进行内涵信息分析形成数据分类的描述维度和分类数据的融合规则;
数据整合层,用于建立数据处理专用接口,对基础数据和增量数据进行提取、识别和过滤,根据数据描述维度形成数据分类,根据数据融合规则建立分类数据的融合结构;
数据增强层,用于根据持续更新的数据分类和融合结构对基础数据和增量数据进行特征重建,形成数据的高级信息特征,响应搜索需求;
所述数据治理层包括:
数据清洗模块,用于持续建立基础数据不同领域内多媒体数据的清洗规则;
文本挖掘模块,用于持续建立基础数据不同领域内富文本数据的语法规则;
数据分类模块,用于持续建立基础数据不同领域内根据领域特征形成的分类规则;
用户分析模块,用于根据需求增量数据的用户信息持续建立基础数据不同领域内的用户描述规则;
行为分析模块,用于根据需求增量数据的行为信息持续建立基础数据不同领域内用户行为描述规则;
数据分析模块,用于根据需求增量数据的类型信息持续建立基础数据不同领域内数据类型描述规则;
数据描述维度形成模块,用于根据清洗规则、分类规则和语法规则形成机器学习的维度参量建立不同领域内数据的描述维度;
数据交互维度形成模块,用于根据用户描述规则、行为描述规则和数据类型描述规则形成自然语言处理的的交互传递参量建立不同领域内数据的关联维度;
数据融合规则形成模块,用于根据描述维度和关联维度形成基础数据不同领域内的信息传递维度,用于优化数据信息融合算法。
2.如权利要求1所述的智能感知搜索平台,其特征在于,所述数据驱动层包括:
服务管理系统(4),客户系统(2)和客户终端系统(3)的输入端与服务管理系统(4)的输入端连接,所述客户系统(2)和客户终端系统(3)输送数据至服务管理系统(4),用于实现数据管理,其中,所述服务管理系统(4)包括:
数据管理服务模块(41),负责管理数据仓库及对源数据进行维护和深层次加工处理以及系统任务的管理;
数据服务平台模块(42),负责客户使用数据提供接口,录入搜索、推荐以及阅读文档只读操作;以及
数据地图服务模块(43),提供数据画像、行为画像及用户画像的描述,便于还原客户使用场景;
计算平台(7),利用Spark Cluster能力进行实时计算和/或离线计算以及人工智能模型的生成;
分布式资源管理系统(8),实现数据的分布式管理;以及
搜索应用服务器(9),所述数据管理服务模块(41)、数据服务平台模块(42)和数据地图服务模块(43)的输出端与搜索应用服务器(9)的输入端连接,存储所述数据管理服务模块(41)、数据服务平台模块(42)和数据地图服务模块(43)输出的数据。
3.如权利要求2所述的智能感知搜索平台,其特征在于,所述分布式资源管理系统(8)包括分布式数据存储区(81)、分布式发布订阅消息系统(82)和分布式日志收集服务器(83)。
4.如权利要求2所述的智能感知搜索平台,其特征在于,所述数据管理服务模块(41)和数据服务平台模块(42)的输出端与分布式数据存储区(81)的输入端连接,所述分布式数据存储区(81)的输出端与分布式发布订阅消息系统(82)的输入端连接,所述分布式发布订阅消息系统(82)连接有日志Web在线监控工具,所述日志Web在线监控工具与分布式发布订阅消息系统(82)双向互联,所述分布式发布订阅消息系统(82)的输出端和日志Web在线监控工具的输出端分别连接数据地图服务模块(43)和搜索应用服务器(9),所述数据地图服务模块(43)的输出端与搜索应用服务器(9)的输入端连接,所述搜索应用服务器(9)与计算平台(7)双向互联,所述数据管理服务模块(41)和数据服务平台模块(42)输出数据至分布式数据存储区(81)予以存储,所述分布式数据存储区(81)还将数据输出至分布式发布订阅消息系统(82)予以处理,所述分布式发布订阅消息系统(82)与日志Web在线监控工具互联,所述分布式发布订阅消息系统(82)处理数据后输出至数据地图服务模块(43),所述数据地图服务模块(43)输出数据至搜索应用服务器(9),所述日志Web在线监控工具同时监控搜索应用服务器(9)内的数据。
5.如权利要求2所述的智能感知搜索平台,其特征在于,所述数据地图服务模块(43)的输出端与分布式数据存储区(81)的输入端连接,所述分布式数据存储区(81)的输入端与分布式日志收集服务器(83)的输入端连接,所述分布式日志收集服务器(83)的输出端与搜索应用服务器(9)的输入端连接,所述计算平台(7)的输出端与搜索应用服务器(9)的输入端连接,所述数据地图服务模块(43)输出数据至分布式数据存储区(81),所述分布式数据存储区(81)输出数据至分布式日志收集服务器(83)实现日志收集,所述分布式日志收集服务器(83)输出日志至搜索应用服务器(9)。
6.如权利要求1所述的智能感知搜索平台,其特征在于,还包括:
词云服务模块(44),负责对词云的生成、维护已经管理,并负责对主题和分类的图形化存储;以及
客户管理系统(45),所述客户管理系统(45)在API层级进行权限控制,此模块实现对客户的权限控制和用户的权限控制两个部分,其中用户的权限依附于客户的权限。
7.如权利要求1所述的智能感知搜索平台,其特征在于,所述数据应用层包括:
请求数据采集模块,用于根据搜索请求建立搜索来源、搜索领域和搜索用户的特征数据;
交互数据采集模块,用于在搜索请求过程中和搜索响应过程中确定交互数据来源和交互行为序列;
交互逻辑采集模块,用于在搜索请求过程中和搜索响应过程中确定连续搜索请求的量化过程;
增量过程描述模块,用于根据形成与搜索结果向对应的逻辑量化过程;
增量数据描述模块,用于根据逻辑量化过程形成描述搜索需求的需求增量数据。
8.如权利要求1所述的智能感知搜索平台,其特征在于,所述数据整合层包括:
专用处理接口集合,用于形成针对数据源的数据采集接口形成持续的基础数据源;
数据规则整合模块,用于根据需求领域获取信息传递维度对基础数据源进行描述维度和关联维度的识别;
数据分类形成模块,用于根据描述维度形成基础数据的特征分类;
数据融合形成模块,用于根据关联维度形成基础数据的维度关联。
9.如权利要求1所述的智能感知搜索平台,其特征在于,所述数据增强层包括:
分类数据融合模块,用于将需求领域内的基础数据根据特征维度进行特征维度融合,形成基础数据特征维度的扩展;
融合数据分析模块,用于将需求领域内的基础数据根据关联维度进行信息关联,形成基础数据关联维度的扩展;
数据特征重构模块,用于根据扩展的特征维度和关联维度形成基础数据的信息增量数据;
数据信息响应模块,用于根据信息增量数据形成基础数据的高级信息特征响应搜索需求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011469103.4A CN112507227B (zh) | 2020-12-15 | 2020-12-15 | 一种智能感知搜索平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011469103.4A CN112507227B (zh) | 2020-12-15 | 2020-12-15 | 一种智能感知搜索平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507227A CN112507227A (zh) | 2021-03-16 |
CN112507227B true CN112507227B (zh) | 2024-03-01 |
Family
ID=74972317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011469103.4A Active CN112507227B (zh) | 2020-12-15 | 2020-12-15 | 一种智能感知搜索平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507227B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699966A (zh) * | 2013-04-12 | 2014-04-02 | 国家电网公司 | 基于用户需求的多维度、全过程数据管控系统及管控方法 |
CN104281697A (zh) * | 2014-10-15 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种基于语义的大数据分析系统 |
CN106980699A (zh) * | 2017-04-14 | 2017-07-25 | 中国科学院深圳先进技术研究院 | 一种数据处理平台和系统 |
CN108037415A (zh) * | 2017-12-15 | 2018-05-15 | 国网江苏省电力有限公司南京供电分公司 | 基于多源异构数据的配电网故障信息挖掘与诊断方法 |
CN109033387A (zh) * | 2018-07-26 | 2018-12-18 | 广州大学 | 一种融合多源数据的物联网搜索系统、方法及存储介质 |
CN109408548A (zh) * | 2018-09-19 | 2019-03-01 | 中国电力科学研究院有限公司 | 一种城市电力大数据应用系统及方法 |
-
2020
- 2020-12-15 CN CN202011469103.4A patent/CN112507227B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699966A (zh) * | 2013-04-12 | 2014-04-02 | 国家电网公司 | 基于用户需求的多维度、全过程数据管控系统及管控方法 |
CN104281697A (zh) * | 2014-10-15 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种基于语义的大数据分析系统 |
CN106980699A (zh) * | 2017-04-14 | 2017-07-25 | 中国科学院深圳先进技术研究院 | 一种数据处理平台和系统 |
CN108037415A (zh) * | 2017-12-15 | 2018-05-15 | 国网江苏省电力有限公司南京供电分公司 | 基于多源异构数据的配电网故障信息挖掘与诊断方法 |
CN109033387A (zh) * | 2018-07-26 | 2018-12-18 | 广州大学 | 一种融合多源数据的物联网搜索系统、方法及存储介质 |
CN109408548A (zh) * | 2018-09-19 | 2019-03-01 | 中国电力科学研究院有限公司 | 一种城市电力大数据应用系统及方法 |
Non-Patent Citations (3)
Title |
---|
Heterogeneous multi-attribute nonadditivity fusion for behavioral three-way decisions in interval type-2 fuzzy environment;Decui Liang et al.;《Information Sciences》;242-263 * |
基于GIS的营配调数据融合在宁波供电公司的应用;周斌;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;C042-1234 * |
电力客户故障报修诉求与气象因素的灰色关联分析;王畅 等;《电测与仪表》;160-173 * |
Also Published As
Publication number | Publication date |
---|---|
CN112507227A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444236B (zh) | 一种基于大数据的移动终端用户画像构建方法及系统 | |
CN109767255B (zh) | 一种通过大数据建模实现智能运营及精准营销的方法 | |
CN109446344A (zh) | 一种基于大数据的智能分析报告自动生成系统 | |
CN104008182B (zh) | 社交网络交流影响力的测定方法及系统 | |
CN106022708A (zh) | 一种预测员工离职的方法 | |
CN107368521B (zh) | 一种基于大数据和深度学习的知识推介方法及系统 | |
CN110489749B (zh) | 一种智能办公自动化系统的业务流程优化方法 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN117009524B (zh) | 一种基于舆情情感分析的互联网大数据分析方法及系统 | |
CN110427298A (zh) | 一种分布式日志的自动特征提取方法 | |
CN112817958A (zh) | 电力规划数据采集方法、装置及智能终端 | |
CN112685514A (zh) | Ai智能客户价值管理平台 | |
Weinzierl et al. | Predictive business process monitoring with context information from documents | |
CN116542800A (zh) | 基于云端ai技术的智能化财务报表分析系统 | |
CN111241288A (zh) | 一种大集中电力客户服务中心的突发事件感知系统以及构建方法 | |
CN112507227B (zh) | 一种智能感知搜索平台 | |
Chen et al. | Hybrid deep collaborative filtering for job recommendation | |
CN107357919A (zh) | 行为日志查询系统及方法 | |
CN114331740A (zh) | 产业图谱大数据分析及扫描的数字化投资价值管理方法 | |
Xu | Research on enterprise knowledge unified retrieval based on industrial big data | |
CN115080636A (zh) | 一种基于网络服务的大数据分析系统 | |
Rakushev et al. | The Technique of Operational Processing of Heterogeneous Surveillance Data in Assessing Situation in Geographic Information Systems | |
CN113868322A (zh) | 一种语义结构解析方法、装置、设备及虚拟化系统、介质 | |
CN113672522A (zh) | 测试资源压缩方法以及相关设备 | |
CN115130453A (zh) | 互动信息生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |