CN117493641B - 一种基于语义元数据的二次模糊搜索方法 - Google Patents
一种基于语义元数据的二次模糊搜索方法 Download PDFInfo
- Publication number
- CN117493641B CN117493641B CN202410001841.8A CN202410001841A CN117493641B CN 117493641 B CN117493641 B CN 117493641B CN 202410001841 A CN202410001841 A CN 202410001841A CN 117493641 B CN117493641 B CN 117493641B
- Authority
- CN
- China
- Prior art keywords
- metadata
- search
- semantic
- data
- tags
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000002372 labelling Methods 0.000 claims abstract description 12
- 230000008520 organization Effects 0.000 claims abstract description 9
- 230000003993 interaction Effects 0.000 claims abstract description 7
- 238000003860 storage Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义元数据的二次模糊搜索方法,元数据的接入,根据业务需求,接入数据的元数据信息;元数据的标注,针对接入的来自不同业务数据源的元数据,打上不同的业务标签;语义模型的定义,针对不同的业务场景,定义与设置元数据标签关联模式与展示模式;元数据的二次搜索,对接入的元数据生成搜索索引进行二次模糊搜索;元数据搜索结果组织,按照语义模型定义的关联进行元数据搜索结果的汇总与关联组织的功能;元数据搜索交互,接收用户的请求输入与可视化呈现元数据的搜索结果。本发明发现全、易理解,增加了元数据搜索的全面性与元数据搜索结果的可理解性,提高了数据的搜索发现能力。
Description
技术领域
本发明涉及元数据搜索技术领域,尤其涉及一种基于语义元数据的发现全、易理解的二次模糊搜索方法。
背景技术
随着信息技术的发展,业务系统的数量不断增加,各业务系统的数据存储形式各异,导致不同业务系统对同一主题分类的数据分散存储,从而对主题数据的发现难度大。元数据是描述数据的数据,通过对元数据的搜索来发现与定位相应的主题数据成为目前常用的方法,目前元数据的搜索方法,通过对关键词的匹配的模式来搜索发现在特定数据库元数据,该类搜索方式难以将同一类主题分类的数据发现全,并且搜索发现的元数据以独立的方式展示,不利用理解与应用。
发明内容
发明目的:本发明的目的是提供一种基于语义元数据的二次模糊搜索方法,用以实现对分散的元数据进行统一的搜索、组织与展示,达到对同一类主题分类的元数据搜索发现全、易理解的效果。
技术方案:本发明包括如下步骤:
(1)元数据的接入,根据业务需求,通过在Web页面输入数据源参数,配置待搜索的数据源信息,选择接入的数据范围,接入数据的元数据信息;
(2)元数据的标注,针对接入的来自不同业务数据源的元数据,通过元数据标注打上不同的业务标签;
(3)语义模型的定义,针对不同的业务场景,定义与设置关联的元数据标签关联模式与展示模式;
(4)元数据的二次搜索,对接入的元数据生成搜索索引,并基于语义模型对元数据以及关联的元数据进行二次模糊搜索;
(5)元数据搜索结果组织,按照语义模型定义的关联进行元数据搜索结果的汇总与关联组织的功能;
(6)元数据搜索交互,接收用户的请求输入与可视化呈现元数据的搜索结果。
进一步地,所述步骤(1)中数据源包括结构化数据源、半结构化数据源以及非结构化数据源。
进一步地,所述步骤(1)中元数据的接入模块包括数据库接入单元和文件数据接入单元。
进一步地,所述数据库接入单元支持结构化数据、半结构化数据的元数据接入,配置数据的连接信息,选择接入的数据库表的范围,采集数据表与字段的信息。
进一步地,所述文件接入单元支持对文件的类型、标题、存储位置元数据信息的采集。
进一步地,所述步骤(2)针对接入的元数据提供自动标注与手动标注的功能。
进一步地,所述步骤(3)语义模型的定义包括元数据标签的集合、元数据标签与标签间的关联模式以及标签的表示模式。
进一步地,所述步骤(4)提供对接入的元数据自动生成搜索索引,并支持元数据的关键词的模糊匹配,当匹配到对应的元数据后,利用该元数据对应标签关联的语义模型,得到关联的标签,即关联的元数据的信息,再从关联的元数据二次搜索得到对应元数据项。
进一步地,所述步骤(5)针对元数据二次搜索的结果,基于语义模型中定义的元数据标签的关联模式,对搜索结果进行关联。
进一步地,所述步骤(6)元数据搜索交互包括提供接收用户的请求输入,以及基于语义模型中定义的结果表示模式,对搜索结果进行图、文、表形式的可视化呈现。
有益效果:本发明与现有技术相比,具有如下显著优点:增加了元数据搜索的全面性与元数据搜索结果的可理解性,本申请只需要在WEB页面中定义配置元数据的语义模型,即可搜索到分散在各类异构存储中的元数据信息,并且以定义的组织模式将搜索的元数据结果以图、文、表的形式展现出来,提高了数据的搜索发现能力。
附图说明
图1为本发明的结构示意图;
图2为本发明的语义模型定义示意图;
图3为元数据二次模糊搜索流程图;
图4为元数据二次模糊搜索结果可视化呈现流程图。
实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,本发明的步骤如下:
(1)元数据的接入,根据业务需求,通过在Web页面输入数据源参数,配置待搜索的数据源信息,选择接入的数据范围,接入数据的元数据信息,对于可搜索的数据进行数据源信息的配置,划定可搜索的数据范围,接入各类异构可搜索的元数据信息;数据源类型包括结构化数据源、半结构化数据源以及非结构化数据源,元数据的接入模块包括数据库接入单元和文件数据接入单元;数据库接入单元支持结构化数据、半结构化数据的元数据接入,配置数据的连接信息,选择接入的数据库表的范围,采集数据表与字段的信息,文件接入单元支持对文件的类型、标题、存储位置元数据信息的采集。
(2)元数据的标注,针对接入的来自不同业务数据源的元数据,通过元数据标注以自动或者手动的方式打上不同的业务标签;元数据标注,针对接入的元数据提供自动标注与手动标注的功能。
(3)语义模型的定义,针对不同的业务场景,定义与设置关联的元数据标签关联模式与展示模式,如图2所示;语义模型的定义,针对不同的业务场景的需要,定义不同的语义模型,包括元数据标签的集合、元数据标签与标签间的关联模式、以及标签的表示模式等信息。
(4)元数据的二次搜索,对接入的元数据生成搜索索引,并基于定义的语义模型对元数据以及关联的元数据进行二次模糊搜索,流程示意图如图3所示;提供对接入的元数据自动生成搜索索引,并且支持元数据的关键词的模糊匹配,当匹配到对应的元数据后,利用该元数据对应标签关联的语义模型,得到关联的标签,即关联的元数据的信息,再从关联的元数据二次搜索得到对应元数据项。
(5)元数据搜索结果组织,按照语义模型定义的关联进行元数据搜索结果的汇总与关联组织;元数据搜索结果组织,针对元数据二次搜索的结果,基于语义模型中定义的元数据标签的关联模式,对搜索结果进行关联。
(6)元数据搜索交互,将用户的请求搜索的结果可视化多维的呈现,流程示意图如图4所示;元数据搜索交互过程中一方面提供接收用户的请求输入,另一方面基于语义模型中定义的结果表示模式,对搜索结果进行图、文、表形式的可视化呈现。
Claims (9)
1.一种基于语义元数据的二次模糊搜索方法,其特征在于,包括如下步骤:
(1)元数据的接入,根据业务需求,通过在Web页面输入数据源参数,配置待搜索的数据源信息,选择接入的数据范围,接入数据的元数据信息;
(2)元数据的标注,针对接入的来自不同业务数据源的元数据,通过元数据标注打上不同的业务标签;
(3)语义模型的定义,针对不同的业务场景,定义与设置关联的元数据标签关联模式与展示模式;
(4)元数据的二次搜索,对接入的元数据生成搜索索引,并基于语义模型对元数据以及关联的元数据进行二次模糊搜索;
(5)元数据搜索结果组织,按照语义模型定义的关联进行元数据搜索结果的汇总与关联组织的功能;
(6)元数据搜索交互,接收用户的请求输入与可视化呈现元数据的搜索结果,
所述步骤(4)提供对接入的元数据自动生成搜索索引,并支持元数据的关键词的模糊匹配,当匹配到对应的元数据后,利用该元数据对应标签关联的语义模型,得到关联的标签,即关联的元数据的信息,再从关联的元数据二次搜索得到对应元数据项。
2.根据权利要求1所述的基于语义元数据的二次模糊搜索方法,其特征在于,所述步骤(1)中数据源包括结构化数据源、半结构化数据源以及非结构化数据源。
3.根据权利要求1所述的基于语义元数据的二次模糊搜索方法,其特征在于,所述步骤(1)中元数据的接入模块包括数据库接入单元和文件数据接入单元。
4.根据权利要求3所述的基于语义元数据的二次模糊搜索方法,其特征在于,所述数据库接入单元支持结构化数据、半结构化数据的元数据接入,配置数据的连接信息,选择接入的数据库表的范围,采集数据表与字段的信息。
5.根据权利要求3所述的基于语义元数据的二次模糊搜索方法,其特征在于,所述文件接入单元支持对文件的类型、标题、存储位置元数据信息的采集。
6.根据权利要求1所述的基于语义元数据的二次模糊搜索方法,其特征在于,所述步骤(2)针对接入的元数据提供自动标注与手动标注的功能。
7.根据权利要求1所述的基于语义元数据的二次模糊搜索方法,其特征在于,所述步骤(3)语义模型的定义包括元数据标签的集合、元数据标签与标签间的关联模式以及标签的表示模式。
8.根据权利要求1所述的基于语义元数据的二次模糊搜索方法,其特征在于,所述步骤(5)针对元数据二次搜索的结果,基于语义模型中定义的元数据标签的关联模式,对搜索结果进行关联。
9.根据权利要求1所述的基于语义元数据的二次模糊搜索方法,其特征在于,所述步骤(6)元数据搜索交互包括提供接收用户的请求输入,以及基于语义模型中定义的结果表示模式,对搜索结果进行图、文、表形式的可视化呈现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410001841.8A CN117493641B (zh) | 2024-01-02 | 2024-01-02 | 一种基于语义元数据的二次模糊搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410001841.8A CN117493641B (zh) | 2024-01-02 | 2024-01-02 | 一种基于语义元数据的二次模糊搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117493641A CN117493641A (zh) | 2024-02-02 |
CN117493641B true CN117493641B (zh) | 2024-03-22 |
Family
ID=89667620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410001841.8A Active CN117493641B (zh) | 2024-01-02 | 2024-01-02 | 一种基于语义元数据的二次模糊搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117493641B (zh) |
Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1083567A2 (en) * | 1999-09-08 | 2001-03-14 | Sony United Kingdom Limited | System and method for editing source metadata to produce an edited metadata sequence |
CN1877577A (zh) * | 2005-06-09 | 2006-12-13 | 三星电子株式会社 | 使用元数据的浏览方法和设备 |
KR20090053146A (ko) * | 2007-11-22 | 2009-05-27 | 한국전자통신연구원 | 메타데이터 서버 검색 방법 |
CN101685444A (zh) * | 2008-09-27 | 2010-03-31 | 国际商业机器公司 | 用于实现元数据搜索的系统和方法 |
EP2192503A1 (en) * | 2008-11-21 | 2010-06-02 | BRITISH TELECOMMUNICATIONS public limited company | Optimised tag based searching |
CN103106220A (zh) * | 2011-11-15 | 2013-05-15 | 阿里巴巴集团控股有限公司 | 一种搜索方法、搜索装置及一种搜索引擎系统 |
CN103258029A (zh) * | 2013-05-08 | 2013-08-21 | 徐峰蕾 | 信息检索方法及系统 |
CN104537116A (zh) * | 2015-01-23 | 2015-04-22 | 浙江大学 | 一种基于标签的图书搜索方法 |
CN106484774A (zh) * | 2016-09-12 | 2017-03-08 | 北京歌华有线电视网络股份有限公司 | 一种多源视频元数据的关联方法及系统 |
CN109101565A (zh) * | 2018-07-16 | 2018-12-28 | 浪潮软件集团有限公司 | 一种基于图数据库的语义搜索实现方法 |
CN109739893A (zh) * | 2018-12-28 | 2019-05-10 | 上海连尚网络科技有限公司 | 一种元数据管理方法、设备及计算机可读介质 |
CN109783635A (zh) * | 2017-11-13 | 2019-05-21 | 埃森哲环球解决方案有限公司 | 使用机器学习和模糊匹配自动分层分类文档和标识元数据 |
CN110442614A (zh) * | 2019-07-11 | 2019-11-12 | 平安证券股份有限公司 | 元数据的搜索方法及装置、电子设备、存储介质 |
CN112131295A (zh) * | 2020-09-27 | 2020-12-25 | 平安医疗健康管理股份有限公司 | 基于Elasticsearch的数据处理方法及设备 |
CN112559907A (zh) * | 2020-12-09 | 2021-03-26 | 北京国研数通软件技术有限公司 | 基于时空标签时空关联的基础数据检索与集成展示方法 |
CN113032579A (zh) * | 2021-03-25 | 2021-06-25 | 中国建设银行股份有限公司 | 一种元数据血缘分析方法、装置、电子设备和介质 |
CN114372083A (zh) * | 2022-01-07 | 2022-04-19 | 中国工商银行股份有限公司 | 元数据分析方法及装置 |
CN114385721A (zh) * | 2022-01-14 | 2022-04-22 | 阳光财产保险股份有限公司 | 一种数据可视化查询方法、装置、电子设备及存储介质 |
CN114443913A (zh) * | 2022-04-06 | 2022-05-06 | 创智和宇信息技术股份有限公司 | 基于元数据多函数多条件的自定义查询方法、系统及介质 |
CN114791955A (zh) * | 2022-04-20 | 2022-07-26 | 中国中医科学院中医药信息研究所 | 中医药文献语料库与知识库一体化系统 |
CN115470192A (zh) * | 2022-08-24 | 2022-12-13 | 上海爱数信息技术股份有限公司 | 一种数据库元数据采集与管理的方法 |
CN115687276A (zh) * | 2022-11-18 | 2023-02-03 | 抖音视界有限公司 | 一种文件处理方法、装置、电子设备及存储介质 |
CN116166849A (zh) * | 2023-02-15 | 2023-05-26 | 浙江大华技术股份有限公司 | 一种数据管理方法、装置、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002202975A (ja) * | 2000-11-02 | 2002-07-19 | Canon Inc | データ検索装置及び方法 |
US8156144B2 (en) * | 2008-01-23 | 2012-04-10 | Microsoft Corporation | Metadata search interface |
US8495005B2 (en) * | 2009-01-14 | 2013-07-23 | International Business Machines Corporation | Methods for matching metadata from disparate data sources |
US10831831B2 (en) * | 2018-03-29 | 2020-11-10 | Oracle International Corporation | Hierarchical metadata model querying system |
US11294927B2 (en) * | 2019-04-18 | 2022-04-05 | Sap Se | Metadata hub for metadata models of database objects |
US20230082668A1 (en) * | 2019-10-16 | 2023-03-16 | Rosm Global Services Pvt Ltd. | Methods for storing, accessing and rendering multimedia file and its metadata |
WO2021178731A1 (en) * | 2020-03-04 | 2021-09-10 | Karl Denninghoff | Neurological movement detection to rapidly draw user attention to search results |
-
2024
- 2024-01-02 CN CN202410001841.8A patent/CN117493641B/zh active Active
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1083567A2 (en) * | 1999-09-08 | 2001-03-14 | Sony United Kingdom Limited | System and method for editing source metadata to produce an edited metadata sequence |
CN1877577A (zh) * | 2005-06-09 | 2006-12-13 | 三星电子株式会社 | 使用元数据的浏览方法和设备 |
KR20090053146A (ko) * | 2007-11-22 | 2009-05-27 | 한국전자통신연구원 | 메타데이터 서버 검색 방법 |
CN101685444A (zh) * | 2008-09-27 | 2010-03-31 | 国际商业机器公司 | 用于实现元数据搜索的系统和方法 |
EP2192503A1 (en) * | 2008-11-21 | 2010-06-02 | BRITISH TELECOMMUNICATIONS public limited company | Optimised tag based searching |
CN103106220A (zh) * | 2011-11-15 | 2013-05-15 | 阿里巴巴集团控股有限公司 | 一种搜索方法、搜索装置及一种搜索引擎系统 |
CN103258029A (zh) * | 2013-05-08 | 2013-08-21 | 徐峰蕾 | 信息检索方法及系统 |
CN104537116A (zh) * | 2015-01-23 | 2015-04-22 | 浙江大学 | 一种基于标签的图书搜索方法 |
CN106484774A (zh) * | 2016-09-12 | 2017-03-08 | 北京歌华有线电视网络股份有限公司 | 一种多源视频元数据的关联方法及系统 |
CN109783635A (zh) * | 2017-11-13 | 2019-05-21 | 埃森哲环球解决方案有限公司 | 使用机器学习和模糊匹配自动分层分类文档和标识元数据 |
CN109101565A (zh) * | 2018-07-16 | 2018-12-28 | 浪潮软件集团有限公司 | 一种基于图数据库的语义搜索实现方法 |
CN109739893A (zh) * | 2018-12-28 | 2019-05-10 | 上海连尚网络科技有限公司 | 一种元数据管理方法、设备及计算机可读介质 |
CN110442614A (zh) * | 2019-07-11 | 2019-11-12 | 平安证券股份有限公司 | 元数据的搜索方法及装置、电子设备、存储介质 |
CN112131295A (zh) * | 2020-09-27 | 2020-12-25 | 平安医疗健康管理股份有限公司 | 基于Elasticsearch的数据处理方法及设备 |
CN112559907A (zh) * | 2020-12-09 | 2021-03-26 | 北京国研数通软件技术有限公司 | 基于时空标签时空关联的基础数据检索与集成展示方法 |
CN113032579A (zh) * | 2021-03-25 | 2021-06-25 | 中国建设银行股份有限公司 | 一种元数据血缘分析方法、装置、电子设备和介质 |
CN114372083A (zh) * | 2022-01-07 | 2022-04-19 | 中国工商银行股份有限公司 | 元数据分析方法及装置 |
CN114385721A (zh) * | 2022-01-14 | 2022-04-22 | 阳光财产保险股份有限公司 | 一种数据可视化查询方法、装置、电子设备及存储介质 |
CN114443913A (zh) * | 2022-04-06 | 2022-05-06 | 创智和宇信息技术股份有限公司 | 基于元数据多函数多条件的自定义查询方法、系统及介质 |
CN114791955A (zh) * | 2022-04-20 | 2022-07-26 | 中国中医科学院中医药信息研究所 | 中医药文献语料库与知识库一体化系统 |
CN115470192A (zh) * | 2022-08-24 | 2022-12-13 | 上海爱数信息技术股份有限公司 | 一种数据库元数据采集与管理的方法 |
CN115687276A (zh) * | 2022-11-18 | 2023-02-03 | 抖音视界有限公司 | 一种文件处理方法、装置、电子设备及存储介质 |
CN116166849A (zh) * | 2023-02-15 | 2023-05-26 | 浙江大华技术股份有限公司 | 一种数据管理方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Fuzzy Metadata Strategies for Enhanced Data Integration;Hiba Khalid;《DATA 2018: Proceedings of the 7th International Conference on Data Science, Technology and Applications July 2018》;20180726;83-90 * |
大数据背景下图书馆信息标签检索模式;郭育艳;《信息系统工程》;20180430(第4期);131-134 * |
Also Published As
Publication number | Publication date |
---|---|
CN117493641A (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9569506B2 (en) | Uniform search, navigation and combination of heterogeneous data | |
US7707210B2 (en) | System and method for multi-dimensional foraging and retrieval of documents | |
US5924090A (en) | Method and apparatus for searching a database of records | |
CN102087669B (zh) | 基于语义关联的智能搜索引擎系统 | |
De Meo et al. | A query expansion and user profile enrichment approach to improve the performance of recommender systems operating on a folksonomy | |
CN102591896A (zh) | 非结构化数据四面体数据模型的系统、实现、应用和查询语言 | |
CN111061828B (zh) | 一种数字图书馆知识检索方法及装置 | |
Remi et al. | Domain ontology driven fuzzy semantic information retrieval | |
Gasparetti et al. | Exploiting web browsing activities for user needs identification | |
US8700624B1 (en) | Collaborative search apps platform for web search | |
CN114356967A (zh) | 一种专业情报搜集分析应用平台 | |
Hassanzadeh et al. | Helix: Online enterprise data analytics | |
Kalampokis et al. | ICT tools for creating, expanding and exploiting statistical linked Open Data | |
Singh et al. | Hierarchical classification of web search results using personalized ontologies | |
CN114077652A (zh) | 一种基于多维数据立方体的数据处理方法及电子装置 | |
Mäkelä et al. | Enabling the Semantic Web with Ready-to-Use Web Widgets. | |
CN117493641B (zh) | 一种基于语义元数据的二次模糊搜索方法 | |
Halevy | Structures, semantics and statistics | |
Cruz et al. | A user interface for distributed multimedia database querying with mediator supported refinement | |
Aumueller et al. | Caravela: Semantic Content Management with Automatic Information Integration and Categorization (System Description) | |
Campi et al. | Designing service marts for engineering search computing applications | |
Shimizu et al. | Kikori-KS: An effective and efficient keyword search system for digital libraries in XML | |
Mosweunyane et al. | A tag-like, linked navigation approach for retrieval and discovery of desktop documents | |
Graupmann et al. | The role of web services in information search | |
Jeong et al. | An efficient web ontology storage considering hierarchical knowledge for Jena-based applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |