CN101196900A - 一种基于元数据的信息检索方法 - Google Patents
一种基于元数据的信息检索方法 Download PDFInfo
- Publication number
- CN101196900A CN101196900A CNA200710169049XA CN200710169049A CN101196900A CN 101196900 A CN101196900 A CN 101196900A CN A200710169049X A CNA200710169049X A CN A200710169049XA CN 200710169049 A CN200710169049 A CN 200710169049A CN 101196900 A CN101196900 A CN 101196900A
- Authority
- CN
- China
- Prior art keywords
- information
- metadata
- keyword
- match
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于元数据的信息检索方法,本发明提出在检索时包括以下步骤:步骤1,将查询词句拆分为关键词;所述拆分方法为,对查询词句从前到后扫描,从词库中寻找最长匹配,找到后切开,对剩余部分继续寻找最长匹配,直到拆分完成;步骤2,根据元数据的er模型映射关系,对单个关键词进行元数据匹配分析,根据匹配结果提取元数据说明信息,生成关键词匹配信息记录;步骤3,综合所有关键词的关键词匹配信息记录,进行优化处理后将结果输出呈现。采用本发明提供的信息检索方法可以方便地从多种数据源中获得关联信息,克服数据仓库技术的检索瓶颈。本发明支持中文检索,操作非常简单,特别适合在开发管理中应用,可以提高开发人员的开发效率。
Description
技术领域
本发明属于信息管理应用领域,特别涉及一种基于元数据的信息检索方法。
背景技术
有关调查表明,目前企业数据每年以200%的速度增长,结构化的和非结构化的数据存放在企业计算机系统的各个角落;企业的员工每天平均花两个半小时在寻找资料。这样,企业内存在各种障碍,信息运用效率极低:1、数据量太多,要取得有用信息,需要耗费大量的时间。2、数据分布在不同应用系统中,需要信息时忘记了存放在何处。需要转换多次才能找到。3、处理新的业务和新问题,不知道组织内部有哪些信息可以使用。4、采用新的信息管理系统,经常会改变员工的工作习惯,需要花费时间和精力去适应和学习。5、系统本身实施时间和成本也较高。
Google和Yahoo、Baidu等互联网搜索引擎家喻户晓,大大促进了互联网浩瀚信息的有效使用。但针对于企业应用系统的智能搜索与互联网搜索有着巨大不同。企业搜索产品对核心技术的挑战性更高。它不仅要求搜索速度更快、结果更准确,可索引大量的文档和不同类型的媒体,同时也要求部署方便,可以与企业现有的信息系统、知识库或BI(商业智能)系统结合,并更加注重安全和隐私。目前,为了管理企业内部的大量数据,出现了一种数据仓库技术,但从数据仓库存放的海量数据中要找到信息不是容易的事情,因为缺乏语义搜索技术手段,很难被业务人员应用。
发明内容
本发明目的在于解决现有技术不足,提供一种支持语义识别的基于元数据的信息检索方法。
为实现上述目的,本发明提出在检索时包括以下步骤:
步骤1,将查询词句拆分为关键词;
所述拆分方法为,对查询词句从前到后扫描,从词库中寻找最长匹配,找到
后切开,对剩余部分继续寻找最长匹配,直到拆分完成;
步骤2,根据元数据的er模型映射关系,对单个关键词进行元数据匹配分析,根据匹配结果提取元数据说明信息,生成关键词匹配信息记录;
步骤3,综合所有关键词的关键词匹配信息记录,进行优化处理后将结果输出呈现。
而且,所述词库包括业务术语表和通用词语表。
而且,优先从业务术语表中寻找匹配。
而且,步骤2中进行元数据匹配分析时,若与关键词匹配的元数据为代码表,通过主外键关系查找代码表对应外键表,并录入关键词匹配信息记录中。
而且,步骤3中的优化处理包括比较两项关键词匹配信息记录分别对应的实体表是否存在主外键关系,如果是则生成新的记录。
而且,对关键词匹配信息记录进行匹配程度评估。
而且,步骤1~3实现的检索处理通过webservice方式提供给远程系统进行调用。
而且,结果输出采用xml文件形式。
本发明的技术方案提供了一种简便的信息检索方式,使用者只需输入关键字即可获得相关联的数据信息,而不需要关心数据存放在何处,提高了工作效率。而且本发明的技术方案支持中文检索,使用更加简便。
附图说明
图1是本发明原理示意图;
图2是本发明实施例关键词匹配信息记录生成流程图;
图3是本发明实施例关键词匹配列表记录组合叠加示意图。
具体实施方式
本发明提供的检索方法针对的是业务人员从多种数据源中获得关联信息的需要,便于其熟悉和掌握数据仓库中的相关数据表的含义、指标统计规则及维表的对应关系。元数据最本质、最抽象的定义为:data about data(关于数据的数据)。它是一种广泛存在的现象,在许多领域有其具体的定义和应用。在数据仓库领域中,元数据被定义为:描述数据及其环境的数据。集中各个应用系统中的元数据,包括表结构信息、文件信息、程序信息等内容;并通过元数据的分析工具建立这些对象之间的关系形成er模型;即可构成满足业务人员需求的检索数据源基础。具体实施时,检索数据源中的元数据主要来自数据库表的信息,包括数据库实例、表名、中文信息、字段、字段对应码表等内容。集中各个应用系统中的元数据构造检索数据源,可以采用现有的数据库技术。本发明提供的信息检索方法包括以下步骤:
步骤1,将查询词句拆分为关键词;
所述拆分方法为,对查询词句从前到后扫描,从词库中寻找最长匹配,找到后切开,对剩余部分继续寻找最长匹配,直到拆分完成;
该步骤是支持语义查询的基础,可以支持直接输入中文字句,提出查询请求。词库包括业务术语表和通用词语表,业务术语表包含特定行业相应的业务术语,通用词语表是国家发布的词语表。优先从业务术语表中寻找匹配,更可能贴合业务人员的需求。例如将输入的查询语句″我是中华人民共和国公民″作为一个字符串S,前到后扫描,对扫描的每个字,从词库中寻找最长匹配,词库优先采用业务术语表。词库中有″中华人民共和国″、中华″、″公民″、″人民″、″共和国″......等词,当扫描到″中″字,那么从中字开始,向后分别取1,2,3,......个字(″中″,″中华″,″中华人″,″中华人民″,″中华人民共″,″中华人民共和″,″中华人民共和国″,,″中华人民共和国公″)。词库中的最长匹配字符串是″中华人民共和国″,那么就此切分开,扫描器推进到″公″字。
步骤2,根据元数据的er模型映射关系,对单个关键词进行元数据匹配分析,根据匹配结果提取元数据说明信息,生成关键词匹配信息记录;
例如关键词″积分换票″,根据配置表数据可以得到是个积分兑换类型配置表的一个成员,再根据数据主外键关系可以查询到与积分兑换类型有关系的实体表,从而就可以定义到是要查询积分兑换记录中有关于积分换票的记录的查询。在海量数据管理时,构成检索数据源的元数据数量也会相当庞大,在关键词与元数据的匹配过程中,需要借助元数据的er模型。可以在检索数据源中设置数据字典表、代码表、业务术语表,对关键词进行粗略的语义匹配分析后,然后根据元数据的er模型进一步匹配。具体实施时,单个关键词进行元数据匹配分析的结果可能是多条关键词匹配信息记录,可以建立标准数据结构的关键词匹配列表,规范地存储关键词匹配信息记录。提供实施例中生成的一个关键词匹配列表供参考,表中的内容根据具体情况而填入:
关键词 匹配类型 实体表 条件 其它信息
gprs 表 cdr_gprs GPRS清单表
gprs 指标 GPRS每日流量 http://www.portal/kpi/gprs.jsp
gprs 配置表 acct_item acct_item_ti 账目相为gprs的帐单
基于元数据内容可以支撑更深入的关键词语意分析和更好数据库性能响应。为了提供更丰富的信息内容,还可以从元数据来源的应用系统中提取更多的相关信息。具体实施时可以生成sql查询脚本,实现信息调用。
参见图2,本发明实施例关键词匹配信息记录生成流程为:取1个关键词;首先按照数据字典表、代码表、业务术语表对关键词进行初步匹配分析;然后进行表名、字段名、代码表名、术语进行精细匹配,其中代码表名匹配时增加了通过数据主外键关系查找外键表的步骤;查询到匹配信息后登记,添加到该关键词的关键词匹配列表中。
步骤3,综合所有关键词的关键词匹配信息记录,进行优化处理后将结果输出呈现,供查询操作人员选用。
优化处理主要是为了检索结果的条理呈现,可以将具有对应关系的记录组合叠加。本发明还提出对关键词匹配信息记录进行匹配程度评估,可以根据匹配程度从高到低输出条目给查询操作人员。本发明实施例的匹配程度评估根据匹配类型和设定的权重计算,参见下表设定:
匹配类型 权重
表名匹配 30
字段名匹配 20
代码表匹配 40
术语匹配 50
根据关键词匹配列表的匹配类型和类型对应的权重对每条记录付权重值,即可得到匹配程度评估。
参见图3的本发明实施例,关键词匹配列表记录组合叠加流程为:首先从一个关键词对应的关键词匹配列表中取一记录;然后从另一个关键词对应的关键词匹配列表中取一记录,包括比较两项记录分别对应的实体表是否存在主外键关系,如果是则生成新的记录加入关键词匹配列表,并把匹配权重记录为这两个记录的权重之和,如果不存在则循环判断下一条记录直到记录为空;选取其它关键词进行循环操作,直到下一个关键词的记录为空。最后按匹配的权重生成xml数据并输出,输出结构包括如下内容:
<xml>
<item>
<seq>序号</seq>
<title>标题<title>
<content>内容描述</content>
<fitrate>匹配程度</fitrate>
<fittype>匹配类型</fittype>
<sql>查询脚本</sql>
<table>查询表</table>
<dimtable>配置表</dimtable>
</item>
<item>
…
</item>
</xml>
以上涉及的符号代码属于xml语言,本发明不予赘述。xml文件可以使用文本以结构化的方式来表示数据,本发明采用这种成熟技术输出查询词句对应的所有匹配记录,实施时可以表格形式向查询操作人员呈现,表格的每个条目为一项匹配记录。
具体实施时,本发明提供的方法可以采用软件编程实现,以检索模块形式供应用系统调用,以达到灵活支持检索的目的。可以设置检索服务器,在服务器上加载检索模块,并发布为webservice方式。服务器可以是tomcate、iis或webspere等。检索模块通过webservice方式,可以提供给远程应用系统进行调用。远程系统通过调用idl或http协议调用,调用格式:Htpp://服务器地址/发布的服务名/关键词1&关键词2…
本发明支持中文查询,对业务人员没有知识背景要求,在数据仓库领域具有重大的应用意义。参见图1,本发明实施例的查询实现过程为:查询操作人员输入中文查询词句;应用系统将查询语句送往检索服务器,经过中文分词、关键词与er模型映射处理,最后输出可能命中条目及其匹配程度;应用系统接收检索服务器的输出可选条目,向查询操作人员呈现,查询操作人员选择条目查看数据。
Claims (8)
1.一种基于元数据的信息检索方法,其特征在于检索时包括以下步骤:
步骤1,将查询词句拆分为关键词;
所述拆分方法为,对查询词句从前到后扫描,从词库中寻找最长匹配,找到后切开,对剩余部分继续寻找最长匹配,直到拆分完成;
步骤2,根据元数据的er模型映射关系,对单个关键词进行元数据匹配分析,根据匹配结果提取元数据说明信息,生成关键词匹配信息记录;
步骤3,综合所有关键词的关键词匹配信息记录,进行优化处理后将结果输出呈现。
2.如权利要求1所述信息检索方法,其特征在于:所述词库包括业务术语表和通用词语表。
3.如权利要求2所述信息检索方法,其特征在于:优先从业务术语表中寻找匹配。
4.如权利要求1所述信息检索方法,其特征在于:步骤2中进行元数据匹配分析时,若与关键词匹配的元数据为代码表,通过主外键关系查找代码表对应外键表,并录入关键词匹配信息记录中。
5.如权利要求4所述信息检索方法,其特征在于:步骤3中的优化处理包括比较两项关键词匹配信息记录分别对应的实体表是否存在主外键关系,如果是则生成新的记录。
6.如权利要求1或2或3或4或5所述从多个应用系统中检索信息的方法,其特征在于:对关键词匹配信息记录进行匹配程度评估。
7.如权利要求1或2或3或4或5或6所述从多个应用系统中检索信息的方法,其特征在于:步骤1~3实现的检索处理通过webservice方式提供给远程应用系统进行调用。
8.如权利要求1或2或3或4或5或6所述从多个应用系统中检索信息的方法,其特征在于:结果输出采用xml文件形式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA200710169049XA CN101196900A (zh) | 2007-12-27 | 2007-12-27 | 一种基于元数据的信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA200710169049XA CN101196900A (zh) | 2007-12-27 | 2007-12-27 | 一种基于元数据的信息检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101196900A true CN101196900A (zh) | 2008-06-11 |
Family
ID=39547318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA200710169049XA Pending CN101196900A (zh) | 2007-12-27 | 2007-12-27 | 一种基于元数据的信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101196900A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556604B (zh) * | 2009-05-06 | 2011-03-23 | 北京大学 | 一种面向复杂数据仓库环境的优化策略自动生成方法 |
CN101499277B (zh) * | 2008-07-25 | 2011-05-04 | 中国科学院计算技术研究所 | 一种服务智能导航方法和系统 |
CN102214174A (zh) * | 2010-04-08 | 2011-10-12 | 上海市浦东科技信息中心 | 一种海量数据信息检索系统及其方法 |
CN102567430A (zh) * | 2010-12-31 | 2012-07-11 | 中国移动通信集团湖北有限公司 | 元数据关系的图形化显示方法及装置 |
CN103092860A (zh) * | 2011-11-02 | 2013-05-08 | 中国移动通信集团四川有限公司 | 搜索提示信息生成方法及装置 |
CN104679731A (zh) * | 2015-03-12 | 2015-06-03 | 百度在线网络技术(北京)有限公司 | 提取页面中关键词的方法及装置 |
CN105144152A (zh) * | 2013-02-22 | 2015-12-09 | 奥迪股份公司 | 具有自动的搜索词补充的机动车信息娱乐系统 |
CN105843793A (zh) * | 2015-01-30 | 2016-08-10 | 国际商业机器公司 | 在自动模型产生期间检测和创建合适行概念的方法和系统 |
CN108345686A (zh) * | 2018-03-08 | 2018-07-31 | 广州赫炎大数据科技有限公司 | 一种基于搜索引擎技术的数据分析方法及系统 |
CN108388623A (zh) * | 2018-02-12 | 2018-08-10 | 平安科技(深圳)有限公司 | Er关系生成方法、装置、计算机设备及存储介质 |
CN108874795A (zh) * | 2017-05-08 | 2018-11-23 | 广东神马搜索科技有限公司 | 服务器与待查询对象信息获取方法及装置 |
US10157175B2 (en) | 2013-03-15 | 2018-12-18 | International Business Machines Corporation | Business intelligence data models with concept identification using language-specific clues |
CN109670796A (zh) * | 2018-12-28 | 2019-04-23 | 北京城建勘测设计研究院有限责任公司 | 工程资料管理方法及系统 |
CN110866007A (zh) * | 2019-10-12 | 2020-03-06 | 中国平安财产保险股份有限公司 | 大数据应用和表的信息管理方法、系统和计算机设备 |
US10698924B2 (en) | 2014-05-22 | 2020-06-30 | International Business Machines Corporation | Generating partitioned hierarchical groups based on data sets for business intelligence data models |
CN112562668A (zh) * | 2020-11-30 | 2021-03-26 | 广州橙行智动汽车科技有限公司 | 一种语义信息纠偏方法和装置 |
CN112650914A (zh) * | 2020-12-30 | 2021-04-13 | 深圳市世强元件网络有限公司 | 一种长尾关键词识别方法、关键词搜索方法及计算机设备 |
CN113496116A (zh) * | 2020-04-01 | 2021-10-12 | 富士通株式会社 | 用于识别文本的方法、设备和存储介质 |
CN113496116B (zh) * | 2020-04-01 | 2024-07-05 | 富士通株式会社 | 用于识别文本的方法、设备和存储介质 |
-
2007
- 2007-12-27 CN CNA200710169049XA patent/CN101196900A/zh active Pending
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101499277B (zh) * | 2008-07-25 | 2011-05-04 | 中国科学院计算技术研究所 | 一种服务智能导航方法和系统 |
CN101556604B (zh) * | 2009-05-06 | 2011-03-23 | 北京大学 | 一种面向复杂数据仓库环境的优化策略自动生成方法 |
CN102214174A (zh) * | 2010-04-08 | 2011-10-12 | 上海市浦东科技信息中心 | 一种海量数据信息检索系统及其方法 |
CN102567430A (zh) * | 2010-12-31 | 2012-07-11 | 中国移动通信集团湖北有限公司 | 元数据关系的图形化显示方法及装置 |
CN102567430B (zh) * | 2010-12-31 | 2014-10-01 | 中国移动通信集团湖北有限公司 | 元数据关系的图形化显示方法及装置 |
CN103092860A (zh) * | 2011-11-02 | 2013-05-08 | 中国移动通信集团四川有限公司 | 搜索提示信息生成方法及装置 |
CN105144152A (zh) * | 2013-02-22 | 2015-12-09 | 奥迪股份公司 | 具有自动的搜索词补充的机动车信息娱乐系统 |
CN105144152B (zh) * | 2013-02-22 | 2020-05-19 | 奥迪股份公司 | 具有自动的搜索词补充的机动车信息娱乐系统 |
US9984149B2 (en) | 2013-02-22 | 2018-05-29 | Audi Ag | Motor vehicle infotainment system with automatic search term completion |
US10157175B2 (en) | 2013-03-15 | 2018-12-18 | International Business Machines Corporation | Business intelligence data models with concept identification using language-specific clues |
US10698924B2 (en) | 2014-05-22 | 2020-06-30 | International Business Machines Corporation | Generating partitioned hierarchical groups based on data sets for business intelligence data models |
US10891314B2 (en) | 2015-01-30 | 2021-01-12 | International Business Machines Corporation | Detection and creation of appropriate row concept during automated model generation |
US10002179B2 (en) | 2015-01-30 | 2018-06-19 | International Business Machines Corporation | Detection and creation of appropriate row concept during automated model generation |
US10019507B2 (en) | 2015-01-30 | 2018-07-10 | International Business Machines Corporation | Detection and creation of appropriate row concept during automated model generation |
CN105843793B (zh) * | 2015-01-30 | 2019-06-04 | 国际商业机器公司 | 在自动模型产生期间检测和创建合适行概念的方法和系统 |
CN105843793A (zh) * | 2015-01-30 | 2016-08-10 | 国际商业机器公司 | 在自动模型产生期间检测和创建合适行概念的方法和系统 |
CN104679731A (zh) * | 2015-03-12 | 2015-06-03 | 百度在线网络技术(北京)有限公司 | 提取页面中关键词的方法及装置 |
CN108874795A (zh) * | 2017-05-08 | 2018-11-23 | 广东神马搜索科技有限公司 | 服务器与待查询对象信息获取方法及装置 |
CN108388623A (zh) * | 2018-02-12 | 2018-08-10 | 平安科技(深圳)有限公司 | Er关系生成方法、装置、计算机设备及存储介质 |
CN108388623B (zh) * | 2018-02-12 | 2020-09-01 | 平安科技(深圳)有限公司 | Er关系生成方法、装置、计算机设备及存储介质 |
CN108345686A (zh) * | 2018-03-08 | 2018-07-31 | 广州赫炎大数据科技有限公司 | 一种基于搜索引擎技术的数据分析方法及系统 |
WO2019169858A1 (zh) * | 2018-03-08 | 2019-09-12 | 广州赫炎大数据科技有限公司 | 一种基于搜索引擎技术的数据分析方法及系统 |
CN108345686B (zh) * | 2018-03-08 | 2021-12-28 | 广州赫炎大数据科技有限公司 | 一种基于搜索引擎技术的数据分析方法及系统 |
CN109670796A (zh) * | 2018-12-28 | 2019-04-23 | 北京城建勘测设计研究院有限责任公司 | 工程资料管理方法及系统 |
CN109670796B (zh) * | 2018-12-28 | 2023-03-14 | 北京城建勘测设计研究院有限责任公司 | 工程资料管理方法及系统 |
CN110866007A (zh) * | 2019-10-12 | 2020-03-06 | 中国平安财产保险股份有限公司 | 大数据应用和表的信息管理方法、系统和计算机设备 |
CN110866007B (zh) * | 2019-10-12 | 2023-08-22 | 中国平安财产保险股份有限公司 | 大数据应用和表的信息管理方法、系统和计算机设备 |
CN113496116A (zh) * | 2020-04-01 | 2021-10-12 | 富士通株式会社 | 用于识别文本的方法、设备和存储介质 |
CN113496116B (zh) * | 2020-04-01 | 2024-07-05 | 富士通株式会社 | 用于识别文本的方法、设备和存储介质 |
CN112562668A (zh) * | 2020-11-30 | 2021-03-26 | 广州橙行智动汽车科技有限公司 | 一种语义信息纠偏方法和装置 |
CN112650914A (zh) * | 2020-12-30 | 2021-04-13 | 深圳市世强元件网络有限公司 | 一种长尾关键词识别方法、关键词搜索方法及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101196900A (zh) | 一种基于元数据的信息检索方法 | |
EP2605158B1 (en) | Mixed join of row and column database tables in native orientation | |
US8756245B2 (en) | Systems and methods for answering user questions | |
US7406477B2 (en) | Database system with methodology for automated determination and selection of optimal indexes | |
CN100541495C (zh) | 一种个性化搜索引擎的搜索方法 | |
US20070288421A1 (en) | Efficient evaluation of object finder queries | |
CN101206670B (zh) | 用于将非结构化信息转换成内容的系统和方法 | |
US20100325169A1 (en) | Representing Markup Language Document Data in a Searchable Format in a Database System | |
CN103198136B (zh) | 一种基于时序关联的个人电脑文件查询方法 | |
CN1389811A (zh) | 搜索引擎的智能化搜索方法 | |
CN103365924A (zh) | 一种搜索信息的方法、装置和终端 | |
CN1752980A (zh) | 搜索结构化文档的设备和方法 | |
CN101655862A (zh) | 信息对象搜索的方法和装置 | |
US9971828B2 (en) | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries | |
CN104391908B (zh) | 一种图上基于局部敏感哈希的多关键字索引方法 | |
CN101201838A (zh) | 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法 | |
CN102253939A (zh) | 一种基于云计算技术的搜索方法及系统 | |
Yafooz et al. | Managing unstructured data in relational databases | |
CN104391941A (zh) | 一种快速构建常用文件全文检索工具的方法 | |
CN101963993A (zh) | 一种数据库单表记录快速查找的方法 | |
Jin et al. | Tise: A temporal search engine for web contents | |
CN101788981A (zh) | 一种深层网移动搜索方法、服务器及系统 | |
Sanz et al. | Gathering metadata from web-based repositories of historical publications | |
CN113987146B (zh) | 一种电力内网专用的智能问答系统 | |
CN113610497B (zh) | 一种高效率协作办公系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20080611 |