CN107861965A - 数据智能识别方法及系统 - Google Patents
数据智能识别方法及系统 Download PDFInfo
- Publication number
- CN107861965A CN107861965A CN201710678130.4A CN201710678130A CN107861965A CN 107861965 A CN107861965 A CN 107861965A CN 201710678130 A CN201710678130 A CN 201710678130A CN 107861965 A CN107861965 A CN 107861965A
- Authority
- CN
- China
- Prior art keywords
- data
- rule
- field
- tables
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
Abstract
本发明公开了一种无需要求企业的所有生产系统的数据都按照统一的规范进行定义,可实现数据的快速识别的数据智能识别方法,包括以下内容:a、建立数据识别时作为参考的数据规则,并将该规则存储到数据库中;b、选定数据表或者字段,调取数据库中的数据规则,以调取的数据规则为识别标准,对选定的数据表或者字段按规则一一进行识别匹配,分别得出识别结果;c、在所有的数据表或者字段与所有的数据规则进行匹配之后,计算这一数据表或者字段所有数据符合数据规则的百分比,确定数据的实际业务含义。本发明还公开了一种基于上述方法的系统。
Description
技术领域
本发明涉及数据识别技术领域,具体涉及数据智能识别方法及系统。
背景技术
随着信息技术的快速发展,互联网的浪潮在推动传统企业的加速转型方面起到了至关重要的作用。随着企业从传统的经营管理模式向网络化、信息化、互联网化转变,企业的业务模式越来越复杂,积累的数据量越来越大,支持分析决策的统计分析也越来越复杂。数据经过大量的转换应用之后,企业如何快速识别所呈现的数据的含义,如何提升数据的准确性,如何对数据保持高度的信任,如何对数据的决策支撑作用保持高度的信任,是企业面临的重要挑战,也是大数据互联网时代,数据分析所面临的重要考验。
在记录追踪数据含义方面,传统的做法是建立统一模型、建立词汇库、建立指标库、建立业务模型的方式,从根源上把握数据的原始含义以及转换后的业务含义,这个方法能够完整的记录数据从产生到使用其含义的变化过程,帮助企业实现数据溯源。但是,这个实现方式需要从企业产品的生产周期最底层就建立一个统一的数据规范,要求生产周期所有的数据都按照统一的规范进行定义,并且整个数据的管理过程贯穿了数据产生、采集、处理、应用等全生命周期,涉及的内容范围非常庞大,导致难以管理,实施成本非常高。因此,急需一种不必要求企业的所有生产系统都按照统一的规范进行定义,也可以实现数据的快速识别的方法和系统。
发明内容
本发明的目的之一是提供一种无需要求企业的所有生产系统的数据都按照统一的规范进行定义,可实现数据的快速识别的数据智能识别方法。
本方案中的数据智能识别方法,包括以下内容:
a、建立数据识别时作为参考的数据规则,并将该规则存储到数据库中;
b、选定数据表或者字段,调取数据库中的数据规则,以调取的数据规则为识别标准,对选定的数据表或者字段按规则一一进行识别匹配,分别得出识别结果;
c、在所有的数据表或者字段与所有的数据规则进行匹配之后,计算这一数据表或者字段所有数据符合数据规则的百分比,确定数据的实际业务含义。
有益效果:采用本方法无需要求企业的所有生产系统的数据都按照统一的规范进行定义,即可实现数据的快速自动智能识别,可大大降低企业数据的管理成本。
进一步,在a中,同时建立数据检查结果表,并将该数据检查结果表存储到数据库中。
进一步,在b中,将各个识别结果存储到数据检查结果表。
建立的数据检查结果表,方便将检查后的数据结果以规范的格式存储到数据检查结果表中,有利于快速确定原始数据的业务含义。
本发明的目的之二是提供一种无需要求企业的所有生产系统的数据都按照统一的规范进行定义,可实现数据的快速识别数据智能识别系统。
数据智能识别系统,包括数据库,还包括数据识别准备模块以及数据识别模块;
所述的数据识别准备模块,用于建立数据识别时作为参考的数据规则;
所述的数据库,用于存储所述数据识别准备模块建立的数据规则;
所述的数据识别模块,以数据识别准备模块中建立的数据规则为识别标准,对选定的数据表或者字段按规则进行一一识别匹配,得出识别结果,在所有的数据表或者字段与所有的数据规则进行匹配之后,将数据识别结果的符合度进行对比,确定数据的实际业务含义。
进一步,所述的数据识别准备模块包括建立数据检查结果表单元,所述的建立数据检查结果表单元用于在数据库中创建数据识别结果表。
进一步,所述的数据识别模块包括提取数据规则单元,所述提取数据规则单元用于提取存储在数据库中的数据规则;
选择数据单元,用于选择待识别的数据表或者字段;
数据规则匹配单元,将通过选择数据单元选择的每一个数据表或者字段,与提取数据规则单元提取的每一个数据规则进行匹配;
检查结果更新单元,用于将数据规则匹配单元的识别结果存入数据识别结果表;
确定数据识别结果单元,用于在所有的数据表或者字段与所有的数据规则进行匹配之后,计算这一数据表或者字段所有数据符合数据规则的百分比,确定数据的实际业务含义。
通过本系统,由于事先建立了数据识别时作为参考的数据规则,在数据识别时,以建立的数据规则为识别标准,对选定的数据表或者字段按规则进行一一识别匹配,得出识别结果,在所有的数据表或者字段与所有的数据规则进行匹配之后,将数据识别结果的符合度进行对比,来确定数据的实际业务含义,因此无需从数据源头上要求企业的所有生产系统的数据都按照统一的规范进行定义,即可实现数据的快速自动智能识别,可大大降低企业的数据管理成本。
附图说明
图1为本发明实施例的示意性框图。
具体实施方式
下面通过具体实施方式对本发明作进一步详细的说明:
如附图1所示,本实施例数据智能识别系统,包括数据库、数据识别准备模,10 以及数据识别模块20;
所述的数据识别准备模块,包括建立数据规则单元,用于建立数据识别时作为参考的数据规则,建立数据检查结果表单元,用于在数据库中创建数据识别结果表;
所述的数据识别模块,以数据识别准备模块中建立的数据规则为识别标准,对选定的数据表或者字段按规则进行一一识别匹配,得出识别结果,在所有的数据表或者字段与所有的数据规则进行匹配之后,将数据识别结果的符合度进行对比,确定数据的实际业务含义;具体包括:提取数据规则单元,所述提取数据规则单元用于提取存储在数据库中的数据规则;选择数据单元,用于选择待识别的数据表或者字段;数据规则匹配单元,将通过选择数据单元选择的每一个数据表或者字段,与提取数据规则单元提取的每一个数据规则进行匹配;检查结果更新单元,用于将数据规则匹配单元的识别结果存入数据识别结果表;确定数据识别结果单元,用于在所有的数据表或者字段与所有的数据规则进行匹配之后,计算这一数据表或者字段所有数据符合数据规则的百分比,确定数据的实际业务含义。
所述的数据库,用于存储所述数据识别准备模块建立的数据规则、数据识别结果表以及最终识别出的数据实际业务含义。
本实施例基于上述系统的数据智能识别方法,包括以下内容:
a、建立数据识别时作为参考的数据规则,并将该规则存储到数据库中,同时建立数据检查结果表,并将该数据检查结果表存储到数据库中;
b、选定数据表或者字段,调取数据库中的数据规则,以调取的数据规则为识别标准,对选定的数据表或者字段按规则一一进行识别匹配,分别得出识别结果,将各个识别结果存储到数据检查结果表;
c、在所有的数据表或者字段与所有的数据规则进行匹配之后,计算这一数据表或者字段所有数据符合数据规则的百分比,确定数据的实际业务含义。
下面进一步通过具体的实例阐述本发明的数据智能识别系统和方法。
本实例以数据表为例,待识别的数据表如表4所示,根据表中字段名称不能明确字段的实际业务含义,数据规则表如表2所示,建立的数据检查结果表如表 3所示,本实例的目的在于利用已有的表2的数据规则表检查表4的数据表,确定每个字段的实际含义,最终生成如表5的数据检查结果表。
S1:通过建立数据规则单元11,根据固有的数据格式,总结所有的有规律的数据规则,将规则名称、数据规则、数据含义和最低符合度要求等存放到数据库的数据规则表Data_Rule中,如表2所示:
表2:Table:Data_Rule
目前数据规则包含身份证号和手机号码。
身份证号的规则名称为ID_Card_NBR,长度为18个字符,第7到10位的四个字符代表年份,对于当前的日期来说年份值应该介于1900到2017之间;第 11到12位代表月份,值应该介于1到12之间;第13到14位代表日,值应该介于1到31之间。待检查的数据如果80%以上都符合上述规则,则可以认为该字段为身份证号。
手机号码的规则名称为Phone_NBR,长度为11位,第一位的值应该为1,第二位的值应该为3、5、8之中的一个。待检查的数据如果90%以上都符合上述规则,则可以认为该字段为手机号码。
数据规则表由用户进行维护,定期或不定期更新表内的规则。
S2:通过建立数据检查结果表单元12创建数据检查结果表Data_Result,如表3所示:
表:3:建立数据检查结果表TABLE:Data_Result
Id | 表 | 字段 | 检查规则 | 符合度 | 是否规则字段 |
包含字段Id、表、字段、检查规则、符合度、是否规则字段等,表是指检查的数据表,字段是指数据表中检查的字段,检查规则是指用到的数据规则表中的规则名称,符合度是指对当前字段所有的数据满足检查规则的百分比,是否规则字段是指当前字段是否就是检查标准中的规则名称。
S3:用户通过选择数据单元21选择待识别数据的数据表,本实例中待识别的数据为Cust表,如表4所示:
表4:TABLE:Cust
Id | Col1 | Col2 | Col3 | Col4 | Col5 |
01 | Jack | 30 | 13411231332 | 510302199812010100 | 天河区 |
02 | Jane | 19 | 18620230158 | 510302199509134832 | 越秀区 |
03 | Tom | 19 | 18620230159 | 510302198408145721 | 海珠区 |
04 | Lee | 19 | 12345678910 | 510302198007185009 | 南沙区 |
05 | Lin | 19 | 18620230132 | 510302198106192874 | 黄浦区 |
06 | Wong | 19 | 18620230198 | 510302199004079372 | 荔湾区 |
07 | Kong | 19 | 15858817463 | 510302199203038742 | 天河区 |
08 | Red | 19 | 15858817221 | 510302199702096205 | 越秀区 |
09 | Andy | 19 | 13720230158 | 510302201805277623 | 白云区 |
10 | Lewis | 19 | 13401760158 | 510302200108246682 | 越秀区 |
S4:通过提取数据规则单元22从数据库中把数据规则表Data_Rule提取出来。
S5:通过数据规则匹配检查单元23对Cust表中的每个字段利用Data_Rule 中的每个规则进行匹配。
S5.1:对于Cust表中的字段Col1进行数据识别。
S5.1.1:提取Data_Rule中的第一个规则ID_Card_NBR,利用规则“Length (字段)=18&substr(字段,7,10)介于1900~2017&substr(字段,11,12)介于 1~12&substr(字段,13,14)介于1~31”去匹配Cust中Col1的所有数据,10条数据均不符合规则要求,即符合度为0%,Col1不是身份证号字段。
S5.1.2:提取Data_Rule中的第二个规则Phone_NBR,利用规则“Length(字段)=11&substr(字段,1,1)=’1’&substr(字段,2,1)in(3,5,8)”去匹配Cust中Col1的所有数据,10条数据均不符合规则要求,即符合度为0%,Col1不是手机号码字段。
S5.1.3:对于Col1所有的数据规则均已匹配完成。
S5.2:对于Cust表中的字段Col2进行数据识别,结果同S5.1,即Col2不是身份证号字段,也不是手机号码字段。
S5.3:对于Cust表中的字段Col3进行数据识别。
S5.3.1:提取Data_Rule中的第一个规则ID_Card_NBR,利用规则“Length (字段)=18&substr(字段,7,10)介于1900~2017&substr(字段,11,12)介于 1~12&substr(字段,13,14)介于1~31”去匹配Cust中Col3的所有数据,其10条数据均不符合规则要求,即符合度为0%,Col3不是身份证号字段。
S5.3.2:提取Data_Rule中的第一个规则Phone_NBR,利用规则“Length(字段)=11&substr(字段,1,1)=’1’&substr(字段,2,1)in(3,5,8)”去匹配Cust中Col3的所有数据,其中Id为04的数据“12345678910”不符合规则要求,即符合度为 90%,在Data_Rule中Phone_NBR的最低符合度要求为90%,当前字段数据的符合度为90%,则Col3是手机号码字段。
S5.3.3:对于Col3所有的数据规则均已匹配完成。
S5.4:对于Cust表中的字段Col4进行数据识别。
S5.4.1:提取Data_Rule中的第一个规则ID_Card_NBR,利用规则“Length(字段)=18&substr(字段,7,10)介于1900~2017&substr(字段,11,12)介于1~12&substr(字段,13,14)介于1~31”去匹配Cust中Col4的所有数据,其中Id为09的数据“510302201805277623”不符合规则要求,即符合度为90%,在Data_Rule中 ID_Card_NBR的最低符合度要求为80%,当前字段数据的符合度为90%,则Col4 是身份证号字段。
S5.4.2:提取Data_Rule中的第一个规则Phone_NBR,利用规则“Length(字段)=11&substr(字段,1,1)=’1’&substr(字段,2,1)in(3,5,8)”去匹配Cust中Col3的所有数据,其10条数据均不符合规则要求,即符合度为0%,则Col4不是手机号码字段。
S5.4.3:对于Col4所有的数据规则均已匹配完成。
S5.5:对于Cust表中的字段Col5进行数据识别,结果同S5.2,即Col5不是身份证号字段,也不是手机号码字段。
S6:通过检查结果更新单元24将S5步骤所有的检查结果,包括表、字段、检查规则、符合度,写入数据检查结果表Data_Result中,更新后的结果表如表 5所示:
表5:更新数据后的检擦结果表:Data_Result
Id | 表 | 字段 | 检查规则 | 符合度 | 是否规则字段 |
01 | Cust | Col1 | ID_Card_NBR | 0% | N |
02 | Cust | Col1 | Phone_NBR | 0% | N |
03 | Cust | Col2 | ID_Card_NBR | 0% | N |
04 | Cust | Col2 | Phone_NBR | 0% | N |
05 | Cust | Col3 | ID_Card_NBR | 0% | N |
06 | Cust | Col3 | Phone_NBR | 90% | Y |
07 | Cust | Col4 | ID_Card_NBR | 90% | Y |
08 | Cust | Col4 | Phone_NBR | 0% | N |
09 | Cust | Col5 | ID_Card_NBR | 0% | N |
10 | Cust | Col5 | Phone_NBR | 0% | N |
S7:通过确定数据识别结果单元对数据检查结果表的数据进行整理识别,确定每个字段最终的业务含义,如果一个字段对应多个符合度满足要求的检查规则,则需要人工干预,确定一个规则,将结果写入Data_Result表的“是否规则字段”列中,数据的实际业务含义以“是否规则字段列”中“Y”为准。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (6)
1.数据智能识别方法,其特征在于,包括以下内容:
a、建立数据识别时作为参考的数据规则,并将该规则存储到数据库中;
b、选定数据表或者字段,调取数据库中的数据规则,以调取的数据规则为识别标准,对选定的数据表或者字段按规则一一进行识别匹配,分别得出识别结果;
c、在所有的数据表或者字段与所有的数据规则进行匹配之后,计算这一数据表或者字段所有数据符合数据规则的百分比,确定数据的实际业务含义。
2.根据权利要求1所述的数据智能识别方法,其特征在于:在a中,同时建立数据检查结果表,并将该数据检查结果表存储到数据库中。
3.根据权利要求2所述的数据智能识别方法,其特征在于:在b中,将各个识别结果存储到数据检查结果表。
4.数据智能识别系统,包括数据库,其特征在于:还包括数据识别准备模块以及数据识别模块;
所述的数据识别准备模块,用于建立数据识别时作为参考的数据规则;
所述的数据库,用于存储所述数据识别准备模块建立的数据规则;
所述的数据识别模块,以数据识别准备模块中建立的数据规则为识别标准,对选定的数据表或者字段按规则进行一一识别匹配,得出识别结果,在所有的数据表或者字段与所有的数据规则进行匹配之后,将数据识别结果的符合度进行对比,确定数据的实际业务含义。
5.根据权利要求6所述的数据智能识别系统,其特征在于:所述的数据识别准备模块包括建立数据检查结果表单元,所述的建立数据检查结果表单元用于在数据库中创建数据识别结果表。
6.根据权利要求7所述的数据智能识别系统,其特征在于:所述的数据识别模块包括提取数据规则单元,所述提取数据规则单元用于提取存储在数据库中的数据规则;
选择数据单元,用于选择待识别的数据表或者字段;
数据规则匹配单元,将通过选择数据单元选择的每一个数据表或者字段,与提取数据规则单元提取的每一个数据规则进行匹配;
检查结果更新单元,用于将数据规则匹配单元的识别结果存入数据识别结果表;
确定数据识别结果单元,用于在所有的数据表或者字段与所有的数据规则进行匹配之后,计算这一数据表或者字段所有数据符合数据规则的百分比,确定数据的实际业务含义。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2017103624087 | 2017-05-19 | ||
CN201710362408 | 2017-05-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107861965A true CN107861965A (zh) | 2018-03-30 |
Family
ID=61699288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710678130.4A Pending CN107861965A (zh) | 2017-05-19 | 2017-08-09 | 数据智能识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107861965A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408511A (zh) * | 2018-10-22 | 2019-03-01 | 武汉达梦数据库有限公司 | 一种数据库中数据表字段含义分析方法 |
CN110489478A (zh) * | 2019-08-27 | 2019-11-22 | 恩亿科(北京)数据科技有限公司 | 一种数据扫描的方法及装置 |
CN111008253A (zh) * | 2018-10-08 | 2020-04-14 | 阿里巴巴集团控股有限公司 | 数据模型生成方法和数据仓库生成方法、装置及电子设备 |
CN112597128A (zh) * | 2020-12-17 | 2021-04-02 | 广东南方通信建设有限公司 | 一种数据迁移方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102103594A (zh) * | 2009-12-22 | 2011-06-22 | 北京大学 | 字符数据识别及处理的方法和装置 |
CN103699693A (zh) * | 2014-01-10 | 2014-04-02 | 中国南方电网有限责任公司 | 一种基于元数据的数据质量管理方法及系统 |
CN103838826A (zh) * | 2014-01-23 | 2014-06-04 | 北京东方泰坦科技股份有限公司 | 动态异构空间信息标绘数据整合方法 |
US20150092213A1 (en) * | 2013-09-30 | 2015-04-02 | Oki Data Corporation | Data processing device, image forming device, and data processing method |
CN104731976A (zh) * | 2015-04-14 | 2015-06-24 | 海量云图(北京)数据技术有限公司 | 数据表中隐私数据的发现与分类方法 |
CN105825138A (zh) * | 2015-01-04 | 2016-08-03 | 北京神州泰岳软件股份有限公司 | 一种敏感数据识别的方法和装置 |
-
2017
- 2017-08-09 CN CN201710678130.4A patent/CN107861965A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102103594A (zh) * | 2009-12-22 | 2011-06-22 | 北京大学 | 字符数据识别及处理的方法和装置 |
US20150092213A1 (en) * | 2013-09-30 | 2015-04-02 | Oki Data Corporation | Data processing device, image forming device, and data processing method |
CN103699693A (zh) * | 2014-01-10 | 2014-04-02 | 中国南方电网有限责任公司 | 一种基于元数据的数据质量管理方法及系统 |
CN103838826A (zh) * | 2014-01-23 | 2014-06-04 | 北京东方泰坦科技股份有限公司 | 动态异构空间信息标绘数据整合方法 |
CN105825138A (zh) * | 2015-01-04 | 2016-08-03 | 北京神州泰岳软件股份有限公司 | 一种敏感数据识别的方法和装置 |
CN104731976A (zh) * | 2015-04-14 | 2015-06-24 | 海量云图(北京)数据技术有限公司 | 数据表中隐私数据的发现与分类方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008253A (zh) * | 2018-10-08 | 2020-04-14 | 阿里巴巴集团控股有限公司 | 数据模型生成方法和数据仓库生成方法、装置及电子设备 |
CN111008253B (zh) * | 2018-10-08 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 数据模型生成方法和数据仓库生成方法、装置及电子设备 |
CN109408511A (zh) * | 2018-10-22 | 2019-03-01 | 武汉达梦数据库有限公司 | 一种数据库中数据表字段含义分析方法 |
CN109408511B (zh) * | 2018-10-22 | 2021-02-02 | 武汉达梦数据库股份有限公司 | 一种数据库中数据表字段含义分析方法 |
CN110489478A (zh) * | 2019-08-27 | 2019-11-22 | 恩亿科(北京)数据科技有限公司 | 一种数据扫描的方法及装置 |
CN112597128A (zh) * | 2020-12-17 | 2021-04-02 | 广东南方通信建设有限公司 | 一种数据迁移方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107861965A (zh) | 数据智能识别方法及系统 | |
JP5306359B2 (ja) | 複数言語によるデータ記録を関連付ける方法およびシステム | |
CN103902653B (zh) | 一种构建数据仓库表血缘关系图的方法和装置 | |
CN103530334B (zh) | 基于比较模板的数据匹配系统和方法 | |
EP2045731A1 (en) | Automatic generation of ontologies using word affinities | |
IL166472A (en) | Database operating system and knowledge | |
CN105184482B (zh) | 一种变压器台账数据校验系统及其方法 | |
CN104021123A (zh) | 用于数据迁移的方法和系统 | |
CN107391652A (zh) | 一种模板化报表接口定义系统及方法 | |
CN107633060A (zh) | 一种信息处理方法及电子设备 | |
CN109902142B (zh) | 一种基于编辑距离的字符串模糊匹配和查询方法 | |
CN107436955A (zh) | 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置 | |
CN106294128B (zh) | 一种导出报表数据的自动化测试方法及装置 | |
CN115391439B (zh) | 文档数据导出方法、装置、电子设备和存储介质 | |
CN108228787B (zh) | 按照多级类目处理信息的方法和装置 | |
CN112328735A (zh) | 热点话题确定方法、装置及终端设备 | |
CN103929499B (zh) | 一种物联网异构标识识别方法和系统 | |
CN104408128B (zh) | 一种基于b+树异步更新索引的读优化方法 | |
CN106980679A (zh) | 一种信息系统国产数据库迁移改造方法及装置 | |
CN112486989B (zh) | 一种多源数据颗粒化融合及指标分类分层处理方法 | |
CN105335459A (zh) | 基于xbrl智能报告平台的合并报表数据抽取方法 | |
CN112148735A (zh) | 一种用于结构化表格数据知识图谱的构建方法 | |
CN107273443A (zh) | 一种基于大数据模型元数据的混合索引方法 | |
CN108170733A (zh) | 一种对短信文本进行分类的方法及系统 | |
CN111402205B (zh) | 一种基于多层感知机的乳腺肿瘤数据清洗方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180330 |
|
RJ01 | Rejection of invention patent application after publication |