CN113849607A - 数据标准化的方法以及标准化模型的生成方法及装置 - Google Patents
数据标准化的方法以及标准化模型的生成方法及装置 Download PDFInfo
- Publication number
- CN113849607A CN113849607A CN202111196678.8A CN202111196678A CN113849607A CN 113849607 A CN113849607 A CN 113849607A CN 202111196678 A CN202111196678 A CN 202111196678A CN 113849607 A CN113849607 A CN 113849607A
- Authority
- CN
- China
- Prior art keywords
- standard
- standardized
- word
- expression
- chinese name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据标准化的方法,包括:获取待标准化对象的中文名称,在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语;所述标准知识库中包括标准单词库、标准域库和标准用语库;若在标准知识库中搜索到与所述中文名称相关的标准用语,则获取所述标准用语对应的标准数据信息;利用所述标准数据信息对所述标准化对象进行修正。这样将标准化的方法落地,实现了对数据进行自动标准化处理的过程,提升了数据处理的效率,解决了现有技术中人工操作导致的工作量大、效率低的问题。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种数据标准化的方法以及标准化模型的生成方法及装置。
背景技术
在大数据时代,数据的价值得到了人们的广泛的认同,数据正在成为数字经济时代最重要的战略性资产,科学的数据管理可以把数据变成生产要素。但是,目前数据存在质量低下、数据缺乏标准无法共享等问题,这样就无法发挥数据应有的价值。
为了解决上述问题,有人提出了一些数据标准,但是这些数据标准仅供参考和查询,无法落地实施,而且需要人工进行标准的核对,工作量大、效率低,而且面临巨大的数据量,人工操作是无法真正的实现数据的标准化的。
发明内容
有鉴于此,本发明实施例公开了一种数据标准化的方法,实现了对数据进行自动标准化处理的过程,提升了数据处理的效率,解决了现有技术中人工操作导致的工作量大、效率低的问题。
本发明实施例公开了一种数据标准化的方法,包括:
获取待标准化对象的中文名称;
在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语;所述标准知识库中包括标准单词库、标准域库和标准用语库;
若在标准知识库中搜索到与所述中文名称相关的标准用语,则获取所述标准用语对应的标准数据信息;
利用所述标准数据信息对所述标准化对象进行修正。
可选的,所述在预设的标准知识库中搜索与所述标准化对象的中文名称相关的标准用语,包括:
使用所述待标准化对象的中文名称在所述标准知识库中进行搜索;
若搜索到与所述中文名称一致的用语,将搜索到的与所述中文名称一致的用语作为与所述中文名称相关的标准化用语。
可选的,所述在预设的标准知识库中搜索与所述标准化对象的中文名称相关的标准用语,包括:
在预设的标准知识库中搜索所述中文名称的别名;
若搜索到所述中文名称的别名,则将搜索到的所述中文名称的别名作为与所述中文名称相关的标准化用语。
可选的,所述在预设的标准知识库中搜索与所述标准化对象的中文名称相关的标准用语,包括:
对所述中文名称进行分词处理,得到单词列表;
若所述单词列表中的单词均包含在预设的标准知识库或者非标准知识库中,将所有单词列表中的单词按照不同顺序进行组合,得到至少一个组合用语;
利用所述组合用语在所述标准知识库中进行搜索;
若在所述标准知识库中搜索到任何一个组合用语,将搜索到的组合用语作为所述中文名称的标准化用语。
可选的,在将所有单词列表中的单词按照不同顺序进行组合之前,还包括:
针对所述单词列表中的任何一个目标单词,若所述目标单词在所述非标准单词库中,获取所述目标单词对应的标准单词;
采用标准单词替换所述单词列表中的目标单词。
可选的,所述在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语,包括:
对所述中文名称进行分词处理,得到单词列表;
在所述单词列表中去除未包含在预设的标准单词库和非标准单词库中的单词;
将单词列表中的单词进行组合,得到组合用语;
利用组合用语以及所述单词列表中的单词,在所述标准知识库中进行模糊匹配;
确定单词和组合用语的权重,基于组合用语的权重和单词的权重对模糊匹配的结果进行评分;
将评分最高的作为所述中文名称的标准化用语。
可选的,所述在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语,包括:
对所述中文名称进行分词处理,得到单词列表;
在所述单词列表中去除未包含在预设的标准单词库和非标准单词库中的单词;
将单词列表中的单词进行组合,得到组合用语;
确定组合用语和所述单词列表中每个单词的优先级;
按照所述组合用语和所述单词列表中每个单词的优先级,在所述标准知识库中进行模糊匹配;
若模糊匹配结果的数量大于预设的阈值,则停止匹配;
确定单词和组合用语的权重,基于组合用语的权重和单词的权重对模糊匹配的结果进行评分;
将评分最高的作为所述中文名称的标准化用语。
本发明实施例公开了一种标准化模型的生成方法,其特征在于,包括:
获取待标准化的对象;
将所述待标准化的对象采用上述所述的数据标准化的方法进行数据标准化,得到标准化数据;
通过标准化数据生成用于查询的标准化模型。
可选的,还包括:
对标准化后的模型进行质量检测,生成质量检测报告。
本发明实施例提供了一种数据标准化的装置,包括:
第一获取单元,用于获取待标准化对象的中文名称;
搜索单元,用于在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语;所述标准知识库中包括标准单词库、标准域库和标准用语库;
获取单元,用于若在标准知识库中搜索到与所述中文名称相关的标准用语,则获取所述标准用语对应的标准数据信息;
修正单元,用于利用所述标准数据信息对所述标准化对象进行修正。
本发明实施例公开了一种标准化模型的生成装置,包括:
第二获取单元,用于获取待标准化的对象;
数据标准化单元,用于将所述待标准化的对象上述所述的方法进行数据标准化,得到标准化数据;
模型生成单元,用于通过标准化数据生成用于查询的标准化模型。
本发明实施例公开了一种数据标准化的方法,包括:获取待标准化对象的中文名称,在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语;所述标准知识库中包括标准单词库、标准域库和标准用语库;若在标准知识库中搜索到与所述中文名称相关的标准用语,则获取所述标准用语对应的标准数据信息;利用所述标准数据信息对所述标准化对象进行修正。这样将标准化的方法落地,实现了对数据进行自动标准化处理的过程,提升了数据处理的效率,解决了现有技术中人工操作导致的工作量大、效率低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明实施例提供的一种数据标准化的方法的流程示意图;
图2示出了本发明实施例提供的一种在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语的流程示意图;
图3示出了本发明实施例提供的一种在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语的又一流程示意图;
图4示出了本发明实施例提供的一种在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语的另一流程示意图;
图5示出了本发明实施例提供的一种在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语的又一流程示意图;
图6示出了本发明实施例提供的一种在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语的又一流程示意图;
图7示出了本发明实施例提供的一种数据标准化的方法的又一流程示意图;
图8示出了本发明实施例提供的一种数据标准化的方法的另一流程示意图;
图9示出了一中标准化模型的生成方法的流程示意图;
图10示出了本发明实施例提供的一种数据标准化装置的结构示意图;
图11示出了本发明实施例提供的一种标准化模型的生成装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,示出了本发明实施例提供的一种数据标准化的方法的流程示意图,在本实施例中,该方法包括:
S101:获取待标准化对象的中文名称;
S102:在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语;所述标准知识库中包括标准单词库、标准域库和标准用语库;
本实施例中,预设的标准知识库中包括标准单词库、标准域库和标准用语库;其中,标准单词库提供了统一命名规范,包括:中文命名、英文命名和英文缩写命名;标准域库提供了统一数据格式,包含数据类型、长度、精度和代码。标准用语库提供了将命名和数据格式的规范应用在各种标准落地和应用场景中。
对于标准知识库的获取,标准单词库提取自行业内规范文档、企业内业务术语文档和各类系统设计文档等,将业务术语拆分成单词,从而保障单词级别命名规范的统一。
标准域库提取自行业内和企业内的规范文档,以及现有系统中已使用的数据格式,从业务角度和技术角度对数据的格式进行提炼,作为后续构建标准用语的前提和输入条件。标准域的命名需要依赖于标准单词,由一个或者一个以上的标准单词构成。
标准用语优先从各类规范文档中提取,同时也伴随着系统建设的过程,根据需求进行新增。标准用语由一个或一个以上的标准单词和一个标准域构成,使用标准单词的中文名称、英文名称和英文缩写组合生成对应的命名,并且关联标准域,继承使用标准域对数据格式进行定义。
其中,S102的方法包括很多种,例如可以包括如下的几种实施方式:
实施方式一、
使用待标准化对象的中文名称在标准知识库中进行搜索;
具体的实现方式会在下文中进行详细的介绍,本实施例中不进行限定。
实施方式二、
搜索待标准化对象的中文名称的别名;
具体的实现方式会在下文中进行详细的介绍,本实施例中不进行限定。
实施方式三、
对待标准化对象的中文名称进行分词处理,并对分词后得到的单词进行组合,生成组合用语,通过组合用语在标准知识库中进行搜素;
具体的实现方式会在下文中进行详细的介绍,本实施例中不进行限定。
实施方式四、
对待标准化对象的中文名称进行分词处理,并对分词后得到的单词进行组合,生成组合用语,通过组合用语以及分词后的各个单词在标准知识库中进行模糊匹配。
具体的实现方式会在下文中进行详细的介绍,本实施例中不进行限定。
实施方式五、
将实施方式一、实施方式二、实施方式三和实施方式四进行组合,从而实现S102的步骤。
具体的实现方式会在下文中进行详细的介绍,本实施例中不进行限定。
S103:若在标准知识库中搜索到与所述中文名称相关的标准用语,则获取所述标准用语对应的标准数据信息;
本实施例中,标准数据信息是标准知识库中设置的规范标准,例如包括:中文名称、英文名称、英文缩写以及域。
S104:利用所述标准数据信息对所述待标准化对象进行修正。
本实施例中,采用标准数据信息对待标准化对象进行修正的方式包括:替换和补充。
其中,对于替换的方式,包括全部替换和部分替换:
1)可以将获取到的标准数据信息完全替换待标准化对象之前的信息。
举例说明:在标准知识数据库中搜索到电子邮件,标准数据信息包括:该电子邮件的中文名称、英文名称、英文缩写以及域,采用标准数据信息替换该标准化对象。
2)若待标准化对象中有一些信息与标准化知识库中的信息一致时,只需要对不一致的信息进行替换。
举例说明:在标准知识数据库中搜索到电子邮件,获取到的标准数据信息包括:该电子邮件的中文名称、英文名称、英文缩写以及域,并且标准化知识库中电子邮件的中文名称就是“电子邮件”,那么标准数据信息中的英文名称、英文缩写以及域替换待标准化对象之前的信息。
其中,对于补充的方式:
若待标准化对象中只包括部分标准的数据信息,且包含的部分信息与标准知识库中的信息一致,那么只需要待标准化对象不包含的标准数据信息补充到待标准化对象中。
本实施例中,对待标准化对象进行标准化时,在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语;所述标准知识库中包括标准单词库、标准域库和标准用语库;若在标准知识库中搜索到与所述中文名称相关的标准用语,则获取所述标准用语对应的标准数据信息;利用所述标准数据信息对所述标准化对象进行修正。这样将标准化的方法落地,实现了对数据进行自动标准化处理的过程,提升了数据处理的效率,解决了现有技术中人工操作导致的工作量大、效率低的问题。
参考图2,示出了本发明实施例提供的一种在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语的流程示意图,在本实施例中,该方法包括:
S201:使用所述待标准化对象的中文名称在所述标准知识库中进行搜索;
本实施例中,使用待标准对象的中文名称,在标准知识库中进行完整的关键词搜索。
举例说明:假设待标准化对象的中文名称为“电子邮件”,则使用“电子邮件”在标准知识库中进行搜索。
S202:若搜索到与所述中文名称一致的用语,将搜索到的用语作为与所述中文名称相关的标准化用语。
本实施例中,若搜索到与所述中文名称一致的用语,将搜索到的用语作为与所述中文名称相关的标准化用语;若未能搜索到与中文名称一致的用语,则可以采用其它的方式再次进行搜索,其它的方法如下文所示。
本实施例中,以待标准对象的中文名称为完整的关键词,在标准知识库中进行搜索,采用该种方式,若能在标准知识库中搜索到该中文名称,则能准确无误的找到该待标准对象的标准数据信息。
参考图3,示出了本发明实施例提供的一种在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语的又一流程示意图,在本实施例中,该方法包括:
S301:在预设的标准知识库中搜索所述中文名称的别名;
本实施例中,待标准化对象的可能存在多种称谓(或者说存在多个名称),例如,对于一个外来词,可能有多种翻译,那么就会存在有多种中文名称的情况。待标准化对象的中文名称可能是多种名称中的一个,并且不是标准的名称,在该种情况下,则认为该中文名称存在其它别名。
因此,若直接采用待标准化对象的中文名称在标准知识库中搜索,无法搜索到结果。为了解决该问题,设置了别名搜索机制,即可以预先在标准知识库中搜索该中文名称的别名。
S302:若搜索到所述中文名称的别名,则将搜索到的所述中文名称的别名作为所述中文名称相对应的标准化用语。
本实施例中,若搜索到中文名称的别名,则表示该别名为标准知识库中设定的标准用语,则将搜索到的别名作为所述中文名称相对应的标准化用语。
举例说明:若待标准对象的中文名称为“电子邮件”,在标准知识库中搜索“电子邮件”的别名,搜索到“电子邮件”的别名为Email,则Email为与“电子邮件”相关的标准化用语。
本实施例中,通过别名搜索的方式搜索待标准化对象,并在得到中文名称的别名后,利用别名对应的标准数据信息对标准化对象进行修正。这样即使一个对象有多个称谓,也可以通过任何一个称谓搜索到标准的用语。
参考图4,示出了本发明实施例提供的一种在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语的另一流程示意图,在本实施例中,该方法包括:
S401:对所述中文名称进行分词处理,得到单词列表;
本实施例中,分词处理的方法有很多,本实施例中不进行限定,得到的单词列表中的单词为可以构成所述中文名称的单词。
本实施例中,标准单词库中提供了统一的命名规范,非标准单词库中包括某些标准单词的一些别名或者其它称谓。
其中,若分词后得到的所有单词均包含在预设的标准知识库或者非标准知识库中,则表示分词成功。
举例说明:假设待标准化的对象的中文名称为“职工入职编号”,分词后得到的单词列表中包括:“职工”、“入职”、“编号”。其中“职工”存在于非标准单词库中,“入职”和“编号”存在于标准单词库中,则认为分词成功。
进一步的,为了提升搜索的准确率,若单词列表中存在某个单词为非标准单词库中的,则可以找到该单词对应的标准单词,进而采用标准单词替换该非标准单词,具体的,还包括:
针对所述单词列表中的任何一个目标单词,若所述目标单词在所述非标准单词库中,获取所述目标单词对应的标准单词;
采用标准单词替换所述单词列表中的目标单词。
举例说明:假设待标准化的对象的中文名称为“职工入职编号”,分词后得到的单词列表中包括:“职工”、“入职”、“编号”。其中“职工”存在于非标准单词库中,“入职”和“编号”存在于标准单词库中。“职工”对应的标准单词为“员工”,可以将“员工”替换掉单词列表中的“职工”,这样得到的单词列表中包括:“员工”、“入职”、“编号”。
S402:若所述单词列表中的单词均包含在预设的标准知识库或者非标准知识库中,将所有单词列表中的单词按照不同顺序进行组合,得到至少一个组合用语;
S403:利用所述组合用语在所述标准知识库中进行搜索;
本实施例中,可以利用组合用语作为完整关键词在标准知识库中进行搜索。
S404:若在所述标准知识库中搜索到组合用语,将搜索到的组合用语作为所述中文名称的标准化用语。
举例说明:假设分词后的结果为“员工”、“入职”、“编号”,组合后的用语可以包括:员工入职编号、员工编号入职、入职员工编号、入职编号员工、编号入职员工、编号员工入职等。将所有的组合用语作为完成关键词在标准知识库中进行搜索,若搜索到入职员工编号,则获取入职员工编号对应的标准数据信息,并利用该标准数据信息对标准化对象进行修正。
本实施例中,对待标准化对象的中文名称进行分词处理,将分词得到的单词进行重新组合,并利用组合后的用语在标准知识库中进行搜索。这样提高了搜索的成功率。
参考图5,示出了本发明实施例提供的一种在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语的又一流程示意图,在本实施例中,该方法包括:
S501:对所述中文名称进行分词处理,得到单词列表;
本实施例中,分词处理的方法有很多,本实施例中不进行限定,得到的单词列表中的单词为可以构成所述中文名称的单词。
S502:在所述单词列表中去除未包含在预设的标准单词库和非标准单词库中的单词;
本实施例中,对分词后的单词进行检测,检测分词后的单词中是否存在未包含在预设的标准单词库和非标准单词库中的情况,若存在,则在单词列表去除该单词。
举例说明:假设待标准化对象为“证券代码信息”,分词处理后,得到的单词列表中包括:“证券”、“代码”、“信息”三个单词。其中“证券”和“代码”存在于标准知识库中,“信息”未存在于标准知识库和非标准知识库中,则在单词列表中去除单词“信息”,那么修改后的单词列表包括:“证券”和“代码”两个单词。
S503:将单词列表中的单词进行组合,得到组合用语;
S504:利用组合用语以及所述单词列表中的单词,在所述标准知识库中进行模糊匹配;
本实施例中,模糊匹配以标准单词为最小完整匹配单位,即模糊匹配时,将单词列表中的单词作为最小完整匹配单位进行匹配,除此之外,还可以将组合用语作为完整匹配单位进行匹配。
举例说明:假设单词列表包括:“证券”和“代码”,将二者组合后得到的组合用语包括:“证券代码”和“代码证券”,采用“证券”、“代码”、“证券代码”和“代码证券”进行模糊匹配。若匹配到“上市证券代码”则组合用语匹配成功,若匹配到“上市证券唯一代码”则组合用语匹配失败,但是单词匹配成功。
S505:确定单词和组合用语的权重,基于组合用语的权重和单词的权重对模糊匹配的结果进行评分;
本实施例中,预先设置单词和组合用语权重的设置规则,并给予该权重的设置规则,确定单词和组合用语的权重。
其中,单词和组合用语权重的设置规则可以为:组合用语的权重大于单词的权重,不同的组合用语按照待标准化对象的中文名称中单词的顺序对组合用语的权重进行设置,其中,顺序的组合用语的权重大于逆序的组合用语的权重。
举例说明:假设单词列表包括:“证券”和“代码”,将二者组合后得到的组合用语包括:“证券代码”和“代码证券”;“证券代码”和“代码证券”的权重大于“证券”和“代码”的权重,“证券代码”的权重大于“代码证券”的权重。
S506:将评分最高的作为所述中文名称的标准化用语。
本实施例中,将评分最高的作为待标准化的中文名称的标准化用语。
本实施例中,对分词后的单词和组合用语在标准知识库中进行模糊匹配,这样大大提升了匹配的成功率,即使标准知识库中不存在该中文名称的情况下,也可以找到与该中文名称相关的标准化用语。
参考图6,示出了本发明实施例提供的一种在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语的又一流程示意图,在本实施例中,该方法包括:
S601:对所述中文名称进行分词处理,得到单词列表;
本实施例中,分词处理的方法有很多,本实施例中不进行限定,得到的单词列表中的单词为可以构成所述中文名称的单词。
S602:在所述单词列表中去除未包含在预设的标准单词库和非标准单词库中的单词;
本实施例中,该步骤S602与上述S502一致,本实施例中不在赘述。
S603:将单词列表中的单词进行组合,得到组合用语;
举例说明:假设单词列表包括:“证券”和“代码”,将二者组合后得到的组合用语包括:“证券代码”和“代码证券”。
S604:确定组合用语和所述单词列表中每个单词的优先级;
本实施例中,预先设置了搜索优先级规则,并按照预先设置的搜索优先级规则确定组合用语和单词的优先级。
其中,搜索优先级规则可以包括:组合用语的优先级大于单词的优先级,组合用语中顺序的优先级大于逆序的优先级。
S605:按照所述组合用语和所述单词列表中每个单词的优先级,在所述标准知识库中进行模糊匹配;
S606:若模糊匹配结果的数量大于预设的阈值,则停止匹配;
本实施例中,按照设置的优先级在标准知识库中进行搜索,并对输出的匹配结果进行统计,若输出的匹配结果的数量大于预设的阈值,则停着匹配搜索。
S607:确定单词和组合用语的权重,基于组合用语的权重和单词的权重对模糊匹配的结果进行评分;
本实施例中,预先设置单词和组合用语权重的设置规则,并给予该权重的设置规则,确定单词和组合用语的权重。
其中,单词和组合用语权重的设置规则可以为:组合用语的权重大于单词的权重,不同的组合用语按照待标准化对象的中文名称中单词的顺序对组合用语的权重进行设置,其中,顺序的组合用语的权重大于逆序的组合用语的权重。
举例说明:假设单词列表包括:“证券”和“代码”,将二者组合后得到的组合用语包括:“证券代码”和“代码证券”;“证券代码”和“代码证券”的权重大于“证券”和“代码”的权重,“证券代码”的权重大于“代码证券”的权重。
S608:将评分最高的作为所述中文名称的标准化用语。
本实施例中,对输出的匹配结果根据置单词和组合用语的权重进行评分,将评分最高的匹配结果作为待标准化对象的中文名称。
本实施例中,对分词后的单词和组合用语在标准知识库中进行模糊匹配,这样大大提升了匹配的成功率,即使标准知识库中不存在该中文名称的情况下,也可以找到与该中文名称相关的标准化用语。并且,采用设置了搜索优先级,提升了搜索效率。
参考图7,示出了本发明实施例提供的一种数据标准化的方法的又一流程示意图,在本实施例中,该方法包括:
S701:获取待标准化对象的中文名称;
S702:使用所述待标准化对象的中文名称在所述标准知识库中进行搜索;
S703:若搜索到与所述中文名称一致的用语,将搜索到的用语作为与所述中文名称相关的标准化用语;
S704:若未搜索到与所述中文名称一致的用语,在预设的标准知识库中搜索所述中文名称的别名;
S705:若搜索到所述中文名称的别名,则将搜索到的所述中文名称的别名作为与所述中文名称相关的标准化用语;
S706:若未搜索到所述中文名称的别名,对所述中文名称进行分词处理,得到单词列表;
S707:针对所述单词列表中的任何一个目标单词,若所述目标单词在所述非标准单词库中,获取所述目标单词对应的标准单词,采用标准单词替换所述单词列表中的目标单词;
S708:若所述单词列表中的单词均包含在预设的标准知识库或者非标准知识库中,将所有单词列表中的单词按照不同顺序进行组合,得到至少一个组合用语;
S709:利用所述组合用语在所述标准知识库中进行搜索;
S710:若在所述标准知识库中搜索到任何一个组合用语,将搜索到的组合用语作为所述中文名称的标准化用语;
S711:若未在标准知识库中搜索到任何一个组合用语,则利用组合用语以及所述单词列表中的单词,在所述标准知识库中进行模糊匹配;
S712:确定单词和组合用语的权重,基于组合用语的权重和单词的权重对模糊匹配的结果进行评分,将评分最高的作为所述中文名称的标准化用语。
本实施例中,先将待标准化对象的中文名称作为完整关键词在标准知识库中进行搜索,在未能搜索成功的情况下,搜索中文名称的别名,在未搜索到别名的情况下,对单词进行分词处理,并通过单词重新组合后的组合用语在标准知识库中进行搜索,仍未搜索成功,则采用模糊匹配的方式进行搜索,这样在保障搜索准确率的情况下,进一步提升了匹配的成功率。
参考图8,示出了本发明实施例提供的一种数据标准化的方法的又一流程示意图,在本实施例中,该方法包括:
S801:获取待标准化对象的中文名称;
S802:使用所述待标准化对象的中文名称在所述标准知识库中进行搜索;
S803:若搜索到与所述中文名称一致的用语,将搜索到的用语作为与所述中文名称相关的标准化用语;
S804:若未搜索到与所述中文名称一致的用语,在预设的标准知识库中搜索所述中文名称的别名;
S805:若搜索到所述中文名称的别名,则将搜索到的所述中文名称的别名作为与所述中文名称相关的标准化用语;
S806:若未搜索到所述中文名称的别名,对所述中文名称进行分词处理,得到单词列表;
S807:针对所述单词列表中的任何一个目标单词,若所述目标单词在所述非标准单词库中,获取所述目标单词对应的标准单词,采用标准单词替换所述单词列表中的目标单词;
S808:若所述单词列表中的单词均包含在预设的标准知识库或者非标准知识库中,将所有单词列表中的单词按照不同顺序进行组合,得到至少一个组合用语;
S809:利用所述组合用语在所述标准知识库中进行搜索;
S810:若在所述标准知识库中搜索到任何一个组合用语,将搜索到的组合用语作为所述中文名称的标准化用语;
S811:若未在标准知识库中搜索到任何一个组合用语,按照所述组合用语和所述单词列表中每个单词的优先级,在所述标准知识库中进行模糊匹配,若模糊匹配结果的数量大于预设的阈值,则停止匹配;
S812:确定单词和组合用语的权重,基于组合用语的权重和单词的权重对模糊匹配的结果进行评分,将评分最高的作为所述中文名称的标准化用语。
本实施例中,先将待标准化对象的中文名称作为完整关键词在标准知识库中进行搜索,在未能搜索成功的情况下,搜索中文名称的别名,在未搜索到别名的情况下,对单词进行分词处理,并通过单词重新组合后的组合用语在标准知识库中进行搜索,仍未搜索成功,则采用模糊匹配的方式进行搜索,这样在保障搜索准确率的情况下,进一步提升了匹配的成功率。除此之外,在模糊搜索时,并且,采用设置了搜索优先级,提升了搜索效率。
参考图9,示出了一中标准化模型的生成方法的流程示意图,在本实施例中,该方法包括:
S901:获取待标准化的对象;
S902:将所述待标准化的对象进行数据标准化处理;
其中,对待标准对象进行数据标准化处理的过程,采用上述描述的一种数据标准化的方式进行处理。
S903:通过标准化数据生成用语查询的标准化模型。
本实施例中,生成的标准化模型可以实现索引、分区、存储等功能。
本实施例中,标准化模型设计的过程中,预先对待标准化对象进行标准化处理,对待标准化对象进行标准化时,在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语;所述标准知识库中包括标准单词库、标准域库和标准用语库;若在标准知识库中搜索到与所述中文名称相关的标准用语,则获取所述标准用语对应的标准数据信息;利用所述标准数据信息对所述标准化对象进行修正。这样将标准化的方法落地,实现了对数据进行自动标准化处理的过程,提升了数据处理的效率,解决了现有技术中人工操作导致的工作量大、效率低的问题。
进一步的,为了提升标准化模型的质量,对标准化后的模型进行质量检测,生成质量检测报告。
其中,对模型的质量检测可以包括:对模型的落标检测、定义完整度检测、实体、标识符、主键等相似度检测、孤立分析检测、物理信息规范性检测等。
参考图10,示出了本发明实施例提供的一种数据标准化装置的结构示意图,在本实施例中,该装置包括:
第一获取单元1001,用于获取待标准化对象的中文名称;
搜索单元1002,用于在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语;所述标准知识库中包括标准单词库、标准域库和标准用语库;
获取单元1003,用于若在标准知识库中搜索到与所述中文名称相关的标准用语,则获取所述标准用语对应的标准数据信息;
修正单元1004,用于利用所述标准数据信息对所述标准化对象进行修正。
可选的,所述搜索单元,包括:
第一搜索子单元,用于使用所述待标准化对象的中文名称在所述标准知识库中进行搜索;
第一确定子单元,用于若搜索到与所述中文名称一致的用语,将搜索到的与所述中文名称一致的用语作为与所述中文名称相关的标准化用语。
可选的,所述搜索单元,包括:
第二搜索子单元,用于在预设的标准知识库中搜索所述中文名称的别名;
第二确定子单元,用于若搜索到所述中文名称的别名,则将搜索到的所述中文名称的别名作为与所述中文名称相关的标准化用语。
可选的,所述搜索单元,包括:
第一分词处理子单元,用于对所述中文名称进行分词处理,得到单词列表;
第一组合子单元,用于若所述单词列表中的单词均包含在预设的标准知识库或者非标准知识库中,将所有单词列表中的单词按照不同顺序进行组合,得到至少一个组合用语;
第三搜索子单元,用于利用所述组合用语在所述标准知识库中进行搜索;
第三确定子单元,用于若在所述标准知识库中搜索到任何一个组合用语,将搜索到的组合用语作为所述中文名称的标准化用语。
可选的,还包括:
获取子单元,用于针对所述单词列表中的任何一个目标单词,若所述目标单词在所述非标准单词库中,获取所述目标单词对应的标准单词;
采用标准单词替换所述单词列表中的目标单词。
可选的,所述搜索单元,包括:
第二分词处理子单元,用于对所述中文名称进行分词处理,得到单词列表;
第一去除子单元,用于在所述单词列表中去除未包含在预设的标准单词库和非标准单词库中的单词;
第二组合子单元,用于将单词列表中的单词进行组合,得到组合用语;
第一模糊匹配子单元,用于利用组合用语以及所述单词列表中的单词,在所述标准知识库中进行模糊匹配;
第一评分子单元,用于确定单词和组合用语的权重,基于组合用语的权重和单词的权重对模糊匹配的结果进行评分;
第四确定子单元,用于将评分最高的作为所述中文名称的标准化用语。
可选的,所述搜索单元,包括:
第三分词处理子单元,用于对所述中文名称进行分词处理,得到单词列表;
第二去除子单元,用于在所述单词列表中去除未包含在预设的标准单词库和非标准单词库中的单词;
将单词列表中的单词进行组合,得到组合用语;
优先级确定子单元,用于确定组合用语和所述单词列表中每个单词的优先级;
第二模糊匹配子单元,用于按照所述组合用语和所述单词列表中每个单词的优先级,在所述标准知识库中进行模糊匹配;
匹配结束子单元,用于若模糊匹配结果的数量大于预设的阈值,则停止匹配;
第二评分子单元,用于确定单词和组合用语的权重,基于组合用语的权重和单词的权重对模糊匹配的结果进行评分;
第五确定子单元,用于将评分最高的作为所述中文名称的标准化用语。
通过本实施例的装置实现对数据进行标准化的过程,包括获取待标准化对象的中文名称,在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语;所述标准知识库中包括标准单词库、标准域库和标准用语库;若在标准知识库中搜索到与所述中文名称相关的标准用语,则获取所述标准用语对应的标准数据信息;利用所述标准数据信息对所述标准化对象进行修正。这样将标准化的方法落地,实现了对数据进行自动标准化处理的过程,提升了数据处理的效率,解决了现有技术中人工操作导致的工作量大、效率低的问题。
参考图11,示出了本发明实施例提供的一种标准化模型的生成装置的结构示意图,在本实施例中,该装置包括:
第二获取单元1101,用于获取待标准化的对象;
数据标准化单元1102,用于将所述待标准化的对象采用权利要求1-7所述的方法进行数据标准化,得到标准化数据;
模型生成单元1103,用于通过标准化数据生成用于查询的标准化模型。
通过本实施例的装置,将标准化的方法落地,实现了对数据进行自动标准化处理的过程,提升了数据处理的效率,解决了现有技术中人工操作导致的工作量大、效率低的问题。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种数据标准化的方法,其特征在于,包括:
获取待标准化对象的中文名称;
在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语;所述标准知识库中包括标准单词库、标准域库和标准用语库;
若在标准知识库中搜索到与所述中文名称相关的标准用语,则获取所述标准用语对应的标准数据信息;
利用所述标准数据信息对所述标准化对象进行修正。
2.根据权利要求1所述的方法,其特征在于,所述在预设的标准知识库中搜索与所述标准化对象的中文名称相关的标准用语,包括:
使用所述待标准化对象的中文名称在所述标准知识库中进行搜索;
若搜索到与所述中文名称一致的用语,将搜索到的与所述中文名称一致的用语作为与所述中文名称相关的标准化用语。
3.根据权利要求1所述的方法,其特征在于,所述在预设的标准知识库中搜索与所述标准化对象的中文名称相关的标准用语,包括:
在预设的标准知识库中搜索所述中文名称的别名;
若搜索到所述中文名称的别名,则将搜索到的所述中文名称的别名作为与所述中文名称相关的标准化用语。
4.根据权利要求1所述的方法,其特征在于,所述在预设的标准知识库中搜索与所述标准化对象的中文名称相关的标准用语,包括:
对所述中文名称进行分词处理,得到单词列表;
若所述单词列表中的单词均包含在预设的标准知识库或者非标准知识库中,将所有单词列表中的单词按照不同顺序进行组合,得到至少一个组合用语;
利用所述组合用语在所述标准知识库中进行搜索;
若在所述标准知识库中搜索到任何一个组合用语,将搜索到的组合用语作为所述中文名称的标准化用语。
5.根据权利要求4所述的方法,其特征在于,在将所有单词列表中的单词按照不同顺序进行组合之前,还包括:
针对所述单词列表中的任何一个目标单词,若所述目标单词在所述非标准单词库中,获取所述目标单词对应的标准单词;
采用标准单词替换所述单词列表中的目标单词。
6.根据权利要求1所述的方法,其特征在于,所述在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语,包括:
对所述中文名称进行分词处理,得到单词列表;
在所述单词列表中去除未包含在预设的标准单词库和非标准单词库中的单词;
将单词列表中的单词进行组合,得到组合用语;
利用组合用语以及所述单词列表中的单词,在所述标准知识库中进行模糊匹配;
确定单词和组合用语的权重,基于组合用语的权重和单词的权重对模糊匹配的结果进行评分;
将评分最高的作为所述中文名称的标准化用语。
7.根据权利要求1所述的方法,其特征在于,所述在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语,包括:
对所述中文名称进行分词处理,得到单词列表;
在所述单词列表中去除未包含在预设的标准单词库和非标准单词库中的单词;
将单词列表中的单词进行组合,得到组合用语;
确定组合用语和所述单词列表中每个单词的优先级;
按照所述组合用语和所述单词列表中每个单词的优先级,在所述标准知识库中进行模糊匹配;
若模糊匹配结果的数量大于预设的阈值,则停止匹配;
确定单词和组合用语的权重,基于组合用语的权重和单词的权重对模糊匹配的结果进行评分;
将评分最高的作为所述中文名称的标准化用语。
8.一种标准化模型的生成方法,其特征在于,包括:
获取待标准化的对象;
将所述待标准化的对象采用权利要求1-7中任意一项所述的数据标准化的方法进行数据标准化,得到标准化数据;
通过标准化数据生成用于查询的标准化模型。
9.根据权利要求8所述的方法,其特征在于,还包括:
对标准化后的模型进行质量检测,生成质量检测报告。
10.一种数据标准化的装置,其特征在于,包括:
第一获取单元,用于获取待标准化对象的中文名称;
搜索单元,用于在预设的标准知识库中搜索与所述待标准化对象的中文名称相关的标准用语;所述标准知识库中包括标准单词库、标准域库和标准用语库;
获取单元,用于若在标准知识库中搜索到与所述中文名称相关的标准用语,则获取所述标准用语对应的标准数据信息;
修正单元,用于利用所述标准数据信息对所述标准化对象进行修正。
11.一种标准化模型的生成装置,其特征在于,包括:
第二获取单元,用于获取待标准化的对象;
数据标准化单元,用于将所述待标准化的对象采用权利要求1-7所述的方法进行数据标准化,得到标准化数据;
模型生成单元,用于通过标准化数据生成用于查询的标准化模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111196678.8A CN113849607A (zh) | 2021-10-14 | 2021-10-14 | 数据标准化的方法以及标准化模型的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111196678.8A CN113849607A (zh) | 2021-10-14 | 2021-10-14 | 数据标准化的方法以及标准化模型的生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113849607A true CN113849607A (zh) | 2021-12-28 |
Family
ID=78978292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111196678.8A Pending CN113849607A (zh) | 2021-10-14 | 2021-10-14 | 数据标准化的方法以及标准化模型的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113849607A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719875A (zh) * | 2023-08-09 | 2023-09-08 | 恩核(北京)信息技术有限公司 | 一种数据标准化维护方法、系统、设备及介质 |
-
2021
- 2021-10-14 CN CN202111196678.8A patent/CN113849607A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719875A (zh) * | 2023-08-09 | 2023-09-08 | 恩核(北京)信息技术有限公司 | 一种数据标准化维护方法、系统、设备及介质 |
CN116719875B (zh) * | 2023-08-09 | 2023-12-26 | 恩核(北京)信息技术有限公司 | 一种数据标准化维护方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180181646A1 (en) | System and method for determining identity relationships among enterprise data entities | |
Arasu et al. | Efficient exact set-similarity joins | |
US7627550B1 (en) | Method and system for comparing attributes such as personal names | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
US8918402B2 (en) | Method of bibliographic field normalization | |
US20130204900A1 (en) | Ascribing actionable attributes to data that describes a personal identity | |
US11574287B2 (en) | Automatic document classification | |
CN112650858B (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
CN114153962A (zh) | 一种数据匹配方法、装置及电子设备 | |
Sakhaee et al. | Information extraction framework to build legislation network | |
Liu et al. | Ranking-based name matching for author disambiguation in bibliographic data | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN114595661A (zh) | 用于评审投标文件的方法、设备和介质 | |
CN113849607A (zh) | 数据标准化的方法以及标准化模型的生成方法及装置 | |
CN113642327A (zh) | 一种标准知识库的构建方法及装置 | |
CN113326363A (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
US20220270589A1 (en) | Information processing device, information processing method, and computer program product | |
Porwal et al. | A comparative analysis of data cleaning approaches to dirty data | |
CN114416847A (zh) | 一种数据转换的方法、装置、服务器及存储介质 | |
CN114579580A (zh) | 存储数据的方法、查询数据的方法和装置 | |
CN110909128B (zh) | 一种利用词根表进行数据查询的方法、设备、及存储介质 | |
CN113688126A (zh) | 确定源数据与标准数据的映射关系的方法、系统和介质 | |
CN114049642A (zh) | 一种表格证件影像件的文本识别方法及计算设备 | |
JP2009181183A (ja) | 人名表現同定装置、その方法、プログラム及び記録媒体 | |
US11860876B1 (en) | Systems and methods for integrating datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |