CN113642327A - 一种标准知识库的构建方法及装置 - Google Patents

一种标准知识库的构建方法及装置 Download PDF

Info

Publication number
CN113642327A
CN113642327A CN202111194988.6A CN202111194988A CN113642327A CN 113642327 A CN113642327 A CN 113642327A CN 202111194988 A CN202111194988 A CN 202111194988A CN 113642327 A CN113642327 A CN 113642327A
Authority
CN
China
Prior art keywords
standard
word
chinese
words
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111194988.6A
Other languages
English (en)
Inventor
李海丽
史晨阳
王磊
黄登玺
潘学芳
林勇
金佩
王宇宸
乔佳丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Everbright Bank Co Ltd
Original Assignee
China Everbright Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Everbright Bank Co Ltd filed Critical China Everbright Bank Co Ltd
Priority to CN202111194988.6A priority Critical patent/CN113642327A/zh
Publication of CN113642327A publication Critical patent/CN113642327A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种标准知识库的构建方法及装置,包括:获取到待处理用语的字段信息,对待处理用语的字段信息进行标准化处理,得到标准用语的字段信息,再对待处理用语的字段的中文名称进行分词,根据分词得到的中文单词构建标准单词库,并通过标准用语的标准域信息构建标准域库,其中标准域信息包括分类词和数据特征;通过建立标准用语与标准单词库和标准域库之间的关联关系建立标准域库。这样,该标准知识库对标准用语进行了更细粒度的划分,并且通过划分后的细粒度的信息,提升了标准用语检索的成功率。并且,提升了数据的规范化程度,统一了数据类型,进而提升了数据库生成过程中逻辑模型和物理设计的效率。

Description

一种标准知识库的构建方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种标准知识库的构建方法及装置。
背景技术
目前数据存在质量低下、数据缺乏标准无法共享等问题,这样就无法发挥数据应有的价值。
发明内容
有鉴于此,本发明实施例公开了一种标准知识库的构建方法及装置,通过该方法得到的标准知识库中不仅仅包含标准用语,还包括组成标准用语的单词,以及标准用语的数据特征。由此可知,该标准知识库对标准用语进行了更细粒度的划分,并且通过划分后的细粒度的信息,能够提升标准用语检索的成功率。
本发明实施例公开了一种标准知识库的构建方法,包括:
获取待处理用语的字段信息;所述待处理用语的字段信息至少包括:中文名称、英文名称、数据特征;
按照预设的规则对所述待处理用语的字段信息进行标准化处理,得到标准用语的字段信息;
对每个标准用语的中文名称进行分词处理,得到至少一个中文单词;
获取每个中文单词对应的英文名称;
将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中;
获取标准用语的标准域信息,并将所述标准域信息添加到所述标准域库中;所述标准域信息包括:标准用语的分类词和数据特征;
将标准用语、标准单词库和标准域库进行关联,生成标准用语库。
可选的,所述按照预设的规则对所述待处理用语的字段信息进行标准化处理,得到标准用语的字段信息:
去除待处理用语的中文名称中包含的第一特征字符;
去除待处理用语的英文名称中包含的第二特殊字符;
若检测到待处理用语的字段中存在数据项缺失的情况,采用预设的补充信息对缺失的数据项进行补全;
以中文名称、英文名称、数据类型以及数据特征为基准单位,对标准用语进行去重处理。
可选的,在对每个标准用语的中文名称进行分词处理之前,还包括:
以中文名称和英文名称为基准单位,对标准用语进行去重处理。
可选的,将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中,包括:
将分词处理后得到的中文单词与标准单词库中的单词进行匹配;
对未能成功匹配的单词进行标记;
若存在标记的单词符合预设的单词定义,则将标记的单词添加到标准单词库中。
可选的,还包括:
检验所述标准单词库中是否存在一个中文单词对应多个英文名称的情况;
若存在一个中文单词对应多个英文名称的情况,则确定所述中文单词的标准英文名称;
采用标准英文名称替换所述中文单词对应的英文名称。
或者
检测所述标准单词库中是否存在含义不明确的单词;
若所述标准单词库中存在含义不明确的单词,获取所述单词拆分之前对应的中文名称,并将所述中文名称替换所述含义不明确的单词。
可选的,还包括:
检验所述标准单词库中是否存在含义相似的单词;
若存在含义相似的单词,从所述含义相似的单词中确定一个标准单词;
去除所述标准单词库中与所述标准单词含义相似的单词,并将与所述标准单词具有相似含义的单词存储到非标准单词库中;
建立所述标准单词库中标准单词与所述非标准知识库中与所述标准单词具有相同含义的单词的映射关系。
可选的,获取标准用语的标准域信息,包括:
基于所述标准单词库,对所述标准用语的中文名称进行分词处理,得到至少一个中文单词;
将组成所述中文名称的中文单词中的最后一个中文单词作为分类词;
获取所述标准用语的数据特征;所述数据特征包括:数据类型和长精度;
将所述分类词、标准用语的数据类型和长精度,作为所述标准用语的标准域信息。
可选的,还包括:
检测是否存在标准用语的中文名称和英文名称相同,但是标准域信息不同的情况;
若存在标准用语的中文名称和英文名称相同,但是标准域信息不同的情况,根据标准域信息生成标识信息;
通过标识信息对标准用语的中文名称和英文名称进行标识。
本发明实施例公开了一种标准知识库的构建装置,包括:
待处理用语获取单元,用于获取待处理用语的字段信息;所述待处理用语的字段信息至少包括:中文名称、英文名称、数据特征;
标准化单元,用语按照预设的规则对所述待处理用于的字段信息进行标准化处理,得到标准化用语的字段信息;
标准单词库构建单元,用于对每个标准用语的中文名称进行分词处理,得到至少一个中文单词;获取每个中文单词对应的英文名称;将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中;
标准域库构建单元,用于获取标准用语的标准域信息,并将所述标准域信息添加到所述标准域库中;所述标准域信息包括:标准用语的分类词和数据特征;
标准用语库构建单元,用于将标准用语、标准单词库和标准域库进行关联,生成标准用语库。
本发明实施例公开了一种标准知识库,包括:
标准单词库,包括:中文单词和英文单词;
标准域库,包括:分类词和数据特征;
标准用语库,包括:标准用语,标准用语与标准单词库的关系,标准用语与标准域库的关系;
所述标准知识库是通过上述所述的方法标准知识库的构建方法构建的。
可选的,还包括:
非标准单词库,包括与所述标准单词库中的单词具有相似含义的单词。
本发明实施例公开了一种标准知识库的构建方法及装置,包括:获取待处理用语的字段信息,对待处理用语的字段信息进行标准化处理,得到标准用语的字段信息,然后再对待处理用语的字段的中文名称进行分词,并根据分词得到的中文单词构建标准单词库,并通过标准用语的标准域信息构建标准域库,其中标准域信息包括分类词和数据特征;通过建立标准用语与标准单词库和标准域库之间的关联关系构建标准用语库。由此可知,通过该方法得到的标准知识库中不仅仅包含标准用语,还包括组成标准用语的单词,以及标准用语的数据特征。由此可知,该标准知识库对标准用语进行了更细粒度的划分,并且通过划分后的细粒度的信息,能够提升标准用语检索的成功率。并且,提升了数据的规范化程度,统一了数据类型,进而提升了数据库生成过程中逻辑模型和物理设计的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明实施例提供的一种标准知识库的构建方法的流程示意图;
图2示出了一种对标准词库进行验证的方法的流程图;
图3示出了一种标准单词库的又一验证方法的流程示意图;
图4示出了本发明实施例提供的一种标准单词库的另一种验证方法的流程示意图;
图5示出了一种标准知识库的结构示意图;
图6示出了本发明实施例提供的一种标准知识库的构建装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,示出了本发明实施例提供的一种标准知识库的构建方法的流程示意图,在本实施例中,该方法包括:
S101:获取待处理用语的字段信息;所述待处理用语的字段信息至少包括:中文名称、英文名称、数据类型和长精度;
本实施例中,待处理用语的字段信息的获取可以包括多种方式,例如从已有的标准数据库模型或者标准数据字典中获取,或者从应用于某些场景的数据系统中获得。
S102:按照预设的规则对所述待处理用语的字段信息进行标准化处理,得到标准用语的字段信息;
本实施例中,通过S101获取到的待处理用语可能会出现数据缺失、或者数据重复的情况,为了提高后续数据处理的效率及准确性,可以预先对获取到的标准用语进行标准化处理,其中标准化处理过程可以包括:
去除待处理用语的中文名称中包含的第一特殊字符;
去除待处理用语的英文名称中包含的第二特征字符;
检测标准用语的字段中是否存在数据项缺失的情况;
若检测到标准用语的字段中存在数据项缺失的情况,采用预设的补充信息对缺失的数据项进行补全;
以标准用语字段的中文名称、英文名称、以及数据特征为基准单位,对字段进行去重处理。
本实施例中,不同字段具备不同的规范性要求,预先设置每种字段的处理规则,并按照预设的处理规则对不同的字段进行规范化处理,具体的,包括:
按照预设的规则对标准用语的中文名称、英文名称以及数据特征按照预设的规则进行规范化处理包括:
针对标准用语的中文名称:去除中文名称中预设的第一特殊字符;
预设的第一特殊字符可以为除中文字符 、英文字符和数字之外的任意字符,例如,特殊字符可以包括:问号、引号等。
针对英文名称:去除英文名称中预设的第二特殊字符;
其中,预设的第二特殊字符可以为除英文字符、数字以及数据库中允许使用的下划线之外的字符。
其中,数据特征按照数据库对数据类型和长精度的规定进行处理。
本实施例中,通过上述介绍可知,标准用语的字段信息至少包括:中文名称+英文名称+数据特征。标准用语的字段信息中很有可能会出现数据项缺失的情况,例如缺少中文名称、缺少英文名称等。
其中,在检测到标准用语的字段中存在数据项缺失的情况下,采用预设的补充信息对缺失的数据项进行补全。
本实施例中,通常情况下,标准用语的字段信息中缺失中文名称的概率较大,该种情况下,可以采用该标准用语的英文名称补全缺失的中文名称。
对于可能重复的字段,本实施例中,为了保障数据的全面性,同时避免出现重复的字段,需要对数据进行去重,其中,标准用语中主要包括:中文名称、英文名称和数据特征。本实施例中的去重处理,以标准用语的中文名称、英文名称和数据特征为基准,进行去重处理,可以理解为在标准用语的中文名称、英文名称和数据特征完全一样的情况下,保留一个字段对应的中文名称+英文名称+数据特征。
S103:对每个标准用语的中文名称进行分词处理,得到至少一个中文单词;
本实施例中,对标准用语的中文名称进行分词处理的方法包括多种,本实施例中不进行限定。
本实施例中,对中文名称进行分词后,得到至少一个中文单词,得到的至少一个单词能够组成该标准用语的中文名称。
通过上述介绍可知,以标准用语的中文名称、英文名称、数据类型和长精度为基准,对标准用语进行了去重处理。但是在进行分词处理时,是对中文名称进行处理,但是标准用语中仍然会存在数据类型和长精度不同,但是中文名称和英文名称相同的情况,这种情况下,就会对相同的中文名称重复进行分词处理,为了避免这种情况的发生,在进行分词之前,再次对标准用语进行去重处理,本次去重处理,是以中文名称和英文名称为基准,对标准用于进行去重处理。
S104:获取每个中文单词对应的英文名称;
本实施例中,对于获取每个中文单词对应的英文名称的方法包括多种,本实施例中不进行限定,优选的提供如下的两种方式:
方法一:
检测所述字段的英文名称是否符合预设的规则;
若符合预设的规则,对字段的英文名称进行拆分;
本实施例中,英文名称在构建时,有可能会遵循一定的规则,例如通过下滑线连接的两个单词,可以按照单词处于下划线的位置对英文名称进行拆分。
举例说明:字段的英文名称是“CUST_NM”,从字段意思上来可以判断,“客户”的英文缩写是“CUST”,“名称”的英文缩写是“NM”。
方法二:
调用预设的翻译工具,通过所述预设的翻译工具,获取中文单词对应的英文名称。
S105:将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中;
本实施例中,将分词得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中,可以将生成的全部的中文单词以及中文单词对应的英文单词添加到标准单词库中,也可以按照预设的添加规则进行添加。
其中,按照预设的添加规则进行添加的方法包括:
将经过分词得到的中文单词与标准单词库中的单词进行匹配;
对未能成功匹配的单词进行标记;
若存在标记的单词符合预设的单词定义,则将标记的单词添加到标准单词库中。
S106:获取标准用语的标准域信息,并将所述标准域信息添加到所述标准域库中;所述标准域信息包括:标准用语的分类词、数据类型和长精度;
本实施例中,为了区分标准用语,可以通过不同属性的特征进行表示,本实施例中,通过分类属性特征和数据的属性特征来体现。
其中,数据特征包括:数据类型和长精度。
本实施例中,获取标准用语的属性特征的方法,例如可以包括:
基于所述标准单词库,对所述标准用语的中文名称进行分词处理,得到至少一个中文单词;
将组成所述中文名称的中文单词中的最后一个中文单词作为分类词;
获取所述标准用语的数据特征;所述数据特征包括:数据类型和长精度;
将所述分类词、标准用语的数据类型和长精度,作为所述标准用语的标准域信息。
本实施例中,若是通过更细的粒度表示标准用语的属性,可以对分类词进行更细粒度的划分,例如在分类词中加上修饰词,其中修饰词可以为分词后,分类词之前的中文单词。
除此之外,标准域信息中还可以包括一些用于指示业务含义的代码信息。
举例说明:若分类词为“名称”,那么“名称”的修饰词可以为“用户”、“系统”等。
本实施例中,在标准域库中添加数据类型和长精度,在使用数据时,使得同样数据所使用的数据类型、长度和格式等保持一致,避免数据交互时接口不一致的问题。
S107:将标准用语、标准单词库和标准域库进行关联,生成标准用语库;
其中,标准用语包括多个字段信息,字段信息包括:中文名称、英文名称和数据特征。将标准用语与标准单词库和标准域库进行关联,可以理解为将标准用语的各个字段与标准单词库和标准域库进行关联。
本实施例中,每一个标准用语的中文名称都是由标准单词库中的单词组成的,那么一个标准用语可以与标准单词库中的多个单词进行关联;每一个标准用语具有一个标准域信息,那么每一个标准用语与标准域库中的一个标准域信息进行关联;标准单词库中的单词,例如分类词可能与标准域库中的多个标准域信息相关联。本实施例中,在获取到待处理用语的字段信息后,对待处理用语的字段信息进行标准化处理,得到标准用语的字段信息,然后再对待处理用语的字段的中文名称进行分词,并根据分词得到的中文单词构建标准单词库,并通过标准用语的标准域信息构建标准域库,其中标准域信息包括分类词和数据特征;标准用语库是通过建立标准用语与标准单词库和标准域库之间的关联关系,得到的。由此可知,通过该方法得到的标准知识库中不仅仅包含标准用语,还包括组成标准用语的单词,以及标准用语的数据特征。由此可知,该标准知识库对标准用语进行了更细粒度的划分,并且通过划分后的细粒度的信息,能够提升标准用语检索的成功率。并且,提升了数据的规范化程度,统一了数据类型,进而提升了数据库生成过程中逻辑模型和物理设计的效率。
本实施例中,通过上述方法得到的标准单词库,很有可能会出现一些问题,例如可能会存在一个中文单词对应多个英文名称的情况,因此,为了得到完善标准单词库,参考图2,示出了一种对标准词库进行验证的方法的流程图,包括:
S201:检验所述标准单词库中是否存在一个中文单词对应多个英文名称的情况;
S202:若存在一个中文单词对应多个英文名称的情况,则确定所述中文单词的标准英文名称;
S203:采用标准英文名称替换所述中文单词对应的英文名称。
本实施例中,对于确定中文单词的标准英文名称的方法包括多种方式,本实施例中不进行限定,优选的可以采取如下的两种方式:
方式一:
从预设的数据模型或者数据库中,检测每个英文名称出现的频次;
将出现频次最高的最为标准的英文名称。
方式二:
调取预设的翻译工具,通过预设的翻译工具得到参考英文名称;
将参考英文名称和中文单词对应的多个英文名称进行比较,确定标准的英文名称。
其中,参考英文名称可能与中文单词对应的多个英文名称中的一个相同,也可能都不相同;若参考英文名称与中文单词对应的多个英文名称中的一个相同时,则将参考英文名称作为标准英文名称;若参考英文名称与中文单词对应的多个英文名称中的任意一个均不相同是,则计算参考英文名称与每一个英文名称的相似性,将相似性最高的英文名称作为标准英文名称,或者也可以以参考英文名称作为标准英文名称。
本实施例中,标准单词库中还可能存在含义不明确的单词,因此需要对标准单词库中含义不明确的单词进行处理,从而消除定义不明确的单词,参考图3,示出了一种标准单词库的又一验证方法的流程示意图,在本实施例中,该方法包括:
S301:检验所述标准单词库中是否存在定义不明确的单词;
S302:若标准单词库中存在定义不明确的单词,获取所述单词拆分之前对应的中文名称,并将所述中文名称替换所述定义不明确的单词。
本实施例中,如果某一个专业术语需要作为一个独立的单词存在,拆分成多个单词之后,含义表达不明确,则将单词定义为复合词,那么可以将该复合词替换该定义不明确的单词。
本实施例中,标准单词库还可能存在近义词或者同义词,为了进一步的对近义词和同义词进行标准化,参考图4,示出了本发明实施例提供的一种标准单词库的另一种验证方法的流程示意图,包括:
S401:检测所述标准单词库中是否存在含义相似的单词;
其中,含义相似的单词可以理解为同义词或近义词。
S402:若存在含义相似的单词,从含义相似的单词中确定一个标准单词;
S403:去除所述标准单词库中与所述标准单词含义相似的单词,并将与所述标准单词具有相似含义的单词存储到非标准单词库中;
S404:建立所述标准单词库中标准单词与非标准单词库中与所述非标准单词具有相同含义的单词的映射关系。
本实施例中,从具有相似含义的单词中选举出标准单词,并将其它的单词存储到非标准单词库中。这样,在标准单词库中存储标准单词,并将其它的近义词或者同义词存储到非标准单词库中,那么在检索时,可以通过该非标准单词库检测对应的标准单词。从而检测单词对应的标准用语。提高了检索的成功率。
本实施例中,标准用语中可能会存在中文名称和英文名称相同,但是标准域不同的情况,为了区分这些情况,可以将中文名称和英文名称进行特殊标记,根据不同的标记则认为为不同的中文名称和英文名称,具体的,还包括:
检测是否存在标准用语的中文名称和英文名称相同,但是标准域信息不同的情况;
若存在标准用语的中文名称和英文名称相同,但是标准域信息不同的情况,根据标准域信息生成标识信息;
通过标识信息对标准用语的中文名称和英文名称进行标识。
参考图5,示出了一种标准知识库的结构示意图,在本实施例中,该标准知识库包括:
标准单词库501,包括:中文单词和英文单词;
标准域库502,包括:分类词和数据特征;
标准用语库503,包括:标准用语,标准用语与标准单词库的关系,标准用语与标准域库的关系;
所述标准知识库通过下述所述的方法构建的:
获取待处理用语的字段信息;所述待处理用语的字段信息至少包括:中文名称、英文名称、数据特征;
按照预设的规则对所述待处理用语的字段信息进行标准化处理,得到标准用语的字段信息;
对每个标准用语的中文名称进行分词处理,得到至少一个中文单词;
获取每个中文单词对应的英文名称;
将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中;
获取标准用语的标准域信息,并将所述标准域信息添加到所述标准域库中;所述标准域信息包括:标准用语的分类词和数据特征;
将标准用语、标准单词库和标准域库进行关联,生成标准用语库。
可选的,所述按照预设的规则对所述待处理用语的字段信息进行标准化处理,得到标准用语的字段信息:
去除待处理用语的中文名称中包含的第一特征字符;
去除待处理用语的英文名称中包含的第二特殊字符;
若检测到待处理用语的字段中存在数据项缺失的情况,采用预设的补充信息对缺失的数据项进行补全;
以中文名称、英文名称、数据类型以及数据特征为基准单位,对标准用语进行去重处理。
可选的,在对每个标准用语的中文名称进行分词处理之前,还包括:
以中文名称和英文名称为基准单位,对标准用语进行去重处理。
可选的,将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中,包括:
将分词处理后得到的中文单词与标准单词库中的单词进行匹配;
对未能成功匹配的单词进行标记;
若存在标记的单词符合预设的单词定义,则将标记的单词添加到标准单词库中。
可选的,还包括:
检验所述标准单词库中是否存在一个中文单词对应多个英文名称的情况;
若存在一个中文单词对应多个英文名称的情况,则确定所述中文单词的标准英文名称;
采用标准英文名称替换所述中文单词对应的英文名称。
或者
检测所述标准单词库中是否存在含义不明确的单词;
若所述标准单词库中存在含义不明确的单词,获取所述单词拆分之前对应的中文名称,并将所述中文名称替换所述含义不明确的单词。
可选的,还包括:
检验所述标准单词库中是否存在含义相似的单词;
若存在含义相似的单词,从所述含义相似的单词中确定一个标准单词;
去除所述标准单词库中与所述标准单词含义相似的单词,并将与所述标准单词具有相似含义的单词存储到非标准单词库中;
建立所述标准单词库中标准单词与所述非标准知识库中与所述标准单词具有相同含义的单词的映射关系。
可选的,获取标准用语的标准域信息,包括:
基于所述标准单词库,对所述标准用语的中文名称进行分词处理,得到至少一个中文单词;
将组成所述中文名称的中文单词中的最后一个中文单词作为分类词;
获取所述标准用语的数据特征;所述数据特征包括:数据类型和长精度;
将所述分类词、标准用语的数据类型和长精度,作为所述标准用语的标准域信息。
可选的,还包括:
检测是否存在标准用语的中文名称和英文名称相同,但是标准域信息不同的情况;
若存在标准用语的中文名称和英文名称相同,但是标准域信息不同的情况,根据标准域信息生成标识信息;
通过标识信息对标准用语的中文名称和英文名称进行标识。
参考图6,示出了本发明实施例提供的一种标准知识库的构建装置的结构示意图,在本实施例中,该装置包括:
待处理用语获取单元601,用于获取待处理用语的字段信息;所述待处理用语的字段信息至少包括:中文名称、英文名称、数据特征;
标准化单元602,用语按照预设的规则对所述待处理用于的字段信息进行标准化处理,得到标准化用语的字段信息;
标准单词库构建单元603,用于对每个标准用语的中文名称进行分词处理,得到至少一个中文单词;获取每个中文单词对应的英文名称;将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中;
标准域库构建单元604,用于获取标准用语的标准域信息,并将所述标准域信息添加到所述标准域库中;所述标准域信息包括:标准用语的分类词和数据特征;
标准用语库构建单元605,用于将标准用语、标准单词库和标准域库进行关联,生成标准用语库。
可选的,还包括:
标准化单元,用于:去除待处理用语的中文名称中包含的第一特征字符;去除待处理用语的英文名称中包含的第二特殊字符;若检测到待处理用语的字段中存在数据项缺失的情况,采用预设的补充信息对缺失的数据项进行补全;以中文名称、英文名称、数据类型以及数据特征为基准单位,对标准用语进行去重处理。
可选的,还包括:
去重单元,用于以中文名称和英文名称为基准单位,对标准用语进行去重处理。
可选的,标准单词库构建单元,包括:
数据添加子单元,用于将经过分词处理后得到的中文单词与标准单词库中的单词进行匹配;对未能成功匹配的单词进行标记;若存在标记的单词符合预设的单词定义,则将标记的单词添加到标准单词库中。
可选的,标准单词库第一验证单元,用于:
检验所述标准单词库中是否存在一个中文单词对应多个英文名称的情况;
若存在一个中文单词对应多个英文名称的情况,则确定所述中文单词的标准英文名称;
采用标准英文名称替换所述中文单词对应的英文名称。
或者
检测所述标准单词库中是否存在含义不明确的单词;
若所述标准单词库中存在含义不明确的单词,获取所述单词拆分之前对应的中文名称,并将所述中文名称替换所述含义不明确的单词。
可选的,标准单词库第二构建单元,用于:
检验所述标准单词库中是否存在含义相似的单词;
若存在含义相似的单词,从所述含义相似的单词中确定一个标准单词;
去除所述标准单词库中与所述标准单词含义相似的单词,并将与所述标准单词具有相似含义的单词存储到非标准单词库中;
建立所述标准单词库中标准单词与所述非标准知识库中与所述标准单词具有相同含义的单词的映射关系。
可选的,标准域库构建单元,包括:
标准域信息获取子单元,用于:
基于所述标准单词库,对所述标准用语的中文名称进行分词处理,得到至少一个中文单词;将组成所述中文名称的中文单词中的最后一个中文单词作为分类词;获取所述标准用语的数据特征;所述数据特征包括:数据类型和长精度;将所述分类词、标准用语的数据类型和长精度,作为所述标准用语的标准域信息。
可选的,还包括:
区分单元,用于检测是否存在标准用语的中文名称和英文名称相同,但是标准域信息不同的情况;若存在标准用语的中文名称和英文名称相同,但是标准域信息不同的情况,根据标准域信息生成标识信息;通过标识信息对标准用语的中文名称和英文名称进行标识。
本实施例的装置,在获取到待处理用语的字段信息后,对待处理用语的字段信息进行标准化处理,得到标准用语的字段信息,然后再对待处理用语的字段的中文名称进行分词,并根据分词得到的中文单词构建标准单词库,并通过标准用语的标准域信息构建标准域库,其中标准域信息包括分类词和数据特征;标准用语库是通过建立标准用语与标准单词库和标准域库之间的关联关系,得到的。由此可知,通过该方法得到的标准知识库中不仅仅包含标准用语,还包括组成标准用语的单词,以及标准用语的数据特征。由此可知,该标准知识库对标准用语进行了更细粒度的划分,并且通过划分后的细粒度的信息,能够提升标准用语检索的成功率。并且,提升了数据的规范化程度,统一了数据类型,进而提升了数据库生成过程中逻辑模型和物理设计的效率。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种标准知识库的构建方法,其特征在于,包括:
获取待处理用语的字段信息;所述待处理用语的字段信息至少包括:中文名称、英文名称、数据特征;
按照预设的规则对所述待处理用语的字段信息进行标准化处理,得到标准用语的字段信息;
对每个标准用语的中文名称进行分词处理,得到至少一个中文单词;
获取每个中文单词对应的英文名称;
将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中;
获取标准用语的标准域信息,并将所述标准域信息添加到标准域库中;所述标准域信息包括:标准用语的分类词和数据特征;
将标准用语、标准单词库和标准域库进行关联,生成标准用语库。
2.根据权利要求1所述的方法,其特征在于,所述按照预设的规则对所述待处理用语的字段信息进行标准化处理,得到标准用语的字段信息,包括:
去除待处理用语的中文名称中包含的第一特征字符;
去除待处理用语的英文名称中包含的第二特殊字符;
若检测到待处理用语的字段中存在数据项缺失的情况,采用预设的补充信息对缺失的数据项进行补全;
以中文名称、英文名称、数据类型以及数据特征为基准单位,对标准用语进行去重处理。
3.根据权利要求1所述的方法,其特征在于,在对每个标准用语的中文名称进行分词处理之前,还包括:
以中文名称和英文名称为基准单位,对标准用语进行去重处理。
4.根据权利要求1所述的方法,其特征在于,将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中,包括:
将分词处理后得到的中文单词与标准单词库中的单词进行匹配;
对未能成功匹配的单词进行标记;
若存在标记的单词符合预设的单词定义,则将标记的单词添加到标准单词库中。
5.根据权利要求1所述的方法,其特征在于,还包括:
检验所述标准单词库中是否存在一个中文单词对应多个英文名称的情况;
若存在一个中文单词对应多个英文名称的情况,则确定所述中文单词的标准英文名称;
采用标准英文名称替换所述中文单词对应的英文名称;
或者
检测所述标准单词库中是否存在含义不明确的单词;
若所述标准单词库中存在含义不明确的单词,获取所述单词拆分之前对应的中文名称,并将所述中文名称替换所述含义不明确的单词。
6.根据权利要求1所述的方法,其特征在于,还包括:
检验所述标准单词库中是否存在含义相似的单词;
若存在含义相似的单词,从所述含义相似的单词中确定一个标准单词;
去除所述标准单词库中与所述标准单词含义相似的单词,并将与所述标准单词具有相似含义的单词存储到非标准单词库中;
建立所述标准单词库中标准单词与所述非标准知识库中与所述标准单词具有相同含义的单词的映射关系。
7.根据权利要求1所述的方法,其特征在于,获取标准用语的标准域信息,包括:
基于所述标准单词库,对所述标准用语的中文名称进行分词处理,得到至少一个中文单词;
将组成所述中文名称的中文单词中的最后一个中文单词作为分类词;
获取所述标准用语的数据特征;所述数据特征包括:数据类型和长精度;
将所述分类词、标准用语的数据类型和长精度,作为所述标准用语的标准域信息。
8.根据权利要求1所述的方法,其特征在于,还包括:
检测是否存在标准用语的中文名称和英文名称相同,但是标准域信息不同的情况;
若存在标准用语的中文名称和英文名称相同,但是标准域信息不同的情况,根据标准域信息生成标识信息;
通过标识信息对标准用语的中文名称和英文名称进行标识。
9.一种标准知识库的构建装置,其特征在于,包括:
待处理用语获取单元,用于获取待处理用语的字段信息;所述待处理用语的字段信息至少包括:中文名称、英文名称、数据特征;
标准化单元,用语按照预设的规则对所述待处理用于的字段信息进行标准化处理,得到标准化用语的字段信息;
标准单词库构建单元,用于对每个标准用语的中文名称进行分词处理,得到至少一个中文单词;获取每个中文单词对应的英文名称;将分词处理后得到的中文单词以及每个中文单词对应的英文名称添加到标准单词库中;
标准域库构建单元,用于获取标准用语的标准域信息,并将所述标准域信息添加到所述标准域库中;所述标准域信息包括:标准用语的分类词和数据特征;
标准用语库构建单元,用于将标准用语、标准单词库和标准域库进行关联,生成标准用语库。
10.一种标准知识库,其特征在于,包括:
标准单词库,包括:中文单词和英文单词;
标准域库,包括:分类词和数据特征;
标准用语库,包括:标准用语,标准用语与标准单词库的关系,标准用语与标准域库的关系;
所述标准知识库是通过上述权利要求1-8中任意一项所述的标准知识库的构建方法构建的。
11.根据权利要求10所述的标准知识库,其特征在于,还包括:
非标准单词库,包括与所述标准单词库中的单词具有相似含义的单词。
CN202111194988.6A 2021-10-14 2021-10-14 一种标准知识库的构建方法及装置 Pending CN113642327A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111194988.6A CN113642327A (zh) 2021-10-14 2021-10-14 一种标准知识库的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111194988.6A CN113642327A (zh) 2021-10-14 2021-10-14 一种标准知识库的构建方法及装置

Publications (1)

Publication Number Publication Date
CN113642327A true CN113642327A (zh) 2021-11-12

Family

ID=78426769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111194988.6A Pending CN113642327A (zh) 2021-10-14 2021-10-14 一种标准知识库的构建方法及装置

Country Status (1)

Country Link
CN (1) CN113642327A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186232A (zh) * 2023-04-26 2023-05-30 中国电子技术标准化研究院 一种标准知识智能问答实现方法、装置、设备和介质
CN116719875A (zh) * 2023-08-09 2023-09-08 恩核(北京)信息技术有限公司 一种数据标准化维护方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256074A (zh) * 2018-01-17 2018-07-06 链家网(北京)科技有限公司 校验处理的方法、装置、电子设备和存储介质
CN110176315A (zh) * 2019-06-05 2019-08-27 京东方科技集团股份有限公司 医疗问答方法及系统、电子设备、计算机可读介质
CN110362601A (zh) * 2019-06-19 2019-10-22 平安国际智慧城市科技股份有限公司 元数据标准的映射方法、装置、设备及存储介质
US20200175304A1 (en) * 2018-11-30 2020-06-04 Tata Consultancy Services Limited Method and system for information extraction from document images using conversational interface and database querying
CN112926315A (zh) * 2021-05-11 2021-06-08 北京嘉和海森健康科技有限公司 一种医疗术语自动标准化方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256074A (zh) * 2018-01-17 2018-07-06 链家网(北京)科技有限公司 校验处理的方法、装置、电子设备和存储介质
US20200175304A1 (en) * 2018-11-30 2020-06-04 Tata Consultancy Services Limited Method and system for information extraction from document images using conversational interface and database querying
CN110176315A (zh) * 2019-06-05 2019-08-27 京东方科技集团股份有限公司 医疗问答方法及系统、电子设备、计算机可读介质
CN110362601A (zh) * 2019-06-19 2019-10-22 平安国际智慧城市科技股份有限公司 元数据标准的映射方法、装置、设备及存储介质
CN112926315A (zh) * 2021-05-11 2021-06-08 北京嘉和海森健康科技有限公司 一种医疗术语自动标准化方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186232A (zh) * 2023-04-26 2023-05-30 中国电子技术标准化研究院 一种标准知识智能问答实现方法、装置、设备和介质
CN116719875A (zh) * 2023-08-09 2023-09-08 恩核(北京)信息技术有限公司 一种数据标准化维护方法、系统、设备及介质
CN116719875B (zh) * 2023-08-09 2023-12-26 恩核(北京)信息技术有限公司 一种数据标准化维护方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN107045496B (zh) 语音识别后文本的纠错方法及纠错装置
Evans et al. A framework for named entity recognition in the open domain.
US9195646B2 (en) Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
US20180181646A1 (en) System and method for determining identity relationships among enterprise data entities
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
CN108027814B (zh) 停用词识别方法与装置
US20070230787A1 (en) Method for automated processing of hard copy text documents
US20140052688A1 (en) System and Method for Matching Data Using Probabilistic Modeling Techniques
Yerra et al. A sentence-based copy detection approach for web documents
CN110851559B (zh) 数据元自动识别方法和识别系统
CN107085568B (zh) 一种文本相似度判别方法及装置
CN113642327A (zh) 一种标准知识库的构建方法及装置
CN114153962A (zh) 一种数据匹配方法、装置及电子设备
CN111046627A (zh) 一种中文文字显示方法及系统
Saini et al. Intrinsic plagiarism detection system using stylometric features and DBSCAN
CN113609864B (zh) 一种基于工业控制系统的文本语义识别处理系统及方法
CN112818005B (zh) 结构化数据的搜索方法、装置、设备及存储介质
CN114154480A (zh) 信息提取方法、装置、设备和存储介质
CN114220113A (zh) 一种论文质量检测方法、装置和设备
US20030221160A1 (en) Determination of a semantic snapshot
CN112883727B (zh) 一种确定人物间关联关系的方法及装置
JP2004206468A (ja) 文書管理システム及び文書管理プログラム
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム
CN114564472B (zh) 元数据扩充方法以及存储介质、电子设备
CN113836943B (zh) 基于语义等级的关系抽取方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination