CN101986296B - 基于语义本体的噪声数据清洗方法 - Google Patents
基于语义本体的噪声数据清洗方法 Download PDFInfo
- Publication number
- CN101986296B CN101986296B CN2010105220387A CN201010522038A CN101986296B CN 101986296 B CN101986296 B CN 101986296B CN 2010105220387 A CN2010105220387 A CN 2010105220387A CN 201010522038 A CN201010522038 A CN 201010522038A CN 101986296 B CN101986296 B CN 101986296B
- Authority
- CN
- China
- Prior art keywords
- data
- noise
- semantic
- speech
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
基于语义本体的噪声数据清洗方法,包括建立一个存储不含噪声的干净数据的干净数据库;获取待清洗的文本数据,对待清洗数据进行预处理以获取结构化数据,所述的结构化数据组成文本数据的词的集合;引入知识网络的语义概念,获取每两个词的语义相似度;利用两个词的语义相似度作为距离度量,使用K-means算法,对词进行自动聚类,识别出噪声数据;在噪声数据中寻找引起噪声的语义本体,对引起噪声的语义本体进行矫正、以获取干净数据,将干净数据存入干净数据库中。本发明具有能够发现数据间语义的关联、能分辨同义词,保证在数据清洗中获得好性能的优点。
Description
技术领域
本发明涉及数据库,语义搜索,信息检索领域,特别是涉及一种基于语义本体的噪声数据清洗方法。
技术背景
近年来,数据仓库需要保证数据的正确性、一致性、完整性和可靠性,然而现有的业务系统对数据的操作存在很多的问题,容易产生脏数据,主要原因有:滥用缩写词和惯用语、数据输入错误、数据中的内嵌控制信息、相似重复记录、相似矛盾记录、缺省值、拼写变化、不同的计量单位、过时的编码等。这些脏数据可能导致操作费用昂贵、决策制定失败甚至错误等。因此数据提取与转换过程中必须对脏数据进行有效处理,确保数据仓库中数据的质量。这个过程一般称作数据清洗。现在市场上已有很多数据清洗工具。这些工具一般由两部分组成:检测工具和转换工具。用户先用检测工具检查数据中的错误,然后编写脚本或者使用提取转换工具去转换数据,修正错误并且将数据转换成分析所需要的格式。然而传统的基于文本相似函数的数据清洗方法过于关注数据的表现,而无法发现数据间语义上的关联,不能分辨同义词等数据现象,所以难以在数据清洗中获得更好的性能。
发明内容
为克服现有技术的无法发现数据间语义上的关联,不能分辨同义词等数据现象,难以在数据清洗中获得好性能的缺点,本发明提供了一种能够发现数据间语义的关联、能分辨同义词,保证在数据清洗中获得好性能的基于语义本体的噪声数据清洗方法。
基于语义本体的噪声数据清洗方法,包括以下步骤:
1)、建立一个存储不含噪声的干净数据的干净数据库;获取待清洗的文本数据,对待清洗数据进行预处理以获取结构化数据,所述的结构化数据组成文本数据的词的集合:
(1.1)将待清洗数据进行分词,并将所有词转换为统一的编码形式;
(1.2)将具有统一编码形式的数据根据数据字典消除不一致的数据、获得标准化数据;
(1.3)对该标准化数据进行一致性校验,将内容上的明显错误进行修改,如应该相同的数据是否一致或者某些属性是否与可参考的外部数据一致;
(1.4)将完全相同的词进行去重操作,从而获得结构化数据;
2)、引入知识网络的语义概念,获取每两个词的语义相似度;
(2.1)分别获取每个词所表达的概念、和描述每个概念的义原;
(2.2)获取任意两个独立的词,分别计算两个词的每个概念下的义原之间的相似度,两个义原的相似度用他们的语义距离来衡量;寻找两个概念之间的最大义原相似度和最小义原相似度,两个概念之间的相似度为最大义原相似度和最小义原相似度的均值;寻找两个词之间的最大概念相似度,将最大概念相似度作为两个词的语义相似度;
3)、利用两个词的语义相似度作为距离度量,使用K-means算法,对词进行自动聚类,识别出噪声数据;
4)、在噪声数据中寻找引起噪声的语义本体,对引起噪声的语义本体进行矫正、以获取干净数据,将干净数据存入干净数据库中。
进一步,在步骤3)和步骤5)的聚类和矫正的过程中,获取噪声数据关于语义本体和数据属性的分布,通过统计对噪声数据的产生过程建模、以形成噪声数据的产生原因的分析库。
进一步,步骤3)中进行聚类、识别噪声数据包含以下步骤:
(3.1)随机获取K个词作为质心,设定相似度阈值;
(3.2)将剩余的每个词分别测量其到各个质心的距离,并将该词归入与其距离最短的质心的类中;
(3.3)重新计算已经得到的各个类的质心;判断新的质心与原质心的距离是否等于或小于相似度阈值,若是,则进入步骤4);若否,则返回步骤(3.2);
(3.4)远离各个质心而无法归于任一质心的类中的剩余数据即为噪声数据。
进一步,步骤4)中寻找引起噪声的语义本体,矫正噪声数据的方法包括以下步骤:
(4.1)、获取一个噪声数据,判断噪声数据中是否有某个字段明显偏离聚类质心而导致鼓励,若是,则认为该字段为引起噪声的语义本体;若否,则获取该噪声数据的所有字段,将该噪声数据的各个字段分别丢弃后进行聚类,若某个字段被丢弃后,此数据点仍然为噪声,则认为该被丢弃的字段为非噪声语义本体;若某个字段被丢弃后,此数据点不再称为噪声,则该被丢弃的字段为引起噪声的语义本体;
(4.2)去除该引起噪声的语义本体,将该噪声数据重新聚类以归入与其距离最短的质心的类中;
(4.3)将步骤(4.2)中的质心类中的原有的词的语义本体属性的数据值求平均,将此平均值作为噪声数据的语义本体属性,则认为噪声数据被矫正形成干净数据;重复执行步骤(4.1)至(4.3)直到所有噪声数据被矫正完成。
随着语义分析技术的提出,人们开始关注数据背后潜在的语义内容,于是本发明提出了一种基于语义本体的数据清洗方法,在数据检测过程中引入了语义概念,使得不同的数据元之间出现了语义上的关联,从而可以使得文本的聚类更为有效,也使聚类可以得到更为直观的解释,能更准确地识别出噪声数据。
噪声数据通常被认为包含了错误数据或存在偏离期望的孤点值,而除掉错误或偏离的那一部分以外的其它数据,仍然对于数据库是有效的。如果直接删除噪声数据将损失部分有效信息,利用干净数据对错误或偏离数据进行矫正,从而避免这种数据资源的浪费。而数据矫正的前提就是判断数据到底在哪个属性上发生了偏离,即找到引起噪声的语义本体。
当聚类产生的一个噪声数据点中,很明显的有某个字段与聚类中心偏离而导致孤立时,这一字段便可立即被判断为引起噪声的语义本体。而当一个噪声数据点中没有明显的单独偏离的一个字段时,引起噪声的语义本体就需要更多分析。根据“噪声记录去除非噪声属性后的仍然是噪声记录”这一原则,将此噪声数据点的各个字段分别丢弃后进行聚类,若某个字段被丢弃后,此数据点仍然为噪声,则该字段非噪声属性;若某个字段被丢弃后,此数据点不再成为噪声,则该字段即引起噪声的语义本体。
本发明具有能够发现数据间语义的关联、能分辨同义词,保证在数据清洗中获得好性能的优点。
附图说明
图1是本发明的流程图。
具体实施方式
参照附图,进一步说明本发明:
基于语义本体的噪声数据清洗方法,包括以下步骤:
1)、建立一个存储不含噪声的干净数据的干净数据库;获取待清洗的文本数据,对待清洗数据进行预处理以获取结构化数据,所述的结构化数据组成文本数据的词的集合:
(1.1)将待清洗数据进行分词,并将所有词转换为统一的编码形式;
(1.2)将具有统一编码形式的数据根据数据字典消除不一致的数据、获得标准化数据;
(1.3)对该标准化数据进行一致性校验,将内容上的明显错误进行修改,如应该相同的数据是否一致或者某些属性是否与可参考的外部数据一致;
(1.4)将完全相同的词进行去重操作,从而获得结构化数据;
2)、引入知识网络的语义概念,获取每两个词的语义相似度;
(2.1)分别获取每个词所表达的概念、和描述每个概念的义原;
(2.2)获取任意两个独立的词,分别计算两个词的每个概念下的义原之间的相似度,两个义原的相似度用他们的语义距离来衡量;寻找两个概念之间的最大义原相似度和最小义原相似度,两个概念之间的相似度为最大义原相似度和最小义原相似度的均值;寻找两个词之间的最大概念相似度,将最大概念相似度作为两个词的语义相似度;
3)、利用两个词的语义相似度作为距离度量,使用K-means算法,对词进行自动聚类,识别出噪声数据;
4)、在噪声数据中寻找引起噪声的语义本体,对引起噪声的语义本体进行矫正、以获取干净数据,将干净数据存入干净数据库中。
在步骤3)和步骤5)的聚类和矫正的过程中,获取噪声数据关于语义本体和数据属性的分布,通过统计对噪声数据的产生过程建模、以形成噪声数据的产生原因的分析库。
步骤3)中进行聚类、识别噪声数据包含以下步骤:
(3.1)随机获取K个词作为质心,设定相似度阈值;
(3.2)将剩余的每个词分别测量其到各个质心的距离,并将该词归入与其距离最短的质心的类中;
(3.3)重新计算已经得到的各个类的质心;判断新的质心与原质心的距离是否等于或小于相似度阈值,若是,则进入步骤4);若否,则返回步骤(3.2);
(3.4)远离各个质心而无法归于任一质心的类中的剩余数据即为噪声数据。
步骤4)中寻找引起噪声的语义本体,矫正噪声数据的方法包括以下步骤:
(4.1)、获取一个噪声数据,判断噪声数据中是否有某个字段明显偏离聚类质心而导致鼓励,若是,则认为该字段为引起噪声的语义本体;若否,则获取该噪声数据的所有字段,将该噪声数据的各个字段分别丢弃后进行聚类,若某个字段被丢弃后,此数据点仍然为噪声,则认为该被丢弃的字段为非噪声语义本体;若某个字段被丢弃后,此数据点不再称为噪声,则该被丢弃的字段为引起噪声的语义本体;
(4.2)去除该引起噪声的语义本体,将该噪声数据重新聚类以归入与其距离最短的质心的类中;
(4.3)将步骤(4.2)中的质心类中的原有的词的语义本体属性的数据值求平均,将此平均值作为噪声数据的语义本体属性,则认为噪声数据被矫正形成干净数据;重复执行步骤(4.1)至(4.3)直到所有噪声数据被矫正完成。
随着语义分析技术的提出,人们开始关注数据背后潜在的语义内容,于是本发明提出了一种基于语义本体的数据清洗方法,在数据检测过程中引入了语义概念,使得不同的数据元之间出现了语义上的关联,从而可以使得文本的聚类更为有效,也使聚类可以得到更为直观的解释,能更准确地识别出噪声数据。
噪声数据通常被认为包含了错误数据或存在偏离期望的孤点值,而除掉错误或偏离的那一部分以外的其它数据,仍然对于数据库是有效的。如果直接删除噪声数据将损失部分有效信息,利用干净数据对错误或偏离数据进行矫正,从而避免这种数据资源的浪费。而数据矫正的前提就是判断数据到底在哪个属性上发生了偏离,即找到引起噪声的语义本体。
当聚类产生的一个噪声数据点中,很明显的有某个字段与聚类中心偏离而导致孤立时,这一字段便可立即被判断为引起噪声的语义本体。而当一个噪声数据点中没有明显的单独偏离的一个字段时,引起噪声的语义本体就需要更多分析。根据“噪声记录去除非噪声属性后的仍然是噪声记录”这一原则,将此噪声数据点的各个字段分别丢弃后进行聚类,若某个字段被丢弃后,此数据点仍然为噪声,则该字段非噪声属性;若某个字段被丢弃后,此数据点不再成为噪声,则该字段即引起噪声的语义本体。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (3)
1.基于语义本体的噪声数据清洗方法,包括以下步骤:
1)、建立一个存储不含噪声的干净数据的干净数据库;获取待清洗的文本数据,对待清洗数据进行预处理以获取结构化数据,所述的结构化数据组成文本数据的词的集合:
(1.1)将待清洗数据进行分词,并将所有词转换为统一的编码形式;
(1.2)将具有统一编码形式的数据根据数据字典消除不一致的数据、获得标准化数据;
(1.3)对该标准化数据进行一致性校验,将内容上的明显错误进行修改;
(1.4)将完全相同的词进行去重操作,从而获得结构化数据;
2)、引入知识网络的语义概念,获取每两个词的语义相似度;
(2.1)分别获取每个词所表达的概念、和描述每个概念的义原;
(2.2)获取任意两个独立的词,分别计算两个词的每个概念下的义原之间的相似度,两个义原的相似度用他们的语义距离来衡量;寻找两个概念之间的最大义原相似度和最小义原相似度,两个概念之间的相似度为最大义原相似度和最小义原相似度的均值;寻找两个词之间的最大概念相似度,将最大概念相似度作为两个词的语义相似度;
3)、利用两个词的语义相似度作为距离度量,使用K-means算法,对词进行自动聚类,识别出噪声数据;
4)、在噪声数据中寻找引起噪声的语义本体,对引起噪声的语义本体进行矫正、以获取干净数据,将干净数据存入干净数据库中;
(4.1)、获取一个噪声数据,判断噪声数据中是否有某个字段明显偏离聚类质心而导致鼓励,若是,则认为该字段为引起噪声的语义本体;若否,则获取该噪声数据的所有字段,将该噪声数据的各个字段分别丢弃后进行聚类,若某个字段被丢弃后,此数据点仍然为噪声,则认为该被丢弃的字段为非噪声语义本体;若某个字段被丢弃后,此数据点不再称为噪声,则该被丢弃的字段为引起噪声的语义本体;
(4.2)去除该引起噪声的语义本体,将该噪声数据重新聚类以归入与其距离最短的质心的类中;
(4.3)将步骤(4.2)中的质心类中的原有的词的语义本体属性的数据值求平均,将此平均值作为噪声数据的语义本体属性,则认为噪声数据被矫正形成干净数据;重复执行步骤(4.1)至(4.3)直到所有噪声数据被矫正完成。
2.如权利要求1所述的基于语义本体的噪声数据清洗方法,其特征在于:在步骤3)和步骤4)的聚类和矫正的过程中,获取噪声数据关于语义本体和数据属性的分布,通过统计对噪声数据的产生过程建模、以形成噪声数据的产生原因的分析库。
3.如权利要求2所述的基于语义本体的噪声数据清洗方法,其特征在于:步骤3)中进行聚类、识别噪声数据包含以下步骤:
(3.1)随机获取K个词作为质心,设定相似度阈值;
(3.2)将剩余的每个词分别测量其到各个质心的距离,并将该词归入与其距离最短的质心的类中;
(3.3)重新计算已经得到的各个类的质心;判断新的质心与原质心的距离是否等于或小于相似度阈值,若是,则进入步骤3.4);若否,则返回步骤(3.2);
(3.4)远离各个质心而无法归于任一质心的类中的剩余数据即为噪声数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105220387A CN101986296B (zh) | 2010-10-28 | 2010-10-28 | 基于语义本体的噪声数据清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105220387A CN101986296B (zh) | 2010-10-28 | 2010-10-28 | 基于语义本体的噪声数据清洗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101986296A CN101986296A (zh) | 2011-03-16 |
CN101986296B true CN101986296B (zh) | 2012-04-25 |
Family
ID=43710643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105220387A Active CN101986296B (zh) | 2010-10-28 | 2010-10-28 | 基于语义本体的噪声数据清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101986296B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10127268B2 (en) | 2016-10-07 | 2018-11-13 | Microsoft Technology Licensing, Llc | Repairing data through domain knowledge |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049524B (zh) * | 2012-12-20 | 2016-01-06 | 中国科学技术信息研究所 | 同义词检索结果按词义自动聚类方法 |
CN103810266B (zh) * | 2014-01-27 | 2017-04-05 | 中国电子科技集团公司第十研究所 | 语义网络目标识别判证方法 |
CN105468658B (zh) * | 2014-09-26 | 2020-04-03 | 中国移动通信集团湖北有限公司 | 一种数据清洗方法及装置 |
CN104731908A (zh) * | 2015-03-24 | 2015-06-24 | 浪潮集团有限公司 | 一种基于etl的数据清洗方法 |
CN105045807A (zh) * | 2015-06-04 | 2015-11-11 | 浙江力石科技股份有限公司 | 互联网交易信息的数据清洗算法 |
CN108268876A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于聚类的近似重复记录的检测方法及装置 |
CN108833311B (zh) * | 2018-05-22 | 2021-08-20 | 杭州电子科技大学 | 联合时域聚类去噪与均衡判决的变换域二次估计方法 |
CN108829861A (zh) * | 2018-06-22 | 2018-11-16 | 广州矽创信息科技有限公司 | 一种数据清洗方法和系统 |
CN109299740A (zh) * | 2018-09-28 | 2019-02-01 | 北京赛博贝斯数据科技有限责任公司 | 一种逻辑回归模型的构建方法及系统 |
CN109345391A (zh) * | 2018-10-17 | 2019-02-15 | 山东儒名投资集团有限公司 | 基于大数据分析的风险控制方法及系统 |
CN113849654A (zh) * | 2021-12-01 | 2021-12-28 | 杭州费尔斯通科技有限公司 | 一种基于对比学习聚类的文本清洗方法及系统 |
CN115794785B (zh) * | 2023-02-01 | 2023-10-10 | 中软国际科技服务有限公司 | 基于大数据的电商数据筛查方法、系统及云平台 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308496A (zh) * | 2008-07-04 | 2008-11-19 | 沈阳格微软件有限责任公司 | 大规模文本数据的外部聚类方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7085771B2 (en) * | 2002-05-17 | 2006-08-01 | Verity, Inc | System and method for automatically discovering a hierarchy of concepts from a corpus of documents |
-
2010
- 2010-10-28 CN CN2010105220387A patent/CN101986296B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308496A (zh) * | 2008-07-04 | 2008-11-19 | 沈阳格微软件有限责任公司 | 大规模文本数据的外部聚类方法及系统 |
Non-Patent Citations (1)
Title |
---|
刘金岭.基于语义密度的文本聚类研究.《计算机工程》.2010,第36卷(第5期),第81-83页. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10127268B2 (en) | 2016-10-07 | 2018-11-13 | Microsoft Technology Licensing, Llc | Repairing data through domain knowledge |
Also Published As
Publication number | Publication date |
---|---|
CN101986296A (zh) | 2011-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101986296B (zh) | 基于语义本体的噪声数据清洗方法 | |
Le et al. | Log-based anomaly detection without log parsing | |
Klinkmüller et al. | Increasing recall of process model matching by improved activity label matching | |
Xie et al. | Detecting duplicate bug reports with convolutional neural networks | |
WO2020108063A1 (zh) | 特征词的确定方法、装置和服务器 | |
CN107463548B (zh) | 短语挖掘方法及装置 | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
US9256593B2 (en) | Identifying product references in user-generated content | |
CN104268200A (zh) | 一种基于深度学习的非监督命名实体语义消歧方法 | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
CN111460153A (zh) | 热点话题提取方法、装置、终端设备及存储介质 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
Chatterjee et al. | Intent mining from past conversations for conversational agent | |
CN103914444A (zh) | 一种纠错方法及其装置 | |
KR101638535B1 (ko) | 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN105164676A (zh) | 查询特征和问题 | |
CN104298683A (zh) | 主题挖掘方法和设备、以及查询扩展方法和设备 | |
CN103679034B (zh) | 一种基于本体的计算机病毒分析系统及其特征提取方法 | |
CN115953123A (zh) | 机器人自动化流程的生成方法、装置、设备及存储介质 | |
CN111324705B (zh) | 自适应性调整关联搜索词的系统及其方法 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN110413997A (zh) | 针对电力行业的新词发现方法及其系统、可读存储介质 | |
Dey et al. | A framework to integrate unstructured and structured data for enterprise analytics | |
JP2015018372A (ja) | 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |