CN110826326A - 一种基于文本分类的小样本数据描述规范化预处理方法 - Google Patents

一种基于文本分类的小样本数据描述规范化预处理方法 Download PDF

Info

Publication number
CN110826326A
CN110826326A CN201911072954.2A CN201911072954A CN110826326A CN 110826326 A CN110826326 A CN 110826326A CN 201911072954 A CN201911072954 A CN 201911072954A CN 110826326 A CN110826326 A CN 110826326A
Authority
CN
China
Prior art keywords
entity
standard
similarity
data table
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911072954.2A
Other languages
English (en)
Other versions
CN110826326B (zh
Inventor
肖楚琬
唐小峰
刘嘉
崔世麒
刘松福
苏析超
王鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naval Aeronautical University
Original Assignee
Naval Aeronautical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naval Aeronautical University filed Critical Naval Aeronautical University
Publication of CN110826326A publication Critical patent/CN110826326A/zh
Application granted granted Critical
Publication of CN110826326B publication Critical patent/CN110826326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本分类的小样本数据描述规范化预处理方法,属于数据预处理领域。首先构建标准实体数据表,包括每类实体由具有相关性的m列组成;针对某个待处理的目标数据表,将描述同一个实体概念的列进行组合,构成若干类实体。然后将目标数据表与标准实体数据表中的各列根据属性建立映射关联。依次选择完成映射的某类实体的各个属性列构造成子表T',将其中各实体案例分别构成目标描述O',计算各实体案例与标准数据表中对应的每类实体之间的相似度。选择相似度≤1,且非完全一致的各个实体案例标识为非规范描述项,并划分等级;遍历目标数据表中所有实体类,将所有非规范描述按等级给出修改建议。本发明提高了文本相似性匹配的准确性和效率。

Description

一种基于文本分类的小样本数据描述规范化预处理方法
技术领域
本发明属于数据预处理领域,具体是一种基于文本分类的小样本数据描述规范化预处理方法。
背景技术
鉴于某些专业领域的保密要求,需要在独立、封闭的条件下进行文本统计分析。但是,所需数据大多采用手工输入,经常存在数据源描述不规范、漏输或错输等现象,且存在格式混用和一致性差等问题,致使文本处理、统计分析困难,准确度低。
目前文本数据预处理的方法主要有数据清理、数据集成、数据变换以及数据规约等。虽然在处理文本非标准描述可以取得较好的效果,但前提必须要有大量样本支撑。
因此,有必要提供一种创新且富有进步性的文本数据预处理方法,解决小样本条件下数据规范化问题,进而为专业领域的数据统计分析奠定基础。
发明内容
本发明针对小样本条件下的数据规范化问题,提出了一种基于文本分类的小样本数据描述规范化预处理方法;
具体步骤如下:
步骤一、构建标准实体数据表,标准实体数据表中包括若干类实体,每类实体由具有较强相关性的m列组成;
每类实体表示为:
O={c1,c2,...cj,...cm}
其中cj(1≤j≤m)表示实体的第j个属性。
标准实体数据表的集合表示为:SR={O1,O2,...OM};M表示标准实体的类数,为正整数。
每类实体可关联一个或多个非规范描述样本,称为关联样本;
实体类Oi的关联样本表示为:
Figure BDA0002261534410000011
步骤二、针对某个待处理的目标数据表,分析该目标数据表的各列属性,将描述同一个实体概念的一列或多列进行组合,构成若干类实体;
目标数据表中各类实体的集合表示为:{T1,T2,...TN};N表示该目标数据表中包含的实体类数,为正整数。每类实体表示为:T={l1,l2,...li,...lt};其中li(1≤i≤t)表示实体T的第i个属性。
步骤三、将目标数据表中的每类实体中的每个列属性,与标准实体数据表中对应的各个列属性一一建立映射关联;
则映射表示为:li→cj(1≤i≤t,1≤j≤m),多个不同的列属性li可以映射到同一个标准列cj,反之不成立。
步骤四、依次选择已完成映射的某类实体,将该类实体的各个属性列构造成子表T'作为检查对象;
子表T'包含若干行,第一行是该实体类的所有属性;从第二行开始,每行数据内容为该类实体的每个实体案例;
步骤五、将子表T'中各实体案例分别构成目标描述O',通过相似性匹配算法计算各实体案例与标准数据表中对应的每类实体之间的相似度a;
a∈[0,1],其中0表示完全不同,1表示完全相同;
首先、依次选择子表T'中第一个实体案例构成目标描述O',同时选择标准数据表中映射对应的实体O,及其相关的关联样本集SP(O)
然后,将目标描述O'中的每一属性列分别与标准实体O中映射对应列,以及关联样本集SP(O)中包含的对应样本依次进行比较,计算各属性列与标准实体映射列,以及关联样本对应列的相似值;并取均值作为该实体案例的相似度。
针对目标描述O'中的属性列ci'映射到标准实体O中的属性列为cj,进行比较的过程如下:
步骤501、判断目标描述O'中的属性列ci'与映射的属性列cj对应的文本值是否完全相同,如果是,则记ct1=0;否则记ct1=1,并对上述文本值进行分词处理,得到两个词汇集合W(1)和W(2)
两个词汇集合分别记为
Figure BDA0002261534410000021
W(1)为目标描述O'中的属性列ci'进行分词处理得到的词汇集合;
W(2)为标准数据表中的属性列cj进行分词处理得到的词汇集合;
步骤502、判断词汇集合W(1)和W(2)中交集元素的数量ct2是否大于0,如果是,则分别从W(1)和W(2)中删除交集项,进入步骤5023;否则,直接进入步骤5023;
步骤503、对当前集合W(1)中剩余的每个词汇wi,将其分别与集合W(2)中剩余的每个词汇wj进行比较,判断词汇wi是否为词汇wj的子字符串,如果是,则ct2=ct2+0.5,且从集合W(1)中删除词汇wi;否则,进入步骤5024;
步骤504、判断词汇wj是否为词汇wi的子字符串,如果是,令ct2=ct2+0.5,并从集合W(2)中删除词汇wj。否则,ct2不变;进入步骤5025;
步骤505、利用两词汇集合W(1)和W(2)中的剩余元素,计算两个文本值之间的相似度sm;
定义为
Figure BDA0002261534410000031
ct3为两词汇集合W(1)和W(2)中的剩余元素数量之和;
步骤506、依次选择各关联样本,判断当前关联样本集是否为空,如果是,结束;否则,属性列c′i不变,将当前关联样本中对应的属性列设为cj,重复上述步骤,得到属性列c′i'与该关联样本的相似度;
步骤507、将属性列c′i与标准数据表中的映射属性列,以及各个关联样本的相似度组合在一起,得到属性列c′i的相似度列表;
相似度列表如下:SM=[sm0,sm1,sm2,...,smn3];
其中sm0为属性列c′i相对于标准数据表中的映射属性列的相似度,sm1为属性列c′i相对于第一个关联样本对应属性列的相似度;n3为该属性列c′i对应的关联样本的数量。
步骤508、取sm'=max(SM)作为属性列c′i维度上的最终相似度。
步骤509、依次选择该实体案例的下一个属性列,重复上述步骤,得到对应的最终相似度;直到遍历每个属性列,可得该实体案例最终的一组相似度;
Figure BDA0002261534410000041
其中n4为该实体案例的所有属性数量。
步骤510、将该实体案例的所有属性列的最终相似度取均值,得到该实体案例相对于标准数据表中映射实体的相似度。
均值公式为:
最后,顺序选择子表T'中第二个实体案例构成目标描述O',重复计算与标准数据表中映射实体,以及关联样本集的相似度;直至将子表T'中所有实体案例全部遍历完。
步骤六、针对子表T',选择与标准数据表中相似度小于等于1,且目标描述与标准数据表并非完全一致的各个实体案例,标识为非规范描述项,并根据相似度的数值划分等级;
非规范描述等级包括:一级(a=1但与标准描述非完全一致)、二级(a∈[0.5,1))、三级(a∈(0,0.5))和四级(a=0);
步骤七、遍历目标数据表中所有实体类,将所有非规范描述以不同的外观高亮标注,按等级从高到低给出修改建议。
具体修改建议如下:
若非规范程度为一级,说明该实体案例完全匹配某个标准项或其包含的关联样本,可直接将其替换为标准描述;
若非规范程度为二级,说明该实体案例与某个标准项具有较高的相似度,将其替换为相应的标准描述具有较高的置信度;
若非规范程度为三级,说明该实体案例与某个标准项具有一定的相似度,将其替换为相应的标准描述需谨慎;
若非规范程度为四级,说明当前标准描述参考信息中不存在与实体案例相似的标准项,无法给出修改建议。
本发明的优点在于:
(1)一种基于文本分类的小样本数据描述规范化预处理方法,构建了多属性实体模型,将属于同一概念的多个属性视为整体,提高了文本相似性匹配的准确性和效率;
(2)一种基于文本分类的小样本数据描述规范化预处理方法,构建了小样本条件下的分词模型和相似性匹配算法,提出了相似度判断准则;可在小样本条件下,智能推荐标准化描述。
(3)一种基于文本分类的小样本数据描述规范化预处理方法,建立了完备映射关系集;可用于在独立、封闭条件下进行同专业领域文本预处理。
附图说明
图1为本发明一种基于文本分类的小样本数据描述规范化预处理方法的流程图。
具体实施方式
下面结合实施例和附图,对本发明的实施方式做详细、清楚的描述。
本发明建立了基于文本聚类和相似度匹配的数据规范化预处理模型,提出了基于关系的小样本标准化参考实体构建方法,和基于置信度的分类判别标准,发展了智能推荐匹配及自动匹配技术。这一方法与传统方法基于大样本,分词独立匹配的方法区别明显,克服了其样本依赖性高,匹配准确度低和智能化水平差的缺点。
本发明首先,根据待处理数据的特点,建立规范化处理关系实体模型,依据实体模型构建标准实体集合;其次,以标准实体集合为基准,通过分词和匹配度算法对待处理数据进行匹配度计算;再次,根据分类判别标准处理匹配度结果,智能推荐标准化描述;最后,建立不规范描述与智能推荐结果的映射关系,逐步构建完备映射关系集,实现小样本条件下数据的规范化处理。
包括以下五个步骤:
a)确定目标数据表中的实体类型,综合分析组成目标数据表的列属性,将用于描述同一个实体概念的一个或多个列进行分类组合,构成若干实体类型。
b)构建标准描述参考信息与实体之间的映射。针对要处理的目标实体类型,基于标准描述库建立实体映射关联,将标准项中的属性与相关的实体类别中的属性进行一一对应,其中每一个标准项均为目标实体类型的实例。
c)建立规范化程度评价准则。根据目标实体同领域的历史数据检查结果,自动设定规范化程度评价指标。在检查过程中,依据置信度水平自动优化评价指标体系。
d)数据描述规范化检查。对目标数据表中的每个实体描述,自动将其与标准描述参考信息中的每个标准项进行文本相似性匹配,根据得到的相似性数值评价其规范化程度。
e)规范化处理,对经检查不规范的实体对象描述,按与标准项相似程度从高到低给出修改建议,将不规范项替换为标准项。
如图1所示,具体步骤如下:
步骤一、构建标准实体数据表,标准实体数据表中包括若干类实体,每类实体由具有较强相关性的m列组成;
每类实体表示为:
O={c1,c2,...cj,...cm} (1-1)
其中cj(1≤j≤m)表示实体的第j个属性。同属一类实体的属性之间具有较强的相关性,而不同实体类型之间的属性则相对独立。
标准实体数据表是一系列实体类型实例的集合,表示为:
SR={O1,O2,...OM} (1-2)
M表示标准实体的类数,为正整数。
每类实体可关联一个或多个非规范描述样本,称为关联样本;
实体类Oi的关联样本表示为:
Figure BDA0002261534410000061
这些样本是从历次数据规范化检查中收集而来,目的是提高文本分类准确性。
步骤二、针对某个待处理的目标数据表,分析该目标数据表的各列属性,将描述同一个实体概念的一列或多列进行组合,构成若干类实体;
目标数据表中各类实体的集合表示为:{T1,T2,...TN};N表示该目标数据表中包含的实体类数,为正整数。每类实体表示为:T={l1,l2,...li,...lt};其中li(1≤i≤t)表示实体T的第i个属性。
步骤三、将目标数据表中的每类实体中的每个列属性,与标准实体数据表中对应的各个列属性一一建立映射关联;
所述的实体映射是为了处理不同目标数据表中实体类别属性名可能与标准信息表中不一致,以及同一个目标数据表中可能存在多个实体实际类型相同的情况。
则映射表示为:li→cj(1≤i≤t,1≤j≤m),多个不同的列属性li可以映射到同一个标准列cj,反之不成立。
步骤四、依次选择已完成映射的某类实体,将该类实体的各个属性列构造成子表T'作为检查对象;
子表T'包含若干行,第一行是该实体类的所有属性;从第二行开始,每行数据内容为该类实体的每个实体案例;
步骤五、将子表T'中各实体案例分别构成目标描述O',通过相似性匹配算法计算各实体案例与标准数据表中对应的每类实体之间的相似度a;
a∈[0,1],其中0表示完全不同,1表示完全相同;
首先、依次选择子表T'中第一个实体案例构成目标描述O',同时选择标准数据表中映射对应的实体O,及其相关的关联样本集SP(O)
然后,将目标描述O'中的每一属性列分别与标准实体O中映射对应列,以及关联样本集SP(O)中包含的对应样本依次进行比较,计算各属性列与标准实体映射列,以及关联样本对应列的相似值;并取均值作为该实体案例的相似度。
针对目标描述O'中的属性列ci'映射到标准实体O中的属性列为cj,进行比较的过程如下:
步骤501、判断目标描述O'中的属性列ci'与映射的属性列cj对应的文本值是否完全相同,如果是,则记ct1=0;否则记ct1=1,并对上述文本值进行分词处理,得到两个词汇集合W(1)和W(2)
两个词汇集合分别记为
Figure BDA0002261534410000071
Figure BDA0002261534410000072
W(1)为目标描述O'中的属性列ci'进行分词处理得到的词汇集合;
W(2)为标准数据表中的属性列cj进行分词处理得到的词汇集合;
步骤502、判断词汇集合W(1)和W(2)中交集元素的数量ct2是否大于0,如果是,则分别从W(1)和W(2)中删除交集项,进入步骤5023;否则,直接进入步骤5023;
步骤503、对当前集合W(1)中剩余的每个词汇wi,将其分别与集合W(2)中剩余的每个词汇wj进行比较,判断词汇wi是否为词汇wj的子字符串,如果是,则ct2=ct2+0.5,且从集合W(1)中删除词汇wi;否则,进入步骤5024;
步骤504、判断词汇wj是否为词汇wi的子字符串,如果是,令ct2=ct2+0.5,并从集合W(2)中删除词汇wj。否则,ct2不变;进入步骤5025;
步骤505、利用两词汇集合W(1)和W(2)中的剩余元素,计算两个文本值之间的相似度sm;
定义为
Figure BDA0002261534410000073
ct3为两词汇集合W(1)和W(2)中的剩余元素数量之和;ct3=|W(1)|+|W(2)|。
步骤506、依次选择各关联样本,判断当前关联样本集是否为空,如果是,结束;否则,属性列c′i不变,将当前关联样本中对应的属性列设为cj,重复上述步骤,得到属性列c′i与该关联样本的相似度;
步骤507、将属性列c′i与标准数据表中的映射属性列,以及各个关联样本的相似度组合在一起,得到属性列c′i的相似度列表;
相似度列表如下:
SM=[sm0,sm1,sm2,...,smn3]; (1-7)
其中sm0为属性列c′i相对于标准数据表中的映射属性列的相似度,sm1为属性列c′i相对于第一个关联样本对应属性列的相似度;n3为该属性列c′i对应的关联样本的数量。
步骤508、取sm'=max(SM)作为属性列c′i维度上的最终相似度。
步骤509、依次选择该实体案例的下一个属性列,重复上述步骤,得到对应的最终相似度;直到遍历每个属性列,可得该实体案例最终的一组相似度;
Figure BDA0002261534410000081
其中n4为该实体案例的所有属性数量。
步骤510、将该实体案例的所有属性列的最终相似度取均值,得到该实体案例相对于标准数据表中映射实体的相似度。
均值公式为:
最后,顺序选择子表T'中第二个实体案例构成目标描述O',重复计算与标准数据表中映射实体,以及关联样本集的相似度;直至将子表T'中所有实体案例全部遍历完。
步骤六、针对子表T',选择与标准数据表中相似度小于等于1,且目标描述与标准数据表并非完全一致的各个实体案例,标识为非规范描述项,并根据相似度的数值划分等级;
非规范描述等级包括:一级(a=1但与标准描述非完全一致)、二级(a∈[0.5,1))、三级(a∈(0,0.5))和四级(a=0);
步骤七、遍历目标数据表中所有实体类,将所有非规范描述以不同的外观高亮标注,按等级从高到低给出修改建议。
所述规范化处理是根据目标描述的不规范程度提供修改建议,其依据是最相似标准项的相似度,具体修改建议如下:
若非规范程度为一级,说明该实体案例完全匹配某个标准项或其包含的关联样本,可直接将其替换为标准描述;
若非规范程度为二级,说明该实体案例与某个标准项具有较高的相似度,将其替换为相应的标准描述具有较高的置信度;
若非规范程度为三级,说明该实体案例与某个标准项具有一定的相似度,将其替换为相应的标准描述需谨慎;
若非规范程度为四级,说明当前标准描述参考信息中不存在与实体案例相似的标准项,无法给出修改建议。
下面以表1所示的部分合同信息为实施例对本发明进行进一步说明,本实施例有助于本领域相关技术人员理解本发明,但本发明保护范围不限于本实施例。
表1
1、确定目标数据表的实体类型
由表1所示数据列可以规划出以下几类实体,即填报单位、合同甲方和合同乙方,其中合同乙方包括合同乙方名称、合同乙方代号和合同乙方性质三个属性,分别对应相应的数据列。
2、构建标准描述参考信息
本实施例中使用的标准描述参考信息如表2所示。
表2
Figure BDA0002261534410000092
Figure BDA0002261534410000101
3、建立实体映射
将表1中的具体数据列对应到标准描述参考信息中的属性列。
例如,对于上述合同乙方实体,可得如下映射关系:合同乙方名称→名称,合同乙方代号→代号,合同乙方性质→性质。其他实体的映射方式类似。
4、数据描述规范化检查
以表1中的目标描述“1101厂,C5,上航集团”为例,将其与表2中合同乙方实体相关的标准项及其关联样本进行一一比较。
步骤1:与标准数据表中的描述“国营一一零一厂,C5,上航集团”进行比较时,首先比较第一个属性,即名称。由于“1101厂”与“国营一一零一厂”不同,则ct1=1;
步骤2:进行分词处理,分别可得两组词汇:
两组词汇交集为{“厂”},因此ct2=1,并各自将词汇“厂”删除。
步骤3:剩余词汇并不具有相互包含的情况,因此,ct3=4。
步骤4:可得两个实体名称属性的相似度为
sm0=ct2/(ct1+ct2+ct3)=0.2 (1-10)
由于当前标准项包含关联样本,该属性上对应的关联样本(即“1011厂”)相似度为sm1=1.0,最后得:
sm′1=max{sm0,sm1}=1.0 (1-11)
同理,在其他属性维度(即代号和性质)上的相似度为sm'2=1.0和sm'3=0.6。最终在所有属性上取均值,得:
sm=(sm′1+sm'2+sm'3)/3=0.87 (1-12)
其他目标描述与标准描述参考信息的相似性比较过程同上。
5、规范化处理
仍以上述目标描述“1101厂,C5,上航集团”为例,其与每个相关的标准项的相似度如表3所示(按相似度降序排列)。可见,目标描述不规范程度为一级,并可被自动替换为标准描述“国营一一零一厂,C5,上航集团”。然而,如有必要也可手动替换为其他相似度较低的标准项。
表3
Figure BDA0002261534410000111

Claims (4)

1.一种基于文本分类的小样本数据描述规范化预处理方法,其特征在于,具体步骤如下:
步骤一、构建标准实体数据表,标准实体数据表中包括若干类实体,每类实体由具有较强相关性的m列组成;
每类实体表示为:
O={c1,c2,...cj,...cm}
其中cj(1≤j≤m)表示实体的第j个属性;
标准实体数据表的集合表示为:SR={O1,O2,...OM};M表示标准实体的类数,为正整数;
每类实体可关联一个或多个非规范描述样本,称为关联样本;
实体类Oi的关联样本表示为:
步骤二、针对某个待处理的目标数据表,分析该目标数据表的各列属性,将描述同一个实体概念的一列或多列进行组合,构成若干类实体;
目标数据表中各类实体的集合表示为:{T1,T2,...TN};N表示该目标数据表中包含的实体类数,为正整数;每类实体表示为:T={l1,l2,...li,...lt};其中li(1≤i≤t)表示实体T的第i个属性;
步骤三、将目标数据表中的每类实体中的每个列属性,与标准实体数据表中对应的各个列属性一一建立映射关联;
则映射表示为:li→cj(1≤i≤t,1≤j≤m),多个不同的列属性li可以映射到同一个标准列cj,反之不成立;
步骤四、依次选择已完成映射的某类实体,将该类实体的各个属性列构造成子表T'作为检查对象;
步骤五、将子表T'中各实体案例分别构成目标描述O',通过相似性匹配算法计算各实体案例与标准数据表中对应的每类实体之间的相似度a;
a∈[0,1],其中0表示完全不同,1表示完全相同;
首先、依次选择子表T'中第一个实体案例构成目标描述O',同时选择标准数据表中映射对应的实体O,及其相关的关联样本集SP(O)
然后,将目标描述O'中的每一属性列分别与标准实体O中映射对应列,以及关联样本集SP(O)中包含的对应样本依次进行比较,计算各属性列与标准实体映射列,以及关联样本对应列的相似值;并取均值作为该实体案例的相似度;
最后,顺序选择子表T'中第二个实体案例构成目标描述O',重复计算与标准数据表中映射实体,以及关联样本集的相似度;直至将子表T'中所有实体案例全部遍历完;
步骤六、针对子表T',选择与标准数据表中相似度小于等于1,且目标描述与标准数据表并非完全一致的各个实体案例,标识为非规范描述项,并根据相似度的数值划分等级;
非规范描述等级包括:一级(a=1但与标准描述非完全一致)、二级(a∈[0.5,1))、三级(a∈(0,0.5))和四级(a=0);
步骤七、遍历目标数据表中所有实体类,将所有非规范描述以不同的外观高亮标注,按等级从高到低给出修改建议。
2.如权利要求1所述的一种基于文本分类的小样本数据描述规范化预处理方法,其特征在于,所述的步骤四种的子表T'包含若干行,第一行是该实体类的所有属性;从第二行开始,每行数据内容为该类实体的每个实体案例。
3.如权利要求1所述的一种基于文本分类的小样本数据描述规范化预处理方法,其特征在于,步骤五中所述的目标描述O'的相似度计算过程如下:
步骤501、判断目标描述O'中的属性列ci'与映射的属性列cj对应的文本值是否完全相同,如果是,则记ct1=0;否则记ct1=1,并对上述文本值进行分词处理,得到两个词汇集合W(1)和W(2)
两个词汇集合分别记为
Figure FDA0002261534400000021
Figure FDA0002261534400000022
W(1)为目标描述O'中的属性列ci'进行分词处理得到的词汇集合;
W(2)为标准数据表中的属性列cj进行分词处理得到的词汇集合;
步骤502、判断词汇集合W(1)和W(2)中交集元素的数量ct2是否大于0,如果是,则分别从W(1)和W(2)中删除交集项,进入步骤5023;否则,直接进入步骤5023;
步骤503、对当前集合W(1)中剩余的每个词汇wi,将其分别与集合W(2)中剩余的每个词汇wj进行比较,判断词汇wi是否为词汇wj的子字符串,如果是,则ct2=ct2+0.5,且从集合W(1)中删除词汇wi;否则,进入步骤5024;
步骤504、判断词汇wj是否为词汇wi的子字符串,如果是,令ct2=ct2+0.5,并从集合W(2)中删除词汇wj;否则,ct2不变;进入步骤5025;
步骤505、利用两词汇集合W(1)和W(2)中的剩余元素,计算两个文本值之间的相似度sm;
定义为
Figure FDA0002261534400000023
ct3为两词汇集合W(1)和W(2)中的剩余元素数量之和;
步骤506、依次选择各关联样本,判断当前关联样本集是否为空,如果是,结束;否则,属性列c′i不变,将当前关联样本中对应的属性列设为cj,重复上述步骤,得到属性列c′i与该关联样本的相似度;
步骤507、将属性列c′i与标准数据表中的映射属性列,以及各个关联样本的相似度组合在一起,得到属性列c′i的相似度列表;
相似度列表如下:SM=[sm0,sm1,sm2,...,smn3];
其中sm0为属性列c′i相对于标准数据表中的映射属性列的相似度,sm1为属性列c′i相对于第一个关联样本对应属性列的相似度;n3为该属性列c′i对应的关联样本的数量;
步骤508、取sm'=max(SM)作为属性列c′i维度上的最终相似度;
步骤509、依次选择该实体案例的下一个属性列,重复上述步骤,得到对应的最终相似度;直到遍历每个属性列,可得该实体案例最终的一组相似度;
Figure FDA0002261534400000031
其中n4为该实体案例的所有属性数量;
步骤510、将该实体案例的所有属性列的最终相似度取均值,得到该实体案例相对于标准数据表中映射实体的相似度;
均值公式为:
Figure FDA0002261534400000032
4.如权利要求1所述的一种基于文本分类的小样本数据描述规范化预处理方法,其特征在于,步骤七中所述的修改建议如下:
若非规范程度为一级,说明该实体案例完全匹配某个标准项或其包含的关联样本,可直接将其替换为标准描述;
若非规范程度为二级,说明该实体案例与某个标准项具有较高的相似度,将其替换为相应的标准描述具有较高的置信度;
若非规范程度为三级,说明该实体案例与某个标准项具有一定的相似度,将其替换为相应的标准描述需谨慎;
若非规范程度为四级,说明当前标准描述参考信息中不存在与实体案例相似的标准项,无法给出修改建议。
CN201911072954.2A 2019-10-30 2019-11-05 一种基于文本分类的小样本数据描述规范化预处理方法 Active CN110826326B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019110459789 2019-10-30
CN201911045978 2019-10-30

Publications (2)

Publication Number Publication Date
CN110826326A true CN110826326A (zh) 2020-02-21
CN110826326B CN110826326B (zh) 2022-09-30

Family

ID=69552696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911072954.2A Active CN110826326B (zh) 2019-10-30 2019-11-05 一种基于文本分类的小样本数据描述规范化预处理方法

Country Status (1)

Country Link
CN (1) CN110826326B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255353A (zh) * 2021-05-31 2021-08-13 中国科学院计算技术研究所厦门数据智能研究院 一种实体标准化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN107609052A (zh) * 2017-08-23 2018-01-19 中国科学院软件研究所 一种基于语义三角的领域知识图谱的生成方法及装置
CN109471950A (zh) * 2018-11-19 2019-03-15 北京交通大学 腹部超声文本数据的结构化知识网络的构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN107609052A (zh) * 2017-08-23 2018-01-19 中国科学院软件研究所 一种基于语义三角的领域知识图谱的生成方法及装置
CN109471950A (zh) * 2018-11-19 2019-03-15 北京交通大学 腹部超声文本数据的结构化知识网络的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王随涛等: "泛化类型的机读词典属性信息抽取", 《计算机应用与软件》 *
马雷雷等: "一种基于描述逻辑的空间语义相似性计算方法", 《测绘科学技术学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255353A (zh) * 2021-05-31 2021-08-13 中国科学院计算技术研究所厦门数据智能研究院 一种实体标准化方法

Also Published As

Publication number Publication date
CN110826326B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
US8015198B2 (en) Method for automatically indexing documents
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
CN112756759B (zh) 点焊机器人工作站故障判定方法
US5970171A (en) Apparatus and method of fusing the outputs of multiple intelligent character recognition (ICR) systems to reduce error rate
CN106886565B (zh) 一种基础房型自动聚合方法
CN110826326B (zh) 一种基于文本分类的小样本数据描述规范化预处理方法
CN116226103A (zh) 一种基于FPGrowth算法进行政务数据质量检测的方法
CN114491081A (zh) 基于数据血缘关系图谱的电力数据溯源方法及系统
CN107480126B (zh) 一种工程材料类别智能识别方法
CN110083815B (zh) 一种同义变量识别方法和系统
CN111680740A (zh) 神经网络的训练方法、装置及用电负荷的判别方法、装置
CN111160756A (zh) 基于二次人工智能算法的景区评估方法及模型
CN114511027B (zh) 通过大数据网络进行英语远程数据提取方法
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN110688445B (zh) 一种数字化档案建设方法
CN112861956A (zh) 基于数据分析的水污染模型构建方法
CN104572854A (zh) 一种基于决策树的译员分类方法
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
CN117952091A (zh) 一种基于自动分类的文本审查方法
CN115858765B (zh) 一种基于数据对比分析的自动评分的智能考试平台
AU2012258320B2 (en) A method for automatically indexing documents
CN112633652A (zh) 基于语义风险自适应识别的物流安检方法
CN118095794A (zh) 基于正则算法的工单信息提取方法及系统
CN118035764A (zh) 数据主体的确定方法、装置及电子设备
CN109858713A (zh) 证券分析师预测准确性的评价方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant