CN105787088A - 一种基于分段编码遗传算法的文本信息分类方法 - Google Patents

一种基于分段编码遗传算法的文本信息分类方法 Download PDF

Info

Publication number
CN105787088A
CN105787088A CN201610144800.XA CN201610144800A CN105787088A CN 105787088 A CN105787088 A CN 105787088A CN 201610144800 A CN201610144800 A CN 201610144800A CN 105787088 A CN105787088 A CN 105787088A
Authority
CN
China
Prior art keywords
population
chromosome
text information
dimensionality reduction
text message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610144800.XA
Other languages
English (en)
Other versions
CN105787088B (zh
Inventor
童飞
童一飞
裴凤雀
周开俊
江松
卓兴成
李东波
何非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201610144800.XA priority Critical patent/CN105787088B/zh
Publication of CN105787088A publication Critical patent/CN105787088A/zh
Application granted granted Critical
Publication of CN105787088B publication Critical patent/CN105787088B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/146Coding or compression of tree-structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Algebra (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及智能制造信息分析技术,尤其是涉及一种基于分段编码遗传算法的文本信息分类方法。本发明主要包括以下步骤:通过文本前处理技术生成相应的文本信息矩阵,即为群体规模,给定降维特征数,随机产生初始群体,同时标记优化目标函数值最大的染色体,记录优化函数值;染色体采用分段编码(每段对应一类),对初始种群交叉、变异生产新的种群,计算优化种群的优化函数值。本发明可以生成优化的文本信息分类,基于分段编码/交叉的合理分类可以解决遗传算法因数据量大而产生的工作效率低下的问题,同时因分段编码/交叉可以实现分布式处理、并行操作,可极大地提高后续数据处理的效率。

Description

一种基于分段编码遗传算法的文本信息分类方法
技术领域
本发明涉及一种基于分段编码遗传算法的文本信息分类方法,属于智能信息分析技术领域。
背景技术
据不完全统计全球互联网提供的科技信息总量超过20TB,而且正以每年高于5%的速度增长。互联网带来海量文本信息的同时也产生了一些问题,一方面用户对文本信息的大量需求,另一方面文本信息的大规模积累,用户要获取想要的信息必须要花费大量的时间,而且有时需求者无法及时准确的找到所需信息。
而如何对如此庞大的文本信息进行分类检索和管理一直是研究人员研究的热点,例如以医院患者对病情的描述文本为研究对象,通过患者描述的特征(关键词)“我很头痛”、“我腿骨断了”等可以将病情快速、准确地分类,从而帮助医生诊疗。目前传统的文本分类算法主要有两类:一类是基于统计的文本分类算法,如贝叶斯分类算法、支持向量机、K-最邻近和Rocchio算法等;一类是基于规则的文本分类算法,如基于决策树、粗糙集、模糊集合等的分类算法等。这两类算法都存在计算复杂度大,难以应对大规模文本集分类的问题,而信息分类耗时太长也难以适用于实际应用,因此不具有工程应用价值。
发明内容
本发明要解决技术问题是:克服上述现有技术的缺点,提供一种可以快速、准确地对大规模文本集进行信息分类的方法,该方法具有较高的工程应用价值。
为了解决上述技术问题,本发明提出的技术方案是:一种基于分段编码遗传算法的文本信息分类方法,假设文本信息共分为t种类型,分别记为C1,C2,…,Ct,式中t≥2,其中Ci类文本信息预设通过ki个特征表示,1≤i≤t;则文本信息中共有个特征,设特征向量
F = [ F 1 , F 2 , ... , F k 1 , F k 1 + 1 , F k 1 + 2 , ... , F k 1 + k 2 , F k 1 + k 2 + 1 , ... , F n ] ,
其中F1,F2,…,Fn分别表示不同的特征;
所述方法包括以下步骤:
第一步、从每个待分类文本信息mc中找出所有的特征,则该文本信息描述为其中表示该文本信息mc与特征向量F的关系矩阵;为关系运算符号,aj取0或1,当aj=0时表示该文本信息中不包含特征Fj,当aj=1时表示该文本信息中包含特征Fj,其中1≤j≤n;
以每个待分类文本信息mc的关系矩阵A为染色体进行基因编码,并随机选取d个染色体生成初始种群,将初始种群作为当代种群;
第二步、对当代种群的染色体进行适应度计算来筛选保留作为子代染色体,步骤为:
步骤一、给定任一染色体的降维优化函数为
f ( p ) = Σ i = 1 t ( s i m · Σ j = 1 k i x i j s i · a i ) ,
式中p为降维特征数,si为该染色体T中包含Ci类的所有ki个特征总数量,xij为Ci类的第j个特征出现的次数,1≤i≤t,
步骤二、找到初始种群中降维优化函数值最大的染色体记为其降维优化函数值记为
步骤三、计算当代种群中所有染色体的降维优化函数值,找出使降维优化函数最大的染色体U,其降维优化函数值为f,如果则令同时找出当代种群中所有染色体的降维优化函数值最小的染色体V,其降维优化函数值为fmin,如果则令
第三步、对第二步筛选后的当代种群进行变异和交叉,得到子代种群,如不满足迭代终止条件则将子代种群作为当代种群并转到第二步,否则执行第四步;
第四步、计算第三步得到的子代种群所有染色体中包含Ci类文本信息的特征总数量s1i,以及所有染色体中Ci类文本信息第j个特征出现的次数x1ij,其中1≤i≤t,1≤j≤ki,令计算每个待分类文本信息mc的目标函数值
g ( m c ) = max i = 1 , 2 , ... , t ( s 1 i m 1 · Σ j = 1 k i x 1 i j s 1 i · y i j )
式中,yij为待分类文本信息mc中Ci类文本信息第j个特征出现的次数;
第五步、将待分类文本信息mc划归到使目标函数值g(mc)最大的类,得出分类结果。
本发明先随机选取d个待分类文本信息作为训练样本,通过降维优化函数(即适应度函数)对每一代种群中的染色体采用精英保留(保留降维优化函数值大的染色体)、末尾取代(用最优染色体替代不适应的染色体)的方法将训练样本的特征数从n个逐渐剔除相应类中出现的频次低、重要性低的特征,并保留相应类中出现的频次高、重要性高的特征作为分类的依据,然后将所有的待分类的文本信息依次通过目标函数进行分类,最终得到分类结果。本发明的方法可以生成优化的文本信息分类,并极大的增加了计算过程的准确性和高效性,实践证明具有较高的工程应用价值。
本发明的迭代终止条件一般为遗传代数达到预定值时终止,当然也可以采用常规的阈值方法(需要在训练样本中选取一个阈值函数)。
上述技术方案的进一步改进是:第三步中将每个染色体顺序分成t段,其中每段对应一类,即第i段包括ki个特征,1≤i≤t;将当代种群每个染色体对应的关系矩阵作为一行从而使当代种群的所有染色体形成一个d行n列的种群矩阵,并采用段内整列交叉移位结合段间整列交叉移位的方法对当代种群进行交叉运算。
这样,所有染色体均经列交叉,且不会改变每个染色体中基因取值为1的个数,保证了最后训练样本的特征数降维的统一性。另外,这种交叉方法无需考虑父代的染色体情况,获得的子代染色体均会有一定程度的变异效果,有利于保持种群的多样化,而且可以加快训练样本的特征数的降维,可以提高分类的速度和准确性。
本发明通过对传统遗传算法进行编码改进,通过采用段内全种群整列交叉移位重组与段间交叉相结合的方案求解,可用于分布式(离散)以及并行计算与处理,从而大大缓解了传统遗传算法、基于统计的文本分类算法和基于规则的文本分类算法在应对大数据时存在的计算量大、计算缓慢、效率低下、精确度低等问题。
优选的,第三步中在进行段内整列交叉移位以及段间整列交叉移位时,每次移位一列或多列。
上述技术方案的进一步改进是:第三步中进行变异运算时,将当代种群每个染色体对应的关系矩阵作为一行从而使当代种群的所有染色体形成一个d行n列的种群矩阵,随机产生一个0到n的随机数作为种群矩阵的列编号,另外随机产生两个0到d的随机数作为种群矩阵的行交换位置,将行交换位置的列对应的基因值进行交换。这样在交换位置变异时可以保证染色体的基因值不相同,尽可能改变原染色体值,有利于产生新的染色体,从而进一步提高计算过程的准确性和高效性。
附图说明
下面结合附图对本发明作进一步说明。
图1是本发明实施例的流程示意图。
图2为段内整列交叉的示意图。
图3为将染色体进行分段的示意图。
具体实施方式
实施例
本实施例通过病人对病情文本描述进行病情划分为例,以医院患者对病情的描述文本为研究对象,如“我很头痛”、“我腿骨断了”等,给定初始种群规模(可以为10000等固定值,表示训练样本中所有文本信息的数量)。
本实施例中文本信息共分为t种类型,即t代表可以被划分的病情种类数,分别记为C1,C2,…,Ct,式中t≥2,其中Ci类文本信息预设通过ki个特征表示,1≤i≤t,如“我很头痛”和“我的头被书本砸到了”组成一类,这一类的特征表示为{“我”“很”“头痛”“的”“被”“书本”“砸到”“了”}共8个特征;则文本信息中共有个特征,设特征向量
F = [ F 1 , F 2 , ... , F k 1 , F k 1 + 1 , F k 1 + 2 , ... , F k 1 + k 2 , F k 1 + k 2 + 1 , ... , F n ] ,
其中F1,F2,…,Fn分别表示不同的特征;
本发明的分类方法如图1所示,包括以下步骤:
第一步、从每个待分类文本信息mc中找出所有的特征(可以通过现有技术中的文本前处理技术提取文本信息中的特征),则该文本信息描述为其中表示该文本信息mc与特征向量F的关系矩阵;为关系运算符号,aj取0或1,当aj=0时表示该文本信息中不包含特征Fj,当aj=1时表示该文本信息中包含特征Fj,其中1≤j≤n;
以每个待分类文本信息mc的关系矩阵A为染色体进行基因编码,并随机选取d个染色体生成初始种群,将初始种群作为当代种群。
第二步、对当代种群的染色体进行适应度计算来筛选保留作为子代染色体,步骤为:
步骤一、给定任一染色体的降维优化函数为
f ( p ) = Σ i = 1 t ( s i m · Σ j = 1 k i x i j s i · a i ) ,
式中,p为降维特征数,si为该染色体T中包含Ci类的所有ki个特征的总数量,xij为Ci类的第j个特征出现的次数,1≤i≤t,
步骤二、找到初始种群中降维优化函数值最大的染色体记为其降维优化函数值记为
步骤三、计算当代种群中所有染色体的降维优化函数值,找出使降维优化函数最大的染色体U,其降维优化函数值为f,如果则令
同时找出当代种群中所有染色体的降维优化函数值最小的染色体V,其降维优化函数值为fmin,如果则令
如“我的头下午很痛”和“是因为我的头上午被课本砸到了”中的特征数量为“我的”2次、“头”2次、“下午”1次、“很”1次、“痛”1次“是”1次、“因为”1次、“上午”1次、“被”1次、“课本”1次、“砸到”1次、“了”1次,“头”出现的频次为2,所以代表“头”的特征值数量是2,特征的总数量m=14。如果预先选定“头”、“手”“脚”等作为文本信息的特征,则“头”的频次为2,“脚”的频次为0,显然当p相同时,含有“头”的染色体的f(p)更大,说明“头”在相应类中出现的频次高、重要性高,最终将得以保留。
第三步、对第二步筛选后的当代种群进行变异和交叉(可采用传统的变异和交叉方法),得到子代种群,如不满足迭代终止条件则将子代种群作为当代种群并转到第二步,否则执行第四步。本实施例中迭代终止条件为遗传代数达到预定值时终止,如迭代30000次等。
第四步、计算第三步得到的子代种群所有染色体中包含Ci类文本信息的特征总数量s1i,以及所有染色体中Ci类文本信息第j个特征出现的次数x1ij,其中1≤i≤t,1≤j≤ki,令计算每个待分类文本信息mc的目标函数值
g ( m c ) = max i = 1 , 2 , ... , t ( s 1 i m 1 · Σ j = 1 k i x 1 i j s 1 i · y i j )
式中,yij为待分类文本信息mc中Ci类文本信息第j个特征出现的次数;
第五步、将待分类文本信息mc划归到使目标函数值g(mc)最大的类,即待分类文本信息mc与该类的特征之间的关联性最强,因此得出分类结果。
本实施例还可以作以下改进:1)为了保证种群的交叉效果,第三步中将每个染色体顺序分成t段,如图3所示,其中每段对应一类,即第i段包括ki个特征,1≤i≤t;将当代种群每个染色体对应的关系矩阵作为一行从而使当代种群的所有染色体形成一个d行n列的种群矩阵,并在在设定交叉概率的条件下采用段内整列交叉移位结合段间整列交叉移位的方法对当代种群进行交叉运算。
段内整列交叉移位以图2所示为例,种群矩阵的某一段共有7行7列,随机在其中选择一个3列的交配区域,然后将交配区域加到父代种群中该段的前面,再顺次后移3列即得到子代种群,此方法的好处是所有染色体均经整列交叉,且不会改变每个染色体中特征值为1的个数,保证了最后降维特征数的统一性。另外,这种交叉方法无需考虑父代染色体情况,获得的子代染色体均会有一定程度的变异效果,有利于保持种群的多样化。
段间整列交叉移位与段内整列交叉移位类似,共区别在于移位操作在段间进行。另外需要说明的是,在进行段间整列交叉移位或段内整列交叉移位时,每次可以移位一列或多列。
2)第三步中进行变异运算时,将当代种群每个染色体对应的关系矩阵作为一行从而使当代种群的所有染色体形成一个d行n列的种群矩阵,随机产生一个0到n的随机数作为种群矩阵的列编号,另外随机产生两个0到d的随机数作为种群矩阵的行交换位置,将行交换位置的列对应的基因值进行交换。这样可以保证染色体的基因值不相同,尽可能改变原染色体值,有利于产生新的染色体。
3)第四步中得到的子代种群中每个染色体的降维特征数p为预设的固定值,该固定值是技术人员大致给定的作为判断依据的特征数量,这样结合技术人员的常识可以避免训练样本中的特征剔除过多,影响分类的准确性,例如在通过文本信息判断病人病情的过程中,需要有100个特征词作为判断依据。在实施时,通过合适的交叉和变异保证训练样本中每个染色体的特征数量不小于上述预设的固定值。
本发明不局限于上述实施例所述的具体技术方案,除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换形成的技术方案,均为本发明要求的保护范围。

Claims (4)

1.一种基于分段编码遗传算法的文本信息分类方法,分别将分为t种类型的文本信息记为C1,C2,…,Ct,式中t≥2,其中Ci类文本信息预设通过ki个特征表示,1≤i≤t;则文本信息中共有个特征,设特征向量
F = [ F 1 , F 2 , ... , F k 1 , F k 1 + 1 , F k 1 + 2 , ... , F k 1 + k 2 , F k 1 + k 2 + 1 , ... , F n ] ,
其中F1,F2,…,Fn分别表示不同的特征;
接着进行以下步骤:
第一步、从每个待分类文本信息mc中找出所有特征,该文本信息描述为其中表示该文本信息mc与特征向量F的关系矩阵;为关系运算符号,aj取0或1,当aj=0时表示该文本信息中不包含特征Fj,当aj=1时表示该文本信息中包含特征Fj,其中1≤j≤n;
以每个待分类文本信息mc的关系矩阵A为染色体的基因编码,并随机选取d个染色体生成初始种群,将初始种群作为当代种群;
第二步、对当代种群的染色体进行适应度计算来筛选保留作为子代染色体,步骤为:
步骤一、给定任一染色体的降维优化函数为
f ( p ) = Σ i = 1 t ( s i m · Σ j = 1 k i x i j s i · a i ) ,
式中p为降维特征数,si为该染色体T中包含Ci类的所有ki个特征总数量,xij为Ci类的第j个特征出现的次数,1≤i≤t,
步骤二、找到初始种群中降维优化函数值最大的染色体记为其降维优化函数值记为
步骤三、计算当代种群中所有染色体的降维优化函数值,找出使降维优化函数最大的染色体U,其降维优化函数值为f,如果则令同时找出当代种群中所有染色体的降维优化函数值最小的染色体V,其降维优化函数值为fmin,如果则令 V = U ‾ , f m i n = f ‾ ;
第三步、对第二步筛选后的当代种群进行变异和交叉,得到子代种群,如不满足迭代终止条件则将子代种群作为当代种群并转到第二步,否则执行第四步;
第四步、计算第三步得到的子代种群所有染色体中包含Ci类文本信息的特征总数量s1i,以及所有染色体中Ci类文本信息第j个特征出现的次数x1ij,其中1≤i≤t,1≤j≤ki,令计算每个待分类文本信息mc的目标函数值
g ( m c ) = max i = 1 , 2 , ... , t ( s 1 i m 1 · Σ j = 1 k i x 1 i j s 1 i · y i j )
式中,yij为待分类文本信息mc中Ci类文本信息第j个特征出现的次数;
第五步、将待分类分配信息mc划归到使目标函数g(mc)最大的类,得出分类结果。
2.根据权利要求1所述的基于分段编码遗传算法的文本信息分类方法,其特征在于:第三步中将每个染色体顺序分成t段,其中每段对应一类,即第i段包括ki个特征,1≤i≤t;将当代种群每个染色体对应的关系矩阵作为一行从而使当代种群的所有染色体形成一个d行n列的种群矩阵,并采用段内整列交叉移位结合段间整列交叉移位的方法对当代种群进行交叉运算。
3.根据权利要求2所述的基于分段编码遗传算法的文本信息分类方法,其特征在于:第三步中在进行段内整列交叉移位以及段间整列交叉移位时,每次移位一列或多列。
4.根据权利要求1-3之任一所述的基于分段编码遗传算法的文本信息分类方法,其特征在于:第三步中进行变异运算时,将当代种群每个染色体对应的关系矩阵作为一行从而使当代种群的所有染色体形成一个d行n列的种群矩阵,随机产生一个0到n的随机数作为种群矩阵的列编号,另外随机产生两个0到d的随机数作为种群矩阵的行交换位置,将行交换位置的列对应的基因值进行交换。
CN201610144800.XA 2016-03-14 2016-03-14 一种基于分段编码遗传算法的文本信息分类方法 Expired - Fee Related CN105787088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610144800.XA CN105787088B (zh) 2016-03-14 2016-03-14 一种基于分段编码遗传算法的文本信息分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610144800.XA CN105787088B (zh) 2016-03-14 2016-03-14 一种基于分段编码遗传算法的文本信息分类方法

Publications (2)

Publication Number Publication Date
CN105787088A true CN105787088A (zh) 2016-07-20
CN105787088B CN105787088B (zh) 2018-12-07

Family

ID=56393263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610144800.XA Expired - Fee Related CN105787088B (zh) 2016-03-14 2016-03-14 一种基于分段编码遗传算法的文本信息分类方法

Country Status (1)

Country Link
CN (1) CN105787088B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2666277C1 (ru) * 2017-09-06 2018-09-06 Общество с ограниченной ответственностью "Аби Продакшн" Сегментация текста
CN109918659A (zh) * 2019-02-28 2019-06-21 华南理工大学 一种基于不保留最优个体遗传算法优化词向量的方法
CN109977227A (zh) * 2019-03-19 2019-07-05 中国科学院自动化研究所 基于特征编码的文本特征提取方法、系统、装置
CN111462915A (zh) * 2020-03-20 2020-07-28 云知声智能科技股份有限公司 一种医疗文本数据自动标注方法
CN111797634A (zh) * 2020-06-04 2020-10-20 语联网(武汉)信息技术有限公司 文档分割方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN101814086A (zh) * 2010-02-05 2010-08-25 山东师范大学 一种基于模糊遗传算法的中文web信息过滤方法
CN104063472A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种优化训练样本集的knn文本分类方法
KR20150050603A (ko) * 2013-10-29 2015-05-11 중앙대학교 산학협력단 경로 탐색 방법 및 그 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN101814086A (zh) * 2010-02-05 2010-08-25 山东师范大学 一种基于模糊遗传算法的中文web信息过滤方法
KR20150050603A (ko) * 2013-10-29 2015-05-11 중앙대학교 산학협력단 경로 탐색 방법 및 그 장치
CN104063472A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种优化训练样本集的knn文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邬开俊等: "采用并行协同进化遗传算法的文本特征选择", 《系统工程理论与实践》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2666277C1 (ru) * 2017-09-06 2018-09-06 Общество с ограниченной ответственностью "Аби Продакшн" Сегментация текста
CN109918659A (zh) * 2019-02-28 2019-06-21 华南理工大学 一种基于不保留最优个体遗传算法优化词向量的方法
CN109977227A (zh) * 2019-03-19 2019-07-05 中国科学院自动化研究所 基于特征编码的文本特征提取方法、系统、装置
CN111462915A (zh) * 2020-03-20 2020-07-28 云知声智能科技股份有限公司 一种医疗文本数据自动标注方法
CN111462915B (zh) * 2020-03-20 2023-08-18 云知声智能科技股份有限公司 一种医疗文本数据自动标注方法
CN111797634A (zh) * 2020-06-04 2020-10-20 语联网(武汉)信息技术有限公司 文档分割方法及装置
CN111797634B (zh) * 2020-06-04 2023-09-08 语联网(武汉)信息技术有限公司 文档分割方法及装置

Also Published As

Publication number Publication date
CN105787088B (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN105787088A (zh) 一种基于分段编码遗传算法的文本信息分类方法
CN105824802A (zh) 一种获取知识图谱向量化表示的方法以及装置
CN103116324B (zh) 基于指标预测和在线学习的微电子生产线调度方法
Bongard et al. Active coevolutionary learning of deterministic finite automata.
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
Farid et al. Mining complex data streams: discretization, attribute selection and classification
CN105303450A (zh) 基于谱聚类改进交叉的复杂网络社区发现方法
Boyabatli et al. Parameter selection in genetic algorithms
JP2005038386A (ja) 文章分類装置および方法
Kwasnicka et al. Multi population pattern searching algorithm: a new evolutionary method based on the idea of messy genetic algorithm
CN110021344A (zh) 鉴别和分类宏基因组样本中的操作分类单元的方法和系统
US9471871B2 (en) Method of generating features optimal to a dataset and classifier
Lawless et al. Interpretable clustering via multi-polytope machines
Gusfield Persistent phylogeny: a galled-tree and integer linear programming approach
De Falco et al. An Innovative Approach to Genetic Programming—based Clustering
Woodward et al. Why classifying search algorithms is essential
JP6226258B1 (ja) 特許文献集合の分析方法
Todo et al. Fitting unstructured finite mixture models in longitudinal design: a recommendation for model selection and estimation of the number of classes
Cartwright The genetic algorithm in science
WO2018151619A1 (en) Network analysis tool testing
O'Neill et al. Hidden quantum Markov models with one qubit
Fujita Retrieval parameter optimization using genetic algorithms
JP6230501B2 (ja) 縮約素性生成装置、情報処理装置、方法、及びプログラム
Sorge et al. Automatic construction and verification of isotopy invariants
Fu et al. Iterative privileged learning for multi-view classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181207

Termination date: 20200314