CN106294466A - 分类模型构建方法、分类模型构建设备和分类方法 - Google Patents

分类模型构建方法、分类模型构建设备和分类方法 Download PDF

Info

Publication number
CN106294466A
CN106294466A CN201510295957.8A CN201510295957A CN106294466A CN 106294466 A CN106294466 A CN 106294466A CN 201510295957 A CN201510295957 A CN 201510295957A CN 106294466 A CN106294466 A CN 106294466A
Authority
CN
China
Prior art keywords
sample
rare
training
disaggregated model
rareness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510295957.8A
Other languages
English (en)
Inventor
杨振华
皮冰锋
周恩策
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201510295957.8A priority Critical patent/CN106294466A/zh
Publication of CN106294466A publication Critical patent/CN106294466A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

公开了一种分类模型构建方法、设备和分类方法,该分类模型构建方法包括:对预定训练样本集合中的训练样本进行特征提取,以将预定训练样本集合转换为具有期望数据结构的训练集合;针对训练集合中的稀少样本集合中的各个稀少样本,根据该稀少样本的邻近样本的分布而判断该稀少样本是边界样本还是中心样本;根据稀少样本的类型而增加稀少样本集合的样本数量,以使得训练集合中的稀少样本集合与正常样本集合的分布均匀化,从而得到新训练集合;以及于利用新训练集合对预定分类器进行训练以构建分类模型。根据本公开的实施例,克服了由于非平衡数据集导致的分类准确率降低的问题,提高了对文本样本的分类准确率,从而优化了分类性能。

Description

分类模型构建方法、分类模型构建设备和分类方法
技术领域
本公开涉及信息处理技术领域,更具体地,涉及一种能够优化分类性能的分类模型构建方法、分类模型构建设备和分类方法。
背景技术
分类问题在机器学习领域已经被广泛的研究,大多数的分类算法,例如决策树、神经网络,已经被成功应用于多个领域。这些标准分类算法通常假设训练样本的类别是均匀分布的。然而,大量的文献显示,非平衡数据集是实际应用中经常遇到的数据集,例如,在信用评级、癌症检测、信用卡欺诈检测、客户维系和医疗诊断图像检测领域等等。在非平衡数据集中,不同类别的样本数量差距非常大,并且在实际应用中许多文献显示类别的非平衡分布导致标准分类算法的分类结果很差。对于标准的分类算法,通常是最大化整体的分类准确率,当处理非平衡数据时,稀少类被几乎完全忽略,这也降低了分类性能。为了解决非平衡数据集问题,提出了过采样技术。然而,传统的过采样技术忽略了各个稀少样本对分类准确率的贡献。
此外,对于任何分类算法,通常需要将输入数据结构转换为矩阵形式或其它结构化形式。对于文本分类问题来说,文本样本的特征提取对于分类准确率来说是非常重要的。因此,需要设计适用于输入数据是文本样本的特征提取方法。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上问题,本公开的目的是提供一种能够实现更优的分类性能的分类模型构建方法、分类模型构建设备和分类方法,其考虑到稀少样本的类型来执行过采样,通过在边界样本附近生成新的样本,同时在中心样本处随机生成新样本,使得稀少类的边界更加清晰,中心样本分布更加均匀。此外,通过考虑文本的情感词、副词、否定词等对句子语义的影响来计算文本样本的特征以将其转化为结构化数据类型,提高了对于文本样本的分类准确率。
根据本公开的一方面,提供了一种分类模型构建方法,其包括:特征提取步骤,用于对预定训练样本集合中的训练样本进行特征提取,以将预定训练样本集合转换为具有期望数据结构的训练集合;稀少样本类型判断步骤,用于针对训练集合中的稀少样本集合中的各个稀少样本,根据该稀少样本的邻近样本的分布而判断该稀少样本是边界样本还是中心样本;过采样步骤,用于根据稀少样本的类型而增加稀少样本集合的样本数量,以使得训练集合中的稀少样本集合与正常样本集合的分布均匀化,从而得到新训练集合;以及分类模型构建步骤,用于利用新训练集合对预定分类器进行训练以构建分类模型。
根据本公开的优选实施例,稀少样本类型判断步骤进一步包括:距离计算步骤,用于针对稀少样本集合中的各个稀少样本,计算该稀少样本与稀少样本集合中的其它稀少样本以及正常样本集合中的各个正常样本之间的距离;邻近样本确定步骤,用于针对稀少样本集合中的各个稀少样本,根据所计算的距离而确定该稀少样本的预定数量的邻近样本;以及判断步骤,用于针对稀少样本集合中的各个稀少样本,根据预定数量的邻近样本中包括的稀少样本和正常样本的数量,判断该稀少样本是边界样本还是中心样本。
根据本公开的另一优选实施例,在过采样步骤中,通过增强边界样本的数量以及随机生成中心样本来生成新样本以得到新训练集合。
根据本公开的另一优选实施例,在过采样步骤中,针对稀少样本集合中的各个稀少样本,如果该稀少样本是边界样本,则利用预定插值方法来生成新样本以使得新样本聚集在该稀少样本附近;以及如果该稀少样本是中心样本,则利用预定插值方法来生成新样本以使得新样本相对于该稀少样本均匀分布。
根据本公开的另一优选实施例,在判断步骤中,针对稀少样本集合中的各个稀少样本,如果预定数量的邻近样本中的稀少样本的数量少于正常样本的数量,则该稀少样本是边界样本,否则该稀少样本是中心样本。
根据本公开的另一优选实施例,特征提取步骤进一步包括:样本类型判断步骤,用于判断预定训练样本集合中的训练样本的类型是数字还是文本;数字特征提取步骤,用于直接将类型为数字的训练样本转换为期望的数据结构;以及文本特征提取步骤,用于针对类型为文本的训练样本,根据考虑到情感词的语义规则来计算该训练样本中的各个语句的特征得分,以将该训练样本转换为期望的数据结构。
根据本公开的另一优选实施例,上述语义规则还考虑到情感词与副词、否定副词或名词的组合、两个情感词之间的关系以及语句之间的关系。
根据本公开的另一优选实施例,上述语义规则还考虑到情感词、副词、否定副词和/或名词的正面性/负面性和/或强度。
根据本公开的另一方面,还提供了一种分类模型构建设备,其包括:特征提取单元,被配置成对预定训练样本集合中的训练样本进行特征提取,以将预定训练样本集合转换为具有期望数据结构的训练集合;稀少样本类型判断单元,被配置成针对训练集合中的稀少样本集合中的各个稀少样本,根据该稀少样本的邻近样本的分布而判断该稀少样本是边界样本还是中心样本;过采样单元,被配置成根据稀少样本的类型而增加所述稀少样本集合的样本数量,以使得训练集合中的稀少样本集合与正常样本集合的分布均匀化,从而得到新训练集合;以及分类模型构建单元,被配置成利用新训练集合对预定分类器进行训练以构建分类模型。
根据本公开的又一方面,还提供了一种分类方法,其用于利用根据上述分类模型构建方法所构建的分类模型对输入数据进行分类。
根据本公开的又一方面,还提供了一种分类设备,其用于利用根据上述分类模型构建方法所构建的分类模型对输入数据进行分类。
根据本公开的其它方面,还提供了用于实现上述根据本公开的分类模型构建方法和分类方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述根据本公开的分类模型构建方法和分类方法的计算机程序代码的计算机可读存储介质。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出根据本公开的实施例的分类模型构建方法的过程示例的流程图;
图2是示出根据本公开的实施例的分类模型构建方法中的特征提取步骤中的具体处理示例的流程图;
图3是示出根据本公开的实施例的分词、词性标注和句子依存关系标注的示例的示意图;
图4A至图4C是示出根据本公开的实施例的情感计算二叉树的示意图;
图5是示出根据本公开的实施例的分类模型构建方法中的稀少样本类型判断步骤中的具体处理示例的流程图;
图6A和图6B是示出根据本公开的实施例的根据稀少样本类型所生成的新样本的分布的示意图;
图7是示出根据本公开的实施例的分类模型构建设备的功能配置示例的框图;
图8是示出根据本公开的实施例的分类模型构建设备中的稀少样本类型判断单元的具体配置示例的框图;
图9是示出根据本公开的实施例的分类模型构建设备中的特征提取单元的具体配置示例的框图;
图10是示出根据本公开的实施例的分类方法的过程示例的流程图;
图11是示出根据本公开的实施例的分类设备的功能配置示例的框图;以及
图12是示出作为本公开的实施例中可采用的信息处理设备的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
以下将参照图1至图12具体描述本公开的实施例。
首先,将参照图1描述根据本公开的实施例的分类模型构建方法的过程的示例。图1是示出根据本公开的实施例的分类模型构建方法的过程示例的流程图。
如图1所示,根据本实施例的分类模型构建方法100可包括特征提取步骤S102、稀少样本类型判断步骤S104、过采样步骤S106和分类模型构建步骤S108。下面将分别详细描述各个步骤中的处理。
在特征提取步骤S102中,可对预定训练样本集合中的训练样本进行特征提取,以将预定训练样本集合转换为具有期望数据结构的训练集合。
接下来,将参照图2描述特征提取步骤S102中的具体处理过程的示例。图2是示出根据本公开的实施例的分类模型构建方法中的特征提取步骤中的具体处理示例的流程图。
如图2所示,特征提取步骤S102可进一步包括样本类型判断步骤S1021、数字特征提取步骤S1022和文本特征提取步骤S1023。接下来将具体描述各个步骤中的处理的示例。
在样本类型判断步骤S1021中,可判断预定训练样本集合中的训练样本是数字还是文本。具体的判断方法是本领域公知的技术,在此不再赘述。
接下来,在数字特征提取步骤S1022中,可直接将类型为数字的训练样本转换为期望的数据结构。例如,可直接将数字样本转换为矩阵形式。
然后,在文本特征提取步骤S1023中,针对类型为文本的训练样本,可根据考虑到情感词的语义规则来计算该训练样本中的各个语句的特征得分,以将该训练样本转换为期望的数据结构。
具体地,该语义规则还可考虑到情感词与副词、否定副词或名词的组合、两个情感词之间的关系以及语句之间的关系,并且优选地,还考虑到情感词、副词、否定副词和/或名词的正面性/负面性和/或强度。这些语义规则可由例如Drools进行管理。
以下作为示例给出了六条预先定义的语义规则,但是应理解,这仅是示例而非限制,并且本领域技术人员可以根据实际需要而设计其它适当的语义规则。
规则1:副词和情感词或项
得分=极性(情感词或项)*强度(情感词或项)*强度(副词)
规则2:否定副词和情感词或项
得分=-0.5*极性(情感词或项)*强度(情感词或项),或者
得分=0.5*极性(情感词或项)*强度(情感词或项)
规则3:名词和情感词或项
得分=极性(名词)*强度(情感词或项),或者
得分=0.5*极性(名词)*强度(情感词或项)
规则4:双情感词或项(从属关系)
得分=极性(情感词或项1)*强度(情感词或项1)+极性(情感词或项2)*强度(情感词或项2)
规则5:双情感词或项(递进关系)
得分=极性(情感词或项1)*sqrt(强度(情感词或项1)*强度(情感词或项2))
规则6:双语句
得分=a*得分(语句1)+b*得分(语句2)
参数=(a=1,b=1)从属关系
参数=(a=1,b=2)递进关系
参数=(a=0,b=-1)转折关系
应指出,上述规则中的“极性”表示词的正面性/负面性,并且从属关系、递进关系和转折关系分别表示两个情感词或两个语句之间的关系。应理解,情感词或语句之间的关系并不限于这些关系,并且还可包括例如并列关系等。
接下来,将参照具体的语句示例描述根据本公开的实施例的利用上述语义规则的特征提取方法。例如,以句子“今年三一重工的业绩表现不佳,同比去年亏损幅度很大”为例进行描述。
具体地,首先,对句子进行分词,并进行词性和句子依存关系的标注。经过分词和词性标注得到:“今年/nt三一重工/n的/u业绩/n表现/v不/d佳/a,同比/p去年/nt亏损/v幅度/n很/d大/a./wp”。
然后,可利用例如哈尔滨工业大学的LTP平台,对进行了分词和词性标注后的句子进行依存关系分析,从而可得到例如图3所示的分析结果。图3是示出根据本公开的实施例的分词、词性标注和句子依存关系标注的示例的示意图。
如图3所示,词中间的空格表示分词,最下面一行为词性标注。如果词与词之间直接发生依存关系,则其中一个词称为核心词,另一个词称为修饰词。在图3所示的依存句法分析图中,依存关系用一个弧表示,依存弧的方向总是由核心词指向修饰词,每个依存弧上标注了依存关系名,表示依存关系中的两个词之间存在什么依存关系。依存关系的标注根据例如LTP依存关系标记集给出。
然后,根据上述依存关系标注,将依存关系统一记为以下形式:依存关系名(核心词核心词的词性,修饰词修饰词的词性),例如ADV(佳a,不d)。
接下来,对LTP的24种依存关系进行分类:
一、子句内依存关系
(1)不影响句子情感倾向性的依存关系
①QUN关系(数量关系);
②LAD关系(前附加关系);
③RAD关系(后附加关系);
④APP关系(同位关系);
⑤POB关系(介宾关系);
⑥BA字结构(“把”字结构);
⑦BEI字结构(“被”字结构);
⑧SIM关系(比拟关系);
⑨MT结构(动态结构);
(2)影响句子情感倾向性的依存关系
①ADV(状中结构);
②CMP(动补结构);
③VOB(动宾关系);
④SBV(主谓关系);
⑤ATT(定中关系);
(3)可转化的依存关系
①DE字结构(“的”字结构);
②DI字结构(“地”字结构);
③DEI字结构(“得”字结构);
二、子句间的依存关系
(1)不影响句子情感倾向性的依存关系
①HED关系(指向句子核心词汇)
②IS结构(独立结构)
③IC分句(独立分句)
④DC分句(依存分句)
(2)影响句子情感倾向性的依存关系
①CNJ结构(关联结构)
三、子句内及子句间均可能存在的依存关系
(1)当出现在子句内时
①VV结构(连动结构):VV结构的动词为情感词,将影响句子的情感倾向性。
②COO关系为:“形容词+形容词”,且形容词为情感词时,将影响句子的情感倾向性。
(2)当出现在子句间时
其对句子情感倾向性的影响可通过CNJ结构中“VV或者COO”的并列关系来体现,不再考虑VV结构和COO关系的影响。
基于以上分类,上述例句的影响句子情感倾向性的依存关系序列为:S={SBV(表现v,业绩n),CMP(表现v,佳a),ADV(佳a,不d),ATT(幅度n,亏损v),SBV(大a,幅度n),ADV(大a,很d)}。
接下来,构建情感倾向计算二叉树:
(1)情感词依存关系分类:自左至右找到S中出现的第一个情感词e1,并找到与情感词e1关联的依存关系序列ES1。若S-ES1不为空,则在剩下的依存关系中继续自左至右搜索第二个情感词e2及其关联的依存关系序列ES2;若S-ES1-ES2不等于空,以此类推,直到找到最后一个情感词en及其关联的依存关系序列ESn。
对于上述例句,第一个情感词e1为“佳”,其关联的依存序列ES1为{CMP(表现v,佳a),SBV(表现v,业绩n),ADV(佳a,不d)};由于S-ES1不为空,继续搜索序列中下一个情感词,e2为“亏损”,其关联的情感词序列ES2为{ATT(幅度n,亏损v),SBV(大a,幅度n),ADV(大a,很d)},由于S-ES1-ES2为空,结束处理。
(2)重新排序ESi:给出的排序规则为例如:ATT ADV VV COOCMP VOB SBV CNJ,当ATT,ADV,VV,COO,CMP出现多次时,则按照原序列的顺序。
对于上述例句,ES1排序后得到依存关系序列RS1为:
{ADV(佳a,不d),CMP(表现v,佳a),SBV(大a,幅度n)};
ES2排序后得到依存关系序列RS2为:
{ATT(幅度n,亏损v),ADV(大a,很d),SBV(大a,幅度n)}。
(3)构建情感计算二叉树:选RSi中的第一个依存关系,以依存关系名构建一个节点n1,其修饰词和核心词分别作为节点n1的左、右叶子节点构建情感计算二叉树。接着依次选择下一个依存关系,并以其依存关系名构建一个结点n2,若依存关系的核心词(修饰词)出现在已经构建的二叉树子树中,则将包含该核心词(修饰词)的情感计算二叉树作为结点n2的右(左)子树,未出现的修饰词(核心词)作为结点n2的左(右)子树,构建更大的情感计算二叉树;若该依存关系的核心词和修饰词均分别出现在已有的情感计算二叉树子树中,则将修饰词、核心词所在的情感计算二叉树分别作为节点n2的左子树、右子树,构建更大的二叉树,以此类推,直到与该情感词相关联的RSi中所有的依存关系处理完毕。
对于上述例句,RS1的情感计算二叉树为例如图4A所示的示意图,RS2的情感计算二叉树为例如图4B所示的示意图。
(4)连接两个子句情感计算二叉树,当先后两个情感关联的依存关系序列出现CNJ结构时,选择PP(并列关系)、MM(递进关系)或BB(转折关系)作为结点名构建一个结点n3,并将对应的2个情感计算二叉树分别作为结点n3的左、右子树,构建更大的二叉树;若依存序列中未出现CNJ结构时,用PP作为结点n3。
上述例句的最终情感计算二叉树为例如图4C所示的示意图。
然后,根据所构建的情感计算二叉树,基于上述预先设计的语义规则计算语句的情感值得分。
(1)判断给定的树T是否为空,若不为空,判断T的左结点是否为{ATT,ADV,VV,COO,CMP,VOB,SBV,PP,MM,BB}中的一个,若是,则后序遍历左子树的方式递归调用;判断T的右结点是否为{ATT,ADV,VV,COO,CMP,VOB,SBV,PP,MM,BB}中的一个,若是,则后序遍历左子树的方式递归调用;
(2)如果T的左结点的数据为程度副词,右结点的data数据程度副词,则按照上述规则1计算2棵子树之间的情感值得分;
(3)如果T的左结点的数据为否定副词,右结点的数据为否定副词,则按照上述规则2计算2棵子树之间的情感值得分;
(4)如果T的左结点的数据为名词,右结点的数据为名词,则按照上述规则3计算2棵子树之间的情感值得分;
(5)如果T的左结点的数据为动词,右结点的数据为动词,如果T数据=VV,则按照上述规则4计算2棵子树之间的情感值得分,否则按照上述规则5计算2棵子树之间的情感值得分;
(6)如果T的左结点的数据为形容词,右结点的数据为形容词,如果T数据=COO,按照上述规则4计算2棵子树之间的情感值得分;如果形容词在程度副词词典中,则按照上述规则1计算2棵子树之间的情感值得分;否则按照规则5计算2棵子树之间的情感值得分;以及
(7)对于除上述(2)~(6)之外的情况,可按照上述规则6计算2棵子树之间的情感值得分。
根据以上给出的计算规则,对于上述例句,可以得到例句的情感得分为:
得分(T)=得分(ADV(佳a,不d))(规则2)+得分(ATT(亏损v,幅度n),ADV(很d,大a))(规则1)
=-0.5*极性(佳)*强度(佳)+极性(亏损)*强度(亏损)*强度(很大)
=-0.5*1*1-2=-2.5
其中,在字典中规定:极性(佳)=1;强度(佳)=1;极性(亏损)=-1;强度(亏损)=1;强度(很大)=2。
根据以上方法,可以将文本转化为数值形式。这里假设文本i中包含j个独立句子,则文本i被转化为:
其中Xij表示i文本的第j句的情感值得分,该值可根据上述方法给出。
应理解,以上给出的情感值得分计算规则仅为示例,并且本领域技术人员可以根据实际需要而自行设定不同于上述的计算规则。此外,还应理解,尽管以上以中文语句为例描述了分词、词性标注和依存关系标注,并以此构建情感二叉树从而计算语句的情感值得分的过程,但是应理解,对于除中文之外的其它语言的文本,也可以根据上述本公开的原理,采用不同于LTP平台的工具进行上述操作并计算相应文本语句的特征得分,并且这样的变型同样应认为落入本公开的范围内。
此外,还应指出,尽管以上描述了通过构建情感二叉树并且根据考虑到情感词的预定语义规则来计算各个语句的情感词得分来提取作为文本的样本的特征以将其转换为期望的数据结构的方法,但是应理解,这仅是优选示例,并且本领域技术人员也可以采用不同于本公开的现有技术中的文本特征提取方法来将文本样本转换为期望的数据结构。
这样,通过上述特征提取步骤中的处理,可以将包括数字和文本的训练样本转换为期望的数据结构,例如矩阵形式。
接下来,返回参照图1,在稀少样本类型判断步骤S104中,可针对上述得到的具有期望数据结构的训练集合中的稀少样本集合中的各个稀少样本,根据该稀少样本的邻近样本的分布而判断该稀少样本是边界样本还是中心样本。
具体地,将参照图5描述稀少样本类型判断步骤S104中的具体处理过程的示例。图5是示出根据本公开的实施例的分类模型构建方法中的稀少样本类型判断步骤中的具体处理示例的流程图。
如图5所示,根据本实施例的稀少样本类型判断步骤S104可进一步包括距离计算步骤S1041、邻近样本确定步骤S1042和判断步骤S1043。下面将具体描述各个步骤中的处理。
在距离计算步骤S1041中,可针对稀少样本集合中的各个稀少样本,计算该稀少样本与稀少样本集合中的其它稀少样本以及正常样本集合中的各个正常样本之间的距离。
具体地,例如,可利用欧式距离公式来计算样本之间的距离。假设待计算的特定稀少样本为samplei=[x1,x2,……,xm],稀少样本集合中的样本表示为并且正常样本集合中的样本表示为则该特定稀少样本与其它稀少样本之间的距离以及与正常样本之间的距离分别可以表示为:
rd i , k = Σ i = 1 m ( x i - x i r K ) 2 - - - ( 1 )
nd i , k = Σ i = 1 m ( x i - x i n K ) 2 - - - ( 2 )
然后,在邻近样本确定步骤S1042中,针对稀少样本集合中的各个稀少样本,可根据所计算的距离而确定该邻近样本的预定数量的邻近样本。
具体地,可对以上计算的距离rdi,k和ndi,k进行排序,并从中选择预定数量(例如,K个)最小距离,从而将与这K个最小距离对应的样本确定为特定稀少样本的邻近样本。
然后,在判断步骤S1043中,针对稀少样本集合中的各个稀少样本,可根据预定数量的邻近样本中包括的稀少样本和正常样本的数量,判断该稀少样本是边界样本还是中心样本。
具体地,针对特定稀少样本,如果其预定数量的邻近样本中的稀少样本的数量少于正常样本的数量,则可判断该稀少样本是边界样本,否则可判断该稀少样本是中心样本。
返回参照图1,在过采样步骤S106中,可根据稀少样本的类型而增加稀少样本集合的样本数量,以使得训练集合中的稀少样本集合与正常样本集合的分布均匀化,从而得到新训练集合。
具体地,在过采样步骤S106中,可通过增强边界样本的数量以及随机生成中心样本来生成新样本以得到新训练集合。例如,如果该稀少样本是边界样本,则可利用预定插值方法来生成新样本以使得新样本聚集在该稀少样本附近;以及如果该稀少样本是中心样本,则可利用预定插值方法来生成新样本以使得新样本相对于该稀少样本均匀分布。
该预定插值方法例如可以是线性插值方法,并且新样本可按照例如以下方式来生成:
samplenew=samplei+λ×rdi,s
s=random(1,K)
其中,λ根据均匀分布给出,并且可根据特定稀少样本samplei是边界样本还是中心样本来确定其范围。例如,如果特定稀少样本samplei是边界样本,则λ∈(0,0.5),否则λ∈(0,1)。应理解,这里所给出的λ的范围仅为示例,并且可根据实际需要进行调整。
此外,还应指出,这里作为优选示例给出了线性插值方法来生成新样本,但是应理解,也可采用其它方法来生成新样本,只要能够实现加强边界并且实现中心分布均匀化的效果即可。
图6A和图6B分别示出了在特定稀少样本是边界样本和中心样本的情况下所生成的新样本的分布的示例。如图6A所示,在特定稀少样本是边界样本的情况下,新生成的样本集中在该特定稀少样本附近以增强边界,而在特定稀少样本是中心样本的情况下,如图6B所示,新生成的样本相对于该特定稀少样本均匀地分布。
这样,通过如上所述进行过采样以增加稀少样本集合的样本数量,可以对样本的非平衡数据集合进行处理,从而得到具有平衡数据集合的新训练集合。
接下来,在分类模型构建步骤S108中,可利用以上得到的新训练集合对预定分类器进行训练以构建分类模型。
可以看出,根据本公开的实施例,由于根据稀少样本的类型来进行过采样以增加稀少样本集合的数量,因此可以提高分类模型的分类性能。此外,根据以上构建的分类模型,由于设计了适合于文本样本的特征提取方法,因此能够提高对于文本样本的分类准确率。
应理解,尽管以上参照附图描述了根据本公开的实施例的分类模型构建方法,但是这仅是示例而非限制,并且本领域技术人员可以根据本公开的原理对上述流程进行修改,例如,对上述步骤进行添加、删除、变更、组合和子组合等,并且这样的变型自然认为落入本公开的范围内。
与上述分类模型构建方法相对应,本公开还提供了一种分类模型构建设备。接下来,将参照图7至图9描述根据本公开的实施例的分类模型构建设备的配置示例。
图7是示出根据本公开的实施例的分类模型构建设备的功能配置示例的框图。
如图7所示,根据该实施例的分类模型构建设备700可包括特征提取单元702、稀少样本类型判断单元704、过采样单元706和分类模型构建单元708。
特征提取单元702可被配置成对预定训练样本集合中的训练样本进行特征提取,以将预定训练样本集合转换为具有期望数据结构的训练集合。
接下来将参照图8描述特征提取单元702的具体配置示例。图8是示出特征提取单元702的具体配置示例的框图。
如图8所示,特征提取单元702可包括样本类型判断模块7021、数字特征提取模块7022和文本特征提取模块7023。下面将具体描述各个模块的功能配置示例。
样本类型判断模块7021可被配置成判断预定训练样本集合中的训练样本的类型是数字还是文本。
数字特征提取模块7022可被配置成直接将类型为数字的训练样本转换为期望的数据结构。
文本特征提取模块7023可被配置成针对类型为文本的训练样本,根据考虑到情感词的语义规则来计算该训练样本中的各个语句的特征得分,以将该训练样本转换为期望的数据结构。优选地,该语义规则还考虑到情感词与副词、否定副词或名词的组合、两个情感词之间的关系以及语句之间的关系,并且还考虑了情感词、副词、否定副词和/或名词的正面性/负面性和/或强度。
具体的文本特征提取过程可参见以上方法实施例中相应位置的描述,在此不再赘述。
接下来,返回参照图7,稀少样本类型判断单元704可被配置成针对训练集合中的稀少样本集合中的各个稀少样本,根据该稀少样本的邻近样本的分布而判断该稀少样本是边界样本还是中心样本。
下面将参照图9描述稀少样本类型判断单元704的具体配置示例。图9是示出根据本公开的实施例的稀少样本类型判断单元的具体配置示例的框图。
如图9所示,根据该实施例的稀少样本类型判断单元704可包括距离计算模块7041、邻近样本确定模块7042和判断模块7043。下面将具体描述各个模块的功能配置示例。
距离计算模块7041可被配置成针对稀少样本集合中的各个稀少样本,计算该稀少样本与稀少样本集合中的其它稀少样本以及正常样本集合中的各个正常样本之间的距离。
邻近样本确定模块7042可被配置成针对稀少样本集合中的各个稀少样本,根据所计算的距离而确定该稀少样本的预定数量的邻近样本。
判断模块7043可被配置成针对稀少样本集合中的各个稀少样本,根据预定数量的邻近样本中包括的稀少样本和正常样本的数量,判断该稀少样本是边界样本还是中心样本。具体地,例如,如果预定数量的邻近样本中的稀少样本的数量少于正常样本的数量,则该稀少样本是边界样本,否则该稀少样本是中心样本。
接下来,返回参照图7,过采样单元706可被配置成根据稀少样本的类型而增加稀少样本集合的样本数量,以使得训练集合中的稀少样本集合与正常样本集合的分布均匀化,从而得到新训练集合。
具体地,过采样单元706可通过增强边界样本的数量以及随机生成中心样本来生成新样本以得到新训练集合。例如,作为优选示例,如果特定稀少样本是边界样本,则利用预定插值方法来生成新样本以使得新样本聚集在该稀少样本附近;以及如果该特定稀少样本是中心样本,则利用预定插值方法来生成新样本以使得新样本相对于该稀少样本均匀分布。该预定插值方法例如可以是线性插值方法。
具体的新样本生成方法可参见以上方法实施例中相应位置的描述,在此不再重复。
返回参照图7,分类模型构建单元708可被配置成利用以上得到的新训练集合对预定分类器进行训练以构建分类模型。
应指出,尽管以上描述了根据本公开的实施例的分类模型构建设备的功能配置,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的装置实施例是与上述方法实施例相对应的,因此在装置实施例中未详细描述的内容可参见方法实施例中相应位置的描述,在此不再重复描述。
接下来,将参照图10描述利用以上训练得到的分类模型对输入数据进行分类的方法。图10是示出根据本公开的实施例的分类方法的过程示例的流程图。
如图10所示,根据本实施例的分类方法可包括特征提取步骤S1002和分类步骤S1004。
在特征提取步骤S1002中,可提取输入的数据样本的特征。具体的特征提取方法可以是以上描述的特征提取方法或者也可以是现有技术中的特征提取方法,本公开对此不作限制。
接下来,在分类步骤S1004中,可根据所提取的数据样本的特征,利用以上训练得到的分类模型对该数据样本进行分类。
可以理解,通过利用根据本公开的技术的特征提取方法和所构建的分类模型,可以克服由于不平衡数据集导致的分类准确率降低的问题,以及提高对于文本样本的分类准确率,从而优化了分类性能。
与上述分类方法相对应的,本公开还提供了一种分类设备。图11是示出根据本公开的实施例的分类设备的功能配置示例的框图。
如图11所示,根据本实施例的分类设备1100可包括特征提取单元1102和分类单元1104。
特征提取单元1102可被配置成提取输入的数据样本的特征。
分类单元1104可被配置成根据所提取的特征,利用以上训练得到的分类模型对数据样本进行分类。
应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述分类模型构建方法和分类方法,因此在此未详细描述的内容可参考先前相应位置的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图12所示的通用个人计算机1200安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图12中,中央处理单元(CPU)1201根据只读存储器(ROM)1202中存储的程序或从存储部分1208加载到随机存取存储器(RAM)1203的程序执行各种处理。在RAM 1203中,也根据需要存储当CPU 1201执行各种处理等时所需的数据。
CPU 1201、ROM 1202和RAM 1203经由总线1204彼此连接。输入/输出接口1205也连接到总线1204。
下述部件连接到输入/输出接口1205:输入部分1206,包括键盘、鼠标等;输出部分1207,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等;存储部分1208,包括硬盘等;和通信部分1209,包括网络接口卡比如LAN卡、调制解调器等。通信部分1209经由网络比如因特网执行通信处理。
根据需要,驱动器1210也连接到输入/输出接口1205。可拆卸介质1211比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1210上,使得从中读出的计算机程序根据需要被安装到存储部分1208中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1211安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图12所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1211。可拆卸介质1211的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1202、存储部分1208中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。
在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。
另外,根据本公开的技术还可以如下进行配置。
1.一种分类模型构建方法,包括:
特征提取步骤,用于对预定训练样本集合中的训练样本进行特征提取,以将所述预定训练样本集合转换为具有期望数据结构的训练集合;
稀少样本类型判断步骤,用于针对所述训练集合中的稀少样本集合中的各个稀少样本,根据该稀少样本的邻近样本的分布而判断该稀少样本是边界样本还是中心样本;
过采样步骤,用于根据所述稀少样本的类型而增加所述稀少样本集合的样本数量,以使得所述训练集合中的稀少样本集合与正常样本集合的分布均匀化,从而得到新训练集合;以及
分类模型构建步骤,用于利用所述新训练集合对预定分类器进行训练以构建分类模型。
2.根据1所述的分类模型构建方法,其中,所述稀少样本类型判断步骤进一步包括:
距离计算步骤,用于针对所述稀少样本集合中的各个稀少样本,计算该稀少样本与所述稀少样本集合中的其它稀少样本以及所述正常样本集合中的各个正常样本之间的距离;
邻近样本确定步骤,用于针对所述稀少样本集合中的各个稀少样本,根据所计算的距离而确定该稀少样本的预定数量的邻近样本;以及
判断步骤,用于针对所述稀少样本集合中的各个稀少样本,根据所述预定数量的邻近样本中包括的稀少样本和正常样本的数量,判断该稀少样本是边界样本还是中心样本。
3.根据1或2所述的分类模型构建方法,其中,在所述过采样步骤中,通过增强所述边界样本的数量以及随机生成所述中心样本来生成新样本,以得到所述新训练集合。
4.根据3所述的分类模型构建方法,其中,所述过采样步骤中,针对所述稀少样本集合中的各个稀少样本,如果该稀少样本是所述边界样本,则利用预定插值方法来生成新样本以使得所述新样本聚集在该稀少样本附近;以及如果该稀少样本是所述中心样本,则利用预定插值方法来生成新样本以使得所述新样本相对于该稀少样本均匀分布。
5.根据2所述的分类模型构建方法,其中,在所述判断步骤中,针对所述稀少样本集合中的各个稀少样本,如果所述预定数量的邻近样本中的稀少样本的数量少于正常样本的数量,则该稀少样本是所述边界样本,否则该稀少样本是所述中心样本。
6.根据1所述的分类模型构建方法,其中,所述特征提取步骤进一步包括:
样本类型判断步骤,用于判断所述预定训练样本集合中的训练样本的类型是数字还是文本;
数字特征提取步骤,用于直接将类型为数字的训练样本转换为期望的数据结构;以及
文本特征提取步骤,用于针对类型为文本的训练样本,根据考虑到情感词的语义规则来计算该训练样本中的各个语句的特征得分,以将该训练样本转换为期望的数据结构。
7.根据6所述的分类模型构建方法,其中,所述语义规则还考虑到情感词与副词、否定副词或名词的组合、两个情感词之间的关系以及语句之间的关系。
8.根据7所述的分类模型构建方法,其中,所述语义规则还考虑到情感词、副词、否定副词和/或名词的正面性/负面性和/或强度。
9.一种分类模型构建设备,包括:
特征提取单元,被配置成对预定训练样本集合中的训练样本进行特征提取,以将所述预定训练样本集合转换为具有期望数据结构的训练集合;
稀少样本类型判断单元,被配置成针对所述训练集合中的稀少样本集合中的各个稀少样本,根据该稀少样本的邻近样本的分布而判断该稀少样本是边界样本还是中心样本;
过采样单元,被配置成根据所述稀少样本的类型而增加所述稀少样本集合的样本数量,以使得所述训练集合中的稀少样本集合与正常样本集合的分布均匀化,从而得到新训练集合;以及
分类模型构建单元,被配置成利用所述新训练集合对预定分类器进行训练以构建分类模型。
10.根据9所述的分类模型构建设备,其中,所述稀少样本类型判断单元进一步包括:
距离计算模块,被配置成针对所述稀少样本集合中的各个稀少样本,计算该稀少样本与所述稀少样本集合中的其它稀少样本以及所述正常样本集合中的各个正常样本之间的距离;
邻近样本确定模块,被配置成针对所述稀少样本集合中的各个稀少样本,根据所计算的距离而确定该稀少样本的预定数量的邻近样本;以及
判断模块,被配置成针对所述稀少样本集合中的各个稀少样本,根据所述预定数量的邻近样本中包括的稀少样本和正常样本的数量,判断该稀少样本是边界样本还是中心样本。
11.根据9或10所述的分类模型构建设备,其中,所述过采样单元进一步被配置成通过增强所述边界样本的数量以及随机生成所述中心样本来生成新样本,以得到所述新训练集合。
12.根据11所述的分类模型构建设备,其中,所述过采样单元进一步被配置成针对所述稀少样本集合中的各个稀少样本,如果该稀少样本是所述边界样本,则利用预定插值方法来生成新样本以使得所述新样本聚集在该稀少样本附近;以及如果该稀少样本是所述中心样本,则利用预定插值方法来生成新样本以使得所述新样本相对于该稀少样本均匀分布。
13.根据10所述的分类模型构建设备,其中,所述判断模块进一步被配置成针对所述稀少样本集合中的各个稀少样本,如果所述预定数量的邻近样本中的稀少样本的数量少于正常样本的数量,则该稀少样本是所述边界样本,否则该稀少样本是所述中心样本。
14.根据9所述的分类模型构建设备,其中,所述特征提取单元进一步包括:
样本类型判断模块,被配置成判断所述预定训练样本集合中的训练样本的类型是数字还是文本;
数字特征提取模块,被配置成直接将类型为数字的训练样本转换为期望的数据结构;以及
文本特征提取模块,被配置成针对类型为文本的训练样本,根据考虑到情感词的语义规则来计算该训练样本中的各个语句的特征得分,以将该训练样本转换为期望的数据结构。
15.根据14所述的分类模型构建设备,其中,所述语义规则还考虑到情感词与副词、否定副词或名词的组合、两个情感词之间的关系以及语句之间的关系。
16.根据15所述的分类模型构建设备,其中,所述语义规则还考虑到情感词、副词、否定副词和/或名词的正面性/负面性和/或强度。
17.一种分类方法,用于利用根据1至8中任一项所述的分类模型构建方法所构建的分类模型对输入数据进行分类。

Claims (10)

1.一种分类模型构建方法,包括:
特征提取步骤,用于对预定训练样本集合中的训练样本进行特征提取,以将所述预定训练样本集合转换为具有期望数据结构的训练集合;
稀少样本类型判断步骤,用于针对所述训练集合中的稀少样本集合中的各个稀少样本,根据该稀少样本的邻近样本的分布而判断该稀少样本是边界样本还是中心样本;
过采样步骤,用于根据所述稀少样本的类型而增加所述稀少样本集合的样本数量,以使得所述训练集合中的稀少样本集合与正常样本集合的分布均匀化,从而得到新训练集合;以及
分类模型构建步骤,用于利用所述新训练集合对预定分类器进行训练以构建分类模型。
2.根据权利要求1所述的分类模型构建方法,其中,所述稀少样本类型判断步骤进一步包括:
距离计算步骤,用于针对所述稀少样本集合中的各个稀少样本,计算该稀少样本与所述稀少样本集合中的其它稀少样本以及所述正常样本集合中的各个正常样本之间的距离;
邻近样本确定步骤,用于针对所述稀少样本集合中的各个稀少样本,根据所计算的距离而确定该稀少样本的预定数量的邻近样本;以及
判断步骤,用于针对所述稀少样本集合中的各个稀少样本,根据所述预定数量的邻近样本中包括的稀少样本和正常样本的数量,判断该稀少样本是边界样本还是中心样本。
3.根据权利要求1或2所述的分类模型构建方法,其中,在所述过采样步骤中,通过增强所述边界样本的数量以及随机生成所述中心样本来生成新样本,以得到所述新训练集合。
4.根据权利要求3所述的分类模型构建方法,其中,在所述过采样步骤中,针对所述稀少样本集合中的各个稀少样本,如果该稀少样本是所述边界样本,则利用预定插值方法来生成新样本以使得所述新样本聚集在该稀少样本附近;以及如果该稀少样本是所述中心样本,则利用预定插值方法来生成新样本以使得所述新样本相对于该稀少样本均匀分布。
5.根据权利要求2所述的分类模型构建方法,其中,在所述判断步骤中,针对所述稀少样本集合中的各个稀少样本,如果所述预定数量的邻近样本中的稀少样本的数量少于正常样本的数量,则该稀少样本是所述边界样本,否则该稀少样本是所述中心样本。
6.根据权利要求1所述的分类模型构建方法,其中,所述特征提取步骤进一步包括:
样本类型判断步骤,用于判断所述预定训练样本集合中的训练样本的类型是数字还是文本;
数字特征提取步骤,用于直接将类型为数字的训练样本转换为期望的数据结构;以及
文本特征提取步骤,用于针对类型为文本的训练样本,根据考虑到情感词的语义规则来计算该训练样本中的各个语句的特征得分,以将该训练样本转换为期望的数据结构。
7.根据权利要求6所述的分类模型构建方法,其中,所述语义规则还考虑到情感词与副词、否定副词或名词的组合、两个情感词之间的关系以及语句之间的关系。
8.根据权利要求7所述的分类模型构建方法,其中,所述语义规则还考虑到情感词、副词、否定副词和/或名词的正面性/负面性和/或强度。
9.一种分类模型构建设备,包括:
特征提取单元,被配置成对预定训练样本集合中的训练样本进行特征提取,以将所述预定训练样本集合转换为具有期望数据结构的训练集合;
稀少样本类型判断单元,被配置成针对所述训练集合中的稀少样本集合中的各个稀少样本,根据该稀少样本的邻近样本的分布而判断该稀少样本是边界样本还是中心样本;
过采样单元,被配置成根据所述稀少样本的类型而增加所述稀少样本集合的样本数量,以使得所述训练集合中的稀少样本集合与正常样本集合的分布均匀化,从而得到新训练集合;以及
分类模型构建单元,被配置成利用所述新训练集合对预定分类器进行训练以构建分类模型。
10.一种分类方法,用于利用根据权利要求1至8中任一项所述的分类模型构建方法所构建的分类模型对输入数据进行分类。
CN201510295957.8A 2015-06-02 2015-06-02 分类模型构建方法、分类模型构建设备和分类方法 Pending CN106294466A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510295957.8A CN106294466A (zh) 2015-06-02 2015-06-02 分类模型构建方法、分类模型构建设备和分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510295957.8A CN106294466A (zh) 2015-06-02 2015-06-02 分类模型构建方法、分类模型构建设备和分类方法

Publications (1)

Publication Number Publication Date
CN106294466A true CN106294466A (zh) 2017-01-04

Family

ID=57656538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510295957.8A Pending CN106294466A (zh) 2015-06-02 2015-06-02 分类模型构建方法、分类模型构建设备和分类方法

Country Status (1)

Country Link
CN (1) CN106294466A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066560A (zh) * 2017-03-30 2017-08-18 东软集团股份有限公司 文本分类的方法和装置
CN107515858A (zh) * 2017-09-01 2017-12-26 北京神州泰岳软件股份有限公司 一种文本分类后处理方法、装置及系统
CN109447937A (zh) * 2017-08-29 2019-03-08 中国移动通信有限公司研究院 一种图像处理模型的确定方法及其相关装置
CN109635839A (zh) * 2018-11-12 2019-04-16 国家电网有限公司 一种基于机器学习的非平衡数据集的处理方法和装置
CN110020110A (zh) * 2017-09-15 2019-07-16 腾讯科技(北京)有限公司 媒体内容推荐方法、装置及存储介质
CN110147845A (zh) * 2019-05-23 2019-08-20 北京百度网讯科技有限公司 基于特征空间的样本采集方法和样本采集系统
CN110287311A (zh) * 2019-05-10 2019-09-27 平安科技(深圳)有限公司 文本分类方法及装置、存储介质、计算机设备
CN110378388A (zh) * 2019-06-21 2019-10-25 大亚湾核电运营管理有限责任公司 飞行物识别方法、装置、计算机可读存储介质及终端设备
WO2019222908A1 (en) * 2018-05-22 2019-11-28 Entit Software Llc Automatic selection of request handler using trained classification model
CN111340057A (zh) * 2018-12-19 2020-06-26 杭州海康威视数字技术股份有限公司 一种分类模型训练的方法及装置
CN111523951A (zh) * 2019-01-16 2020-08-11 北京京东尚科信息技术有限公司 数据增强方法和装置
CN112070138A (zh) * 2020-08-31 2020-12-11 新华智云科技有限公司 多标签混合分类模型的构建方法、新闻分类方法及系统
CN112989032A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 实体关系分类方法、装置、介质及电子设备
CN116611546A (zh) * 2023-04-14 2023-08-18 中国科学院空天信息创新研究院 基于知识图谱的目标研究区域滑坡预测方法及系统

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066560B (zh) * 2017-03-30 2019-12-06 东软集团股份有限公司 文本分类的方法和装置
CN107066560A (zh) * 2017-03-30 2017-08-18 东软集团股份有限公司 文本分类的方法和装置
CN109447937A (zh) * 2017-08-29 2019-03-08 中国移动通信有限公司研究院 一种图像处理模型的确定方法及其相关装置
CN109447937B (zh) * 2017-08-29 2021-07-06 中国移动通信有限公司研究院 一种图像处理模型的确定方法及其相关装置
CN107515858A (zh) * 2017-09-01 2017-12-26 北京神州泰岳软件股份有限公司 一种文本分类后处理方法、装置及系统
CN107515858B (zh) * 2017-09-01 2020-10-20 鼎富智能科技有限公司 一种文本分类后处理方法、装置及系统
CN110020110A (zh) * 2017-09-15 2019-07-16 腾讯科技(北京)有限公司 媒体内容推荐方法、装置及存储介质
CN110020110B (zh) * 2017-09-15 2023-04-07 腾讯科技(北京)有限公司 媒体内容推荐方法、装置及存储介质
US11961046B2 (en) 2018-05-22 2024-04-16 Micro Focus Llc Automatic selection of request handler using trained classification model
WO2019222908A1 (en) * 2018-05-22 2019-11-28 Entit Software Llc Automatic selection of request handler using trained classification model
CN109635839A (zh) * 2018-11-12 2019-04-16 国家电网有限公司 一种基于机器学习的非平衡数据集的处理方法和装置
CN111340057A (zh) * 2018-12-19 2020-06-26 杭州海康威视数字技术股份有限公司 一种分类模型训练的方法及装置
CN111340057B (zh) * 2018-12-19 2023-07-25 杭州海康威视数字技术股份有限公司 一种分类模型训练的方法及装置
CN111523951A (zh) * 2019-01-16 2020-08-11 北京京东尚科信息技术有限公司 数据增强方法和装置
CN110287311A (zh) * 2019-05-10 2019-09-27 平安科技(深圳)有限公司 文本分类方法及装置、存储介质、计算机设备
CN110287311B (zh) * 2019-05-10 2023-05-26 平安科技(深圳)有限公司 文本分类方法及装置、存储介质、计算机设备
CN110147845A (zh) * 2019-05-23 2019-08-20 北京百度网讯科技有限公司 基于特征空间的样本采集方法和样本采集系统
CN110378388B (zh) * 2019-06-21 2021-11-12 大亚湾核电运营管理有限责任公司 飞行物识别方法、装置、计算机可读存储介质及终端设备
CN110378388A (zh) * 2019-06-21 2019-10-25 大亚湾核电运营管理有限责任公司 飞行物识别方法、装置、计算机可读存储介质及终端设备
CN112989032A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 实体关系分类方法、装置、介质及电子设备
CN112070138A (zh) * 2020-08-31 2020-12-11 新华智云科技有限公司 多标签混合分类模型的构建方法、新闻分类方法及系统
CN112070138B (zh) * 2020-08-31 2023-09-05 新华智云科技有限公司 多标签混合分类模型的构建方法、新闻分类方法及系统
CN116611546A (zh) * 2023-04-14 2023-08-18 中国科学院空天信息创新研究院 基于知识图谱的目标研究区域滑坡预测方法及系统
CN116611546B (zh) * 2023-04-14 2023-11-10 中国科学院空天信息创新研究院 基于知识图谱的目标研究区域滑坡预测方法及系统

Similar Documents

Publication Publication Date Title
CN106294466A (zh) 分类模型构建方法、分类模型构建设备和分类方法
US20230065070A1 (en) Lean parsing: a natural language processing system and method for parsing domain-specific languages
US7788087B2 (en) System for processing sentiment-bearing text
CN106407211B (zh) 对实体词的语义关系进行分类的方法和装置
CN102662930B (zh) 一种语料标注方法及装置
US7987188B2 (en) Domain-specific sentiment classification
US11410072B2 (en) Computer-implemented systems and methods for detection of sentiment in writing
US20060200341A1 (en) Method and apparatus for processing sentiment-bearing text
US10366117B2 (en) Computer-implemented systems and methods for taxonomy development
CN105988990A (zh) 用于汉语中的零指代消解的装置和方法以及模型训练方法
JP2015505082A (ja) 情報ドメインに対する自然言語処理モデルの生成
US20190163737A1 (en) Method and apparatus for constructing binary feature dictionary
US8707250B2 (en) Automation support for domain modeling
BE1027696B1 (nl) Analyse en vergelijking van tekengecodeerde digitale gegevens, met name voor job matching
CN111858935A (zh) 一种航班点评的细粒度情感分类系统
CN104216876A (zh) 信息文本过滤方法及系统
CN111259160A (zh) 知识图谱构建方法、装置、设备及存储介质
KR20200139008A (ko) 딥러닝 기술을 활용한 법률서비스 이용자의 의도분석 기반 계약서 추천 및 자동완성 서비스
CN111339292A (zh) 文本分类网络的训练方法、系统、设备及存储介质
WO2021260554A1 (en) Domain-specific grammar correction system, server and method for academic text
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN111966944A (zh) 一种多层级用户评论安全审核的模型构建方法
CN103514151A (zh) 依存句法分析方法、装置及辅助分类器训练方法
Woltmann et al. Tracing university–industry knowledge transfer through a text mining approach
CN103678270B (zh) 语义单元抽取方法和语义单元抽取设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170104