CN104285224A - 用于对文本进行分类的方法 - Google Patents

用于对文本进行分类的方法 Download PDF

Info

Publication number
CN104285224A
CN104285224A CN201380024544.5A CN201380024544A CN104285224A CN 104285224 A CN104285224 A CN 104285224A CN 201380024544 A CN201380024544 A CN 201380024544A CN 104285224 A CN104285224 A CN 104285224A
Authority
CN
China
Prior art keywords
text
class
rank
feature
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380024544.5A
Other languages
English (en)
Other versions
CN104285224B (zh
Inventor
J·R·赫尔歇
J·勒鲁克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN104285224A publication Critical patent/CN104285224A/zh
Application granted granted Critical
Publication of CN104285224B publication Critical patent/CN104285224B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

通过根据文本确定文本特征并将文本特征变换为主题特征来对该文本进行分类。使用判别主题模型针对每一个主题特征来确定分数。该模型包括对主题特征进行操作的分类器,其中,通过变换根据文本特征来确定主题特征,并且变换被优化以最大化相对于不正确的类的分数的正确的类的分数。接着,选择针对文本具有最高分数的类标签。在按层次结构组织类的情况下,判别主题模型适用于根据前面的级别调节的每一个级别的类,并且跨级别组合分数以评估最高得分的类标签。

Description

用于对文本进行分类的方法
技术领域
本发明总体上涉及一种用于对文本进行分类的方法,并且更具体地,涉及针对大量的类别对文本进行分类。
背景技术
文本分类对于在诸如用于命令和控制的用户接口这样的自然语言处理中的许多任务来说是一个重要的问题。在这样的方法中,从文本的许多类得到的训练数据被用于优化由用于估计针对该文本的最可能的类的方法所使用的参数。
用于文本分类的多项逻辑斯蒂回归(MLR)分类器。
文本分类根据输入文本x来估计类y,其中y是类的标签。该文本能够从语音信号得到。
在现有技术的多项逻辑斯蒂回归中,使用以下的特征函数来对关于输入文本的信息进行编码:
其通常被这样定义:
换句话说,如果项tj包含在文本x中,则特征是1,类标签y等于类别Ik
用于分类的模型是如下形式的条件指数模型:
pΛ ( y | x ) = 1 Z Λ ( x ) e Σ j , k λ j , k f j , k ( x , y ) ,
其中,
Z Λ ( x ) = Σ y e Σ j , k λ j , k f j , k ( x , y ) ,
并且λj,k和Λ是分类参数。
使用如下目标函数对于文本xi和标签yi的训练对来优化这些参数:
L Λ = Σ i , j , k λ j , k f j , k ( x i , y i ) - log Σ y ′ e Σ j , k λ j , k f j , k ( x i , y ′ ) ,
其将关于Λ被最大化。
正则化多项逻辑斯蒂回归分类器
能够在逻辑斯蒂回归中向分类参数添加正则化项以提高泛化能力。
在正则化多项逻辑斯蒂回归分类器中,使用L1范数正则项(regularizer)和L2范数正则项两者的一般公式化是
L Λ = Σ i , j , k λ j , k f j , k ( x i , y i ) - log Σ y ′ e Σ j , k λ j , k f j , k ( x i , y ′ ) - α Σ j , k | λ j , k | 2 - β Σ j , k | λ j , k | ,
其中,是L2范数正则项,而是L1范数正则项,并且α和β是加权因子。该目标函数将再一次关于Λ被最大化。
各种方法都能够在这些正则化下优化参数。
主题建模
在现有技术中,概率潜在语义分析(PLSA)和潜在狄利克雷分析(LDA)是其中主题是多项潜在变量的生成主题模型,并且主题的分布取决于包括其中如果给定主题则单词是多项分布的文本在内的特定文档。如果文档与类相关联,则这样的模型能够被用于文本分类。
然而使用生成主题模型,类特定参数和主题特定参数根据对数概率是相加的。
发明内容
本发明的实施方式提供了一种用于使用判别主题变换来对文本进行分类的方法。本发明的实施方式也执行按层次(hierarchy)布置类的问题下的分类。
所述方法从文本中提取特征,并且接着在对文本进行分类以确定分数之前,将这些特征变换为主题特征。
具体地,通过根据文本确定文本特征并将所述文本特征变换为主题特征,来对该文本进行分类。该文本能够从识别出的语音获得。
使用判别主题变换模型针对每一个主题特征来确定分数。
该模型包括对主题特征进行操作的分类器,其中,通过从文本特征进行变换来确定主题特征,并且对该变换进行优化以最大化相对于不正确的类的分数的正确的类的分数。
接着,针对该文本选择具有最高分数的一组类标签。所选择的标签的数目可以是预定的或动态的。
在按层次结构组织类的情形下,在每一个类对应于层次中的一个节点的情况下,所述方法如下地进行。能够以宽度优先顺序来遍历该层次。
所述方法的第一阶段使用以与以上所描述的相同的方式针对一级类训练的判别主题变换模型来评估层次的最高级别(一级)的输入文本的类分数。针对每一个一级类的分数由这个阶段来产生并且被用来选择具有最大分数的一组一级类。对于所选的一级类中的每一个,接着使用与每一个一级类相关联的判别主题变换模型来评估对应的二级子类。对于一个或更多个级别重复该过程,或者直到到达了层次的最后一个级别为止。来自在从最高的级别到该层次的任何节点的路径上使用的每一个分类器的分数被组合以产生针对该节点的级别的分类的联合分数。这些分数被用来输出层次中的任何给定的级别的最高得分侯选。判别主题变换模型中的主题变换参数能够在这些模型的一个或更多个子集之间共享,以便于促进层次内的泛化。
附图说明
图1是根据本发明的实施方式的文本分类方法和系统的流程图。
图2是根据本发明的实施方式的层次文本分类方法和系统的流程图。
具体实施方式
本发明的实施方式提供了用于使用判别主题变换模型对文本进行分类的方法。
该方法从待分类的文本中提取文本特征fj,k(x,y),其中j是针对特征的类型的索引,k是与该特征相关联的类的索引,x是文本,并且y是类的假设。
使用下式来将文本特征变换为主题特征:
gl,k(x,y)=hl(f1,k(x,y),...,fJ,k(x,y)),
其中hl(.)是对文本特征进行变换的函数,并且l是主题特征的索引。
使用术语“主题特征”是因为特征与文本的语义方面有关。如在本领域和在本文中所使用的,“语义”整体上涉及文本在自然语言中的含义。语义集中于诸如单词、短语、记号和符号这样的意符(signifier)之间的关系以及这些意符表示什么。语义不同于单个单词的“词典”含义。
由特征变换矩阵A参数化的线性变换
hl(f1,k(x,y),...,fJ,k(x,y))=∑jAl,jfj,k(x,y),
产生主题特征
g l , k ( x , y ) = Σ j A l , j f j , k ( x , y ) .
接着,我们的判别主题变换模型为
pΛ , A ( x | y ) = 1 Z Λ , A ( x ) e Σ l , j , k λ l , k A l , j f j , k ( x , y ) ,
其中
Z Λ , A ( x ) = Σ y e Σ l , j , k λ l , k A l , j f j , k ( x , y ) .
我们使用训练文本来构造和优化我们的模型。该模型包括集合分类参数Λ和特征变换矩阵A。这些参数使正确的类标签的分数最大化。该模型还被用来在分类期间评估分数。能够在一次预处理步骤中完成该构造。
还能够在优化期间使用为特征变换矩阵A设计的各种正则项和分类参数Λ来正则化这些模型参数。
一个方式对分类参数Λ使用 L 2 α Σ j , k | λ j , k | 2 , L 1 β Σ j , k | λ j , k | 正则项的混合,而对特征变换矩阵A使用组合的L1/L2正则项其中α、β和γ是加权因子。
用于训练模型参数的目标函数
接着,用于对于文本xi和标签yi的训练对训练模型参数Λ和A的目标函数为
L Λ , A = Σ i log ( p Λ , A ( y i | x i ) ) - α Σ l , k | λ l , k | 2 - β Σ l , k | λ l , k | - γ Σ l ( Σ j | A l , j | ) 2 ,
其中α,β,γ是控制每一个正则项的相对强度的权重,其使用交叉验证来确定。这个目标函数将相对于Λ和A被最大化。
得分
在给定文本x的情况下,每类y的分数能够使用与在以上目标函数中所使用的公式相似的公式来计算,同时省去常数项:
s Λ , A ( y | x ) = Σ l , j , k λ l , k A l , j f j , k ( x , y ) .
层次分类
我们现在考虑按层次结构组织类的情况。对于每一个文本x,我们现在具有针对层次的每一个级别的标签yd,d=1,...,D。每一个级别d的标签变量yd取集合Cd中的值。针对yd的考虑值的集合能够根据由之前的级别的标签变量y1:(d-1)=y1,...,yd-1所取的值而限制于子集Cd(y1:(d-1))。
例如,在针对类的树结构的情况下,每一个集合Cd(y1:(d-1))能够被定义为级别d-1的标签yd-1的子元素的集合。
为了估计每一个级别d的类,我们能够为文本构造取决于之前的级别d'≤d-1的类的假设的分类器。对于类yd的分数使用以下公式来计算:
s Λ d ( y 1 : ( d - 1 ) ) , A ( y d | x , y 1 : ( d - 1 ) ) = Σ l , j , k λ l , k d ( y 1 : ( d - 1 ) ) A l , j f j , k ( x , y d ) ,
其中Λd(y1:(d-1))是给定级别1至d-1的类的情况下的级别d的类的参数的集合。可选地,矩阵A能够取决于级别d和之前的级别的类y1:(d-1),但是可能存在使它跨级别共享的优点。
在树表示的情况下,能够将上述公式简化为
s Λ d ( y d - 1 ) , A ( y d | x , y d - 1 ) = Σ l , j , k λ l , k d ( y d - 1 ) A l , j f j , k ( x , y d ) ,
使得得分仅取决于之前的级别的类。
在这个框架中,能够通过遍历层次并组合用于假设y1:d的组合的跨级别分数来执行推理。
跨级别分数的组合能够以许多方式来完成。这里,我们将考虑来自不同级别的分数的求和:
s ( y 1 : d | x ) = Σ d ′ ≤ d s Λ d ′ ( y 1 : ( d ′ - 1 ) ) , A ( y d ′ | x , y 1 : ( d ′ - 1 ) )
在某些情况下,确定yd的边际分数s(yd|x)能够是重要的。在条件指数模型的情况下,这由下式给出(由无关常数决定):
s ( y d | x ) = log ( Σ y 1 : ( d - 1 ) exp ( s ( y 1 : d | x ) ) ) .
在树的情况下,我们简单地具有s(yd|x)=s(y1:d|x),因为仅存在导致yd的单一路径。
针对不同假设的组合分数被用来对假设进行排名并确定针对输入文本的每一个级别的最可能的类。
遍历层次也能够以许多方式来完成,我们在宽度优先搜索策略中从顶部遍历层次。在这种情况下,我们能够通过从考虑中消除直到其分数太低的级别d-1的假设y1:(d-1)来加速该过程。在级别d,我们现在仅需要考虑包括最高得分y1:(d-1)的假设y1:d
层次也能够由有向无环图(DAG)来表示。DAG没有循环。无向图能够通过选择该无向图中的节点的总排序并且定向在从在顺序上较早的节点到在顺序上更迟的节点的两个节点之间的每一条边而变换为一个DAG。
方法
图1示出了根据我们的发明的实施方式的用于使用判别主题变换模型来对文本进行分类的方法。
如以上所描述的,我们在预处理期间从已知的标记的训练文本104构造105我们的模型103。
在构造了该模型之后,能够对未知的未标记的文本进行分类。
对该方法的输入是文本101,其中文本包括字形、字符、符号、单词、短语或句子。文本能够从语音来得到。
输出是最可能对应于未知的输入文本的一组类标签102,即,类假设。
使用该模型,根据输入文本101来确定110文本特征111。这些文本特征被变换120为主题特征121。
根据模型103来确定130类分数。接着,产生具有最高分数的该组类标签102。
能够像本领域中所公知的那样在连接至存储器和输入/输出接口的处理器100中来执行上述方法的步骤。
图2示出了按树结构化的层次布置类的情况下使用上述方法来对文本进行分类的方法。
根据用于在层次的每一个级别执行分类的上述方法来构造参数202。如上所述对未标记的文本201评估210针对级别1类的分数,产生针对级别1类的分数203。接着基于级别1的分数来选择220下一级别2中的一个或更多个节点。针对级别2的已选择的节点的分数使用上述方法对未标记的文本201进行再一次评估230,并且与之前的级别的分数聚合204。
在层次的每一个后续的级别执行相同的方法,开始于选择220针对级别i的节点,评估230级别i的分数,存储直到级别i的分数204。
在已经聚合了直到最后级别i=n的分数之后,跨级别组合240这些分数,并且产生针对具有最高分数的每一个级别的类标签的集合205。
本发明的效果
本发明提供了对常规的文本分类方法的替代方案。常规的方法能够使用基于主题模型的特征。然而,这些特征在分类器的框架内未被有区别地训练。
与常规的分类模型中那样仅在每一个类内相比,主题特征的使用允许参数在所有的类之间共享,这使得模型能够跨类来确定单词之间的关系。
主题特征也允许针对每一个类的参数用于所有的类,这能够在参数估计期间减少噪声和过拟合,并且改善泛化。
相对于潜在变量主题模型,我们的模型在对数概率域中涉及主题特定参数和类特定参数的乘法,然而现有技术的潜在变量主题模型在对数概率域中涉及加法,这产生可能模型的不同集合。
作为另一个优点,我们的方法使用具有优化的多变量逻辑斯蒂函数,其对远离判定边界的训练文本点不太敏感。
与判别主题变换组合的分类的层次操作使得系统能够通过在类之间共享参数从训练数据进行很好的泛化。如果无法以足够的信心来执行在较低的级别下的推理,则它也使得退回到更高级别的类成为可能。

Claims (19)

1.一种用于对文本进行分类的方法,该方法包括以下步骤:
根据所述文本来确定文本特征;
将所述文本特征变换为主题特征;
根据所述主题特征来确定分数,其中,所述确定步骤使用下述模型,其中,所述模型是包括对所述主题特征进行操作的分类器的判别主题模型,并且所述变换步骤被优化以最大化相对于不正确的类的分数的正确的类的分数;以及
选择针对所述文本具有最高分数的一组类标签,其中,在处理器中执行所述步骤。
2.根据权利要求1所述的方法,其中,所述主题特征是所述文本特征的线性变换。
3.根据权利要求1所述的方法,其中,所述模型的参数使用包括L1、L2的正则项和混合范数正则项来正则化。
4.根据权利要求1所述的方法,其中,所述文本是从来自对语音信号进行操作的自动语音识别系统的一个或更多个假设得到的。
5.根据权利要求1所述的方法,其中,所述文本特征是f(j,k(x,y),所述变换是根据下式进行的:
gl,k(x,y)=hl(f1,k(x,y),...,fJ,k(x,y)),
其中,j是针对特征的类型的索引,k是与特征相关联的类的索引,x是文本,y是类标签的假设,并且hl(.)是对文本特征进行变换的函数,并且l是主题特征的索引。
6.根据权利要求1所述的方法,其中,所述主题特征与所述文本的语义方面有关。
7.根据权利要求5所述的方法,其中,线性变换
hl(f1,k(x,y),...,fJ,k(x,y))=∑jAl,jfj,k(x,y)
由特征变换矩阵A来参数化以产生所述主题特征
g l . k ( x , y ) = Σ j A l , j f j , k ( x , y )
8.根据权利要求5所述的方法,其中,所述判别主题模型为
max Λ , A { log ( p Λ , A ( y | x ) ) - α Σ l , k | λ l , k | 2 - β Σ l , k | λ l , k | - γ Σ l ( Σ j | A l , j | ) 2 }
其中,α,β,γ是权重,并且Λ是分类优化参数。
9.根据权利要求8所述的方法,其中,所述权重通过交叉验证来确定。
10.根据权利要求1所述的方法,其中,根据由文本使用的自然语言的语义进行所述分类。
11.根据权利要求1所述的方法,其中,按层次结构组织所述类,其中每一个类对应于所述层次中的某一节点,其中,节点被分配给所述层次的不同的级别,其中,不同的分类参数被用于所述层次的所述级别中的一个或更多个,其中,分类是通过下述方式来进行的:遍历所述层次以评估每一个级别的按照前面的级别的类的假设调节的部分分数并且组合这些级别中的一个或更多个的类的所述部分分数以确定联合分数。
12.根据权利要求11所述的方法,其中,所述层次被表示为树。
13.根据权利要求11所述的方法,其中,所述层次被表示为有向无环图。
14.根据权利要求11所述的方法,其中,以宽度优先方式来遍历所述层次。
15.根据权利要求11所述的方法,其中,使用一个或更多个级别的分数来根据其它的级别的考虑消除假设。
16.根据权利要求15所述的方法,其中,在给定级别,根据进一步的考虑消除除了最高得分假设以外的所有假设。
17.根据权利要求15所述的方法,其中,在给定级别,对于某个正整数n,根据进一步的考虑消除除了n个最高得分假设以外的所有假设。
18.根据权利要求11所述的方法,其中,通过对沿着从最高的级别到另一个级别的一个类的路径的部分分数求和来确定沿着该路径的一系列类的联合分数。
19.根据权利要求18所述的方法,其中,通过使通向所述类的所有路径的联合分数边缘化来确定特定级别下的所述类的分数。
CN201380024544.5A 2012-05-24 2013-05-15 用于对文本进行分类的方法 Expired - Fee Related CN104285224B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/479,656 US9069798B2 (en) 2012-05-24 2012-05-24 Method of text classification using discriminative topic transformation
US13/479,656 2012-05-24
PCT/JP2013/064141 WO2013176154A1 (en) 2012-05-24 2013-05-15 Method for classifying text

Publications (2)

Publication Number Publication Date
CN104285224A true CN104285224A (zh) 2015-01-14
CN104285224B CN104285224B (zh) 2018-11-16

Family

ID=48579454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380024544.5A Expired - Fee Related CN104285224B (zh) 2012-05-24 2013-05-15 用于对文本进行分类的方法

Country Status (5)

Country Link
US (1) US9069798B2 (zh)
JP (1) JP5924713B2 (zh)
CN (1) CN104285224B (zh)
DE (1) DE112013002654T5 (zh)
WO (1) WO2013176154A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156204B (zh) * 2015-04-23 2020-05-29 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339534B2 (en) * 2013-02-05 2019-07-02 [24]7.ai, Inc. Segregation of chat sessions based on user query
CN105635068B (zh) * 2014-11-04 2019-06-04 阿里巴巴集团控股有限公司 一种进行业务安全控制的方法及装置
JP6674172B2 (ja) * 2016-02-24 2020-04-01 国立研究開発法人情報通信研究機構 トピック推定装置、トピック推定方法、およびプログラム
US10783262B2 (en) * 2017-02-03 2020-09-22 Adobe Inc. Tagging documents with security policies
CN108628873B (zh) * 2017-03-17 2022-09-27 腾讯科技(北京)有限公司 一种文本分类方法、装置和设备
US10896385B2 (en) 2017-07-27 2021-01-19 Logmein, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
CN107679228B (zh) * 2017-10-23 2019-09-10 合肥工业大学 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法
CN108846128B (zh) * 2018-06-30 2021-09-14 合肥工业大学 一种基于自适应噪音降噪编码器的跨领域文本分类方法
US10997403B1 (en) 2018-12-19 2021-05-04 First American Financial Corporation System and method for automated selection of best description from descriptions extracted from a plurality of data sources using numeric comparison and textual centrality measure
US11048711B1 (en) 2018-12-19 2021-06-29 First American Financial Corporation System and method for automated classification of structured property description extracted from data source using numeric representation and keyword search
US20240061998A1 (en) * 2022-08-21 2024-02-22 Nec Laboratories America, Inc. Concept-conditioned and pretrained language models based on time series to free-form text description generation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6751614B1 (en) * 2000-11-09 2004-06-15 Satyam Computer Services Limited Of Mayfair Centre System and method for topic-based document analysis for information filtering
CN101739429A (zh) * 2008-11-18 2010-06-16 中国移动通信集团公司 一种优化聚类搜索结果的方法及其装置

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253169B1 (en) * 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
US6507829B1 (en) * 1999-06-18 2003-01-14 Ppd Development, Lp Textual data classification method and apparatus
US7177796B1 (en) * 2000-06-27 2007-02-13 International Business Machines Corporation Automated set up of web-based natural language interface
US20020087520A1 (en) * 2000-12-15 2002-07-04 Meyers Paul Anthony Appartus and method for connecting experts to topic areas
EP1421518A1 (en) * 2001-08-08 2004-05-26 Quiver, Inc. Document categorization engine
JP4082059B2 (ja) * 2002-03-29 2008-04-30 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP5255769B2 (ja) * 2003-11-21 2013-08-07 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
US20050165607A1 (en) 2004-01-22 2005-07-28 At&T Corp. System and method to disambiguate and clarify user intention in a spoken dialog system
US7584100B2 (en) * 2004-06-30 2009-09-01 Microsoft Corporation Method and system for clustering using generalized sentence patterns
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
WO2006039566A2 (en) * 2004-09-30 2006-04-13 Intelliseek, Inc. Topical sentiments in electronically stored communications
US7574409B2 (en) * 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
JP4466334B2 (ja) * 2004-11-08 2010-05-26 日本電信電話株式会社 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
US20090234688A1 (en) * 2005-10-11 2009-09-17 Hiroaki Masuyama Company Technical Document Group Analysis Supporting Device
US7529748B2 (en) * 2005-11-15 2009-05-05 Ji-Rong Wen Information classification paradigm
US7769751B1 (en) * 2006-01-17 2010-08-03 Google Inc. Method and apparatus for classifying documents based on user inputs
JP5379138B2 (ja) * 2007-08-23 2013-12-25 グーグル・インコーポレーテッド 領域辞書の作成
US7890539B2 (en) * 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
US7797260B2 (en) * 2008-02-11 2010-09-14 Yahoo! Inc. Automated document classifier tuning including training set adaptive to user browsing behavior
JP5199768B2 (ja) * 2008-07-24 2013-05-15 日本電信電話株式会社 タグ付け支援方法とその装置、プログラム及び記録媒体
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8527523B1 (en) * 2009-04-22 2013-09-03 Equivio Ltd. System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
JP2010267017A (ja) * 2009-05-13 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 文書分類装置、文書分類方法および文書分類プログラム
US8738361B2 (en) * 2009-07-01 2014-05-27 International Business Machines Corporation Systems and methods for extracting patterns from graph and unstructered data
KR20110036385A (ko) 2009-10-01 2011-04-07 삼성전자주식회사 사용자 의도 분석 장치 및 방법
US8868402B2 (en) * 2009-12-30 2014-10-21 Google Inc. Construction of text classifiers
US8886623B2 (en) * 2010-04-07 2014-11-11 Yahoo! Inc. Large scale concept discovery for webpage augmentation using search engine indexers
US8825648B2 (en) * 2010-04-15 2014-09-02 Microsoft Corporation Mining multilingual topics
US20110307252A1 (en) 2010-06-15 2011-12-15 Microsoft Corporation Using Utterance Classification in Telephony and Speech Recognition Applications
US8521662B2 (en) * 2010-07-01 2013-08-27 Nec Laboratories America, Inc. System and methods for finding hidden topics of documents and preference ranking documents
US20120296637A1 (en) * 2011-05-20 2012-11-22 Smiley Edwin Lee Method and apparatus for calculating topical categorization of electronic documents in a collection
US8533195B2 (en) * 2011-06-27 2013-09-10 Microsoft Corporation Regularized latent semantic indexing for topic modeling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6751614B1 (en) * 2000-11-09 2004-06-15 Satyam Computer Services Limited Of Mayfair Centre System and method for topic-based document analysis for information filtering
CN101739429A (zh) * 2008-11-18 2010-06-16 中国移动通信集团公司 一种优化聚类搜索结果的方法及其装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156204B (zh) * 2015-04-23 2020-05-29 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置

Also Published As

Publication number Publication date
JP5924713B2 (ja) 2016-05-25
WO2013176154A1 (en) 2013-11-28
JP2015511733A (ja) 2015-04-20
DE112013002654T5 (de) 2015-02-19
US9069798B2 (en) 2015-06-30
CN104285224B (zh) 2018-11-16
US20130317804A1 (en) 2013-11-28

Similar Documents

Publication Publication Date Title
CN104285224A (zh) 用于对文本进行分类的方法
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN109992782A (zh) 法律文书命名实体识别方法、装置及计算机设备
US20130179169A1 (en) Chinese text readability assessing system and method
Sadhasivam et al. Sentiment analysis of Amazon products using ensemble machine learning algorithm
CN111858896B (zh) 一种基于深度学习的知识库问答方法
CN112069320B (zh) 一种基于跨度的细粒度情感分析方法
CN113326374B (zh) 基于特征增强的短文本情感分类方法及系统
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
Alfaro et al. Ensemble classification methods with applications in R
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
CN116108191A (zh) 一种基于知识图谱的深度学习模型推荐方法
CN113743083B (zh) 一种基于深度语义表征的试题难度预测方法及系统
CN111259147A (zh) 基于自适应注意力机制的句子级情感预测方法及系统
Pathuri et al. Feature based sentimental analysis for prediction of mobile reviews using hybrid bag-boost algorithm
CN111708865A (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN117235253A (zh) 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法
CN111400496B (zh) 一种面向用户行为分析的大众口碑情感分析方法
CN115169429A (zh) 一种轻量化方面级文本情感分析方法
CN113722439A (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
Tabaza et al. An adaptive intelligent framework for assessment & selection process in staffing task
Baron et al. Bike2Vec: vector embedding representations of road cycling riders and races

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181116