CN104063502B - 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法 - Google Patents

一种基于语义模型的wsdl半结构化文档相似性分析及分类方法 Download PDF

Info

Publication number
CN104063502B
CN104063502B CN201410322692.1A CN201410322692A CN104063502B CN 104063502 B CN104063502 B CN 104063502B CN 201410322692 A CN201410322692 A CN 201410322692A CN 104063502 B CN104063502 B CN 104063502B
Authority
CN
China
Prior art keywords
original text
semantic
wsdl
semi
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410322692.1A
Other languages
English (en)
Other versions
CN104063502A (zh
Inventor
龙军
张祖平
王鲁达
李会玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201410322692.1A priority Critical patent/CN104063502B/zh
Publication of CN104063502A publication Critical patent/CN104063502A/zh
Application granted granted Critical
Publication of CN104063502B publication Critical patent/CN104063502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于语义模型的WSDL半结构化文档的相似性分析及分类方法,利用WordNet词典建立WSDL半结构化文档语义模型,并通过最大熵模型消除词语歧义,建立WSDL半结构化文档语料库特征向量模型,生成WSDL半结构化文档的文档特征矩阵,从而对两个不同文档进行内容的分类与评估,最终得到服务功能的相似性比较。本发明所述方法提高了文档相似性判断准确度,提升了文档分类速度以及准确度,并对向量空间有降维效果。

Description

一种基于语义模型的WSDL半结构化文档相似性分析及分类 方法
技术领域
本发明涉及Web服务与信息检索领域,特别涉及一种基于语义模型的WSDL半结构化文档相似性分析及分类。
背景技术
在信息检索领域,相似性和相关性分析的文档语料库的实现需要相应的表示不同文档的算法。典型的统计特征提取的方法包括TF-IDF基于词法词频率和瓦哈希基于连续条件算法。TF-IDF是当前比较实用的一个文档分类算法,在基于向量空间模型的信息检索系统中,TF-IDF算法被广泛的应用在基于关键字的信息检索中。同样的,许多文档分类方法利用词的统计数据,比如Bag-of-Words和Minwise散列被视为统计措施文档表示的特征提取。然而,在信息检索领域,忽视词汇语义词统计方法,使得文档分析词的水平停留字符串基础上而没有通过消除歧义得到更准确的特征提取。
WSDL是一个用于精确描述Web服务的文档,WSDL文档是一个遵循WSDL XML模式的XML文档。WSDL文档将Web服务定义为服务访问点或端口的集合。在WSDL中,由于服务访问点和消息的抽象定义已从具体的服务部署或数据格式绑定中分离出来,因此可以对抽象定义进行再次使用:消息,指对交换数据的抽象描述;而端口类型,指操作的抽象集合。用于特定端口类型的具体协议和数据格式规范构成了可以再次使用的绑定。将Web访问地址与可再次使用的绑定相关联,可以定义一个端口,而端口的集合则定义为服务。一个WSDL文档通常包含7个重要的元素,即types、import、message、portType、operation、binding、service元素。这些元素嵌套在definitions元素中,definitions是WSDL文档的根元素。
目前,许多文本分类算法依赖于基于统计的文档特征向量,但是,这些算法忽略了词汇条款和净化共同的信息,导致文本分类错误。
因此急需提出这一种针对WSDL半结构化文档分析不同标签元素中同义不同词的情况。
发明内容
本发明提供了一种基于语义模型的WSDL半结构化的文档相似性分析及分类方法,其目的在于,克服现有技术中文档相似性判断忽略了同义不同词的情况,从而导致判断结果准确度不高,进而影响文档分类的精度。
一种基于语义模型的WSDL半结构化的文档相似性分析方法,包括以下步骤:
步骤1:依次找出原文档中的每个原文词对应的一个或多个词根,利用WordNet词典获得文档中每个原文词对应的词根的一个或多个同义词集,并以每一个同义词集作为一个语义元素;
步骤2:对原文档中的每个原文词利用WordNet词典找出的作为语义元素的同义词集,采用数据元结构存储至语义元素的相关信息至数据表中;
步骤3:从步骤2中得到的数据表中提取相关数据进行计算,利用最大熵模型fi(x,c)进行计算,以条件概率函数p(c|x)获得的最大值选择的词根作为每个原文词最匹配的词根,消除词根歧义;
其中,p(c|x)条件概率函数是表示原文词x被词根c映射到的频率,αi是原文词x在语义元素i中的频率,K是词根c涉及到的语义元素的个数总和,Z(x)是一个确保当前原文档的所有条件概率的总和为1的设定值;x表示原文档中的原文词,c表示词根,i为语义元素编号,Si是语义元素i中包含的词根个数,Pj是在一个语义元素中一个原文词频率与该语义元素中所有原文词频率和值的比值,原文词频率是指作为语义元素的同义词集在原文档中被语义元素中的同一词根映射的次数;
步骤4:建立WSDL半结构化文档语料库特征向量模型;
使用向量空间模型SVM对原文档进行划分得到m个标签元素,依据步骤3获得的每个原文词对应的唯一词根,确定每个原文词对应的同义词集,以同义词集的个数作为每个标签元素特征向量的行数,以标签元素中的包含的段落数作为每个标签元素特征向量的列数,建立WSDL半结构化文档语料库特征向量模型;
步骤5:生成WSDL半结构化文档文本特征矩阵;
利用每个同义词集在每个段落中出现的次数赋值到WSDL半结构化文档语料库特征向量模型中,得到各标签元素向量,即WSDL半结构化文档文本特征矩阵;
步骤6:对两个不同文档按照步骤1-步骤5所述方法得到每个文档的文本特征矩阵,计算两个文本特征矩阵之间的距离,判断两个文档的相似性。
所述步骤2中所述语义元素的数据元包括:
Synset ID,同义词集唯一标识,从WordNet词典获得;
Set of Synonym,同义词集合,同义词集中的所有词根;
Weight,同义词集在原文档中被原文词映射的次数;
Sample ID,同义词集所属原文档的原文档唯一标识,由用户自行设定;
Element ID,同义词集对应在原文档中的XML元素编号;
Semantic Member,语义成员链表,以链表形式记录每个同义词集对应原文档中的原文词和每个原文词对应的词根;
Semantic Members Frequency,语义成员频率,包括语义成员链表中所涉及的每个原文词频率,同义词集在原文档中被语义成员链表中所记录的每个原文词映射的次数。
所述步骤6中两个文本特征矩阵之间的距离为余弦距离。
一种基于WSDL半结构化的文档分类方法,采用所述的一种基于语义模型的WSDL半结构化的文档相似性分析方法,采用权重邻居KNN计算公式WSDL半结构化文档所属类别的评估值,利用文档所属类别的评估值大小对文档进行分类:
其中,函数score(d,ci)计算得到将文档d归于分类ci的评估值;函数Sim(d,dj)表示文档d与已知类别文档dj的相似度,采用向量余弦距离计算;Weighti为分类权重设定值;函数δ(dj,ci)表示若文档dj属于类别ci,则该函数取值为1,否则,该函数取值为0;i表示第i类文档。
有益效果
本发明提出了一种基于语义模型的WSDL半结构化文档相似性分析及分类方法,它包括两个方面的改进:(1)根据WordNet词典形成词语的语义特征向量模型;(2)通过最大熵模型消除词根歧义;
与传统的统计特征提取的方法相比,本发明采用WordNet词典提取出的同义词集形成的语义元素,通过记录同义词集在原文档中对应原文词的次数,以及同义词集在原文档中对应原文词的词根的次数,通过最大熵模型的计算,消除词根歧义,使得每个原文词对应一个同义词集,得到了一个唯一的含义;接着采用向量模型,对文档中的标签元素利用语义元素进行表征,形成文本特征矩阵;最后利用矩阵之间的距离大小来判断文档的相似性;利用相似性的结果对文档进行分类。
从实证的角度,采用了广受认可的传统算法NWKNN,并对Reuter-21758和其调整后的版本进行了比较实验,实验结果定量的展示了本发明所述方法的明显优势,提高了文档相似性判断准确度,提升了文档分类速度以及准确度,并对向量空间进行了降维。
附图说明
图1为本发明所述方法的流程图;
图2为XML格式文档样例图
图3为对原文词提取同义词集的示意图;
图4为图3的实例示意图;
图5为语义成员链表示意图。
具体实施方式
下面将结合附图和实施例对本发明做进一步的说明。
如图1所示,为本发明所述的流程图,一种基于语义模型的WSDL半结构化的文档相似性分析方法,包括以下步骤:
步骤1:依次找出原文档中的每个原文词对应的一个或多个词根,利用WordNet词典获得文档中每个原文词对应的词根的一个或多个同义词集,并以每一个同义词集作为一个语义元素;
通过对文档语料库分析,依赖词义统计会丢失涉及同义词的交互信息,因此我们利用WordNet词典(英语词汇数据库)建立基于WSDL半结构化文档原文词。在WordNet词典中一个表格是由一个ASCII字符的字符串表示,一个词的意思由这些同一词集组成。同义是WordNet词典的基本关系,因为WordNet词典利用这些同义词集来表示词的含义。
如图2所示,DocA和DocB是两个简单的XML文档被看作两个文档样本,如图3所示,一个原文词word对应一个或多个同义词集synonym set。
如图4所示,通过WordNet词典查找出human和man的同义词homo,从而得到原文词。
步骤2:对原文档中的每个原文词利用WordNet词典找出的作为语义元素的同义词集,采用数据元结构存储至语义元素的相关信息至数据表中;
所述步骤2中所述语义元素的数据元包括:
Synset ID,同义词集唯一标识,从WordNet词典获得;
Set of Synonym,同义词集合,同义词集中的所有词根;
Weight,同义词集在原文档中被原文词映射的次数;
Sample ID,同义词集所属原文档的原文档唯一标识,由用户自行设定;
Element ID,同义词集对应在原文档中的XML元素编号;
Semantic Member,语义成员链表,以链表形式记录每个同义词集对应原文档中的原文词和每个原文词对应的词根;
Semantic Members Frequency,语义成员频率,包括语义成员链表中所涉及的每个原文词频率,同义词集在原文档中被语义成员链表中所记录的每个原文词映射的次数。
利用语义元素来提取文档词语语义特征,并以词语语义特征向量表示一个样本文档。在每一个语义元素中,它的原文词的词尾变化以及词根的基本形式被语义元素链表收录。根据WordNet词典,每当一个原文词涉及多个的词根,语义成员链表会扩展原文词的节点来记录词根,如图4所示语义成员链表。
步骤3:从步骤2中得到的数据表中提取相关数据进行计算,利用最大熵模型fi(x,c)进行计算,以条件概率函数p(c|x)获得的最大值选择的词根作为每个原文词最匹配的词根,消除词根歧义;
其中,p(c|x)条件概率函数是表示原文词x被词根c映射到的频率,αi是原文词x在语义元素i中的频率,K是词根c涉及到的语义元素的个数总和,Z(x)是一个确保当前原文档的所有条件概率的总和为1的设定值;x表示原文档中的原文词,c表示词根,i为语义元素编号,Si是语义元素i中包含的词根个数,Pj是在一个语义元素中一个原文词频率与该语义元素中所有原文词频率和值的比值,原文词频率是指作为语义元素的同义词集在原文档中被语义元素中的同一词根映射的次数;
最大熵模型表示语义元素i在语义成员中的多样性,并以Shannon-Wiener指数的形式表示。
根据WordNet词典的框架,每当一个原文词的被多组同义词集映射到,通过ME模型(最大熵模型)计算出哪组同义词词集最符合文档内容要求。ME模型(最大熵模型)是把来自多个异构词根按信息进行分类的框架。在我们的模型中,我们假设语义成员的多样性表示的语义元素的意义和存在的语义成员的合理性。
步骤4:建立WSDL半结构化文档语料库特征向量模型;
依据XML文档规则对原文档进行解析得到m个标签元素,依据步骤3获得的每个原文词对应的唯一词根,确定每个原文词对应的同义词集,以同义词集的个数作为每个标签元素特征向量的行数,以标签元素中的包含的段落数作为每个标签元素特征向量的列数,每个段落标号为步骤2中记录的XML编号,建立WSDL半结构化文档语料库特征向量模型;
建立标签元素特征向量是为了便于找出WSDL文档中相同标签元素之间对应的词语语义相似性,具体公式如下:
Δx=[Δx(1),Δx(2),……,Δx(m)] (3)
其中Δx∈Rn×m,m表示文档中标签元素的数量,n表示语义元素的个数,Δx(i)表示WSDL文档中标签元素ei的特征向量。
在本实例当中同样可以得到词频向量特征模型:
其中,ei为标签元素,wj表示语义元素在原文档所在的标签元素中出现的次数;
步骤5:生成WSDL半结构化文档文本特征矩阵;
利用每个同义词集在每个段落中出现的次数赋值到WSDL半结构化文档语料库特征向量模型中,得到各标签元素向量,即WSDL半结构化文档文本特征矩阵;
步骤6:对两个不同文档按照步骤1-步骤5所述方法得到每个文档的文本特征矩阵,计算两个文本特征矩阵之间的距离,判断两个文档的相似性。
所述步骤6中两个文本特征矩阵之间的距离为余弦距离。
一种基于语义模型的WSDL半结构化的文档分类方法,采用所述的一种基于语义模型的WSDL半结构化的文档相似性分析方法,采用权重邻居KNN计算公式WSDL半结构化文档所属类别的评估值,利用文档所属类别的评估值大小对文档进行分类:
其中,函数score(d,ci)计算得到将文档d归于分类ci的评估值;函数Sim(d,dj)表示文档d与已知类别文档dj的相似度,采用向量余弦距离计算;Weighti为分类权重设定值;函数δ(dj,ci)表示若文档dj属于类别ci,则该函数取值为1,否则,该函数取值为0;i表示第i类文档。
为了评估文档分类系统,我们使用如下F1函数。这一函数结合查全率Recall和查准率Precision的F1函数如下:
运用F1函数,我们可以观察到一个文档分类系统不同类型对数据的影响。为便于比较,我们总结了F1的分数比使用宏观平均值F1分数的不同类别,于此同时,我们可以得到Macro-Recall和Macro-Precision。
通过表1比较TF-IDF向量和本发明提出的Lexical-semantic向量得出我们的相似性方法更精确、有效。
表1 TF-IDF向量和Lexical-semantic向量比较
可以看到,表1中所述本发明提出的Lexical-semantic向量,得到的分类结果明显高于现有技术中TF-IDF向量,尤其是平均准确率由原有的48.6702%提高到70.1861%。

Claims (4)

1.一种基于语义模型的WSDL半结构化文档相似性分析方法,其特征在于,包括以下步骤:
步骤1:依次找出原文档中的每个原文词对应的一个或多个词根,利用WordNet词典获得文档中每个原文词对应的词根的一个或多个同义词集,并以每一个同义词集作为一个语义元素;
步骤2:对原文档中的每个原文词利用WordNet词典找出的作为语义元素的同义词集,采用数据元结构存储至语义元素的相关信息至数据表中;
步骤3:从步骤2中得到的数据表中提取相关数据进行计算,利用最大熵模型fi(x,c)进行计算,以条件概率函数p(c|x)获得的最大值选择的词根作为每个原文词最匹配的词根,消除词根歧义;
p ( c | x ) = 1 Z ( x ) Π i = 1 K α i f i ( x , c )
其中,p(c|x)条件概率函数是表示原文词x被词根c映射到的频率,αi是原文词x在语义元素i中的频率,K是词根c涉及到的语义元素的个数总和,Z(x)是一个确保当前原文档的所有条件概率的总和为1的设定值;x表示原文档中的原文词,c表示词根,i为语义元素编号,Si是语义元素i中包含的词根个数,Pj是在一个语义元素中一个原文词频率与该语义元素中所有原文词频率和值的比值,原文词频率是指作为语义元素的同义词集在原文档中被语义元素中的同一词根映射的次数;
步骤4:建立WSDL半结构化文档语料库特征向量模型;
使用向量空间模型SVM对原文档进行划分得到m个标签元素,依据步骤3获得的每个原文词对应的唯一词根,确定每个原文词对应的同义词集,以同义词集的个数作为每个标签元素特征向量的行数,以标签元素中的包含的段落数作为每个标签元素特征向量的列数,建立WSDL半结构化文档语料库特征向量模型;
步骤5:生成WSDL半结构化文档文本特征矩阵;
利用每个同义词集在每个段落中出现的次数赋值到WSDL半结构化文档语料库特征向量模型中,得到各标签元素向量,即WSDL半结构化文档文本特征矩阵;
步骤6:对两个不同文档按照步骤1-步骤5所述方法得到每个文档的文本特征矩阵,计算两个文本特征矩阵之间的距离,判断两个文档的相似性。
2.根据权利要求1所述的基于语义模型的WSDL半结构化文档相似性分析方法,其特征在于,所述步骤2中所述语义元素的数据元包括:
Synset ID,同义词集唯一标识,从WordNet词典获得;
Set of Synonym,同义词集合,同义词集中的所有词根;
Weight,同义词集在原文档中被原文词映射的次数;
Sample ID,同义词集所属原文档的原文档唯一标识,由用户自行设定;
Element ID,同义词集对应在原文档中的XML元素编号;
Semantic Member,语义成员链表,以链表形式记录每个同义词集对应原文档中的原文词和每个原文词对应的词根;
Semantic Members Frequency,语义成员频率,包括语义成员链表中所涉及的每个原文词频率,同义词集在原文档中被语义成员链表中所记录的每个原文词映射的次数。
3.根据权利要求1或2所述的基于语义模型的WSDL半结构化文档相似性分析方法,其特征在于,所述步骤6中两个文本特征矩阵之间的距离为余弦距离。
4.一种基于语义模型的WSDL半结构化文档分类方法,其特征在于,采用权利要求1-3任一项所述的一种基于语义模型的WSDL半结构化文档相似性分析方法,采用权重邻居KNN计算公式WSDL半结构化文档所属类别的评估值,利用文档所属类别的评估值大小对文档进行分类:
s c o r e ( d , c i ) = Weight i ( Σ d f ∈ K N N ( d ) S i m ( d , d j ) δ ( d j , c i ) )
其中,函数score(d,ci)计算得到将文档d归于分类ci的评估值;函数Sim(d,dj)表示文档d与已知类别文档dj的相似度,采用向量余弦距离计算;Weighti为分类权重设定值;函数δ(dj,ci)表示若文档dj属于类别ci,则该函数取值为1,否则,该函数取值为0;i表示第i类文档。
CN201410322692.1A 2014-07-08 2014-07-08 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法 Active CN104063502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410322692.1A CN104063502B (zh) 2014-07-08 2014-07-08 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410322692.1A CN104063502B (zh) 2014-07-08 2014-07-08 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法

Publications (2)

Publication Number Publication Date
CN104063502A CN104063502A (zh) 2014-09-24
CN104063502B true CN104063502B (zh) 2017-03-22

Family

ID=51551216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410322692.1A Active CN104063502B (zh) 2014-07-08 2014-07-08 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法

Country Status (1)

Country Link
CN (1) CN104063502B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6583686B2 (ja) * 2015-06-17 2019-10-02 パナソニックIpマネジメント株式会社 意味情報生成方法、意味情報生成装置、およびプログラム
CN105304084B (zh) * 2015-11-13 2020-04-24 深圳狗尾草智能科技有限公司 一种实现机器人记忆主人强相关信息的方法
CN105373521B (zh) * 2015-12-04 2018-06-29 湖南工业大学 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法
CN105912523B (zh) * 2016-04-06 2019-07-19 苏州大学 一种词义标注方法和装置
CN106227719B (zh) * 2016-07-26 2018-10-23 北京智能管家科技有限公司 中文分词歧义消除方法和系统
CN109002443B (zh) * 2017-06-06 2021-12-28 北京国双科技有限公司 一种文本信息的分类方法及装置
CN107368558B (zh) * 2017-07-05 2021-05-14 腾讯科技(深圳)有限公司 数据对象的返回方法及装置
CN108647322B (zh) * 2018-05-11 2021-12-17 四川师范大学 基于词网识别大量Web文本信息相似度的方法
CN109800422A (zh) * 2018-12-20 2019-05-24 北京明略软件系统有限公司 一种对数据表进行分类的方法、系统、终端和存储介质
EP3783522A4 (en) * 2019-06-28 2021-11-24 Siemens Aktiengesellschaft SEMANTIC MODEL INSTANCIATION PROCESS, SYSTEM AND DEVICE
CN110674635B (zh) * 2019-09-27 2023-04-25 北京妙笔智能科技有限公司 一种用于文本段落划分的方法和装置
CN111859901A (zh) * 2020-07-15 2020-10-30 大连理工大学 一种英文重复文本检测方法、系统、终端及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567005A (zh) * 2009-05-07 2009-10-28 浙江大学 一种基于WordNet的语义服务注册与查询方法
CN102123172A (zh) * 2011-02-25 2011-07-13 南京邮电大学 一种基于神经网络聚类优化的Web服务发现的实现方法
CN102682104A (zh) * 2012-05-04 2012-09-19 中南大学 一种查找相似文本的方法及连接位相似性度量算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689559B2 (en) * 2006-02-08 2010-03-30 Telenor Asa Document similarity scoring and ranking method, device and computer program product
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101567005A (zh) * 2009-05-07 2009-10-28 浙江大学 一种基于WordNet的语义服务注册与查询方法
CN102123172A (zh) * 2011-02-25 2011-07-13 南京邮电大学 一种基于神经网络聚类优化的Web服务发现的实现方法
CN102682104A (zh) * 2012-05-04 2012-09-19 中南大学 一种查找相似文本的方法及连接位相似性度量算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文本相似性度量中参数相关性与优化配置研究;张祖平,徐昕,龙军,袁鑫攀;《小型微型计算机系统》;20110515(第5期);第983页-第988页 *

Also Published As

Publication number Publication date
CN104063502A (zh) 2014-09-24

Similar Documents

Publication Publication Date Title
CN104063502B (zh) 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
Saleena An ensemble classification system for twitter sentiment analysis
Pham et al. Semantic labeling: a domain-independent approach
CN106021223B (zh) 一种句子相似度的计算方法及系统
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
CN104915448B (zh) 一种基于层次卷积网络的实体与段落链接方法
CN107038480A (zh) 一种基于卷积神经网络的文本情感分类方法
Mouchere et al. Icdar 2013 crohme: Third international competition on recognition of online handwritten mathematical expressions
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN106447285A (zh) 基于多维度领域关键知识的招聘信息匹配方法
CN106528642A (zh) 一种基于tf‑idf特征提取的短文本分类方法
CN104331506A (zh) 一种面向双语微博文本的多类情感分析方法与系统
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN107145560B (zh) 一种文本分类方法及装置
CN106202481A (zh) 一种感知数据的评价方法和系统
CN103020167B (zh) 一种计算机中文文本分类方法
CN104899188A (zh) 一种基于问题主题和焦点的问题相似度计算方法
CN106651696A (zh) 一种近似题推送方法及系统
CN104484380A (zh) 个性化搜索方法及装置
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
KR101319413B1 (ko) 제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법
CN102760121B (zh) 依存映射方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant