CN1629837A - 电子文档的处理、浏览及分类查询的方法、装置及其系统 - Google Patents

电子文档的处理、浏览及分类查询的方法、装置及其系统 Download PDF

Info

Publication number
CN1629837A
CN1629837A CNA2003101231096A CN200310123109A CN1629837A CN 1629837 A CN1629837 A CN 1629837A CN A2003101231096 A CNA2003101231096 A CN A2003101231096A CN 200310123109 A CN200310123109 A CN 200310123109A CN 1629837 A CN1629837 A CN 1629837A
Authority
CN
China
Prior art keywords
class name
electronic document
document
classification
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2003101231096A
Other languages
English (en)
Inventor
刘世霞
杨力平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNA2003101231096A priority Critical patent/CN1629837A/zh
Priority to US11/012,674 priority patent/US20050138079A1/en
Publication of CN1629837A publication Critical patent/CN1629837A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电子文档的处理方法及装置,一种电子文档的浏览方法及相应的浏览器,一种电子文档分类查询方法及相应的分类查询系统。根据本发明的电子文档的处理方法,包括:在作者写作电子文档时,根据所述电子文档生成一个或多个文档所属类别的类名;以及与所述电子文档对应地保存所述类名信息。其中,所述文档所属类别的类名是经过核实了的以保证其可靠性。

Description

电子文档的处理、浏览及 分类查询的方法、装置及其系统
技术领域
本发明一般涉及数据处理技术,特别地,本发明涉及一种基于文档分类技术的电子文档的处理方法及装置、电子文档的浏览方法及相应的浏览器、以及电子文档的分类查询方法及相应的分类查询系统。
背景技术
随着互连网以惊人的速度的发展,它容纳了海量的各种类型的原始信息。如何在这些海量的WEB信息资源中快速、有效地发现资源和知识,始终是信息处理技术的一大目标。在信息处理过程中,文档分类是一项非常重要的任务。通常,每个信息门户、新闻网站、在线商店或企业网站都有其各自的对文档进行分类的规则、分类树和内容分类结构,并且需要将文档分配给分类结构的特定类别中。然而,执行文档分类通常是一个很复杂的工作。一些网站手工对页面进行分类,而一些网站则使用自动分类引擎来完成此项工作。自动分类引擎需要大量的训练文档来构造分类器,这通常是耗时的处理并且需要领域专家的帮助。
此外,在现有技术中,作者使用的文档写作工具与用户使用的文档管理工具和文档分类工具是相互独立的。即,作者在写作电子文档时并不关心所写的文档将来被划分到哪个或哪几个类中,也不关心将来的读者将如何进行分类查询或在哪些方面(类别中)利用作者所写的文档的内容。但是同时,从信息访问的观点来看,用户又会感到难于在所需要的类别中找到他/她所真正想要的东西。
而且,由于目前计算机对自然语言的理解能力还处于字/词理解的水平,而对于文档管理工具和文档分类工具来说,需要句子甚至整篇文章的理解和语义能力,才能真正满足客户的需要。然而,由于相关技术及工具的局限性,现有文档管理及分类技术在短期内将不可能将已有的字/词理解提升到句子甚至整篇文章的理解和语义能力。因此,可以想象在未来几年内文档分类技术的发展将不可能满足用户信息访问的要求。
发明内容
为解决现有的文档分类技术中存在的上述问题,本发明提出在作者写作电子文档的过程中,就为以后的文档分类查询和信息检索准备相关的信息,即,在作者准备文档期间,就为作者提供一些工具来方便地为以后用户进行分类查询、分类检索做贡献。更具体地说,作者在写作文档时,准备有关对文档进行管理的分类信息,并将相关信息作为知识标记(knowledge tag)附在文档中。由此,可以帮助用户通过电子文档中所附着的分类信息,方便、快捷地在特定类别中检索与特定领域最相关的文档。此外,当读取具有分类信息的电子文档时,可以读出包含分类信息的知识标记,从而快速将所述文档分类到一个或多个类别中,提高了文档分类的效率。并且,由于所述分类信息是经过作者验证的,因此使文档分类能更准确地反映所述文档应当归属的类别。
为实现上述目的,根据本发明的一个方面,提供了一种电子文档的处理方法,包括步骤:在作者写作电子文档时,根据所述电子文档的内容生成一个或多个文档所属类别的类名;以及与所述电子文档对应地保存所述类名信息。
根据本发明的再一个方面,提供了一种电子文档的处理装置,包括:电子文档编辑单元,用于编辑电子文档;文档分类单元,用于利用各种分类方法将作者写作的电子文档进行分类分析处理,并根据所述电子文档的内容生成一个关于所述文档所属类别的类名的列表;以及类名保存单元,用于与电子文档相应地保存由文档分类单元所生成的文档所属类别的类名信息。
根据本发明的另一个方面,提供了一种浏览电子文档的方法,包括步骤:读取电子文档中的文档所属类别的类名信息;将类名信息中的类名呈现给用户;以及当用户确认所述类名时,将所述电子文档的内容呈现给所述用户。
根据本发明的再一个方面,提供了一种电子文档的浏览器,包括:电子文档浏览单元,用于浏览电子文档的内容;类名信息读取单元,用于读取与所述电子文档对应保存的文档所属类别的类名信息;以及类名呈现单元,用于将由类名信息读取单元读取的类名信息中的类名呈现给用户。
根据本发明的另一个方面,提供了一种电子文档分类查询方法,包括步骤:提取分别与相应电子文档对应保存的文档所属类别的类名信息;对提取出的类名信息编制索引;根据用户对一个希望类名的查询,从所述类名索引中找出与用户输入的类名相同或最接近的一个或多个类名;将上述相同或最接近的一个或多个类名呈现给所述用户;以及将所述用户选择的类名所对应的电子文档或者与所述电子文档的链接提供给所述用户。
根据本发明的再一个方面,提供了一种电子文档分类查询系统,包括:类名信息提取装置,用于提取分别与电子文档对应保存的文档所属类别的类名信息;类名索引装置,用于对所述提取出的类名信息中的类名编制索引;类名索引存储装置,用于保存由类名索引装置编制的类名索引;类名查找装置,用于根据用户对一个希望类名的查询,从类名索引存储装置中的类名索引中找出与用户输入的类名相同或最接近的一个或多个类名;类名呈现装置,用于将由类名查找装置找出的一个或多个类名呈现给所述用户;以及电子文档提供装置,用于将所述用户选择的类名所对应的电子文档或者与所述电子文档的链接提供给所述用户。
附图说明
以下结合附图,对本发明的具体实施方式进行详细的说明,由此,本发明的特点、优点、目的和有益效果将会变得更明显,其中:
图1是根据本发明的一种实施方式的电子文档的处理方法的流程图;
图2是根据本发明的一种实施方式的电子文档的处理装置的结构示意图;
图3是根据本发明的一种实施方式的浏览电子文档的方法的流程图;
图4是根据本发明的一种实施方式的电子文档浏览器的结构的方框图;
图5是根据本发明的一种实施方式的电子文档分类查询方法的流程图;以及
图6是根据本发明的一种实施方式的电子文档分类查询系统的结构方框图。
具体实施方式
以下,结合附图对本发明的各优选实施例进行详细的说明。
电子文档的处理的方法
根据本发明的一个方面,提出了一种电子文档的处理方法。图1是根据本发明的一种实施方式的电子文档的处理方法的流程图。
如图1所示,在步骤101,作者写作电子文档。根据本发明的电子文档的处理方法是基于传统的文档编辑方法,通过利用传统的文档编辑工具,例如MS Word,Acrobat Writer或WPS等等,作者可以对所写的文档进行常规的编辑、浏览等等操作。根据本发明,关于作者写作的文档的类名信息的生成是在作者写完一篇文档时进行的,或者可以在完成文档的一部分(例如一个章节)时进行。
接着,在步骤102,选择整个文档(或是所述文档的一部分)进行自动分类分析处理。可以有多种文档分类方法用来对作者编辑的电子文档进行分类分析处理。
在步骤102中,根据本发明的一种实施方式,可以利用各种分类树通过以下K-最近邻(KNN)方法对所述文档进行自动分类分析处理:
i)文本信息的预处理
在对文档进行特征提取前,需要先进行文本信息的预处理,例如,对英文而言需进行词干提取处理,中文的情况则不同,因为中文词与词之间没有固有的间隔符(空格),需要进行分词处理。在中文信息处理领域,对中文自动分词的研究已经进行的比较多了,提出了一些分词方法,如最大匹配法、逐词遍历匹配法、最小匹配法等。将待处理的文档进行分词处理后,接下来需要去除文档中的停用词(stopword)(即一些最常用的应该排除在搜索范围内的词,如中文词汇中的‘的’、‘地’、‘得’、‘了’等)。
ii)特征表示与特征提取
特征表示是指以一定特征项(如词条或描述)来代表文档。本发明采用了应用较多的向量空间模型(Vector Space Model,VSM)。在VSM中,本发明将文本文档视为由一组词条(t1,t2,…,tn)构成,每一词条都赋以一定的权值wi,从而每一篇文档被映射为由一组词条矢量形成的向量空间中的一个向量。文本的匹配问题便可转化为向量空间中的向量匹配问题处理。对于词条权值wi的处理,在文本学习中最常用的是利用tf-idf方法,如公式(1)
wj=tf*idf               (1)
在公式1中,tf是该词在该文档中的出现的频率(次数),idf=all_documents/term_documents;其中,all_documents是全部文档的数量,term_documents是其中包含该词的文档的数量。
特征向量空间的构造通过以上方法确定了每一文档类的特征词,并且为每一特征词计算了其在这一类中的权重。利用这些信息可以很容易的构造特征向量空间。假设文本类别数目为M,每一类的关键词个数为N(不一定要求每一类中的关键词个数相等,为描述方便,假设每一类的关键词个数相等),特征向量空间的构造方法如下:
(1)利用每一类的特征词ti,求其并集得到所有的特征词集合W=(t1,…,ti,…),特征词集规模大小为|W|=MN,其中1≤i≤MN。
(2)为每一特征词tij(i表示第i类文本,j表示特征词的序号,tij表示此特征词是i类的第j个特征词)计算其在其它(M-1)类中的权重wij。计算得到每一个特征词(共有|W|个)在每一类Ci中的权重,就得到一个M×|W|的权重矩阵。M为行数,|W|为列数。
(3)向量的归一化得到的M×|W|的矩阵即为文本分类的特征向量空间。
iii)特征匹配与文本分类
利用以上训练和统计的方法得到特征词和特征向量空间后,利用相同的方法也可以得到每一篇输入文本d的特征词的向量X,计算此向量X与特征向量空间中每一个向量的距离(或称为相似度),根据1-最近距离就可以判断此文本的所属文本类别。
在步骤103,根据文档分类分析结果,即当判别出所述文档所属的类别时,生成一个关于文档所属类别的类名的列表。
应当理解,以上只是举例说明的一种生成文档所属类别的类名的方法,还可以选择其他方法来生成文档所属类别的类名。
接着,在步骤104,根据已有的分类树及训练样本核实上述步骤生成的文档所属类别的类名的列表。在此,“核实”包括作者查看、修改生成的类名,从而保证所生成的类名能准确、全面地反映该文档所属的类别。
此外,还可以将在步骤102中对文档进行分析的结果中,向作者提供与作者所写作的文档相类似的参考文档,以及参考文档利用不同分类方法进行分类时所采用的分类树。在这种情况下,在步骤104中还包括:提供参考文档,以及对所述参考文档进行分类而使用的分类树,允许作者比较其写作的文档与参考文档的相似性,由此核实所生成的文档所属类别的类名是否正确。
接着,在步骤105,判断是否希望为文档生成更多的类名。通常,一篇文档会包含许多方面的内容,同样读者在查找和阅读文档时会有各种不同的目的。因此如果在步骤105中判断还有更多的类名可以反映文档所属的类别时,就返回到步骤102,根据文档分类结果,生成下一个类名。如果没有其它类名需要生成的话,则进行到步骤106。
在步骤106,与该文档对应地保存文档所属类别的类名信息。具体地,根据本发明的优选实施方式,可以将类名信息作为知识标记与电子文档一起保存。例如,可以使用标记语言将标记附加到文档当中。
如前面所述,本发明没有对类名信息的具体保存方式进行限定,例如,可以与电子文档一起保存,即作为电子文档的一部分,也可以与电子文档分开保存,只要能够与所述电子文档对应即可。
通过以上对本实施例的描述可知,如果采用本实施例的电子文档的处理方法,则可以辅助作者在写作的过程中完成多个文档所属类别的类名的准备,在不增加作者负担的情况下,利用作者对所写作文档的理解,来保证文档所属类别的类名的准确性。并且,由于可以为文档生成充分反映该文档所属类别的多个类名,可以使网站对文档进行文档分类处理时,能快速将文档准确和全面地归到相应的类别中,从而使用户在文档浏览或文档分类查询的时候,得到高的用户满意度。
电子文档的处理装置
在同一发明构思下,根据本发明的另一个方面,提供了一种电子文档的处理装置。图2是根据本发明的一种实施方式的电子文档的处理装置的结构示意图。
如图2所示,该电子文档的处理装置200,包括:电子文档编辑单元201,用于编辑电子文档。电子文档编辑单元201可以是一个独立的文档编辑单元,也可以使用已有的文档编辑器,例如MSword,Acrobat Writer,或WPS等等;文档分类处理单元202,用于利用各种分类方法将作者写作的电子文档进行分类分析处理,并产生一个关于所述文档所属类别的类名的列表;类名缓存单元203,用于临时保存由文档分类处理单元202生成的类名的信息;类名核实单元204,用于对类名缓存单元203保存的所述文档所属类别的类名信息进行评价、修改,以确定作者所写作的文档所属类别的类名;以及类名保存单元205,用于与电子文档相应地保存由文档分类单元202所生成的文档所述类别的类名信息。
此外,在本实施例的电子文档的处理装置200的类名核实单元204中,还可以进一步包括一个比较单元(未示出),其中,该比较单元提供一个或多个参考文档以及关于所述参考文档的分类树,用于计算所述文档与参考文档的相似性,由此核实类名生成单元203所生成的类名是否正确。
通过以上对本实施例的描述可知,如果采用本实施例的电子文档的处理装置,则可以辅助作者在写作的过程中完成多个文档所属类别的类名的准备,在不增加作者负担的情况下,利用作者对所写作文档的理解,来保证文档所属类别的类名的准确性。并且,由于可以为文档生成充分反映该文档所属类别的多个类名,可以使网站对文档进行文档分类处理时,能利用关于所述文档的类名信息,快速将文档准确和全面地归到相应的类别中,从而使用户在文档浏览或文档分类查询的时候,得到高的用户满意度。
浏览电子文档的方法
在同一发明构思下,根据本发明的另一个方面,提供一种浏览电子文档的方法,其中电子文档是通过上述电子文档的处理的方法产生的文档,即,与该文档对应地保存有关文档所属类别的类名信息。
图3是根据本发明的一种实施方式的浏览电子文档的方法的流程图。如图3所示,首先在步骤301,读取电子文档中的文档所属类别的类名信息。具体地,根据类名信息的保存方式,读出类名信息。例如,如果类名信息是被保存在文档的尾部作为知识标记,则相应地识别出该知识标记并将其中的类名信息读出。
接着,在步骤302,将类名信息中的类名呈现给用户。具体地,可以有多种方式来呈现类名。如果当类名的数量很大时,可以由用户输入希望的类名,然后从所呈现的类名的列表中选择与用户输入的类名相同或最接近的类名,并将相同或最接近的类名呈现给用户。
接着,在步骤303,读者查看类名,并判断是否对该文档感兴趣。如果读者对该文档感兴趣,则确认并进入到步骤304,将文档内容呈现给读者;否则,不显示文档内容,而进入到步骤305,关闭文档结束。
通过以上对本实施例的描述可知,如果采用本实施例的浏览电子文档的方法,则可以利用由本发明前述的电子文档的处理方法编制的电子文档中的类名信息,在将文档全部内容呈现给读者之前,将核实过的关于文档所属类别的类名提供给读者观看,让读者了解该文档大致所属的类别,从而节省了读者获取资源或知识的时间。
电子文档浏览器
在同一发明构思下,根据本发明的另一个方面,提供一种浏览电子文档的浏览器,其中电子文档是通过上述电子文档的处理的方法产生的文档,即,与该文档对应地保存有关文档所属类别的类名信息。
图4是根据本发明的一种实施方式的电子文档浏览器的结构的方框图。如图4所示,本实施例的电子文档浏览器400,包括:电子文档浏览单元401,用于浏览电子文档的内容,它可以是一个现有技术中的浏览器,如MS Word Viewer,MS Internet Explorer,Netscape Navigator,Acrobat Reader等等;
类名信息读取单元402,用于读取与所述电子文档对应保存的类名信息。具体地,根据类名信息的保存方式,读出类名信息。例如,如果类名信息是被保存在文档的尾部作为知识标记,则相应地识别出该知识标记并将其中的类名信息读出;
类名呈现单元403,用于将由类名信息读取单元402读取的类名信息中的类名呈现给用户。具体地,可以有多种方式来呈现文档所属类别的类名。例如,如果当文档所属的类名的数量很多时,也可以由用户输入希望的类名,然后从所述多个类名中选择与用户输入的类名相同或最接近的类名,并将相同或最接近的类名呈现给用户。在这种情况下,本发明的该浏览器400还可以包括一个类名选择单元(未示出),用于从所述多个类名中选择与用户输入的类名相同或最接近的类名。
通过以上对本实施例的描述可知,本实施例的电子文档浏览器可以实施本发明上述浏览电子文档的方法。如果采用本实施例的电子文档浏览器,则可以利用由本发明前述的电子文档的处理方法编制的电子文档中的类名信息,在将文档全部内容呈现给读者之前,将核实过的关于文档所属类别的类名提供给读者观看,让读者了解该文档大致所属的类别,从而节省了读者获取资源或知识的时间。
电子文档分类查询方法
在同一发明构思下,根据本发明的另一个方面,提供了一种电子文档分类查询方法,其中电子文档是通过上述电子文档的处理的方法产生的文档,即,与该文档对应地保存有关文档所属类别的类名信息。
图5是根据本发明的一个实施例的电子文档分类查询方法的流程图。如图5所示,首先在步骤501,提取与相应电子文档对应的文档所属类别的类名信息。具体地,如果电子文档是使用上述电子文档的处理装置200写作的文档时,则每个文档都会有关于所述文档所属类别的类名信息。在本步骤中,将多个关于文档所属类别的类名信息提取出来。特别地,对于在因特网上发布的电子文档,可以通过网络搜索器(web crawler)来遍历各个电子文档,并提取其对应的类名信息,例如从知识标记中提取。
接着,在步骤502,对提取出的类名信息编制索引。在此,可以使用信息检索领域中常用的各种索引方法来对这些类名编制索引,例如,倒排文件、签名文件、PAT树或PAT阵列等。
接着,在步骤503,由用户输入希望查询的类名。
接着,在步骤504,在所述类名索引中找出与用户输入的类名相同或最接近的一个或多个类名。具体地,计算用户输入的类名与类名索引中的各个类名的相关程度,以及将上述相关程度最高的一个或者相关程度大于一个预定值的类名选择出来。
然后,在步骤505中,将与用户输入的类名相同或最接近的类名呈现给所述用户,并且,在步骤506中,当用户选择了其中一个类名时,将用户选择的类名对应的电子文档或者与所述电子文档的链接提供给所述用户。
通过以上对本实施例的描述可知,本实施例的电子文档分类查询方法可以利用由本发明前述的电子文档的处理方法编制的电子文档中的类名信息,为文档生成充分反映该文档所属类别的多个类名,可以使网站、信息门户或企业内部网在对文档进行文档分类查询时,快速将文档准确和全面地归到相应的类别中,从而使用户在文档浏览或文档分类查询的时候,得到高的用户满意度。另外,由于类名信息中的类名是经过作者核实的,可以保证其准确性和可读性,因此,本实施例的电子文档分类查询方法更准确,进而在将文档全部内容呈现给读者之前,将核实过的关于文档所属类别的类名提供给读者观看,让读者了解该文档大致所属的类别,从而节省了读者获取资源或知识的时间。
电子文档分类查询系统
在同一发明构思下,根据本发明的另一个方面,提供一种电子文档的分类查询系统,其中电子文档是通过上述电子文档的处理的方法产生的文档,即,与该文档对应地保存有关文档所属类别的类名信息。
与图5所示的电子文档分类查询方法相对应,图6是根据本发明的一个实施方式的电子文档分类查询系统的结构方框图。
如图6所示,电子文档分类查询系统600,包括:类名信息提取装置601,用于提取与电子文档对应的类名信息。如前所述,类名信息提取装置601可以是一个网络搜索器来遍历网络上的各个电子文档,并提取其对应的类名信息;类名索引装置602,用于对所述提取出的类名信息中的类名编制索引;类名索引存储装置603,用于保存由类名索引装置602编制的类名索引;类名查找装置606,用于从类名索引存储装置603中的类名索引中找出与用户输入的类名相同或最接近的一个或多个类名;类名呈现装置605,用于将由类名查找装置606找出的一个或多个类名呈现给用户;电子文档提供装置604,用于将所述用户选择的类名所对应的电子文档或者与所述电子文档的链接提供给所述用户。
进而,电子文档分类查询系统600,还可以包括:相关度计算装置(未示出),用于计算两个类名的相关程度,从而,类名查找装置606,利用该相关度计算装置,计算用户输入的类名与类名索引中的类名的相关程度,并且将上述相关程度最高的一个或者相关程度大于一个预定值的类名选择出来。
通过以上对本实施例的描述可知,本实施例的电子文档分类查询系统可以实现前面结合图5所述的电子文档分类查询方法,为文档生成充分反映该文档所属类别的多个类名,可以使网站、信息门户或企业内部网在对文档进行文档分类处理时,能快速将文档准确和全面地归到相应的类别中,从而使用户在文档浏览或分类查询的时候,得到高的用户满意度。另外,由于类名信息中的类名是经过作者核实的,可以保证其准确性和可读性,因此,本实施例的电子文档分类的方法更准确,进而在将文档全部内容呈现给读者之前,将核实过的关于文档所属类别的类名提供给读者观看,让读者了解该文档大致所属的类别,从而节省了读者获取资源或知识的时间。
以上示例性地说明了本发明的电子文档的处理方法、装置、以及浏览电子文档的方法、装置,电子文档分类查询方法、电子文档分类查询系统,但是以上这些实施例仅是示例的,本领域技术人员可以在本发明的精神和范围内作出各种变化和修改。因此,本发明不限于这些实施例,本发明的范围由随附权利要求限定为准。

Claims (18)

1.一种电子文档的处理方法,其特征在于,包括步骤:
在作者写作电子文档时,根据所述电子文档的内容生成一个或多个文档所属类别的类名;以及
与所述电子文档对应地保存所述类名信息。
2、根据权利要求1的电子文档的处理方法,其特征在于,所述生成一个或多个文档所属类别的类名的每一个的步骤,包括:
利用不同的分类方法以及相应的分类树,对所述电子文档进行分类;以及
根据对所述电子文档的分类结果,生成所述文档所属类别的一个或多个类名。
3、根据权利要求2的电子文档的处理方法,其特征在于,所述利用不同的分类方法以及相应的分类树,对所述电子文档进行分类的步骤,包括:
i)对所述电子文档进行分词处理和去除停用词的预处理;
ii)从经过预处理的所述电子文档中计算其特征向量表示;
iii)将所计算的特征向量与通过训练和统计方法得到的已知分类树中各个类别中的特征向量进行匹配;以及
iv)根据匹配程度,确定所述文档所属类别。
4、根据权利要求2的电子文档的处理方法,其特征在于,所述生成一个或多个文档所属类别的类名的步骤,进一步包括:
通过评价、修改操作来核实所生成的文档所属类别的类名。
5、根据权利要求4的电子文档的处理方法,其特征在于,所述通过评价、修改操作来核实所生成的文档所属类别的类名的步骤包括:
利用不同的分类方法生成多个参考文档,其中参考文档与所述电子文档的内容相似;
计算所述经过核实了的文档所属类别的类名与所述多个参考文档所属类别的类名之间的相关程度;以及
根据这些相关程度计算所述经过核实了的所述文档所属类别的类名的可靠性。
6、根据权利要求1的电子文档的处理方法,其特征在于,所述与所述电子文档对应地保存所述类名信息的步骤,进一步包括:
将所述类名信息作为知识标记保存在所述电子文档中。
7、根据权利要求1的电子文档的处理方法,其特征在于,所述与所述电子文档对应地保存所述类名信息的步骤,进一步包括:
将所述类名信息保存为与所述电子文档相关联的知识标记文件。
8、一种电子文档的处理装置,其特征在于,包括:
电子文档编辑单元,用于编辑电子文档;
文档分类单元,用于利用各种分类方法对所述电子文档进行分类分析处理,并根据所述电子文档的内容生成一个关于所述文档所属类别的类名的列表;以及
类名保存单元,用于与电子文档相应地保存由类名文档分类单元所生成的文档所属类别的类名信息。
9、根据权利要求8的电子文档的处理装置,其特征在于,进一步包括:
类名缓存单元,用于临时保存由文档分类单元所生成的类名的信息;以及
类名核实单元,用于对类名缓存单元所保存的所述类名信息进行评价、修改。
10、根据权利要求9的电子文档的处理装置,其特征在于,进一步包括:
比较单元,提供一个或多个参考文档以及关于所述参考文档的分类树,用于计算所述文档与参考文档的相似性,由此核实类名生成单元所生成的类名是否正确。
11、一种浏览电子文档的方法,其特征在于,包括步骤:
读取电子文档中的文档所属类别的类名信息;
将类名信息中的类名呈现给用户;以及
当用户确认所述类名时,将所述电子文档的内容呈现给所述用户。
12、根据权利要求11的浏览电子文档的方法,其特征在于,将所述电子文档的内容呈现给所述用户的步骤包括:
根据用户对一个希望类名的查询,从所呈现的类名的列表中选择与用户输入的类名相同或最接近的类名;以及
将相同或最接近的类名显示给用户。
13、一种电子文档的浏览器,其特征在于,包括:
电子文档浏览单元,用于浏览电子文档的内容;
类名信息读取单元,用于读取与所述电子文档对应保存的文档所属类别的类名信息;以及
类名呈现单元,用于将由类名信息读取单元读取的类名信息中的类名呈现给用户。
14、根据权利要求13的电子文档的浏览器,其特征在于,进一步包括:
类名选择单元,用于根据用户对一个希望类名的查询,从所述类名中选择与用户输入的类名相同或最接近的类名;以及
其中,所述类名呈现单元,只将所述相同或最接近的类名显示给所述用户。
15、一种电子文档分类查询方法,其特征在于,包括步骤:
提取分别与相应电子文档对应的文档所属类别的类名信息;
对提取出的类名信息编制索引;
根据用户对一个希望类名的查询,从所述类名索引中找出与用户输入的类名相同或最接近的一个或多个类名;
将上述相同或最接近的一个或多个类名呈现给所述用户;以及
将所述用户选择的类名所对应的电子文档或者与所述电子文档的链接提供给所述用户。
16、根据权利要求15的电子文档分类查询方法,其特征在于,所述找出与用户输入的类名相同或最接近的一个或多个类名的步骤,包括:
计算用户输入的类名与类名索引中的各个类名的相关程度,以及
将上述相关程度最高的一个或者相关程度大于一个预定值的类名选择出来。
17、一种电子文档分类查询系统,其特征在于,包括:
类名信息提取装置,用于提取分别与电子文档对应保存的文档所属类别的类名信息;
类名索引装置,用于对所述提取出的类名信息中的类名编制索引;
类名索引存储装置,用于保存由类名索引装置编制的类名索引;
类名查找装置,用于根据用户对一个希望类名的查询,从类名索引存储装置中的类名索引中找出与用户输入的类名相同或最接近的一个或多个类名;
类名呈现装置,用于将由类名查找装置找出的一个或多个类名呈现给所述用户;以及
电子文档提供装置,用于将所述用户选择的类名所对应的电子文档或者与所述电子文档的链接提供给所述用户。
18、根据权利要求17的电子文档分类查询系统,其特征在于,进一步包括:
相关度计算装置,用于计算两个类名的相关程度;
其中,所述类名查找装置,利用所述相关度计算装置,计算用户输入的类名与类名索引中的类名的相关程度,并且将上述相关程度最高的一个或者相关程度大于一个预定值的类名选择出来。
CNA2003101231096A 2003-12-17 2003-12-17 电子文档的处理、浏览及分类查询的方法、装置及其系统 Pending CN1629837A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNA2003101231096A CN1629837A (zh) 2003-12-17 2003-12-17 电子文档的处理、浏览及分类查询的方法、装置及其系统
US11/012,674 US20050138079A1 (en) 2003-12-17 2004-12-15 Processing, browsing and classifying an electronic document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2003101231096A CN1629837A (zh) 2003-12-17 2003-12-17 电子文档的处理、浏览及分类查询的方法、装置及其系统

Publications (1)

Publication Number Publication Date
CN1629837A true CN1629837A (zh) 2005-06-22

Family

ID=34661434

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2003101231096A Pending CN1629837A (zh) 2003-12-17 2003-12-17 电子文档的处理、浏览及分类查询的方法、装置及其系统

Country Status (2)

Country Link
US (1) US20050138079A1 (zh)
CN (1) CN1629837A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073704A (zh) * 2010-12-24 2011-05-25 华为终端有限公司 文本分类处理方法和系统以及设备
CN103294793A (zh) * 2013-05-23 2013-09-11 上海斐讯数据通信技术有限公司 一种文件管理方法及移动终端
CN103577766A (zh) * 2012-08-09 2014-02-12 董靖 电子文档的安全管理方法和系统
CN107192542A (zh) * 2017-05-19 2017-09-22 北京车和家信息技术有限责任公司 手感检测装置、方法、系统、计算机设备及可读存储介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8375020B1 (en) * 2005-12-20 2013-02-12 Emc Corporation Methods and apparatus for classifying objects
US7447684B2 (en) * 2006-04-13 2008-11-04 International Business Machines Corporation Determining searchable criteria of network resources based on a commonality of content
US7929165B2 (en) * 2006-05-10 2011-04-19 Xerox Corporation Method and system for controlling printer utilization in a networked environment
AU2006235845A1 (en) * 2006-10-13 2008-05-01 Titus Inc Method of and system for message classification of web email
US8024304B2 (en) * 2006-10-26 2011-09-20 Titus, Inc. Document classification toolbar
AU2008202534B2 (en) 2007-06-08 2012-05-31 Titus Inc Method and system for e-mail management of e-mails having embedded classification metadata
US8719249B2 (en) 2009-05-12 2014-05-06 Microsoft Corporation Query classification
US8489603B1 (en) 2009-10-23 2013-07-16 Amazon Europe Holdings Technologies Scs Automatic item categorizer
US8805838B1 (en) 2009-12-22 2014-08-12 Amazon Technologies, Inc. Systems and methods for automatic item classification
US8510307B1 (en) * 2009-12-22 2013-08-13 Amazon Technologies, Inc. Systems and methods for automatic item classification
CN102117324B (zh) * 2011-02-24 2012-09-05 上海北大方正科技电脑系统有限公司 应用模糊矩阵的文件管理方法及管理系统
US9400789B2 (en) * 2012-07-20 2016-07-26 Google Inc. Associating resources with entities
JP5526199B2 (ja) * 2012-08-22 2014-06-18 株式会社東芝 文書分類装置および文書分類処理プログラム
EP3089096A4 (en) * 2013-12-27 2017-05-10 Rakuten, Inc. Category name extraction device, category name extraction method and category name extraction program
CN104951455B (zh) * 2014-03-26 2018-05-25 北大方正集团有限公司 一种基于类别从属度的信息分类方法及系统
US10699065B2 (en) 2017-11-06 2020-06-30 Microsoft Technology Licensing, Llc Electronic document content classification and document type determination
CN109492097B (zh) * 2018-10-23 2021-11-16 重庆誉存大数据科技有限公司 一种企业新闻数据风险分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
US6519580B1 (en) * 2000-06-08 2003-02-11 International Business Machines Corporation Decision-tree-based symbolic rule induction system for text categorization
US20020026386A1 (en) * 2000-08-17 2002-02-28 Walden John C. Personalized storage folder & associated site-within-a-site web site

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073704A (zh) * 2010-12-24 2011-05-25 华为终端有限公司 文本分类处理方法和系统以及设备
CN102073704B (zh) * 2010-12-24 2013-09-25 华为终端有限公司 文本分类处理方法和系统以及设备
CN103577766A (zh) * 2012-08-09 2014-02-12 董靖 电子文档的安全管理方法和系统
CN103294793A (zh) * 2013-05-23 2013-09-11 上海斐讯数据通信技术有限公司 一种文件管理方法及移动终端
CN107192542A (zh) * 2017-05-19 2017-09-22 北京车和家信息技术有限责任公司 手感检测装置、方法、系统、计算机设备及可读存储介质
CN107192542B (zh) * 2017-05-19 2019-06-25 北京车和家信息技术有限责任公司 手感检测装置、方法、系统、计算机设备及可读存储介质

Also Published As

Publication number Publication date
US20050138079A1 (en) 2005-06-23

Similar Documents

Publication Publication Date Title
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其系统
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US9009134B2 (en) Named entity recognition in query
US8073877B2 (en) Scalable semi-structured named entity detection
US8335787B2 (en) Topic word generation method and system
CN1629838A (zh) 电子文档的处理、浏览以及信息提取的方法、装置及系统
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN1629833A (zh) 实现问与答功能和计算机辅助写作的方法及装置
CN107506472B (zh) 一种学生浏览网页分类方法
CN111339424B (zh) 基于关键词进行搜索的方法、装置、设备及存储介质
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN102339294A (zh) 一种对关键词进行预处理的搜索方法和系统
Mehta et al. DOM tree based approach for web content extraction
CN105224624A (zh) 一种实现倒排链快速归并的方法和装置
CN118035416A (zh) 一种流式问答配图方法及系统
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN1629843A (zh) 电子文档的处理、浏览及搜索的方法、装置及其系统
CN118113806A (zh) 一种大模型检索增强生成的可解释事件脉络生成方法
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
CN112949299A (zh) 新闻稿件的生成方法及装置、存储介质、电子装置
CN114238735B (zh) 一种互联网数据智能采集方法
US20090234836A1 (en) Multi-term search result with unsupervised query segmentation method and apparatus
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication