CN101901235A - 文档处理方法和系统 - Google Patents

文档处理方法和系统 Download PDF

Info

Publication number
CN101901235A
CN101901235A CN200910203108XA CN200910203108A CN101901235A CN 101901235 A CN101901235 A CN 101901235A CN 200910203108X A CN200910203108X A CN 200910203108XA CN 200910203108 A CN200910203108 A CN 200910203108A CN 101901235 A CN101901235 A CN 101901235A
Authority
CN
China
Prior art keywords
descriptor
speech
entity
entity speech
candidate documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910203108XA
Other languages
English (en)
Other versions
CN101901235B (zh
Inventor
崔洁
包胜华
张俐
苏辉
苏中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN200910203108XA priority Critical patent/CN101901235B/zh
Priority to US12/786,557 priority patent/US8359327B2/en
Publication of CN101901235A publication Critical patent/CN101901235A/zh
Priority to US13/608,438 priority patent/US9058383B2/en
Priority to US13/608,309 priority patent/US9043356B2/en
Application granted granted Critical
Publication of CN101901235B publication Critical patent/CN101901235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Abstract

本发明涉及文档处理技术,更具体地,涉及在企业搜索领域扩展作为搜索数据源的文档集的方法和系统。本发明提供一种对种子文档集中的种子文档进行扩展的方法,其中所述种子文档集包括至少一篇种子文档,所述方法包括:识别所述种子文档的一个或多个实体词,所述实体词是表示所述种子文档所关注的实体的词;依据所识别的每个实体词,识别该实体词所在的种子文档的一个或多个与所依据的该实体词相关的主题词;将所识别的每个主题词以及识别所述每个主题词时所依据的实体词组成实体词-主题词对;将每个所述实体词-主题词对中的实体词和主题词同时作为关键词,通过网络获得一篇或多篇扩展文档。

Description

文档处理方法和系统
技术领域
本发明涉及文档处理技术,更具体地,涉及在企业搜索领域扩展作为搜索数据源的文档集的方法和系统。
背景技术
今天的企业拥有越来越多的、各式各样的电子文件和数据信息,如何让这些信息成为企业业务发展甚至是战略决策的好帮手,是人们日益关注的问题。而企业搜索技术就提供了一种有效的方式,来帮助企业处理这些日益增长的数据信息。然而,并非所有的数据都适合作为企业搜索中的搜索数据源。传统的基于通用搜索引擎的搜索所依据的信息源是海量信息源,搜索结果也是海量的数据信息,大量搜索结果可能不是用户想要的内容,企业搜索用户很难从这样海量的数据信息中去除噪音而得到其想要的信息。基于这样的背景,在企业搜索领域,为了特定的业务需求(例如,做某个行业的市场分析,或,选定投资的企业),由于受到资源的限制,不可能把整个互联网的数据都收集下来做搜索,而是要在业务需求的范围内,尽可能多的收集相关的信息资料。另一方面,随着网络上文档的飞速增长,企业搜索的数据源也需要随之不断地更新和扩展,因此,如何有效的自动扩展企业搜索服务的搜索数据源,并且帮助企业在海量网络数据中收集对业务有用的信息,去除不必要的“噪音”信息以提高数据资源利用率,并节省搜索数据源的存储资源,是企业搜索技术领域的重要挑战之一。
现有技术中存在如下解决上述问题的方法:由企业搜索服务的用户将其获得的比较有价值的文档向企业搜索服务系统推荐,存储在企业搜索服务系统的信息存储装置中,成为公共的企业搜索数据源;或者由企业搜索服务的系统管理员随时关注网络信息的变化并且将有用的信息添加至企业搜索数据源中。然而上述这两种扩展搜索数据源的方式不能依据企业搜索数据源中已有的文档自动实现扩展,而是完全依赖于企业搜索服务的用户以及系统管理员的行为,费时费力且扩展数据源的效率很低。
发明内容
考虑到上述问题,希望提供能够自动进行文档扩展的技术方案,从而在无需大量人工劳动的前提下保持文档的不断扩展,同时能够保持文档扩展的精度和准确度。与传统的搜索引擎不同(传统的搜索引擎依赖于网页之间的超级链接进行数据的扩展),一般来讲,企业搜索中,企业关心的信息具有具体的实体以及与之相关的主题。因此,这里提出的技术方案,主要利用文章内容的关注实体和主题的分析,进一步挖掘企业用户对信息的需求,从而做到文档的自动扩展。
基于上述问题和目的,本发明提供能够自动进行文档扩展的文档处理方法及系统。
根据本发明的第一方面,提供一种文档处理方法,包括对给定的种子文档集中的每篇种子文档执行下列操作以生成扩展文档集:识别该种子文档的一个或多个实体词,所述实体词是表示该种子文档所关注的实体的词;依据所识别的每个实体词,识别该种子文档的一个或多个与所依据的实体词相关的主题词;将所识别的每个主题词,以及识别所述每个主题词时所依据的实体词组成实体词-主题词对;以及将每个所述实体词-主题词对中的实体词和主题词同时作为关键词,通过网络获得一篇或多篇扩展文档,并将所述扩展文档加入所述扩展文档集,所述扩展文档既包含所述每个实体词-主题词对中的实体词,也包含所述每个实体词-主题词对中的主题词。
根据本发明的第二方面,提供一种文档处理方法,包括接收给定的一个或多个实体词-主题词对,每个所述给定的实体词-主题词对由一个实体词和一个主题词组成,所述实体词-主题词对中的所有实体词组成实体词集合,并且每个实体词所在的实体词-主题词对中的所有主题词组成对应于该实体词的主题词集合;以及对给定的候选文档集中的每篇候选文档执行下列操作以生成过滤文档集:识别该候选文档的一个或多个实体词,所述实体词是表示该文档所关注的实体的词;依据所识别的每个实体词,识别该候选文档的一个或多个与所依据的实体词相关的主题词;利用所述给定的实体词-主题词对中的实体词和主题词以及该候选文档被识别的实体词和主题词,判断是否将该候选文档加入过滤文档集,响应于判断结果为是,将该候选文档加入过滤文档集。
根据本发明的第三方面,提供一种文档处理系统,包括应用于给定的种子文档集中的每篇种子文档的下列装置以生成扩展文档集:实体词识别装置,用于识别该种子文档的一个或多个实体词,所述实体词是表示该文档所关注的实体的词;主题词识别装置,用于依据所识别的每个实体词,识别该种子文档的一个或多个与所依据的实体词相关的主题词;配对装置,用于将所识别的每个主题词,以及识别所述每个主题词时所依据的实体词组成实体词-主题词对;以及文档扩展装置,将每个所述实体词-主题词对中的实体词和主题词同时作为关键词,通过网络获得既包含所述每个实体词-主题词对中的实体词,也包含所述每个实体词-主题词对中的主题词的一篇或多篇扩展文档,将所述扩展文档加入所述扩展文档集。
根据本发明的第四方面,提供一种文档处理系统,接收装置,用于接收给定的一个或多个实体词-主题词对,每个所述给定的实体词-主题词对由一个实体词和一个主题词组成,所述实体词-主题词对中的所有实体词组成实体词集合,并且每个实体词所在的实体词-主题词对中的所有主题词组成对应于该实体词的主题词集合;以及应用于给定的候选文档集中的每篇候选文档的下列装置以生成过滤文档集:实体词识别装置,用于识别该候选文档的一个或多个实体词,所述实体词是表示该文档所关注的实体的词;主题词识别装置,用于依据所识别的每个实体词,识别该候选文档的一个或多个与所依据的实体词相关的主题词;判断装置,利用所述给定的实体词-主题词对中的实体词和主题词以及该候选文档被识别的实体词和主题词,判断是否将该候选文档加入过滤文档集,并且响应于判断结果为是,将该候选文档加入过滤文档集。
利用本发明的方法和系统,可以自动地实现对已有文档的扩展或过滤,而无需耗费大量的人力成本;而且这种扩展或过滤是以对已有文档进行实体词-主题词分析为基础的,提高了文档扩展或过滤的依据性、准确性。
附图说明
图1是示出了根据本发明的文档处理方法的流程图;
图2是示出了利用焦点实体词识别技术FNER识别文档的实体词的方法的流程图;
图3是示出了利用焦点主题词识别技术FTD识别文档的主题词的方法的流程图;
图4是根据本发明一实施例的基于通用搜索引擎的网络爬虫(WebCrawler)架构图;
图5A至图5G是对中文文档进行识别实体词和主题词操作各阶段过程的示意图;
图6A至图6F是对英文文档进行识别实体词和主题词操作各阶段过程的示意图;
图7是以图1所示的文档处理方法为基础的、包含了对处理后的文档的过滤步骤的流程图;
图7A是利用给定的实体词-主题词对过滤给定的候选文档集的文档处理方法的流程图;
图8是示出了根据本发明一实施例的过滤扩展文档集的方法的流程图;
图8A是根据图7A所示的流程图中的过滤步骤的详细流程图;
图9是示出了根据图1所示的文档处理方法的文档处理系统的结构图;
图10是示出了根据图7和图8所示的文档处理方法的文档处理系统的结构图;
图11是示出了根据图7A和图8A所示的文档处理方法的文档处理系统的结构图;
图12是示出了根据本发明的方法的企业搜索服务系统的一种实现的结构图。
具体实施方式
下面结合附图说明本发明的具体实施方式。
图1是示出了根据本发明的文档处理方法的流程图。图1所示的方法从步骤101开始。对于种子文档集中的每篇种子文档,执行步骤101-104的操作。在步骤101中,识别该种子文档的实体词。种子文档集是包含了至少一篇种子文档的文档集合,种子文档是指确定需要对其进行扩展操作的文档。也就是说,种子文档集中包含的所有文档都需要进行步骤101-104的操作。种子文档集中的种子文档可以在物理上存储于同一存储装置中,也可以存储于不同的存储装置中。如果某文档虽然与种子文档在物理上存储于同一存储装置中,或者通过某种共同的方式而获得(如均由企业搜索服务的用户推荐),但是只要该文档不需要进行步骤101-104所示的扩展操作,那么该文档就不是种子文档,从而不包含在种子文档集中。种子文档集包含的种子文档可以由企业搜索服务的用户推荐,例如用户在本地或通过网络从远程服务器读取到其认为有价值的文档后,可以将该文档向企业搜索服务器推荐,从而保存在种子文档集中。本领域技术人员可以了解,用户推荐只是生成种子文档集的一种方式,还可以采用其它方式生成种子文档集,例如自动从其它数据库导入等。实体词是文档中所包含的词,是指一篇文章内容上谈论的焦点的一个或多个命名实体。对每篇文档可以识别出一个或多个实体词。可以利用焦点实体词识别技术(FNER)来识别文档中的实体词,利用FNER技术识别实体词的方法具体在图2中示出并加以说明。响应于在步骤101中识别出该种子文档的实体词,在步骤102中依据所识别出的实体词,识别该种子文档的主题词。主题词是指不同于实体词的,表示一篇文章中与所识别的实体词相关的重要的主题的词,并且具有某些词性特征(大多是名词或动词)。与实体词一样,主题词也是文档中的词。需要强调的是,主题词是与实体词相联系的,也就是说,要依据对某篇文档所识别出的实体词来识别主题词。尽管识别主题词的过程中需要引入多种参数,但是某篇文档中除所识别出的实体词外的其它词与实体词的联系是识别主题词过程中的重要且不可或缺的参数。可以通过焦点主题词识别技术(FTD)来识别文档的主题词,利用FTD技术识别主题词的方法具体在图3中示出并加以说明,本领域技术人员可以从图3所示的FTD流程图以及对应的文字说明中了解到在识别主题词的过程中如何引入与实体词相关的参数,以体现所识别的主题词与实体词的关联。还需要指出的是,依据同一个所识别出的实体词,可能识别出一个或多个主题词,这是因为在某篇文档中,可能存在与这篇文档的某个实体词相关的多个主题词。还要强调,主题词是与实体词对应的,具体而言,对于同一篇文档可能识别出多个实体词,然后分别依据每个所识别出的实体词在这篇文档中识别主题词。
通过步骤101和102已经识别出了种子文档集中的各个文档的实体词和主题词,在步骤103中将所识别的每个主题词,以及识别所述每个主题词时所依据的实体词组成实体词-主题词对。尤其要注意步骤103组成实体词-主题词对的方式,由于种子文档集中可能包含多篇文档,每篇文档又可能被识别出多个实体词以及多个主题词,并不是将种子文档集中的文档被识别出的所有实体词和主题词自由组对,而是将每个所识别出的主题词与识别出该主题词时所依据的那个实体词组成实体词-主题词对。通过表1举例说明如下(文档1、文档2和文档3都是种子文档集中的种子文档):
表1
Figure B200910203108XD0000071
通过表1可以看出,在步骤101中对文档1识别出3个实体词分别是:A1、A2和A3。依据实体词A1,在步骤102中识别出对应于A1的主题词B1;依据实体词A2,在步骤102中识别出对应于A2的主题词B1;依据实体词A3,在步骤102中识别出对应于A3的2个主题词B2和B3。同样地,对文档2和文档3也识别出实体词和主题词。那么在步骤103中对上述所识别出的实体词和主题词可以组成的实体词-主题词对即为以下8组:A1-B1、A2-B1、A3-B2、A3-B3、A4-B4、A5-B5、A1-B2和A1-B5,而不能组成A4-B5这样的实体词-主题词对,因为主题词B5是依据实体词A5识别出的,而并非依据实体词A4识别出的。通过表1还可以看出,同一篇文档可以被识别出多个实体词(例如文档2被识别出实体词A4和B5),依据同一个实体词可以识别出多个主题词(例如在文档3中依据实体词A1识别出B2和B5两个主题词),不同的文档可以被识别出相同的实体词(例如文档3和文档1都被识别出实体词A1)。
在步骤104中将组好的每一实体词-主题词对中的实体词和主题词同时作为关键词,通过网络搜索获取一篇或多篇扩展文档,从而由种子文档集生成扩展文档集,所述扩展文档集是指由一篇或者多篇扩展文档组成的集合。以表1中可以组成的主题词对A1-B1为例,将A1-B1作为关键词通过网络搜索下载新的文档(A1和B1在搜索的过程中是“与”的关系而并非“或”的关系),所下载的新的文档是既包含A1也包含B1的文档,所下载的新的文档即构成扩展文档集。需要指出的是,可以利用多种方式实现自动通过网络搜索下载新的文档的过程,例如可以通过基于网络爬虫(Web Crawler)技术的通用搜索引擎架构来下载新的文档,图4示出了一个基于通用搜索引擎的Web Crawler架构图。
综上所述,通过图1中的步骤101-104可以实现将种子文档集扩展为种子文档集加扩展文档集,在企业搜索服务领域即实现了自动扩展原始搜索数据源文档的技术效果。
图2是示出了利用FNER技术识别文档的实体词的方法的流程图。对于一篇特定的文档,在步骤201中进行自动分词处理,也就是将文档中包含的单词一个一个地区分开。可以采取最大匹配法(MM法)、逆向最大匹配法(OMM法)、逐词遍历匹配法和设立切分标志法等方法来进行自动分词处理。自动分词处理结束之后在步骤202中进行自动词性标注(POS Tagging),所谓词性,是指对词分为名词、动词、介词、形容词等类别。自动词性标注(POS Tagging)可以通过基于概率统计和基于规则来实现通过计算机自动地给文档中的词标注词性,具体可以采用CLAWS、VOLSUNGA等本领域常用的方法进行自动词性标注。自动词性标注处理后的结果例如可以是将名词标注为n、将动词标注为v、将形容词标注为a、将数字标注为m等。在步骤203中识别候选实体词。首先要强调的是,所谓实体词,指的是表示人名、地名或者组织名的词,实体词一定是名词,也就是一定是在步骤202中被标注为名词(n)的词。识别候选实体词的技术基本上是对文章中的每个词抽取特征,例如,这个词的前后两个词,前后词的词性,这个词是否出现在语义词典中的(人名的称谓,地名、组织名的前缀和后缀等)。然后根据实体识别的统计模型进行分类判定,超过某个阈值的就判断为候选实体词,这样就把候选实体词与普通的名词区别开了。在获得候选实体词的基础上,在步骤204中对每个候选实体词抽出一系列的特征,将每个候选实体词被抽出的一些列特征的特征值构成特征向量。例如e是在某篇文档中被识别出的一个候选实体词,对e这个实体词抽取m个特征,则候选实体词e的特征向量即可表示为X={x1,x2,…,xm}。关于所抽出的关于候选实体词的特征可以是例如该候选实体词在文章中出现频率、是否在标题中出现、其左边和右边的词是否是其它的候选实体词、该候选实体词在该文档中的分布等等。在步骤205中设定阈值并且对特征向量中的每个特征值设定权重。需要指出的是,通常使用机器学习的方式在步骤205中设定阈值并为每个特征值设定权重。一般地来讲,机器学习算法的过程是这样的:首先,手工准备一些标注好的训练样本集合(例如,每个类别里面包含一定数量的属于该类的例子),然后,按照特定的方法进行特征抽取,由于分类的场景和数据不一样,所以抽取的分类特征也各不相同,最后,机器学习算法读取每个训练样本的特征,通过一定的学习准则(例如,正样本与负样本空间分割距离最大,或者,分类的误差最小,等)得出分类模型,也就是每个特征的权重,即该特征对于分类的贡献程度,训练过程结束。在线分类时,与训练过程类似,对未知类别的样本抽取特征,然后,应用训练阶段得到的分类模型,计算该样本与每个类别的相似程度,根据一个预先设定的阈值进行最后分类的判断。目前广泛应用的机器学习算法有多种,例如,朴素贝页斯算法(Naive-Bayes),决策树算法(Decision Tree),支持向量机算法(Support Vector Machines),等等。其中,支持向量机算法是目前公认的最好的分类算法,能够达到最优的分类准确率。在步骤206中,利用下列公式计算每个候选实体词的分数score(x):
score ( x ) = b + Σ j = 1 m ( w j * x j )
其中,b表示在步骤205中设定的阈值,wj表示特征xj所占的权重,wj可以为正值,也可以为负值,当wj为负值时表示对具有特征xj的候选实体词被选为实体词具有负作用。在步骤206中依据上述公式算得候选实体词的分数之后,在步骤207中将所算得的分数与在步骤205中设定的阈值比较,如果score(x)的值大于0,则将该候选实体词识别为实体词,如果score(x)值小于0,则不将该候选实体词识别为实体词。至此,对每一个在步骤203中识别的候选实体词都进行相同的处理和判断,过滤识别出该文档的实体词。
图3是示出了利用焦点主题识别(FTD)技术,依据所识别的实体词来识别文档的主题词的方法的流程图。在步骤301中,对被识别了实体词的文档进行自动分词和自动标注词性处理。需要注意,图3为了示意完整的FTD流程而加入了步骤301,实际上步骤301在图2所示的FNER流程中已经实施过,所以无须在FTD流程中再次实施,完全可以直接利用FNER流程中自动分词和自动词性标注的处理结果。在步骤302中,过滤文档中的停用词、实体词和候选实体词。这里要过滤的实体词即为在图2所示的FNER流程中所识别出的实体词,而停用词是指不可能成为主题词的一些词,例如形容词(美丽的、卓越的)、副词(的、地)等。优选地,主题词是名词。次优地,主题词也可以是动词。可以利用自动词性标注的结果来实现步骤302的过滤。在步骤303中,计算过滤后的文档中的每个剩余词与实体词的距离。剩余词是指经过滤后,该文档剩下的词。剩余词与实体词的距离是指,剩余词与实体词之间所间隔的词数,这里计算所间隔的词数时也要将被过滤掉的实体词、候选实体词和停用词计算在内。这样做的依据是,通常主题词与实体词间的平均距离要比非主题词与实体词间的平均距离小。在步骤304中,计算过滤后的文档中的每个剩余词与实体词在同一句话中出现的频率。本领域技术人员可以了解,步骤303和步骤304集中体现了主题词是与实体词相关的,也就是依据特定的被识别出的实体词来识别主题词。尤其需要指出的是,步骤303和步骤304只是体现主题词与实体词的关系的两个示例性参数,能够体现主题词与实体词的关系的参数还可以包括很多种,例如实体词与主题词在同一段落里同时出现的频率、实体词与主题词在指定的距离范围内出现的频率、实体词与主题词在文档的子标题和子标题下属的内容中同时出现的频率等。所谓实体词与主题词在指定的距离范围内出现的频率,是指与实体词相隔某特定距离(如3个词)出现主题词的次数,也就是说,如果一个词在与所识别的主题词相隔3个词之内出现,不论是相隔2个词还是相隔1个词,都可就该特征值获得相同的权重和分值(特定距离内不再区分)。而所谓实体词与主题词在文档的子标题和子标题下属的内容中同时出现的频率是指,在某些网络文档中,除了主标题以外,还存在多个子标题,并且每个子标题下都附带有一段关于该子标题的内容,因此在文档的子标题和子标题下属的内容中同时出现实体词和主题词的频率也能够体现实体词和主题词的关系。综上所述,可以由多种参数(特征值)来体现实体词和主题词的关系,体现依据所识别的实体词来识别主题词的“依据关系”。除了上面列举的多种参数(特征值外),无论本领域技术人员利用何种参数,只要该参数能够体现实体词和主题词的关联,也就是依据所识别的实体词来识别主题词,都落入本发明的保护范围。
在步骤305中,对每个剩余词抽取其特征值,构成其特征向量。步骤305中抽取的特征包括在步骤303和304中算得的距离和频率,还包括剩余词与实体词无关的其它一些特征,例如剩余词在该篇文档中出现的频率、剩余词的长度、具有同一被识别出的实体词的文档集合中包括该剩余词的文档的篇数等。在步骤306中,设定识别主题词的阈值,并且设定特征向量中的每个特征的权重值。同在步骤205中设定识别实体词的阈值并且对特征向量中的每个特征值设定权重的步骤相同,步骤306也通过机器学习的方式设定识别主题词的阈值以及特征向量中的每个特征的权重值。在步骤307中,对每一个剩余词,根据所设定的权重值和特征向量Y={y1,y2,…,ym}计算分数。计算公式为:
score ( y ) = c + Σ j = 1 m ( w j * y j )
其中,c表示在步骤306中设定的阈值,wj表示特征yj所占的权重值,wj可以为正值,也可以为负值,当wj为负值时表示对具有特征yj的剩余词被选为主题词具有负作用。在步骤307中依据上述公式算得剩余词的分数之后,在步骤308中将所算得的分数与在步骤306中设定的阈值比较,如果score(y)的值大于0,则将该剩余词识别为主题词,如果score(y)值小于0,则不将该剩余词识别为主题词。至此,对每一个剩余词都进行相同的处理和判断,过滤识别出该文档的对应于先前被识别出的实体词的主题词。
下面给出一个对某篇具体的中文文档识别其实体词,并依据所识别的实体词识别其主题词的实例:
1.利用FNER技术实现实体词识别
步骤1自动分词及自动词性标注
假设某给定的中文文档如图5A所示。用程序对该文档分词后效果如图5B所示,利用程序进行自动词性标注后效果如图5C所示,其中/n表示名词/v表示动词/a表示形容词/m表示数字。
步骤2识别候选实体词
如图5D所示,抽取的候选实体词包括公司名“建华”(根据周围的数码、公司等判定)、地点名“中山”(通过边上的南迁判定)和人名“张三”(通过边上的总经理判定),这些候选实体词在图5D中由黑体表示。
步骤3对于每个候选实体词,抽出一系列的特征,例如,该候选实体词在文章中出现的频率,是否在标题中出现,其左边和右边的词是否是候选实体词,候选实体词在文章中的分布,等等。
比如简单来说,如果只考虑频率信息的特征统计如下:
建华标题出现1次正文出现4次
中山正文出现1次
张三正文出现1次
步骤4根据步骤3中识别的候选实体词,对每个候选实体词的特征向量X={x1,x 2,…,xm}应用FNER分类模型(机器学习得到),从而得到一个估计分值(概率),大于设定的阈值,则判定为实体词(focusedentity)。
利用下列公式计算每个候选实体词的分数score(x):
score ( x ) = b + Σ j = 1 m ( w j * x j )
图5E的表中示出了利用上述公式计算实体词的过程和结果。其中,图5E的表中的阈值0.5相当于公式中的b的相反数,即-b。因此,上例中得到的实体词为:建华。
2.依据所识别的实体词“建华”来识别主题词的具体过程。
步骤1根据每一个识别得到实体词,需要对该文档进行分词和词性标注。经自动分词和自动词性标注处理后的文档如图5C所示。需要指出的是,在识别实体词时已经进行了自动分词处理和词性标注处理,因此通常在识别主题词时无需再次进行自动分词和词性标注处理。
步骤2选择关注的词性类别(通常为名词)并过滤文档中的停用词(比如的。,)以及所识别出的实体词。上述文档经过过滤处理后结果如图5F所示(斜体并添加下划线标记的为被过滤的实体词)。需要指出的是,“张三”和“中山”两个候选实体词已经被过滤掉而未在图5F中示出,“建华”实际上也被过滤掉,但是由于在识别主题词时要依据所识别的实体词“建华”,因此在图5F中将“建华”以斜体并添加下划线的方式表示。
步骤3通过考虑该文档的剩余词(即该文档被过滤掉所有的候选实体词之后剩下的词)离开所识别的实体词的距离、剩余词与所识别的实体词在同一句话中出现的频率、剩余词在文档中出现的次数等参数来应用FTD主题词识别技术(通过机器学习得到),并输出主题词。
比如该中文文档中的词的频率较高的为:
数码  标题1次,正文6次
公司  正文3次
产业  标题1次  正文1次
科技  正文2次
对每一个剩余词,根据所设定的权重值和特征向量Y={y1,y2,…,ym}计算分数。计算公式为:
score ( y ) = c + Σ j = 1 m ( w j * y j )
图5G的表中示出了通过上述公式计算主题词的过程和结果。其中,图5G的表中的阈值0.5相当于公式中的c的相反数,即-c。因此,上例中得到的主题词为“数码”。那么,实体词-主题词对即为“建华-数码”。
注:文档1中的词:“月”、“日”、“年”等通常会应为长度太短而得到较低的分数(太短的词表达的意思通常有限)。
下面给出一个对某篇具体的英文文档识别其实体词,并依据所识别的实体词识别其主题词的实例:
1.利用FNER技术实现实体词识别
步骤1自动词性标注
假设某给定的英文文档如图6A所示。利用程序进行自动词性标注后效果如图6B所示,其中/n表示名词/v表示动词/a表示形容词/m表示数字。需要指出的是,对于英文文档而言,无需进行自动分词。
步骤2识别候选实体词
如图6C所示,抽取的候选实体词包括公司名“JIANHUA”(根据周围TV等判定)、地点名“Beijing”和“China”(通过边上的in、of等判定),这些候选实体词在图6C中由黑体表示。
步骤3对于每个候选实体词,抽出一系列的特征,例如,该候选实体词在文章中出现的频率,是否在标题中出现,其左边和右边的词是否是候选实体词,候选实体词在文章中的分布,等等。
比如简单来说,如果只考虑频率信息的特征统计如下:
JIANHUA标题出现1次正文出现2次
China正文出现2次
Beijing正文出现1次
步骤4根据步骤3中识别的候选实体词,对每个候选实体词的特征向量X={x1,x2,…,xm}应用FNER分类模型(机器学习得到),从而得到一个估计分值(概率),大于设定的阈值,则判定为实体词(focusedentity)。
利用下列公式计算每个候选实体词的分数score(x):
score ( x ) = b + Σ j = 1 m ( w j * x j )
图6D的表中示出了利用上述公式计算实体词的过程和结果。其中,图6D的表中的阈值0.5相当于公式中的b的相反数,即-b。因此,上例中得到的实体词为:JIANHUA
2.依据所识别的实体词“JIANHUA”来识别主题词的具体过程。
步骤1根据每一个识别得到实体词,需要对该英文文档进行词性标注(不需要进行自动分词)。经词性标注处理后的文档如图6B所示。需要指出的是,在识别实体词时已经进行了词性标注处理,因此通常在识别主题词时无需再次进行词性标注处理。
步骤2选择关注的词性类别(通常为名词)并过滤文档中的停用词(比如of)以及候选实体词。上述文档经过过滤处理后结果如图6E所示(斜体并添加下划线标记的为被过滤的实体词)。需要指出的是,China和Beijing两个候选实体词已经被过滤掉而未在图6E中示出,JIANHUA实际上也被过滤掉,但是由于在识别主题词时要依据所识别的实体词JIANHUA,因此在图6E中将JIANHUA以斜体并添加下划线的方式表示。
步骤3通过考虑该文档的剩余词(即该文档被过滤掉所有的候选实体词之后剩下的词)离开所识别的实体词的距离、剩余词与所识别的实体词在同一句话中出现的频率、剩余词在文档中出现的次数等参数来应用FTD主题词识别技术(通过机器学习得到),并输出主题词。
比如该英文文档中的词的频率较高的为:
Home标题1次正文3次
Appliance标题1次正文3次
TV标题1次,正文2次
Outlet标题1次正文1次
Exhibition正文1次
对每一个剩余词,根据所设定的权重值和特征向量Y={y1,y2,…,ym}计算分数。计算公式为:
score ( y ) = c + Σ j = 1 m ( w j * y j )
图6F的表中示出了通过上述公式计算主题词的过程和结果。其中,图6F的表中的阈值0.5相当于公式中的c的相反数,即-c。因此,上例中得到的主题词为“TV”。那么,该英文文档被识别出的实体词-主题词对即为“JIANHUA-TV”。
通过上面给出的对中文文档和英文文档识别实体词,并依据实体词识别主题词的示例可以看出,无论文档是何种语言,均可以通过本发明的方法和系统对其进行识别实体词和主题词的操作。
图7示出了以图1所示的文档处理方法为基础的、包含了对处理后的文档的过滤步骤的流程图。图7与图1的区别在于增加了步骤701和步骤706。在步骤701中,接收被企业搜索服务的用户推荐的种子文档,以生成种子文档集。在企业搜索服务环境下,用户通过某种途径获得了一篇其认为比较有价值、可能会对其它用户的搜索有帮助的文档,就可以将这篇文档推荐至企业搜索服务的数据源存储中心,成为种子文档,所有由用户推荐的种子文档即构成种子文档集。执行推荐操作的具体方式优选地可以是用户通过点击企业搜索系统中的“推荐”按钮,而导入其认为有价值的文档并将该文档发布在企业搜索系统的搜索数据源中(种子文档集)。步骤702-705分别为图1中的步骤101-104,该4个步骤的详细内容已在上文中介绍,在此不再详述。接下来,在步骤706中对扩展得到的扩展文档集进行过滤,这相当于对扩展文档集进行精简,删除一些价值不大的文档。这样做的原因是,在步骤705中,会将所有包含被用于进行网络搜索的关键词——即实体词-主题词对的文档从网络上下载下来,以形成扩展文档集。而事实上很多这样的新的文档虽然包括了实体词——主题词对这样的关键词,但是文档本身所关注的实体和主题与企业搜索服务的用户所关注的实体和主题相差甚远,也就是说,仅通过步骤705而形成的扩展文档集会包含很多“噪音”(没有价值或者不被用户感兴趣的文档),这是由于通用的互联网搜索引擎本身搜索结果准确度有限,通常的搜索引擎是基于关键词的搜索,所以,返回的搜索结果虽然包括搜索的关键词,但不一定是就是文章的主题。因此需要用之前从网络上搜索并下载这些新的文档的关键词——即实体词-主题词对,对扩展文档集进行过滤形成过滤文档集,以去除扩展文档集中的“噪音”,从而提高扩展种子文档集的精度和准确度。应当了解,对扩展文档集进行过滤的步骤706不是必需的,因为可以根据不同的对文档扩展精度的需求而决定是否需要去除扩展文档集中可能包含的“噪音”。通过图7所示的方法,既可以从网络上自动下载新的文档,从而实现对文档的扩展,又可以对下载的新的文档进行过滤,从而保证了文档扩展的精度和准确度,不会过度地消耗存储资源。
需要指出的是,虽然在图7中,过滤文档的步骤是针对在图1中步骤104生成的扩展文档集的文档进行的,而且过滤所用的实体词-主题词对是在图1所示的步骤103中生成的实体词-主题词对,但是本领域技术人员可以理解,“过滤”所针对的对象可以是任意的文档,可以人为地给定一个范围很大的文档集(如限定某存储装置中存储的所有文档均是需要被过滤的文档),也可以通过网络(如因特网、以太网、企业内部局域网、城域网、无线通信网络)等以一定的限定条件(如关键词)或者没有任何限定条件地获取大量的文档,将这些文档组成的文档集作为要被过滤的候选文档集,也可能是,企业搜索的用户向企业搜索系统推荐了过多的文档,为了去除一些价值不大的推荐文档,不是如图7所示的流程那样对这些推荐的文档进行扩展,而是利用给定的实体词-主题词对过滤这些推荐的文档。需要强调的是,候选文档集是由一篇或多篇候选文档组成的文档集合,其中每篇候选文档都需要进行过滤操作。作为一种优选的实施方式,这样的候选文档集可以来自于按照图1所示的步骤在步骤104中生成的扩展文档集,也就是说,扩展文档集中的扩展文档的一部分或者全部是需要进行过滤的候选文档,也就是说,图7A所示的候选文档集是图1所示的扩展文档集的子集,或者候选文档集与扩展文档集具有交集。如果某文档不需要进行过滤,那么该文档就不是候选文档,从而不包含在候选文档集中,无论该文档是否处于图1所示的步骤104中生成的扩展文档集中,也无论该文档是否与其它候选文档在物理上存储在同一存储装置中,或者是否以相同的方式获得。图7所示的步骤701-705在图7A中不是必需的步骤,因为作为过滤依据的“实体词-主题词对”也可以是采用种种方式给定的(如手动输入给定、通过网络远程给定、以一定规则对任意文档选取关键词给定)实体词-主题词对,而不是在图1所示的步骤103中通过识别种子文档的实体词和主题词所组成的实体词-主题词对。本领域技术人员可以直接利用给定的实体词-主题词对,对任意候选文档集(无论该任意文档集的来源如何)进行过滤,简而言之,图7所示的流程图还可以是图7A:步骤701A——给定实体词-主题词对;步骤702A——给定候选文档集;步骤703A——利用所述给定的实体词-主题词对中的实体词和主题词过滤所述候选文档集,以生成过滤文档集。图7A和图7的联系在于,步骤701A中给定的实体词-主题词对可以来自于图7的步骤704中组成的实体词-主题词对,且步骤702A中给定的候选文档可以是图7的步骤701中的种子文档。在步骤701A接收的全部实体词-主题词对中的所有实体词可以组成实体词集合,而对于这个实体词集合中的每个实体词,又可以将该实体词所对应的所有主题词组成对应于该实体词的主题词集合,这里的“对应”是指通过实体词-主题词对表现出的对应关系。
图8示出了根据本发明一实施例的过滤扩展文档集的方法的流程图。对扩展文档集中的每一篇扩展文档执行步骤801-806,也就是通过对每一篇扩展文档的过滤实现对整个扩展文档集的过滤。首先在步骤801中识别该扩展文档的实体词,然后在步骤802中依据所识别的实体词,识别该扩展文档的与所依据的实体词相关的主题词。步骤801和802识别扩展文档集中的扩展文档的实体词和主题词的方式与识别种子文档集中的种子文档的实体词和主题词的方式相同,具体内容参见图2和图3以及相应的文字部分,在此不再详述。识别出该扩展文档的实体词和主题词后,在步骤803中将识别出的该扩展文档的实体词与种子文档集中的实体词集合中的实体词进行比较,判断种子文档集中的实体词集合中是否存在某实体词与在步骤801中识别出的扩展文档的实体词相同,如果存在,则进行后续判断步骤804;如果所有的种子文档集中的实体词集合中的实体词均与在步骤801中识别出的扩展文档的实体词不同,则在步骤806中确定该扩展文档集中的文档为需要被去除的“噪音”,从而不将该文档加入过滤文档集。所谓种子文档集中的实体词集合是指对种子文档集中的每篇种子文档执行步骤图1所示的101-104操作后所识别的全部实体词的集合。需要指出的是,步骤802和803并没有绝对的执行上的先后顺序,既可以先识别出扩展文档的实体词和主题词后再进行步骤803的判断,也可以识别出扩展文档的实体词之后就直接进行步骤803的判断,判断结束后再应需要进行步骤802识别主题词。
在步骤804中,进一步判断该扩展文档依据该实体词所识别出的主题词是否与依据所述种子文档集的实体词集合中的所述某相同的实体词而识别出的某主题词相同,如果存在这样的种子文档集中的某主题词,则进行至步骤805,将该扩展文档加入过滤文档集,否则进行至步骤806,确定该扩展文档为需要被过滤的“噪音”,从而不将该扩展文档加入过滤文档集。综上所述,通过图8所示的过滤扩展文档集的方法,可以实现去除扩展文档集中的“噪音”扩展文档的目的,从而提高扩展种子文档集的精度。显而易见,在企业搜索服务环境下,种子文档集和过滤文档集是企业搜索服务数据源中的文档集,可以供企业搜索用户检索,而扩展文档集由于其中存在“噪音”,因此不是企业搜索服务数据源中的文档集。当然,在不需要对扩展文档集中的噪音进行过滤,也就是对扩展文档的精度要求不高的情况下,由于不存在过滤文档集,因此种子文档集和扩展文档集是企业搜索服务数据源中的文档集。
需要指出的是,尽管图8示出的是对图1所示的步骤104生成的扩展文档集进行过滤的详细步骤,但是显而易见,图8所示的步骤同样适用与在图7A所示的给定实体词-主题词的情况下,对候选文档集进行过滤的过程,只要将图8各步骤中的“扩展文档”替换为“候选文档”,将“种子文档集的实体词集合”替换为“给定的实体词-主题词对的实体词集合”即可,具体参见图8A所示。
图9示出了根据本发明的文档处理系统的结构图。该系统在图9中总体上由900表示。具体地,图9所示的系统被配置为对种子文档集中的每篇种子文档执行下列操作以生成扩展文档集。系统900包括实体词识别装置901、主题词识别装置902、配对装置903和文档扩展装置904。实体词识别装置901识别该种子文档的实体词。主题词识别装置902耦合于实体词识别装置901,依据所识别的实体词识别该种子文档的主题词。配对装置903将实体词识别装置901识别出的实体词,以及主题词识别装置902依据该实体词识别出的主题词组成实体词-主题词对。文档扩展装置904将配对装置903配成的实体词-主题词对中的实体词和主题词同时作为关键词,利用网络搜索下载新的文档,以形成由所述扩展文档组成的扩展文档集。需要指出的是,图9所示的系统中的装置901-904分别对应于图1所示的方法中的步骤101-104,因此具体的实现过程在此不做详述。本领域技术人员可以了解,利用图9所示的系统可以对种子文档集进行自动扩展,形成扩展文档集。在企业搜索服务环境下,就是将搜索数据源的内容从原先的种子文档集自动扩展到种子文档集和扩展文档集的总和。
图10示出了根据本发明的优选实施例的文档处理系统的结构图。该系统在图10中总体上由1000表示。具体地,图10所示的系统包括文档接收装置1001、实体词识别装置1002、主题词识别装置1003、配对装置1004、文档扩展装置1005和文档过滤装置1006。与图7所示的系统相比,图10所示的系统增加了文档接收装置1001和文档过滤装置1006。文档接收装置1001接收被推荐的文档,以形成种子文档集,文档过滤装置1006对由文档扩展1005得到的扩展文档集中的文档进行过滤,形成过滤文档集,从而去除扩展文档集中的“噪音”,提高扩展种子文档集的精度。需要指出的是,图10所示的系统中的装置1001-1006分别对应于图7所示的方法中的步骤701-706,而文档过滤装置1006又可进一步被配置为实现图8所示的方法中的步骤801-806。
图11示出了根据图7A和图8A所示的文档处理方法的文档处理系统的结构图。图11所示的系统在总体上由1100表示,具体地,系统1100包括接收装置1101、实体词识别装置1102、主题词识别装置1103和判断装置1104。接收装置1101对应于图7A所示的步骤701A,用于接收给定的实体词-主题词对。实体词识别装置1102对应于图8A所示的步骤801A,用于识别给定的候选文档集中的每篇候选文档的实体词。主题词识别装置1103对应于图8A所示的步骤802A,用于依据所识别的实体词识别该候选文档与所依据的实体词相关的主题词。判断装置1104对应于图8A所示的步骤803A-805A,用于判断是否将该候选文档加入过滤文档集。
图12示出了根据本发明的方法的企业搜索服务系统的一种实现的结构图。下面对图12中所标注的各个箭头进行详细说明。箭头1表示企业搜索服务用户通过网络信息及服务,而并非通过企业搜索服务系统本身去获取其感兴趣的文档。图12所示的网络信息及服务与企业搜索服务用户之间的连接可以使用常规的网络连接,例如令牌环、以太网、WiFi或其它的常规通信标准。此外,所述的网络可以包括任何类型网络,包括因特网、广域网(WAN)、局域网(LAN)、虚拟专用网(VPN)等。如果客户机通过因特网与服务器通信,则可以通过传统的基于TCP/IP套接字的协议提供连接,并且客户机将利用因特网服务提供商建立与服务器的连接。箭头2、3表示企业搜索服务用户将其通过网络信息及服务获得的有价值的文档经由信息推荐模块向企业搜索服务系统的信息存储装置推荐。信息存储装置是用于存储企业搜索服务的搜索数据源的存储装置。箭头4表示信息智能扩展模块接收信息存储装置中存储的由用户推荐的文档,对这些文档进行扩展操作。信息智能扩展模块包括自然语言处理模块,可以进行FNER实体词识别和FTD主题词识别。箭头5表示信息智能扩展模块将识别出的实体词和主题词组成对后发送至信息定时下载模块,由信息定时下载模块按照预定的时间间隔如箭头6所示向网络信息及服务提交搜索、下载的请求并下载扩展的新文档。箭头7表示信息定时下载模块将下载下来的新文档发送至信息智能扩展模块,由信息智能扩展模块对这些新文档进行过滤,去除其中的“噪音”,然后信息智能扩展模块将过滤后剩余的新文档发送至信息存储装置,这些新文档即与之前用户推荐的文档一起成为企业搜索服务的搜索数据源。过滤,如箭头9所示,企业搜索服务用户可以通过信息检索模块来从信息存储装置中存储的被扩展后的搜索数据源中检索想要的文档。从图11所示的系统可以看出,通过引入信息智能扩展模块和信息定时下载模块,既可以定时从网络上自动下载新的文档,从而实现对文档的扩展,又可以对下载的新的文档进行过滤,从而保证了文档扩展的精度和准确度,不会过度地消耗企业搜索服务系统的信息存储装置的存储资源。
通过以上对具体实施例的描述,本领域技术人员可以理解,上述的系统、装置和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的装置、服务器及其单元可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合实现。
虽然以上结合具体实施例,对本发明的利用远程应用处理本地文件的系统及方法进行了详细描述,但本发明并不限于此。本领域普通技术人员能够在说明书教导之下对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围。应该理解,所有这样的变化、替换、修改仍然落入本发明的保护范围之内。本发明的保护范围由所附权利要求来限定。

Claims (23)

1.一种对种子文档集中的种子文档进行扩展的方法,其中所述种子文档集包括至少一篇种子文档,所述方法包括:
识别所述种子文档的一个或多个实体词,所述实体词是表示所述种子文档所关注的实体的词;
依据所识别的每个实体词,识别该实体词所在的种子文档的一个或多个与所依据的该实体词相关的主题词;
将所识别的每个主题词,以及识别所述每个主题词时所依据的实体词组成实体词-主题词对;以及
将每个所述实体词-主题词对中的实体词和主题词同时作为关键词,通过网络获得一篇或多篇扩展文档,所述扩展文档既包含所述每个实体词-主题词对中的实体词,也包含所述每个实体词-主题词对中的主题词。
2.如权利要求1所述的方法,其中依据所识别的每个实体词,识别该实体词所在的种子文档的一个或多个与所依据的该实体词相关的主题词,包括依据该种子文档所包含的除了所述一个或多个实体词之外的其它词与所依据的实体词之间的距离,识别该实体词所在的种子文档的一个或多个与所依据的该实体词相关的主题词。
3.如权利要求1所述的方法,其中依据所识别的每个实体词,识别该实体词所在的种子文档的一个或多个与所依据的该实体词相关的主题词,包括依据该种子文档所包含的除了所述一个或多个实体词之外的其它词与所依据的实体词同时在该种子文档中的同一句话中出现的频率,识别该实体词所在的种子文档的一个或多个与所依据的该实体词相关的主题词。
4.如权利要求1所述的方法,还包括接收被推荐的种子文档,以形成所述种子文档集。
5.如权利要求1-4任一所述的方法,其中利用焦点实体词识别技术FNER来识别所述种子文档的一个或多个实体词。
6.如权利要求1-5任一所述的方法,其中利用焦点主题词识别技术FTD来识别所述种子文档的一个或多个主题词。
7.一种对候选文档集中的候选文档进行过滤的方法,所述候选文档集包括至少一篇候选文档,所述方法包括:
接收给定的一个或多个实体词-主题词对,每个所述给定的实体词-主题词对由一个实体词和一个主题词组成,所述实体词-主题词对中的所有实体词组成实体词集合,并且每个实体词所在的实体词-主题词对中的所有主题词组成对应于该实体词的主题词集合;以及
识别所述候选文档的一个或多个实体词,所述实体词是表示所述候选文档所关注的实体的词;
依据所识别的每个实体词,识别该实体词所在的候选文档的一个或多个与所依据的该实体词相关的主题词;
利用所述给定的实体词-主题词对中的实体词和主题词以及所述候选文档被识别的实体词和主题词,判断是否将所述候选文档加入过滤文档集,响应于判断结果为是,将所述候选文档加入过滤文档集。
8.如权利要求7所述的方法,其中依据所识别的每个实体词,识别所述候选文档的一个或多个与所依据的实体词相关的主题词,包括依据该候选文档所包含的除了所述一个或多个实体词之外的其它词与所依据的实体词之间的距离,识别该候选文档的一个或多个与所依据的实体词相关的主题词。
9.如权利要求7所述的方法,其中依据所识别的每个实体词,识别所述候选文档的一个或多个与所依据的实体词相关的主题词,包括依据所述候选文档所包含的除了所述一个或多个实体词之外的其它词与所依据的实体词同时在所述候选文档中的同一句话中出现的频率,识别所述候选文档的一个或多个与所依据的实体词相关的主题词。
10.如权利要求7-9任一所述的方法,其中利用所述给定的实体词-主题词对中的实体词和主题词、以及所述候选文档被识别的实体词和主题词,判断是否将所述候选文档加入过滤文档集进一步包括对所述候选文档执行下列操作:
响应于所述候选文档的实体词与所述实体词集合中的任一实体词均不同,判断不将所述候选文档加入所述过滤文档集。
11.如权利要求7-9任一所述的方法,其中利用所述给定的实体词-主题词对中的实体词和主题词、以及所述候选文档被识别的实体词和主题词,判断是否将所述候选文档加入过滤文档集进一步包括对所述候选文档执行下列操作:
响应于所述候选文档的实体词与所述实体词集合中的某实体词相同,且依据所述候选文档的实体词而识别出的所述候选文档的主题词与对应于所述实体词集合中的某实体词的主题词集合中的任一主题词均不同,判断不将所述候选文档加入所述过滤文档集。
12.如权利要求7-9任一所述的方法,其中利用所述给定的实体词-主题词对中的实体词和主题词、以及所述候选文档被识别的实体词和主题词,判断是否将所述候选文档加入过滤文档集进一步包括对所述候选文档执行下列操作:
响应于所述候选文档的实体词与所述给定的实体词-主题词对的实体词集合中的某实体词相同,且依据所述候选文档的实体词而识别出的所述候选文档的主题词与对应于所述实体词集合中的某实体词的主题词集合中的某主题词相同,判断将所述候选文档加入所述过滤文档集。
13.如权利要求7-12任一所述的方法,其中利用焦点实体词识别技术FNER来识别所述候选文档的一个或多个实体词。
14.如权利要求7-13任一所述的方法,其中利用焦点主题词识别技术FTD来识别所述候选文档的一个或多个主题词。
15.如权利要求7-14任一所述的方法,所述候选文档集包括权利要求1-6中任一所述的扩展文档的至少一部分。
16.如权利要求7-15任一所述的方法,所述给定的实体词-主题词对是权利要求1-6中任一对所述种子文档集中的所有种子文档识别出的实体词-主题词对。
17.一种对种子文档集中的种子文档进行扩展的系统,所述种子文档集包括至少一篇种子文档,所述系统包括:
实体词识别装置,用于识别所述种子文档的一个或多个实体词,所述实体词是表示该文档所关注的实体的词;
主题词识别装置,用于依据所识别的每个实体词,识别该实体词所在的种子文档的一个或多个与所依据的该实体词相关的主题词;
配对装置,用于将所识别的每个主题词,以及识别所述每个主题词时所依据的实体词组成实体词-主题词对;以及
文档扩展装置,将每个所述实体词-主题词对中的实体词和主题词同时作为关键词,通过网络获得一篇或多篇扩展文档,所述扩展文档既包含所述每个实体词-主题词对中的实体词,也包含所述每个实体词-主题词对中的主题词。
18.如权利要求17所述的系统,其中主题词识别装置被配置为利用焦点主题词识别技术FTD来识别所述种子文档的一个或多个主题词。
19.如权利要求17-18任一所述的系统还包括被配置为执行权利要求2-5任一所述的方法的装置。
20.一种对候选文档集中的候选文档进行过滤的系统,所述候选文档集包括至少一篇候选文档,所述系统包括:
接收装置,用于接收给定的一个或多个实体词-主题词对,每个所述给定的实体词-主题词对由一个实体词和一个主题词组成,所述实体词-主题词对中的所有实体词组成实体词集合,并且每个实体词所在的实体词-主题词对中的所有主题词组成对应于该实体词的主题词集合;以及
实体词识别装置,用于识别所述候选文档的一个或多个实体词,所述实体词是表示该文档所关注的实体的词;
主题词识别装置,用于依据所识别的每个实体词,识别该实体词所在的候选文档的一个或多个与所依据的该实体词相关的主题词;
判断装置,利用所述给定的实体词-主题词对中的实体词和主题词以及所述候选文档被识别的实体词和主题词,判断是否将所述候选文档加入过滤文档集,并且响应于判断结果为是,将所述候选文档加入过滤文档集。
21.如权利要求20所述的系统,所述候选文档集包括权利要求1-6中任一所述的扩展文档的至少一部分。
22.如权利要求20所述的系统,所述给定的实体词-主题词对是对权利要求1-6中任一所述的种子文档集中的所有种子文档识别出的实体词-主题词对。
23.如权利要求20-22任一所述的系统,还包括被配置为执行权利要求8-16任一所述的方法的装置。
CN200910203108XA 2009-05-27 2009-05-27 文档处理方法和系统 Active CN101901235B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN200910203108XA CN101901235B (zh) 2009-05-27 2009-05-27 文档处理方法和系统
US12/786,557 US8359327B2 (en) 2009-05-27 2010-05-25 Document processing method and system
US13/608,438 US9058383B2 (en) 2009-05-27 2012-09-10 Document processing method and system
US13/608,309 US9043356B2 (en) 2009-05-27 2012-09-10 Document processing method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910203108XA CN101901235B (zh) 2009-05-27 2009-05-27 文档处理方法和系统

Publications (2)

Publication Number Publication Date
CN101901235A true CN101901235A (zh) 2010-12-01
CN101901235B CN101901235B (zh) 2013-03-27

Family

ID=43221431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910203108XA Active CN101901235B (zh) 2009-05-27 2009-05-27 文档处理方法和系统

Country Status (2)

Country Link
US (3) US8359327B2 (zh)
CN (1) CN101901235B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106189A (zh) * 2011-11-11 2013-05-15 北京百度网讯科技有限公司 一种挖掘同义属性词的方法和装置
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103870458A (zh) * 2012-12-07 2014-06-18 富士通株式会社 数据处理装置、数据处理方法和程序
CN103995885A (zh) * 2014-05-29 2014-08-20 百度在线网络技术(北京)有限公司 实体名的识别方法和装置
CN104102738A (zh) * 2014-07-28 2014-10-15 百度在线网络技术(北京)有限公司 一种扩充实体库的方法及装置
CN105869640A (zh) * 2015-01-21 2016-08-17 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置
CN106156340A (zh) * 2016-07-12 2016-11-23 浪潮(北京)电子信息产业有限公司 一种命名实体链接方法
CN103678336B (zh) * 2012-09-05 2017-04-12 阿里巴巴集团控股有限公司 实体词识别方法及装置
WO2017088245A1 (zh) * 2015-11-27 2017-06-01 小米科技有限责任公司 参考文档的推荐方法及装置
CN107590170A (zh) * 2016-07-08 2018-01-16 富士施乐株式会社 信息处理装置和信息处理方法
CN108228758A (zh) * 2017-12-22 2018-06-29 北京奇艺世纪科技有限公司 一种文本分类方法及装置
CN109949637A (zh) * 2019-03-13 2019-06-28 广东小天才科技有限公司 一种客观题目的自动解答方法和装置
CN110990587A (zh) * 2019-12-04 2020-04-10 电子科技大学 基于主题模型的企业关系发现方法及系统
CN113420113A (zh) * 2021-06-21 2021-09-21 平安科技(深圳)有限公司 语义召回模型训练、召回问答方法、装置、设备及介质
CN113505217A (zh) * 2021-07-29 2021-10-15 永道科技有限公司 基于大数据实现工程造价数据库快速形成的方法和系统

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
US8782042B1 (en) * 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
CN110488991A (zh) 2012-06-25 2019-11-22 微软技术许可有限责任公司 输入法编辑器应用平台
US8959109B2 (en) * 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
KR101911999B1 (ko) 2012-08-30 2018-10-25 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 피처 기반 후보 선택 기법
WO2015018055A1 (en) 2013-08-09 2015-02-12 Microsoft Corporation Input method editor providing language assistance
US10242090B1 (en) * 2014-03-06 2019-03-26 The United States Of America As Represented By The Director, National Security Agency Method and device for measuring relevancy of a document to a keyword(s)
CN105138537B (zh) * 2015-07-08 2018-12-07 上海大学 基于自信息的跨学科领域共现主题发现方法
CN105550168B (zh) * 2015-12-10 2019-01-15 百度在线网络技术(北京)有限公司 一种确定对象的概念词的方法和装置
CN105589972B (zh) * 2016-01-08 2019-03-15 天津车之家科技有限公司 训练分类模型的方法及装置、对搜索词分类的方法及装置
CN105718444B (zh) * 2016-01-26 2018-05-11 中国人民解放军国防科学技术大学 基于新闻语料的金融概念对应股票关联方法及其装置
US10776399B1 (en) 2016-06-06 2020-09-15 Casepoint LLC Document classification prediction and content analytics using artificial intelligence
US10095747B1 (en) 2016-06-06 2018-10-09 @Legal Discovery LLC Similar document identification using artificial intelligence
US10706113B2 (en) 2017-01-06 2020-07-07 Microsoft Technology Licensing, Llc Domain review system for identifying entity relationships and corresponding insights
US11158012B1 (en) 2017-02-14 2021-10-26 Casepoint LLC Customizing a data discovery user interface based on artificial intelligence
US10740557B1 (en) 2017-02-14 2020-08-11 Casepoint LLC Technology platform for data discovery
US11275794B1 (en) * 2017-02-14 2022-03-15 Casepoint LLC CaseAssist story designer
US10740365B2 (en) * 2017-06-14 2020-08-11 International Business Machines Corporation Gap identification in corpora
CN107562831A (zh) * 2017-08-23 2018-01-09 中国软件与技术服务股份有限公司 一种基于全文检索的精确查找方法
US11216494B2 (en) * 2017-09-22 2022-01-04 Accenture Global Solutions Limited Virtual artificial intelligence based consultant
CN110659655B (zh) * 2018-06-28 2021-03-02 北京三快在线科技有限公司 一种指标归类方法及装置和计算机可读存储介质
US11190603B2 (en) * 2019-03-15 2021-11-30 International Business Machines Corporation Intelligent sampling of data generated from usage of interactive digital properties
CN111522863B (zh) * 2020-04-15 2023-07-25 北京百度网讯科技有限公司 一种主题概念挖掘方法、装置、设备以及存储介质

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
JPH1153387A (ja) * 1997-08-06 1999-02-26 Ibm Japan Ltd 文書の関連付け方法及びそのシステム
US6513031B1 (en) 1998-12-23 2003-01-28 Microsoft Corporation System for improving search area selection
US6424971B1 (en) 1999-10-29 2002-07-23 International Business Machines Corporation System and method for interactive classification and analysis of data
US6505197B1 (en) 1999-11-15 2003-01-07 International Business Machines Corporation System and method for automatically and iteratively mining related terms in a document through relations and patterns of occurrences
US6981040B1 (en) 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US6567805B1 (en) * 2000-05-15 2003-05-20 International Business Machines Corporation Interactive automated response system
US7035864B1 (en) * 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
US6633868B1 (en) * 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US7478089B2 (en) * 2003-10-29 2009-01-13 Kontera Technologies, Inc. System and method for real-time web page context analysis for the real-time insertion of textual markup objects and dynamic content
US7113943B2 (en) * 2000-12-06 2006-09-26 Content Analyst Company, Llc Method for document comparison and selection
US20040024582A1 (en) 2002-07-03 2004-02-05 Scott Shepard Systems and methods for aiding human translation
WO2005026991A1 (en) 2003-09-09 2005-03-24 Ask Jeeves, Inc. Refinement of web-based search queries
JP4349875B2 (ja) * 2003-09-19 2009-10-21 株式会社リコー 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム
KR101222294B1 (ko) 2004-03-15 2013-01-15 야후! 인크. 사용자 주석이 통합된 검색 시스템 및 방법
US7739270B2 (en) 2004-12-07 2010-06-15 Microsoft Corporation Entity-specific tuned searching
JP4825544B2 (ja) * 2005-04-01 2011-11-30 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
US7809551B2 (en) * 2005-07-01 2010-10-05 Xerox Corporation Concept matching system
US7814102B2 (en) * 2005-12-07 2010-10-12 Lexisnexis, A Division Of Reed Elsevier Inc. Method and system for linking documents with multiple topics to related documents
US8060357B2 (en) * 2006-01-27 2011-11-15 Xerox Corporation Linguistic user interface
KR100837749B1 (ko) 2006-04-18 2008-06-13 엔에이치엔(주) 온라인 상에서 제공되는 뉴스 기사에 가중치를 부여하는방법 및 상기 방법을 수행하는 시스템
US7899822B2 (en) 2006-09-08 2011-03-01 International Business Machines Corporation Automatically linking documents with relevant structured information
US7562088B2 (en) * 2006-12-27 2009-07-14 Sap Ag Structure extraction from unstructured documents
US7792786B2 (en) * 2007-02-13 2010-09-07 International Business Machines Corporation Methodologies and analytics tools for locating experts with specific sets of expertise
CN101815996A (zh) 2007-06-01 2010-08-25 谷歌股份有限公司 检测名称实体和新词
US8027977B2 (en) * 2007-06-20 2011-09-27 Microsoft Corporation Recommending content using discriminatively trained document similarity
US8374844B2 (en) 2007-06-22 2013-02-12 Xerox Corporation Hybrid system for named entity resolution
US10762080B2 (en) * 2007-08-14 2020-09-01 John Nicholas and Kristin Gross Trust Temporal document sorter and method
US8140584B2 (en) 2007-12-10 2012-03-20 Aloke Guha Adaptive data classification for data mining
US8706474B2 (en) * 2008-02-23 2014-04-22 Fair Isaac Corporation Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names
KR100931025B1 (ko) * 2008-03-18 2009-12-10 한국과학기술원 재현율의 저하 없이 정확도를 향상시키기 위한 추가 용어를이용한 질의 확장 방법
US20110106814A1 (en) * 2008-10-14 2011-05-05 Yohei Okato Search device, search index creating device, and search system
CN101739407A (zh) * 2008-11-19 2010-06-16 日电(中国)有限公司 自动构建用于相关信息浏览的信息组织结构的方法和系统
CA2772082C (en) * 2009-08-24 2019-01-15 William C. Knight Generating a reference set for use during document review
US9009134B2 (en) 2010-03-16 2015-04-14 Microsoft Technology Licensing, Llc Named entity recognition in query

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106189B (zh) * 2011-11-11 2016-04-27 北京百度网讯科技有限公司 一种挖掘同义属性词的方法和装置
CN103106189A (zh) * 2011-11-11 2013-05-15 北京百度网讯科技有限公司 一种挖掘同义属性词的方法和装置
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103136300B (zh) * 2011-12-05 2017-02-01 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103678336B (zh) * 2012-09-05 2017-04-12 阿里巴巴集团控股有限公司 实体词识别方法及装置
CN103870458B (zh) * 2012-12-07 2017-07-18 富士通株式会社 数据处理装置、数据处理方法和程序
CN103870458A (zh) * 2012-12-07 2014-06-18 富士通株式会社 数据处理装置、数据处理方法和程序
CN103995885A (zh) * 2014-05-29 2014-08-20 百度在线网络技术(北京)有限公司 实体名的识别方法和装置
CN103995885B (zh) * 2014-05-29 2017-11-17 百度在线网络技术(北京)有限公司 实体名的识别方法和装置
CN104102738A (zh) * 2014-07-28 2014-10-15 百度在线网络技术(北京)有限公司 一种扩充实体库的方法及装置
CN105869640A (zh) * 2015-01-21 2016-08-17 上海墨百意信息科技有限公司 识别针对当前页面中的实体的语音控制指令的方法和装置
WO2017088245A1 (zh) * 2015-11-27 2017-06-01 小米科技有限责任公司 参考文档的推荐方法及装置
CN107590170A (zh) * 2016-07-08 2018-01-16 富士施乐株式会社 信息处理装置和信息处理方法
CN107590170B (zh) * 2016-07-08 2023-02-17 富士胶片商业创新有限公司 信息处理装置和信息处理方法
CN106156340A (zh) * 2016-07-12 2016-11-23 浪潮(北京)电子信息产业有限公司 一种命名实体链接方法
CN108228758A (zh) * 2017-12-22 2018-06-29 北京奇艺世纪科技有限公司 一种文本分类方法及装置
CN108228758B (zh) * 2017-12-22 2020-09-01 北京奇艺世纪科技有限公司 一种文本分类方法及装置
CN109949637A (zh) * 2019-03-13 2019-06-28 广东小天才科技有限公司 一种客观题目的自动解答方法和装置
CN110990587A (zh) * 2019-12-04 2020-04-10 电子科技大学 基于主题模型的企业关系发现方法及系统
CN110990587B (zh) * 2019-12-04 2023-04-18 电子科技大学 基于主题模型的企业关系发现方法及系统
CN113420113A (zh) * 2021-06-21 2021-09-21 平安科技(深圳)有限公司 语义召回模型训练、召回问答方法、装置、设备及介质
CN113505217A (zh) * 2021-07-29 2021-10-15 永道科技有限公司 基于大数据实现工程造价数据库快速形成的方法和系统

Also Published As

Publication number Publication date
US9058383B2 (en) 2015-06-16
US20100306248A1 (en) 2010-12-02
CN101901235B (zh) 2013-03-27
US20130060808A1 (en) 2013-03-07
US20130007025A1 (en) 2013-01-03
US8359327B2 (en) 2013-01-22
US9043356B2 (en) 2015-05-26

Similar Documents

Publication Publication Date Title
CN101901235B (zh) 文档处理方法和系统
CN108829858B (zh) 数据查询方法、装置及计算机可读存储介质
JP4489994B2 (ja) 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
CN105843795A (zh) 基于主题模型的文档关键词抽取方法及其系统
JP3438781B2 (ja) データベース分割方法、プログラムを記録したプログラム記憶装置および記録媒体
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN111159341B (zh) 基于用户投资理财偏好的资讯推荐方法及装置
TW201546633A (zh) 文本資訊的匹配、業務對象的推送方法和裝置
CN108305180B (zh) 一种好友推荐方法及装置
CN103365924A (zh) 一种搜索信息的方法、装置和终端
CN108520007B (zh) 万维网网页信息提取方法、存储介质及计算机设备
CN103177036A (zh) 一种标签自动提取方法和系统
Afzaal et al. A novel framework for aspect-based opinion classification for tourist places
CN104899215A (zh) 数据处理方法、推荐源信息组织和信息推荐方法及装置
KR100283103B1 (ko) 온라인 상점 상의 제품 정보 자동 색인 방법 및 시스템
Sarr et al. FactExtract: automatic collection and aggregation of articles and journalistic factual claims from online newspaper
TW201642195A (zh) 商品相關網路文章之自動圖文摘要方法及系統
CN102063497B (zh) 一种开放式知识共享平台及其词条处理方法
KR20210063882A (ko) 효율적 문서 분류 처리를 지원하는 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치
JP2007188330A (ja) 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム
CN106372232A (zh) 基于人工智能的信息挖掘方法和装置
Ahamad et al. Strategy and implementation of web mining tools
CN109241438B (zh) 基于要素的跨通道热点事件发现方法、装置及存储介质
JP2010198278A (ja) 評判情報分類装置、評判情報分類方法及びプログラム
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant