CN100437561C - 电子文档的处理方法和装置及其系统 - Google Patents

电子文档的处理方法和装置及其系统 Download PDF

Info

Publication number
CN100437561C
CN100437561C CNB2003101231081A CN200310123108A CN100437561C CN 100437561 C CN100437561 C CN 100437561C CN B2003101231081 A CNB2003101231081 A CN B2003101231081A CN 200310123108 A CN200310123108 A CN 200310123108A CN 100437561 C CN100437561 C CN 100437561C
Authority
CN
China
Prior art keywords
electronic document
inquiry
text
document
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2003101231081A
Other languages
English (en)
Other versions
CN1629843A (zh
Inventor
刘世霞
杨力平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNB2003101231081A priority Critical patent/CN100437561C/zh
Priority to US11/014,522 priority patent/US20050138028A1/en
Publication of CN1629843A publication Critical patent/CN1629843A/zh
Application granted granted Critical
Publication of CN100437561C publication Critical patent/CN100437561C/zh
Priority to US12/543,881 priority patent/US8788494B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Abstract

本发明公开了一种电子文档的处理方法及装置,该方法包括:在作者写作电子文档时,计算相关联的文本段中每个词的重要性;根据每个词在文本段中的重要性,计算电子文档中的当前文本段与在前的多个文本段之间的相似程度;将在前相关联的文本段与当前的文本段之间的相似程度与一个给定的阈值进行比较,确定用于生成查询的文本流。从文本流中提取特征信息,生成关于文本流的一个或多个查询的信息;与所述电子文档对应地保存所述查询的信息。所述查询可包括关键词、关键词词语串或者问题,具有更高的靠性。

Description

电子文档的处理方法和装置及其系统
技术领域
本发明一般涉及数据处理技术,特别地,本发明涉及一种基于搜索引擎的电子文档的处理方法及装置、电子文档的浏览方法及相应的浏览器、以及电子文档的搜索方法及相应的搜索系统。
背景技术
搜索引擎(Search Engine)是随着互联网信息的迅速增加而迅速发展起来的技术。搜索引擎以一定的策略在互联网上搜集、发现信息,并对信息进行理解、提取、组织和处理,为用户提供检索服务,从而起到信息导航的目的。但是,随着互连网的迅猛发展,在互连网上的内容成爆炸性增长。例如,象Google这样的搜索引擎所面临的一个主要问题是:一个单个的查询就会产生大量的“相关”文档,但实际上,这些“相关”文档中的大多数可能与所查询的主题是完全不相关的。与此同时,由于进行查询的关键词、关键词词语串或问题与那些真正相关的文档并不匹配,而造成那些真正相关的文档被漏掉。出于同样原因,特定的查询经常不能产生任何用户查询所希望找到的文档。由于上述这些原因,使用现有技术的搜索引擎进行文档检索时,用户感到很难准确、全面地找到他/她所真正想要的东西。这也是造成用户对搜索引擎的服务质量不满意的一个原因。
另一方面,在现有技术中,作者使用的文档写作工具与用户使用的文档管理工具和文档检索工具是相互独立的。即,作者在写作电子文档时并不关心将来的读者将如何检索和利用作者所写的文档的内容。但是同时,从信息访问和使用的观点来看,用户又会感到难于找到他/她所真正想要的东西。
而且,由于目前计算机对自然语言的理解能力还处于字/词理解的水平,而对于文档管理工具和文档检索工具来说,需要句子甚至整篇文章的理解和语义理解技术,才能真正满足客户的需要。然而,由于相关技术及工具的局限性,文档管理及检索技术在短期内不可能由将已有的字/词理解提升到句子甚至整篇文章的理解和语义能力。因此,可以想象在未来几年内文档检索技术的发展将不可能满足用户信息访问的要求。
发明内容
为解决现有技术中存在的上述问题以及改善现有搜索引擎的性能,本发明提出在作者写作电子文档的过程中,就为以后的文档管理和信息检索准备相关的信息,即,在作者准备文档期间,就为作者提供一些工具来方便地为以后用户的信息搜索做贡献。更具体地说,作者在写作文档时,准备有关对文档内容的查询,例如查询可以是一些关键词、关键词词语串或者一些简单的问题。由此,可以帮助用户通过搜索引擎快速找到电子文档中所附着的查询信息,检索到最相关的文档。另一方面,通过在电子文档中准备关于查询的一个或多个知识标记(knowledge tag),并对多个电子文档的知识标记编制索引,搜索引擎可以只对经过编制的知识标记索引进行搜索,从而减少了搜索引擎进行搜索的工作量,提高了搜索引擎查询的精确度和准确度,并提高了搜索引擎的查找速度,改善了搜索引擎的性能。
根据本发明的一个方面,提供了一种电子文档的处理方法,包括步骤:在作者写作电子文档时,根据所述电子文档的内容生成一个或多个查询,包括步骤:
选择用于生成查询的文本流;从所选定的文本流中提取特征信息,生成关于所选定文本流的一个或多个查询信息;以及与所述电子文档对应地保存所述查询信息,其中,所述选择用于生成查询的文本流的步骤,进一步包括:i)计算相关联的文本段中每个词、不包括停用词的重要性;ii)根据每个词在文本段中的重要性,计算所述电子文档中的当前文本段与在前的多个文本段之间的相似程度;iii)将在前相关联的文本段与当前的文本段之间的相似程度与一个给定的阈值进行比较,确定用于生成查询的文本流。
根据本发明的再一个方面,提供了一种电子文档的处理装置,包括:电子文档编辑单元,用于编辑电子文档;文本流生成单元,用于对所述电子文档进行处理,以确定生成关于所述电子文档的查询时所用的文本流;特征信息提取单元,用于从所确定的文本流中提取特征信息;查询生成单元,用于根据特征信息提取单元提取出的特征信息生成关于所述文档内容的查询信息;查询保存单元,用于与电子文档相应地保存由查询生成单元所生成的查询信息,其中,文本流生成单元进一步包括:权值计算装置,用于计算所述文档中相关联的文本段中每个词的重要性;文本段相关性计算装置,用于根据每个词在文本段中的重要性,计算所述电子文档中的当前文本段与在前的多个文本段之间的相关程度;文本流确定装置,用于将在前相关联的文本段与当前的文本段之间的相关程度与一个给定的阈值进行比较,确定用于生成查询的文本流。
根据本发明的另一个方面,提供了一种浏览电子文档的方法,包括步骤:读取与所述电子文档对应保存的查询信息,所述查询包括关键词、关键词词语串或者问题;将查询信息中的查询呈现给用户;以及当用户确认所述查询时,将所述电子文档的内容显示呈现给所述用户。
根据本发明的再一个方面,提供了一种电子文档的浏览器,包括:电子文档浏览单元,用于浏览电子文档的内容;查询信息读取单元,用于读取与所述电子文档对应保存的查询信息,其中所述查询包括关键词、关键词词语串或者问题;以及查询呈现单元,用于将由查询信息读取单元读取的查询信息中的查询呈现给用户。
根据本发明的另一个方面,提供了一种检索电子文档的方法,包括步骤:提取分别与相应电子文档对应保存的查询信息,其中每个所述查询信息包含一个或多个相应查询的关键词、关键词词语串或问题;对提取出的查询信息编制索引;响应于用户的查询,在所述查询索引中找出与用户输入的查询相同的或最接近的一个或多个查询;将上述相同的或最接近的一个或多个查询呈现给所述用户;以及将所述用户选择的查询所对应的电子文档或者与所述电子文档的链接提供给所述用户。
根据本发明的再一个方面,提供了一种电子文档的检索系统,包括:查询信息提取装置,用于提取分别与电子文档对应保存的查询信息,其中每个所述查询信息包含一个或多个相应查询的关键词、关键词词语串或问题;查询索引装置,用于对所述提取出的查询信息中的查询编制索引;查询索引存储装置,用于保存由查询索引装置编制的查询索引;查询查找装置,用于从查询索引存储装置中的查询索引中找出与用户输入的查询相同或最接近的一个或多个查询;查询呈现装置,用于将由查询查找装置找出的相同或最接近的一个或多个查询呈现给所述用户;以及电子文档提供装置,用于将所述用户选择的查询所对应的电子文档或者与所述电子文档的链接提供给所述用户。
附图说明
以下结合附图,对本发明的具体实施方式进行详细的说明,由此,本发明的特点、优点、目的和有益效果将会变得更明显,其中:
图1是根据本发明的一种实施方式的电子文档的处理方法的流程图;
图2是根据本发明的一种实施方式的电子文档的处理装置的结构示意图;
图3是根据本发明的一种实施方式的浏览电子文档的方法的流程图;
图4是根据本发明的一种实施方式的电子文档浏览器的结构的方框图;
图5是根据本发明的一种实施方式的检索电子文档的方法的流程图;以及
图6是根据本发明的一种实施方式的电子文档检索系统的结构的方框图。
具体实施方式
以下,结合附图对本发明的各优选实施例进行详细的说明。
电子文档的处理的方法
根据本发明的一个方面,提出了一种电子文档的处理的方法。图1是根据本发明的一种实施方式的电子文档的处理方法的流程图。
如图1所示,在步骤101,作者写作电子文档。根据本发明的电子文档的处理方法是基于传统的文档编辑方法,通过这些传统的文档编辑工具,例如MS Word,Acrobat Writer,或WPS等等,作者可以对所写的文档进行常规的编辑、浏览等等操作。根据本发明,查询的生成是在作者写完一篇文档时进行的,或者可以在完成文档的一部分(例如一个章节)时进行。
接着,在步骤102,选择用于生成查询的一个文本流(或文本段)。在本发明的电子文档的处理方法中,可以由作者从所写作的文档中选择一部分作为一个文本流,也可以根据写作的文档利用算法自动生成一个文本流。其中,对作者写作的文档首先进行预处理,根据现有技术的对文档的处理方式,所述的预处理包括:从所写作的文档中提取文本段落的操作,以及对提取出的文本段去除停用词(stopword)(即一些最常用的应该排除在搜索范围内的词、如中文词汇中的‘的’、‘地’、‘得’、‘了’等)的操作。如果是自动生成文本流,则可以通过历史记录关联算法来生成一个与作者写作的文档内容相关的、待处理的文本流。该方法主要是基于这一性质:与当前文本段相连接的在前的文本段内容与当前待处理的文本段的内容有可能相关,其对当前文本段查询信息的生成仍然有所帮助。此处,历史记录关联算法使用在前相关联的文本段中的词来辅助生成关于当前文本段的查询,即利用当前文本段之前的文本段S的向量表示(旧文本段,可用向量v1表示)与当前文本段的向量表示的相关程度来决定相应文本段的合并,进而生成文本流,即,历史记录关联算法是将以前相关联的文本段与新的文本段合并来生成需要处理的文本流。具体来说,对文本段来说,其向量表示保存了文本段中除停用词之外的每一个词在文本段中的重要性(权重)。所述方法包括:
i)计算在前相关联的文本段中每个词(不包括停用词)的重要性(权重),例如使用tf-idf方法,如公式(1)
wj=tf*idf    (1)
在公式1中,tf是该词在文本段S中出现的频率(次数),idf=all_segments/term_segments;其中,all_segments是整个文档中独立文本流的数量,term_segments是其中包含该词的独立文本流的数量。此处,独立文本流是用来生成查询的相关联的若干文本段落构成。可知,在现有搜索技术中,一个查询对应的是一些关键词、或是关键词词语串,或是一些简单的问题。
ii)根据每个词在文本段中的重要性,计算当前文本段与在前的多个文本段S之间的相似程度。具体地,当接收到一个新的文本段T后,使用tf-idf方法来构造该新的文本段落的向量表示v2。计算新文本段T的向量表示v2与旧文本段S的向量表示v1之间的相似性得分来检查文本段T与旧文本段S之间的相似程度。
iii)将当前文本段T与在前相关联的文本段S之间的相似性程度与一个给定的阈值进行比较。如果相似性得分高出给定的阈值,则可以得出,当前文本段T与之前的文本相似;否则,T与之前的文本不相似。
如果T与位于其之前的文本相似,则将向量v1的每个分量乘以衰减因子α(0<α<1),然后合并向量v1和v2得到向量v3,用v3替代v1。合并S和T得到候选文本流ST,并用ST替代T,继续接受新的文本段。如果T与之前的文本不相似,文本段T就是当前所要处理的候选文本流。此外,用向量v2代替向量v1,S代替T,为下一个文本流的生成作好准备
应当理解,以上只是举例说明的一种确定要处理文本流的方法,还可以选择其他方法来确定用于生成查询的文本流。
再回到图1,接着在步骤103,对所生成的文本流进行分析并从该文本流中提取与搜索引擎进行查询相关的词或称特征信息。应该理解,如上所述,利用历史记录关联算法,使用在前相关联的文本段中的词来辅助生成关于当前文本段的查询。例如,特征信息可以对应于一些关键词、关键词词语串,或是一些简单的问题的查询。
然后,在步骤104,根据所提取的特征信息,生成对应于所处理的文本流的查询。可以理解,可以有多种方法来从该文本流中生成一个或多个查询。例如,可以由作者输入他/她认为与该文本流最相关的查询。也可以通过使用算法来自动生成查询。此处,可以使用tf-idf方法来生成查询。在这种情况下,可以根据合并词向量中的关键词的权重来选择关键词作为查询。
然后,在步骤105,根据文档内容进一步通过查看、修改操作来核实所生成的查询。在此,“核实”包括作者查看、修改生成的查询,从而保证所生成的查询能准确、全面地反映该文档的内容。
接着,在步骤106,判断是否希望生成更多的查询。通常,一篇文档会包含许多方面的内容,同样读者在查找和阅读文档时会有各种不同的目的。因此如果在步骤106中判断还有更多的查询可以反映文档的内容时,就返回到步骤103,根据生成的特征信息,生成下一个查询。如果没有其它查询需要生成的话,则步骤进行到步骤107。
在步骤107,与该文档对应地保存查询信息(例如保存与查询相对应的关键词、关键词词语串或是一些简单的问题)。具体地,根据本发明的优选实施方式,可以将查询信息作为知识标记(knowledgetag)与电子文档一起保存。例如,可以使用标记语言将标记附加到文档当中。
如前面所述,本发明没有对查询的具体保存方式进行限定,例如,可以与电子文档一起保存,即作为电子文档的一部分,也可以与电子文档分开保存,只要能够与所述电子文档对应即可。
通过以上对本实施例的描述可知,如果采用本实施例的电子文档的处理方法,则可以辅助作者在写作的过程中完成多个查询的准备,在不增加作者负担的情况下,利用作者对所写作文档的理解,来保证查询(一个或多个关键词、关键词词语串或者问题)的准确性。并且,由于可以为文档生成充分反映该文档内容的多个查询(一个或多个关键词、关键词词语串或者问题),可以使搜索引擎在进行信息检索时,可以更准确和全面,从而得到高的用户满意度。
电子文档的处理装置
在同一发明构思下,根据本发明的另一个方面,提供了一种电子文档的处理装置。图2是根据本发明的一种实施方式的电子文档的处理装置的结构示意图。
如图2所示,该电子文档的处理装置200,包括:电子文档编辑单元201,用于编辑电子文档。电子文档编辑单元201可以是一个独立的文档编辑单元,也可以使用已有的文档编辑器,例如MSword,Acrobat Writer,或WPS等等;文本流生成单元202,用于对作者写作的电子文档进行处理,以确定对所述文档进行查询时的文本流;特征信息提取单元203,用于从所编辑的电子文档中提取特征信息,优选地,从文本流生成单元202生成的文本流中提取特征信息;查询生成单元205,用于根据特征信息提取单元203提取出的特征信息生成关于所述文档内容的查询的信息,其中所述查询包括关键词、关键词词语串或者问题;查询核实单元204,用于根据文档内容对查询生成单元205所生成的查询进行评价、修改;以及查询信息保存单元206,用于与电子文档相应地保存由查询生成单元205所生成的查询。
相应地,在所述的电子文档的处理装置200的文本流生成单元202中,还可以包括:权值计算装置,用于计算所述文档中相关联的文本段中每个词的重要性;文本段相关性计算装置,用于根据每个词在文本段中的重要性,计算所述电子文档中的当前文本段与在前文本段之间的相关程度;文本流确定装置,用于将在前相关联的文本段与当前的文本段之间的相关程度与一个给定的阈值进行比较,确定用于生成查询的文本流。
通过以上对本实施例的描述可知,如果采用本实施例的电子文档的处理装置,则可以辅助作者在写作的过程中完成多个查询的准备,在不增加作者负担的情况下,利用作者对所写作文档的理解,来保证查询(一个或多个关键词、关键词词语串或者问题)的准确性。并且,由于可以为文档生成充分反映该文档内容的多个查询(一个或多个关键词、关键词词语串或者问题),可以使搜索引擎在进行信息检索时,可以更准确和全面,从而得到高的用户满意度。
浏览电子文档的方法
在同一发明构思下,根据本发明的另一个方面,提供一种浏览电子文档的方法,其中电子文档是通过上述电子文档的处理方法产生的文档,即,与该文档对应地保存有关搜索引擎进行搜索的查询信息。
图3是根据本发明的一种实施方式的浏览电子文档的方法的流程图。如图3所示,首先在步骤301,读取电子文档中的查询信息。具体地,根据查询信息的保存方式,读出查询信息。例如,如果查询信息是被保存在文档的尾部作为知识标记,则相应地识别出该知识标记并将其中的查询信息读出。
接着,在步骤302,将查询信息中的查询呈现给用户。具体地,可以有多种方式来呈现查询。例如,可以列出关键词、关键词词语串或一些简单的问题的列表。或者,如果当查询的数量很大时,也可以由用户输入希望进行的查询内容,然后从所述查询中包含的关键词、关键词词语串或者问题选择与用户输入的关键词、关键词词语串或者问题最接近的查询,并将最接近的查询呈现给用户。
接着,在步骤303,读者查看查询,并判断是否对该文档感兴趣。如果读者对该文档感兴趣,则确认并进入到步骤304,将文档内容呈现给读者;否则,不显示文档内容,而进入到步骤305,关闭文档结束。
通过以上对本实施例的描述可知,如果采用本实施例的浏览电子文档的方法,则可以利用由本发明前述的电子文档的处理方法编制的电子文档中的查询信息,在将文档全部内容呈现给读者之前,将由作者核实过的关于文档内容的查询提供给读者观看,让读者了解该文档的大致内容,从而节省了读者阅读的时间。
电子文档浏览器
在同一发明构思下,根据本发明的另一个方面,提供一种浏览电子文档的浏览器,其中电子文档是通过上述电子文档的处理方法编制的文档,即,与该文档对应地保存有关搜索引擎进行搜索的查询信息。
图4是根据本发明的一种实施方式的电子文档浏览器的结构的方框图。如图4所示,本实施例的电子文档浏览器400,包括:电子文档浏览单元401,用于浏览电子文档的内容,它可以是一个现有技术中的浏览器,如MS Word Viewer,MS Internet Explorer,Netscape Navigator,Acrobat Reader等等;
查询信息读取单元402,用于读取与所述电子文档对应保存的查询信息。具体地,根据查询信息的保存方式,读出查询信息。例如,如果查询信息是被保存在文档的尾部作为知识标记,则相应地识别出该知识标记并将其中的查询信息读出;
查询信息呈现单元403,用于将由查询信息读取单元402读取的查询信息中的查询呈现给用户。具体地,可以有多种方式来呈现查询。例如,可以列出关键词、关键词词语串或一些简单的问题的列表。或者,如果当查询的数量很大时,也可以由用户输入希望的查询内容,然后从所述查询列表中选择与用户输入的查询相同或最接近的查询,并将最接近的查询呈现给用户。在这种情况下,本发明的该浏览器400还可以包括一个查询选择单元(未示出),用于从所述查询信息列表中包含的多个查询中选择与用户输入的查询相同或最接近的查询。
通过以上对本实施例的描述可知,本实施例的电子文档浏览器可以实施本发明上述浏览电子文档的方法。如果采用本实施例的电子文档浏览器,则可以利用由本发明前述的电子文档的处理方法编制的电子文档中的查询信息,在将文档全部内容呈现给读者之前,将由作者核实过的关于文档内容的查询提供给读者观看,让读者了解该文档的大致内容,从而节省了读者阅读的时间。
检索电子文档的方法
在同一发明构思下,根据本发明的另一个方面,提供一种检索电子文档的方法,其中电子文档是通过上述电子文档的处理方法产生的文档,即,与该文档对应地保存有关搜索引擎进行搜索的查询信息。
图5是根据本发明的一个实施例的检索电子文档的方法的流程图。如图5所示,首先在步骤501,提取与多个电子文档对应保存的查询信息,每个所述查询信息包含一个或多个相应查询的关键词、关键词词语串或问题。具体地,如果电子文档的作者是使用上述电子文档的处理装置200写作文档的,则每个文档都会有关于对文档内容进行查询的查询(一个或多个关键词、关键词词语串或者问题)信息。在步骤501中,将多个关于电子文档内容的查询信息提取出来。特别地,对于在因特网上发布的电子文档,可以通过网络搜索器(webcrawler)来遍历各个电子文档,并提取其对应的查询信息,例如从知识标记中提取。
接着,在步骤502,对提取出的查询信息编制索引。在此,可以使用信息检索领域中常用的各种索引方法来对这些查询编制索引,例如,倒排文件、签名文件、PAT树或PAT阵列等。
接着,在步骤503,由用户输入自己的查询。用户的查询可以是一个或多个关键词、关键词词语串或者问题。
接着,在步骤504,在所述查询索引中找出与用户输入的查询相同或最接近的一个或多个查询。具体地,计算用户输入的查询与查询索引中的各个查询的相关程度,以及将上述相关程度最高的一个或者相关程度大于一个预定值的查询选择出来。
然后,在步骤505中,将与用户输入的查询相同或最接近的查询呈现给所述用户,并且,在步骤506中,当用户选择了其中一个查询时,将用户选择的查询对应的电子文档或者与所述电子文档的链接提供给所述用户。
此外,还可以包括步骤507,在此步骤中,用户还可以返回一个关于所给出的查询是否确切的反馈信息,由此,可以根据所述反馈信息,在步骤508,更新所述查询信息。
通过以上对本实施例的描述可知,本实施例的检索电子文档的方法可以利用由本发明前述的电子文档的处理方法编制的电子文档中的查询信息,将这些查询信息提取出来,用于用户的查询。由于查询信息中的查询是经过核实的,可以保证其准确性和可读性,因此,本实施例的检索电子文档的方法更准确,进而在将文档全部内容呈现给读者之前,将由作者核实过的关于文档内容的查询提供给读者观看,让读者了解该文档的大致内容,从而节省了读者阅读的时间。此外,由于还可以通过读者(使用搜索引擎进行查询的用户)可以反馈一个关于电子文档中给出的查询是否确切的反馈信息,可以对相应的查询进行更新,从而可以更精确地提高搜索引擎的准确性。
电子文档检索系统
在同一发明构思下,根据本发明的另一个方面,提供一种电子文档的检索系统,其中电子文档是通过上述电子文档的处理方法产生的文档,即,与该文档对应地保存有关搜索引擎进行搜索的查询信息。
与图5所示的检索方法相对应,图6是根据本发明的一个实施方式的电子文档检索系统的结构方框图。
如图6所示,电子文档检索系统600,包括:查询信息提取装置601,用于提取与电子文档对应保存的查询信息,每个所述查询信息包含一个或多个相应查询的关键词、关键词词语串或问题。如前所述,查询信息提取装置601可以是一个网络搜索器来遍历网络上的各个电子文档,并提取其对应的查询信息;查询索引装置602,用于对所述提取出的查询信息中的查询编制索引;查询索引存储装置603,用于保存由查询索引装置602编制的查询索引;查询查找装置606,用于从查询索引存储装置603中保存的查询索引中找出与用户输入的查询相同或最接近的一个或多个查询;查询呈现装置605,用于将由查询查找装置606找出的一个或多个相同或最接近的查询呈现给用户;电子文档提供装置604,用于将所述用户选择的查询所对应的电子文档或者与所述电子文档的链接提供给所述用户。
进而,检索系统600,还可以包括:相关度计算装置(未示出),用于计算两个查询(关键词、关键词词语串或者问题)的相关程度,从而,查询查找装置606,利用该相关度计算装置,计算用户输入的查询与查询索引中的查询的相关程度,并且将上述相关程度最高的一个或者相关程度大于一个预定值的查询选择出来。
进而,检索系统600,还可以包括:查询反馈装置(未示出),用于允许用户对所呈现的查询进行核实,例如通过评价、修改操作来核实,并返回一个相应的反馈信息;由此,更新相应的查询信息。
通过以上对本实施例的描述可知,本实施例的电子文档的检索系统可以实现前面结合图5所述的电子文档检索方法,可以将由本发明前述的电子文档的处理方法编制的电子文档中的查询信息用于用户的查询。由于查询信息中的查询是经过核实的,可以保证其准确性和可读性,因此,本实施例的电子文档检索系统可以更准确的进行信息搜索,进而在将文档全部内容呈现给读者之前,将由作者核实过的关于文档内容的查询提供给读者观看,让读者了解该文档的大致内容,从而节省了读者阅读的时间。
以上示例性的说明了本发明的电子文档的处理方法、装置、以及浏览电子文档的方法、装置,电子文档的检索方法、电子文档检索系统,但是以上这些实施例仅是示例的,本领域技术人员可以在本发明的精神和范围内作出各种变化和修改。因此,本发明不限于这些实施例,本发明的范围由随附权利要求限定为准。

Claims (8)

1.一种电子文档的处理方法,其特征在于,包括步骤:
在作者写作电子文档时,根据所述电子文档的内容生成一个或多个查询,包括步骤:
选择用于生成查询的文本流;
从所选定的文本流中提取特征信息,生成关于所选定文本流的一个或多个查询信息;以及
与所述电子文档对应地保存所述查询信息,
其中,所述选择用于生成查询的文本流的步骤,进一步包括:
i)计算相关联的文本段中每个词、不包括停用词的重要性;
ii)根据每个词在文本段中的重要性,计算所述电子文档中的当前文本段与在前的多个文本段之间的相似程度;
iii)将在前相关联的文本段与当前的文本段之间的相似程度与一个给定的阈值进行比较,确定用于生成查询的文本流。
2、根据权利要求1的电子文档的处理方法,其特征在于,从所选定的文本流中提取特征信息,生成关于所选定文本流的一个或多个查询信息的步骤包括:
提取特征信息中包含的关键词、关键词词语串或问题作为查询。
3、根据权利要求1的电子文档的处理方法,其特征在于,所述生成关于选定文本流的一个或多个查询的步骤,进一步包括:
根据文档内容进一步通过查看、修改操作来核实所生成的查询。
4、根据权利要求1的电子文档的处理方法,其特征在于,所述与所述电子文档对应地保存所述查询信息的步骤,包括:
将所述查询信息作为知识标记保存在所述电子文档中。
5、根据权利要求1的电子文档的处理方法,其特征在于,所述与所述电子文档对应地保存所述查询的信息的步骤,包括:
将所述查询信息保存为与所述电子文档相关联的知识标记文件。
6、一种电子文档的处理装置,其特征在于,包括:
电子文档编辑单元,用于编辑电子文档;
文本流生成单元,用于对所述电子文档进行处理,以确定生成关于所述电子文档的查询时所用的文本流;
特征信息提取单元,用于从所确定的文本流中提取特征信息;
查询生成单元,用于根据特征信息提取单元提取出的特征信息生成关于所述文档内容的查询信息;
查询保存单元,用于与电子文档相应地保存由查询生成单元所生成的查询信息;
其中,文本流生成单元进一步包括:
权值计算装置,用于计算所述文档中相关联的文本段中每个词的重要性;
文本段相关性计算装置,用于根据每个词在文本段中的重要性,计算所述电子文档中的当前文本段与在前的多个文本段之间的相关程度;
文本流确定装置,用于将在前相关联的文本段与当前的文本段之间的相关程度与一个给定的阈值进行比较,确定用于生成查询的文本流。
7、根据权利要求6的电子文档的处理装置,其中所述查询包括关键词、关键词词语串或者问题。
8、根据权利要求6的电子文档的处理装置,其特征在于,进一步包括:
查询核实单元,用于根据文档内容对查询生成单元所生成的查询进行评价、修改。
CNB2003101231081A 2003-12-17 2003-12-17 电子文档的处理方法和装置及其系统 Expired - Fee Related CN100437561C (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNB2003101231081A CN100437561C (zh) 2003-12-17 2003-12-17 电子文档的处理方法和装置及其系统
US11/014,522 US20050138028A1 (en) 2003-12-17 2004-12-16 Processing, browsing and searching an electronic document
US12/543,881 US8788494B2 (en) 2003-12-17 2009-08-19 Method, device and system for processing, browsing and searching an electronic documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2003101231081A CN100437561C (zh) 2003-12-17 2003-12-17 电子文档的处理方法和装置及其系统

Publications (2)

Publication Number Publication Date
CN1629843A CN1629843A (zh) 2005-06-22
CN100437561C true CN100437561C (zh) 2008-11-26

Family

ID=34661433

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003101231081A Expired - Fee Related CN100437561C (zh) 2003-12-17 2003-12-17 电子文档的处理方法和装置及其系统

Country Status (2)

Country Link
US (2) US20050138028A1 (zh)
CN (1) CN100437561C (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076965A1 (en) * 2006-11-20 2010-03-25 Access Co., Ltd. Information display device, information display program and information display system
JP4930153B2 (ja) * 2007-03-30 2012-05-16 富士通株式会社 文書検索システム、文書番号部分列取得装置、および文書検索方法
US20080288537A1 (en) * 2007-05-16 2008-11-20 Fuji Xerox Co., Ltd. System and method for slide stream indexing based on multi-dimensional content similarity
US8909654B2 (en) * 2007-11-19 2014-12-09 Nippon Telegraph And Telephone Corporation Information search method, apparatus, program and computer readable recording medium
US20090144262A1 (en) * 2007-12-04 2009-06-04 Microsoft Corporation Search query transformation using direct manipulation
US8949242B1 (en) * 2010-01-21 2015-02-03 Google Inc. Semantic document analysis
CN102063469B (zh) * 2010-12-03 2013-04-24 百度在线网络技术(北京)有限公司 一种用于获取相关关键词信息的方法、装置和计算机设备
EP2947585B1 (en) * 2011-05-10 2016-08-24 Uber Technologies, Inc. Systems and methods for performing search and retrieval of electronic documents using a big index
US9165074B2 (en) 2011-05-10 2015-10-20 Uber Technologies, Inc. Systems and methods for performing geo-search and retrieval of electronic point-of-interest records using a big index
JP2013016036A (ja) * 2011-07-04 2013-01-24 Hitachi Ltd 文書部品生成方法及び計算機システム
CN105446608A (zh) * 2014-09-25 2016-03-30 阿里巴巴集团控股有限公司 信息搜索方法、信息搜索装置及电子装置
CN105930316A (zh) * 2016-05-06 2016-09-07 长沙市麓智信息科技有限公司 专利撰写辅助系统及其辅助方法
US20220092130A1 (en) * 2019-04-11 2022-03-24 Mikko Kalervo Vaananen Intelligent search engine

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1206158A (zh) * 1997-07-02 1999-01-27 松下电器产业株式会社 关键字提取系统及采用该系统的文本检索系统
CN1362681A (zh) * 2000-12-27 2002-08-07 独立行政法人通讯综合研究所 信息检索处理装置和方法,记录信息检索程序的记录媒体
CN1417709A (zh) * 2001-11-07 2003-05-14 日本电气株式会社 信息检索系统及其信息检索方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5907836A (en) * 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5873107A (en) * 1996-03-29 1999-02-16 Apple Computer, Inc. System for automatically retrieving information relevant to text being authored
US5893908A (en) * 1996-11-21 1999-04-13 Ricoh Company Limited Document management system
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
AUPO525497A0 (en) * 1997-02-21 1997-03-20 Mills, Dudley John Network-based classified information systems
US6038567A (en) * 1998-02-19 2000-03-14 Microsoft Corporation Method and system for propagating object properties in a desktop publishing program
US6505191B1 (en) * 1998-07-24 2003-01-07 Jarg Corporation Distributed computer database system and method employing hypertext linkage analysis
US6314419B1 (en) * 1999-06-04 2001-11-06 Oracle Corporation Methods and apparatus for generating query feedback based on co-occurrence patterns
AU3274701A (en) * 2000-01-06 2001-07-16 Igotpain.Com, Inc. System and method of decision making
WO2002046960A2 (en) * 2000-11-23 2002-06-13 Goren Gordon Method and system for creating meaningful summaries from interrelated sets of information units
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
SG108837A1 (en) * 2002-03-11 2005-02-28 Pi Eta Consulting Co Pte Ltd An enterprise knowledge and information acquisition, management and communications system with intelligent user interfaces

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1206158A (zh) * 1997-07-02 1999-01-27 松下电器产业株式会社 关键字提取系统及采用该系统的文本检索系统
CN1362681A (zh) * 2000-12-27 2002-08-07 独立行政法人通讯综合研究所 信息检索处理装置和方法,记录信息检索程序的记录媒体
CN1417709A (zh) * 2001-11-07 2003-05-14 日本电气株式会社 信息检索系统及其信息检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
英文文献自动摘要系统的研制与开发. 史磊,王永成.1,2,4,5,8,9,11,第11期. 1999
英文文献自动摘要系统的研制与开发. 史磊,王永成.1,2,4,5,8,9,11,第11期. 1999 *

Also Published As

Publication number Publication date
US8788494B2 (en) 2014-07-22
US20090307217A1 (en) 2009-12-10
US20050138028A1 (en) 2005-06-23
CN1629843A (zh) 2005-06-22

Similar Documents

Publication Publication Date Title
US11803596B2 (en) Efficient forward ranking in a search engine
CN110674429B (zh) 用于信息检索的方法、装置、设备和计算机可读存储介质
US7376634B2 (en) Method and apparatus for implementing Q&A function and computer-aided authoring
US8788494B2 (en) Method, device and system for processing, browsing and searching an electronic documents
US8204874B2 (en) Abbreviation handling in web search
US8983977B2 (en) Question answering device, question answering method, and question answering program
CN109726274B (zh) 问题生成方法、装置及存储介质
US20050080613A1 (en) System and method for processing text utilizing a suite of disambiguation techniques
US7305406B2 (en) Computer aided authoring, electronic document browsing, retrieving, and subscribing and publishing
WO2012071169A2 (en) Efficient forward ranking in a search engine
US8478704B2 (en) Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
JPH09223161A (ja) コンピュータ・ベースの文書検索システムにおいて問い合わせ応答を生成する方法および装置
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其系统
JP2006227823A (ja) 情報処理装置及びその制御方法
JP2003281183A (ja) 文書情報検索装置、文書情報検索方法及び文書情報検索プログラム
JP2020071678A (ja) 情報処理装置、制御方法、プログラム
Andrés et al. Approximate Search for Keywords in Handwritten Text Images
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
Parikh et al. Adapting question answering techniques to the web
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
Farooq et al. Comparing Different Techniques of Urdu Text Summarization
JPH02289060A (ja) 文書抄録作成装置
JP2005031949A (ja) 情報検索方法、情報検索装置およびプログラム
Algan et al. A Use Case: Reformulating Query Rewriting as a Statistical Machine Translation Problem

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081126

Termination date: 20101217