CN101201841A - 电子文本处理与检索的便捷方法和系统 - Google Patents

电子文本处理与检索的便捷方法和系统 Download PDF

Info

Publication number
CN101201841A
CN101201841A CNA200710164298XA CN200710164298A CN101201841A CN 101201841 A CN101201841 A CN 101201841A CN A200710164298X A CNA200710164298X A CN A200710164298XA CN 200710164298 A CN200710164298 A CN 200710164298A CN 101201841 A CN101201841 A CN 101201841A
Authority
CN
China
Prior art keywords
text
keyword
abutting connection
speech section
subclass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200710164298XA
Other languages
English (en)
Other versions
CN100501745C (zh
Inventor
刘二中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNB200710164298XA priority Critical patent/CN100501745C/zh
Publication of CN101201841A publication Critical patent/CN101201841A/zh
Application granted granted Critical
Publication of CN100501745C publication Critical patent/CN100501745C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种计算机执行的对多个含有同样关键词的电子文本进行处理的方法和系统,包括:获得多个含有同样关键词的电子文本,规定邻接词段所含字词数量或邻接词段截取方式,根据部分或全部文本中的每个文本内容中所述关键词的邻接词段与其他文本相同还是不同,将该文本与其他文本划分为相同或不同子集或类别,对它们进行相应的相同或不同处理。可以使关键词检索得到的海量搜索结果,形成核心内容不重复不缺失的多级子集体系或目录或实例序列,帮助用户迅速而严密地缩小搜索范围,完整准确地得到所期望的查询结果。

Description

电子文本处理与检索的便捷方法和系统
(1)技术领域
本发明涉及计算机及搜索引擎关于电子文本处理与检索的技术。
(2)背景技术
数十年来,计算机数据库检索技术有了极大发展,特别是万维网等网络技术的进展,使得人们可以共享的数据库的规模达到了天文数字。为了方便用户找到所需信息或文件,出现了分类或目录检索系统。这种技术在人们十分熟悉的成熟分类领域里比较适用,但在更广泛的海量信息领域里,难于建立也难于掌握和使用。
以关键词搜索为核心的搜索引擎技术为用户带来了便利。以搜索引擎为核心的搜索系统一般位于一个或多个服务器或其他计算机装置上,由文本(页面)库、文本索引库、根据对文本库的文本分析得到文本索引的索引构造器,以及接受查询生成搜索结果的查询器等部分组成,往往还附带有为文本库从互联网或其他信息源搜集和增添文本的数据采集服务器。该系统可以通过客户机上的交互界面以及通讯网络或通讯线路得到查询者的关键词查询请求,在文本索引库或文本库中进行查询,并进行关键词请求与文本的相关性分析,得到相关结果并排序,再经由通讯网络或线路提供到交互界面。这种搜索系统使用起来十分便利迅速,但返还结果包含的索引总数仍然十分庞大,难于逐一查阅。
人们还发展了将关键词与指向有关文本的锚内容(anchor text)描述相比较来确定相关性的技术,仍然不能使检索者十分满意。为了能将潜在的对查询者最有价值的查询结果尽量排在前面以方便查询者,第6,285,999号美国专利提出了基于网页超级链接结构分析(佩奇链接)来进行搜索结果排序的技术,超过了其他排序技术,被Google公司采用,获得空前成功。
然而,该技术以及其他各种排序技术,仅仅是在统计学意义上提高了关键词搜索的效率,并不能保证每个人希望的查询结果都能排在庞大索引表的前面。例如,我们利用“谷歌”中文网站搜索“布林”一词,可以得到近30万条索引。我们仍然不能保证可以无一遗漏地在靠前的位置上查阅到期望的内容,做到既严密又比较方便。同时,我们在读到期望的信息之前,却无奈地读到种种主要内容一再重复的无关信息。
为了解决这一问题,近十年来人们一直试图发展各种新的搜索引擎技术,例如,第6421675号美国专利涉及的“按照重要性的优先次序列表”的技术,第6256633号美国专利涉及的“根据使用者查询数据的历史形成动态对象表”的技术,CN1151457号中国专利的“与其他查询者共享查询信息”技术,第6990628号美国专利有关“测量电子文本相似性”的技术。这些技术具有某些优点,但效果十分有限。
第7089236号美国专利的技术可以对查询者提出的关键词进行语义分析,并将不同的可能语义呈现于交互界面,帮助查询者缩小搜索范围。与之相近的中国专利申请第200510081867.5号的技术,通过使用网页类别信息分散搜索引擎的关键词搜索结果。这两种技术的问题在于,首先必须建立十分复杂庞大然而不可能准确的分类数据库,由机器判断某一页面或文本属于某关键词的哪一条或哪几条的语义或类别是十分困难的,其可靠性不高。一个关键词的不同语义或类别之间很可能重叠更可能存在空白。如果增加分类的层次,重叠将造成占用存储空间的暴增。同时,关键词搜索的查询者面对不熟悉的领域,对诸多语义或分类也难于准确把握。这些都严重影响了查询效率的提高。
因此,人们迫切需要一种既严密又高效的关键词搜索引擎系统技术,能够有效地帮助查询者缩小甚至多次缩小查阅范围。要求不同范围之间分界明确,容易判断,没有重叠也没有空白,以大大加快查询者得到期望结果的速度,并保证搜索的严密性。这也成为多年来未能解决的世界性难题。
(3)发明内容
本发明的目的就是提供一种计算机或搜索引擎的电子文本处理与检索或搜索的技术,在用户进行关键词检索而面对海量的搜索结果时,能迅速而严密地多次缩小搜索范围,或剔除各类无关信息或重复信息,准确地得到所期望的结果而很少遗漏。
本发明的一个方面是提供了一种计算机执行的对多个含有同样关键词的电子文本进行处理的方法,包括:
获得多个含有同样关键词的电子文本;规定邻接词段所含字词数量或邻接词段截取方式;根据部分或全部文本中的每个文本内容中所述关键词的邻接词段与其他文本相同还是不同,将该文本与其他文本划分入同一或不同子集或类别或者进行相应的相同或不同处理。
所述的相应的相同或不同处理可以包括:相应文本具有相同或不同的分布位置或存储方式,或者得到相同或不同的子集标记,或者使得其索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个邻接词段或文本进行跨子集组合或排序或在交互界面展示;
所述的文本可以是电子文件或网页或者它们的摘要或索引或题录或题目,也可以是数据库、著作、词典、手册、专利文献的各种信息内容。
上述的邻接词段或间接邻接词段可以是关键词前面的,也可以是关键词后面的;一般是文本内容中的一个或多个词或字甚至词根组成的词段,需要时也包括某些字符,如缩写字母、标点等;在某些必要情况下,判断两个词段的相同或不同,也可以略去某些词的前缀或后缀或者某些虚词或非实词或者标点或空格的差别。需要时,也可以略去或不考虑某些助词或数词或量词或形容词或副词的有无或差别,甚至略去或不考虑冠词或连词有无或差别。
当检索时的关键词为可以分开的多个字词时,上述邻接词段可以是指其中某一字词(如靠前的字词)或多个字词的邻接词段。
所述邻接词段所包含的字词或字符的数量或该邻接词段的截止方式或具体内容可以是预定的或者查询者同意或默认的或选定的。
在某些必要情况下,判断词段的长度,类似于判断两个词段的相同或不同,也可以略去或不考虑某些词的前缀或后缀或者某些虚词或助词或数词或量词或非实词或者标点或空格甚至形容词或副词的有无或差别。
本发明的方法的对检索的好处十分明显。查询者对关键词的某一种邻接词段有兴趣时,很容易得到包含该种邻接词段的类别的所有文本,反之,他则很容易跳过这些文本。
本发明的关键之处在于,关键词的邻接内容最有可能决定该关键词在该文本中的具体内涵或指向或限定范围或方向,这应该是搜索者最感兴趣的。同时,本方法如果采用的方式恰当的话,完全可以避免其他利用分类检索方法所难以避免的“不同类别或子集的内容重叠和空白”现象,该现象在多级分类子集系统中会造成最终难以使用的后果。这决定了本发明的方法或系统的搜索效果将会有突出地提升。
所述的处理方法还可以包括:对于属于某个或某些同一第一级子集或较高的子集或其内容含有同样关键词及邻接词段的不同文本,根据其含有的所述同样关键词及邻接词段的其他邻接词段的相同还是不同,将部分或全部所述文本划分入上述子集的同一或不同的下一级或多级子集或者进行相应的相同或不同处理。
这实际上就是将原来的同一邻接词段子集进一步细分为若干下一级子集。
所述的处理方法允许依次的邻接词段的合并或分开,以减少或增加子集层次。
所述的处理方法还可以包括:
编排一个反映所述文本的同样关键词的不同邻接词段或间接邻接词段或者包含这些词段的语句或例句或摘要实例的并列或先后关系的一级或多级的目录或树状目录或序列。
所述的处理方法还可以包括:
所述目录或树状目录或序列中的关键词邻接词段或间接邻接词段,如果其下一级或下几级邻接词段只有一种,该词段可以连同其下一级或下几级邻接词段在其原有位置一起分布或存储或展示。
所述的处理方法还可以包括:
在上述的文本或目录或语句或例句或摘要实例中或者在它们所包含的关键词或邻接词段或间接邻接词段附近,可以具有其相应的并列子集数目或下级子集数目或者相关词或词段所在子集的并列子集数目或所含的下级子集数目或文本数目的提示。
本发明的处理方法,还可以包括:
编排含有同样关键词的多个文本或文本部分内容的序列,它们含有的由多个词组成的邻接词段互不相同,或基本上互不相同。
或者说,含有相同所述邻接词段的文本或文本部分内容只有一个或多个作为代表。
这样可以用条数减少大约一半数量级的同关键词的代表性信息序列,来代替原来的海量信息。
本发明所述的处理方法,还可以包括:
将所述多个文本的同样关键词的不同邻接词段进行相似比较,划分各种相似子集,或者编成彼此不相似邻接词段的序列或目录。
本技术允许查询者在交互界面上对目录或序列或其他内容中的文字或图形或符号进行指示,例如点击光标,确定或展开或链接相关内容。
本发明的处理方法也可以包括:
在所述的处理方法或者目录中,并列子集或者并列邻接词段或者并列文本或者并列的文本部分内容或代表性序列信息中的某一个的具体排序位置,可以部分或完全取决于相关子集或相关文本或者词段或内容或信息或所在文本的佩奇链接值、点击率、关键词出现率、下级子集数目或下属文本数目、子集点击率、文本佩奇链接值的平均数值或最高值、在已有网站或系统中搜索结果的排序、竞价、拼写方式、笔划、来源评分、收录时间及其他等等因素中某一个或多个,或者由相应的目标函数值来决定。
本发明的处理方法还可以包括:
允许在已有处理的方法或结果上,增加或减少应具备或不能具备的另外的关键词,或者增加或减少时间或地域或语种或者其他类型或范围或要求的限制,得到进一步精炼的结果或更宽泛的结果。
本发明的另一个方面是一种包括存贮装置的计算机数据系统,其特征在于,所述存储装置或其中的数据部分所含有的部分或全部关键词索引或文本摘要或文本的数据以下列方式分布:
其文本摘要或文本含有同一关键词而该关键词邻接词段相同或不同的索引或文本摘要或文本的数据,位于同一关键词集的同一或不同子集的分布区域。
本发明的又一个方面是另一种包括存贮装置的计算机数据系统,其特征在于,所述存储装置或其中的数据部分所含有的部分或全部的关键词索引的数据结构组成至少包括:
关键词段;
一个或多个邻接词段,由相应文本内容中或文本摘要中的关键词的依次邻接的预定数目的各级邻接词段按原顺序映射组成,依次为:邻接词段1,邻接词段2,…邻接词段N;
相应文本ID段,或其相关信息的ID段;
其中ID段是指地址段;
必要时,可以包括相应文本含有的所述关键词的摘要段或标题段;
该系统可以允许该计算机数据系统依据搜索规定包含的所述关键词段和各邻接词段中的一个或多个的组合或者组合词段数目的增减,来搜索或者以变换方式搜索相应的索引或内容。
显然,可以规定上述的N最小为1,此时相关索引只有一个邻接词段。
本发明可以包括具有上述关键词索引的数据结构组成的计算机可读介质,或存储着实现和利用上述关键词索引的数据结构的指令的计算机可读介质。
本发明可以是存储着可以由一个或多个处理装置执行的指令的计算机可读介质(computer-readable medium),所述指令用以实现一种对多个含有同样关键词的电子文本的处理方法,可以包括:
用以获得或搜索多个含有同样关键词的电子文本的指令;
用以规定邻接词段所含字词数量或邻接词段截取方式的指令;
根据部分或全部文本中的每个文本内容中所述关键词的邻接词段与其他文本相同还是不同,将该文本与其他文本划分入同一或不同子集或类别或者进行相应的相同或不同处理的指令;
所述的相应的相同或不同处理可以包括:相应文本具有相同或不同的分布位置或存储方式,或者得到相同或不同的子集标记,或者使得其索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个邻接词段或文本进行跨子集组合或排序或在交互界面展示。
本发明的又一个方面是提供了一种搜索引擎提供查询者所期望结果的搜索方法,该搜索引擎系统响应查询者经由交互界面提出的关键词查询要求,从该系统相关的信息源或数据库搜索并提供符合上述关键词要求的文本或文本摘要或索引或其相关信息;本搜索方法的特点在于,该方法包括:
该系统经由交互界面接收查询者的关键词查询要求;
确认后,根据该关键词要求查询包含关键词索引的数据库;
将在含有上述关键词的文本内容中或文本摘要中出现的上述关键词连同其邻接词段,作为关键语句;
所述邻接词段所包含的字词或字符的数量或该邻接词段的截止方式,是由上述系统预定的或者查询者同意或默认的或选定的,
需要时也可以根据邻接词段的端部或端部附近的符号或字或词或其字体或颜色或空格来确定,或者由查询者在交互界面呈现的选择栏里或包含某具体索引的文本摘要或文本或相关内容的页面上的进行的光标指示的位置和方式来确定;
根据上述的邻接词段或关键语句归纳整理出各不相同的邻接词段或者各不相同的关键语句;
根据得到的关键语句生成搜索结果,即:并将含有所述的相同或不同关键语句的不同索引或文本摘要或文本进行检索或处理或编排或整理,以供查询者经由交互界面选用。
需要的话,以上操作可以由该系统预先或在查询时进行。
所述的搜索方法还可以包括:
将在含有上述关键语句的文本内容中或文本摘要中出现的上述关键语句连同其邻接词段,或者将原关键语句连同其邻接词段,作为扩展的关键语句;
所述邻接词段所包含的字词或字符的数量或该邻接词段的截止方式或具体内容,可以是由上述系统预定的或者查询者同意或默认的或选定的,
也可以根据邻接词段的端部或端部附近的符号或字或词或其字体或颜色或空格来确定,或者由查询者在交互界面呈现的选择栏里或包含某具体索引的文本摘要或文本或相关内容的页面上的进行的光标指示的位置和方式来确定;
根据上述的邻接词段或关键语句归纳整理出各不相同的邻接词段或者各不相同的扩展的关键语句;
根据得到的扩展(需要时可以多次扩展)的关键语句生成搜索结果,即:将含有所述的相同或不同的扩展的关键语句的不同索引或文本摘要或文本或题录进行检索或处理或编排或整理或分别存储,以供查询者经由交互界面选用。
需要时,以上操作可以由该系统预先或在查询时进行。
在需要时,所涉及的上述邻接词段的截止位置,例如可以规定每个邻接词段的的词数,例如词数为一。
所述的处理方法或数据系统或搜索方法可以是用于互联网搜索引擎系统的,也可以是用于局域的或独立的计算机信息库搜索系统的,例如数字图书馆系统、文献资料库数字搜索系统。
这样,原来关键词搜索庞大初步结果将得到一再细分的子集体系,便于用户选择。
需要时,所述的搜索方法还可以包括编组操作:
即允许将含有同样关键词的各种不同的关键语句或邻接词段或索引或文本摘要或文本,或者将含有同样原关键语句的各种不同的扩展的关键语句或邻接词段或索引或文本摘要或文本,各自编组以目录或序列形式排列或显示,其中对每一种邻接词段所在的关键语句或索引或文本摘要或文本仅收进各一个或多个。
这样编组,具有一定单一性或代表性,可以帮助用户阅读少量交互界面画面信息就能作出选择。
当我们选择的关键语句的长度达到一定程度时,得到的索引或摘要或题录编组序列的核心内容将基本不重复也无遗漏。
所述的搜索方法还可以包括:
令所述部分或全部关键词索引或文本摘要或文本的数据,根据其含有的关键词或关键语句或者扩展关键语句的不同或相同,分布于不同或相同的子集区域或者不同或相同的更低级的子集区域存储;
在关键词查询时,直接提取或提供相应的关键语句或关键词索引或文本摘要或文本的数据。
所述的搜索方法也可以包括:
对所述数据库内的文本或摘要或搜索引擎附带的数据采集服务器从互联网或其他信息源得到的文本进行分析,产生所述文本相应的至少包含关键词段和邻接词段和文本或相关内容的ID段(地址段)的索引,必要时包括文本摘要或标题,并存储;
搜索时,根据其所包含的关键词段和邻接词段在存储中检索和提供相应的索引或摘要或标题或文本。
文本地址,可以是数据库地址或互联网地址或URL或代表该URL域散列的形式或其他形式,可以提供访问或打开文本的链接。
所述的搜索方法还可以包括:
编排一个反映具有同一关键词的文本或文本摘要中的该关键词不同级别邻接词段之间先后或并列关系的树状目录(图8),或者一个反映该关键词不同级别扩展的关键语句之间先后或并列关系的树状目录;以供查询时使用。
所述的搜索方法也可以包括选定操作:
即允许所述系统根据查询者在交互界面的页面的上述文本或文本摘要或题录或关键语句或邻接词段目录上或者在选择栏或框中的光标指示,确定相应的关键语句,并且对该关键语句对应的各种不同的扩展的关键语句或扩展的邻接词段或索引或文本摘要或文本或题录进行编组操作或目录展示,或者进行相应索引或文本摘要或文本或题录的排序展示,或者根据确定的相应的关键语句进行移除操作,将所述页面或其他多个页面含有该关键语句的条目或索引或文本摘要或文本或题录剔除或移动位置。
所述的搜索方法还可以包括忽视操作:
即根据查询者浏览包含原关键词的或者包含原关键语句的索引或文本摘要或题录或文本序列时在交互界面上对页面或在页面上的操作,判断查询者浏览该索引或文本序列的即时位置;  如果可以确定,排列在该位置前面一定范围里包含某种关键语句的索引或文本摘要或题录或文本或该关键语句本身一直或连续一定次数未被打开或链接,也未被以其他方式点击或关注或提示保留,则根据该关键语句进行移除操作,将所述页面或其他多个页面含有该关键语句的条目或索引或文本摘要或题录或文本剔除或移动位置。
这一方法,可以将查询者在阅读过程中长时间未关注文件的类似文件信息从后面的序列中后移或剔除,减少无用信息过多的困扰。
本发明的另一个方面是给出了一种响应查询者1经由交互界面2提出的要求,提供所期望搜索结果的搜索引擎系统,包括:
服务器5,该服务器经由通讯网络4或线路与所述交互界面2所在的客户机3耦合;
位于服务器5的搜索引擎8,所述搜索引擎8包括:包括关键词索引在内的数据库9,以及查询器11,该查询器能够根据查询者提出的关键词要求在所述数据库9进行查询并将查询到的相关数据结果列表提供给交互界面2;
其特点在于:
所述数据库9还包括包含关键词的文本摘要或文本,该文本摘要可以包含在所述关键词索引内;
所述查询器11或搜索引擎8包括关键词扩展部件10,该部件可以对查询的关键词进行扩展操作:将在含有上述关键词的文本内容中或文本摘要中出现的上述关键词连同其邻接词段,作为各个不同的扩展关键语句,并将其列表或将上述关键词的不同邻接词段列表以供查询者经由交互界面选用,或者将含有相同或不同的所述扩展关键语句的不同索引或文本摘要或文本进行检索或处理或编排或整理,以供查询者经由交互界面选用;
所述关键词扩展部件10同样可以对关键语句进行一次或多次扩展操作,并进行相应的查询或处理。
这里所述的“查询的关键词”可以是指“正查询的关键词”或“待查询的关键词”。
以上所述的搜索引擎系统可以是位于互联网的为网上客户服务的搜索系统,也可以是独立的计算机信息库搜索系统。所述的服务器5为计算机存储和处理装置,可以是单个的,也可以是多个成组或分散配置的。所述的客户机3可以是个人电脑或工作站或其他计算机装置,需要时,可以配置适当的浏览器。
所述的搜索引擎系统还可以允许:所述的搜索引擎包括索引构造部件13,用于对所述数据库内的文本或搜索引擎附带的数据采集服务器12从互联网4或其他信息源得到的文本进行分析,产生所述文本相应的至少包含关键词段和邻接词段和文本ID段的索引,并存储。
需要时,此处可以简单地规定每个邻接词段的词数,例如词数为一。
所述的搜索引擎系统还可以包括一个反映具有同一关键词的文本或文本摘要中的该关键词不同级别邻接词段之间先后关系的邻接词段树状目录(图8),或者包括一个反映该关键词不同级别扩展的关键语句之间先后关系的树状目录。
本发明还可以包括具有反映具有同一关键词的文本或文本摘要或题录中的该关键词不同级别邻接词段之间先后关系的邻接词段树状目录,或者反映该关键词不同级别扩展的关键语句之间先后关系的树状目录的计算机可读介质。
上述树状目录,实际上也可以同时反映同级邻接词段或关键语句的并列关系。
所述的邻接词段树状目录的相应邻接词段处,或者反映该关键词不同级别扩展的关键语句之间先后关系的树状目录的相应关键语句处,也可以显示其后面的子集数量或所含文件数量。
所述的搜索引擎系统,还可以包括一种用户图形交互界面(图10),允许查询者添加附加查询信息,其界面可以包含一种对话框或选择框51,以接收查询者对操作方式或模式等方面的选择;其界面可以包含可以点击的关键语句或邻接词段或语句或段落或操作命令或选择的文字或符号或图形,允许查询者添加附加查询信息。
本发明的以关键词及邻接词为核心的搜索技术,在划分和不断缩小同一关键词搜索结果范围方面,具有词典式的严密性和明显超越现有技术的便捷性,还可以将常常上百万条的同关键词网上信息,浓缩成条数减少2、3个数量级的同关键词的代表性信息序列,而每条信息的核心内容(关键词附近几个邻近词构成的内容)既不重复也不遗漏,将更好地满足广大信息搜索用户长期以来的迫切需求。
(4)附图说明
图1为规定邻接词段所含字词数量或邻接词段截取方式的举例示意图。
图2为同样关键词的不同邻接词段或相应子集的树状目录举例示意图。
图3为同样关键词的不同相似子集及下级不同邻接词段子集的举例示意图。
图4所示为根据本发明的搜索系统的一个实施例的结构框图。
图5所示为本发明的一个实施例的关键语句生成的示意图。
图6所示为本发明的实施例的另一种关键语句生成方式的示意图。
图7所示为本发明的一个实施例的用户在交互界面的示例性操作流程图。
图8所示为本发明的一个实施例展示的一个反映关键词不同级别邻接词之间先后关系的邻接词段树状目录示意图。
图9所示为本发明的一个实施例的搜索引擎的工作流程图。
图10所示为本发明的一个实施例的搜索过程中一次光标点击(选定操作)及生成显示结果的局部屏幕画面示意图。
图11所示为本发明的方法一个实施例的示例性流程图。
(5)具体实施方式
下面结合附图,在前面“发明内容”的基础上进一步具体说明。
本发明提供的一种计算机执行的对多个含有同样关键词的电子文本进行处理的方法,具体举例来说包括:
首先从计算机或数据库或互联网获得多个含有同样关键词的电子文本;所述的文本可以是电子文件或文档或网页或者它们的摘要或索引或题录或题目,也可以是数据库、著作、词典、手册、专利文献的各种信息内容。
规定文本里该关键词的邻接词段所含字词数量或邻接词段截取方式:
具体来说所述的邻接词段一般是直接邻接词段,在必要时也可以是间接邻接词段;直接邻接词是指该邻接词段在原文本内容中与上述关键词之间没有文字间隔,而间接邻接词段邻接词段指该邻接词段在原文本内容中与上述关键词之间有少量文字间隔,间隔大将明显影响本方法的使用效果。
所述的邻接词段可以是关键词前面的,也可以是关键词后面的;一般是文本内容中的一个或多个词或字甚至词根组成的词段,需要时也包括某些字符,如缩写字母、标点等。
所述邻接词段所包含的字词或字符的数量或该邻接词段的截止方式或具体内容可以是计算机系统预定的或者查询者同意或默认的或选定的,或者由查询者在交互界面呈现的选择栏里或包含某具体索引的文本摘要或文本或相关内容的页面上的进行的光标指示的位置和方式来确定。
图1和图5、图6给出了规定邻接词段所含字词数量或邻接词段截取方式的几个例子。在图1的例子中,关键词为“搜索引擎”。其中101表示“截取关键词前2实词”的方式;102表示“截取关键词前2+后2实词”的方式;103表示“截取关键词后2实词”的方式;104表示“截取关键词后面第一个逗号或句号前实词”的方式;105表示“截取关键词后面距离不小于2个词的第一个逗号或句号前面的词”的方式。
在某些必要情况下,判断词段的长度,也可以略去或不考虑某些词的前缀或后缀或者某些虚词或助词或数词或量词或非实词或者标点或空格的有无或差别或不同(参见后面的实施例A),甚至也可以略去或不考虑其中的形容词或副词的有无或差别或不同。
当检索时的关键词为可以分开的多个字词时,例如上述邻接词段可以是指其中某一字词(如靠前的字词)或多个字词的各个邻接词段。在后者的情况下,可能需要对关键词的不同部分的邻接词段分别进行比较,才能判断不同文本的关键词邻接词段是否完全相同。
当一个文本中多次出现同一关键词时,可以仅仅考虑任一出现的关键词的邻接内容,还可以将该文本适当分开,当作多个文本来处理。这对于篇幅较长文本的检索来说比较适用。
根据部分或全部文本中的每个文本内容中所述关键词的邻接词段与其他文本相同还是不同,将该文本与其他文本划分为相同或不同的子集或类别或者进行相应的相同或不同处理。(参见后面的实施例A)
一般说来,所谓“相同”意味着两个词段完全一样;但在某些必要情况下,判断两个词段的相同或不同,也可以略去或不考虑某些词的前缀或后缀或者某些虚词或助词或数词或量词或非实词或者标点或空格的有无或差别或不同,甚至也可以略去或不考虑其中的形容词或副词的有无或差别或不同。
例如,需要的话,如果按照宽松的标准,可以认为:“科学的力量是十分强大的”与“科学力量十分强大”是两个相同的邻接词段。
将每个文本内容中所述关键词的邻接词段与其他文本相同还是不同,将该文本与其他文本划分为相同或不同类别以后,查询者可以直接根据对关键词的某一种邻接词段的兴趣,按照类型获得或跳过包含该种邻接词段的类别的所有文本。
所述的相应的相同或不同处理可以包括:相应文本具有相同或不同的分布位置或存储方式,或者得到相同或不同的子集标记,或者使得其索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个邻接词段或文本进行跨子集组合或排序或在交互界面展示。(参见后面实施例A)
对于属于某个或某些同一第一级子集或较高的子集的不同文本,或者说其内容含有同样关键词及邻接词段的不同文本,可以根据其含有的所述同样关键词及邻接词段的其他邻接词段的相同还是不同,将部分或全部所述文本划分入上述子集的同一或不同的下一级或多级子集或者进行相应的相同或不同处理。
此处所述的相应的相同或不同处理同样可以包括:相应文本具有相同或不同的分布位置或存储方式,或者得到相同或不同的子集标记,或者使得其索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个邻接词段或文本进行跨子集组合或排序或在交互界面展示。(参见后面的实施例A及图10的内容)
这实际上就是通过对原有关键词邻接词段的扩大以及对扩大部分相同与否的比较,将原来的同一邻接词段子集进一步细分为若干下一级子集,如果需要,还可以继续下去,直到得到查询者满意的结果。这也是本方法的又一个优势。
例如,我们对关键词为“搜索引擎”的多个文本根据邻接词段划分子集,其中的第一邻接词段按“关键词前1词+后1词”的方式截取,这样得到了多个子集,其中含有邻接词段为“专业K公司”子集(此处K代表关键词“搜索引擎”),该子集包含185个文本;如果我们将这185个文本按“K公司”后面的3个词构成的第二邻接词段是否相同进行划分,又得到第二邻接词段为“通过专业技术”、“力图开拓市场”等13个二级子集;如果我们对含有“通过专业技术”词段的二级子集包含的文本继续按第三邻接词段(为其后面的2实词词段)划分下去,还可以得到若干三级子集。(可参考图2、图8)。
利用本发明的处理方法例如还可以允许依次的邻接词段的合并或分开,以减少或增加子集层次。例如对于上述关键词为“搜索引擎”的多个文本,如果我们一开始就按“关键词前1词+后4词”的方式截取第一邻接词段,得到的一级子集的数量应该等于前面方式划分的各个二级子集数量之和,结果相仿,但子集层次减少了。
实际上,面对同样的大量文本,如果将关键词的邻接词段的长度定得较长,得到的子集的数目会多一些,但每个子集的文本数会较少;反过来,如果将关键词的邻接词段的长度定得较短,得到的子集的数目会少一些,但每个子集的文本数会较多。
面对上述方法的众多子集或它们的下级子集,为了方便查阅,我们可以编排一个反映所述文本的同样关键词的不同邻接词段或间接邻接词段或者包含这些词段的语句或例句或摘要实例的并列或先后关系的一级或多级的目录或树状目录或序列,其中,可以包括所述文本的一个或多个不同子集各自的所述的相同邻接词段或相同间接邻接词段或者包含该词段的语句或例句或摘要实例,或者包括这个或这些子集的下一级或下几级多个子集各自的相同的邻接词段或间接邻接词段或者包含该词段的语句或例句或摘要实例,按照并列或隶属先后关系编排或分布或存储或展示;其中所述的词段或语句或例句或摘要实例可以是跨子集并列的。
图2和图8所示目录就是这种目录的两个例子。图2反映了上述关键词为“搜索引擎”的多个文本的不同邻接词段或者这些词段的邻接词段的并列或先后关系的一级或多级的目录或树状目录。(图8所示例子将在后面说明)
图2的树状目录示例中,关键词为“搜索引擎”,用符号“K”代表,其中的第一邻接词段按“关键词前1词+后1词”的方式截取,第二邻接词段为其后面的3词词段,第三邻接词段为其后面的2实词词段。
如果我们在阅读有关文本不同邻接词段的目录时感到对理解其核心内容有困难,就会希望看到包含各个邻接词段的更多内容。因而,我们可能需要编排一个反映所述文本的同样关键词的不同邻接词段或者这些词段的邻接词段的并列或先后关系的一级或多级的目录或树状目录的派生序列,其中,原目录或树状目录中的任一邻接词段可以附加或替换为含有该邻接词段的更多内容。
例如这些内容可以是含有该邻接词段的语句或例句或摘要实例或题录或代表性文本。其中所述的语句或例句或摘要实例或代表性文本中的关键词和邻接词段可以具有有别于其他内容的字体或颜色或特点;其中所述的词段或语句或例句或摘要实例或代表性文本可以是跨子集并列的。
实际上,我们可以允许每个子集或下级子集由相应的邻接词段或者包含该词段的语句或例句或摘要实例来代表该子集,这样在有限的交互界面上,就能排列更多子集的代表性内容,形成目录或序列,查询者可以通过点击代表性内容来选择有兴趣的子集及所含文本。例如,我们点击图2所示目录中“不同K技术672”后面的“分别由雅虎公司”后面的“谷歌公司”词段,就可以得到含有“不同K技术分别由雅虎公司谷歌公司”词段的子集的所有文本目录或相关内容。如果我们点击相关序列或目录的相关内容中的邻接词段,也可以得到相同的结果。
实际上,本技术允许查询者在交互界面上对目录或序列或其他内容中的文字或图形或符号进行指示,例如点击光标,确定或展开或链接相关内容。
我们还可以使本方法更方便,例如可以安排:对于所述目录或树状目录或序列中的关键词邻接词段或间接邻接词段,如果其下一级或下几级邻接词段只有一种,该词段可以连同其下一级或下几级邻接词段在其原有位置一起分布或存储或展示。
为了方便查询,例如我们还可以安排本技术,允许在上述的文本或目录或语句或例句或摘要实例中或者在它们所包含的关键词或邻接词段或间接邻接词段附近,可以具有其相应的并列子集数目或下级子集数目或者相关词或词段所在子集的并列子集数目或所含的下级子集数目或文本数目的提示。(如图2)
本发明所述的处理方法,还可以包括:
还可以进一步利用本发明的处理方法,例如编排含有同样关键词的多个文本或文本部分内容的序列,它们含有的由多个词组成的邻接词段互不相同或基本上互不相同。可以认为,其中含有相同所述邻接词段的文本或文本部分内容只有一个或多个作为序列中的代表。
所述文本部分内容可以是指含有同样关键词的摘要或索引或题录或例句或词组等。
也可以说该代表性序列各个中文本或文本部分内容含有的多个词(2个或2个以上词)的关键词邻接词段互不相同或基本上互不相同。多个词一般可以更好地反映关键词邻近核心内容的含意。
这样,此种方法可以将动辄上百万条同关键词网上信息,浓缩成条数减少2、3个数量级的同关键词的代表性信息序列,而每条信息的核心内容(关键词附近几个邻近词构成的内容)既不重复也不遗漏。这也是精炼网页核心内容的非常有效的方法,比起已有技术只能剔除镜象网页的方法有了显著进步。
如果我们对已经得到的同样关键词的不同邻接词段的目录和所谓代表性信息序列仍然感到内容太多,我们例如还可以将所述多个文本的同样关键词的不同邻接词段进行相似比较,将相互符合一定相似要求的多个不同邻接词段划分入同一相似子集,或者将相互不符合一定相似要求的多个不同邻接词段划分入不同相似子集,或者将相互不符合一定相似要求的多个不同邻接词段,编成彼此不相似邻接词段的序列或目录,可以将同一相似子集的各元素的共同内容作为该相似子集的名称或标记,或者将其列入相似子集名称序列或目录。
所述的相似比较方式或相似要求可以有很多种,需要时可以规定:
所述的一定相似要求至少包括对不同邻接词段所含有的同样的字或词或词组或字符的数量或所占比例的要求。
举例来说,如果涉及的是长度为4个词(略去或不略去虚词)的不同邻接词段的序列或目录,可以要求不同的邻接词段之间起码有4个或3个词彼此相同(但词序不一定相同),作为相似要求。相似要求可以由系统预设,也可以由查询者选定。在该例中,这4个或3个共同出现的词可以用标点分开后作为相应相似子集的标题或一条目录内容。
图3构成了另一个相似性子集示例,是在关键词不同邻接词段(按后面3个词截取)序列的基础上,经过相似比较形成的。其关键词不同邻接词段相似要求由系统预设为“必须具有同样3个词,而彼此的前后顺序不限”。该例中各个文本的关键词为“搜索引擎”,用符号“K”代表,其中关键词不同邻接词段构成的相似子集的名称,用其共有的各个词表示,此处分别用大写字母代表。图3所示的第一个相似子集的不同邻接词段都包含了X、Y、Z这3个词。同一相似子集的邻接词段由于共有的各个词的顺序不同,可以构成不同的第一邻接词段,构成了该相似子集的下一级子集。
需要时也可以将含有某种邻接词段或间接邻接词段的子集划为该邻接词段所在的上述相似子集的下级子集,也可以将含有某种邻接词段的文本或其部分内容划入该邻接词段所在的上述相似子集。
显然,相似子集可以看作是在原来的邻接词段的目录或序列的基础上编成的,所以相似子集的数量或其目录的篇幅比原目录或原序列明显减少,查询者可以更方便地通过目录中相似子集的名称看出相关邻接词段的主要成分(几个并列的独立的词),如有兴趣,则可以打开该相似子集,得到其所属的各个下级子集的不同关键词段及相关信息。
本技术可以采用一种比较高效的方式:规定关键词的邻接词段的词数为2至10之中的一种,例如6个,这样经过处理就会得到不同的邻接词段相关的序列或目录,如果需要(例如内容过多,超过数百条)可以进一步对其进行相似比较,得到不同的相似子集的目录或序列(例如减少到几十条)。这对查询十分便利。
对于利用本方法得到的上述各种目录或序列的内容的排序,例如有时可以是随机分布的,也可以利用公知的已有排序技术,或者在需要时令其中的并列子集或者并列邻接词段或间接邻接词段或者并列文本或者并列的语句或例句或摘要实例或代表性序列信息中的某一个的具体排序位置,部分或完全取决于下列其中某一个或多个因素:
该文本或者该词段或语句或例句或摘要实例或信息所在文本的佩奇链接值的大小或点击率的高低或关键词出现率的高低,
或者该子集的下级子集数目或下属文本数目的多少或者该子集点击率的高低或者该子集的文本佩奇链接值的平均数值的大小,
或者该词段或者文本或者语句或例句或摘要实例或信息所在子集的下级子集数目或下属文本数目的多少或者所在子集点击率的高低或者所在子集的文本佩奇链接值的平均数值的大小,
或者该子集的佩奇链接值最高的文本或另外的文本实例的佩奇链接值的大小,
或者该子集的点击率最高的或关键词出现率最高的文本或另外的文本实例的点击率或关键词出现率的高低,
或者相关文本或相关子集内的相关文本在其他搜索网站或检索系统搜索结果中的排序,
或者有关文本或有关词段的出资人相关付费或竞价的高低,
或者相关的邻接词段的词字的拼写或拼音的字母顺序或笔划,
或者文本的来源网站或单位或人的评分,
或者相关文本收录的时间先后或新旧,
或者是否属于某一级的同一子集。
需要时,具体排序位置,可以通过一种目标函数值来决定,目标函数值取决于一个或多个变量,该目标函数的部分或全部变量可以分别代表上述所列其中某一个或多个因素。
例如一个目标函数值可以表示为F(x,x…x),
例如可以令F(x,x…x)=F(x)+F(x)+……+F(x);
其中,x,x,……x分别为前文发明内容部分中所提到的决定具体排序位置的某一个或多个因素(变量)或其他因素。由于已有技术中(如US6285999专利)有许多具体处理方法,此处不再详述。
需要时本发明的处理方法还可以允许在已有处理的方法或结果上,增加或减少应具备或不能具备的另外的关键词,或者增加或减少时间或地域或语种或者其他类型或范围或要求的限制,得到进一步精炼的结果或更宽泛的结果。
例如本发明允许对在宽松要求下(例如忽略邻接词段中虚词的差别)的邻接词段比较而得到的子集的内容,进行较严格要求(例如不忽略虚词的差别)的邻接词段比较,而划分下一级子集或得到更详细的邻接词段目录或相应信息;或进行反向操作。
增减一个关键词(如“中国”),或者改变时间(如一年内改为半年内或两年内)或地域(河北或保定或华北)或语种(如英语或西语)或者其他类型(如物品或玩具)或范围(如男孩或儿童或人)的限制,都可以方便地缩小和扩大搜索范围。
本发明的又一个方面是另一种包括存贮装置的计算机数据系统,所述存储装置或其中的数据部分所含有的部分或全部有关文本的关键词索引的数据结构组成至少包括:
关键词段;
一个或多个邻接词段,由相应文本内容中或文本摘要中的关键词的依次邻接的预定数目的各级邻接词段按原顺序映射组成,依次为:邻接词段1,邻接词段2,…邻接词段N;
相应文本ID段,或其相关信息的ID段,(其中ID段是指地址段);
必要时,可以包括相应文本含有的所述关键词的摘要段或标题段。
一般说来,关键词索引是为了方便搜索或检索系统进行关键词检索而建立的,同一文本为了方便多种关键词检索的需要,常常要有多个不同关键词的索引。作为本发明的例子,一个文本针对关键词“长江”的索引数据结构如下:
  关键词 邻接词段1 邻接词段2 …邻接词段N 文本地址 标题内容
  长江 流域 水力 ……效益 XSTSS96 ……
对于这样的数据结构,搜索引擎无论是搜索“长江”,还是搜索加长的搜索词“长江流域”,还是更长的“长江流域水力”都可以十分方便地访问到该索引,进而按地址找到该文本,有利于本发明的具体实现。也就是该系统可以允许该计算机数据系统依据搜索规定包含的所述关键词段和各邻接词段中的一个或多个的组合或者组合词段数目的增减,来搜索或者以变换方式搜索相应的索引或内容。
举例来说,如果索引中的每个邻接词段都是一个词的长度,确定查询的关键词和各个邻接词后,计算机很容易得到关键词段和邻接词段内容都符合查询要求的索引。
上述地址可以是数据库文本地址,或网页地址或其他地址。
所述计算机数据系统也可以是搜索引擎系统。(参见后面的实施例B)
本发明可以包括具有上述关键词索引的数据结构组成的计算机可读介质。
本发明还可以是一种包括存贮装置的计算机数据系统,可以安排所述存储装置或其中的数据部分所含有的部分或全部关键词索引或文本摘要或文本的数据以下列方式分布:
其文本摘要或文本含有同一关键词而该关键词邻接词段相同或不同的索引或文本摘要或文本的数据,位于同一关键词集的同一或不同子集的分布区域。
需要时,允许位于同一子集,而其文本摘要或文本含有同一扩展关键语句(扩展关键语句即关键词连同一级或多级邻接词段)而该语句的邻接词段相同或不同的索引数据,位于同一子集的同一或不同的低一级或多级子集分布区域。
例如,可以将具有同一种关键词的各个文本或文本部分内容(例如摘要或题录或语句或段落等)的各个索引,需要时可以包括该关键词的各种邻接词段的目录表(或子集目录表)的或多级邻接词段树状目录表(或多级子集目录表)的或相应的例句序列表或摘要实例序列表的索引,全部或部分集中分布或连续排列在与该关键词对应的集中存储区域。(例如后面的实施例A)
此处所述各索引的数据结构组成至少包括被索引的存储对象(如文本、目录表、序列表等)的地址段。
这样查询该关键词时,可以方便或连续地访问相关索引,得到索引的地址段(ID段)的地址或编号,访问或提取或展现相关目录或文本或其他内容。
类似地,也可以进一步将具有同一种关键词的各个文本或文本部分内容的各个索引,需要时可以包括各种更下一级或多级的邻接词段的目录表或树状目录表的或相应的例句序列表或摘要实例序列表的索引,分别全部或部分集中分布或连续排列在与该关键词的不同邻接词段分别对应的集中存储区域。
所述计算机数据系统可以是搜索引擎系统,这样可以更方便地查询或处理或向用户提供与查询的关键词及邻接词段有关的同一子集及低一级或多级子集的数据。
本发明可以包括关键词索引或文本摘要或文本的数据以上述方式分布计算机可读介质。
本发明方法的由计算机系统实施具体流程的可以通过图11和图7、图9、图10的几个例子(包括实施例A、B、C等)来说明。在图11的示例中,相关计算机处理设备开始工作61,接收查询者提交的关键词查询62,得到大量含有该关键词的文本,根据预设或查询者指定,确定关键词的邻接词段字词数量或范围(例如5个实词)63,对来自不同文本的该范围内的各个邻接词段进行比较分类64,并划分出其邻接词段分别相同的各个子集65。在此基础上,可以对得到的子集进行再分66,例如根据下一级的邻接词段的相同与否划分下一级子集,或者进行较严格要求的邻接词段比较,而划分下一级子集;也可以安排代表性序列或邻接词段不相同序列或编排相应目录67,(包括标注相应子集的文本数目和进行适当排序71),在界面展示70以供查询者选择操作,展开相关子集或内容或显示相关文本72。如果这些序列或目录的条目过多,还可以对这些条目的关键词查询项邻接词段进行相似比较,在其中划分相似子集68或安排不同相似内容的序列或目录69,这将更便于浏览,查询者发现有兴趣的内容时,再进行点击操作70,展开相关的子集或更详细内容72。(图7、图9、图10的例子将在后面说明)
图4所示实施例A为一个能执行本发明的计算机电子文本处理方法的计算机数据系统的例子-能提供扩展的关键语句搜索的互联网搜索引擎系统。它包括:设在带有存储器6和处理器7的服务器5上的搜索引擎8,该搜索引擎8通过互联网的通讯网络4与带有交互界面2的客户机3连接;该搜索引擎8具有数据库9、查询器11和关键词扩展部件10或模块,并且与数据采集器12与索引构造器13连接;
数据采集器12为数据库9的文本库从互联网或其他信息源搜集和增添文本,索引构造器13对文本库的文本分析得到文本索引并提供给数据库9的关键词索引库;
该索引构造器13根据对文本的分析得到的每个索引都包括关键词段、6个单邻接词段、相应文本的ID段、文本标题段、文本摘要段,这样,搜索引擎在需要时可以根据所要求的关键词段,或者和所要求的1个或多个单邻接词段找到所需的文本索引,得到该文本的标题段或文本摘要段或相应文本的ID段,需要时可以方便地链接到原文本。关键词索引库的索引根据各级邻接词段的异同,按多级子集分布,以便于检索或提取。相应的邻接词段目录、邻接词段树状目录(图8)和关键语句目录,也预先存储。
实施例A的客户机3上的客户机应用程序浏览器(微软公司的InternetExplorer)允许用户1通过通讯网络4从服务器5检索HTML文档(包括Web表单)。客户机3上的交互界面(UI)2允许用户1利用监视器、键盘或鼠标与检索到的Web表单交互,提交搜索请求,作出选择和接收搜索结果。
本发明的搜索方法的一个重要问题是邻接词段的选择方式(或关键词与邻接词段的结合方式)即关键语句的生成方式。图5所示的实施例A的示范性关键语句是在文本摘要中沿着关键词21逐个增加邻接词段(此例为单词)向后扩展的。其中,22为1级关键语句,23为2级关键语句,24为3级关键语句,25为4级关键语句。
图6所示为另一种实施例B的关键语句生成方式。其第1级邻接词段位于关键词21的前面,第2级邻接词段以及其他邻接词段位于关键词的后面。其中,22为1级关键语句,23为2级关键语句,24为3级关键语句,25为4级关键语句。此种前后兼顾生成方式似乎更适合搜索西文文件。各级关键语句的邻接词段的长度(词数)也可预先规定或由查询者在搜索时选定或默认系统的安排。
在其他极端的实施例中,也可以允许从关键词一再向前面的邻接词段扩展,形成各级关键语句。
对于允许分离的多个词的关键词搜索的扩展方式,应该择其一作为核心关键词,通过结合它的邻接词段来形成各级关键语句,这些关键语句都带有可分离的其余关键词。也可以在多个词的关键词的各个词或词段附近,依所需顺序逐次添加邻接词段,形成各级关键语句。
实施例A的系统在计算邻接词段的词数以及比较邻接词段的相同与否时,可以选择不把虚词、量词、标点、空格等计算在内,将它们归并邻接的实词内。本例对于西文可以有也有相应的具体规定。在其他实施例中,需要时甚至在计算邻接词段的词数以及比较邻接词段的相同与否时,可以选择不把形容词或副词等计算在内。
在实施例A中,由查询器11认证用户1的查询请求,并根据提出的关键词请求在所述数据库9进行查询并将查询到的相关数据结果列表,以备提供给交互界面;关键词扩展部件10作为查询器11的补充,需要时将暂存或处理该关键词相应的各级关键语句、相应的例句、邻接词段树状结构目录(参见图8)等,以满足而后搜索或显示的需要;如果这些内容在数据库9或关键词扩展部件10中尚未安排,关键词扩展部件10将在查询器11的关键词查询数据基础上将其建立。
实际上,达到上述目的十分容易,可以利用各种方法。例如,无论事后还是事前,对于一个可能的关键词或实际提出的关键词,无论是实施例A的关键词扩展部件10还是计算机或其他搜索系统,都可以从含有该关键词的索引或文件序列任找一条(例如第一条)索引或文件查看关键词及邻接的词或词组即邻接词段(按照预定的长度),将它们作为第一条关键语句存储;再找第二条索引或文件查看其关键词邻接的词或词组是否与第一条的相同?如果不同,则依次存储,相同则舍弃;再查看第三条索引或文件并与前两条比较……依此类推,将得到一组彼此各不相同的关键语句;在上述比较过程中,如果顺便将包含同样关键语句的索引或文件分别排列成组,则各个子集已经形成,否则,以各关键语句为标准由查询器11分别检索所述索引或文件序列,即可得到相应各个子集。如果在每一个索引或文件子集的序列里,比照上述方法搜索各种第2级邻接词段,将得到各种第2级关键语句和相应的低一级子集……并依此类推。如果在得到的每一个子集里各选一条(例如第一条)或几条索引或摘要作为例句,则得到所需的目录和例句序列,进而完成编组操作。
这直接表明,本方法无论事后还是事前,无论根据的是可能的关键词或实际提出的关键词,都同样可以对相关文本进行处理,以方便查询。
这实际上就是通过对原有关键词邻接词段的扩大以及对扩大部分相同与否的比较,将原来的同一邻接词段子集进一步细分为若干下一级子集。
对于目录和例句序列的排列顺序,例如可以依据一个目标函数值的大小安排。该目标函数值为相应条目的相应子集之中目标函数最大的文本之值,等于该文本的佩奇链接值与近期点击率之和。所述例句可以由相应子集目标函数值最大的文本中所摘引。
在其他实施例里,目录或例句或题录或摘要等信息的序列的排序,可以根据一个目标函数值F(x,x…x)的大小来决定。
对于附加广告内容的文本,目标函数值可以等于相应出价。
由于已有技术中有许多关于文本排序的具体处理方法,此处不再详述。
实施例A的关键词索引可以采用按各个子集分布的体系,并不比现有的其他关键词索引库占用更大的存贮空间,这是其突出优点之一。
在另一个实施例B里,其关键词索引库没有采用子集分布,由于其索引数据结构包含着关键词项和几个邻接词段项,其查询器11根据关键词段和一个或多个邻接词段组合的关键语句,可以分别直接将应该属于相应子集的索引搜索并展示出来。在实施例B中,只需要安排邻接词段或关键语句的树状目录,甚至可以不改变原有的传统关键词索引数据库。
当然,也可以更一般地得到已有子集的下级子集:
需要时可以利用类似图8所示的邻接词段树状目录来反映关键词不同级别邻接词段之间先后关系,并展示在画面上将有利于用户了解各子集或各级子集的总体状态,以采取更好的搜索策略。此图略去了各个子集相应的文本数目标示。其中关键词为“布林”,邻接词段1、邻接词段2、邻接词段3、邻接词段4都由单个实词构成,它们也分别代表了各级子集分别含有的共同邻接词段。
实施例A可以执行选定操作,即允许所述系统根据查询者在交互界面的页面的文本或摘要上或目录上或者选择栏的光标指示,确定相应的关键语句,并且对该关键语句对应的扩展的关键语句或或扩展的邻接词段或索引或文本摘要进行编组操作,或者进行相应索引或文本摘要或文本的排序展示,或者进行移除操作,将所述页面或其他多个页面含有该关键语句的条目或索引或文本摘要或文本剔除或移动位置。
图10所示为本发明的一个实施例的搜索过程中一次光标点击及生成显示结果(即进行编组的选定操作)的局部屏幕画面示意图。
其中搜索框51供输入关键词(此例中为“布林”),52为点击操作的两种选项:‘点击展开’或‘点击剔除’,此例中选择了‘点击展开’。此处供点击的对象是画面上摘要栏53展示的摘要55。查询者阅读时对“布林线指标”的相关内容感兴趣,将光标54对准“标”字点击,这样,从“布林”到“标”之间的“布林线指标”就作为新的关键语句,并按编组操作,列出几种进一步扩展的邻接词段或各自的例句56。
实施例A的搜索方法还包括忽视操作,即可以把查询者浏览包含原关键语句的索引或文本摘要或文本序列时在交互界面2的页面上的操作(如换页)或者在页面上相应条目、内容上所作的“关注点击”或“忽视点击”的数据加以记录或分析,对在一定阅读时间或空间内一直被忽视的或未被关注的关键语句及其在后面的相关索引和摘要进行移除操作。
在实施例A的系统里,当用户1通过交互界面2提出关键词要求后,查询器11能够根据要求在所述数据库进行查询并将查询到的相关数据结果列表提供给交互界面2;如果用户1希望扩展关键词,关键词扩展部件10将生成相应关键语句,并提取或由查询器11搜索提供所需数据。
该搜索引擎8(包括查询器11和关键词扩展部件10)的工作流程可以通过图9来说明:
该系统按照模块41开始工作,查询有无关键词搜索要求(42),无则返回(48);有则按照模块43查询有无关键词扩展操作要求?若无,则执行44提供普通的搜索结果序列展示,如有,则执行45通过交互界面2的屏幕上的提示框来查询用户1的需求;然后进行相应的操作,按照模块46提供相应的信息,继续查询用户1的选择和需求……几次重复后按照模块47提供相应搜索信息,按照用户1的意愿执行模块48返回或者49结束。
与搜索引擎8相对应的用户1在交互界面的操作流程可以通过图7来表示:
在打开交互界面2开始工作(31)后,选定关键词(32),可以进行常规浏览(34),也可以选择扩展搜索(33);如选择(33),即利用扩展关键语句搜索技术,则需要通过光标点击选择适当的操作方式:例如选取关键词第一邻接词段的长度(所包含的词的数量)。其长度短,相应的关键语句的种类(子集数)较少,但每个子集的内容庞杂;其长度长,相应的关键语句的种类(子集数)较多,而每个子集的核心内容则比较单一或集中。
显然,当我们选择的关键语句的长度达到5到6个词时,得到的如前所述的单一性索引或摘要编组序列,将是一个核心内容基本不重复也无多少遗漏的
“精炼序列”,文件总量却可能减少几个数量级。
在选择较长的关键语句时,第一级所述单一性索引的条数会比较多。本系统允许利用点击操作改而适当减少关键语句的邻接词或邻接词段的数量,可以大大减少第一级或该级单一性索引或关键语句或摘要或例句的条数。
如果放弃对关键词第一邻接词段长度的选取以及其他类型的选项,系统将自动按照原定的例如以每级邻接词段为单词或双词长度进行成组操作,并将结果呈现(35)。此时用户1可以选择37在结果中直接打开链接文本,也可以按照36在呈现于画面的结果中选定适当的扩展关键语句(可参看图10),并得到模块38所展示的进一步搜索结果(下一级子集目录等内容)。
至此,用户1仍然可以选择40直接打开链接文本,也可以选择39继续选定某个扩展的关键语句……依此类推,直至返回(301)。
这种逐级扩展关键语句即逐级缩小搜索范围的方式,将迅速有效锁定搜索目标。
在实施例A中,当然在本发明的方法的其他实施例中,都可以记录或累计.某个或某些或所有查询者在某个时间段内对各种关键词的包含各种邻接词段的各种关键语句的相关内容的点击次数,或在需要时设置相应的统计模块。
在实施例C中,上述的关键语句搜索技术将与现有的关键词搜索技术相结合,在其子集内部的索引排序时,或者在编组操作选择各条例句时,注意尊重或维持相关文件在已有技术的搜索系统的搜索结果中的排序或位置。换句话说,本发明的技术包括在上述基本方法和基本结构基础上对已有技术搜索排序原理或方法的运用。实施例B与实施例C在所指明之处以外的方面,与实施例A基本相同。
以上实施例给出的技术特征都是提示性的,一个实施例的各种技术特征是可以独立使用的,不允许用来限制本发明包括的范围。

Claims (23)

1.一种计算机执行的对多个含有同样关键词的电子文本进行处理的方法,包括:
获得多个含有同样关键词的电子文本;
规定邻接词段所含字词数量或邻接词段截取方式;
根据部分或全部文本中的每个文本内容中所述关键词的邻接词段与其他文本相同还是不同,将该文本与其他文本划分入同一或不同子集或类别或者进行相应的相同或不同处理;
所述的相应的相同或不同处理可以包括:相应文本具有相同或不同的分布位置或存储方式,或者得到相同或不同的子集标记,或者使得其索引具有相同或不同的标记或索引项,或者具有相同或不同的编排方式,或者在交互界面具有相同或不同的显示方式或位置,或者允许至少部分子集各有一个或多个邻接词段或文本进行跨子集组合或排序或在交互界面展示;
所述的文本可以是电子文件或网页或者它们的摘要或索引或题录或题目。
2.按照权利要求1所述的处理方法,其中包括:对于属于某个或某些同一第一级子集或较高的子集或其内容含有同样关键词及邻接词段的不同文本,根据其含有的所述同样关键词及邻接词段的其他邻接词段的相同还是不同,将部分或全部所述文本划分入上述子集同一或不同的下一级或多级子集或者进行相应的相同或不同处理;
所述处理方法允许依次的邻接词段的合并或分开,以减少或增加子集层次。
3.按照权利要求1所述的处理方法,包括:
编排一个反映所述文本的同样关键词的不同邻接词段或间接邻接词段或者包含这些词段的语句或例句或摘要实例的并列或先后关系的一级或多级的目录或树状目录或序列,其中,可以包括所述文本的一个或多个不同子集各自的所述的相同邻接词段或相同间接邻接词段或者包含该词段的语句或例句或摘要实例,或者包括这个或这些子集的下一级或下几级多个子集各自的相同的邻接词段或间接邻接词段或者包含该词段的语句或例句或摘要实例,按照并列或隶属先后关系编排或分布或存储或展示;其中所述的词段或语句或例句或摘要实例可以是跨子集并列的。
4.按照权利要求1或2或3所述的处理方法,包括:
在上述的文本或目录或语句或例句或摘要实例中或者在它们所包含的关键词或邻接词段或间接邻接词段附近,可以具有其相应的并列子集数目或下级子集数目或者相关词或词段所在子集的并列子集数目或所含的下级子集数目或文本数目的提示。
5.按照权利要求1所述的处理方法,包括:
编排含有同样关键词的多个文本或文本部分内容的序列,它们含有的由多个词组成的邻接词段互不相同,或基本上互不相同。
6.按照权利要求1或3或5所述的处理方法,包括:
将所述文本的同样关键词的不同邻接词段进行相似比较,将相互符合一定相似要求的多个不同邻接词段划分入同一相似子集,或者将相互不符合一定相似要求的多个不同邻接词段划分入不同相似子集,或者将相互不符合一定相似要求的多个不同邻接词段编成彼此不相似邻接词段的序列或目录,可以将同一相似子集的各元素的共同的内容作为该相似子集的名称或标记,或者将其列入相似子集名称序列或目录;
所述的一定相似要求至少包括对不同邻接词段所含有的同样的字或词或词组或字符的数量或所占比例的要求。
7.按照权利要求1所述的处理方法,包括:
在所述的处理方法或者目录中,并列子集或者并列邻接词段或间接邻接词段或者并列文本或者并列的语句或例句或摘要实例或代表性序列信息中的某一个的具体排序位置,部分或完全取决于下列其中某一个或多个因素:
该文本或者该词段或语句或例句或摘要实例或信息所在文本的佩奇链接值的大小或点击率的高低或关键词出现率的高低,
或者该子集的下级子集数目或下属文本数目的多少或者该子集点击率的高低或者该子集的文本佩奇链接值的平均数值的大小,
或者该词段或者文本或者语句或例句或摘要实例所在子集的下级子集数目或下属文本数目的多少或者所在子集点击率的高低或者所在子集的文本佩奇链接值的平均数值的大小,
或者该子集的佩奇链接值最高的文本或另外的文本实例的佩奇链接值的大小,
或者该子集的点击率最高的或关键词出现率最高的文本或另外的文本实例的点击率或关键词出现率的高低,
或者相关文本或相关子集内的相关文本在其他搜索网站或检索系统搜索结果中的排序,
或者有关文本或有关词段的出资人相关付费或竞价的高低,
或者相关的邻接词段的词字的拼写或拼音的字母顺序或笔划,
或者文本的来源网站或单位或人的评分,
或者相关文本收录的时间先后或新旧,
或者是否属于某一级的同一子集,
或者可以通过一种目标函数值来决定,目标函数值取决于一个或多个变量,该目标函数的变量部分或全部分别代表上述所列其中某一个或多个因素。
8.按照权利要求1所述的处理方法,其中包括:
允许在已有处理的方法或结果上,增加或减少应具备或不能具备的另外的关键词,或者增加或减少时间或地域或语种或者其他类型或范围或要求的限制,得到进一步精炼的结果或更宽泛的结果。
9.一种包括存贮装置的计算机数据系统,其特征在于,所述存储装置或其中的数据部分所含有的部分或全部的关键词索引的数据结构组成至少包括:
关键词段;
一个或多个邻接词段,由相应文本内容中或文本摘要中的关键词的依次邻接的预定数目的各级邻接词段按原顺序映射组成,依次为:邻接词段1,邻接词段2,…邻接词段N;
相应文本ID段,或其相关信息的ID段;
必要时,可以包括相应文本的含有所述关键词的摘要段或标题段。
10.一种包括存贮装置的计算机数据系统,其特征在于,所述存储装置或其中的数据部分所含有的部分或全部关键词索引或文本摘要或文本的数据以下列方式分布:
其文本摘要或文本含有同一关键词而该关键词邻接词段相同或不同的索引或文本摘要或文本的数据,位于同一关键词集的同一或不同子集的分布区域。
需要时,允许位于同一子集,而其文本摘要或文本含有同一扩展关键语句而该语句的邻接词段相同或不同的索引数据,位于同一子集的同一或不同的低一级或多级子集分布区域。
11.一种搜索引擎提供查询者所期望结果的搜索方法,该搜索引擎系统响应查询者经由交互界面提出的关键词查询要求,从该系统相关的信息源或数据库搜索并提供符合上述关键词要求的文本或文本摘要或索引或其相关信息;本搜索方法的特点在于,该方法包括:
该系统经由交互界面接收查询者的关键词查询要求;
确认后,根据该关键词要求查询包含关键词索引的数据库;
将在含有上述关键词的文本内容中或文本摘要中出现的上述关键词连同其邻接词段,作为关键语句;
所述邻接词段所包含的字词或字符的数量或该邻接词段的截止方式,是由上述系统预定的或者查询者同意或默认的或选定的,也可以根据邻接词段的端部或端部附近的符号或字或词或其字体或颜色或空格来确定,或者由查询者在交互界面呈现的选择栏里或包含某具体索引的文本摘要或文本或相关内容的页面上的进行的光标指示的位置和方式来确定;
根据上述的邻接词段或关键语句归纳整理出各不相同的邻接词段或者各不相同的关键语句;
根据得到的关键语句生成搜索结果,即:将含有所述的相同或不同关键语句的不同索引或文本摘要或文本或题录进行检索或处理或编排或整理,以供查询者经由交互界面选用。
12.按照权利要求11所述的搜索方法,该方法所述操作可以由该系统预先或在查询时进行。
13.按照权利要求11所述的搜索方法,该方法还包括:
将在含有上述关键语句的文本内容中或文本摘要中出现的上述关键语句连同其邻接词段,或者将原关键语句连同其邻接词段,作为扩展的关键语句;
所述邻接词段所包含的字词或字符的数量或该邻接词段的截止方式或具体内容,是由上述系统预定的或者查询者同意或默认的或选定的;
根据上述的邻接词段或关键语句归纳整理出各不相同的邻接词段或者各不相同的扩展的关键语句;
根据得到的扩展的关键语句生成搜索结果,即:并将含有所述的相同或不同的扩展的关键语句的不同索引或文本摘要或文本或题录进行检索或处理或编排或整理或分别存储,以供查询者经由交互界面选用。
需要时,以上操作可以由该系统预先或在查询时进行。
14.按照权利要求11所述的搜索方法,其中包括编组操作:
即允许将含有同样关键词的各种不同的关键语句或邻接词段或索引或文本摘要或文本,或者将含有同样原关键语句的各种不同的扩展的关键语句或邻接词段或索引或文本摘要或文本,各自编组以目录或序列形式排列或显示,其中对每一种邻接词段所在的关键语句或索引或文本摘要或文本仅收进各一个或多个。
15.按照权利要求11所述的搜索方法,其中包括:
令所述部分或全部关键词索引或文本摘要或文本的数据,根据其含有的关键词或关键语句或者扩展关键语句的不同或相同,分布于不同或相同的子集区域或者不同或相同的更低级的子集区域存储;
以便在关键词查询时,直接提取或提供相应的关键语句或关键词索引或文本摘要或文本的数据。
16.按照权利要求11所述的搜索方法,其中包括:
对所述数据库内的文本或摘要或搜索引擎附带的数据采集服务器从互联网或其他信息源得到的文本进行分析,产生所述文本相应的至少包含关键词段和邻接词段和文本ID段或相关内容的ID段的索引,必要时包括文本摘要或标题,并存储;
搜索时,根据其所包含的关键词段和邻接词段在存储中检索和提供相应的索引或摘要或文本。
17.按照权利要求11所述的搜索方法,其中包括:
编排一个反映具有同一关键词的文本或文本摘要中的该关键词不同级别邻接词段之间先后或并列关系的树状目录,或者一个反映该关键词不同级别扩展的关键语句之间先后或并列关系的树状目录;以供查询时使用。
18.按照权利要求11或12或13所述的搜索方法,其中包括选定操作:
即允许所述系统根据查询者在交互界面的页面的上述文本或文本摘要上或关键语句或邻接词段目录上或者在选择栏或框中的光标指示,确定相应的关键语句,并且对该关键语句对应的各种不同的扩展的关键语句或扩展的邻接词段或索引或文本摘要或文本进行编组操作或目录展示,或者进行相应索引或文本摘要或文本的排序展示,或者根据确定的相应的关键语句进行移除操作,将所述页面或其他多个页面含有该关键语句的条目或索引或文本摘要或文本剔除或移动位置。
19.按照权利要求11所述的搜索方法,其中包括忽视操作:
即根据查询者浏览包含原关键词的或者包含原关键语句的索引或文本摘要或题录或文本序列时在交互界面上对页面或在页面上的操作,判断查询者浏览该索引或文本序列的即时位置;如果可以确定,排列在该位置前面一定范围里包含某种关键语句的索引或文本摘要或文本或该关键语句本身一直或连续一定次数未被打开或链接,也未被以其他方式点击或关注或提示保留,则根据该关键语句进行移除操作,将所述页面或其他多个页面含有该关键语句的条目或索引或文本摘要或文本剔除或移动位置。
20.一种响应查询者经由交互界面提出的要求,提供所期望搜索结果的搜索引擎系统,包括:
服务器,该服务器经由通讯网络或线路与所述交互界面所在的客户机耦合;
位于服务器的搜索引擎,所述搜索引擎包括:包括关键词索引在内的数据库,以及查询器,该查询器能够根据查询者提出的关键词要求在所述数据库进行查询并将查询到的相关数据结果列表提供给交互界面;
其特点在于:
所述数据库还包括包含关键词的文本摘要或文本,该文本摘要可以包含在所述关键词索引内;
所述查询器或搜索引擎包括关键词扩展部件,该部件可以对查询的关键词进行扩展操作:将在含有上述关键词的文本内容中或文本摘要中出现的上述关键词连同其邻接词段,作为各个不同的扩展关键语句,并将其列表或将上述关键词的不同邻接词段列表以供查询者经由交互界面选用,或者将含有相同或不同的所述扩展关键语句的不同索引或文本摘要或文本进行检索或处理或编排或整理,以供查询者经由交互界面选用;
所述关键词扩展部件同样可以对关键语句进行一次或多次扩展操作;
或者进行相应的查询或处理。
21.按照权利要求20所述的搜索引擎系统,其中:
包括一个反映具有同一关键词的文本或文本摘要或题录中的该关键词不同级别邻接词段之间先后关系的邻接词段树状目录,或者包括一个反映该关键词不同级别扩展的关键语句之间先后关系的树状目录;
或者包括具有反映具有同一关键词的文本或文本摘要或题录中的该关键词不同级别邻接词段之间先后关系的邻接词段树状目录,或者反映该关键词不同级别扩展的关键语句之间先后关系的树状目录的计算机可读介质。
22.按照权利要求19所述的搜索引擎系统,其中:
所述的搜索引擎系统,还可以包括一种用户图形交互界面,允许查询者添加附加查询信息,其界面可以包含一种对话框或选择框,以接收查询者对操作方式或模式等方面的选择;其界面或者可以包含可以点击的关键语句或邻接词段或语句或段落或操作命令或选择的文字或符号或图形,允许查询者添加附加查询信息。
23.一种包含查询器的计算机系统,可以在无论事后还是事前,从含有任一实际提出的或可能的关键词的索引或文件序列中得到彼此各不相同关键语句,将包含同样关键语句的索引或文件分别排列成组,或者得到所需的目录和例句序列。
CNB200710164298XA 2007-02-15 2007-10-24 电子文本处理与检索的便捷方法和系统 Expired - Fee Related CN100501745C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200710164298XA CN100501745C (zh) 2007-02-15 2007-10-24 电子文本处理与检索的便捷方法和系统

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN200710079309 2007-02-15
CN200710079309.4 2007-02-15
CN200710087104.0 2007-03-21
CN200710147578.X 2007-08-28
CNB200710164298XA CN100501745C (zh) 2007-02-15 2007-10-24 电子文本处理与检索的便捷方法和系统

Publications (2)

Publication Number Publication Date
CN101201841A true CN101201841A (zh) 2008-06-18
CN100501745C CN100501745C (zh) 2009-06-17

Family

ID=39517010

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200710164298XA Expired - Fee Related CN100501745C (zh) 2007-02-15 2007-10-24 电子文本处理与检索的便捷方法和系统

Country Status (1)

Country Link
CN (1) CN100501745C (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012088706A1 (zh) * 2010-12-31 2012-07-05 Xiao Yan 一种检索的方法和系统
CN102819601A (zh) * 2012-08-15 2012-12-12 中国联合网络通信集团有限公司 信息检索方法和信息检索设备
CN103136274A (zh) * 2011-12-02 2013-06-05 北大方正集团有限公司 用于内容资源数据库的日期检索方法和装置
CN103185596A (zh) * 2011-12-30 2013-07-03 上海博泰悦臻电子设备制造有限公司 兴趣点搜索方法、兴趣点搜索装置
CN103620539A (zh) * 2011-06-28 2014-03-05 微软公司 对话线程的概述
CN104050158A (zh) * 2014-06-27 2014-09-17 吴涛军 一种保持语义完整性的引文自动提取方法和装置
CN104216934A (zh) * 2013-09-29 2014-12-17 北大方正集团有限公司 一种知识抽取方法及系统
CN107168991A (zh) * 2017-03-28 2017-09-15 北京三快在线科技有限公司 一种搜索结果展示方法和装置
CN107544962A (zh) * 2017-09-07 2018-01-05 电子科技大学 基于相似文本反馈的社交媒体文本查询扩展方法
CN108027823A (zh) * 2015-07-13 2018-05-11 帝人株式会社 信息处理装置、信息处理方法以及计算机程序
CN108268438A (zh) * 2016-12-30 2018-07-10 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN109145016A (zh) * 2018-09-10 2019-01-04 合肥科讯金服科技有限公司 一种金融用互联网大数据检索系统
CN111444413A (zh) * 2020-04-08 2020-07-24 作业不凡(北京)教育科技有限公司 一种数据查询方法、装置和计算设备
CN114817520A (zh) * 2021-01-19 2022-07-29 华为技术有限公司 搜索结果的摘要确定方法、装置及电子设备

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9870392B2 (en) 2010-12-31 2018-01-16 Yan Xiao Retrieval method and system
WO2012088706A1 (zh) * 2010-12-31 2012-07-05 Xiao Yan 一种检索的方法和系统
CN103620539B (zh) * 2011-06-28 2017-04-12 微软技术许可有限责任公司 对话线程的概述
CN103620539A (zh) * 2011-06-28 2014-03-05 微软公司 对话线程的概述
CN103136274A (zh) * 2011-12-02 2013-06-05 北大方正集团有限公司 用于内容资源数据库的日期检索方法和装置
CN103185596A (zh) * 2011-12-30 2013-07-03 上海博泰悦臻电子设备制造有限公司 兴趣点搜索方法、兴趣点搜索装置
CN102819601A (zh) * 2012-08-15 2012-12-12 中国联合网络通信集团有限公司 信息检索方法和信息检索设备
CN102819601B (zh) * 2012-08-15 2015-07-01 中国联合网络通信集团有限公司 信息检索方法和信息检索设备
CN104216934A (zh) * 2013-09-29 2014-12-17 北大方正集团有限公司 一种知识抽取方法及系统
CN104216934B (zh) * 2013-09-29 2018-02-13 北大方正集团有限公司 一种知识抽取方法及系统
CN104050158B (zh) * 2014-06-27 2017-05-17 吴涛军 一种保持语义完整性的引文自动提取方法和装置
CN104050158A (zh) * 2014-06-27 2014-09-17 吴涛军 一种保持语义完整性的引文自动提取方法和装置
CN108027823B (zh) * 2015-07-13 2022-07-12 帝人株式会社 信息处理装置、信息处理方法以及计算机可读取的存储介质
CN108027823A (zh) * 2015-07-13 2018-05-11 帝人株式会社 信息处理装置、信息处理方法以及计算机程序
CN108268438A (zh) * 2016-12-30 2018-07-10 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN108268438B (zh) * 2016-12-30 2021-10-22 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN107168991B (zh) * 2017-03-28 2020-12-04 北京三快在线科技有限公司 一种搜索结果展示方法和装置
CN107168991A (zh) * 2017-03-28 2017-09-15 北京三快在线科技有限公司 一种搜索结果展示方法和装置
CN107544962A (zh) * 2017-09-07 2018-01-05 电子科技大学 基于相似文本反馈的社交媒体文本查询扩展方法
CN109145016A (zh) * 2018-09-10 2019-01-04 合肥科讯金服科技有限公司 一种金融用互联网大数据检索系统
CN111444413A (zh) * 2020-04-08 2020-07-24 作业不凡(北京)教育科技有限公司 一种数据查询方法、装置和计算设备
CN114817520A (zh) * 2021-01-19 2022-07-29 华为技术有限公司 搜索结果的摘要确定方法、装置及电子设备

Also Published As

Publication number Publication date
CN100501745C (zh) 2009-06-17

Similar Documents

Publication Publication Date Title
CN100501745C (zh) 电子文本处理与检索的便捷方法和系统
US9323827B2 (en) Identifying key terms related to similar passages
US8122032B2 (en) Identifying and linking similar passages in a digital text corpus
US8751484B2 (en) Systems and methods of identifying chunks within multiple documents
US7937395B2 (en) Systems and methods of displaying and re-using document chunks in a document development application
US7933896B2 (en) Systems and methods of searching a document for relevant chunks in response to a search request
US8001140B2 (en) Systems and methods of refining a search query based on user-specified search keywords
US20180004850A1 (en) Method for inputting and processing feature word of file content
US8924374B2 (en) Systems and methods of semantically annotating documents of different structures
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
US8352485B2 (en) Systems and methods of displaying document chunks in response to a search request
CN101246484A (zh) 一种便于查询的电子文本的相似性处理方法和系统
US8359533B2 (en) Systems and methods of performing a text replacement within multiple documents
CN101063975A (zh) 电子文本处理与检索的方法和系统
CN101501630A (zh) 基于相关性对搜索结果列表中的电子文件进行排名和排序的方法
US9129036B2 (en) Systems and methods of identifying chunks within inter-related documents
US20090119283A1 (en) System and Method of Improving and Enhancing Electronic File Searching
US8126880B2 (en) Systems and methods of adaptively screening matching chunks within documents
CN102831131A (zh) 构建标注网页语料库的方法及装置
US8924421B2 (en) Systems and methods of refining chunks identified within multiple documents
WO2008098467A1 (fr) Procédé et système pratiques de traitement et d'extraction de texte électrique
AU2009217352B2 (en) Systems and methods of identifying chunks within multiple documents
CN101692245A (zh) 一种检索系统输入附加搜索要求的便捷处理方法
US8001162B2 (en) Systems and methods of pipelining multiple document node streams through a query processor
Rajput et al. Information extraction from unstructured and ungrammatical data sources for semantic annotation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090617

Termination date: 20131024