CN102521267B - 站内信息搜索方法和搜索系统 - Google Patents

站内信息搜索方法和搜索系统 Download PDF

Info

Publication number
CN102521267B
CN102521267B CN201110372458.6A CN201110372458A CN102521267B CN 102521267 B CN102521267 B CN 102521267B CN 201110372458 A CN201110372458 A CN 201110372458A CN 102521267 B CN102521267 B CN 102521267B
Authority
CN
China
Prior art keywords
keyword
matched
information data
ziwen
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110372458.6A
Other languages
English (en)
Other versions
CN102521267A (zh
Inventor
沈文策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Financial Technology Co., Ltd.
Original Assignee
沈文策
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 沈文策 filed Critical 沈文策
Priority to CN201110372458.6A priority Critical patent/CN102521267B/zh
Publication of CN102521267A publication Critical patent/CN102521267A/zh
Application granted granted Critical
Publication of CN102521267B publication Critical patent/CN102521267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息技术领域,具体为一种站内信息搜索方法和搜索系统。所述搜索方法包括:提取站内不同板块中一个以上的信息数据;对所述一个以上的信息数据整合为相同的XML数据格式输出;对整合后的所述一个以上的信息数据进行处理形成索引库;确定待搜索文本;对所述待搜索文本进行处理形成结构化数据;根据所述结构化数据在所述索引库中进行搜索;展示搜索结果。本发明能够加快站内信息搜索的速度。

Description

站内信息搜索方法和搜索系统
技术领域
本发明涉及信息技术领域,具体为一种站内信息搜索方法和搜索系统。
背景技术
目前,网络进入了千家万户,人们越来越喜欢在网上进行各种活动,网站也针对人们不同的需要开设了不同的版块,比如:新闻、体育、教育、出国、社区等等,人们在一家网站既可以得到多个版块的信息内容而且可以在多个版块进行互动性交流,而且,人们为了查找一些内容,越来越多的用到站内搜索,目前,站内搜索的局限性很大,由于版块众多,信息繁杂,站内搜索速度很慢,基本无法满足人们快节奏生活下的快节奏站内搜索的需要。
发明内容
本发明提供了一种站内信息搜索方法和搜索系统,能够加快站内信息搜索的速度。
本发明提供了一种站内信息搜索方法,包括:
提取站内不同板块中一个以上的信息数据;
对所述一个以上的信息数据整合为相同的XML数据格式输出;
对整合后的所述一个以上的信息数据进行处理形成索引库;
确定待搜索文本;
对所述待搜索文本进行处理形成结构化数据;
根据所述结构化数据在所述索引库中进行搜索;
展示搜索结果。
所述对整合后的所述一个以上的信息数据进行处理形成索引库优选为包括:
对所述一个以上的信息数据进行信息数据编号;
提取每一个所述信息数据中包含的一个以上的关键词;
对所述一个以上的关键词进行关键词编号;
记录每一个关键词在包含所述关键词的所述信息数据中的关键词位置;
记录每一个关键词在包含所述关键词的所述信息数据中出现的关键词次数;
根据所述信息数据编号、关键词编号、关键词位置、关键词次数之间的对应关系建立包含所述对应关系的所述索引库。
所述对所述待搜索文本进行处理形成结构化数据优选为包括:
A.载入与所述待搜索文本相匹配的词典;
B.按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的一个待匹配子文本;
C.按随机或设定的方式将所述待匹配子文本与所述词典进行匹配;
D.当匹配成功时,记录所述待匹配子文本中匹配成功的待匹配关键词,并且判断所述待匹配文本是否存在未被抽取的文字;
当判断结果为存在时,再按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的下一个待匹配子文本,返回C步骤;
当判断结果为不存在时,进行F步骤;
E.当匹配失败时,从所述待匹配子文本的任一端删减一个以上的文字,形成新的所述待匹配子文本,所述待匹配子文本进一步包括删减文字后的文本,返回C步骤;
F.将所有所述待匹配关键词构成所述结构化数据。
所述对整合后的所述一个以上的信息数据进行处理形成索引库优选为进一步包括:提取每一个所述信息数据中包含的一个以上的关键词;将所述关键词汇总成关键词词典;则,所述待搜索文本相匹配的词典优选为所述关键词词典或外部引入的词典。
所述将所有所述待匹配关键词构成所述结构化数据优选为包括:
统计所有所述待匹配关键词的数量;
统计所有重复的待匹配关键词及每一个重复的所述待匹配关键词的数量;
剔除所有重复的待匹配关键词;
将剔除重复的所述待匹配关键词后的其他所述待匹配关键词构成所述结构化数据。
所述根据所述结构化数据在所述索引库中进行搜索优选为包括:
将所述结构化数据中每一个待匹配关键词与所述索引库中的关键词进行匹配,并根据匹配结果确定搜索结果。
所述将所述结构化数据中每一个待匹配关键词与所述索引库中的关键词进行匹配优选为包括:
a.以随机或设定顺序选取一个所述待匹配关键词,将选定的所述待匹配关键词与所述索引库中的关键词进行匹配,并标定该选取的所述待匹配关键词为已选取;
b.当匹配成功时,记录包含所述关键词的所述信息数据,并将关键词匹配次数加1,将每一条包含所述关键词的所述信息数据的匹配次数加1,设定匹配次数的初始值为0;
c.当匹配失败时,判断所述待匹配关键词中是否还有未标定为已选取的待匹配关键词,如果判断结果为有,则返回a步骤,如果判断结果为没有,则匹配结束;
则,
所述根据匹配结果确定搜索结果优选为包括:
按照信息数据的匹配次数由大到小的顺序,选取设定数目的所述信息数据作为搜索结果。
本发明还提供了一种站内信息搜索系统,包括:
信息数据提取模块,用于提取站内不同板块中一个以上的信息数据;
格式输出模块,用于对所述一个以上的信息数据整合为相同的XML数据格式输出;
索引库形成模块,用于整合后的所述一个以上的信息数据进行处理形成索引库;
待搜索文本确定模块,用于确定待搜索文本;
结构化数据形成模块,用于对所述待搜索文本进行处理形成结构化数据;
搜索模块,用于根据所述结构化数据在所述索引库中进行搜索;
搜索结果展示模块,用于展示搜索结果。
所述索引库形成模块优选为包括:
信息数据编号子模块,优选为用于对所述一个以上的信息数据进行信息数据编号;
提取关键词子模块,优选为用于提取每一个所述信息数据中包含的一个以上的关键词;
关键词编号子模块,优选为用于对所述一个以上的关键词进行关键词编号;
关键词位置子模块,优选为用于记录每一个关键词在包含所述关键词的所述信息数据中的关键词位置;
关键词次数子模块,优选为用于记录每一个关键词在包含所述关键词的所述信息数据中出现的关键词次数;
对应关系子模块,优选为用于根据所述信息数据编号、关键词编号、关键词位置、关键词次数之间的对应关系建立包含所述对应关系的所述索引库。
所述结构化数据形成模块优选为包括:词典载入子模块、待匹配子文本抽取子模块、匹配子模块、匹配成功子模块、匹配失败子模块、结构化数据构建子模块
所述词典载入子模块,优选为用于载入与所述待搜索文本相匹配的词典;
所述待匹配子文本抽取子模块,优选为用于按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的一个待匹配子文本;
所述匹配子模块,优选为用于按随机或设定的方式将所述待匹配子文本与所述词典进行匹配;
所述匹配成功子模块,优选为用于当匹配成功时,记录所述待匹配子文本中匹配成功的待匹配关键词,并且判断所述待匹配文本是否存在未被抽取的文字;当判断结果为存在时,再按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的下一个待匹配子文本,并将抽取的所述下一个待匹配子文本发送到所述匹配子模块;当判断结果为不存在时,将匹配成功的所有所述待匹配关键词发送给结构化数据构建子模块;
所述匹配失败子模块,优选为用于当匹配失败时,从所述待匹配子文本的任一端删减一个以上的文字,形成新的所述待匹配子文本,所述待匹配子文本进一步包括删减文字后的文本,并将删减过文字的待匹配子文本发送给所述匹配子模块;
所述结构化数据构建子模块,优选为用于将所有所述待匹配关键词构成所述结构化数据。
通过本发明提供的一种站内信息搜索方法和搜索系统,能够达到如下效果:
1.加快站内信息搜索的速度。本发明对不同板块的信息整合为相同的XML数据格式输出,方便索引库的建立,由于格式统一,提高了索引库建立的速度,而且索引库的格式也相对统一,在进行搜索时,提高了搜索速度,和降低了确定搜索结果的用时,同时,对待搜索文本进行结构化数据处理,避免直接用待搜索文本进行搜索,同时将待搜索文本进行结构化处理后,形成了具有一定结构化的数据格式,其在索引库中进行搜索时缩短了搜索时间。
2.索引库易扩展。本发明对不同板块的信息整合为相同的XML数据格式输出,易于相同格式输出的外部信息数据的加入,同时,易于已建立的索引库根据信息数据的改进进行更新,索引库整体的扩展性强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,以下将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,以下描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图所示实施例得到其它的实施例及其附图。
图1为本发明中站内信息搜索方法一个具体实施例的示意图。
图2为本发明中站内信息搜索系统一个具体实施例的结构示意图。
图3为本发明中站内信息搜索方法另一个具体实施例的示意图。
图4为图3中在步骤312-步骤317间对匹配进一步步骤细化的示意图。
具体实施方式
以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
本发明提供一种站内信息搜索方法,如图1,所示,包括:
见步骤101,提取站内不同板块中一个以上的信息数据;
见步骤102,对所述一个以上的信息数据整合为相同的XML数据格式输出;
见步骤103,对整合后的所述一个以上的信息数据进行处理形成索引库;
见步骤104,确定待搜索文本;
见步骤105,对所述待搜索文本进行处理形成结构化数据;
见步骤106,根据所述结构化数据在所述索引库中进行搜索;
见步骤107,展示搜索结果。
本发明对不同板块的信息整合为相同的XML数据格式输出,方便索引库的建立,由于格式统一,提高了索引库建立的速度,而且索引库的格式也相对统一,在进行搜索时,提高了搜索速度,和降低了确定搜索结果的用时,同时,对待搜索文本进行结构化数据处理,避免直接用待搜索文本进行搜索,同时将待搜索文本进行结构化处理后,形成了具有一定结构化的数据格式,其在索引库中进行搜索时缩短了搜索时间。
本发明还提供了一种站内信息搜索系统,如图2,所示,包括:
信息数据提取模块,用于提取站内不同板块中一个以上的信息数据;
格式输出模块,用于对所述一个以上的信息数据整合为相同的XML数据格式输出;
索引库形成模块,用于整合后的所述一个以上的信息数据进行处理形成索引库;
待搜索文本确定模块,用于确定待搜索文本;
结构化数据形成模块,用于对所述待搜索文本进行处理形成结构化数据;
搜索模块,用于根据所述结构化数据在所述索引库中进行搜索;
搜索结果展示模块,用于展示搜索结果。
所述索引库形成模块优选为包括:
信息数据编号子模块,优选为用于对所述一个以上的信息数据进行信息数据编号;
提取关键词子模块,优选为用于提取每一个所述信息数据中包含的一个以上的关键词;
关键词编号子模块,优选为用于对所述一个以上的关键词进行关键词编号;
关键词位置子模块,优选为用于记录每一个关键词在包含所述关键词的所述信息数据中的关键词位置;
关键词次数子模块,优选为用于记录每一个关键词在包含所述关键词的所述信息数据中出现的关键词次数;
对应关系子模块,优选为用于根据所述信息数据编号、关键词编号、关键词位置、关键词次数之间的对应关系建立包含所述对应关系的所述索引库。
所述结构化数据形成模块优选为包括:词典载入子模块、待匹配子文本抽取子模块、匹配子模块、匹配成功子模块、匹配失败子模块、结构化数据构建子模块
所述词典载入子模块,优选为用于载入与所述待搜索文本相匹配的词典;
所述待匹配子文本抽取子模块,优选为用于按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的一个待匹配子文本;
所述匹配子模块,优选为用于按随机或设定的方式将所述待匹配子文本与所述词典进行匹配;
所述匹配成功子模块,优选为用于当匹配成功时,记录所述待匹配子文本中匹配成功的待匹配关键词,并且判断所述待匹配文本是否存在未被抽取的文字;当判断结果为存在时,再按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的下一个待匹配子文本,并将抽取的所述下一个待匹配子文本发送到所述匹配子模块;当判断结果为不存在时,将匹配成功的所有所述待匹配关键词发送给结构化数据构建子模块;
所述匹配失败子模块,优选为用于当匹配失败时,从所述待匹配子文本的任一端删减一个以上的文字,形成新的所述待匹配子文本,所述待匹配子文本进一步包括删减文字后的文本,并将删减过文字的待匹配子文本发送给所述匹配子模块;
所述结构化数据构建子模块,优选为用于将所有所述待匹配关键词构成所述结构化数据。
如图3,所示,本发明的站内信息搜索方法的具体实施方式为:
图3,步骤301,提取站内不同板块中一个以上的信息数据;
由于本发明是针对一个网站不同板块信息数据的搜索,因此需要对站内不同板块的信息数据进行提取,而且信息数据的量非常多,格式,内容,均不统一;
图3,步骤302,对所述一个以上的信息数据整合为相同的XML数据格式输出;
针对步骤301提到的信息数据的格式不统一的问题,在本步骤中对其进行了整合,整合为相同的XML数据格式输出,采用哪一种相同的数据格式,不同的实施者可以根据需要或个性化需求进行定义;
整合的好处包括:一、整合后的信息数据便于下一步信息数据的处理;二、便于其他外部信息数据的加入,因为外部信息数据只要同样将其信息数据整合成网站定义的数据格式则可以方便的集成到网站内;三、易于跨平台整合,易于对信息数据进行扩展性处理;
图3,步骤303,对所述一个以上的信息数据进行信息数据编号;
对信息数据进行编号,目的在于在建立索引库(类似目录)时,需要引用或建立连接,进行编号便于引用、建立连接和查找;
图3,步骤304,提取每一个所述信息数据中包含的一个以上的关键词;
本发明采用了关键词匹配搜索的方式,因此需要对每一个信息数据进行关键词提取,从而方便建立关键词和包含关键词的信息数据之间的对应关系;
关键词是针对信息数据全文进行提取的,因此每一个信息数据中会包含很多关键词,每一个关键词有可能会出现很多次;
这一步还包括:提取每一个所述信息数据中包含的一个以上的关键词;将所述关键词汇总成关键词词典;
图3,步骤305,对所述一个以上的关键词进行关键词编号;
针对步骤304对关键词的分析,在本步骤中对关键词进行编号,编号的好处与信息数据编号有相同之处;
图3,步骤306,记录每一个关键词在包含所述关键词的所述信息数据中的关键词位置;
针对步骤304对关键词的分析,本步骤中对关键词在包含关键词的信息数据中的位置进行记录,一旦关键词在包含该关键词的信息数据中的位置确定之后,更有利于建立关键词与信息数据的对应关系,同时利于关键词搜索过程中对关键词的查找;
其中关键词位置包括:一、记录该关键词在包含该关键词的信息数据中的字符位置,优点在于定位块;二、记录该关键词在包含该关键词的信息数据中的第几个关键词,优点在于节约索引库占用的空间大小,查找快速;本发明的关键词位置优选为第二种位置。
图3,步骤307,记录每一个关键词在包含所述关键词的所述信息数据中出现的关键词次数;
本步骤主要是针对步骤306进行的处理;
需要说明的是步骤305-307的顺序可以不分先后,采用何种顺序可以由实施者自由定义;
图3,步骤308,根据所述信息数据编号、关键词编号、关键词位置、关键词次数之间的对应关系建立包含所述对应关系的所述索引库;
步骤303-步骤308完成了图1中的步骤103,即对整合后的所述一个以上的信息数据进行处理形成索引库;
图3,步骤309,确定待搜索文本;
待搜索文本可以来自于网络使用者的客户端的输入,或者网站开发者开发端输入或其他方式的输入;
图3,步骤310,载入与所述待搜索文本相匹配的词典;
本步骤采用的词典可以为步骤304形成的关键词词典,也可以为外部引入的词典;
词典中包括各种语言、各种领域的词语、文字等;
图3,步骤311,按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的一个待匹配子文本;
设定的顺序可以为按从待搜索文本的首端开始连续选取或者从待搜索文本的末端开始连续选取;
选取的待匹配子文本中包含的文字数目可以根据实施者的实施需要或个性化需求进行自由定义,通常情况下建议小于等于7个文字,包括标点符号;7个文字比较符合中国现有词典的构成方式,因为中国现有词典中包含的词最多为7个文字;
举例:比如待搜索文本为:“按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的一个待匹配子文本”,则第一次选取的待搜索子文本可以为从首端抽取的“按随机或设定顺”或者从末端抽取的“个待匹配子文本”;
图3或图4,步骤312,按随机或设定的方式将所述待匹配子文本与所述词典进行匹配;
匹配的方法为将选取的待匹配子文本与词典中的现有词汇进行完全重合性的匹配;
下面,将对图3,步骤312-图3,步骤317的匹配步骤进行细化,见图4,所示:
图4,步骤313,当匹配成功时,记录所述待匹配子文本中匹配成功的待匹配关键词,并且判断所述待匹配文本是否存在未被抽取的文字;
因为匹配会出现匹配成功和匹配失败,本步骤即对匹配成功后的处理步骤进行说明;
因为待搜索文本是有限的文字,因此抽取待搜索子文本的个数是有限的,需要判断是否还有未被选取的待搜索文本中的未抽取的文字,仅此需要进行判断;
图4,步骤314,当判断结果为存在时,再按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的下一个待匹配子文本,返回步骤312;
本步骤是针对步骤313中的判断结果为不包括引起的下一步操作进行的说明;
当判断结果为存在,说明待搜索文本中的文字还没有全部被抽取,因此还要继续进行抽取,所以继续进行步骤312;
图4,步骤315,当判断结果为不存在时,进行317步骤;
本步骤是针对步骤313中的判断结果为包括引起的下一步操作进行的说明;
当判断结果为不存在,说明待搜索文本中的文字被全部抽取,而且与词典的匹配进行完毕;
图4,步骤316,当匹配失败时,从所述待匹配子文本的任一端删减一个以上的文字,形成新的所述待匹配子文本,所述待匹配子文本进一步包括删减文字后的文本,返回步骤312;
因为匹配会出现匹配成功和匹配失败,本步骤即对匹配失败后的处理步骤进行说明;
结合步骤311的例子,匹配失败即为“按随机或设定顺”在词典中找不到与其相同的词语,因此,需要删减最后一个字,将待搜索子文本更改为“按随机或设定”,结合步骤312,得到待匹配关键词为了“随机”“设定”“或”;
图3或图4,步骤317,将所有所述待匹配关键词构成所述结构化数据;
这种结构化数据的呈现形式有多种多样,可以将所有记录的匹配成功的待搜索子文本按随机的方式罗列,也可以按照设定的顺序罗列,其中包括按照从待搜索文本首端到末端的出现顺序罗列;
图3,步骤318,剔除所有重复的待匹配关键词;
针对图3或图4,步骤317对所有待匹配关键词的分析,可以将重复的待匹配关键词进行删除,按设定的顺序进行查找,遇到与以查找锅的待匹配关键词重复的则删除;
具体处理可分为以下几步:
统计所有所述待匹配关键词的数量;
统计所有重复的待匹配关键词及每一个重复的所述待匹配关键词的数量;
剔除所有重复的待匹配关键词;
将剔除重复的所述待匹配关键词后的其他所述待匹配关键词构成所述结构化数据;
则:结构化数据包括了剔除重复的所述待匹配关键词后的所有待匹配关键词。
本步骤是为了将重复的关键词进行简短归一化;
图3,步骤309-图3,步骤318完成了图1中步骤105,即对所述搜索文本进行处理形成结构化数据;
结构化数据处理的方式还可以为:正向最大匹配算法。
图3,步骤319,以随机或设定顺序选取一个所述待匹配关键词,将选定的所述待匹配关键词与所述索引库中的关键词进行匹配,并标定该选取的所述待匹配关键词为已选取;
图3,步骤320,当匹配成功时,记录包含所述关键词的所述信息数据,并将关键词匹配次数加1,将每一条包含所述关键词的所述信息数据的匹配次数加1,设定匹配次数的初始值为0;
图3,步骤321,当匹配失败时,判断所述待匹配关键词中是否还有未标定为已选取的待匹配关键词,如果判断结果为有,则返回a步骤,如果判断结果为没有,则匹配结束;
图3,步骤322,按照信息数据的匹配次数由大到小的顺序,选取设定数目的所述信息数据作为搜索结果;
步骤319-步骤322完成了图1中步骤106,即根据所述结构化数据在所述索引库中进行搜索;
图3,步骤323,展示搜索结果。
图3,步骤301-图3,步骤323完成站内信息的搜索。
通过本发明提供的一种站内信息搜索方法和搜索系统,能够达到如下效果:
1.加快站内信息搜索的速度。本发明对不同板块的信息整合为相同的XML数据格式输出,方便索引库的建立,由于格式统一,提高了索引库建立的速度,而且索引库的格式也相对统一,在进行搜索时,提高了搜索速度,和降低了确定搜索结果的用时,同时,对待搜索文本进行结构化数据处理,避免直接用待搜索文本进行搜索,同时将待搜索文本进行结构化处理后,形成了具有一定结构化的数据格式,其在索引库中进行搜索时缩短了搜索时间。
2.索引库易扩展。本发明对不同板块的信息整合为相同的XML数据格式输出,易于相同格式输出的外部信息数据的加入,同时,易于已建立的索引库根据信息数据的改进进行更新,索引库整体的扩展性强。
本发明提供的各种实施例可根据需要以任意方式相互组合,通过这种组合得到的技术方案,也在本发明的范围内。
显然,本领域技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也包含这些改动和变型在内。

Claims (8)

1.一种站内信息搜索方法,其特征在于,包括: 
提取站内不同板块中一个以上的信息数据; 
对所述一个以上的信息数据整合为相同的XML数据格式输出; 
对整合后的所述一个以上的信息数据进行处理形成索引库; 
确定待搜索文本; 
对所述待搜索文本进行处理形成结构化数据; 
根据所述结构化数据在所述索引库中进行搜索; 
展示搜索结果; 
所述对所述待搜索文本进行处理形成结构化数据包括: 
A.载入与所述待搜索文本相匹配的词典; 
B.按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的一个待匹配子文本; 
C.按随机或设定的方式将所述待匹配子文本与所述词典进行匹配; 
D.当匹配成功时,记录所述待匹配子文本中匹配成功的待匹配关键词,并且判断所述待匹配文本是否存在未被抽取的文字; 
当判断结果为存在时,再按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的下一个待匹配子文本,返回C步骤; 
当判断结果为不存在时,进行F步骤; 
E.当匹配失败时,从所述待匹配子文本的任一端删减一个以上的文字,形成新的所述待匹配子文本,所述待匹配子文本进一步包括删减文字后的文本,返回C步骤; 
F.将所有所述待匹配关键词构成所述结构化数据。 
2.如权利要求1所述的站内信息搜索方法,其特征在于,所述对整合后的所述一个以上的信息数据进行处理形成索引库包括: 
对所述一个以上的信息数据进行信息数据编号; 
提取每一个所述信息数据中包含的一个以上的关键词; 
对所述一个以上的关键词进行关键词编号; 
记录每一个关键词在包含所述关键词的所述信息数据中的关键词位置; 
记录每一个关键词在包含所述关键词的所述信息数据中出现的关键词次数; 
根据所述信息数据编号、关键词编号、关键词位置、关键词次数之间的对应关系建立包含所述对应关系的所述索引库。 
3.如权利要求1-2任一项所述的站内信息搜索方法,其特征在于,所述对整合后的所述一个以上的信息数据进行处理形成索引库进一步包括:提取每一个所述信息数据中包含的一个以上的关键词;将所述关键词汇总成关键词词典;则,所述待搜索文本相匹配的词典为所述关键词词典或外部引入的词典。 
4.如权利要求1或2所述的站内信息搜索方法,其特征在于, 
所述将所有所述待匹配关键词构成所述结构化数据包括: 
统计所有所述待匹配关键词的数量; 
统计所有重复的待匹配关键词及每一个重复的所述待匹配关键词的数量; 
剔除所有重复的待匹配关键词; 
将剔除重复的所述待匹配关键词后的其他所述待匹配关键词构成所述结构化数据。 
5.如权利要求1-2任一项所述的站内信息搜索方法,其特征在于,所述根据所述结构化数据在所述索引库中进行搜索包括: 
将所述结构化数据中每一个待匹配关键词与所述索引库中的关键词进行匹配,并根据匹配结果确定搜索结果。 
6.如权利要求5所述的站内信息搜索方法,其特征在于,所述将所述结构化数据中每一个待匹配关键词与所述索引库中的关键词进行匹配包括: 
a.以随机或设定顺序选取一个所述待匹配关键词,将选定的所述待匹配关键词与所述索引库中的关键词进行匹配,并标定该选取的所述待匹配关键词为已选取; 
b.当匹配成功时,记录包含所述关键词的所述信息数据,并将关键词匹配次数加1,将每一条包含所述关键词的所述信息数据的匹配次数加1,设定匹配次数的初始值为0; 
c.当匹配失败时,判断所述待匹配关键词中是否还有未标定为已选取的待匹配关键词,如果判断结果为有,则返回a步骤,如果判断结果为没有,则匹配结束; 
则, 
所述根据匹配结果确定搜索结果包括: 
按照信息数据的匹配次数由大到小的顺序,选取设定数目的所述信息数据作为搜索结果。 
7.一种站内信息搜索系统,其特征在于,包括: 
信息数据提取模块,用于提取站内不同板块中一个以上的信息数据; 
格式输出模块,用于对所述一个以上的信息数据整合为相同的XML数据格式输出; 
索引库形成模块,用于整合后的所述一个以上的信息数据进行处理形成索引库; 
待搜索文本确定模块,用于确定待搜索文本; 
结构化数据形成模块,用于对所述待搜索文本进行处理形成结构化数据; 
搜索模块,用于根据所述结构化数据在所述索引库中进行搜索; 
搜索结果展示模块,用于展示搜索结果; 
所述结构化数据形成模块包括:词典载入子模块、待匹配子文本抽取子模块、匹配子模块、匹配成功子模块、匹配失败子模块、结构化数据构建子模块 
所述词典载入子模块,用于载入与所述待搜索文本相匹配的词典; 
所述待匹配子文本抽取子模块,用于按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的一个待匹配子文本; 
所述匹配子模块,用于按随机或设定的方式将所述待匹配子文本与所述词典进行匹配; 
所述匹配成功子模块,用于当匹配成功时,记录所述待匹配子文本中匹配成功的待匹配关键词,并且判断所述待匹配文本是否存在未被抽取的文字;当判断结果为存在时,再按随机或设定顺序从所述待搜索文本中抽取包含连续排列的一个以上文字的下一个待匹配子文本,并将抽取的所述下一个待匹配子文本发送到所述匹配子模块;当判断结果为不存在时,将匹配成功的所有所述待匹配关键词发送给结构化数据构建子模块; 
所述匹配失败子模块,用于当匹配失败时,从所述待匹配子文本的任一端删减一个以上的文字,形成新的所述待匹配子文本,所述待匹配子文本进一步包括删减文字后的文本,并将删减过文字的待匹配子文本发送给所述匹配子模块; 
所述结构化数据构建子模块,用于将所有所述待匹配关键词构成所述结构化数据。
8.如权利要求7所述的站内信息搜索系统,其特征在于,所述索引库形成模块包括: 
信息数据编号子模块,用于对所述一个以上的信息数据进行信息数据编号; 
提取关键词子模块,用于提取每一个所述信息数据中包含的一个以上的关键词; 
关键词编号子模块,用于对所述一个以上的关键词进行关键词编号; 
关键词位置子模块,用于记录每一个关键词在包含所述关键词的所述信息数据中的关键词位置; 
关键词次数子模块,用于记录每一个关键词在包含所述关键词的所述信息数据中出现的关键词次数; 
对应关系子模块,用于根据所述信息数据编号、关键词编号、关键词位置、关键词次数之间的对应关系建立包含所述对应关系的所述索引库。 
CN201110372458.6A 2011-11-21 2011-11-21 站内信息搜索方法和搜索系统 Active CN102521267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110372458.6A CN102521267B (zh) 2011-11-21 2011-11-21 站内信息搜索方法和搜索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110372458.6A CN102521267B (zh) 2011-11-21 2011-11-21 站内信息搜索方法和搜索系统

Publications (2)

Publication Number Publication Date
CN102521267A CN102521267A (zh) 2012-06-27
CN102521267B true CN102521267B (zh) 2014-01-22

Family

ID=46292189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110372458.6A Active CN102521267B (zh) 2011-11-21 2011-11-21 站内信息搜索方法和搜索系统

Country Status (1)

Country Link
CN (1) CN102521267B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335524B (zh) * 2015-11-27 2019-09-24 中国科学院自动化研究所 一种应用于大规模非规则结构数据的图搜索方法
CN109299179A (zh) * 2018-10-15 2019-02-01 西门子医疗系统有限公司 结构化数据提取装置、方法及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845104A (zh) * 2006-05-22 2006-10-11 赵开灏 信息智能检索加工的系统和方法
CN101763391A (zh) * 2008-12-23 2010-06-30 康佳集团股份有限公司 分布式网络站点及其信息搜索方法及系统
CN102236719A (zh) * 2011-07-25 2011-11-09 西交利物浦大学 基于网页分类的网页搜索引擎及快速查找方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845104A (zh) * 2006-05-22 2006-10-11 赵开灏 信息智能检索加工的系统和方法
CN101763391A (zh) * 2008-12-23 2010-06-30 康佳集团股份有限公司 分布式网络站点及其信息搜索方法及系统
CN102236719A (zh) * 2011-07-25 2011-11-09 西交利物浦大学 基于网页分类的网页搜索引擎及快速查找方法

Also Published As

Publication number Publication date
CN102521267A (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
JP7064262B2 (ja) 自然言語生成技術に基づく知識グラフ理解支援システム
CN111597308A (zh) 一种基于知识图谱的语音问答系统及其应用方法
CN103914513B (zh) 一种实体输入方法和装置
CN103365925B (zh) 获取多音字拼音、基于拼音检索的方法及其相应装置
CN109241078B (zh) 一种基于混合数据库的知识图谱组织查询方法
CN105930362B (zh) 搜索目标识别方法、装置及终端
CN102456054B (zh) 一种搜索方法及系统
CN102750949B (zh) 语音识别方法和装置
CN103810218A (zh) 一种基于问题簇的自动问答方法和装置
CN111190920B (zh) 一种基于自然语言的数据交互查询方法及其系统
RU2004108667A (ru) Поиск произвольного текста и поиск по атрибутам в данных электронного руководства по программам
CN103389988A (zh) 一种引导用户进行信息搜索的方法及装置
CN103019407B (zh) 输入法应用方法、自动问答处理方法及电子设备、服务器
CN100524293C (zh) 一种从双语句对获取词对译文的方法及系统
CN102867511A (zh) 自然语音识别方法和装置
CN107665217A (zh) 一种用于搜索业务的词汇处理方法及系统
CN102654866A (zh) 例句索引创建方法和装置以及例句检索方法和装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
Hu et al. Scalable aggregate keyword query over knowledge graph
CN102567423A (zh) 一种诗词关联搜索方法和系统
WO2019173085A1 (en) Intelligent knowledge-learning and question-answering
CN104484326A (zh) 一种基于可视分析的文物集成信息的交互探索方法
CN109933216B (zh) 一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质
CN102521267B (zh) 站内信息搜索方法和搜索系统
CN102385597B (zh) 一种poi的容错搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120627

Assignee: Fujian gold online Network Inc

Assignor: Shen Wence

Contract record no.: 2014350000071

Denomination of invention: In-station information searching method and system

Granted publication date: 20140122

License type: Exclusive License

Record date: 20140704

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
TR01 Transfer of patent right

Effective date of registration: 20180912

Address after: 100020 15 Guanghua Road, Chaoyang District, Beijing, 15A6 15

Patentee after: Beijing Financial Technology Co., Ltd.

Address before: 350003 Fuzhou Jin Lou online building, 25 District A, Gulou District, Fuzhou, Fujian

Patentee before: Shen Wence

TR01 Transfer of patent right