CN104090875A - 信息检索系统及方法 - Google Patents

信息检索系统及方法 Download PDF

Info

Publication number
CN104090875A
CN104090875A CN201310110573.5A CN201310110573A CN104090875A CN 104090875 A CN104090875 A CN 104090875A CN 201310110573 A CN201310110573 A CN 201310110573A CN 104090875 A CN104090875 A CN 104090875A
Authority
CN
China
Prior art keywords
file
retrieving
block
information retrieval
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310110573.5A
Other languages
English (en)
Inventor
李忠一
谢德意
陶帅军
易志强
姚俊超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN201310110573.5A priority Critical patent/CN104090875A/zh
Publication of CN104090875A publication Critical patent/CN104090875A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing

Abstract

一种信息检索系统,包括:切分模块,用于将文件数据库中的文件切分成多个文件区块;接收模块,用于接收输入信息,并确定该输入信息所在的文件区块;确定模块,用于确定所述文件数据库的所有文件中与所述确定的文件区块相同的文件区块为待检索区块;检索模块,用于在所述文件数据库中的待检索区块中检索该输入信息,并获取多个检索到的文件;计算模块,用于确定每个检索到的文件的权值;及输出模块,用于根据所计算的权值的高低对检索到的文件进行排序。本发明还提供一种信息检索方法。利用本发明可对文件进行分区块检索。

Description

信息检索系统及方法
技术领域
本发明涉及检索技术,尤其涉及一种信息检索系统及方法。
背景技术
搜素技术可以帮助用户从庞大的信息量中寻找自己需要的信息,然而,随着检索技术的发展,检索得到的相关信息的数量也越来越多。虽然目前的检索技术能够根据用户输入的检索关键字反馈相关的信息,然而却欠缺针对特定文件(例如,专利文件)的多个指定文件区块(例如,专利文件中的多个组成部分,说明书、权利要求书等文件区块)内进行相关信息的检索。也就是说,用户无法快速在所需的特定文件区块内进行所需信息的检索。
进一步地,现有的检索技术未能与编辑软件相结合,无法在用户输入信息时自动对该输入信息进行检索并提示用户检索结果。
此外,部分特定文件具有多个关联的文件也是可供用户进行检索参考的,现有检索技术仅能对用户输入的关键字进行检索,但无法提供检索到的文件的关联文件。例如前述的专利文件会对应多个官方意见书(例如,国家知识产权局所发出的审查意见通知书)及相关的对比文件,若利用现有检索技术,用户无法通过检索到的专利文件快速获取相关的官方意见书及所引用的对比文件。
发明内容
鉴于以上内容,有必要提供一种信息检索系统及方法,可根据用户的检索需求在文件数据库中文件的多个文件区块进行指定检索。
进一步地,还有必要提供一种信息检索系统及方法,可将文字编辑软件与检索技术进行结合,以根据接收的输入信息进行即时检索。
此外,还有必要提供一种信息检索系统及方法,可提供检索到文件的关联文件供用户进行参考。
一种信息检索方法,应用于服务器,所述服务器包括存储装置,所述存储装置包括存储多个文件的文件数据库,该方法包括:根据预设切分参数将所述文件数据库中的文件切分成多个文件区块;接收输入信息,并确定该输入信息所在的文件区块;确定所述文件数据库的所有文件中与所述确定的文件区块相同的文件区块为待检索区块;利用预设的检索方法在所述文件数据库中的待检索区块中检索该输入信息;获取多个检索到的文件;确定每个检索到的文件的权值;及根据所计算的权值的高低对检索到的文件进行排序。
一种信息检索系统,应用于服务器,所述服务器包括存储装置,所述存储装置包括存储多个文件的文件数据库,该系统包括:切分模块,用于根据预设切分参数将所述文件数据库中的文件切分成多个文件区块;接收模块,用于接收输入信息,并确定该输入信息所在的文件区块;确定模块,用于确定所述文件数据库的所有文件中与所述确定的文件区块相同的文件区块为待检索区块;检索模块,用于利用预设的检索方法在所述文件数据库中的待检索区块中检索该输入信息,并获取多个检索到的文件;计算模块,用于确定每个检索到的文件的权值;及输出模块,用于根据所计算的权值的高低对检索到的文件进行排序。
相较于现有技术,所述的信息检索系统及方法,可实现对文件进行分区块检索。所述的信息检索系统及方法根据用户的检索需求在文件数据库中文件的多个文件区块进行指定检索,还可将文字编辑软件与检索技术进行结合,以根据接收的输入信息进行即时检索,以及提供检索到文件的关联文件供用户进行参考。
附图说明
图1是本发明信息检索系统的较佳实施方式的运行环境图。
图2是本发明信息检索系统的较佳实施方式的硬件架构图。
图3是本发明信息检索系统的较佳实施方式的功能模块图。
图4是本发明信息检索系统的权值计算第一示意图。
图5是本发明信息检索系统的权值计算第二示意图。
图6是本发明信息检索系统的文件权值表示意图。
图7是本发明信息检索系统的关联信息示意图。
图8是本发明信息检索系统的检索清单示意图。
图9是本发明信息检索方法的较佳实施方式的流程图。
图10是本发明信息检索方法的较佳实施方式的流程图中步骤S8的细化流程图。
图11是本发明信息检索方法的较佳实施方式的流程图中步骤S12的细化流程图。
主要元件符号说明
服务器 1
信息检索系统 10
切分模块 100
接收模块 101
确定模块 102
检索模块 103
计算模块 104
输出模块 105
文字编辑器 106
关联模块 107
处理器 11
存储装置 12
文件数据库 120
参考数据库 122
专业术语词库 124
同义词词库 126
过滤词库 128
电子装置 2
网络 3
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
如图1所示,是本发明信息检索系统的较佳实施方式的运行环境图。如图2所示,是本发明信息检索系统的较佳实施方式的硬件架构图。下文结合图1、图2进行说明。
所述的信息检索系统10应用于服务器1中,所述的服务器1可以是计算机、计算机主机等装置。多个用户可以利用电子装置2与网络3的连接来访问所述信息检索系统10,实现对所需信息的检索及对检索结果的优化处理。所述的电子装置2可以是手机、计算机、笔记本电脑、个人数字助理、平板电脑等装置。所述的网络3可以是互联网(Internet)或者是内部网(Intranet)。
所述的信息检索系统10用于将预先存储的多个文件进行切分以获取多个文件区块,接收用户的输入信息,根据用户的检索需求确定待检索的文件区块(下文简称为“待检索区块”),并在该待检索区块检索该输入信息,以及对检索结果进行优化并反馈给用户。
在不同的实施方式中,所述的信息检索系统10还用于提供一个文字编辑器供用户输入需要生成文件的相关信息,并根据该输入信息进行如上文所述的检索,及/或针对检索到的文件进行更进一步的关联信息检索,包括提供该检索到的文件的关联文件,具体细节将在下文进行详细描述。
所述的服务器1包括处理器11以及存储装置12。所述处理器11用于执行所述信息检索系统10以及所述服务器1内安装的各类软件,例如操作系统等。所述存储装置12可以是硬盘,或者其他类型的存储卡或存储设备。所述的存储装置12用于存储各类数据,例如,文件、影像、操作日志等信息。
所述的存储装置12包括,但不限于:文件数据库120、参考数据库122、专业术语词库124、同义词词库126及过滤词库128。
所述的文件数据库120用于存储多个文件供用户进行检索,所述多个文件可以是专利文件、论文、期刊等类型的文件。
所述的参考数据库122用于存储与所述文件数据库120中的文件的相关联的参考文件。例如,所述参考文件可以是专利文件相对应的官方意见通知书、引用的对比文件、论文的考核意见及论文所引用的文献等。
所述的专业术语词库124用于存储预先存储的专业术语,以提取用户输入的检索信息中的专业术语。
所述的同义词词库126用于存储多组同义词,以便于对用户输入的检索信息进行语意的扩充,实现扩大检索的范围。
所述的过滤词库128用于存储预设的字词符号以实现对用户输入的检索信息进行过滤,避免非必要字词符号对检索结果的影响。
此外,在其他实施方式中,所述的存储装置12还可进一步包括其他类型的数据库以实现对检索过程中的优化处理。
如图3所示,是本发明信息检索系统的较佳实施方式的功能模块图。在本实施方式中,所述信息检索系统10包括多个功能模块,分别是:切分模块100、接收模块101、确定模块102、检索模块103、计算模块104以及输出模块105。
所述的切分模块100用于根据预设切分参数将所述文件数据库120中的文件切分成多个文件区块。所述预设切分参数包括,但不限于:依预设关键字切分、依模板切分、依段落切分、依选择内容切分。
例如,假设所述文件数据库120中存储的文件是专利文件,所述的多个文件区块可以包括,但不限于:摘要、权利要求书、说明书、说明书附图。
在其他实施方式中,所述的切分模块100还用于对所述多个文件区块进行等级划分。例如,当所述文件为专利文件时,将权利要求书作为等级最高的文件区块,其次是说明书,说明书附图、摘要等。
此外,在其他实施方式中,所述的切分模块100还用于在每个文件区块内进一步划分子区块,并设置每个子区块的等级。例如,将专利文件中的权利要求书文件区块划分为独立权利要求子区块及附属权利要求子区块,将说明书文件区块划分为技术领域、背景技术、发明内容、附图说明及具体实施方式等子区块。
此外,所述的切分模块100进一步用于设置区块、子区块的识别标志,例如将上述的“权利要求书”、“具体实施方式”等设置为区块、子区块的识别标志。
所述的接收模块101用于接收输入信息,并确定该输入信息所在的文件区块。例如,所述的信息检索系统10可以提供一个用户界面供用户输入待检索的信息。
此外,在其他实施方式中,所述的信息检索系统10还可进一步提供文字编辑器106,用于接收所述输入信息并输出后续检索到的文件的信息,所述文字编辑器106提供一个包括多个文件区块的显示界面。例如,用户可以开启该文字编辑器106以进行文件的撰写(例如,撰写一份专利申请的说明书),在用户往所述文字编辑器106输入信息时,所述的信息检索系统10会提供一个同步信息检索功能,并在用户输入信息时侦测到该同步信息检索功能被开启时,所述的接收模块101接收该输入的信息,并确定该输入信息所在的文件区块。
所述的确定模块102用于确定所述文件数据库120中的所有文件中与所述确定的文件区块相同的文件区块为待检索区块。例如,该输入信息所在的文件区块是权利要求书,所述的确定模块102确定所述文件数据库120中所有文件中的权利要求书为待检索区块。
在第一实施方式中,如上文所述,所述的确定模块102将所述文件数据库120中的所有文件中与所述确定的文件区块相同的文件区块确定为待检索区块。在第二实施方式中,所述的切分模块100将所述多个文件区块进行等级划分,所述的接收模块101确定所述输入信息所在文件区块的所处等级,然后,所述的确定模块102确定所述文件数据库的所有文件中处于所确定的等级的一个或多个文件区块为待检索区块。
所述的检索模块103用于利用预设的检索方法在所述文件数据库120中的待检索区块中检索该输入信息。例如,所述预设的检索方法包括,但不限于:字符串匹配法、同义词扩展法、专业术语提取法中的一种或多种方法的结合。所述的字符串匹配法包括正向最大匹配法、逆向最大匹配法、双向最大匹配法。
所述的检索模块103通过如下的一种或多种方式的结合对输入信息进行检索:利用所述专业术语词库124提取该输入信息中的关键词;利用所述同义词词库126对该提取的关键词进行同义词扩展并得到扩展后的关键词;利用所述过滤词库128对该扩展后的关键词进行过滤;及利用字符串匹配法在所述待检索区块中检索该过滤后的关键词。上述方式的执行顺序可以根据检索需求进行调整,实际应用中并不局限于此。此外,实际应用中还可加入更多其它的方式以使得检索结果更为精确。
所述的检索模块103获取多个检索到的文件。
所述的计算模块104用于确定每个检索到的文件的权值。例如,在本实施方式中,所述的计算模块104可以通过如下方式确定每个检索到的文件的权值:将每个检索到的文件中与所述最大字符串中的相同字符作为匹配值,并确定该匹配值的字符数。
在该过滤后的关键词中包括一个最大字符串时,所述的计算模块104根据每个检索到的文件的匹配值的字符数确定每个检索到的文件的权值。
在该过滤后的关键词中包括多个最大字符串时,所述的计算模块104判断该多个最大字符串是否对应有相同的检索到的文件,并在该多个最大字符串没有对应相同的检索到的文件时,根据每个检索到的文件的匹配值的字符数确定每个检索到的文件的权值。
在该多个最大字符串对应有相同的检索到的文件时,所述的计算模块104判断该相同的检索到的文件对应的不同最大字符串的匹配值是否相同。在该相同的检索到的文件对应的不同最大字符串的匹配值相同时,所述的计算模块104确定该匹配值的字符数作为该相同的检索到的文件的权值。在该相同的检索到的文件对应的不同最大字符串的匹配值不相同时,所述的计算模块104将该不相同的多个匹配值的字符数进行加总,并将该加总后的值的字符数作为该相同的检索到的文件的权值。
此外,在其他实施方式中,所述的计算模块104还用于在该相同的检索到的文件对应的不同最大字符串的匹配值不相同时,进一步判断相同的检索到的文件所对应的匹配值是否相似。若相似,所述的计算模块104可以选择保留其中字符数较多的匹配值,并将该保留匹配值的字符数作为该检索到的文件的权值,及舍弃其中字符数较少的匹配值。下文将举例进行说明。其中,对匹配值的相似度的确认可判断两个或多个匹配值之间的差异字符是否具有实质意义,还是仅为连接词等,也可通过设置特定词库,当该差异字符为特定词库中的字符时,确定该差异字符可以忽略,并判断该多个匹配值相似。此外,还可根据现有技术进行确定。
例如,假设输入的关键字是“滑轨固定结构将一滑轨固定于机架上”,经过上述模块的处理后得到的过滤后的关键词是“滑轨固定结构滑轨固定于机架”,并确定包括两个最大字符串,分别是“滑轨固定结构”和“滑轨固定于机架”。参考如图4所示的权值计算第一示意图以及图5所示的权值计算第二示意图,针对第一个最大字符串可搜索到三个文件:A、B、C,针对第二个最大字符串可搜索到三个文件:B、C、D。
其中,针对第一个最大字符串,文件A的匹配值是“滑轨固”,所述的计算模块104可确定文件A的权值是3;文件B的匹配值是“滑轨固定”,所述的计算模块104可确定文件B的权值是4;文件C的匹配值是“滑轨固定结”,所述的计算模块104可确定文件C的权值是5。
针对第二个最大字符串,文件B的匹配值是“滑轨固定于”,所述的计算模块104可确定文件B的权值是5;文件D的匹配值是“滑轨固定于机”,所述的计算模块104可确定文件D的权值是6;文件C的匹配值是“滑轨固定于机架”,所述的计算模块104可确定文件C的权值是7。
参考如图6所示的文件权值表示意图可知,由于文件C所对应的两个匹配值不相同也不相似,则所述的计算模块104可确定文件C的权值为上述两个匹配值的总和,即5+7=12。由于文件A所对应的两个匹配值相同,则所述的计算模块104可确定文件C的权值即为该匹配值的字符数,即3。由于文件B所对应的两个匹配值不相同但认定为相似(例如,认定其中存在差异的字符“于”为可忽略的字符),则所述的计算模块104可确定文件C的权值为具有较多字符的匹配值“滑轨固定于“的字符数,即5。
所述的输出模块105用于根据所计算的权值的高低对检索到的文件进行排序,然后输出该排序后的检索结果。所述检索结果可以是包括多个检索到的文件的清单,并且每个检索文件具备超链接,在点击后,可开启相关检索到的文件的原文。所述检索结果还可以用其他形式进行展现。
此外,在其他实施方式中,所述的输出模块105还用于在权值相同时,依据所述匹配值所处区块及/或子区块的等级确定该检索到的文件的排序。例如,所述的输出模块105判断相同匹配值位于检索到的不同文件的子区块中的等级来确定排序的顺序。
此外,在其他实施方式中,所述的信息检索系统10还包括关联模块107,用于从多个检索到的文件中选择至少一个文件,在所述参考数据库122中检索该选择的文件的关联文件,例如,假设该选择的文件是专利文件,关联文件是该专利文件对应的官方意见书及官方意见书中引用的对比文件。
所述关联模块107还用于从所述官方意见书中提取该选择的文件中被驳权利要求的项数、被驳的法律条款以及对比文件,及确定该选择的文件的驳回信息,该驳回信息包括被驳权利要求的项数、被驳的法律条款及/或对比文件。所述关联模块107将上述驳回信息确定为该选择的文件的关联信息。
参考如图7所示的关联信息示意图,文件C(专利号为CN 11111)包括9个权利要求,其中权利要求1-4和9被认定为不满足专利法第22条第3款的规定,引用的对比文件是CN 22222和公知常识,权利要求5-8被认定为不满足专利法第22条第3款的规定,引用的对比文件是CN 22222和CN 33333。
所述的输出模块105进一步用于将上文所述的检索结果与相应的关联信息进行结合及输出,可参考如图8所示的检索清单示意图。
如图9所示,是本发明信息检索方法的较佳实施方式的流程图。首先,步骤S2,所述的切分模块100根据预设切分参数将所述文件数据库120中的文件切分成多个文件区块。所述预设切分参数包括,但不限于:依预设关键字切分、依模板切分、依段落切分、依选择内容切分。
步骤S4,所述的接收模块101接收输入信息,并确定该输入信息所在的文件区块。
步骤S6,所述的确定模块102确定所述文件数据库120中的所有文件中与所述确定的文件区块相同的文件区块为待检索区块。
步骤S8,所述的检索模块103利用预设的检索方法在所述文件数据库120中的待检索区块中检索该输入信息。具体细化步骤可参考图10所示。
步骤S10,所述的检索模块103获取多个检索到的文件。
步骤S12,所述的计算模块104确定每个检索到的文件的权值。具体细化步骤可参考图11所示。
步骤S14,所述的输出模块105根据所计算的权值的高低对检索到的文件进行排序。
步骤S16,所述的输出模块105输出该排序后的检索结果,然后,结束本流程。
如图10所示,是本发明信息检索方法的较佳实施方式的流程图中步骤S8的细化流程图。
步骤S80,所述的检索模块103利用所述专业术语词库124提取该输入信息中的关键词。
步骤S82,所述的检索模块103利用所述同义词词库126对该提取的关键词进行同义词扩展并得到扩展后的关键词。
步骤S84,所述的检索模块103利用所述过滤词库128对该扩展后的关键词进行过滤。
步骤S86,所述的检索模块103利用字符串匹配法在所述待检索区块中检索该过滤后的关键词,然后,结束本流程。
如图11所示,是本发明信息检索方法的较佳实施方式的流程图中步骤S12的细化流程图。
首先,步骤S120,所述的计算模块104将每个检索到的文件中与所述最大字符串中的相同字符作为匹配值。
步骤S122,所述的计算模块104确定每个检索到的文件的匹配值的字符数。
步骤S124,所述的计算模块104判断过滤后的关键词中包括一个还是多个最大字符串。若包括一个最大字符串,执行步骤S126;如包括多个最大字符串,则执行步骤S128。
步骤S126,所述的计算模块104根据每个检索到的文件的匹配值的字符数确定每个检索到的文件的权值。
步骤S128,所述的计算模块104判断该多个最大字符串是否对应有相同的检索到的文件。若该多个最大字符串对应有相同的检索到的文件,执行步骤S130;若该多个最大字符串没有对应相同的检索到的文件,执行步骤S126。
步骤S130,所述的计算模块104判断该相同的检索到的文件对应的不同最大字符串的匹配值是否相同。在该相同的检索到的文件对应的不同最大字符串的匹配值相同时,执行步骤S134;在该相同的检索到的文件对应的不同最大字符串的匹配值不同时,执行步骤S132。
步骤S132,所述的计算模块104所述的计算模块104将该不相同的多个匹配值的字符数进行加总,并将该加总后的值的字符数作为该相同的检索到的文件的权值,然后,结束本流程。
步骤S134,所述的计算模块104所述的计算模块104确定该匹配值的字符数作为该相同的检索到的文件的权值,然后,结束本流程。
以上实施方式仅用以说明本发明的技术方案而非限制,尽管参照以上较佳实施方式对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换都不应脱离本发明技术方案的精神和范围。

Claims (21)

1.一种信息检索方法,应用于服务器,所述服务器包括存储装置,其特征在于,所述存储装置包括存储多个文件的文件数据库,该方法包括:
根据预设切分参数将所述文件数据库中的文件切分成多个文件区块;
接收输入信息,并确定该输入信息所在的文件区块;
确定所述文件数据库的所有文件中与所述确定的文件区块相同的文件区块为待检索区块;
利用预设的检索方法在所述文件数据库中的待检索区块中检索该输入信息;
获取多个检索到的文件;
确定每个检索到的文件的权值;及
根据所计算的权值的高低对检索到的文件进行排序。
2.如权利要求1所述的信息检索方法,其特征在于,该方法还包括:
提供一个文字编辑器以接收所述输入信息并输出所述检索到的文件的信息,所述文字编辑器提供包括多个文件区块的显示界面。
3.如权利要求1所述的信息检索方法,其特征在于,所述预设切分参数包括依预设关键字切分、依模板切分、依段落切分、依选择内容切分。
4.如权利要求1所述的信息检索方法,其特征在于,该方法还包括:
将所述多个文件区块进行等级划分;
确定所述输入信息所在文件区块的所处等级;
确定所述文件数据库的所有文件中处于所确定的等级的一个或多个文件区块为待检索区块;及
利用预设的检索方法在所述文件数据库中的待检索区块中检索该输入信息。
5.如权利要求1所述的信息检索方法,其特征在于,所述预设的检索方法是字符串匹配法、同义词扩展法、专业术语提取法中的一种或多种方法的结合,及所述的字符串匹配法包括正向最大匹配法、逆向最大匹配法、双向最大匹配法。
6.如权利要求1或5所述的信息检索方法,其特征在于,所述的利用预设的检索方法在所述文件数据库中与所述确定的文件区块相同的文件区块中检索该输入信息的步骤包括如下一个或者多个步骤:
利用所述存储装置中的专业术语词库,提取该输入信息中的关键词;
利用所述存储装置中的同义词词库对该提取的关键词进行同义词扩展并得到扩展后的关键词;
利用所述存储装置中的过滤词库对该扩展后的关键词进行过滤;及
利用字符串匹配法在所述待检索区块中检索该过滤后的关键词。
7.如权利要求6所述的信息检索方法,其特征在于,所述的利用字符串匹配法在所述待检索区块中检索该过滤后的关键词的步骤包括:
利用字符串匹配法从该过滤后的关键词中确定一个或多个最大字符串;及
将每个最大字符串分别作为检索关键字在所述待检索区块中进行检索,并获取每个最大字符串相应的检索到的文件。
8.如权利要求7所述的信息检索方法,其特征在于,所述的确定每个检索到的文件的权值的步骤包括:
将每个检索到的文件中与所述最大字符串中的相同字符作为匹配值,并确定该匹配值的字符数;
在该过滤后的关键词中包括一个最大字符串时,根据每个检索到的文件的匹配值的字符数确定每个检索到的文件的权值;或
在该过滤后的关键词中包括多个最大字符串时,判断该多个最大字符串是否对应有相同的检索到的文件,在该多个最大字符串没有对应相同的检索到的文件时,根据每个检索到的文件的匹配值的字符数确定每个检索到的文件的权值。
9.如权利要求8所述的信息检索方法,其特征在于,所述的确定每个检索到的文件的权值的步骤还包括:
在该多个最大字符串对应有相同的检索到的文件时,判断该相同的检索到的文件对应的不同最大字符串的匹配值是否相同;
在该相同的检索到的文件对应的不同最大字符串的匹配值相同时,确定该匹配值的字符数作为该相同的检索到的文件的权值;或
在该相同的检索到的文件对应的不同最大字符串的匹配值不相同时,将该不相同的多个匹配值的字符数进行加总,并将该加总后的值的字符数作为该相同的检索到的文件的权值。
10.如权利要求1或8所述的信息检索方法,其特征在于,该方法包括:
在每个文件区块内进一步划分子区块,并设置每个子区块的等级。
11.如权利要求10所述的信息检索方法,其特征在于,所述的根据所计算的权值的高低对检索到的文件进行排序的步骤包括:
当权值相同时,依据所述匹配值所处区块及/或子区块的等级确定该检索到的文件的排序。
12.如权利要求1至5及7至11中任一项所述的信息检索方法,其特征在于,所述文件数据库中存储的文件是专利文件,所述的多个文件区块包括摘要、权利要求书、说明书、说明书附图。
13.如权利要求12所述的信息检索方法,其特征在于,所述的存储装置还包括参考数据库,所述参考数据库用于存储与所述文件数据库中的文件的相关联的参考文件。
14.如权利要求13所述的信息检索方法,其特征在于,所述的参考文件包括专利文件的官方意见书及对比文件,该方法还包括:
从多个检索到的文件中选择至少一个文件;
在所述参考数据库中检索该选择的文件对应的官方意见书及对比文件;
从所述官方意见书中提取被驳权利要求的项数、被驳的法律条款以及对比文件;及
确定该选择的文件的驳回信息,该驳回信息包括被驳权利要求的项数、被驳的法律条款及/或对比文件。
15.一种信息检索系统,应用于服务器,所述服务器包括存储装置,其特征在于,所述存储装置包括存储多个文件的文件数据库,该系统包括:
切分模块,用于根据预设切分参数将所述文件数据库中的文件切分成多个文件区块;
接收模块,用于接收输入信息,并确定该输入信息所在的文件区块;
确定模块,用于确定所述文件数据库的所有文件中与所述确定的文件区块相同的文件区块为待检索区块;
检索模块,用于利用预设的检索方法在所述文件数据库中的待检索区块中检索该输入信息,并获取多个检索到的文件;
计算模块,用于确定每个检索到的文件的权值;及
输出模块,用于根据所计算的权值的高低对检索到的文件进行排序。
16.如权利要求15所述的信息检索系统,其特征在于,该系统还包括:
文字编辑器,用于接收所述输入信息并输出所述检索到的文件的信息,所述文字编辑器提供包括多个文件区块的显示界面。
17.如权利要求15所述的信息检索系统,其特征在于,所述的检索模块通过如下的一种或多种方式的结合对输入信息进行检索:
利用所述存储装置中的专业术语词库,提取该输入信息中的关键词;
利用所述存储装置中的同义词词库对该提取的关键词进行同义词扩展并得到扩展后的关键词;
利用所述存储装置中的过滤词库对该扩展后的关键词进行过滤;及
利用字符串匹配法在所述待检索区块中检索该过滤后的关键词。
18.如权利要求17所述的信息检索系统,其特征在于,所述的检索模块还用于利用字符串匹配法从该过滤后的关键词中确定一个或多个最大字符串,及将每个最大字符串分别作为检索关键字在所述待检索区块中进行检索,并获取每个最大字符串相应的检索到的文件。
19.如权利要求18所述的信息检索系统,其特征在于,所述的计算模块通过如下方式确定每个检索到的文件的权值:
将每个检索到的文件中与所述最大字符串中的相同字符作为匹配值,并确定该匹配值的字符数;
在该过滤后的关键词中包括一个最大字符串时,根据每个检索到的文件的匹配值的字符数确定每个检索到的文件的权值;或
在该过滤后的关键词中包括多个最大字符串时,判断该多个最大字符串是否对应有相同的检索到的文件,在该多个最大字符串没有对应相同的检索到的文件时,根据每个检索到的文件的匹配值的字符数确定每个检索到的文件的权值。
20.如权利要求19所述的信息检索系统,其特征在于,所述的计算模块还用于:
在该多个最大字符串对应有相同的检索到的文件时,判断该相同的检索到的文件对应的不同最大字符串的匹配值是否相同;
在该相同的检索到的文件对应的不同最大字符串的匹配值相同时,确定该匹配值的字符数作为该相同的检索到的文件的权值;或
在该相同的检索到的文件对应的不同最大字符串的匹配值不相同时,将该不相同的多个匹配值的字符数进行加总,并将该加总后的值的字符数作为该相同的检索到的文件的权值。
21.如权利要求20所述的信息检索系统,其特征在于,所述的计算模块还用于在该相同的检索到的文件对应的不同最大字符串的匹配值不相同时,判断相同的检索到的文件所对应的匹配值是否相似,若相似则选择保留其中字符数较多的匹配值,将该保留匹配值的字符数作为该检索到的文件的权值,并舍弃其中字符数较少的匹配值。
CN201310110573.5A 2013-04-01 2013-04-01 信息检索系统及方法 Pending CN104090875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310110573.5A CN104090875A (zh) 2013-04-01 2013-04-01 信息检索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310110573.5A CN104090875A (zh) 2013-04-01 2013-04-01 信息检索系统及方法

Publications (1)

Publication Number Publication Date
CN104090875A true CN104090875A (zh) 2014-10-08

Family

ID=51638591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310110573.5A Pending CN104090875A (zh) 2013-04-01 2013-04-01 信息检索系统及方法

Country Status (1)

Country Link
CN (1) CN104090875A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018121153A1 (zh) * 2016-12-29 2018-07-05 北京国双科技有限公司 一种裁判文书的检索方法及装置
CN109656951A (zh) * 2018-12-18 2019-04-19 北京华电天仁电力控制技术有限公司 基于表达式查询数据的方法及查询系统
CN111368530A (zh) * 2018-12-24 2020-07-03 上海新微技术研发中心有限公司 即时通信软件中防止错发消息的方法以及用户终端
CN112581322A (zh) * 2019-09-29 2021-03-30 北京国双科技有限公司 裁判文书的处理方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1151558A (zh) * 1994-11-22 1997-06-11 国际商业机器公司 信息检索方法和系统
CN101149758A (zh) * 2007-10-18 2008-03-26 中兴通讯股份有限公司 搜索系统及搜索方法
CN102043812A (zh) * 2009-10-13 2011-05-04 北京大学 一种医疗信息的检索方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1151558A (zh) * 1994-11-22 1997-06-11 国际商业机器公司 信息检索方法和系统
CN101149758A (zh) * 2007-10-18 2008-03-26 中兴通讯股份有限公司 搜索系统及搜索方法
CN102043812A (zh) * 2009-10-13 2011-05-04 北京大学 一种医疗信息的检索方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018121153A1 (zh) * 2016-12-29 2018-07-05 北京国双科技有限公司 一种裁判文书的检索方法及装置
CN108255862A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 一种裁判文书的检索方法及装置
CN108255862B (zh) * 2016-12-29 2019-09-17 北京国双科技有限公司 一种裁判文书的检索方法及装置
US11288326B2 (en) 2016-12-29 2022-03-29 Beijing Gridsum Technology Co., Ltd. Retrieval method and device for judgment documents
CN109656951A (zh) * 2018-12-18 2019-04-19 北京华电天仁电力控制技术有限公司 基于表达式查询数据的方法及查询系统
CN111368530A (zh) * 2018-12-24 2020-07-03 上海新微技术研发中心有限公司 即时通信软件中防止错发消息的方法以及用户终端
CN112581322A (zh) * 2019-09-29 2021-03-30 北京国双科技有限公司 裁判文书的处理方法及相关装置

Similar Documents

Publication Publication Date Title
US11741173B2 (en) Related notes and multi-layer search in personal and shared content
US9864808B2 (en) Knowledge-based entity detection and disambiguation
US11176124B2 (en) Managing a search
US8498984B1 (en) Categorization of search results
CN108701121B (zh) 将用户输入分派到用户界面中的多个输入域
US7634469B2 (en) System and method for searching information and displaying search results
JP5661200B2 (ja) 検索情報の提供
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
US8762368B1 (en) Context-based filtering of search results
CN103430172A (zh) 检索装置、检索方法及程序
US9026519B2 (en) Clustering web pages on a search engine results page
US8805872B1 (en) Supplementing search results with information of interest
CN103838798A (zh) 页面分类系统及页面分类方法
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN105653701A (zh) 模型生成方法及装置、词语赋权方法及装置
JP2015106354A (ja) 検索サジェスト装置、検索サジェスト方法、及び、プログラム
US7743046B2 (en) Cybernetic search with knowledge maps
CN104090875A (zh) 信息检索系统及方法
US9552415B2 (en) Category classification processing device and method
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
KR20190109628A (ko) 개인화된 기사 컨텐츠 제공 방법 및 장치
CN114780712B (zh) 一种基于质量评价的新闻专题生成方法及装置
WO2018103585A1 (zh) 一种对网页信息条文排序的方法及装置
KR100645711B1 (ko) 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템
JP2013254366A (ja) 情報処理装置および関連語判断方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141008

WD01 Invention patent application deemed withdrawn after publication