CN101796493B - 信息检索系统、信息检索方法及程序 - Google Patents

信息检索系统、信息检索方法及程序 Download PDF

Info

Publication number
CN101796493B
CN101796493B CN200880105462.2A CN200880105462A CN101796493B CN 101796493 B CN101796493 B CN 101796493B CN 200880105462 A CN200880105462 A CN 200880105462A CN 101796493 B CN101796493 B CN 101796493B
Authority
CN
China
Prior art keywords
information
mentioned
retrieval
source information
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200880105462.2A
Other languages
English (en)
Other versions
CN101796493A (zh
Inventor
大江尚之
志摩贵浩
前一树
斋藤浩
南井佑介
曾根田亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUMMING HEADS Inc
Original Assignee
HUMMING HEADS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUMMING HEADS Inc filed Critical HUMMING HEADS Inc
Publication of CN101796493A publication Critical patent/CN101796493A/zh
Application granted granted Critical
Publication of CN101796493B publication Critical patent/CN101796493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24561Intermediate data storage techniques for performance improvement
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C15/00Digital stores in which information comprising one or more characteristic parts is written into the store and in which information is read-out by searching for one or more of these characteristic parts, i.e. associative or content-addressed stores

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是具备把存储器区域的名称和表示存储器区域的存储器区域信息相关联进行存储的管理表的信息检索系统。信息检索系统在表示由接收到的源信息检索处信息表示的作为检索对象的源信息存在于存储器中的情况下,从上述管理表中检索与上述接收到的作为检索对象的源信息的源信息名一致的存储器区域的名称。并且,在检索到与接收到的作为检索对象的源信息的源信息名一致的存储器区域的名称的情况下,从上述检索到的存储器区域的名称相关联的存储器区域信息中,取得与上述接收到的检索对象条件信息相符的信息。

Description

信息检索系统、信息检索方法及程序
技术领域
本发明涉及迅速检索用户的目标信息的信息检索系统。
背景技术
随着互联网对社会的渗透,在日常生活、社会活动中人们处理的信息量极大。并且是日趋激增的现状。随着通信网的普及,提高了能一览全世界信息的便利性。Web服务、EDI(electronic data interchange)、EC(电子商务:electronic commerce)等进入日常生活。
而且,由于高速光通信互联网和地面数字播放、卫星通信网、GPS(global positioning system)基础设备的整备和传输质量的提高,使得在全世界不论何处都能利用网络。人类社会通过这些信息网的普及和使用廉价设备,而得到了无论在何处都能利用高附加值信息的好处。
然而,有时人们难以从这样庞大的信息中迅速且正确地检索所需的目标信息。由于信息量太多并且遍及各处,所以检索方法也需要高度的技术。
企业、法人、个人所寻求的信息是多方面的。包括企业信息、学术信息、普通信息在内需要能瞬间提供特别专业化的信息。
从基因排列信息数据库的检索、从文献数据库的全文检索等,需要处理太字节级的信息。
另外近几年,在企业中为了把握是否适当地使用计算机,有时在日常中取得积蓄计算机的操作履历。这样的操作履历每天积蓄,所以信息(数据)量有时也会达到太字节级。
为了利用这样的信息,需要从大量信息中迅速检索作为目标的信息,然而对于太字节级的信息,却难以用通用的市售的关系数据库系统进行处理。
对于难以用市售的数据库系统进行处理的信息,多数情况是以XML(extensible markup language)、CSV格式(comma separated values:把信息按每个项目以逗号分开进行罗列的文件格式)或是固有格式等被结构化的信息格式加以保存。
作为处理被结构化的信息的方法,例如提出有对于XML数据,是使XML文件的处理对象外因素成为CSV格式而谋求减轻CPU(centralprocessor unit)的负荷,期望节省存储器的“XML CSV压缩”等(参照专利文献1、专利文献2)。
通常,在从大容量的数据库检索作为目标的信息时,多数情况是由用户逐步精炼条件,或者不断出现试行错误地反复尝试。
但是,在大容量信息为对象的情况下,因为1次信息检索所需的时间变长,所以不能在一定的时间,例如数小时程度以内进行这样的试行错误的作业,因此实质上不少情况下难以得到作为目标的信息。
特别是在这样大容量信息的情况下,因为不能忽视伴随盘I/O(Input/Output)的文件的读写处理所需的时间,所以在用户进行的全部作业中减少文件的读写次数,这对于谋求用户作业的效率化、短时间化方面是重要的因素。
专利文献1:日本特开2006-277031号公报
专利文献2:日本特开2007-179492号公报
发明内容
本发明能提供一种利用群集计算机系统(cluster computer system)、可并行处理的阵列计算机系统(array computer system)、网格计算等网络上分布的计算机群或者高端个人计算机,从上述被结构化的信息中尽可能迅速地检索需要的信息的信息检索系统。
本发明能对于数百GB(千兆字节,Giga byte:10的9次方)至TB(太字节,Tera byte:10的12次方)级的大容量信息尽可能迅速地进行以与用户的目标对应的条件的信息检索。
根据本发明,提供一种信息检索系统、方法和程序,能够尽可能通过存储器上的处理进行上述分步和试行错误的信息检索的一连串作业。
对于分步进行信息检索的情况,以前考虑在文件中保存某1次检索结果,并把该文件作为源信息而进行下次检索的方法,然而这样的方法在1次检索时必须发生文件的读入、写入。
在本发明中,能把检索结果写入存储器中来代替写入文件中。
由此,在下次检索中不发生从文件的读入。
还有,使用户指定的名称与写入检索结果的存储器区域对应,用户能以与使用文件名访问文件时同样的感觉访问该存储器区域。
因此,根据本发明的第1观点,提供一种信息检索系统,具备:接收单元,其接收执行参数,该执行参数包括:表示作为检索对象的条件的检索对象条件信息、表示作为检索对象的源信息的检索处是使用盘I/O的文件或存储器的任意一个的源信息检索处信息、以及作为检索对象的源信息的源信息名,其中上述作为检索对象的源信息被保存在使用盘I/O的文件或存储器的任意一个中;管理表,其把存储器区域的名称和表示存储器区域的存储器区域信息相关联进行存储;检索单元,其在将上述接收到的源信息检索处信息作为检索处而表示存储器的情况下,从上述管理表中检索与上述接收到的作为检索对象的源信息的源信息名一致的存储器区域的名称;以及取得单元,其在利用上述检索单元检索到与上述接收到的作为检索对象的源信息的源信息名一致的存储器区域的名称的情况下,从由上述检索到的存储器区域的名称相关联的存储器区域信息所表示的存储器区域中,取得与上述接收到的检索对象条件信息相符的信息。
附图说明
图1是表示本发明的实施方式涉及的信息检索系统的图。
图2是表示本发明的实施方式涉及的带名称存储器的管理表的图。
图3是表示分步的检索作业的流程的流程图。
图4是表示利用多CPU和并列设备时的例子的图。
图5是表示通过通信网执行检索时的图。
图6是表示线程管理表的图。
图7是表示调整各处理中使用的线程数的流程的图。
具体实施方式
以下,参照附图对本发明的实施方式涉及的信息检索系统进行说明。
图1表示本发明的实施方式涉及的信息检索系统的程序的构成。
本程序主要由指令程序101和检索程序102构成。
指令程序101和检索程序102可以在同一设备上执行,也可以在不同的设备上执行。
指令程序101通过通信单元向检索程序102发送执行参数。执行参数包括:表示作为检索对象的条件的检索对象条件信息、表示作为检索对象的源信息是否存在于文件或带名称存储器的任意一个中的源信息检索处信息、作为检索对象的源信息的源信息名、表示在文件或带名称存储器的哪个中保存检索到的信息的保存处信息、作为写入对象的检索到的信息的检索结果信息名。
在此,“带名称存储器”是指带有用户指定的名称的存储器区域。
可以把这些执行参数指定为指令程序的执行指令的自变量(例如,“cmd prm1 prm2 prm3”),也可以将其记在文件中,把该文件指定为执行指令的自变量(例如,“cmd file1”),另外还可以采用把它们混合起来的方法来指定(例如,“cmd file1 prm1 prm2”)。在上述例子中cmd表示指令名,prm1、prm2、prm3表示执行参数,file1表示文件名。
也可以把GUI(Graphical User Interface)给予指令程序101,并从GUI输入执行参数。这样的指令程序也可以作为浏览器上的程序进行制作。
检索程序102按照从指令程序101传递的执行参数,依次扫描源信息(作为检索对象的信息)中的信息组(被结构化的信息(数据)的块),并判断该信息组是否符合检索条件(检索对象条件信息),在符合时就把该信息组作为检索结果信息写入带名称存储器或文件中。
检索程序102,当源信息的检索完成时,就把检索处理完成了的意思通知到指令程序101。此时也可以将检索到的信息组的件数、或处理所花费的时间等一并进行通知。
检索程序102在指令程序101涉及的最初的执行指令发出之前启动。另外,检索程序102一直装载在存储器上直到指令程序101涉及的一连串执行指令的结果输出完成为止。
在重复进行的一连串的执行指令期间,检索程序102一直装载在存储器上,在此期间可以把带名称存储器保持在存储器上,像文件一样在执行指令间反复使用。
检索程序102具备:通信处理部103、信息读入处理部104、信息比较/操作处理部105、信息写入处理部106以及管理表107。
通信处理部103从指令程序101接收执行参数。另外,向指令程序101发送检索结果。所发送的结果中包括处理的成功/失败、检索到的信息组的件数以及处理所花费的时间等。指令程序101和检索程序102之间的通信假定是在同一设备内、LAN上、互联网上。
104是信息读入处理部。在由执行参数(表示作为检索对象的源信息是否存在于文件或存储器的任意一个中的源信息检索处信息)指定的源信息为文件时,把文件的一部分或全部暂时读入到存储器上。在由执行参数(源信息检索处信息)指定的源信息为带名称存储器时,参照管理表107,根据作为执行参数(作为检索对象的源信息的源信息名)所给出的名称,确定存储器区域。
作为源信息,可以使用多个文件108和带名称存储器109。也可以把文件夹、驱动器内的文件以及分散到多个PC中的文件等作为源信息。
信息比较/操作处理部105按照从指令程序101传递的执行参数(检 索对象条件信息、源信息检索处信息、源信息名),依次扫描源信息中的信息组,来判断该信息组是否符合检索条件。
作为检索对象条件信息,例如,如果在作为检索对象的源信息中有日期和时间信息项目,则该日期和时间信息为特定的日期和时间范围等。
在成为判断对象的信息组符合条件时,也可以加上置换某信息项目的值等的选择处理。
信息写入处理部106把由信息比较/操作处理部105判断为符合条件的信息组,按照执行参数(保存处信息、检索结果信息名),写入文件111或带名称存储器110中。在写入处为文件时也可以把写入信息的一部分或全部暂时保持在存储器上之后写入文件中。
在以执行参数(保存处信息)指定了带名称存储器为写入处时,在存储器上确保一定尺寸的区域,并把其起始地址和以执行参数(检索结果信息名)指定的名称的组写入管理表107中。也可以把所确保的存储器区域的尺寸、日期和时间等其他信息一并记录在管理表中。要确保的存储器区域的尺寸也可以由执行参数来指定。在写入处为带名称存储器时,把由信息比较/操作处理部105判断为符合条件的信息组写入带名称存储器中。
管理表107管理带名称存储器,如图2所示,记录带名称存储器的名称202和存储器上的起始地址203的对应关系,并可以互相参照。另外,也一并记录最大尺寸204和使用尺寸205等信息。此外,还记录有带名称存储器的作成日期和时间、更新日期和时间等日期和时间信息206、和起始地址中现在的偏离位置等其他信息。根据该管理表,可以使用多个带名称存储器。检索程序102,当源信息的扫描完成时,把检索处理完成了的意思通知到指令程序101。
结果通知113能通知检索到的件数、处理所花费的时间等。
另外,在结果通知113中能通知在检索程序的处理中发生的错误。作为这样的错误,例如可以考虑有与指定了的名称对应的带名称存储器的区域未被确保的情况、对带名称存储器指定了的尺寸的存储器区域不 能确保的情况、要进行超过对带名称存储器指定了的最大尺寸的写入的情况等。另外,作为检索程序102的功能,也可以追加针对特定的信息项目或者信息项目的组合来数出同一值各有几个的功能,由此能有效地数出。
图3是用于说明本发明的实施方式涉及的信息检索处理的流程图。
在一连串的检索作业中,初次检索的源信息301通常是从文件中读入。即,从指令程序101发送到检索程序102的执行参数中的“源信息检索处信息”中指定文件,在“源信息名”中指定文件上的文件名。另外,这些执行参数也可以通过指令程序101由用户来指定,还可以由指令程序本身自动地设定。
检索程序102基于从指令程序101发送的执行参数进行检索处理。具体而言,基于执行参数的“源信息检索处信息”来决定作为检索对象的源信息是否存在于文件或存储器中的任意一个中,并基于“源信息名”来决定作为检索对象的源信息。
在此,由于在“源信息检索处信息”中指定了文件,在“源信息名”中指定了文件上的文件名,因而把由文件上的文件名指定的信息作为源信息,来检索与表示为“检索对象条件信息”的检索对象条件相符的信息。
检索结果的信息(一次检索信息)302是按照执行参数,保存在带名称存储器或文件中(303)。具体而言,检索程序102基于从指令程序101发送的执行参数的“保存处信息”,来决定把检索到的信息保存在文件或存储器的哪个中,并在决定的存放处中,以“检索结果信息名”保存作为写入对象的检索到的信息。
在此,“保存处信息”是表示保存在存储器中的信息。在该情况下,检索程序102在带名称存储器中写入检索到的信息,并且将其与“检索结果信息名”以及写入信息的存储器区域信息一起,保存到管理表201中。如图2所示,在“存储器区域”中包括起始地址、最大尺寸、使用尺寸。另外,也可以保存写入信息的日期和时间等附加的信息。
在下次检索中,用“源信息检索处信息”指定带名称存储器,用“源 信息名”指定名称,由此能把作为上次检索结果的保存在带名称存储器中的信息作为源信息(304)。
在此,在从指令程序101发送来的执行参数的“源信息检索处信息”中指定存储器,在“源信息名”中指定与保存最初检索到的信息的名称相同的名称(即,最初检索时执行参数的“检索结果信息名”)。
检索程序102,在“源信息检索处信息”中指定了存储器的情况下,从管理表201中检索与“源信息名”一致的存储器区域的名称。并且,在检索到与源信息名一致的存储器区域名称的情况下,从检索到的存储器区域的名称相关联的存储器区域,取得与接收到的检索对象条件信息相符的信息。
另外,在“源信息检索处信息”中指定了文件的情况下,从与“源信息名”一致的文件名的文件中取得与检索对象条件信息相符的信息。
检索程序102,基于从指令程序101发送的执行参数的“存放处信息”,决定把检索到的信息保存到文件或存储器的哪个中,并在决定的保存处,用“检索结果信息名”保存作为写入对象的检索到的信息(305)。
在此,“存放处信息”是表示保存在存储器中的信息。在该情况下,检索程序102在带名称存储器中写入检索到的信息,并且将其与“检索结果信息名”以及写入信息的存储器区域信息一起,保存到管理表201中。
在上述执行参数的例子中,对于具有与检索对象处以及信息的保存处相关的信息进行了说明,然而也可以只把与信息的保存处相关的信息(“存放处信息”、“检索结果信息名”)作为执行参数,只预先确保带名称存储器区域,并在管理表201上确保该名称和存储器区域信息。
另外,在管理表201上,有时存在与“检索结果信息名”相当的名称,在这样的情况下,在由该“检索结果信息名”相关联的存储器信息所表示的存储器区域,写入检索到的信息。
通过这样逐步反复检索,用执行参数(“存放处信息”)指定文件,从而能够把最终的检索结果的信息保存到文件中(306)。
另外,中途的检索结果可以根据需要而写出到文件中,还可以将其作为下一个源信息来使用。
各检索可以在每次用户确认了结果之后,决定并执行下一个检索条件,如果是定型地进行的作业,则可以事先决定各次的检索条件,利用批、脚本等连续地执行指令。
图4表示为了从大量的信息中高效且高速地检索作为目标的信息,而在涉及多CPU或多个PC的并列设备环境下利用本发明的情况。
为了高速化,有处理器存在多种的方式。阵列计算机(arraycomputer system)用于处理成为排列、矩阵形式的信息,能以一个指令同时处理多个信息。其典型是超级计算机(supercomputer),能处理庞大数值的矩阵信息等并行高速处理。
此外,并行处理计算机(parallel computer system)有矢量处理器(vector processor system)、群集计算机(cluster computer system),能应对高速化,在这样的环境下利用本发明也是有效的。
在图4中表示作为核的主处理器和按照主处理器的指令进行动作处理的多个子处理器。401是系统总线。系统总线401上连接有主CPU402、双端口RAM(dual port RAM)403、RAM404、ROM405以及子处理器406。
主CPU402控制子处理器群406n1~406nm、406n0。主CPU402进行与子处理器406n1~406nm、406n0的信息交换以及子处理器406n1~406nm、406n0的控制。双端口RAM403能同时对存储器进行信息的输入输出。
RAM404用于主CPU402的存储器。ROM405是程序存储器,写入主处理器402的程序,主处理器402根据该程序进行处理。
子处理器406n1~406nm、406n0在主处理器402的管理下执行处理。按照各带名称存储器和各文件的输入输出处理、按照I/O设备的控制处理、按照其他处理,来分配子处理器进行并行处理。总之均是以高速化为目的地单元。
406n1进行处理407,例如从文件、带名称存储器进行信息读入的处理。
406n2进行处理408,例如进行向文件、带名称存储器写入信息的处理。
406nm进行处理409,例如进行检索条件的比较处理。
这样把独立的处理分配给各处理器是有效的。根据需要,对子处理器406、处理407~409进行增减。
任务的生成、消去、程序的装载、对任务分配子处理器406、中断处理的任务管理(task management),由主处理器402进行。
子处理器406n0进行I/O410的控制。
I/O410通过LAN412与PC411n1~nm连接。
把源信息分散于多个PC411,并通过在各PC中并列地使检索程序动作,从而能高速地进行检索。按各PC中所分配的源信息能一次读入到存储器上的方式来分割源信息是有效的。即配合假定的源信息的尺寸增加PC数即可。
也可以由多个PC411中的一个或多个PC利用指令程序,并在其他PC中使检索程序动作。
本实施方式涉及的多CPU以及并列设备系统,通过对各CPU和PC有效地分配处理和源信息,从而能进行检索的高速处理。
图5是表示把本发明的实施方式涉及的检索系统通过互联网等通信网进一步扩张的情况的图。500表示检索站点的构成。501是检索引擎,包括由检索程序组成的上述说明了的图4构成的并列设备环境。
502是PC,用户、客户从这里开始检索。如先前说明的那样,即使不用PC,用户、客户也能从其他信息设备、PDA(personal digitalassistant)、手机、数字信息家电设备之类的终端设备发送检索指令。
503是万维网服务器(world wide web server),具备互联网的事务 (transaction)处理功能。具有对公共信息通信网的访问功能,还具备抵御黑客(hacker)等不正当侵入的防火墙(fire wall:针对在互联网和LAN之间不正当侵入而守护内部网络的机制)功能。
504是服务器,具有文件服务器、打印服务器、数据库服务器、进行通信控制的交流服务器、进行特定业务处理的应用服务器的功能。
505、506是数据库,其保管信息的各种文件。根据用户的要求访问这里存在的文件进行检索。随时更新、制作信息。
507是有机地连接这些设备的LAN。508是与信息通信网510连接的通信线路。509、510、511是各种专用万维网站(web site)。
511是数据库网站。除了文本数据以外,例如可以作为提供影像、电影等图像的网站。电影在近年由于高清数字相机(hi-vision digitalcamera)的低价格化和高功能化,即使是外行也可以进行高水平的电影制作,因此利用这样的档案库的个人、法人不断增加。
该网站511由通信线路508连接。512是有机地连接档案库设备的LAN,用于连接服务器513、PC514以及数据库515。另外,数据库515积蓄文本、影像、语音信息是太字节级的大容量,在PC514中需要像检索引擎501中的上述说明了的与来自外部的检索对应的检索引擎501。
这样通过对在全世界分散的信息配置检索引擎,从而能从具有指令程序的PC和各种信息设备中进行信息的检索。
在图4中,说明了在多CPU等并列环境中,对检索程序的各处理适当地分配资源,从而能谋求处理的高速化的情况。在这里,更具体地叙述以多个线程进行检索程序的处理时优化对各处理分配的线程数的方法。
作为检索程序的处理,例如可以列举出以下处理:从文件或存储器上保持的信息中读入1个或多个信息组的读入处理、对由上述读入单元读入的信息区分与所指定的条件相符的信息项目组的区分处理、把由上述区分单元区分的信息写入到文件或存储器上的写入处理等。
这些处理能以各自独立的线程进行。
另外,在检索处理中,信息读入处理中的信息读入顺序、区分处理中进行条件比较的信息顺序、写入处理中信息的写入顺序,一般不会对结果造成影响,所以能以多个线程来处理各个处理。
在预先决定信息的格式且一组信息单位的长度为固定的情况下,信息读入或写入位置能容易地计算,因而趋向于这样的并行处理。
假定以一定数的多个线程进行处理的情况下,所有线程为相等的高负荷状态,整体效率最好。
例如,读入处理、区分处理、写入处理的负荷为全部相等的高负荷状态的情况。
作为处理负荷的定义,例如考虑有进行了该处理的所有线程的一定时间内的CPU使用时间的总计等。
在本实施方式中提出通过增加高负荷处理的线程数,减少低负荷处理的线程数,来动态地提高检索程序整体的处理效率的方法。
图6是用于管理各处理可使用的线程数的线程管理表。
本实施方式的检索程序102具备以下功能等,即:接收功能,其接收表示作为检索对象的条件的检索对象条件信息、表示作为检索对象的源信息是否存在于文件或存储器中任意一个中的源信息检索处信息、表示把作为检索对象的源信息的源信息名和检索到的信息保存于文件或存储器的哪个中的保存处信息、作为写入对象的检索到的信息的检索结果信息名;检索功能,其在表示由上述接收到的源信息检索处信息表示的作为检索对象的源信息存在于存储器中的情况下,从管理表中检索与上述接收到的作为检索对象的源信息的源信息名一致的存储器区域的名称;取得功能,在利用上述检索功能检索到与上述接收到的作为检索对象的源信息的源信息名一致的存储器区域的名称的情况下,从上述检索到的与存储器区域的名称相关联的存储器区域中,取得与上述接收到的检索对象条件信息相符的信息;以及保存功能,在表示上述接收到的保存处信息保存在存储器中的情况下,把利用上述取得功能取得的信息 写入存储器中,并且把上述接收到的作为写入对象的检索到的信息的检索结果信息名,与存储器区域一起保存于上述管理表中,然而可把这些各功能分配给线程。
由检索程序102在线程管理表601中,对各处理记录可使用线程数602和现在的负荷信息603。作为负荷信息,如先前叙述的那样,例如考虑有进行了该处理的所有线程一定时间内的CPU使用时间的总计等。线程管理表可由各处理访问。
图7表示动态地优化各处理的可使用线程数的方法的流程。
处理S701是以一定的信息块单位而重复进行。
S702判断对最后的信息块的处理是否完成,在完成时则结束处理,在未完成时则进行线程数的调整处理。
在S703中,参照图6所示的线程管理表,比较各处理的负荷信息,在本处理为最大负荷时,就增加记录在S704线程管理表中的本处理的可使用线程数。例如增加1。
另外,在S705中,对于最小负荷的处理,按其量减少记录在线程管理表中的可使用线程数。例如减少1。
在对下一个信息块进行S701的处理时,是以更新的线程数来进行。
举例具体地说明读入处理。
在S701中从文件中读入一定单位数的信息。可使用线程数设定为2,把这些线程作为A、B。按ABAB…交替地读入1个单位的信息。
假定进行本处理的2线程的总计负荷,例如CPU使用时间为最大,例如写入处理的负荷为最低时,则在线程管理表中把读入处理的可使用线程数增加为3。并且把写入处理的可使用线程数减1。
接下来在S701中进行读入处理时,以3个线程A、B、C按ABCABC…交替地读取。
这样,随时进行增加高负荷处理的线程数,减少低负荷处理的线程数,从而能够以检索程序整体有效地动作的方式动态地进行优化。
在符合条件的信息组较少的情况下,可以预想,与读入处理、区分处理相比,写入处理的处理量会减少,然而在这样的情况下不是对各处理平均地分配线程数而是利用这样的结构,从而能动态地并且自发地分配最佳的线程数。
产业上的可利用性
根据本发明,通过对信息检索结果附加用户指定的名称并将其在存储器上保管,从而在很多情况下能实现提高分步或重复进行的信息检索作业的用户的作业效率、缩短作业时间。
尤其对于太字节级涉及的大容量信息的检索是有效的。
能短时间进行本地硬盘上或通过网络检索分散的信息。
可期待应用于从基因排列信息数据库进行检索、从文献数据库进行全文检索、从计算机的操作履历等中进行信息检索等。

Claims (6)

1.一种信息检索系统,其具备:
接收单元,其接收执行参数,该执行参数包括表示作为检索对象的条件的检索对象条件信息、表示作为检索对象的源信息是否存在于使用盘I/O的文件或存储器的任意一个中的源信息检索处信息、以及作为检索对象的源信息的源信息名,其中上述作为检索对象的源信息被保存在使用盘I/O的文件或存储器的任意一个中;
管理表,其把存储器区域的名称和表示存储器区域的存储器区域信息相关联进行存储;
检索单元,其在表示由上述接收到的源信息检索处信息表示的作为检索对象的源信息存在于存储器中的情况下,从上述管理表中检索与上述接收到的作为检索对象的源信息的源信息名一致的存储器区域的名称;以及
取得单元,其在利用上述检索单元检索到与上述接收到的作为检索对象的源信息的源信息名一致的存储器区域的名称的情况下,从由上述检索到的存储器区域的名称相关联的存储器区域信息所表示的存储器区域中,取得与上述接收到的检索对象条件信息相符的信息,
上述接收单元还接收:表示将检索到的信息保存到文件或存储器的哪个中的保存处信息、以及作为写入对象的检索到的信息的检索结果信息名,
上述信息检索系统还具备保存单元,该保存单元在上述接收到的保存处信息表示保存于存储器中的情况下,把利用上述取得单元取得的信息写入存储器中,并把上述接收到的作为写入对象的检索到的信息的检索结果信息名、与表示写入上述存储器中的信息所写入的存储器区域的存储器区域信息一起,保存到上述管理表中,
在分步进行信息检索的情况下,反复进行把检索结果写入存储器中来代替写入文件中的检索,并通过利用上述保存处信息指定文件而将最终的检索结果的信息保存到文件中。
2.根据权利要求1所述的信息检索系统,其中,
上述存储器区域信息包括:保存上述取得的信息的存储器的起始地址、最大尺寸以及使用尺寸。
3.根据权利要求1所述的信息检索系统,其中,
上述检索对象条件信息、上述源信息检索处信息以及上述源信息名是从指令程序输出,且上述检索单元以及取得单元是与上述指令程序不同的检索程序。
4.根据权利要求3所述的信息检索系统,其中,
上述指令程序保存于第1终端,上述检索程序保存于第2终端。
5.根据权利要求1所述的信息检索系统,其中,
上述检索单元、上述取得单元以及上述保存单元分别被分配到多个线程,
上述信息检索系统还具备:
测量单元,其对进行上述多个线程的处理的CPU测量各线程的处理负荷;以及
变更单元,其基于由上述测量单元测量出的各线程的处理负荷,变更分配到上述检索单元、上述取得单元以及上述保存单元的线程的数量。
6.一种信息检索方法,是具备把存储器区域的名称和表示存储器区域的存储器区域信息相关联进行存储的管理表的信息检索系统中的信息检索方法,其中,
接收执行参数,该执行参数包括表示作为检索对象的条件的检索对象条件信息、表示作为检索对象的源信息是否存在于使用盘I/O的文件或存储器的任意一个中的源信息检索处信息、以及作为检索对象的源信息的源信息名,其中上述作为检索对象的源信息被保存在使用盘I/O的文件或存储器的任意一个中,
在表示由上述接收到的源信息检索处信息表示的作为检索对象的源信息存在于存储器中的情况下,从上述管理表中检索与上述接收到的作为检索对象的源信息的源信息名一致的存储器区域的名称,
在利用检索单元检索到与上述接收到的作为检索对象的源信息的源信息名一致的存储器区域的名称的情况下,从由上述检索到的存储器区域的名称相关联的存储器区域信息所表示的存储器区域中,取得与上述接收到的检索对象条件信息相符的信息,
此外,还接收表示将检索到的信息保存到文件或存储器的哪个中的保存处信息、以及作为写入对象的检索到的信息的检索结果信息名,
在上述接收到的保存处信息表示保存于存储器中的情况下,把取得的信息写入存储器中,并把上述接收到的作为写入对象的检索到的信息的检索结果信息名、与表示写入上述存储器中的信息所写入的存储器区域的存储器区域信息一起,保存到上述管理表中,
在分步进行信息检索的情况下,反复进行把检索结果写入存储器中来代替写入文件中的检索,并通过利用上述保存处信息指定文件而将最终的检索结果的信息保存到文件中。
CN200880105462.2A 2007-09-07 2008-08-29 信息检索系统、信息检索方法及程序 Active CN101796493B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007262705 2007-09-07
JP2007-262705 2007-09-07
PCT/JP2008/065577 WO2009031474A1 (ja) 2007-09-07 2008-08-29 情報検索システム、情報検索方法及びプログラム

Publications (2)

Publication Number Publication Date
CN101796493A CN101796493A (zh) 2010-08-04
CN101796493B true CN101796493B (zh) 2014-10-08

Family

ID=40428793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880105462.2A Active CN101796493B (zh) 2007-09-07 2008-08-29 信息检索系统、信息检索方法及程序

Country Status (5)

Country Link
US (1) US8560540B2 (zh)
EP (1) EP2187312B1 (zh)
JP (1) JP5048072B2 (zh)
CN (1) CN101796493B (zh)
WO (1) WO2009031474A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8453160B2 (en) * 2010-03-11 2013-05-28 Honeywell International Inc. Methods and systems for authorizing an effector command in an integrated modular environment
KR102294177B1 (ko) * 2017-11-16 2021-08-27 가부시키가이샤 히다치 산키시스템 컨트롤 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1551016A (zh) * 2003-04-30 2004-12-01 ������������ʽ���� 文件管理方法及其装置和注解信息产生方法及其装置
JP2005352779A (ja) * 2004-06-10 2005-12-22 Canon Inc 画像記録装置及びその制御方法
JP2007219577A (ja) * 2006-02-14 2007-08-30 Sony Corp データ処理装置、データ処理方法、データ処理方法のプログラム及びデータ処理方法のプログラムを記録した記録媒体

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE503771C2 (sv) * 1994-12-01 1996-09-02 Gibeck Respiration Ab Anordning vid fukt-värmeväxlare
DE69532481D1 (de) 1995-11-02 2004-02-26 Ibm Organisation von speicherebenen und darauf basierende speichersysteme
JPH1021123A (ja) * 1996-07-02 1998-01-23 Nissin Electric Co Ltd 情報処理装置
US6834276B1 (en) * 1999-02-25 2004-12-21 Integrated Data Control, Inc. Database system and method for data acquisition and perusal
CN100380515C (zh) * 2001-10-23 2008-04-09 三星电子株式会社 容易搜索文本信息的信息存储介质及其再现装置和方法
TWI282925B (en) * 2001-10-23 2007-06-21 Samsung Electronics Co Ltd Information storage medium having data structure that allows easy searching of text data, and apparatus and method for reproducing therefor
JP2003150442A (ja) * 2001-11-19 2003-05-23 Fujitsu Ltd メモリ展開プログラムおよびデータ処理装置
CA2365433A1 (en) * 2001-12-19 2003-06-19 Alcatel Canada Inc. System and method for multiple-threaded access to a database
US7533141B2 (en) * 2003-01-24 2009-05-12 Sun Microsystems, Inc. System and method for unique naming of resources in networked environments
JP2004318321A (ja) * 2003-04-14 2004-11-11 Nec Corp 生物情報検索システム及び検索方法
US7117203B2 (en) * 2003-12-03 2006-10-03 International Business Machines Corporation Content addressable data storage and compression for semi-persistent computer memory for a database management system
US7614051B2 (en) * 2003-12-16 2009-11-03 Microsoft Corporation Creating file systems within a file in a storage technology-abstracted manner
US7565343B2 (en) * 2004-03-31 2009-07-21 Ipt Corporation Search apparatus and search management method for fixed-length data
US7773128B2 (en) 2004-06-10 2010-08-10 Canon Kabushiki Kaisha Imaging apparatus
US8577865B2 (en) * 2004-09-29 2013-11-05 Sap Ag Document searching system
US8200700B2 (en) * 2005-02-01 2012-06-12 Newsilike Media Group, Inc Systems and methods for use of structured and unstructured distributed data
US7398281B2 (en) * 2005-02-28 2008-07-08 At&T Delaware Intellectual Property, Inc. Document repository
JP3962748B2 (ja) 2005-03-28 2007-08-22 キヤノン株式会社 情報処理装置及びその方法
WO2006124760A2 (en) * 2005-05-16 2006-11-23 Panvia Future Technologies, Inc. Associative memory and data searching system and method
US7746343B1 (en) * 2005-06-27 2010-06-29 Google Inc. Streaming and interactive visualization of filled polygon data in a geographic information system
JP4899476B2 (ja) 2005-12-28 2012-03-21 富士通株式会社 分割プログラム、連結プログラム、情報処理方法
US9041713B2 (en) * 2006-11-28 2015-05-26 International Business Machines Corporation Dynamic spatial index remapping for optimal aggregate performance
US8301637B2 (en) * 2007-07-27 2012-10-30 Seiko Epson Corporation File search system, file search device and file search method
US8634796B2 (en) * 2008-03-14 2014-01-21 William J. Johnson System and method for location based exchanges of data facilitating distributed location applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1551016A (zh) * 2003-04-30 2004-12-01 ������������ʽ���� 文件管理方法及其装置和注解信息产生方法及其装置
JP2005352779A (ja) * 2004-06-10 2005-12-22 Canon Inc 画像記録装置及びその制御方法
JP2007219577A (ja) * 2006-02-14 2007-08-30 Sony Corp データ処理装置、データ処理方法、データ処理方法のプログラム及びデータ処理方法のプログラムを記録した記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JP特开2005-352779A 2005.12.22
JP特开2007-219577A 2007.08.30
JP特开平10-21123A 1998.01.23

Also Published As

Publication number Publication date
EP2187312B1 (en) 2016-12-21
JP5048072B2 (ja) 2012-10-17
JPWO2009031474A1 (ja) 2010-12-16
US20100161606A1 (en) 2010-06-24
EP2187312A4 (en) 2011-10-05
WO2009031474A1 (ja) 2009-03-12
CN101796493A (zh) 2010-08-04
EP2187312A1 (en) 2010-05-19
US8560540B2 (en) 2013-10-15

Similar Documents

Publication Publication Date Title
US11349940B2 (en) Server side data cache system
US10372723B2 (en) Efficient query processing using histograms in a columnar database
CN102419768B (zh) 用于文档搜索的搜索高速缓存
CN103620549A (zh) 用于统一数据存储的存储介质抽象
US10712943B2 (en) Database memory monitoring and defragmentation of database indexes
CN105117355A (zh) 存储器、存储器系统及其数据处理方法
CN103186622A (zh) 一种全文检索系统中索引信息的更新方法以及装置
US20080222112A1 (en) Method and System for Document Searching and Generating to do List
CN105138649A (zh) 数据的搜索方法、装置及终端
CN102203757B (zh) 用于冻结对象的类型描述符管理
CN109697019A (zh) 基于fat文件系统的数据写入的方法和系统
US11650922B2 (en) Cache coherency engine
CN101796493B (zh) 信息检索系统、信息检索方法及程序
CN115757976A (zh) 基于产品订阅关键词的信息推送方法、系统、介质及设备
JP5942508B2 (ja) サーバ装置、検索方法及びプログラム
JP2018180931A (ja) 管理プログラム、管理方法、及び管理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant