CN101901241B - 索引生成系统、信息检索系统以及索引生成方法 - Google Patents

索引生成系统、信息检索系统以及索引生成方法 Download PDF

Info

Publication number
CN101901241B
CN101901241B CN2009102466999A CN200910246699A CN101901241B CN 101901241 B CN101901241 B CN 101901241B CN 2009102466999 A CN2009102466999 A CN 2009102466999A CN 200910246699 A CN200910246699 A CN 200910246699A CN 101901241 B CN101901241 B CN 101901241B
Authority
CN
China
Prior art keywords
document
similar
information
retrieval
visit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009102466999A
Other languages
English (en)
Other versions
CN101901241A (zh
Inventor
中山雄大
鸟居大祐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of CN101901241A publication Critical patent/CN101901241A/zh
Application granted granted Critical
Publication of CN101901241B publication Critical patent/CN101901241B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供索引生成系统、信息检索系统以及索引生成方法。在索引生成装置中,类似度计算单元根据表示用户针对各文档的访问历史的历史信息,计算表示各文档间的访问历史的类似度的访问类似度,类似文档确定单元根据该访问类似度等,确定与成为检索对象的一个文档类似的类似文档。检索索引生成单元根据在由该类似文档和成为检索对象的一个文档构成的集合文档中出现的词语,生成针对成为检索对象的一个文档的检索索引。

Description

索引生成系统、信息检索系统以及索引生成方法
技术领域
本发明涉及索引生成系统、信息检索系统以及索引生成方法。
背景技术
目前,在因特网(WEB)上,庞大的信息作为文档等存储着,用户通过关键字检索等方法访问期望的信息。在现有的检索引擎中,一般是使用用户输入的检索条件和所存储的文档组的单词分布等文档信息之间的关系,提取符合条件的文档,对提取出的多个文档赋予优先顺序并提供给用户。近年来,在因特网上存储了大量以从便携电话或PDA等便携终端阅览为前提的面向便携终端的文档,针对这些文档的检索需求提高。在这种面向便携终端的文档的检索中,由于画面尺寸和通信容量的制约而使面向便携终端的文档的尺寸小、出现的单词少的关系,如果直接使用现有的基于单词分布的检索方法,则存在无法针对用户的请求来高精度地进行文档检索的问题。
与此相对,在日本国专利第3598738号公报所记载的信息检索方法中,将成为检索对象的文档与作为其链接目的地且内容类似的其他文档进行合成,作为集合文档,以通过在该集合文档中出现的单词对成为检索对象的文档附加特征的方式,进行检索索引的扩展。在该信息检索方法中,在成为检索对象的文档中没有出现的单词也包含在检索索引中,所以,期待提高适合于检索关键字(也称为查询词)的文档提取的可能性。
但是,在日本国专利第3598738号公报所记载的信息检索方法中,根据出现单词的分布来计算文档间的内容的类似度,扩展了检索索引,所以能够适用于出现单词数量相对较多的因特网上的一般性文档的检索,但是,难以直接适用于出现单词数量相对较少且尺寸小的面向便携终端的文档的检索。即,在面向便携终端的文档中,例如存在如下倾向:在用户导航中使用的词语(表示页面的滚动指针和链接的“向下”、“回到该页面的最开始”、“下一页”、“返回”、“点击这里”等)、运营站点的企业名称/团体名称、广告条的频度高,构成内容原本的内容的单词相对变少。因此,在现有的信息检索方法中,存在无法适当扩展面向便携终端的文档的检索索引的问题。
发明内容
因此,本发明是鉴于该课题而完成的,其目的在于,提供通过高精度地推定各文档间的内容的类似度,从而能够进行高精度的信息检索的索引生成系统、信息检索系统以及索引生成方法。
为了解决上述课题,本发明者们在反复进行专心研究的过程中,着眼于访问各文档的各个用户分别抱着什么目的来访问因特网上的各文档(例如面向便携终端的文档)。而且,当考虑这种访问倾向时,能够推定出各用户在进行同一个对话时这种规定期间内所访问的各文档间的关联性高。进而,如果能够通过便携电话的服务供应商收集大量的文档访问信息,则能够使这种访问倾向平坦化,也能够进一步提高各文档间的关联性的推定度。因此,本发明者们得出了如果使用用户的访问历史来计算各文档间的访问历史的类似度、则能够使用该类似度来推定文档间的内容的关联性(类似度)这样的见解,从而完成了本发明。
为了解决上述课题,本发明的索引生成系统生成文档检索用的检索索引,其中,该索引生成系统具有:访问历史存储单元,其存储表示用户针对各文档的访问历史的历史信息;类似度计算单元,其根据存储在访问历史存储单元中的历史信息,计算表示各文档间的访问历史的类似度的访问类似度;类似文档确定单元,其根据访问类似度,确定与成为检索对象的一个文档类似的类似文档;以及检索索引生成单元,其根据在由成为检索对象的一个文档和类似文档构成的集合文档中出现的词语,生成针对成为检索对象的一个文档的检索索引,所述访问历史存储单元将频度信息作为所述历史信息进行存储,所述频度信息是将每个用户针对各文档的访问频度与该用户的识别信息对应起来而得到的信息,所述类似度计算单元根据存储在所述访问历史存储单元中的所述频度信息,计算所述访问类似度,所述类似文档确定单元将所述访问类似度与类似判定阈值进行比较,来确定所述类似文档,所述索引生成系统还具有链接距离计算单元,该链接距离计算单元对以将各文档分别进行链接的方式构成的超文本系统上的各文档间的链接结构进行解析,计算基于链接转移的各文档间的链接距离,所述类似文档确定单元使用所述链接距离计算单元,将从成为所述检索对象的一个文档起的链接距离在规定距离以下的文档确定为文档组,并且,将所述文档组所包含的文档和成为所述检索对象的文档之间的所述访问类似度与类似判定阈值进行比较,来确定所述类似文档
并且,本发明的索引生成方法生成文档检索用的检索索引,其中,该索引生成方法包含以下步骤:访问历史存储步骤,在该步骤中,存储表示用户针对各文档的访问历史的历史信息;类似度计算步骤,在该步骤中,根据在访问历史存储步骤中存储的历史信息,计算表示各文档间的访问历史的类似度的访问类似度;类似文档确定步骤,在该步骤中,根据访问类似度,确定与成为检索对象的一个文档类似的类似文档;以及检索索引生成步骤,在该步骤中,根据在由成为检索对象的一个文档和类似文档构成的集合文档中出现的词语,生成针对成为检索对象的一个文档的检索索引,所述访问历史存储步骤将频度信息作为所述历史信息进行存储,所述频度信息是将每个用户针对各文档的访问频度与该用户的识别信息对应起来而得到的信息,所述类似度计算步骤根据在所述访问历史存储步骤中存储的所述频度信息,计算所述访问类似度,所述类似文档确定步骤将所述访问类似度与类似判定阈值进行比较,来确定所述类似文档,所述索引生成方法还具有链接距离计算步骤,该链接距离计算步骤对以将各文档分别进行链接的方式构成的超文本系统上的各文档间的链接结构进行解析,计算基于链接转移的各文档间的链接距离,所述类似文档确定步骤使用所述链接距离计算步骤,将从成为所述检索对象的一个文档起的链接距离在规定距离以下的文档确定为文档组,并且,将所述文档组所包含的文档和成为所述检索对象的文档之间的所述访问类似度与类似判定阈值进行比较,来确定所述类似文档。
根据这种索引生成系统和索引生成方法,能够根据表示用户针对各文档的访问历史的历史信息,计算表示各文档间的访问历史的类似度的访问类似度,根据该访问类似度,确定与成为检索对象的一个文档类似的类似文档,根据在由成为检索对象的一个文档和类似文档构成的集合文档中出现的词语,生成针对成为检索对象的一个文档的检索索引。由于将检索索引扩展到包含高精度推定出的类似文档的区域,所以,如果使用这种检索索引生成系统和索引生成方法,则能够进行高精度的信息检索。
由于访问频度能够比较容易地取得,所以,根据该结构,能够容易地进行类似文档的确定。
根据该结构,从在意思上统一的文档组中确定类似文档,所以,能够提高文档间的内容的类似性的推定精度。
并且,优选上述类似度计算单元以随着由链接距离计算单元计算出的链接距离变大而降低的方式,计算访问类似度。根据该结构,能够减小对用户加大链接转移这种负荷的文档的影响,来确定类似文档,能够进一步提高文档间的内容的类似性的推定精度。
并且,优选所述访问历史存储单元将包含分别与访问频度对应的访问时间的频度信息存储为历史信息,类似度计算单元根据访问时间来增减频度信息中的访问频度,来计算访问类似度。根据该结构,能够对用户长时间阅览的文档进行加权,能够确定基于实际的用户行动的类似文档。
并且,优选所述访问历史存储单元将访问信息存储为历史信息,访问信息是将每个用户针对各文档的访问状况与该用户的识别信息和访问时刻对应起来进行时序化而得到的信息,类似度计算单元根据存储在访问历史存储单元中的访问信息,计算访问类似度,类似文档确定单元将访问类似度与类似判定阈值进行比较,来确定类似文档。规定时刻等的各用户的访问对比较关联的内容的文档进行的可能性高,所以,根据该结构,能够高精度地推定各文档间的内容的类似度,来确定类似文档。
并且,优选所述访问历史存储单元将包含分别与访问状况对应的访问时间的访问信息存储为历史信息,类似度计算单元根据访问时间增减访问信息中的访问状况,来计算访问类似度。根据该结构,能够对用户长时间阅览的文档进行加权,能够确定基于实际的用户行动的类似文档。
并且,优选所述类似文档确定单元具有多个类似判定阈值,并且利用基于多个类似判定阈值的多个模式来确定类似文档,检索索引生成单元根据在基于由多个模式构成的类似文档而确定的文档集合中分别出现的词语,生成针对成为检索对象的一个文档的多个模式的检索索引。根据该结构,能够在进行文档检索时控制检索适合度,所以,能够调整检索件数。
并且,为了解决上述课题,本发明的信息检索系统检索文档,其中,优选该信息检索系统具有信息检索单元,该信息检索单元使用通过上述索引生成系统生成的检索索引,检索适合于检索查询的合适文档。根据这种信息检索系统,能够使用通过上述索引生成系统生成的高精度的检索索引来进行信息检索。
并且,优选上述信息检索单元使用通过具有多个类似判定阈值的索引生成系统生成的多个模式内的一个模式的检索索引,检索适合于检索请求的合适文档,并且,根据检索到的合适文档的数量,选择使用多个模式内的其他模式的检索索引。根据该结构,能够一边通过上述索引生成系统控制检索适合度,一边调整检索件数。
并且,本发明的信息检索系统也可以具有在由信息检索单元检索出同一站点内的多个文档作为合适文档的情况下,进行使与检索请求的类似度大的文档优先的提取的检索结果提取单元;或是进行使构成检索索引的词语数量多的文档优先的提取的检索结果提取单元;或是进行使多个文档内的文档路径为上位的文档优先的提取的检索结果提取单元;或是根据存储在访问历史存储单元中的历史信息,进行使文档访问次数为上位的文档优先的提取的检索结果提取单元;或是根据存储在访问历史存储单元中的历史信息,进行使用户在各对话中的访问开始文档优先的提取的检索结果提取单元。根据该结构,能够恰当地提取检索结果。
附图说明
图1是第1实施方式的信息检索系统的结构概要图。
图2是检索索引生成装置的硬件结构图。
图3是第1实施方式中存储的历史信息数据的一例。
图4是对图3所示的历史信息数据进行规一化处理后的数据的一例。
图5是示出基于图3所示的历史信息数据的访问类似度的数据的一例。
图6是示出第1实施方式的信息检索系统的信息检索方法的流程图。
图7是示出第2实施方式的访问类似度的数据的一例。
图8是第3实施方式的信息检索系统的结构概要图。
图9是第3实施方式中存储的历史信息数据的一例。
图10是示出基于图9所示的历史信息数据的访问类似度的数据的一例。
图11是第4实施方式中存储的历史信息数据的一例。
图12是示出基于图11所示的历史信息数据的访问类似度的数据的一例。
图13是示出第5实施方式的信息检索系统的信息检索方法的流程图。
具体实施方式
下面,根据附图详细说明索引生成系统、信息检索系统以及索引生成方法的优选实施方式。另外,在附图说明中,对同一要素标注同一标号并省略重复说明。
[第1实施方式]
首先,参照图1说明第1实施方式的信息检索系统10的整体结构。如图1所示,信息检索系统10由网络访问服务器20、索引生成装置30、以及信息检索装置40构成,根据来自PC(未图示)或便携终端P的连接请求,能够以有线或无线的方式与因特网等网络NW进行通信。便携终端P除了一般的通话功能以外,还具有与WWW浏览器等网络连接的数据通信功能。在要利用该信息检索系统10检索网络NW上的文档等信息的情况下,由用户从便携终端P输入规定的关键字,便携终端P经由网络访问服务器20向信息检索装置40输出基于该关键字的检索请求。接收到检索请求的信息检索装置40使用索引生成装置30,执行基于该检索请求的检索处理,向便携终端P回复检索结果。然后,在便携终端P的显示器等显示部上显示检索结果,针对由用户从所显示的检索结果中选择的文档等信息进行访问。
这里,网络访问服务器20例如是网关或代理,分别从各便携终端P接收输入到多个便携终端P(例如P1~P3等)的WWW浏览器等中的来自各用户的连接指示信息,对该连接指示进行中继,从而使便携终端P访问网络NW。该网络NW是在因特网上构筑的WWW(World WideWeb),构成具有各文档相互链接的结构的超文本系统。在图1的网络NW中,如图示箭头所示,文档D1链接到文档D2、D3,文档D2链接到文档D3,文档D3链接到文档D4。在这种超文本系统中,不仅能够从PC访问,还能够从便携电话或PDA等便携终端P访问。另外,在图1所示的超文本系统中,为了便于说明,设为由面向便携终端的文档D1~D4构成的WWW,但是,作为本实施方式的对象的文档的数量不限于此,因特网上的多数文档均为对象,并且,各文档由html文件、xml文件、纯文本(simple text)、富文本、图像等各种形式的数据构成。
并且,网络访问服务器20具有访问历史收集部21,该访问历史收集部21根据来自便携终端P的连接指示及其应答等,收集表示各用户的访问历史的历史信息。访问历史收集部21将来自便携终端P的网络NW中的访问目的地文档信息与用户的识别信息结合来进行收集。作为该访问目的地文档信息,例如有URL信息。并且,作为用户的识别信息,例如有网络访问时的登录名、SIM(Subscriber Identity Module)或UIM(UserIdentity Module)的契约者识别编号、IP地址、IMEI(International MobileEquipment Identity)等的终端识别编号。访问历史收集部21除了收集上述信息以外,还能够附加收集访问时刻、访问时间、访问文档内容、通信错误代码等信息。另外,在图1中,有3台便携终端P1~P3对应于网络访问服务器20,但是,为了更高精度地推定文档间的内容的类似度,例如优选便携终端P为100万台左右。
索引生成装置30是由具有各文档间相链接的结构的超文本系统来生成文档检索用的检索索引的装置。索引生成装置30在功能上构成为具有:访问历史存储部31、类似度计算部32、链接距离计算部33、类似文档确定部34、检索索引生成部35、以及检索索引存储部36。该索引生成装置30与网络访问服务器20、信息检索装置40以及网络NW双向连接,能够相互交换信息。
该索引生成装置30由图2所示的硬件构成。图2是索引生成装置30的硬件结构图。如图2所示,图1所示的索引生成装置30在物理上构成为包含CPU 30a、作为主存储装置的RAM 30b和ROM 30c、输入装置30d、显示器等输出装置30e、网卡等作为数据收发器件的通信模块30f、硬盘装置等辅助存储装置30g等的计算机系统。通过在图2所示的CPU30a、RAM 30b等硬件上读入规定的计算机软件,在CPU 30a的控制下使输入装置30d、输出装置30e、通信模块30f动作,并进行RAM 30b和辅助存储装置30g中的数据的读出和写入,由此实现在后面详细叙述的索引生成装置30的各功能。上述网络访问服务器20和后述信息检索装置40也采取相同的硬件结构,构成为能够根据程序来执行各种功能。
访问历史存储部31是存储表示用户对各文档的访问历史的历史信息的部分。访问历史存储部31从访问历史收集部21取得各种历史信息后,存储将每个用户(即每个便携终端P1~P3)对各文档D1~D4的访问频度与该用户的识别信息对应起来的频度信息,作为历史信息。图3示出这种存储数据的一例,示出各用户(U001~U003)对文档D1~D4的访问次数(以下有时也称为“访问频度”)。在该存储数据中,具体示出如下情况:用户U001(便携终端P1)对文档D1访问6次,对文档D2访问0次,对文档D3访问5次,对文档D4访问5次,用户U002(便携终端P2)对文档D1访问2次,对文档D2访问0次,对文档D3访问2次,对文档D4访问1次,用户U003(便携终端P3)对文档D1访问4次,对文档D2访问1次,对文档D3访问3次,对文档D4访问2次。
类似度计算部32是根据存储在访问历史存储部31中的历史信息,计算表示各文档间的访问历史(访问倾向)的类似度的访问类似度的部分。类似度计算部32每隔规定时间,从访问历史存储部31取得频度信息这样的历史信息。然后,为了计算访问类似度,类似度计算部32首先将各用户对各文档的访问次数作为表示各文档的特征的向量(即,使每个用户的访问次数对应于向量的分量),进行规一化的计算,以使各向量的大小为1。例如,在从访问历史存储部31取得的历史信息是图3所示的数据的情况下,为了对用户U001的文档D1的数据进行规一化,将全部用户U001~U003对文档D1的访问次数(6次、2次、4次)分别平方后相加,将该相加后的合计值的平方根(62+22+42)1/2作为分母、将用户U001对文档D1的访问次数(6次)作为分子进行计算,作为归一化后的数据,得到6/(62+22+42)1/2=0.80。针对各个数据进行这种归一化的计算后,如图4所示,各用户U001~U003的文档D1的归一化后的数据为0.80,0.27,0.53(1个向量)。同样,各用户U001~U003的文档D2的归一化后的数据为0,0,1.00,文档D3的归一化后的数据为0.81,0.32,0.49,文档D4的归一化后的数据为0.91,0.18,0.36。
接着,类似度计算部32根据下述式(1)计算各向量间的内积值。这样计算出的内积值是表示各文档间的访问类似度的值。
【数式1】
Sim ( Dx , Dy ) = Σ i = 1 n x i × y i · · · ( 1 )
例如,类似度计算部32根据图4所示的归一化后的数据,根据上述式(1)进行各向量间的内积值的计算后,如图5所示,分别计算得到文档D1、D2间的访问类似度为0.53,文档D1、D3间的访问类似度为0.99,文档D1、D4间的访问类似度为0.97,文档D2、D3间的访问类似度为0.49,文档D2、D4间的访问类似度为0.36,文档D3、D4间的访问类似度为0.97。类似度计算部32向类似文档确定部34输出这样计算出的访问类似度。
链接距离计算部33是对超文本系统上的各文档间的链接结构进行解析、并计算基于链接转移的各文档间的链接距离的部分。链接距离计算部33访问超文本系统上的文档,对各文档D1~D4的链接结构进行解析。然后,链接距离计算部33计算各文档D1~D4间的最短到达距离即链接距离(最小的链接转移次数)。另外,在这种链接距离的计算中,可以利用与WWW爬虫(crawler)相同的方法,以宽度优先的方式探索链接并求出到达距离,也可以按顺序探索记录在上述历史信息中的路径信息(URL信息)并个别地解析各文档D1~D4的链接目的地。根据这种解析,例如,从图1所示的超文本系统上的文档D1起能够以链接距离即链接转移次数1到达的文档是文档D2和文档D3,能够以链接转移次数2到达的文档是文档D4。
类似文档确定部34是根据上述访问类似度等来确定与成为检索对象的一个文档类似的类似文档的部分。当给出了成为检索对象的一个文档(以下记为“检索对象文档”)时,类似文档确定部34首先使用链接距离计算部33的链接距离的计算结果,确定能够从检索对象文档以预先确定的链接距离阈值以下(也可以是多个)的距离进行链接转移的文档,作为文档组。类似文档确定部34从输入自类似度计算部32的访问类似度中,提取这种文档组所包含的文档和检索对象文档之间的各访问类似度,将提取出的各访问类似度与推定为两个文档的内容类似的类似判定阈值TH进行比较。然后,进行了这种比较的类似文档确定部34将访问类似度大于类似判定阈值TH的文档确定为内容与检索对象文档类似的类似文档。
例如在检索对象文档是文档D1、链接距离阈值为2的情况下,类似文档确定部34首先将链接距离为2以下的文档D2、D3、D4确定为文档组。然后,在类似判定阈值TH为0.9的情况下,类似文档确定部34从该文档组中排除访问类似度为0.53的文档D2,将访问类似度为0.99的文档D3和访问类似度为0.97的文档D4确定为类似文档。并且,在检索对象文档是文档D1、链接距离阈值为1的情况下,类似文档确定部34将文档D2、D3确定为文档组,如果类似判定阈值TH为0.9,则排除文档D2,将文档D3确定为类似文档。类似文档确定部34向检索索引生成部35输出与检索对象文档和所确定的类似文档相关的信息。
检索索引生成部35是根据在由检索对象文档和其类似文档构成的集合文档中出现的单词的分布来生成针对检索对象文档的检索索引的部分。当从类似文档确定部34向检索索引生成部35输入了类似文档等的信息时,检索索引生成部35访问网络NW并取得与文档内容相关的信息,根据在基于类似文档而确定的文档集合中出现的词语,生成针对检索对象文档的检索索引。在这样生成检索索引时,也可以变形为在检索索引中包含出现单词的活用形、派生词、不同表述词。并且,检索索引生成部35也可以在检索索引中反映基于使用标签进行标记的加权,也可以不根据单词的分布,而根据在文档中出现的字符串的分布(例如N-GRAM)来生成检索索引。并且,本实施方式中的检索索引的结构没有特别的制约,能够适当采用转置文件、B-TREE等已知结构。检索索引生成部35向检索索引存储部36输出通过上述各种方法、根据集合文档而生成的检索索引。
检索索引存储部36是将由检索索引生成部35生成并输出的针对各文档(检索对象文档)的检索索引与各文档对应起来进行存储的部分。该检索索引存储部36与信息检索装置40之间相互连接,信息检索装置40能够访问检索索引。另外,在本实施方式中,检索索引存储部36配置在索引生成装置30内,但是,也可以构成为配置在索引生成装置30的外部。
信息检索装置40是当从用户的便携终端P接收到检索关键字信息这样的查询(检索请求)时,检索适合于该查询的网络NW上的文档,向该便携终端P发送检索结果信息的部分。信息检索装置40具有信息检索部41和检索结果提取部42。
信息检索部41是使用由索引生成装置30生成的检索索引来检索适合于查询的合适文档的部分。信息检索部41从便携终端P接收到查询后,访问索引生成装置30的检索索引存储部36,使用所存储的检索索引来检索适合于查询的合适文档。例如,信息检索部41接收到查询后,提取在查询中所包含的关键字信息。然后,信息检索部41将提取出的关键字信息与存储在检索索引存储部36中的各种检索索引进行核对,选出适合于查询的合适文档。信息检索部41将这样得到的关于合适文档的信息(URL信息和文档的一部分内容等的信息)作为检索结果信息,发送到有检索请求的便携终端P。
检索结果提取部42是在由信息检索部41检索到同一站点内的多个文档作为合适文档的情况下使与查询的类似度大的文档优先的部分。在信息检索部41将同一站点内的多个文档作为检索结果的情况下,检索结果提取部42例如通过tf/idf法,计算查询(例如由1个词语以上的检索关键字构成的查询)和上述同一站点内的多个文档中的各个文档的类似度。然后,检索结果提取部42进行如下处理:从这些多个文档中选择类似度最高的文档,并从检索结果中丢弃剩余文档。然后,检索结果提取部42向信息检索部41输出仅包含同一站点内的多个文档中类似度高的文档的检索结果,发送到有检索请求的便携终端P。另外,同一站点内的多个文档的提取不一定需要提取到1个文档,也可以提取到2个以上的少量的文档。
接着,说明上述信息检索系统10的包含索引生成方法的检索方法。图6是示出本实施方式的信息检索系统10的检索方法的流程图。如图6所示,首先,访问历史收集部21收集表示多个便携终端P1~P3的用户对文档D1~D4的访问历史的各种历史信息(S101)。在该历史信息中,与用户的识别信息对应地包含访问目的地文档信息(URL信息、访问频度、访问时刻、访问时间、访问文档内容等)。然后,访问历史收集部21向访问历史存储部31输出这些历史信息,访问历史存储部31存储这种历史信息(访问历史存储步骤、S102)。具体而言,访问历史存储部31存储将每个用户针对各文档D1~D4的访问频度与该用户的识别信息对应起来的频度信息(参照图3),作为历史信息。
接着,类似度计算部32根据在步骤S102中存储的历史信息,计算表示各文档间的访问历史的类似度的访问类似度(S103)。为了计算访问类似度,类似度计算部32将各用户针对各文档D1~D4的访问次数作为表示各文档D1~D4的特征的向量,进行归一化的计算,以使各向量的大小为1(参照图4)。然后,类似度计算部32计算各向量间的内积值(参照图5),将该计算出的内积值作为各文档间的访问类似度。类似度计算部32向类似文档确定部34输出这样计算出的访问类似度。并且,链接距离计算部33对超文本系统上的各文档间的链接结构进行解析,计算基于链接转移的各文档间的链接距离(S104),输出到类似文档确定部34。
接着,类似文档确定部34针对在图6的流程图开始的时刻已经给出的检索对象文档,首先,使用链接距离计算部33的链接距离的计算结果,确定能够从检索对象文档以预先确定的链接距离阈值以下的链接距离进行链接转移的文档,作为文档组(S105)。然后,类似文档确定部34从在步骤S103中计算出的访问类似度中,提取这种文档组所包含的文档和检索对象文档之间的各访问类似度,将提取出的各访问类似度与类似判定阈值TH进行比较。然后,类似文档确定部34将访问类似度大于类似判定阈值的文档确定为内容与检索对象文档类似的类似文档(S106)。另外,作为检索对象文档的给出方法,可以是在访问历史中出现的全部文档,也可以是利用惯用的WWW爬虫收集的URL集合,也可以是这两方的组合。
接着,检索索引生成部35根据在由检索对象文档和其类似文档构成的集合文档中出现的单词的分布,来生成针对检索对象文档的检索索引(S107)。检索索引生成部35把在步骤S107中生成的检索索引存储在检索索引存储部36中。然后,索引生成装置30反复进行这种索引的生成,生成网络NW上的各种文档的检索索引。信息检索装置40使用这样制作的检索索引,根据来自便携终端P的检索请求进行检索,向便携终端P回复检索结果(S108)。
如以上说明的那样,根据信息检索系统10,能够根据表示用户针对各文档D1~D4的访问历史的历史信息,计算表示各文档D1~D4间的访问历史的类似度的访问类似度,根据该访问类似度,确定与检索对象文档类似的类似文档,根据在由检索对象文档和类似文档构成的集合文档中出现的词语,生成针对检索对象文档的检索索引。这样,实际还使用用户在访问检索对象文档的同时访问的倾向强的文档的信息,能够生成比仅根据检索对象文档生成的检索索引的规模大的索引,所以,能够防止检索遗漏。即,将检索索引扩展到包含了高精度地推定出的类似文档的区域,所以,如果使用这种检索索引生成系统和索引生成方法,则能够进行高精度的信息检索。另外,不需要在每个单独的装置中配置上述索引生成装置30和信息检索装置40等的各功能,只要在系统上配置上述索引生成装置30和信息检索装置40等的各功能即可,该情况下,通过这些功能构成索引生成系统等。在以下的实施方式中也同样。
并且,访问历史存储部31存储将每个用户针对各文档的访问频度与该用户的识别信息对应起来的频度信息,作为历史信息,类似度计算部32根据存储在访问历史存储部31中的频度信息,计算访问类似度,类似文档确定部34将访问类似度与类似判定阈值TH进行比较,将访问类似度大于类似判定阈值TH的文档确定为类似文档。访问频度能够比较容易地取得,并且,使用类似判定阈值TH进行判定,所以,根据该结构,能够容易地进行类似文档的确定。
并且,信息检索系统10具有链接距离计算部33,该链接距离计算部33对分别将各文档D1~D4进行链接而构成的超文本系统上的各文档D1~D4间的链接结构进行解析,计算基于链接转移的各文档D1~D4间的链接距离,类似文档确定部34使用链接距离计算部33,确定从检索对象文档起的链接距离在规定距离以下的文档作为文档组,并且,将该文档组所包含的文档和检索对象文档之间的访问类似度与类似判定阈值TH进行比较,确定类似文档。根据该结构,能够根据在意思上统一的文档组来确定类似文档,所以,能够提高文档间的内容的类似性的推定精度。
[第2实施方式]
接着,说明本发明的第2实施方式的信息检索系统10。在本实施方式中,第1实施方式中的类似度计算部32成为以随着由链接距离计算部33计算出的链接距离变大而降低的方式计算访问类似度的类似度计算部32a。其他结构与第1实施方式相同。
类似度计算部32a在根据历史信息计算访问类似度时,计算表示各文档D1~D4的特征的向量的内积值,这点与第1实施方式中的类似度计算部32相同。进而,类似度计算部32a对该内积值乘以1/N(N为文档间移动所需要的链接转移次数),作为访问类似度(参照图7的“修正类似度”)。例如,在第1实施方式中,在设链接距离阈值为2、类似判定阈值TH为0.9而确定文档D1的类似文档时,确定了文档D3和文档D4,但是,根据本实施方式,文档D4的修正类似度为0.49而被排除,仅将文档D3确定为类似文档。即,将文档间移动所需要的链接转移次数作为一种惩罚来给出,能够从检索索引的生成中排除由于转移而需要较多的成本(用户对链接的点击)的文档的影响。另外,也可以代替上述1/N,对内积值乘以1/logN或1/N2,作为访问类似度。
[第3实施方式]
接着,说明本发明的第3实施方式的信息检索系统12的整体结构。在本实施方式中,如图8所示,代替第1实施方式中的访问历史存储部31~类似文档确定部34,而具有访问历史存储部51、类似度计算部52、以及类似文档确定部53。另外,访问历史存储部51、类似度计算部52、以及类似文档确定部53的基本功能与第1实施方式的访问历史存储部31、类似度计算部32、以及类似文档确定部34相同。下面,以与第1实施方式的不同点为中心进行说明。
访问历史存储部51是存储表示用户对各文档的访问历史的历史信息的部分。访问历史存储部51从访问历史收集部21取得各种历史信息后,存储将每个用户针对各文档D1~D4的访问状况(有无访问)与该用户的识别信息和访问时刻对应起来而时序化的访问信息,作为历史信息。具体而言,存储按照访问顺序将在同一站点内进行的文档访问进行排列而得到的每个对话的访问信息,作为历史信息。该每个对话的访问信息根据访问时刻等来判定,如果一定时间(例如30分钟)没有进行文档访问时刻,则判定为对话结束。上述每个对话的访问信息不限于同一站点内的访问,只要是一定时间内,则即使是不同站点内的访问,也作为同一对话。
图9示出这种每个对话的访问信息的存储数据的一例。在该存储数据中,用户U001进行3次对话,在第1次对话中按照文档D1→文档D3→文档D4的顺序进行访问,在第2次对话中按照文档D1→文档D3的顺序进行访问,在第3次对话中按照文档D1→文档D3→文档D4的顺序进行访问。同样,用户U002进行3次对话,在第1次对话中按照文档D1→文档D3→文档D4的顺序进行访问,在第2次对话中访问文档D1,在第3次对话中按照文档D1→文档D3的顺序进行访问。并且,用户U003进行2次对话,在第1次对话中按照文档D1→文档D2→文档D3→文档D4的顺序进行访问,在第2次对话中按照文档D2→文档D3的顺序进行访问。
类似度计算部52是根据存储在访问历史存储部51中的历史信息、计算表示各文档间的访问历史的类似度的访问类似度的部分。类似度计算部52根据下述式(2),针对各个文档计算在同一对话内访问某个文档以后访问其他文档的概率。下述式(2)例如是文档D1和文档D2之间的访问类似度的计算式,考虑了访问顺序。另外,在计算其他文档间的访问类似度的情况下,将式(2)中的“文档”置换为要计算的文档。
【数式2】
Figure GDA0000139900660000161
类似度计算部52根据这种计算式(2),例如根据图9所示的访问信息来计算各文档D1~D4间的访问类似度。图10示出这样计算出的各文档间的访问类似度,具体而言,D1→D2的访问类似度为0.14,D1→D3的访问类似度为0.86,D1→D4的访问类似度为0.57,D2→D1的访问类似度为0,D2→D3的访问类似度为1.0,D2→D4的访问类似度为0.5。类似度计算部52向类似文档确定部53输出这样计算出的访问类似度。在由类似度计算部52计算访问类似度时,也可以不考虑访问顺序,使用同一对话内的访问次数来计算访问类似度。
类似文档确定部53是根据上述访问类似度来确定与成为检索对象的一个文档类似的类似文档的部分。当给出了检索对象文档时,类似文档确定部53使用从类似度计算部52输入的访问类似度,与推定为检索对象文档和其他文档的内容类似的类似判定阈值TH进行比较。然后,类似文档确定部34将访问类似度大于类似判定阈值TH的文档确定为内容与检索对象文档类似的类似文档。
例如在检索对象文档是文档D1、类似判定阈值为0.3的情况下,类似文档确定部53排除访问类似度为0.14的文档D2,将访问类似度为0.86的文档D3和访问类似度为0.57的文档D4确定为类似文档。类似文档确定部53向检索索引生成部35输出与检索对象文档和所确定的类似文档相关的信息,检索索引生成部35根据所输入的类似文档等,生成检索索引。
基于这种信息检索系统12的包含索引生成方法的信息检索方法除了使用按照访问顺序排列的每个对话的访问信息作为历史信息这点以外,其他与第1实施方式的信息检索方法大致相同。即,在本实施方式的信息检索系统12的信息检索方法中,不同点在于,在第1实施方式的步骤S102中,访问历史存储部51存储按照访问顺序排列的每个对话的访问信息作为历史信息,在步骤S103中,类似度计算部52根据该访问信息如上所述计算访问类似度,在步骤S106中,类似文档确定部53根据该访问类似度来确定与检索对象文档类似的类似文档。另外,在本实施方式的检索方法中,不包含相当于第1实施方式中的计算链接距离的步骤S104、S105的步骤。
如以上说明的那样,根据信息检索系统12,访问历史存储部51存储将每个用户针对各文档的访问状况与该用户的识别信息和访问时刻对应起来而时序化的每个对话的访问信息,作为历史信息,类似度计算部52根据存储在访问历史存储部51中的访问信息,计算访问类似度,类似文档确定部53将访问类似度与类似判定阈值TH进行比较,将访问类似度大于类似判定阈值TH的文档确定为类似文档。由于在规定时刻等各用户对关联的内容的文档进行访问的可能性比较高,所以,根据该结构,能够高精度地推定各文档间的内容的类似度,来确定类似文档。并且,由于使用类似判定阈值TH进行判定,所以,能够容易地进行类似文档的确定。进而,根据本实施方式,能够省略文档间的链接解析,所以,能够实现处理的高速化,并削减链接距离阈值的设定等的工夫。
[第4实施方式]
接着,说明本发明的第4实施方式的信息检索系统12。在本实施方式中,代替第3实施方式中的访问历史存储部51~类似文档确定部53,具有访问历史存储部51a、类似度计算部52a、以及类似文档确定部53a。另外,访问历史存储部51a~类似文档确定部53a的基本功能与第3实施方式的访问历史存储部51~类似文档确定部53相同。下面,以与第3实施方式的不同点为中心进行说明。
第3实施方式的访问历史存储部51存储基于每个对话的访问状况(有无访问)的历史信息(参照图9),与此相对,访问历史存储部51a是存储包含各文档的访问滞留时间的访问状况的每个对话的历史信息的部分。访问历史存储部51a例如如图11所示,用户U001进行3次对话,在第1次对话中按照文档D1(5.2sec)→文档D3(2.2sec)→文档D4(3.6sec)的顺序进行访问,在第2次对话中按照文档D1(1.2sec)→文档D3(4.4sec)的顺序进行访问,在第3次对话中按照文档D1(0.9sec)→文档D3(1.2sec)→文档D4(5.8sec)的顺序进行访问。同样,用户U002进行3次对话,在第1次对话中按照文档D1(2.2sec)→文档D3(2.2sec)→文档D4(5.2sec)的顺序进行访问,在第2次对话中访问文档D1(5.4sec),在第3次对话中按照文档D1(3.6sec)→文档D3(7.0sec)的顺序进行访问。并且,用户U003进行2次对话,在第1次对话中按照文档D1(1.2sec)→文档D2(3.2sec)→文档D3(8.2sec)→文档D4(9.6sec)的顺序进行访问,在第2次对话中按照文档D2(5.2sec)→文档D3(6.2sec)的顺序进行访问。
类似度计算部52a是根据存储在访问历史存储部51a中的包含访问滞留时间的历史信息,计算表示各文档间的访问历史的类似度的访问类似度的部分。类似度计算部52a根据下述式(3),针对各个文档计算在同一对话内访问某个文档以后访问其他文档时的滞留时间。下述式(3)例如是文档D1和文档D2之间的访问类似度的计算式,考虑了访问顺序。另外,在计算其他文档间的访问类似度的情况下,将式(3)中的“文档”置换为要计算的文档。
【数式3】
Figure GDA0000139900660000192
类似度计算部52a根据这种计算式(3),例如根据图11所示的访问信息来计算各文档D1~D4间的访问类似度。图12示出这样计算出的各文档间的访问类似度,具体而言,D1→D2的访问类似度为0.16,D1→D3的访问类似度为1.28,D1→D4的访问类似度为1.23,D2→D1的访问类似度为0,D2→D3的访问类似度为0.98,D2→D4的访问类似度为1.88。类似度计算部52a向类似文档确定部53a输出这样计算出的访问类似度。类似文档确定部53a根据这样基于滞留时间计算出的访问类似度,与类似文档确定部53同样地确定类似文档。也可以不考虑访问顺序,使用同一对话内的访问滞留时间来计算访问类似度。
如以上说明的那样,根据信息检索系统12,根据用户针对各文档的访问时间,加减(增减)访问信息中的访问状况。根据该结构,能够对用户长时间阅览的文档进行加权,能够确定基于实际的用户行动的类似文档。在第1实施方式的信息检索系统10中,考虑了这种访问时间,也可以根据用户针对各文档的访问时间,来加减访问频度。
[第5实施方式]
接着,说明本发明的第5实施方式的信息检索系统10。在本实施方式中,代替第1实施方式中的类似文档确定部34和检索索引生成部35,具有类似文档确定部34a和检索索引生成部35a。类似文档确定部34a和检索索引生成部35a的基本功能与类似文档确定部34和检索索引生成部35相同。下面,以与第1实施方式的不同点为中心进行说明。
类似文档确定部34a是根据访问类似度等来确定与成为检索对象的一个文档类似的文档的部分。该类似文档确定部34a具有多个确定类似文档时的类似判定阈值TH。即,类似文档确定部34a具有多个类似判定阈值(TH1、TH2、…、THn),利用与各类似判定阈值对应的多个模式来确定类似文档(SD1、SD2、…、SDn)。类似文档确定部34a向检索索引生成部35a输出与这样确定的多个模式的类似文档等相关的信息。
检索索引生成部35a是根据在由多个模式的类似文档和检索对象文档构成的集合文档中分别出现的词语的分布、来生成针对检索对象文档的多个模式的检索索引的部分。当从类似文档确定部34a向检索索引生成部35a输入了多个模式的类似文档(SD1、SD2、…、SDn)等的信息时,检索索引生成部35a根据在基于类似文档而确定的文档集合中分别出现的词语,生成针对检索对象文档的多个模式的检索索引(ID1、ID2、…、IDn)。在检索索引中出现的关键字的数量存在随着类似文档所包含的文档数量的增加而变多的倾向。即,类似文档所包含的文档越多,越能够提高适合于检索请求即查询的可能性。并且,检索索引生成部35a向检索索引存储部36输出所生成的多个模式的检索索引,并存储在检索索引存储部36中。
接着,使用图13,说明由信息检索装置40使用存储了多个模式的检索索引的检索索引存储部36针对一个检索对象文档如上所述进行的信息检索方法。
首先,信息检索装置40设定表示多个模式的检索索引中的一个检索索引的值K、合适文档数量的最小数量Hmin、合适文档的最大数量Hmax,作为初始值(S201)。这里,所使用的值K具有如下关系:K的值越大,则针对检索对象文档的检索索引所包含的关键字越增多(即,值K越大,则适合于检索请求即查询Q的合适文档数量越增加)。
接着,信息检索装置40从便携终端P接收并取得查询Q(S202)。该查询Q例如是由1个词语或多个词语构成的检索关键字,由便携终端P的用户输入到便携终端P。当查询Q被输入后,信息检索装置40从检索索引存储部36取得设定为初始值的检索索引IDk(S203)。然后,使用检索索引IDk来检索适合于查询Q的合适文档(S204)。该检索使用现有的检索方法来实现。步骤S204的检索之后,计算合适文档的数量N(S205)。
接着,当计算出合适文档的数量N后,信息检索装置40将该文档数量N与设定为初始值的合适文档的最小文档数量Hmin进行比较(S206),如果文档数量N在最小文档数量Hmin以上,则进入步骤S207。另一方面,如果文档数量N小于最小文档数量Hmin,则信息检索装置40使值K增加1(S208),判定与该增加后的值K对应的检索索引IDk是否存在于检索索引存储部36中(S209)。然后,如果存在检索索引IDk,则返回步骤S203,反复进行合适文档的检索,如果不存在检索索引IDk,则进入步骤S210,进行错误输出并结束处理。
另一方面,在步骤S207中,将文档数量N与设定为初始值的合适文档的最大文档数量Hmax进行比较,如果文档数量N在最大文档数量Hmax以下,则进入步骤S211,输出合适文档。在输出合适文档时,也可以按照与查询Q类似的顺序进行输出。然后,信息检索装置40对有检索请求的便携终端P发送输出结果。如果文档数量N超过最大文档数量Hmax,则信息检索装置40使值K减少1(S212),判定与该减少后的值K对应的检索索引IDk是否存在于检索索引存储部36中(S213)。然后,如果存在检索索引IDk,则返回步骤S203,反复进行合适文档的检索,如果不存在检索索引IDk,则进入步骤S214,进行错误输出并结束处理。所输出的错误输出也对有检索请求的便携终端P发送。错误输出表示没有检索出所确定的范围的文档数量。
如以上说明的那样,根据信息检索系统10,类似文档确定部34a具有多个类似判定阈值,并且,利用基于多个类似判定阈值的多个模式来确定类似文档,检索索引生成部35a根据在基于由多个模式构成的类似文档而确定的文档集合中分别出现的词语,生成针对检索对象文档的多个模式的检索索引。然后,信息检索装置40使用这样生成的多个模式的检索索引,进行反馈控制,由此能够控制检索件数,能够解决以下问题:检索结果过多而苦于提取范围,或检索结果过少而无法发现期望的文档。用户可以使用便携终端P来设定上述值K、最小文档数量Hmin以及最大文档数量Hmax。例如,在用户希望减少检索到的文档数量的情况下,用户能够通过减小最大文档数量Hmax来对应。
接着,说明第1实施方式~第5实施方式的变形例。在上述各实施方式中,在利用访问历史存储部31、51等存储各种历史信息时,没有特别设置时间限制来得到历史信息,但是,也可以从与最近的T小时(例如24小时)内的访问相关的访问历史中得到历史信息,进行上述各种处理。通过进行这种时间限制,即使是新公开的访问次数(累计次数)少的文档,也能够校正由于新公开而导致的不利部分。并且,也可以准备多个这种T小时,在访问历史存储部31、51等中保持多个历史信息。该情况下,类似度计算部32、52等能够从多个历史信息中选择适当的历史信息,校正针对新文档的访问类似度的不利部分。进而,也可以对最近的T小时进行分割,求出各分割部分的访问频度之比,针对比值大的分割部分(访问次数急剧增加的分割部分),校正(例如有意地增加)存储在访问历史存储部31等中的频度信息。
并且,在上述第1实施方式等中,检索结果提取部42使用tf·idf法进行使与检索请求的类似度大的文档优先的提取,但是,也可以计算在生成检索索引时使用的集合文档和检索请求的类似度,进行选择类似度最高的文档的这种提取。并且,也可以计算构成在生成检索索引时使用的集合文档的文档数量,进行选择构成文档数量多的文档的这种提取。并且,也可以计算在生成检索索引时使用的集合文档中出现的单词或规定关键字的数量,进行选择单词数量或关键字数量多的文档的这种提取。并且,也可以计算构成检索索引的单词(关键字)的数量,进行选择单词数量或关键字数量多的文档的这种提取。
并且,也可以求出置于文档发布用服务器(WWW服务器)中的逻辑目录的路径(URL),进行选择该路径处于上位的文档的这种提取。并且,也可以参照访问历史存储部31、51等计算针对文档的访问次数,进行选择计算数最大的文档的这种提取。并且,也可以参照访问历史存储部31、51等,计算成为在来自用户的访问对话的最开始出现的文档(访问开始文档)的频度,进行选择频度数多的文档的这种提取。并且,也可以参照访问历史存储部31、51等,计算成为在来自用户的访问对话的最开始到M个出现的文档的频度,进行选择该频度数多的文档的这种提取。该情况下,也可以预先确定从1个到M个按顺序减少的得分,不是单纯计算频度,而是将得分累计。该情况下,进行选择得分最大的文档的这种提取。
以上,根据其实施方式具体说明了本发明,但是,本发明不限于上述实施方式。例如,根据来自便携终端P的访问来生成检索索引,但是,也可以根据来自PC等计算机的访问来生成检索索引,并且,当然也可以用于来自PC等计算机的检索。并且,在利用类似度计算部32、52等计算文档间的类似度时,也可以区分对文档的访问是否是最近的访问来计算类似度,或根据对文档的访问增加倾向来计算类似度。这样,能够解决如下问题:针对新制作的文档的访问次数少,而难以反映在检索索引的生成中。
并且,将访问历史存储部31、51等配置在索引生成装置30、50等内,但是,也可以配置在网络访问服务器20内等其他场所。并且,信息检索装置40经由网络访问服务器20与便携终端P连接,但是,也可以经由与网络访问服务器20不同的其他服务器而与便携终端P连接。进而,上述索引生成装置30、50的各功能部和信息检索装置40的各功能部只要存在于信息检索系统10、12的任一方中即可,不一定非要将各装置分开,各功能部也可以存在于不同的装置内。即,各功能部只要作为信息检索信息或索引生成系统而存在即可。

Claims (12)

1.一种索引生成系统,该索引生成系统生成文档检索用的检索索引,其特征在于,该索引生成系统具有:
访问历史存储单元,其存储表示用户针对各文档的访问历史的历史信息;
类似度计算单元,其根据存储在所述访问历史存储单元中的所述历史信息,计算表示各文档间的访问历史的类似度的访问类似度;
类似文档确定单元,其根据所述访问类似度,确定与成为检索对象的一个文档类似的类似文档;以及
检索索引生成单元,其根据在由成为所述检索对象的一个文档和所述类似文档构成的集合文档中出现的词语,生成针对成为所述检索对象的一个文档的检索索引,
所述访问历史存储单元将频度信息作为所述历史信息进行存储,所述频度信息是将每个用户针对各文档的访问频度与该用户的识别信息对应起来而得到的信息,
所述类似度计算单元根据存储在所述访问历史存储单元中的所述频度信息,计算所述访问类似度,
所述类似文档确定单元将所述访问类似度与类似判定阈值进行比较,来确定所述类似文档,
所述索引生成系统还具有链接距离计算单元,该链接距离计算单元对以将各文档分别进行链接的方式构成的超文本系统上的各文档间的链接结构进行解析,计算基于链接转移的各文档间的链接距离,
所述类似文档确定单元使用所述链接距离计算单元,将从成为所述检索对象的一个文档起的链接距离在规定距离以下的文档确定为文档组,并且,将所述文档组所包含的文档和成为所述检索对象的文档之间的所述访问类似度与类似判定阈值进行比较,来确定所述类似文档。
2.根据权利要求1所述的索引生成系统,其特征在于,
所述类似度计算单元以随着由所述链接距离计算单元计算出的链接距离变大而降低的方式,来计算所述访问类似度。
3.根据权利要求1或2所述的索引生成系统,其特征在于,
所述访问历史存储单元将包含分别与所述访问频度对应的访问时间的所述频度信息存储为所述历史信息,
所述类似度计算单元根据所述访问时间来增减所述频度信息中的所述访问频度,来计算所述访问类似度。
4.根据权利要求1或2所述的索引生成系统,其特征在于,
所述类似文档确定单元具有多个所述类似判定阈值,并且利用基于多个所述类似判定阈值的多个模式来确定所述类似文档,
所述检索索引生成单元根据在基于由所述多个模式构成的所述类似文档而确定的所述文档集合中分别出现的词语,生成针对成为所述检索对象的一个文档的多个模式的检索索引。
5.一种信息检索系统,该信息检索系统检索文档,其特征在于,
该信息检索系统具有信息检索单元,该信息检索单元使用通过权利要求1~4中的任一项所述的索引生成系统生成的所述检索索引,检索适合于检索请求的合适文档。
6.根据权利要求5所述的信息检索系统,其特征在于,
所述信息检索单元使用通过权利要求4所述的索引生成系统生成的所述多个模式内的一个模式的所述检索索引,检索适合于检索请求的合适文档,并且,根据检索到的合适文档的数量,选择使用多个模式内的其他模式的所述检索索引。
7.根据权利要求5或6所述的信息检索系统,其特征在于,
所述信息检索系统还具有检索结果提取单元,在由所述信息检索单元检索出同一站点内的多个文档作为所述合适文档的情况下,所述检索结果提取单元进行使与所述检索请求的类似度大的文档优先的提取。
8.根据权利要求5或6所述的信息检索系统,其特征在于,
所述信息检索系统还具有检索结果提取单元,在由所述信息检索单元检索出同一站点内的多个文档作为所述合适文档的情况下,所述检索结果提取单元进行使构成所述检索索引的词语的数量多的文档优先的提取。
9.根据权利要求5或6所述的信息检索系统,其特征在于,
所述信息检索系统还具有检索结果提取单元,在由所述信息检索单元检索出同一站点内的多个文档作为所述合适文档的情况下,所述检索结果提取单元进行使所述多个文档内的文档路径为上位的文档优先的提取。
10.根据权利要求5或6所述的信息检索系统,其特征在于,
所述信息检索系统还具有检索结果提取单元,在由所述信息检索单元检索出同一站点内的多个文档作为所述合适文档的情况下,所述检索结果提取单元根据存储在所述访问历史存储单元中的所述历史信息,进行使文档访问次数为上位的文档优先的提取。
11.根据权利要求5或6所述的信息检索系统,其特征在于,
所述信息检索系统还具有检索结果提取单元,在由所述信息检索单元检索出同一站点内的多个文档作为所述合适文档的情况下,所述检索结果提取单元根据存储在所述访问历史存储单元中的所述历史信息,进行使用户在各个对话中的访问开始文档优先的提取。
12.一种索引生成方法,该索引生成方法生成文档检索用的检索索引,其特征在于,该索引生成方法包含以下步骤:
访问历史存储步骤,在该步骤中,存储表示用户针对各文档的访问历史的历史信息;
类似度计算步骤,在该步骤中,根据在所述访问历史存储步骤中存储的所述历史信息,计算表示各文档间的访问历史的类似度的访问类似度;
类似文档确定步骤,在该步骤中,根据所述访问类似度,确定与成为检索对象的一个文档类似的类似文档;以及
检索索引生成步骤,在该步骤中,根据在由成为所述检索对象的一个文档和所述类似文档构成的集合文档中出现的词语,生成针对成为所述检索对象的一个文档的检索索引,
所述访问历史存储步骤将频度信息作为所述历史信息进行存储,所述频度信息是将每个用户针对各文档的访问频度与该用户的识别信息对应起来而得到的信息,
所述类似度计算步骤根据在所述访问历史存储步骤中存储的所述频度信息,计算所述访问类似度,
所述类似文档确定步骤将所述访问类似度与类似判定阈值进行比较,来确定所述类似文档,
所述索引生成方法还具有链接距离计算步骤,该链接距离计算步骤对以将各文档分别进行链接的方式构成的超文本系统上的各文档间的链接结构进行解析,计算基于链接转移的各文档间的链接距离,
所述类似文档确定步骤使用所述链接距离计算步骤,将从成为所述检索对象的一个文档起的链接距离在规定距离以下的文档确定为文档组,并且,将所述文档组所包含的文档和成为所述检索对象的文档之间的所述访问类似度与类似判定阈值进行比较,来确定所述类似文档。
CN2009102466999A 2008-12-01 2009-12-01 索引生成系统、信息检索系统以及索引生成方法 Expired - Fee Related CN101901241B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008306728A JP4633162B2 (ja) 2008-12-01 2008-12-01 インデックス生成システム、情報検索システム、及びインデックス生成方法
JP2008-306728 2008-12-01

Publications (2)

Publication Number Publication Date
CN101901241A CN101901241A (zh) 2010-12-01
CN101901241B true CN101901241B (zh) 2012-09-19

Family

ID=42223736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102466999A Expired - Fee Related CN101901241B (zh) 2008-12-01 2009-12-01 索引生成系统、信息检索系统以及索引生成方法

Country Status (3)

Country Link
US (1) US8285723B2 (zh)
JP (1) JP4633162B2 (zh)
CN (1) CN101901241B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048765B1 (en) 2008-06-25 2021-06-29 Richard Paiz Search engine optimizer
US11423018B1 (en) * 2010-04-21 2022-08-23 Richard Paiz Multivariate analysis replica intelligent ambience evolving system
US11379473B1 (en) * 2010-04-21 2022-07-05 Richard Paiz Site rank codex search patterns
JP5373710B2 (ja) * 2010-06-30 2013-12-18 ヤフー株式会社 インデックス更新装置及びその方法
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US8620907B2 (en) 2010-11-22 2013-12-31 Microsoft Corporation Matching funnel for large document index
US8478704B2 (en) 2010-11-22 2013-07-02 Microsoft Corporation Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US9342582B2 (en) * 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
US8713024B2 (en) 2010-11-22 2014-04-29 Microsoft Corporation Efficient forward ranking in a search engine
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
US9158767B2 (en) * 2011-04-08 2015-10-13 Microsoft Technology Licensing, Llc Lock-free indexing of documents
US8402030B1 (en) * 2011-11-21 2013-03-19 Raytheon Company Textual document analysis using word cloud comparison
US9721039B2 (en) * 2011-12-16 2017-08-01 Palo Alto Research Center Incorporated Generating a relationship visualization for nonhomogeneous entities
JP5701846B2 (ja) * 2012-11-28 2015-04-15 京セラドキュメントソリューションズ株式会社 画像形成装置
JP5900356B2 (ja) * 2013-01-08 2016-04-06 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US11809506B1 (en) * 2013-02-26 2023-11-07 Richard Paiz Multivariant analyzing replicating intelligent ambience evolving system
US11741090B1 (en) 2013-02-26 2023-08-29 Richard Paiz Site rank codex search patterns
US9164667B2 (en) * 2013-03-15 2015-10-20 Luminoso Technologies, Inc. Word cloud rotatable through N dimensions via user interface
WO2016006276A1 (ja) * 2014-07-10 2016-01-14 日本電気株式会社 インデックス生成装置及びインデックス生成方法
US20160092519A1 (en) * 2014-09-26 2016-03-31 Wal-Mart Stores, Inc. System and method for capturing seasonality and newness in database searches
US9965788B2 (en) 2014-09-26 2018-05-08 Wal-Mart Stores, Inc. System and method for prioritized product index searching
CN109299348B (zh) * 2018-11-28 2021-09-28 北京字节跳动网络技术有限公司 一种数据查询方法、装置、电子设备及存储介质
JP6675742B1 (ja) * 2019-02-15 2020-04-01 国立大学法人大阪大学 文書検索装置、文書検索方法、及び、文書検索プログラム
CN113468278B (zh) * 2021-06-30 2023-09-08 杭州云深科技有限公司 获取目标用户关联关系的系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1890663A (zh) * 2003-12-03 2007-01-03 咕果公司 用于个人化网络搜索的方法和系统
WO2007134894A1 (en) * 2006-05-20 2007-11-29 International Business Machines Corporation A method of bookmarking in an internet browser
CN101097574A (zh) * 2006-06-27 2008-01-02 国际商业机器公司 一种建立文档间关联关系的方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3470861B2 (ja) * 1997-07-17 2003-11-25 株式会社日立情報システムズ 参照アクセス情報の取得システム
JP3849318B2 (ja) 1998-09-10 2006-11-22 富士ゼロックス株式会社 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3705331B2 (ja) * 1998-12-04 2005-10-12 富士ゼロックス株式会社 ハイパーテキスト解析装置及び方法、ハイパーテキスト解析プログラムを記録した記憶媒体
JP2000242626A (ja) * 1999-02-23 2000-09-08 Hitachi Ltd 電子商取引履歴分析方法
JP3931496B2 (ja) * 1999-08-11 2007-06-13 富士ゼロックス株式会社 ハイパーテキスト解析装置
US7213198B1 (en) * 1999-08-12 2007-05-01 Google Inc. Link based clustering of hyperlinked documents
US20030004996A1 (en) * 2001-06-29 2003-01-02 International Business Machines Corporation Method and system for spatial information retrieval for hyperlinked documents
JP2005018530A (ja) * 2003-06-27 2005-01-20 Toshiba Corp 情報処理装置、情報処理プログラム及び情報処理方法
JP4860435B2 (ja) * 2006-11-07 2012-01-25 ヤフー株式会社 閲覧履歴提供システム、閲覧履歴提供方法、および閲覧履歴提供プログラム
JP5340751B2 (ja) 2008-04-22 2013-11-13 株式会社エヌ・ティ・ティ・ドコモ 文書処理装置および文書処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1890663A (zh) * 2003-12-03 2007-01-03 咕果公司 用于个人化网络搜索的方法和系统
WO2007134894A1 (en) * 2006-05-20 2007-11-29 International Business Machines Corporation A method of bookmarking in an internet browser
CN101097574A (zh) * 2006-06-27 2008-01-02 国际商业机器公司 一种建立文档间关联关系的方法和装置

Also Published As

Publication number Publication date
JP2010129061A (ja) 2010-06-10
US8285723B2 (en) 2012-10-09
CN101901241A (zh) 2010-12-01
US20100138426A1 (en) 2010-06-03
JP4633162B2 (ja) 2011-02-16

Similar Documents

Publication Publication Date Title
CN101901241B (zh) 索引生成系统、信息检索系统以及索引生成方法
CN1858733B (zh) 信息检索系统和检索方法
US6883001B2 (en) Document information search apparatus and method and recording medium storing document information search program therein
CN101116072B (zh) 用于分类呈现搜索结果的方法和系统
CN102088419B (zh) 一种在社交网络中查找好友信息的方法和系统
Leung et al. Pmse: A personalized mobile search engine
KR102278020B1 (ko) 챗봇을 이용한 질의응답 처리 장치 및 방법
CN101647020A (zh) 搜索结构化地理数据
CN102722499B (zh) 搜索引擎及其实现方法
CN102722498A (zh) 搜索引擎及其实现方法
WO2006093394A1 (en) Server, method and system for providing information search service by using web page segmented into several information blocks
CN102722501A (zh) 搜索引擎及其实现方法
Prajapati A survey paper on hyperlink-induced topic search (HITS) algorithms for web mining
CN102737021A (zh) 搜索引擎及其实现方法
KR101123697B1 (ko) 공통 관심 사용자 검색장치 및 방법
CN101909018A (zh) 根据用户浏览网页返回即时通信群组的方法与系统
CN101310277B (zh) 获得文本的表示的方法和系统
CN106933864A (zh) 一种搜索引擎系统及其搜索方法
CN102622402B (zh) 使用页面集而提供信息搜索服务的服务器、方法和系统
CN105224555A (zh) 一种搜索的方法、装置和系统
US20040210560A1 (en) Method and system for searching a wide area network
CN100419762C (zh) 适用于输入形式自由的无线短信匹配和搜索引擎的信息处理方法
CN100357942C (zh) 一种移动互联网智能信息搜索引擎的搜索方法
JP2004206492A (ja) ドキュメント表示方法およびそれを用いたリンク先選択機能付ゲートウェイ装置
Bharamagoudar et al. Literature survey on web mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120919

Termination date: 20171201