CN103262079A - 检索装置、检索方法、检索程序、及存储该程序的计算机可读取记录介质 - Google Patents

检索装置、检索方法、检索程序、及存储该程序的计算机可读取记录介质 Download PDF

Info

Publication number
CN103262079A
CN103262079A CN2012800042304A CN201280004230A CN103262079A CN 103262079 A CN103262079 A CN 103262079A CN 2012800042304 A CN2012800042304 A CN 2012800042304A CN 201280004230 A CN201280004230 A CN 201280004230A CN 103262079 A CN103262079 A CN 103262079A
Authority
CN
China
Prior art keywords
topic
occurrence frequency
period
searching object
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012800042304A
Other languages
English (en)
Other versions
CN103262079B (zh
Inventor
渡边一史
冈部诚
尾内理纪夫
三条正裕
平野广美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lotte Group Co.,Ltd.
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of CN103262079A publication Critical patent/CN103262079A/zh
Application granted granted Critical
Publication of CN103262079B publication Critical patent/CN103262079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种检索服务器(10),具备:基于简介数据来提取与检索条件对应的检索对象的提取部(15b);以及将提取出的检索对象发送给用户终端(T)的发送部(15c)。检索条件包含:第1指定时期内的、由用户指定的1个以上的每个指定话题的第1出现频度;和该第1指定时期之后的第2指定时期内的该每个指定话题的第2出现频度。提取部(15b),提取满足如下条件的检索对象:根据第1检索对象时期内的简介数据而得到的每个指定话题的出现频度与第1出现频度相同或者类似,且根据该第1检索对象时期之后的第2检索对象时期内的简介数据而得到的每个指定话题的出现频度与第2出现频度相同或者类似。

Description

检索装置、检索方法、检索程序、及存储该程序的计算机可读取记录介质
技术领域
本发明涉及基于所积累的文件执行检索的检索装置、检索方法、检索程序、及存储该程序的计算机可读取记录介质。
背景技术
近年来,博客、微博等基于电子文件的信息发送正在普遍化。另外,关于该电子文件的分析方法,也考虑了各种各样的方法。作为文件分析手法的一种,有利用被称作话题模型(topic model)的文件生成模型的方法。例如下述非专利文献1中,记载了一种通过在该话题模型中导入时序信息,从而根据具有时间信息的文件在视觉上提示流行的转变。
在先技术文献
非专利文献
非专利文献1:Xuerui Wang and Andrew McCallum.Topics over time:a non-markov continuous-time model of topicaltrends.InProceedings of the12th ACM SICKDD international conference onKnowledge discovery and data mining,KDD’06,pp.424-433.New York,NY,USA,2006.ACM.
发明内容
发明要解决的课题
然而,电子文件的发送量是庞大的,个人要遇上自己需要的信息是不容易的。上述非专利文献1中记载的方法,其主要目的在于发现影响力高的作者、提取主题、提取共同体(community),不能说是提供用户所想要查找的状况变化的信息的方法。
因此,要求提示与所希望的状况变化对应的信息。
用于解决课题的技术手段
本发明的一种方式涉及的检索装置,具备:检索单元,其根据基于从规定的数据库中提取出的文件而生成的简介数据(profile data),来提取与由用户指定的检索条件对应的检索对象,该简介数据包含:对检索对象进行确定的识别符、该文件的创建时刻、和通过将该文件内的语句按1个以上的每个话题进行分类而求出的该每个话题的出现频度;以及输出单元,其为了将通过检索单元而提取出的检索对象提示给用户而进行输出,检索条件包含:第1指定时期内的、由用户指定的1个以上的每个指定话题的第1出现频度、和该第1指定时期之后的第2指定时期内的该每个指定话题的第2出现频度,检索单元,提取满足如下条件的检索对象:根据第1检索对象时期内的简介数据而得到的每个指定话题的出现频度与第1出现频度相同或者类似,且根据该第1检索对象时期之后的第2检索对象时期内的简介数据而得到的每个指定话题的出现频度与第2出现频度相同或者类似。
本发明的一种方式涉及的检索方法,是由检索装置执行的检索方法,包括:检索步骤,根据基于从规定的数据库中提取出的文件而生成的简介数据,来提取与由用户指定的检索条件对应的检索对象,该简介数据包含:对检索对象进行确定的识别符、该文件的创建时刻、和通过将该文件内的语句按1个以上的每个话题进行分类而求出的该每个话题的出现频度;以及输出步骤,其为了将在检索步骤中提取出的检索对象提示给用户而进行输出,检索条件包含:第1指定时期内的、由用户指定的1个以上的每个指定话题的第1出现频度、和该第1指定时期之后的第2指定时期内的该每个指定话题的第2出现频度,在检索步骤中,提取满足如下条件的检索对象:根据第1检索对象时期内的简介数据而得到的每个指定话题的出现频度与第1出现频度相同或者类似,且根据该第1检索对象时期之后的第2检索对象时期内的简介数据而得到的每个指定话题的出现频度与第2出现频度相同或者类似。
本发明的一种方式涉及的检索程序,使计算机作为如下单元发挥功能:检索单元,其根据基于从规定的数据库中提取出的文件而生成的简介数据,来提取与由用户指定的检索条件对应的检索对象,该简介数据包含:对检索对象进行确定的识别符、该文件的创建时刻、和通过将该文件内的语句按1个以上的每个话题进行分类而求出的该每个话题的出现频度;以及输出单元,其为了将通过检索单元而提取出的检索对象提示给用户而进行输出,检索条件包含:第1指定时期内的、由用户指定的1个以上的每个指定话题的第1出现频度、和该第1指定时期之后的第2指定时期内的该每个指定话题的第2出现频度,检索单元提取满足如下条件的检索对象:根据第1检索对象时期内的简介数据而得到的每个指定话题的出现频度与第1出现频度相同或者类似,且根据该第1检索对象时期之后的第2检索对象时期内的简介数据而得到的每个指定话题的出现频度与第2出现频度相同或者类似。
本发明的一种方式涉及的计算机可读取的记录介质,对检索程序进行存储,该检索程序使计算机作为如下单元发挥功能:检索单元,其根据基于从规定的数据库中提取出的文件而生成的简介数据,来提取与由用户指定的检索条件对应的检索对象,该简介数据包含:对检索对象进行确定的识别符、该文件的创建时刻、和通过将该文件内的语句按1个以上的每个话题进行分类而求出的该每个话题的出现频度;以及输出单元,其为了将通过检索单元提取出的检索对象提示给用户而进行输出,检索条件包含:第1指定时期内、由用户指定的1个以上的每个指定话题的第1出现频度、和该第1指定时期之后的第2指定时期内的该每个指定话题的第2出现频度,检索单元提取满足如下条件的检索对象:根据第1检索对象时期内的简介数据而得到的每个指定话题的出现频度与第1出现频度相同或者类似,且根据该第1检索对象时期之后的第2检索对象时期内的简介数据而得到的每个指定话题的出现频度与第2出现频度相同或者类似。
若采用以上方式,则具有与两个时期内的每个指定话题的出现频度(第1及第2出现频度)相同或者类似的两个出现频度的检索对象被提取。然后,该检索对象为了提示给用户而被输出。这样,通过提取与被指定的话题有关的出现频度的变化与检索条件一致或者类似的检索对象,从而能够将与所希望的状况变化对应的信息提示给用户。
在别的方式涉及的检索装置中,检索条件还包含:与第1指定时期和第2指定时期之间的1个以上的第3指定时期的每一个有关的每个指定话题的第3出现频度,检索单元提取满足如下条件的检索对象:第1检索对象时期内的出现频度与第1出现频度相同或者类似,第2检索对象时期内的出现频度与第2出现频度相同或者类似,且在时间的前后关系与1个以上的第3指定时期对应的1个以上的第3检索对象时期的每一个中,根据该第3检索对象时期内的简介数据而得到的每个指定话题的出现频度与对应的第3出现频度相同或者类似。
这种情况下,具有与3个以上时期内的每个指定话题的出现频度相同或类似的多个出现频度的检索对象被提取,该检索对象被输出。这样,由于能够进行考虑了状况变化的过程的检索,因此能够将与所希望的状况变化对应的信息提示给用户。
进而别的方式涉及的检索装置中,检索条件进一步包含相邻的指定时期之间的时间间隔,相邻的检索对象时期之间的时间间隔与对应的指定时期之间的时间间隔相同。
这种情况下,由于进一步将指定时期之间的时间间隔指定作为检索条件,因此能够将与所希望的状况变化及该变化的速度对应的信息提示给用户。
进而其他方式的检索装置中,由简介数据表示的1个以上的话题,也可以是从基于从规定的数据库中提取出的文件而得到的话题组中去除规定的无用话题后的剩下的话题。
这种情况下,由于无用的话题被预先去除,因此能够提高检索精度。
进而其他方式涉及的检索装置中,指定话题也可以是包含由简介数据表示的1个以上的话题在内的上层话题。
这种情况下,通过用分层结构表示话题,从而简介数据的话题被汇总为上层话题,进行将该上层话题作为指定话题的检索。通过采用这样的指定话题,检索操作的便利性提高。
进而其他方式涉及的检索装置中,在指定话题存在多个的情况下,若一个指定时期内的、一部分每个指定话题的出现频度相对于每个指定话题的出现频度的总和的比率被变更,则该指定时期内的剩下的每个指定话题的出现频度的比率根据该变更而被调整。
进而其他方式涉及的检索装置中,在一个指定时期内的一部分每个指定话题的出现频度被变更了的情况下,根据与该一个指定时期对应的一个搜索时期内的简介数据而得到的一部分每个指定话题的出现频度,与被变更后的一部分每个指定话题的出现频度相同或者类似,且根据与其他指定时期对应的其他搜索时期内的简介数据而得到的每个指定话题的出现频度,与该其他指定时期内的每个指定话题的出现频度相同或者类似的检索对象被提取,剩下的每个指定话题的出现频度的比率基于一个搜索时期内的该检索对象的每个话题的出现频度而被调整,一个搜索时期与其他搜索时期之间的前后关系,和一个指定时期与其他指定时期之间的前后关系对应。
进而其他方式涉及的检索装置中,基于根据语句在多个话题中重复出现的频度而设定的、表示指定话题彼此之间的关联的强度的权重、和一部分每个指定话题的出现频度的变更量,调整剩下的每个指定话题的出现频度的比率。
这些情况下,用户若改变某个指定话题的出现频度,则其他指定话题的出现频度根据该变更被调整,因此检索操作的便利性提高。
进而其他方式涉及的检索装置中,检索单元进一步从追加的数据库中提取与被提取出的检索对象对应的附加信息,或者提取从第1检索对象时期至第2检索对象时期为止的期间内的该检索对象的每个指定话题的出现频度所对应的附加信息,输出单元进一步为了将由检索单元提取出的附加信息提示给用户而进行输出。
这种情况下,由于与被提取出的检索对象对应的附加信息也被输出,因此不仅能将与所希望的状况变化对应的信息提示给用户,还能够将该附加信息提示给用户。
发明效果
根据本发明的技术方案,由于与被指定的话题相关的出现频度的转变与检索条件一致或者类似的检索对象被提取,因此能够提示与所希望的状况变化对应的信息。
附图说明
图1是表示第1实施方式所涉及的检索系统的整体构成的图。
图2是表示图1所示的检索服务器的功能构成的图。
图3是表示图1所示的检索服务器的硬件构成的图。
图4是表示简介数据的构成例的图。
图5是用于针对简介数据的创建进行说明的图。
图6是用于针对简介数据的创建进行说明的图。
图7是用于针对母话题的设定进行说明的图。
图8是表示在图1所示的用户终端显示的检索画面的示例的图。
图9是用于说明根据用户操作来调整未来模型的方法的一例的图。
图10是用于说明根据用户操作来调整未来模型的方法的另一示例的图。
图11是表示图1所示的检索系统的动作的时序图。
图12是表示第1实施方式所涉及的检索程序的构成的图。
图13是表示第2实施方式所涉及的检索系统的整体构成的图。
图14是表示图13所示的检索服务器的功能构成的图。
图15是表示第2实施方式所涉及的检索程序的构成的图。
具体实施方式
以下,参照附图对本发明的实施方式详细进行说明。另外,在附图说明中对相同或者等同的要素标注相同的符号,并省略重复说明。
(第1实施方式)
首先,采用图1~10对第1实施方式所涉及的检索服务器10的功能及构成进行说明。检索服务器10是提取与由用户指定的检索条件对应的作者(文件创建者)并提示给该用户的检索装置。如图1所示,检索服务器10经由通信网络N与多个文件数据库(规定的数据库)D及多个用户终端T可相互通信地进行连接。图1所示的检索服务器10、文件数据库D、及用户终端T构成检索系统。
在针对检索服务器10进行说明之前,针对文件数据库D及用户终端T进行说明。首先,文件数据库D是对互联网上存在的文件(电子文件)进行存储的计算机。作为文件的例子,可列举在博客、微博、社会性网络服务(SNS)、在线购物网站等投稿的文章,但文件种类、内容不受任何限定。图1中示出两个文件数据库D,但文件数据库D的台数是任意的。另外,设置文件数据库D的场所也是任意的,例如也可以配置在博客管理系统、SNS系统、在线购物系统中。
用户终端T是受理检索条件的输入,并显示与该条件对应的检索结果的计算机。作为用户终端T的例子,可列举高性能移动电话(智能手机)、移动信息终端(PDA)、或者各种个人计算机(平板电脑、台式电脑、笔记本电脑等),但用户终端T的例子并不限定于此。图1中,示出3台用户终端T,但用户终端T的台数是任意的。
以上述情况为前提来针对检索服务器10进行说明。如图2所示,检索服务器10,具备作为功能性构成要素的如下单元:简介数据库11、界面提供部12、第1检索部13、模型调整部14、及第2检索部15。
该检索服务器10,如图3所示,由如下部件构成:执行操作系统、应用程序等的CPU101;由ROM及RAM构成的主存储部102;由硬盘等构成的辅助存储部103;由网卡等构成的通信控制部104;键盘、鼠标等的输入部105;以及监视器等的输出部106。检索服务器10的各功能,通过以下动作而被实现:使规定的软件读入到CPU101、主存储部102上,在CPU101的控制下使通信控制部104、输入部105、输出部106等执行动作,进行主存储部102、辅助存储部103中的数据的读出及写入。处理所需要的数据、数据库被保存在主存储部102、辅助存储部103内。
另外,图3中示出检索服务器10由1台计算机构成,但也可以使该服务器的功能分散在多台计算机中。例如,也可以由具备简介数据库11的计算机和具备除此之外的功能性的构成要素的计算机来构成检索服务器10。
返回图2,简介数据库11是对基于从文件数据库D提取的文件而生成的简介数据进行存储的单元。
简介数据是表示文件在处理怎样的话题(主题),换言之,作者提到怎样的话题的数据,按每个文件而被创建。如图4所示,该简介数据包含:唯一地确定文件的作者的作者ID;唯一地确定该文件本身的文件ID;该文件的创建时刻;针对规定的100个话题(话题0~99)的每一个话题分配给该话题的单词的个数。对各话题分配的单词的个数也可以说是一个文件中的该话题的出现频度。
通过对文件的集合进行分析来决定多个话题,通过对该话题组与各文件进行对照,从而生成简介数据。下面对该处理的详细情况进行说明。
具体而言,采用LDA(Latent Dirichlet Allocation,隐含狄利克雷分配)及吉布斯采样(Gibbs sampling),首先决定100个话题。首先,为了决定话题而从文件数据库D中收集在规定的期间内创建的足够数量的文件。例如,收集最近一周内创建的500万件的文件。在进行收集时,也可以利用规定的应用程序编程接口(API)。例如,在收集Twitter(注册商标)内的文章时能够采用信息流API(Streaming API)。接着,作为前处理,通过将正文中所含的用户名、散列标签(hash tags)等删除,通过词素分析从文件中仅提取名词。
接着,通过对被提取出的名词的集合应用LDA,从而生成频繁出现单词与话题之间的对应表,决定100个话题。此时,为了LDA处理的收敛,而将该处理重复规定次数。该重复次数还可以称作采样次数,例如可以将该次数设定为1000。被生成的对应表的示例在图5中示出。图5中,按每个话题汇总包含商品名A、小组X等的固有名词在内的各种名词。另外,在图5的示例中,为了方便起见,对各话题赋予比如“数码设备”之类的名字。
接着,与上述同样地,采用规定的API,针对为了提供检索服务而需要的数量的用户的每个用户,从文件数据库D中收集规定数量的文件。例如,每个用户收集1000件的文件。在此,该处理中的收集对象期间与决定话题时的期间(在上述例子中为最近一周)不同,是为了提供检索服务而需要的任意期间(例如3个月、1年、3年等)。接着,通过对各文件应用LDA及吉布斯采样,从而将该文件内的单词按每个话题进行分类,由此针对各文件求出每个话题的出现频度。另外,此时,将针对各文件的采样次数设定为50。在吉布斯采样中,由于存在具有随机性的要素,因此将该50次一组的处理重复三次所得到的总计结果作为每个话题的出现频度。
接着,根据检索服务的目的删除无用的话题。在本实施方式中,由于将有着由终端用户(检索者)指定的兴趣的作者作为检索结果显示给该用户,因此也可以忽略与作者的爱好、嗜好无关的信息。因而,将算不上爱好、嗜好的话题删除。例如,也可以将图6所示那样的话题删除。另外,在图6的示例中,为了方便起见,也对各话题赋予“时间”等之类的名字。通过进行这样的删除处理,从而将例如100个话题缩减为40个。这样一来通过预先将无用话题去掉,从而能够提高作者检索的精度。
通过以上处理,生成具有图4所示的数据结构的简介数据,并保存在简介数据库11中。另外,此时,与被删除的话题对应的出现频度被初始化为0。
然而,由于在某一个文件中出现的话题数比较多(例如40个),因此在本实施方式中,为了容易进行用户的检索操作,而将这些话题汇总成几个组。例如如图7所示,预先将通过上述处理而提取出的话题(删除处理后剩下的话题)与5个母话题(IT、生活、政治/经济、娱乐、及游戏/动画)中的任意一个建立关联,将该对应关系保持在检索服务器10内。对用户仅显示母话题。母话题是位于对应的提取话题的上层的概念。
另外,这样的简介数据的准备方法不限于上述示例,还可进行下述这样的变形。
首先,文件的收集方法未被限定,既可以采用规定的爬取(crawling)来收集文件,也可以利用手动操作来进行收集。另外,简介数据还可以定期(动态)地进行。
各处理中收集的文件个数、范围(时间范围以及作者数)、采样次数、将规定的采样次数作为一组处理的情况下的该处理的重复次数并未限定于上述示例,也可以任意进行设定。另外,无用话题的删除、被提取出的话题的汇总(母话题的设定)可以省略。进而,本实施方式中虽然求出单词与话题之间的对应,但语句不限定于单词,也可以是例如由多个单词组成的句子。
返回图2,界面提供部12是将检索处理用的用户界面、即检索画面提供给用户终端T的单元。当想要利用检索服务的终端用户进行规定的操作时,用户终端T将请求检索画面的信号(例如HTTP请求)发送给检索服务器10。界面提供部12根据该信号将检索画面的数据(例如网页)发送给用户终端T。这样一来便在用户终端T上显示检索画面。另外,检索画面的实现方法是任意的,例如也可以通过JAVA(注册商标)应用而非网页应用来进行安装。
检索画面的例子在图8中示出。检索画面100被大致划分为:用于输入检索条件(查询(query))的输入区域110;和显示检索结果的显示区域120。
输入区域110包含:用户输入栏111、期间输入栏112、当前模型栏113、未来模型栏114、检索按钮115、及文件显示栏116。
用户输入栏111是用于输入成为作者检索的基准的用户(基准用户)的界面。终端用户既可以将某人设定作为基准用户,也可以在用户输入栏111指定例如自己或者其他作者。
期间输入栏112是用于输入为了生成后述的当前模型而收集的文件的期间(表示从当前追溯多久来收集文件的期间)的界面。以下,将该期间称作“收集期间”。
当前模型栏113,是将在被指定的收集期间内对由基准用户创建的文件的简介数据进行汇总而得到的每个母话题的出现频度(第1出现频度)以百分率等比例进行显示的区域。每个母话题的出现频度也可以称作“兴趣模型”、“出现频度分布”。以下,将该栏中示出的每个母话题的出现频度称作“当前模型”或者“当前兴趣模型”。本实施方式中,当前模型通过后述的第1检索部13获取,如图8所示那样以直方图形式被显示。
未来模型栏114是受理终端用户进行的每个母话题的出现频度(第2出现频度)的输入的区域。以下,将该栏中示出的每个母话题的出现频度称作“未来模型”或者“未来兴趣模型”。在本实施方式中,未来模型也按比例示出,以直方图形式被显示。
设定及显示与当前模型相同的值,来作为未来模型的初始值,终端用户通过对在该栏内显示的各滚动条(bar)进行上下拉,从而能够改变未来模型(各母话题的出现频度的大小)。由于各母话题的出现频度以比率示出,因此当终端用户改变与某个母话题有关的出现频度的大小时,则其他话题的出现频度被自动调整。具体而言,用户终端T将当前模型、表示被变更后的母话题的变更信息、以及包含该母话题的变更后的出现频度在内的未调整未来模型(调整前的未来模型)的数据发送给检索服务器10。之后,用户终端T接收在检索服务器10的模型调整部14(后述)中被调整后的未来模型的数据并显示在未来模型栏114。这样,若一部分指定话题的出现频度被变更,则由于根据该变更调整其他指定话题的出现频度,因此检索操作的便利性提高。
检索按钮115,是用于向检索服务器10指示基于在输入区域110中被指定的检索条件的检索处理的界面。
文件显示栏116,是根据终端用户的指示输入对为了得到当前模型而采用的文件进行显示的区域。在该栏中显示的文件是作者ID为基准用户ID、且创建时期包含在收集期间内的文件,从文件数据库D中被读出。
显示区域120包含:作者选择栏121、变化前模型栏122、变化后模型栏123、及文件显示栏124。
作者选择栏121是用于从被检索出的1个以上的作者(示出与检索条件相同或者类似的兴趣模型的变化的作者)中选择一人的界面。
变化前模型栏122是显示与在作者选择栏被选择出的作者有关的、与当前模型相同或类似的兴趣模型(以下称作“变化前模型”或者“变化前的兴趣模型”)的区域。
变化前模型栏122,是显示与在作者选择栏被选择出的作者有关的、与未来模型相同或类似的兴趣模型(以下称作“变化后模型”或者“变化后的兴趣模型”)的区域。
文件显示栏124是根据终端用户的指示输入而显示在作者选择栏121被选择出的作者的文件的区域。在该栏显示的文件,是作者ID被选择的作者的文件,且是创建时期包含在与变化前模型或者变化后模型对应的期间内的文件,该文件从文件数据库D中被读出。
另外,兴趣模型的表现方法不限于直方图,也可以任意决定。例如,也可以采用饼图来表现兴趣模型。
返回图2,第1检索部13是基于简介数据库11内的简介数据而生成当前模型的单元。若检索画面100中基准用户及收集期间被输入,则用户终端T将表示该基准用户的用户ID和该收集期间的检索条件(以下还称作“第1检索条件”)发送给检索服务器10。第1检索部13当接收到该检索条件时,则从简介数据库11中读出作者ID为基准用户的用户ID、且创建时刻包含在收集期间内的简介数据。接着,第1检索部13,基于由所提取出的简介数据表示的话题0~99的出现频度、与图7所示那样的对应表,按每个母话题对出现频度进行汇总。接着,第1检索部13,将各母话题的汇总结果换算成比例,将换算后的结果作为兴趣模型发送给用户终端T。这样,当前模型便通过直方图被显示在当前模型栏113。
模型调整部14,是根据检索画面100上的未来模型的变更操作,来对该未来模型中的各出现频度进行调整的单元。模型调整部14,基于从用户终端T接收的当前模型、变更信息、及未调整未来模型,对未来模型的各出现频度进行调整。调整的方法可以任意决定,但在此对两种调整方法进行说明。
第1方法,是参照其他作者的兴趣模型的转变,将与被指定的变化最接近的兴趣模型作为调整后的未来模型的类似兴趣模型参照法。采用图9对该方法进行说明。
若将当前模型及未调整未来模型中的第i个母话题的出现频度分别设为Ti C、Ti D,则当前模型用矢量TC={T0 C,T1 C,T2 C,T3 C,T4 C}t表示,未调整未来模型(所希望的未来模型)用矢量TD={T0 D,T1 D,T2 D,T3 D,T4 D}t表示。另外,t表示倒置(inversion)。这时,在仅针对一部分母话题变更了出现频度的情况下,模型调整部14,基于当前兴趣模型、和仅着眼于出现频度被变更了的母话题的未调整未来模型TD,对简介数据库11进行检索。
例如图9所示,在仅有与第3个及第4个母话题有关的出现频度如箭头A1、A2所示那样被用户变更了的情况下,模型调整部14将未调整未来模型TD={T0 D,T1 D,T2 D,T3 D,T4 D}t置换为TD={*,*,T2 D,T3 D,*}t。在此,“*”是通配符。然后,模型调整部14,对任意期间(其他搜索时期)的第1兴趣模型与当前模型相同或类似,且在该期间之后的期间(一个搜索时期)的第2兴趣模型TF与置换后的未调整未来模型相同或类似的作者进行确定。其中,TF={T0 F,T1 F,T2 F,T3 F,T4 F}t。在此,在判断相同性及类似性时,模型调整部14与下述第2检索部15同样地,利用曼哈顿距离(Manhattan distance)这样的概念。
在对与置换后的未调整未来模型相同或类似的第2兴趣模型TF进行检索时,模型调整部14仅针对变更后的出现频度(在上述例中仅针对T2 D、T3 D)求出曼哈顿距离。另外,各模型中的出现频度的总和必须是固定的,其表现为下述式(1)。
【式1】
Σ i T i C = Σ i T i D = Σ i T i F = const . . . . ( 1 )
然后,模型调整部14,将最类似的作者的第2兴趣模型TF作为未来模型发送给用户终端T。因此,在检索画面100中,显示当前模型TC={T0 C,T1 C,T2 C,T3 C,T4 C}t向未来模型
Figure BDA00003370345700132
转变。
在这样的第1方法中,模型调整部14也可以将最类似的兴趣模型TF以外的模型设定为未来模型。例如,模型调整部14,将按曼哈顿距离从小到大的顺序提取出的规定数量的兴趣模型的平均作为未来模型发送给用户终端T。另外,模型调整部14,也可以将曼哈顿距离为规定值以下的兴趣模型的平均作为未来模型发送给用户终端T。
第2方法,是一种考虑母话题之间的关联性而调整未来模型的各出现频度的话题传播法(topic propagation method)。在通过LDA将各单词与话题之间建立对应时,有些情况下一个单词属于多个话题。根据这样的单词的重复频度而在话题之间产生关联,因此,母话题之间也会产生关联。在话题传播法中,利用表示母话题彼此之间的关联的强度的权重。采用图10说明该方法。
如图10所示,用节点n0~n4表示5个母话题,用wij(i、j为彼此相邻的节点的编号)表示两个话题之间的权重。另外,权重w被保存在检索服务器10内的规定的存储单元中,被模型调整部14参照。
以此为前提,假设例如与节点n2对应的出现频度通过用户操作被变更了v。由于与节点n2相关联的权重是w02、w12、w23、w24,因此为了改变节点n2的出现频度,只要考虑这些权重来决定在与其他节点n0、n1、n3、n4之间移动的出现频度的量即可。若令wT=w02+w12+w23+w24,则模型调整部14按照如下方式来决定其他节点与节点n2之间的移动量。
·在与节点n0之间,v(w02/wT)
·在与节点n1之间,v(w12/wT)
·在与节点n3之间,v(w23/wT)
·在与节点n4之间,v(w24/wT)
其中,在v>0、即针对节点n2增加了出现频度的情况下,根据上述计算有时会出现出现频度成为负值的其他节点。该情况下,模型调整部14,从节点n2向该其他节点使出现频度返回,直至针对该其他节点的出现频度返回至0为止。然后,模型调整部14,与上述同样地执行从其他节点(出现频度返回至0的节点除外)移动对于节点n2而言不足的量v′的处理。另外,在通过用户操作变更了多个话题的出现频度的情况下,模型调整部14只要针对各节点(各话题)的变更量vk(k为节点编号)进行上述调整即可。模型调整部14将调整后的未来模型发送给用户终端T。这样,便在检索画面100显示调整后的未来模型。
返回至图2,第2检索部15,是检索与在检索画面100的输入区域110被指定的检索条件(以下还称作“第2检索条件”)对应的作者的单元。第2检索部15,具备:接收部15a、提取部(检索单元)15b、及发送部(输出单元)15c。
接收部15a,是从用户终端T接收检索条件的单元。当检索画面100上的检索按钮115被终端用户点击时,用户终端T将检索条件发送至检索服务器10,接收部15a接收该检索条件。接收部15a将所接收的检索条件输出至提取部15b。
该检索条件(第2检索条件)中包含:终端用户的用户ID、基准用户的用户ID、收集期间、与该收集期间对应的当前模型、及未来模型。与收集期间对应的当前模型,相当于第1指定时期(收集期间)中的每个母话题的第1出现频度。另外,未来模型,相当于第2指定时期(未来的某时间点或者期间)的每个母话题的第2出现频度。本实施方式中,5个母话题被作为指定话题处理。
提取部15b,是基于简介数据库11内的简介数据,提取与被输入的检索条件对应的作者的单元。提取部15b,将与终端用户及基准用户不同的用户设定为检索对象的作者。即,提取部15b,对具有与被输入的两个用户ID中的任意一个均不同的作者ID的简介数据执行检索处理。因此,确定检索对象的识别符是作者ID。
提取部15b,针对检索对象的各作者执行如下这样的检索处理。即,提取部15b从简介数据库11中读出与被输入的收集期间对应的任意期间(以下也称作“开始期间”,相当于第1检索对象时期)所对应的简介数据。在此,在开始期间和收集期间,期间的始点及终点互不相同,但期间的长度相同。其中,严格意义上的长度也可以是不同的。例如,在收集期间为最近的一个月,且为4月1日~4月30日的30天的情况下,开始期间也可以设为3月1日~3月31日的31天,或者设为2月1日~2月28日的28天。
接着,提取部15b通过按每个母话题对由所读出的1个以上的简介数据所表示的出现频度进行汇总,从而生成开始期间内的兴趣模型。接着,提取部15b,判定所生成的兴趣模型是否与当前模型相同或者类似。
提取部15b,在判断兴趣模型的相同性及类似性时,采用下述式(1)所表示的曼哈顿距离d1(x,y)。
【式2】
d 1 ( x , y ) = Σ k = 1 n | x k - y k | . . . ( 2 )
在此,左边的x是作为检索条件而被设定的兴趣模型的矢量,左边的y是与检索对象的作者有关的兴趣模型的矢量。另外,n是母话题的个数,在本实施方式中,n=5。右边的xk是作为检索条件而被设定的兴趣模型中的母话题k的出现频度(比率),右边的yk是与检索对象的作者有关的兴趣模型中的母话题k的出现频度(比率)。矢量x、y分别表示为x={x1,x2,x3,x4,x5}、y={y1,y2,y3,y4,y5}。
提取部15b,在上述曼哈顿距离为规定的阈值以下的情况下,判定开始期间的兴趣模型与当前模型相同或者类似。另外,阈值的决定方法是任意的。如果曼哈顿距离是0,则能得到与当前模型相同的兴趣模型。
另外,提取部15b,从简介数据库11中读出期间长度与收集期间相同、且始点在开始期间之后的任意期间(以下也称作“结束期间”,相当于第2检索对象时期)所对应的简介数据。在此,结束期间与收集期间之间的始点、终点、及期间的长度关系,与关于开始期间所描述的情况相同。接着,提取部15b通过按每个母话题对由所读出的1个以上的简介数据所表示的出现频度进行汇总,从而生成结束期间的兴趣模型。接着,提取部15b判断所生成的兴趣模型是否与未来模型相同或者类似。在进行该判定的情况下,提取部15b也采用由上述式(1)所表示的曼哈顿距离d1(x,y),与开始期间的情况同样地判定相同性及类似性。
提取部15b,针对一个作者改变开始期间及结束期间,同时在这两个期间内提取曼哈顿距离成为规定的阈值以下的兴趣模型的组合。然后,将与该组合相关的、开始期间及结束期间所对应的两个兴趣模型分别作为变化前模型及变化后模型进行保持。另外,提取部15b还对与变化前后的兴趣模型对应的开始期间及结束期间进行保持。另外,在得到多个与检索条件相同或类似的变化前及变化后的兴趣模型的组合的情况下,提取部15b只要采用任意方法选择一个组合即可。例如,提取部15b也可以选择曼哈顿距离的和或者平均值为最小的组合。
提取部15b,针对各作者进行这样的处理,获取关于与被输入的检索条件一致的一个以上的作者的作者ID、变更前模型、变更后模型、以及与这些模型对应的开始期间及结束期间。然后,提取部15b将所取得的这些数据作为检索结果输出至发送部15c。
发送部15c,是为了将被输入的检索结果提示给终端用户,而将该检索结果发送至用户终端T的单元。这样,便在显示于用户终端T的检索画面100的显示区域120显示变更前模型及变更后模型。
接着,采用图11,针对检索系统(尤其检索服务器10)的动作进行说明,并且针对本实施方式所涉及的检索方法进行说明。
以下,以在用户终端T上显示检索画面100为前提进行说明(步骤S11)。若由终端用户指定了用于得到当前模型的第1检索条件、即基准用户及收集期间(步骤S12),则用户终端T将该第1检索条件发送至检索服务器10(步骤S13)。检索服务器10中,第1检索部13基于该检索条件从简介数据库11中提取简介数据,基于该简介数据生成当前模型(步骤S14)。然后,第1检索部13将该当前模型发送至用户终端T(步骤S15)。在用户终端T,该当前模型被显示在检索画面100(步骤S16)。此时,本实施方式中与当前模型相同的值作为未来模型的初始值而被设定及显示。
之后,若由终端用户变更了该未来模型内的出现频度(步骤S17),则用户终端T将表示该变更的未调整未来模型发送至检索服务器10(步骤S18)。在检索服务器10中,模型调整部14通过对该未调整未来模型应用类似兴趣模型参照法、话题传播法等方法,从而调整该未来模型(步骤S19),并将被调整后的未来模型发送至用户终端T(步骤S20)。在用户终端T将调整后的未来模型显示于检索画面100(步骤S21)。步骤S17~S21的处理,根据终端用户的操作能够被重复执行。
之后,若终端用户点击检索按钮115来指示检索(步骤S22),则用户终端T将用于检索作者的条件、即包含当前及未来的兴趣模型在内的第2检索条件发送至检索服务器10(步骤S23)。
在检索服务器10中,接收部15a接收该检索条件。接着,提取部15b基于该检索条件从简介数据库11中提取简介数据,基于该简介数据检索作者(步骤S24、检索步骤)。具体而言,提取部15b,采用曼哈顿距离这样的概念,提取开始期间的兴趣模型与当前模型相同或者类似,且结束期间的兴趣模型与未来模型相同或者类似的作者。此时,提取部15b,将所生成及判定出的兴趣模型作为变化前模型及变化后模型进行保持。然后,发送部15c将被提取出的作者与该变化前后的兴趣模型一起作为检索结果发送至用户终端T(步骤S25、发送步骤)。在用户终端T,该检索结果被显示在检索画面100(步骤S26)。这样,终端用户便能够得到检索结果。
接着,采用图12,说明用于使计算机作为检索服务器10发挥功能的检索程序P1。
检索程序P1具备:主模块P10、简介存储模块P11、界面提供模块P12、第1检索模块P13、模型调整模块P14、及第2检索模块P15。第2检索模块P15具备:接收模块P15a、提取模块P15b、及发送模块P15c。
主模块P10,是对检索功能进行统一控制的部分。通过执行简介存储模块P11、界面提供模块P12、第1检索模块P13、模型调整模块P14、及第2检索模块P15而实现的功能,分别与上述简介数据库11、界面提供部12、第1检索部13、模型调整部14、及第2检索部15的功能相同。通过执行接收模块P15a、提取模块P15b、及发送模块P15c而实现的功能,分别与上述的接收部15a、提取部15b、及发送部15c的功能相同。
检索程序P1,在以固定的形式被记录在例如CD-ROM、DVD-ROM、半导体存储器等有形的记录介质中之后被提供。另外,检索程序P1也可以作为与载波重叠的数据信号通过通信网络而被提供。
如以上所说明,根据本实施方式,具有与两个时期的每个指定话题的出现频度(当前及未来的兴趣模型)相同或类似的两个出现频度(变化前及变化后的兴趣模型)的作者被提取。然后,被提取出的作者作为检索结果被发送至用户终端T,并被显示在检索画面100上。这样,通过提取与被指定的话题有关的出现频度的变化与检索条件一致或者类似的作者,从而能够按照被用户指定的那样,将兴趣发生变化的作者的信息提示给该用户。另外,作者的兴趣变化是状况变化的一种。
(第2实施方式)
接着,采用图13、14对第2实施方式所涉及的检索服务器10A的功能及构成进行说明。该检索服务器10A,不仅进行作者检索,还将由被检索出的作者购买的商品、与该作者的兴趣模型的变化对应的商品的信息提供给用户终端,这一点与第1实施方式中的检索服务器10不同。以下,关于与第1实施方式相同或者等同的事项省略说明。
如图13所示,本实施方式的检索系统进一步具备:作为追加的数据库的商品数据库P及购买履历数据库R。商品数据库P,是对包含确定商品的商品ID、以及该商品的名称、类别、价格、商品图像等的任意商品属性在内的商品数据进行存储的单元。另外,购买履历数据库R,是对包含确定购买了商品的用户的用户ID、该商品的商品ID、以及购买日期在内的购买数据进行存储的单元。作为商品数据库P及购买履历数据库R的设置场所,可列举例如在线购物系统内,但这些数据库可以被设置在任何地方,不必要设置在同一系统内。另外,图1中虽然仅示出一个商品数据库P及购买履历数据库R,但这些数据库的台数不受任何限定。检索服务器10A,与商品数据库P及购买履历数据库R之间均能通过通信网络N进行通信。
如图14所示,检索服务器10A,具备作为功能性的构成要素的如下单元:简介数据库11、界面提供部12、第1检索部13、模型调整部14、及第2检索部15A。以下,针对与第1实施方式不同的第2检索部15A进行说明。
第2检索部15A具备:接收部15a、提取部15b、推荐部(检索单元)15d、及发送部15c。接收部15a及发送部15c的功能,与在第1实施方式中说明的相同。另外,提取部15b,在将检索结果输出给推荐部15d这一点与第1实施方式不同,但得到该检索结果的功能的详细情况与第1实施方式中说明的同样。因此,以下,省略接收部15a、提取部15b、及发送部15c的说明,仅针对推荐部15d进行说明。
推荐部15d,是提取对终端用户提示的推荐商品(recommended item)的单元。在此,说明两种提取方法。
第1方法是一种提取与被检索出的作者关联的商品的方法。推荐部15d,针对由被输入的检索结果表示的各作者执行以下处理。
推荐部15d,参照与一个作者的变化前模型及变化后模型对应的开始期间及结束期间,获取这两个期间的时间间隔作为转变期间。另外,转变期间的始点是开始期间的始点或者终点,转变期间的终点是结束期间的始点或者终点。
接着,推荐部15d从购买履历数据库中读出用户ID是作者的用户ID,且购买日期包含在该转变期间内的购买数据,从而获取作者在该转变期间内购买的商品的商品ID。
这时,在能够获取1个以上的商品ID的情况下,推荐部15d,从商品数据库P中读出与该商品ID对应的商品数据,生成包含商品名、价格、商品图像等在内的推荐信息(附加信息)。另外,此时,推荐部15d,也可以对由商品数据表示的商品的类别和5个母话题进行比较,仅针对属于与某个母话题对应的类别的商品生成推荐信息。
例如,推荐部15d也可以仅提取属于在变化后模型中出现频度最高的母话题所对应的类别的商品。另外,推荐部15d,也可以仅提取属于在变化后模型中出现频度为规定值以上的母话题所对应的类别的商品。进而,推荐部15d,也可以仅提取在从变化前模型向变化后模型转变的过程中出现频度增大最多的话题所对应的类别的商品。话题与商品类别之间的对应可以任意决定,推荐部15d预先将表示该对应的数据保持在内部。
若按照以上方式生成推荐信息,则推荐部15d将该推荐信息包含在被输入的检索结果中输出给发送部15c。
另一方面,在未能获取任何商品ID的情况下,推荐部15d将被输入的检索结果直接输出给发送部15c。
第2方法,是一种基于表示如何从变化前模型向变化后模型转变的转变模式,提取由这些模型表示的话题所对应的类别的商品的方法。
假设从变化前模型到达变化后模型需要时间s,假设变化前模型的时间点为t=0,变化后模型的时间点为t=s。然后,将变化前及变化后的兴趣模型分别表示为K(0)、K(s),将表示时刻t的兴趣模型的函数表示为K(t)={K0 t,K1 t,K2 t,K3 t,K4 t}T。另外,T表示倒置。此时,值K(t)能够采用任意函数f(t)按照下述式(3)来规定。
K(t)=K(0)+(K(s)-K(0))·f(t)
在此,函数f(t)既可以是单纯的线性函数(t/s),也可以是按照指数函数或者对数函数方式转变的函数。例如,如果函数f(t)是线性函数,则可以说函数K(t)表示“以恒定的速度增大”的转变模型(线性模型)。另外,如果函数f(t)是指数函数,则可以说函数K(t)表示“最初缓慢增大,之后急剧增大”的转变模型(指数函数模型)。另外,如果函数f(t)是对数函数,则可以说函数K(t)表示“最初急剧增大,之后缓慢增大”的转变模型(对数函数模型)。另外,推荐部15d也可以获取多个函数K(t)。
接着,推荐部15d从商品数据库P中读出与所获取的转变模型对应的商品。在此,作为该处理的前提,假设商品数据中不仅包含商品的类别,还包含对应的转变模型的种类(例如,线性模型、指数函数模型、对数函数模型)、表示商品与该转变模型的哪个时间点(例如前半段、中间段、后半段等)对应的数据。例如,推荐部15d,按所获取的每个转变模型(函数K(t)),从商品数据库P中读出具有由该转变模型表示的母话题所对应的类别、且与该函数K(t)对应的转变模型的种类被指定的商品。在能够获取1个以上的商品数据的情况下,推荐部15d,基于该商品数据生成针对各转变模型的推荐信息(附加信息)。然后,推荐部15d将所生成的推荐信息包含在被输入的检索结果内输出给发送部15c。
包含推荐商品信息的检索结果通过用户终端T而被接收及显示。此时,可以任意决定如何显示推荐商品信息。例如,可以在检索画面内设置用于显示推荐商品的区域,或者在别的画面显示推荐商品。不管哪种情况下,终端用户都能够得知在被检索出的作者的兴趣发生变化的过程中该作者购买了何种商品。
接着,采用图15,对用于使计算机作为检索服务器10A发挥功能的检索程序P2进行说明。
检索程序P2,代替第2检索模块P15而具备包含推荐模块P15d的第2检索模块P15A,这一点与第1实施方式中的检索程序P1不同。通过执行第2检索模块P15A而实现的功能与第2检索部15A的功能相同。通过执行推荐模块P15d而实现的功能,与上述推荐部15d的功能相同。检索程序P2也与检索程序P1同样地被提供。
本实施方式中也能够得到与第1实施方式同样的效果。此外,本实施方式中,与作者或者转变模式对应的推荐信息也作为附加信息被发送给用户终端T。因此,用户不仅能够得到如检索条件所指定的那样兴趣模型发生变化的作者的信息,还能够得到与该作者或者转变模式关联的信息。
以上,基于本实施方式对本发明详细进行了说明。但是,本发明并不限定于上述实施方式。本发明在不脱离其主旨的范围内可进行各种变形。
上述各实施方式中,检索条件包含当前模型及未来模型这样的两个兴趣模型,但检索条件所含的兴趣模型(每个指定话题的出现频度)的个数也可以是3个以上。即,检索条件也可以不仅仅包含当前模型和最终到达时间点的未来模型,还包含设置在从当前至该最终到达时间点之间的1个以上的中间点的兴趣模型(第3指定时期的每个指定话题的第3出现频度。以下称作“中间模型”)。
上述各实施方式中,与当前模型对应的收集期间(第1指定时期)是从规定的过去时间点至当前的期间,与未来模型对应的期间(第2指定时期)是未来的一个时间点或者一段期间,但这些指定时期也可以任意设定。例如,也可以将当前至3~2个月前的一个月作为第1指定时期,将当前至2~1个月前的一个月作为第2指定时期。即,作为检索条件设定的指定时期也可以都是过去的时期。与此相反,各指定时期也可以都是未来时期。另外,各指定时期也可以不是具有长度的时间,可以是某一个时间点(时刻)。相应地,与检索结果所表示的各兴趣模型对应的期间(检索对象期间),也可以不是时间,而是某一个时间点(时刻)。
这种情况下,提取部15b,针对一个作者对开始期间、结束期间、及位于这些期间之间的1个以上的中间期间(第3检索对象时期)进行改变,同时在这些多个期间内提取曼哈顿距离成为规定的阈值以下的兴趣模型的组合。中间期间的兴趣模型的相同性及类似性的判定方法,与对上述的变化前后的兴趣模型进行的方法相同。然后,提取部15b,将提取出的组合所涉及的、针对开始期间、结束期间、及1个以上的中间期间的多个兴趣模型,分别作为变化前模型、变化后模型、及1个以上的中间结果模型进行保持。然后,提取部15b,将所检索出的兴趣模型与该对应期间一起,作为检索结果输出给发送部15c。
例如,假设除了当前模型及未来模型之外,还将与时间点Ta、Tb、Tc(其中Ta<Tb<Tc)对应的三个中间模型Ma、Mb、Mc作为检索条件输入到提取部15b。这种情况下,提取部15b,提取与这3个模型相同或者类似的三个中间结果模型Ma′、Mb′、Mc′。这时,如果将与各中间结果模型对应的检索对象时期分别设为Ta′、Tb′、Tc′,则Ta′<Tb′<Tc′的关系成立。即,成为检索对象的多个中间期间,维持由检索条件指定的中间点的前后关系。
这样通过采用3个以上的兴趣模型进行检索,从而由于能够进行考虑了状况变化的过程的检索,因此能够如用户所指定的那样,将兴趣模型逐渐变化的作者的信息提示给该用户。
在上述各实施方式中,从当前模型向未来模型变化的期间(转变期间)也可以包含在检索条件中。这种情况下,提取部15b,还以开始期间至结束期间的时间间隔与转变期间一致为条件来提取变化前后的兴趣模型,采用曼哈顿距离判定兴趣模型的相同性及类似性。这样,便能够将在被指定的时间范围内如所指定的那样兴趣模型发生变化的作者的信息提示给用户。
虽然上述各实施方式中采用了包含多个话题的兴趣模型,但也可以采用仅由1个话题的出现频度组成的模型。这种情况下,模型的转变,不是以各出现频度的比率的变化来表现,而是以一个出现频度的增加率或者减少率来表现。例如,也可以采用与特定的资格考试的测验评价值(例如分数或偏差值)有关的一个话题组成的模型。在处理仅有一个话题的模型的情况下,不需要上述的模型调整部14,但作者检索的方法本身与上述实施方式相同。
上述各实施方式中,若在检索画面100的未来模型栏114通过用户操作变更了一部分出现频度,则其他出现频度被自动调整,但也可以省略这样的调整功能,而交给用户调整。该情况下,能够省略模型调整部14。另外,当前模型栏113内的出现频度也可以通过用户操作来进行变更。这种情况下,模型调整部14,既可以通过对未调整当前模型和未来模型应用上述类似兴趣模型参照法来调整当前模型,也可以通过对未调整当前模型应用上述话题传播法来调整当前模型。在如上述那样中间模型包含在检索条件内的情况下也同样地,模型调整部14能够根据用户操作调整其中间模型。
上述各实施方式中,将文件的作者设为检索对象,但检索对象不受任何限定。例如,也可以将商品、服务等作为检索对象。这种情况下,也可以基于从文件数据库收集的口碑信息、商品评价等,生成具有适合该检索对象的话题的简介数据。这样,用户便能够找到例如最近人气旺的商品、评价比过去好的酒店等。
上述各实施方式中,终端用户的目的在于检索经历了所希望的兴趣变化的作者,但检索的目的是任意的。与之关联地,还可对所设定的话题进行任意设定。另外,每个话题的出现频度、即模型也可以表示“兴趣”以外的要素。例如,可以事先准备具有适于掌握学习成绩转变的话题的简介数据,以教师对学生指导目标设定为目的、或以某个人自己设定目标为目的来活用上述这样的检索系统。
上述各实施方式中,采用曼哈顿距离来判定兴趣模型的相同性及类似性,但也可以采用欧几里得(Euclidean)距离等之类的其他尺度、指标来判定其相同性及类似性。
上述各实施方式中,将简介数据库11设置在检索服务器10、10A内,但简介数据库也可以被设置在检索服务器外部、包含检索服务器在内的系统外部。
上述各实施方式中,通过用户终端T和检索服务器10、10A,构筑所谓的客户端·服务器型的检索系统,但也可以将上述的检索服务器10、10A的功能嵌入用户终端。这种情况下,用户终端内被提取出的检索结果便被输出(显示)在规定的监视器上。
符号说明
10,10A…检索服务器(检索装置)、11…简介数据库、12…界面提供部、13…第1检索部、14…模型调整部、15,15A…第2检索部、15a…接收部、15b…提取部(检索单元)、15c…发送部(输出单元)、15d…推荐部(检索单元)、D…文件数据库(规定的数据库)、P…商品数据库(追加的数据库)、R…购买履历数据库(追加的数据库)、P1,P2…检索程序、P10…主模块、P11…简介存储模块、P12…界面提供模块、P13…第1检索模块、P14…模型调整模块、P15,P15A…检索模块、P15a…接收模块、P15b…提取模块、P15c…发送模块、P15d…推荐模块、T…用户终端。

Claims (12)

1.一种检索装置,具备:
检索单元,其根据基于从规定的数据库中提取出的文件而生成的简介数据,来提取与由用户指定的检索条件对应的检索对象,该简介数据包含:对所述检索对象进行确定的识别符;该文件的创建时刻;和通过将该文件内的语句按1个以上的每个话题进行分类而求出的该每个话题的出现频度;以及
输出单元,其为了将通过所述检索单元提取出的检索对象提示给所述用户而进行输出,
所述检索条件包含:第1指定时期内的、由所述用户指定的1个以上的每个指定话题的第1出现频度;和该第1指定时期之后的第2指定时期内的该每个指定话题的第2出现频度,
所述检索单元,提取满足如下条件的所述检索对象:根据第1检索对象时期内的所述简介数据而得到的所述每个指定话题的出现频度与所述第1出现频度相同或者类似,且根据该第1检索对象时期之后的第2检索对象时期内的所述简介数据而得到的所述每个指定话题的出现频度与所述第2出现频度相同或者类似。
2.根据权利要求1所述的检索装置,其中,
所述检索条件还包含:与所述第1指定时期和所述第2指定时期之间的1个以上的第3指定时期的每一个有关的所述每个指定话题的第3出现频度,
所述检索单元,提取满足如下条件的所述检索对象:所述第1检索对象时期内的所述出现频度与所述第1出现频度相同或者类似,所述第2检索对象时期内的所述出现频度与所述第2出现频度相同或者类似,且在时间的前后关系与所述1个以上的第3指定时期对应的1个以上的第3检索对象时期的每一个中,根据该第3检索对象时期内的所述简介数据而得到的所述每个指定话题的出现频度与对应的所述第3出现频度相同或者类似。
3.根据权利要求1或2所述的检索装置,其中,
所述检索条件进一步包含相邻的所述指定时期之间的时间间隔,
相邻的所述检索对象时期之间的时间间隔与对应的所述指定时期之间的时间间隔相同。
4.根据权利要求1~3中任一项所述的检索装置,其中,
由所述简介数据表示的1个以上的所述话题,是自基于从所述规定的数据库中提取出的所述文件而得到的话题组中去除规定的无用话题后的剩下的话题。
5.根据权利要求1~4中任一项所述的检索装置,其中,
所述指定话题是包含由所述简介数据表示的1个以上的话题在内的上层话题。
6.根据权利要求1~5中任一项所述的检索装置,其中,
在所述指定话题存在多个的情况下,若一个所述指定时期内的、一部分所述每个指定话题的出现频度相对于所述每个指定话题的出现频度的总和的比率被变更,则该指定时期内的剩下的所述每个指定话题的出现频度的比率根据该变更而被调整。
7.根据权利要求6所述的检索装置,其中,
在所述一个指定时期内的所述一部分每个指定话题的出现频度被变更了的情况下,根据与该一个指定时期对应的一个搜索时期内的所述简介数据而得到的所述一部分每个指定话题的出现频度,与被变更后的所述一部分每个指定话题的出现频度相同或者类似,且根据与其他所述指定时期对应的其他搜索时期内的所述简介数据而得到的所述每个指定话题的出现频度,与该其他指定时期内的所述每个指定话题的出现频度相同或者类似的所述检索对象被提取,所述剩下的每个指定话题的出现频度的比率基于所述一个搜索时期内的该检索对象的所述每个话题的出现频度而被调整,
所述一个搜索时期与所述其他搜索时期之间的前后关系,与所述一个指定时期与所述其他指定时期之间的前后关系对应。
8.根据权利要求6所述的检索装置,其特征在于,
基于根据所述语句在多个所述话题中重复出现的频度而设定的、表示所述指定话题彼此之间的关联的强度的权重、和所述一部分每个指定话题的出现频度的变更量,调整所述剩下的每个指定话题的出现频度的比率。
9.根据权利要求1~8中任一项所述的检索装置,其特征在于,
检索单元,进一步从追加的数据库中提取与被提取出的所述检索对象对应的附加信息,或者提取从所述第1检索对象时期至所述第2检索对象时期为止的期间内的该检索对象的所述每个指定话题的出现频度所对应的附加信息,
所述输出单元进一步为了将由所述检索单元提取出的附加信息提示给所述用户而进行输出。
10.一种检索方法,是由检索装置执行的检索方法,所述检索方法包括:
检索步骤,根据基于从规定的数据库中提取出的文件而生成的简介数据,来提取与由用户指定的检索条件对应的检索对象,该简介数据包含:对所述检索对象进行确定的识别符;该文件的创建时刻;和通过将该文件内的语句按1个以上的每个话题进行分类而求出的该每个话题的出现频度;以及
输出步骤,为了将在所述检索步骤中提取出的检索对象提示给所述用户而进行输出,
所述检索条件包含:第1指定时期内的、由所述用户指定的1个以上的每个指定话题的第1出现频度、和该第1指定时期之后的第2指定时期内的该每个指定话题的第2出现频度,
在所述检索步骤中,提取满足如下条件的所述检索对象:根据第1检索对象时期内的所述简介数据而得到的所述每个指定话题的出现频度与所述第1出现频度相同或者类似,且根据该第1检索对象时期之后的第2检索对象时期内的所述简介数据而得到的所述每个指定话题的出现频度与所述第2出现频度相同或者类似。
11.一种检索程序,使计算机作为如下单元发挥功能:
检索单元,其根据基于从规定的数据库中提取出的文件而生成的简介数据,来提取与由用户指定的检索条件对应的检索对象,该简介数据包含:对所述检索对象进行确定的识别符;该文件的创建时刻;和通过将该文件内的语句按1个以上的每个话题进行分类而求出的该每个话题的出现频度;以及
输出单元,其为了将通过所述检索单元提取出的检索对象提示给所述用户而进行输出,
所述检索条件包含:第1指定时期内的、由所述用户指定的1个以上的每个指定话题的第1出现频度、和该第1指定时期之后的第2指定时期内的该每个指定话题的第2出现频度,
所述检索单元,提取满足如下条件的所述检索对象:根据第1检索对象时期内的所述简介数据而得到的所述每个指定话题的出现频度与所述第1出现频度相同或者类似,且根据该第1检索对象时期之后的第2检索对象时期内的所述简介数据而得到的所述每个指定话题的出现频度与所述第2出现频度相同或者类似。
12.一种存储检索程序的计算机可读取的记录介质,所述检索程序使计算机作为如下单元发挥功能:
检索单元,其根据基于从规定的数据库中提取出的文件而生成的简介数据,来提取与由用户指定的检索条件对应的检索对象,该简介数据包含:对所述检索对象进行确定的识别符;该文件的创建时刻;和通过将该文件内的语句按1个以上的每个话题进行分类而求出的该每个话题的出现频度;以及
输出单元,其为了将通过所述检索单元提取出的检索对象提示给所述用户而进行输出,
所述检索条件包含:第1指定时期内的、由所述用户指定的1个以上的每个指定话题的第1出现频度、和该第1指定时期之后的第2指定时期内的该每个指定话题的第2出现频度,
所述检索单元,提取满足如下条件的所述检索对象:根据第1检索对象时期内的所述简介数据而得到的所述每个指定话题的出现频度与所述第1出现频度相同或者类似,且根据该第1检索对象时期之后的第2检索对象时期内的所述简介数据而得到的所述每个指定话题的出现频度与所述第2出现频度相同或者类似。
CN201280004230.4A 2011-02-25 2012-02-24 检索装置及检索方法 Active CN103262079B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011040259A JP5048852B2 (ja) 2011-02-25 2011-02-25 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP2011-040259 2011-02-25
PCT/JP2012/054663 WO2012115254A1 (ja) 2011-02-25 2012-02-24 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体

Publications (2)

Publication Number Publication Date
CN103262079A true CN103262079A (zh) 2013-08-21
CN103262079B CN103262079B (zh) 2015-04-01

Family

ID=46721026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280004230.4A Active CN103262079B (zh) 2011-02-25 2012-02-24 检索装置及检索方法

Country Status (7)

Country Link
US (1) US9058328B2 (zh)
EP (1) EP2613275B1 (zh)
JP (1) JP5048852B2 (zh)
KR (1) KR101346927B1 (zh)
CN (1) CN103262079B (zh)
ES (1) ES2657866T3 (zh)
WO (1) WO2012115254A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135311B2 (en) * 2012-03-20 2015-09-15 Tagboard, Inc. Gathering and contributing content across diverse sources
US9665798B2 (en) * 2012-05-24 2017-05-30 Hitachi, Ltd. Device and method for detecting specified objects in images using metadata
US9244950B2 (en) 2013-07-03 2016-01-26 International Business Machines Corporation Method for synthetic data generation for query workloads
US10810240B2 (en) * 2015-11-06 2020-10-20 RedShred LLC Automatically assessing structured data for decision making
CN107943800A (zh) * 2016-10-09 2018-04-20 郑州大学 一种微博话题舆情计算与分析的方法
CN111723231B (zh) * 2019-03-20 2023-10-17 北京百舸飞驰科技有限公司 一种题目预测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216311A (ja) * 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
WO2009060888A1 (ja) * 2007-11-08 2009-05-14 Nec Corporation 著者影響判定システム、著者影響判定方法、及びプログラム
JP2009187395A (ja) * 2008-02-07 2009-08-20 Nec Corp トピック分析装置、方法及びプログラム
US20090319518A1 (en) * 2007-01-10 2009-12-24 Nick Koudas Method and system for information discovery and text analysis
WO2010035455A1 (ja) * 2008-09-24 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020538A (ja) * 1998-07-02 2000-01-21 Mitsubishi Electric Corp 情報検索方法、情報検索装置および情報検索プログラム記憶媒体
US6493703B1 (en) * 1999-05-11 2002-12-10 Prophet Financial Systems System and method for implementing intelligent online community message board
US6571234B1 (en) * 1999-05-11 2003-05-27 Prophet Financial Systems, Inc. System and method for managing online message board
US6751614B1 (en) * 2000-11-09 2004-06-15 Satyam Computer Services Limited Of Mayfair Centre System and method for topic-based document analysis for information filtering
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP3813837B2 (ja) * 2001-05-25 2006-08-23 株式会社東芝 データ分析装置及びデータ分析方法並びにプログラム
US7346606B2 (en) * 2003-06-30 2008-03-18 Google, Inc. Rendering advertisements with documents having one or more topics using user topic interest
JP4082059B2 (ja) * 2002-03-29 2008-04-30 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US20050234877A1 (en) * 2004-04-08 2005-10-20 Yu Philip S System and method for searching using a temporal dimension
US7694311B2 (en) * 2004-09-29 2010-04-06 International Business Machines Corporation Grammar-based task analysis of web logs
KR100731283B1 (ko) * 2005-05-04 2007-06-21 주식회사 알에스엔 질의어에 따른 대량문서기반 성향 분석시스템
US20070005646A1 (en) * 2005-06-30 2007-01-04 Microsoft Corporation Analysis of topic dynamics of web search
KR20070047544A (ko) * 2005-11-02 2007-05-07 김정진 유사도를 적용하여 특허 문서를 검색하는 방법 및 그시스템
US20070214137A1 (en) * 2006-03-07 2007-09-13 Gloor Peter A Process for analyzing actors and their discussion topics through semantic social network analysis
US8296168B2 (en) * 2006-09-13 2012-10-23 University Of Maryland System and method for analysis of an opinion expressed in documents with regard to a particular topic
US20080215607A1 (en) * 2007-03-02 2008-09-04 Umbria, Inc. Tribe or group-based analysis of social media including generating intelligence from a tribe's weblogs or blogs
US10762080B2 (en) * 2007-08-14 2020-09-01 John Nicholas and Kristin Gross Trust Temporal document sorter and method
WO2010048430A2 (en) * 2008-10-22 2010-04-29 Fwix, Inc. System and method for identifying trends in web feeds collected from various content servers
US7974983B2 (en) * 2008-11-13 2011-07-05 Buzzient, Inc. Website network and advertisement analysis using analytic measurement of online social media content
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216311A (ja) * 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
US20090319518A1 (en) * 2007-01-10 2009-12-24 Nick Koudas Method and system for information discovery and text analysis
WO2009060888A1 (ja) * 2007-11-08 2009-05-14 Nec Corporation 著者影響判定システム、著者影響判定方法、及びプログラム
JP2009187395A (ja) * 2008-02-07 2009-08-20 Nec Corp トピック分析装置、方法及びプログラム
WO2010035455A1 (ja) * 2008-09-24 2010-04-01 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム

Also Published As

Publication number Publication date
EP2613275B1 (en) 2017-11-22
JP2012178026A (ja) 2012-09-13
US20140012853A1 (en) 2014-01-09
KR101346927B1 (ko) 2014-01-03
KR20130053448A (ko) 2013-05-23
EP2613275A1 (en) 2013-07-10
ES2657866T3 (es) 2018-03-07
EP2613275A4 (en) 2015-01-14
JP5048852B2 (ja) 2012-10-17
CN103262079B (zh) 2015-04-01
US9058328B2 (en) 2015-06-16
WO2012115254A1 (ja) 2012-08-30

Similar Documents

Publication Publication Date Title
Efron Information search and retrieval in microblogs
Li et al. Community detection using hierarchical clustering based on edge-weighted similarity in cloud environment
Agarwal et al. Modeling and data mining in blogosphere
EP1818839A1 (en) System and method for online information analysis
Tran et al. Hashtag recommendation approach based on content and user characteristics
CN104572797A (zh) 基于主题模型的个性化服务推荐系统和方法
CN103262079B (zh) 检索装置及检索方法
CN105045931A (zh) 一种基于Web挖掘的视频推荐方法和系统
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
CN101937524A (zh) 一种毕业设计个性化指导系统
CN105378730A (zh) 社交媒体分析与输出
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
US20130346385A1 (en) System and method for a purposeful sharing environment
KR20210143431A (ko) 과학기술 지식정보의 추천을 위한 운영컴퓨터, 과학기술 지식정보 추천 시스템 및 그 방법
Aliannejadi et al. User model enrichment for venue recommendation
CN113505311A (zh) 一种可根据“潜在语义空间”的旅游景点交互推荐方法
Sohn et al. Dynamic FOAF management method for social networks in the social web environment
Aziz et al. Social network analytics: natural disaster analysis through twitter
CN102982101A (zh) 基于用户情境本体的网络社区用户推送服务的方法
Saraswat et al. Enriching topic coherence on reviews for cross-domain recommendation
TW201126359A (en) Keyword evaluation systems and methods
Kavitha et al. Tourism recommendation using social media profiles
Adeniyi et al. Personalised news filtering and recommendation system using Chi-square statistics-based K-nearest neighbour (χ 2SB-KNN) model
Jeon et al. Rule-Based Topic Trend Analysis by Using Data Mining Techniques
US20200226159A1 (en) System and method of generating reading lists

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address

Address after: Tokyo, Japan

Patentee after: Lotte Group Co.,Ltd.

Address before: Japan's Tokyo East Shinagawa Shinagawa district four chome 12 No. 3

Patentee before: Rakuten, Inc.

CP03 Change of name, title or address