CN101464883A - 内容检索设备和方法 - Google Patents
内容检索设备和方法 Download PDFInfo
- Publication number
- CN101464883A CN101464883A CNA2008101861074A CN200810186107A CN101464883A CN 101464883 A CN101464883 A CN 101464883A CN A2008101861074 A CNA2008101861074 A CN A2008101861074A CN 200810186107 A CN200810186107 A CN 200810186107A CN 101464883 A CN101464883 A CN 101464883A
- Authority
- CN
- China
- Prior art keywords
- content
- keyword
- correlativity
- key word
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
图像数据库存储多种图像数据作为内容,对每个图像附接了至少一个关键词。以固定时间间隔计算存储在图像数据库中的图像的每个关键词对之间的相关程度,来产生每对的关键词际相关性的时间序列数据。当输入了搜索关键词时,通过对搜索关键词和附接到基于搜索关键词而提取出的图像上的关键词之间的关键词际相关性的时间序列数据进行平滑处理来计算基本相关性。如果所提取的图像被附接了其他的关键词,通过对所提取的图像的各个关键词对搜索关键词的基本相关性进行平均,计算所提取的图像的总相关性。在很多所提取的图像中,输出对搜索关键词具有较高相关性的那些图像作为搜索结果。
Description
技术领域
本发明涉及一种内容检索设备和内容检索方法,用来基于任意输入的搜索关键词,从存储海量内容的数据库中检索到诸如图像文件或音乐数据文件之类的期望的内容。
背景技术
近年来,通过互联网之类的通信网络,公开了存储诸如文本数据、图像数据、和音乐数据之类的各种内容的数据库,因此,用户可以通过操作连接到通信网络的个人计算机或移动终端在数据库上登记一些内容,或者在数据库上搜索喜欢的内容并下载这些内容。
作为从数据库检索期望内容的方法,常用的是“基于关键词搜索”。这是一种输入与期望的内容有一定相关性的一个或多个关键词来查找包含或涉及所输入的一个或多个关键词的那些内容的方法。由于不必对数据库中的内容进行分类,基于关键词的搜索简化了数据库的管理,改善了从数据库获得大量内容的有效性。
在大量内容存储在数据库中的情况下,当采用某个关键词时经常出现该关键词命中的内容数量过于庞大以至于用户不能容易地找到他们想要的内容的情况。所谓的减小搜索范围是已知的一种用来解决这个问题的方案,其中,通过输入另一个关键词来精选第一个关键词所命中的内容,并通过输入其他的关键词一步步地进行精选。由于要求用户考虑输入的关键词来减小搜素范围,如果输入的关键词不相关,则不能充分地精选出内容,或者,可能错误地删除掉一些相关的内容。为了解决这个问题,例如在日本专利申请2003-108594中提出了支持用户搜索的现有技术。在这项现有技术中,记录了用以前的关键词减小搜索范围的历史,以便从以前的关键词中检索出与新输入的关键词具有相关性的那些关键词,并提供给用户。
不过,根据通常的搜索技术,搜索结果会根据所有用户的搜索历史以及当前用户的搜索历史而变化,因此,当进行搜索时,搜索结果受到时间趋势、周期或季节的影响。这意味着,会非常频繁地命中这些明确地反映时间趋势的内容。例如,对于一个基于关键词“富士山”的搜索,如果在夏天执行搜索,搜索结果会包括大量的还涉及“爬山”的那些内容。相反,如果在冬天用关键词“富士山”进行搜索,就很少会检索到与“爬山”也相关的那些内容。
如果用户希望得到与时间一致的或反映时间趋势的那些内容,得到这些搜索结果是没有问题的。不过,如果用户希望得到与所输入关键词的基本信息相关的那些内容,由于时间趋势对搜索结果的影响,在通常的搜索方法中很难检索到期望的内容。
发明内容
考虑到上述问题,本发明的基本目的是提供一种内容检索设备和一种内容检索方法,其允许用户从搜索结果中消除时间趋势的影响,而当考虑时间趋势的影响时也可以检索到合适的内容。
在一种基于输入的搜索关键词从数据库中检索某些内容的内容检索设备中,所述数据库存储了多种内容,这些内容具有附接到其上的各自的关键词,本发明包括关键词际相关性计算器、基本相关性计算器、内容提取装置、判定装置和输出装置,其中,所述关键词际相关性计算器以固定的时间间隔对附接到存储在数据库中的内容上的每个关键词对之间的关键词际相关性进行计算,用来产生关于每个关键词对的关键词际相关性的时间序列数据;所述基本相关性计算器通过对关于搜索关键词和特定关键词之间的关键词际相关性的时间序列数据进行平滑处理,来计算特定关键词对搜索关键词的基本相关性;所述内容提取装置基于搜索关键词从所述数据库中提取至少一个内容;所述判定装置基于搜索关键词和附接到所提取的内容上的关键词之间的基本相关性,对所提取的内容是否应当包括在搜索结果中进行判定;所述输出装置用来输出搜索结果。
优选地,基本相关性计算器通过移动平均对关于关键词际相关性的时间序列数据进行平滑处理。
基于附接到同一内容的那些关键词彼此之间具有一定相关性的假设,关键词际相关性计算器计算每一对关键词之间的相关性。
优选地,内容检索设备还包括总相关性计算器,所述总相关性计算器用来计算当多个关键词附接到内容时内容对搜索关键词的总相关性,所述总相关性计算器通过对搜索关键词和附接到内容的各个关键词之间的基本相关性进行平均来计算总相关性。
优选地,所述结果判定装置判定总相关性大于预定值的那些内容被包括在搜索结果中。
内容提取装置优选地从数据库中提取附接有搜索关键词的那些内容,基本相关性计算器计算相对于所提取的内容的基本相关性。
一种基于输入的搜索关键词从数据库检索某些内容的内容检索方法,其中,数据库存储了多种内容,这些内容附接有各自的关键词,所述内容检索方法包括下列步骤:
以固定的时间间隔对附接到存储在数据库中的内容上的每个关键词对之间的关键词际相关性进行计算,来产生关于每个关键词对的关键词际相关性的时间序列数据;通过对关于搜索关键词和特定关键词之间的关键词际相关性的时间序列数据进行平滑处理,来计算特定关键词对搜索关键词的基本相关性;基于搜索关键词从数据库提取至少一个内容;基于搜索关键词和附接所提取的内容上的关键词之间的基本相关性,对所提取的内容是否应该被包含在搜索结果中进行判定;以及输出搜索结果。
由于基于基本相关性确定了每个内容对搜索关键词的相关性,基本相关性是通过对时间序列数据进行平滑而计算得到的,从而很少受到时间趋势的影响,本发明的内容检索设备和方法允许用户从检索结果中消除时间趋势的影响,而在考虑时间趋势影响时能够检索到合适的内容。
附图说明
当结合附图来理解下文对优选实施例的详细说明时,本发明的上述和其他目的和优势将变得更加明显,其中,相同的参考标号表示这些视图中的相同或对应的部件,其中:
图1是图示了一种用于从服务器检索图像数据的网络系统的示意图;
图2是图示了所述网络系统的客户端终端的内部架构的功能框图;
图3是图示了所述服务器的内部架构的功能框图;
图4是将图像文件和它们各自的关键词关联起来的数据表;
图5是图示了附接有关键词的图像的示例示意图;
图6是图示了关于关键词际相关性的时间序列数据和平滑处理后的时间序列数据的图;
图7是示出了搜索关键词和附接到图5的图像的其他关键词之间的基本相关性和临时相关性的示例的表;
图8是图示了所述客户端终端中的处理序列的流程图;
图9是图示了服务器中的处理序列的流程图;
图10是图示了显示在客户端终端的监视器上的搜索命令屏的示例的示意图;
图11是图示了显示在客户端终端的监视器上的搜索结果显示屏的示例的示意图;
图12是图示了显示在客户端终端的监视器上的搜索命令屏的变化的示意图;
图13是图示了显示在客户端终端的监视器上的搜索结果显示屏的变化的示意图;以及
图14是示出了另一个示例的表,其中,向附接到一个图像的各个关键词分配了加权系数。
具体实施方式
在图1中,通过安装一个记录在记录介质中的程序,在服务器11中合并了作为本发明实施例的内容检索设备。下文的说明是基于检索出图像数据作为内容的例子。下文中,将图像数据简称为图像。
服务器11通过通信网络12连接至客户端终端13,组成了网络系统14。每个客户端终端13由公知的个人计算机组成,个人计算机上设有用来显示各种操作屏幕的监视器15以及包括鼠标16和键盘17的操作装置18。通过键盘17输入用于图像检索的搜索关键词。
客户端终端13获取通过数码相机19捕捉的图像或记录在诸如存储卡或CD-R之类的记录介质20上的图像。这些图像具有各自的附接为标签的关键词。当这些图像被输入客户端终端13时,通过操作操作装置18将标签附接到每个图像上。
数码相机19通过USB(universal serial bus,通用串行总线)电缆之类的通信电缆或无线LAN之类的无线连接连接至客户端终端13,于是数码相机19可以与客户端终端13互换数据。
参照示出了客户端终端13的功能框图的图2,CPU 21根据通过操作设备18输入的操作信号等控制客户端终端13的所有操作。数据总线22将CPU 21连接至RAM 23、硬盘驱动器(hard disc drive,HDD)24和通信接口(I/F)25以及监视器15和操作设备18。
RAM 23是CPU 21执行各种处理的工作存储器。HDD 24存储用于客户端终端13的工作的各种程序和数据以及从数码相机19和记录介质20获取的图像。CPU 21从HDD 24读出程序,并在RAM 23中展开(develop)以基于该程序执行处理。
通信接口25控制适用于通信网络12的通信协议,并通过通信网络12居中进行数据交换。通信接口25还在客户端终端13与诸如数码相机19和记录介质20之类的外部装置之间居中进行数据交换。
参照示出了服务器11的功能框图的图3,CPU 26根据通过通信网络12用客户端终端13输入的操作信号来控制服务器11的所有操作。CPU 26通过数据总线27连接至RAM 28、HDD 29、通信接口(I/F)30、定时器31和相关性计算器35,该相关性计算器35由关键词际相关性计算器32、基本相关性计算器33和总相关性计算器34组成。
RAM 28是CPU 26执行各种处理的工作存储器。HDD 29存储用于服务器11的工作的各种程序和数据。CPU 26从HDD 29中读出程序,并在RAM 28中展开(develop)以基于该程序执行处理。注意,相关性计算器35是由存储在RAM 28中的程序组成的功能块。
通信接口30控制适用于通信网络12的通信协议,并通过通信网络12居中进行数据交换。通过通信接口30获取的数据临时存储在RAM 28中。如果获取了图像数据,则将它存储在HDD 29中。
在HDD 29中合并了图像数据库(DB)36和关键词信息管理器37。图像数据库36存储通过通信网络12获取的图像和彼此关联地附接到图像的那些关键词。如图4所示,以数据表的形式将这些图像和关键词彼此关联。注意,可以将添加的关键词附接到存储在图像DB 36中的任何图像上,或者可以从存储在图像DB 36中的任何图像上删除附接的关键词。
图5示出了存储在图像DB 36中的图像P1以及附接到这个图像P1的关键词的示例。图像P1是富士山的照片,因此,四个关键词KA1“富士山”、KA2“爬山、KA3“火山”和KA4“山中湖”与这个图像P1关联。
关键词信息管理器37存储如下信息的时间序列数据,这些信息示出了附接到登记在图像DB36中的同一图像的两个关键词之间的相关程度。由关键词际相关性计算器32获取关键词之间的相关程度。基于附接到同一图像的关键词彼此之间具有一些关系的假设,关键词际相关性计算器32查询附接到每个图像的关键词,并计算附接到同一图像的每对关键词之间的相关程度。这意味着,随着图像数据库36中附接了这两个关键词的图像的数量的增大,两个关键词之间的关键词际相关性Rt变大。然后,关键词际相关性计算器32将计算出的关键词际相关性组织起来,在关键词信息管理器37中建立词典。
如图6所示,基于定时器31计算的时间,CPU 26周期性地(例如一天一次)激活关键词际相关性计算器32,来周期性地修改或重构词典,并获取每个关键词对之间的相关性的时间序列数据D1。时间序列数据D1以时间序列方式示出了时间“t”处的关键词际相关性Rt。关键词际相关性Rt示出了关键词对之间(例如,“富士山”和“爬山”)在特定时刻的相关程度。如果两个关键词之间的关键词际相关性Rt在执行搜索时很高,这意味着在这个时刻,大量的附接有这两个关键词的图像被存储在图像数据库36中。
当CPU 26从客户端终端13接收到搜索命令时,CPU 26在图像服务器36中搜索那些与在客户端终端13上输入的关键词(下文称为搜索关键词)相关的图像。然后,CPU 26激活数据总线22和RAM 23,来执行范围缩小的搜索,精选出提取的图像。因此,CPU 26起内容提取装置的作用。基本相关性计算器33对时间序列数据D1进行滤波处理或平滑处理,以计算单个关键词与搜索关键词的基本相关性,其中时间序列数据D1与输入的搜索关键词与附接到所提取图像的其他任何关键词之间的相关性Rt有关。基本相关性Mt被表示为如图6所示的平滑处理后的时间序列数据D2,表示关键词对之间的相关性的基本程度,这种基本程度很少受到时间趋势的影响。
具体来讲,利用一种叫做移动平均的方法,计算正好在特定时间“t”之前的一段时期T(例如,三十天)中所获得的关键词际相关性Rt的平均值,来获取特定时间“t”的基本相关性Mt。假定“N”和“∑Rt”分别表示在时期T内获得的关键词相关性Rt的个数和总和,则可以将基本相关性Mt表示为公式:Mt=∑Rt/N。由于滤波之前的相关性Rt取决于时间,对照基本相关性Mt,将Rt值称为“临时相关性”。
总相关性计算器34计算每个提取出的图像对搜索关键词的总相关性St。基于搜索关键词和附接到所提取图像的其他关键词之间的基本相关性Mt或临时相关性Rt,总相关性计算器34计算总相关性St。在开始搜索时可以在客户端终端13上指定是使用基本相关性Mt还是使用临时相关性Rt来计算总相关性St。
根据本实施例,总相关性计算器34将每个图像的总相关性St计算为基本相关性Mt的平均值AMt或临时相关性Rt的平均值ARt。具体来讲,在输入“富士山”作为搜索关键词以及提取了上述图像P1的情况下,搜索关键词“富士山”KA1和其他关键词KA2~KA4之间的基本相关性Mt或临时相关性Rt可以如图7所示。在这种情况下,AMt=(15+5+10)/3=10,而ARt=(80+5+5)/3=30。也就是说,由于对搜索关键词“富士山”的相关性随时间变化非常大的关键词“爬山”的影响,在这种情况下,这个图像P1对搜索关键词“富士山”的总相关性St在它基于瞬时相关性时要大于它基于基本相关性时。
CPU 26对每个提取出的图像的总相关性St与预定值进行比较,并通过通信网络12将那些总相关性St大于预定值的图像的信息发送到客户端终端13。在客户端终端13的监视器15上显示这些图像的信息作为搜索结果,这些信息包括它们的图像数据和文件名称。
现在将说明具有上述结构的网络系统14的操作。图8示出了客户端终端13的处理序列。在第一个步骤S10中,将数码相机19或记录介质20连接至客户端终端13,客户端终端13检查存储在外部装置19或20中的图像是否已经被输入客户端终端13。当完成获得这些图像时,在下一个步骤S11中,客户端终端13检查是否通过操作装置18向这些图像附接了任何关键词。当已经有一些关键词被附接到了该图像或这些图像,在步骤S12中通过通信网络12将这些具有关键词的图像发送到服务器11。还可以在等待用户发送这些图像的命令之后,响应于这个命令发送这些图像。服务器11接收到的图像被存储在HDD 29中的图像数据库36中。
当在步骤S12中已经从客户端终端13将图像发送到了服务器11时,序列回到步骤S10。如果判定在步骤S10中没有输入任何图像,客户端终端13检查是否已经进行了用于从服务器11的图像DB36中检索一些图像的搜索操作。如图10所示,在看到显示在监视器15上的搜索命令屏40时,通过操作装置18可以进行搜索操作。在搜索命令屏40上显示了用于输入搜索关键词的关键词输入框41、用于在基于基本相关性的搜索和基于临时相关性的搜索之间进行择一选择的单选按钮42、以及执行搜索处理的开始搜索按钮43。下文将要详细说明的是,基本相关性搜索是基于较少受到时间趋势影响的基本相关性Mt,而临时相关性搜索是基于受时间趋势影响的临时相关性Rt。
当在步骤S13中给出了搜索命令时,在步骤S14中,客户端终端13向服务器11发送搜索命令数据,搜索命令数据包括搜索关键词和关于在基本相关性搜索和临时相关性搜索之间选择的信息。响应于搜索命令数据,服务器11执行下文中说明的图像检索处理。在接下来的步骤S15中,客户端终端13检查它是否从服务器11接收了作为搜索结果的诸如被检索到的图像的图像数据和文件名称之类的任何图像信息。当接收到图像信息时,在步骤S16中,客户端终端13根据图像信息在监视器15上显示搜索结果。在结束了步骤S16之后,序列返回步骤S10。
图9示出了服务器11中的处理序列。在第一个步骤S20中,关键词际相关性计算器32查询附接到存储在图像DB 36中的各个图像的各个关键词,计算附接到同一图像的每对关键词之间的临时相关性Rt。以图5中的图像P1为例,关键词际相关性计算器32为诸如“富士山”和“爬山”、“爬山”和“火山”等等之类的每对关键词记“1”。如果关键词对“富士山”和“爬山”被附接到了存储在图像DB 36中的图像中的另一个图像,关键词际相关性计算器32就为这个关键词对计数加一,因此,“富士山”和“爬山”之间的临时相关性Rt变为“2”。以相同的方式,为在搜索时间“t”时存储在图像DB 36中的图像的所有关键词的每个关键词对计算临时相关性Rt。
在步骤S20之后,服务器11检查它是否接收到了客户端终端13在步骤S14发送的搜索命令数据。在步骤S22中判定已经过去了一个预定时间(例如,24小时)之前,会一直重复进行步骤S21。当在步骤S22中判定已经过去了预定的时间,服务器11回到步骤S20来计算关键词之间的相关性。这样,以预定的时间间隔重复步骤S20,如图6所示,从而提供了以时间序列方式示出关键词际相关性的时间序列数据D1。
当在步骤S21中判定客户端终端13从服务器11接收了搜索命令信息时,序列进行到下一个步骤S23,其中,CPU 26从存储在图像DB36中的图像中提取那些附接了搜索关键词的图像,这些搜索关键词是作为搜索命令信息而被接收的。例如,当搜索关键词是“富士山”时,提取如图6所示的那些图像。
当步骤S23完成时,在步骤S24中根据搜索命令信息判定选择了基本相关性搜索或临时相关性搜索中的哪一个。当选择了基本相关性时,序列进行到步骤S25,其中,基本相关性计算器33计算搜索关键词和附接到在步骤S23中所提取的图像的其他关键词之间的基本相关性Mt。也就是说,对表示其他关键词相对于搜索关键词的临时相关性Rt的时间序列数据D1进行滤波处理或平滑处理,以得到它们之间的基本相关性Mt。如图6所示的例子,通过时间序列数据D1的移动平均,获得作为平滑处理后的时间序列数据D2的基本相关性Mt。在图像P1的情况下,如图7所示,计算在搜索时间“t”时对搜索关键词的基本相关性Mt。如果选择了基于临时相关性的搜索,跳过步骤S25,序列从步骤S24进入步骤S26。
在步骤S26,总相关性计算器34根据基本相关性Mt或临时相关性Rt,计算所提取的图像对搜索关键词的总相关性St。也就是说,当选择了基于基本相关性的搜索时,总相关性计算器34将每个图像的总相关性St计算为搜索关键词和附接到该图像的其他关键词之间的基本相关性Mt的平均值AMt。而当选择了基于临时相关性的搜索时,总相关性计算器34将总相关性St计算为搜索关键词和附接到该图像的其他关键词之间的临时相关性Rt的平均值ARt。如图7所示的例子,基本相关性搜索的总相关性St=AMt=(15+5+10)/3=10,临时相关性搜索的总相关性St=ARt=(80+5+5)/3=30。
在接下来的步骤S27中,CPU 26将每个图像的总相关性St和预定的阈值进行比较,并只整理出总相关性St大于阈值的那些图像。然后,向客户端终端13发送关于整理出的图像的信息,因此,客户端终端13将接收到的关于检索到的图像的信息作为搜索结果显示在监视器15上(步骤S16)。
对于图像P1,由于它的另一个关键词“爬山”,它对搜索关键词“富士山”的相关程度在夏季变得很高,因此,当对图像搜索选择了基于临时相关性的搜索时,在夏天命中这个图像P1的可能性更高。相反,通过基于基本相关性的检索,在夏天命中这个图像P1的可能性就相对较低。这意味着,如果希望从搜索结果中减少时间的影响,用户应当选择基本相关性搜索。那么,当去除了那种必定受到时间趋势影响的图像时,用户更可能获得期望的图像。
在上述实施例中,在预定的时间周期内,通过对关键词际相关性计算器32所计算的相关性Rt进行移动平均的平滑处理来计算基本相关性Mt。移动平均的周期还可以由用户在客户端终端13上指定。从而,用户可以调整平滑处理的程度,即,从搜索结果中减小时间影响的程度。
移动平均之外的其他类型的平滑处理也可以用于计算基本相关性Mt。例如,诸如傅立叶变换之类的频率分析也是有用的。还可以使用低通滤波来获得相关性Rt的最经常出现的值,作为基本相关性(恒定值)Mt。当然,还可以允许用户在客户端终端13上输入计算周期作为可替换的方法。
虽然在上述实施例中将关键词际相关性计算器32计算出的值直接用作临时相关性Rt,但也可以通过对时间序列数据D1进行比应用于基本相关性Mt的周期较短的周期的平滑处理来计算临时相关性Rt。还可以从关键词际相关性计算器32计算出的值中减去基本相关性Mt,来计算出临时相关性Rt。
虽然上述实施例根据基本相关性Mt或临时相关性Rt计算总相关性St,也可以基于基本相关性Mt和临时相关性Rt,采用系数α(0≤α≤1):St=αMt+(1-α)Rt来计算总相关性St。例如,对于基于基本相关性的检索,α=0.9,而对于基于临时相关性的检索,α=0.1。系数α可以由用户在客户端终端13上指定。
在上述实施例中,总相关性St大于阈值的那些图像的信息作为搜索结果被发送到客户端终端13。不过,可以发送预定数量的图像的信息,这些图像对搜索关键词的总相关性St位于顶部。用户在客户端终端13上指定总相关性的阈值或检索到的图像的数量作为检索标准也是可行的。
在上述实施例中,用户在基于基本相关性的搜索和基于临时相关性的搜索之间进行二择一的选择。除此之外,本发明还可以构造为用户同时执行基于基本相关性的搜索和基于临时相关性的搜索。在这种情况下,在客户端终端13上彼此区别地显示这两种类型的搜索的各自结果。例如,如图11所示,搜索结果显示屏50被分成显示区域52和显示区域54,显示区域52用于通过基于基本相关性搜索所检索到的图像51,显示区域54用于通过基于临时相关性搜索所检索到的图像53。在各个显示区域52和54中,优选地以总相关性从高到低的序列放置这些图像。但是,如果基于基本相关性搜索的结果与基于临时相关性搜索的结果中包含相同的图像,考虑到它的总相关性St,只在显示区域52或54中的一个显示区域中显示该图像。
在上述实施例中,从图像DB 36中提取附接了用户所输入的搜索关键词的那些图像,然后,基于提取出的图像的其他关键词相对于输入的搜索关键词的相关性,进行范围缩小的搜索。此外,在基于嵌入在关键词信息管理器37中的词典,计算搜索关键词和每个图像的单个关键词或代表性关键词之间的相关性时,可以对图像DB 36中的每个图像计算其对输入的搜索关键词的相关性(总相关性St),以便检索与搜索关键词高度相关的那些图像。由于这种采用词典的搜索处理将那些没有附接输入的搜索关键词的图像覆盖为搜索目标,可以获得所谓的模糊搜索。
虽然上述实施例只是输入了一个词作为关键词,还可以采用多个关键词作为搜索关键词来进行搜索处理。在这种情况下,从图像DB 36中提取附接了那些搜索关键词的图像,基于提取出的图像的其他关键词对各个搜索关键词的相关性,进行范围缩小的搜索。为了进行上述的采用了词典的模糊搜索,基于各个搜索关键词和图像DB 36中的图像的单个关键词或代表性关键词之间的相关性进行搜索处理。在搜索处理采用了多个关键词的情况下,计算每个图像的所有关键词相对各个搜索关键词的相关性(基本相关性Mt和临时相关性Rt)的平均值,以计算每个图像的总相关性St。
在上述实施例中,通过键盘17输入文本搜索关键词。除此之外,可以在列表上显示多个关键词,以便用户通过从这些显示的关键词中选择一个关键词来指定搜索关键词。
还可以通过指定多个备选图像中的一个来输入搜索关键词,其中,每个备选图像都附接有一个或多个关键词。如图12所示,虽然没有设置用来在基于基本相关性的搜索和基于临时相关性的搜索之间进行选择的任何单选按钮,搜索命令屏60设置有图像显示区域62,用来显示备选图像61和开始搜索按钮63。用户通过鼠标指针64选择一个显示的图像61,并点击开始搜索按钮63,从而输入了一个搜索命令。在这种情况下,附接到被选图像61的一个或多个关键词被用作用来从图像DB 36中检索图像的一个或多个搜索关键词。在这个实施例中,搜索命令屏60和操作装置18起搜索命令输入装置的作用。
图13示出了在本实施例中采用图像作为搜索关键字的搜索结果显示屏的示例。搜索结果显示屏幕70具有图像显示区域71,图像显示区域71显示在搜索命令屏60上被指定为搜索关键字图像61、作为搜索结果的图像72、73、74和75。在图像显示区域71的中间显示图像61,在图像61的上边沿显示对图像61具有很高的基本相关性Mt的那些图像72和73,而在图像61的下边沿显示对图像61具有很高的临时相关性Rt的那些图像74和75。为了使图像74和75与图像72和73区分,对图像74和75加了实线框。为了一组一组地区分搜索结果,可以采用对显示区域分区、使图像框的颜色和大小不同、添加索引或标号或任何其他合适的方法。
在上述实施例中,通过分别对特定图像的单个关键词的基本相关性Mt和临时相关性Rt求平均,计算特定图像对搜索关键词的基本相关性AMt和临时相关性ARt。如果对附接到特定图像的关键词进行彼此不同的加权,优选通过对应加权平均的方法来计算这些ARt和AMt值。例如,如果用图14所示的方法,用不同的加权系数W对图7所示的各个关键词进行加权,则可以用下式计算AMt和ARt值:
AMt=(15×70+5×20+10×10)/100=12.5
ARt=(80×70+5×20+5×10)/100=57.5
虽然上述实施例涉及了作为内容或搜索目标的图像,但这些内容不限于图像还可以是电影数据、音乐数据、文本数据、计算机软件、网页和这些内容的复杂混合。附接到各个内容上的关键词不限于字母或字符,还可以由代码、数字等表示。
虽然,因为附接到同一内容的那些关键词是彼此相关的,上述实施例计算了关键词际相关性,如果同时输入多个关键词作为搜索关键词,由于同时输入的这些关键词是彼此相关的,也可以计算关键词际相关性。
因此,本发明不限于上述实施例,相反在不脱离所附的权利要求的范围的情况下可以做出各种修改。
Claims (11)
1.一种内容检索设备,其基于输入的搜索关键词从数据库中检索某些内容,其中,所述数据库存储了多种内容,这些内容附接有它们各自的关键词,所述内容检索设备包括:
关键词际相关性计算器,其以固定的时间间隔对附接于存储在所述数据库中的内容上的每个关键词对之间的关键词际相关性进行计算,用来产生关于每个关键词对的关键词际相关性的时间序列数据;
基本相关性计算器,其通过对关于搜索关键词和所述特定关键词之间的关键词际相关性的时间序列数据进行平滑处理,来计算特定关键词对所述搜索关键词的基本相关性;
内容提取装置,其用来基于所述搜索关键词从所述数据库中提取至少一个内容;
判定装置,其用来对关于所提取的内容是否应当包括在搜索结果中进行判定,所述判定装置基于所述搜索关键词和附接于所提取的内容上的关键词之间的基本相关性进行判断;以及
输出装置,其用来输出所述搜索结果。
2.根据权利要求1所述的内容检索设备,其中,所述关键词际相关性计算器基于附接于同一内容的关键词彼此具有一定相关性的假设来计算每个关键词对之间的相关性。
3.根据权利要求1所述的内容检索设备,其中,所述基本相关性计算器通过移动平均对关于所述关键词际相关性的时间序列数据进行平滑处理。
4.根据权利要求1所述的内容检索设备,其还包括总相关性计算器,所述总相关性计算器用来在多个关键词附接于内容时计算内容对所述搜索关键词的总相关性,所述总相关性计算器通过对搜索关键词和各个附接于所述内容的关键词之间的基本相关性进行平均来计算总相关性,其中,所述结果判定装置根据所提取的内容的总相关性对所提取的内容进行判定。
5.根据权利要求4所述的内容检索设备,其中,所述结果判定装置判定总相关性大于预定值的内容被包括在搜索结果中。
6.根据权利要求1所述的内容检索设备,其中,所述内容提取装置从所述数据库中提取那些附接有所述搜索关键词的内容,所述基本相关性计算器计算关于所提取的内容的基本相关性。
7.根据权利要求1所述的内容检索设备,其还包括搜索命令输入装置,其允许在多个内容中指定一个内容,并输入附接于所指定内容的关键词作为搜索关键词。
8.根据权利要求1所述的内容检索设备,其中,所述内容是图像。
9.一种基于输入的搜索关键词从数据库检索某些内容的内容检索方法,其中,所述数据库存储了多种内容,这些内容附接有它们各自的关键词,所述内容检索方法包括下列步骤:
以固定的时间间隔对附接于存储在所述数据库中的内容上的每个关键词对之间的关键词际相关性进行计算,来产生关于每个关键词对的关键词际相关性的时间序列数据;
通过对关于搜索关键词和特定关键词之间的关键词际相关性的时间序列数据进行平滑处理,来计算特定关键词对搜索关键词的基本相关性;
基于搜索关键词从数据库提取至少一个内容;
基于搜索关键词和附接于所提取的内容上的关键词之间的基本相关性,对提取出的内容是否应该被包含在搜索结果中进行判定;以及
输出搜索结果。
10.根据权利要求9所述的内容检索方法,还包括下列步骤:
当多个关键词附接于所述提取的内容时,计算所提取的内容对搜索关键词的总相关性;
通过对所述搜索关键词和附接于所提取的内容的各个关键词之间的基本相关性进行平均来计算总相关性,其中,在所述判定步骤中,根据所提取的内容的总相关性对所述提取出的内容进行判定。
11.根据权利要求10所述的内容检索方法,其中,通过对附接于所提取的内容上的关键词的基本相关性进行加权平均来计算总相关性。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007324499 | 2007-12-17 | ||
JP2007324499A JP2009146261A (ja) | 2007-12-17 | 2007-12-17 | コンテンツ検索装置及び方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101464883A true CN101464883A (zh) | 2009-06-24 |
Family
ID=40754592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008101861074A Pending CN101464883A (zh) | 2007-12-17 | 2008-12-17 | 内容检索设备和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090157670A1 (zh) |
JP (1) | JP2009146261A (zh) |
CN (1) | CN101464883A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194006A (zh) * | 2011-05-30 | 2011-09-21 | 李郁文 | 一种集合团队个性化特征的搜索系统和方法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10002325B2 (en) | 2005-03-30 | 2018-06-19 | Primal Fusion Inc. | Knowledge representation systems and methods incorporating inference rules |
US9104779B2 (en) | 2005-03-30 | 2015-08-11 | Primal Fusion Inc. | Systems and methods for analyzing and synthesizing complex knowledge representations |
KR101042901B1 (ko) * | 2008-10-09 | 2011-06-21 | 엔에이치엔비즈니스플랫폼 주식회사 | 광고 구매 히스토리에 기초하여 검색 광고용 키워드 페어를생성하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 |
JP2013077041A (ja) * | 2010-01-27 | 2013-04-25 | Rakuten Inc | 情報検索装置、情報検索方法、及び情報検索プログラム |
US10474647B2 (en) | 2010-06-22 | 2019-11-12 | Primal Fusion Inc. | Methods and devices for customizing knowledge representation systems |
CA3055137C (en) * | 2011-01-07 | 2023-09-12 | Ihab Francis Ilyas | Systems and methods for analyzing and synthesizing complex knowledge representations |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5819261A (en) * | 1995-03-28 | 1998-10-06 | Canon Kabushiki Kaisha | Method and apparatus for extracting a keyword from scheduling data using the keyword for searching the schedule data file |
US6493705B1 (en) * | 1998-09-30 | 2002-12-10 | Canon Kabushiki Kaisha | Information search apparatus and method, and computer readable memory |
US7490092B2 (en) * | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
US20080065685A1 (en) * | 2006-08-04 | 2008-03-13 | Metacarta, Inc. | Systems and methods for presenting results of geographic text searches |
WO2008058218A2 (en) * | 2006-11-08 | 2008-05-15 | Seeqpod, Inc. | Matching and recommending relevant videos and media to individual search engine results |
JP5044236B2 (ja) * | 2007-01-12 | 2012-10-10 | 富士フイルム株式会社 | コンテンツ検索装置、およびコンテンツ検索方法 |
KR20090000691A (ko) * | 2007-03-21 | 2009-01-08 | 엔에이치엔(주) | 컨텍스트 광고 정보를 노출하는 광고 방법 및 시스템 |
-
2007
- 2007-12-17 JP JP2007324499A patent/JP2009146261A/ja not_active Abandoned
-
2008
- 2008-12-16 US US12/336,042 patent/US20090157670A1/en not_active Abandoned
- 2008-12-17 CN CNA2008101861074A patent/CN101464883A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194006A (zh) * | 2011-05-30 | 2011-09-21 | 李郁文 | 一种集合团队个性化特征的搜索系统和方法 |
CN102194006B (zh) * | 2011-05-30 | 2013-07-31 | 李郁文 | 一种集合团队个性化特征的搜索系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2009146261A (ja) | 2009-07-02 |
US20090157670A1 (en) | 2009-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170091339A1 (en) | Method, apparatus and system of intelligent navigation | |
US5659742A (en) | Method for storing multi-media information in an information retrieval system | |
US7882175B1 (en) | Selecting an advertising message for presentation on a page of a publisher web site based upon both user history and page context | |
US7085761B2 (en) | Program for changing search results rank, recording medium for recording such a program, and content search processing method | |
US5717914A (en) | Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query | |
US5742816A (en) | Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic | |
CN106372249B (zh) | 一种点击率预估方法、装置及电子设备 | |
US8244751B2 (en) | Information processing apparatus and presenting method of related items | |
CN101464883A (zh) | 内容检索设备和方法 | |
EP1861800A1 (en) | Method and system of bidding for advertisement placement on computing devices | |
CN107844525A (zh) | 一种基于用户行为的资讯个性化推荐方法、系统及装置 | |
CN111105269B (zh) | 广告投放处理方法、装置、设备和存储介质 | |
CN108874812B (zh) | 一种数据处理方法及服务器、计算机存储介质 | |
US10467255B2 (en) | Methods and systems for analyzing reading logs and documents thereof | |
CN111028087B (zh) | 信息展示方法、装置和设备 | |
JP2008181186A (ja) | クエリーログを利用したキーワードとサイトの関連度を求める方法 | |
US20040267553A1 (en) | Evaluating storage options | |
US20180189291A1 (en) | Method and apparatus for sorting related searches | |
CN106354867A (zh) | 多媒体资源的推荐方法及装置 | |
CN111767393A (zh) | 一种文本核心内容提取方法及装置 | |
JP4375626B2 (ja) | カテゴリ別のキーワードの入力順位を提供するための検索サービスシステムおよびその方法 | |
EP2608064A1 (en) | Information provision device, information provision method, programme, and information recording medium | |
CN110083759A (zh) | 舆论信息爬取方法、装置、计算机设备及存储介质 | |
CN103262079B (zh) | 检索装置及检索方法 | |
CN108304570B (zh) | 一种搜索结果的处理方法及展现方法、服务器、客户端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20090624 |