CN101583951B - 关键字管理系统和关键字管理方法 - Google Patents

关键字管理系统和关键字管理方法 Download PDF

Info

Publication number
CN101583951B
CN101583951B CN2007800501075A CN200780050107A CN101583951B CN 101583951 B CN101583951 B CN 101583951B CN 2007800501075 A CN2007800501075 A CN 2007800501075A CN 200780050107 A CN200780050107 A CN 200780050107A CN 101583951 B CN101583951 B CN 101583951B
Authority
CN
China
Prior art keywords
key word
burst value
comprehensive
burst
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007800501075A
Other languages
English (en)
Other versions
CN101583951A (zh
Inventor
内野宽治
高桥哲朗
张军
冈本青史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101583951A publication Critical patent/CN101583951A/zh
Application granted granted Critical
Publication of CN101583951B publication Critical patent/CN101583951B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供关键字管理程序、关键字管理系统和关键字管理方法。在关键字管理系统中,网络话题积累装置(100)计算表示关键字的每单位时间的增加值的Burst值,根据计算出的Burst值和与该Burst值对应的关键字在内容中的特征(标题中包含关键字的数量、展开链接的数量、被增强的数量),计算综合Burst值。然后,网络话题积累装置(100)根据综合Burst值的时间序列推移,从内容中提取与对应于综合Burst值的关键字关联的关联关键字(相关关键字和共现关键字),将把关键字和关联关键字对应起来的信息作为主题,输出到用户终端(20)。

Description

关键字管理系统和关键字管理方法
技术领域
本发明涉及对与网络连接的用户终端访问内容时所利用的关键字进行管理的关键字管理程序、关键字管理系统和关键字管理方法。 
背景技术
近年来,因特网广泛普及,用户利用与因特网连接的用户终端,从网络上取得各种信息。例如,在用户从网络上取得与规定关键字相关联的信息的情况下,能够利用检索引擎来取得。 
并且,即使用户不知道特定的关键字,通过访问服务提供商管理的门户网站或博客等,也能够取得服务提供商选出的新闻、话题、劝告信息等各种信息。 
除此之外,对应于进行信息收集的用户,在网络上提供各种服务。例如,在非专利文献1中公开了如下的服务:向用户提供话题的关键字,提示该关键字的检索。该服务进行在规定期间内检索到的关键字的排名,向用户通知排名结果,由此,能够向用户提供话题的关键字。 
另外,在专利文献1中公开了如下技术:为了使用户的信息检索更加舒适,根据检索到的关键字和与关键字相关联的信息之间的关联性的程度,来设定与关键字相关联的信息的配置。 
非专利文献1:ニフテイ株式会社“瞬ワ一ド”、[online]、[平成18年12月25日检索]、因特网<http://www.nifty.com/shun/> 
专利文献1:日本特开2006-31577号公报 
但是,在上述现有技术中存在如下问题:即使能够向用户提供成为话题的主题,也仍不清楚所提供的主题为何成为了话题。 
该情况下,用户不知道所提供的主题为何成为了话题,所以,需要在不知道话题理由的状态下进行检索。而且,检索的结果,命中与主题 相关联的各种信息(包含与话题无关的信息),用户无法舒适地进行利用主题的检索。 
即,明确主题为什么成为话题并向用户通知成为话题的主题的信息,是极其重要的课题。 
发明内容
本发明是鉴于上述内容而完成的,其目的在于,提供明确主题为什么成为话题并能够向用户通知成为话题的主题的信息的关键字管理程序、关键字管理系统和关键字管理方法。 
为了解决上述课题并达成目的,本发明的关键字管理程序用于对在与网络连接的用户终端访问到内容时所利用的关键字进行管理的关键字管理系统,该关键字管理程序的特征在于,该关键字管理程序使计算机执行以下步骤:突发值计算步骤,在该步骤中,计算突发值,该突发值表示所述关键字的每单位时间的增加值;综合突发值计算步骤,在该步骤中,根据与所述突发值对应的关键字在所述内容中的特征,对所述突发值进行校正,从而计算出综合突发值;以及输出控制步骤,在该步骤中,根据所述综合突发值的时间序列推移,从所述内容中提取与对应于该综合突发值的关键字相关联的关联关键字,将所述关键字和关联关键字对应起来输出到所述用户终端。 
并且,本发明的特征在于,在上述发明中,该关键字管理程序还使计算机执行形式要素分析执行步骤,在该步骤中,根据所述突发值为阈值以上的关键字,分析在所述内容内包含的文本的形式要素,在所述突发值计算步骤中,针对由所述形式要素分析结果得到的关键字,进一步计算突发值。 
并且,本发明的特征在于,在上述发明中,该关键字管理程序还使计算机执行分类步骤,在该步骤中,根据所述综合突发值的时间序列推移,将对应于该综合突发值的关键字分类为预先准备的多个类型中的任一种类型,在所述输出控制步骤中,将所述分类步骤的分类结果进一步输出到所述用户终端。 
并且,本发明的特征在于,在上述发明中,所述关键字在内容中的特征包含:在所述内容中标题所包含的所述关键字的数量、在所述内容中展开链接的所述关键字的数量、以及在所述内容中被修饰的所述关键字的数量。 
并且,本发明的特征在于,在上述发明中,在所述输出控制步骤中,提取与所述综合突发值的时间序列推移相关的关键字,作为所述关联关键字。 
并且,本发明的特征在于,在上述发明中,在所述输出控制步骤中,进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字一起出现的关键字,作为所述关联关键字。 
并且,本发明的关键字管理系统对在与网络连接的用户终端访问到内容时所利用的关键字进行管理,该关键字管理系统的特征在于,该关键字管理系统具有:突发值计算单元,其计算突发值,该突发值表示所述关键字的每单位时间的增加值;综合突发值计算单元,其根据与所述突发值对应的关键字在所述内容上的特征,对所述突发值进行校正,从而计算出综合突发值;以及输出控制单元,其根据所述综合突发值的时间序列推移,从所述内容中提取与对应于该综合突发值的关键字相关联的关联关键字,将所述关键字和关联关键字对应起来输出到所述用户终端。 
并且,本发明的特征在于,在上述发明中,该关键字管理系统还具有形式要素分析执行单元,该形式要素分析执行单元根据所述突发值为阈值以上的关键字,分析在所述内容中包含的文本的形式要素,所述突发值计算单元针对由所述形式要素分析结果得到的关键字,进一步计算突发值。 
并且,本发明的特征在于,在上述发明中,该关键字管理系统还具有分类单元,该分类单元根据所述综合突发值的时间序列推移,将对应于该综合突发值的关键字分类为预先准备的多个类型中的任一种类型,所述输出控制单元将所述分类单元的分类结果进一步输出到所述用户终端。 
并且,本发明的特征在于,在上述发明中,所述关键字在内容中的特征包含:在所述内容中标题所包含的所述关键字的数量、在所述内容中展开链接的所述关键字的数量、以及在所述内容中被修饰的所述关键字的数量。 
并且,本发明的特征在于,在上述发明中,所述输出控制单元提取与所述综合突发值的时间序列推移相关的关键字,作为所述关联关键字。 
并且,本发明的特征在于,在上述发明中,所述输出控制单元进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字一起出现的关键字,作为所述关联关键字。 
并且,本发明的关键字管理方法用于对在与网络连接的用户终端访问到内容时所利用的关键字进行管理的关键字管理系统,该关键字管理方法的特征在于,该关键字管理方法包含以下步骤:突发值计算步骤,在该步骤中,计算突发值,该突发值表示所述关键字的每单位时间的增加值;综合突发值计算步骤,在该步骤中,根据与所述突发值对应的关键字在所述内容中的特征,对所述突发值进行校正,从而计算出综合突发值;以及输出控制步骤,在该步骤中,根据所述综合突发值的时间序列推移,从所述内容中提取与对应于该综合突发值的关键字相关联的关联关键字,将所述关键字和关联关键字对应起来输出到所述用户终端。 
并且,本发明的特征在于,在上述发明中,该关键字管理方法还包含形式要素分析执行步骤,在该步骤中,根据所述突发值为阈值以上的关键字,分析在所述内容中包含的文本的形式要素,在所述突发值计算步骤中,针对由所述形式要素分析结果得到的关键字,进一步计算突发值。 
并且,本发明的特征在于,在上述发明中,该关键字管理方法还包含分类步骤,在该步骤中,根据所述综合突发值的时间序列推移,将对应于该综合突发值的关键字分类为预先准备的多个类型中的任一种类型,在所述输出控制步骤中,将所述分类步骤的分类结果进一步输出到所述用户终端。 
并且,本发明的特征在于,在上述发明中,所述关键字的在内容中 的特征包含:在所述内容中标题所包含的所述关键字的数量、在所述内容中展开链接的所述关键字的数量、以及在所述内容中被修饰的所述关键字的数量。 
并且,本发明的特征在于,在上述发明中,在所述输出控制步骤中,提取与所述综合突发值的时间序列推移相关的关键字,作为所述关联关键字。 
并且,本发明的特征在于,在上述发明中,在所述输出控制步骤中,进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字一起出现的关键字,作为所述关联关键字。 
根据本发明,计算表示关键字的每单位时间的增加值的突发值,根据与计算出的突发值对应的关键字在内容中的特征,对突发值进行校正,从而计算出综合突发值,根据该综合突发值的时间序列推移,从内容中提取与对应于综合突发值的关键字相关联的关联关键字,将关键字和关联关键字对应起来输出到所述用户终端,所以,根据成为话题的关键字和关联关键字,用户能够容易地理解该关键字为什么成为话题。 
并且,根据本发明,根据突发值为阈值以上的关键字,分析内容所包含的文本的形式要素,针对由形式要素分析结果得到的关键字,进一步计算突发值,所以,能够更准确地提取成为话题的关键字。 
并且,根据本发明,根据综合突发值的时间序列推移,将对应于综合突发值的关键字分类为预先准备的多个类型中的任一种类型,所以,用户能够容易地理解通过怎样的经过成为话题的关键字。 
并且,根据本发明,根据包含标题所包含的所述关键字的数量、展开链接的关键字的数量、以及被修饰的关键字的数量的关键字在内容中的特征,来校正综合突发值,所以,能够更可靠地提取话题的关键字。 
并且,根据本发明,提取与综合突发值的时间序列推移相关的关键字作为关联关键字,所以,根据成为话题的关键字和关联关键字,用户能够容易地理解该关键字为什么成为话题。 
并且,根据本发明,进一步提取在内容的文本中与综合突发值为阈值以上的关键字一起出现的关键字作为关联关键字,所以,根据成为话 题的关键字和关联关键字,用户能够容易地理解该关键字为什么成为话题,能够更加舒适地执行使用关键字的信息检索。 
附图说明
图1是用于说明现有技术和本实施例的关键字管理系统之间的差异的说明图。 
图2是示出本实施例的关键字管理系统的结构的系统结构图。 
图3是示出本实施例的网络话题积累装置的结构的功能框图。 
图4是示出新闻/博客表的数据结构的一例的图。 
图5是示出检索词表的数据结构的一例的图。 
图6是示出用户辞典表的数据结构的一例的图。 
图7是示出形式要素分析结果管理表的数据结构的一例的图。 
图8是示出Burst计算参数表的数据结构的一例的图。 
图9是示出综合Burst存储表的数据结构的一例的图。 
图10是示出主题类型管理表的数据结构的一例的图。 
图11是示出相关关键字表的数据结构的一例的图。 
图12是示出共现关键字表的数据结构的一例的图。 
图13是示出最终结果存储表的数据结构的一例的图。 
图14是示出本实施例的网络话题积累装置的处理步骤的流程图。 
图15是示出构成图3所示的网络话题积累装置的计算机的硬件结构的图。 
符号说明 
10:网络;20:用户终端;30:各种内容存储装置;40:服务器;50:计算机;51:输入装置;52:监视器;53:RAM;53a:各种数据;54:ROM;55:介质读取装置;56:网络接口;57:CPU;57a:话题关键字提供处理;58:HDD;58a:各种数据;58b:话题关键字提供程序;59:总线;100:网络话题积累装置;110:输入部;120:输出部;130:通信控制IF部;140:输入输出控制IF部;150:存储部;150a:Web内容数据库;150b:新闻/博客表;150c:检索词表;150d:用户辞典表; 150e:形式要素分析结果管理表;150f:Burst计算参数表;150g:综合Burst存储表;150h:主题类型管理表;150i:相关关键字表;150j:共现关键字表;150k:最终结果存储表;160:控制部;160a:数据管理部;160b:Burst计算部;160c:用户辞典登记部;160d:形式要素分析部;160e:综合Burst计算部;160f:主题类型判定部;160g:相关关键字检测部;160h:共现关键字检测部;160i:输出关键字判定处理部。 
具体实施方式
下面,根据附图详细说明本发明的关键字管理程序、关键字管理系统和关键字管理方法的实施例。另外,不由该实施例限定本发明。 
首先,与现有技术相比较来说明本实施例的关键字管理系统的特征。图1是用于说明现有技术和本实施例的关键字管理系统之间的差异的说明图。如图1左侧所示,在现有技术中,根据访问到内容时所利用的关键字的利用频度来选择成为话题的关键字,从利用频度从高到低的顺序排列所选择的关键字,作为主题通知给用户终端(以下为用户终端)(参照图1左侧)。 
但是,现有技术仅根据利用频度来排列成为话题的关键字,所以,用户无法理解各关键字为什么成为主题,无法舒适地进行利用各关键字的信息检索。 
另一方面,本实施例的关键字管理系统的特征在于,计算表示用户访问到内容时所利用的关键字的每单位时间的增加值的突发值,计算根据与该突发值对应的关键字的内容上的特征校正了计算出的突发值得到的综合突发值。而且,根据综合突发值的时间序列推移,从内容中提取与对应于综合突发值的关键字相关联的关键字(以下为关联关键字),以把关键字和关联关键字对应起来的信息作为主题,通知给用户终端(参照图1右侧)。 
这样,本实施例的关键字管理系统将设置了与成为话题的关键字密切相关联的其他关键字的关键字组作为主题,通知给用户,所以,用户能够理解各关键字为什么成为话题,能够舒适地执行利用主题的信息检 索。 
接着,说明本实施例的关键字管理系统的结构。图2是示出本实施例的关键字管理系统的结构的系统结构图。如该图所示,该关键字管理系统构成为,利用网络10来连接用户终端20、各种内容存储装置30、服务器40、网络话题积累装置100。 
用户终端20是利用由服务器40运营的门户网站(包含检索引擎)来取得各种信息的装置。另外,用户终端20在取得各种信息的情况下,经由输入装置(省略图示)从用户接收关键字,将接收的关键字输出到服务器40。 
各种内容存储装置30是存储在网络上收发的各种内容(新闻、博客、BBS(Bulletin Board System)、股价、天气、占卜等文本内容)的存储装置。另外。各种内容包含有生成该内容的日期时间的信息。 
服务器40是如下的装置:运营门户网站,并且,在从用户终端20取得了关键字的情况下,从各种内容存储装置30检索与所取得的关键字相关联的信息,将检索到的信息输出到用户终端20。并且,服务器40将从用户终端20取得的关键字的历史作为检索记录信息,存储在存储装置(省略图示)中。该检索记录信息是将检索的关键字、检索的日期时间、检索数量(同一用户重复检索视为一次)、利用关键字来命中的各种信息的件数的信息对应起来存储得到的。 
网络话题积累装置100是将成为话题的关键字和关联关键字对应起来输出到用户终端20的装置。这里,说明网络话题积累装置100的结构。图3是示出本实施例的网络话题积累装置100的结构的功能框图。如该图所示,该网络话题积累装置100构成为具有:输入部110、输出部120、通信控制IF部130、输入输出控制IF部140、存储部150、以及控制部160。 
其中,输入部110是输入各种信息的输入单元,由键盘、鼠标、麦克风等构成。另外,后述的监视器(输出部120)也与鼠标协作,实现指示设备功能。 
输出部120是输出各种信息的输出单元,由监视器(或显示器、触 摸面板)、扬声器等构成。通信控制IF部130是主要对用户终端20、各种内容存储装置30、服务器40之间的通信进行控制的单元。输入输出控制IF部140是对输入部110、输出部120、通信控制IF部130、存储部150、控制部160进行的数据的输入输出进行控制的单元。 
存储部150是存储控制部160进行的各种处理所需要的数据和程序的存储单元,特别地,作为与本发明密切相关联的部分,如图3所示,存储部150具有:Web内容数据库150a、新闻/博客表150b、检索词表150c、用户辞典表150d、形式要素分析结果管理表150e、Burst计算参数表150f、综合Burst存储表150g、主题类型管理表150h、相关关键字表150i、共现关键字表150j、最终结果存储表150k。 
Web内容数据库150a是存储网络话题积累装置100从服务器40取得的检索记录信息和从各种内容存储装置30取得的各种内容的信息(新闻、博客、BBS、股价、天气、占卜等文本内容的信息)的数据库。另外,与唯一的文档源ID(Identification)对应地存储各种内容的信息。 
新闻/博客表150b是通过关键字以及发布(或生成)新闻和博客的日期时间对新闻和博客(或BBS)的信息进行分类(分类化)的表。图4是示出新闻/博客表150b的数据结构的一例的图。如该图所示,新闻/博客表150b由关键字、日期时间、文档源ID、新闻(博客)内容构成。其中,日期时间表示发布(或生成)新闻或博客的日期时间。另外,这里示出新闻/博客表150b存储新闻和博客的信息的情况,但是,也可以包含并存储其他信息(例如BBS、其他内容)。 
检索词表150c是存储检索记录信息所包含的关键字的各种信息的表。图5是示出检索词表150c的数据结构的一例的图。如该图所示,该检索词表150c由关键字、日期时间、检索数量、出现件数、平均检索数量、Burst值构成。 
其中,检索数量表示由用户检索该关键字的次数。例如,在图5的第1段中,示出株式会社A这样的关键字的检索次数为111。 
出现件数表示通过规定的检索引擎检索关键字时所命中的件数。例如,在图5的第1段中,示出作为关键字的“株式会社A”的命中件数为 “1200000”。 
平均检索数量表示根据过去检索到的关键字的检索数量而计算出的每单位时间的平均检索数量。例如,在图5的第1段中,示出作为关键字的“株式会社A”的平均检索数量为“90.5”。 
Burst值表示对内容进行访问时所利用(由用户输入到检索引擎等中)的关键字的每单位时间的增加量(根据时间经过而变化的检索关键字的微分值)。通过后述的Burst计算部160b来计算该Burst值。 
返回图3的说明,用户辞典表150d是存储对新闻和博客进行形式要素分析时所使用的形式要素的信息的表。图6是示出用户辞典表150d的数据结构的一例的图。如该图所示,该用户辞典表150d由形式要素、读音、词类、其他信息构成。 
形式要素分析结果管理表150e是作为从新闻和博客中提取的形式要素的关键字的各种分析结果的表。图7是示出形式要素分析结果管理表150e的数据结构的一例的图。如该图所示,该形式要素分析结果管理表150e由关键字、日期时间、文档源ID、场所、标题、增强、链接、内容构成。 
其中,文档源ID表示包含有相应的关键字的文档的识别编号。例如,在图7中示出包含“株式会社A”这样的关键字的文档的识别编号(文档源ID)为“CN001、CN002、CN003”。 
场所表示该关键字在文档内的位置。例如示出“株式会社A”这样的关键字在文档源ID“CN001”的文档内位于第1个、第15个、第50个。 
标题表示文档的标题所包含的关键字的数量。例如示出在文档源ID“CN001”的文档的标题内包含一个“株式会社A”这样的关键字。 
增强表示该关键字在文档中被修饰的数量(表示该关键字在文档中利用Bold等增强的数量)。链接表示在文档中关键字展开了链接的数量。内容表示文档中所包含的关键字的数量。 
Burst计算参数表150f是存储进行形式要素分析的结果、即与从新闻或博客中提取的各形式要素的Burst值相关联的信息的表。图8是示出 Burst计算参数表150f的数据结构的一例的图。如该图所示,该Burst计算参数表150f由关键字、日期时间、标题、增强、链接、内容、平均、Burst值构成。 
其中,标题、增强、链接、内容分别对应于在图7中说明的标题、增强、链接、内容。平均和Burst值对应于在图5中说明的平均检索数量和Burst值。另外,图8的平均和Burst值以新闻和博客中的关键字为对象(图5的平均检索数量和Burst值以检索记录信息中的关键字为对象)。 
综合Burst存储表150g是存储与各关键字对应的综合突发值的表。图9是示出综合Burst存储表150g的数据结构的一例的图。如该图所示,该综合Burst存储表150g由关键字、日期时间、SB(kwi)、CB(kwi)、α(kwi)、TB(kwi)构成。 
其中,SB(kwi)表示检索记录信息所包含的关键字的Burst值。根据存储在检索词表150c中的各信息来计算该SB(kwi)。CB(kwi)表示新闻或博客所包含的关键字的Burst值。根据存储在Burst计算参数表150f中的各信息来计算该CB(kwi)。 
α(kwi)是计算综合Burst值时所利用的系数。TB(kwi)表示与关键字对应的综合Burst值。通过后述的综合Burst计算部160e来计算该综合Burst值。综合Burst存储表150g存储各个时刻的关键字的SB(kwi)、CB(kwi)、α(kwi)、TB(kwi)。 
主题类型管理表150h是将关键字分类为预先准备的多个主题类型的表。图10是示出主题类型管理表150h的数据结构的一例的图。如该图所示,该主题类型管理表150h由关键字、日期时间、主题类型构成。 
其中,主题类型表示由用户检索的关键字的时间变化的特征。例如,在主题类型为“反复型”的情况下,表示关键字的检索数量反复增加减少。除此之外,主题类型还存在“递增型”和“突发型”等。“递增型”表示关键字的检索数量随着时间经过平稳增加,“突发型”表示关键字的检索数量在规定时间内急剧增加。 
相关关键字表150i是将关键字和与该关键字相关的关键字(相关关键字)对应起来进行存储的表。图11是示出关联关键字表150i的数据结 构的一例的图。如该图所示,该相关关键字表150i由关键字和相关关键字构成,且分别对应起来。例如,在图11的第1段中,作为关键字的株式会社A与作为相关关键字的服务A和个人计算机B对应。 
共现关键字表150j是将关键字和与该关键字具有共现关系的关键字(在文档中与关键字一起出现的关键字,以下为共现关键字)对应起来进行存储的表。图12是示出共现关键字表150j的数据结构的一例的图。如该图所示,该共现关键字表150j由关键字和共现关键字构成,且分别对应起来。例如,在图12的第1段中,作为关键字的株式会社A与作为共现关键字的研究所和开发对应。 
最终结果存储表150k是存储输出到用户终端20的信息的表。图13是示出最终结果存储表150k的数据结构的一例的图。如该图所示,该最终结果存储表150k由关键字、日期时间、TB(kwi)、SUB(kwi)、主题类型构成。其中,SUB(kwi)表示与关键字一起输出到用户终端20的相关关键字或共现关键字。另外,最终结果存储表150k按照综合Burst值TB(kwi)的大小顺序存储关键字。 
返回图3的说明,控制部160具有用于存储规定了各种处理步骤的程序和控制数据的内部存储器,是通过这些程序和数据来执行各种处理的控制单元,特别地,作为与本发明密切相关联的部分,如图3所示,控制部160具有:数据管理部160a、Burst计算部160b、用户辞典登记部160c、形式要素分析部160d、综合Burst计算部160e、主题类型判定部160f、相关关键字检测部160g、共现关键字检测部160h、输出关键字判定处理部160i。 
其中,数据管理部160a是如下的单元:从服务器40取得检索记录信息,将其存储在Web内容数据库150a中,并且,从各种内容存储装置30取得各种内容的信息,将其存储在Web内容数据库150a中。另外,数据管理部160a在收集保证了发布日期时间的各种内容的情况下,利用现有技术(日本特开2006-236262)所公开的技术即可。 
并且,数据管理部160a进行存储在Web内容数据库150a中的新闻和博客的索引化,生成新闻/博客表150b(参照图4)。另外,在进行索引 化的情况下,关于从新闻/博客中选择的关键字,只要能够通过日期时间和所选择的关键字唯一确定该新闻或博客,则可以选择任意的关键字。 
进而,数据管理部160a根据存储在Web内容数据库150a中的检索记录信息,生成检索词表150c(参照图5)。在生成检索词表150c的情况下,数据管理部160a根据检索记录信息所包含的过去的关键字的检索数量,计算平均检索数量,将计算出的平均检索数量存储在检索词表150c中。 
Burst计算部160b是根据检索词表150c或Burst计算参数表150f来计算Burst值的单元。首先,说明Burst计算部160b根据检索词表150c计算Burst值的情况。如上所述,该Burst值是表示由用户检索的关键字的每单位时间的增加量的值。Burst值如何计算都可以,例如能够通过下式计算。 
AT t ( W i ) 1 = UU t ( W i ) &times; ( UU t ( W i ) - C t 1 t - 1 &Sigma; k = 1 t - 1 UU k ( W i ) ) C t 1 t - 1 &Sigma; k = 1 t - 1 UU k ( W i ) &CenterDot; &CenterDot; &CenterDot; ( 1 )
这里,说明式(1)的各项目。UUt(Wi)表示时刻t时的关键字(wi)的用户数量,Ct1表示UUt(Wi)的校正值。使用式(1),能够计算时刻t时的Burst值ATt(Wi)1。另外,式(1)的分母对应于检索词表150c的平均检索数量,式(1)的UUt(Wi)对应于检索词表150c的检索数量。Burst计算部160b与关键字对应地将Burst值ATt(Wi)1存储在检索词表150c的Burst值域中。 
接着,说明Burst计算部160b根据Burst计算参数表150f计算Burst值的情况。此时的Burst值例如能够通过下式计算。 
AT t ( W i ) 2 = F t ( W i ) &times; ( F t ( W i ) - C t 2 t - 1 &Sigma; k = 1 t - 1 F k ( W i ) ) C t 2 t - 1 &Sigma; k = 1 t - 1 F k ( W i ) &CenterDot; &CenterDot; &CenterDot; ( 2 )
这里,说明式(2)的各项目。Ft(Wi)表示时刻t发布的内容所包含的关键字的频度,Ct2表示Ft(Wi)的校正值。使用式(2),能够计算时刻t的Burst值ATt(Wi)2。另外,式(2)的分母对应于Burst计算 参数表150f的平均,式(2)的Ft(Wi)对应于Burst计算参数表150f的内容。Burst计算部160b与关键字对应地将Burst值ATt(Wi)2存储在Burst计算参数表150f的Burst值域中。 
用户辞典登记部160c是如下的单元:根据存储在检索词表150c中的信息,检索存储在Burst值域中的Burst值为阈值以上的关键字,将检索到的关键字存储在用户辞典表150d(参照图6)中。 
形式要素分析部160d是如下的单元:使用用户辞典表150d的形式要素域所记载的各关键字,执行新闻/博客表150b的新闻(博客)内容域所记载的文本内容或Web内容数据库150a所记载的信息的形式要素分析。形式要素分析部160d将形式要素分析结果存储在形式要素分析结果管理表150e中。 
形式要素分析部160d根据新闻/博客表150b的新闻(博客)内容域所记载的文本内容或Web内容数据库150a所记载的信息,使用由形式要素分析结果得到的形式要素(关键字),对标题所包含的关键字的数量、被增强的关键字的数量、关键字展开链接的数量、以及新闻和博客所包含的关键字的数量进行计数。 
形式要素分析部160d将所计数的数量与关键字对应起来存储在形式要素分析结果管理表150e的标题域、增强域、链接域、内容域中。并且,形式要素分析部160d也将文档源ID、场所的信息存储在形式要素分析结果管理表150e中。 
进而,形式要素分析部160d根据由形式要素分析结果得到的形式要素(关键字)和存储在Web内容数据库150a或新闻/博客表150b中的信息,生成Burst计算参数表150f(参照图8)。形式要素分析部160d根据存储在Web内容数据库150a或新闻/博客表150b中的信息所包含的关键字的检索数量,计算每单位时间检索关键字的平均检索数量。将计算出的平均检索数量存储在Burst计算参数表150f的平均域中。 
综合Burst计算部160e是计算与关键字对应的综合Burst值的单元。具体而言,说明综合Burst计算部160e进行的处理时,能够通过TB(kwi)=SB(kwi)×CB(kwi)+α(kwi),来计算与关键字对应的综合Burst 值TB(kwi)。这里,说明各项目时,SB(kwi)表示存储在检索词表150c的Burst值域中(与该关键字对应)的Burst值。并且,CB(kwi)表示存储在Burst计算参数表150f的Burst值域中(与该关键字对应)的Burst值。 
α(kwi)是通过表示存储在Burst计算参数表150f的标题域中的关键字的数量的T(kwi)、表示存储在增强域中的关键字的数量的L(kwi)、和表示存储在链接域中的关键字的数量的E(kwi)计算出的值,具体而言,通过α(kwi)=β×(T(kwi)+L(kwi)+E(kwi))来计算。上述式中的β是用于取得综合Burst值的平衡的系数。 
综合Burst计算部160e将计算出的综合Burst值(TB(kwi))与关键字对应起来存储在综合Burst存储表150g(参照图9)中。另外,综合Burst计算部160e根据Burst计算参数表150f,预先登记与综合Burst存储表150g的各关键字对应的SB(kwi)、CB(kwi)、α(kwi)的值。另外,综合Burst计算部160e在SB(kwi)的值为0的情况下,代替0而登记1。同样,综合Burst计算部160e在CB(kwi)的值为0的情况下,代替0而登记1。 
主题类型判定部160f是如下的单元:判定与关键字对应的主题类型(反复型、递增型或突发型),按照每个关键字将判定结果存储在主题类型管理表中。具体而言,主题类型判定部160f检测存储在综合Burst存储表150g的TB(kwi)域中的综合Burst值为阈值以上的关键字。 
而且,主题类型判定部160f计算与检测到的关键字对应的综合Burst值在过去一定期间内的时间序列推移,在多个时刻计算从过去的t-1到t(在t中代入与每天的时刻对应的数值)的微分值,根据各时刻的微分值来判定主题类型。另外,能够根据过去一定期间内的综合Burst值和日期时间之间的关系,通过近似式来确定过去一定期间内的综合Burst值的时间序列推移。 
在各时刻的微分值反复加减n次以上的情况下,主题类型判定部160f将对应的关键字的主题类型判定为“反复型”。并且,在各时刻的微分值在规定期间以上的期间连续增加m次以上的情况下,主题类型判定部 160f将对应的关键字的主题类型判定为“递增型”。并且,在各时刻的微分值在小于规定期间的期间连续增加m次的情况下,主题类型判定部160f将对应的关键字的主题类型判定为“突发型”。 
相关关键字检测部160g是利用综合Burst值为阈值以上的关键字来检测相关系数为规定值以上的关键字组的单元。具体而言,该相关关键字检测部160g根据综合Burst存储表150g,取出综合Burst值TB(kwi)为阈值T以上的关键字。 
而且,相关关键字检测部160g利用所取出的各关键字的综合Burst值TB(kwi),计算相关系数。相关系数如何计算都可以,例如能够通过下式计算。 
&Sigma; i = 1 n ( x i - x &OverBar; ) ( y i - y &OverBar; ) &Sigma; i = 1 n ( x i - x &OverBar; ) 2 &Sigma; i = 1 n ( y i - y &OverBar; ) 2 &CenterDot; &CenterDot; &CenterDot; ( 3 )
这里,说明式(3)的各项目,xi对应于关键字的综合Burst值TB(kwi),yi对应于作为相关系数的比较对象的关键字的综合Burst值(kwj)。 
相关关键字检测部160g使用式(3)取出与关键字的相关系数为规定值以上的关键字组,将取出的关键字组作为相关关键字CO(kwi)存储在相关关键字表150i中。由存储在图11的第1段中的结果可知,关键字“株式会社A”的综合Burst值TB(kwi)和相关关键字“服务A”的综合Burst值TB(kwj)之间的相关系数为规定值以上。同样,可知关键字“株式会社A”的综合Burst值TB(kwi)和相关关键字“个人计算机B”的综合Burst值TB(kwj)之间的相关系数为规定值以上。 
共现关键字检测部160h是如下的单元:利用综合Burst值为阈值以上的关键字,取出在文档中与该关键字一起出现(共现)的关键字,作为共现关键字。 
具体而言,共现关键字检测部160h根据综合Burst存储表150g,取出综合Burst值TB(kwi)为阈值T以上的关键字。然后,共现关键字检测部160h根据所取出的关键字和形式要素分析结果管理表150e,确定该关键字的场所(文档上的位置)。 
共现关键字检测部160h根据所确定的场所和Web内容数据库150a 或新闻/博客表150b,取出场所值前后的m个词(关键字)作为共现关键字RK(kwi),将所取出的共现关键字与对应的关键字对应起来存储在共现关键字表150j中。共现关键字检测部160h还针对其他文档源ID执行该处理。 
另外,共现关键字检测部160h在将共现关键字存储在共现关键字表150j中的情况下,按照文档上的共现关键字的频度的大小顺序进行存储。在图12的第1段所示的例子中,按照研究所、开发、…的顺序存储共现关键字,所以,关于与关键字“株式会社A”一起出现在文档上的频度,共现关键字“研究所”的频度比“开发”的频度大。 
输出关键字判定处理部160i是如下的单元:生成输出到用户终端20的关键字组(存储在最终结果存储表150k中的信息),将所生成的关键字组输出到用户终端20。具体而言,输出关键字判定处理部160i通过关键字(kwi)&相关关键字CO(kwi)&共现关键字RK(kwi)&日期时间这样的检索条件来检索新闻/博客表150b。 
输出关键字判定处理部160i在命中该检索条件的件数为1以上的情况下,将与检索条件对应的关键字、日期时间、综合Burst值TB(kwi)、SUB(kwi)以及关键字的主题类型存储在最终结果存储表150k中。另外,在SUB(kwi)中存储检索条件所包含的相关关键字CO(kwi)和共现关键字RK(kwi)。输出关键字判定处理部160i根据主题类型管理表150h,将关键字的主题类型存储在最终结果存储表150k中。输出关键字判定处理部160i按照综合Burst值的大小顺序对存储在最终结果存储表150k中的关键字进行存储。 
在上述检索结果的出现数量为0的情况下,从检索条件中排除频度低的相关关键字CO(kwi)或共现关键字RK(kwi),再次检索新闻/博客表150b。输出关键字判定处理部160i进行检索条件的再次设定(从检索条件中排除频度低的相关关键字CO(kwi)或共现关键字RK(kwi)的设定)并反复进行检索,直到检索结果的出现数量为1以上。 
另外,输出关键字判定处理部160i参照最终结果存储表150k的主题类型域,取出突发型的关键字。然后,输出关键字判定处理部160j通 过所取出的关键字(kwi)&CO(kwi)&RK(kwi)这样的从检索条件中排除日期时间后的新的检索条件,检索新闻/博客表150b,判定出现件数是否大于1。在输出关键字判定处理部160i判定为出现件数大于1的情况下,删除对应的关键字的主题类型“突发型”。在除此之外的情况下,保留主题类型。 
接着,说明本实施例的网络话题积累装置100的处理。图14是示出本实施例的网络话题积累装置100的处理步骤的流程图。如该图所示,在网络话题积累装置100中,数据管理部160a从各种内容存储装置30和服务器40取得新闻、博客、检索记录的信息,将其存储在Web内容数据库150a中(步骤S101)。 
数据管理部160a进行存储在Web内容数据库150a中的数据的索引化,生成新闻/博客表150b和检索词表150c(步骤S102),Burst计算部160b计算检索词表150c所包含的关键字的Burst值(步骤S103)。 
接着,用户辞典登记部160c将Burst值为阈值以上的关键字登记在用户辞典表150d中(步骤S104),形式要素分析部160d根据登记在用户辞典表150d中的数据,对新闻/博客的文本内容执行形式要素分析(步骤S105)。Burst计算部160b计算执行形式要素分析的结果得到的关键字的Burst值,将其存储在Burst计算参数表150f中(步骤S106)。 
然后,形式要素分析部160d对标题所包含的关键字的数量进行计数(步骤S107),对针对关键字展开链接的数量进行计数(步骤S108),对通过Bold等增强了关键字的数量进行计数(步骤S109)。 
综合Burst计算部160e根据Burst计算参数表150f计算综合Burst值,将其存储在综合Burst存储表150g中(步骤S110)。主题类型判定部160f根据过去的综合Burst值的时间序列推移来判定主题类型,将其存储在主题类型管理表150h中(步骤S111)。 
接着,相关关键字检测部160g检测与过去的综合Burst值的时间序列推移高度相关(相关系数为阈值以上)的关键字组CO,将其存储在相关关键字表150i中(步骤S112)。共现关键字检测部160h在新闻和博客的内容中检测与综合Burst值高(阈值以上)的关键字一起出现的关键字 组RK,将其存储在共现关键字表150j中(步骤S113)。 
然后,输出关键字判定处理部160i根据综合Burst值的排名(综合Burst值的大小顺序),通过关键字(kwi)&相关关键字CO(kwi)&共现关键字RK(kwi)&日期时间(Date)的检索条件来检索新闻/博客表150b(步骤S114),根据综合Burst值的排名,以关键字(kwi)+相关关键字CO(kwi)+共现关键字RK(kwi)+主题类型的形式,向用户终端20输出主题(步骤S115)。 
这样,输出关键字判定处理部160i以关键字(kwi)+相关关键字CO(kwi)+共现关键字RK(kwi)+主题类型的形式,向用户终端20输出主题,所以,用户能够获得话题的主题,并且,能够容易地掌握主题成为话题的理由。 
如上所述,在本实施例的关键字管理系统中,网络话题积累装置100计算表示关键字的每单位时间的增加值的Burst值,根据计算出的Burst值和与该Burst值对应的关键字在内容中的特征(标题中包含关键字的数量、展开链接的数量、被增强的数量),计算综合Burst值。然后,网络话题积累装置100根据综合Burst值的时间序列推移,从内容中提取与对应于综合Burst值的关键字关联的关联关键字(相关关键字和共现关键字),将把关键字和关联关键字对应起来的信息作为主题,输出到用户终端20,所以,明确主题为什么成为话题,并能够向用户通知成为话题的主题的信息。 
并且,本实施例的网络话题积累装置100在主题的信息中包含主题类型并将其输出到用户终端,所以,用户能够容易地理解通过怎样的经过成为话题的主题。 
并且,在本实施例的网络话题积累装置100中,形式要素分析部160d利用存储在用户辞典表150d中的形式要素,执行新闻或博客的形式要素分析,所以,能够更准确地执行未知词等的切出。 
但是,在本实施例中说明的各处理中,能够手动进行作为自动进行的处理而说明的处理的全部或一部分,或者,能够利用公知的方法自动进行作为手动进行的处理而说明的处理的全部或一部分。除此之外,针 对上述文档中和附图中所示的处理步骤、控制步骤、具体名称、包含各种数据和参数在内的信息,除了特意标记的情况以外,能够任意变更。 
并且,图2所示的关键字管理系统的结构和图3所示的网络话题积累装置100的各结构要素是功能上的概念,在物理上不一定如图所示那样构成。即,各装置的分散/统合的具体形式不限于图示的形式,能够构成为根据各种负荷或使用状况等,以任意单位在功能上或物理上对其全部或一部分进行分散/统合。进而,在各装置中进行的各处理功能的全部或任意一部分利用CPU和在该CPU中执行分析的程序来实现,或者,也能够作为基于布线逻辑的硬件来实现。 
图15是示出构成图3所示的网络话题积累装置100的计算机的硬件结构的图。该计算机50构成为,利用总线59来连接接收来自用户的数据输入的输入装置51、监视器52、RAM(Random Access Memory)53、ROM(Read Only Memory)54、从记录了各种程序的记录介质中读取程序的介质读取装置55、经由网络在与其他计算机之间进行数据收发的网络接口56、CPU(Central Processing Unit)57、以及HDD(Hard Disk Drive)58。 
而且,在HDD 58中存储有发挥与上述网络话题积累装置100的功能相同的功能的话题关键字提供程序58b。而且,CPU 57从HDD 58中读出并执行话题关键字提供程序58b,由此,实现上述网络话题积累装置100的功能部的功能的话题关键字提供处理57a起动。该话题关键字提供处理57a对应于图3所示的数据管理部160a、Burst计算部160b、用户辞典登记部160c、形式要素分析部160d、综合Burst计算部160e、主题类型判定部160f、相关关键字检测部160g、共现关键字检测部160h、输出关键字判定处理部160i。 
并且,在HDD 58中存储有与存储在上述网络话题积累装置100的存储部150中的数据对应的各种数据58a。该各种数据58a对应于图3所示的Web内容数据库150a、新闻/博客表150b、检索词表150c、用户辞典表150d、形式要素分析结果管理表150e、Burst计算参数表150f、综合Burst存储表150g、主题类型管理表150h、相关关键字表150i、共现 关键字表150j、最终结果存储表150k。 
CPU 57在HDD 58中存储各种数据58a,并且,从HDD 58中读出各种数据58a并将其存储在RAM 53中,利用存储在RAM 53中的各种数据53a,将成为话题的主题的信息与关联关键字对应起来输出到用户终端20。 
产业上的可利用性 
如上所述,本发明的关键字管理系统在进行向用户终端提供主题的服务的系统中是有用的,特别适合于需要提供主题以使用户能够舒适地检索成为话题的主题的情况。特别地,考虑对利用时间序列整理成为话题的主题并对用户感兴趣的主题进行引用,或附加注释来收集具有相同嗜好的用户的小区服务的应用。 

Claims (8)

1.一种关键字管理系统,该关键字管理系统对在与网络连接的用户终端访问到内容时所利用的关键字进行管理,该关键字管理系统的特征在于,该关键字管理系统具有:
突发值计算单元,其计算突发值,该突发值表示所述关键字的每单位时间的增加值;
综合突发值计算单元,其根据与所述突发值对应的关键字在所述内容上的特征,对所述突发值进行校正,从而计算出综合突发值;以及
输出控制单元,其根据所述综合突发值的时间序列推移,从所述内容中提取与对应于该综合突发值的关键字相关联的关联关键字,将所述关键字和关联关键字对应起来输出到所述用户终端,其中
所述输出控制单元提取与所述综合突发值的时间序列推移相关的关键字,作为所述关联关键字,并且
所述输出控制单元进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字一起出现的关键字,作为所述关联关键字。
2.根据权利要求1所述的关键字管理系统,其特征在于,
该关键字管理系统还具有形式要素分析执行单元,该形式要素分析执行单元根据所述突发值为阈值以上的关键字,分析在所述内容中包含的文本的形式要素,所述突发值计算单元针对由所述形式要素分析结果得到的关键字,进一步计算突发值。
3.根据权利要求1所述的关键字管理系统,其特征在于,
该关键字管理系统还具有分类单元,该分类单元根据所述综合突发值的时间序列推移,将对应于该综合突发值的关键字分类为预先准备的多个类型中的任一种类型,所述输出控制单元将所述分类单元的分类结果进一步输出到所述用户终端。
4.根据权利要求1所述的关键字管理系统,其特征在于,
综合突发值计算单元参照在所述内容中标题所包含的关键字的数量、在所述内容中展开链接的关键字的数量、以及在所述内容中被修饰的关键字的数量,通过校正所述突发值来计算所述综合突发值。
5.一种关键字管理方法,该关键字管理方法用于对在与网络连接的用户终端访问到内容时所利用的关键字进行管理的关键字管理系统,该关键字管理方法的特征在于,该关键字管理方法包含以下步骤:
突发值计算步骤,在该步骤中,计算突发值,该突发值表示所述关键字的每单位时间的增加值;
综合突发值计算步骤,在该步骤中,根据与所述突发值对应的关键字在所述内容中的特征,对所述突发值进行校正,从而计算出综合突发值;以及
输出控制步骤,在该步骤中,根据所述综合突发值的时间序列推移,从所述内容中提取与对应于该综合突发值的关键字相关联的关联关键字,将所述关键字和关联关键字对应起来输出到所述用户终端,其中
在所述输出控制步骤中,提取与所述综合突发值的时间序列推移相关的关键字,作为所述关联关键字,并且
在所述输出控制步骤中,进一步提取在所述内容的文本中与所述综合突发值为阈值以上的关键字一起出现的关键字,作为所述关联关键字。
6.根据权利要求5所述的关键字管理方法,其特征在于,
该关键字管理方法还包含形式要素分析执行步骤,在该步骤中,根据所述突发值为阈值以上的关键字,分析在所述内容中包含的文本的形式要素,在所述突发值计算步骤中,针对由所述形式要素分析结果得到的关键字,进一步计算突发值。
7.根据权利要求5所述的关键字管理方法,其特征在于,
该关键字管理方法还包含分类步骤,在该步骤中,根据所述综合突发值的时间序列推移,将对应于该综合突发值的关键字分类为预先准备的多个类型中的任一种类型,在所述输出控制步骤中,将所述分类步骤的分类结果进一步输出到所述用户终端。
8.根据权利要求5所述的关键字管理方法,其特征在于,
所述综合突发值计算步骤包括:参照在所述内容中标题所包含的关键字的数量、在所述内容中展开链接的关键字的数量、以及在所述内容中被修饰的关键字的数量,通过校正所述突发值来计算所述综合突发值。
CN2007800501075A 2007-01-18 2007-01-18 关键字管理系统和关键字管理方法 Expired - Fee Related CN101583951B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/050702 WO2008087728A1 (ja) 2007-01-18 2007-01-18 キーワード管理プログラム、キーワード管理システムおよびキーワード管理方法

Publications (2)

Publication Number Publication Date
CN101583951A CN101583951A (zh) 2009-11-18
CN101583951B true CN101583951B (zh) 2012-02-15

Family

ID=39635737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800501075A Expired - Fee Related CN101583951B (zh) 2007-01-18 2007-01-18 关键字管理系统和关键字管理方法

Country Status (4)

Country Link
US (1) US8316026B2 (zh)
JP (1) JP4797069B2 (zh)
CN (1) CN101583951B (zh)
WO (1) WO2008087728A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8577930B2 (en) 2008-08-20 2013-11-05 Yahoo! Inc. Measuring topical coherence of keyword sets
JP5097186B2 (ja) * 2009-09-30 2012-12-12 京セラコミュニケーションシステム株式会社 穴場情報提供装置またはその方法
JP5216042B2 (ja) * 2010-04-20 2013-06-19 ヤフー株式会社 検索スコア算出装置及び方法
JP5296011B2 (ja) * 2010-06-04 2013-09-25 ヤフー株式会社 関連バーストクエリ抽出装置及び方法
JP5341847B2 (ja) * 2010-09-13 2013-11-13 日本電信電話株式会社 検索クエリ推薦方法、検索クエリ推薦装置、検索クエリ推薦プログラム
JP5295295B2 (ja) * 2011-03-14 2013-09-18 ヤフー株式会社 解析装置及び方法
JP5323143B2 (ja) * 2011-08-03 2013-10-23 ヤフー株式会社 情報処理装置、情報処理方法、及びプログラム
TW201403528A (zh) * 2012-07-10 2014-01-16 Telexpress Corp 用於諮詢服務系統之關鍵字管理系統及其方法
JP6365032B2 (ja) * 2014-07-08 2018-08-01 富士通株式会社 データ分類方法、データ分類プログラム、及び、データ分類装置
JP6599727B2 (ja) * 2015-10-26 2019-10-30 株式会社Screenホールディングス 時系列データ処理方法、時系列データ処理プログラム、および、時系列データ処理装置
US10078632B2 (en) * 2016-03-12 2018-09-18 International Business Machines Corporation Collecting training data using anomaly detection
JP2018092367A (ja) * 2016-12-02 2018-06-14 日本放送協会 関連語抽出装置及びプログラム
JP6541737B2 (ja) * 2017-09-20 2019-07-10 ヤフー株式会社 選択装置、選択方法、選択プログラム、モデルおよび学習データ

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604032A (zh) * 2003-09-02 2005-04-06 株式会社东芝 逆模型计算装置和逆模型计算方法
CN1685345A (zh) * 2002-11-01 2005-10-19 三菱电机株式会社 用于挖掘视频内容的方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6457004B1 (en) * 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
JP4289513B2 (ja) 1997-04-09 2009-07-01 富士通株式会社 文書表示装置およびプログラム記憶媒体
JP2001188375A (ja) * 1999-12-28 2001-07-10 Mitsubishi Chemicals Corp 電子写真感光体の製造方法及び電子写真感光体
JP2002236681A (ja) * 2001-02-09 2002-08-23 Inst Of Physical & Chemical Res 日常言語コンピューティングシステムおよびその方法
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP2003006195A (ja) * 2001-06-21 2003-01-10 Nec System Technologies Ltd キーワード情報通知方式及びその方法
JP2004206517A (ja) * 2002-12-26 2004-07-22 Nifty Corp ホットキーワード提示方法及びホットサイト提示方法
JP2004348554A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 検索キーワード情報提供装置、検索キーワード情報提供方法、及び検索キーワード情報提供プログラム
JP2006031577A (ja) 2004-07-21 2006-02-02 Hideki Mima 情報の検索俯瞰方法および装置
JP2006079454A (ja) 2004-09-10 2006-03-23 Fujitsu Ltd 検索キーワード分析方法、検索キーワード分析プログラムおよび検索キーワード分析装置
JP2006092368A (ja) 2004-09-24 2006-04-06 Fuji Xerox Co Ltd 活動記録装置、活動記録方法およびプログラム
JP4923413B2 (ja) 2005-02-28 2012-04-25 富士通株式会社 情報抽出プロブラム及び方法
US7788131B2 (en) * 2005-12-15 2010-08-31 Microsoft Corporation Advertising keyword cross-selling

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1685345A (zh) * 2002-11-01 2005-10-19 三菱电机株式会社 用于挖掘视频内容的方法
CN1604032A (zh) * 2003-09-02 2005-04-06 株式会社东芝 逆模型计算装置和逆模型计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JP特开2003-6195A 2003.01.10
JP特开2004-348554A 2004.12.09

Also Published As

Publication number Publication date
JPWO2008087728A1 (ja) 2010-05-06
US8316026B2 (en) 2012-11-20
CN101583951A (zh) 2009-11-18
WO2008087728A1 (ja) 2008-07-24
JP4797069B2 (ja) 2011-10-19
US20090276424A1 (en) 2009-11-05

Similar Documents

Publication Publication Date Title
CN101583951B (zh) 关键字管理系统和关键字管理方法
JP5160601B2 (ja) 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置
USRE47167E1 (en) Predictive publishing of internet digital content
US7363282B2 (en) Search system using user behavior data
US20170249311A1 (en) Quality-based scoring and inhibiting of user-generated content
US8768861B2 (en) Research mission identification
Kong et al. Predicting search intent based on pre-search context
Arapakis et al. On the feasibility of predicting news popularity at cold start
CN111914172B (zh) 一种基于用户标签的医学信息推荐方法及系统
CN102959542A (zh) 用于管理视频内容的方法和装置
CN103399891A (zh) 网络内容自动推荐方法、装置和系统
JP2011154467A (ja) 検索結果順位付け方法および検索結果順位付けシステム
JP2010128928A (ja) 検索システム及び検索方法
Karkali et al. Using temporal IDF for efficient novelty detection in text streams
KR101212457B1 (ko) 웹페이지 접속시간 및 방문도에 기반한 웹검색 방법 및 웹검색 시스템
CN103262079B (zh) 检索装置及检索方法
US8538940B2 (en) Identification of shared resources
Zeleník et al. News recommending based on text similarity and user behaviour
KR102126911B1 (ko) KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법
CN111597386A (zh) 一种视频采集方法
CN111382331A (zh) 一种基于大数据的处理舆情话题的方法、装置和系统
CN107562857A (zh) 一种资讯管理方法及系统
CN112269900A (zh) 一种快速检索采集视频的方法
Arora et al. Personalized news prediction and recommendation
KR101083669B1 (ko) 인터넷을 활용한 전문가 웹사이트 검색시스템 및 그 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120215

Termination date: 20190118

CF01 Termination of patent right due to non-payment of annual fee