CN102841913A - 信息处理装置、信息处理方法和程序 - Google Patents
信息处理装置、信息处理方法和程序 Download PDFInfo
- Publication number
- CN102841913A CN102841913A CN2012101478153A CN201210147815A CN102841913A CN 102841913 A CN102841913 A CN 102841913A CN 2012101478153 A CN2012101478153 A CN 2012101478153A CN 201210147815 A CN201210147815 A CN 201210147815A CN 102841913 A CN102841913 A CN 102841913A
- Authority
- CN
- China
- Prior art keywords
- measurement period
- theme
- series data
- keyword
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 11
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000005259 measurement Methods 0.000 claims abstract description 71
- 230000008859 change Effects 0.000 claims abstract description 12
- 230000003750 conditioning effect Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 abstract 2
- 238000005070 sampling Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 22
- 239000000284 extract Substances 0.000 description 22
- 238000000605 extraction Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 8
- 235000013311 vegetables Nutrition 0.000 description 6
- 235000019219 chocolate Nutrition 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 241000724182 Macron Species 0.000 description 4
- 244000025254 Cannabis sativa Species 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及信息处理装置、信息处理方法和程序。根据本公开的信息处理装置包括:获取单元,获取包括测量时段i中的采样值xi的离散系统的时间序列数据;移动偏差计算单元,基于与预定测量时段t之前的预定时段对应的N个采样值xt、xt-1、xt-2、…、和xt-N+1的移动平均值mt计算移动偏差vt;以及评估值计算单元,基于与测量时段t对应的移动偏差vt和与测量时段t-1对应的移动偏差vt-1,计算表示测量时段t中的离散系统的时间序列数据的迅速改变的评估值st。
Description
技术领域
本公开涉及信息处理装置、信息处理方法和程序,具体地,涉及使得能够向用户提供与检索关键词相关联的信息的信息处理装置、信息处理方法和程序。
背景技术
传统上,除了网页和博客,互联网上充斥了使用以推特(Twitter)为代表的各种社交网络服务(SNS)的多种信息。此外,从多种信息中提取包括任意关键词的信息的系统是已知的。
具体地,在使用现有检索系统的情况下,使用用户任意设定的关键词作为检索条件,可以向用户提供包括检索条件的信息。此外,根据包括检索关键词的信息的新鲜度或者检索频率,可以向用户提供新信息或者频繁检索的信息(例如,参照日本公开专利公布第2009-15407号)。
发明内容
如上所述,在相关技术中可以检索包括检索关键词的信息。然而,仍未提出用于提供与检索关键词相关联的信息(可以不包括检索关键词)或者从与检索关键词相关联的信息中提取已成为世界流行主题的信息的技术。
鉴于上述情况设计了本公开,并且本公开能够提取已变为世界流行主题的信息。
根据本公开的一个实施例,提供了一种信息处理装置,该信息处理装置包括:获取单元,获取包括测量时段i中的采样值xi的离散系统的时间序列数据;移动偏差计算单元,基于与预定测量时段t之前的预定时段对应的N个采样值xt、xt-1、xt-2、…、和xt-N+1的移动平均值mt计算移动偏差vt;以及评估值计算单元,基于与测量时段t对应的移动偏差vt和与测量时段t-1对应的移动偏差vt-1,计算表示测量时段t中的离散系统的时间序列数据的迅速改变的评估值st。
评估值计算单元可以计算评估值st=移动偏差vt/移动偏差vt-1。
评估值计算单元可以对每个测量时段的连续时间序列数据求和并且将连续时间序列数据转换为离散系统的时间序列数据。
评估值计算单元可以将测量时段设定为在时间上重叠,并且对每个测量时段的连续时间序列数据求和并且将连续时间序列数据转换为离散系统的时间序列数据。
根据本公开的另一实施例,提供了一种由信息处理装置执行的信息处理方法,该信息处理方法包括:获取包括测量时段i中的采样值xi的离散系统的时间序列数据,基于与预定测量时段t之前的预定时段对应的N个采样值xt、xt-1、xt-2、…、和xt-N+1的移动平均值mt计算移动偏差vt,并且基于与测量时段t对应的移动偏差vt和与测量时段t-1对应的移动偏差vt-1,计算表示测量时段t中的离散系统的时间序列数据的迅速改变的评估值st。
根据本公开的另一实施例,提供了一种使计算机用作如下单元的程序:获取单元,获取包括测量时段i中的采样值xi的离散系统的时间序列数据;移动偏差计算单元,基于与预定测量时段t之前的预定时段对应的N个采样值xt、xt-1、xt-2、…、和xt-N+1的移动平均值mt计算移动偏差vt;以及评估值计算单元,基于与测量时段t对应的移动偏差vt和与测量时段t-1对应的移动偏差vt-1,计算表示测量时段t中的离散系统的时间序列数据的迅速改变的评估值st。
根据上面描述的本公开的各实施例,获取包括测量时段i中的采样值xi的离散系统的时间序列数据,基于与预定测量时段t之前的预定时段对应的N个采样值xt、xt-1、xt-2、…、和xt-N+1的移动平均值mt计算移动偏差vt,并且基于与测量时段t对应的移动偏差vt和与测量时段t-1对应的移动偏差vt-1,计算表示测量时段t中的离散系统的时间序列数据的迅速改变的评估值st。
根据上面描述的本公开的各实施例,可以提取已变为世界流行主题的信息。
附图说明
图1是图示作为本公开的一个实施例的检索装置的配置示例的框图;
图2是图示数据库的详细配置的框图;
图3是图示检索装置执行的相关联的信息检索处理的流程图;
图4是图示噪声去除的示意图;
图5是图示主题提取处理的流程图;
图6是图示主题候选字符串的示图;
图7是图示变为检索装置的用户接口的屏幕的显示示例的示图;
图8是图示变为检索装置的用户接口的屏幕的显示示例的示图;
图9A和9B是图示频率测量时段的示图;
图10是图示频率演变的示例的示图;
图11是图示与图10对应的频率的移动平均值和移动方差的示图;
图12是图示与图10对应的评估值的示图;
图13是图示图10至12的统一状态的示图;以及
图14是图示计算机的配置示例的框图。
具体实施方式
下面将参照附图详细描述本公开的优选实施例。
根据本公开的一个实施例,提供了一种信息处理装置,该信息处理装置包括:获取单元,获取包括测量时段i中的采样值xi的离散系统的时间序列数据;移动偏差计算单元,基于与预定测量时段t之前的预定时段对应的N个采样值xt、xt-1、xt-2、…、和xt-N+1的移动平均值mt计算移动偏差vt;以及评估值计算单元,基于与测量时段t对应的移动偏差vt和与测量时段t-1对应的移动偏差vt-1,计算表示测量时段t中的离散系统的时间序列数据的迅速改变的评估值st。
根据本公开的另一实施例,提供了一种由信息处理装置执行的信息处理方法,该信息处理方法包括:获取包括测量时段i中的采样值xi的离散系统的时间序列数据,基于与预定测量时段t之前的预定时段对应的N个采样值xt、xt-1、xt-2、…、和xt-N+1的移动平均值mt计算移动偏差vt,并且基于与测量时段t对应的移动偏差vt和与测量时段t-1对应的移动偏差vt-1,计算表示测量时段t中的离散系统的时间序列数据的迅速改变的评估值st。
<1.实施例>
首先,将描述与应用了根据本公开的信息处理装置的实施例对应的检索装置的概况。检索装置将互联网或者内联网上出现的各种文档设定为检索对象,检索包括检索关键词的文档,并且提取检索文档中共同包括的字符串(以下称为同现关键词或者主题)。检索装置提供在包括检索关键词和同现关键词的互联网上的文档中在预定时点已变为世界流行主题(时髦主题)的信息,作为与检索信息相关联的信息。
例如,检索装置将互联网上出现的推特的发布信息(tweets)(显示推特用户张贴(输入)的140个或更少的字符的短句)设定为检索对象,检索包括检索关键词的发布信息,并且提取检索的发布信息中共同包括的同现关键词。检索装置针对每个提取的同现关键词计算表示流行性的评估值,显示评估值列表使得同现关键词被用户选择,并且向用户提供包括所选择的同现关键词和检索关键词的发布信息。由此,可以向用户提供关于已变为世界流行主题的信息的发布信息。
例如,如果检索关键词被设定为“浅草寺(Sensoji Temple)”,则提取“台东区(Taito Ward)”、“护国寺(Gokokuji)”、“地震”、“在浅草”、以及“交叉点”作为同现关键词。如果用户从提取的同现关键词中选择“地震”,则向用户提供包括所选同现关键词“地震”和检索关键词“浅草寺”的发布信息。
检索关键词可以由用户输入,或者可以基于用户的操作历史自动设定。例如,用户创建的文档中频繁出现的字符串、用户创建的播放列表中包括的艺术家名称或者歌曲标题、以及用户观看的电视节目中频繁出现的明星名称可以被提取,并且可以被设定为检索关键词。
作为与检索关键词的对比,可以设定一个或者多个对比关键词。与检索关键词相似,对比关键词可以由用户输入,或者可以基于用户的操作历史自动设定。当自动设定对比关键词时,可以基于设定的检索关键词确定对比关键词。例如,当检索关键词是艺术家名称时,可以从互联网上的信息中检索来自同一国家的另一个艺术家,并且该另一个艺术家的艺术家名称可以被确定为对比关键词。
例如,当AAA被设定为检索关键词而BBB被设定为对比关键词时,从包括检索关键词AAA的多个发布信息中提取同现关键词。然而,在包括对比关键词BBB的多个发布信息中出现频率高的关键词被排除在外。
可以将多个字符串设定为检索关键词和对比关键词,并且可以执行“与(AND)”检索。
在本公开中,下面将描述其中推特的每个发布信息被设定为检索对象的情况的示例。然而,作为实施例的检索装置的检索对象不限于发布信息。
检索对象文档和检索关键词不限于由诸如日语和英语的自然语言表示的检索对象文档和检索关键词,只要检索对象文档和检索关键词可以由字符串或者符号串表示。例如,DNA信息、音素、乐谱信息、通过以一维排列方式表示被量化的并且包括在符号串中的真实数值获得的数据、以及通过以一维排列方式表示通过以多维排列方式表示被量化的并且包括在符号串中的真实数值获得的数据而获得的数据,可以被设定为检索对象文档和检索关键词。
[检索装置的配置示例]
图1图示了作为实施例的检索装置中包括的功能块的配置示例。检索装置10包括:关键词设定单元11、文档检索单元12、噪声去除单元13、检索索引创建单元14、流行性确定单元15、主题提取单元16、主题输出单元17、主题文档输出单元18以及数据库20。图2图示了数据库(DB)20的详细配置。数据库20包括检索文档存储数据库(DB)21、文档检索索引数据库(DB)22、以及主题存储数据库(DB)23。
关键词设定单元11将用户输入的字符串设定为检索关键词。关键词设定单元11将用户输入的字符串设定为对比关键词。关键词设定单元11可以自动设定检索关键词和对比关键词至少之一。
文档检索单元12将互联网上出现的推特的每个发布信息设定为检索对象,并且检索包括检索关键词的发布信息。文档检索单元12将互联网上出现的推特的每个发布信息设定为检索对象,并且检索包括对比关键词的发布信息。可以将被设定为检索对象的每个发布信息的提及日期和时间的时段限定为从当前时间到一个月之前。作为文档检索单元12的检索结果获得的发布信息与检索关键词或者对比关键词相关联,并且关联结果被存储在数据库20的检索文档存储数据库21中。
噪声去除单元13从作为检索结果获得的发布信息中去除不会变为同现关键词的字符串(以下称为噪声)。这将参照图4具体描述。
检索索引创建单元14基于关于作为检索结果获得的存储在检索文档存储数据库20中的发布信息的后缀数组,创建检索索引。所创建的检索索引存储在数据库20的文档检索索引数据库22中。通过创建检索索引,可以高速计算当在每个发布信息中提取同现关键词时所需的主题(同现关键词)候选字符串的出现频率DF(文档频率)。
当自动设定检索关键词或者对比关键词时,流行性确定单元15确定检索关键词或者对比关键词的候选者的流行性。流行性确定单元15确定所提取的同现关键词(主题)的流行性。
主题提取单元16从噪声被去除的检索结果的每个发布信息中提取同现关键词(主题)。所提取的同现关键词(主题)存储在数据库20的主题存储数据库23中。
主题输出单元17输出提取的同现关键词(主题)。主题输出单元17可以具有用于基于所提取的同现关键词(主题)自动创建发布信息并且在推特上张贴该发布信息的机器人(bot)创建功能。
主题文档输出单元18从检索文档存储数据库21获取包括所提取的同现关键词(主题)的发布信息,并且输出这些发布信息。
[描述操作]
接着将描述检索装置10的操作。图3是图示检索装置10执行的相关联的信息检索处理的流程图。
在步骤S1中,关键词设定单元11将用户输入的字符串设定为检索关键词。用户创建的文档中频繁出现的字符串、用户创建的播放列表中包括的艺术家名称或者歌曲标题、以及用户观看的电视节目中频繁出现的明星名称都可以被提取并且设定为检索关键词。在这种情况下,可以针对所提取的艺术家名称计算下面描述的流行性的评估值,并且可以采用评估值是预定阈值或更大的艺术家名称作为检索关键词。
在步骤S1中,关键词设定单元11将用户输入的字符串或者自动确定的字符串设定为对比关键词。可以省略对比关键词的设定。
在步骤S2中,文档检索单元12将互联网上出现的推特的每个发布信息设定为检索对象并且检索包括检索关键词的发布信息。检索结果的发布信息与检索关键词相关联并且关联结果存储在检索文档存储数据库21中。当对比关键词被设定时,文档检索单元12将互联网上出现的推特的每个发布信息设定为检索对象并且检索包括该对对比关键词的发布信息。检索结果的发布信息与对比关键词相关联并且关联结果存储在检索文档存储数据库21中。
在步骤S3中,噪声去除单元13从作为检索结果获得的发布信息中去除不会变为同现关键词的噪声。
图4图示了作为检索结果的示例的发布信息。在图4中,下划线字符串被噪声去除单元13作为噪声去除。就是说,当检索对象是发布信息时,意指锐推(retweet)的“RT”,表示答复方的目的地的“用户名”(在图4中用户名是tokyotralver),表示统一资源定位符(URL)的“http://...”,以及表示无用信息的“#...”被去除。
回到图3,在步骤S4中,检索索引创建单元14基于后缀数组针对作为检索结果获得的被存储在检索文档存储数据库20中的发布信息创建检索索引。所创建的检索索引被存储在文档检索索引数据库22中。
在步骤S5中,主题提取单元16执行主题提取处理,用于从噪声被去除的检索结果的每个发布信息中提取同现关键词(主题)。所提取的同现关键词(主题)被存储在数据库20的主题存储数据库23中。
图5是具体图示主题提取处理的流程图。
在步骤S11中,主题提取单元16在噪声被去除的检索结果的发布信息组中出现的所有部分字符串中,提取仅作为其他部分字符串的一部分出现的部分字符串之外的字符串组。这相当于在出现频率DF不变的范围中提取最长的部分字符串组。可以使用基于后缀数组的检索索引来高速执行该处理。
根据下述字符类型的符合规则的字符串被排除在主题候选字符串之外,并且提取其余字符串作为主题候选字符串。
[采用的字符类型]
空格(空白)、半角英文字符、罗马字符扩展、平假名、片假名、全角符号、长音符号、半角符号、控制字符、无效字符、日本汉字、半角数字、标点符号、朝鲜语字符、泰语字符、阿拉伯字符、希伯来语字符、西里尔字符以及希腊字符被采用作为字符类型。
[从主题候选字符串中排除标志(token)的规则]
当标志之前的字符(前一标志的最后字符)是长音符号时,该标志不被指定为主题候选字符串。
当标志的第一字符是空格时,该标志不被指定为主题候选字符串。
当标志的第一字符是全角符号时,该标志不被指定为主题候选字符串。
当标志的第一字符是长音符号时,该标志不被指定为主题候选字符串。
当标志的第一字符是半角符号时,该标志不被指定为主题候选字符串。
当标志的第一字符是控制字符和无效字符时,该标志不被指定为主题候选字符串。
当标志的第一字符是标点符号时,该标志不被指定为主题候选字符串。
当标志之后的字符(下一标志的第一字符)是长音符号时,该标志不被指定为主题候选字符串。
当标志的最后字符是空格时,该标志不被指定为主题候选字符串。
当标志的最后字符是全角符号时,该标志不被指定为主题候选字符串。
当标志的最后字符是半角符号时,该标志不被指定为主题候选字符串。
当标志的最后字符是控制字符和无效字符时,该标志不被指定为主题候选字符串。
当标志的最后字符是标点符号时,该标志不被指定为主题候选字符串。
当标志之前的字符(前一标志的最后字符)和标志的第一字符或者标志之后的字符(下一标志的第一字符)和标志的最后字符均为半角英文字符和罗马字符扩展时,该标志不被指定为主题候选字符串。
当标志之前的字符(前一标志的最后字符)和标志的第一字符或者标志之后的字符(下一标志的第一字符)和标志的最后字符均是片假名时,该标志不被指定为主题候选字符串。
当标志之前的字符(前一标志的最后字符)和标志的第一字符或者标志之后的字符(下一标志的第一字符)和标志的最后字符均是半角数字时,该标志不被指定为主题候选字符串。
当标志之前的字符(前一标志的最后字符)和标志的第一字符或者标志之后的字符(下一标志的第一字符)和标志的最后字符均是朝鲜语字符时,该标志不被指定为主题候选字符串。
当标志之前的字符(前一标志的最后字符)和标志的第一字符或者标志之后的字符(下一标志的第一字符)和标志的最后字符均是西里尔字符时,该标志不被指定为主题候选字符串。
例如,如图6所示,当噪声被去除的发布信息是“People who stock upon chocolate raise your hands(囤积巧克力的人,举手)”时,首先在检索结果的发布信息组中的所有部分字符串中提取仅作为其他部分字符串的一部分出现的部分字符串之外的字符串组。例如,当“cho”、“chocolate,”和“chocolate”的出现频率DF分别是10、10和4时,提取“chocolate”。然而,不提取“cho”。然后,通过应用从主题候选字符串中排除标志的规则,提取主题候选字符串。
这样,主题提取单元16可以基于出现频率DF的变化点以及字符类型的差异,而非根据检索对象文档的语言,来提取主题候选字符串。然而,主题提取单元16可以基于文档语言的特性使用语形学分析来提取主题候选字符串。
当提取相似的字符串作为主题候选字符串时,可以收集相似的字符串作为一个字符串。在该情况下,相似意味着字符串的相似度高,并且出现文档的相似度高。
在步骤S12中,主题提取单元16使用存储在文档检索索引数据库22中的检索索引,来计算噪声被去除的检索结果的发布信息中的每个主题字符串的出现频率DF。
在步骤S13中,主题提取单元16采用其中出现频率DF满足预定条件的主题候选字符串作为主题(同现关键词)。就是说,当检索关键词和对比关键词两者被设定时,主题提取单元16采用如下主题候选字符串作为主题:其中通过将使用检索关键词的检索结果的发布信息的出现频率DF除以使用对比关键词的检索结果的发布信息的出现频率DF而获得的值是预定阈值或更大。当仅检索关键词被设定时,主题提取单元16采用如下主题候选字符串作为主题:其中使用检索关键词的检索结果的发布信息的出现频率DF是预定阈值或更大。
当确定是否采用主题候选字符串作为主题时,不同于使用上述出现频率DF,可以计算并且使用信息增益、交互信息、二元正态分离、倍数变化、以及相关系数。可以执行诸如卡方测试的测试以测量主题的特异性。
在如上所述提取主题之后,主题提取处理结束并且处理返回到图3的步骤S6。
在步骤S6中,流行性确定单元15针对在步骤S5中提取的每个同现关键词(主题)计算流行性的评估值。下文将参照附图9A至13描述计算方法。
在步骤S7中,主题输出单元17向用户提供所提取的同现关键词(主题)及其流行性的评估值。在步骤S8中,当检索装置自动设定主题时,主题输出单元17可以不向用户提供所提取的同现关键词(主题)及其流行性的评估值。
如果用户选择所提供的同现关键词(主题)或者由检索装置自动选择其中流行性的评估值是阈值或更大的同现关键词,则在步骤S8中,主题文档输出单元18从检索文档存储数据库21获取包括所提取的同现关键词(主题)和检索关键词的发布信息,并且将这些发布信息作为与检索关键词相关联的信息提供给用户。当获取的多个发布信息彼此相似时,可以收集多个发布信息作为一个发布信息并且可以将该发布信息提供给用户。以这种方式,作为相关联的信息检索处理而执行的一系列操作结束。
[用作用户接口的屏幕显示示例]
图7图示了用作检索装置10的用户接口的屏幕的显示示例。屏幕50设置有检索关键词输入栏51、获取发布信息按钮52、从发布信息获取主题词按钮53、显示发布信息按钮54、主题显示栏55、评估值显示栏56、和发布信息显示栏57。
用户可以将检索关键词输入到检索关键词输入栏51。如果用户操作获取发布信息按钮52,则从互联网上出现的推特的发布信息中检索包括检索关键词的发布信息。
如果用户操作从发布信息获取主题词按钮53,则从检索结果的发布信息中提取同现关键词(主题)并且使同现关键词和流行性的评估值显示在主题显示栏55中。如果用户选择显示在主题显示栏55上的同现关键词(主题),则关于所选择的同现关键词(主题)的流行性的评估值的时间演变显示在评估值显示栏56上。
如果在其中选择了同现关键词(主题)的状态下用户操作显示发布信息按钮54,则包括检索关键词和所选择的同现关键词(主题)的发布信息显示在发布信息显示栏57中。
例如,如图7所示,如果用户将“浅草寺(Sensoji Temple)”作为检索关键词输入到检索关键词输入栏51并且操作获取发布信息按钮52,则包括检索关键词“浅草寺(Sensoji Temple)”的发布信息被检索。在该情况下,如果用户操作从发布信息获得主题词按钮53,则同现关键词(主题)“台东区(Taito Ward)”、“护国寺(Gokokuji)”、“地震”、“地震灾难发生时间:下午2:46”、“在浅草”、和“交叉点”以及流行性的评估值显示在主题显示栏55中。
如果用户从显示在主题显示栏55上的同现关键词(主题)中选择“台东区(Taito Ward)”,则所选择的同现关键词(主题)的流行性的评估值的时间演变显示在评估值显示栏56中。
如果在其中选择“台东区(Taito Ward)”作为同现关键词(主题)的状态下用户操作显示发布信息按钮54,则包括检索关键词“浅草寺(Sensoji Temple)”和所选择的同现关键词(主题)“台东区(Taito Ward)”的发布信息显示在发布信息显示栏57中。然而,在图7中,在发布信息显示栏57中发布信息的句子由*(星号)代替。
例如,如图8所示,如果用户在检索关键词输入栏51上输入“蔬菜(vegetables)”作为检索关键词,并且操作获取发布信息按钮52,则包括检索关键词“蔬菜(vegetables)”的发布信息被检索。在这种情况下,如果用户操作从发布信息获取主题词按钮53,则同现关键词(主题)“儿童(child)”、“儿童的(of child)”、“制成饮料(made to drink)”、“饮用(drank)”、“喂养(fed)”、“有运输限制的(of shipment limitation)”、以及“消费者的(of consumer)”以及流行性的评估值显示在主题显示栏55上。
如果用户从主题显示栏55上显示的同现关键词(主题)中选择“有运输限制的(of shipment limitation)”,则关于所选择的同现关键词(主题)的流行性的评估值的时间演变显示在评估值显示栏56上。
如果在其中选择“有运输限制的(of shipment limitation)”作为同现关键词(主题)的状态下用户操作显示发布信息按钮54,则包括检索关键词“蔬菜(vegetables)”和所选择的同现关键词(主题)“有运输限制的(of shipment limitation)”的发布信息显示在发布信息显示栏57上。然而,在图8中,在发布信息显示栏57中,发布信息的句子由*(星号)代替。
如上所述,检索装置10可以针对每个主题收集包括用户感兴趣的主题的发布信息并且可以将这些发布信息提供给用户。如果检索关键词被自动设定,则检索装置10可以针对每个主题收集包括用户感兴趣的估计主题的发布信息并且可以将这些发布信息提供给用户。
[计算流行性的评估值的方法]
接着,将描述在相关联的信息检索处理的步骤S6中计算同现关键词的流行性的评估值的方法。
首先,基于其中出现同现关键词的发布信息的张贴日期和时间,将检索结果的发布信息中的同现关键词的出现频率DF转换为离散系统的时间序列数据。具体地,将同现关键词的出现频率DF转换为预定测量时段(例如,24小时)中的频率。
图9A和9B图示了设定频率测量时段的方法。就是说,如图9A所示,频率测量时段未被设定为在时间轴T上重叠,并且如图9B所示,频率测量时段可以被设定为在时间轴T上重叠。
当频率测量时段被设定为不在时间轴T上重叠时,每个测量间隔中的频率和变为出现频率DF。当频率测量时段被设定为在时间轴T上重叠时,可以在短时段中获取多个频率的样本。
当特定测量时段t中的频率被设定为xt时,使用测量时段t之前的N个测量时段t、t-1、t-2、…、和t-N+1中的频率xt、xt-1、xt-2、…、和xt-N+1计算测量时段t中的流行性的评估值st。
具体地,依次计算移动平均值mt、移动偏差vt和评估值st。
移动平均值mt=(Σxi)/N…(1)
移动偏差vt=√((Σ(mt-xi))/N)…(2)
评估值st=vt/vt-1…(3)
Σ意指与i=t至i=t-N+1对应的N个值的和。
例如,当用作离散系统的时间序列数据的频率xt如图10所示演变时,移动平均值mt如图11中的粗线所示演变,而移动偏差vt基于图11中的粗线如细线所示以带的形式演变。同时,评估值st如图12所示演变。图13图示了图10和12的重叠状态。
如从图13所见,当频率xt迅速改变时,评估值st增加。因此,如果针对同现关键词计算评估值st,则当确定关键词是否已变为(正趋向于)世界流行主题时,评估值可以被用作索引。
当测量时段t短时,评估值st表示短期流行性趋势,并且当测量时段t长时,评估值st表示长期流行性趋势。因此,可以计算测量时段t短时(例如,1天=24小时)的评估值st(一天)和当测量时段长时(例如,1个月=30天)的评估值st(30天),并且可以计算评估值的加权平均值作为最终评估值。所计算的最终评估值可以用作索引,用于表示关键词是否已变为(正趋向于)世界流行主题的短期流行性趋势和长期流行性趋势。
[评估值的其他使用目的]
除了确定同现关键词的流行性之外,还可以以各种方式使用评估值St。
例如,如果预定时段中的各种产品中的每个的销售量被设定为频率xt并且计算评估值st,则评估值st可以用作用于确定拳头产品的索引。
如果检索关键词的检索次数被设定为频率xt并且计算评估值st,则评估值st可以用作用于确定已变为世界流行主题的关键词的索引。
上述系列处理可以由硬件或软件实现。当系列处理由软件实现时,形成软件的程序从程序记录介质安装到嵌入专用硬件的计算机中以及可以安装各种程序并且可以执行各种功能的通用计算机中。
图14是图示了通过程序执行系列处理的计算机的硬件配置示例的框图。
在计算机100中,中央处理单元(CPU)101、只读存储器(ROM)以及随机存取存储器(RAM)103通过总线104互相连接。
输入/输出接口105连接到总线104。输入单元106,包括键盘、鼠标和麦克风;输出单元107,包括显示器和扬声器;存储单元108,使用硬盘或者非易失性存储器配置;通信单元109,使用网络接口配置;以及驱动器110,驱动诸如磁盘、光盘、磁光盘或者半导体存储器的可移除介质111连接到输入/输出接口105。
在如上所述配置的计算机100中,CPU 101通过输入/输出接口105和总线104将存储在存储单元108中的程序加载到RAM 103中,并且执行这些程序,并且执行系列处理。
由计算机执行的程序可以根据本公开中描述的顺序按时间序列处理,并且可以并行地处理或者在执行调用时在所需的定时处理。
一个计算机可以处理程序并且多个计算机可以对程序执行分布式处理。程序可以被传送到远程计算机并且可以被执行。
本公开的实施例不限于以上示例,并且在不偏离本公开的精神和范围的情况下,可以进行各种改变。
本公开包含与2011年5月18日提交日本专利局的日本在先专利申请JP 2011-111644中公开的主题内容相关的主题内容,其整体内容通过引用合并于此。
Claims (6)
1.一种信息处理装置,包括:
获取单元,获取包括测量时段i中的采样值xi的离散系统的时间序列数据;
移动偏差计算单元,基于与预定测量时段t之前的预定时段对应的N个采样值xt、xt-1、xt-2、…、和xt-N+1的移动平均值mt计算移动偏差vt;以及
评估值计算单元,基于与测量时段t对应的移动偏差vt和与测量时段t-1对应的移动偏差vt-1,计算表示测量时段t中的所述离散系统的时间序列数据的迅速改变的评估值st。
2.根据权利要求1所述的信息处理装置,
其中所述评估值计算单元计算所述评估值st=移动偏差vt/移动偏差vt-1。
3.根据权利要求2所述的信息处理装置,
其中所述评估值计算单元对每个测量时段的连续时间序列数据求和并且将所述连续时间序列数据转换为所述离散系统的时间序列数据。
4.根据权利要求3所述的信息处理装置,
其中所述评估值计算单元将所述测量时段设定为在时间上重叠,并且对每个测量时段的连续时间序列数据求和并且将所述连续时间序列数据转换为所述离散系统的时间序列数据。
5.一种由信息处理装置执行的信息处理方法,包括:
获取包括测量时段i中的采样值xi的离散系统的时间序列数据;
基于与预定测量时段t之前的预定时段对应的N个采样值xt、xt-1、xt-2、…、和xt-N+1的移动平均值mt计算移动偏差vt;以及
基于与测量时段t对应的移动偏差vt和与测量时段t-1对应的移动偏差vt-1,计算表示测量时段t中的所述离散系统的时间序列数据的迅速改变的评估值st。
6.一种使计算机用作如下单元的程序,
获取单元,获取包括测量时段i中的采样值xi的离散系统的时间序列数据;移动偏差计算单元,基于与预定测量时段t之前的预定时段对应的N个采样值xt、xt-1、xt-2、…、和xt-N+1的移动平均值mt计算移动偏差vt;以及评估值计算单元,基于与测量时段t对应的移动偏差vt和与测量时段t-1对应的移动偏差vt-1,计算表示测量时段t中的所述离散系统的时间序列数据的迅速改变的评估值st。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011111644A JP5679194B2 (ja) | 2011-05-18 | 2011-05-18 | 情報処理装置、情報処理方法、およびプログラム |
JP2011-111644 | 2011-05-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102841913A true CN102841913A (zh) | 2012-12-26 |
CN102841913B CN102841913B (zh) | 2017-03-01 |
Family
ID=47362830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210147815.3A Expired - Fee Related CN102841913B (zh) | 2011-05-18 | 2012-05-11 | 信息处理装置、信息处理方法和程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20120330986A1 (zh) |
JP (1) | JP5679194B2 (zh) |
CN (1) | CN102841913B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9477760B2 (en) * | 2014-02-12 | 2016-10-25 | Facebook, Inc. | Query construction on online social networks |
JP6395287B2 (ja) * | 2014-06-02 | 2018-09-26 | 日本放送協会 | イベント検出装置およびプログラム |
JP2016099875A (ja) * | 2014-11-25 | 2016-05-30 | エコノミックインデックス株式会社 | 情報処理装置及び方法、並びにプログラム |
JP2016110533A (ja) * | 2014-12-10 | 2016-06-20 | 大日本印刷株式会社 | 情報処理装置、情報処理システム及びプログラム |
KR101758555B1 (ko) * | 2016-03-08 | 2017-07-17 | 아주대학교산학협력단 | 토픽 표현 추출 방법 및 그 시스템 |
US10698959B1 (en) * | 2016-09-01 | 2020-06-30 | United Services Automobile Association (Usaa) | Social warning system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070073708A1 (en) * | 2005-09-28 | 2007-03-29 | Smith Adam D | Generation of topical subjects from alert search terms |
US20070136274A1 (en) * | 2005-12-02 | 2007-06-14 | Daisuke Takuma | System of effectively searching text for keyword, and method thereof |
CN101059815A (zh) * | 2007-05-09 | 2007-10-24 | 宋鸣 | 网络文摘定制搜索引擎 |
CN101577818A (zh) * | 2008-04-28 | 2009-11-11 | 索尼株式会社 | 信息处理装置和方法以及程序 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6853950B1 (en) * | 1999-07-20 | 2005-02-08 | Newsedge Corporation | System for determining changes in the relative interest of subjects |
US20060106793A1 (en) * | 2003-12-29 | 2006-05-18 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
KR100443483B1 (ko) * | 2004-04-23 | 2004-08-09 | 엔에이치엔(주) | 급상승 검색어 검출 방법 및 시스템 |
WO2007043322A1 (ja) * | 2005-09-30 | 2007-04-19 | Nec Corporation | トレンド評価装置と、その方法及びプログラム |
AU2008259833B2 (en) * | 2007-06-01 | 2012-11-08 | Getty Images, Inc. | Method and system for searching for digital assets |
US7860878B2 (en) * | 2008-02-25 | 2010-12-28 | Yahoo! Inc. | Prioritizing media assets for publication |
JP5258532B2 (ja) * | 2008-06-10 | 2013-08-07 | ヤフー株式会社 | 評判指数を出力する方法及び評判指数出力装置 |
US8245135B2 (en) * | 2009-09-08 | 2012-08-14 | International Business Machines Corporation | Producing a visual summarization of text documents |
JP5284990B2 (ja) * | 2010-01-08 | 2013-09-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム |
US20110320715A1 (en) * | 2010-06-23 | 2011-12-29 | Microsoft Corporation | Identifying trending content items using content item histograms |
-
2011
- 2011-05-18 JP JP2011111644A patent/JP5679194B2/ja active Active
-
2012
- 2012-05-10 US US13/468,519 patent/US20120330986A1/en not_active Abandoned
- 2012-05-11 CN CN201210147815.3A patent/CN102841913B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070073708A1 (en) * | 2005-09-28 | 2007-03-29 | Smith Adam D | Generation of topical subjects from alert search terms |
US20070136274A1 (en) * | 2005-12-02 | 2007-06-14 | Daisuke Takuma | System of effectively searching text for keyword, and method thereof |
CN101059815A (zh) * | 2007-05-09 | 2007-10-24 | 宋鸣 | 网络文摘定制搜索引擎 |
CN101577818A (zh) * | 2008-04-28 | 2009-11-11 | 索尼株式会社 | 信息处理装置和方法以及程序 |
Also Published As
Publication number | Publication date |
---|---|
CN102841913B (zh) | 2017-03-01 |
JP5679194B2 (ja) | 2015-03-04 |
JP2012243032A (ja) | 2012-12-10 |
US20120330986A1 (en) | 2012-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102789476A (zh) | 信息处理装置、信息处理方法和程序 | |
US9275150B2 (en) | System and method for search and display of content in the form of audio, video or audio-video | |
CN101267518B (zh) | 从内容元数据提取相关信息的方法和装置 | |
CN102841913A (zh) | 信息处理装置、信息处理方法和程序 | |
US9436768B2 (en) | System and method for pushing and distributing promotion content | |
US20170185680A1 (en) | Chinese website classification method and system based on characteristic analysis of website homepage | |
WO2016000555A1 (zh) | 基于社交网络的内容、新闻推荐方法和系统 | |
CN108305180B (zh) | 一种好友推荐方法及装置 | |
WO2006134682A1 (ja) | 固有表現抽出装置、方法、及びプログラム | |
CN103207917A (zh) | 标注多媒体内容的方法、生成推荐内容的方法及系统 | |
CN101425071A (zh) | 位置描述检测装置、程序以及存储介质 | |
CN110489649B (zh) | 标签关联内容的方法及装置 | |
KR101607468B1 (ko) | 콘텐츠에 대한 키워드 태깅 방법 및 시스템 | |
CN107566906A (zh) | 一种视频评论处理方法及装置 | |
WO2021260650A1 (en) | Generating personalized content for presentation on user devices | |
WO2015062377A1 (zh) | 一种相似文本检测装置、方法以及应用 | |
Zhou et al. | Web content extraction through machine learning | |
CN111414471A (zh) | 用于输出信息的方法和装置 | |
JP2006134183A (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
US11061975B2 (en) | Cognitive content suggestive sharing and display decay | |
CN113407775B (zh) | 视频搜索方法、装置及电子设备 | |
EP3014894B1 (en) | Creating playlist from web page | |
Walha et al. | A Lexicon approach to multidimensional analysis of tweets opinion | |
CN104036036A (zh) | 网页搜索的提示方法和装置 | |
CN111782962A (zh) | 模式匹配方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170301 |
|
CF01 | Termination of patent right due to non-payment of annual fee |