CN102789476A - 信息处理装置、信息处理方法和程序 - Google Patents

信息处理装置、信息处理方法和程序 Download PDF

Info

Publication number
CN102789476A
CN102789476A CN2012101477362A CN201210147736A CN102789476A CN 102789476 A CN102789476 A CN 102789476A CN 2012101477362 A CN2012101477362 A CN 2012101477362A CN 201210147736 A CN201210147736 A CN 201210147736A CN 102789476 A CN102789476 A CN 102789476A
Authority
CN
China
Prior art keywords
character string
unit
character
information
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101477362A
Other languages
English (en)
Inventor
藤田拓也
宫嵜充弘
萩原丈博
右田隆仁
增田弘之
金本胜吉
森田昌裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102789476A publication Critical patent/CN102789476A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及信息处理装置、信息处理方法和程序。根据本公开的信息处理装置包括:设定单元,设定检索字符串;检索单元,检索包括所设定的检索字符串的信息;以及确定单元,从作为检索结果获得的多个信息中出现的所有部分字符串中,提取仅作为其他部分字符串的一部分出现的部分字符串之外的同现字符串候选组,并且基于所提取的同现字符串候选组以及同现字符串候选组之前和之后的字符中使用的字符类型,根据同现字符串候选组确定同现字符串。

Description

信息处理装置、信息处理方法和程序
技术领域
本公开涉及信息处理装置、信息处理方法和程序,具体地,涉及使得能够向用户提供与检索关键词相关联的信息的信息处理装置、信息处理方法和程序。
背景技术
传统上,除了网页和博客,互联网上充斥了使用以推特(Twitter)为代表的各种社交网络服务(SNS)的多种信息。此外,从多种信息中提取包括任意关键词的信息的系统是已知的。
具体地,在使用现有检索系统的情况下,使用用户任意设定的关键词作为检索条件,可以向用户提供包括检索条件的信息。此外,根据包括检索关键词的信息的新鲜度或者检索频率,可以向用户提供新信息或者频繁检索的信息(例如,参照日本公开专利公布第2009-15407号)。
发明内容
如上所述,在相关技术中可以检索包括检索关键词的信息。然而,仍未提出用于提供与检索关键词相关联的信息中的用户感兴趣的信息或者从与检索关键词相关联的信息中提取已成为世界流行主题的信息的技术。由于传统技术包括依赖于语言的处理,因此传统技术仅能够应用于特定语言的信息。
鉴于上述情况设计了本公开,并且本公开能够在与检索关键词相关联的信息中提供用户感兴趣的信息,而不依赖于语言。
根据本公开的一个实施例,提供了一种信息处理装置,其包括:设定单元,设定检索字符串;检索单元,检索包括所设定的检索字符串的信息;以及确定单元,从作为检索结果获得的多个信息中出现的所有部分字符串中,提取仅作为其他部分字符串的一部分出现的部分字符串之外的同现字符串候选组,并且基于所提取的同现字符串候选组以及同现字符串候选组之前和之后的字符中使用的字符类型,根据同现字符串候选组确定同现字符串。
根据本公开的该实施例的信息处理装置可以进一步包括:第一提供单元,向用户提供所确定的同现字符串,使得同现字符串被用户选择;以及第二提供单元,向用户提供作为检索结果获得的多个信息中的包括所选择的同现字符串的信息。
根据本公开的该实施例的信息处理装置可以进一步包括:判定单元,计算关于所确定的同现字符串的流行性的估值并且判定流行性索引。第一提供单元可以基于估值向用户提供所确定的同现字符串,使得同现字符串被用户选择。
根据本公开的该实施例的信息处理装置可以进一步包括:选择单元,基于所确定的流行性索引选择同现字符串。
根据本公开的该实施例的信息处理装置可以进一步包括:噪声去除单元,从作为检索结果获得的多个信息中去除噪声。确定单元可以从多个噪声被去除的作为检索结果获得的信息中提取同现字符串候选组。
设定单元可以将用户输入的字符串设定为检索字符串或者将基于用户的操作历史提取的字符串设定为检索字符串。
设定单元可以设定描述检索字符串的特征的一个或更多个对比字符串。
确定单元可以基于形成同现字符串候选组的每个同现字符串候选者在包括检索字符串的信息中的出现频率和每个同现字符串候选者在包括对比字符串的信息中的出现频率的比较结果,确定同现字符串。
设定单元可以将用户输入的字符串设定为检索字符串,将基于用户的操作历史提取的字符串设定为检索字符串,或者将基于检索字符串的提取的字符串设定为对比字符串。
根据本公开的另一实施例,提供了一种由信息处理装置执行的信息处理方法,其包括:设定检索字符串;检索包括所设定的检索字符串的信息;以及从作为检索结果获得的多个信息中出现的所有部分字符串中,提取仅作为其他部分字符串的一部分出现的部分字符串之外的同现字符串候选组,并且基于所提取的同现字符串候选组以及同现字符串候选组之前和之后的字符中使用的字符类型,根据同现字符串候选组确定同现字符串。
根据本公开的另一实施例,提供了一种用于使计算机用作如下单元的程序:设定单元,设定检索字符串;检索单元,检索包括所设定的检索字符串的信息;以及第一确定单元,从作为检索结果获得的多个信息中出现的所有部分字符串中,提取仅作为其他部分字符串的一部分出现的部分字符串之外的同现字符串候选组,并且基于所提取的同现字符串候选组以及同现字符串候选组之前和之后的字符中使用的字符类型,根据同现字符串候选组确定同现字符串。
根据上面描述的本公开的各实施例,设定检索字符串,检索包括所设定的检索字符串的信息,以及从作为检索结果获得的多个信息中出现的所有部分字符串中,提取仅作为其他部分字符串的一部分出现的部分字符串之外的同现字符串候选组,并且基于所提取的同现字符串候选组以及同现字符串候选组之前和之后的字符中使用的字符类型,根据同现字符串候选组确定同现字符串。
根据上面描述的本公开的各实施例,可以提供与检索关键词相关联的信息中的用户感兴趣的信息而不依赖于语言。
附图说明
图1是图示作为本公开的一个实施例的检索装置的配置示例的框图;
图2是图示数据库的详细配置的框图;
图3是图示检索装置执行的相关联的信息检索处理的流程图;
图4是图示噪声去除的示意图;
图5是图示主题提取处理的流程图;
图6是图示主题候选字符串的示图;
图7是图示变为检索装置的用户接口的屏幕的显示示例的示图;
图8是图示变为检索装置的用户接口的屏幕的显示示例的示图;
图9A和9B是图示频率测量时段的示图;
图10是图示频率演变的示例的示图;
图11是图示与图10对应的频率的移动平均值和移动方差的示图;
图12是图示与图10对应的估值的示图;
图13是图示图10至12的统一状态的示图;以及
图14是图示计算机的配置示例的框图。
具体实施方式
下面将参照附图详细描述本公开的优选实施例。
根据本公开的一个实施例,提供了一种信息处理装置,其包括:设定单元,设定检索字符串;检索单元,检索包括所设定的检索字符串的信息;以及第一确定单元,从作为检索结果获得的多个信息中出现的所有部分字符串中,提取仅作为其他部分字符串的一部分出现的部分字符串之外的同现字符串候选组,并且基于所提取的同现字符串候选组以及同现字符串候选组之前和之后的字符中使用的字符类型,根据同现字符串候选组确定同现字符串。
根据本公开的另一实施例,提供了一种由信息处理装置执行的信息处理方法,其包括:设定检索字符串;检索包括所设定的检索字符串的信息;以及从作为检索结果获得的多个信息中出现的所有部分字符串中,提取仅作为其他部分字符串的一部分出现的部分字符串之外的同现字符串候选组,并且基于所提取的同现字符串候选组以及同现字符串候选组之前和之后的字符中使用的字符类型,根据同现字符串候选组确定同现字符串。
<1.实施例>
首先,将描述与应用了根据本公开的信息处理装置的实施例对应的检索装置的概况。检索装置将互联网或者内联网上出现的各种文档设定为检索对象,检索包括检索关键词的文档,并且提取检索文档中共同包括的字符串(以下称为同现关键词或者主题)。检索装置提供在包括检索关键词和同现关键词的互联网上的文档中在预定时点已变为世界流行主题(时髦主题)的信息,作为与检索信息相关联的信息。
例如,检索装置将互联网上出现的推特的发布信息(tweets)(显示推特用户张贴(输入)的140个或更少的字符的短句)设定为检索对象,检索包括检索关键词的发布信息,并且提取检索的发布信息中共同包括的同现关键词。检索装置针对每个提取的同现关键词计算表示流行性的估值,显示估值列表使得同现关键词被用户选择,并且向用户提供包括所选择的同现关键词和检索关键词的发布信息。由此,可以向用户提供关于已变为世界流行主题的信息的发布信息。
例如,如果检索关键词被设定为“浅草寺(Sensoji Temple)”,则提取“台东区(Taito Ward)”、“护国寺(Gokokuji)”、“地震”、“在浅草”、以及“交叉点”作为同现关键词。如果用户从提取的同现关键词中选择“地震”,则向用户提供包括所选同现关键词“地震”和检索关键词“浅草寺”的发布信息。
检索关键词可以由用户输入,或者可以基于用户的操作历史自动设定。例如,用户创建的文档中频繁出现的字符串、用户创建的播放列表中包括的艺术家名称或者歌曲标题、以及用户观看的电视节目中频繁出现的明星名称可以被提取,并且可以被设定为检索关键词。
作为与检索关键词的对比,可以设定一个或者多个对比关键词。与检索关键词相似,对比关键词可以由用户输入,或者可以基于用户的操作历史自动设定。当自动设定对比关键词时,可以基于设定的检索关键词确定对比关键词。例如,当检索关键词是艺术家名称时,可以从互联网上的信息中检索来自同一国家的另一个艺术家,并且该另一个艺术家的艺术家名称可以被确定为对比关键词。
例如,当AAA被设定为检索关键词而BBB被设定为对比关键词时,从包括检索关键词AAA的多个发布信息中提取同现关键词。然而,在包括对比关键词BBB的多个发布信息中出现频率高的关键词被排除在外。
可以将多个字符串设定为检索关键词和对比关键词,并且可以执行“与(AND)”检索。
在本公开中,下面将描述其中推特的每个发布信息被设定为检索对象的情况的示例。然而,作为实施例的检索装置的检索对象不限于发布信息。
检索对象文档和检索关键词不限于由诸如日语和英语的自然语言表示的检索对象文档和检索关键词,只要检索对象文档和检索关键词可以由字符串或者符号串表示。例如,DNA信息、音素、乐谱信息、通过以一维排列方式表示被量化的并且包括在符号串中的真实数值获得的数据、以及通过以一维排列方式表示通过以多维排列方式表示被量化的并且包括在符号串中的真实数值获得的数据而获得的数据,可以被设定为检索对象文档和检索关键词。
[检索装置的配置示例]
图1图示了作为实施例的检索装置中包括的功能块的配置示例。检索装置10包括:关键词设定单元11、文档检索单元12、噪声去除单元13、检索索引创建单元14、流行性确定单元15、主题提取单元16、主题输出单元17、主题文档输出单元18以及数据库20。图2图示了数据库(DB)20的详细配置。数据库20包括检索文档存储数据库(DB)21、文档检索索引数据库(DB)22、以及主题存储数据库(DB)23。
关键词设定单元11将用户输入的字符串设定为检索关键词。关键词设定单元11将用户输入的字符串设定为对比关键词。关键词设定单元11可以自动设定检索关键词和对比关键词至少之一。
文档检索单元12将互联网上出现的推特的每个发布信息设定为检索对象,并且检索包括检索关键词的发布信息。文档检索单元12将互联网上出现的推特的每个发布信息设定为检索对象,并且检索包括对比关键词的发布信息。可以将被设定为检索对象的每个发布信息的提及日期和时间的时段限定为从当前时间到一个月之前。作为文档检索单元12的检索结果获得的发布信息与检索关键词或者对比关键词相关联,并且关联结果被存储在数据库20的检索文档存储数据库21中。
噪声去除单元13从作为检索结果获得的发布信息中去除不会变为同现关键词的字符串(以下称为噪声)。这将参照图4具体描述。
检索索引创建单元14基于关于作为检索结果获得的存储在检索文档存储数据库20中的发布信息的后缀数组,创建检索索引。所创建的检索索引存储在数据库20的文档检索索引数据库22中。通过创建检索索引,可以高速计算当在每个发布信息中提取同现关键词时所需的主题(同现关键词)候选字符串的出现频率DF(文档频率)。
当自动设定检索关键词或者对比关键词时,流行性确定单元15确定检索关键词或者对比关键词的候选者的流行性。流行性确定单元15确定所提取的同现关键词(主题)的流行性。
主题提取单元16从噪声被去除的检索结果的每个发布信息中提取同现关键词(主题)。所提取的同现关键词(主题)存储在数据库20的主题存储数据库23中。
主题输出单元17输出提取的同现关键词(主题)。主题输出单元17可以具有用于基于所提取的同现关键词(主题)自动创建发布信息并且在推特上张贴该发布信息的机器人(bot)创建功能。
主题文档输出单元18从检索文档存储数据库21获取包括所提取的同现关键词(主题)的发布信息,并且输出这些发布信息。
[描述操作]
接着将描述检索装置10的操作。图3是图示检索装置10执行的相关联的信息检索处理的流程图。
在步骤S1中,关键词设定单元11将用户输入的字符串设定为检索关键词。用户创建的文档中频繁出现的字符串、用户创建的播放列表中包括的艺术家名称或者歌曲标题、以及用户观看的电视节目中频繁出现的明星名称都可以被提取并且设定为检索关键词。在这种情况下,可以针对所提取的艺术家名称计算下面描述的流行性的估值,并且可以采用估值是预定阈值或更大的艺术家名称作为检索关键词。
在步骤S1中,关键词设定单元11将用户输入的字符串或者自动确定的字符串设定为对比关键词。可以省略对比关键词的设定。
在步骤S2中,文档检索单元12将互联网上出现的推特的每个发布信息设定为检索对象并且检索包括检索关键词的发布信息。检索结果的发布信息与检索关键词相关联并且关联结果存储在检索文档存储数据库21中。当对比关键词被设定时,文档检索单元12将互联网上出现的推特的每个发布信息设定为检索对象并且检索包括该对对比关键词的发布信息。检索结果的发布信息与对比关键词相关联并且关联结果存储在检索文档存储数据库21中。
在步骤S3中,噪声去除单元13从作为检索结果获得的发布信息中去除不会变为同现关键词的噪声。
图4图示了作为检索结果的示例的发布信息。在图4中,下划线字符串被噪声去除单元13作为噪声去除。就是说,当检索对象是发布信息时,意指锐推(retweet)的“RT”,表示答复方的目的地的“用户名”(在图4中用户名是tokyotralver),表示统一资源定位符(URL)的“http://...”,以及表示无用信息的“#...”被去除。
回到图3,在步骤S4中,检索索引创建单元14基于后缀数组针对作为检索结果获得的被存储在检索文档存储数据库20中的发布信息创建检索索引。所创建的检索索引被存储在文档检索索引数据库22中。
在步骤S5中,主题提取单元16执行主题提取处理,用于从噪声被去除的检索结果的每个发布信息中提取同现关键词(主题)。所提取的同现关键词(主题)被存储在数据库20的主题存储数据库23中。
图5是具体图示主题提取处理的流程图。
在步骤S11中,主题提取单元16在噪声被去除的检索结果的发布信息组中出现的所有部分字符串中,提取仅作为其他部分字符串的一部分出现的部分字符串之外的字符串组。这相当于在出现频率DF不变的范围中提取最长的部分字符串组。可以使用基于后缀数组的检索索引来高速执行该处理。
根据下述字符类型的符合规则的字符串被排除在主题候选字符串之外,并且提取其余字符串作为主题候选字符串。
[采用的字符类型]
空格(空白)、半角英文字符、罗马字符扩展、平假名、片假名、全角符号、长音符号、半角符号、控制字符、无效字符、日本汉字、半角数字、标点符号、朝鲜语字符、泰语字符、阿拉伯字符、希伯来语字符、西里尔字符以及希腊字符被采用作为字符类型。
[从主题候选字符串中排除标志(token)的规则]
当标志之前的字符(前一标志的最后字符)是长音符号时,该标志不被指定为主题候选字符串。
当标志的第一字符是空格时,该标志不被指定为主题候选字符串。
当标志的第一字符是全角符号时,该标志不被指定为主题候选字符串。
当标志的第一字符是长音符号时,该标志不被指定为主题候选字符串。
当标志的第一字符是半角符号时,该标志不被指定为主题候选字符串。
当标志的第一字符是控制字符和无效字符时,该标志不被指定为主题候选字符串。
当标志的第一字符是标点符号时,该标志不被指定为主题候选字符串。
当标志之后的字符(下一标志的第一字符)是长音符号时,该标志不被指定为主题候选字符串。
当标志的最后字符是空格时,该标志不被指定为主题候选字符串。
当标志的最后字符是全角符号时,该标志不被指定为主题候选字符串。
当标志的最后字符是半角符号时,该标志不被指定为主题候选字符串。
当标志的最后字符是控制字符和无效字符时,该标志不被指定为主题候选字符串。
当标志的最后字符是标点符号时,该标志不被指定为主题候选字符串。
当标志之前的字符(前一标志的最后字符)和标志的第一字符或者标志之后的字符(下一标志的第一字符)和标志的最后字符均为半角英文字符和罗马字符扩展时,该标志不被指定为主题候选字符串。
当标志之前的字符(前一标志的最后字符)和标志的第一字符或者标志之后的字符(下一标志的第一字符)和标志的最后字符均是片假名时,该标志不被指定为主题候选字符串。
当标志之前的字符(前一标志的最后字符)和标志的第一字符或者标志之后的字符(下一标志的第一字符)和标志的最后字符均是半角数字时,该标志不被指定为主题候选字符串。
当标志之前的字符(前一标志的最后字符)和标志的第一字符或者标志之后的字符(下一标志的第一字符)和标志的最后字符均是朝鲜语字符时,该标志不被指定为主题候选字符串。
当标志之前的字符(前一标志的最后字符)和标志的第一字符或者标志之后的字符(下一标志的第一字符)和标志的最后字符均是西里尔字符时,该标志不被指定为主题候选字符串。
例如,如图6所示,当噪声被去除的发布信息是“People who stock upon chocolate raise your hands(囤积巧克力的人,举手)”时,首先在检索结果的发布信息组中的所有部分字符串中提取仅作为其他部分字符串的一部分出现的部分字符串之外的字符串组。例如,当“cho”、“chocolate,”和“chocolate”的出现频率DF分别是10、10和4时,提取“chocolate”。然而,不提取“cho”。然后,通过应用从主题候选字符串中排除标志的规则,提取主题候选字符串。
这样,主题提取单元16可以基于出现频率DF的变化点以及字符类型的差异,而非根据检索对象文档的语言,来提取主题候选字符串。然而,主题提取单元16可以基于文档语言的特性使用语形学分析来提取主题候选字符串。
当提取相似的字符串作为主题候选字符串时,可以收集相似的字符串作为一个字符串。在该情况下,相似意味着字符串的相似度高,并且出现文档的相似度高。
在步骤S12中,主题提取单元16使用存储在文档检索索引数据库22中的检索索引,来计算噪声被去除的检索结果的发布信息中的每个主题字符串的出现频率DF。
在步骤S13中,主题提取单元16采用其中出现频率DF满足预定条件的主题候选字符串作为主题(同现关键词)。就是说,当检索关键词和对比关键词两者被设定时,主题提取单元16采用如下主题候选字符串作为主题:其中通过将使用检索关键词的检索结果的发布信息的出现频率DF除以使用对比关键词的检索结果的发布信息的出现频率DF而获得的值是预定阈值或更大。当仅检索关键词被设定时,主题提取单元16采用如下主题候选字符串作为主题:其中使用检索关键词的检索结果的发布信息的出现频率DF是预定阈值或更大。
当确定是否采用主题候选字符串作为主题时,不同于使用上述出现频率DF,可以计算并且使用信息增益、交互信息、二元正态分离、倍数变化、以及相关系数。可以执行诸如卡方测试的测试以测量主题的特异性。
在如上所述提取主题之后,主题提取处理结束并且处理返回到图3的步骤S6。
在步骤S6中,流行性确定单元15针对在步骤S5中提取的每个同现关键词(主题)计算流行性的估值。下文将参照附图9A至13描述计算方法。
在步骤S7中,主题输出单元17向用户提供所提取的同现关键词(主题)及其流行性的估值。在步骤S8中,当检索装置自动设定主题时,主题输出单元17可以不向用户提供所提取的同现关键词(主题)及其流行性的估值。
如果用户选择所提供的同现关键词(主题)或者由检索装置自动选择其中流行性的估值是阈值或更大的同现关键词,则在步骤S8中,主题文档输出单元18从检索文档存储数据库21获取包括所提取的同现关键词(主题)和检索关键词的发布信息,并且将这些发布信息作为与检索关键词相关联的信息提供给用户。当获取的多个发布信息彼此相似时,可以收集多个发布信息作为一个发布信息并且可以将该发布信息提供给用户。以这种方式,作为相关联的信息检索处理而执行的一系列操作结束。
[用作用户接口的屏幕显示示例]
图7图示了用作检索装置10的用户接口的屏幕的显示示例。屏幕50设置有检索关键词输入栏51、获取发布信息按钮52、从发布信息获取主题词按钮53、显示发布信息按钮54、主题显示栏55、估值显示栏56、和发布信息显示栏57。
用户可以将检索关键词输入到检索关键词输入栏51。如果用户操作获取发布信息按钮52,则从互联网上出现的推特的发布信息中检索包括检索关键词的发布信息。
如果用户操作从发布信息获取主题词按钮53,则从检索结果的发布信息中提取同现关键词(主题)并且使同现关键词和流行性的估值显示在主题显示栏55中。如果用户选择显示在主题显示栏55上的同现关键词(主题),则关于所选择的同现关键词(主题)的流行性的估值的时间演变显示在估值显示栏56上。
如果在其中选择了同现关键词(主题)的状态下用户操作显示发布信息按钮54,则包括检索关键词和所选择的同现关键词(主题)的发布信息显示在发布信息显示栏57中。
例如,如图7所示,如果用户将“浅草寺(Sensoji Temple)”作为检索关键词输入到检索关键词输入栏51并且操作获取发布信息按钮52,则包括检索关键词“浅草寺(Sensoji Temple)”的发布信息被检索。在该情况下,如果用户操作从发布信息获得主题词按钮53,则同现关键词(主题)“台东区(Taito Ward)”、“护国寺(Gokokuji)”、“地震”、“地震灾难发生时间:下午2:46”、“在浅草”、和“交叉点”以及流行性的估值显示在主题显示栏55中。
如果用户从显示在主题显示栏55上的同现关键词(主题)中选择“台东区(Taito Ward)”,则所选择的同现关键词(主题)的流行性的估值的时间演变显示在估值显示栏56中。
如果在其中选择“台东区(Taito Ward)”作为同现关键词(主题)的状态下用户操作显示发布信息按钮54,则包括检索关键词“浅草寺(Sensoji Temple)”和所选择的同现关键词(主题)“台东区(Taito Ward)”的发布信息显示在发布信息显示栏57中。然而,在图7中,在发布信息显示栏57中发布信息的句子由*(星号)代替。
例如,如图8所示,如果用户在检索关键词输入栏51上输入“蔬菜(vegetables)”作为检索关键词,并且操作获取发布信息按钮52,则包括检索关键词“蔬菜(vegetables)”的发布信息被检索。在这种情况下,如果用户操作从发布信息获取主题词按钮53,则同现关键词(主题)“儿童(child)”、“儿童的(of child)”、“制成饮料(made to drink)”、“饮用(drank)”、“喂养(fed)”、“有运输限制的(of shipment limitation)”、以及“消费者的(of consumer)”以及流行性的估值显示在主题显示栏55上。
如果用户从主题显示栏55上显示的同现关键词(主题)中选择“有运输限制的(of shipment limitation)”,则关于所选择的同现关键词(主题)的流行性的估值的时间演变显示在估值显示栏56上。
如果在其中选择“有运输限制的(of shipment limitation)”作为同现关键词(主题)的状态下用户操作显示发布信息按钮54,则包括检索关键词“蔬菜(vegetables)”和所选择的同现关键词(主题)“有运输限制的(of shipment limitation)”的发布信息显示在发布信息显示栏57上。然而,在图8中,在发布信息显示栏57中,发布信息的句子由*(星号)代替。
如上所述,检索装置10可以针对每个主题收集包括用户感兴趣的主题的发布信息并且可以将这些发布信息提供给用户。如果检索关键词被自动设定,则检索装置10可以针对每个主题收集包括用户感兴趣的估计主题的发布信息并且可以将这些发布信息提供给用户。
[计算流行性的估值的方法]
接着,将描述在相关联的信息检索处理的步骤S6中计算同现关键词的流行性的估值的方法。
首先,基于其中出现同现关键词的发布信息的张贴日期和时间,将检索结果的发布信息中的同现关键词的出现频率DF转换为离散系统的时间序列数据。具体地,将同现关键词的出现频率DF转换为预定测量时段(例如,24小时)中的频率。
图9A和9B图示了设定频率测量时段的方法。就是说,如图9A所示,频率测量时段未被设定为在时间轴T上重叠,并且如图9B所示,频率测量时段可以被设定为在时间轴T上重叠。
当频率测量时段被设定为不在时间轴T上重叠时,每个测量间隔中的频率和变为出现频率DF。当频率测量时段被设定为在时间轴T上重叠时,可以在短时段中获取多个频率的样本。
当特定测量时段t中的频率被设定为xt时,使用测量时段t之前的N个测量时段t、t-1、t-2、…、和t-N+1中的频率xt、xt-1、xt-2、…、和xt-N+1计算测量时段t中的流行性的估值st
具体地,依次计算移动平均值mt、移动偏差vt和估值st
移动平均值mt=(Σxi)/N…(1)
移动偏差vt=√((Σ(mt-xi))/N)…(2)
估值st=vt/vt-1…(3)
Σ意指与i=t至i=t-N+1对应的N个值的和。
例如,当用作离散系统的时间序列数据的频率xt如图10所示演变时,移动平均值mt如图11中的粗线所示演变,而移动偏差vt基于图11中的粗线如细线所示以带的形式演变。同时,估值st如图12所示演变。图13图示了图10和12的重叠状态。
如从图13所见,当频率xt迅速改变时,估值st增加。因此,如果针对同现关键词计算估值st,则当确定关键词是否已变为(正趋向于)世界流行主题时,估值可以被用作索引。
当测量时段t短时,估值st表示短期流行性趋势,并且当测量时段t长时,估值st表示长期流行性趋势。因此,可以计算测量时段t短时(例如,1天=24小时)的估值st(一天)和当测量时段长时(例如,1个月=30天)的估值st(30天),并且可以计算估值的加权平均值作为最终估值。所计算的最终估值可以用作索引,用于表示关键词是否已变为(正趋向于)世界流行主题的短期流行性趋势和长期流行性趋势。
[估值的其他使用目的]
除了确定同现关键词的流行性之外,还可以以各种方式使用估值St
例如,如果预定时段中的各种产品中的每个的销售量被设定为频率xt并且计算估值st,则估值可以用作用于确定拳头产品的索引。
如果检索关键词的检索次数被设定为频率xt并且计算估值st,则估值可以用作用于确定已变为世界流行主题的关键词的索引。
上述系列处理可以由硬件或软件实现。当系列处理由软件实现时,形成软件的程序从程序记录介质安装到嵌入专用硬件的计算机中以及可以安装各种程序并且可以执行各种功能的通用计算机中。
图14是图示了通过程序执行系列处理的计算机的硬件配置示例的框图。
在计算机100中,中央处理单元(CPU)101、只读存储器(ROM)以及随机存取存储器(RAM)103通过总线104互相连接。
输入/输出接口105连接到总线104。输入单元106,包括键盘、鼠标和麦克风;输出单元107,包括显示器和扬声器;存储单元108,使用硬盘或者非易失性存储器配置;通信单元109,使用网络接口配置;以及驱动器110,驱动诸如磁盘、光盘、磁光盘或者半导体存储器的可移除介质111连接到输入/输出接口105。
在如上所述配置的计算机100中,CPU 101通过输入/输出接口105和总线104将存储在存储单元108中的程序加载到RAM 103中,并且执行这些程序,并且执行系列处理。
由计算机执行的程序可以根据本公开中描述的顺序按时间序列处理,并且可以并行地处理或者在执行调用时在所需的定时处理。
一个计算机可以处理程序并且多个计算机可以对程序执行分布式处理。程序可以被传送到远程计算机并且可以被执行。
本公开的实施例不限于以上示例,并且在不偏离本公开的精神和范围的情况下,可以进行各种改变。
本公开包含与2011年5月18日提交日本专利局的日本在先专利申请JP 2011-111645中公开的主题内容相关的主题内容,其整体内容通过引用合并于此。

Claims (11)

1.一种信息处理装置,包括:
设定单元,设定检索字符串;
检索单元,检索包括所设定的检索字符串的信息;以及
确定单元,从作为检索结果获得的多个信息中出现的所有部分字符串中、提取仅作为其他部分字符串的一部分出现的部分字符串之外的同现字符串候选组,并且基于所提取的同现字符串候选组以及所述同现字符串候选组之前和之后的字符中使用的字符类型,根据所述同现字符串候选组确定同现字符串。
2.根据权利要求1所述的信息处理装置,进一步包括:
第一提供单元,向用户提供所确定的同现字符串,使得所述同现字符串被所述用户选择;以及
第二提供单元,向用户提供作为检索结果获得的多个信息中的包括所选择的同现字符串的信息。
3.根据权利要求2所述的信息处理装置,进一步包括:
判定单元,计算关于所确定的同现字符串的流行性的估值并且判定流行性索引,
其中所述第一提供单元基于所述估值向用户提供所确定的同现字符串,使得所述同现字符串被用户选择。
4.根据权利要求2所述的信息处理装置,进一步包括:
选择单元,基于所确定的流行性索引选择所述同现字符串。
5.根据权利要求2所述的信息处理装置,进一步包括:
噪声去除单元,从作为检索结果获得的多个信息中去除噪声,
其中所述确定单元从多个作为检索结果获得的噪声被去除的信息中提取所述同现字符串候选组。
6.根据权利要求2所述的信息处理装置,
其中所述设定单元将用户输入的字符串设定为所述检索字符串或者将基于用户的操作历史提取的字符串设定为所述检索字符串。
7.根据权利要求2所述的信息处理装置,
其中所述设定单元设定描述所述检索字符串的特征的一个或更多个对比字符串。
8.根据权利要求7所述的信息处理装置,
其中所述确定单元基于形成所述同现字符串候选组的每个同现字符串候选者在包括所述检索字符串的信息中的出现频率和每个同现字符串候选者在包括所述对比字符串的信息中的出现频率的比较结果,确定所述同现字符串。
9.根据权利要求7所述的信息处理装置,
其中所述设定单元将用户输入的字符串设定为所述检索字符串,将基于用户的操作历史提取的字符串设定为所述检索字符串,或者将基于所述检索字符串的提取的字符串设定为所述对比字符串。
10.一种由信息处理装置执行的信息处理方法,包括:
设定检索字符串;
检索包括所设定的检索字符串的信息;以及
从作为检索结果获得的多个信息中出现的所有部分字符串中、提取仅作为其他部分字符串的一部分出现的部分字符串之外的同现字符串候选组,并且基于所提取的同现字符串候选组以及所述同现字符串候选组之前和之后的字符中使用的字符类型,根据所述同现字符串候选组确定同现字符串。
11.一种用于使计算机用作如下单元的程序:
设定单元,设定检索字符串;
检索单元,检索包括所设定的检索字符串的信息;以及
确定单元,从作为检索结果获得的多个信息中出现的所有部分字符串中、提取仅作为其他部分字符串的一部分出现的部分字符串之外的同现字符串候选组,并且基于所提取的同现字符串候选组以及所述同现字符串候选组之前和之后的字符中使用的字符类型,根据所述同现字符串候选组确定同现字符串。
CN2012101477362A 2011-05-18 2012-05-11 信息处理装置、信息处理方法和程序 Pending CN102789476A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-111645 2011-05-18
JP2011111645A JP5768492B2 (ja) 2011-05-18 2011-05-18 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
CN102789476A true CN102789476A (zh) 2012-11-21

Family

ID=46087488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101477362A Pending CN102789476A (zh) 2011-05-18 2012-05-11 信息处理装置、信息处理方法和程序

Country Status (4)

Country Link
US (2) US8983997B2 (zh)
EP (1) EP2525295A1 (zh)
JP (1) JP5768492B2 (zh)
CN (1) CN102789476A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346037A (zh) * 2013-08-06 2015-02-11 索尼公司 信息处理设备和信息处理方法
CN107004406A (zh) * 2014-12-02 2017-08-01 索尼公司 信息处理设备、信息处理方法及程序

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6103766B2 (ja) * 2013-05-17 2017-03-29 日本電信電話株式会社 行動プロセス抽出方法及び行動プロセス抽出装置
JP6429382B2 (ja) * 2015-01-05 2018-11-28 日本放送協会 コンテンツ推薦装置、及びプログラム
JP6679513B2 (ja) * 2017-02-08 2020-04-15 ヤフー株式会社 提供装置、提供方法、及び提供プログラム
US11080348B2 (en) * 2017-06-07 2021-08-03 Fujifilm Business Innovation Corp. System and method for user-oriented topic selection and browsing
CN112200259A (zh) * 2020-10-19 2021-01-08 哈尔滨理工大学 一种基于分类与筛选的信息增益文本特征选择方法及分类装置
US20230315724A1 (en) * 2022-03-29 2023-10-05 Lenovo (United States) Inc. Automatically searching for topics related to discovered devices

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194166A1 (en) * 2001-05-01 2002-12-19 Fowler Abraham Michael Mechanism to sift through search results using keywords from the results
CN1825315A (zh) * 2005-02-22 2006-08-30 微软公司 查询拼写更正方法和系统
CN101231636A (zh) * 2007-01-25 2008-07-30 北京搜狗科技发展有限公司 一种便捷的信息搜索方法、系统及一种输入法系统
US20090287676A1 (en) * 2008-05-16 2009-11-19 Yahoo! Inc. Search results with word or phrase index

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69804495T2 (de) * 1997-11-24 2002-10-31 British Telecomm Informationsmanagement und wiedergewinnung von schlüsselbegriffen
US6853950B1 (en) * 1999-07-20 2005-02-08 Newsedge Corporation System for determining changes in the relative interest of subjects
US7890526B1 (en) * 2003-12-30 2011-02-15 Microsoft Corporation Incremental query refinement
JP4298550B2 (ja) * 2004-03-10 2009-07-22 日本電信電話株式会社 単語抽出方法、装置、およびプログラム
JP4428703B2 (ja) * 2004-11-11 2010-03-10 日本電信電話株式会社 情報検索方法及びそのシステム並びにコンピュータプログラム
US7461056B2 (en) * 2005-02-09 2008-12-02 Microsoft Corporation Text mining apparatus and associated methods
US20070219961A1 (en) * 2005-09-23 2007-09-20 Scifor Inc. Scientific research workbench
JP2007178927A (ja) * 2005-12-28 2007-07-12 Canon Inc 情報検索装置および方法
US20080235209A1 (en) * 2007-03-20 2008-09-25 Samsung Electronics Co., Ltd. Method and apparatus for search result snippet analysis for query expansion and result filtering
WO2008083504A1 (en) * 2007-01-10 2008-07-17 Nick Koudas Method and system for information discovery and text analysis
WO2008139568A1 (ja) * 2007-05-08 2008-11-20 Fujitsu Limited キーワード出力プログラム、キーワード出力装置およびキーワード出力方法
JP4359787B2 (ja) 2007-07-02 2009-11-04 ソニー株式会社 情報処理装置、コンテンツの評判検索方法およびコンテンツの評判検索システム
JP5366632B2 (ja) * 2009-04-21 2013-12-11 エヌ・ティ・ティ・コミュニケーションズ株式会社 検索サポートキーワード提示装置、方法及びプログラム
US8386482B2 (en) * 2009-09-02 2013-02-26 Xurmo Technologies Private Limited Method for personalizing information retrieval in a communication network
WO2011053755A1 (en) * 2009-10-30 2011-05-05 Evri, Inc. Improving keyword-based search engine results using enhanced query strategies
JP5434524B2 (ja) 2009-11-26 2014-03-05 Jfeスチール株式会社 方向性電磁鋼板の製造方法
US8185526B2 (en) * 2010-01-21 2012-05-22 Microsoft Corporation Dynamic keyword suggestion and image-search re-ranking

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194166A1 (en) * 2001-05-01 2002-12-19 Fowler Abraham Michael Mechanism to sift through search results using keywords from the results
CN1825315A (zh) * 2005-02-22 2006-08-30 微软公司 查询拼写更正方法和系统
CN101231636A (zh) * 2007-01-25 2008-07-30 北京搜狗科技发展有限公司 一种便捷的信息搜索方法、系统及一种输入法系统
US20090287676A1 (en) * 2008-05-16 2009-11-19 Yahoo! Inc. Search results with word or phrase index

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346037A (zh) * 2013-08-06 2015-02-11 索尼公司 信息处理设备和信息处理方法
CN104346037B (zh) * 2013-08-06 2019-01-01 索尼公司 信息处理设备和信息处理方法
CN107004406A (zh) * 2014-12-02 2017-08-01 索尼公司 信息处理设备、信息处理方法及程序

Also Published As

Publication number Publication date
JP5768492B2 (ja) 2015-08-26
US20150113016A1 (en) 2015-04-23
US20120296931A1 (en) 2012-11-22
US9529847B2 (en) 2016-12-27
EP2525295A1 (en) 2012-11-21
US8983997B2 (en) 2015-03-17
JP2012243033A (ja) 2012-12-10

Similar Documents

Publication Publication Date Title
CN102789476A (zh) 信息处理装置、信息处理方法和程序
US20080312910A1 (en) Dictionary word and phrase determination
US20080312911A1 (en) Dictionary word and phrase determination
US9436768B2 (en) System and method for pushing and distributing promotion content
US20170185680A1 (en) Chinese website classification method and system based on characteristic analysis of website homepage
WO2016000555A1 (zh) 基于社交网络的内容、新闻推荐方法和系统
CN102841913A (zh) 信息处理装置、信息处理方法和程序
WO2006134682A1 (ja) 固有表現抽出装置、方法、及びプログラム
JP6394388B2 (ja) 同義関係判定装置、同義関係判定方法、及びそのプログラム
CN108305180B (zh) 一种好友推荐方法及装置
CN103207917A (zh) 标注多媒体内容的方法、生成推荐内容的方法及系统
CN110489649B (zh) 标签关联内容的方法及装置
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN108121715A (zh) 一种文字标签方法及文字标签装置
WO2015062377A1 (zh) 一种相似文本检测装置、方法以及应用
CN110866408B (zh) 数据库制作装置以及检索系统
Zhou et al. Web content extraction through machine learning
CN111414471A (zh) 用于输出信息的方法和装置
US9875298B2 (en) Automatic generation of a search query
US10216989B1 (en) Providing additional information for text in an image
Walha et al. A Lexicon approach to multidimensional analysis of tweets opinion
CN111782962B (zh) 模式匹配方法、装置及电子设备
CN109923538A (zh) 文本检索装置、文本检索方法以及计算机程序
Karmakar et al. Sentiment analysis of customers’ review in bangla using machine learning approaches
Kumaresamoorthy et al. An APPROACH OF Filtering The Content Of Posts In Social Media

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121121