CN101118560A - 关键词输出设备和关键词输出方法 - Google Patents

关键词输出设备和关键词输出方法 Download PDF

Info

Publication number
CN101118560A
CN101118560A CNA200710140036XA CN200710140036A CN101118560A CN 101118560 A CN101118560 A CN 101118560A CN A200710140036X A CNA200710140036X A CN A200710140036XA CN 200710140036 A CN200710140036 A CN 200710140036A CN 101118560 A CN101118560 A CN 101118560A
Authority
CN
China
Prior art keywords
keyword
unit
brothers
sisters
seniority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200710140036XA
Other languages
English (en)
Inventor
岗本昌之
山崎智弘
后藤和之
梅本秀雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN101118560A publication Critical patent/CN101118560A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Abstract

一种关键词输出设备,包括文档接收单元,接收指定时间段内的文档;关键词分析单元,对文档分析可能的关键词;关键词提取单元,对各关键词计算分数并以分数顺序提取关键词;关键词结构产生单元,通过分类和分级各提取的关键词,产生关键词结构;关键词输出单元,基于关键词结构,以分数的降序输出关键词。

Description

关键词输出设备和关键词输出方法
技术领域
本发明涉及用于输出关键词的设备和方法。
背景技术
一直以来,人们对了解被谈论或流行话题总有很大需求。种种技术被开发来迎合此种需求。其中,一项从文档中提取时事关键词的技术受到很多关注。该技术的突出应用就是基于网络的搜索引擎,其通过使用搜索关键词,实时搜索全球的广泛信息。
另一项技术提供网络搜索关键词的排行信息,以致能获取指定时间段内的话题。在该技术中,排行信息的产生是基于指定时间段内关键词的出现频率,或者将来自最近更新搜索引擎的共同关键词输出为潜在话题,例如网络日志搜索引擎。
举例来说,JP-A 2006-139717(KOKAI)披露了一个关键词提取方法,意在基于这些话题张贴信息的频率,从电子公告牌系统提取最近话题。
有一个网站(URL:http://kizasijp/),基于网络日志张贴关键词的频率,提供被谈论最多的当前话题。网络日志是用户可以自由张贴日记或文章的网站。此种关键词形成了部分代表话题的关键词。
上述网站提供预定时间段内时事关键词的排行信息,例如24小时,一星期,或一个月。该网站也就具体话题提供指定时间段内频繁出现的关键词,以及与该频繁出现关键词相关的其他关键词。
然而,上述网站无法以高度话题性的顺序显示关键词,因此用户无法方便地理解具体话题的发展。举例来说,考虑与具体时事新闻相关的关键词“XXX侵害案”。其他与该关键词相关的关键词可以是“事件的发生”,“逃犯逮捕令”,和“逮捕罪犯”。然而,网站无法以高度话题性的顺序或者以便于理解的方式显示这些关键词。
发明内容
根据本发明的一方面,提供有关键词输出设备,其包括文档接收单元,配置为接收指定时间段内的具有日期时间属性的文档;关键词提取单元,分析文档并从文档中提取时事关键词;排行确定单元,基于这些关键词的属性,确定各关键词的排行;关键词结构产生单元,基于关键词的同现对关键词进行分类和分级,以产生关键词结构;以及关键词输出单元,以排行确定单元所确定排行的降序输出关键词。
根据本发明的另一方面,提供有关键词输出方法,其包括接收指定时间段内的具有日期时间属性的文档;分析文档并从文档中提取时事关键词;基于这些关键词的属性,确定各关键词的排行;基于关键词的同现对关键词进行分类和分级,以产生关键词结构;以及以排行的降序输出关键词。
附图说明
图1是本发明实施例所对应的系统的示意图;
图2是用来说明图1中的服务器的模块配置的示意图;
图3是图1中的服务器的方框图;
图4A是用来说明在网页上显示新闻文章的示意图;
图4B是用来说明电子节目指南(EPG)信息的示意图;
图5是图3所示的关键词提取处理器所执行处理的流程图;
图6是一组时事关键词的结构示意图;
图7是构成时事关键词的处理的流程图;
图8是关键词结构示例的示意图;
图9是显示时事关键词的示例的示意图;以及
图10是另一个显示时事关键词的示例的示意图。
具体实施方式
以下参照附图详细说明本发明的示例实施例。
图1是根据本发明实施例的包括关键词输出设备的服务器-客户系统的示意图。该服务器-客户系统包括服务器计算机(以下,“服务器”)1,执行关键词输出设备的功能。服务器1通过例如局域网(LAN)的网络2连接至一个或多个客户计算机(以下,“客户”)3。服务器1和客户3可以是通用个人计算机。
图2是用来说明服务器1的模块配置的示意图。服务器1包括中央处理器(CPU)101用于信息处理,只读存储器102具有基本输入输出系统(BIOS)信息,数据可重写随机存取存储器103,硬盘驱动器(HDD)104执行数据库的功能,并在其中储存诸多计算机程序,存储介质驱动器105例如CD-ROM驱动器用于对存储介质110进行写入信息和/或读取信息,通信控制设备106能够通过网络2与外界通信从而接收信息和/或传输信息至外界,显示单元107例如阴极射线管(CRT)或液晶显示器(LCD)将例如处理进展或结果的信息显示至操作员,以及输入单元108例如操作员使用的键盘或鼠标从而对CPU 101给出命令或信息。总线控制器109调停(arbitrate)在服务器1的组件之间传输的所有数据。
当用户接通服务器1和客户3时,CPU 101运行ROM 102中的加载例行程序,使操作系统(OS)被从HDD 104加载到RAM 103中,并运行OS,该OS是管理计算机硬件和软件的计算机程序。OS运行诸多计算机程序,读取信息,并将信息保存为各用户请求。OS的典型示例是Windows(注册商标)。在此种OS上运行的计算机程序称为应用程序。应用程序也可以是使OS执行部分稍后所述的操作的计算机程序,或者也可以是能被包括在一组构成预定应用软件或OS的计算机程序文件中的计算机程序。
关键词输出程序作为应用程序储存在HDD 104中。因此,HDD 104作为关键词输出程序的存储介质。
通常,安装在HDD 104中的应用程序也可以存储在存储介质110中,反之亦然。存储介质110可以是光盘例如CD-ROM或DVD,磁性光盘,磁盘例如软盘(FD),或者其他介质例如半导体存储器。因此,可携带存储介质110也可以执行用于存储应用程序的存储介质的功能。应用程序也可以从外部计算机通过通信控制设备106导入,并安装在HDD 104中。
当关键词输出程序在OS中执行时,CPU 101执行诸多处理并整体控制服务器1的各个组件。以下说明本实施例中CPU 101所执行的典型处理。
图3是服务器1构件的方框图。服务器1包括文档接收单元11,时事关键词提取单元12,关键词分析单元13,时事关键词结构产生单元14,时事关键词存储单元15,搜索请求产生单元16,和时事关键词输出单元17。服务器1的这些单元可以通过执行关键词输出程序来实现。
任意常用存储介质例如HDD 104,存储介质110,和RAM 103都能执行时事关键词存储单元15的功能。
以下说明关键词输出程序各单元的功能。在需要时说明各单元的数据结构或处理流程。
文档接收单元11接收指定天数的文档集合。各文档具有日期时间属性。具有日期时间属性的文档示例包括网页上的新闻文章(参图4A),或EPG信息(参图4B)。文档需要有日期时间属性,例如张贴主体文本的时间或更新主体文本的时间。可以指定具体网站或数据库作为由此接收文档的来源。例如网页上的新闻文章或EPG上的信息的各文档具有唯一的可识别文档ID。
时事关键词提取单元12从文档接收单元11获取文档并将该文档传递至关键词分析单元13。关键词分析单元13对文档分析其中的可能关键词。
即,关键词分析单元13通过使用现有自然语言处理技术,例如语素(morphological)分析或n-gram提取,对文档分析文档中的可能特征关键词,该文档可以是网页文本或EPG。举例来说,字符串“自然语言处理”的语素分析使字符串分解为单个单词例如“自然”,“语言”,和“处理”,作为关键词。
关键词分析单元13将一组关键词返回至时事关键词提取单元12。时事关键词提取单元12确定指定时期和时间内具有高度话题性的固定关键词(以下,“时事关键词”),并提取这些关键词。
时事关键词结构产生单元14检查时事关键词提取单元12所提取的时事关键词的同现或其之间的相互关系,并通过基于同现和相互关系对时事关键词进行分级和分类,来产生时事关键词结构。
时事关键词存储单元15在其中储存时事关键词和时事关键词结构。储存在时事关键词存储单元15中的时事关键词和时事关键词结构被用于进一步的参考。
基于时事关键词和时事关键词结构,搜索请求产生单元16产生具有内嵌搜索请求的网页,以允许基于网络搜索引擎中的关键词搜索。
通过网络2从客户3接收到显示网页的请求之后,时事关键词输出单元17将搜索请求产生单元16产生的网页输出(发送/传输)至指定客户3。
图5是时事关键词提取单元12和关键词分析单元13所执行的关键词提取程序的流程图。关键词提取程序实际是由CPU 101通过执行关键词输出程序而执行的。
首先,关键词分析单元13对文档执行语素分析,该文档由文档接收单元11在一定时间段中接收,并将文档分解为多个单词语素(步骤S1)。关键词分析单元13连接多个语素,从而产生具有两个或更多单词的预期关键词(步骤S2)。关键词分析单元13从预期关键词中删除不能被视作关键词的助词(particle),符号和参考编号(步骤S3)。关键词分析单元13将预期关键词列表返回至时事关键词提取单元12。
时事关键词提取单元12计算各预期关键词的出现频率,并以预期关键词出现频率的降序排列该预期关键词(步骤S4)。时事关键词提取单元12确定是否存在任何能形成其他预期时事关键词的子集的预期时事关键词。换言之,时事关键词提取单元12确定预期时事关键词之间是否存在包含关系(步骤S5)。
在计算关键词的出现频率时,时事关键词提取单元12除当前关键词的出现频率之外,还考虑关键词出现频率的历史。历史信息被储存在时事关键词存储单元15中,与对应关键词相联系。
时事关键词提取单元12被配置来基于关键词的出现频率,计算文档集合中各关键词的分数,出现频率是关键词的属性之一。然而,其他判断标准也可能用来计算分数。计算分数的标准可以是文档集合中关键词的其他属性,例如关键词的新鲜度,关键词的长度,或者关键词的语素信息。
当关键词之间存在包含关系时(步骤S5:是),时事关键词提取单元12删除形成其他关键词子集的关键词(步骤S6)。举例来说,考虑关键词“XXX问题”,“XXX”,和“问题”。关键词“XXX问题”与关键词“XXX”和“问题”有包含关系。即,关键词“XXX”和“问题”都形成关键词“XXX问题”的子集。在该示例中,时事关键词提取单元12删除关键词“XXX”和“问题”。
如果关键词之间存在包含关系,可以考虑诸多方法。当关键词之间存在包含关系时,举例来说,时事关键词提取单元12可以配置来组合相应的关键词,而非删除关键词。举例来说,考虑具有重叠关键词的关键词“虚假抗震性能”和“抗震性能的欺诈”。时事关键词提取单元12可以配置来组合这两个关键词,以形成例如“虚假抗震性能的欺诈”的关键词,并通过加上原关键词的出现频率,来计算新关键词的出现频率。
因此,时事关键词提取单元12首先检查接收自关键词分析单元12的关键词之间的包含关系,并根据包含关系产生新关键词。用该方式获得的关键词形成一组时事关键词。
另一方面,如果关键词之间不存在包含关系(步骤S5:否),时事关键词提取单元12确定时事关键词的数量是否查过预设的最大分配数(步骤S7)。
如果数量超过最大分配数(步骤S7:是),时事关键词提取单元12根据出现频率的降序选择时事关键词,直到到达最大分配数,并删除剩余时事关键词(步骤S8)。
图6是提取时事关键词组的结构示意图。各时事关键词的属性包括实施关键词字符串,对时事关键词设置的时间段,时事关键词的出现频率,以及提取时事关键词的原始文档的文档ID。
以下说明时事关键词结构产生单元14所执行的构成时事关键词的处理。图7是构成时事关键词的处理的流程图。
时事关键词结构产生单元14产生时事关键词对(组?),然后检查在各对之间文档ID的共同部分(步骤S11)。举例来说,图6所示的两个关键词“XXX问题”和“YYY被逮捕”的文档ID中共同具有“003”。
时事关键词结构产生单元14组合在文档ID上有更大共同性的关键词对,以形成一组更大的关键词(步骤S12)。举例来说,如果一对关键词(A,B)的文档ID和一对关键词(A,C)的文档ID有更大的共同性,于是时事关键词结构产生单元14就组合对,以形成一组关键词(A,B,C)。
对于各组关键词,时事关键词结构产生单元14拾取具有最高出现频率的关键词,指定该关键词为标题关键词,并指定对应组中的所有其他关键词为副标题关键词(步骤S13)。标题关键词和副标题关键词将如稍后所述以可辩别方式显示在客户3上。
通过这种方式,时事关键词结构产生单元14利用时事关键词文件之间的共同性所引起的时事关键词的同现,来分类和分级时事关键词。
时事关键词产生单元14于是确定同一关键词是否已经储存在时事关键词存储单元15中(步骤S14)。如果关键词还未储存在时事关键词存储单元15中(步骤S14:否),这表示该关键词是新关键词,所以时事关键词结构产生单元14对关键词附加“新”的标记(步骤S15)。当关键词已经储存在时事关键词存储单元15中时(步骤S14:是),时事关键词结构产生单元14计算当前关键词和时事关键词存储单元15中的现有关键词的出现频率之间的差别(步骤S16)。即,时事关键词结构产生单元14通过查看时事关键词存储单元15中储存的关键词,确定关键词是已经存在,还是新近形成,并对尚未储存在时事关键词存储单元15中的新关键词附加一个属性(“新”的标志)。
检查新关键词以及计算当前和之前关键词出现频率的差别的处理(步骤S14至S16)将被重复,直到不再剩下任何未检查的关键词(步骤S17:否)。
图8说明时事关键词结构产生单元14如上所述执行处理后获得的关键词结构。除例如字符串,时间段,出现频率,和文档ID等在提取时被附加至各时事关键词的属性之外,其他属性也被附加至各时事关键词。其他属性包括关键词是标题关键词还是副标题关键词,各标题关键词和副标题关键词的具体排行,关键词是否具有“新”的标签,以及与前一天相比关键词的排行差别。指示关键词排行差别的属性只被附加至“新”的标签已经关闭(“新”的标签为“0”)的标题关键词,即只针对附加至从前一天就已经出现并已经具有一定排行的标题关键词,该排行可以与最新排行进行比较。如果前一天的副标题关键词被提升为后一天的标题关键词,新近形成的标题关键词被附加具有“新”的标签打开(“新”的标签为“1”)。也可以对关键词结构增加属性来表示关键词是否从副标题关键词提升为标题关键词。
通过这种方式,时事关键词结构产生单元14通过比较之前计算的关键词分数(例如出现频率),将属性附加至关键词。
搜索请求产生单元16对各分类和分级的时事关键词产生搜索请求,并对用户输出搜索请求。标题关键词情形下的搜索请求条件是标题关键词的字符串,而副标题关键词情形下的搜索请求条件是副标题关键词字符串和对应标题关键词字符串的“与”操作。此种搜索请求允许用户不经获得标题关键词的广泛上下文结果,而且获得副标题关键词的有限上下文结果。举例来说,对于有广泛上下文的标题关键词“XXX问题”,还可以获得具有有限上下文结果的副标题关键词结果,例如“辩解(allegation)”或“道歉”。通过这种方式,搜索请求产生单元16根据时事关键词结构产生单元14所产生的时事关键词结构,产生具有多个搜索关键词的搜索请求。为了获取所有可能的搜索结果,搜索请求的条件可以设置为“标题关键词与(副标题关键词1或副标题关键词2或…副标题关键词n)”。为了获取新闻文章作为搜索结果,可以使用对新闻的固定搜索请求,例如“新闻”。搜索请求产生单元16还可以使用预定关键词字符串来产生搜索请求。
搜索请求产生单元16基于时事关键词和时事关键词结构产生单元14所产生的时事关键词结构,产生具有内嵌搜索请求的网页。所产生的网页被输出至客户3用户可以使用网络浏览器在客户3上浏览网页。
图9是显示话题关键词的示例的示意图。标题关键词以图8所示的分数排行顺序被显示。副标题关键词以关于对应标题关键词的分级方式,并且也根据图8所示的分数排行顺序被显示。分数的排行顺序在一定时间段内会随时间改变。举例来说,此种一定时间段内的分数排行顺序的改变指示标题所对应的话题的当前状态。此外,新近显示的标题可以通过使用字符或图标加以强调(举例来说,图9中的“新!”)。时事关键词输出单元17还基于属性的状态和类型显示诸多记号,例如图标、符号或显示效果。每个记号都可以确认指定属性。
各显示的时事关键词是锚定文本,并由超链接链接至基于网络的搜索站。当用户点击时事关键词时,网页跳至基于网络的搜索站上的搜索结果列表,对应于被点击时事关键词所产生的搜索请求。换而言之,各时事关键词自身具有对基于网络搜索站的搜索请求的功能。因此,用户可以方便地访问所有时事新闻,无需从键盘键入关键词,从而节省人工键入和搜索诸多关键词组合的精力。
图10是显示话题关键词的另一个示例的示意图。时事关键词提取自两种文档。其一是短时间段内的一组文档,另一个是长时间段内的一组文档。与短时间段内的文档相关的一组关键词被显示在分派给“今日热点话题”的“A部分”。与长时间段内的文档相关的其他关键词被显示在分派给“最近关注话题”的“B部分”。因此,时事关键词的显示取决于对提取该时事关键词的各文档所设置的时间段。
图标和箭头记号连同时事关键词被显示,以指示所显示时事关键词的任何排行变化,即,以指示所显示时事关键词当前状态的流行度变化。举例来说,新近显示的时事关键词标有星号标记。
此外,出现频率突然飙升的时事关键词被显示在分派给“流行度突然飙升的话题”的单独“C部分”,而与这些时事关键词的排行无关。
副标题关键词的显示不仅根据其排行,而且根据其“新”的标签的状态。即,具有“新”的标签的副标题关键词优先显示,以在任意给定时间提供具有高度话题性的显示。通过这种方式,时事关键词输出单元17基于属性的状态和类型,改变关键词的显示顺序。
有时,可能难以理解对其意义没有任何解释的关键词。然而,在图10所示的示例中,无需打开单独的基于网络搜索站,以获取时事关键词的详细信息。只要将鼠标指针放在时事关键词上就会显示详细信息,即由此提取时事关键词的原始文档的信息。换而言之,当鼠标指针被放到时事关键词上时,时事关键词输出单元17显示原始文档的信息,该文档包括各时事关键词。举例来说,在图10中,当鼠标指针“P”被放到时事关键词“总决赛”上时,时事关键词输出单元17显示包括该时事关键词“总决赛”的原始文档的信息。因此,可以方便地理解使用该时事关键词“总决赛”的上下文。
通过这种方式,关键词分析单元分析一定时间段内所接收文档的关键词。关键词提取单元计算各被分析关键词的分数,并根据分数顺序提取关键词。关键词结构产生单元分级并分类所提取的关键词,以产生关键词结构。关键词输出单元基于关键词结构,以分数的降序顺序,输出分类和分级的关键词。因此,可以有效地从具有日期时间属性的文档检测并输出涉及指定日期和时间的话题的时事关键词。此外,因为各时事关键词被分级和分类,并且还以分数顺序被显示,可以通过查看时事关键词的顺序来在一定时间段内追踪话题,该时事关键词的排列以特定时事关键词的分级方式。此种显示使用户容易理解特定话题的当前情况或进展。更具体地说,因为关于话题的任何新发展都以分级关键词的形式被显示,用户可以仅通过检查最近关注话题方便地了解特定话题的当前情况或进展。
根据本实施例,可以记录分档信息,例如电视剧的每日阵容,确定从文档提取关键词的判断标准,计算关键词的出现频率或新鲜度,并产生与时事关键词相关的所需标题信息。因此,可以方便地检测被谈论的当前时事关键词,以及显示对应时事关键词的话题的时间段。
此外,通过查看过去关键词结果的关键词结构,可以指出新近形成的关键词,已有关键词出现频率的改变,和关键词排行的改变。显示内容根据此种信息更新,允许用户了解特定时事标题的情况,或者包括与特定话题相关的最新关键词的关键词组。
以上说明了时事关键词输出单元17在搜索请求产生单元16对各时事关键词附加搜索请求“之后”,输出时事关键词。然而,诸多其他方法也是可能的。举例来说,时事关键词输出单元17可以配置为首先输出时事关键词,搜索请求产生单元16可以配置为对用户选择的各时事关键词附加搜索请求。
此外,以上说明了时事关键词输出单元17通过网络2从客户3接收到显示网页的请求之后,输出搜索请求产生单元16所产生的网页。然而,诸多其他方法也是可能的。举例来说,网页可以事先被下载到客户3上,并作为本地文件显示至用户。
此外,以上说明提供关键词输出设备功能的服务器1通过网络2被连接至多个客户3。然而,诸多其他方法也是可能的。举例来说,可以只有一个客户。此外,关键词输出设备可以是独立计算机。
对本领域的技术人员而言,很容易实现其他优点和修改。因此,本发明在其更广大方面并不限于本文说明的具体细节和典型实施例。相应地,可以做出诸多修改,而不背离总体发明概念的精神和范围,该总体发明概念由附加的权利要求及其等价物定义。

Claims (21)

1.一种关键词输出设备,其特征在于,包含:
文档接收单元,配置为接收指定时间段内的具有日期时间属性的文档;
关键词提取单元,其分析所述文档并从所述文档中提取时事关键词;
排行确定单元,其基于这些关键词的属性,确定各关键词的排行;
关键词结构产生单元,其基于关键词的同现对关键词进行分类和分级,以产生关键词结构;以及
关键词输出单元,其以所述排行确定单元所确定的排行的降序输出关键词。
2.根据权利要求1所述的关键词输出设备,其特征在于,进一步包含搜索请求产生单元,在所述关键词输出单元输出关键词之前,对各关键词附加搜索请求。
3.根据权利要求1所述的关键词输出设备,其特征在于,进一步包含搜索请求产生单元,对用户选中的各关键词附加搜索请求。
4.根据权利要求2所述的关键词输出设备,其特征在于,所述搜索请求产生单元基于关键词结构组合多个关键词,以产生所述搜索请求。
5.根据权利要求2所述的关键词输出设备,其特征在于,所述搜索请求产生单元附加预定关键词字符串作为所述搜索请求。
6.根据权利要求1所述的关键词输出设备,其特征在于,进一步包含存储单元,在其中储存具有对应排行的关键词和关键词结构,其中
所述排行确定单元和所述关键词结构产生单元查看所述存储单元中的关键词和关键词结构。
7.根据权利要求6所述的关键词输出设备,其特征在于,
所述存储单元进一步在其中储存与各关键词相关的关键词历史,以及
所述排行确定单元基于所述关键词历史确定排行。
8.根据权利要求6所述的关键词输出设备,其特征在于,所述关键词结构产生单元通过比较各关键词的当前排行和先前确定的排行,对存储单元中储存的各关键词附加指定属性。
9.根据权利要求6所述的关键词输出设备,其特征在于,所述关键词结构产生单元通过与所述存储单元中储存的关键词进行比较确定关键词是否为新近形成的关键词,当确定关键词是新近形成的关键词时,对新近形成的关键词附加新的标签。
10.根据权利要求1所述的关键词输出设备,其特征在于,所述文档接收单元接收至少一个指定时间段中的文档。
11.根据权利要求1所述的关键词输出设备,其特征在于,所述排行确定单元通过使用关键词的指定属性确定各关键词的排行。
12.根据权利要求11所述的关键词输出设备,其特征在于,关键词的指定属性是关键词的出现频率。
13.根据权利要求11所述的关键词输出设备,其特征在于,关键词的指定属性包括关键词是否首次被提取的信息。
14.根据权利要求1所述的关键词输出设备,其特征在于,所述关键词结构产生单元基于关键词所属文档中的共同性所引起的关键词的同现,对关键词进行分类和分级。
15.根据权利要求1所述的关键词输出设备,其特征在于,所述排行确定单元通过使用各关键词的包含关系提取关键词。
16.根据权利要求1所述的关键词输出设备,其特征在于,所述关键词输出单元响应预定操作,输出包括关键词的文档。
17.根据权利要求8所述的关键词输出设备,其特征在于,所述关键词输出单元基于所述指定属性的状态和类型,显示可以确认所述指定属性的记号。
18.根据权利要求9所述的关键词输出设备,其特征在于,所述关键词输出单元基于所述指定属性的状态和类型,显示可以确认所述指定属性的记号。
19.根据权利要求8所述的关键词输出设备,其特征在于,所述关键词输出单元基于所述指定属性的状态和类型,改变关键词的显示顺序。
20.根据权利要求9所述的关键词输出设备,其特征在于,所述关键词输出单元基于所述指定属性的状态和类型,改变关键词的显示顺序。
21.一种关键词输出方法,其特征在于,包括:
接收指定时间段内的具有日期时间属性的文档;
分析所述文档并从所述文档中提取时事关键词;
基于这些关键词的属性,确定各关键词的排行;
基于关键词的同现对关键词进行分类和分级,以产生关键词结构;以及
以排行的降序输出关键词。
CNA200710140036XA 2006-08-03 2007-08-03 关键词输出设备和关键词输出方法 Pending CN101118560A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006211686A JP4234740B2 (ja) 2006-08-03 2006-08-03 キーワード提示装置、プログラムおよびキーワード提示方法
JP2006211686 2006-08-03

Publications (1)

Publication Number Publication Date
CN101118560A true CN101118560A (zh) 2008-02-06

Family

ID=38754731

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200710140036XA Pending CN101118560A (zh) 2006-08-03 2007-08-03 关键词输出设备和关键词输出方法

Country Status (4)

Country Link
US (1) US20080033938A1 (zh)
EP (1) EP1887485A3 (zh)
JP (1) JP4234740B2 (zh)
CN (1) CN101118560A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8180772B2 (en) 2008-02-26 2012-05-15 Sharp Kabushiki Kaisha Electronic data retrieving apparatus
CN102968669A (zh) * 2011-08-31 2013-03-13 富士通株式会社 对负荷进行预测的方法和装置
CN103282903A (zh) * 2011-03-11 2013-09-04 株式会社东芝 话题提取装置和程序
CN104199969A (zh) * 2014-09-22 2014-12-10 北京国双科技有限公司 网页数据分析方法及装置
CN104298703A (zh) * 2014-07-25 2015-01-21 深圳市英威诺科技有限公司 一种根据用户行为提炼关键字并智能分发的方法
CN104933197A (zh) * 2015-07-13 2015-09-23 北京天天卓越科技有限公司 一种关键字确定方法及终端设备
CN106991488A (zh) * 2015-11-16 2017-07-28 Uberple有限公司 关键词和资产价值的关联性评估方法及其装置
US9806981B2 (en) 2002-03-28 2017-10-31 Kabushiki Kaisha Toshiba Method of notifying function identification information and communication system
CN109800303A (zh) * 2018-12-28 2019-05-24 深圳市世强元件网络有限公司 一种文档信息提取方法、存储介质及终端
CN113517047A (zh) * 2021-06-08 2021-10-19 联仁健康医疗大数据科技股份有限公司 医学数据的获取方法、装置、电子设备及存储介质

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7801899B1 (en) * 2004-10-01 2010-09-21 Google Inc. Mixing items, such as ad targeting keyword suggestions, from heterogeneous sources
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
US7979321B2 (en) 2007-07-25 2011-07-12 Ebay Inc. Merchandising items of topical interest
KR100913051B1 (ko) * 2007-09-18 2009-08-20 엔에이치엔(주) 연관 급상승어 검색 방법 및 그 시스템
US8271357B2 (en) 2007-12-11 2012-09-18 Ebay Inc. Presenting items based on activity rates
JP5224868B2 (ja) * 2008-03-28 2013-07-03 株式会社東芝 情報推薦装置および情報推薦方法
US20090259620A1 (en) * 2008-04-11 2009-10-15 Ahene Nii A Method and system for real-time data searches
JP5355949B2 (ja) * 2008-07-16 2013-11-27 株式会社東芝 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム
JP2011166621A (ja) * 2010-02-12 2011-08-25 Nomura Research Institute Ltd 映像コンテンツの推奨装置、推奨する映像コンテンツの決定方法、及びコンピュータプログラム
KR101196935B1 (ko) * 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
KR101779975B1 (ko) 2010-12-22 2017-09-22 주식회사 케이티 Sns 메시지를 활용한 vod 컨텐츠에 대한 부가 서비스 시스템 및 이를 이용한 부가 서비스 방법
US9208218B2 (en) 2011-10-19 2015-12-08 Zalag Corporation Methods and apparatuses for generating search expressions from content, for applying search expressions to content collections, and/or for analyzing corresponding search results
US9600587B2 (en) 2011-10-19 2017-03-21 Zalag Corporation Methods and apparatuses for generating search expressions from content, for applying search expressions to content collections, and/or for analyzing corresponding search results
JP5903915B2 (ja) * 2012-02-07 2016-04-13 大日本印刷株式会社 サーバ装置、プログラム及び通信システム
JP5223018B1 (ja) 2012-05-30 2013-06-26 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP5964149B2 (ja) * 2012-06-20 2016-08-03 株式会社Nttドコモ 共起語を特定する装置およびプログラム
JP2014048946A (ja) * 2012-08-31 2014-03-17 Toshiba Corp 電子機器及びその制御方法
US9619459B2 (en) * 2012-10-01 2017-04-11 Nuance Communications, Inc. Situation aware NLU/NLP
US10282419B2 (en) 2012-12-12 2019-05-07 Nuance Communications, Inc. Multi-domain natural language processing architecture
US9672827B1 (en) * 2013-02-11 2017-06-06 Mindmeld, Inc. Real-time conversation model generation
JP2016024485A (ja) * 2014-07-16 2016-02-08 株式会社ビデオリサーチ 投稿文書取得装置及び投稿文書取得方法
KR101627786B1 (ko) * 2015-01-26 2016-06-07 주식회사 포워드벤처스 핫이슈 키워드 제공 장치 및 방법
CN105260419A (zh) * 2015-09-25 2016-01-20 广州亿码科技有限公司 一种相关关键词推荐方法及装置
CN105808712A (zh) * 2016-03-07 2016-07-27 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法
JP6980404B2 (ja) * 2017-04-18 2021-12-15 株式会社Nttドコモ 表示順序提示装置および表示順序提示方法
US10417340B2 (en) * 2017-10-23 2019-09-17 International Business Machines Corporation Cognitive collaborative moments
US20200341977A1 (en) * 2019-04-25 2020-10-29 Mycelebs Co., Ltd. Method and apparatus for managing attribute language

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3665480B2 (ja) * 1998-06-24 2005-06-29 富士通株式会社 文書整理装置および方法
JP2000132553A (ja) * 1998-10-22 2000-05-12 Sharp Corp キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体
EP1156430A2 (en) * 2000-05-17 2001-11-21 Matsushita Electric Industrial Co., Ltd. Information retrieval system
JP4655384B2 (ja) * 2001-02-28 2011-03-23 ソニー株式会社 携帯型情報端末装置および情報処理方法、プログラム格納媒体、並びにプログラム
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US7085771B2 (en) * 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10491506B2 (en) 2002-03-28 2019-11-26 Kabushiki Kaisha Toshiba Method of notifying function identification information and communication system
US10193787B2 (en) 2002-03-28 2019-01-29 Kabushiki Kaisha Toshiba Method of notifying function identification information and communication system
US9806981B2 (en) 2002-03-28 2017-10-31 Kabushiki Kaisha Toshiba Method of notifying function identification information and communication system
US8180772B2 (en) 2008-02-26 2012-05-15 Sharp Kabushiki Kaisha Electronic data retrieving apparatus
CN103282903B (zh) * 2011-03-11 2016-09-07 株式会社东芝 话题提取装置及其方法
CN103282903A (zh) * 2011-03-11 2013-09-04 株式会社东芝 话题提取装置和程序
US9449051B2 (en) 2011-03-11 2016-09-20 Kabushiki Kaisha Toshiba Topic extraction apparatus and program
CN102968669B (zh) * 2011-08-31 2015-11-25 富士通株式会社 对负荷进行预测的方法和装置
CN102968669A (zh) * 2011-08-31 2013-03-13 富士通株式会社 对负荷进行预测的方法和装置
CN104298703A (zh) * 2014-07-25 2015-01-21 深圳市英威诺科技有限公司 一种根据用户行为提炼关键字并智能分发的方法
CN104199969B (zh) * 2014-09-22 2017-10-03 北京国双科技有限公司 网页数据分析方法及装置
CN104199969A (zh) * 2014-09-22 2014-12-10 北京国双科技有限公司 网页数据分析方法及装置
WO2016045567A1 (zh) * 2014-09-22 2016-03-31 北京国双科技有限公司 网页数据分析方法及装置
US10621245B2 (en) 2014-09-22 2020-04-14 Beijing Gridsum Technology Co., Ltd. Webpage data analysis method and device
CN104933197A (zh) * 2015-07-13 2015-09-23 北京天天卓越科技有限公司 一种关键字确定方法及终端设备
CN106991488A (zh) * 2015-11-16 2017-07-28 Uberple有限公司 关键词和资产价值的关联性评估方法及其装置
CN109800303A (zh) * 2018-12-28 2019-05-24 深圳市世强元件网络有限公司 一种文档信息提取方法、存储介质及终端
CN113517047A (zh) * 2021-06-08 2021-10-19 联仁健康医疗大数据科技股份有限公司 医学数据的获取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20080033938A1 (en) 2008-02-07
JP2008040636A (ja) 2008-02-21
EP1887485A3 (en) 2009-02-11
EP1887485A2 (en) 2008-02-13
JP4234740B2 (ja) 2009-03-04

Similar Documents

Publication Publication Date Title
CN101118560A (zh) 关键词输出设备和关键词输出方法
US11023513B2 (en) Method and apparatus for searching using an active ontology
US8108376B2 (en) Information recommendation device and information recommendation method
US9367588B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
JP4342575B2 (ja) キーワード提示のための装置、方法、及びプログラム
US6636853B1 (en) Method and apparatus for representing and navigating search results
US7895595B2 (en) Automatic method and system for formulating and transforming representations of context used by information services
US8626757B1 (en) Systems and methods for detecting network resource interaction and improved search result reporting
CN102737021B (zh) 搜索引擎及其实现方法
CN102722498A (zh) 搜索引擎及其实现方法
US20120166428A1 (en) Method and system for improving quality of web content
JP2007072646A (ja) 検索装置、検索方法およびプログラム
KR20020022977A (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
US8195458B2 (en) Open class noun classification
CN111581950A (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法
RU2589856C2 (ru) Способ обработки целевого сообщения, способ обработки нового целевого сообщения и сервер (варианты)
Doppalapudi et al. SMSSEARCH: AN ENHANCED MOBILE SEARCHING APPLICATION

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080206