CN104462170A

CN104462170A - 关键词提取装置、方法以及程序

Info

Publication number: CN104462170A
Application number: CN201410466362.XA
Authority: CN
Inventors: 布目光生; 冈本昌之; 永江尚义
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-09-20
Filing date: 2014-09-12
Publication date: 2015-03-25
Also published as: JP2015060581A; US20150088491A1

Abstract

本发明的实施方式涉及关键词提取装置、方法及程序。目的在于提供能够提示反映了用户意向的关键词的关键词提取装置、方法及程序。本实施方式的文件制作支持装置包括：分离部，针对被赋予了表现用户的意图的第1注解至文字列的多个文件的各个文件，分离第1注解与该文件；第1提取部，从文件中提取一般用语；第2提取部，从文件中进行提取，作为用户用语；生成部，对各文件进行归类，生成1个以上的文件群；计算部，在取得针对文件群中包含的关键词的来自用户的第2注解的情况下，根据注解的种类计算特征量；第1更新部，根据所述特征量更新被赋予了第2注解的关键词的所述得分；以及第2更新部，根据被更新了的得分更新所述文件群，得到更新群。

Description

关键词提取装置、方法以及程序

技术领域

本发明的实施方式涉及一种关键词提取装置、方法以及程序。

背景技术

近年来，电子化文件的使用机会增加。电子化文件的利用方式、对象内容也没有停留于由以往的台式PC所进行的企业内文件的阅览等，而能够通过具有轻便性的平板电脑、智能手机等，简单地访问一般地公开了的博客、评论网站、布告板等各种信息。

另一方面，需要进行用于从庞大的文件中访问自己正寻找的文件、内容的钻研。例如，存在以下等手段：与日历显示连动地以时间序列提示向文件的链接，或者通过提示几个被称为标签云(tag cloud)的关键词来引起阅读者的兴趣，或者进一步地，通过一并记载用户注释(comment)、关联报导，实现向其他文件、参考链接目的地的导入。

发明内容

特别地，在提示关键词的情况下，为了进行检索的线索词或摘要式的显示，已知几种从用户阅览了的网页文件、用户正制作并管理的办公文件等中提示关键词的手段，例如存在分别针对文件中的一般用语以及专业用语而提取为关键词的方法。

然而，在明确地进行了下划线、圈这样的表示来自用户的指示的注解(annotation)的情况下，无法反映这些注解。另外，在将这样的用户访问了的文件集合设为对象的情况下，与处理大规模的网页文件集合的情况不同，通过单纯地利用频度信息，启发式地提示锁定的关键词、阅览时未注意到的关键词很困难。

由于文件数量少，所以在提示了与用户的嗜好、兴趣不同的关键词的情况下，除了其差别很显眼之外，所提示的关键词较强地依赖于被添加或删除了的文件集合的内容地被更新，所以有时作为检索起点的关键词变得不确定，失去了前往想要访问的文件的路径。

本公开是为了解决上述问题而完成的，其目的在于，提供一种能够提示反映了用户的意向的关键词的关键词提取装置、方法以及程序。

本实施方式所涉及的内容制作支持装置包括分离部、第1提取部、第2提取部、生成部、计算部、第1更新部以及第2更新部。分离部，针对被赋予了表现用户的意图的第1注解至文字列的多个文件的各个文件，分离该第1注解与该文件。第1提取部，根据被预先定义了的词类信息，从所述文件中提取一般用语。第2提取部，根据合成词的出现频度，从所述文件中提取与所述一般用语不同的合成词作为用户用语。生成部，将所述一般用语以及所述用户用语设为关键词，计算该关键词的得分，对基于该得分的所述文件之间的相关度达到阈值以上的各文件进行归类，生成1个以上的文件群(cluster)。计算部，在取得针对所述文件群中包含的关键词的来自用户的第2注解的情况下，根据注解的种类计算特征量。第1更新部，根据所述特征量，更新被赋予了所述第2注解的关键词的所述得分。第2更新部，根据被更新了的得分更新所述文件群，得到更新群。

根据上述构成的关键词提取装置，能够提示反映了用户的意向的关键词。

附图说明

图1是示出了本实施方式所涉及的关键词提取装置的框图。

图2是示出了本实施方式所涉及的关键词提取装置的动作的流程图。

图3是示出了赋予文件的注解的一个例子的图。

图4是示出了文件与关键词的对应关系的一个例子的图。

图5是示出了本实施方式所涉及的文件群的代表词的一个例子的图。

图6是示出了从关键词输出部输出的关键词列表的一个例子的图。

图7是示出了由用户输入的注解的一个例子的图。

图8是示出了关键词得分更新部的关键词更新处理的一个例子的图。

图9是示出了被更新了的文件群的代表词的一个例子的图。

图10是示出了从关键词输出部输出的被更新了的关键词列表的一个例子的图。

具体实施方式

以下，一边参照图面一边详细地说明本实施方式所涉及的关键词提取装置、方法以及程序。此外，在以下的实施方式中，附加了相同的附图标记的部分进行同样的动作，适当省略重复的说明。

参照图1的框图，说明本实施方式所涉及的关键词提取装置。

本实施方式所涉及的关键词提取装置100包括分离部101、词素解析部102、一般用语提取部103、注解特征提取部104、用户词汇提取部105、群生成部106、用户指示取得部107、关键词得分更新部108、群更新部109以及关键词输出部110。

分离部101接受输入文件，分离文件与被赋予到输入文件的来自用户的注解(也称为第1注解)。输入文件既可以是用户对从网页(web)上收集到的网页文件附加了注解的文件，也可以是用户对由文件制作软件等制作了的文件附加了注解的文件。

注解是指用户主要手写下的下划线、圈、删除线、注释等表现用户的意图的笔划(stroke)。可以假定：在下划线、圈的情况下是提高重要度的强调指示，在删除线的情况下是降低重要度的删除指示。此外，不限于手写，在通过应用程序赋予圈、下划线等的情况下也能够同样地处理。

另外，注解的指定方法不限于由笔、定位装置所进行的操作，作为平板型设备等中的触摸面板上的操作，通过由针对符合的单词的双击、长按所进行的强调、由滑动所进行的删除这样的手段，也能够同样地处理。

词素解析部102从分离部101接受输入文件，针对输入文件中的文字列进行词素解析。

一般用语提取部103接受由词素解析部102进行词素解析了的输入文件，从输入文件中提取一般用语。在一般用语的提取处理中，例如参照预先定义了词类信息等的词典，将名词中的被赋予了特定的属性的词素、以及假名未录词语等提取为一般用语即可。

注解特征提取部104从分离部101接受注解，关于在文件中的什么地方被赋予了什么样的注解，根据注解的种类分别提取特征量。另外，在从后面叙述的用户指示取得部107接受到针对后面叙述的关键词列表所赋予的来自用户的注解(也称为第2注解)的情况下，针对该注解也同样地提取特征量。

用户词汇提取部105接受由词素解析部102进行词素解析了的输入文件，计算词素模式(pattern)的出现频度，作为用户用语取得根据出现频度提取到的合成词。用户用语包括例如由用户所属的组织共同地使用的创造新词、缩略词。另外，当在输入文件中对文字列附加了注解的情况下，也将附加了注解的文字列、被补记了的注释的文字列提取为用户用语。

群生成部106分别从一般用语提取部103取得一般用语，从用户词汇提取部105取得用户用语，将一般用语与用户用语设为关键词，进行文件归类(clustering)，生成1个以上的文件群。关于文件归类的详细情况将后面叙述。

用户指示取得部107经由用户界面取得来自用户的注解。

关键词得分(score)更新部108分别从群生成部106接受文件群，从注解特征提取部104接受注解的特征量。关键词得分更新部108根据注解的特征量，更新文件群的文件中包含的关键词的得分。

群更新部109从关键词得分更新部108接受文件群与被更新了的关键词的得分，根据被更新了的得分更新文件群，得到更新群。

关键词输出部110根据由群生成部106生成了的文件群输出关键词列表。另外，在通过用户对关键词列表赋予了注解的情况下，关键词输出部110从群更新部109接受被更新了的文件群，输出与文件群对应的关键词。关于关键词的输出例子将参照图4在后面叙述。

接着，参照图2的流程图，说明关键词提取装置100的动作。

在步骤S201中，分离部101针对多个输入文件的各个文件，分离文件与注解。

在步骤S202中，词素解析部102针对文件进行词素解析。进行了词素解析后，对词素单位的文字列赋予词类信息。

在步骤S203中，一般用语提取部103参照作为一般用语词典预先被登记的一般用语的列表，从附加了词类信息的文字列中提取一般用语。

在步骤S204中，用户词汇提取部105根据进行词素解析了的结果，将名词和未录词语邻接的组合的文字列视为合成词，对合成词各自的出现频度进行计数，计算用于将各合成词判定为用户用语的判定值。

具体而言，作为合成词的判定值使用式(1)计算MC-Value。

MC-Value(CN)＝length(CN)×(n(CN)-t(CN)/c(CN))…(1)

CN：合成名词

length(CN)：CN的长度(构成单名词数量)

n(CN)：语料库(corpus)中的CN的出现次数

t(CN)：包括CN的、比当前对象的CN长的合成名词的出现次数

c(CN)：包括CN的、比当前对象的CN长的合成名词的不同出现次数

此外，也可以代替MC-value，将C-value的值用作判定值。

在步骤S205中，用户词汇提取部105按照通过式(1)所计算的判定值从高到低的顺序，作为用户用语得到合成词。

在步骤S206中，注解特征提取部104判定是否对输入文件赋予了注解。在对输入文件赋予了注解的情况下，前进到步骤S207，在未对输入文件赋予注解的情况下，前进到步骤S208。

在步骤S207中，注解特征提取部104将被附加了注解的文字列添加到用户用语。例如，在文件中存在通过手写界面描绘了的圆或四方形等的圈的情况下，将处于圈的内部的文字列设为用户用语即可，在划有标记、下划线的情况下，将重叠有标记或下划线的文章或单词等文字列设为用户用语即可。另外，若存在重叠于文件地描绘了的注释，则也可以对注释进行文字识别而设为用户用语。

在步骤S208中，群生成部106根据一般用语与用户用语，对文件进行归类，生成文件群。作为对文件进行归类的方法，例如，将一般用语与用户用语设为关键词，计算关键词的得分。之后，根据关键词的得分，对文件之间的相关度达到阈值以上的各文件进行归类，并对文件进行分类即可。此外，关于对文件进行归类，使用一般的归类方法即可。

在步骤S209中，关键词输出部110在文件群中包含的关键词当中，作为代表性的关键词提示关键词列表。

在步骤S210中，用户指示取得部107针对关键词判定是否存在来自用户的指示。在存在来自用户的指示、即注解的情况下，前进到步骤S211，在没有来自用户的注解的情况下，前进到步骤S212。

在步骤S211中，关键词得分更新部108根据注解更新关键词的得分。

在步骤S213中，群更新部109根据被更新了的关键词的得分更新文件群。

在步骤S214中，关键词输出部110输出包括被更新了的关键词的关键词列表。至此，关键词提取装置100的动作结束。

接着，参照图3说明对文件赋予的注解的一个例子。

图3是注解的一个例子，是针对网页文件上的报导划了下划线的结果。在图3中，是对“流光(streamer)”划了下划线的例子。另外，是针对网页文件而对“Inazuma”这样的合成词圈了圆、或者对“HDD+SDD双驱动”划了下划线、或者“有机物”、“LOHAS杂货”划了下划线的例子。这样被赋予了注解的文字列也设为用户用语。

接着，参照图4说明文件与关键词的对应关系的一个例子。

在图4的例子中，是针对从文件A到文件F的文件进行归类的情况，表格400示出了关键词401与文件402的对应关系。关键词401是一般用语与用户用语中包含的文字列。文件402是包括注解的文件。

具体而言，作为关键词401，将“下载”、“安装”以及“备份”与文件402“文件A”对应起来。另外，各个关键词的文件A中的得分是“3”、“2”以及“1”。

得分例如根据以下的式(2)计算即可。

得分＝出现统计量+注解偏差(bias)值…(2)

此外，出现统计量既可以仅仅是文件中的出现次数，也可以使用TF/IDF值等。注解偏差值是根据注解的种类而设定的特征量。在这里，设为文件中的出现次数。即，可知在文件A中，下载出现了3次，安装出现了2次，备份出现了1次。

根据这些值计算文件之间的相似度。关于相似度的计算，例如使用余弦相似度来计算即可，具体而言，在计算文件A与文件B的相似度的情况下，通过对文件A以及文件B中包含的关键词进行矢量表记，计算余弦相似度。

文件A的矢量能够表示为Vec(A)＝{3，2，0，0，0，0，0，0，0，0，1，0，0，0，0}，文件B的矢量能够表示为Vec(B)＝{0，0，3，2，2，0，0，0，0，0，1，0，0，0，0}。因此，余弦相似度使用cos(vec(A)，vec(B))＝vec(A)·vec(B)/|A||B|来计算即可。在这里，“·”表示内积，“||”表示绝对值。

在该情况下，作为余弦相似度，能够得到1/(sqrt(9+4+1)*sqrt(9+4+4+1))＝1/sqrt(14)*sqrt(18)≒0.063。

上述那样在各文件之间计算余弦相似度，根据k-means法等整合为群，从而能够生成文件的群。

此外，将从多个文件群中按照得分的值从大到小的顺序取出了的关键词设定为该群的代表词。

接着，参照图5说明文件群的一个例子。图5是示出了根据关键词、得分来定义文件之间的距离并根据文件之间的相似度进行归类了的结果的表格500，包括ID 501与代表词502。

ID 501是文件群的标识符。代表词502表示各文件群中包含的关键词的代表词。

具体而言，{下载、安装}、{单通道动作、双通道动作、存储器}、{蓄电池充电、立体声扬声器、抗菌涂层、瓷键盘(tile keyboard)}、{美利坚合众国}、{备份、磁带、流光}、{自然、机壳(cabinet)}分别成为代表文件群的代表词。

接着，参照图6说明从关键词输出部110输出的关键词列表的一个例子。

图6是将关键词的代表词显示为标签云600的显示例子。在该标签云600的显示中，按照得分从大到小的顺序改变文字的大小而显示。

此外，针对根据用户词汇提取部105中的用户用语的提取结果而得到的用户用语，根据式(1)估算得分即可，但关于从一般用语提取部103输出的单词，得分无法明确地得到。因此，事先定义与一般用语的提取方法相应的得分。在这里，例如在作为“名词”进一步地被赋予了详细的属性信息(人名、组织名称等)的情况下，应用赋予比一般的“名词”高的得分等的预处理。

或者，应用如下预处理即可：考虑由用户词汇提取部105得到的得分信息，将以包含固定数量的一般用语的方式调整了的值赋予给从一般用语的提取结果中得到的关键词。

接着，参照图7说明用户指示取得部所取得的注解的一个例子。

图7是显示了文件群的代表词的标签云700的一个例子，针对每个文件群，代表词被区别地显示。在这里，横向1列所显示的代表词是从1个文件群中得到的代表词。

另外，用户针对被进行标签云显示了的代表词，赋予圈、“×(叉)”记号的注解。

在图7的例中，针对代表词“HDD+SDD双驱动”附加了叉记号。在该情况下，被假定为用户认为不需要该关键词的情况，所以，关于附加了叉记号的“HDD+SDD双驱动”，从符合的群的代表词删除，或者使得分降低(例如，设为最低值)，或者设为0、负值等地施加偏差，或者，内部地保持设立在显示中不出现等的标志(flag)这样的数据即可。

另外，针对代表词“放电主雷击”画有圈。在该情况下，被假定为用户认为该关键词重要的情况，所以，使被圈住的关键词的得分上升，或者，作为固定(anchor)的用途，设立特定的标志，或者进行将得分设定成在符合的群内低于显示用的阈值那样的值等的处理即可。另外，也可以通过对在标签云上被圈住的关键词进行所谓的钉扎，而使其常时显示。

进一步地，针对代表词“下载”、“存储器”、“美利坚合众国”画有圈。在这样的文件群不同的多个代表词被圈住了的情况下，被认为是使各代表词建立关联的建立关联指示，所以也可以进行以被选择为相同文件群的方式使单词的同现度上升这样的处理。

以下，以图7所示的代表词“流光”与另外的文件群的代表词“霹雷”建立关联了的情况为例，说明文件群的更新处理的具体例子。

参照图8说明关键词得分更新部108的关键词更新处理的一个例子。

图8是示出了每个被更新了的文件的关键词的关系的表格800。假定如下情况：除了图3的文件之外，还新添加了文件G以及文件H，并且2种不同的注解被附加给关键词。

在这里，如式(2)所示，被赋予了注解的关键词的得分通过加上注解偏差值来计算。在图7的例子中，作为注解偏差值(特征量)，被乘以“Ann(p)”。在这里，p是正整数。关于注解偏差值，根据注解的差异而分配不同的值。

例如，设为针对“用圆圈住文字列”这样的注解操作分配“10”，另外针对“划字下线”(＝Ann(2))的操作分配“5”。

其结果，文件C中出现的单词“Inazuma”的得分为1×10＝10，所以变成“10”，另外，分别将文件G中出现的单词“流光”的得分更新为“5”，进一步地，将文件H中出现的“有机物”以及“LOHAS”的得分更新为“5”。

也可以事先地固定这些值，也可以根据从所累积的文件集合得到的单词的统计信息动态地更新。

接着，参照图9说明被更新了的文件群的代表词的一个例子。

在图9所示的表格900中，根据被更新了的特征量更新代表词。例如，示出了除了新添加了“Inazuma”、“HDD+SDD双驱动”之外，对ID 5还新添加了“有机物”、“LOHAS”这样的单词的状况。

关于ID 4中存在的“流光”这样的关键词，通过此次的注解，文件群内的关键词的得分被更新，“流光”被新关联到ID 6的文件群。

接着，参照图10说明从关键词输出部110输出的被更新了的关键词列表的一个例子。

图10是根据被更新了的文件群而通过标签云1000显示代表词的一个例子。

图10所示的标签云1000让群的特征视觉上地成为横向的联系。另外，根据注解的差异，赋予相对于其他关键词变更字体颜色等效果。

另外，关于这些代表词，进一步地，也存在与始终被显示(显示上的钉扎)等的功能连动等的区别。另外，关于新设置的群，为了表示更加详细的上下文(context)信息，实施了降低所显示的关键词的阈值而多一些地进行显示等的效果。

根据以上所示的本实施方式，通过根据用户赋予了注解的文件对文件进行归类，并显示文件群的代表词，从而能够提示与用户收集并阅览了的文件的倾向相应的关键词，不仅与新文件的登记倾向相应的新的关键词，还能够明确地保持用户认为重要的关键词。另外，通过参照用户针对关键词的注解，更新关键词的特征量并显示更新了的关键词，从而能够输出反映了用户的意向的关键词列表。

在上述的实施方式中示出了的处理步骤所表示的指示能够基于作为软件的程序来执行。通过通用的计算机系统预先存储该程序并读入该程序，也能够得到与基于上述关键词提取装置的效果同样的效果。上述实施方式中所记述的指示作为能够使计算机执行的程序，被记录到磁盘(软盘、硬盘等)、光盘(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、Blu-ray(注册商标)Disc等)、半导体存储器、或者与之类似的记录介质中。只要是计算机或嵌入系统能够读取的记录介质，其存储形式可以是任意方式。计算机若从该记录介质读入程序并根据该程序使CPU执行程序所记述的指示，则能够实现与上述实施方式的关键词提取装置同样的动作。当然，在计算机取得程序的情况下或者读入程序的情况下，也可以是通过网络来取得或者读入。

另外，也可以是根据从记录介质安装到计算机、嵌入系统的程序的指示在计算机上工作的OS(操作系统)、数据库管理软件，网络等的MW(中间件)等执行用于实现本实施方式的各处理的一部分。

进一步地，本实施方式中的记录介质不限于与计算机或者嵌入系统独立的介质，还包括对通过LAN、因特网等传递的程序进行下载并存储或暂时存储的记录介质。

另外，记录介质不限于一个，在由多个介质执行本实施方式中的处理的情况下，也包括本实施方式中的记录介质，介质的构成也可以任意构成。

此外，本实施方式中的计算机或嵌入系统用于根据记录介质中存储的程序执行本实施方式中的各处理，也可以是网络连接有由个人计算机、微型电子计算机等1个构成装置、多个装置的系统等的任意构成。

另外，关于本实施方式中的计算机，不限于个人计算机，也包括在信息处理设备中包含的运算处理装置、微型电子计算机等，是能够根据程序实现本实施方式中的功能的设备、装置的统称。

虽然说明了本发明的几个的实施方式，但这些实施方式是作为例子而示出的，并非意在限定发明的范围。这些新颖的实施方式能够通过其他各种方式来实施，在不脱离发明的主旨的范围内，能够进行各种的省略、置换、变更。这些实施方式、其变形包含于发明的范围、主旨，并且包含在权利要求书所记载的发明及其均等的范围内。

Claims

1.一种关键词提取装置，其特征在于，包括：

分离部，其针对将表现用户的意图的第1注解赋予文字列的多个文件的各个文件，分离该第1注解与该文件；

第1提取部，其根据被预先定义了的词类信息，从所述文件中提取一般用语；

第2提取部，其根据合成词的出现频度，从所述文件中提取与所述一般用语不同的合成词作为用户用语；

生成部，其将所述一般用语以及所述用户用语设为关键词，计算该关键词的得分，对基于该得分的所述文件之间的相关度达到阈值以上的各文件进行归类，生成1个以上的文件群；

计算部，其在取得针对所述文件群中包含的关键词的来自用户的第2注解的情况下，根据注解的种类计算特征量；

第1更新部，其根据所述特征量，更新被赋予了所述第2注解的关键词的所述得分；以及

第2更新部，其根据被更新了的得分更新所述文件群，得到更新群。

2.根据权利要求1所述的关键词提取装置，其特征在于，还包括：

输出部，针对各个所述更新群的文件群，提取作为代表性的关键词的代表词，针对每个所述文件群对该代表词进行分类而提示，

所述第2注解包括如下指示，该指示包括针对所述关键词降低重要度的删除指示、提高该重要度的强调指示、使所述代表词彼此建立关联的建立关联指示，

所述第1更新部使用与所述指示相应的所述特征量更新所述得分。

3.根据权利要求1或2所述的关键词提取装置，其特征在于，

所述计算部根据所述第1注解的种类计算所述特征量，

所述生成部在计算所述得分的情况下，使用与所述第1注解的种类相应的所述特征量计算所述得分。

4.根据权利要求2所述的关键词提取装置，其特征在于，

所述输出部在所述第2注解是所述强调指示的情况下，被设置为对被赋予了所述第2注解的代表词进行强调显示或者始终进行显示的显示方式。

5.一种关键词提取方法，其特征在于，包含以下步骤：

针对将表现用户的意图的第1注解赋予文字列的多个文件的各个文件，分离该第1注解与该文件，

根据被预先定义了的词类信息，从所述文件中提取一般用语，

根据合成词的出现频度，从所述文件中提取与所述一般用语不同的合成词作为用户用语，

将所述一般用语以及所述用户用语设为关键词，计算该关键词的得分，对基于该得分的所述文件之间的相关度达到阈值以上的各文件进行归类，生成1个以上的文件群，

在取得针对所述文件群中包含的关键词的来自用户的第2注解的情况下，根据注解的种类计算特征量，

根据所述特征量，更新被赋予了所述第2注解的关键词的所述得分，并且

根据被更新了的得分更新所述文件群，得到更新群。

6.一种用于使计算机作为以下单元发挥功能的关键词提取程序，所述单元包括：

分离单元，针对将表现用户的意图的第1注解赋予文字列的多个文件的各个文件，分离该第1注解与该文件；

第1提取单元，根据被预先定义了的词类信息，从所述文件中提取一般用语；

第2提取单元，根据合成词的出现频度，从所述文件中提取与所述一般用语不同的合成词作为用户用语；

生成单元，将所述一般用语以及所述用户用语设为关键词，计算该关键词的得分，对基于该得分的所述文件之间的相关度达到阈值以上的各文件进行归类，生成1个以上的文件群；

计算单元，在取得针对所述文件群中包含的关键词的来自用户的第2注解的情况下，根据注解的种类计算特征量；

第1更新单元，根据所述特征量，更新被赋予了所述第2注解的关键词的所述得分；以及

第2更新单元，根据被更新了的得分更新所述文件群，得到更新群。