CN103119596B - 文件分类装置和方法 - Google Patents
文件分类装置和方法 Download PDFInfo
- Publication number
- CN103119596B CN103119596B CN201280002991.6A CN201280002991A CN103119596B CN 103119596 B CN103119596 B CN 103119596B CN 201280002991 A CN201280002991 A CN 201280002991A CN 103119596 B CN103119596 B CN 103119596B
- Authority
- CN
- China
- Prior art keywords
- file
- language
- packet
- mentioned
- features described
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
特征语提取单元(201)从文件集合包含的文件提取特征语。特征语分组单元(202)将提取出的上述特征语分组为多个分组,该多个分组构成具有树结构的同义词词典的局部树,出现属于一个分组的上述特征语的上述文件的数量、与出现属于其他分组的上述特征语的上述文件的数量之差,在预先规定的基准值以下。文件分类单元(203),将上述文件集合包含的上述文件分类为在该文件中出现的上述特征语所属的分组。分类标签赋予单元(204)对上述多个分组中的各个分组赋予分类标签,该分类标签是代表属于各分组的上述特征语的语句。提示单元(302)将上述文件的分类结果,与对被分类后的分组赋予的上述分类标签对应起来进行提示。
Description
技术领域
本发明涉及文件分类装置和方法。
背景技术
作为对文件进行分析的技术之一,已知有根据文件中的意图表现对事物的评判进行分析的评判分析。评判分析不是仅判断单纯的事物的好坏,而是按每个对事物进行评价的观点来判断好坏。因此,在以往的评判分析中,除了意图表现的词典之外,成为意图表现的对象的观点的词典是必要的。前者即意图表现的词典不依赖于特定的领域因而具有通用性,能够在各种各样的领域中利用。另一方面,后者即观点的词典较强地依赖于特定的领域因而缺乏通用性,必须按领域制作。
另一方面,作为将文件集合分类的方法,已知有文件分组。根据文件分组,能够根据各个文件的内容将文件集合分类,所以若能进行以成为意图表现的对象的观点为基准的分类,则能够实现不使用观点的词典的评判分析。
此外,还已知有在文件分组中使用同义词词典的技术。例如有这样的技术,即选择同义词词典上的某个层级,使用同一层级上的收录语对文件分组进行分类、统合。由此,能够统一文件分组的分类的粒度,还能够对被分类后的文件分组赋予分类标签,该分类标签作为在分类中使用的同义词词典的收录语。
但是,根据使用同义词词典的同一层级上的收录语对文件分组进行分类、统合的技术,由于同义词词典中的收录语广泛分布,所以文件分组的数量增多。此外,分类标签成为属于同义词词典中的下位概念的狭义语。因此,难以将文件的分类结果容易明白地提示。
发明内容
本发明要解决的课题在于,提供一种能够将文件的分类结果容易明白地提示的文件分类装置和方法。
实施方式的文件分类装置具备特征语提取单元、特征语分组单元、文件分类单元、分类标签赋予单元和提示单元。特征语提取单元从文件集合包含的文件提取特征语。特征语分组单元将提取出的上述特征语分组为多个分组,该多个分组构成具有树结构的同义词词典的局部树,出现属于一个分组的上述特征语的上述文件的数量、与出现属于其他分组的上述特征语的上述文件的数量之差,在预先规定的基准值以下。文件分类单元将上述文件集合包含的上述文件分类为在该文件中出现的上述特征语所属的分组。分类标签赋予单元对上述多个分组中的各个分组赋予分类标签,该分类标签是代表属于各分组的上述特征语的语句。提示单元将上述文件的分类结果,与对被分类后的分组赋予的上述分类标签对应起来进行提示。
根据上述构成的文件分类装置,能够有效地抑制所分类的分组的数量过多、或按照分组而分类的文件数存在较大偏颇等弊端,能够将文件的分类结果容易明白地对用户提示。
附图说明
图1是表示第1实施方式的文件分类装置的框图。
图2是表示在文件存储部中存储的文件集合的一例的图。
图3-1是表示在意图词典存储部中存储的意图表现的一例的图。
图3-2是表示在意图词典存储部中存储的意图表现的一例的图。
图4是表示在同义词词典存储部中存储的同义词词典的一例的图。
图5-1是表示从分类对象的各文件提取的特征语的一例的图。
图5-2是表示从分类对象的各文件提取的特征语的一例的图。
图6是表示将特征语分组后的结果的一例的图。
图7-1是表示将分类对象的各文件分类的结果的一例的图。
图7-2是表示将分类对象的各文件分类的结果的一例的图。
图8-1是表示对文件分组赋予的分类标签的一例的图。
图8-2是表示对文件分组赋予的分类标签的一例的图。
图9-1是表示提示单元的信息的提示例的图。
图9-2是表示提示单元的信息的提示例的图。
图9-3是表示提示单元的信息的提示例的图。
图10是表示特征语提取单元的处理流程的流程图。
图11是表示特征语分组单元的处理流程的流程图。
图12是表示文件分类单元的处理流程的流程图。
图13是表示分类标签赋予单元的处理流程的流程图。
图14是表示第2实施方式的文件分类装置的框图。
图15是表示在指定文件存储部中存储的指定文件的一例的图。
图16是表示从分类对象的各文件和指定文件提取的特征语的一例的图。
图17是表示对文件分组赋予的分类标签的一例的图。
图18-1是表示提示单元的信息的提示例的图。
图18-2是表示提示单元的信息的提示例的图。
图19是表示第3实施方式的文件分类装置的框图。
图20是表示在观点词典存储部中存储的观点的词典的一例的图。
图21是表示从分类对象的各文件提取的特征语的一例的图。
图22是表示对文件分组赋予的分类标签的一例的图。
图23-1是表示提示单元的信息的提示例的图。
图23-2是表示提示单元的信息的提示例的图。
图23-3是表示提示单元的信息的提示例的图。
图24是表示第4实施方式的文件分类装置的框图。
图25是表示在文件存储部中存储的文件集合的一例的图。
图26是表示数据处理装置的硬件结构例的说明图。
具体实施方式
以下,参照附图说明实施方式的文件分类装置、方法以及程序。另外,以下所示的实施方式是对在评判分析中利用的文件分类装置的适用例,可适用的文件分类装置不限于该例,能够适用于各种形态的文件分类装置。
<第1实施方式>
图1是表示第1实施方式的文件分类装置的框图。第1实施方式的文件分类装置如图1所示,具备存储装置1、数据处理装置2和输入输出装置3。存储装置1、数据处理装置2以及输入输出装置3可互相交换信息地通过有线或无线进行连接。另外,存储装置1、数据处理装置2以及输入输出装置3也可以通过单一的信息处理装置来实现。
存储装置1具备文件存储部101、意图词典存储部102和同义词词典(thesaurus)存储部103。
文件存储部101存储成为分类的对象的文件集合。
图2是表示在文件存储部101中存储的文件集合的一例的图。文件集合所含的文件不限于某特定的形态,例如是用自然语言记述的文件。例如,包含网页文件、业务上制作的文件、专利公报等文件的文件集合存储在文件存储部101中。文件存储部101可以不仅存储文件本身而是还将文件ID成组存储。图2中,示出了包含从文件ID是D1的文件到文件ID是D10的文件的文件集合存储在文件存储部101中的例子。
文件存储部101例如能够使用硬盘、闪存等。
意图词典存储部102存储通常使用的意图表现。这里,意图表现是指,对事件的评价及赞成与否、成功与否等、人带有感想及意图而表现的词语。
图3-1及图3-2是表示在意图词典存储部102中存储的意图表现的一例的图。意图词典存储部102可以不仅存储意图表现本身而是还将意图表现的种类成组存储。图3-1中,示出了在意图词典存储部102中存储了“良好”、“好”、“广”、“差”、“遗憾”、“高”的意图表现的例子。图3-2中,示出了对于“评价”是“好评”的意图表现的种类而言存储有“良好”、“好”、“广”的意图表现、对于“评价”是“差评”的意图表现的种类而言存储有“差”、“遗憾”、“高”的意图表现的例子。
意图词典存储部102例如能够使用硬盘、闪存等。
同义词词典存储部103存储一个或多个同义词词典。同义词词典是指,根据语句的上位/下位关系、部分/整体关系、同义关系、近义关系等将语句分类并建立体系的词典。同义词词典存储部103存储的同义词词典具有将收录语作为节点、将上位节点和下位节点用链路连结的树结构。
图4是表示在同义词词典存储部103中存储的同义词词典的一例的图。图4中,示出了将(a)和(b)这两个同义词词典存储在同义词词典存储部103中的例子。作为同义词词典存储部103存储的同义词词典,能够使用现有的同义词词典。例如能够使用EDR概念体系词典、JST科学技术用语同义词词典、WordNet等。此外,同义词词典存储部103可以不仅存储同义词词典的收录语及收录语间的关系、而且还将收录语间的共现频度、表示共现的尺度的共现度成组存储。例如,共现度能够使用点间互信息(Pointwise Mutual Information)。
同义词词典存储部103例如能够使用硬盘、闪存等。
数据处理装置2具备特征语提取单元201、特征语分组单元202、文件分类单元203和分类标签赋予单元204。
特征语提取单元201从文件存储部101所存储的文件集合中包含的分类对象的各文件提取特征语。具体而言,特征语提取单元201首先使用在意图词典存储部102中存储的意图表现,从文件集合中包含的分类对象的各文件,提取成为意图表现的对象的语句。接着,特征语提取单元201从所提取的成为意图表现的对象的语句中,将按照预先规定的基准而选择的语句提取为特征语。
这里,成为意图表现的对象的语句的提取例如能够使用词素解析、含义信息提取、复合语提取、依存关系解析(係り受け解析)等手法。例如,作为复合语提取的具体手法,能够使用C-value。此外,也可以是,根据词素解析、含义信息提取、复合语提取、依存关系解析的结果,选择某特定的种类。
此外,作为从成为意图表现的对象的语句中提取特征语的方法,例如能够使用如下方法,即:将根据出现频度而计算的权重在规定值以上的语句提取为特征语。这里的规定值能够根据缩小(絞り込む)特征语的数量等任意选择。作为基于出现频度的权重,例如能够使用tf-idf。此外,也可以是,根据文件存储部101保持的文件集合中包含的文件数量进行如下切换,即:在文件数量多的情况下使用tf-idf,在文件数量少的情况下使用tf(TermFrequency:语句的出现频度)。
图5-1及图5-2是表示从图2所示的文件集合中包含的分类对象的各文件提取的特征语的一例的图。另外,这里,假设图2所示的全部文件是分类对象。图5-1是使用图3-1所示的意图表现提取的特征语的例子,图5-2是使用图3-2所示的意图表现提取的特征语的例子。
特征语提取单元201提取的特征语例如如图5-1及图5-2所示,与表示提取源的文件的文件ID建立关联地保持。此外,特征语提取单元201提取的特征语如图5-2所示,也可以是,除了表示提取源的文件的文件ID之外,还与提取所用的意图表现及其种类建立关联地保持。图5-2的例子中,使用意图表现的种类的二层级(好评、差评)将特征语进一步分类。
特征语分组单元202将特征语提取单元201提取的特征语用同义词词典存储部103所存储的同义词词典进行分组。具体而言,特征语分组单元202将特征语提取单元201提取的特征语分组为多个特征语分组,该多个特征语分组中,由各分组构成同义词词典的局部树。这里生成的多个特征语分组,使得出现属于一个特征语分组的特征语的文件数与出现属于其他特征语分组的特征语的文件数之差在预先规定的基准值以下。即,在多个特征语分组间,出现属于各特征语分组的特征语的文件数接近于相同数量。这里,出现属于各特征语分组的特征语的文件数之差所允许的基准值例如能够根据相对于文件集合所包含的文件的总数的比例来规定。
作为特征语分组单元202的分组的方法,例如能够使用基于同义词词典上的距离的层级型分组的方法。具体而言,能够使用这样的方法,即:以使含义相近的特征语属于一个特征语分组的方式使同义词词典的局部树从下位的语句向上位的语句成长,若达到根据出现属于一个特征语分组的特征语的文件数相对于例如文件集合所含文件的总数的比例而确定的规定值,则停止局部树的成长。此时,构成一个特征语分组的特征语间的同义词词典上的距离允许所决定的常数。此外,在一个特征语被收录于多个同义词词典的情况下,可以以跨多个同义词词典的方式使局部树成长。
图6是表示特征语分组单元202将特征语分组后的结果的一例的图。在图6的例子中,分别生成构成从T1到T4的四个局部树的特征语分组。各特征语“预约”、“服务”、“接待”、“工作人员”、“从业员”属于构成局部树T1的特征语分组。各特征语“价值”、“价钱”、“费用”属于构成局部树T2的特征语分组。各特征语“料理”、“日餐”、“中餐”、“西餐”、“自助餐”、“物品数”属于构成局部树T3的特征语分组。各特征语“吸烟”、“禁烟”属于构成局部树T4的特征语分组。另外,关于局部树T1,由于将(a)的同义词词典中的“工作人员”和(b)的同义词词典中的“工作人员”视为相同,所以成为跨(a)和(b)的两个同义词词典的局部树。
特征语分组单元202通过采用如上述那样地将特征语分组为构成同义词词典的局部树的特征语分组这样的方法,能够将特征语提取单元201没能提取为特征语的语句作为属于特征语分组的特征语来进行补充。例如,图6所示的属于构成局部树T3的特征语分组的特征语之中,“料理”、“中餐”、“西餐”、“自助餐”是不包含在图5-1及图5-2所示的特征语提取单元201的特征语的提取结果中的语句,但通过以使特征语提取单元201提取为特征语的“日餐”、“物品数”属于一个特征语分组的方式使局部树成长,能够将“料理”、“中餐”、“西餐”、“自助餐”作为属于构成该同义词词典的局部树的特征语分组的特征语进行补充。
此外,特征语分组单元202通过采用如上述那样地将特征语分组为构成同义词词典的局部树的特征语分组这样的方法,能够将特征语提取单元201提取为特征语的语句之中的、没有收录为同义词词典的收录语的语句从属于特征语分组的特征语中排除。例如,图5-1及图5-2所示的特征语提取单元201的特征语的提取结果中,作为特征语而包含语句“座位”、“设定”、“停车”、“希望”,但能够将没有被收录为图6所示的同义词词典的收录语的这些语句从属于特征语分组的特征语中排除。
如上那样,特征语分组单元202不仅将特征语提取单元201提取的特征语的集合单纯地分组,还具有根据特征语提取单元201提取的特征语和同义词词典的收录语之间的同义词词典上的距离、一边对特征语的集合进行修正一边分组的功能。
特征语分组单元202如上所述那样对特征语进行分组的情况下,关于属于一个特征语分组的特征语和同义词词典上的距离大的属于其他特征语分组的特征语,同义词词典的局部树不成长,单独的局部树无法构成满足上述基准的特征语分组的情况是存在的。这样的情况下,特征语分组单元202将无法单独构成满足上述基准的一个特征语分组的局部树集中多个而作为一个特征语分组。即,该特征语分组成为汇集了含义上远离的(在同义词词典上离散的)特征语的特征语分组。在图6所示的例子中,虚线所包围的局部树的集合成为一个特征语分组,例如,图5-1及图5-2中例示的特征语之中,各特征语“车站前”、“风景”、“氛围”、“温度”成为属于该特征语分组的特征语。另外,在该特征语分组中,特征语提取单元201没能提取为特征语的语句“印象”、“空调”也作为特征语来补充。
文件分类单元203将在文件存储部101中存储的文件集合所包含的分类对象的各文件根据特征语分组单元202的特征语分组的结果进行分类,生成文件分组。具体而言,文件分类单元203,将出现属于一个特征语分组的特征语的文件分类为一个文件分组,按通过特征语分组单元202生成的每个特征语分组生成文件分组。另外,对于不包含通过特征语分组单元202生成的特征语分组所包含的特征语中的任一个特征语的文件,分类为未分类的分组。
图7-1及图7-2是表示将图2所示的文件集合包含的分类对象的各文件进行了分类的结果的一例的图。另外,这里将图2所示的全部文件作为分类对象。这些图7-1及图7-2是根据图6所示的特征语分组单元202的特征语分组的结果而被分类的文件的分类结果的例子。
文件分类单元203的分类结果例如如图7-1及图7-2所示,按照表示文件分组的每个文件分组ID,将属于各文件分组的文件的文件ID作为关联信息来保持。此外,也可以是,按照各文件分组ID,除了文件ID之外还将属于各分组的特征语作为关联信息来保持。图7-1及图7-2中,示出了分类对象的各文件被分类为从文件分组ID为C1的文件分组到文件分组ID为C5的文件分组的五个文件分组的例子。文件分组ID为C1的文件分组对应于图6所示的构成同义词词典的局部树T1的特征语分组。此外,文件分组ID为C2的文件分组对应于图6所示的构成同义词词典的局部树T2的特征语分组。此外,文件分组ID为C3的文件分组对应于图6所示的构成同义词词典的局部树T3的特征语分组。此外,文件分组ID为C4的文件分组对应于图6所示的构成同义词词典的局部树T4的特征语分组。另外,文件分组ID为C5的文件分组对应于图6所示的将虚线所包围的同义词词典的局部树集中多个而生成的特征语分组。从图7-1及图7-2所示例子可知,还存在一个文件被分类到多个文件分组的情况。
分类标签赋予单元204对各个文件分组(即将特征语分组了的分组)赋予分类标签,分类标签是代表属于各分组的特征语的语句。分类标签例如从属于各分组的特征语之中选择一个或多个。分类标签的选择例如能够采用将出现特征语的文件的范围作为基准进行选择的方法、或将特征语在同义词词典中的位置作为基准进行选择的方法等。在将出现特征语的文件的范围作为基准的情况下,例如使特征语的出现频度高者、或出现特征语的文件的数量多者优先来选择分类标签。此外,在将特征语在同义词词典中的位置作为基准的情况下,例如使上位概念优先、或使同义语及不同标记多的语句优先、或使位于特征语的分布的中心者优先来选择分类标签。另外,在按照与特征语相关联的意图表现的种类(好评、差评等)将特征语分类的情况下,可以按照每个意图表现的种类选择分类标签。
此外,分类标签赋予单元204,对于与将同义词词典的局部树集中多个而生成的特征语分组相对应的文件分组,赋予表示该分组是不构成同义词词典的一个局部树的多个特征语的集合这一情况的分类标签、即表示属于该文件分组的文件不是按含义分类的文件这一情况的分类标签。作为该情况的分类标签,例如能使用“其他”、“未分类”。此外,也可以与“其他”、“未分类”一起,选择代表性的特征语作为分类标签来赋予。
图8-1及图8-2是表示由分类标签赋予单元204赋予的分类标签的一例的图。图8-1是对图7-1所示的分类结果的各文件分组赋予的分类标签的例子,图8-2是对图7-2所示的分类结果的各文件分组赋予的分类标签的例子。
图8-1及图8-2的例子中,对文件分组ID是C1的文件分组赋予“预约”、“服务”作为分类标签。此外,对文件分组ID是C2的文件分组,赋予“费用”、“价值”作为分类标签。此外,对文件分组ID是C3的文件分组赋予“自助餐”、“料理”作为分类标签。此外,对文件分组ID是C4的文件分组赋予“禁烟”作为分类标签。此外,对文件分组ID是C5的文件分组赋予“其他”、“位置”、“印象”、“空气调节”作为分类标签。
输入输出装置3具备分类方法选择单元301和提示单元302。
分类方法选择单元301受理在文件存储部101中存储的文件集合所含文件之中的、分类对象的文件的选择。分类方法选择单元301受理用户的分类对象的文件的选择,具有用来将选择了哪个文件明示地发送到数据处理装置2的功能,例如具有发送用的按钮等。例如,能够使用这样的方法,即:若用户输入任意的查询,则将在文件存储部101中存储的文件集合所含文件之中的、与所输入的查询相对应的文件的集合作为分类对象来选择,将对选择的文件进行明示的信息发送到数据处理装置2。若该来自分类方法选择单元301的信息被发送到数据处理装置2,则数据处理装置2的特征语提取单元201开始进行处理。另外,数据处理装置2的特征语提取单元201开始处理的定时(对文件进行分类的定时)不限于从分类方法选择单元301发送了信息的时刻。例如,也可以在新的文件被存储到文件存储部101中时,使数据处理装置2的特征语提取单元201开始处理。
提示单元302将文件分类单元203的文件的分类结果作为与分类标签赋予单元204赋予的分类标签建立了对应的信息提示给用户。具体而言,提示单元302例如将附加有分类为文件分组的文件数的图符、和对文件分组赋予的分类标签的组合作为显示信息来生成,使输入输出装置3的显示器(未图示)等显示该显示信息。此外,也可以是,提示单元302生成将属于各分组的特征语、与附加有文件数的图符和分类标签的组合建立了对应的显示信息,使输入输出装置3的显示器等显示该显示信息。此时,优选的是,在特征语按照在该特征语的提取中使用的意图表现的种类来分类的情况下,以能够将与附加了文件数的图符和分类标签的组合对应起来进行显示的特征语,按照意图表现的种类进行区分的形式来显示。
图9-1~图9-3是表示提示单元302的信息的提示例的图。图9-1~图9-3所示的例子是显示将附加有文件数的图符和分类标签的组合、与属于各分组的特征语建立了对应的显示信息的例子。这些图9-1~图9-3所示的例中,以属于各分组的特征语能够按在特征语的提取中使用的意图表现的种类进行区分的形式来显示。
作为能够按意图表现的种类区分的形式的例子,例如能够举出将语句、语句的背景按颜色区分、使语句为不同字体、将表示意图表现的种类的图符一起记载等例子。例如,在图9-1所示的例子中,意图表现的种类是好评的特征语用通常的字体显示,意图表现的种类是差评的特征语用附加了下滑线的斜体显示。此外,在图9-2所示的例子中,对意图表现的种类是好评的特征语附加笑脸的图符,对意图表现的种类是差评的特征语附加窘脸的图符。此外,在图9-3所示的例子中,属于各分组的特征语按意图表现的种类分开,对意图表现的种类是好评的特征语附加笑脸的图符,对意图表现的种类是差评的特征语附加窘脸的图符。如该图9-3所示,还能够将好评的评价和差评的评价分开提示。
接着,参照图10~图13的流程图说明第1实施方式的文件分类装置的动作。另外,以下,作为初始状态,假设如下情况来进行说明,即:在文件存储部101中存储图2所示的文件集合、在意图词典存储部102中存储图3-2所示的意图表现、在同义词词典存储部103中存储图4所示的同义词词典、将图2所示的文件集合包含的全部文件作为分类对象来选择。
图10是表示特征语提取单元201的处理流程的流程图。
特征语提取单元201首先取得在文件存储部101中存储的文件集合(步骤S101)。假设这里所取得的文件集合是图2所示的文件集合。
接着,特征语提取单元201取得在意图词典存储部102中存储的意图表现(步骤S102)。假设这里所取得的意图表现是图3-2所示的意图表现。
接着,特征语提取单元201从在步骤S101中取得的文件集合所含的各文件,确定与在意图词典存储部102中存储的意图表现一致的意图表现,提取成为该意图表现的对象的语句(步骤S103)。
接着,特征语提取单元201从在步骤S103中提取的成为意图表现的对象的语句之中,将按照预先规定的基准选择的语句提取为特征语(步骤S104),结束图10的流程图所示的一系列处理。
图11是表示特征语分组单元202的处理流程的流程图。
特征语分组单元202首先取得特征语提取单元201提取的特征语(步骤S201)。假设这里所取得的特征语是图5-2所示的特征语。
接着,特征语分组单元202取得在同义词词典存储部103中存储的同义词词典(步骤S202)。假设这里所取得的同义词词典是图4所示的同义词词典。
接着,特征语分组单元202取得在步骤S201中取得的特征语之中的、存在于在步骤S202中取得的同义词词典中的特征语(步骤S203)。
接着,特征语分组单元202取得在步骤S203中提取的特征语间的同义词词典上的距离、和出现特征语的文件数(步骤S204)。特征语间的同义词词典上的距离能够使用将邻接的概念间的距离用单位距离表示的概念间的距离。此外,作为特征语间的同义词词典上的距离,也可以使用在同义词词典存储部103中存储的表示概念间的共现频度、共现的尺度的共现度。
接着,特征语分组单元202使用在步骤S204中取得的特征语间的同义词词典上的距离、和出现特征语的文件数,将在步骤S203中提取的特征语分组为分别构成同义词词典的局部树的多个特征语分组(步骤S205)。此时,特征语分组单元202使在多个特征语分组间、出现属于各分组的特征语的文件数接近于相同数量。即,进行特征语的分组,使得出现属于一个特征语分组的特征语的文件数、和出现属于其他特征语分组的特征语的文件数之差在预先规定的基准值以下。这里,出现特征语的文件数可以采用出现属于特征语分组的全部特征语的文件的总数,也可以采用出现属于特征语分组的特征语之中的特定的特征语的文件数。此外,也可以将预先规定的某特定的数值用作文件数。通过该特征语分组单元202进行的特征语分组,能够将特征语提取单元201没能提取为特征语的语句之中的、作为同义词词典的收录语来收录的语句作为属于特征语分组的特征语进行补充,能够将特征语提取单元201提取为特征语的语句之中的、没有作为同义词词典的收录语来收录的语句从属于特征语分组的特征语中排除。
图12是表示文件分类单元203的处理流程的流程图。
文件分类单元203首先将属于特征语分组单元202生成的各特征语分组的语句作为特征语取得(步骤S301)。
接着,文件分类单元203从在文件存储部101中存储的分类对象的文件集合中取得一个文件(步骤S302)。
接着,文件分类单元203判定在步骤S302取得的分类对象的文件中是否存在步骤S301取得的特征语(步骤S303)。并且,文件分类单元203在特征语存在于分类对象的文件中的情况下(步骤S303:“是”),将分类对象的文件分类到该特征语所属的特征语分组(步骤S304)。另一方面,在特征语不存在于分类对象的文件中的情况下(步骤S303:“否”),文件分类单元203将分类对象的文件分类到未分类的分组(步骤S305)。
接着,文件分类单元203判定是否已将分类对象的文件全部分类(步骤S306)。并且,在剩余有未分类的文件的情况下(步骤S306:“否”),文件分类单元203返回步骤S302并重复以后的处理,在分类对象的全部文件的分类已结束的情况下(步骤S306:“是”),文件分类单元203结束图12的流程图所示的一系列处理。
图13是表示分类标签赋予单元204的处理流程的流程图。
分类标签赋予单元204首先取得作为文件分类单元203的文件分类结果的文件分组(步骤S401)。
接着,分类标签赋予单元204取得与在步骤S401中取得的各个文件分组相对应的同义词词典的局部树(步骤S402)。
接着,分类标签赋予单元204利用与各文件分组相对应的同义词词典的局部树的结构,选择代表属于各文件分组的特征语的语句(步骤S403)。另外,也可以是,在属于各文件分组的特征语按照意图表现的种类而被分类的情况下,按照意图表现的种类来选择代表特征语的语句。
接着,分类标签赋予单元204将在步骤S403中选择的语句作为分类标签赋予各文件分组(步骤S404),结束图13的流程图所示的一系列处理。
以上,如举出具体例子进行详细说明的那样,根据第1实施方式的文件分类装置,将从分类对象的文件提取的特征语分组为多个特征语分组,该多个特征语分组中,各个分组构成同义词词典的局部树,出现属于各分组的特征语的文件数大致相等。并且,将分类对象的文件根据特征语分组进行分类而生成文件分组,并对各文件分组赋予分类标签,将文件的分类结果与分类标签对应起来提示给用户。因而,能够有效地抑制所分类的分组的数量过多、或按照分组而分类的文件数存在较大偏颇等弊端,能够将文件的分类结果容易明白地对用户提示。
此外,根据第1实施方式的文件分类装置,将从成为意图表现的对象的语句中选择的语句提取为特征语,利用同义词词典将特征语分组,因此能够不使用强烈依赖于特定领域的观点的词典来进行评判分析。
此外,根据第1实施方式的文件分类装置,将文件的分类结果与分类标签和特征语对应起来提示给用户,因此能够将文件的分类结果更容易明白地对用户提示。并且,关于特征语,由于以能够按意图表现的种类进行区分的形式进行提示,所以能够将文件的分类结果进一步容易明白地提示。
<第2实施方式>
图14是表示第2实施方式的文件分类装置的框图。另外,对与第1实施方式共通的结构附加相同的符号。第2实施方式的文件分类装置如图14所示,具备存储装置1a、数据处理装置2a和输入输出装置3a。存储装置1a、数据处理装置2a以及输入输出装置3a可相互交换信息地通过有线或无线进行连接。另外,存储装置1a、数据处理装置2a以及输入输出装置3a也可以通过单一的信息处理装置来实现。
存储装置1a除了文件存储部101、意图词典存储部102以及同义词词典存储部103之外,还具备指定文件存储部104。
指定文件存储部104存储分类对象的文件以外的文件,例如包含用来对文件进行分类的背景知识的文件。该指定文件存储部104存储的文件是对分类对象的文件进行分类时所指定的文件。以下,将在指定文件存储部104中存储的文件称作指定文件。
图15是表示在指定文件存储部104中存储的指定文件的一例的图。指定文件不限于某特定的形态,例如是用自然语言记述的文件。例如,新闻稿、新闻报道、技术文件等作为指定文件存储在指定文件存储部104中。指定文件存储部104可以不仅存储指定文件本身,而是还将指定文件ID成组存储。图15中,示出了指定文件ID为N1的指定文件和指定文件ID为N2的指定文件被存储在指定文件存储部104中的例子。
指定文件存储部104例如能够采用硬盘、闪存等。
数据处理装置2a具备特征语提取单元201a、特征语分组单元202a、文件分类单元203a和分类标签赋予单元204a。
特征语提取单元201a与第1实施方式的特征语提取单元201同样地,将成为意图表现的对象的语句之中的被选择的语句提取为特征语。但是,特征语提取单元201a不仅将成为意图表现的对象的语句之中的被选择的语句提取为特征语,还将指定文件存储部104存储的指定文件中包含的语句提取为特征语。即,特征语提取单元201a将分类对象的文件包含的语句之中的、还包含在指定文件中的语句提取为特征语。
图16是表示从图2所示的文件集合中包含的分类对象的各文件和图15所示的指定文件中提取的特征语的一例的图。另外,这里,假设图2所示的全部文件是分类对象。
特征语提取单元201a提取出的特征语例如如图16所示,与表示提取源的文件的文件ID建立关联地保持。此外,也可以是,使作为指定文件中包含的语句而被提取的特征语,与表示是包含在指定文件中的语句这一情况的信息建立关联地保持。在图16所示的例子中,示出了从文件ID是D1的文件中提取的特征语之中的“海贼餐厅”以及“禁烟区”是作为包含在指定文件中的语句而提取的。此外,示出了从文件ID是D3的文件中提取的特征语之中的“海贼餐厅”是作为包含在指定文件中的语句而提取的。此外,示出了从文件ID是D5的文件中提取的特征语之中的“南国自助餐”是作为包含在指定文件中的语句而提取的。此外,示出了从文件ID是D6的文件中提取的特征语之中的“海贼餐厅”是作为包含在指定文件中的语句而提取的。此外,示出了从文件ID是D8的文件中提取的特征语之中的“海贼餐厅”是作为包含在指定文件中的语句而提取的。
特征语分组单元202a与第1实施方式的特征语分组单元202同样地,将从分类对象的文件提取的特征语分组。但是,特征语分组单元202a对于作为在指定文件中包含的语句而提取的特征语,分组到一个分组。在图16所示的例子中,作为在指定文件中包含的语句而提取的特征语“海贼餐厅”、“南国自助餐”分别被分组到一个分组。另外,即使是作为在指定文件中包含的语句而提取的特征语,也如“禁烟区”那样,对于与仅从分类对象的文件提取的特征语一致的特征语,用在第1实施方式中说明的方法进行分组。
文件分类单元203a与第1实施方式的文件分类单元203同样地,根据特征语分组单元202a的分组的结果即特征语分组,对分类对象的文件进行分类。但是,当在分类对象的文件中出现从指定文件提取的特征语时,文件分类单元203a将该文件分类到从指定文件提取的特征语所属的分组。在图16所示的例子中,文件ID是D1的文件、文件ID是D3的文件、文件ID是D6的文件、文件ID是D8的文件分别被分类到“海贼餐厅”所属的分组。此外,文件ID是D5的文件被分类到“南国自助餐”所属的分组。
分类标签赋予单元204a与第1实施方式的分类标签赋予单元204同样地,对于将文件分类后的分组即文件分组,将代表属于该分组的特征语的语句作为分类标签来赋予。但是,分类标签赋予单元204a对于从指定文件提取的特征语所属的分组,将从指定文件提取的特征语本身作为分类标签来赋予。
图17是表示由分类标签赋予单元204a赋予的分类标签的一例的图。在图17的例子中,对于作为从指定文件提取的特征语的“海贼餐厅”所属的分组(文件分组ID是C6的分组),将“海贼餐厅”本身作为分类标签进行赋予,对于作为从指定文件提取的特征语的“南国自助餐”所属的分组(文件分组ID是C7的分组),将“南国自助餐”本身作为分类标签进行赋予。
输入输出装置3a具备分类方法选择单元301a和提示单元302a。
分类方法选择单元301a与第1实施方式的分类方法选择单元301同样地,受理分类对象的文件的选择。但是,分类方法选择单元301a不仅受理分类对象的文件的选择,还受理文件的分类所用的指定文件的指定。分类方法选择单元301a受理用户进行的分类对象的文件的选择和指定文件的指定,具有用来明示地将选择了哪个文件作为分类对象、指定了哪个指定文件向数据处理装置2a发送的功能,例如具有发送用的按钮等。例如,能够使用这样的方法,即:若用户输入任意的查询,则将在文件存储部101中存储的文件集合所含的文件之中的、与所输入的查询相对应的文件的集合作为分类对象来选择,并且选择在指定文件存储部104中存储的指定文件之中的、与所输入的查询相对应的指定文件,将对作为分类对象而选择的文件及指定文件进行明示的信息向数据处理装置2a发送。若该来自分类方法选择单元301a的信息被发送到数据处理装置2a,则数据处理装置2a的特征语提取单元201a开始进行处理。
提示单元302a与第1实施方式的提示单元302同样地,将文件分类单元203a的文件的分类结果,作为与分类标签赋予单元204a赋予的分类标签建立了对应的信息提示给用户。但是,提示单元302a对于从指定文件提取的特征语所属的分组,以能够判别该分组是从指定文件提取的特征语所属的分组这一情况的形式进行提示。作为以能够判别从指定文件提取的特征语所属的分组的形式提示的例子,例如能够举出在分类标签中将规定的图符一起记载这样的例子。
图18-1及图18-2是表示提示单元302a的信息的提示例的图。图18-1及图18-2所示的例子是显示将附加有文件数的图符和分类标签的组合、与属于各分组的特征语建立了对应的显示信息的例子。与图9-1所示的第1实施方式的提示单元302的信息的提示例相比,对于各分类标签“禁烟”、“海贼餐厅”、“南国自助餐”,将表示被赋予这些分类标签的分组是从指定文件提取的特征语所属的分组这一情况的旗帜的图符一起记载。此外,在图18-2所示的例子中,更换了分类结果的排列顺序,使得一起记载有旗帜的图符的分类标签在上位排列。如该图18-2所示的例子那样,还能以将从指定文件提取的特征语所属的分组提前的形式对分类结果的信息进行提示。
以上,如举出具体例子进行了详细说明的那样,根据第2实施方式的文件分类装置,不仅从分类对象的文件提取特征语,还从指定文件提取特征语,从指定文件提取的特征语分组到一个分组。并且,对于从指定文件提取的特征语所属的分组,将从指定文件提取的特征语本身作为分类标签来赋予,以能够判别被赋予了该分类标签的分组是从指定文件提取的特征语所属的分组这一情况的形式,对文件的分类结果进行提示。因而,能够以反映用户的意图的形式进行文件的分类,并且能够将文件的分类结果容易明白地对用户提示。
<第三实施方式>
图19是表示第3实施方式的文件分类装置的框图。另外,对与第1实施方式共通的结构附加相同的符号。第3实施方式的文件分类装置如图19所示,具备存储装置1b、数据处理装置2b和输入输出装置3b。存储装置1b、数据处理装置2b以及输入输出装置3b可互相交换信息地通过有线或无线进行连接。另外,存储装置1b、数据处理装置2b以及输入输出装置3b也可以通过单一的信息处理装置来实现。
存储装置1b除了文件存储部101、意图词典存储部102以及同义词词典存储部103之外,还具备观点词典存储部105。
观点词典存储部105存储成为意图表现的对象的观点的词典。观点的词典记述用于文件的分类的观点表现。观点表现是表示文件分析的视点的表现。
图20是表示在观点词典存储部105中存储的观点的词典的一例的图。观点词典存储部105可以不仅存储观点表现本身,而是存储将观点表现的种类作为组的观点的词典。图20中,示出了这样的例子,即:对于观点表现的种类“费用”,观点表现“费用”、“价值”、“价格”作为观点的词典存储在观点词典存储部105中,对于观点表现的种类“服务”,观点表现“服务”、“从业员”、“接待”作为观点的词典存储在观点词典存储部105中,对于观点表现的种类“位置”,观点表现“位置”、“车站前”、“车站附近”作为观点的词典存储在观点词典存储部105中。
观点词典存储部105例如能够采用硬盘、闪存等。
数据处理装置2b具备特征语提取单元201b以代替第1实施方式的特征语提取单元201,并且具备分类标签赋予单元204b以代替第1实施方式的分类标签赋予单元204。
特征语提取单元201b与第1实施方式的特征语提取单元201同样地,将成为意图表现的对象的语句之中被选择的语句提取为特征语。但是,特征语提取单元201b将成为意图表现的对象的语句之中的、观点词典存储部105存储的观点的词典中包含的观点表现作为特征语来优先提取。
图21是表示利用图20所示观点表现、从图2所示的文件集合所含的分类对象的各文件提取的特征语的一例的图。另外,这里假设图2所示的全部文件是分类对象,利用图20所示的全部观点表现对文件进行分类。
特征语提取单元201b提取出的特征语例如如图21所示,与表示提取源的文件的文件ID建立关联地保持。此外,与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语,与观点表现的种类建立关联地保持。在图21所示的例子中,示出了从文件ID是D1的文件提取的特征语之中、种类“服务”中包含的“接待”是与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语。此外,示出了从文件ID是D2的文件提取的特征语之中、种类“服务”中包含的“从业员”以及“接待”是与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语。此外,示出了从文件ID是D6的文件提取的特征语之中、种类“费用”中包含的“费用”和种类“位置”中包含的“车站前”是与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语。此外,示出了从文件ID是D7的文件和文件ID是D8的文件提取的特征语之中、种类“费用”中包含的“费用”是与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语。
分类标签赋予单元204b与第1实施方式的分类标签赋予单元204同样地,对于将文件分类后的分组即文件分组,将代表属于该分组的特征语的语句作为分类标签来赋予。但是,分类标签赋予单元204b对于与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语所属的分组,将表示该观点表现的种类的语句作为分类标签优先选择。
图22是表示由分类标签赋予单元204b赋予的分类标签的一例的图。图22的例子中,对于观点词典存储部105存储的观点的词典中包含的观点表现“接待”及“从业员”所属的分组(文件分组ID是C1的分组),表示“接待”及“从业员”的种类的语句“服务”被作为分类标签来赋予。此外,对于观点词典存储部105存储的观点的词典中包含的观点表现“费用”所属的分组(文件分组ID是C2的分组),表示“费用”的种类的语句“费用”被作为分类标签来赋予。此外,对于观点词典存储部105存储的观点的词典中包含的观点表现“车站前”所属的分组(文件分组ID是C5的分组),表示“车站前”的种类的语句“位置”被作为分类标签来赋予。
输入输出装置3b具备分类方法选择单元301b和提示单元302b。
分类方法选择单元301b与第1实施方式的分类方法选择单元301同样地,受理分类对象的文件的选择。但是,分类方法选择单元301b不仅受理分类对象的文件的选择,还受理观点词典存储部105保持的观点表现的种类之中的、文件的分类所使用的观点表现的种类的选择。分类方法选择单元301b受理用户进行的分类对象的文件的选择和观点表现的种类的选择,具有用来明示地将选择了哪个文件作为分类对象、选择了哪个种类作为文件的分类所使用的观点表现的种类向数据处理装置2b发送的功能,例如具有发送用的按钮等。例如,能够使用这样的方法,即:若用户输入任意的查询,则将在文件存储部101中存储的文件集合所含的文件之中的、与所输入的查询相对应的文件的集合作为分类对象来选择,并且选择观点词典存储部105保持的观点表现的种类之中的、与所输入的查询相对应的观点表现的种类,将对选择为分类对象的文件及文件的分类所使用的观点表现的种类进行明示的信息向数据处理装置2b发送。若该来自分类方法选择单元301b的信息被发送到数据处理装置2b,则数据处理装置2b的特征语提取单元201b开始进行处理。
提示单元302b与第1实施方式的提示单元302同样地,将文件分类单元203的文件的分类结果,作为与分类标签赋予单元204b赋予的分类标签建立了对应的信息提示给用户。但是,提示单元302b对于与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语所属的分组,以能够判别该分组是与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语所属的分组这一情况的形式进行提示。作为以能够判别与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语所属的分组的形式进行提示的例子,例如能够举出在分类标签中将规定的图符一起记载这样的例子。
图23-1~图23-3是表示提示单元302b的信息的提示例的图。图23-1~图23-3所示的例子,是显示将附加有文件数的图符和分类标签的组合、与属于各分组的特征语建立了对应的显示信息的例子。与图9-1所示的第1实施方式的提示单元302的信息的提示例相比,对于各分类标签“予约、服务”、“费用、价值”、“其他、位置、印象,空气调节”,将表示被赋予了这些分类标签的分组是与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语所属的分组这一情况的眼镜的图符一起记载。此外,图23-2所示的例子中,更换了分类结果的排列顺序,使得一起记载有眼镜的图符的分类标签在上位排列。如该图23-2所示的例子那样,还能以将与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语所属的分组提前的形式,对分类结果的信息进行提示。此外,图23-3所示的例子是仅表示与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语所属的分组的提示例。在特征语提取单元201b仅提取与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语的情况下,如图23-3所示的例子那样来提示分类结果的信息。
以上,如举出具体例子进行了详细说明的那样,根据第3实施方式的文件分类装置,将分类对象的文件中包含的成为意图表现的对象的语句之中的、与观点词典存储部105存储的观点的词典中包含的观点表现一致的语句,作为特征语优先提取。并且,对于与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语所属的分组,将表示该观点表现的种类的语句作为分类标签来赋予,以能够判别被赋予了该分类标签的分组是与观点词典存储部105存储的观点的词典中包含的观点表现一致的特征语所属的分组这一情况的形式,对文件的分类结果进行提示。因而,能够以反映用户的意图的形式进行文件的分类,并且能够将文件的分类结果容易明白地对用户进行提示。
<第4实施方式>
图24是表示第4实施方式的文件分类装置的框图。另外,对与第1实施方式共通的结构附加相同的符号。第4实施方式的文件分类装置如图24所示,具备存储装置1c、数据处理装置2和输入输出装置3。数据处理装置2及输入输出装置3与第1实施方式相同。存储装置1c、数据处理装置2以及输入输出装置3可相互交换信息地通过有线或无线进行连接。另外,存储装置1c、数据处理装置2以及输入输出装置3也可以通过单一的信息处理装置来实现。
存储装置1c具备文件存储部101c来代替第1实施方式的文件存储部101。
文件存储部101c将按意图表现而被分离为文件要素的结构化文件的文件集合作为成为分类的对象的文件集合来存储。
图25是表示在文件存储部101c中存储的文件集合的一例的图。文件集合中包含的结构化文件以将例如网页文件、业务上制作的文件、专利公报等文件按意图表现分离为文件要素的形式进行存储。文件存储部101c可以不仅存储结构化文件本身,而且还将文件ID成组存储。图25中,示出了在文件存储部101c中存储有包含从文件ID是D1的结构化文件到文件ID是D3的结构化文件的文件集合的例子。文件ID是D1的结构化文件按每个意图表现即“广”、“不成功”、“好”而具有文件要素。此外,文件ID是D2的结构化文件按每个意图表现即“笑脸”、“好”、“美味”、“公道”、“焦急”而具有文件要素。此外,文件ID是D3的结构化文件具有与意图表现“多”对应的文件要素。
文件存储部101c例如能够采用硬盘、闪存等。
在第4实施方式的文件分类装置中,数据处理装置2的特征语提取单元201与第1实施方式同样地,从文件集合所包含的分类对象的各文件提取成为意图表现的对象的语句,从成为意图表现的对象的语句中,将按照预先规定的基准而选择的语句提取为特征语。此时,根据第4实施方式,由于分类对象的文件是按意图表现而被分离为文件要素的结构化文件,所以特征语提取单元201从各文件的文件要素提取特征语即可,处理变得简便。
如上所述,根据第4实施方式的文件分类装置,分类对象的文件作为结构化文件而存储在文件存储部101c中,因此除了第1实施方式的效果之外,还能得到简便地进行从分类对象的文件提取特征语的处理、有效地进行文件的分类的效果。
在以上说明的各实施方式中,数据处理装置2、2a、2b具备的上述各功能例如能够通过由数据处理装置2、2a、2b执行规定的程序来实现。对于这时的数据处理装置2、2a、2b的硬件结构,用图26进行说明。图26是表示数据处理装置2、2a、2b的硬件结构例的说明图。
数据处理装置2、2a、2b具备CPU(中央处理单元)51等控制装置、ROM(只读存储器)52、RAM(随机访问存储器)53等存储装置、与网络连接而进行通信的通信I/F54、HDD(硬盘驱动器)、CD(光盘)驱动装置等外部存储装置、显示器装置等显示装置、键盘及鼠标等输入装置、以及将各部连接的总线61,成为利用通常的计算机的硬件结构。
具有上述那样的硬件结构的数据处理装置2、2a、2b执行的程序以可安装的形式或可执行的形式的文件而被记录在CD-ROM(只读光盘)、软盘(FD)、CD-R(可录光盘)、DVD(数字多功能光盘)等计算机可读取的记录介质中,作为计算机程序产品而被提供。
此外,也可以构成为,将数据处理装置2、2a、2b执行的程序存储在与因特网等网络连接的计算机上,通过经由网络下载而提供。此外,也可以构成为,将数据处理装置2、2a、2b执行的程序经由因特网等网络进行提供或分发。
此外,也可以构成为,将数据处理装置2、2a、2b执行的程序预先安装在数据处理装置2、2a、2b的ROM52等中来提供。
数据处理装置2、2a、2b执行的程序成为包含数据处理装置2、2a、2b的各单元(特征语提取单元201(201a、201b)、特征语分组单元202(202a)、文件分类单元203(203a)、分类标签赋予单元204(204a、204b)等)的模块结构,作为实际的硬件,例如,CPU51(处理器)从存储介质读出程序并执行,从而上述各单元被加载到主存储装置上,上述各单元在主存储装置上被生成。
根据以上所述的至少一个实施方式的文件分类装置,能够有效地抑制分类后的分组的数量过多、或按照分组而分类的文件数存在较大偏颇这样的弊端,能够将文件的分类结果容易明白地对用户进行提示。
另外,以上所述的各实施方式是作为例子而提示的,并不意欲限定发明的范围。这些新的实施方式能够以其他各种形态实施,在不脱离发明主旨的范围内,能够进行各种省略、替换及变更。这些实施方式及其变形包含在发明的范围及主旨中,并包含在权利要求记载的发明及其等同范围内。
Claims (9)
1.一种文件分类装置,其特征在于,
具备:
同义词词典存储单元,存储一个以上的同义词词典;
特征语提取单元,从文件集合所包含的文件提取特征语;
特征语分组单元,使用上述同义词词典存储单元所存储的具有树结构的同义词词典,将提取出的上述特征语分组为多个分组,该多个分组中的各个分组构成上述同义词词典的局部树,出现属于一个分组的上述特征语的上述文件的数量、与出现属于其他分组的上述特征语的上述文件的数量之差,在预先规定的基准值以下;
文件分类单元,将上述文件集合所包含的上述文件分类为在该文件中出现的上述特征语所属的分组;
分类标签赋予单元,对上述多个分组中的各个分组赋予分类标签,该分类标签是代表属于各分组的上述特征语的语句;以及
提示单元,将上述文件的分类结果,与对被分类后的分组赋予的上述分类标签对应起来进行提示,
上述特征语分组单元将在上述同义词词典中不构成一个局部树的多个上述特征语分组为一个分组;
上述分类标签赋予单元对在上述同义词词典中不构成一个局部树的多个上述特征语所属的分组赋予分类标签,该分类标签表示该分组是不构成同义词词典的一个局部树的多个上述特征语的集合。
2.如权利要求1记载的文件分类装置,其特征在于,
上述特征语提取单元从成为意图表现的对象的语句中,将按照预先规定的基准选择出的语句作为上述特征语来提取。
3.如权利要求2记载的文件分类装置,其特征在于,
上述特征语提取单元从成为意图表现的对象的语句中,将根据出现频度计算的权重在规定值以上的语句作为上述特征语来提取。
4.如权利要求2记载的文件分类装置,其特征在于,
上述提示单元将上述文件的分类结果,与对被分类后的分组赋予的上述分类标签和属于被分类后的分组的上述特征语对应起来进行提示。
5.如权利要求4记载的文件分类装置,其特征在于,
上述提示单元以能够将与上述文件的分类结果对应起来提示的上述特征语按照该特征语的提取所用的上述意图表现的种类进行区分的形式进行提示。
6.如权利要求1记载的文件分类装置,其特征在于,
上述特征语提取单元还从指定文件提取上述特征语,该指定文件是上述文件集合所包含的上述文件以外的被指定了的文件;
在从上述指定文件提取了上述特征语的情况下,上述特征语分组单元将从一个上述指定文件提取的上述特征语分组到一个分组;
当上述文件集合所包含的上述文件中出现从上述指定文件提取的上述特征语的情况下,上述文件分类单元将该文件分类到从上述指定文件提取出的上述特征语所属的分组。
7.如权利要求2记载的文件分类装置,其特征在于,
该文件分类装置还具备观点词典存储单元,该观点词典存储单元对成为意图表现的对象的观点的词典进行存储;
上述特征语提取单元将成为意图表现的对象的语句之中的、上述观点的词典中包含的语句作为上述特征语来提取。
8.如权利要求2记载的文件分类装置,其特征在于,
上述文件集合所包含的文件是按意图表现而被分离为文件要素的结构化文件;
上述特征语提取单元从上述文件要素提取上述特征语。
9.一种文件分类方法,其特征在于,
具备以下步骤:
从文件集合包含的文件提取特征语的步骤;
使用同义词词典存储单元所存储的具有树结构的同义词词典将提取出的上述特征语分组为多个分组的步骤,该多个分组中的各个分组构成上述同义词词典的局部树,其中,将在上述同义词词典中不构成一个局部树的多个上述特征语分组为一个分组,出现属于一个分组的上述特征语的上述文件的数量、与出现属于其他分组的上述特征语的上述文件的数量之差,在预先规定的基准值以下;
将上述文件集合包含的上述文件分类为在该文件中出现的上述特征语所属的分组的步骤;
对上述多个分组中的各个分组赋予分类标签的步骤,该分类标签是代表属于各分组的上述特征语的语句,其中,对在上述同义词词典中不构成一个局部树的多个上述特征语所属的分组赋予分类标签,该分类标签表示该分组是不构成同义词词典的一个局部树的多个上述特征语的集合;以及
将上述文件的分类结果,与对被分类后的分组赋予的上述分类标签对应起来进行提示的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011-202281 | 2011-09-15 | ||
JP2011202281A JP5389130B2 (ja) | 2011-09-15 | 2011-09-15 | 文書分類装置、方法およびプログラム |
PCT/JP2012/066184 WO2013038774A1 (ja) | 2011-09-15 | 2012-06-25 | 文書分類装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103119596A CN103119596A (zh) | 2013-05-22 |
CN103119596B true CN103119596B (zh) | 2017-11-03 |
Family
ID=47883018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280002991.6A Active CN103119596B (zh) | 2011-09-15 | 2012-06-25 | 文件分类装置和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9507857B2 (zh) |
JP (1) | JP5389130B2 (zh) |
CN (1) | CN103119596B (zh) |
WO (1) | WO2013038774A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9082047B2 (en) * | 2013-08-20 | 2015-07-14 | Xerox Corporation | Learning beautiful and ugly visual attributes |
CN103488689B (zh) * | 2013-09-02 | 2017-09-12 | 新浪网技术(中国)有限公司 | 基于聚类的邮件分类方法和系统 |
CN104077385A (zh) * | 2014-06-27 | 2014-10-01 | 北京海泰方圆科技有限公司 | 一种文件的分类及检索方法 |
WO2016013209A1 (ja) * | 2014-07-23 | 2016-01-28 | 日本電気株式会社 | 文集合抽出システム、方法およびプログラム |
EP3195147A4 (en) * | 2014-09-18 | 2018-03-14 | Google LLC | Clustering communications based on classification |
JP6234978B2 (ja) * | 2015-10-16 | 2017-11-22 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理システム、およびプログラム |
CN106778862B (zh) * | 2016-12-12 | 2020-04-21 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
US10366461B2 (en) * | 2017-03-06 | 2019-07-30 | Aon Risk Services, Inc. Of Maryland | Automated document analysis for varying natural languages |
JP6707483B2 (ja) * | 2017-03-09 | 2020-06-10 | 株式会社東芝 | 情報処理装置、情報処理方法、および情報処理プログラム |
CN108628869A (zh) * | 2017-03-16 | 2018-10-09 | 富士施乐实业发展(中国)有限公司 | 一种对电子文书进行类别划分的方法和装置 |
JP6880974B2 (ja) * | 2017-04-19 | 2021-06-02 | 富士通株式会社 | 情報出力プログラム、情報出力方法および情報処理装置 |
CN107168958A (zh) * | 2017-05-15 | 2017-09-15 | 北京搜狗科技发展有限公司 | 一种翻译方法及装置 |
CN107391751A (zh) * | 2017-08-15 | 2017-11-24 | 郑州云海信息技术有限公司 | 一种文件分类方法及装置 |
CN110490027B (zh) * | 2018-05-15 | 2023-06-16 | 触景无限科技(北京)有限公司 | 人脸特征提取训练方法及系统 |
CN110489558B (zh) * | 2019-08-23 | 2022-03-18 | 网易传媒科技(北京)有限公司 | 文章聚合方法和装置、介质和计算设备 |
RU2749969C1 (ru) * | 2019-12-30 | 2021-06-21 | Александр Владимирович Царёв | Цифровая платформа классификации исходных данных и способы ее работы |
WO2021166692A1 (ja) * | 2020-02-21 | 2021-08-26 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JPWO2022014328A1 (zh) * | 2020-07-15 | 2022-01-20 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1360253A (zh) * | 2000-12-21 | 2002-07-24 | 意蓝科技股份有限公司 | 中文文件自动分类法 |
CN1839401A (zh) * | 2003-09-19 | 2006-09-27 | 东芝解决方案株式会社 | 信息处理装置及信息处理方法 |
CN101055581A (zh) * | 2006-04-13 | 2007-10-17 | Lg电子株式会社 | 文档管理系统和方法 |
CN101178714A (zh) * | 2006-12-20 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种网页分类方法及装置 |
CN101819601A (zh) * | 2010-05-11 | 2010-09-01 | 同方知网(北京)技术有限公司 | 学术文献自动分类的方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0820027B1 (en) * | 1996-07-18 | 2002-05-29 | Matsushita Electric Industrial Co., Ltd. | Data retrieval support apparatus |
US6038557A (en) | 1998-01-26 | 2000-03-14 | Xerox Corporation | Method and apparatus for almost-constant-time clustering of arbitrary corpus subsets |
US6446061B1 (en) * | 1998-07-31 | 2002-09-03 | International Business Machines Corporation | Taxonomy generation for document collections |
JP2000348041A (ja) * | 1999-06-03 | 2000-12-15 | Nec Corp | 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体 |
US6701314B1 (en) * | 2000-01-21 | 2004-03-02 | Science Applications International Corporation | System and method for cataloguing digital information for searching and retrieval |
KR100426382B1 (ko) * | 2000-08-23 | 2004-04-08 | 학교법인 김포대학 | 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법 |
JP2003196298A (ja) * | 2001-12-25 | 2003-07-11 | Fujitsu Ltd | 分野体系構築支援装置 |
US8090678B1 (en) * | 2003-07-23 | 2012-01-03 | Shopping.Com | Systems and methods for extracting information from structured documents |
JP2005063366A (ja) * | 2003-08-20 | 2005-03-10 | Hitachi Software Eng Co Ltd | 情報管理装置および情報管理方法 |
US7788086B2 (en) * | 2005-03-01 | 2010-08-31 | Microsoft Corporation | Method and apparatus for processing sentiment-bearing text |
US7676463B2 (en) * | 2005-11-15 | 2010-03-09 | Kroll Ontrack, Inc. | Information exploration systems and method |
WO2007149216A2 (en) * | 2006-06-21 | 2007-12-27 | Information Extraction Systems | An apparatus, system and method for developing tools to process natural language text |
JP4910582B2 (ja) * | 2006-09-12 | 2012-04-04 | ソニー株式会社 | 情報処理装置および方法、並びに、プログラム |
JP2009251825A (ja) * | 2008-04-03 | 2009-10-29 | Nec Corp | 文書クラスタリングシステム、その方法及びプログラム |
JP5160312B2 (ja) * | 2008-06-05 | 2013-03-13 | 株式会社東芝 | 文書分類装置 |
JP4745419B2 (ja) * | 2009-05-15 | 2011-08-10 | 株式会社東芝 | 文書分類装置およびプログラム |
JP2011053881A (ja) * | 2009-09-01 | 2011-03-17 | Mitsubishi Electric Corp | 文書管理システム |
JP5338835B2 (ja) * | 2011-03-24 | 2013-11-13 | カシオ計算機株式会社 | 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
US8983963B2 (en) * | 2011-07-07 | 2015-03-17 | Software Ag | Techniques for comparing and clustering documents |
-
2011
- 2011-09-15 JP JP2011202281A patent/JP5389130B2/ja active Active
-
2012
- 2012-06-25 CN CN201280002991.6A patent/CN103119596B/zh active Active
- 2012-06-25 WO PCT/JP2012/066184 patent/WO2013038774A1/ja active Application Filing
-
2013
- 2013-03-18 US US13/845,989 patent/US9507857B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1360253A (zh) * | 2000-12-21 | 2002-07-24 | 意蓝科技股份有限公司 | 中文文件自动分类法 |
CN1839401A (zh) * | 2003-09-19 | 2006-09-27 | 东芝解决方案株式会社 | 信息处理装置及信息处理方法 |
CN101055581A (zh) * | 2006-04-13 | 2007-10-17 | Lg电子株式会社 | 文档管理系统和方法 |
CN101178714A (zh) * | 2006-12-20 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 一种网页分类方法及装置 |
CN101819601A (zh) * | 2010-05-11 | 2010-09-01 | 同方知网(北京)技术有限公司 | 学术文献自动分类的方法 |
Also Published As
Publication number | Publication date |
---|---|
US9507857B2 (en) | 2016-11-29 |
JP5389130B2 (ja) | 2014-01-15 |
CN103119596A (zh) | 2013-05-22 |
WO2013038774A1 (ja) | 2013-03-21 |
JP2013065097A (ja) | 2013-04-11 |
US20130268535A1 (en) | 2013-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103119596B (zh) | 文件分类装置和方法 | |
JP3001460B2 (ja) | 文書分類装置 | |
CN103377200B (zh) | 用户偏好信息采集方法和装置 | |
CN104484431B (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
JP4940399B2 (ja) | 広告配信装置およびプログラム | |
CN101359332A (zh) | 具有语义分类功能的可视化搜索界面的设计方法 | |
US20110173528A1 (en) | Determining Semantically Distinct Regions of a Document | |
JP5212604B2 (ja) | リスク検知システム、リスク検知方法及びそのプログラム | |
CN104978332B (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CN106354860A (zh) | 基于标签集的信息资源自动贴标签并自动推送的方法 | |
CN106682236A (zh) | 基于机器学习的专利数据处理方法及其处理系统 | |
CN101719135A (zh) | 一种政务资源目录控制系统及方法 | |
CN102779143A (zh) | 知识谱系的可视化方法 | |
CN108520065B (zh) | 命名实体识别语料库的构建方法、系统、设备及存储介质 | |
CN109614505A (zh) | 一种数字化体育档案管理平台 | |
Torrijos | Automated sports coverages. Case study of bot released by The Washington Post during Río 2016 and Pyeongchang 2018 Olympics | |
CN105912631B (zh) | 检索处理方法和装置 | |
JP2012198710A (ja) | カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム | |
CN103970865B (zh) | 基于种子词的微博文本层次主题发现方法及系统 | |
CN101799814A (zh) | 自由分类标签类聚成网状分类结构的方法 | |
US20020111970A1 (en) | Method of displaying information in stages | |
JP4423385B2 (ja) | 文書分類支援装置およびコンピュータプログラム | |
CN113407678A (zh) | 知识图谱构建方法、装置和设备 | |
CN113742496A (zh) | 一种基于异构资源融合的电力知识学习系统及方法 | |
CN101174263A (zh) | 一种信息展现的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |