CN100462966C - 将文件配置成时间序列的文件相关图的制成装置 - Google Patents

将文件配置成时间序列的文件相关图的制成装置 Download PDF

Info

Publication number
CN100462966C
CN100462966C CNB200580030724XA CN200580030724A CN100462966C CN 100462966 C CN100462966 C CN 100462966C CN B200580030724X A CNB200580030724X A CN B200580030724XA CN 200580030724 A CN200580030724 A CN 200580030724A CN 100462966 C CN100462966 C CN 100462966C
Authority
CN
China
Prior art keywords
mentioned
bunch
dendrogram
document element
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB200580030724XA
Other languages
English (en)
Other versions
CN101027669A (zh
Inventor
增山博昭
佐藤晴正
浅田诚
莲子和巳
堀田任晃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intellectual Property Bank Corp
Original Assignee
Intellectual Property Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intellectual Property Bank Corp filed Critical Intellectual Property Bank Corp
Publication of CN101027669A publication Critical patent/CN101027669A/zh
Application granted granted Critical
Publication of CN100462966C publication Critical patent/CN100462966C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram

Abstract

一种文件相关图制成装置,具备:对于多个文件元素,抽取由1个或多个文件组成的文件元素(E)的内容数据及时间数据的抽取单元(20、30);基于上述各文件元素的内容数据,制成表示上述多个文件元素的相关的树状图的树状图制成单元(50);基于规定规则而切断上述树状图来抽取簇的成簇单元(70);以及基于上述各文件元素的时间数据,决定属于上述各簇的文件元素群在该簇内的排列的簇内排列单元(90)。这样就能自动制成适当地表示出每个领域的时间性发展的树状图。

Description

将文件配置成时间序列的文件相关图的制成装置
技术领域
本发明涉及自动制成表示文件相互关系并且反映文件的时间顺序的文件相关图的技术,特别是涉及这样的文件相关图的制成装置、制成方法及制成程序。
背景技术
以专利文件为首的技术性文件和其他文件层出不穷,数量庞大。为了以简明易懂的形式提示这些文件的相互关系,优选的是按每关联内容来整理其时间性发展。因此,优选的是自动制成兼顾文件内容的关联和按照时间顺序的排列的文件相关图。
日本国特开平11—53387号公报「文件的关联方法及其系统」(专利文献1)披露了把按时间序列排顺的文件关联起来的方法。具体而言,基于文件间的单词的一致度来计算文件间的类似度,根据上述类似度,采用时间制约而制成类似度矩阵。把此类似度矩阵变换为下述邻接矩阵:使类似度在规定阈值以上的矩阵元素为1,其余为0。以此邻接矩阵为基础,制成作为文件关联图的有向图。
专利文献1:特开平11—53387号公报「文件的关联方法及其系统」
但是,在上述特开平11—53387号公报(专利文献1)记载的技术中,在从某文件到类似文件,进而再到其类似文件地依次寻找时会产生偏差的积累,有可能不久就找到完全不同的文件。而且,也会出现从某文件分支的多条路线最终找到1个文件的情况,也有分支意义变得不明确的可能性。因此,上述特开平11—53387号公报(专利文献1)记载的技术中,存在不能适当表示每个领域的时间性发展的问题。
发明内容
本发明的课题是提供一种能适当表示每个领域的时间性发展的文件相关图制成装置、制成方法及制成程序。
(1)为了解决上述课题,本发明的文件相关图制成装置,具备:对于多个文件元素,抽取由1个或多个文件组成的文件元素的内容数据及时间数据的抽取单元;基于上述各文件元素的内容数据,制成表示上述多个文件元素的相关的树状图的树状图制成单元;基于规定规则切断上述树状图来抽取簇(クラスタ)的成簇单元;以及基于上述各文件元素的时间数据,决定属于上述各簇的文件元素群在该簇内的排列的簇内排列单元。
根据本发明,通过进行由树状图切断的簇抽取和根据时间数据的簇内排列的决定,可以制成适当地表示每个领域的时间性发展的树状图。
(2)在上述文件相关图制成装置中,优选的是,上述成簇单元切断上述树状图的上述规定规则,是根据关联规则分析而导出的。采用根据关联规则分析而导出的切断规则,能够应用可适用于各种树状图(通用性高)的切断规则,因而能够以高概率实现在切断理想值下的切断。而且,通过增加示范图的事例数,就能容易地进一步提高切断规则的精度。
(3)在此文件相关图制成装置中,优选的是,上述规定规则是基于上述树状图的形状参数而导出的。
通过采用基于树状图的形状参数而导出的切断规则,能够应用可决定适于树状图形状的适当切断位置的、可靠性高的切断规则。
而且,可以通过读取解析对象树状图的形状参数并对其应用关联规则来决定切断位置,因而以较少的计算量即可决定切断位置。
切断树状图的次数可以只是1次(固定BC法;后述),也可以基于1次切断所获得的母簇的形状参数,再次导出切断规则而切断该母簇,抽取子孙簇(可变BC法;后述)。根据可变BC法,即使生成元素数较多的母簇,也可以进一步将其分离为子孙簇。
(4)在上述各文件相关图制成装置中,上述规定规则也可以基于在上述树状图的各节点所结合的多个文件元素的矢量维数而导出。
通过采用添加矢量维数而导出的切断规则,能够获得更恰当的分支。
上述多个文件元素的矢量维数,优选的是从该多个文件元素的矢量总和的维数中去除下述矢量成分的维数而得到的维数,所述矢量成分的这些文件元素之间的偏差值小于以规定方法决定的值。由此,可以应用更恰当的切断规则。
(5)在此文件相关图制成装置中,优选的是,上述成簇单元按上述每个节点来判定在上述各节点所结合的多个文件元素的矢量维数是否为一定值以上,基于上述判定结果单独地切断上述矢量维数为一定值以上的节点。对每个节点进行切断基准的判定,并基于判定结果而单独地切断各节点,从而能够获得更恰当的分支。
(6)在上述文件相关图制成装置中,优选的是,上述成簇单元切断上述树状图而抽取母簇,基于属于上述母簇的各文件元素的内容数据而制成表示属于上述母簇的文件元素群的相关的部分树状图,基于规定规则而切断所制成的该部分树状图,抽取子孙簇。
在抽取母簇后,根据对各母簇进行再次分析而制成的部分树状图,抽取子簇,从而能够改善子簇的错误分类,获得恰当的分类。
(7)在此文件相关图制成装置中,优选的是,上述成簇单元,为了制成上述部分树状图,从各文件元素矢量中除去属于上述母簇的在多个文件元素间的偏差值小于以规定方法确定的值的矢量成分。
在抽取母簇抽取后,通过除去属于各母簇的文件元素间的偏差值较小的矢量成分,可以从与母簇的抽取观点不同的观点抽取子簇,从而获得恰当的分类。
文件元素的矢量成分,例如是与该文件内的各个索引语有关的全部文件IDF加权TF值(TF*IDF(P)值;后述)。例如,可以对于属于母簇的所有文件元素,算出各索引语的TF*IDF(P)值,并根据标准偏差与属于母簇的文件元素间的偏差平均值之比是否收敛于规定范围内,来判定偏差是否较小。
(8)在上述文件相关图制成装置中,优选的是,上述树状图制成单元,以文件元素间的结合高度反映文件元素间的类似程度的方式制成上述树状图;上述成簇单元,在上述树状图的2处以上的规定高度进行切断而抽取上述簇。
由于在预定的多个切断高度进行切断,因而不需要为了决定切断位置而进行复杂的计算,即可容易地获得恰当的分支。
关于切断后的连线结构,优选的是,基于在各切断位置切断的分支线的数量来决定分支结构。这样就能适当地简化树状图的分级结构,并且制成反映了当初的图树状的分级结构的文件相关图。另外,通过在多个切断位置上进行切断而生成母子簇时,即使不再制成属于母簇的文件元素的部分树状图也能生成子簇,因而以较少的计算量即可生成母子簇。
(9)在上述各文件相关图制成装置中,优选的是,上述树状图制成单元,以文件元素间的结合高度反映文件元素间的类似程度的方式制成上述树状图;上述成簇单元,在以包含属于上述树状图的上述文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数为基础的切断位置上进行切断而抽取上述簇。
由于以包含结合高度平均值及偏差中的任意一方或两方作为变量的函数为基础来进行切断,因而能广泛地对应各种各样的树状图形状,不需要进行复杂的计算,即可容易地获得恰当的分支。
包含结合高度平均值及偏差中的任意一方或两方作为变量的函数,特别优选的是至少包含平均值作为变量的函数,更优选的是同时包含平均值和偏差作为变量的函数。优选的是,例如,采用结合高度d的平均值<d>和标准偏差σd,取<d>+δσd(此处—3≤δ≤3)。另外,作为包含结合高度d的偏差作为变量并且不包含结合高度d的平均值<d>作为变量的函数,例如,可以考虑使用结合高度d的标准偏差σd和中点距离m(后述),取m+εσd(此处—3≤ε≤3)。而且,偏差不限于标准偏差σd,也可以是平均偏差。
(10)在上述各文件相关图制成装置中,优选的是,上述树状图制成单元,以文件元素间的结合高度反映文件元素间的类似程度的方式制成上述树状图;上述成簇单元,在以包含属于上述树状图的上述文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数为基础的切断位置上切断该树状图而抽取母簇,在以包含属于该母簇的文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数为基础的切断位置上切断该母簇而抽取子孙簇。
由于以包含属于树状图的文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数为基础进行母簇抽取,以包含属于各母簇的文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数为基础进行子簇抽取,因而即使元素数N较多(例如N>20),也能获得恰当的母子簇。而且,由于以包含文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数为基础而进行簇的抽取,因而可以在属于树状图的文件元素群的类似度较高等情况下广泛地对应各种各样的树状图形状,从而获得恰当的母子簇。
包含结合高度平均值及偏差中的任意一方或两方作为变量的函数,特别优选的是至少包含平均值作为变量的函数,更优选的是同时包含平均值和偏差作为变量的函数。优选的是,例如,采用结合高度d的平均值<d>和标准偏差σd,取<d>+δσd(此处—3≤δ≤3)。另外,作为包含结合高度d的偏差作为变量并且不包含结合高度d的平均值<d>作为变量的函数,例如,可以考虑使用结合高度d的标准偏差σd和中点距离m(后述),取m+εσd(此处—3≤ε≤3)。另外,偏差不限于标准偏差σd,也可以是平均偏差。
(11)在上述各文件相关图制成装置中,还可以具有基于上述文件元素的内容数据,对具有特定属性的文件元素附加与其他文件元素相区别的显示的区别显示附加单元。
这样,根据具有特定属性的文件元素与其他文件元素的关系,即可得知其在内容及时间上处于什么位置。
而且,优选的是,显示时间轴,按照该时间轴而配置各文件元素。这样就能掌握本公司技术在该技术领域的发展系统中所处的位置。
此外,作为用于区别显示的内容数据,例如采用专利文件的申请人的数据。这样,根据某申请人所涉及的专利文件群与其他公司的关系,即可得知其处于什么位置。
例如,在基于类似度来抽取件数较多的类似文件群,并对该类似文件群进行了分析的情况下,可以得知本公司在遍布多方面技术领域的类似文件群中的所在位置。因此,除了上述效果之外,还能发现本公司不太注意的类似技术,能找到本公司技术在其他领域适用的可能性,并且也能了解其他公司的技术在内容及时间上是如何发展的。
在进一步把上述件数较多的类似文件群作为母集团而再次算出类似度,并对件数较少的类似文件群进行了分析的情况下,可以更为详细地比较在进一步精简的技术领域内的特别是与其他公司的竞争关系。
(12)在上述各文件相关图制成装置中,优选的是,上述簇内排列单元,在由属于上述簇内的文件元素群构成的树状图中,从最下位节点开始按顺序比较所结合的文件元素中哪个更早,把在下位节点判定为更早的文件元素作为在上位节点的比较对象,进行比较直至达到最上位节点,并记录结果,把根据最上位节点的比较结果所决定的最早元素配置在该簇的前端,按照与该最早元素直接比较后的文件元素的数量,制成从该最早元素的分支,把这些比较后的文件元素与上述各分支连接,决定排列。
这样,在决定簇内排列时,就能可靠地按照时间顺序进行排列,并且在某种程度上也反映出该簇内的分支结构。
同上述最早元素直接进行了比较后的文件元素(最早元素的竞赛对象),在更下位的节点与其他文件元素进行了比较时,优选的是,把上述最早元素的竞赛对象作为在上述各分支的最早元素,反复进行相同的处理。
(13)在上述各文件相关图制成装置中,优选的是,上述簇内排列单元抽取该簇内的1个或多个最早元素,将其配置在前端,对于除上述最早元素以外的其余文件元素,按照定义这些文件元素的每个分类形成时间顺序排列,对于上述时间顺序排列中的、与其同分类的文件元素作为上述最早元素存在的时间顺序排列,与其同分类的最早元素进行连线,对于上述时间顺序排列中的与其分类相同的文件元素未作为上述最早元素存在的时间顺序排列,是从该簇内选出该时间顺序排列中的与最早元素类似程度最高的文件元素,与该类似程度最高的文件元素进行连线,决定该簇内的排列。
这样,即使在产生同时刻元素时,也能在基于分类来定义元素的情况下,参考该分类信息而决定簇内排列,从而处理该同时刻元素。
(14)在上述各文件相关图制成装置中,优选的是,还具备时间段分类单元和时间段分类单元,上述时间段分类单元,基于各文件元素的上述时间数据把上述多个文件元素分类成多个时间段,上述树状图制成单元制成表示属于各时间段的文件元素群的相关的树状图,上述成簇单元基于规定规则切断上述各时间段的树状图而抽取簇,上述时间段间连线单元在属于不同时间段的簇之间进行连线。
这样通过根据时间段首先进行切分,可以表示不同分类之间的同时期文件的关系,还能一并表示不同期间的同领域文件的关系。
利用上述时间段间连线单元对簇之间进行连接的连线,优选的是,根据群间距离、最早元素和时间前方群的最短距离元素的元素间距离等来计算簇间的类似程度,在类似程度高的簇之间进行连线。
此外,利用上述时间段间连线单元对簇之间进行连接的连线,优选的是属于被连线的两个簇的元素之间(时间后方群的最早元素和时间前方群的最新元素之间,或者时间后方群的最早元素和时间前方群的最短距离元素之间等)的连线。
(15)本发明的其他文件相关图制成装置,具备:对于多个文件元素,抽取由1个或多个文件组成的文件元素的内容数据及时间数据的抽取单元;基于各文件元素的上述时间数据将上述多个文件元素分类成多个时间段的时间段分类单元;基于属于上述各时间段的各文件元素的内容数据,从上述各时间段中抽取簇的成簇单元;以及在属于不同时间段的簇之间进行连线的时间段间连线单元。
这样,通过抽取簇和基于时间数据进行分类,可以制成适当地表示出每个领域的时间性发展的树状图。
特别是,通过首先根据时间段进行切分,可以表示出不同分类之间的同时期文件的关系,还可以一并表示出不同期间的同领域文件的关系。
上述成簇单元所进行的簇抽取,优选的是采用树状图切断方法的抽取簇,但是不限于此,也可以是采用公知的k—平均法等的抽取簇。
而且,文件元素可以基于文件元素的时间数据在各簇内进行排列,也可以不基于时间数据,例如为单纯的并列配置。
上述时间段间连线单元对簇之间的连线,优选的是,根据群间距离、最早元素和时间前方群的最短距离元素的元素间距离等计算出簇间的类似程度,在类似程度高的簇之间进行连线。
而且,上述时间段间连线单元对簇之间的连线,优选的是属于被连线的两个簇的元素之间(时间后方群的最早元素和时间前方群的最新元素之间,或者时间后方群的最早元素和时间前方群的最短距离元素之间等)的连线。
(16)此外,本发明是具备与由上述各装置执行的方法相同的工序的文件相关图制成方法以及能使计算机执行与由上述各装置执行的处理相同的处理的文件相关图制成程序。此程序可以记录在FD、CDROM、DVD等记录介质中,也可以通过网络来发送接收。
发明效果
根据本发明,能自动制成适当地表示出每个领域的时间性发展的文件相关图。
附图说明
图1是表示本发明的一实施方式所涉及的文件相关图制成装置的硬件构成的图。
图2是特别针对处理装置1和记录装置3而详细地说明上述文件相关图制成装置中的构成和功能的图。
图3是表示上述文件相关图制成装置中的处理装置1的动作顺序的流程图。
图4是实施例1(均衡切断法;BC法)中进行的关联规则分析所使用的参数的说明图。
图5是说明实施例1中的簇抽取过程的流程图。
图6是表示实施例1中的簇抽取过程中的树状图配置例的图。
图7是表示根据实施例1的方法而生成的文件相关图的具体例子的图。
图8是说明实施例2(余维数降低法;CR法)中的簇抽取过程的流程图。
图9是表示实施例2中的簇抽取过程中的树状图配置例的图。
图10是表示根据实施例2的方法而生成的文件相关图的具体例子的图。
图11是说明实施例3(细胞分裂法;CD法)中的簇抽取过程的流程图。
图12是表示实施例3中的簇抽取过程中的树状图配置例的图。
图13是表示根据实施例3的方法而生成的文件相关图的具体例子的图。
图14是表示根据实施例3的方法而生成的文件相关图的另一具体例子的图。
图15是说明实施例4(阶段性切断法;SC法)中的簇抽取过程的流程图。
图16是表示实施例4中的簇抽取过程中的树状图配置例的图。
图17是表示根据实施例4的方法而生成的文件相关图(已标准化)的具体例子的图。
图18是表示根据实施例4的方法而生成的文件相关图(未标准化)的具体例子的图。
图19是说明实施例5(可变复合法;FC法)中的簇抽取过程的流程图。
图20是表示实施例5中的簇抽取过程中的树状图配置例的一部分的图。
图21是表示根据实施例5的方法而生成的文件相关图(g固定)的具体例子的图。
图22是表示根据实施例5的方法而生成的文件相关图(g未设定)的具体例子的图。
图23是表示根据实施例5的方法而生成的文件相关图的其他具体例子的图。
图24是表示采用实施例5的变形例1所涉及的方法而生成的文件相关图的具体例子的图。
图25是表示实施例5的变形例2所涉及的文件相关图的制成过程的图。
图26是表示采用实施例5的变形例2所涉及的方法而生成的文件相关图的具体例子(3000件文件)的图。
图27是表示采用实施例5的变形例2所涉及的方法而生成的文件相关图的具体例子(300件文件)的图。
图28是表示图26的文件相关图中的另一显示例的一部分的图。
图29是表示图26的文件相关图中的又一显示例的一部分的图。
图30是说明实施例6(竿钓排列;PLA)中的簇内排列过程的流程图。
图31是表示实施例6中的簇内排列过程中的树状图配置例的图。
图32是说明实施例7(群时序顺序;GTO)中的簇内排列过程的流程图。
图33是表示实施例7中的簇内排列过程中的树状图配置例的一部分的图。
图34是进一步详细说明实施例8(时断面分析;TSA)中的文件相关图制成装置中的构成和功能的图。
图35是说明实施例8中的文件相关图制成过程的流程图。
图36是表示实施例8中的文件相关图制成过程中的树状图配置例的图。
图37是表示根据实施例8的方法而生成的文件相关图的第1具体例及其生成过程的图。
图38是表示根据实施例8的方法而生成的文件相关图的第2具体例及其生成过程的图。
图39是表示根据实施例8的方法而生成的文件相关图的第3具体例及其生成过程的图。
图40是表示根据实施例8的方法而生成的文件相关图的第4具体例及其生成过程的图。
附图标记说明
1:处理装置,2:输入装置,3:记录装置,4:输出装置,
20:时间数据抽取部(抽取单元),25:时间段分类部(时间段分类单元),30:索引语数据抽取部(抽取单元),50:树状图制成部(树状图制成单元),70:簇抽取部(成簇单元),75:时间段间连线部(时间段间连线单元),90:簇内元素配置部(簇内排列单元),
E:文件元素,α:切断高度,c:节点(结节点),n:段编号,G:组
具体实施方式
以下参照附图,详细说明本发明的实施方式。
<1.词汇的说明等>
说明本说明书中使用的词汇。
文件元素E或E1~EN:构成作为分析对象的文件集团,成为本发明所涉及的分析单位的各个元素。各文件元素由1个或多个文件组成。称为文件元素群时,指多个文件元素。
类似程度:被比较的文件元素和文件元素、文件元素和文件元素群,或文件元素群和文件元素群的类似度或不类似度。有以矢量表现被比较的文件元素或文件元素群,用矢量间的余弦或Tanimoto相关(类似度的一个例子)等矢量成分间的积的函数来表现的方法;用矢量间的距离(不类似度的一个例子)等矢量成分间的差的函数来表现的方法。
树状图:以树状连接构成分析对象即文件集团的各文件元素所得到的图。
系统树图:通过分级簇分析而生成的树状图。简单地说明制成原理,首先,基于构成作为分析对象的文件集团的各文件元素间的不类似度(类似度),使不类似度最小(类似度最大)的文件元素之间结合而生成结合体。进而,反复进行下述作业,从而按照不类似度从小到大的顺序使结合体和其他文件元素,或者结合体和结合体结合而生成新结合体。这样表现为分级结构。
索引语:从文件的全部或一部分截取的单词。对于单词的截取方法没有特别的制约,可以是以前公知的方法,或者例如如果是日语文件,可以是应用市售的词素解析软件,抽取除助词、连词以外的有意义实词的方法,还可以是预先备有索引语词典(词典)的数据库,从而利用从该数据库获得的索引语的方法。
为了简化以后的说明,决定采用简略标号。
d:树状图中的文件元素和文件元素、文件元素群和文件元素群、或者文件元素和文件元素群的结合位置的高度(结合距离)。在以文件矢量(或文件群矢量)之间的余弦cosθ定义类似度的情况下,优选的是取d=a—bcosθ(例如a=b=1)。
α:树状图的切断位置的高度。
α*:按<d>+δσd(此处—3≤δ≤3)算出的树状图的切断高度。在这里,<d>是该树状图中的全部结合高d的平均值,σd是该树状图中的全部结合高d的标准偏差。
N:分析对象的文件元素数。
t:文件元素的时间数据。例如如果是专利文献,可以取申请日、公开日、设定登记日、优先权主张日等中的任意一个日期。如果专利文献的申请号、公开号等符合申请顺序、公开顺序等,也可以把这些申请号、公开号等作为时间数据。在文件元素由多个文件组成时,求出构成文件元素的各文件的时间数据的平均值、中央值等,将其作为文件元素的时间数据。
TF(E):文件元素E的索引语在该文件元素E中的出现频率(索引语频率;Term Frequency)。
DF(P):文件元素E的索引语在作为母集团的全部文件P中的文件频率(Document Frequency)。文件频率是指用某索引语从多个文件中进行检索时所检索到的符合文件数。作为母集团的全部文件P,如果是与专利文献有关的分析,则使用例如在日本国内过去10年间期所发行的所有公开专利公报或注册实用新型公报约400万件。
TF*IDF(P):TF(E)和"DF(P)的倒数×作为母集团的全部文件数"的对数之积。对文件的每个索引语进行计算。另外,在文件元素E由多个文件组成时,与GF(E)*IDF(P)等价。
GF(E):在文件元素E由多个文件组成时,构成该文件元素E的各文件的索引语在该文件元素E中的出现频率(全局频率;GlobalFrequency)。
DF(E):在文件元素E由多个文件组成时,构成该文件元素E的各文件的索引语在该文件元素E中的文件频率。
GFIDF(E):在文件元素E由多个文件组成时,为GF(E)/DF(E)。对文件的每个索引语进行运算。
<2.文件相关图制成装置的构成>
图1是表示本发明的一实施方式所涉及的文件相关图制成装置的硬件构成的图。如该图所示,本实施方式的文件相关图制成装置包括:由CPU(中央处理器)及存储器(记录装置)等构成的处理装置1;作为键盘(手动输入工具)等输入单元的输入装置2;作为存放文件数据、条件、处理装置1的作业结果等的记录单元的记录装置3;以及作为对所制成的文件相关图进行显示或印刷等的输出单元的输出装置4。
图2是特别针对处理装置1和记录装置3而详细地说明上述文件相关图制成装置的构成和功能的图。
处理装置1具备:文件读出部10、时间数据抽取部20、索引语数据抽取部30、类似度运算部40、树状图制成部50、切断条件读出部60、簇抽取部70、配置条件读出部80、簇内元素配置部90。
记录装置3由条件记录部310、作业结果存放部320、文件存放部330等构成。文件存放部330包括外部数据库、内部数据库。外部数据库是指例如日本专利局提供服务的专利电子图书馆的IPDL、株式会社パトリス提供服务的PATOLIS等文件数据库。此外,内部数据库包括从销售的例如专利JP—ROM等本身存放了数据的数据库、存放了文件的FD(flexible disk)、CD(compact disc)ROM、MO(磁光盘)、DVD(数字视盘)等介质读出的装置、读入输出或手写到纸等上的文件的OCR(光学信息读取装置)等的装置及把所读入的数据变换为文本等电子数据的装置等。
在图1及图2中,作为在处理装置1、输入装置2、记录装置3及输出装置4之间接发信号或数据的通信单元,可以采用USB(通用串行总线)电缆等直接连接,也可以通过LAN(局域网)等网络来发送接收信号,还可以通过存放了文件的FD、CDROM、MO、DVD等介质来发送接收信号。或者也可以对上述一部分方式或几种方式进行组合。
<2—1.输入装置2的详细情况>
接着,根据图2详细地说明上述文件相关图制成装置的构成和功能。
输入装置2接受文件元素群的读出条件、树状图的制成条件、通过切断树状图而抽取簇的抽取条件、簇内元素的配置条件等的输入。所输入的这些条件被送到记录装置3的条件记录部310中存放。
<2—2.处理装置1的详细情况>
文件读出部10,按照由输入装置2输入的读出条件,从记录装置3的文件存放部330读出成为分析对象的多个文件元素。所读出的文件元素群的数据被直接送到时间数据抽取部20及索引语数据抽取部30而用于进行各自的处理,或者被送到记录装置3的作业结果存放部320中存放。
另外,从文件读出部10送到时间数据抽取部20及索引语数据抽取部30或作业结果存放部320的数据,可以是包括所读出的文件元素群的时间数据及内容数据的所有数据。此外,也可以只是指明这些文件元素群中的各个文件元素的文献目录数据(例如如果是专利文献,则是申请号或公开号等)。在后一种情况下,在以后的处理中必要时基于该文献目录数据再次从文件存放部330读出各文件元素的数据即可。
时间数据抽取部20从由文件读出部10所读出的文件元素群中抽取各元素的时间数据。所抽取的时间数据,被直接送到簇内元素配置部90而用于在簇内元素配置部90所进行的处理,或者被送到记录装置3的作业结果存放部320中存放。
索引语数据抽取部30,从由文件读出部10所读出的文件元素群中抽取作为各文件元素的内容数据的索引语数据。从各文件元素所抽取的索引语数据被直接送到类似度运算部40而用于在类似度运算部40所进行的处理,或者被送到记录装置3的作业结果存放部320中存放。
类似度运算部40,基于由索引语数据抽取部30所抽取的各文件元素的索引语数据,运算文件元素间的类似度(或不类似度)。此类似度的运算是基于从输入装置2所输入的条件,从条件记录部310调出用于计算类似度的类似度计算模块来执行。所算出的类似度被直接送到树状图制成部50而用于在树状图制成部50进行的处理,或者被送到记录装置3的作业结果存放部320中存放。
树状图制成部50,按照由输入装置2所输入的树状图制成条件,基于由类似度运算部40所运算出的类似度,制成作为分析对象的文件元素群的树状图。所制成的树状图被送到记录装置3的作业结果存放部320中存放。树状图的存放形式可以采取下述形式,例如配置在二维坐标面上的各文件元素的坐标值及连接上述坐标值的各个连线的起点及终点的坐标值的数据的形式,或者表示各文件元素的结合的组合及结合的位置的数据的形式。
切断条件读出部60读出由输入装置2输入并记录在记录装置3的条件记录部310中的树状图切断条件。所读出的切断条件被送到簇抽取部70。
簇抽取部70,从记录装置3的作业结果存放部320读出由树状图制成部50所制成的树状图,并且基于由切断条件读出部60所读出的切断条件而切断该树状图,抽取簇。与所抽取的簇有关的数据被送到记录装置3的作业结果存放部320中存放。簇的数据,例如包括指明属于各个簇的文件元素的信息和簇彼此之间的连线信息。
配置条件读出部80读出由输入装置2输入并记录在记录装置3的条件记录部310中的簇内的文件元素配置条件。所读出的配置条件被送到簇内元素配置部90。
簇内元素配置部90,从记录装置3的作业结果存放部320读出由簇抽取部70所抽取的簇的数据,并且基于由配置条件读出部80所读出的文件元素配置条件来决定各簇内的文件元素的配置。通过决定簇内的配置,本发明的文件相关图即告完成。此文件相关图被送到记录装置3的作业结果存放部320中存放,根据需要由输出装置4输出。
<2—3.记录装置3的详细情况>
在图2的记录装置3中,条件记录部310记录从输入装置2获得的条件等信息,基于处理装置1的要求,送出必要的数据。作业结果存放部320,存放处理装置1中的各构成元素的作业结果,基于处理装置1的要求,送出必要的数据。文件存放部330,基于输入装置2或处理装置1的要求,存放、提供从外部数据库或内部数据库获得的必要的文件数据。
<2—4.输出装置4的详细情况>
图2的输出装置4输出由处理装置1的簇内元素配置部90制成并存放在记录装置3的作业结果存放部320中的文件相关图。作为输出的形态,例如可以列举在显示装置上显示、在纸等印刷介质上印刷或者通过通信单元向网络上的计算机装置发送等。
<3.文件相关图制成装置的作用>
<3—1.文件相关图制成装置的动作>
图3是表示上述文件相关图制成装置中的处理装置1的动作顺序的流程图。
首先,在文件读出部10中,按照由输入装置2所输入的读出条件,从记录装置3的文件存放部330读出成为分析对象的多个文件元素(步骤S10)。成为分析对象的文件元素群,例如可以是在全部专利文件中按照与某专利文件类似度的降序(不类似度升序)选出的文件群,也可以是按照特定的关键字(国际专利分类、技术用语、申请人、发明者等)等的某一标题进行检索而选出的文件群,也可以采用其他方法选出。
接着,在时间数据抽取部20中,从在文件读出步骤S10所读出的文件元素群中抽取各元素的时间数据(步骤S20)。
接着,在索引语数据抽取部30中,从在文件读出步骤S10所读出的文件元素群中抽取作为各文件元素的内容数据的索引语数据(步骤S30)。各文件元素的索引语数据,例如是对于从文件元素E中抽取到的索引语各自的在该文件元素内的出现次数(索引语频率TF(E))。在文件元素E分别由多个文件组成时,可以采用以全局频率GF(E)的函数值作为成分的多维矢量进行表示。另外,作为文件元素的内容数据,不限于索引语数据,也可以采用国际专利分类(IPC)、申请人、发明者等数据。
接着,在类似度运算部40中,基于在索引语数据抽取步骤S30中所抽取的各文件元素的索引语数据,运算文件元素间的类似度(或不类似度)(步骤S40)。
作为类似度运算的一个具体例子,以下说明采用矢量空间法的示例。现在,把构成作为分析对象的文件集团并作为分析单位的各个文件元素设为E1~EN。根据对这些文件元素E1~EN的运算结果,把从文件元素E1截取的索引语设为「红」、「蓝」、「黄」。而且,把从文件元素E2截取的索引语设为「红」、「白」。此时,对于各个索引语,文件元素E1中的索引语频率TF(E1)、文件元素E2中的索引语频率TF(E2)、作为母集团的全部文件P(将全部文件P的文件数设为400。)中的文件频率DF(P)分别设定如下。
[表1]
 
索引语及TF(E<sub>1</sub>) 红(1),蓝(2),黄(4)
索引语及TF(E<sub>2</sub>) 红(2),白(1)
索引语及DF(P) 红(30),蓝(20),黄(45),白(13)
对各文件的每个索引语计算TF*IDF(P),算出各文件元素的矢量表现。该结果对于文件元素矢量E1及E2如下所示。
[表2]
 
E<sub>1</sub> (1×ln(400/30) (2×ln(400/20) (4×ln(400/45) 0
E<sub>2</sub> (2×ln(400/30) 0 0 (1×ln(400/13)
如果取此矢量E1及E2间的余弦(或距离)的函数,就能获得文件元素矢量E1及E2间的类似度(或不类似度)。另外,矢量间的余弦(类似度)的值越大,意味着类似程度越高,矢量间的距离(不类似度)的值越小,意味着类似程度越高。
作为表示各文件元素的矢量的成分,在文件元素E各自由1个文件组成(微元素)的情况下,优选的是,例如采用索引语的TF*IDF(P)。而且,在文件元素E分别由多个文件组成(宏元素)的情况下,优选的是,作为表示各文件元素的文件群矢量的成分,例如采用GFIDF(E)或者GF(E)*IDF(P)。而且,也可以采用它们的函数等其他指标作为文件元素矢量的成分。
此外,不限于矢量空间法,也可以采用其他方法来定义类似度。
接着,在树状图制成部50中,按照由输入装置2所输入的树状图制成条件,基于由类似度运算步骤S40运算出的类似度,制成作为分析对象的文件元素群的树状图(步骤S50)。作为树状图,优选的是,制成使文件元素等之间的不类似度(或类似度)反映为结合位置的高度(结合距离)的系统树图。例如,把文件元素间的结合高度d设为d=1—cosθ(cosθ例如是文件元素矢量间的余弦或经标准化处理后的文件元素矢量间的余弦)。作为系统树图的具体制成方法,采用公知的Ward法等。
接着,在切断条件读出部60中,读出由输入装置2输入并记录在记录装置3的条件记录部310中的树状图切断条件(步骤S60)。
接着,在簇抽取部70中,基于在切断条件读出步骤S60中所读出的切断条件,切断在树状图制成步骤S50中所制成的树状图,抽取簇(步骤S70)。
接着,在配置条件读出部80中,读出由输入装置2输入并记录在记录装置3的条件记录部310中的簇内的文件元素配置条件(步骤S80)。
接着,在簇内元素配置部90中,基于在配置条件读出步骤S80中所读出的文件元素配置条件,决定在簇抽取步骤S70中所抽取的簇内的文件元素的配置(步骤S90)。决定了簇内的配置之后,本发明的文件相关图即告完成。另外,配置条件可以对所有簇通用。因而,如果为了某簇而执行了一次步骤S80,则不需要为了其他簇而再次执行。
<3—2.文件相关图制成装置的效果>
根据本实施方式,能自动制成适当地表示出每个领域的时间性发展的文件相关图,因而,例如如果是专利文件,能容易地制成有助于发掘成为技术分支源的发明、基本专利、关联领域等的文件相关图。
而且,由于(包含所需时间)可以读取某技术是从未预料到的技术所产生的分支或者被应用到别的技术等,因而能提供对产品开发的启发。而且,也可以根据新发明之前所需要的时间、申请件数的规模之比来估算开发成本。
此外,把集团内(本公司内、其他公司内、业界内)的专利文件群作为对象而制成文件相关图,就能整理、理解该集团内的专利结构,可以谋求应用于专利战略。
此外,通过把按每种产品所抽取的专利文件群作为对象而制成文件相关图,可以分析出什么物品是与什么技术结合而出现的。此外,通过把按每个发明者所抽取的专利文件群作为对象而制成文件相关图,还可以分析出技术是从谁传递给谁的。
<4.簇抽取的实施例>
接着,具体说明上述文件相关图制成装置所涉及的文件相关图的各种制成方法。首先,对于与切断树状图而抽取簇的过程(主要相当于图3的步骤S70)有关的实施例1~5进行说明,接着对于与基于时间数据而决定排列的过程(主要相当于图3的步骤S90等)有关的实施例6~8进行说明。与簇抽取过程有关的实施例1~5可以同与时间排列过程有关的实施例6~8相互任意组合。
另外,实施例1~5及实施例6~8中提到的「均衡切断法(BC法)」「余维数降低法(CR法)」等名称是为了说明本发明而给出的简称。
<4—1.实施例1(均衡切断法;BC法)>
均衡切断法(Balance Cutting Method)是采用关联规则决定树状图的切断位置。即,预先对已有的示范图(已知用于给出基于时间数据所配置的文件相关图的理想切断位置的树状图)进行多次分析,预先求出尽可能选出理想切断位置的规则(关联规则)作为对各种树状图参数的条件式。将此分析称为关联规则分析。将这样预先求出的关联规则应用于分析对象的树状图,决定切断位置。
<4—1—1.关联规则分析的说明>
对于两个现象A、B,把各自独立发生的概率设为P(A)、P(B)。当在现象A(前提现象)发生以后,发生现象B(归结现象)时,将其概率(有条件概率)记作P(B|A),把P(A)称为「前提概率」,把P(B)称为「事前概率」,把P(B|A)称为「事后概率」。
把根据以下的(1)~(3)的基准而选出的两个现象的组称为「关联规则」 A &DoubleRightArrow; B , 意味着「如果现象A发生,则(以某值以上的概率)发生现象B」的规则性。
(1)前提概率P(A)高
(2)事前概率P(B)低而事后概率P(B|A)高
(3)因而,前提概率P(A)和事后概率P(B|A)都高
概率「高」是意味着取某阈值以上的值。例如,将对于事后概率P(B|A)的阈值称为「可靠性」(confidence),例如设定为60~70%的程度。而且,例如将对于同时概率(P(A∩B)=P(A)P(B|A))的阈值称为「支持率」(support),例如设定为60%的程度。
算出关联规则的算法是公知的,对于将其应用于导出本发明中的用于决定树状图切断位置的关联规则时,在下面的4—1—2.和4—1—3.中进行说明。
<4—1—2.参数的读取>
图4是实施例1中进行的关联规则分析所使用的参数的说明图。为了导出关联规则,首先读取示范图的参数。例如,根据示范图的几何形状读取以下参数。另外,当在解析对象树状图中应用关联规则时,对于该解析对象树状图,也需要读取相同的参数。
中点距离m:把二体结合(初始结合)的高度设为h0,把比二体结合上一级的结合与下一级之差Δhi设为Δhi=hi—h(i-1)。此处,下标i是结合等级(设初始结合为0,每上升1级即加1而得到的数)。当在整个树状图中有p个满足Δh1/h0≥1或Δhj/Δh(j-1)≥2(j是结合等级i中的2以上的数)的Δhi时,把决定各Δhi的上端下端的中点值mk(k=1、2、…、p)的平均
m=(1/p)×∑mk
设为中点距离。
基台<h0>:二体结合的高度h0的平均值。即,当在整个树状图中有q个二体结合时,
<h0>=(1/q)×∑h0
最终结合高度H:最终结合距离
树状图面积S(未图示):最终结合高度H×全部元素数N
簇面积s(未图示):全部元素的最初结合高度之和
候选切断高度α0、α1、α2(未图示):
α0=m
α1=m—<h0>/2
α2=(∑mk+Σh0)/(p+q)
另外,作为关联规则分析中所使用的参数,除了上述参数以外,还可以使用其他各种参数,例如包含结合高度d的平均值及偏差中的任意一方或两方作为变量的函数。例如,也可以代替上述中点距离m而使用结合高度平均值<d>,还可以代替上述基台<h0>而使用结合高度的平均值<d>和标准偏差σd,使用<d>—σd或者<d>—2σd。此外,作为候选切断高度,可以追加α3=<d>或者α3=<d>+0.5σd
<4—1—3.关联规则的导出例>
作为关联规则的导出例,说明根据28件示范图而导出的例子。
在这里,示范图略少,因而未考虑支持率(同时概率P(A∩B)=P(A)P(B|A)的阈值)。取而代之,而是把「前提现象A发生后的归结现象B的发生次数/根据是否发生前提现象A而进行精简之前的现象B的发生次数」命名为「保存率」,而且把(P(B|A)—P(B)/P(B))命名为概率的「增长率」,将其用于判定。上述保存率及增长率可以说表示出事后概率相对于事前概率的减少度的大小。
作为判定的优先排位,原则上第一是可靠性(对事后概率P(B|A)的阈值=65%),第二是保存率(60%),第三是增长率(60%)。
(i)平凡解的检测
在三个候选切断高度α0、α1、α2中,得到最佳值的频率较高的是α0,为所有的28件示范图中的13件。如果包括α0给出最适解(最佳值或较佳值),则为所有的28件示范图中的20件,因而决定取α0作为第一候选。
(ii)平凡解的阈值检测(前提条件的检测)
如果限于所有的28件示范图中的取中点距离m<0.9的(存在12件)来适用候选切断高度,则全部12件(100%)中,α0成为最适解(可靠性100%)。
因而导出以下的条件式。
m < 0.9 &DoubleRightArrow; &alpha; = &alpha; 0
(iii)其余前提条件下的规则检测
对于示范图中其余的取m≥0.9的示范图(16件)进行分析。中点距离m大是指树状图的高度高。因此,调查所有的28件示范图的高度后,发现以下规则:
…式1
在这里,把「簇面积s/树状图面积S」定义为簇密度,把「基台<h0>/中点距离m」定义为基台比率。即,以94%的概率获得「簇密度高基台比率高」的规则。
(iii—a)s/S≥0.345 &<h0>/m≥0.5的情况下
因此,对于此17件,如果在以条件m≥0.9精简之前(17件)和精简之后(有11件)比较最适解的概率,则如下所示。
[表3]
 
事前概率        事后概率
α<sub>0</sub> 10件/17(59%)→5件/11(45%)
α<sub>1</sub> 3件/17(18%)→4件/11(36%)
α<sub>2</sub> 12件/17(71%)→9件/11(82%)
事后概率高且件数变动少的是α2(可靠性82%,保存率75%)。因此,导出以下的条件式。
Figure C200580030724D00321
使s/S的条件和<h0>/m的条件交叉是为了避免错误判定。
(iii—b)m/H<0.55的情况下
接着,应该考虑m≥0.9而s/S<0.345或<h0>/m<0.5的情况,不过,符合件数少5件,因而按不同的条件分支重新再次分析m≥0.9的16件。由于再次进行分析的目的在于导出与密度低或高度低有关的条件式,所以按高度和密度来考虑条件分支。
对于高度,把「中点距离m/最终结合高度H」定义为高层度,分成m/H≥0.55(高层型)和m/H<0.55(下方群生型)。
关于密度,根据上述式1,由于簇密度s/S和基台比率<h0>/m之间的相关值较高,因而首先探讨与基台比率<h0>/m的大小对应的条件式。在所有的28件示范图中,如果在以条件m≥0.9精简之前(28件)和精简之后(16件)比较最适解的概率,则
在m/H≥0.55(高层型)中:
关于基台比率<h0>/m<0.4,事前概率为零,
关于基台比率<h0>/m≥0.4,未发现事前事后概率有大变化,
结果,未导出有意义的规则。
在m/H<0.55(下方群生型)中:
首先,当基台比率<h0>/m<0.4时,如下表所示:
[表4]
 
事前概率       事后概率
α<sub>0</sub> 8件/8(100%)→3件/3(100%)
α<sub>1</sub> 5件/8(63%)→1件/3(33%)
α<sub>2</sub> 3件/8(38%)→0件/3(0%)
因而可以采用α0(可靠性100%),并可以导出以下条件式。
Figure C200580030724D00331
另一方面,当基台比率<h0>/m≥0.4时,则如下所示:
[表5]
 
事前概率      事后概率
α<sub>0</sub> 6件/8(75%)→0件/3(0%)
α<sub>1</sub> 2件/8(25%)→2件/3(67%)
α<sub>2</sub> 5件/8(63%)→3件/3(100%)
虽然α1和α2的事后概率提高,但是对于两者比较保存率、增长率之后,可以采用α1(可靠性67%、保存率100%、增长率168%),并可以导出以下条件式。
Figure C200580030724D00332
(iii—c)m/H≥0.55的情况下
接着,对于(iii—b)中未决定的m≥0.9、m/H≥0.55(高层型)的情况进行分析。
在这里,根据簇密度s/S,在以条件m≥0.9精简之前和精简之后比较最适解的概率。
首先,当簇密度s/S<0.4时,则如下表所示:
[表6]
 
事前概率      事后概率
α<sub>0</sub> 3件/4(75%)→2件/3(67%)
α<sub>1</sub> 1件/4(25%)→1件/3(33%)
α<sub>2</sub> 2件/4(50%)→2件/3(67%)
虽然事后概率(可靠性)高的是α0和α2,但是由于两者之间没有明显差别,所以可以采用事前概率高的α0,并可以导出以下的条件式。
Figure C200580030724D00341
接着,当簇密度s/S≥0.4时,则如下表所示:
[表7]
 
事前概率      事后概率
α<sub>0</sub> 3件/8(38%)→2件/7(29%)
α<sub>1</sub> 3件/8(38%)→2件/7(29%)
α<sub>2</sub> 7件/8(88%)→6件/7(86%)
可以采用事后概率高的α2(可靠性86%,保存率86%),可以导出以下条件式。
Figure C200580030724D00342
另外,对于m≥0.9、m/H<0.55(下方群生型)的情况,也对应于簇密度s/S进行分析时,
关于簇密度s/S<0.4,未发现事前事后概率有大变化,
关于簇密度s/S≥0.4,事后概率为零,
结果,未导出有意义的规则。
(iv)总结
综上所述,作为选出最适合的切断高度α的规则,可以得到下式。
α=F0(m,0.9;α0,F0(<h0>/m,0.5;A,B))
B=F0(s/S,0.345;A,α0)
A=F0(m/H,0.4;F0(<h0>/m,0.4;α0,α1)、F0(s/S,0.4;α0,α2))
此处,Fθ(x,γ;y,z)=θ(x<γ)y+θ(x≥γ)z
另外,θ(X)是在命题X为真时返1,除此以外时返0的函数。即,Fθ(x,γ;y,z)是在x<γ时返y,在x≥γ时返z的函数。
这样导出的关联规则,随着来自输入装置2的输入等而存放到记录装置3的条件记录部310中。另外,此关联规则依存于示范图,因而例如如果对应分析对象树状图的元素数来更新示范图,并再次进行关联规则分析,即可导出与此不同的关联规则。
<4—1—4.簇抽取顺序>
接着,说明采用以上述方法导出的关联规则而决定的切断位置,切断树状图,抽取簇的具体顺序。
图5是说明实施例1(均衡切断法;BC法)中的簇抽取过程的流程图。此流程图比图3更详细地表示本实施例1的顺序。对于与图3相同的步骤,在图3的步骤编号中加上100,并且后两位取与图3相同的步骤编号,有时省略与图3重复的说明。
图6是表示实施例1中的簇抽取过程的树状图配置例的图,是补充图5的图。E1~E11表示文件元素,在这里为了方便,下标越小,则文件元素所具有的时间t越小(越早)。
首先,处理装置1的文件读出部10,从记录装置3的文件存放部330读出作为分析对象的多个文件元素(步骤S110)。
接着,处理装置1的时间数据抽取部20,从作为分析对象的文件集团的各文件元素中抽取时间数据(步骤S120)。
接着,处理装置1的索引语数据抽取部30,从作为分析对象的文件集团的各文件元素中抽取索引语数据(步骤S130)。此时,如后所述,由于不需要文件集团中的最早元素(最早的文件元素)E1的索引语数据,因而优选的是基于在步骤S120中所抽取的时间数据,仅抽取除最早元素以外的索引语数据。
接着,处理装置1的类似度运算部40计算各文件元素间的类似度(步骤S140)。此时,也与上述一样,仅计算除最早元素以外的元素间的类似度。
接着,处理装置1的树状图制成部50,制成由作为分析对象的文件集团的各文件元素组成的树状图(步骤S150:图6(A))。此时,不管最早元素E1与其他元素的类似度如何,都将其配置在树状图的前端。
接着,处理装置1的切断条件读出部60读出切断条件(步骤S160)。在这里,读出树状图的参数读出条件和通过上述关联规则分析而导出的关联规则。
接着,簇抽取部70进行簇抽取。首先,按照上述所读出的参数读出条件来读出树状图的参数(步骤S171)。接着,将所读出的上述关联规则应用于该参数,决定树状图的切断高度α(步骤S172:图6(B))。按照所决定的切断高度,切断树状图,抽取簇(步骤S173)。在这里,按照所抽取的簇的数量,从上述前端元素E1制成分支线(参照图6(C))。
接着,对于所抽取的各簇进行以下处理。
首先,对各簇的文件元素数进行计数(步骤S174)。对于文件元素超过3个的簇,将该簇的最早元素E7排除而配置在该簇的前端,制成由其余簇内元素E8~E11构成的部分树状图(步骤S175:图6(C))。此时,所制成的部分树状图,除了被除外的该簇的最早元素E7以外,形成与步骤S150中最初制成的树状图中相当于该簇的部分大体相同的结构。此处,因为该簇的最早元素E7被除外,所以该簇内的元素群间距离发生变化。因此,如果基于其余的簇内元素E8~E11的内容数据进行再次分析,则与步骤S150中制成的树状图相比,可能结构会有所不同。例如,作为文件元素和文件元素群的距离(不类似度)或者文件元素群和文件元素群的距离(不类似度),采用重心间距离或总距离平均值来制成树状图时,相对于图6(B)中的元素E7及E8与元素E9之间的距离,图6(C)中的元素E8与元素E9之间的距离会有所不同,因此,该部分会形成不同结构。
对于部分树状图的所制成的簇,返回到步骤S171,读出该部分树状图的参数,在步骤S172中决定切断高度α(图6(D))。
由于部分树状图的参数成为与步骤S150中最初制成的树状图的参数不同的值,因而即使适用相同的关联规则,切断高度α也会变化。在步骤S173中,在此新切断高度上进行切断,抽取子孙簇。另外,作为适用于部分树状图的关联规则,与再次使用适用于最初的树状图的关联规则相比,优选的是采用其他的关联规则。优选的是,这种关联规则,是以元素数与作为适用对象的(部分)树状图中包含的文件元素数相等的示范图为基础,进行关联规则分析而导出的。
另一方面,对于所抽取的簇中的文件元素数为3以下的簇,按照由配置条件读出部80所读出的(步骤S180)配置条件,簇内元素配置部90基于各文件元素的时间数据而决定文件元素群在簇内的排列(步骤S190:图6(E))。此时的配置条件,优选的是例如基于时间数据,按从早到晚的顺序排列成一列,不过也可以是后述实施例6~8所涉及的配置等其他条件。
在以上说明的方法中,由于每次返回到步骤S171时则适用不同的切断高度α,所以将其命名为「可变BC法」。相对于此,如图5中的虚线所示,也可以不对簇内的文件元素数进行计数,而是从步骤S173直接过渡到步骤S180,基于时间数据进行排列。将其命名为「固定BC法」。
图7是表示根据实施例1方法而生成的文件相关图的具体例子的图。将根据关键字检索而抽取到的与清酒有关的17件日本专利申请的各公开公报作为文件元素进行分析,在文件相关图上对于各文件元素记入专利申请号和发明名称。在此例子中,通过1次切断使所有簇的件数为阈值(3)以下,所以在可变BC法和固定BC法中输出结果相同。
<4—1—5.实施例1的效果>
根据本实施例1,通过进行由树状图切断的簇抽取和根据时间数据的簇内排列的决定,可以制成适当地表示出每个领域的时间性发展的树状图。
特别是,根据关联规则分析而导出树状图的切断规则,因而可以采用可适用于各种树状图(通用性高)的切断规则,所以能以高概率实现在切断理想值的切断。此外,通过增加示范图的事例数,可以容易地进一步提高切断规则的精度。
而且,由于基于示范图的形状参数而导出关联规则,因而可以采用能够决定适于树状图形状的恰当切断位置的、可靠性较高的切断规则。
此外,通过读取分析对象树状图的形状参数并对其适用关联规则,可以决定切断位置,因而以较少计算量即可决定切断位置。
<4—2.实施例2(余维降低法;CR法)>
在余维数降低法(Codimensional Reduction Method)中,与实施例1(均衡切断法;BC法)一样,采用关联规则决定树状图的切断位置。在实施例1中采用可以根据树状图的几何形状得到的参数,采用元素间的结合高度作为切断位置,而在本实施例2中,采用表示文件元素矢量间的差异的索引语维数来决定切断位置。
由于已经在实施例1中进行了与关联规则分析有关的基本说明,因而将其省略,首先对于在本实施例2的关联规则分析中所使用的参数,说明与实施例1的差异点。
<4—2—1.参数的说明>
当在树状图中给出某一节点(结节点)c时,以整数i(c)表示其结合等级。设第一对结合的结合等级i(c)=0,设其上1级的结合的结合等级i(c)=1。另外,在后述图9(A)中,对于各个节点c1~c7分别给出结合等级i(c)。
在作为结合等级i(c)的某一节点c中,从在该节点c结合的文件元素群(属于以节点c为顶点的部分树状图的所有文件元素)的索引语和集合的维数Dc中减去索引语频率TF(E)在文件元素中取值相同的索引语维数后的剩余维数设为R(i;c)(将其称为余维数)。
另外,Dc虽然取树状图的全部元素的索引语和集合的维数D以下的值,不过也可以认为在以节点c结合的文件元素群中未包含(各文件元素E中包含0个)的索引语的索引语频率TF(E)在以节点c结合的文件元素群中全部取同一值0。在此情况下,余维数R也可以定义为从树状图的全部元素的索引语和集合的维数D中减去在以该节点c结合的文件元素间取同一索引语频率(包含0)的索引语的维数后所得到的维数。
索引语和集合的维数Dc或D的大小,与属于该节点以下的部分树状图或整个树状图的文件元素间的偏差大小关系密切。另外,虽然索引语和集合的维数Dc或D较大,但共用索引语频率TF(E)的索引语较多(余维数R小),就意味着文件元素间的差异不太大。反过来,索引语和集合的维数Dc或D大,共用索引语频率TF(E)的索引语少(余维数R大),就意味着文件元素间的差异大。本实施例2是要利用此性质来决定树状图的切断位置的。如果实施例1(均衡切断法;BC法)中使用的参数是与树状图的形状有关系的几何参数,则可以说余维数是非几何参数。
在本实施例2中,把余维数R超过某值(临界维数Dα)的节点c全部切断。作为用于求出此临界维数的参数,也采用实施例1中使用的中点距离m、基台<h0>、高度H、簇密度s/S等几何参数。
另外,作为关联规则分析中使用的参数,也可以采用上述参数以外的各种其他参数,例如也可以采用包含结合高度d的平均值及偏差中的任意一方或两方作为变量的函数。例如,也可以代替上述中点距离m而使用结合高度平均值<d>,还可以代替上述基台<h0>而使用结合高度的平均值<d>和标准偏差σd,或使用<d>—σd或者<d>—2σd
<4—2—2.关联规则的导出例>
用于导出临界维数Dα的关联规则的计算方法与实施例1相同。即,预先对于多数示范图求出理想的临界维数Dα。进而分析示范图的几何参数和理想临界维数Dα的关系。然后,求出用于导出可以尽可能地再现示范图的切断位置的临界维数Dα的规则,将其作为对各种参数的条件式。
以下表示所求出的关联规则的一个例子。省略对该关联规则的导出过程等的说明。
Dα=D×(s/S)×(m/<h0>)×[θ(s/S≤0.2){θ(m≤0.5H)+(1/2)θ(m>0.5H)}+(1/2)θ(s/S>0.2)]
此处,θ(X)是在命题X为真时返1,除此以外时返0的函数。
该关联规则随着来自输入装置2的输入等而被存放到记录装置3的条件记录部310中。
<4—2—3.簇抽取顺序>
接着,说明采用已导出的关联规则而决定的临界维数,切断树状图,抽取簇的具体顺序。在本实施例2中,全部计算出作为分析对象的树状图的各节点c的余维数R(i;c)。并且,将余维数R(i;c)超过临界维数Dα的节点c全部切断。
图8是说明实施例2(余维数降低法;CR法)中的簇抽取过程的流程图。此流程图比图3更详细地表示出本实施例2的顺序。对于与图3相同的步骤,在图3的步骤编号上加上200,并且后两位取与图3相同的步骤编号,有时省略与图3重复的说明。
图9是表示实施例2中的簇抽取过程的树状图配置例的图,是补充图8的图。E1~E9表示文件元素,在这里为了方便,下标越小,则表示文件元素的所具有的时间t越小(越早)。
首先,处理装置1的文件读出部10从记录装置3的文件存放部330读出作为分析对象的多个文件元素(步骤S210)。
接着,处理装置1的时间数据抽取部20从作为分析对象的文件集团的各文件元素中抽取时间数据(步骤S220)。
接着,处理装置1的索引语数据抽取部30从作为分析对象的文件集团的各文件元素中抽取索引语数据(步骤S230)。此时,如后所述,由于不需要文件集团中的最早元素(最早的文件元素)E1的索引语数据,因而优选的是基于在步骤S220中所抽取的时间数据,仅抽取除最早元素以外的索引语数据。
接着,处理装置1的类似度运算部40计算各文件元素间的类似度(步骤S240)。此时,也与上述相同,只计算除最早元素以外的元素间的类似度。
接着,处理装置1的树状图制成部50制成由作为分析对象的文件集团的各文件元素组成的树状图(步骤S250:图9(A))。此时,不管最早元素E1与其他元素的类似度如何,都将其配置在树状图的前端。
接着,处理装置1的切断条件读出部60读出切断条件(步骤S260)。在这里,读出树状图的参数读出条件和通过上述关联规则分析而导出的关联规则。
接着,簇抽取部70抽取簇。首先,按照所读出的上述参数读出条件来读出树状图的参数(步骤S271)。接着,对此参数适用上述所读出的关联规则,决定用于判定树状图的切断位置的临界维数Dα(步骤S272)。
接着,从结合等级i=0的节点(第一对)开始按顺序进行以下处理。首先,计算出处理对象节点c的余维数R(i;c)(步骤S273)。比较余维数R(i;c)和临界维数Dα(步骤S274),如果R(i;c)>Dα,则切断该节点(步骤S275),过渡到步骤S276。如果R(i;c)≤Dα,则不切断,直接过渡到步骤S276。
在步骤S276中,判定对当前结合等级i的全部节点的处理是否结束。如果对当前结合等级i的处理尚未结束(步骤S276:否),则返回到步骤S273,对下面的节点c进行处理。如果对当前结合等级i的处理全部结束(步骤S276:是),则判定对于全部结合等级的全部节点的处理是否结束(步骤S277)。
如果全部结合等级的处理尚未结束(步骤S277:否),则转移到下面的结合等级,所以i:=i+1(步骤S278),则返回到步骤S273中,对下面的结合等级的节点c进行处理。如果全部结合等级的处理全部结束(步骤S277:是),则结束簇抽取部70的处理,过渡到步骤S280。
图9(B)是表示关于各个节点c1~c7的余维数R和临界维数Dα的比较结果的例子。在此例子中,对于节点c1~c5判定余维数R为临界维数Dα以下,对于节点c6及c7判定余维数R超过临界维数Dα。因此,在上述步骤S275中切断节点c6及c7而抽取簇。在此例中,尽管节点c5的结合高度高于节点c6(所结合的文件元素群间的不类似度高),但是节点c5的余维数为临界维数Dα以下,因而在节点c5没有被切断。如此例所示,本实施例2中的切断位置与树状图中的结合高度没有直接关系。
在本实施例2中从下位节点(i=0)开始按顺序对余维数R和临界维数Dα进行比较。当给出某一下位节点c时,在位于其上游的上位节点结合的文件元素群,包含在该下位节点c结合的全部文件元素E。因此,上位节点具有比下位节点c的余维数R大的余维数R。因此,例如,如图9(B)的例子所示,当判定下位节点c6的余维数R(2;c6)超过临界维数Dα时,可以省略位于其上游的上位节点c7的余维数R(3;c7)的计算及与临界维数Dα的比较。
接着,配置条件读出部80读出簇内的配置条件(步骤S280)。簇内元素配置部90,按照此配置条件,基于各文件元素的时间数据,决定文件元素群在簇内的排列(步骤S290:图9(C))。此时的配置条件,优选的是例如基于时间数据,按时间从早到晚的顺序排列成一列,不过也可以是后述实施例6~8所涉及的配置等其他条件。
另外,在上述例子中,为了求出余维数R而从索引语和集合的维数中减去的索引语,虽然与索引语频率TF(E)相同,但是也可以是此外的其他频率。例如,也可以是索引语频率TF(E)的偏差比以规定方法决定的值小的索引语(索引语频率TF(E)的标准偏差为一定值以下的索引语等)。而且,在文件元素E分别由多个文件组成时,优选的是代替索引语频率TF(E)而设为全局频率GF(E)。此外,在使用索引语频率TF(E)或全局频率GF(E)以外的频率作为文件元素的矢量成分量时,优选的是该矢量成分量的偏差比以规定方法决定的值小的索引语。
图10是表示根据实施例2的方法而生成的文件相关图的具体例子的图。把与实施例1的图7相同的公开公报作为文件元素进行分析,在文件相关图上对于各文件元素记入专利申请号和发明名称。在此例中,与图7不同,不生成仅有1件文件元素的簇。在本实施例2中,为了生成仅有1件文件元素的簇,对于2~3件左右的文件元素群,余维数R需要达到临界维数Dα,不过对于2~3件左右的文件元素,索引语和集合的维数低,因而一般认为余维数R达不到临界维数Dα。这样,由于在各簇中分别按时间顺序排列了多个文件元素,因而可以获得容易把握在时间上的流向的文件相关图。
<4—2—4.实施例2的效果>
根据本实施例2,通过进行由树状图切断的簇抽取和根据时间数据的簇内排列的决定,可以制成适当地表示出每个领域的时间性发展的树状图。
特别是,由于根据关联规则分析而导出树状图的切断规则,所以能采用可适用于各种树状图(通用性高)的切断规则,能以高概率实现在切断理想值的切断。此外,通过增加示范图的事例数,可以容易地进一步提高切断规则的精度。
而且,由于参考矢量维数来导出切断规则,因而能获得恰当的分支。
此外,由于对每个节点进行切断基准的判定,并基于判定结果而单独地切断各节点,因而能获得更恰当的分支。
<4—3.实施例3(细胞分裂法;CD法)>
在细胞分裂法(Cell Division Method)中,在以某方法决定的切断高度α上切断树状图并抽取母簇之后,为了再把各母簇分成子簇,仅采用属于各母簇的文件元素,再次制成该部分的树状图。在制成该部分树状图时,除去该母簇中的文件元素矢量成分偏差值小于以规定方法决定的值的索引语维数而进行分析。
<4—3—1.簇抽取顺序>
图11是说明实施例3(细胞分裂法;CD法)中的簇抽取过程的流程图。此流程图比图3更详细地表示出本实施例3的顺序。对于与图3相同的步骤是在图3的步骤编号上加上300,并且后两位取与图3相同的步骤编号,有时省略与图3重复的说明。
图12是表示实施例3中的簇抽取过程的树状图配置例的图,是对图11进行补充的图。E1~E10表示文件元素,在这里,为了方便,下标越小表示文件元素具有的时间t越小(越早)。
首先,处理装置1的文件读出部10从记录装置3的文件存放部330读出作为分析对象的多个文件元素(步骤S310)。
接着,处理装置1的时间数据抽取部20从作为分析对象的文件集团的各文件元素中抽取时间数据(步骤S320)。
接着,处理装置1的索引语数据抽取部30从作为分析对象的文件集团的各文件元素中抽取索引语数据(步骤S330)。此时,如后所述,由于不需要文件集团中的最早元素(最早的文件元素)E1的索引语数据,因而优选的是基于在步骤S320中所抽取的时间数据,仅抽取除最早元素以外的索引语数据。
接着,处理装置1的类似度运算部40计算各文件元素间的类似度(步骤S340)。此时,也与上述一样,只计算除最早元素E1以外的元素间的类似度。
接着,处理装置1的树状图制成部50制成由作为分析对象的文件集团的各文件元素组成的树状图(步骤S350:图12(A))。此时,不管最早元素E1与其他元素的类似度如何,都将其配置在树状图的前端。
接着,处理装置1的切断条件读出部60读出切断条件(步骤S360)。在这里,读出切断高度α、后述的偏差判定阈值等。
接着,簇抽取部70进行簇抽取。首先,在切断高度α=a(此处,结合高度d=a—bcosθ)切断树状图(步骤S371:图12(B))。在α=a而未产生簇分离时(步骤S372),在α*=<d>+δ σd(此处优选的是—3≤δ≤3。特别优选的是0≤δ≤2,最优选的是δ=1。)进行切断(步骤S373)。切断树状图之后,把各簇内的最早元素E2、E7配置在该各簇的前端(步骤S374:图12(C))。对于各簇的除该各最早元素以外的文件元素群进行以下处理。
首先,对于各簇,进行删除最早元素以外的簇内元素间的偏差值小于以规定方法决定的值的索引语维数的处理(步骤S375)。例如,在把图12的文件元素E2作为前端的簇中,文件元素E3、E4、E5、E6的索引语和对于各个索引语所计算出的各文件元素矢量的成分值分别如下表所示。
[表8]
(各文件元素的索引语和矢量成分值)
 
索引语 E<sub>3</sub> E<sub>4</sub> E<sub>5</sub> E<sub>6</sub> 平均 标准偏差
w<sub>a</sub> 30 20 20 30 25 5
w<sub>b</sub> 90 90 80 80 85 5
w<sub>c</sub> 10 10 20 20 15 5
w<sub>d</sub> 70 70 100 100 85 15
w<sub>e</sub> 12 10 12 10 11 1
w<sub>f</sub> 30 40 40 30 35 5
例如在以标准偏差相对于簇内平均的比率将偏差的判定阈值规定为10%时,则将索引语wb及we判定为偏差小的值而删除。
接着,对于各簇,制成由除上述最早元素以外的簇内元素组成的部分树状图(步骤S376:图12(D))。以表8的例子来说,采用其余的索引语wa、wc、wd、wf制成部分树状图。因此,能获得与在步骤S350中制成的树状图中的分支不同的簇内分支。特别是,删除了偏差值小的索引语维数,因而强调了其余索引语之间的差异。因此,即使文件元素间的类似度相同,与在步骤S350中制成树状图时的类似度相比,在本步骤S376中制成部分树状图时的类似度被评价得较小(不类似度大)。
在这里,对于各簇,取得除最早元素以外的簇内元素数,与规定阈值(例如3)进行比较(步骤S377)。如图12(D)的文件元素E3~E6所示,在除最早元素E2以外的文件元素数超过阈值时(步骤S377:否),返回到步骤S371切断树状图,抽取子孙簇。此时的切断高度α(或α*)如步骤S371(或步骤S373)中所述的那样,删除了偏差值较小的索引语维数,类似度被评价得较小,因而即使切断高度α(或α*)相同,也可能再次对树状图进行切断。另外,当抽取子孙簇时,在步骤S373的切断高度α*进行切断时,可以对应被切断的母簇中的各结合位置的高度d相应地更新α*(可变法),也可以直接采用α*的初始值(固定法)。
如图12(D)的文件元素E8~E10那样,当除簇内最早元素E7以外的文件元素数为阈值以下时(步骤S377:是),最后在切断高度α=a对该簇进行切断(步骤S378:图12(E))。在本步骤S378中,即使在实际未产生簇分离的情况下,也转移到步骤S380。
在步骤S380中,配置条件读出部80读出簇内的配置条件。按照此配置条件,簇内元素配置部90基于各文件元素的时间数据,决定文件元素群在簇内的排列(步骤S390:图12(F))。
例如在步骤S378中,当在图12(E)的切断高度α=ax进行切断而未产生簇分离时,则形成该簇的文件元素E7~E10的时间数据顺序的串联链排列(图12(F))。
而且,例如在步骤S378中,当在图12(E)的切断高度α=ay进行切断时,则从文件元素E7分支成文件元素E8、文件元素E9及E10的时间数据顺序的串联链(未图示)。
而且,例如在步骤S378中,当在图12(E)的切断高度α=az进行切断时,则从文件元素E7分支成文件元素E8、文件元素E9和文件元素E10这三条分支(未图示)。
关于簇内的配置条件,如该例所示,虽然优选的是基于时间数据按时间从早到晚的顺序进行排列,但是也可以是后述实施例6~8所涉及的其他配置条件等。
另外,虽然说明了以标准偏差相对于平均值的比率将偏差的判定阈值设定为10%的例子,但是这只是适于各文件元素由1个文件组成的情况的例子。各文件元素由1个文件组成时的判定阈值,优选的是0%以上10%以下。
另一方面,在各文件元素由多个文件组成时,如果簇内文件元素的标准偏差相对于平均值的比率为60%或70%以下,则优选的是取偏差小的比率进行处理。
图13是表示根据实施例3的方法而生成的文件相关图的具体例子的图。将与实施例1的图7相同的公开公报作为文件元素,采用TF*IDF(P)作为文件元素矢量的成分值,采用a=1作为切断高度α进行分析,在文件相关图上对于各文件元素记入专利申请号和发明名称。在该例中,进一步切断在步骤S376中所制成的1个部分树状图,形成2个阶段的分支。
图14是表示根据实施例3的方法而生成的文件相关图的另一具体例子的图。对于以某家用化学品制造厂为申请人的大约4000件日本专利公开公报中的16个主要领域,分别根据关键字检索而选出应属于各个领域的文件群,把各个领域的文件群分别作为1个文件元素(宏元素)。按照实施例3,把最早元素排除而配置在前端,进行由其余15个元素的树状图的制成及树状图切断,从而获得如图所示的分支结构。采用申请日的平均值作为各文件元素的时间数据t,采用GFIDF(E)作为文件元素矢量的成分值,采用a=1作为切断高度α,采用70%作为偏差的判定阈值。在文件相关图中记入对上述16个领域附加特征的关键字。
<4—3—2.实施例3的效果>
根据本实施例3,通过进行由树状图切断的簇抽取和根据时间数据的簇内排列的决定,可以制成适当地表示出每个领域的时间性发展的树状图。
特别是,在抽取母簇后,根据通过对各母簇再次进行分析而制成的部分树状图来抽取子簇,因而能改善子簇的错误分类而获得恰当的分类。
此外,由于在抽取母簇后,除去了在属于各母簇的文件元素间的偏差值小于以规定方法决定的值的矢量成分,因而能根据与母簇的抽取观点不同的观点来抽取子簇。例如,在对与着色材料有关的多个文件元素进行分类时,在抽取母簇时,根据溶剂的不同大致分为使用低沸点溶剂的群和使用高沸点溶剂的群。在抽取子簇时,由于在各母簇中除去与偏差较小的溶剂有关的索引语,因而例如强调颜料的不同而大致分为使用有机类颜料的群和使用无机类颜料的群。当在各母簇中未除去偏差较小的索引语时,与溶剂有关的更细分类有可能同与颜料有关的分类冲突,因而不能获得恰当的子簇,但是在本实施例3中,由于强调簇内的不同,因而能获得在子孙簇的恰当分类。
<4—4.实施例4(阶段性切断法;SC法)
按照阶段性切断法(Stepwise Cutting Method)>,在2个以上的切断高度αi、αii(固定值)切断树状图,抽取母簇及子孙簇。
<4—4—1.簇抽取顺序>
图15是说明实施例4(阶段性切断法;SC法)中的簇抽取过程的流程图。此流程图比图3更详细地表示出本实施例4的顺序。对于与图3相同的步骤,在图3的步骤编号上加上400,并且后两位取与图3相同的步骤编号,有时省略与图3重复的说明。
图16是表示实施例4中的簇抽取过程的树状图配置例的图,是对图15进行补充的图。E1~E14表示文件元素,在这里,为了方便,下标越小,则文件元素所具有的时间t越小(越早)。
首先,处理装置1的文件读出部10从记录装置3的文件存放部330读出作为分析对象的多个文件元素(步骤S410)。
接着,处理装置1的时间数据抽取部20从作为分析对象的文件集团的各文件元素中抽取时间数据(步骤S420)。
接着,处理装置1的索引语数据抽取部30从作为分析对象的文件集团的各文件元素中抽取索引语数据(步骤S430)。此时,如后所述,由于不需要文件集团中的最早元素(最早的文件元素)E1的索引语数据,因而优选的是基于在步骤S420中所抽取的时间数据,仅抽取除最早元素以外的索引语数据。
接着,处理装置1的类似度运算部40计算各文件元素间的类似度(步骤S440)。此时,也与上述一样,只计算除最早元素以外的元素间的类似度。
接着,处理装置1的树状图制成部50制成由作为分析对象的文件集团的各文件元素组成的树状图(步骤S450:图16(A))。此时,不管最早元素E1与其他元素的类似度如何,都将其配置在树状图的前端。
接着,处理装置1的切断条件读出部60读出切断条件(步骤S460)。在这里,读出切断高度αi、αii(此处,αiii)或它们的计算方法等。例如,设为αi=a,αii=a—0.2b(此处,结合高度d=a—bcos θ)。而且,例如采用α*=<d>+δ σd(此处—3≤δ≤3。特别优选的是0≤δ≤2),设为αi=<d>+σd,αii=<d>。而且,设切断高度为αi、αii、αiii(此处,αiiiiii)3处时,例如在以相关系数定义类似度时,也可以如αi=a+b(反相关),αii=a(无相关),αiii=a—0.3b(强相关的阈值)那样,设类似度的代表点。
接着,簇抽取部70进行簇抽取。首先,在切断高度α=αi切断上述树状图(步骤S471:图16(B))。并且,读取以该切断线切断的分支线的数量(第一分支数),从在步骤S450中排除的最早元素E1中直接引出与第一分支数相当的数量的分支线(步骤S472:图16(C))。该第一分支数即为母簇的数量。
接着,在切断高度α=αii切断相同的树状图(步骤S473:图16(D))。并且,对于每个母簇来读取以该切断线切断的分支线的数量(第二分支数),从各母簇的线中直接减去与该母簇的第二分支数相当的数量的分支线(步骤S474)。对于全部母簇统计此第二分支数所得到的数即为子簇的总数。对簇的抽取到此结束。
由于如上所述地抽取簇,所以接下来,配置条件读出部80读出簇内的配置条件(步骤S480)。按照此配置条件,簇内元素配置部90基于各文件元素的时间数据,决定文件元素群在簇内的排列(步骤S490:图16(E))。此时的配置条件,虽然优选的是例如基于时间数据,按从早到晚的顺序排列成一列,但是也可以是后述实施例6~8所涉及的其他配置条件等。
如上所述,在步骤S472中从最早元素中直接引出与第一分支数相当的数量的分支线。因此,例如,如图16(B)的树状图所示,在母簇[1]和母簇[2]及[3]位于相互不同分级时,也能如图16(C)所示地统一处理比切断高度αi靠上的分级结构。因此能简化树状图。
而且,如上所述,在步骤S474中从各母簇的线中直接引出与该母簇的第二分支数相当的数量的分支线。因此,例如,如图16(D)的树状图所示,即使从母簇[1]分支的子簇[11]及[12]与子簇[13]位于相互不同的分级时,也能如图16(E)所示地统一处理切断高度αi和αii之间的分级结构。因此能简化树状图。
而且,例如,如图16(D)所示,即使从母簇[1]分支的子簇[11]、[12]及[13]和从母簇[3]分支的子簇[31]及[32]分别在各个高度上结合时,也能使它们如图16(E)所示地在相同高度上结合。因此,能统一地处理切断高度αi和αii之间的结合高度的差异,从而简化树状图。
在可以这样大大简化树状图的同时,还能维持在切断高度αi上的第一分支数和在切断高度αii上的第二分支数。因此,能大大简化树状图的分级结构,并且制成反映出当初的树状图分级结构的文件相关图。
图17及图18是表示根据实施例4的方法而生成的文件相关图的具体例子的图。把与实施例1的图7相同的公开公报作为文件元素进行分析,在文件相关图上对于各文件元素记入专利申请号和发明名称。在本实施例4中,在生成子孙簇前不进行抽取最早元素的操作,因而在整个树状图的最早元素和子孙簇之间没有配置母簇的最早元素,只显示树状图结构。另外,图17是通过切断采用未实施标准化的类似度(余弦)制成的树状图所得到的,图18是通过切断采用实施标准化后的类似度(相关系数)制成的树状图所得到的。
<4—4—2.实施例4的效果>
根据本实施例4,通过进行由树状图切断的簇抽取和根据时间数据的簇内排列的决定,可以制成适当地表示出每个领域的时间性发展的树状图。
特别是,例如在以αi=a、αii=a—0.2b这样的常数进行切断时,由于在预定的多个切断高度进行切断,因而不必为了决定切断位置而进行复杂计算,因而能容易地获得恰当的分支。
而且,例如在按照包含αi=<d>+σd、αii=<d>之类的结合高度d的平均值及偏差中的任意一方或两方作为变量的函数α*=<d>+δ σd进行切断时,可以广泛地对应不同的树状图形状,不必为了决定切断位置而进行复杂计算,因而能容易地获得恰当的分支。
而且,通过基于分别在多个切断位置上切断的分支线数量决定分支结构,可以适当地简化树状图的分级结构,并且制成反映出当初的树状图分级结构的文件相关图。
此外,当通过在多个切断位置上进行切断而生成母子簇时,由于即使不再制成属于母簇的文件元素的部分树状图也能生成子簇,因而以较少的计算量即可生成母子簇。
<4—5.实施例5(可变复合法;FC法)>
采用可变复合法(Flexible Composite Method)时,在多次执行树状图切断的过程中,每次进行切断时即设定新的切断高度α。例如,在按α*=<d>+δ σd(此处—3≤δ≤3。特别优选的是0≤δ≤2,最优选的是δ=1)计算出切断高度α时,第1次切断采用以属于该树状图的全部文件元素的数据作为基础而算出的α*,第2次切断采用仅以属于被切断的母簇的文件元素的数据作为基础而算出的α*
<4—5—1.簇抽取顺序>
图19是说明实施例5(可变复合法;FC法)中的簇抽取过程的流程图。此流程图比图3更详细地表示出本实施例5的顺序。对于与图3相同的步骤,在图3的步骤编号上加上500,并且后两位取与图3相同的步骤编号,有时省略与图3重复的说明。
图20是表示实施例5中的簇抽取过程的树状图配置例的一部分的图,是对图19进行补充的图。E1~EN表示文件元素,在这里为了方便,下标越小,则文件元素所具有的时间t越小(越早)。
首先,处理装置1的文件读出部10从记录装置3的文件存放部330读出作为分析对象的多个文件元素(步骤S510)。
接着,处理装置1的时间数据抽取部20从作为分析对象的文件集团的各文件元素中抽取时间数据(步骤S520)。
接着,处理装置1的索引语数据抽取部30从作为分析对象的文件集团的各文件元素中抽取索引语数据(步骤S530)。此时,如后所述,由于不需要文件集团中的最早元素(最早的文件元素)E1的索引语数据,因而优选的是基于在步骤S520中所抽取的时间数据,仅抽取除最早元素以外的索引语数据。
接着,处理装置1的类似度运算部40计算各文件元素间的类似度(步骤S540)。此时,也与上述一样,只计算除最早元素E1以外的元素间的类似度。
接着,处理装置1的树状图制成部50制成由作为分析对象的文件集团的各文件元素组成的树状图(步骤S550:图20(A))。此时,不管最早元素E1与其他元素的类似度如何,都将其配置在树状图的前端。
接着,处理装置1的切断条件读出部60读出切断条件(步骤S560)。在这里,读出切断高度α的计算方法、切断次数(分级数)上限值g等。
例如采用α*=<d>+δ σd,根据α*=<d>+σd计算出切断高度α。而且,例如在作为分析对象的文件元素数较多时等,也可以根据α*=<d>+2σd计算得出。
切断次数上限值g,相对于作为分析对象的文件元素的总数N,例如被设为,
g=[lnN÷ln10+0.5]G
或者,在反复对全部文件元素进行v分割时,也可以设为1个簇的元素数为U以下的分割次数+1(v(g-1)≤N/U<vg的解),
g=1+[ln(N/U)÷ln v]G
此处,上述[]G是高斯的整数符号,意味着将括号内的小数点以后舍掉所得到的值。或者,对于文件元素数N,也可以设为
若10<N≤20则g=1,若20<N≤300则g=2,若300<N≤1000则g=3,若1000<N则g=4。
接着,簇抽取部70进行簇抽取。首先,采用除去上述树状图中的最早元素E1以后所得到的元素E2~EN的各结合位置的高度d,计算出切断高度α* [2-N]=<d>+σd(步骤S571)。接着,判定所计算出的切断高度α* [2-N]是否比元素E2~EN的结合高度d的最大值Max(d)小(步骤S572),当小于时,按此切断高度α* [2-N]切断该树状图(步骤S573:图20(B))。对于每簇进行之后的处理。
对于各簇,在文件元素数超过规定阈值(在这里设为4。另外,作为规定阈值,优选的是4以上,10×[lnN/ln10]G以下)时(步骤S574:否),判定该簇的切断次数是否达到了上限值g,在没达到上限值g时(步骤S575:否),对于该簇,将最早元素E2排除而配置在该簇的前端,制成其余簇内元素E3~E7的部分树状图(步骤S576:图20(C))。此时所制成的部分树状图,除了将该簇的最早元素E2排除以外,形成与在步骤S550中最初制成的树状图中的相当于该簇的部分大体相同的结构。此处,由于将该簇的最早元素E2排除,因而该簇内的元素群间距离会发生变化。因此,如果基于其余簇内元素E3~E7的内容数据再次进行分析,有可能形成与在步骤S550中制成的树状图有所不同的结构。例如,作为文件元素和文件元素群的距离(不类似度)或文件元素群和文件元素群的距离(不类似度),当采用重心间距离或全部距离平均值制成树状图时,相对于图20(B)中的元素E2及E3和元素E4及E5的距离,图20(C)中的元素E3和元素E4及E5的距离不同,因而此部分会形成不同的结构。
制成簇内元素的部分树状图后,返回到步骤S571,采用除去簇内元素中的最早元素E2以后所得到的元素E3~E7的各结合位置的高度d,计算出切断高度α* [3-7]=<d>+σd。接着,判定所计算出的切断高度α* [3 -7]是否比元素E3~E7的结合高度d的最大值Max(d)小(步骤S572),当小于时,在此切断高度α* [3-7]切断该簇(步骤S573:参照图20(C))。
对于文件元素数处于上述规定阈值(在这里是4)以下的簇(步骤S574:是),与簇的切断次数无关,对于该簇,过渡到采用实施例3的细胞分裂法(CD法)等其他簇抽取法来抽取子孙簇(步骤S577)。
对于切断次数达到了上限值g的簇(步骤S575:是),与该簇的文件元素数无关,对于该簇,过渡到采用实施例3的细胞分裂法(CD法)等其他簇抽取法来抽取子孙簇(步骤S577)。
另外,作为在步骤S577中进行的其他簇抽取法,可以是实施例1的均衡切断法(BC法),也可以是实施例2的余维降低法(CR法),还可以是实施例4的阶段切断法(SC法)。
在上述步骤S572中,当切断高度α* [2-N]或α* [3-7]在元素E2~EN或E3~E7的结合高度d的最大值以上时(α*≥Max(d)),由于未实现簇分离,因而跳过树状图的切断处理,直接在步骤S574中对簇内元素数(除去最早元素E1或E2)进行判定。并且,如果簇内元素数超过上述规定阈值,则在步骤S575中对切断次数进行判定(在这里,由于切断处理被跳过,切断次数不增加,因而可以省略对切断次数的判定),在步骤S576中把下面的最早元素E2或E3排除。
这样,即使在未实现簇分离时,也将最早元素一一排除(步骤S576),如果簇内元素数在阈值以下(步骤S574),则过渡到步骤S577。
在如上所述地抽取簇之后,配置条件读出部80最后读出簇内的配置条件(步骤S580)。按照此配置条件,簇内元素配置部90基于各文件元素的时间数据,决定文件元素群在簇内的排列(步骤S590:图20(D))。此时的配置条件,优选的是例如基于时间数据,按从早到晚的顺序排列成一列,但是也可以是后述实施例6~8所涉及的其他配置条件等。
在上述说明中虽然设定了切断次数的上限值g,但是也可以采用未设定上限值g的方法。此时,省略步骤S575,如果步骤S574为「否」,则直接过渡到步骤S576,不限制切断次数地抽取子孙簇。另外,在步骤S574中优选的是,例如,如果文件元素数超过9则判定为「否」,对于文件元素数为9以下的簇则判定为「是」。
图21及图22是表示根据实施例5的方法而生成的文件相关图的具体例子的图。把根据关键字检索而抽取的与防止地基液状化的工作方案有关的60件日本专利申请及实用新型注册申请的各公开公报作为文件元素进行分析,对获得的文件相关图,为简单起见在这里只图示了一部分(35件的量)。在所图示的文件相关图上对于各文件元素记入专利申请号(此处末尾带(U)的是实用新型注册申请号),对于上位的文件元素,还要记入发明(外观设计)的名称。一般认为在实施例1~4中优选元素数小于20,而在本实施例5中,如该例所示,即使分析对象元素数较多也能获得恰当的母子簇。
另外,图21是设定了切断次数上限值g=2,设定了簇内文件元素数的阈值=4的结果,图22是对切断次数无限制,设定了簇内文件元素数的阈值=9的结果。省略了其他方法所涉及的子孙簇的抽取(步骤S577)。
在图21中,由于前端为申请号H03—320020的母簇(元素数5)的元素数超过了阈值4,所以在第2次切断时分成子簇。而且,由于以申请号S63—033662(U)为前端的子簇(元素数10)是在第2次切断时生成的,因而不再继续对其进行切断分离。
另一方面,在图22中,由于以申请号H03—320020为前端的母簇(元素数5)的元素数在阈值9以下,所以不进行第2次切断。而且,对于以申请号S63—033662(U)作为前端的子簇(元素数10),进行第3次切断,分离为孙簇。
图23是表示根据实施例5的方法而生成的文件相关图的另—具体例子的图。对于与实施例3的图14相同的16个领域的文件元素(宏元素),按照实施例5,将最早元素排除而配置在前端,进行由其余15个元素的树状图的制成及树状图切断。反复进行最早元素的排除、树状图的制成及切断,直至变成簇内元素数的上限(设为4)以下。对于簇内元素数变为上限以下的簇,分别根据实施例3(细胞分裂法;CD法)的方法再进行簇生成,获得如图所示的分支结构。采用申请日的平均值作为各文件元素的时间数据t,采用GFIDF(E)作为文件元素矢量的成分值,采用a=1作为簇内元素数变为上限以下之后的切断高度α,采用70%作为偏差的判定阈值。在文件相关图中记入对上述16个领域附加特征的关键字。
<4—5—2.变形例1>
虽然在上述步骤S550及步骤S576中,制成树状图及部分树状图时将最早元素排除,但是也可以不将最早元素排除而制成树状图及部分树状图。并且,如上所述地对该树状图进行g次切断。通过这样获得簇,就可以对文件元素进行分类。此时,对于所获得的分类,基于属于各个分类的文件元素的内容数据,附以恰当的标签,即可容易地对文件元素群进行宏分析。
图24是表示根据实施例5的变形例1所涉及的方法而生成的文件相关图的具体例子的图。制成此文件相关图的顺序如下。首先,对于以某家用化学品制造厂为申请人的约4000件日本专利公开公报,不排除最早公报而制成树状图,根据本变形例1所涉及的方法进行g次切断。制成以这样获得的27个簇作为新文件元素(宏元素)的树状图,根据实施例5的方法来抽取最早元素,对树状图进行切断。反复抽取最早元素的抽取,并对树状图进行切断,直到变为簇内元素数的上限(设为4)以下,获得如图所示的分支结构。对于各宏元素,基于属于各自的文件的内容数据而附以标签。这样,即使是由大量文件数组成的分析对象文件集团,也能宏观地进行自动分析,容易理解技术的大致流向。
<4—5—3.变形例2>
接着,说明根据变形例2所涉及的方法而生成的文件相关图。此文件相关图,首先制成某申请人X公司保存的专利文件群的文件相关图,再表示该申请人X公司所涉及的专利文件群中属于特定技术领域的专利文件群与其他公司的专利文件群具有怎样的关系。
图25是表示实施例5的变形例2所涉及的文件相关图的制成过程的图,图26及图27是表示实施例5的变形例2所涉及的文件相关图的具体例子的图。图28及图29是表示实施例5的变形例2所涉及的文件相关图中的又一显示例的一部分的图。
制成这些文件相关图的顺序如下。
首先,对于以化学制造厂X公司为申请人的全部日本专利公报(公开及注册),不排除最早公报而制成树状图。根据上述变形例1所涉及的方法进行g次切断,结果获得5个簇。
对于这5个簇中的1个簇即「功能性素材关联」的专利文件群,再次不排除最早的公报而制成了树状图。根据上述变形例1所涉及的方法进行了g次切断,结果把以上述X公司为申请人的日本专利公报中的「功能性素材关联」的专利文件群分类为文件群「EX01」至文件群「EX13」共13个簇(为了方便而附以文件群的符号「EX01」等)。
制成以这13个簇重新作为文件元素(宏元素)的树状图,根据实施例5的方法抽取最早元素,对树状图进行切断。反复抽取最早元素和对树状图进行切断,直到变为簇内元素数的上限(设为4)以下,获得如图25所示的分支结构。
基于这13个簇中的1个簇即「◇化硅的制造方法关联」的专利文件群「EX05」的内容数据(索引语数据),从包含其他公司的专利文件群的全部文件P中抽取了3000件与此专利文件群类似的文件群。
对于这样从全部文件P中抽取到的3000件专利文件,不排除最早公报而制成了树状图。根据上述变形例1所涉及的方法进行了g次切断,结果形成了文件群「E101」至文件群「E121」共21个簇(为了方便而附以文件群的符号「E121」等)。
制成以这样获得的21个簇重新作为文件元素(宏元素)的树状图,根据实施例5的方法抽取最早元素,对树状图进行了切断。反复抽取最早元素和对树状图进行切断,直到变为簇内元素数的上限(设为4)以下,获得如图26所示的分支结构。
另一方面,基于上述13个簇中的1个簇即「◇化硅的制造方法关联」的专利文件群的内容数据(索引语数据),如上所述,从在全部文件P中抽取到的3000件专利文件中,抽取了300件与此专利文件群类似的文件群。
对于这样从3000件专利文件中抽取到的300件专利文件,不排除最早公报而制成了树状图。根据上述变形例1所涉及的方法进行了g次切断,结果形成了文件群「E201」至文件群「E219」共19个簇(为了方便而附以文件群的符号「E201」等)。
制成以这样获得的19个簇重新作为文件元素(宏元素)的树状图,根据实施例5的方法抽取最早元素,对树状图进行了切断。反复抽取最早元素和对树状图进行切断,直到变为簇内元素数的上限(设为9)以下,获得如图27所示的分支结构。
在图26及图27的各文件元素中,对于以上述X公司为申请人的专利文件在件数上占上位(在这里是5位以内)的文件元素附加用于与其他文件元素相区别的强调显示,对占最上位的文件元素附加了更强的强调显示。这样的强调显示可以借助于如图所示的框线的粗细,也可以借助于颜色区分或图案等。而且,这样的强调显示不限于某申请人(本公司或其他公司)的文件是否占上位,也可以根据是否包含某申请人的1个文件或其他基准。
而且,在图26及图27中,作为纵轴的值记入了各文件元素的申请日的平均值(在这里是其西历年后的两位数)。而且,虽然在图26及图27中为了便于说明,作为各文件元素的名称,只显示了符号「E201」等,但是优选的是,基于属于各自的文件内容数据,附以显示该文件元素的内容特征的标签。
在本变形例2中,这样以与其他文件元素区别的形态来显示文件相关图的各文件元素中的具有特定属性的文件元素,例如由特定申请人的专利文件组成的文件元素或由特定申请人占优势的专利文件群组成的文件元素。这样,对于具有特定属性的文件元素例如上述特定申请人的属于某领域的专利群与其他公司的关系在内容及时间上处于什么位置,可以一目了然。如果选本公司作为上述特定申请人,则可以了解本公司技术中的属于某领域的部分在整个业界中的所在位置。进一步显示出时间轴,按照该时间轴来配置各文件元素,从而可以把握本公司技术在该技术领域的发展系统中的所在位置。
例如,如图26所示地计算出类似度,对于件数较多(在这里是类似度上位3000件)的类似文件进行分析时,可以抽取遍布较多技术领域的类似文件,了解本公司在其中的所在位置。因此,除了上述效果之外,还能发现本公司不太注意的类似技术,能找到本公司技术在其他领域适用的可能性,并且能了解其他公司的技术在内容及时间上是如何发展起来的。
如图27所示,把该3000件作为母集团,再次计算类似度,对于件数较少(在这里是类似度上位300件)的类似文件进行分析时,能在进一步精简的技术领域中特别是对与其他公司的竞争关系进行更详细的比较。
图28及图29是表示图26的文件相关图上的另一显示例的一部分的图。在这些例子中,对于各文件元素,除了根据「○化硅粉末关联」等内容数据附以标签以外,作为更详细的显示,还显示了属于该文件元素的文件数、申请人排序(公司名和件数)。通过这样增加详细的显示,可以进行更详细的分析。
详细显示的内容不限于此,也可以是专利文件的国际专利分类(IPC)、申请日(平均值或范围等)、关键字等,可以基于它们进行排序。而且,可以如图28及图29那样同时对全部文件元素进行详细显示,也可以由图像显示装置显示当初不包含详细显示的文件相关图,也可以在光标移动到1个文件元素时,追加输出与该文件元素有关的详细显示。作为详细显示的方法,可以如图28所示地扩大文件元素的记载栏本身,也可以如图29所示地引出到栏外进行显示。而且,不限于图26,对于图27或其他文件相关图也可以进行相同的详细显示。
<4—5—4.实施例5的效果>
根据本实施例5,通过进行由树状图切断的簇抽取和根据时间数据的簇内排列的决定,可以制成适当地表示出每个领域的时间性发展的树状图。
特别是,基于包含属于树状图的文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数来抽取母簇,基于包含属于各母簇的文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数来抽取子簇,因而即使元素数N较多,也能获得恰当的母子簇。
此外,由于基于包含文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数来进行簇的抽取,因而在属于树状图的文件元素群的类似度较高时等情况下,也能广泛地对应各种各样的树状图形状,从而获得恰当的母子簇。
<5.时间排列的实施例>
接着,说明与时间排列过程有关的实施例6~8。
<5—1.实施例6(竿钓排列;PLA)>
在竿钓排列(Pole—and—Line Arrangement)中,对于文件元素个数较少的簇,基于时间数据和树状图配置数据,决定在该簇内的排列。
<5—1—1.排列决定顺序>
图30是说明实施例6(竿钓排列;PLA)中的簇内排列过程的流程图。此流程图,前提是通过图3的步骤S70(簇抽取)以前的处理而抽取簇,对于图3的步骤S80(配置条件读出)及步骤S90(簇内元素排列)的部分更详细地表示了本实施例6的顺序。对于与图3相同的步骤,在图3的步骤编号上加上600,并且后两位取与图3相同的步骤编号,有时省略详细的说明。
图31是表示实施例6中的簇内排列过程的树状图配置例的图,是对图30进行补充的图。E1~E20表示文件元素,在这里为了方便,下标越小,则文件元素所具有的时间t越小(越早)。图31(A)表示通过图3的步骤S70之前的处理而抽取到的5个簇的各树状图结构。
采用实施例1(均衡切断法:BC法)、实施例2(余维数降低法:CR法)、实施例3(细胞分裂法:CD法)或实施例4(阶段切断法:SC法)等抽取簇之后,首先,配置条件读出部80读出簇内的配置条件(步骤S680)。按照此配置条件,簇内元素配置部90基于该簇内的各文件元素的时间数据及树状图配置数据,决定文件元素群在簇内的排列。
具体而言,首先,把树状图的该簇部分看作淘汰表,决定各阶段的胜者(时刻t较小的一方)(图31(B))。即,从下位的(结合高度低)节点(结节点)开始按顺序判定哪个文件元素的时间数据t小,记录该结果(步骤S691)。此判定从最下位节点(2体结合)开始一直进行到该簇的最上位节点(步骤S692)。其时,把下位节点的胜者(时间数据t更小的文件元素)作为上位节点的竞赛对象(时间数据t的比较对象)(步骤S693)。
判定到最上位节点时,则决定优胜者(最早文件元素),因而在该簇的前端配置该优胜者(步骤S694)。而且,按与该优胜者直接对战而败退的对手的数量(与最早文件元素直接比较而判定为时间数据t更大的文件元素的数量),制成从该优胜者的分支(步骤S695:图31(C))。对于各分支进行以下的处理。
接着,把这些败退的对手作为上述各分支内的优胜者,配置在各分支的前端(步骤S696:图31(D))。
再有,统计出与在各分支内的优胜者直接对战而败退的对手的数量(步骤S697)。如果败退的对手数为0,则结束该分支的处理。如果败退的对手数为1以上,则按该对手数,重新制成从该分支内的优胜者的分支(步骤S698:图31(D)),返回到步骤S696。
反复进行步骤S696~S698的处理,从而决定簇内排列(图31(E))。
<5—1—2.实施例6的效果>
根据本实施例6,通过进行由树状图切断的簇抽取和根据时间数据的簇内排列的决定,可以制成适当地表示出每个领域的时间性发展的树状图。
特别是,在决定簇内排列时,能可靠地实现时间顺序上的排列,并且在一定程度上反映出该簇内的分支结构。
<5—2.实施例7(群时序顺序;GTO)>
群时序顺序(Group Time Ordering),是在基于分类信息及较大时间单位对由多个文件组成的文件元素进行元素定义时有效的方法。基于较大时间单位进行元素定义(例如以一定年数为单位)时,有时会产生同时刻元素,在考虑按照时间序列进行排列时会造成妨碍,但是可以通过参考分类信息而决定排列来解决上述问题。
<5—2—1.排列决定顺序>
图32是说明实施例7(群时序顺序;GTO)中的簇内排列过程的流程图。此流程图,前提是通过图3的步骤S70(簇抽取)以前的处理而抽取簇,对于图3的步骤S80(配置条件读出)及步骤S90(簇内元素排列)的部分更详细地表示了本实施例7的顺序。对于与图3相同的步骤,在图3的步骤编号上加上700,且后两位取与图3相同的步骤编号,有时省略详细的说明。
图33是表示实施例7中的簇内排列过程的树状图配置例的一部分的图,是对图32进行补充的图。EA1、EB1等分别表示由多个文件组成的文件元素,在这里为了方便,下标的拉丁字母部分表示分类(国际专利分类(IPC)等),阿拉伯数字表示时间t(时间越小则越早)。
在切断高度α=a(此处,结合高度d=a—bcosθ)、α*=<d>+δ σd(此处—3≤δ≤3。特别优选的是0≤δ≤2,最优选的是δ=1。),或者在结构关联分析等而导出的切断高度上切断树状图,抽取簇(图33(A)),首先,配置条件读出部80读出簇内的配置条件(步骤S780)。按照此配置条件,簇内元素配置部90基于该簇内的各文件元素的时间数据及树状图配置数据,决定文件元素群在簇内的排列。
具体而言,首先,抽取簇内的最早元素,将其配置在该簇的前端(步骤S791)。当有多个最早元素时(图33(B)的EA1和EB1),设为并列连线下的配置。
接着,对于除上述最早元素以外的其余元素,按每个分类构成时间序列链(步骤S792:图33(B))。并且,对于在步骤S792中构成的各时间序列链,从在步骤S791中抽取的最早元素寻找分类相同的元素(步骤S793)。
对于上述时间序列链中存在相同分类的最早元素的时间序列链,与该同分类的最早元素进行连线(步骤S794)。以图33的例子来说,对于由文件元素EA2及EA3组成的时间序列链和由文件元素EB2及EB3组成的时间序列链,分别与分类相同的最早元素EA1和EB1进行连线。
对于上述时间序列链中没有分类相同的最早元素的时间序列链,从该簇内抽取与其中的最早元素类似度最高的元素。并且,从该类似度最高的元素分支,与该没有相同分类元素的时间序列链的最早元素进行连线(步骤S795:图33(C))。图33中表示与文件元素EC2类似度最高的簇内元素是文件元素EB2时,使文件元素EB2与文件元素EC2连线的情况。
按以上方式来决定簇内排列。
<5—2—2.实施例7的效果>
根据本实施例7,通过进行由树状图切断的簇抽取和根据时间数据的簇内排列的决定,可以制成适当地表示出每个领域的时间性发展的树状图。
特别是,由于基于较大时间单位来进行元素定义,所以即使在产生同时刻元素时,也可以在基于分类对元素进行定义的情况下通过参考该分类信息来决定簇内排列,对该同时刻元素进行处理。
<5—3.实施例8(时断面分析;TSA)>
时断面分析(Time Slice Analyses)是基于时间数据对作为分析对象的多个文件元素进行分类之后,在各时间分类内进行簇分析的方法。在基于内容数据抽取簇之前先基于时间数据进行分析这一点上,与上述实施例6及实施例7不同。在基于时间数据进行分类和在各时间分类内的簇分析结束之后,在属于时间前后的簇的元素之间进行连线,文件相关图即告完成。
<5—3—1.文件相关图制成装置的构成>
图34是比图2更详细地对实施例8(时断面分析;TSA)的文件相关图制成装置的构成和功能进行说明的图。对与图2相同的部分注以相同符号,并省略说明。
实施例8的文件相关图制成装置,除了在图2中说明的文件相关图制成装置的各构成之外,还具备时间段分类部25和时间段间连线部75。
时间段分类部25从作业结果存放部320或直接从时间数据抽取部20取得由时间数据抽取部20所抽取的各文件元素的时间数据,基于此时间数据,以一定间隔的时间段对作为分析对象的文件集团进行分类。分类的结果被直接送到类似度运算部40而用于类似度运算部40中的处理,或者被送到作业结果存放部320中存放。类似度运算部40计算各时间段内的文件元素的类似度,树状图制成部50对于各时间段制成树状图,簇抽取部70从各时间段抽取簇。
时间段间连线部75从作业结果存放部320或直接从簇抽取部70取得由簇抽取部70所抽取的簇信息,基于此簇信息,在属于不同时间段的簇之间进行连线。所生成的连线数据被直接送到簇内元素配置部90而用于在簇内元素配置部90中的处理,或者被送到作业结果存放部320中存放。簇内元素配置部90,除了对簇内元素进行配置以外,也参照时间段间连线部75的连线数据,完成文件相关图。
<5—3—2.文件相关图制成顺序>
图35是说明实施例8中的文件相关图制成过程的流程图。此流程图比图3更详细地表示本实施例8的顺序。对于与图3相同的步骤,在图3的步骤编号上加上800,并且后两位取与图3相同的步骤编号,有时省略与图3重复的说明。
图36是表示实施例8中的文件相关图制成过程的树状图配置例的图,是对图35进行补充的图。
首先,文件读出部10,按照由输入装置2输入的读出条件,从记录装置3的文件存放部330读出作为分析对象的多个文件元素(步骤S810)。
接着,时间数据抽取部20从由文件读出步骤S810所读出的文件元素群抽取各元素的时间数据(步骤S820)。
抽取各元素的时间数据之后,基于时间数据对其进行分类(步骤S825)。在时间段分类部25中进行此处理。具体而言,按一定间隔(例如Δ???t=1年)把时间轴分段,把具有t的区间处于n≤t<n+1(n=0、1、2、…)内的时间数据的文件元素的集合设为「n—段」。这里的t,是使原点向0—段前方移动阈值的量。
基于时间数据的分类,不仅按一定时间间隔,也可以按可变间隔进行。例如,也可以按时间顺序进行累积,当达到一定件数时则进行时间切断等。即,例如有100个分析对象元素,把这些元素按时间顺序罗列,从较早的一侧开始为E1、E2、···、E100时,例如将每20个E1至E20设为0—段,将E21至E40设为1—段,···等。这样就能防止时间段间的元素数的不均。
接着,对于各段,形成组G。具体而言,如下所示,从各段抽取簇。
首先,索引语数据抽取部30抽取索引语数据(步骤S830),类似度运算部40计算各段内的文件元素间的类似度(或不类似度)(步骤S840)。并且,对于各段,树状图制成部50制成树状图(步骤S850)。并且,切断条件读出部60读出树状图切断条件(步骤S860),簇抽取部70从各段抽取簇(步骤S870)。
在这里,把从各n—段抽取到的簇分别称为组G。各组G具有段编号n和组编号j,用G(n、j)表示(图36(A))。当组G有时由多个文件元素组成,有时由1个文件元素组成。把由1个文件元素组成的组称为平凡组。
作为树状图的切断高度α,例如采用α*=<d>+δ σd(此处—3≤δ≤3。特别优选的是—3≤δ≤0,更优选的是—2≤δ≤—1)。设为—3≤δ是因为如果δ比—3小,则从经验上看,多数组就成为平凡组,因而即使比—3小,也不会改变平凡组这样的结果。由于变为平凡组本身并不是坏结果,所以不妨设定成比—3小。
作为树状图的切断高度α,如上述α*那样,在采用包含各时间段的结合高度d的平均值及偏差中的任意一方或两方作为变量的函数时,每个时间段的切断高度是不同的。特别是,在段内元素数较少(例如3以下)的时间段中,1个元素对段内元素的结合高度d的平均值及偏差的变动带来的影响较大,与其他时间段的切断高度之间的差异可能变得过大。因此,当存在段内元素数较少(例如3以下)的时间段时,优选的是,例如以相关系数来定义类似度,设结合高度d=a—bcosθ而制成树状图,将切断高度α设在a—b≤α≤a—0.5b的范围内。
虽然优选在步骤S830~S870中说明的树状图切断所涉及的方法来抽取簇,但是也可以采用除此此外的其他方法。例如,可以采用公知的k—平均法等抽取簇。
而且,例如可以采用在作为分析对象的文件元素之间进行连线,消去不类似度比切断半径ρ大的线,从而抽取簇的圆弧分割法。在此说明此圆弧分割法的一个具体例子,设有M个分析对象元素(E1、E2、···、EM),首先制成以这些分析对象的元素间距离r为成分的距离矩阵(M行M列)。接着,采用元素间距离r的平均值<r>和标准偏差σr,决定切断半径ρ*=<r>+δ σr(此处—3≤δ≤3。特别优选的是—3≤δ≤0,更优选的是—2≤δ≤—1)。并且,制成使距离矩阵的成分r中的超过阈值ρ*的成分为0的邻接矩阵(M行M列)。最后,根据由邻接矩阵的列成分组成的邻接矢量(r1'、r2'、···、rM')的非零成分而生成簇。
例如,在与文件元素E1有关的邻接矢量为(0、0.5、0.6、0、···、0)时(由于各成分是分别基于与文件元素E1、E2、E3、E4、···、EM的距离r而计算出的,因而使省略了的成分全部为0),此文件元素E1设为与文件元素E2及文件元素E3是同一簇。
另外,在切断半径ρ*中设为—3≤δ是因为与上述α*时一样,如果δ比—3小,则从经验上看,多数组会变为平凡组,比—3小并不会改变平凡组这样的结果。因而不妨设定成比—3小。
组G的形成方法也可以是上述簇分析以外的方法。例如,在已按专利分类、企业名等对文件元素群进行了分类时,可以采用该分类对组进行定义。此时,元素定义和组定义一致,因而由多个文件组成的1个文件元素即构成1个组(也是平凡组)。
对于各n—段,根据簇抽取等方法形成了组G之后,接着决定属于0—段的组间的连线(步骤S872)。例如,对通过切断树状图而得到的各簇,根据比切断位置靠上位的树状图连线结构进行连线(图36(B))。
接着,进行段间的连线。由时间段间连线部75进行此处理。
具体而言,从成为τ<n的时间前方组G(τ、j)的元素中选出与属于各n—段(n≠0)的组G(n、j)的最早元素的类似度最高的文件元素(以下称为「最短距离元素」)。并且,对组G(n、j)的最早元素和从时间前方组G(τ、j)选出的最短距离元素进行连线(步骤S875:图36(C))。另外,当存在多个最短距离元素时,选出其中的最早元素,将其与组G(n、j)的最早元素连线。
或者,也可以从变成T<n的时间前方组G(τ、j)中选出与属于各n—段(n≠0)的组G(n、j)的组间类似度最高的(组间距离最短的)组。此时,对组G(n、j的)最早元素和所选出的时间前方组G(τ、j)的最新元素进行连线。组间距离可以采用属于被比较的组的元素间的不类似度(距离),通过重心间距离、总距离平均等来进行定义。如果是由1个文件元素构成1个组的平凡组,则元素间的不类似度(元素间距离)一致。
最后,配置条件读出部80读出各组内的文件元素配置条件(步骤S880),簇内元素配置部90决定各组内的文件元素的配置(步骤S890),文件相关图即告完成。另外,在图36(C)中,在各组内并列配置了文件元素,但是在组内也可以采用按照时间顺序进行配置等其他配置方式。
图37是表示根据实施例8的方法而生成的文件相关图的第1具体例子及其生成过程的图。以与实施例1的图7相同的公开公报作为文件元素,将各文件元素的申请日作为时间数据t,对每1年按n=0~6的时间段进行分类。对于各时间段制成树状图,在切断高度α*=<d>—σd切断各树状图,形成了组(图37(A))。图37(A)只表示与n=2的时间段有关的树状图切断的情况,对于其他时间段,树状图切断的结果,所有组都变成只有1个元素的平凡组,因而省略了对树状图切断情况的图示。对各组的最早元素与时间前方群的最短距离元素进行连线,在各组内按时间序列进行连线。在文件相关图上对于各文件元素记入专利申请号(图37(B))。
图38是表示根据实施例8的方法而生成的文件相关图的第2具体例子及其生成过程的图。对于与实施例3的图14相同的16领域的文件元素(宏元素),把根据实施例8的方法而构成各文件元素的文件群的申请日平均值作为各文件元素的时间数据t,每1年按n=0~4的时间段进行了分类。对于各时间段制成树状图,在切断高度α*=<d>—σd切断各树状图,形成了组(图38(A))。对各组的最早元素与时间前方群的最短距离元素进行连线,在各组内按时间序列进行连线。在文件相关图上记入了对上述16个领域附以特征的关键字(图38(B))。
图39是表示根据实施例8的方法而生成的文件相关图的第3具体例子及其生成过程的图。把与实施例1的图7相同的公开公报作为文件元素,把各文件元素的申请日作为时间数据t,每1年按n=0~6的时间段进行了分类(到这里与图37一样)。对于各时间段,按照上述圆弧分割法制成以元素间距离r作为成分的距离矩阵,根据切断半径ρ*=<r>—σr将其变换为邻接矩阵(图39(A))并进行簇分析,形成了组。另外,对于元素数在2以下的时间段不采用圆弧分割法,把以相关系数定义的元素间距离超过0.5的时间段作为其他组,省略了在图39(A)中的图示。此后,对各组的最早元素与时间前方群的最短距离元素进行连线,在各组内按时间序列进行连线。在文件相关图上对于各文件元素记入了专利申请号(图39(B))。
图40是表示根据实施例8的方法而生成的文件相关图的第4具体例子及其生成过程的图。对于与实施例3的图14相同的16个领域的文件元素(宏元素),把构成各文件元素的文件群的申请日平均值作为各文件元素的时间数据t,每1年按n=0~4的时间段进行了分类(到这里与图38一样)。对于各时间段,按照上述圆弧分割法制成以元素间距离r作为成分的距离矩阵,根据切断半径ρ*=<r>—σr将其变换为邻接矩阵(图40(A))并进行簇分析,形成了组。另外,对于元素数在2以下的时间段不采用圆弧分割法,把以相关系数定义的元素间距离超过0.5的时间段作为其他组,省略了在图40(A)中的图示。此后,对各组的最早元素与时间前方群的最短距离元素进行连线,在各组内按时间序列进行了连线。在文件相关图上记入了对上述16个领域附以特征的关键字(图40(B))。
<5—3—3.实施例8的效果>
根据本实施例8,通过抽取簇抽取和基于时间数据进行分类,可以制成适当地表示出每个领域的时间性发展的树状图。
特别是,由于首先进行由时断面的切分,所以可以表示出不同分类之间的同时期文件的相互关系,还可以一并表示出不同期间的同领域文件的相互关系。

Claims (15)

1.一种文件相关图制成装置,具备:
对于多个文件元素,抽取由1个或多个文件组成的文件元素的内容数据及时间数据的抽取单元;
基于上述各文件元素的内容数据,制成表示上述多个文件元素的相关的树状图的树状图制成单元;
基于规定规则而切断上述树状图来抽取簇的成簇单元;以及
基于上述各文件元素的时间数据,决定属于上述各簇的文件元素群在该簇内的排列的簇内排列单元。
2.根据权利要求1所述的文件相关图制成装置,其中,上述成簇单元切断上述树状图的上述规定规则,是根据使用了已有的示范图的关联规则分析而导出的,所述示范图为已知用于给出基于时间数据所配置的文件相关图的理想切断位置的树状图。
3.根据权利要求2所述的文件相关图制成装置,其中,上述规定规则是通过基于上述作为示范图的树状图的形状参数的关联规则分析而导出的。
4.根据权利要求2所述的文件相关图制成装置,其中,上述规定规则是通过基于在上述作为示范图的树状图的各节点结合的多个文件元素的矢量维数的关联规则分析而导出的。
5.根据权利要求4所述的文件相关图制成装置,其中,上述成簇单元按上述每个节点来判定在上述各节点结合的多个文件元素的矢量维数是否为一定值以上,基于上述判定结果单独地切断上述一定值以上的节点。
6.根据权利要求1所述的文件相关图制成装置,其中,上述成簇单元切断上述树状图而抽取母簇,基于属于上述母簇的各文件元素的内容数据而制成表示属于上述母簇的文件元素群的相关的部分树状图,基于规定规则切断所制成的该部分树状图,抽取子孙簇。
7.根据权利要求6所述的文件相关图制成装置,其中,上述成簇单元,为了制成上述部分树状图,从各文件元素矢量中除去属于上述母簇的在多个文件元素间的偏差值小于以规定方法确定的值的矢量成分。
8.根据权利要求1所述的文件相关图制成装置,其中,
上述树状图制成单元,以文件元素间的结合高度反映文件元素间的类似程度的方式制成上述树状图,
上述成簇单元,在上述树状图的2处以上的规定高度进行切断而抽取上述簇。
9.根据权利要求1至权利要求8中任意一项所述的文件相关图制成装置,其中,
上述树状图制成单元,以文件元素间的结合高度反映文件元素间的类似程度的方式制成上述树状图,
上述成簇单元,在以包含属于上述树状图的上述文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数为基础的切断位置上进行切断而抽取上述簇。
10.根据权利要求1至权利要求7中任意一项所述的文件相关图制成装置,其中,
上述树状图制成单元,以文件元素间的结合高度反映文件元素间的类似程度的方式制成上述树状图,
上述成簇单元,
在以包含属于上述树状图的上述文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数为基础的切断位置上切断该树状图而抽取母簇,
在以包含属于该母簇的文件元素群的结合高度平均值及偏差中的任意一方或两方作为变量的函数为基础的切断位置上切断该母簇而抽取子孙簇。
11.根据权利要求1至权利要求8中任意一项所述的文件相关图制成装置,其中,还具备基于上述文件元素的内容数据,对具有特定属性的文件元素附加与其他文件元素相区别的显示的区别显示附加单元。
12.根据权利要求1至权利要求8中任意一项所述的文件相关图制成装置,其中,
上述簇内排列单元,
在由属于上述簇内的文件元素群构成的树状图中,从最下位的节点开始按顺序比较所结合的文件元素中的哪个元素更早,把在下位节点判定为更早的文件元素作为上位节点上的比较对象,进行比较直至到达最上位节点,并记录结果,
把根据最上位节点上的比较结果所确定的最早元素配置在该簇的前端,
按照与该最早元素直接比较后的文件元素的数量,制成从该最早元素的分支,把这些比较后的文件元素与上述各分支连接,决定排列。
13.根据权利要求1至权利要求8中任意一项所述的文件相关图制成装置,其中,
上述簇内排列单元,
抽取1个或多个该簇内的最早元素,将其配置在前端,
对于除上述最早元素以外的其余文件元素,按照定义这些文件元素的每个分类而形成时间顺序排列,
对于上述时间顺序排列中的、与其同分类的文件元素作为上述最早元素存在的时间顺序排列,与其同分类的最早元素进行连线,对于上述时间顺序排列中的、与其同分类的文件元素未作为上述最早元素存在的时间顺序排列,从该簇内选出与该时间顺序排列中的最早元素的类似程度最高的文件元素,与该类似程度最高的文件元素进行连线,
决定该簇内的排列。
14.根据权利要求1至权利要求8中任意一项所述的文件相关图制成装置,其中,
还具备时间段分类单元和时间段间连线单元,
上述时间段分类单元,把上述多个文件元素基于各文件元素的上述时间数据分类成多个时间段,
上述树状图制成单元,制成表示属于各时间段的文件元素群的相关的树状图,
上述成簇单元,基于规定规则将上述各时间段的树状图切断而抽取簇,
上述时间段间连线单元,在属于不同时间段的簇之间进行连线。
15.一种文件相关图制成方法,具备:
对于多个文件元素,抽取由1个或多个文件组成的文件元素的内容数据及时间数据的抽取步骤;
基于上述各文件元素的内容数据,制成表示上述多个文件元素的相关的树状图的树状图制成步骤;
基于规定规则而切断上述树状图来抽取簇的成簇步骤;以及
基于上述各文件元素的时间数据,决定属于上述各簇的文件元素群在该簇内的排列的簇内排列步骤。
CNB200580030724XA 2004-09-14 2005-09-12 将文件配置成时间序列的文件相关图的制成装置 Expired - Fee Related CN100462966C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004266199 2004-09-14
JP266199/2004 2004-09-14
JP171755/2005 2005-06-10

Publications (2)

Publication Number Publication Date
CN101027669A CN101027669A (zh) 2007-08-29
CN100462966C true CN100462966C (zh) 2009-02-18

Family

ID=38744866

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200580030724XA Expired - Fee Related CN100462966C (zh) 2004-09-14 2005-09-12 将文件配置成时间序列的文件相关图的制成装置

Country Status (1)

Country Link
CN (1) CN100462966C (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111537686A (zh) * 2020-04-26 2020-08-14 蛟龙(厦门)科技有限公司 一种智能水利施工环境监测系统
CN115509869B (zh) * 2022-08-26 2023-10-31 国科础石(重庆)软件有限公司 服务调用链数据可视化展示的方法、装置以及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07319905A (ja) * 1994-05-25 1995-12-08 Fujitsu Ltd 情報検索装置
JP2572308B2 (ja) * 1991-01-25 1997-01-16 株式会社テレマティーク国際研究所 レビュー処理装置
CN1255224A (zh) * 1997-04-03 2000-05-31 微软公司 使用上下文无关文法的文本规范化方法
JP2000242652A (ja) * 1999-02-18 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体
CN1299477A (zh) * 1998-03-03 2001-06-13 网络装置公司 多协议文件服务器中的文件访问控制
JP2002163275A (ja) * 2000-11-29 2002-06-07 Matsushita Electric Ind Co Ltd 技術文書検索装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2572308B2 (ja) * 1991-01-25 1997-01-16 株式会社テレマティーク国際研究所 レビュー処理装置
JPH07319905A (ja) * 1994-05-25 1995-12-08 Fujitsu Ltd 情報検索装置
CN1255224A (zh) * 1997-04-03 2000-05-31 微软公司 使用上下文无关文法的文本规范化方法
CN1299477A (zh) * 1998-03-03 2001-06-13 网络装置公司 多协议文件服务器中的文件访问控制
JP2000242652A (ja) * 1999-02-18 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体
JP2002163275A (ja) * 2000-11-29 2002-06-07 Matsushita Electric Ind Co Ltd 技術文書検索装置

Also Published As

Publication number Publication date
CN101027669A (zh) 2007-08-29

Similar Documents

Publication Publication Date Title
JP4171514B2 (ja) 文書を時系列に配置した文書相関図の作成装置
CN106156365B (zh) 一种知识图谱的生成方法及装置
CN110162591B (zh) 一种面向数字教育资源的实体对齐方法及系统
CN101916382B (zh) 一种植物叶片的图像识别方法
CN110472017A (zh) 一种话术分析和话题点识别匹配的方法及系统
CN107766371A (zh) 一种文本信息分类方法及其装置
CN106062730A (zh) 用于主动构成内容以便在连续社交通信中使用的系统和方法
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN105787025A (zh) 网络平台公共账号分类方法及装置
CN107748745B (zh) 一种企业名称关键字提取方法
CN111190900A (zh) 一种云计算模式下json数据可视化优化方法
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
WO2020114302A1 (zh) 一种行为预测方法
CN110738053A (zh) 基于语义分析与监督学习模型的新闻主题推荐算法
CN104778157A (zh) 一种多文档摘要句的生成方法
Zhao et al. Sentiment analysis on the online reviews based on hidden Markov model
CN109684928A (zh) 基于互联网检索的中文文档识别方法
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN106227720B (zh) 一种app软件用户评论模式识别方法
Yao et al. Online deception detection refueled by real world data collection
Sitorus et al. Sensing trending topics in twitter for greater Jakarta area
CN110781300A (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法
CN100462966C (zh) 将文件配置成时间序列的文件相关图的制成装置
CN108717445A (zh) 一种基于历史数据的在线社交平台用户兴趣推荐方法
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090218

Termination date: 20091012