CN101208694A - 信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法 - Google Patents

信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法 Download PDF

Info

Publication number
CN101208694A
CN101208694A CNA2006800229160A CN200680022916A CN101208694A CN 101208694 A CN101208694 A CN 101208694A CN A2006800229160 A CNA2006800229160 A CN A2006800229160A CN 200680022916 A CN200680022916 A CN 200680022916A CN 101208694 A CN101208694 A CN 101208694A
Authority
CN
China
Prior art keywords
mentioned
file
group
index terms
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800229160A
Other languages
English (en)
Inventor
增山博昭
吉野令晃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intellectual Property Bank Corp
Original Assignee
Intellectual Property Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intellectual Property Bank Corp filed Critical Intellectual Property Bank Corp
Publication of CN101208694A publication Critical patent/CN101208694A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

提供一种可将调查对象文件的信息相对成为比较对象的文件进行解析并自动生成报告书的信息解析报告书自动生成装置。信息解析报告书自动生成装置100的构成包括处理装置1、输入装置2、记录装置3、以及输出装置4。在生成信息解析报告书时,指定并输入调查对象文件和比较对象文件,输入进行信息解析的条件,从比较对象文件中选出由和调查对象文件类似的文件群所构成的母集团文件,提取调查对象文件相对母集团文件的具有特征的索引词,基于母集团文件和索引词,生成表示调查对象文件的特征的信息解析报告书,并且,将所生成的信息解析报告书输出给显示单元、记录单元或通信单元。

Description

信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法
技术领域
本发明涉及文件的解析装置,尤其涉及解析调查对象文件或文件群并表示其特征的信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法。
背景技术
以专利文件为首、技术文件或其他文件的量年年确实地增加。近年,自从电子化文件数据进行流通以来,从大量的文件当中仅自动检索与调查对象的文件类似的文件的系统被实用化。但即便如此,检索结果中类似文件的量还是很大,为了了解调查对象的文件内容或属性,熟练者不得不读入检索结果中的类似文件。
例如,在专利文献1的[类似文件检索装置以及类似文件检索方法]中,比较包含在调查对象的文件或者文件群中的索引词和包含在比较对象的文件群中的索引词,根据类似的索引词的种类或者出现次数等计算出相似性,从相似性最高的文件开始依次输出。图34是专利文献1所示装置的整体结构图。以往,由控制装置601中的相似性计算系统对从输入装置602输入的调查对象文件、按某一提取条件与外部辅助存储装置603的数据库的文件群相比较,并进行相似性计算的处理,由输出装置604输出,熟练的评价者基于输出的文件一览的结果、读入相似性高的文件内容,作为调查对象文件的评价。评价者为了了解相似性高的文件内容,不得不读入这些数件乃至数千件左右的文件。
专利文献1:日本专利特开平11-73415号公报
但是,与上述专利文献1同样的类似文件自动检索系统产生这样的问题:从比较对象文件群中将与调查对象文件类似的文件一览作为检索结果而输出,评价者从与调查对象文件类似的该文件一览中提取相似性高的、从数件到数千件左右的文件并读入,找到与调查对象的文件类似的文件,进一步读入并评价,以这些为基准对调查对象文件的属性进行定位,所以,评价者如果不提取数件至数千件左右的文件并读入,就不能找到准确地表示调查对象文件属性的表现。
发明内容
因此,本发明的目的在于,人们完全不需要读取调查对象文件及庞大的比较对象文件的内容,自动生成能够准确地报告该调查对象的文件信息的信息解析报告书。
为解决上述课题,本发明的信息解析报告书自动生成装置在调查对象文件的信息解析中,生成表示调查对象文件相对比较对象文件的特征的报告书,包括:接收至少上述调查对象文件的输入的输入单元;基于上述输入的调查对象文件,从存储在数据库中的比较对象文件群的信息中选出与该调查对象文件类似的母集团文件的集合,即母集团文件群的选出单元;提取上述调查对象文件相对上述母集团文件的具有特征的索引词的提取单元;基于上述母集团文件以及上述索引词,生成表示上述调查对象文件的特征的信息解析报告书的生成单元;以及将上述信息解析报告书向显示单元、记录单元、或者通信单元输出的输出单元。
例如,进一步具有计算相对比较对象文件的相似率的计算单元,选出单元根据计算单元的结果而选出母集团文件。并且,计算单元基于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。
并且例如,进一步具有分布母集团或索引词,形成地图(map)状的地图生成单元,取入母集团或上述索引词的数据的一部分的输出数据取入单元,取入与地图以及数据的内容相对应的固定的评注(comment)的固定评注取入单元,以及记入自由的评注的评注记入单元,生成单元对地图、数据以及/或者评注进行合成,生成表示调查对象文件的特征的信息解析报告书。
在优选实施例中,上述生成单元进行上述索引词或母集团文件中的每个预定项目的累计、即关键词累计,表示关键词或母集团文件中的预定项目的时序的推移的时序累计,以及/或者母集团文件中的多个预定项目的矩阵(matrix)累计,生成包含累计结果的信息解析报告书。
尤其优选的是,上述生成单元生成由上述时序累计中关键词或母集团文件中预定项目的累计结果以及该累计结果的时序延伸率的矩阵所表示的组合(portfolio),生成包含该组合的信息解析报告书。
在其他优选实施例中,上述生成单元具有计算上述提取的索引词在上述比较对象文件群中的出现频率的函数值的第一出现值频率计算单元;计算上述提取的索引词在上述母集团文件群中的出现频率的函数值的第二出现值频率计算单元;以及根据上述计算出的各索引词在比较对象文件群中的出现频率的函数值和在上述母集团文件群中的出现频率的函数值的组合,生成包含各索引词和其定位数据的频率散布图的频率散布图生成单元。
并且在其他实施例中,上述生成单元具有:提取上述母集团文件、或者上述调查对象文件以及母集团文件的内容数据以及时间数据的提取单元;基于上述各文件的内容数据,生成表示上述多个文件的相关性的树状图的树状图生成单元;基于预定规则切断上述树状图并提取集群(cluster)的聚类单元(clustering);以及基于上述各文件的时间数据,决定属于上述各集群的文件群在该集群中的排列的集群内排列单元。
尤其优选的是,上述聚类单元切断上述树状图,提取父集群(parent cluster),并基于属于上述父集群的各文件的内容数据而生成表示属于上述父集群的文件群的相关性的部分树状图,基于预定规则切断该生成的部分树状图,提取子孙集群。
优选的是,上述聚类单元为了生成上述部分树状图,从各文件向量中除去在属于上述父集群的多个文件间的偏差值比按预定方法确定的值小的向量分量。
并且,在其他优选实施例中,上述生成单元具有:分别计算上述各索引词在上述各集群中的评价值的评价值计算单元;集中度计算单元,该单元针对各索引词,计算在上述各集群中的评价值在所有集群中的和,并针对各集群计算出在各集群中的评价值相对该和的比,分别计算出该比的平方,并计算该比的平方在上述所有集群中的和,从而计算出各索引词在上述集群中的分布集中度;份额计算单元,该单元针对从上述各集群中提取的所有索引词,计算各索引词在上述分析对象集群中的评价值的和,并针对各索引词计算出各索引词的评价值相对该和的比,从而计算出上述分析对象集群中各索引词的份额;计算出各索引词在上述集群中的出现频率倒数的函数值的第一倒数计算单元;计算出各索引词在包括上述集群在内的所有文件中的出现频率倒数的函数值的第二倒数计算单元;根据从上述第一倒数计算单元的计算结果中减去上述第二倒数计算单元的计算结果所得的函数值而计算出独创度的独创度计算单元;以及,基于上述集中度计算单元计算出的集中度、上述份额计算单元关于上述分析对象的文件群而计算出的份额、和由上述独创度计算单元计算出的独创度的组合,提取关键词的关键词提取单元。
并且,本发明的信息解析报告书生成装置具有:网络服务器(webserver),其连接到网络上,从经由该网络所连接的客户端接收调查对象文件的输入;管理服务器,其对上述调查对象文件进行排队(queuing),对于成为应处理顺序的调查对象文件,向解析服务器请求处理;以及解析服务器,其响应上述请求,基于上述输入的调查对象文件,从存储在数据库中的比较对象文件群的信息中选出与该调查对象文件类似的母集团文件的集合、即母集团文件群,提取上述调查对象文件相对上述母集团文件的具有特征的索引词,并且基于上述母集团文件以及上述索引词,生成表示上述调查对象文件的特征的信息解析报告书。
为解决上述课题,本发明的信息解析报告书自动生成程序是生成表示调查对象文件相对比较对象文件的特征的报告书的信息解析报告书自动生成程序,其使计算机作为下列单元而起作用:输入单元,其接收至少上述调查对象文件的输入;选出单元,其基于上述输入的调查对象文件,从存储在数据库中的比较对象文件群的信息中选出与该调查对象文件类似的母集团文件的集合,即母集团文件群;提取单元,其提取上述调查对象文件相对上述母集团文件的具有特征的索引词;生成单元,其基于上述母集团文件以及上述索引词,生成表示上述调查对象文件的特征的信息解析报告书;以及将上述信息解析报告书向显示单元、记录单元、或者通信单元输出的输出单元。
例如,使计算机作为计算相对比较对象文件的相似率的计算单元而起作用,选出单元根据计算单元的结果选出母集团文件。并且,计算单元基于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。
并且例如,使计算机作为分布母集团或上述索引词,形成地图状的地图生成单元而起作用;作为取入母集团或者上述索引词的数据的一部分的输出数据取入单元而起作用;作为取入与地图以及数据内容相对应的固定评注的固定评注取入单元而起作用;以及,作为记入自由的评注的评注记入单元而起作用,生成单元合成地图、数据以及/或者评注,生成表示调查对象文件的特征的信息解析报告书。
为解决上述课题,本发明的信息解析报告书自动生成方法是在调查对象文件的信息解析中,生成表示调查对象文件相对比较对象文件的特征的报告书的信息解析报告书自动生成方法,其特征在于包括下列步骤:输入步骤,其接收至少上述调查对象文件的输入;选出步骤,其基于上述输入的调查对象文件,从存储在数据库中的比较对象文件群的信息中选出与该调查对象文件类似的母集团文件的集合,即母集团文件群;提取步骤,其提取上述调查对象文件相对上述母集团文件的具有特征的索引词;生成步骤,其基于上述母集团文件以及上述索引词,生成表示上述调查对象文件的特征的信息解析报告书;以及将上述信息解析报告书向显示单元、记录单元、或者通信单元输出的输出步骤。
例如,进一步具有计算相对比较对象文件的相似率的计算步骤,在选出步骤中,根据计算步骤的结果而选出母集团文件。并且,在计算单元中基于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。
并且,例如,进一步具有分布母集团或上述索引词,形成地图状的地图生成步骤;取入母集团或者上述索引词的数据的一部分的输出数据取入步骤;取入与地图以及数据内容相对应的固定评注的固定评注取入步骤;以及,记入自由的评注的评注记入步骤,在生成步骤中合成地图、数据以及/或者评注,生成表示调查对象文件的特征的信息解析报告书。
在本发明中,基于输入的调查对象文件以及比较对象文件、进行信息解析的条件,从比较对象文件中选出包含与调查对象文件类似的文件群的母集团文件,提取调查对象文件相对母集团文件的具有特征的索引词,基于母集团文件以及上述索引词,生成表示调查对象文件的特征的信息解析报告书。
这样,人们完全不需要读入调查对象文件和庞大的比较对象文件的内容,可自动生成能够准确地报告调查对象文件的信息的信息解析报告书。
另外,合成分布母集团或索引词的地图、母集团或索引词的数据、相应于地图以及数据的内容的固定的标注或自由的标注,可生成表示调查对象文件的特征的信息解析报告书。
根据本发明,指定并输入调查对象文件以及上述比较对象文件,输入进行信息解析的条件,从比较对象文件中选出由与调查对象文件类似的文件群所组成的母集团文件,提取调查对象文件相对母集团文件的具有特征的索引词,基于母集团文件以及索引词,生成表示调查对象文件的特征的信息解析报告书,然后,向显示单元、记录单元、或者通信单元输出所获得的信息解析报告书。
例如,计算出相对比较对象文件的相似率,根据该计算结果选出母集团文件。并且,在计算步骤中,基于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。
这样,人们完全不需要读入调查对象文件和庞大的比较对象文件的内容,可自动生成能够准确地报告调查对象文件的信息的信息解析报告书。
并且,具有:分布母集团或索引词并形成为地图状的地图生成单元、取入母集团或索引词的数据的一部分的输出数据取入单元、取入与地图以及数据的内容相应的固定的标注的固定标注取入单元、以及记入自由的标注的标注记入单元,由于生成单元合成地图、数据以及/或者标注、生成表示调查对象文件的特征的信息解析报告书,因此能够生成具有地图、母集团或索引词的数据、与地图以及数据的内容相应的固定的标注或自由的标注的信息解析报告书。
附图说明
图1是表示本发明实施方式的信息解析报告书自动生成装置的结构的图。
图2是表示信息解析报告书自动生成装置100的各部分的构成的方框图。
图3是表示输入装置2的动作的流程图。
图4是表示处理装置1的动作的流程图。
图5是表示输出装置4的动作的流程图。
图6是表示输入条件设定例(其1)的图。
图7是表示输入条件设定例(其2)的图。
图8是表示输入条件设定例(其3)的图。
图9是表示输出条件设定例的图。
图10是表示信息解析报告书的一例的图。
图11是表示整个期间中的专利申请人的次序的图。
图12是表示最近三年中的专利申请人的次序的图。
图13是表示国际专利分类(IPC)的主分类的次序的图。
图14是表示国际专利分类(IPC)的主·副分类的次序的图。
图15是表示申请人和国际专利分类的矩阵地图的图。
图16是表示前十位申请人和国际专利分类(IPC)前五类的关系的表。
图17是表示前二十位申请人和国际专利分类(IPC)主分类的关系的表。
图18是表示不同的重要关键词(对所有比较对象文件)的件数分布的图。
图19是表示不同的重要关键词(对母集团)的件数分布的图。
图20是表示不同申请人的件数推移的图。
图21是表示申请人和申请件数的关系的表。
图22是表示不同的国际专利分类(IPC)的件数推移的图。
图23是表示国际专利分类(IPC)和申请件数的关系的表。
图24是表示不同的预定国际专利分类(IPC)的件数推移的图。
图25是表示母集团整体的组合的图。
图26是表示国际专利分类(IPC)的组合的图。
图27是表示不同的重要关键词(对所有比较对象文件)的件数推移的图。
图28是表示重要关键词(对所有比较对象文件)和申请件数的关系的表。
图29是表示不同的重要关键词(对母集团)的件数推移的图。
图30是表示重要关键词(对母集团)和申请件数的关系的表。
图31是表示调查对象文件的关键词分布的频率散布图。
图32是调查对象文件的结构图。
图33是表示使用了母集团内相似率的相似率次序和公报内容摘录的图。
图34是表示现有的类似文件检索装置的结构例的图。
图35是用于说明相似率计算的图。
图36是包含第二实施方式中的信息解析报告书自动生成装置以及客户端的结构图。
图37A、B分别是表示客户端的显示装置上的画面的例子的图。
图38是表示在第一解析服务器中执行的处理的流程图。
图39是表示累计处理的例子的流程图。
图40是依次示出了计算频率散布图中每个关键词的坐标所需的所有处理步骤的流程图。
图41是表示第一解析服务器中的用于生成专利结构图的结构的方框图。
图42是表示第一解析服务器中的专利结构图生成处理的概略的流程图。
图43是更加详细地说明集群提取过程的流程图。
图44A~图44F分别是表示本实施方式在集群提取过程中的树状图配置例的图。
图45是表示用于关键词提取的结构的方框图。
图46是更加详细地说明关键词提取过程的流程图。
图47是表示到集群信息输出为止的处理的流程的图。
图48是表示在其他实施方式中的客户端、网络服务器、管理服务器、第一以及第二解析服务器、和数据库服务器中执行的处理的流程图。
图49是表示在其他实施方式中的客户端、网络服务器、管理服务器、第一以及第二解析服务器、和数据库服务器中执行的处理的流程图。
图50是表示在其他实施方式中的客户端、网络服务器、管理服务器、第一以及第二解析服务器、和数据库服务器中执行的处理的流程图。
具体实施方式
下面参照附图详细说明本发明的实施方式。
[定义]
此处首先定义或说明本说明书中使用的词汇。
d:调查对象文件(与调查相关的某案件。例如,专利公报第几号等的文件、或其集合)
比较对象文件:所有文件P、或母集团文件S
P:所有文件(包含调查对象文件d的比较对象文件的集合整体)
N:所有文件P的文件数
p:所有文件中的一个文件(pa,pb...等、存在N个)
S:母集团文件(是所有文件P的一部分,在本实施方式中,是指所有文件P中与调查对象d类似的文件集团(包含d。))
N’:母集团文件S的文件数(N’<N)
s:母集团文件中的一个文件(sa,sb...等、存在N’个)
用于图中的构成部件的d或(d)、P或(P)、p或(p)、S或(S)分别是调查对象文件、比较对象文件、所有文件中的一个文件、或者母集团文件的意思,为了以后判别方便而附于构成部件或动作上。例如所谓的索引词(d)指的是调查对象文件d的索引词。更具体的,在本实施方式中,认为文件d的索引词是d1、d2、d3...、dx的x个。另外,文件pa的索引词是pa1、pa2...、paya的ya个,有时这些的一部分或者全部与d的索引词d1、d2...、dx一致。
文件pb的索引词是pb1、pb2...、pbyb的yb个,同样地,有时这些的一部分或者全部与d的索引词d1、d2...、dx一致。
同样地,文件py的索引词是py1、py2...、pyyy的yy个,同样地,有时这些的一部分或者全部与d的索引词d1、d2...、dx一致。
在文件pa等的索引词中,对于不与d1、d2...、dx一致的索引词,如后述那样生成向量并计算内积,结果为“0”。因此,作为索引词,仅将文件d的索引词d1、d2...、dx作为处理对象就足够了。
[TF运算]
所谓的TF运算指的是Term Frequency的计算,是包含在某文件中的索引词在该文件内的出现频率(索引词频率)的计数的函数值的运算。
所谓的DF运算的DF指的是Document Frequency的计算,是利用包含在某文件中的索引词,从比较对象文件群中进行检索时的找到(hit)数(文件频率)的计数的运算。
所谓的IDF运算指的是例如DF运算的结果的倒数、或者在该倒数上乘以P或者S的文件数所得值的对数等的运算。采用对数的意义或效果是例如扩大零附近的函数值的分度间隔,另一方面缩小大数字函数值的分度间隔,以一个平面状而容易观察。
另外,如下标记在本实施方式中利用的函数。
TF(d):d的索引词(d1,...dx)在d中的出现频率
此处如果以TF(索引词;文件)这样的形式书写TF(d),则成为以下的情形。
TF(d1;d):文件d的索引词d1在文件d中的出现频率
TF(d2;d):文件d的索引词d2在文件d中的出现频率
TF(dx;d):文件d的索引词dx在文件d中的出现频率
TF(Pa):P的索引词(Pa1,...,paya)在文件Pa中的出现频率
此处,以TF(索引词;文件)这样的形式书写TF(Pa)则如下。
TF(pa1;pa):文件pa的索引词pa1在文件pa中的出现频率
TF(pa2;pa):文件pa的索引词pa2在文件pa中的出现频率
TF(paya;pa):文件pa的索引词paya在文件pa中的出现频率
然而,如后述那样,关于TF(pa)仅观察下面的出现频率就足够了。
TF(d1;pa):文件pa的索引词d1在文件pa中的出现频率
TF(d2;pa):文件pa的索引词d2在文件pa中的出现频率
TF(dx;pa):文件pa的索引词dx在文件pa中的出现频率
TF(d1;pb):文件pb的索引词d1在文件pb中的出现频率
TF(d2;pb):文件pb的索引词d2在文件pb中的出现频率
TF(dx;pb):文件pb的索引词dx在文件pb中的出现频率
TF(d1;py):文件py的索引词d1在文件py中的出现频率
TF(d2;py):文件py的索引词d2在文件py中的出现频率
TF(dx;py):文件py的索引词dx在文件py中的出现频率
即,文件Pa的索引词(Pa1,...,Paya)中仅关于(d1,...,dx)进行计算就足够了。
另外,所谓的TF(pb)指的是在文件pb中的申请频率。例如,TF(d1;pb):文件pb的索引词d1在pb中的出现频率
并且,所谓的TF(py)指的是在文件py中的出现频率。例如,TF(d2;py):文件py的索引词d2在文件py中的出现频率
[DF运算]
DF(P):d的索引词在P中的文件频率
DF(P)是表示在文件整体中使用了多少和文件d的索引词相同的索引词d1,...,dx的值。例如,“装置”这样的索引词如果在600万件的文件中的1/10内使用,则DF为60万。
同样地,如果以DF(索引词;所有文件)这样的形式书写则如下。
DF(d1;P):d的索引词d1在P整体的N个文件(pa~py)中,d1即便出现一次的文件频率(文件数)
DF(d2;P):d的索引词d2在P整体的N个文件(pa~py)中,d2即便出现一次的文件频率(文件数)
DF(dx;P):d的索引词dx在P整体的N个文件(pa~py)中,dx即便出现一次的文件频率(文件数)
下面,关于DF(S)也可同样地考虑,省略其详细说明。
DF(S):d的索引词在S中的文件频率
[IDF]
下面所述的IDF是取DF(在文件P整体中的d的索引词的文件频率)相对N(所有文件数)的比的倒数、并取其对数的值,使得分布不偏。
IDF(P):DF(P)的倒数×文件数的对数:ln[N/DF(P)]
IDF(S):DF(S)的倒数×文件数的对数:ln[N’/DF(S)]
例如,N(所有文件数)为600万,DF(d1;P)=600万时,即、当某一索引词d1包含在所有文件P中的所有文件中时,IDF(d1;P)=0。并且,当DF(d2;P)=60万时,即、当某一索引词d2包含在所有文件P的1/10中的文件中时,IDF(d2;P)=1。
[TFIDF以及文件向量]
TFIDF:TF的函数值和IDF(DF的倒数)的函数值的积,对文件的每个索引词进行计算。这是成为用于观察文件的类似性的基础的、每个索引词的数值,使其与某一索引词在文件内的出现频率成比例,关于文件频率,由于采用该函数值而使其成反比。
作为简单的例子,考虑TF(d)和IDF(P)一对一地进行积算。其中,实际上不限定于一对一。例如,如下考虑d的文件向量的分量。
TF(d1;d)*IDF(d1;P)
TF(d2;d)*IDF(d2;P)
TF(dx;d)*IDF(dx;P)
并且,如下考虑pa的文件向量。
TF(d1;pa)*IDF(d1;P)
TF(d2;pa)*IDF(d2;P)
TF(dx;pa)*IDF(dx;P)
此处,所谓的文件向量是对文件的每个索引词计算TFIDF,以这些索引词的值为分量的向量。
文件d的文件向量的分量是TF(d1;d)*IDF(d1;P)、...、TF(d1;d)*IDF(d1;P)等。并且,文件pa的文件向量的分量成为TF(dx;pa)*IDF(dx;P)这样。即,各个文件向量表示如下。
{文件d的文件向量}={TF(d1;d)*IDF(d1;P)、TF(d2;d)*IDF(d2;P)、...、TF(dx;d)*IDF(dx;P)}
{文件pa的文件向量}={TF(d1;pa)*IDF(d1;P)、TF(d2;pa)*IDF(d2;P)、...、TF(dx;pa)*IDF(dx;P)}
[相似率(相似性)]
相似率:表示两个文件间的类似的程度,在本说明书中,也称作相似性。在本实施方式中,为了测得两个文件向量的性质的远近,通过各个向量的内积而进行了数值化。例如,调查对象文件d和属于比较对象文件群P的某一比较对象文件pa的相似率(D,Pa:P)意味着,调查对象文件d的文件向量(d)和属于比较对象文件群P的某一比较对象文件Pa的文件向量(Pa)的内积。
{相似率(d,pa;P)}
={文件d的文件向量}·{文件pa的文件向量}
=[{TF(d1;d)*IDF(d1;P)}*{TF(d1;pa)*IDF(d1;P)}
+{TF(d2;d)*IDF(d2;P)}*{TF(d2;pa)*IDF(d2;P)}+...
+TF(dx;d)*IDF(dx;P)}*{TF(dx;pa)*IDF(dx2;P)}]
比较对象文件p的相似率:在本实施方式中,调查对象文件d相对属于比较对象文件群P的某一比较对象文件p的相似率。意思是,调查对象文件d的文件向量(d)和属于比较对象文件群P的某一比较对象文件p的文件向量(p)的内积的和。
此处所谓的索引词即关键词,是从文件的整体或一部分提取出的词语。词语的提取方法灵活运用现有公知的方法或市场上的软件,可以除去助词或连接词,提取有意义的名词,或事先保持索引词的词典(thesaurus)的数据库并利用可从该数据库获得的索引词也可以。
并且,当存在多个调查对象文件的文件群时,提取的对象也可以是上述的索引词,但也可以把根据各个文件、IPC的分类、企业或业界的汇编或业界、每年的由例如专利申请年份或专利登录年份等所约束的内容作为提取对象。下面在本说明书中较多地、作为代表而采用索引词。
[信息解析报告书自动生成装置]
图1是表示本发明实施方式的信息解析报告书自动生成装置的硬件结构的图。
如图1所示,本发明的信息解析报告书自动生成装置100的构成包括:由CPU(中央计算单元)和存储器(存储装置)等构成的处理装置1,键盘(手输入设备)等作为输入单元的输入装置2,存储文件数据或条件或由处理装置1产生的作业结果等的作为记录单元的存储装置3,以及将特征索引词的提取结果等以地图或数据等进行显示等的作为输出单元的输出装置4。
图2是用于说明本发明的信息解析报告书自动生成装置的各部分的功能的方框图。
如图2所示,处理装置1的构成包括:调查对象文件d读出部分110,索引词(d)提取部分120,TF(d)运算部分121,比较对象文件P读出部分130,索引词(P)提取部分140,比较对象文件P的TF(P)运算部分141,比较对象文件P的IDF(P)运算部分142,相似率运算部分150,母集团压缩部分151,母集团文件S选出部分160,索引词(S)提取部分170,IDF(S)运算部分171,特征索引词·母集团内相似率·频率散布图·结构图等运算部分180。
输入装置2的构成包括:调查对象文件d条件输入部分210,比较对象文件P条件输入部分220,提取条件及其他条件输入部分230。
存储装置3的构成包括条件记录部分310,作业结果存储部分320,文件存储部分330。文件存储部分330包括外部数据库或内部数据库。外部数据库指的是例如由专利局提供服务的专利电子图书馆IPDL,或由株式会社PATOLIS提供服务的PATOLIS等的文件数据库。并且,内部数据库包括,市场上销售的例如专利JP-ROM等的存储了迄今为止的数据的数据库、从存储了文件的FD(Flexible Disk软盘),CD-ROM(Compact Disk),MO(磁盘),DVD(Digital Video Disk)等的介质进行读取的装置、读入输出或手写到纸等上的文件的OCR(光学信息读取装置)等装置、以及将读入的数据转换成文本(text)等电子数据的装置等。
输出装置4的构成包括,地图生成条件读出部分410,地图用数据取入部分412,地图(图·表)生成部分415,数据输出条件读出部分420,输出数据取入部分422,标注条件读出部分430,固定标注取入部分432,标注追记部分435,合成地图·数据·标注并生成报告书的报告书生成部分440,输出所生成的报告书的输出部分450。
在图1和图2中,作为在处理装置1、输入装置2、存储装置3、以及输出装置4之间发送和接收信号或数据的通信单元,可由USB(通用串行总线)线等直接连接,也可通过LAN(局域网)等的网络进行发送和接收,也可通过存储了文件的FD、CDROM、MO、DVD等的介质。或者是组合了这些的一部分或几个的单元。
详细说明图1和图2所示的本发明的信息解析报告书自动生成装置100、该信息解析报告书自动生成装置100用程序、以及报告书生成方法中的功能。
在图2所示的输入装置2中,调查对象文件d条件输入部分210通过输入画面等设定读出调查对象文件d的条件。比较对象文件P条件输入部分220通过输入画面等设定读出比较对象文件P的条件。提取条件及其他条件输入部分230通过输入画面等设定调查对象文件d以及比较对象文件P的索引词提取条件、TF运算的条件、IDF运算的条件、相似率运算的条件、类似文件的选出条件、地图生成条件、数据输出条件、标注追记条件、母集团压缩条件等。输入的这些条件被发送至存储装置3的条件记录部分310并存储。
在图2所示的处理装置1中,调查对象文件d读出部分110根据存储在条件记录部分310中的读出条件,从文件存储部分330读出调查对象的文件,然后传送至索引词(d)提取部分120。索引词(d)提取部分120根据存储在条件记录部分310中的提取条件,从调查对象文件d读出部分110获得的文件中提取索引词,将提取的索引词存储在作业结果存储部分320中。
并且,比较对象文件P读出部分130根据存储在条件记录部分310中的读出条件,从文件存储部分330中读出母集团的文件,传送至索引词(P)提取部分140。索引词(P)提取部分140根据存储在条件记录部分310中的提取条件,从比较对象文件P读出部分130获得的文件中提取索引词,并将提取的索引词存储在作业结果存储部分320中。
在上述的比较对象文件P读出部分130和索引词(P)提取部分140中,通常多为比较对象文件之一的专利公开公报等所有公报,如果预先提取一次索引词并保存,则没有必要特意地重新提取,所以可以进行省略。
TF(d)运算部分121根据存储在条件记录部分310中的条件,对存储在作业结果存储部分320中的由索引词(d)提取部分120对调查对象文件d实施作业的作业结果进行TF运算,得到TF(d;d),存储在作业结果存储部分320中,或者直接传送到相似率运算部分150、或者特征索引词·母集团内相似率·频率散布图·结构图等运算部分180。
TF(P)运算部分141根据存储在条件记录部分310中的条件,对存储在作业结果存储部分320中的由索引词(P)提取部分140对比较对象文件P实施作业的作业结果进行TF运算,得到TF(d;p),存储在作业结果存储部分320中,或者直接传送到相似率运算部分150、或者特征索引词·母集团内相似率·频率散布图·结构图等运算部分180。
IDF(P)运算部分142根据存储在条件记录部分310中的条件,对存储在作业结果存储部分320中的从比较对象文件d所提取的每一个索引词(d)进行IDF运算,得到IF(d;P),存储在作业结果存储部分320中,或者直接传送到相似率运算部分150,或者直接传送至特征索引词·母集团内相似率·频率散布图·结构图等运算部分180。
相似率运算部分150根据存储在条件记录部分310中的条件,分别直接从TF(d)运算部分121、TF(P)运算部分141、以及IDF(P)运算部分142获得运算结果或从作业结果存储部分320获得运算结果。另外,如上所述,TF(d)运算部分121的运算结果是TF(d;d),TF(P)运算部分141的运算结果是TF(d;p),IDF(P)运算部分142的运算结果是IDF(d;P)。相似率运算部分150接下来计算比较对象文件P的各个文件相对调查对象文件d的相似率,作为相似率数据附加到各个比较对象文件P上,并传送给作业结果存储部分320或者直接传送给母集团文件S选出部分160。
相似率运算部分150中的相似率运算针对各文件的每个索引词,进行例如由TFIDF运算等代表的计算,计算比较对象文件P的各个文件相对调查对象文件d的相似率。所谓的TFIDF运算指的是TF运算结果和IDF运算结果的积。以下详细描述相似率(相似性)的运算方法的一个例子。
现在,将d作为调查对象文件,将p作为比较对象文件群P的各个文件。对这些文件d以及p进行运算的结果为:从文件d中提取的索引词应为“红”“蓝”以及“黄”。另外,从文件p提取的索引词应为“红”“白”。在该情况下,将文件d中的索引词的索引词频率定为TF(d),将文件p中的索引词的索引词频率定为TF(p),将从比较对象文件群P获得的索引词的文件频率定为DF(P),将文件数定为50。
此时,例如在图35A中示出了各个频率。当针对各个文件的每个索引词计算TF*IDF(P)时,变得如图35B所示。
在图35B的各栏中示出的内容是以文件d或者文件p的TF(d)*IDF(P)或者TF(p)*IDF(P)为分量的向量的表现。如下表现文件向量d以及文件向量p。只是置换了行和列进行了表现。
文件向量d=(1*ln(50/30)、2*ln(50/20)、4*ln(50/45)、0)
文件向量p=(2*ln(50/30)、0、0、1*ln(50/13))
接着,计算相似率。即,如果取该文件向量d和文件向量p的内积,则可得到该文件向量d和文件向量p之间的相似率。并且,意味着文件向量之间的相似性的值越大,文件间的类似的程度越高,意味着如果表现文件向量间的距离(非相似率)、则其值越小类似的程度越高。由于文件向量间的内积是向量各分量的积的总和,所以如下求出。
(文件向量d·文件向量p)=1*ln(50/30)*2*1*ln(50/30)+0+0+0
此处,右边最后的项成为0。即,从调查对象文件d提取的索引词(d)以外的索引词的内积的分量、即相似率是0,所以可知仅对索引词(d)的各个进行TFIDF运算便足够了。也就是说,认为如果索引词单方面地不存在,则内积分量为0,仅将d的索引词作为运算对象,从而可以减少运算量。
根据上述相似率,如果p中存在的与d的索引词相似的索引词越多,内积分量越无法为0,相似率的值越高;如果p中存在的与d的索引词相似的索引词越少,为0的内积分量越多,分量之和的相似率的值越低。
并且,由于相似率的运算方法有很多,基于上述的TF(d)运算部分121、TF(P)运算部分141、以及IDF(P)运算部分142的相似率运算部分150的情况是可以的,当然,如果是不需要上述的TF(d)运算部分121、TF(P)运算部分141、以及IDF(P)运算部分142的相似率的运算方法,则全部省略、仅采用相似率运算部分150也可以。
母集团压缩部分151根据存储在条件记录部分310中的选出条件,对选出的母集团进行压缩。例如,可按申请件数多的申请人进行压缩,或者反过来按申请件数少的申请人进行压缩,按特别的IPC进行压缩,限定业种等,能够压缩母集团。另外,如果不需要压缩则可略过这一部分。
母集团文件S选出部分160根据存储在条件记录部分310中的选出条件,从作业结果存储部分320或直接从相似率运算部分150的结果、或母集团压缩部分151中选出符合设定条件之数量的母集团文件S。例如,按相似率从高到低的顺序对文件分类,仅选出记录在条件中必要的数量,传送给作业结果存储部分320或者直接传送给索引词(S)提取部分170。
另外,有时直接从母集团文件S选出部分160的输出前进到地图用数据取入部分412或输出数据取入部分422,应该知道在该情况下后面的结构是不需要的。
索引词(S)提取部分170根据存储在条件记录部分310中的条件,从作业结果存储部分320或者母集团文件S选出部分160的结果的母集团文件S提取索引词(S),将提取的索引词(S)传送给作业结果存储部分320或者直接传送给IDF(S)运算部分171。
IDF(S)运算部分171根据存储在条件记录部分310中的条件,对来自作业结果存储部分320或者直接来自索引词(S)提取部分170的作业结果进行IDF运算,并将该结果存储在作业结果存储部分320中或者直接传送给特征索引词·母集团内相似率·频率散布图·结构图等运算部分180。
特征索引词·母集团内相似率·频率散布图·结构图等运算部分180根据存储在条件记录部分310中的条件,从作业结果存储部分320、或从TF(d)运算部分121的结果、TF(P)运算部分141的结果、IDF(P)运算部分142的结果、以及直接从IDF(S)运算部分171的结果中,按例如相似率或关键词重要度从高到低的顺序依次选出记在选出条件中的必要的数量、或根据基于条件的计算结果而选出的数量的母集团文件及索引词,计算频率散布图(关键词分布图)、或结构图,并将该结果存储在作业结果存储部分320中。
在图2所示的存储装置3中,条件记录部分310记录从输入装置2获得的条件等的信息,根据处理装置1或输出装置4的要求,分别发送必要的数据。作业结果存储部分320存储处理装置1中的各构成部位的作业结果,根据处理装置1或输出装置4的要求,分别发送必要的数据。
文件存储部分330根据输入装置2或处理装置1的要求,存储从外部数据库或内部数据库获得的必要的文件数据,同时根据处理装置1或输出装置4的要求而进行提供。
在图2所示的输出装置4中,地图生成条件读出部分410根据存储在条件记录部分310中的条件,读出地图的生成条件,发送给地图用数据取入部分412。并且,数据输出条件读出部分420根据存储在条件记录部分310中的条件,读出数据的输出条件,并发送给输出数据取入部分422。标注条件读出部分430根据条件记录部分310中的条件,读出标注的输出条件或追记条件,发送给固定标注取入部分432。并且,在标注追记部分432中可追记自由标注。
地图用数据取入部分412根据地图生成条件读出部分410读出的条件,将文件存储部分330的数据与存储在作业结果存储部分320中的母集团文件S选出部分160的结果、特征索引词·母集团内相似率·频率散布图·结构图等运算部分180的结果等一同取入,并发送给作业结果存储部分320或直接发送给地图(图·表)生成部分415。
地图(图·表)生成部分415使用来自地图用数据取入部分412的数据,生成图、表、标题(title)、凡例等。将该结果发送给报告书生成部分440。
输出数据取入部分422根据数据输出条件读出部分420的条件,将文件存储部分330的数据与存储在作业结果存储部分320中的母集团文件S选出部分160的结果或特征索引词TF(d)、IDF(S)运算部分180的结果等一同取入,并发送给作业结果存储部分320或直接发送给报告书生成部分440。
固定标注取入部分432根据标注条件读出部分430的条件,取入作业结果存储部分320或文件存储部分330的数据,发送给标注追记部分435或直接发送给报告书生成部分440。
标注追记部分435根据标注条件读出部分430的条件,从键盘或OCR等的外部输入装置直接准备、或将事先准备在文件存储部分330的内部数据库中的数据作为调查对象文件d的评价者的标注而进行追记的数据,发送给作业结果存储部分320或直接发送给报告书生成部分440。
报告书生成部分440分别直接地或从作业结果存储部分320获得从地图(图·表)生成部分415输出的条件和数据、从输出数据取入部分422输出的条件和数据、从固定标注取入部分432输出的条件和数据、以及从标注追记部分435输出的条件和数据,作为纸输出、将地图·数据·标注整理为最合适的形式,生成信息解析报告书。将生成的信息解析报告书发送给输出部分450。
输出部分450将信息解析报告书输出到显示单元、记录单元、或者通信单元。该输出部分450具有自动发送功能,定期地(例如一个月一次)输出新的信息解析报告书。另外,当新的信息解析报告书较以前变化较大时(例如,大于等于一成的内容变化时),自动地进行发送。
并且,上述的报告书生成部分440可生成仅地图的信息解析报告书,可通过输出部分450输出该结果。
下面,参照图3、图4、图5说明本发明的实施方式的信息解析报告书自动生成方法以及程序控制的处理流程。
图3是表示输入装置2的动作的流程图。图4是表示处理装置1的动作的流程图。图5是表示输出装置4的动作的流程图。
如图3所示,当在输入装置2中设定各条件时,首先在步骤S201中进行初始化。初始化(步骤S201)后,对输入的条件进行区分(步骤S202)。此时,当条件是调查对象文件d的条件输入时,在调查对象文件d条件输入部分210中输入调查对象文件d的条件(步骤S210)。接着,在显示画面(参照图6~图8)上确认输入的条件,如果可以的话选择“设定”,将输入内容存储在条件记录部分310中(步骤S310),如果不可以的话选择“返回”,返回到步骤S210(步骤S211),重复上述动作。
另一方面,在步骤S202中,当条件是比较对象文件P的条件输入时,在比较对象文件P条件输入部分220中输入比较对象文件P的条件(步骤S220)。接着,在显示画面(参照图6~图8)上确认输入的条件,如果可以的话选择“设定”,将输入内容存储在条件记录部分310中(步骤S310),如果不可以的话选择“返回”,返回到步骤S220(步骤S221),重复上述动作。
另外,在步骤S202中,当条件是提取条件及其他条件时,在提取条件及其他条件输入部分230中输入提取条件以外的内容(步骤S230)。接着,在显示画面(参照图6~图8)上确认输入的条件,如果可以的话选择“设定”,将输入内容存储在条件记录部分310中(步骤S310),如果不可以的话选择“返回”,返回到步骤S230(步骤S231),重复上述动作。在该步骤S230中,设定调查对象文件d的提取条件和从比较对象文件P提取母集团文件S的条件这两个方面。并且,在步骤S230中,也设定输出条件(参照后述的图9)。
如图4所示,当在处理装置1中进行各处理时,首先在步骤S101中进行初始化。初始化(步骤S101)之后,根据条件记录部分310的条件,将从文件存储部分330读出的文件区分为调查对象文件d和比较对象文件P(步骤S102)。当读出的文件是调查对象文件d时,在调查对象文件d读出部分110中,从文件存储部分330读出调查对象文件(步骤S110)。接着,在索引词(d)提取部分120中提取调查对象文件d的索引词(步骤S120)。接着,在TF(d)运算部分121中对提取的各个索引词进行TF运算(步骤S121)。
另一方面,在步骤S102中,当读出的文件是比较对象文件P时,在比较对象文件P读出部分130中,读出比较对象文件P(步骤S130)。接着,在索引词(P)提取部分140中提取比较对象文件P的索引词(步骤S140)。接着,在TF(P)运算部分141中对提取的各个索引词进行TF运算(步骤S141),同时在IDF(P)运算部分142中进行IDF运算(步骤S142)。
接着,由TF(d)运算部分121的输出的TF(d)运算结果、TF(P)运算部分141的输出的TF(P)运算结果、以及IDF(P)运算部分142的输出的IDF(P)运算结果,在相似率运算部分150中得出关于文件的各索引词的运算结果,例如得出索引词的平均值,进行作为文件的相似率等的相似率的运算(步骤S150)。
当相似率的运算方法不是TFIDF等时,有时利用别的方法从调查对象文件d的索引词(d)提取部分120和比较对象文件P的索引词(P)提取部分140中求出相似率。
接着,在步骤S151中,由母集团压缩部分去除没用的信息。另外,也可略过该步骤S151。
接着,由母集团文件S选出部分160按相似率的顺序排列在步骤S150中计算的文件,选出符合提取条件及其他条件输入部分230中所设条件之数量的母集团文件S(步骤S160)。
这些数据有时可在输出装置4的地图(图·表)生成部分415或报告书部分440中直接利用。
接着,由母集团文件S的索引词(S)提取部分170提取由步骤S160选出的母集团文件S的索引词(S)(步骤S170)。
接着,由IDF(S)运算部分171对各个索引词(d)进行IDF运算(步骤171)。
接着,根据在步骤S171中得出的关于母集团文件S中的各个索引词(d)所进行的IDF(S)运算的结果、和在步骤S121中得出的关于调查对象文件d中的各个索引词(d)所进行的TF(d)运算的结果,计算特征索引词·母集团内相似率·频率散布图·结构图等(步骤S180)。
如图5所示,当在输出装置4中生成信息解析报告书并进行输出时,首先在步骤S401中进行初始化。初始化(步骤S401)之后,将从条件记录部分310读出的条件区分为地图生成条件、数据输出条件、标注追记条件(步骤S402)。
当从条件记录部分310读出的条件是地图生成条件时(步骤S410),如果是必需地图的条件(步骤S411),则由地图用取入部分412从作业结果存储部分320中取入地图用数据(步骤S412)。按照地图生成条件读出部分410的地图生成条件,生成图或表等的地图(步骤S415),接着将地图发送给报告书生成部分440。
另一方面,当从条件记录部分310读出的条件是母集团数据输出条件时(步骤S420),如果是必需数据的条件(步骤S421),则由输出数据取入部分422从作业结果存储部分320中取入输出用数据(步骤S422)。接着,按照数据输出条件读出部分420的数据输出条件,输出数据(步骤S423),接着将数据发送给报告书生成部分440。
并且,另一方面,当从条件记录部分310读出的条件是标注条件时(步骤S430),如果是必需标注的条件(步骤S431),则由地图·数据·标注复合整形输出部分440准备可追记标注的文本框,向该框内,从键盘或OCR手动输入(步骤S435),或者使用在文件存储部分330的内部数据库中的、预先准备的标注,取入标注(步骤S432),接着,将标注发送给报告书生成部分440。
在步骤S411中,当不是显示地图的条件时,或者在步骤S421中,当不是输出数据的条件时,或者在步骤S431中,当不是追记标注的条件时,分别在该时刻结束,不向报告书生成部分440发送数据。
图6是表示信息解析报告书自动生成装置100的输入装置2的输入条件设定画面的图。
该图6是信息解析报告书自动生成装置的输入装置2的输入条件设定(1)画面的显示例。图6是示出了如下状态的例子,从“对象文件”的窗口的“调查对象文件”和“比较对象文件”中选择“调查对象文件”,然后从“文件内容”的窗口“公开专利”、“登录专利”、“实用新型”、“学术文献”等中选择“公开专利”,接着从“数据读出”的窗口“本公司(自社)DB1”、“本公司DB2”、“专利厅IPDL”、“PATOLIS”、“其他商用DB1”、“其他商用DB2”、“FD”、“CD”、“MO”、“DVD”、“其他”等中选择“FD”,进一步从“FD”的“文件1”、“文件2”、“文件3”、“文件4”、“文件5”、“文件6”等中选择“文件3”。
并且,图7是信息解析报告书自动生成装置的上述输入装置2的输入条件设定(2)画面的显示例。图7是示出了如下状态的例子,从“对象文件”的窗口的“调查对象文件”和“比较对象文件”中选择“比较对象文件”,然后从“文件内容”的窗口“公开专利”、“登录专利”、“实用新型”、“学术文献”等中选择“公开专利”和“登录专利”这两个,接着从“提取内容”的窗口“权利要求”、“现有技术”、“发明课题”、“手段·效果”、“实施例”、“附图说明”、“附图”、“摘要”、“书目事项”、“审查过程信息”、“登录信息”、“其他”等中选择“权利要求”和“摘要”这两个,接着在“数据读出”的窗口中与上述相同的项目中选择“本公司DB1”。该例子的输入条件设定画面中的设定条件设定调查对象文件d条件输入部分210和比较对象文件P条件输入部分220。
并且,图8是信息解析报告书自动生成装置的上述输入装置2的输入条件设定(3)画面的显示例。图8是示出了如下状态的例子,从“索引词提取条件”的窗口“本公司关键词提取1”、“本公司关键词提取2”、“商用关键词提取1”“商用关键词提取2”等中选出“本公司关键词提取1”,接着从“相似率计算方法”的窗口“相似率1”、“相似率2”、“相似率3”、“相似率4”、“相似率5”、“相似率6”等中选择“相似率1”,接着在“母集团文件选出”的窗口“母集团文件数”、“非母集团文件数”等中选择“母集团文件数”,进一步在“前100件”、“前1000件”、“前3000件”、“前5000件”、“输入数值”等中选择“前3000件”,在“母集团压缩条件”的窗口“申请件数多的申请人”、“申请件数少的申请人”、“IPC指定”、“企业名、业界的指定”中进行选择。
该例的提取条件设定画面中的设定条件设定提取条件及其他条件输入部分230。
图9是信息解析报告书自动生成装置的输入装置2的输出条件设定画面的显示例。图9是示出了如下状态的例子,“地图计算方法”的窗口的“x轴”选择“x轴:索引词件数”以及“y轴”选择“y轴:索引词位次”,接着在“地图位置”的窗口“地图1页”、“地图2页”、“地图1页·附数据”、“地图2页·附数据”、“地图1页·附标注”、“地图2页·附标注”、“地图1页·附数据·标注”、“地图2页·附数据·标注”等中选择“地图1页”,接着从“输出数据”的窗口“TFIDF降序”、“TFIDF升序”等中选择“TFIDF降序”,进一步从“没有”、“前5个”、“前10个”、“前15个”、“前20个”、“输入数值”等中选择“前20个”。接着对于“标注”的窗口框内的“(自由写入)”采用没有记入。这样设定提取条件及其他条件输入部分230的输出条件。
图10是在信息解析报告书自动生成装置100中、当按从图6~图9的例子进行输入时所生成的信息解析报告书的一个例子。在该情况下,根据母集团文件S选出部分160的选出结果、以及特征索引词·母集团内相似率·频率散布图·结构图等运算部分180的结果,在由地图(图·表)生成部分415生成的地图中附加数据以及固定标注而生成。
根据图10可知,在信息解析报告书自动生成装置100中,对于与调查对象文件d“激光离子化质量分析计用试料生成方法及试料夹持器”相关的公开专利公报,作为比较对象文件、比较专利公开公报和专利公报的大约10年的量的文件,调查具有特征的索引词的结果是,“试料”、“分析”、“质量”、“固体”、“激光”等是特征索引词。
并且,在图10所示的信息解析报告书中示出了地图、数据、固定标注、自由标注的内容,但不限于此。例如,也可以仅显示地图。并且例如,也可以一起显示地图和数据。
图11至图32是表示信息解析报告书自动生成装置100的其他的输出例的图。
图11是示出了在整个期间中的专利申请人次序的图。在该情况下,按申请人不同累计母集团中的公报,显示件数多的申请人。在该图11中,对所有比较对象文件的数据范围的整个期间按申请人不同累计母集团(例如与调查对象文件类似的3000件公报的集合)中的公报,显示母集团中的公报件数多的申请人前20位的次序。并且,按公开件数、登录件数、实新(实用新型)件数区分并显示各申请人的件数。
根据该图11,关于母集团中包含的公报可知件数顺序的申请人次序,读取作为对母集团的领域的技术具有较多关心的申请人。另外,从次序中的件数分布倾向可知,申请人对于该领域的技术的集中度是高(由少数申请人引起的集中倾向)还是低(由多数申请人引起的分散倾向)。
图12是示出了最近三年中的专利申请人次序的图。在该情况下,在最近三年间的范围内按申请人不同累计母集团中的公报,显示件数多的申请人。在该图12中,在最近三年间的范围内按申请人不同累计母集团(例如与调查对象文件类似的3000件公报的集合),显示母集团中的该期间内的公报件数多的申请人前20位的次序。并且,按公开件数、登录件数、实新(实用新型)件数区分并显示各申请人的件数。
根据该图12,可知在母集团中、尤其是最近三年间公报件数多的申请人的次序,读取在该期间内对作为母集团的领域的技术具有较多关心的申请人。另外,通过比较该三年间和整个期间(参照图11)的申请人次序,可读取处于上位的申请人的顺序的替换或者同一申请人的件数变化、即对作为母集团的领域的关心度的变化。
图13是表示国际专利分类(IPC)的主分类的次序的图。在该情况下,按不同的IPC主分类累计母集团中的公报,显示件数多的IPC。在该图13中,按付与的IPC主分类的不同主组累计母集团(例如与调查对象文件类似的3000件公报的集合)中的公报,显示件数多的IPC主组前20个类别的次序。并且,按公开件数、登录件数、实新(实用新型)件数区别付与了各IPC的公报件数并进行显示。
根据该图13,对与调查对象文件类似的技术相关公报付与主分类,在这种IPC主分类的主组中,从图可知件数多的分类。在位次下降时,件数极端地减少的情况下,与类似于调查对象文件的技术相关的领域的范围狭窄,反过来在即便位次下降、件数也不极端地减少的情况下,可以说与这样技术相关的领域的范围宽广。由于仅仅是IPC主分类的主组主分类的累计,可以认为是与类似于调查对象文件的公报的核心技术领域相关的分布倾向。
图14是示出了国际专利分类(IPC)主·副分类的次序的图。在该情况下,按主分类和副分类的所有不同IPC累计母集团中的公报,显示件数多的IPC。在该图14中,对于付与的所有IPC主分类和副分类、按不同主组累计母集团(例如与调查对象文件类似的3000件公报的集合)中的公报,显示件数多的前20个分类的次序。并且,按公开件数、登录件数、实新(实用新型)件数区别付与了各IPC的公报件数并进行显示。
根据该图14,对与调查对象文件类似的技术相关公报付与主分类或副分类,在这种IPC的主组中,从图可知件数多的分类。可以说,在位次下降时件数极端地减少的情况下,与类似于调查对象文件的技术相关的领域的范围狭窄,反过来在即便位次下降件数也不极端地减少的情况下,可以说与这样技术相关的领域的范围宽广。和仅根据主分类IPC进行累计的件数的次序(参照图13)相比,本图中所显示的与调查对象文件类似的技术相关领域的分布倾向为:分布范围更广。
图15是示出了申请人和国际专利分类(IPC)的矩阵地图的图。在该情况下,显示出了在母集团中的件数前10位的申请人所提出的公报中,付与了母集团中的IPC件数前5个分类的任意一个的公报件数。在该图15中,在申请了众多母集团(例如与调查对象文件类似的3000件公报的集合)中的公报的前10位申请人所申请的母集团中的公报中,累计付与了IPC主组的件数,所述IPC主组是与母集团中作为主分类或副分类而被较多地付与的IPC前5个分类中的任意一个相同的分类,并以矩阵形式进行显示。图15中的泡(圆)的大小相对地表示件数。
根据该图15,根据在母集团中件数前10位的各个申请人的公报,可读取IPC前5个分类的哪一个分类特别多,或者分别关于IPC前5个分类,哪个申请人提出的专利多这样的倾向。在与调查对象文件类似的技术相关的公报件数前10位的申请人中,有时根据申请人在不同IPC的件数分布上具有特有的倾向,从这样的分布的不同中可以比较各申请人作为目的或方法的技术领域的倾向。
图16是表示前10位申请人和国际专利分类(IPC)前5个分类的关系的表。在该图16中,以表的形式表示了上述图15,按公开件数、登录件数、实新(实用新型)件数区别公报件数并进行显示。
图17是表示前20位申请人和国际专利分类(IPC)主分类的关系的图。在该情况下,显示了母集团中申请件数位居前20位的申请人所申请的公报中,被付与了与调查对象文件的IPC主分类相同之IPC主组的件数。在该图17中,在较多地申请母集团(例如与调查对象文件类似的3000件公报的集合)中的公报的前20位申请人的母集团中的公报中,累计在主分类或副分类中、付与了与调查对象的IPC主分类相同的IPC主组的件数,并进行显示。按公开件数、登录件数、实新(实用新型)件数区别各申请人的件数并进行显示。
根据该图17,在母集团中件数前20位申请人的公报中,可把握付与了与调查对象文件的IPC主分类相同的主组的件数,可以得知在母集团的主要申请人当中、与调查对象文件相同的技术领域相关的公报较多的申请人。
图18是表示不同的重要关键词(对所有比较对象文件)的件数分布的图。在该情况下,示出了包含与调查对象文件的重要关键词(对所有的比较对象文件)相同的关键词的母集团中的公报件数。在该图18中,通过使调查对象文件中的各关键词的使用频率和所有比较对象文件中的各关键词的使用频率数值化并进行比较,可以计算出关键词重要度(对所有比较对象文件),所述关键词重要度表示更强地表现出调查对象文件技术特征的程度。分别累计母集团(与调查对象文件类似的3000件公报的集合)中使用了重要度高的前20个词的公报件数并进行显示。并且,按公开件数、登录件数、实新(实用新型)件数区别使用各关键词的公报件数并进行显示。
对于更强地表现出调查对象文件技术特征的20个重要关键词(对所有比较对象文件),该图18示出了母集团中的公报中使用了这些重要关键词的件数,但是有在母集团的多数公报中使用的重要关键词和仅在少数公报中使用的重要关键词。仅在少数公报中使用的重要关键词也有表示调查对象文件独特的特征的可能性。
图19是示出了不同的重要关键词(对母集团)的件数分布的图。在该情况下,示出了包含与调查对象文件的重要关键词(对母集团)相同的关键词的、母集团中的公报件数。在该图19中,通过使调查对象文件中的各关键词的使用频率和所有比较对象文件中的各关键词的使用频率数值化并进行比较,可以计算出关键词(对母集团),所述关键词表示更强地表现出调查对象文件技术特征的程度。分别累计母集团(与调查对象文件类似的3000件公报的集合)中使用了重要度高的前20个词的公报件数并进行显示。并且,按公开件数、登录件数、实新(实用新型)件数区别使用各关键词的公报件数并进行显示。
对于更强地表现出调查对象文件技术特征的20个重要关键词(对母集团),该图19示出了母集团中的公报中使用了这些重要关键词的件数,但是有在母集团的多数公报中使用的重要关键词和仅在少数公报中使用的重要关键词。仅在少数公报中使用的重要关键词也有表示调查对象文件自身的特征的可能性。
图20是示出了不同申请人的件数推移的图。在该情况下,按申请年份累计母集团中的件数前10位申请人提出的申请件数,显示该件数的推移。在图20中,按申请人不同,从1992年开始按申请年份累计较多地提出母集团(与调查对象文件类似的3000件公报的集合)中的公报的前10位申请人提出的母集团中的申请件数,显示该件数的推移。1993年以后的年份按加上了到前一年为止的件数的累积进行显示。
根据该图20,从母集团中的公报中件数前10位申请人提出的申请件数逐年的推移,可读出倾向变化明显的申请人,或与母集团的技术领域相关的经时变化。
图21是示出了申请人和申请件数的关系的表。在该图21中,以表的形式示出了上述的图20,也表示了各累计年份中的单年的件数。
图22是示出了不同的国际专利分类(IPC)的件数推移的图。在该情况下,对每一个申请年份累计付与了母集团中的IPC件数前5个分类的申请件数,显示该件数的推移。在该图22中,在母集团(与调查对象文件类似的3000件公报的集合)中的公报中,关于作为主分类或副分类而付与的件数多的IPC主组的前5个分类,在母集团中的申请中按这些不同的IPC,累计从1992年开始每个申请年份、作为主分类或副分类而被付与的件数,显示该件数的推移。1993年以后的年份以加上了到前一年为止的件数的累积进行显示。
根据该图22,从母集团中包含的公报中付与了IPC前5个分类的件数逐年的推移,可读出与母集团的技术领域相关的经时变化。
图23是表示国际专利分类(IPC)与申请件数的关系的表。在该图23中,以表的形式表示了上述图22,也表示了各累计年份中的单年的件数。
图24是示出了不同预定国际专利分类(IPC)的件数推移的图。在该情况下,在母集团中对每一个申请年份累计付与了与调查对象文件的主分类相同的IPC主组的申请件数,显示该件数的推移。在该图24中,从1992年开始对每个申请年份累计在母集团(与调查对象文件类似的3000件公报的集合)的申请中、作为主分类或副分类而付与的、与调查对象文件的IPC主分类相同的IPC主组的申请件数,显示该件数的推移。以柱形图显示各累计年中的单年的件数推移,对于1993年以后以折线图显示加上了到前一年为止的件数的累积的推移。
根据该图24,可以按时序把握公报与调查对象文件类似且主要技术领域相同的专利的件数动向。
图25是示出了母集团整体的组合的图。在该情况下,按申请年份累计母集团中的所有的申请件数,通过对各累计年份与其前一年进行比较,来显示件数的推移,模式地表现技术发展的状态。在该图25中,从1992年按每个申请年份累计母集团(与调查对象文件类似的3000件公报的集合)中的所有申请,将各累计年份的每个单年的件数作为横轴(件/年),纵轴以1992年的件数为起点,对1993年以后的各累计年份的件数和前一年的件数的比较所产生的延伸率(%),进行作图。并且,制图点的圆的大小表示从1992年开始到各累计年为止的件数的累积。
根据该图25,按模式地表现了与调查期间中的调查对象文件类似的公报件数的不同年份的推移的形式而可进行把握,关于母集团可读出技术发展的状态。
图26是示出了国际专利分类(IPC)的组合的图。在该情况下,在母集团中按申请年份累计付与了该IPC的申请件数,通过对各累计年份与其前一年进行比较,来显示件数的推移,模式地表现技术发展的状态。在该图26中,以主组累计在母集团(与调查对象文件类似的公报的集合)中的公报中、作为主分类或副分类而付与的IPC的结果是,从1992年开始对每个申请年份累计作为主分类或副分类而付与了该IPC主组的母集团中的申请,以各累计年份的每个单年的件数作为横轴(件/年),纵轴是以1992年的件数为起点,对1993年以后的各累计年份的件数和前一年的件数的比较所产生的延伸率(%),进行作图。并且,制图点的圆的大小表示从1992年开始到各累计年为止的件数的累积。
根据该图26,母集团中主要IPC之一的这种IPC主组作为主分类或副分类被付与到母集团中的申请,对于这种申请,可以通过模式性的表现形式把握件数的年代推移,可读出该领域的技术发展的状态。
图27是示出了不同重要关键词(对所有比较对象文件:对所有公报)的件数的推移的图。在该情况下,示出了包含与调查对象文件的重要关键词(对所有比较对象文件)相同的关键词的、母集团中的申请件数的推移。在该图27中,通过使调查对象文件中的各关键词的使用频率和所有比较对象文件中的各关键词的使用频率数值化并进行比较,可以计算出关键词重要度(对所有比较对象文件),所述关键词重要度表示更强地表现出调查对象文件技术特征的程度。按关键词不同、对从1992年开始每一个申请年份累计包含与重要关键词(对所有比较对象文件)相同的关键词的母集团(与调查对象文件类似的3000件公报的集合)中的申请件数,显示该件数的推移。1993年以后的年份以加上了到前一年为止的件数的累积进行显示。
根据该图27,可以把握母集团中包含与调查对象文件的关键词(对所有比较对象文件)相同之关键词的申请件数的推移,所述关键词(对所有比较对象文件)表示更强地表现出调查对象文件技术特征的程度。
图28是示出了重要关键词(对所有比较对象文件)和申请件数的关系的表。在该图28中,以表的形式示出了上述图27,也示出了各累计年份中的单年的件数。
图29是示出了不同重要关键词(对母集团)的件数推移的图。在该情况下,示出了包含与调查对象文件的重要关键词(对母集团)相同的关键词的母集团中的申请件数的推移。在图29中,通过使调查对象文件中的各关键词的使用频率和所有比较对象文件中的各关键词的使用频率数值化并进行比较,可以计算出关键词重要度(对母集团),所述关键词重要度表示更强地表现出调查对象文件的技术特征的程度。按不同关键词、从1992年开始对每个申请年份累计包含与重要关键词(对母集团)相同的关键词的母集团(与调查对象文件类似的3000件公报的集合)中的申请件数,显示该件数的推移。1993年以后的年份以加上了到前一年为止的件数的累积进行显示。
根据该图29,可以把握包含与表示较强地表现出调查对象文件技术特征的程度的关键词(对母集团)相同的关键词的母集团中的申请件数的推移。
图30是示出了重要关键词(对母集团)和申请件数关系的表。在该图30中,以表的形式示出了上述图29,也表示各累计年份中单年的件数。
图31是示出了调查对象文件的关键词分布的频率散布图。在该情况下,显示了如下制作的散布图,即计算从调查对象文件中提取的各个关键词的专业度和独创度,在以这两者为轴的平面上制图。关于频率散布图的制作,与关于第2实施方式的装置说明一起在后面详细叙述。
在图31中,在所有比较对象文件中使用该词的公报件数越少,专业度的数值变得越高,在母集团中使用该词的公报件数越少,独创度的数值变得越高。在该分布图中,可从对各个关键词进行了制图的区域中读取该词较强地表现出了调查对象文件和母集团的哪一方的特征。
并且,在该图31中,(1)位于关键词分布图的右下区域的词的独创度的数值低、专业度的数值高。即,虽然在母集团中的多数文件中使用,但在所有比较对象文件中使用的文件少。认为位于该区域的词表现出了作为母集团而提取的技术领域的特性。该区域是母集团特性词区域。
(2)位于关键词分布图的左上区域的词的专业度的数值低、独创度的数值高。即,虽然在所有比较对象文件中的多数文件中使用,但在母集团中使用的文件少。认为位于该区域的词表现出了作为母集团而提取的技术领域中的调查对象文件的独创性。该区域是独创词区域。
(3)位于关键词分布图的右上区域的词的专业度的数值高、独创度的数值高。即,在所有比较对象文件中使用的文件少,在母集团中使用的文件也少。认为位于该区域的词是除了调查对象文件以外几乎不使用的非常专业的词。该区域是专业词区域。
(4)位于关键词分布图的左下区域的词的专业度的数值低、独创度的数值也低。即,在所有比较对象文件中的多数文件中使用,在母集团中的多数文件中也使用。认为位于该区域的词是不区分所有比较对象文件·母集团、在任意文件中被一般性地使用的词。该区域是一般词(不需要的词)区域。
图32是示出了调查对象文件、或调查对象文件和母集团文件的关系的专利结构图。该情况是,通过关键词检索,将与提取的“清酒”相关的日本专利申请17件的各公开公报作为文件要素,就近连接了相似率相近的公报,按申请日的时序进行了分析之后的结果。
另外,根据该图32,调查对象文件之间、或调查对象文件相对母集团的定位等的关系一目了然。当然这里也是。完全不用读入调查对象文件、比较对象文件和母集团文件,全部由计算机自动执行。
图33是示出了使用了母集团内相似率的相似率次序和公报内容摘录的图。在该情况下,关于母集团内相似率的前300件,示出了申请号、发明名称、申请人等的信息。在该图33中,通过比较调查对象文件中的各关键词的重要度(对母集团),关于母集团中的各个公报,计算表示相对调查对象文件的类似性的程度的母集团内相似率,关于该母集团内相似率前300件,显示申请号、发明名称、申请人等公报信息。
这样,在本实施方式中,信息解析报告书自动生成装置100的构成包括,处理装置1、输入装置2、存储装置3、以及输出装置4。在生成信息解析报告书时,指定并输入调查对象文件和比较对象文件,输入进行信息解析的条件,从比较对象文件中选出由类似于调查对象文件的文件群所构成的母集团文件,提取调查对象文件相对母集团文件的具有特征的索引词,根据母集团文件和索引词,生成表示调查对象文件的特征的信息解析报告书,然后,向显示单元、记录单元、或者通信单元输出所生成的信息解析报告书。
这样,人们完全不用读入调查对象文件和庞大的比较对象文件这些内容,可自动地生成能够可靠地报告调查对象的文件信息的信息解析报告书。并且,可生成具有地图、母集团或索引词的数据、与地图以及数据的内容相对应的固定的标注或自由的标注的信息解析报告书。
[第二实施方式]
下面,说明本发明的第二实施方式的信息解析报告书自动生成装置。第二实施方式的信息解析报告书自动生成装置基本上具有与第一实施方式相同的功能,特别地,连接在网络上,根据经由网络的客户端的要求而执行处理,可将获得处理结果的信息解析报告书的文件经由网络发送给客户端。
图36是包含第二实施方式的信息解析报告书自动生成装置以及客户端的结构图。如图36所示,信息解析报告书自动生成装置500连接在互联网等的网络501上。在网络501上连接有客户端502-1、502-2、...。因此,在信息解析报告书自动生成装置500和客户端502-1、502-2、...之间可经由网络501进行数据通信。下面,在不指出特定的客户端的情况下,仅将客户端称作“客户端502”。
如图36所示,信息解析报告书自动生成装置500包括,网络服务器511、具有排队机构的管理服务器512、生成结构图或频率散布图等的第一解析服务器513、生成集群信息的第二解析服务器514、数据库服务器515、以及文件生成服务器516。在第二实施方式中,网络服务器511、管理服务器512、第一解析服务器513以及第二解析服务器514作为整体、实现与第一实施方式的处理装置1、输入装置2以及输出装置4几乎相同的功能。并且,数据库服务器515实现与第一实施方式的存储装置3几乎相同的功能。
网络服务器511作为与客户端502之间的接口(interface)而起作用,接收来自客户端502的数据,并且,对客户端502发送数据。网络服务器根据从客户端502经由网络向网络服务器511发送的、用户的输入,生成应生成信息解析报告书的案件、即调查对象文件的信息(以下,称作“调查案件信息”),并将其供给管理服务器512。
管理服务器512对调查案件进行排队,按其投入顺序,向第一解析服务器513和第二解析服务器514发出请求。管理服务器512具有向第一解析服务器513发出请求的第一排队机构,和对第一解析服务器处理完毕的调查案件进行排队,并向第二解析服务器514发出请求的第二排队机构。
第一解析服务器513执行母集团的提取、各种累计处理、生成结构图等的处理。第二解析服务器514对结构图中的每个集群,生成显示该集群的特性等的集群信息。
下面,对第二实施方式的信息解析报告书自动生成装置500执行的处理进行说明。通过用户操作客户端502进行登录,网络服务器511对客户端502发送用于指定调查对象文件等的检索画面。图37A是示出了检索画面的一个例子的图。如图37A所示,检索画面中包含有用于指定专利文献的栏3701~3704、文本输入栏3705、以及内容选择栏。在本实施方式中,作为调查对象文件,除了专利公开公报或专利公报之外,也可采用用户自己输入的文本。作为文本,可输入用户想要提出申请的技术摘要等。
调查对象文件如果是专利公开公报等的专利文献,则用户操作客户端502,向栏3701~3704输入必要的信息。或者,用户也可以向文本输入栏3705输入应作为调查对象的信息。
另外,栏3706可以用于提供下列服务:要列出类似公报时,栏3706内所输入期间内的公报会被加注颜色来加以强调。
用户操作客户端502,当使按键为ON时,输入各栏的信息经由网络501被发送给网络服务器511。网络服务器511向客户端502发送用于确认用户进行的输入的确认画面。图37B是示出了确认画面的例子的图。用户确认了该内容之后,操作客户端502,通过使预定的按键为ON,确定调查对象文件。
如上所述,在本实施方式中,确定调查对象文件后,调查案件信息被从网络服务器511发送给管理服务器512。管理服务器512通过第一排队机构对调查案件进行排队,对于成为应进行处理的顺序的调查案件,向第一解析服务器513发送请求,提供调查案件数据。
图38是示出了在第一解析服务器中执行的处理的流程图。如图38所示,第一解析服务器513对调查案件信息实施预处理(步骤S3801),以方便服务器自身的操作,然后,生成母集团(步骤S3802)。
在本实施方式中,如果是专利文献,则其权利要求书和摘要成为调查对象文件。另外,如果是文本输入,则输入的文本本身成为调查对象文件。并且,在第二实施方式中,例如JP-ROM等的各个公报中的专利请求的范围和摘要成为比较对象文件。
并且,作为母集团,按照比较对象文件与调查对象文件间的相似性从高到低的顺序,从比较对象文件中提取3000件。由于相似性的计算和第一实施方式中说明的相同,省略其说明。
并且,构成所提取的母集团的文件的信息等被存储在第一解析服务器513的存储装置(未图示)中。
接着,第一解析服务器513执行累计处理。图39是示出了第二实施方式的累计处理的例子的流程图。如图39所示,作为累计,第一解析服务器513执行次序累计(步骤S3901)、时序累计(步骤S3902)以及矩阵累计(步骤S3903)。
在次序累计中包含关键词累计、关于申请人的累计和关于IPC的累计。在关键词的累计中生成如图18、19所示那样的分布图。第一解析服务器513从存储装置中按重要度从高到低的顺序提取预定数量的重要关键词(对所有公报)的信息,对每个重要关键词(对所有公报)生成表示使用该关键词(索引词)的公报的数量的图(图18)。并且,第一解析服务器513从存储装置中提取重要关键词(对母集团)的信息,并对每个重要关键词(对母集团)生成表示使用该关键词(索引词)的公报件数的图(图19)。
并且,第一解析服务器513从存储装置中取得母集团的信息,按申请人不同累计母集团的公报(参照图11、12)。第一解析服务器513从存储装置中取得母集团的信息,生成按主组不同所累计的母集团的各个公报中的IPC主分类的图(图13),同时按主分类和副分类的所有不同IPC而进行累计并生成图(图14)。这样的累计结果(表和图)存储在第一解析服务器513的存储装置中。
第一解析服务器513从存储装置中取得母集团的信息,按申请年份累计母集团中申请件数前10位申请人的申请件数,生成显示该件数的推移的图(图20),同时生成表示件数的累计以及单年计的表(图21)。并且,第一解析服务器513从存储装置中取得母集团的信息,针对作为主分类或副分类而付与的IPC的前5个分类,按年份累计母集团公报中的申请件数并生成图(图22),同时生成表示该申请件数的单年计和累计的表(图23)。这些累计结果也存储在第一解析服务器513的存储装置中。
并且,第一解析服务器513从存储装置中取出重要关键词(对所有公报),生成表示每个重要关键词(对所有公报)的每年的使用频率的累积的图(图27),以及重要关键词(对所有公报)的单年计以及累计的表(图28)。并且,第一解析服务器513从存储装置中取出重要关键词(对母集团),生成表示每个重要关键词(对母集团)的每年的使用频率的累积的图(图29),以及重要关键词(对母集团)的单年计以及累计的表(图30)。这些图和表也存储在第一解析服务器513的存储装置中。
并且,第一解析服务器513根据母集团的每一年的申请件数的累计结果,以每年的件数为横轴,以和前一年的申请件数的比较所得的延伸率为纵轴,生成图(图25)。在图25的图中,制图点的圆的大小表示申请件数的累积。同样地,第一解析服务器513关于某一IPC(IPC主组)、根据母集团中付与该IPC的申请的申请件数的累计结果,以每年的件数为横轴,以和前一年的申请件数的比较所得的延伸率为纵轴,生成图(图26)。在图26中,制图点的圆的大小表示申请件数的累积。这样生成的图也存储在第一解析服务器513的存储装置中。
下面,说明矩阵累计。第一解析服务器513进一步从存储装置中取出母集团的信息,参照付与母集团中的申请件数前10位的申请人的申请的IPC,针对每个申请人生成申请人×IPC主组这一矩阵形式的表,表示该申请人的申请中被付与IPC主组的申请件数(参照图15)。并且,使用图15一样的信息,还生成分别表示了公开件数、登录件数、实用新型件数的表(图16)。并且,第一解析服务器513从存储装置中取出母集团的信息,计算在母集团中的申请件数前20位的申请人的公报中付与了与调查对象文件的IPC主分类相同的IPC主组的申请件数,对每个申请人生成表示其件数的图(图17)。在图17中,最好分开表示每个申请人的公开件数、登录件数、实用新型件数。这些矩阵累计的结果也存储在第一解析服务器513的存储装置中。
当各种累计处理完成时,第一解析服务器513从存储装置中取出母集团的信息,计算母集团内相似性(步骤S3904)。母集团内相似性指的是,调查对象文件和属于母集团的文件之间的相似率(相似性)。
并且,第一解析服务器513执行用于频率散布图的坐标的计算处理(步骤S3905)。如图31所示,频率散布图是表示调查对象文件的关键词分布的图。参照图40的流程图详细地说明用于频率散布图的坐标的计算。并且,为了便于理解,图40依次示出了频率散布图中的每个关键词的坐标的计算所需要的所有的处理步骤。因此,在图39的S3905中并不执行图40所示的所有的处理步骤。即,在图39的S3905中,直接利用在第一解析服务器513中已经计算出并存储在存储装置中的值,不再重新计算,仅执行在步骤S3905的处理以前未执行的处理步骤。
如图40所示,首先,从调查对象文件或比较对象文件中提取索引词(步骤S4001)。接着,计算表示调查对象d的索引词在所有文件(比较对象文件整体)P中的文件频率的DF(P)(步骤S4002)。该DF(P)相当于关键词重要度。
然后,计算作为TF(d)(d的索引词(d1,...dx)在d中的出现频率)和IDF(P)(DF(P)的倒数×文件数的对数:ln[N/DF(P)])的积的文件向量(d)(步骤S4003)。同样地,计算作为TF(P)(P的索引词(P1,...Pya)在P中的出现频率)和IDF(P)的积的文件向量(p)(步骤S4004)。
当算出文件向量(d)和文件向量(p)时,通过取它们的内积而计算出相似性(步骤S4005)。并且,相对调查对象文件d,从比较对象文件P中按相似性从高到低的顺序提取预定数量的文件作为母集团S,将该信息存储在存储装置中(步骤S4005)。然后,计算关键词重要度DF(S)(S的索引词在S中的文件频率)(步骤S4006)。
然后,关于调查对象文件d的各个索引词(d1,...dx),相对比较对象文件P和母集团S求出文件频率的函数值IDF(步骤S4007、步骤S4008)。在步骤S4007中,求出IDF(d1;P)、IDF(d2;P)、...IDF(dx;P),在步骤S4008中,求出IDF(d1;S)、IDF(d2;S)、...IDF(dx;S)。第一解析服务器513以IDF(P)和IDF(S)制作平面,例如,以IDF(P)为x轴、以IDF(S)为y轴,根据各个索引词(d1,...dx)对应的IDF(P)或IDF(S)的值,生成在平面上的预定位置上配置索引词那样的频率散布图(步骤S4009)。
并且,在步骤S4009中,在频率散布图(IDF平面图)中配置了(散布了)索引词,但有时散布的索引词较偏、难以看见。因此,在第二实施方式中,调查配置在平面上的索引词的密度,当一定的区域中的密度超过预定值时,第一解析服务器513扩大该区域的轴的分度间隔,扩大该区域的另一方面,减小其他区域的轴的分度间隔,压缩该区域。因此,当这样进行一部分区域的扩大以及其他区域的压缩时,第一解析服务器513进行坐标变换(步骤S4010)。并且,成为基本的IDF平面图是菱形,但当作为表现图进行观察时,有不协调,并且有时不便处理。因此,第一解析服务器513也可以通过坐标变换用四角形表示平面。这些频率散布图的信息也存储在第一解析服务器513的存储装置中。
当累计处理结束时,第一解析服务器513执行专利结构图的生成处理。下面,更详细地说明专利结构图的生成。
[专利结构图]
对在下面的说明中使用的词汇进行定义。
E:文件要素(构成成为分析对象的文件集团,在本实施方式中是成为分析的单位的各个对象。在本实施方式中,调查对象文件d或母集团中的文件p相当于E。)
树状图:将构成作为分析对象的文件集团的各文件要素连线成树状的图。
系统树图(dendrogram):根据层次性的聚类分析所生成的树状图。简单地说明生成原理,首先,根据构成作为分析对象的文件集团的各文件要素之间的非相似性(相似性),结合非相似性最小(相似性最大)的各文件要素,生成结合体。进一步,对结合体和其他文件要素、或结合体和结合体按它们的非相似性从小到大的顺序进行结合,生成新的结合体并重复该作业。这样表现为层次结构。
并且,为了简化说明,如下采用代号。
D:树状图中的文件要素和文件要素、文件要素群和文件要素群、或者文件要素和文件要素群、的结合位置的高度(结合距离)
α:树状图的切断位置的高度。
α*:用<D>+δσD(其中-3≤δ≤3)计算出的树状图的切断高度。其中<D>是该树状图中的所有结合高度D的平均值,σD是该树状图中的所有结合高度D的标准偏差。
N:分析对象的文件要素数。与第一实施方式不同,此处,作为分析对象的数量。
t:文件要素的时间数据。例如如果是专利文献则可采用申请日、公开日、设定登录日、要求优先权日等的任一个。如果专利文献的申请号、公开号等是依照申请顺序、公开顺序等而编定,则也可将这些申请号、公开号等作为时间数据。当文件要素由多个文件构成时,求出构成文件要素的各文件的时间数据的平均值、中央值等,将这些作为文件要素的时间数据。
接着,在第二实施方式中,对第一解析服务器513中用于生成专利结构图的结构进行说明。图41是示出了第一解析服务器中用于生成专利结构图的结构的方框图。如图41所示,第一解析服务器513具有,文件读出部分4110、时间数据提取部分4120、索引词数据提取部分4130、相似性运算部分4140、树状图生成部分4150、切断条件读出部分4160、集群提取部分4170、配置条件读出部分4180、以及集群内要素配置部分4190。另外,存储装置4130具有条件记录部分、作业结果存储部分、文件存储部分。
文件读出部分4110从存储装置4103的文件存储部分中读出成为分析对象的多个文件要素。读出的文件要素群的数据被直接发送给时间数据提取部分4120和索引词数据提取部分4130并用在各自的处理中,或者,被发送给存储装置4103的作业结果存储部分并存储于其中。
另外,从文件读出部分4110发送给时间数据提取部分4120以及索引词数据提取部分4130或作业结果存储部分的数据也可以是包含读出的文件要素群的时间数据以及内容数据的所有的数据。并且,也可以仅仅是指定这些文件要素群的每一个的书目数据(例如,如果是专利文献则是申请号或公开号等)。如果是后者,在后面的处理中必要时根据该书目数据再一次从文件存储部分中读出各文件要素的数据即可。
时间数据提取部分4120从文件读出部分4110读出的文件要素群中提取各要素的时间数据。所提取的时间数据被直接发送给集群内要素配置部分4190并用于该处进行的处理中,或者,被发送给存储装置4103的作业结果存储部分并存储于其中。
索引词数据提取部分4130从文件读出部分4110读出的文件要素群中提取作为各文件要素的内容数据的索引词数据。从各文件要素提取的索引词数据被直接发送给相似性运算部分4140并用于该处进行的处理中,或者,被发送给存储装置4103的作业结果存储部分并存储于其中。
相似性运算部分4140根据索引词数据提取部分4130提取的各文件要素的索引词数据,计算文件要素间的相似性。计算出的相似性被直接发送给树状图生成部分4150并用于该处进行的处理中,或者,被发送给存储装置4103的作业结果存储部分并存储于其中。
树状图生成部分4150按照树状图生成条件,根据相似性运算部分4140计算出的相似性,生成作为分析对象的文件要素群的树状图。生成的树状图被发送给存储装置4103的作业结果存储部分并存储于其中。树状图的存储形式可采用例如配置在二维坐标面上的各文件要素的坐标值以及连接这些坐标值的各个连接线的起点和终点的坐标值的数据、或者表示各文件要素的结合的组合以及结合的位置的数据。
切断条件读出部分4160读出例如存储在存储装置4103的条件记录部分中的树状图切断条件。读出的切断条件被发送给集群提取部分4170。
集群提取部分4170从存储装置4103的作业结果存储部分中读出树状图生成部分4150生成的树状图,同时根据切断条件读出部分4160读出的切断条件切断该树状图,提取集群。提取的关于集群的数据被发送给存储装置4103的作业结果存储部分并存储于其中。集群的数据包含例如指定属于各集群的文件要素的信息、和各集群的连线信息。
配置条件读出部分4180读出例如记录在存储装置4103的条件记录部分中的集群内的文件要素配置条件。读出的配置条件被发送给集群内要素配置部分4190。
集群内要素配置部分4190从存储装置4103的作业结果存储部分中读出集群提取部分4170提取的集群的数据,同时根据配置条件读出部分4180读出的文件要素配置条件,决定各集群内的文件要素的配置。通过决定集群内的配置,完成本发明的文件相关图。该文件相关图被发送给存储装置4103的作业结果存储部分并存储于其中,根据需要进行输出。
接着,参照图42的流程图说明第一解析服务器513中的专利结构图生成处理的概略。
首先,文件读出部分4110从存储装置4103的文件存储部分中读出成为分析对象的多个文件要素(步骤S4210)。在第二实施方式中,成为分析对象的文件要素例如是母集团文件、或调查对象文件以及母集团文件。
接着,时间数据提取部分4120从文件读出步骤S4210中读出的文件要素群中提取各要素的时间数据(步骤S4220)。
接着,索引词数据提取部分4130从文件读出步骤S4210中读出的文件要素群中提取作为各文件要素的内容数据的索引词数据(步骤S4230)。索引词的提取与第一实施方式相同。
接着,相似性运算部分4140根据在索引词提取步骤S4230中提取的各文件要素的索引词数据,计算文件要素间的相似性(步骤S4240)。由于已经对相似性(相似率)的计算进行了说明,此处省略说明。
接着,树状图生成部分4150按照树状图生成条件,根据相似性计算步骤S4240中计算出的相似性,生成作为分析对象的文件要素群的树状图(步骤S4250)。作为树状图,最好生成使文件要素等之间的相似性反映在结合位置的高度(结合距离)上的系统树图。使用公知的Ward法等作为系统树图的具体的生成方法。
接着,切断条件读出部分4160读出记录在存储装置4103的条件记录部分中的树状图切断条件(步骤S4260)。
接着,集群提取部分4170根据在切断条件读出步骤S4260中读出的切断条件,切断在树状图生成步骤S4250中生成的树状图,提取集群(步骤S4270)。
接着,配置条件读出部分4180读出记录在存储装置4103的条件记录部分中的集群内的文件要素配置条件(步骤S4280)。
接着,集群内要素配置部分4190根据在配置条件读出步骤S4280中读出的文件要素配置条件,决定在集群提取步骤S4270中提取的集群内的文件要素的配置(步骤S4290)。通过决定集群内的配置,完成本实施方式的结构图。另外,也可在所有的集群中共用配置条件。
因此,如果为了某一个集群而执行一次步骤S4280,则没有必要为了其他集群而再度执行。
更详细地说明结构图的生成处理。在本实施方式中,按由某方法决定的切断高度α切断树状图并提取父集群之后,为了将各父集群进一步分为子集群,仅使用属于各父集群的文件要素而再度生成该部分的树状图。在生成该部分的树状图时,如果该父集群中的文件要素向量的分量偏差值小于按预定方法确定的值,则除去对应的索引词维数而进行分析。
图43是更加详细地说明本实施方式的集群提取过程的流程图。该流程图部分地更详细地示出了图42。因此,与图42相同的步骤采用在图42的步骤号码上加上100、后两位与图42相同的步骤号码,有时省略重复的说明。
图44A~图44F是示出了本实施方式中的集群提取过程中的树状图配置例的图,补充图43。E1~E10表示文件要素,此处为了方便,使下标数字小的作为具有较小时间t(较老)的文件要素。
首先,文件读出部分4110从存储装置4103的文件存储部分读出成为分析对象的多个文件要素(步骤S4310)。
接着,时间数据提取部分4120从作为分析对象的文件集团的各文件要素中提取时间数据(步骤S4320)。
接着,索引词数据提取部分4130从作为分析对象的各文件集团的各文件要素中提取索引词数据(步骤S4330)。此时,如后所述,不需要的文件集团中的最老的要素(最老的文件要素)E1的索引词数据,所以优选根据在步骤S4320中提取的时间数据,仅提取最老的要素以外的索引词数据。
接着,相似性运算部分4140计算各文件要素间的相似性(步骤S4340)。此时,与上述同样地也仅计算除最老的要素E1以外的要素间的相似性。
接着,树状图生成部分4150生成由作为分析对象的文件集团的各文件要素构成的树状图(步骤S4350:图44A)。此时,无论最老的要素E1与其它的要素的相似性如何,配置在树状图的最前面。
接着,切断条件读出部分4160读出切断条件(步骤S4360)。此处,读出切断高度α、后述的偏差判定阈值等。
接着,集群提取部分4170提取集群。首先,以切断高度α=a切断树状图(步骤S4371:图44B)。当以α=a不产生集群分离时(在步骤S4372中为NO)、按α*=<D>+δσD(其中-3≤δ≤3。特别地,优选0≤δ≤2,最好δ=1)进行切断(步骤S4373)。切断树状图后,将各集群内的最老的要素E2、E7配置在各集群的头部(步骤S4374:图44C)。对各集群的、除了该各个最老的要素之外的文件要素群进行以下处理。
首先,关于各集群,进行如下处理:如果最老的要素之外的集群内的要素间的偏差值小于按预定方法确定的值,则删除对应的索引词维数(步骤S4375)。例如,在图44C所示的以文件要素E2为头部的集群中,文件要素E3、E4、E5、E6的索引词、和关于各个索引词而计算出的各文件要素向量的分量值分别如下面的表1所示。
[表1]
各文件要素的索引词和向量分量值
  索引词   E3   E4   E5   E6   平均   标准偏差
  wa   30   20   20   30   25   5
  wb   90   90   80   80   85   5
  wc   10   10   20   20   15   5
  wd   70   70   100   100   85   15
  we   12   10   12   10   11   1
  wf   30   40   40   30   35   5
例如根据标准偏差相对集群内分量平均值的比率,将偏差的判定阈值规定为10%时,判定索引词wb和we的偏差值较小并进行删除。
接着,关于各集群,生成由上述除最老的要素之外的集群内要素构成的部分树状图(步骤S4376:图44D)。如果按表1的例子进行说明,则使用剩余的索引词wa、wc、wd、wf而生成部分树状图。因此,可获得与在步骤S4350中生成的树状图中的分支不同的集群内分支。尤其是,由于删除了偏差值小的索引词维数,强调了剩余的索引词的差异。因此评价为,即便是相同文件要素间的相似性,在步骤S4376中生成部分树状图时的相似性比在步骤S4350中生成树状图时的相似性小。
此处,关于各集群,取得除去最老的要素之外的集群内的要素数目,与预定的阈值(例如“3”)比较(步骤S4377)。如图44D的文件要素E3~E6那样,当除去了最老要素E2的文件要素数超过了阈值时(在步骤S4377中为NO),返回步骤S4371进行树状图的切断,提取子集群。此时的切断高度α(或者α*)如在步骤S4371(或者步骤S4373)中所述,但由于删除偏差值小的索引词维数、评价相似性较小,也可再以相同切断高度α(或α*)再次切断树状图。
并且,当在提取子集群时以步骤S4373的切断高度α*进行切断时,也可以根据切断的父集群中的各结合位置的高度D而每次更新α*(可变法),也可以原样使用α*的初始值(固定法)。
如图12D的文件要素E8~E10那样,当除去了集群内的最老要素E7的文件要素数小于等于阈值时(在步骤S4377中为YES),对于该集群最后以切断高度α=a进行切断(步骤S4378:图44E)。在步骤S4378中,实际上即便是不产生集群分离的情况下也转移至步骤S4380。
在步骤S4380中,配置条件读出部分4180读出集群内的配置条件。根据该配置条件,集群内要素配置部分4190根据各文件要素的时间数据,决定集群内的文件要素群的排列(步骤S4390:图44F)。
例如在步骤S4378中,在图44E的以切断高度α=ax进行切断并且不产生集群分离的情况下,则该集群的文件要素E7~E10以时间数据顺序呈串联链排列(图44F)。
并且,例如在步骤S4378中,当以图44E的切断高度α=ay进行切断时,从文件要素E7拆分为文件要素E8、以及文件要素E9及E10以时间数据顺序排列的串联链(未图示)。
并且,例如在步骤S4378中,当以图44E的切断高度α=az进行切断时,从文件要素E7拆分为文件要素E8、文件要素E9、文件要素E10三个分支(未图示)。
集群内的配置条件优选如本例这样基于时间数据、按从老到新的顺序进行排列,但也可以是其它的条件。
并且,关于偏差的判定阈值,说明了按标准偏差相对平均值的比率而采用了10%的例子,但这是适用于各文件要素由一个文件构成的情况的例子。当各文件要素由一个文件构成时的判定阈值优选大于等于0%且小于等于10%。另一方面,当各文件要素由多个文件构成时,如果标准偏差相对于集群内文件要素的平均的比率为小于等于60%或70%,则优选偏差值小。
通过第一解析服务器513执行上述处理,可获得图32所示那样的专利结构图。当专利结构图的生成(图38的步骤S3804)结束时,第一解析服务器513取得IPC数据(步骤S3805),并使存储在存储装置中的处理结果(累计结果、频率散布图、专利结构图等)成为预定形式的文件(例如Zip文件)(步骤S3806)。然后,第一解析服务器513对管理服务器512通知处理结束(步骤S3807)。
管理服务器512从第一解析服务器513接收到处理完毕的通知时,将该调查案件投入第二排队机构。通过第二排队机构对调查案件进行排队,管理服务器512对成为应处理顺序的调查案件向第二解析服务器514发出请求,提供调查案件数据及专利结构图的信息。
[集群信息的生成]
下面说明用于获得集群信息的处理。
第一解析服务器513根据调查对象文件中的各关键词(索引词)的使用频率和所有公报中的各关键词(索引词)的使用频率,计算各关键词的重要度。将重要度在前几位预定范围中的关键词作为重要关键词。各关键词的重要度、重要关键词的信息也存储在第一解析服务器513的存储装置中。
通过使调查对象文件中的各关键词的使用频率和所有公报中的各关键词的使用频率数值化并进行比较,可计算出较强地表现出调查案件技术特征的程度作为各关键词的“重要度”。由于重要度较高的关键词较强地表现出调查对象文件的特征,将重要度位于前几位预定的范围内的关键词称作重要关键词。
首先,对在以下的说明中使用的词汇的定义和省略符号进行说明。集群信息包括关于各集群的标题、公报件数、主分类IPC的累计(前5位)、申请人的累计(前5位)以及集群的重要关键词。重要关键词表示从属于集群的所有公报中提取的关键词的重要度前10位为止的词语,分为以下的四个类别进行显示。
技术领域词:在集群的重要关键词中与其他集群共同使用的关键词。在多个集群中共同使用的关键词大多是表示集群所属技术领域的关键词。
主要词:在从集群的重要关键词中除去了“技术领域词”后的内容中,在该集群中特别经常使用的关键词。这是在其它集群中几乎不使用的关键词,大多是表示该集群主要的技术要素的关键词。也是极端地表示与其他集群的差别化的关键词。
特征词:从集群的重要关键词中除去了“技术领域词”和“主要词”后的内容大多是与方法或构成等相关的关键词。其中,也是较多使用的一般性词语,在分析对象公报群(所有公报相似性的前300位)中几乎不使用的关键词如果是可教示装置或构成中的特征性的方面的关键词就对了。按预定基准计算出这样的关键词,表示为“特征词”。
其它的重要词:是从集群的重要关键词中不属于上述三个分类的任意一个的重要关键词。“其它的重要词”是重要关键词,并且还是不属于上述三个观点的任意一个的关键词,较多是与装置或构成相关的技术专业词汇。
下面,对提取这样的重要关键词、并取得属于各个分类的关键词的关键词取得处理进行说明。在以下的处理的说明中,关于省略符号、对于与上述的第一实施方式和第二实施方式的第一解析服务器513的说明中使用的省略符号相同的参数有时也用别的省略符号进行标记,另一方面,前者的省略符号有时也用作不同的意思。因此下面所述的省略符号仅适用于下面说明的范围。
高频率词:索引词中权重大的预定个数的词,这些词的评价中包括在作为分析对象的文件群中的出现频率的高低。例如,作为索引词的权重计算出GF(E)或包含GF(E)作为变量的函数值,通过提取预定数目的该值较大的词语而进行提取。
E:分析对象的文件群。作为文件群E,例如使用根据相似性对多个文件进行聚类时的构成各个集群的文件群。当显示具有多个文件群E的文件群集团S中的各文件群时,表示为Eu(u=1,2,...,n。n是文件群的数目)。
S:具有多个文件群E的文件群集团。例如,由类似于某专利文件或专利文件群的300件的专利文件所构成。
P:是包含文件群E、且包含文件群集团S的作为文件集团(大文件集团)的所有文件。作为所有文件P,如果是关于专利文献的分析则使用例如日本国内过去十年间发行的所有的公开专利公报以及登录实用新型公报大约五百万件。
N(E)或者N(P):文件群E或文件集团P中包含的文件数目
D、Dk或者D1~DN(E):文件群E中包含的各个文件
W:文件群E中包含的索引词的总数
w、wi、wj:文件群E中包含的各个索引词(i=1,...,W、j=1,...,W)
{条件H}:在满足条件H的范围中求和的意思
{条件H}:在满足条件H的范围中求积的意思
β(w,D):文件D中的索引词w的权重
C(wi,wj):根据在索引词的文件单位中有无同现而计算出的文件群中的同现频率。关于属于(根据β(wi,D)和β(wj,D)进行加权的基础上)文件群E的所有文件D,对索引词wi和wj在一个文件D中有无同现(1或0)进行合计
g或者gh:高频率词中由与各索引词的同现频率类似的各个词构成的“基群”。基群数=b(h=1,2,...,b)
Co(w,g):索引词—基群同现频率。关于属于基群g的所有的w’(其中除去w),对索引词w和属于基群g的高频率词w’的同现频率C(w,w’)进行合计
ak:文件Dk的标题(题名)
s:标题ak(k=1,...,N(E))的字符串连接
xk:题名出现率。各题名ak在题名和s中的(相对文件数N(E))出现率
mk:各题名ak中出现的索引词wv(题名用词)的种数
fk:题名用词在题名和s中的(相对文件数N(E))出现率
yk:题名用词出现率平均。题名用词出现率fk除以在各题名ak中出现的索引词wv(题名用词)的种数mk所得值
τk:title score。对属于文件群E的各文件的每个标题而计算出titlescore,用于决定标签(label)的提取顺序。
T1、T2、...:按title scoreτk降序而进行提取的标题(题名)
κ:关键词适合度。为了决定标签(后述)的提取个数而计算出的值,表示关键词相对文件群E的占有度
TF(D)或TF(w,D):索引词w在文件D中的出现频率(索引词频率;Term Frequency)
DF(P)或DF(w,P):索引词w在作为母集团的所有文件P中的文件频率(Document Frequency)。所谓的文件频率指的是从多个文件中按某个索引词进行检索时的找到文件数
DF(E)或DF(w,E):索引词w在文件群E中的文件频率
DF(w,D):索引词w在文件D中的文件频率,即如果索引词w包含在文件D中则为1,如果不包含在其中则为0
IDF(P)或IDF(w,P):“DF(P)的倒数×所有文件的总文件数N(P)”的对数。例如ln(N(P)/DF(P))
GF(E)或GF(w,E):索引词w在文件群E中的出现频率(全局频率:Global Frequency)
TF*IDF(P):TF(D)和IDF(P)的积。对每个文件索引词进行计算。
GF(E)*IDF(P):GF(E)和IDF(P)的积。对每个文件索引词进行计算。
下面参照图45的方框图说明用于关键词提取的处理装置的结构。
此处为了便于理解处理的内容,在第一解析服务器513和第二解析服务器514双方的功能中,记载了所有的提取关键词所必需的功能。
文件读出部分4510按照存储在存储装置4503的条件记录部分中的读出条件,从存储装置4503的文件存储部分中读出由成为分析对象的多个文件D1~DN(E)构成的文件群E。读出的文件群的数据被直接送给索引词提取部分4520并用于该处的处理,另外被发送给存储装置4503的作业结果存储部分并存储其中。
并且,从文件读出部分4510发送给索引词提取部分4520或作业结果存储部分的数据也可以是包含读出的文件群E的文件数据的所有数据。并且,也可以仅是指定属于这些文件群E的各个文件D的书目数据(例如,如果是专利文件则是申请号或公开号等)。如果是后者,则在以后的处理中必要的时候根据该书目数据再次从文件存储部分中读出各文件D的数据便可。
索引词提取部分4520从文件读出部分4510读出的文件群中提取各文件的索引词。各文件的索引词数据被直接发送给高频率词提取部分4530并用于该处的处理,另外被发送给存储装置4503的作业结果存储部分并存储其中。
高频率词提取部分4530根据索引词提取部分4520提取的各文件的索引词,按照存储在存储装置4503的条件记录部分中的高频率词提取条件,提取预定个数的权重大的索引词,该索引词的评价中包括在文件群E中的出现频率的高低。
具体地,首先,对于各索引词计算作为在文件群E中的出现次数的GF(E)。并且进一步计算出各索引词的IDF(P),优选计算出与GF(E)的积,即GF(E)*IDF(P)。接着,根据算出的各索引词的权重GF(E)或GF(E)*IDF(P),按从高到低的顺序,提取预定个数的索引词作为高频率词。
提取的高频率词的数据被直接发送给高频率词-索引词同现频率计算部分4540并用于该处的处理,另外被发送给存储装置4503的作业结果存储部分并存储其中。并且,关于上述计算出的各索引词GF(E)以及优选计算的各索引词的IDF(P),优选发送给存储装置4503的作业结果存储部分并存储其中。
高频率词-索引词同现频率计算部分4540根据由高频率词提取部分4530提取的各高频率词和由上述索引词提取部分4520提取并存储在作业结果存储部分中的各索引词在文件单位中有无同现,计算文件群E中的同现频率。如果索引词为p个,其中提取高频率词为q个,则成为p行q列的阵列数据。
由高频率词-索引词同现频率计算部分4540计算出的同现频率的数据被直接发送给聚类部分4550并用于该处的处理,或者被发送给存储装置4503的作业结果存储部分并存储其中。
聚类部分4550根据高频率词-索引词同现频率计算部分4540计算出的同现频率数据,按照存储在存储装置4503的条件记录部分中的聚类条件,对q个高频率词进行集群分析。
为了进行集群分析,首先,对于q个高频率词的每一个计算和各索引词的同现频率的相似性。
接着,根据相似性的计算结果,按照存储在存储装置4503的条件记录部分中的树状图生成条件,对高频率词进行树状连线而生成树状图。作为树状图,优选生成使高频率词间的非相似性反映在结合位置的高度(结合距离)中的系统树图。
接着,按照存储在存储装置4503的条件记录部分中的树状图切断条件,切断上述生成的树状图。切断的结果是,基于和各索引词的同现频率的相似性程度、对q个高频率词进行聚类。将由聚类而生成的各个集群称作“基群”gh(h=1,2,...b)。
由聚类部分4550形成的基群数据被直接发送给索引词-基群同现频率计算部分4560并用于该处的处理,或者被发送给存储装置4503的作业结果存储部分并存储其中。
索引词-基群同现频率计算部分4560对由索引词提取部分4520提取并存储在存储装置4503的作业结果存储部分中的各索引词,计算与由聚类部分4550形成的各基群的同现频率。关于各索引词而计算出的同现频率的数据被直接发送给key(w)计算部分4570并用于该处的处理,或被发送给存储装置4503的作业结果存储部分并存储其中。
key(w)计算部分4570根据由索引词-基群同现频率计算部分4560计算出的各索引词与基群的同现频率,计算作为各索引词的评价值的key(w)。算出的key(w)的数据被直接发送给Skey(w)计算部分4580并用于该处的处理,或被发送给存储装置4503的作业结果存储部分并存储其中。
Skey(w)计算部分4580根据key(w)计算部分4570计算出的各索引词的key(w)值、高频率词提取部分4530计算出的存储在存储装置4503的作业结果存储部分中的各索引词的GF(E)以及各索引词的IDF(P),计算Skey(w)值。计算出的Skey(w)的数据被发送给存储装置4503的作业结果存储部分并存储其中。
评价值计算部分4700关于具有多个文件群Eu的文件群集团S、从作业结果存储部分读出在索引词提取部分4520中提取的各文件的索引词wi。或者评价值计算部分4700从作业结果存储部分中读出在Skey(w)计算部分4580中关于各文件群Eu分别计算出的索引词Skey(w)。根据需要,评价值计算部分4700也可以从作业结果存储部分中读出由文件读出部分4510读出的各文件群Eu的数据,对其文件数N(Eu)进行计数。并且,也可以从作业结果存储部分中读出在高频率词提取部分4530中的高频率词提取的过程中计算出的GF(Eu)或IDF(P)。
然后,评价值计算部分4700根据读出的信息,分别计算出基于各索引词wi在各文件群Eu中的出现频率的评价值A(wi,Eu)。计算出的评价值被发送给作业结果存储部分并存储其中,或者,直接发送给集中度计算部分4710以及份额计算部分4720并用于该处的处理。
集中度计算部分4710从作业结果存储部分中读出在评价值计算部分4700中计算出的各索引词wi在各文件群Eu中的评价值A(wi,Eu),或者直接从评价值计算部分4700接收该评价值。
然后,集中度计算部分4710根据获得的评价值A(wi,Eu),针对各索引词wi,计算在文件群集团S中各索引词wi的分布集中度。该集中度可这样获得:关于各索引词wi计算各文件群Eu中的评价值A(wi,Eu)在属于上述文件群集团S的所有的文件群Eu中的和,关于各文件群Eu计算出各文件群Eu中的评价值A(wi,Eu)相对该和的比,分别计算出该比的平方,并计算出该比的平方在属于上述文件群集团S的所有文件群Eu中的和。计算出的集中度被发送给作业结果存储部分并存储其中。
份额计算部分4720从作业结果存储部分中读出在评价值计算部分4700中计算出的各索引词wi在各文件群Eu中的评价值A(wi,Eu),或者直接从评价值计算部分4700接收该评价值。
然后,份额计算部分4720根据获得的评价值A(wi,Eu),关于各索引词wi计算出在各文件群Eu中的份额。该份额可这样获得:针对从属于上述文件群集团S的各文件群Eu中提取的所有索引词wi,计算分析对象文件群Eu中各索引词wi的评价值A(wi,Eu)和,并针对各索引词wi计算出各索引词wi的评价值A(wi,Eu)相对该和的比。计算出的集中度被发送给作业结果存储部分并存储其中。
第一倒数计算部分4730关于具有多个文件群Eu的文件群集团S、从作业结果存储部分中读出在索引词提取部分4520中提取的各文件的索引词wi
然后,第一倒数计算部分4730根据读出的文件群集团S的各文件的索引词wi的数据,计算关于各索引词wi在文件群集团S中的出现频率的倒数的函数值(例如计算出后述的归一化IDF(S))。计算出的文件群集团S中的出现频率的倒数的函数值被发送给作业结果存储部分并存储其中,或者被直接发送给独创度计算部分4750并用于该处的处理。
第二倒数计算部分4740计算在包含文件群集团S的大文件集团中的出现频率的倒数的函数值。使用所有文件P作为大文件集团。在该情况下,从作业结果存储部分中读出在高频率词提取部分4530中的高频率词提取过程中计算出的IDF(P),并计算出其函数值(例如后述的归一化IDF(P))。计算出的在大文件集团P中的出现频率的倒数的函数值被发送给作业结果存储部分并存储其中,或直接发送给独创度计算部分4750并用于该处的处理。
独创度计算部分4750从作业结果存储部分读出在第一倒数计算部分4730和第二倒数计算部分4740中计算出的各出现频率的倒数的函数值,或者直接从第一倒数计算部分4730和第二倒数计算部分4740接收。并且,从作业结果存储部分读出在高频率词提取部分4530中的高频率词提取的过程中计算出的GF(E)。
然后,独创度计算部分4750计算出从第一倒数计算部分4730的计算结果减去第二倒数计算部分4740的计算结果后所得的函数值,作为独创度。该函数值可以是相对从第一倒数计算部分4730的计算结果减去第二倒数计算部分4740的计算结果后所得值、用该值除以第一倒数计算部分4730的计算结果和第二倒数计算部分4740的计算结果的和所得的值,也可以是用该值乘以在各文件群Eu中的GF(Eu)所得的值。计算出的独创度被发送给作业结果存储部分并存储其中。
关键词提取部分4760从作业结果存储部分中读出在Skey(w)计算部分4580计算出的Skey(w)、在集中度计算部分4710计算出的集中度、在份额计算部分4720中计算出的份额以及在独创度计算部分4750中计算出的独创度的各数据。
然后,关键词提取部分4760根据从上述读出的Skey(w)、集中度、份额、独创度的4个指标中选择的2个以上的指标,提取关键词。关键词的提取方法可以根据例如所选择的多个指标的合计值是否大于等于预定阈值或者是否在预定位次以内,也可以根据所选择的多个指标的组合、对关键词进行分类并提取。
提取的关键词的数据被发送给存储装置4503的作业结果存储部分并存储其中。
下面,参照图46的流程图说明关键词提取处理。
<1.文件读出>
首先,文件读出部分4510从存储装置4503的文件存储部分中读出由成为分析对象的多个文件D1~DN(E)构成的文件群E(步骤S4601)。
<2.索引词提取>
接着,索引词提取部分4520从文件读出步骤S4610中读出的文件群中提取各文件的索引词(步骤S4602)。各文件的索引词数据可由例如以文件群E中包含的索引词在各文件D中的出现次数(索引词频率TF(D))的函数值为分量的向量来表现。
<3.高频率词提取>
接着,高频率词提取部分4530根据在索引词提取步骤S4602中提取的各文件的索引词数据,提取预定个数的权重高的索引词,该索引词的评价中包括在文件群E中的出现频率的高低。
具体地,首先,关于各索引词计算出作为在文件群E中的出现次数的GF(E)(步骤S4603)。为了计算各索引词的GF(E),对属于文件群E的文件D1~DN(E)合计在上述索引词提取步骤S4602中计算出的各索引词在各文件中的索引词频率TF(D)。
为了使说明浅显易懂,在下面的表中示出了在由6个文件D1~D6构成的文件群E中包含合计14个索引词w1~w14的情况下的TF(D)和GF(E)的假定事例。在下面的说明中适宜地参照该假定事例。
[表2]
各索引词的TF(D)及GF(E)
                             文件   GF(E)
  D1   D2   D3   D4   D5   D6
  索引词   w1   3   3   3   0   0   0   9
  w2   3   0   3   3   0   0   9
  w3   3   3   3   3   0   0   12
  w4   3   3   3   3   3   0   15
  w5   0   0   3   3   3   3   12
  w6   0   3   0   3   3   3   12
w7   0   0   0   3   3   3   9
  w8   1   1   1   1   1   1   6
  w9   1   0   0   0   0   0   1
  w10   0   1   0   0   0   0   1
  w11   0   0   1   0   0   0   1
  w12   0   0   0   1   0   0   1
  w13   0   0   0   0   1   0   1
  w14   0   0   0   0   0   1   1
接着,根据计算出的各索引词的GF(E)提取预定个数的出现频率前几位的索引词(步骤S4604)。高频率词的提取个数例如采用10个。在该情况下,例如如果第10个词和第11个词是相同排名,则将第11个词也作为高频率词提取。
关于高频率词的提取,优选进一步计算出各索引词的IDF(P),并提取GF(E)*IDF(P)的前几位预定个数的索引词。不过,在上述假定事例的以下的说明中,为了简单、将GF(E)的前7个词作为高频率词。即,提取索引词w1~索引词w7作为高频率词。
并且,关于从索引词中提取高频率词,优选预先从所有索引词中除去不需要的词,从其剩余中提取高频率词。不过,例如如果是日文文件,则由于语素解析软件的不同,索引词的截取不一样,不可能生成必要的足够的不需要的词汇列表。因此,不需要的词的排除优选采用最小限。作为不需要的词的列表,例如如果是专利文件的话考虑以下的例子。
[作为关键词无实际意义的词汇]
前述、上述、该、下述、记载、要求、项、专利、数量、式、一般、以上、以下、方法、特征
[作为关键词重要性低的词·单位记号·罗马数字]
整体、范围、种、类、系列、用、%、mm、ml、nm、μm等
由于此处将泛化能力作为问题,所以进行上述那样的不需要的词的选择,当然,也可以结合使用语素解析软件和文件群的领域,自由制作不需要的词的列表。
<4.计算高频率词-索引词同现频率>
接着,高频率词-索引词同现频率计算部分4540计算在上述高频率词提取步骤S4604中提取的各高频率词和在上述索引词提取步骤S4602中提取的各索引词的同现频率(步骤S4605)。
索引词wi和索引词wj在文件群E中的同现频率C(wi,wj)例如根据下式计算。
[数学式1]
C(wi,wj)=∑{D∈E}[β(wi,D)×β(wj,D)×DF(wi,D)×DF(wj,D)]
此处,β(wi,D)是文件D中的索引词wi的权重,考虑
β(wi,D)=1
β(wi,D)=TF(wi,D)
β(wi,D)=TF(wi,D)×IDF(wi,P)等。
当文件D中包含索引词wi时DF(wi,D)当为1,不包含时为0,所以当索引词wi和索引词wj在一个文件D中同现时DF(wi,D)×DF(wj,D)为1,不同现时为0。(通过β(wi,D)和β(wj,D)加权之后)对属于文件群E的所有文件D合计这些值,所得值是索引词wi和索引词wj的同现频率C(wi,wj)。
并且,作为上述[数学式1]的类似例,代替[β(wi,D)×β(wj,D)]、也可以使用根据索引词wi和索引词wj在句子内有无同现而计算出的文件D中的同现频率c(wi,wj)。文件D中的同现频率c(wi,wj)例如根据下式计算。
[数学式2]
C(wi,wj)=∑{sen∈D}[TF(wi,sen)×TF(wj,sen)]
此处,sen表示文件D中的各句子。[TF(wi,sen)×TF(wj,sen)]当在某个句子内索引词wi和wj同现则返回大于等于1的值,不同现则返回0。对文件D中的所有句子sen合计了该值后所得的值是文件D中的同现频率c(wi,wj)。
在上述的假定事例中,以下示出了利用上述[数学式1]、权重β(wi,D)=1而计算同现频率。首先,作为相同索引词的索引词w1和索引词w1可在文件D1~D3的共3个文件中同现,同现频率C(w1,w1)=3。并且,索引词w2和索引词w1在文件D1和文件D3的共2个文件中同现,同现频率C(w2,w1)=2。以下同样地,对由索引词w1~w14中的任意一个和高频率词w1~w7中的任意一个组成的所有组、计算同现频率C(wi,wj),则可获得下表那样的14行7列的阵列数据。
[表3]
各高频率词和各索引词的同现频率
                             高频率词wj
  w1   w2   w3   w4   w5   w6   w7
  C(w1,wj)   3   2   3   3   1   1   0
  C(w2,wj)   2   3   3   3   2   1   1
  C(w3,wj)   3   3   4   4   2   2   1
  C(w4,wj)   3   3   4   5   3   3   2
  C(w5,wj)   1   2   2   3   4   3   3
  C(w6,wj)   1   1   2   3   3   4   3
  C(w7,wj)   0   1   1   2   3   3   3
  C(w8,wj)   3   3   4   5   4   4   3
  C(w9,wj)   1   1   1   1   0   0   0
  C(w10,wj)   1   0   1   1   0   1   0
  C(w11,wj)   1   1   1   1   1   0   0
  C(w12,wj)   0   1   1   1   1   1   1
  C(w13,wj)   0   0   0   1   1   1   1
  C(w14,wj)   0   0   0   0   1   1   1
<5.聚类>
接着,聚类部分4550根据在高频率词-索引词同现频率计算步骤S4605中计算出的同现频率数据,对上述高频率词进行集群分析。
为了进行集群分析,首先关于上述各个高频率词,计算和各索引词的同现频率的相似性(步骤S4606)。
在上述假定事例中,如果采用各个高频率词w1~w7的14维列向量间的相关系数作为相似性,则运算结果如下表所示。
[表4]
同现频率的相似程度(相关系数)
Figure S2006800229160D00621
表的左下半部分和右上半部分重复,所以省略。根据该表,例如高频率词w1~高频率词w4以任意组合其相关系数都超过0.8。并且,高频率词w5~高频率词w7以任意组合其相关系数都超过0.8。反过来,高频率词w1~高频率词w4的任意一个和高频率词w5~高频率词w7的任意一个的组合其相关系数都未达到0.8。
接着,根据相似性的计算结果对高频率词进行树状连线而生成树状图(步骤S4607)。
作为树状图,优选生成将高频率词间的非相似性反映在结合位置的高度(结合距离)上的系统树图。简单地说明系统树图的生成原理,首先,基于各高频率词间的非相似性,使相异性最小(相似性最大)的各个高频率词结合并生成结合体。进一步使结合体和其他高频率词、或结合体和结合体按它们的非相似性从小到大的顺序结合,生成新的结合体并重复该作业。这样可表现为层次结构。结合体和其他高频率词的非相似性、或结合体和结合体的非相似性基于各高频率词间的非相似性而更新。作为更新方法,使用例如公知的Ward法等。
接着,聚类部分4550切断上述生成的树状图(步骤S4608)。例如当系统树图中的结合距离为D时,在<D>+δσD的位置进行切断。此处,<D>是D的平均值,σD是D的标准偏差。δ在-3≤δ≤3的范围内提供,优选δ=0。
切断的结果是,基于和各索引词的同现频率的相似性程度而对高频率词进行聚类,形成由属于各集群的高频率词群构成的“基群”gh(h=1,2,...,b)。属于相同基群gh的高频率词与索引词的同现频率的相似性高,属于不同基群gh的高频率词与索引词的同现频率的相似性低。
关于树状图和其切断过程省略上述的假定事例的说明,但形成由高频率词w1~高频率词w4构成的基群g1、和由高频率词w5~高频率词w7构成的基群g2这两个基群(基群数b=2)。
<6.计算索引词-基群同现频率>
接着,在索引词-基群同现频率计算部分4560中,关于在上述索引词提取步骤S4602中提取的各索引词,计算和在聚类的步骤S4608中形成的各基群的同现频率(索引词-基群同现频率)Co(w,g)(步骤S4609)。
索引词-基群同现频率Co(w,g)例如根据下式计算。
[数学式3]
Co(w,g)=∑{w′∈g,w′≠w}C(w,w′)
此处,w’是属于某基群g的高频率词,并且指的是作为同现频率Co(w,g)的计测对象的索引词w之外的词。索引词w和基群g的同现频率Co(w,g)是关于所有的w’与w的同现频率C(w,w’)的合计。
例如,在上述的假定事例中,索引词w1和基群g1的同现频率Co(w1,g1)是Co(w1,g1)=C(w1,w2)+C(w1,w3)+C(w1,w4),
根据上表3,该值为2+3+3=8。
并且,索引词w1和基群g2的同现频率Co(w1,g2)是Co(w1,g2)=C(w1,w5)+C(w1,w6)+C(w1,w7)=1+1+0=2。
同样地,如果关于所有的索引词w计算和基群g1、g2的同现频率,则如下表所示。
[表5]
索引词w和基群g的同现频率Co(w,g)
  g1   g2
w1   Co(w1,g1)=2+3+3=8   Co(w1,g2)=1+1+0=2
w2   Co(w2,g1)=2+3+3=8   Co(w2,g2)=2+1+1=4
w3   Co(w3,g1)=3+3+4=10   Co(w3,g2)=2+2+1=5
w4   Co(w4,g1)=3+3+4=10   Co(w4,g2)=3+3+2=8
w5   Co(w5,g1)=1+2+2+3=8   Co(w5,g2)=3+3=6
w6   Co(w6,g1)=1+1+2+3=7   Co(w6,g2)=3+3=6
w7   Co(w7,g1)=0+1+1+2=4   Co(w7,g2)=3+3=6
w8   Co(w8,g1)=3+3+4+5=15   Co(w8,g2)=4+4+3=11
w9   Co(w9,g1)=1+1+1+1=4   Co(w9,g2)=0+0+0=0
w10   Co(w10,g1)=1+0+1+1=3   Co(w10,g2)=0+1+0=1
w11   Co(w11,g1)=1+1+1+1=4   Co(w11,g2)=1+0+0=1
w12   Co(w12,g1)=0+1+1+1=3   Co(w12,g2)=1+1+1=3
w13   Co(w13,g1)=0+0+0+1=1   Co(w13,g2)=1+1+1=3
w14   Co(w14,g1)=0+0+0+0=0   Co(w14,g2)=1+1+1=3
并且,索引词-基群同现频率不限于上述的Co(w,g),也可根据下式计算。
[数学式4]
Co′(w,g)=∑{D∈E}[β(w,D)×DF(w,D)×θ(∑{w′∈g,w′≠w}DF(w′,D))]
此处,Θ(X)是当X>0则返回1,当X≤0则返回0的函数。Θ(∑{w′∈g,w′≠w}DF(w′,D))当在文件D中即便包含一个属于基群g的任意一个的高频率词、且该词是同现频率的计测对象索引词w以外的词w’,则返回1,如果完全不包含则返回0。DF(w,D)当在文件D中即便包含一个同现频率的计测对象索引词w时也返回1,如果完全不包含则返回0。通过在DF(w,D)上乘以Θ(X),如果w和属于基群g的任意一个w’在文件D中同现则返回1,如果不同现则返回0。在该值上乘以上面定义的权重β(w,D),并进一步对属于文件群E的所有文件D进行合计,所得值为Co’(w,g)。
上述[数学式3]的索引词-基群同现频率Co(w,g)是针对所有的E,对w和w’在D内有无同现(1或0)附上权重β(w,D)×β(w′,D)进行合计(C(w,w’)),并对g内的w’合计该值。与此相对,上述[数学式4]的索引词-基群同现频率Co’(w,g)是关于所有的E,对w和g内的任意一个w’在D内有无同现(1或0)附上权重β(w,D)并进行合计。
因此,无论在哪一种情况下,如果索引词与高频率词在更多的文件D中同现,则索引词-基群同现频率更大。并且,[数学式3]的索引词-基群同现频率Co(w,g)随与索引词w同现的基群g内的w’数量的多少而增减,与此相对,[数学式4]的索引词-基群同现频率Co’(w,g)根据与索引词w同现的基群g内w’的有无而增减,所以与同现的w’的多少没关系。当使用[数学式3]的索引词-基群同现频率Co(w,g)时优选权重β(w,D)=1,当使用[数学式4]索引词-基群同现频率Co’(w,g)时优选权重β(w,D)=TF(w,D)。
<7.计算key(w)>
接着,key(w)计算部分4570根据在上述索引词-基群同现频率计算步骤S4609中计算出的各索引词与基群的同现频率,计算作为各索引词的评价值的key(w)(步骤S4610)。
key(w)例如根据下式计算。
[数学式5]
key(w)=1-∏[1≤h≤b][1-Co(w,gh)/F(gh)]
此处,定义F(gh)=∑{w∈E}Co(w,gh)。是索引词w和基群gh的同现频率Co(w,gh)关于所有索引词w的合计。取Co(w,gh)除以F(gh)后与1的差值,关于所有的基群gh(h=1,2,...,b)乘以该值后取与1的差值,其差值为key(w)。
并且,作为索引词-基群同现频率此处使用了上述[数学式3]的Co(w,g),但如上所述,也可使用上述[数学式4]的Co’(w,g)。
例如在上述的假定事例中,在计算出F(gh)时,根据上述[表4],
(F(g1))=Co(w1,g1)+Co(w2,g1)+...+Co(w14,g1)=85
(F(g2))=Co(w1,g2)+Co(w2,g2)+...+Co(w14,g2)=59
因此,key(w)为:
key(w1)=1-(1-Co(w1,g1)/85)(1-Co(w1,g2)/59)
=1-(1-8/85)(1-2/59)
=0.125
key(w2)=1-(1-Co(w2,g1)/85)(1-Co(w2,g2)/59)
=1-(1-8/85)(1-4/59)
=0.156
下面同样地,当关于所有的索引词计算key(w)时,如下表所示。
[表6]
  索引词   key(w)   位次
w1   1-(1-8/85)(1-2/59)=0.125 8
w2   1-(1-8/85)(1-4/59)=0.156 6
w3   1-(1-10/85)(1-5/59)=0.192 3
w4   1-(1-10/85)(1-8/59)=0.237 2
w5   1-(1-8/85)(1-6/59)=0.186 4
w6   1-(1-7/85)(1-6/59)=0.176 5
w7   1-(1-4/85)(1-6/59)=0.144 7
w8   1-(1-15/85)(1-11/59)=0.330 1
w9   1-(1-4/85)(1-0/59)=0.047 14
w10   1-(1-3/85)(1-1/59)=0.052 12
w11   1-(1-4/85)(1-1/59)=0.063 10
w12   1-(1-3/85)(1-3/59)=0.084 9
w13   1-(1-1/85)(1-3/59)=0.062 11
w14   1-(1-0/85)(1-3/59)=0.051 13
该表右端的栏示出了按key(w)从大到小的顺序进行排列时的位次。
为了说明key(w)的特质,对和[表2]相同的内容附记上各索引词的文件频率DF(E)和上述key(w)位次,如下所示。
[表7]
各索引词的TF(D)以及GF(E)等
                     文件   GF(E)   DF(E)   Key(w)位次
  D1   D2   D3   D4   D5   D6
  索引词   w1   3   3   3   0   0   0   9   3   8
  w2   3   0   3   3   0   0   9   3   6
  w3   3   3   3   3   0   0   12   4   3
  w4   3   3   3   3   3   0   15   5   2
  w5   0   0   3   3   3   3   12   4   4
  w6   0   3   0   3   3   3   12   4   5
  w7   0   0   0   3   3   3   9   3   7
  w8   1   1   1   1   1   1   6   6   1
  w9   1   0   0   0   0   0   1   1   14
  w10   0   1   0   0   0   0   1   1   12
  w11   0   0   1   0   0   0   1   1   10
  w12   0   0   0   1   0   0   1   1   9
  w13   0   0   0   0   1   0   1   1   11
  w14   0   0   0   0   0   1   1   1   13
根据该表可知,在key(w)的位次中、在文件群E中的文件频率DF(E)的位次的影响较大。例如,DF(E)最大的索引词w8的key(w)是第一位,DF(E)第二大的索引词w4的key(w)是第二位,以下依次为索引词w3、w5、w6等。
如果是文件群E中的文件频率DF(E)更大的索引词,则可以和高频率词在更多的文件中同现。因此,可获得更大的索引词-基群同现频率Co(w,g)或Co’(w,g)。我们认为在key(w)的位次上DF(E)的位次的影响大的理由在这里。
并且,当把在同现频率的计算中使用的权重β(w,D)作为TF(w,D)时,认为在key(w)的位次中文件群E中的大范围内的频率GF(E)的位次的影响变大。
并且,在[表3]和[表7]内比较w9~w14可知,如果和索引词同现的高频率词存在于更多的基群中,则该索引词的key(w)大。例如,与索引词w10~w13同现的高频率词存在于2个基群中,与此相对,与索引词w9或w14同现的高频率词仅存在于一个基群中。因此,索引词w10~w13的key(w)大于索引词w9或w14的key(w)。
并且,在[表3]和[表7]内比较w10~w13可知,有与较多的高频率词同现的词、key(w)大的倾向。例如,w10~w13中,与最多的高频率词同现的w12的key(w)最大,与第二多的高频率词同现的w11的key(w)其次。
并且,作为各索引词的评价值,代替上述的key(w),也可以使用下式。
[数学式6]
key &prime; ( w ) = ( 1 / &Phi; ) ( 1 / b ) &times; &Sigma; h = 1 b Co ( w , g h )
此处,Φ是适当归一化的常数,例如采用 &Phi; = &Sigma; h = 1 b F ( g h ) . F(gh)如上述[数学式5]定义的那样。
key′(w)是对索引词w和基群gh的同现频率Co(w,gh)在所有基群gh(h=1,...,b)中的平均值取(1/Φ)常数倍后所得值。
并且,作为各索引词的评价值,代替上述key(w),也可使用下面的式子。
[数学式7]
key &prime; &prime; ( w ) = ( 1 / b ) &times; &Sigma; h = 1 b [ Co ( w , g h ) / F ( g h ) ]
key″(w)是使索引词w和基群gh的同现频率Co(w,gh)除以F(gh),并取在所有基群gh(h=1,...,b)中的平均值后所得值。
在[数学式5]的key(w)中展开积部分,并忽略高次的微小项O[(Co(w,gh)/F(gh))2],则
key(w)
=1-[1-Co(w,g1)/F(g1)]×[1-Co(w,g2)/F(g2)]×...
_1-1+Co(w,g1)/F(g1)+Co(w,g2)/F(g2)+...
所以
key″(w)_(1/b)key(w)可成立。
<8.计算Skey(w)>
接着,在Skey(w)计算部分4580中,根据在上述key(w)计算步骤S4610中计算出的各索引词key(w)值、在高频率词提取步骤S4604中计算出的各索引词的GF(E)以及各索引词的IDF(P),计算Skey(w)值(步骤S4611)。
Skey(w)值根据下式算出。
[数学式8]
Skey(w)=GF(w,E)×ln[key(w)÷(DF(w,P)/N(P))]
       =GF(w,E)×[IDF(P)+ln key(w)]
GF(w,E)对在文件群E中较多出现的词赋与较大的值,IDF(P)对在所有文件P中稀有的、文件群E特有的词赋与较大的值,key(w)如上所述受DF(E)的影响,是对与较多的基群同现的词赋与较大的值的值。这些GF(w,E)、IDF(P)、以及key(w)的值越大、Skey(w)越大。
作为对索引词的权重而被广泛使用的TF*IDF是索引词频率TF、和文件集团中的索引词的出现概率DF(P)/N(P)的倒数的对数IDF的积。IDF具有将在文件集团中以高概率出现的索引词的依赖抑制为较小的效果,可对仅偏向特定文件而出现的索引词付与较高的权重。但是,也具有有时仅由于文件频率小、值就上跳这样的缺点。如将要说明的那样,Skey(w)值具有改善这样的缺点的效果。
在分析对象的文件群E中,设包含索引词w的文件出现的概率为P(A),设包含(属于)基群(的索引词)的文件出现的概率为P(B),设同时包含索引词w和基群的文件的出现概率(=在文件内同现的概率)为P(A∩B),则表示为
P(A)=DF(w,E)/N(E)
P(A∩B)=key(w)
这样,在文件群E中,当选出包含索引词w的文件时,与基群同现的概率(带条件的概率)为
[数学式9]
P(B|A)=P(A∩B)/P(A)
      =key(w)×N(E)/DF(w,E)
并且,考虑一致性的假定(IDF(E)=IDF(P)),并且取上述带条件的概率的对数,则
[数学式10]
ln P(B|A)=ln[key(w)×N(P)/DF(w,P)]
         =ln key(w)+IDF(P)
如果key(w)=1则该值与IDF(P)相等。并且,在DF→0的极限下,N(P)/DF(w,P)→∞,且key(w)→0,所以通过取N(P)/DF(w,P)和key(w)的积,能够改善当DF值小时、IDF值特殊地上跳这样的上述缺点。由于[数学式8]的Skey(w)值是取GF(w,E)和上述[数学式10]的ln key(w)+IDF(P)的积,所以可以是根据同现频率而修正的GF(E)*IDF(P)。
并且,在根据[数学式8]的Skey(w)的计算中,代替[数学式5]的key(w),如上所述也可以使用[数学式6]的key′(w)或[数学式7]的key″(w)。
当使用[数学式7]的key″(w)时,Skey(w)值记为Skey(key″),当使用[数学式5]的key(w)时,Skey(w)值记为Skey(key),将两者比较,则
Skey(key)-Skey(key″)
=GF(w,E)×[ln key(w)-ln key″(w)]
_GF(w,E)×ln b
因此,使用[数学式7]的key″(w)的Skey(w)和使用[数学式5]的key(w)的Skey(w)的差别除了基群数b的不同之外本质上是一样的,只要基群数b不大,就不会对Skey(w)值的位次造成较大影响。
<9.计算评价值>
当计算出Skey(w)时,评价值计算部分4700关于各文件群Eu和各索引词wi计算基于各文件群Eu中的上述索引词wi的出现频率的函数值的评价值A(wi,Eu)(步骤S4612)。
作为评价值A(wi,Eu),例如原样使用上述的Skey(w),或者Skey(w)/N(Eu)、或者GF(E)*IDF(P)。例如,关于各文件群Eu和各索引词wi,获得下面那样的数据。并且,为了便于说明,设索引词的种类数W=5,设文件群数n=3。
[表8]
  文件群Eu              索引词w1的评价值A(wi,Eu)
  w1   w2   w3   w4   w5
  E1   4   2   10   0   4
  E2   12   2   3   0   8
  E3   4   4   5   2   0
<10.计算集中度>
接着,集中度计算部分4710关于各索引词wi如下那样计算集中度(步骤S4613)。
首先,对于各索引词wi,针对属于上述文件群集团S的所有文件群Eu,计算出各文件群Eu中的评价值A(wi,Eu)的和 &Sigma; u = 1 n A ( w i , E u ) , 并针对各文件群Eu和各索引词wi而计算出各文件群Eu中的评价值A(wi,Eu)相对该和的比
A ( w i , E u ) / &Sigma; u = 1 n A ( w i , E u ) .
然后,关于各索引词wi、该比在属于上述文件群集团S的所有文件群Eu中的平方和
&Sigma; u = 1 n { A ( w i , E u ) / &Sigma; u = 1 n A ( w i , E u ) } 2
成为索引词wi在文件群集团S中的集中度。如果用上表的例子进行表示,则如下所示,关于各索引词wi计算出集中度。
[表9]
                        索引词wi的评价值相对和的比A(wi,Eu)/∑u=1 3A(wi,Eu)
 w1   w2   w3   w4   w5
文件群Eu   E1  4/20   2/8   10/18   0/2   4/12
  E2  12/20   2/8   3/18   0/2   8/12
  E3  4/20   4/8   5/18   2/2   0/12
集中度  (16+144+16)/400=0.44   (4+4+16)/64=0.38   (100+9+25)/324=0.41   (0+0+4)/4=1.00   (16+64+0)/144=0.56
<11.计算份额>
接着,份额计算部分4720如下计算出关于各索引词wi在各文件群Eu中的份额(步骤S4614)。
首先,在各文件群Eu中,针对从上述文件群集团S提取出的所有索引词wi,计算出各索引词wi的评价值A(wi,Eu)的和 &Sigma; u = 1 w A ( w i , E u ) . 然后,计算出各索引词wi的评价值A(wi,Eu)与该和的比,即份额
A ( w i , E u ) / &Sigma; u = 1 w A ( w i , E u ) .
如果在上表的例子中进行显示则如下所示,关于各索引词wi决定在各文件群Eu中的份额。
[表10]
             索引词wi的份额A(wi,Eu)/∑i=1 5A(wi,Eu)
  w1   w2   w3   w4   w5
  文件群Eu   E1   4/20   2/20   10/20   0/20   4/20
  E2   12/25   2/25   3/25   0/25   8/25
  E3   4/15   4/15   5/15   2/15   0/15
<12.计算独创度>
接着,关于各索引词wi,如下这样计算独创度的值。
首先,第一倒数计算部分4730关于各索引词wi,计算出在上述文件群集团S中的出现频率的倒数的函数值(步骤S4615)。
作为在文件群集团S中的出现频率例如使用文件频率DF(S)。作为出现频率的倒数的函数值,使用在文件群集团S中的反文件频率IDF(S),或者作为特别优选例,使用以从分析对象的文件群Eu中提取的所有索引词对IDF(S)进行归一化后所得值(归一化IDF(S))。此处,IDF(S)是“DF(S)的倒数×文件群集团S的文件数N(S)”的对数。作为归一化的例子使用例如偏差值。归一化的理由是,通过使分布一致,使后述的利用IDF(P)的组合而进行的独创度的计算变得容易。
接着,第二倒数计算单元4740关于各索引词wi,计算在包含上述文件群集团S的大文件集团P中的出现频率的倒数的函数值(步骤S4616)。
作为出现频率的倒数的函数值,使用IDF(P)或者作为特别优选例、使用以从分析对象的文件群Eu中提取的所有索引词对IDF(P)进行归一化后所得值(归一化IDF(P))。作为归一化的例子,使用例如偏差值。归一化的理由是,通过使分布一致、使利用与上述的IDF(S)的组合而进行的独创度的计算变得容易。
接着,独创度计算部分4750关于各索引词wi,计算出{IDF(S)的函数值-IDF(P)的函数值}的函数值,作为独创度(步骤S4617)。当在独创度的计算中仅使用IDF(S)和IDF(P)时,各索引词wi的独创度只计算出一个值。当使用用文件群Eu进行了归一化的归一化IDF(S)或归一化IDF(P)时,或者另外用GF(Eu)等进行加权时,独创度关于各文件群Eu、并且关于各索引词wi分别进行计算。
独创度尤其优选由下式的DEV提供。
[数学式11]
Figure S2006800229160D00741
作为DEV的第一因子的归一化GF(Eu)是用从分析对象文件群Eu中提取的所有索引词,对在分析对象的文件群Eu中的各索引词wi的大区域的频率GF(Eu)进行归一化后所得的值。
在进行归一化IDF(S)>0、且归一化IDF(P)>0这样的归一化时,当文件群集团S中的IDF的归一化值比大文件集团P中的IDF的归一化值大时,DEV的第二因子为正,反之为负。文件群集团S中的IDF大意味着是在该文件群集团S中稀有的词。在文件群集团S中稀有的词中,在包含文件群集团S的大文件集团P中的IDF小的词可以认为即便在其他领域中被经常使用,但在该文件群集团S相关的领域中使用是具有独创性的。并且,由于除以{归一化IDF(S)+归一化IDF(P)},DEV的第二因子成为大于等于-1、小于等于+1的范围,在不同的文件群Eu间的比较变得容易。
并且,由于DEV与归一化GF(Eu)成比例,在对象文件群中越是频率高的词、越具有较高的数值。
特别地,当文件群集团S由多个文件群Eu(u=1,2,...)构成时,如果分别将这些文件群Eu设为分析对象文件群,生成其独创度次序,则在该文件群集团S中,共同的索引词的位次下降,为了使各文件群Eu中的特征词到达在各文件群Eu中的前几位,把握每个文件群Eu的特征是有益的。
<13.提取关键词>
接着,关键词提取部分4760根据在以上的步骤中获得的Skey(w)、集中度、份额、独创度的4个指标中选出的2个以上的指标,提取关键词(步骤S4618)。
优选的是,使用以上的Skey(w)、集中度、份额、独创度的4个指标全部,将对象文件群Eu的索引词wi分类为“非重要词”、和重要词中的“技术领域词”、“主要词”、“独创词”、“其它的重要词”的任意一个,并提取重要词。尤其优选的分类方法如下所述。
首先,第一判定使用Skey(w)。在各文件群Eu中,生成Skey(w)降序次序,将位次在预定位次之后的关键词设为“非重要词”,从关键词的提取对象中除去。该预定位次以内的关键词是各文件群Eu中的重要词,所以设为“重要词”,所以对其进一步在以下的判定中进行分类。
第二判定使用集中度。集中度低的词是分散在整个文件群集团中的词,所以可以定位成较宽地捕捉了分析对象的文件群所属技术领域的词。此处,生成在文件群集团S中的集中度的升序次序,将在预定位次以内的词作为“技术领域词”。从各文件群Eu的重要词中将与上述的技术领域词一致的关键词分类为该文件群Eu的“技术领域词”。
第三判定使用份额。由于份额高的词在分析对象的文件群中的份额比其他词高,所以可将其定位为可较好地说明分析对象的文件群的词(主要词)。此处,在文件群Eu中,对在第二判定中未进行分类的重要词生成份额降序的次序,将在预定位次以内的词作为“主要词”。
第四判定使用独创度。在各文件群Eu中,对在第三判定中未进行分类的重要词生成独创度降序的次序,将在预定位次以内的词作为“独创词”。其余的重要词作为“其他重要词”。
如果将以上的判定表示为表的形式则如下所示。
[表11]
  类别/属性   Skey(w)   集中度   说明度   独创度
  非重要词   低
  技术领域词   高   低
  主要词   高   高
  独创词   高
  其他重要词   低
在以上的判定中,作为用于第一判定的重要度的指标而使用了Skey(w),然而不限于此,也可使用表示在文件群中的重要度的其他指标。例如,也可以是GF(E)*IDF(P)。
并且,在以上的判定中,使用重要度、集中度、份额以及独创度的4个指标进行了分类,但通过使用它们中任意2个以上的指标都可进行索引词的分类。
如上所述,使用重要度、集中度、份额以及独创度的4个指标来分类关键词。最终,关于各集群的包含标题、公报件数、主分类IPC的累计(前5位)、申请人的累计(前5位)以及集群的重要关键词的集群信息被存储在第二解析服务器514的存储装置中,同时提供给管理服务器512。管理服务器512将第二解析服务器514的处理结果提供给文件生成服务器516。
说明管理服务器512、第二解析服务器514和文件生成服务器516的、到输出集群信息为止的流程。图47是示出了到输出集群信息为止的处理的流程的图。如图47所示,管理服务器512使第一解析服务器513的处理结果为例如Zip文件,并传递给第二解析服务器514(步骤S4701)。
第二解析服务器514执行处理并输出IDF信息(步骤S4702)。更详细地,第二解析服务器514
(1)在输出从管理服务器512接收到的文件中所包含的结构图时生成公报列表,根据该公报列表,获得各公报关键词的分隔结果。
(2)计算在上述(1)中求得的每个关键词的IDF(对母集团)、IDF(对所有公报)。
(3)生成保持在上述(2)中求得的值的文件(例如CSV文件),以及包含在从管理服务器512接收的文件(Zip文件)内的所有文件的形式的文件(例如Zip文件),并返回给管理服务器512(步骤S4703)。
管理服务器512进一步将包含第一解析服务器513的处理结果和S4702的IDF信息的文件(例如Zip文件)再次传递给第二解析服务器514(步骤S4704)。
第二解析服务器514当接收到文件时,输出关键词属性、主要申请人信息(步骤S4705)。更详细地,第二解析服务器514
(1)求出每个关键词的集中度、集中度位次。
(2)对集群、每个伴随集群的关键词求以下的值。
重要度、重要度位次
说明度、说明度位次
独创度、独创度位次(此处,参照IDF信息。)
(3)求出每个集群的主要申请人、申请件数、主要申请人位次。
(4)求出每个集群的主要IPC分组、公开件数、主要IPC分组位次。
(5)生成保持在上述(1)~(4)中求得的值的各文件(例如CSV文件),以及包含在从管理服务器接收的文件(Zip文件)内的所有文件的形式的文件(例如Zip文件),并返回给管理服务器512(步骤S4706)。
管理服务器512将包含第一解析服务器513的处理结果和第二解析服务器514的处理结果的文件(例如Zip文件)传递给文件生成服务器516(步骤S4707)。
文件生成服务器516根据接收到的文件,生成集群信息文件(步骤S4708)。更详细地,文件生成服务器516
(1)根据在上述第二解析服务器514的步骤S4705中计算出的各值,判定伴随各集群的关键词属于哪个类别(“技术领域”、“主要观点(主要词)”、“独自观点(独创词)”、“其他”),将各关键词设置在合适的项目(类别)中。
(2)在各项目中设置各集群的主要申请人或主要IPC分组的信息。
(3)对每个集群执行上述(1)、(2)后,生成在项目中设置了关键词等的状态的表格形式文件,同时生成包含下列两种文件形式的文件(例如Zip文件),即该表格形式文件和从管理服务器接收到的文件(Zip文件)中所包含的所有文件,并返回给管理服务器512(步骤S4709)。
这样,管理服务器512可获得包含所有的处理结果的最终的文件(Zip文件)。管理服务器512将最终的文件传递给网络服务器511。网络服务器511生成把从管理服务器512接收到的文件作为附件的邮件,并发送给客户端502。
[其他实施方式]
参照图48~图50,说明分别在客户端、网络服务器、管理服务器、第一以及第二解析服务器、以及数据库服务器中执行的处理。并且,在以下的说明中,不分第一解析服务器和第二解析服务器,仅称作“解析服务器”。其中,也可以设置2台解析服务器,即第一解析服务器和第二解析服务器,进行分散处理。在本实施方式的特征在于,通过解析服务器生成线程,具有能够逐次地、或并列地进行各种处理的多线程处理功能。
网络服务器作为和客户端之间的接口而起作用,接收来自客户端的数据,并向客户端发送数据。网络服务器根据从客户端经由网络向网络服务器发送的、用户的输入,生成应生成信息解析报告书的案件、即调查对象文件的信息(下面称作“调查案件信息”),并将其提供给管理服务器。
管理服务器对调查案件进行排队,按其投入顺序向解析服务器发出请求。管理服务器具有向解析服务器发出请求的排队机构。
解析服务器执行母集团的提取、各种累计处理、结构图、以及聚类信息的生成等的处理。
如图48所示,网络服务器根据来自客户端的请求,进行HTML发送。客户端随着用户的操作而向网络服务器发送登录画面要求,网络服务器根据登录画面要求,向客户端发送登录画面。对于来自客户端的登录,网络服务器执行认证,在不能认证的情况下,再次返回客户端的登录。另一方面,在能够认证的情况下,网络服务器向客户端发送包含调查对象文件信息输入栏以及要求内容选择栏的输入画面。
与第二实施方式同样地,如图37A所示,在检索画面中,包含用于指定专利文献的栏3701~3704、文本输入栏3705。在本实施方式中,作为调查对象文件,除了专利公开公报或专利公报之外,还可采用用户自己输入的文本。作为文本,可输入用户想要申请的技术摘要等。
调查对象文件如果是专利公开公报等的专利文献的话,用户操作客户端502,向栏3701~3704输入必要的信息。或者,用户也可以向文本输入栏3705输入应作为调查对象的信息。
并且,栏3706可以用于提供下列服务:要列出类似公报时,栏3706内所输入期间内的公报会被加注颜色来加以强调。
当网络服务器接收到用户操作客户端所输入的调查对象文件信息以及内容选择信息时,从接收的调查对象文件信息以及内容选择信息识别案件,并将案件发送给管理服务器。管理服务器判断在解析服务器中有无处理中的先行案件,如果有先行案件则待机。另一方面,如果没有先行案件则将案件投入解析服务器。在本实施方式中,当确定了调查对象文件时,从网络服务器向管理服务器发送调查案件信息。管理服务器通过排队机构对调查案件进行排队,并关于成为应进行处理的顺序的调查案件,向解析服务器发送请求,并提供调查案件数据。
如图49所示,解析服务器在生成线程时,根据内容选择信息判断有无结构图,生成必要的线程并进行处理。在本例中,生成文件索引词累计处理线程、类似文件母集团生成线程、文件属性累计处理线程、结构图生成处理线程、集群信息生成处理线程。可逐次或者并列地生成这些线程。并且,也可以构成为生成这些之中的至少一个。
数据库服务器从整体公报数据库(DB)获得所有公报,并生成关于所有公报的索引词(所有公报关键词)。
解析服务器在执行线程处理时,首先,获得从数据库服务器提取的调查案件索引词。其次,进行调查案件索引词在文件内的使用频率的累计处理。这样,解析服务器取得调查案件索引词累计处理结果。
接着,解析服务器开始生成母集团。数据库服务器响应来自解析服务器的母集团生成开始请求,根据前面生成的所有公报中包含的每个文件的索引词、和前面取得的调查案件索引词累计处理结果,计算所有公报相似率。由于相似性的计算和第一实施方式中说明的一样,省略其说明。然后,从计算出的所有公报相似率的值为前3000件的文件群生成调查案件类似母集团。数据库服务器将调查案件类似母集团返回给解析服务器。这样,解析服务器取得调查案件类似母集团。
解析服务器执行累计处理,取得对类似文件母集团中的相似率的次序、调查对象文件的文献信息中包含的每个文件属性的类似文件母集团内的各种文件数、类似文件母集团内的文件数推移或每个文件属性的各种次序,或者索引词文件频率散布图中的至少一个进行了累计的结果。
与第二实施方式同样,解析服务器作为累计而执行次序累计(步骤S3901)、时序累计(步骤S3902)以及矩阵累计(步骤S3903)。
如图39所示,在次序累计中,包含关键词累计、关于申请人的累计以及关于IPC的累计。在关键词累计中,生成如图18、19所示那样的分布图。解析服务器从存储装置中按重要度从高到低的顺序取出预定数量的重要关键词(对所有公报)的信息,对每个重要关键词(对所有公报)生成表示使用该关键词(索引词)的公报的数目的图(图18)。并且,解析服务器从存储装置中取出重要关键词(对母集团)的信息,对每个重要关键词(对母集团)生成表示使用该关键词(索引词)的公报的件数的图(图19)。
并且,解析服务器从存储装置中取得母集团的信息,按不同申请人累计母集团的公报(参照图11、图12)。解析服务器从存储装置获得母集团的信息,生成按主组不同,对母集团各个公报中的IPC主分类进行了累计的图(图13),同时生成按主分类以及副分类的所有IPC不同而进行了累计的图(图14)。这样的累计结果(表以及图)被存储在解析服务器的存储装置中。
解析服务器从存储装置取得母集团的信息,按申请年份对母集团中申请件数前10位申请人的申请件数进行累计,生成表示其件数的推移的图(图20),并且生成表示件数的累计和单年计的表(图21)。并且,解析服务器从存储装置取得母集团的信息,对于在母集团的公报中,作为主分类或副分类而被付与的IPC前5个分类,生成按年份累计了申请件数的图(图22),同时生成表示该申请件数的单年计以及累计的表(图23)。这些累计结果也存储在解析服务器的存储装置中。
并且,解析服务器从存储装置取出重要关键词(对所有公报),生成表示每个重要关键词(对所有公报)的每年的使用频率的累积的表(图27),以及表示重要关键词(对所有公报)的单年计以及累计的表(图28)。并且,解析服务器从存储装置取出重要关键词(对母集团),生成表示每个重要关键词(对母集团)的每年的使用频率的累积的图(图29),以及表示重要关键词(对母集团)的单年计以及累计的表(图30)。这些图和表都存储在解析服务器的存储装置中。
并且,解析服务器基于母集团每年的申请件数的累计结果,以每年的件数为横轴,以和前一年的申请件数的比较所得的延伸率为纵轴生成图(图25)。在图25的图中,制图点的圆的大小表示申请件数的累积。同样地,解析服务器基于关于某一IPC(IPC主组)、在母集团中付与了该IPC的申请的申请件数的累计结果,以每年的件数为横轴,以和前一年的申请件数的比较所得的延伸率为纵轴生成图(图26)。在图26的图中,制图点的圆的大小也表示申请件数的累积。这样生成的图也存储在解析服务器的存储装置中。
下面,对矩阵累计进行说明。解析服务器进一步从存储装置取出母集团的信息,参照付与母集团中的申请件数前10位的申请人的申请上的IPC,生成对每个申请人、把在该申请人的申请中付与了IPC主组的申请件数表示为申请人×IPC主组的矩阵形式的表(参照图15)。并且,使用和图15相同的信息,生成区分并显示了公开件数、登录件数、实用新型件数的表(图16)。并且,解析服务器从存储装置取出母集团的信息,计算出在母集团中的申请件数前20位申请人的公报中、付与了与调查对象文件的IPC主分类相同的IPC主组的申请件数,并生成对每个申请人表示了其件数的图(图17)。在图17中,优选区分并显示每个申请人的公开件数、登录件数、实用新型件数。这些矩阵累计的结果也存储在解析服务器的存储装置中。
并且,虽然未图示,但当各种累计处理结束时,解析服务器也可以从存储装置取出母集团的信息,计算母集团内相似性(步骤S3904)。所谓的母集团内相似性指的是调查对象文件与属于母集团的文件之间的相似率(相似性)。
并且,解析服务器执行用于频率散布图的坐标的计算处理(步骤S3905)。频率散布图如图31所示,是表示调查对象文件的关键词分布的图。关于用于频率散布图的坐标的计算,参照图40的流程图详细地说明。并且,为了便于理解,图40依次示出了频率散布图中的每个关键词的坐标的计算所必需的所有的处理步骤。因此,在图39的S3905中并不执行图40所示的所有的处理步骤。即,在图39的S3905中,利用在解析服务器中已经计算出的、并存储在存储装置中的值,不重新计算,仅执行步骤S3905的处理以前的未执行的处理步骤。
如图40所示,首先,从调查对象文件或比较对象文件中提取索引词(步骤S4001)。接着,计算表示所有文件(比较对象文件整体)P的索引词在P中的文件频率的DF(P)(步骤S4002)。该DF(P)相当于关键词重要度。
然后,计算作为TF(d)(d的索引词(d1,...dx)在d中的出现频率)和IDF(P)(DF(P)的倒数×文件数的对数:ln[N/DF(P)])的积的文件向量(d)(步骤S4003)。同样地,计算作为TF(P)(P的索引词(P1,...Pya)在P中的出现频率)和IDF(P)的积的文件向量(p)(步骤S4004)。
当算出文件向量(d)和文件向量(p)时,通过取它们的内积而计算出相似性(步骤S4005)。并且,相对调查对象文件d,从比较对象文件P中按相似性从高到低的顺序提取预定数量的文件作为母集团S,将该信息存储在存储装置中(步骤S4005)。然后,计算关键词重要度DF(S)(S的索引词在S中的文件频率)(步骤S4006)。
然后,关于调查对象文件d的各个索引词(d1,...dx),相对比较对象文件P和母集团S求出文件频率的函数值IDF(步骤S4007、步骤S4008)。在步骤S4007中,求出IDF(d1;P)、IDF(d2;P)、...IDF(dx;P),在步骤S4008中,求出IDF(d1;S)、IDF(d2;S)、...IDF(dx;S)。解析服务器以IDF(P)和IDF(S)制作平面,例如,以IDF(P)为x轴、以IDF(S)为y轴,根据各个索引词(d1,...dx)对应的IDF(P)或IDF(S)的值,生成在平面上的预定位置上配置索引词那样的频率散布图(步骤S4009)。
并且,在步骤S4009中,在频率散布图(IDF平面图)中配置了(散布了)索引词,但有时散布的索引词较偏、难以看见。因此,在第二实施方式中,调查配置在平面上的索引词的密度,当一定的区域中的密度超过预定值时,解析服务器扩大该区域的轴的分度间隔,扩大该区域的另一方面,减小其他区域的轴的分度间隔,压缩该区域。因此,当这样进行一部分区域的扩大以及其他区域的压缩时,解析服务器进行坐标变换(步骤S4010)。并且,成为基本的IDF平面图是菱形,但当作为表现图进行观察时,有不协调,并且有时不便处理。因此,解析服务器也可以通过坐标变换、使用四角形表示平面。这些频率散布图的信息也存储在解析服务器的存储装置中。
并且,解析服务器基于类似文件母集团中包含的文件的相似率而生成树状图,进行聚类并生成结构图。并且,基于生成的结构图数据,生成包含调查对象文件的结构图的聚类信息。
并且,如图49所示,在结构图生成以及聚类信息生成中利用调查案件类似母集团的信息。
由于关于专利结构图的生成的详细说明和第二实施方式相同,故省略说明。此处,参照图42的流程图,对解析服务器中的专利结构图生成处理的概略进行说明。
首先,文件读出部分4110从存储装置4103的文件存储部分中读出成为分析对象的多个文件要素(步骤S4210)。在本实施方式中,成为分析对象的文件要素例如是母集团文件、或调查对象文件以及母集团文件。
接着,时间数据提取部分4120从文件读出步骤S4210中读出的文件要素群中提取各要素的时间数据(步骤S4220)。
接着,索引词数据提取部分4130从文件读出步骤S4210中读出的文件要素群中提取作为各文件要素的内容数据的索引词数据(步骤S4230)。索引词的提取与第一实施方式相同。
接着,相似性运算部分4140根据在索引词数据提取步骤S4230中提取的各文件要素的索引词数据,计算文件要素间的相似性(步骤S4240)。由于已经对相似性(相似率)的计算进行了说明,此处省略说明。
接着,树状图生成部分4150按照树状图生成条件,根据相似性计算步骤S4240中计算出的相似性,生成作为分析对象的文件要素群的树状图(步骤S4250)。作为树状图,最好生成使文件要素等之间的相似性反映在结合位置的高度(结合距离)上的系统树图。使用公知的Ward法等作为系统树图的具体的生成方法。
接着,切断条件读出部分4160读出存储在存储装置4103的条件记录部分中的树状图切断条件(步骤S4260)。
接着,集群提取部分4170根据在切断条件读出步骤S4260中读出的切断条件,切断在树状图生成步骤S4250中生成的树状图,提取集群(步骤S4270)。
接着,配置条件读出部分4180读出记录在存储装置4103的条件记录部分中的集群内的文件要素配置条件(步骤S4280)。
接着,集群内要素配置部分4190根据在配置条件读出步骤S4280中读出的文件要素配置条件,决定在集群提取步骤S4270中提取的集群内的文件要素的配置(步骤S4290)。通过决定集群内的配置,完成本实施方式的结构图。也可在所有的集群中共用配置条件。因此,如果为了某一个集群而执行一次步骤S4280,则没有必要为了其他集群而再度执行。
更详细地说明结构图的生成处理。在本实施方式中,按由某方法决定的切断高度α切断树状图并提取父集群之后,为了将各父集群进一步分为子集群,仅使用属于各父集群的文件要素再度生成该部分的树状图。在生成该部分树状图时,如果该父集群中的文件要素向量的分量偏差值小于按预定方法确定的值,则除去对应的索引词维数而进行分析。
图43是更加详细地说明本实施方式的集群提取过程的流程图,由于和第二实施方式相同,此处省略说明。
通过解析服务器执行上述处理,可获得图32所示那样的专利结构图。接着,解析服务器基于调查案件数据和专利结构图的信息而生成结构图的聚类信息。
下面,说明用于获得集群信息的处理。首先,对以下的说明中使用的术语的定义和省略符号进行说明。集群信息包括关于各集群的标题、公报件数、主分类IPC的累计(前5位)、申请人的累计(前5位)以及集群的重要关键词。重要关键词表示从属于集群的所有公报中提取的关键词的重要度前10位为止的词语,分为以下的四个类别进行显示。
技术领域词:在集群的重要关键词中与其他集群共同使用的关键词。在多个集群中共同使用的关键词大多是表示集群所属技术领域的关键词。
主要词:在从集群的重要关键词中除去了“技术领域词”后的内容中,在该集群中特别经常使用的关键词。这是在其它集群中几乎不使用的关键词,大多是表示该集群主要的技术要素的关键词。也是极端地表示与其他集群的差别化的关键词。
特征词:从集群的重要关键词中除去了“技术领域词”和“主要词”后的内容大多是与方法或构成等相关的关键词。其中,也是较多使用的一般性词语,在分析对象公报群(所有公报相似性前300位)中几乎不使用的关键词如果是能够体现方法或构成的特征方面的关键词就对了。按预定基准计算出这样的关键词,表示为“特征词”。
其它的重要词:是从集群的重要关键词中不属于上述三个分类的任意一个的重要关键词。“其它的重要词”是重要关键词,并且还是不属于上述三个观点的任意一个的关键词,较多是与装置或构成相关的技术专业词汇。
下面,参照图45以及图47的方框图说明用于提取关键词的处理装置的结构。此处,为了便于理解处理的内容,在解析服务器的功能中记载了提取关键词所必需的所有功能。
文件读出部分4510按照存储在存储装置4503的条件记录部分中的读出条件,从存储装置4503的文件存储部分中读出由成为分析对象的多个文件D1~DN(E)构成的文件群E。读出的文件群的数据被直接送给索引词提取部分4520并用于该处的处理,另外被发送给存储装置4503的作业结果存储部分并存储其中。
并且,从文件读出部分4510发送给索引词提取部分4520或作业结果存储部分的数据也可以是包含读出的文件群E的文件数据的所有数据。并且,也可以仅是指定属于这些文件群E的各个文件D的书目数据(例如,如果是专利文件则是申请号或公开号等)。如果是后者,则在以后的处理中必要的时候根据该书目数据再次从文件存储部分中读出各文件D的数据便可。
索引词提取部分4520从文件读出部分4510读出的文件群中提取各文件的索引词。各文件的索引词数据被直接发送给高频率词提取部分4530并用于该处的处理,另外被发送给存储装置4503的作业结果存储部分并存储其中。
高频率词提取部分4530根据索引词提取部分4520提取的各文件的索引词,按照存储在存储装置4503的条件记录部分中的高频率词提取条件,提取预定个数的权重大的索引词,该索引词的评价中包括在文件群E中的出现频率的高低。
具体地,首先,对于各索引词计算作为在文件群E中的出现次数的GF(E)。并且进一步计算出各索引词的IDF(P),优选计算出与GF(E)的积,即GF(E)*IDF(P)。接着,根据算出的各索引词的权重GF(E)或GF(E)*IDF(P),按从高到低的顺序,提取预定个数的索引词作为高频率词。
提取的高频率词的数据被直接发送给高频率词-索引词同现频率计算部分4540并用于该处的处理,另外被发送给存储装置4503的作业结果存储部分并存储其中。并且,关于上述计算出的各索引词GF(E)以及优选计算的各索引词的IDF(P),优选发送给存储装置4503的作业结果存储部分并存储其中。
高频率词-索引词同现频率计算部分4540根据由高频率词提取部分4530提取的各高频率词、和由上述索引词提取部分4520提取的存储在作业结果存储部分中的各索引词在文件单位中有无同现,计算文件群E中的同现频率。如果索引词为p个,其中提取的高频率词为q个,则成为p行q列的阵列数据。
由高频率词-索引词同现频率计算部分4540计算出的同现频率的数据被直接发送给聚类部分4550并用于该处的处理,或者被发送给存储装置4503的作业结果存储部分并存储其中。
聚类部分4550根据高频率词-索引词同现频率计算部分4540计算出的同现频率数据,按照存储在存储装置4503的条件记录部分中的聚类条件,对q个高频率词进行集群分析。
为了进行集群分析,首先,对于q个高频率词的每一个计算和各索引词的同现频率的相似性。
接着,根据相似性的计算结果,按照存储在存储装置4503的条件记录部分中的树状图生成条件,对高频率词进行树状连线而生成树状图。作为树状图,优选生成使高频率词间的非相似性反映在结合位置的高度(结合距离)中的系统树图。
接着,按照存储在存储装置4503的条件记录部分中的树状图切断条件,切断上述生成的树状图。切断的结果是,基于和各索引词的同现频率的相似程度,对q个高频率词进行聚类。将由聚类生成的各个集群称作“基群”gh(h=1,2,...b)。
由聚类部分4550形成的基群数据被直接发送给索引词-基群同现频率计算部分4560并用于该处的处理,或者被发送给存储装置4503的作业结果存储部分并存储其中。
索引词-基群同现频率计算部分4560对由索引词提取部分4520提取、并存储在存储装置4503的作业结果存储部分中的各索引词,计算与由聚类部分4550形成的各基群的同现频率。关于各索引词计算出的同现频率的数据被直接发送给key(w)计算部分4570并用于该处的处理,或被发送给存储装置4503的作业结果存储部分并存储其中。
key(w)计算部分4570根据由索引词-基群同现频率计算部分4560计算出的各索引词与基群的同现频率,计算作为各索引词的评价值的key(w)。算出的key(w)的数据被直接发送给Skey(w)计算部分4580并用于该处的处理,或被发送给存储装置4503的作业结果存储部分并存储其中。
Skey(w)计算部分4580根据key(w)计算部分4570计算出的各索引词的key(w)值、高频率词提取部分4530计算出的存储在存储装置4503的作业结果存储部分中的各索引词的GF(E)以及各索引词的IDF(P),计算Skey(w)值。计算出的Skey(w)的数据被发送给存储装置4503的作业结果存储部分并存储其中。
评价值计算部分4700关于具有多个文件群Eu的文件群集团S、从作业结果存储部分读出在索引词提取部分4520中提取的各文件的索引词wi。或者评价值计算部分4700从作业结果存储部分中读出在Skey(w)计算部分4580中关于各文件群Eu分别计算出的索引词Skey(w)。根据需要,评价值计算部分4700也可以从作业结果存储部分中读出由文件读出部分4510读出的各文件群Eu的数据,对其文件数N(Eu)进行计数。并且,也可以从作业结果存储部分中读出在高频率词提取部分4530中的高频率词提取的过程中计算出的GF(Eu)或IDF(P)。
然后,评价值计算部分4700根据读出的信息,分别计算出基于各索引词wi在各文件群Eu中的出现频率的评价值A(wi,Eu)。计算出的评价值被发送给作业结果存储部分并存储其中,或者,直接发送给集中度计算部分4710以及份额计算部分4720并用于该处的处理。
集中度计算部分4710从作业结果存储部分中读出在评价值计算部分4700中计算出的各索引词wi在各文件群Eu中的评价值A(wi,Eu),或者直接从评价值计算部分4700接收该评价值。
然后,集中度计算部分4710根据获得的评价值A(wi,Eu),关于各索引词wi、计算在文件群集团S中的各索引词wi的分布的集中度。该集中度可这样获得:关于各索引词wi、计算各文件群Eu中的评价值A(wi,Eu)在属于上述文件群集团S的所有的文件群Eu中的和,关于各文件群Eu、计算出各文件群Eu中的评价值A(wi,Eu)相对该和的比,分别计算出该比的平方,并计算出该比的平方在属于上述文件群集团S的所有文件群Eu中的和。计算出的集中度被发送给作业结果存储部分并存储其中。
份额计算部分4720从作业结果存储部分中读出在评价值计算部分4700中计算出的各索引词wi在各文件群Eu中的评价值A(wi,Eu),或者直接从评价值计算部分4700接收该评价值。
然后,份额计算部分4720根据获得的评价值A(wi,Eu),关于各索引词wi计算出在各文件群Eu中的份额。该份额可这样获得:针对从属于上述文件群集团S的各文件群Eu中提取的所有索引词wi,计算分析对象文件群Eu中各索引词wi的评价值A(wi,Eu)和,并针对各索引词wi计算出各索引词wi的评价值A(wi,Eu)相对该和的比。计算出的集中度被发送给作业结果存储部分并存储其中。
第一倒数计算部分4730关于具有多个文件群Eu的文件群集团S、从作业结果存储部分中读出在索引词提取部分4520中提取的各文件的索引词wi.
然后,第一倒数计算部分4730根据读出的文件群集团S的各文件的索引词wi的数据,计算关于各索引词wi在文件群集团S中的出现频率的倒数的函数值(例如计算出后述的归一化IDF(S))。计算出的文件群集团S中的出现频率的倒数的函数值被发送给作业结果存储部分并存储其中,或者被直接发送给独创度计算部分4750并用于该处的处理。
第二倒数计算部分4740计算在包含文件群集团S的大文件集团中的出现频率的倒数的函数值。作为大文件集团使用所有文件P。在该情况下,从作业结果存储部分中读出在高频率词提取部分4530中的高频率词提取过程中计算出的IDF(P),并计算出其函数值(例如后述的归一化IDF(P))。计算出的在大文件集团P中的出现频率的倒数的函数值被发送给作业结果存储部分并存储其中,或直接发送给独创度计算部分4750并用于该处的处理。
独创度计算部分4750从作业结果存储部分读出在第一倒数计算部分4730和第二倒数计算部分4740中计算出的各出现频率的倒数的函数值,或者直接从第一倒数计算部分4730和第二倒数计算部分4740接收。并且,从作业结果存储部分读出在高频率词提取部分4530中的高频率词提取的过程中计算出的GF(E)。
然后,独创度计算部分4750计算出从第一倒数计算部分4730的计算结果减去第二倒数计算部分4740的计算结果后所得的函数值,作为独创度。该函数值可以是相对从上述第一倒数计算部分4730的计算结果减去第二倒数计算部分4740的计算结果后所得值、用该值除以第一倒数计算部分4730的计算结果和第二倒数计算部分4740的计算结果的和所得的值,也可以是用该值乘以在各文件群Eu中的GF(Eu)所得的值。计算出的独创度被发送给作业结果存储部分并存储其中。
关键词提取部分4760从作业结果存储部分中读出在Skey(w)计算部分4580计算出的Skey(w)、在集中度计算部分4710计算出的集中度、在份额计算部分4720中计算出的份额以及在独创度计算部分4750中计算出的独创度的各数据。
然后,关键词提取部分4760根据从上述读出的Skey(w)、集中度、份额、独创度的4个指标中选择的2个以上的指标,提取关键词。关键词的提取方法可以根据例如所选择的多个指标的合计值是否在大于等于预定阈值或者是否在预定次序以内。提取的关键词数据被发送并存储在存储装置4503的作业结果存储部分。然后,基于所选择的多个指标、和对这些指标的每一个所提取的关键词的组合,生成聚类信息。
具体地,关键词提取部分4760根据在以上的步骤中获得的Skey(w)、集中度、份额、独创度的4个指标中选出的2个以上的指标和提取的关键词,生成聚类信息。
优选的是,使用以上的Skey(w)、集中度、份额、独创度的4个指标全部,将对象文件群Eu的索引词wi分类为“非重要词”、和重要词中的“技术领域词”、“主要词”、“独创词”、“其它的重要词”的任意一个,并生成聚类信息。尤其优选的分类方法如下所述。
首先,第一判定使用Skey(w)。在各文件群Eu中,生成Skey(w)降序次序,将位次在预定位次之后的关键词作为“非重要词”,从关键词的提取对象中除去。该预定位次以内的关键词是各文件群Eu中的重要词,所以设为“重要词”,所以对其进一步在以下的判定中进行分类。
第二判定使用集中度。集中度低的词是分散在文件群集团整体中的词,所以可以定位成较宽地捕捉了分析对象的文件群所属技术领域的词。此处,生成在文件群集团S中的集中度的升序次序,将在预定位次以内的词作为“技术领域词”。从各文件群Eu的重要词中将与上述的技术领域词一致的关键词分类为该文件群Eu的“技术领域词”。
第三判定使用份额。由于份额高的词在分析对象的文件群中的份额比其他词高,所以可将其定位为可较好地说明分析对象的文件群的词(主要词)。此处,在各文件群Eu中,对在第二判定中未进行分类的重要词生成份额降序的次序,将在预定位次以内的词作为“主要词”。
第四判定使用独创度。在各文件群Eu中,对在第三判定中未进行分类的重要词生成独创度降序的次序,将在预定位次以内的词作为“独创词”。其余的重要词作为“其他重要词”。
如果将以上的判定表示为表的形式则如表11所示。
在以上的判定中,作为第一判定中使用的重要度的指标而使用了Skey(w),然而不限于此,也可使用表示在文件群中的重要度的其他指标。例如,也可以是GF(E)*IDF(P)。
并且,在以上的判定中,使用重要度、集中度、份额以及独创度的4个指标进行了分类,但通过使用它们中任意2个以上的指标都可进行索引词的分类。
如上所述,使用重要度、集中度、份额以及独创度的4个指标来分类关键词。最终,关于各集群的包含标题、公报件数、主分类IPC的累计(前5位)、申请人的累计(前5位)以及集群的重要关键词的聚类信息被存储在解析服务器的存储装置中,同时提供给管理服务器。
由于关键词提取处理顺序(参照图46)和第二实施方式相同,此处省略说明。
如图50所示,解析服务器基于调查案件索引词累计处理结果、调查案件类似母集团、文件数、索引词文件频率散布图等、各种累计处理结果、结构图生成结果、聚类信息生成结果,生成报告书。在生成报告书后,解析服务器向管理服务器传输报告书,并且,管理服务器向网络服务器传输报告书。
当网络服务器取得报告书时,生成表示处理结束的结束通知并发送给客户端。
网络服务器响应于来自客户端的请求,向客户端发送登录画面。相对来自客户端的登录,网络服务器执行认证,当不能认证时,再次返回客户的登录画面。另一方面,当能够认证时,网络服务器向客户端发送购入报告书一览画面。
然后,响应于来自客户端的报告书输出要求,网络服务器向客户端传输报告书。客户端取得报告书,可将其显示在显示装置上,存储在存储装置中,或者通过打印机等作为印刷物而进行输出。
本发明适用于提供对调查对象文件或文件群进行解析并表示其特征的信息解析报告书自动生成装置、信息解析报告书自动生成程序、以及信息解析报告书自动生成方法的目的。

Claims (38)

1.一种信息解析报告书自动生成装置,在调查对象文件的信息解析中,生成表示调查对象文件相对比较对象文件的特征的报告书,其特征在于包括:
输入单元,其至少接收上述调查对象文件的输入;
选出单元,其根据上述输入的调查对象文件,从存储在数据库中的比较对象文件群的信息中选出与该调查对象文件类似的母集团文件的集合、即母集团文件群;
提取单元,其提取上述调查对象文件相对上述母集团文件的具有特征的索引词;
生成单元,其根据上述母集团文件以及上述索引词,生成表示上述调查对象文件的特征的信息解析报告书;以及
输出单元,其将上述信息解析报告书向显示单元、记录单元、或通信单元进行输出。
2.根据权利要求1记载的信息解析报告书自动生成装置,其特征在于,
进一步具有计算相对上述比较对象文件的相似率的计算单元,
上述选出单元根据上述计算单元的结果选出母集团文件。
3.根据权利要求2记载的信息解析报告书自动生成装置,其特征在于,
上述计算单元基于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。
4.根据权利要求2记载的信息解析报告书自动生成装置,其特征在于,进一步具有:
地图生成单元,其分布上述母集团或上述索引词并形成为地图状;
输出数据取入单元,其取入上述母集团或上述索引词的数据的一部分;
固定评注取入单元,其取入与上述地图以及数据内容相对应的固定的评注;以及
记入自由的评注的评注记入单元中的至少一个,
上述生成单元合成上述地图、上述数据以及/或者上述评注,生成表示上述调查对象文件的特征的信息解析报告书。
5.根据权利要求1至4中任意一项记载的信息解析报告书自动生成装置,其特征在于,
上述生成单元进行作为上述索引词或者母集团文件中的每个预定项目的累计的关键词累计、表示关键词或者母集团文件中的预定项目的时序的推移的时序累计、以及/或者母集团文件中的多个预定项目的矩阵累计,生成包含累计结果的信息解析报告书。
6.根据权利要求5记载的信息解析报告书自动生成装置,其特征在于,
上述生成单元在上述时序累计中生成由关键词或母集团文件中的预定项目的累计结果、以及该累计结果的时序的延伸率的矩阵所表示的组合,并生成包含该组合的信息解析报告书。
7.根据权利要求1至6中任意一项记载的信息解析报告书生成装置,其特征在于,上述生成单元具有:
计算上述提取的索引词在上述比较对象文件群中的出现频率的函数值的第一出现值频率计算单元;
计算上述提取的索引词在上述母集团文件群中的出现频率的函数值的第二出现值频率计算单元;以及
根据上述计算出的各索引词在比较对象文件群中的出现频率的函数值和在上述母集团文件群中的出现频率的函数值的组合、生成包含各索引词和其定位数据的频率散布图的频率散布图生成单元。
8.根据权利要求1至7中任意一项记载的信息解析报告书生成装置,其特征在于,上述生成单元包括:
提取单元,其提取上述母集团文件、或者上述调查对象文件以及母集团文件的内容数据以及时间数据;
树状图生成单元,其根据上述各文件的内容数据,生成表示上述多个文件的相关性的树状图;
聚类单元,其根据预定规则切断上述树状图,并提取集群;以及
集群内排列单元,其根据上述各文件的时间数据,决定属于上述各集群的文件群在该集群内的排列。
9.根据权利要求8记载的信息解析报告书生成装置,其特征在于,
上述聚类单元切断上述树状图并提取父集群,根据属于上述父集群的各文件的内容数据生成表示属于上述父集群的文件群的相关性的部分树状图,根据预定规则切断该生成的部分树状图并提取子孙集群。
10.根据权利要求9记载的信息解析报告书生成装置,其特征在于,
为了生成上述部分树状图,上述聚类单元从各文件向量中除去在属于上述父集群的多个文件间的偏差值比按预定方法确定的值小的向量分量。
11.根据权利要求8记载的信息解析报告书生成装置,其特征在于,上述生成单元具有:
评价值计算单元,其分别计算上述各索引词在上述各集群中的评价值;
集中度计算单元,其针对各索引词,计算在上述各集群中的评价值在所有集群中的和,并针对各集群计算出在各集群中的评价值相对该和的比,分别计算出该比的平方,并计算该比的平方在上述所有集群中的和,从而计算出各索引词在上述集群中的分布集中度;
份额计算单元,其针对从上述各集群中提取的所有的索引词,计算各索引词在上述分析对象集群中的评价值的和,并针对各索引词计算各索引词的评价值相对该和的比,从而计算出上述分析对象集群中各索引词的份额;
第一倒数计算单元,其计算出各索引词在上述集群中的出现频率的倒数的函数值;
第二倒数计算单元,其计算出各索引词在包括上述集群在内的所有文件中的出现频率的倒数的函数值;
独创度计算单元,其根据从上述第一倒数计算单元的计算结果减去上述第二倒数计算单元的计算结果后的函数值而计算独创度;
关键词提取单元,其根据由上述集中度计算单元计算的集中度、由上述份额计算单元关于上述分析对象的文件群计算的份额、和由上述独创度计算单元计算的独创度的组合,提取关键词。
12.根据权利要求1至12中任意一项记载的信息解析报告书生成装置,其特征在于具有,
网络服务器,其连接到网络上,且从经由该网络所连接的客户端接收调查对象文件的输入;
管理服务器,其对上述调查对象文件进行排队,并且关于成为应进行处理的顺序的调查对象文件,向解析服务器请求处理;以及
解析服务器,其响应上述请求,基于上述输入的调查对象文件,从存储在数据库中的比较对象文件群的信息中选出与该调查对象文件类似的母集团文件的集合、即母集团文件群,提取上述调查对象相对上述母集团文件的具有特征的索引词,并且基于上述母集团文件和上述索引词生成表示上述调查对象文件的特征的信息解析报告书。
13.一种信息解析报告书自动生成程序,在调查对象文件的信息解析中,生成表示调查对象文件相对比较对象文件的特征的报告书,其特征在于使计算机作为下列单元起作用:
输入单元,其至少接收上述调查对象文件的输入;
选出单元,其基于上述输入的调查对象文件,从存储在数据库中的比较对象文件群的信息中,选出与该调查对象文件类似的母集团文件的集合、即母集团文件群;
提取单元,其提取上述调查对象文件相对上述母集团文件的具有特征的索引词;
生成单元,其基于上述母集团文件以及上述索引词,生成表示上述调查对象文件的特征的信息解析报告书,以及
输出单元,其将上述信息解析报告书输出给显示单元、记录单元、或者通信单元。
14.根据权利要求13记载的信息解析报告书自动生成程序,其特征在于,
使计算机作为计算相对上述比较对象文件的相似率的计算单元而起作用,
上述选出单元根据上述计算单元的结果而选出母集团文件。
15.根据权利要求14记载的信息解析报告书自动生成程序,其特征在于,
上述计算单元基于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。
16.根据权利要求14记载的信息解析报告书自动生成程序,其特征在于,
使计算机至少作为下列单元中的一个而起作用,
地图生成单元,其分布上述母集团或上述索引词并形成地图状;
输出数据取入单元,其取入上述母集团或上述索引词的数据的一部分;
固定评注取入单元,其取入与上述地图或数据的内容相对应的固定评注;以及
记入自由的评注的评注记入单元,
上述生成单元合成上述地图、上述数据和/或上述评注,生成表示上述调查对象文件的特征的信息解析报告书。
17.根据权利要求13至16中任意一项记载的信息解析报告书自动生成程序,其特征在于,
上述生成单元进行上述索引词或母集团文件中的每个预定项目的累计、即关键词累计;表示关键词或母集团文件中的预定项目的时序的推移的时序累计;以及/或者母集团文件中的多个预定项目的矩阵累计,生成包含累计结果的信息解析报告书。
18.根据权利要求17记载的信息解析报告书自动生成程序,其特征在于,
上述生成单元生成由在上述时序累计中、关键词或母集团文件中的预定项目的累计结果、以及该累计结果的时序的延伸率的矩阵所表示的组合,生成包含该组合的信息解析报告书。
19.根据权利要求13至18中任意一项记载的信息解析报告书生成程序,其特征在于,上述生成单元具有:
第一出现值频率计算单元,该单元计算上述提取的索引词在上述比较对象文件群中的出现频率的函数值;
第二出现值频率计算单元,该单元计算上述提取的索引词在上述母集团文件群中的出现频率的函数值;以及
频率散布图生成单元,其根据上述计算出的各索引词在比较对象文件群中的出现频率的函数值和在上述母集团文件群中的出现频率的函数值的组合,生成包含各索引词及其定位数据的频率散布图。
20.根据权利要求13至19中任意一项记载的信息解析报告书生成程序,其特征在于,上述生成单元具有:
提取单元,其提取上述母集团文件、或者上述调查对象文件以及母集团文件的内容数据以及时间数据;
树状图生成单元,其基于上述各文件的内容数据,生成表示上述多个文件的相关性的树状图;
聚类单元,其按照预定规则切断上述树状图,并提取集群;以及
集群内排列单元,其根据上述各文件的时间数据,决定属于上述各集群的文件群在该集群内的排列。
21.根据权利要求20记载的信息解析报告书生成程序,其特征在于,
上述聚类单元切断上述树状图并提取父集群,基于属于上述父集群的各文件的内容数据生成表示属于上述父集群的文件群的相关性的部分树状图,按照预定规则切断该生成的部分树状图并提取子孙集群。
22.根据权利要求21记载的信息解析报告书生成程序,其特征在于,
上述聚类单元为了生成上述部分树状图,从各文件中除去在属于上述父集群的多个文件间的偏差值比按预定方法确定的值小的向量分量。
23.根据权利要求20记载的信息解析报告书生成程序,其特征在于,
上述生成单元具有:评价值计算单元,其分别计算上述各索引词在上述各集群中的评价值;
集中度计算单元,其针对各索引词,计算在上述各集群中的评价值在所有集群中的和,并针对各集群计算出在各集群中的评价值相对该和的比,分别计算出该比的平方,并且计算该比的平方在上述所有集群中的和,从而计算出各索引词在上述集群中的分布集中度;
份额计算单元,其针对从上述各集群中提取的所有索引词,计算各索引词在上述分析对象集群中的评价值的和,并针对各索引词计算出各索引词的评价值相对该和的比,从而计算出上述分析对象集群中各索引词的份额;
第一倒数计算单元,其计算出各索引词在上述集群中的出现频率的倒数的函数值;
第二倒数计算单元,其计算出各索引词在包括上述集群在内的所有文件中的出现频率的倒数的函数值;
独创度计算单元,其根据从上述第一倒数计算单元的计算结果中减去上述第二倒数计算单元的计算结果所得的函数值计算独创度;以及
关键词提取单元,其根据上述集中度计算单元计算出的集中度、上述份额计算单元关于上述分析对象的文件群而计算出的份额、和上述独创度计算单元计算出的独创度的组合,提取关键词。
24.一种信息解析报告书自动生成方法,在调查对象文件的信息解析中,生成表示调查对象文件相对比较对象文件的特征的报告书,其特征在于包括:
输入步骤,其至少接收上述调查对象文件的输入;
选出步骤,其基于上述输入的调查对象文件,从存储在数据库中的比较对象文件群的信息中,选出与该调查对象文件类似的母集团文件的集合、即母集团文件群;
提取步骤,其提取上述调查对象文件相对上述母集团文件的具有特征的索引词;
生成步骤,其基于上述母集团文件以及上述索引词,生成表示上述调查对象文件的特征的信息解析报告书,以及
输出步骤,其将上述信息解析报告书输出给显示单元、记录单元、或者通信单元。
25.根据权利要求24记载的信息解析报告书自动生成方法,其特征在于,
进一步具有计算相对上述比较对象文件的相似率的计算步骤,
在上述选出步骤中根据上述计算步骤的结果选出母集团文件。
26.根据权利要求25记载的信息解析报告书自动生成方法,其特征在于,
在上述计算步骤中,基于各文件的每个索引词的出现频率和文件频率的函数值计算相似率。
27.根据权利要求25记载的信息解析报告书自动生成方法,其特征在于,进一步至少具有下列步骤中的一个,
地图生成步骤,其分布上述母集团或上述索引词并形成地图状;
输出数据取入步骤,其取入上述母集团或上述索引词的数据的一部分;
固定评注取入步骤,其取入与上述地图或数据的内容相对应的固定评注;以及
记入自由的评注的评注记入步骤,
在上述生成步骤中合成上述地图、上述数据和/或上述评注,生成表示上述调查对象文件的特征的信息解析报告书。
28.根据权利要求24至27中任意一项记载的信息解析报告书自动生成方法,其特征在于,
在上述生成步骤中,进行上述索引词或母集团文件中的每个预定项目的累计、即关键词累计;表示关键词或母集团文件中的预定项目的时序的推移的时序累计;以及/或者母集团文件中的多个预定项目的矩阵累计,生成包含累计结果的信息解析报告书。
29.根据权利要求28记载的信息解析报告书自动生成方法,其特征在于,
在上述生成单元中,具有下述步骤:生成由上述时序累计中关键词或母集团文件中的预定项目的累计结果、以及该累计结果的时序的延伸率的矩阵所表示的组合,并生成包含该组合的信息解析报告书。
30.根据权利要求24至29中任意一项记载的信息解析报告书生成方法,其特征在于,
在上述生成步骤中包括:
第一出现值频率计算步骤,其计算上述提取的索引词在上述比较对象文件群中的出现频率的函数值;
第二出现值频率计算步骤,其计算上述提取的索引词在上述母集团文件群中的出现频率的函数值;以及
频率散布图生成步骤,其根据上述计算出的各索引词在比较对象文件群中的出现频率的函数值和在上述母集团文件群中的出现频率的函数值的组合,生成包含各索引词及其定位数据的频率散布图。
31.根据权利要求24至30中任意一项记载的信息解析报告书生成方法,其特征在于,
在上述生成步骤中包括:
提取步骤,其提取上述母集团文件、或者上述调查对象文件以及母集团文件的内容数据以及时间数据;
树状图生成步骤,其基于上述各文件的内容数据,生成表示上述多个文件的相关性的树状图;
聚类步骤,其按照预定规则切断上述树状图,并提取集群;以及
集群内排列步骤,其根据上述各文件的时间数据,决定属于上述各集群的文件群在该集群内的排列。
32.根据权利要求31记载的信息解析报告书生成方法,其特征在于,
在上述聚类步骤中,切断上述树状图并提取父集群,基于属于上述父集群的各文件的内容数据生成表示属于上述父集群的文件群的相关性的部分树状图,按照预定规则切断该生成的部分树状图并提取子集群。
33.根据权利要求32记载的信息解析报告书生成方法,其特征在于,
在上述聚类步骤中,为了生成上述部分树状图,从各文件向量中除去在属于上述父集群的多个文件间的偏差值比按预定方法确定的值小的向量分量。
34.根据权利要求32记载的信息解析报告书生成方法,其特征在于,
在上述生成步骤中包括:
评价值计算步骤,其分别计算上述各索引词在上述各集群中的评价值;
集中度计算步骤,其针对各索引词,计算在上述各集群中的评价值在所有集群中的和,并针对各集群计算出在各集群中的评价值相对该和的比,分别计算出该比的平方,并且计算该比的平方在上述所有集群中的和,从而计算出各索引词在上述集群中的分布集中度;
份额计算步骤,其针对从上述各集群中提取的所有索引词,计算各索引词在上述分析对象集群中的评价值的和,并针对各索引词计算出各索引词的评价值相对该和的比,从而计算出上述分析对象集群中各索引词的份额;
第一倒数计算步骤,其计算出各索引词在上述集群中的出现频率的倒数的函数值;
第二倒数计算步骤,其计算出各索引词在包括上述集群在内的所有文件中的出现频率的倒数的函数值;
独创度计算步骤,其根据从上述第一倒数计算步骤的计算结果中减去上述第二倒数计算步骤的计算结果所得的函数值计算独创度;以及
关键词提取步骤,其根据在上述集中度计算步骤中计算出的集中度、上述份额计算步骤关于上述分析对象的文件群计算出的份额、和在上述独创度计算步骤中计算出的独创度的组合,提取关键词。
35.一种文件信息解析系统,包含至少一个网络服务器和至少一个客户端计算机,其特征在于,上述网络服务器具有:
输入画面发送单元,其响应来自上述客户端计算机的请求,发送包含调查对象文件信息输入栏以及要求内容选择栏的输入画面;
接收单元,其接收由上述客户端计算机向上述输入画面输入的信息;
案件识别单元,其根据由上述接收单元接收的调查对象文件信息以及内容选择信息识别案件;
文献数据取得单元,其取得包含书目信息和内容信息的文献数据;
索引词提取单元,其对上述文献数据中包含的每个文件提取索引词;
多线程处理单元,其逐次或并列地生成下述各线程的至少一个,同时分别处理各线程,所述各线程包括:对从上述案件识别的文件中提取的各个索引词在文件内使用频率进行累计的文件索引词累计处理线程;根据上述案件识别的文件的索引词累计处理结果和对上述文献数据中包含的每个上述文件所提取的索引词,计算上述案件识别的文件和上述文献数据中包含的上述文件的相似率,从上述计算出的相似率的值的前几位预定数量的文件群生成类似文件母集团的类似文件母集团生成线程;取得对上述类似文件母集团中的上述相似率的次序、上述文献信息中包含的每个文件属性的文件数、文件数推移或次序、或者索引词文件频率散布图中的至少一个进行了累计的结果的文件属性累计处理线程;基于上述类似文件母集团中包含的文件的上述相似率生成树状图,进行聚类并生成结构图的结构图生成处理线程;以及,基于上述生成的结构图数据,生成上述案件识别的文件的集群信息的集群信息生成处理线程;
文件信息解析报告书生成单元,其基于上述多线程处理单元处理的各线程的处理结果,以预定格式生成文件信息解析报告书;
结束通知单元,其向上述客户端计算机通知上述文件信息解析报告书的生成结束;以及
文件信息解析报告书发送单元,其响应上述客户端计算机在接收到上述结束通知后发出的发送上述文件信息解析报告书的要求,发送该文件信息解析报告书,
上述客户端计算机在从上述网络服务器接收到上述结束通知的基础上,可接收要求了发送的上述文件信息解析报告书。
36.一种文件信息解析方法,在包含至少一个网络服务器和至少一个客户端计算机的文件信息解析系统中解析文件信息,其特征在于包括:
输入画面发送步骤,该步骤在上述网络服务器中响应来自上述客户端计算机的请求,发送包含调查对象文件信息输入栏以及要求内容选择栏的输入画面;
接收步骤,其接收由上述客户端计算机向上述输入画面输入的信息;
案件识别步骤,其根据在上述接收步骤中接收的调查对象文件信息以及内容选择信息识别案件;
文献数据取得步骤,其取得包含书目信息和内容信息的文献数据;
索引词提取步骤,其对上述文献数据中包含的每个文件提取索引词;
多线程处理步骤,其逐次或并列地生成下述各线程的至少一个,同时分别处理各线程,所述各线程包括:对从上述案件识别的文件中提取的各个索引词在文件内使用频率进行累计的文件索引词累计处理线程;根据上述案件识别的文件的索引词累计处理结果和对上述文献数据中包含的每个上述文件所提取的索引词,计算上述案件识别的文件和上述文献数据中包含的上述文件的相似率,从上述计算出的相似率的值的前几位预定数量的文件群生成类似文件母集团的类似文件母集团生成线程;取得对上述类似文件母集团中的上述相似率的次序、上述文献信息中包含的每个文件属性的文件数、文件数推移或次序、或者索引词文件频率散布图中的至少一个进行了累计的结果的文件属性累计处理线程;基于上述类似文件母集团中包含的文件的上述相似率生成树状图,进行聚类并生成结构图的结构图生成处理线程;以及,基于上述生成的结构图数据,生成上述案件识别的文件的集群信息的集群信息生成处理线程;
文件信息解析报告书生成步骤,其基于由上述多线程处理步骤处理的各线程的处理结果,以预定格式生成文件信息解析报告书;
结束通知步骤,其向上述客户端计算机通知上述文件信息解析报告书的生成结束;以及
文件信息解析报告书发送步骤,其响应上述客户端计算机在接收到上述结束通知后发出的发送上述文件信息解析报告书的要求,发送该文件信息解析报告书,
上述客户端计算机在从上述网络服务器接收到上述结束通知的基础上,可接收要求了发送的上述文件信息解析报告书。
37.一种文件信息解析程序,是在包含至少一个网络服务器和至少一个客户端计算机的文件信息解析系统中用于解析文件信息的计算机程序,其特征在于使上述网络服务器具有下列功能:
输入画面发送功能,其根据来自上述客户端计算机的请求,发送包含调查对象文件信息输入栏以及要求内容选择栏的输入画面;
接收功能,其接收由上述客户端计算机向上述输入画面输入的信息;
案件识别功能,其从由上述接收单元接收的调查对象文件信息以及内容选择信息识别案件;
文献数据取得功能,其取得包含书目信息和内容信息的文献数据;
索引词提取功能,其对上述文献数据中包含的每个文件提取索引词;
多线程处理功能,其逐次或并列地生成下述各线程的至少一个,同时分别处理各线程,所述各线程包括:对从上述案件识别的文件中提取的各个索引词在文件内使用频率进行累计的文件索引词累计处理线程;根据上述案件识别的文件的索引词累计处理结果和对上述文献数据中包含的每个上述文件所提取的索引词,计算上述案件识别的文件和上述文献数据中包含的上述文件的相似率,从上述计算出的相似率的值的前几位预定数量的文件群生成类似文件母集团的类似文件母集团生成线程;取得对上述类似文件母集团中的上述相似率的次序、上述文献信息中包含的每个文件属性的文件数、文件数推移或次序、或者索引词文件频率散布图中的至少一个进行了累计的结果的文件属性累计处理线程;基于上述类似文件母集团中包含的文件的上述相似率生成树状图,进行聚类并生成结构图的结构图生成处理线程;以及,基于上述生成的结构图数据,生成上述案件识别的文件的集群信息的集群信息生成处理线程;
文件信息解析报告书生成功能,其基于由上述多线程处理功能所处理的各线程的处理结果,以预定格式生成文件信息解析报告书;
结束通知功能,其向上述客户端计算机通知上述文件信息解析报告书的生成结束;以及
文件信息解析报告书发送功能,其响应上述客户端计算机在接收到上述结束通知后发出的发送上述文件信息解析报告书的要求,发送该文件信息解析报告书,
上述客户端计算机在从上述网络服务器接收到上述结束通知的基础上,可接收要求了发送的上述文件信息解析报告书。
38.一种文件信息解析服务器,是响应来自至少一个客户端计算机的要求而进行文件信息解析的至少一个网络服务器,其特征在于,包括:
输入画面发送单元,其响应来自上述客户端计算机的请求,发送包含调查对象文件信息输入栏以及要求内容选择栏的输入画面;
接收单元,其接收由上述客户端计算机向上述输入画面输入的信息;
案件识别单元,其从由上述接收单元接收的调查对象文件信息以及内容选择信息识别案件;
文献数据取得单元,其取得包含书目信息和内容信息的文献数据;
索引词提取单元,其对上述文献数据中包含的每个文件提取索引词;
多线程处理单元,其逐次或并列地生成下述各线程的至少一个,同时分别处理各线程,所述各线程包括:对从上述案件识别的文件中提取的各个索引词在文件内使用频率进行累计的文件索引词累计处理线程;根据上述案件识别的文件的索引词累计处理结果和对上述文献数据中包含的每个上述文件所提取的索引词,计算上述案件识别的文件和上述文献数据中包含的上述文件的相似率,从上述计算出的相似率的值的前几位预定数量的文件群生成类似文件母集团的类似文件母集团生成线程;取得对上述类似文件母集团中的上述相似率的次序、上述文献信息中包含的每个文件属性的文件数、文件数推移或次序、或者索引词文件频率散布图中的至少一个进行了累计的结果的文件属性累计处理线程;基于上述类似文件母集团中包含的文件的上述相似率生成树状图,进行聚类并生成结构图的结构图生成处理线程;以及,基于上述生成的结构图数据,生成上述案件识别的文件的集群信息的集群信息生成处理线程;
文件信息解析报告书生成单元,其基于由上述多线程处理单元处理的各线程的处理结果,以预定格式生成文件信息解析报告书;
结束通知单元,其向上述客户端计算机通知上述文件信息解析报告书的生成结束;以及
文件信息解析报告书发送单元,其响应上述客户端计算机在接收到上述结束通知后发出的发送上述文件信息解析报告书的要求,发送该文件信息解析报告书。
CNA2006800229160A 2005-04-25 2006-04-25 信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法 Pending CN101208694A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP127118/2005 2005-04-25
JP2005127118 2005-04-25

Publications (1)

Publication Number Publication Date
CN101208694A true CN101208694A (zh) 2008-06-25

Family

ID=37214874

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800229160A Pending CN101208694A (zh) 2005-04-25 2006-04-25 信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法

Country Status (6)

Country Link
US (1) US20090070101A1 (zh)
EP (1) EP1881423A4 (zh)
JP (1) JPWO2006115260A1 (zh)
KR (1) KR20080005208A (zh)
CN (1) CN101208694A (zh)
WO (1) WO2006115260A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446070A (zh) * 2016-09-07 2017-02-22 知识产权出版社有限责任公司 一种基于专利群的信息处理装置及方法
CN107368494A (zh) * 2016-05-12 2017-11-21 索意互动(北京)信息技术有限公司 一种文献分析方法与系统
CN107895334A (zh) * 2016-10-04 2018-04-10 韩国科学技术情报研究院 专利纠纷预测装置及其方法
CN108614928A (zh) * 2018-04-16 2018-10-02 北京航空航天大学 数字飞行器仿真报告中图的人工智能生成方法和装置
CN111192117A (zh) * 2020-01-02 2020-05-22 上海三菱电梯有限公司 电梯订单生成方法及其系统
CN112131809A (zh) * 2020-09-18 2020-12-25 上海兆芯集成电路有限公司 时序报告分析方法和装置
CN112561744A (zh) * 2019-09-25 2021-03-26 北京国双科技有限公司 一种类似案件的检索报告的生成方法及装置
TWI742549B (zh) * 2020-03-02 2021-10-11 如如研創股份有限公司 多維度模板之報告書產出方法與系統
CN113742292A (zh) * 2021-09-07 2021-12-03 六棱镜(杭州)科技有限公司 基于ai技术的多线程数据检索及所检索数据的访问方法
TWI774105B (zh) * 2020-10-29 2022-08-11 全友電腦股份有限公司 公文書解析方法

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271266B2 (en) * 2006-08-31 2012-09-18 Waggner Edstrom Worldwide, Inc. Media content assessment and control systems
US8340957B2 (en) * 2006-08-31 2012-12-25 Waggener Edstrom Worldwide, Inc. Media content assessment and control systems
US8719283B2 (en) * 2006-09-29 2014-05-06 Apple Inc. Summarizing reviews
JPWO2008075744A1 (ja) * 2006-12-20 2010-04-15 株式会社パテント・リザルト 情報処理装置、提携先を選定するための情報を生成する方法、およびプログラム
JP4994892B2 (ja) * 2007-03-06 2012-08-08 株式会社リコー 情報処理装置、情報処理方法及び情報処理プログラム
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
US20090132496A1 (en) * 2007-11-16 2009-05-21 Chen-Kun Chen System And Method For Technique Document Analysis, And Patent Analysis System
JP5157551B2 (ja) * 2008-03-17 2013-03-06 株式会社リコー オブジェクト連携システム、オブジェクト連携方法およびプログラム
JP2009169927A (ja) * 2008-03-31 2009-07-30 Ricoh Co Ltd 情報検索装置、情報検索方法、制御プログラム
JP2009271659A (ja) 2008-05-02 2009-11-19 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
US8635694B2 (en) * 2009-01-10 2014-01-21 Kaspersky Lab Zao Systems and methods for malware classification
US8290961B2 (en) * 2009-01-13 2012-10-16 Sandia Corporation Technique for information retrieval using enhanced latent semantic analysis generating rank approximation matrix by factorizing the weighted morpheme-by-document matrix
US8566350B2 (en) * 2009-11-02 2013-10-22 Palo Alto Research Center Incorporated Method and apparatus for facilitating document sanitization
KR101108600B1 (ko) * 2009-11-10 2012-01-31 동국대학교 산학협력단 온톨로지를 이용한 문서간 유사도 측정 방법 및 장치
US20110184984A1 (en) * 2010-01-28 2011-07-28 Huron Consoluting Group Search term visualization tool
US9110971B2 (en) * 2010-02-03 2015-08-18 Thomson Reuters Global Resources Method and system for ranking intellectual property documents using claim analysis
JP5023176B2 (ja) * 2010-03-19 2012-09-12 株式会社東芝 特徴語抽出装置及びプログラム
US20110295861A1 (en) * 2010-05-26 2011-12-01 Cpa Global Patent Research Limited Searching using taxonomy
US8701025B2 (en) * 2010-06-11 2014-04-15 International Business Machines Corporation Interactive ring-shaped interface
US8949721B2 (en) 2011-01-25 2015-02-03 International Business Machines Corporation Personalization of web content
US20120278244A1 (en) * 2011-04-15 2012-11-01 IP Street Evaluating Intellectual Property
US10891701B2 (en) 2011-04-15 2021-01-12 Rowan TELS Corp. Method and system for evaluating intellectual property
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
US20130110839A1 (en) * 2011-10-31 2013-05-02 Evan R. Kirshenbaum Constructing an analysis of a document
US9208134B2 (en) * 2012-01-10 2015-12-08 King Abdulaziz City For Science And Technology Methods and systems for tokenizing multilingual textual documents
CN102708244B (zh) * 2012-05-08 2016-01-20 清华大学 一种基于重要度度量的概念图自动布图方法
US11468243B2 (en) 2012-09-24 2022-10-11 Amazon Technologies, Inc. Identity-based display of text
JP5526209B2 (ja) 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5967577B2 (ja) * 2012-10-18 2016-08-10 パナソニックIpマネジメント株式会社 共クラスタリング装置、共クラスタリング方法、プログラム及び集積回路
US20140180934A1 (en) * 2012-12-21 2014-06-26 Lex Machina, Inc. Systems and Methods for Using Non-Textual Information In Analyzing Patent Matters
KR101456600B1 (ko) * 2013-05-07 2014-11-03 한국원자력 통제기술원 전략물자 관련 키워드 추출 시스템 및 그 방법
KR101374197B1 (ko) * 2013-10-02 2014-03-12 한국과학기술정보연구원 다종 리소스들의 의미기반 시차 조정 방법, 다종 리소스들의 의미기반 시차 조정 장치 및 다종 리소스들의 의미기반 시차를 조정하는 프로그램을 저장하는 저장 매체
KR101508849B1 (ko) * 2013-10-24 2015-04-08 한양대학교 산학협력단 내용 정보 및 참조 정보를 활용하는 문서들 간의 유사도 측정 방법 및 장치
WO2015118616A1 (ja) * 2014-02-04 2015-08-13 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
WO2015118620A1 (ja) 2014-02-04 2015-08-13 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
US9785724B2 (en) * 2014-10-30 2017-10-10 Microsoft Technology Licensing, Llc Secondary queue for index process
US9971760B2 (en) 2014-12-22 2018-05-15 International Business Machines Corporation Parallelizing semantically split documents for processing
CN105045785B (zh) * 2015-01-07 2018-02-16 泰华智慧产业集团股份有限公司 一种数字城市监督中心受理子系统及其工作方法
US10102280B2 (en) * 2015-08-31 2018-10-16 International Business Machines Corporation Determination of expertness level for a target keyword
WO2017095403A1 (en) 2015-12-02 2017-06-08 Open Text Corporation Creation of component templates
US20190236348A1 (en) * 2018-01-30 2019-08-01 Ncr Corporation Rapid landmark-based media recognition
CN108389011A (zh) * 2018-05-07 2018-08-10 广州市交通规划研究院 一种基于大数据和传统扩样方法相结合的车辆拥有分布校核修正方法
US10936801B2 (en) * 2019-03-25 2021-03-02 International Business Machines Corporation Automated electronic form generation with context cues
US11176179B2 (en) 2019-09-24 2021-11-16 International Business Machines Corporation Assigning a new problem record based on a similarity to previous problem records
US11222183B2 (en) * 2020-02-14 2022-01-11 Open Text Holdings, Inc. Creation of component templates based on semantically similar content

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US20060122849A1 (en) * 2002-12-27 2006-06-08 Hiroaki Masuyama Technique evaluating device, technique evaluating program, and technique evaluating method
JP2005128978A (ja) * 2003-10-22 2005-05-19 Ipb:Kk 情報解析報告書自動作成装置、情報解析報告書自動作成プログラム、及び情報解析報告書自動作成方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368494A (zh) * 2016-05-12 2017-11-21 索意互动(北京)信息技术有限公司 一种文献分析方法与系统
CN106446070B (zh) * 2016-09-07 2019-11-22 知识产权出版社有限责任公司 一种基于专利群的信息处理装置及方法
CN106446070A (zh) * 2016-09-07 2017-02-22 知识产权出版社有限责任公司 一种基于专利群的信息处理装置及方法
CN107895334A (zh) * 2016-10-04 2018-04-10 韩国科学技术情报研究院 专利纠纷预测装置及其方法
CN108614928A (zh) * 2018-04-16 2018-10-02 北京航空航天大学 数字飞行器仿真报告中图的人工智能生成方法和装置
CN112561744A (zh) * 2019-09-25 2021-03-26 北京国双科技有限公司 一种类似案件的检索报告的生成方法及装置
CN111192117B (zh) * 2020-01-02 2024-03-12 上海三菱电梯有限公司 电梯订单生成方法及其系统
CN111192117A (zh) * 2020-01-02 2020-05-22 上海三菱电梯有限公司 电梯订单生成方法及其系统
TWI742549B (zh) * 2020-03-02 2021-10-11 如如研創股份有限公司 多維度模板之報告書產出方法與系統
CN112131809A (zh) * 2020-09-18 2020-12-25 上海兆芯集成电路有限公司 时序报告分析方法和装置
TWI774105B (zh) * 2020-10-29 2022-08-11 全友電腦股份有限公司 公文書解析方法
CN113742292B (zh) * 2021-09-07 2023-11-10 六棱镜(杭州)科技有限公司 基于ai技术的多线程数据检索及所检索数据的访问方法
CN113742292A (zh) * 2021-09-07 2021-12-03 六棱镜(杭州)科技有限公司 基于ai技术的多线程数据检索及所检索数据的访问方法

Also Published As

Publication number Publication date
JPWO2006115260A1 (ja) 2008-12-18
WO2006115260A1 (ja) 2006-11-02
KR20080005208A (ko) 2008-01-10
US20090070101A1 (en) 2009-03-12
EP1881423A1 (en) 2008-01-23
EP1881423A4 (en) 2009-05-06

Similar Documents

Publication Publication Date Title
CN101208694A (zh) 信息解析报告书自动生成装置、信息解析报告书自动生成程序以及信息解析报告书自动生成方法
Cerda et al. Similarity encoding for learning with dirty categorical variables
Cui et al. Context preserving dynamic word cloud visualization
Mencía et al. Efficient voting prediction for pairwise multilabel classification
US10878475B2 (en) Systems and methods for storing and retrieving goods and services information using parameter/value databases
JP3001460B2 (ja) 文書分類装置
US7444279B2 (en) Question answering system and question answering processing method
EP1304627B1 (en) Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects
US7711735B2 (en) User segment suggestion for online advertising
US10883345B2 (en) Processing of computer log messages for visualization and retrieval
CN102521233B (zh) 自适应图像检索数据库
US20080114750A1 (en) Retrieval and ranking of items utilizing similarity
US20060036640A1 (en) Information processing apparatus, information processing method, and program
EP2410446A1 (en) Personal music recommendation mapping
US20140297628A1 (en) Text Information Processing Apparatus, Text Information Processing Method, and Computer Usable Medium Having Text Information Processing Program Embodied Therein
US20120239657A1 (en) Category classification processing device and method
US11763180B2 (en) Unsupervised competition-based encoding
US20120046937A1 (en) Semantic classification of variable data campaign information
US8412671B2 (en) System and method for developing a star schema
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
US8250024B2 (en) Search relevance in business intelligence systems through networked ranking
CN114207598A (zh) 电子表单表转换
Jayarathna et al. Unified relevance feedback for multi-application user interest modeling
Mengle et al. Mastering machine learning on Aws: advanced machine learning in Python using SageMaker, Apache Spark, and TensorFlow

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080625