CN1783069A

CN1783069A - 用于文件数据分析的方法及系统

Info

Publication number: CN1783069A
Application number: CNA2005100735282A
Authority: CN
Inventors: 杜维武; 林炳宏; 李月青; 陈君仪
Original assignee: Taiwan Semiconductor Manufacturing Co TSMC Ltd
Current assignee: Taiwan Semiconductor Manufacturing Co TSMC Ltd
Priority date: 2004-11-29
Filing date: 2005-06-02
Publication date: 2006-06-07
Anticipated expiration: 2025-06-02
Also published as: CN100419755C; US20060117252A1; TW200617713A

Abstract

本发明涉及一种用于文件数据分析的方法及系统，所述用于文件数据分析的系统，包含词库、解析器、及处理器。该词库是储存多个技术词汇及用以定义该技术词汇之间关系的关系指数。该解析器是分别从第一文件及第二文件中撷取出第一及第二对象阶层，其中该第一及第二对象阶层分别包含多个第一及第二参考对象。该处理器是于该词库中搜寻与该第一及第二参考对象对应的技术词汇，并依据搜寻得到的该技术词汇所对应的该关系指数，决定该第一及第二参考对象之间的关联评比。

Description

用于文件数据分析的方法及系统

技术领域

本发明是有关于数据分析，特别是有关于用以分析文献之间内容关联程度的方法与系统。

背景技术

传统的文件分析，是借由使用者，以人力进行一技术文件(例如一专利文件)和其它技术文件的分析比较。该使用者阅读欲比较的文件，分析其内容，并借由绘制图表等方式来协助推导出被分析文件之间的关联程度。此种传统的文件分析方法，不但耗时且容易出错。而且，此种分析方法所得出的比较结果，多是依据使用者主观判断而来，所以不同的使用者常会得出迥异的结果。

另外尚有一些所谓的“文件分析”方法，其是依据被分析文件所包含的一些类别信息来进行分析。例如，专利文件是基于专利权人、发明人、及国别等信息而被分类。此所谓的“分析”的依据，是与被分析文件的内容无关，因此其所得到的“分析”结果，实际上也无法对于被分析文件内容之间的关系有所提示。

发明内容

本发明提供一种用于文件数据分析的系统。该系统包含词库、解析器、及处理器。该词库是储存多个技术词汇及用以定义该技术词汇之间关系的关系指数。该解析器是分别从第一文件及第二文件中撷取出第一及第二对象阶层，其中该第一及第二对象阶层分别包含多个第一及第二参考对象。该处理器是于该词库中搜寻与该第一及第二参考对象对应的技术词汇，并依据搜寻得到的该技术词汇所对应的该关系指数，决定该第一及第二参考对象之间的关联评比。

本发明所述的用于文件数据分析的系统，该第一文件为专利文件，其包含一组专利权项，且每一专利权项与该第一对象阶层的一节点对应。

本发明所述的用于文件数据分析的系统，该第二文件是为专利文件、期刊文献、技术文献其中之一。

本发明所述的用于文件数据分析的系统，该第一参考对象对应于一加权系数。

本发明所述的用于文件数据分析的系统，该处理器依据该对应的技术词汇的关系指数，决定该第二参考对象与该第一参考对象之间的关联分数。

本发明所述的用于文件数据分析的系统，该处理器将该关联分数与对应的加权系数相乘，以取得该第二参考对象的加权关联分数。

本发明所述的用于文件数据分析的系统，该处理器将该第二参考对象的该加权关联分数加总，以决定该第一及第二文件间的该关联评比。

本发明并提供一种用于文件数据分析的方法。该方法首先提供一词库，其储存多个技术词汇及用以定义该技术词汇之间关系的关系指数。并提供欲加以分析的第一文件及第二文件。继之，分别从第一文件及第二文件中撷取出第一及第二对象阶层，其中该第一及第二对象阶层分别包含多个第一及第二参考对象。再于该词库中搜寻与该第一及第二参考对象对应的技术词汇，并依据搜寻得到的该技术词汇所对应的该关系指数，决定该第一及第二参考对象之间的关联评比。

本发明所述的用于文件数据分析的方法，进一步将一加权系数指定予该第一参考对象。

本发明所述的用于文件数据分析的方法，进一步依据该对应的技术词汇的关系指数，决定该第二参考对象与该第一参考对象之间的关联分数。

本发明所述的用于文件数据分析的方法，进一步将该关联分数与对应的加权系数相乘，以取得该第二参考对象的加权关联分数。

本发明所述的用于文件数据分析的方法，进一步将该第二参考对象的该加权关联分数加总，以决定该第一及第二文件间的该关联评比。

上述方法是可以借由将储存于计算机可读取储存媒体的计算机程序加载计算机系统中而实现。

附图说明

图1显示依据本发明实施例系统的示意图；

图2显示本发明文件数据分析方法的流程图；

图3显示依据本发明实施例的技术词汇配置示意图；

图4显示依据本发明实施例的计算机系统的示意图。

具体实施方式

为了让本发明的目的、特征及优点能更明显易懂，下文特举较佳实施例，并配合所附图1至图4，做详细的说明。本发明说明书提供不同的实施例来说明本发明不同实施方式的技术特征。其中，实施例中的各元件的配置是为说明之用，并非用以限制本发明。且实施例中图式标号的部分重复，是为了简化说明，并非意指不同实施例之间的关联性。

图1显示依据本发明实施例的文件数据分析系统的示意图。本发明系统10是用以比较第一文件和第二文件，并决定两文件之间的关联程度。系统10包含词库11、解析器13、以及处理器15。

词库11储存多个技术词汇及用以定义该技术词汇之间关系的关系指数。其中，上述技术词汇是可以不同方式储存配置。例如，属于同一技术领域的技术词汇可以储存为一字汇群集，并依据各字汇与特定概念的关联程度，分别指定其维度(dimension)。当欲将第一文件和第二文件进行比对时，先将该二文件透过类似如网络12的数据传输途径传送至系统10。其中该第一文件可以为专利文件，其包含一组专利权项，且每一专利权项与该第一对象阶层的一节点对应。该第一文件可以由客户端14提供。而该第二文件是由数据库16中撷取而来，其可以为专利文件、期刊文献、技术文献其中之一。该第一文件和第二文件传送到系统10时，是借由接口(interface)17接收，并转送至解析器，以进行进一步的分析。

解析器13处理该第一文件，并从该第一文件中撷取出第一对象阶层，其中该第一对象阶层包含多个第一参考对象。该第一对象阶层主要是由该第一文件的特定部分分析得出(例如专利文件中权利要求的部分)，其可以包含多个分支，每一分支又包含多个节点。每一该第一参考对象是对应于一加权系数。

同样地，解析器13处理该第二文件，并从该第二文件中撷取出第二对象阶层，其中该第二对象阶层包含多个第二参考对象。该第二对象阶层可以包含多个分支，每一分支又包含多个节点。

解析器13所得出的上述第一及第二对象阶层数据，被传送到处理器15，以进行进一步分析。处理器15是于词库11中搜寻与该第一及第二参考对象对应的技术词汇，并依据搜寻得到的该技术词汇所对应的该关系指数，决定该第一及第二参考对象之间的关联评比。处理器15并依据该对应的技术词汇的关系指数，决定该第二参考对象与该第一参考对象之间的关联分数，再将该关联分数与对应的加权系数相乘，以取得该第二参考对象的加权关联分数。处理器15是借由将该第一及第二参考对象的该加权关联分数加总，以决定该第一及第二文件间的该关联评比。上述关联评比数据透过网络12传送到客户端14。

参见图2，其显示本发明文件数据分析方法的流程图。提供和某一特定技术领域相关的多个技术词汇，如步骤S20。例如，提供和半导体制造相关的技术词汇，并将该等技术词汇以网络型态互相关联储存之。该网络可以设置储存于一多维空间中，其中每一维度是用以界定一技术词汇的一种特性。例如，当该网络设置于一三维空间中时，该空间具有的三个维度分别用以界定某一技术词汇在制程、设备和装置三方面的特性。该等技术词汇是依据其所具有的技术意义来加以储存安排。

依据每一技术词汇的意义，在对应的维度上，针对属于同一技术领域的技术词汇，赋予每一技术词汇一指数，如步骤S21。其中，上述技术词汇是可以不同方式储存配置。例如，属于同一技术领域的技术词汇可以储存为一字汇群集，并依据各字汇与特定概念的关联程度，分别指定其维度(dimension)。每一技术词汇可以借由一向量(X，Y，Z)来加以识别，其中X、Y、Z分别表示该技术词汇于设备维度、装置维度和制程维度的指数量值，如图3所示。而两个不同技术词汇之间的关系指数，是可以借由计算该两技术词汇在该三维空间中的“距离”来决定。例如某一技术词汇在设备维度、装置维度和制程维度的指数量值分别为3、1、20，则该技术词汇对应的向量值为(3，1，20)。而另一技术词汇在设备维度、装置维度和制程维度的指数量值分别为3、10、10，则该技术词汇对应的向量值为(3，10，10)。且该两技术词汇之间的关系指数，是为该三维空间中(3，1，20)及(3，10，10)两点的距离，其是为

提供欲加以分析比较的第一文件及第二文件，如步骤S23。其中该第一文件可以为专利文件，其包含一组专利权项，且每一专利权项与该第一对象阶层的一节点对应。该第一文件可以由客户端提供，或直接从一专利数据库中撷取而来。而该第二文件是可以由一数据库中撷取而来，或是从网络上下载等，其可以为专利文件、期刊文献、技术文献其中之一。

继之，该第一文件传送给一解析器处理，并从该第一文件中撷取出第一对象阶层，其中该第一对象阶层包含多个第一参考对象，如步骤S241。该第一对象阶层主要是由该第一文件的特定部分分析得出(例如专利文件中权利要求的部分)，其可以包含多个分支，每一分支又包含多个节点。在步骤S243中，每一该第一参考对象是被赋予一加权系数。例如，该第一文件为一专利说明书，而其权利要求中每一独立权利要求和其从属权利要求构成一对象阶层的多个分支及节点。

该第二文件也以类似上述的方法处理，并从该第二文件中撷取出第二对象阶层，其中该第二对象阶层包含多个第二参考对象。该第二对象阶层可以包含多个分支，每一分支又包含多个节点，如步骤S245。

步骤S251和S255分别于词库中搜寻与该第一及第二参考对象对应的技术词汇。如上所述，每一技术词汇可以借由一向量(X，Y，Z)来加以识别，其中X、Y、Z分别表示该技术词汇于设备维度、装置维度和制程维度的指数量值，如图3所示。而每一参考对象可以借由其所对应的技术词汇的向量来加以识别。不同参考对象之间的关系可以借由该参考对象所对应的技术词汇间的关系来推定，而两个不同技术词汇之间的关系指数，又可以借由计算该两技术词汇在该三维空间中的“距离”来决定。因此，该第二参考对象与该第一参考对象之间的关联分数，是可以依据该两参考对象所对应的技术词汇间的关系来推定，亦即，可以借由该参考对象所对应的技术词汇在该三维空间中的“距离”来决定。在步骤S26中，依据上述说明决定该第一文件和该第二文件的第一参考对象和第二参考对象之间的关联分数。

如上所述，该第一文件的每一参考对象，都依据其对该分析比较程序的目的的重要性，而被赋予一加权系数。在步骤S27中，将该第一参考对象该关联分数与对应的加权系数相乘，以得到该第一参考对象的加权关联分数。在步骤S28中，将该第一及第二参考对象的该加权关联分数加总，以得到该第一文件和该第二文件之间的关联评比。由该第一文件中的不同权利要求中所取得的参考对象，是可以赋予不同的加权系数，而该权利要求所对应的加权系数，是借由上述关联分数与对应的加权系数相乘的步骤，而纳入该第一及第二文件关联程度的分析程序中。

上述处理方法是可以借由将储存于计算机可读取储存媒体的计算机程序加载计算机系统中而实现。

如图4所示，上述文件数据分析方法是能借由计算机程序，存于储存媒体中，且当计算机程序加载计算机系统执行时，可以实现本发明的文件数据分析的方法。该方法适用于分析类似如专利说明书等技术文件之间的关联程度。上述计算机程序包括：技术词汇接收模块41、分析文件接收模块43、文件解析模块45、技术词汇比对模块47、以及关联评比决定模块49。

技术词汇接收模块41接收多个技术词汇及用以定义该技术词汇之间关系的关系指数。分析文件接收模块43接收欲进行分析的第一文件及第二文件。文件解析模块45分别从第一文件及第二文件中撷取出第一及第二对象阶层，其中该第一及第二对象阶层分别包含多个第一及第二参考对象。技术词汇比对模块47于该词库中搜寻与该第一及第二参考对象对应的技术词汇。关联评比决定模块49依据搜寻得到的该技术词汇所对应的该关系指数，决定该第一及第二参考对象之间的关联评比。

以上所述仅为本发明较佳实施例，然其并非用以限定本发明的范围，任何熟悉本项技术的人员，在不脱离本发明的精神和范围内，可在此基础上做进一步的改进和变化，因此本发明的保护范围当以本申请的权利要求书所界定的范围为准。

附图中符号的简单说明如下：

系统：10

词库：11

解析器：13

处理器：15

接口：17

数据库：16

客户端：14

网络：12

Claims

1、一种用于文件数据分析的系统，所述用于文件数据分析的系统包括：

词库，其储存多个技术词汇及用以定义该技术词汇之间关系的关系指数；

解析器，其是分别从第一文件及第二文件中撷取出第一及第二对象阶层，其中该第一及第二对象阶层分别包含多个第一及第二参考对象；以及

处理器，其是于该词库中搜寻与该第一及第二参考对象对应的技术词汇，并依据搜寻得到的该技术词汇所对应的该关系指数，决定该第一及第二参考对象之间的关联评比。

2、根据权利要求1所述的用于文件数据分析的系统，其特征在于：该第一文件为专利文件，其包含一组专利权项，且每一专利权项与该第一对象阶层的一节点对应。

3、根据权利要求1所述的用于文件数据分析的系统，其特征在于：该第二文件是为专利文件、期刊文献、技术文献其中之一。

4、根据权利要求1所述的用于文件数据分析的系统，其特征在于：该第一参考对象对应于一加权系数。

5、根据权利要求1所述的用于文件数据分析的系统，其特征在于：该处理器依据该对应的技术词汇的关系指数，决定该第二参考对象与该第一参考对象之间的关联分数。

6、根据权利要求5所述的用于文件数据分析的系统，其特征在于：该处理器将该关联分数与对应的加权系数相乘，以取得该第二参考对象的加权关联分数。

7、根据权利要求6所述的用于文件数据分析的系统，其特征在于：该处理器将该第二参考对象的该加权关联分数加总，以决定该第一及第二文件间的该关联评比。

8、一种用于文件数据分析的方法，所述用于文件数据分析的方法包括：

提供一词库，其储存多个技术词汇及用以定义该技术词汇之间关系的关系指数；

提供第一文件及第二文件；

分别从第一文件及第二文件中撷取出第一及第二对象阶层，其中该第一及第二对象阶层分别包含多个第一及第二参考对象；以及

于该词库中搜寻与该第一及第二参考对象对应的技术词汇，并依据搜寻得到的该技术词汇所对应的该关系指数，决定该第一及第二参考对象之间的关联评比。

9、根据权利要求8所述的用于文件数据分析的方法，其特征在于：进一步将一加权系数指定予该第一参考对象。

10、根据权利要求8所述的用于文件数据分析的方法，其特征在于：进一步依据该对应的技术词汇的关系指数，决定该第二参考对象与该第一参考对象之间的关联分数。

11、根据权利要求10所述的用于文件数据分析的方法，其特征在于：进一步将该关联分数与对应的加权系数相乘，以取得该第二参考对象的加权关联分数。

12、根据权利要求10所述的用于文件数据分析的方法，其特征在于：进一步将该第二参考对象的该加权关联分数加总，以决定该第一及第二文件间的该关联评比。