CN100570609C - 用于评估趋势分析系统的方法和装置 - Google Patents
用于评估趋势分析系统的方法和装置 Download PDFInfo
- Publication number
- CN100570609C CN100570609C CNB2007101927289A CN200710192728A CN100570609C CN 100570609 C CN100570609 C CN 100570609C CN B2007101927289 A CNB2007101927289 A CN B2007101927289A CN 200710192728 A CN200710192728 A CN 200710192728A CN 100570609 C CN100570609 C CN 100570609C
- Authority
- CN
- China
- Prior art keywords
- false
- accuracy
- weight
- negative
- positive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 14
- 230000005055 memory storage Effects 0.000 claims abstract description 11
- 238000013480 data collection Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 241000239290 Araneae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种用于评估趋势分析系统的方法和装置,并且该装置包括:容许值输入单元,其用于接收假阳性的容许值和假阴性的容许值;以及准确度计算单元,其用于计算系统的准确度。该准确度计算单元包括:权重确定单元,其用于读取包含正确地指示了在存储装置中所存储的默认数据集里所包括的各数据片之间的存在或不存在关联的正确信息的相关数据,以及用于通过使用包含正确信息的相关数据从假阳性和假阴性的容许值确定被分别分配给该系统所做出的假阳性的数目和假阴性的数目的权重;以及计算单元,其用于通过使用假阳性的数目、被分配给它的权重、假阴性的数目、被分配给它的权重和数据片的总数目来计算系统的准确度。
Description
技术领域
本发明涉及一种趋势分析系统,并且特别地涉及一种自评估趋势分析系统。
背景技术
文本挖掘是趋势分析技术之一,用于主要基于使用自然语言处理的信息提取的结果,通过找出关于关键词的信息片的总数和在被包含于文档集合内的各关键词之间的依赖性信息来分析趋势和知识。为了将趋势分析系统实际引入到一新位置,必须提供像用户字典这样的语言资源并且必须根据该位置的情况来调整参数,使得趋势分析系统将能够执行优化分析。然而,这种调整是在反复试验的基础上以及/或者在经验的基础上执行的,并且没有任何技术可用于度量调整结果的有效性。此外,这种调整还需要大量的时间和人力。
在诸如从文档中提取或检索信息之类的技术的情况下,一般通过执行从事先被给予了属性的正确答案以及属性之间的关联的正确答案的文档中提取或检索信息,以及通过比较该执行结果与对提取结果或检索结果的测量,来评估系统或技术。另一方面,在目标是从文档集合中提取关联、知识和趋势的趋势分析系统的情况下,在实际在已安装的地点中使用该系统的同时,验证对所获得的结果的有效性的评估。换言之,还没有建立一种机制用于定量和定性地评估常规趋势分析系统。因此,当趋势分析系统中的某个部件被改善时,很难客观地评估该系统将被增强的程度。以下等式已被用来计算在常规系统评估中所使用的准确度。
准确度=(系统正确地提取的关联的数目+系统正确地提取的不关联的数目)/系统提取的总数目。除了上面的考虑了正确的确定的计算方法之外,还存在另一种考虑了错误的确定的准确度计算方法。错误的确定包括两种类型,即假阳性和假阴性。这两种类型在常规的准确度中被当成是相同的确定类型来处理,并且由此在准确度中不能反映在各用户地点之间的差异。日本专利申请未审公开号No.2005-237441是相关现有技术的一个例子。
发明内容
已做出本发明用于解决上述技术问题。本发明的目的是:
提供一种装置,用于客观地评估从数据集中提取关联、趋势和知识的趋势分析系统;
提供一种趋势分析系统,其提取数据集中各数据片的属性之间的关联,并通过对该系统执行定量的评估来对该系统执行自调整;
提供一种自评估趋势分析系统,其通过使用包含正确信息的相关数据执行对从数据集等等中提取关联信息片、趋势信息片和知识信息片的功能的定量的自评估,并执行针对功能的调整,该正确信息指示了关于属性之间的关联、以及属性的趋势和知识的信息;
提供一种方法,该方法用于通过使用从用户分别针对系统所做出的假阳性和假阴性设置的容许范围所计算的权重,将准确度计算成用于求得系统评估的定量结果的指示符;以及
提供一种方法,用于根据包含正确信息的相关数据求得用于计算指示符的不是作为任意值而是作为统计上合适的值的权重,以合理地评估系统。
根据本发明,提供了一种趋势分析系统,用于从数据集等等中提取属性之间的关联(例如,A和B有关联)。在可以获得包含正确信息的相关数据的情况下,所述趋势分析系统通过使用指示符来对该系统自身执行定量评估并且接着执行自调整,该正确信息包括关于属性之间的已知关联的信息。所述评估指示符指示由系统从数据集中提取的关联/趋势信息覆盖了多少包含正确信息的相关数据中的信息,该正确信息指示存在或不存在关联。通过使用一种确定该评估指示符的方法来执行对该系统的定量评估。
根据本发明,从由用户分别设置的针对假阳性和假阴性的数目的容许范围求得用于假阳性和假阴性的数目的惩罚分数(权重),并接着通过使用该惩罚分数来计算准确度。如果所述惩罚分数被给定为任意值,则该系统不能被合理地评估,并且由此可能执行不合适的调整和反馈。出于这种原因,在本发明中,求得用于包含着正确信息的相关数据的统计上适合的惩罚分数,以便合理地评估该系统。本发明的趋势分析系统可以不通过使用包含正确信息的相关数据而通过使用这些惩罚分数来找出合理的准确度。当通过调整参数或更新用于下一次挖掘的字典来改变系统时,系统执行客观的自评估,其示出根据关联信息或趋势信息的存在或不存在(二进制分配问题)由系统所提取的假阳性和假阴性的数目相比用户所希望的数目被改善多少。接着,系统基于评估结果执行自调整。
图8示出根据本发明的一种用于评估趋势分析系统的装置。根据本发明的该装置包括容许值输入单元810和准确度计算单元820。容许值输入单元810接收假阳性和假阴性的相应的容许值。假阳性是指数据片被判断为彼此相关,但是所述数据片实际上并不相关。另一方面,假阴性是指数据片被判断为不相关,但是所述数据片实际上是彼此相关的。准确度计算单元820计算系统的准确度,并且包括权重确定单元840和计算单元850。权重确定单元840读取包含正确信息的相关数据860,其正确地指示在存储装置830中所存储的默认数据集里所包括的数据片之间的存在或不存在关联,并且接着通过使用包含正确信息的相关数据860从假阳性和假阴性的容许值确定被分配给由该系统做出的假阳性和假阴性的数目的权重。计算单元850通过使用假阳性的数目、被分配给它的权重、假阴性的数目、被分配给它的权重和数据片的总数目来计算该系统的准确度。因此,由准确度计算单元820因此所计算的准确度可被直接用作系统的评估结果。作为替代,参数调整单元可以根据已计算的准确度来调整系统的参数从而系统的准确度可以被进一步增加。
根据本发明,通过提供阈值可以找到趋势分析系统的合理的准确度,而无需使用包含正确信息的相关数据,所述阈值是趋势分析系统所做出的错误(假阳性和假阴性)的容许值(容许范围),并容易被用户理解。因此,所找到的准确度可被用作客观的评估的结果。另外,本发明的趋势分析系统可以通过使用满足用户需要的评估指示符来执行自评估,并接着基于该评估结果来执行参数调整。
附图说明
为了更完整地理解本发明和其优点,现在结合附图参考以下描述。
图1是本发明的实施例的处理的流程图。
图2是用于解释包括可被取作权重的值的区域的例子的示图,该权重满足同一性和鉴别的可能性。
图3解释对趋势分析系统的评估结果。
图4是调整基于自评估的文本挖掘系统的处理流程。
图5示出硬件配置的例子。
图6示出指示遗传因子之间的关联的路径。
图7示出对趋势分析系统的评估例子。
图8是本发明的评估系统的框图。
具体实施方式
图1示出根据本发明的实施例的处理的流程图。在步骤110中,假阳性和假阴性的容许范围被输入。在步骤120中,用于计算准确度的权重被计算。如何计算该准确度和权重将稍后描述。在步骤130中,做出关于是否已经成功地计算这些权重的判决。如果计算这些权重失败了,则在步骤135中发出通知“容许范围不合适”,并且接着该处理再次移动回到用于输入容许值范围的处理。如果计算这些权重成功了,则在步骤140中针对该趋势分析系统生成用于通过使用这些权重来计算准确度的功能。在步骤150中,通过使用所述准确度计算功能来计算系统的准确度。在下文中,当描述词语“系统”时,这暗指该趋势分析系统。利用通过使用包含正确信息的相关数据和权重所找到的准确度来评估该系统。当只想得到评估结果时,该处理在步骤150中被终止。当想要进行系统调整时,该处理移动到步骤160。在步骤160中,做出关于是否满足终止该系统调整的条件的判决。如果不满足终止条件,则处理移动到步骤170,并且执行系统调整。如果满足终止条件,则在步骤160中终止处理。
图6示出包含正确信息的相关数据的例子。例如,在基因数据的情况下,用路径的形式提供在特定基因组里的各基因间的关联。本发明使用指示了图6中所图示的趋势信息存在或不存在的知识数据作为包含正确信息的相关数据。图6说明一路径,其示出在与Alzheimer疾病相关的基因组里各基因之间的关联的一部分。图6示出与边沿相连的每对基因具有关联。图7示出一例子,其中通过使用上面的包含正确信息的相关数据来评估趋势分析系统。针对图7的左端列里的趋势信息候选者中的每一项,通过比较由趋势分析系统所输出的确定和包含正确信息的相关数据来评估该系统。存在该系统针对其做出与包含正确信息的相关数据一致的正确确定的项和错误确定的项。该错误确定包括假阳性和假阴性,其中假阳性是确定了不相关信息片具有关联的错误,而假阴性是确定了相关信息片不具有关联的错误。
在下文中,将根据本发明的实施例来描述如何计算准确度和权重。这里,权重是针对由系统做出的各个假阳性和假阴性的项中的错误的数目所计算的惩罚分数。通过使用包含正确信息的相关数据从作为输入提供的假阳性和假阴性的容许值来确定这些权重,其中该正确信息正确地指示在当前数据集里各数据片之间的存在或不存在关联。稍后将描述该确定方法。通过使用这些权重来计算系统的准确度。当P表示假阳性的数目、WP表示被分配给它的权重、N表示假阴性的数目、WN表示被分配给它的权重、而S表示数据片的总数目时,准确度(R)是用以下等式来计算的,
R=1-(P×WP+N×WN)/S。
被分配给假阳性和假阴性的数目的权重被确定是统计上适用于包含正确信息的相关数据的值,从而可以合理地评估系统。这里,该统计上合适的值意指满足以下两个条件的值:
-同一性
用于在系统的准确度之间不存在任何差异的情况下,以不小于预定概率的概率确定系统中不存在任何差异的条件,以及
-鉴别的可能性。
用于在系统的准确度之间存在差异的情况下,以不小于预定概率的概率确定系统中存在差异的条件。
注意,鉴别的可能性包括来自针对假阳性错误的容许值集(假阳性的容许值)的鉴别的可能性和来自针对假阴性错误的容许值集(假阴性的容许值)的鉴别的可能性。例如,作为预定概率,所使用的是95%等等,其在统计试验中被广泛使用。图2将同一性和鉴别的可能性说明为区域。在图2中,X轴指示权重WP,Y轴指示权重WN,线段210的内部指示同一性,而线段220和线段230的外部指示鉴别的可能性。从同一性所求得的线段210是园,而被写为这个园的半径的一个例子。注意,线段220和线段230通常是双曲线。满足这些条件的区域D指示权重的值。通过使用这个区域D所指示的某些权重,这些权重被确定为统计上合适的值。反之,通过取这个区域D中的值作为权重,可以找到合理的准确度而无需使用包含正确信息的相关数据,并且由此可以客观的评估趋势分析系统。
通过使用图3,将描述通过使用本发明的实施例的准确度对趋势分析系统所进行的评估。标号310示出文档之间的关联的确定结果,所述确定结果是由某个趋势分析系统通过使用包含正确信息的相关数据输出的。在所有55个文档中,其中12个文档实际上彼此相关,系统正确地判断5个文档是相关的,并且不正确地判断剩下的7个文档不相关(假阴性)。另一方面,其中43个文档实际上不相关,系统正确地判断36个文档不相关,而不正确地判断7个文档是相关的(假阳性)。假设,通过修改系统的挖掘参数或通过更新用于挖掘的字典来改变了系统。标号320示出由新的被改变了的系统所输出的在各文档之间的关联的确定结果。如可以在这些结果中看到的那样,在所有55个文档中,其中12个文档实际上彼此相关,系统正确地判断7个文档是相关的,并不正确地判断剩下的5个文档是不相关的(假阴性)。另一方面,在所有43个实际不相关的文档中,系统正确地判断34个文档是不相关的,并不正确地判断剩下的9个文档是相关的(假阳性)。这里,考虑结果320的新系统相比结果310的系统是否被改善了。当使用如下表达的常规准确度(R)时:,
R=(被正确地提取的关联的数目+被正确地提取的不关联的数目)/由系统提取的总数目,两个系统的准确度彼此相等,也即R=41/55=0.745。换言之,不能证实系统被改善了。
相反,根据本发明的实施例,从例如由用户所指定的用于假阳性的容许值4和用于假阴性的容许值2来计算用于假阳性的权重1.2和用于假阴性的权重0.742。接着,通过使用用于假阳性的数目P的权重1.2和用于假阴性的数目N的权重0.742,如下计算准确度
R=1-(P×1.20+N×0.742)/55
作为结果,结果310的系统的准确度是0.752,而结果320的新系统的准确度是0.769。因此,在用户所假设的条件下,系统可以被评估为已经被改善。虽然在本发明的这个实施例中输入了假阳性和假阴性的容许值,但是也可以输入假阳性和假阴性的容许值之间的比(上面的例子中的2)。除此之外,在不偏离本发明的实质特点的条件下,在给出这种输入的方式方面有许多可能的变型。
对趋势分析系统的自动调整可以通过以下方式来实现:通过根据上述的对系统改善的评估来修改趋势分析系统的参数而增加准确度。例如,可能的方法之一是改变置信系数,其是在文本挖掘系统中常被使用的参数。图4示出调整结合了本发明的实施例的评估装置的自评估文本挖掘系统的处理流程。在步骤410中,输入诸如不小于90%的准确度之类的终止条件。接着,在步骤420中,通过使用包含正确信息的相关数据来执行文本挖掘。在步骤430中,评估挖掘的结果,并由此计算准确度。如果步骤430中已计算的准确度满足终止条件,则终止调整。如果已计算的准确度不满足终止条件,则在步骤450中修改参数。在步骤450中,根据准确度的增加或减少来修改这些参数(诸如置信系数)。例如,当置信系数的减小导致准确度的增加时,置信系数被进一步减小。相反,当置信系数的增大导致准确度的增加时,置信系数被进一步增大。此外,当置信系数的减小导致准确度的减少时,置信系数被增大。相反,当置信系数的增大导致准确度的减少时,置信系数被减小。这种自动调整不仅可以被应用于置信系数而且还可以被应用于诸如系统的字典的更新之类的其它参数。
图5示出本发明的实施例的评估装置的硬件配置和被作为结合了该评估装置的自评估趋势分析系统来使用的优选的信息处理设备的硬件配置。计算机501包括具有通过使用主机控制器510来彼此相互连接的CPU 500、RAM540、ROM 530以及I/O控制器520的CPU外围单元。另外,计算机501包括通信接口550、能够从存储装置580中读以及向其写的硬盘驱动器、能够从诸如CD/DVD之类的盘类型的介质595中读以及向其写的多结合物(multi-combo)驱动器590、能够从软盘585中读和向其写的FD驱动器545、用于驱动声音输入/输出装置565的声音控制器560、以及用于驱动显示装置575的图形控制器570,所有这些都被连接到I/O控制器520。
CPU 500根据存储在ROM 530、BIOS和RAM 540中的程序进行操作,并由此控制每个部件。图形控制器570包含CPU 500等在RAM 540中所提供的缓冲器内生成的图像数据,并导致显示装置575显示由该图像数据所指示的图像。作为替代,图形控制器570可以在其内部包括用于存储由CPU 500等所生成的图像数据的缓冲器。当信息处理设备501作为包括评估装置的自评估趋势分析系统来工作时,通过使用被记录在存储装置580中的包含正确信息的相关数据来计算该趋势分析系统的准确度。为了更加精确,通过诸如键盘515之类的输入装置来输入终止条件,挖掘程序和本发明的程序被从存储装置580中装载到存储器,并且接着CPU 500执行这些程序以通过读取被记录在存储装置580中的包含正确信息的相关数据来计算准确度。如果该准确度满足终止条件,则终止调整。如果该准确度不满足终止条件,则根据该准确度的增加或者减少来修改各参数(诸如置信系数)。调整结果被显示在显示装置575上。
通信接口550经由网络与外部通信装置进行通信。当信息处理设备501仅作为评估装置来工作时,信息处理设备501通过经由通信接口550接收输出自外部趋势分析系统的用于准确度计算的信息来计算准确度,并且接着将计算结果经由通信接口550传送给该外部趋势分析系统。顺便提及,即使当与包括有线网络、无线网络和诸如红外网络或蓝牙之类的短程无线网络的任何类型的网络进行连接时,本发明的实施例的这些配置也是可应用的而不需进行任何修改。存储装置580存储根据本发明的实施例的程序的代码和数据、应用、操作系统等等,它们可以被计算机501使用。多结合物驱动器590从诸如CD/DVD之类的介质595中读取程序或数据。从存储装置580等中读取的程序和数据被装载到RAM540,并且因此由CPU 500使用。可以从外部存储介质提供本发明的实施例的程序、目标是用于趋势分析的数据、以及包含正确信息的相关数据。
作为外部存储介质,除了软盘585和CD-ROM以外,还可以使用诸如DVD或PD之类的光记录介质、诸如MD之类的磁光记录介质、磁带介质、诸如IC卡之类的半导体存储器。另外,通过使用在连接到专用通信网络或因特网的服务器系统中所提供的诸如硬盘或RAM之类的存储装置作为记录介质,可以从网络中输入程序。从上述配置例子可以理解,任何类型的设备只要具有正常的计算功能都可以被用作实现本发明的实施例所需要的硬件。例如,移动终端、便携式终端和家用电子设备也是可应用的而不会有任何问题。
在本发明的实施例的优选的信息处理设备501上操作支持图形用户接口(GUI)多窗口环境的操作系统。这种操作系统的例子包括微软公司所提供的Windows(R)操作系统、苹果公司所提供的Mac OS(R)、和包括X Windowx系统的UNIX(R)系统(例如,国际商业机器公司所提供的AIX(R))。此外,可以通过使用硬件、软件以及硬件和软件的组合来实现本发明。使用硬件和软件的组合的实现的典型例子是使用了具有预定程序的数据处理系统的实现。在这种情况下,预定程序被装载到数据处理系统中并由该数据处理系统执行,并且因此该程序使得该数据处理系统可以被控制来执行根据本发明的实施例的处理。该程序包括可以用任意语言、代码和符号来表达的命令集合。
图5只是说明实现本实施例的计算机的硬件配置的例子,并且可以使用其它各种配置,只要本实施例可以被应用到其上。上述部件被作为例子示出,并且它们的全部不是作为用于实现本发明的部件的必要要素。
Claims (5)
1.一种用于评估趋势分析系统的装置,包括:
容许值输入单元,其用于接收假阳性的容许值和假阴性的容许值,所述假阳性是指数据片被判断为彼此相关,但是所述数据片实际上并不相关,所述假阴性是指数据片被判断为不相关,但是所述数据片实际上是彼此相关的;以及
准确度计算单元,其用于计算所述系统的准确度,其中
所述准确度计算单元包括:
权重确定单元,其用于读取包含正确地指示了在存储装置中所存储的默认数据集里所包括的各数据片之间存在或不存在关联的正确信息的相关数据,以及用于通过使用所述包含正确信息的相关数据从假阳性和假阴性的所述容许值确定被分配给所述系统所做出的假阳性和假阴性的数目的权重;以及
计算单元,其用于通过使用假阳性的数目、被分配给它的权重、假阴性的数目、被分配给它的权重和数据片的总数目来计算所述系统的准确度。
2.根据权利要求1所述的装置,其中用以下等式来计算所述准确度(R):
R=1-(P×WP+N×WN)/S
其中,P表示假阳性的数目,WP表示被分配给它的权重,N表示假阴性的数目,WN表示被分配给它的权重,而S表示数据片的总数目。
3.根据权利要求1所述的装置,其中所述权重确定单元是确定满足以下条件的权重的权重确定单元:满足如下条件:对于在系统的准确度之间不存在任何差异的情况下确定所述系统中不存在任何差异的概率不小于默认概率;而且还满足如下条件:对于在系统的准确度之间存在差异的情况下,确定所述系统中存在差异的概率不小于默认概率。
4.一种趋势分析系统,包括
趋势分析系统;
根据权利要求1所述的装置;以及
参数调整单元,其用于根据所述准确度的增加或减少来调整所述系统的参数。
5.一种用于评估趋势分析系统的方法,所述方法包括步骤:
接收假阳性的容许值和假阴性的容许值,所述假阳性是指数据片被判断为彼此相关,但是所述数据片实际上并不相关,所述假阴性是指数据片被判断为不相关,但是所述数据片实际上是彼此相关的;以及
计算所述系统的准确度,其中
所述准确度计算步骤包括以下步骤:
读取包含正确地指示了在存储装置中所存储的默认数据集里所包括的各数据片之间存在或不存在关联的正确信息的相关数据,以及接着通过使用所述包含正确信息的相关数据从假阳性和假阴性的所述容许值确定被分配给所述系统所做出的假阳性和假阴性的数目的权重;以及
通过使用假阳性的数目、被分配给它的权重、假阴性数目、被分配给它的权重和数据片的总数目来计算所述系统的准确度。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006332192 | 2006-12-08 | ||
JP2006332192A JP4405500B2 (ja) | 2006-12-08 | 2006-12-08 | 傾向分析システムの評価方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101196907A CN101196907A (zh) | 2008-06-11 |
CN100570609C true CN100570609C (zh) | 2009-12-16 |
Family
ID=39464832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2007101927289A Expired - Fee Related CN100570609C (zh) | 2006-12-08 | 2007-11-16 | 用于评估趋势分析系统的方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20080126160A1 (zh) |
JP (1) | JP4405500B2 (zh) |
CN (1) | CN100570609C (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7526486B2 (en) * | 2006-05-22 | 2009-04-28 | Initiate Systems, Inc. | Method and system for indexing information about entities with respect to hierarchies |
US8332366B2 (en) | 2006-06-02 | 2012-12-11 | International Business Machines Corporation | System and method for automatic weight generation for probabilistic matching |
US8356009B2 (en) | 2006-09-15 | 2013-01-15 | International Business Machines Corporation | Implementation defined segments for relational database systems |
US7698268B1 (en) * | 2006-09-15 | 2010-04-13 | Initiate Systems, Inc. | Method and system for filtering false positives |
US7685093B1 (en) | 2006-09-15 | 2010-03-23 | Initiate Systems, Inc. | Method and system for comparing attributes such as business names |
US8359339B2 (en) | 2007-02-05 | 2013-01-22 | International Business Machines Corporation | Graphical user interface for configuration of an algorithm for the matching of data records |
US8515926B2 (en) * | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
WO2008121700A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for managing entities |
US8321393B2 (en) | 2007-03-29 | 2012-11-27 | International Business Machines Corporation | Parsing information in data records and in different languages |
US8423514B2 (en) | 2007-03-29 | 2013-04-16 | International Business Machines Corporation | Service provisioning |
US8429220B2 (en) | 2007-03-29 | 2013-04-23 | International Business Machines Corporation | Data exchange among data sources |
US20110010214A1 (en) * | 2007-06-29 | 2011-01-13 | Carruth J Scott | Method and system for project management |
US8713434B2 (en) | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
JP5306359B2 (ja) | 2007-09-28 | 2013-10-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 複数言語によるデータ記録を関連付ける方法およびシステム |
CN101878461B (zh) * | 2007-09-28 | 2014-03-12 | 国际商业机器公司 | 分析用于匹配数据记录的系统的方法和系统 |
US8244224B2 (en) * | 2008-11-20 | 2012-08-14 | Research In Motion Limited | Providing customized information to a user based on identifying a trend |
WO2014076524A1 (en) * | 2012-11-16 | 2014-05-22 | Data2Text Limited | Method and apparatus for spatial descriptions in an output text |
US10558713B2 (en) * | 2018-07-13 | 2020-02-11 | ResponsiML Ltd | Method of tuning a computer system |
US11087161B2 (en) | 2019-01-25 | 2021-08-10 | Gracenote, Inc. | Methods and systems for determining accuracy of sport-related information extracted from digital video frames |
US11010627B2 (en) | 2019-01-25 | 2021-05-18 | Gracenote, Inc. | Methods and systems for scoreboard text region detection |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7249162B2 (en) * | 2003-02-25 | 2007-07-24 | Microsoft Corporation | Adaptive junk message filtering system |
US7827225B2 (en) * | 2005-01-21 | 2010-11-02 | Texas Instruments Incorporated | Methods and systems for a multi-channel Fast Fourier Transform (FFT) |
US7698268B1 (en) * | 2006-09-15 | 2010-04-13 | Initiate Systems, Inc. | Method and system for filtering false positives |
-
2006
- 2006-12-08 JP JP2006332192A patent/JP4405500B2/ja not_active Expired - Fee Related
-
2007
- 2007-11-16 CN CNB2007101927289A patent/CN100570609C/zh not_active Expired - Fee Related
- 2007-11-29 US US11/947,114 patent/US20080126160A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2008146319A (ja) | 2008-06-26 |
CN101196907A (zh) | 2008-06-11 |
US20080126160A1 (en) | 2008-05-29 |
JP4405500B2 (ja) | 2010-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100570609C (zh) | 用于评估趋势分析系统的方法和装置 | |
US10970294B2 (en) | Website scoring system | |
CN108734089B (zh) | 识别图片文件中表格内容的方法、装置、设备及存储介质 | |
US7933878B2 (en) | Assessing and managing operational risk in organizational operations | |
US10599627B2 (en) | Automatically converting spreadsheet tables to relational tables | |
US7925638B2 (en) | Quality management in a data-processing environment | |
JP2013025801A (ja) | 画像ブロックにおけるキャラクタの向きを識別する方法および装置 | |
US20060285749A1 (en) | User-initiated reporting of handwriting recognition errors over the internet | |
CN105205144A (zh) | 用于数据诊断优化的方法和系统 | |
KR20090023417A (ko) | 의심스런 인식 결정을 식별하기 위한 방법 및 컴퓨터 판독가능 매체 | |
CN103778422A (zh) | 用于选择并显示分割参数进行光学字符识别的系统与方法 | |
JP5771108B2 (ja) | 光学式文字認識で生成したテキストデータの校正を支援するためのシステム、方法、プログラム | |
JP7477572B2 (ja) | 分散コンピューティングデバイスの自動制御 | |
KR20210080224A (ko) | 정보 처리 장치 및 정보 처리 방법 | |
WO2021174814A1 (zh) | 众包任务的答案验证方法、装置、计算机设备及存储介质 | |
US20050183033A1 (en) | Apparatus and methods for displaying dialog box text messages including languages having different reading orders | |
CN101369239A (zh) | 系统分析装置及程序 | |
CN111240652A (zh) | 数据处理方法及装置、计算机存储介质、电子设备 | |
KR102300916B1 (ko) | 서포트 벡터 머신을 이용한 사례 기반 추론 시스템 및 사례 기반 추론 방법 | |
CN103870800A (zh) | 信息处理设备和信息处理方法 | |
JP6201779B2 (ja) | 情報処理装置及び情報処理プログラム | |
EP1973061B1 (en) | Character recognition system, character recognition method and automated mail sorting system | |
CN117667046B (zh) | 命令解析方法、装置、电子设备、存储介质及程序产品 | |
US20230400841A1 (en) | System of Matching Segmented Words to Check Correctness of Components of Device and Method Thereof | |
CN118332450A (zh) | 一种基于主机指纹技术的云上资产判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20091216 |