JP2008146319A - 傾向分析システムの評価方法および装置 - Google Patents
傾向分析システムの評価方法および装置 Download PDFInfo
- Publication number
- JP2008146319A JP2008146319A JP2006332192A JP2006332192A JP2008146319A JP 2008146319 A JP2008146319 A JP 2008146319A JP 2006332192 A JP2006332192 A JP 2006332192A JP 2006332192 A JP2006332192 A JP 2006332192A JP 2008146319 A JP2008146319 A JP 2008146319A
- Authority
- JP
- Japan
- Prior art keywords
- data
- false
- weight
- accuracy rate
- irrelevant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000007423 decrease Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 description 29
- 238000005065 mining Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000010365 information processing Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 239000000470 constituent Substances 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】上記課題を解決するための第1の態様として、傾向分析システムを評価する装置であって、関係しないデータであるにもかかわらず関係ありと判定する偽陽性の許容値と、関係するデータであるにもかかわらず関係なしと判定する偽陰性の許容値を受け取る許容値入力部と、前記システムの正解率を算出する正解率算出部であって、記憶装置に記憶した既定のデータ集合のデータ間の関係の有無を正しく表した正解データを前記記憶装置から読み取り、該正解データを用いて、前記システムの偽陽性に対する数に対する重み及び偽陰性の数に対する重みを、前記偽陽性の許容値と前記偽陰性の許容値から決定する、重み決定部と、偽陽性の数とその重み、偽陰性の数とその重み、全データ数からシステムの正解率を計算する計算部を含む装置を提供する。
【選択図】図1
Description
正解率=(関係有を正しく抽出した数+関係なしを正しく抽出した数)/システム抽出した数
正解率の算出方法には、上記のように正しい判定を考慮する方法とは別に誤りの判定を考慮する方法がある。誤判定には偽陽性、偽陰性の2つがある。従来の正解率ではこれらを同等に扱っているため、ユーザの活用現場の違いを正解率に反映できなかった。
・データ集合からの関係、傾向、知識の抽出を行う傾向分析システムを客観的に評価する装置を提供することである。
・データ集合などから属性間の関係を抽出する傾向分析システムにおいて、システムの定量的評価を行いシステムの自己チューニングを行うシステムを提供することである。
・属性間の関係、傾向、知識の情報に対する正解データを用いてデータ集合から関係情報、傾向情報、知識情報を抽出する機能を定量的に自ら己評価しチューニングする自己評価型傾向分析システムを提供することである。
・ システムの評価結果を定量的に求めるための指標としてシステムの偽陽性、偽陰性それぞれの間違いに対して利用者側が設定する許容範囲から重みを求め正解率を算出する方法を提供することである。
・指標を算出する際の重みを恣意的ではなく、システムの評価が公平に行えるよう、正解データに応じて統計的に妥当な値として求める方法を提供することである。
R=1−(P×WP+N×WN)/S
・同一性
システムの正解率に差異がない場合に既定の確率以上で差異がないと判断する条件
・識別可能性
システムの正解率に差異があった場合に既定の確率以上で差異があると判断する条件
なお識別可能性には偽陽性の誤りに対する許容値(偽陽性の許容値)からの識別可能性と、偽陰性の誤りに対する許容値(偽陰性の許容値)からの識別可能性がある。既定の確率としては例えば統計的検定で広く用いられる95%などを用いる。これら同一性および識別可能性を領域として例示したものが図2である。図2においてX軸に重みWP、Y軸に重みWNとして線分210の内部が同一性を表し、線分220、230の外部が識別可能性を表している。同一性から求められる線分210は円となりその一例で√2を記載している。なお、線分220、230は一般に双曲線となる。これらの条件を満たす領域Dが重みの値である。この領域Dの重みを使用することにより重みは統計的に妥当な値として決定される。逆にこの領域Dの値を取ることで正解データによらず公平な正解率を求めることが可能になり傾向分析システムの客観的な評価が行える。
R=(関係有を正しく抽出した数+関係なしを正しく抽出した数)/システム抽出した数
により、両方ともR=41/55=0.745で全く同じ値となる。すなわちシステムが改善されたとは言えない。
ところが本発明の正解率は、例えばユーザが指定した偽陽性の許容値4と偽陰性の許容値2から算出される偽陽性の数Pの重み1.20、偽陰性の数Nの重み0.742を用いて、
R=1−(P×1.20+N×0.742)/55
として計算される。すると310のシステムの正解率は0.753、新しい320のシステムは0.769となり、ユーザが想定している状況の下ではシステムは改善していると評価できるのである。本発明では偽陽性の許容値と偽陰性の許容値を入力としているが例えば偽陽性の許容値と偽陰性の許容値との比(上の例では2になる)を与えるようにしてもよい。このほか本発明の本質を逸脱することなく入力の与え方には多くのバリエーションが考えられる。
510 ホストコントローラ
500 CPU
540 RAM
530 ROM
520 コントローラ
550 通信インターフェイス
580 ハードディスクドライブ
595 円盤型メディア
590 マルチコンボドライブ
585 フレキシブルディスク
545 ドライブ
565 サウンド入出力装置
560 サウンドコントローラ
575 表示装置
570 グラフィックコントローラ
501 情報処理装置
580 記憶装置
515 キーボード
590 マルチコンボドライブドライブ
595 メディア
Claims (6)
- 傾向分析システムを評価する装置であって、
関係しないデータであるにもかかわらず関係ありと判定する偽陽性の許容値と、関係するデータであるにもかかわらず関係なしと判定する偽陰性の許容値を受け取る許容値入力部と、
前記システムの正解率を算出する正解率算出部であって、
記憶装置に記憶した既定のデータ集合のデータ間の関係の有無を正しく表した正解データを前記記憶装置から読み取り、該正解データを用いて、前記システムの偽陽性の数に対する重み及び偽陰性の数に対する重みを、前記偽陽性の許容値と前記偽陰性の許容値から決定する、重み決定部と、
偽陽性の数とその重み、偽陰性の数とその重み、全データ数からシステムの正解率を計算する計算部と、
を含む装置。 - 前記正解率(R)は、偽陽性の数をPその重みをWP、偽陰性の数をNその重みをWN、全データ数をSとして、
R=1−(P×WP+N×WN)/S
により算出される、請求項1記載の装置。 - 前記重み決定部が、
システムの正解率に差異がない場合に既定の確率以上で差異がないと判断する条件、および差異があった場合に既定の確率以上で差異があると判断する条件、を満たす重みを決定する、重み決定部、
である請求項1記載の装置 - 傾向分析システムと、
請求項1記載の装置と、
請求項1記載の装置の前記正解率の増減に基づき前記システムのパラメータを調整するパラメータ調整部
を含む傾向分析システム - 傾向分析システムを評価する方法であって、
関係しないデータであるにもかかわらず関係ありと判定する偽陽性の許容値と、関係するデータであるにもかかわらず関係なしと判定する偽陰性の許容値を受け取るステップと、
前記システムの正解率を算出するステップであって、
記憶装置に記憶した既定のデータ集合のデータ間の関係の有無を正しく表した正解データを前記記憶装置から読み取り、該正解データを用いて、前記システムの偽陽性の数に対する重み及び偽陰性の数に対する重みを、前記偽陽性の許容値と前記偽陰性の許容値から決定するステップと、
偽陽性の数とその重み、偽陰性の数とその重み、全データ数からシステムの正解率を計算するステップ、
を含む方法。 - 傾向分析システムを評価するためのプログラムであって、該プログラムがコンピュータに、
関係しないデータであるにもかかわらず関係ありと判定する偽陽性の許容値と、関係するデータであるにもかかわらず関係なしと判定する偽陰性の許容値を受け取るステップと、
前記システムの正解率を算出するステップであって、
記憶装置に記憶した既定のデータ集合のデータ間の関係の有無を正しく表した正解データを前記記憶装置から読み取り、該正解データを用いて、前記システムの偽陽性の数に対する重み及び偽陰性の数に対する重みを、前記偽陽性の許容値と前記偽陰性の許容値から決定するステップと、
偽陽性の数とその重み、偽陰性の数とその重み、全データ数からシステムの正解率を計算するステップ、
を実行させる、プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006332192A JP4405500B2 (ja) | 2006-12-08 | 2006-12-08 | 傾向分析システムの評価方法および装置 |
CNB2007101927289A CN100570609C (zh) | 2006-12-08 | 2007-11-16 | 用于评估趋势分析系统的方法和装置 |
US11/947,114 US20080126160A1 (en) | 2006-08-12 | 2007-11-29 | Method and device for evaluating a trend analysis system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006332192A JP4405500B2 (ja) | 2006-12-08 | 2006-12-08 | 傾向分析システムの評価方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008146319A true JP2008146319A (ja) | 2008-06-26 |
JP4405500B2 JP4405500B2 (ja) | 2010-01-27 |
Family
ID=39464832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006332192A Expired - Fee Related JP4405500B2 (ja) | 2006-08-12 | 2006-12-08 | 傾向分析システムの評価方法および装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20080126160A1 (ja) |
JP (1) | JP4405500B2 (ja) |
CN (1) | CN100570609C (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7526486B2 (en) * | 2006-05-22 | 2009-04-28 | Initiate Systems, Inc. | Method and system for indexing information about entities with respect to hierarchies |
US8332366B2 (en) | 2006-06-02 | 2012-12-11 | International Business Machines Corporation | System and method for automatic weight generation for probabilistic matching |
US8356009B2 (en) | 2006-09-15 | 2013-01-15 | International Business Machines Corporation | Implementation defined segments for relational database systems |
US7698268B1 (en) * | 2006-09-15 | 2010-04-13 | Initiate Systems, Inc. | Method and system for filtering false positives |
US7685093B1 (en) | 2006-09-15 | 2010-03-23 | Initiate Systems, Inc. | Method and system for comparing attributes such as business names |
US8359339B2 (en) | 2007-02-05 | 2013-01-22 | International Business Machines Corporation | Graphical user interface for configuration of an algorithm for the matching of data records |
US8515926B2 (en) * | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
WO2008121700A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for managing entities |
US8321393B2 (en) | 2007-03-29 | 2012-11-27 | International Business Machines Corporation | Parsing information in data records and in different languages |
US8423514B2 (en) | 2007-03-29 | 2013-04-16 | International Business Machines Corporation | Service provisioning |
US8429220B2 (en) | 2007-03-29 | 2013-04-23 | International Business Machines Corporation | Data exchange among data sources |
US20110010214A1 (en) * | 2007-06-29 | 2011-01-13 | Carruth J Scott | Method and system for project management |
US8713434B2 (en) | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
JP5306359B2 (ja) | 2007-09-28 | 2013-10-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 複数言語によるデータ記録を関連付ける方法およびシステム |
CN101878461B (zh) * | 2007-09-28 | 2014-03-12 | 国际商业机器公司 | 分析用于匹配数据记录的系统的方法和系统 |
US8244224B2 (en) * | 2008-11-20 | 2012-08-14 | Research In Motion Limited | Providing customized information to a user based on identifying a trend |
WO2014076524A1 (en) * | 2012-11-16 | 2014-05-22 | Data2Text Limited | Method and apparatus for spatial descriptions in an output text |
US10558713B2 (en) * | 2018-07-13 | 2020-02-11 | ResponsiML Ltd | Method of tuning a computer system |
US11087161B2 (en) | 2019-01-25 | 2021-08-10 | Gracenote, Inc. | Methods and systems for determining accuracy of sport-related information extracted from digital video frames |
US11010627B2 (en) | 2019-01-25 | 2021-05-18 | Gracenote, Inc. | Methods and systems for scoreboard text region detection |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7249162B2 (en) * | 2003-02-25 | 2007-07-24 | Microsoft Corporation | Adaptive junk message filtering system |
US7827225B2 (en) * | 2005-01-21 | 2010-11-02 | Texas Instruments Incorporated | Methods and systems for a multi-channel Fast Fourier Transform (FFT) |
US7698268B1 (en) * | 2006-09-15 | 2010-04-13 | Initiate Systems, Inc. | Method and system for filtering false positives |
-
2006
- 2006-12-08 JP JP2006332192A patent/JP4405500B2/ja not_active Expired - Fee Related
-
2007
- 2007-11-16 CN CNB2007101927289A patent/CN100570609C/zh not_active Expired - Fee Related
- 2007-11-29 US US11/947,114 patent/US20080126160A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CN101196907A (zh) | 2008-06-11 |
US20080126160A1 (en) | 2008-05-29 |
CN100570609C (zh) | 2009-12-16 |
JP4405500B2 (ja) | 2010-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4405500B2 (ja) | 傾向分析システムの評価方法および装置 | |
US7840521B2 (en) | Computer-based method and system for efficient categorizing of digital documents | |
US7406452B2 (en) | Machine learning | |
US8650136B2 (en) | Text classification with confidence grading | |
US20120136812A1 (en) | Method and system for machine-learning based optimization and customization of document similarities calculation | |
WO2019024692A1 (zh) | 语音输入方法、装置、计算机设备和存储介质 | |
US10204225B2 (en) | System and method for determining description-to-permission fidelity in mobile applications | |
TW201519075A (zh) | 文字範圍的智慧選擇 | |
CN102938039A (zh) | 针对应用的选择性文件访问 | |
JP2018045559A (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR20220103015A (ko) | 창업을 위한 정보를 제공하기 위한 전자 장치 및 그 동작 방법 | |
JP7314243B2 (ja) | マルウェアの悪意ある行為フィーチャー情報を生成する方法 | |
US20140040298A1 (en) | Apparatus and method for starting up software | |
WO2017146728A1 (en) | Similarity scores of rules in information technology workflows | |
WO2021174814A1 (zh) | 众包任务的答案验证方法、装置、计算机设备及存储介质 | |
KR101447879B1 (ko) | 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법 | |
KR20170048008A (ko) | 질의의도를 분석하기 위한 장치 및 방법 | |
KR102443786B1 (ko) | 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치 | |
WO2019225007A1 (ja) | 入力ミス検知装置、入力ミス検知方法および入力ミス検知プログラム | |
JP5910216B2 (ja) | 情報処理装置及び情報処理プログラム | |
US20120079402A1 (en) | Terminal, method, system, and computer-readable storage medium for adjusting attributes of user-input area based on user selection | |
US20080120263A1 (en) | Computer-readable recording medium, apparatus and method for calculating scale-parameter | |
JP5946949B1 (ja) | データ分析システム、その制御方法、プログラム、および、記録媒体 | |
JPWO2020021609A1 (ja) | 生成方法、生成プログラムおよび情報処理装置 | |
KR102491925B1 (ko) | 프로그램 분석 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090430 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20090430 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20090519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090714 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090714 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20090714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091001 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091001 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091029 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20091029 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091104 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121113 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4405500 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121113 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131113 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |