JP4405500B2 - 傾向分析システムの評価方法および装置 - Google Patents

傾向分析システムの評価方法および装置 Download PDF

Info

Publication number
JP4405500B2
JP4405500B2 JP2006332192A JP2006332192A JP4405500B2 JP 4405500 B2 JP4405500 B2 JP 4405500B2 JP 2006332192 A JP2006332192 A JP 2006332192A JP 2006332192 A JP2006332192 A JP 2006332192A JP 4405500 B2 JP4405500 B2 JP 4405500B2
Authority
JP
Japan
Prior art keywords
false
weight
data
trend analysis
correct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006332192A
Other languages
English (en)
Other versions
JP2008146319A (ja
Inventor
広宜 竹内
大介 宅間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2006332192A priority Critical patent/JP4405500B2/ja
Priority to CNB2007101927289A priority patent/CN100570609C/zh
Priority to US11/947,114 priority patent/US20080126160A1/en
Publication of JP2008146319A publication Critical patent/JP2008146319A/ja
Application granted granted Critical
Publication of JP4405500B2 publication Critical patent/JP4405500B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は傾向分析システムに関し、特に自己評価型の傾向分析システムに関する。
テキストマイニングは自然言語処理などによる情報抽出の結果に基づき主に文書集合内のキーワードおよび係り受けなどの情報を集計し傾向や知識を分析する傾向分析の1つの技術である。傾向分析システムを実際に導入するにあたっては導入先の状況に応じて言語リソースの整備やパラメータの調整を行い最適な分析ができるようにする必要がある。しかしながらこのようなチューニングは試行錯誤や経験に基づいて行われるため、チューニング結果の妥当性を測る術がない。またチューニングには多くの時間と人的リソースが必要となる。
一般に文書からの情報抽出や情報検索といった技術では抽出結果や検索結果に対する評価尺度があり、文書中の属性や文書自身に正解を付与した上でシステムや技術の評価が行われる。一方、文書集合からの関係、知識、傾向の抽出を目的とする傾向分析システムにおいては、得られた結果に対する有効性評価は実際に活用現場で使用することによって検証される。つまり従来の傾向分析システムでは定量的・定性的な評価を行う仕組みがない。そのため傾向分析システム内のコンポーネントの改良などによってどの程度システムが改善されるのか、といった客観的な検討が難しい。従来のシステム評価で用いられている正解率の算出は下記の式を用いている。
正解率=(関係有を正しく抽出した数+関係なしを正しく抽出した数)/システム抽出した数
正解率の算出方法には、上記のように正しい判定を考慮する方法とは別に誤りの判定を考慮する方法がある。誤判定には偽陽性、偽陰性の2つがある。従来の正解率ではこれらを同等に扱っているため、ユーザの活用現場の違いを正解率に反映できなかった。
特開2005−237441
本発明は、以上のような技術的課題を解決するためになされたものであって、その目的は、
・データ集合からの関係、傾向、知識の抽出を行う傾向分析システムを客観的に評価する装置を提供することである。
・データ集合などから属性間の関係を抽出する傾向分析システムにおいて、システムの定量的評価を行いシステムの自己チューニングを行うシステムを提供することである。
・属性間の関係、傾向、知識の情報に対する正解データを用いてデータ集合から関係情報、傾向情報、知識情報を抽出する機能を定量的に自ら己評価しチューニングする自己評価型傾向分析システムを提供することである。
・ システムの評価結果を定量的に求めるための指標としてシステムの偽陽性、偽陰性それぞれの間違いに対して利用者側が設定する許容範囲から重みを求め正解率を算出する方法を提供することである。
・指標を算出する際の重みを恣意的ではなく、システムの評価が公平に行えるよう、正解データに応じて統計的に妥当な値として求める方法を提供することである。
本発明はデータ集合などから属性間の関係(例えばAとBには関連がある)を抽出する傾向分析システムにおいて、既知の属性間の関係情報を含む正解データがあった場合に指標を用いてシステムの定量的評価を行いシステムの自己チューニングを行うシステムを提供する。評価指標としては、データ集合からシステムが抽出した関係・傾向情報が正解データで表されている関係情報の有無をどれだけカバーできているか判断する手法を用いてシステムの定量的評価を行う。
本発明では、ユーザ側で設定するシステムの偽陽性・偽陰性それぞれの間違いに対する許容範囲から、偽陽性および偽陰性の数に対するペナルティスコア(重み)を求め正解率を算出する。ペナルティスコアを恣意的に与えるとシステムを公平に評価できず不適切なチューニング、フィードバックを行う可能性があるため、本発明ではシステムの評価が公平に行えるよう、正解データに対して統計的に妥当なペナルティスコアを求める。本発明の傾向分析システムは、このペナルティスコアにより正解データによらず公平な正解率を求めること可能である。パラメータのチューニングやテキストマイニングにおける辞書の拡充などのシステムの変更を行った際に、システムが抽出する関係や傾向情報の有無の抽出(2値付与問題)の偽陽性・偽陰性に対する利用者のニーズに対してどれだけ改善したかを客観的に自己評価する。そして評価結果によりシステムをチューニングする。
図8に本発明の傾向分析システムを評価する装置を示す。本発明の装置は、まず関係しないデータであるにもかかわらず関係ありと判定する偽陽性の許容値と、関係するデータであるにもかかわらず関係なしと判定する偽陰性の許容値を受け取る許容値入力部810と、前記システムの正解率を算出する正解率算出部820であって、記憶装置830に記憶した既定のデータ集合のデータ間の関係の有無を正しく表した正解データ860を前記記憶装置830から読み取り、該正解データ860を用いて、前記システムの偽陽性の数に対する重み及び偽陰性の数に対する重みを、前記偽陽性の許容値と前記偽陰性の許容値から決定する、重み決定部840と、偽陽性の数とその重み、偽陰性の数とその重み、全データ数からシステムの正解率を計算する計算部850からなる。この正解率算出部820で算出された正解率をシステムの評価そのものとして用いてもよいし、パラメータ調整部において前記正解率に基づきシステムの正解率がさらに上がるようにシステムのパラメータを調整するようにしてもよい。
本発明によれば、傾向分析システムが出す間違い(偽陽性・偽陰性)に対する許容値(許容範囲)という利用者が理解しやすい閾値を与えることで、正解データによらず公平な正解率を求めることができ、客観的な評価に使えることができる。また本発明の傾向分析システムは利用者が求めるニーズを満たした評価指標を用いて自己評価を行い、パラメータチューニングを行うことができる。
図1に本発明の処理のフローチャートを示す。ステップ110で偽陽性、偽陰性に対する許容範囲を入力する。ステップ120で正解率用の重みを算出する。正解率および重み算出方法については後述する。ステップ130でこの重みが算出できるか判断し、算出できない場合にはステップ135で「許容範囲が不適切」として通知し再度許容範囲の入力に戻る。重みが算出できる場合にはステップ140でこの重みを用いた傾向分析システムの正解率算出用関数を作成する。ステップ150でこの正解率算出用関数を用いてシステムの正解率を算出する。以後システムと記載した場合には暗黙に傾向分析システムを指すものとする。システムの評価は正解データと前記重みを用いた正解率によってなされる。評価した結果のみが欲しい場合には処理はステップ150で終了となる。システムをチューニングする場合には処理は160に進む。ステップ10でシステムのチューニングの終了条件を満たすかを判断する。満たしていない場合にはステップ170に進み、システムのチューニングがなされる。終了条件を満たしている場合にはそこで処理は終了する。
図6に正解データの例を示す。例えば遺伝子データについては特定の遺伝子集合について各遺伝子の関係が Pathway という形で提供される。本発明はこのような傾向情報の有無を記述した知識データを正解データとして利用する。図6はアルツハイマー病に関連した遺伝子群について一部の遺伝子間の関係をした Pathway である。図6においてエッジで結ばれた遺伝子間には関係があることを示している。この正解データを用いて傾向分析システムの評価を行う例を図7に示す。左端の傾向情報候補に対してシステムが出力した判定と正解データを比較することにより評価する。正解データと同じく正しくシステムが判定した項目もあれば誤りの判定もある。誤りの判定には、関係しない情報であるにもかかわらず関係ありと判定する偽陽性と、関係する情報であるにもかかわらず関係なしと判定する偽陰性がある。
次に本発明の正解率および重みの算出方法を示す。重みとはシステムの偽陽性・偽陰性それぞれの間違いの数に対して算出されるペナルティスコアである。この重みは、既定のデータ集合のデータ間の関係の有無を正しく表した正解データを用いて、入力として与えられる偽陽性の許容値と偽陰性の許容値から決定される。この決定の仕方は後述する。この重みを用いてシステムの正解率が算出される。正解率(R)は、偽陽性の数をP、その重みをWP、偽陰性の数をN、その重みをWN、全データ数をSとして、以下の式により算出する。
R=1−(P×WP+N×WN)/S
偽陽性の数に対する重みと、前記偽陰性の数に対する重みは、システムの評価が公平に行えるよう、正解データに対して統計的に妥当な値となるよう決定される。統計的に妥当とは以下の2つの条件を満たす値である。
・同一性
システムの正解率に差異がない場合に既定の確率以上で差異がないと判断する条件
・識別可能性
システムの正解率に差異があった場合に既定の確率以上で差異があると判断する条件
なお識別可能性には偽陽性の誤りに対する許容値(偽陽性の許容値)からの識別可能性と、偽陰性の誤りに対する許容値(偽陰性の許容値)からの識別可能性がある。既定の確率としては例えば統計的検定で広く用いられる95%などを用いる。これら同一性および識別可能性を領域として例示したものが図2である。図2においてX軸に重みWP、Y軸に重みWNとして線分210の内部が同一性を表し、線分220、230の外部が識別可能性を表している。同一性から求められる線分210は円となりその一例で√2を記載している。なお、線分220、230は一般に双曲線となる。これらの条件を満たす領域Dが重みの値である。この領域Dの重みを使用することにより重みは統計的に妥当な値として決定される。逆にこの領域Dの値を取ることで正解データによらず公平な正解率を求めることが可能になり傾向分析システムの客観的な評価が行える。
図3を用いて本発明の正解率を用いた傾向分析システムの評価について説明する。310はある傾向分析システムの正解データを用いた文書相関関係の出力結果である。総数55件の文書に対して関係がある12件のうち、システムが正しく関係ありと判断したものは5件、残り7件は関係なし(偽陰性)と判断している。一方、関係がない43件のうち、システムが正しく関係なしと判断したものは36件、残り7件は関係あり(偽陽性)と判断している。このシステムのマイニングパラメータやマイニングを行うのに使用する辞書の拡充によりシステムを変更したとする。その新しいシステムの文書相関関係の出力結果が320に示されている。この結果からわかるように総数55件の文書に対して関係がある12件のうち、システムが正しく関係ありと判断したものは7件、残り5件は関係なし(偽陰性)と判断している。一方、関係がない43件のうち、システムが正しく関係なしと判断したものは34件、残り9件は関係あり(偽陽性)と判断している。この320の新しいシステムは310のシステムと比較して改善がなされているかを考える。従来の正解率(R)は
R=(関係有を正しく抽出した数+関係なしを正しく抽出した数)/システム抽出した数により、両方ともR=41/55=0.745で全く同じ値となる。すなわちシステムが改善されたとは言えない。
ところが本発明の正解率は、例えばユーザが指定した偽陽性の許容値4と偽陰性の許容値2から算出される偽陽性の数Pの重み1.20、偽陰性の数Nの重み0.742を用いて、
R=1−(P×1.20+N×0.742)/55
として計算される。すると310のシステムの正解率は0.753、新しい320のシステムは0.769となり、ユーザが想定している状況の下ではシステムは改善していると評価できるのである。本発明では偽陽性の許容値と偽陰性の許容値を入力としているが例えば偽陽性の許容値と偽陰性の許容値との比(上の例では2になる)を与えるようにしてもよい。このほか本発明の本質を逸脱することなく入力の与え方には多くのバリエーションが考えられる。
上記のシステムの改善の評価に従って傾向分析システムのパラメータを変更して正解率を上げるようにすることで傾向分析システムの自動チューニングが可能となる。例えばテキストマイングシステムでよく使用されるパラメータである信頼係数を変更する方法が考えられる。図4に本発明の評価装置を内蔵した自己評価型テキストマイニングシステムのチューニング処理フローを示す。ステップ410で正解率が90%以上などの終了条件を入力する。次にステップ420で正解データを用いたテキストマイニングを行う。ステップ430でマイニング結果の評価を行い、正解率を算出する。ステップ430で正解率が終了条件に合致していればチューニングを終了する。終了条件に合致していなければステップ450でパラメータの変更を行う。ステップ450では正解率の増減にあわせてパラメータ(信頼係数など)を変更する。例えば信頼係数を減らした場合に正解率が上がったのであればさらに減らす。逆に信頼係数を増やし場合に正解率が上がったのであればさらに増やす。信頼係数を減らした場合に正解率が下がったのであれば信頼係数を増やす。逆に信頼係数を増やした場合に正解率が下がったのであれば信頼係数を減らすという具合である。信頼係数に限らず、辞書の拡充などその他のパラメータにもこの自動チューニングは応用できる。
図5に本発明の評価装置およびそれを内蔵した自己評価型傾向分析システムとして用いるのに好適な情報処理装置のハードウェア構成を示した図である。コンピュータ501は、ホストコントローラ510により相互に接続されるCPU500、RAM540、ROM530及びI/Oコントローラ520を有するCPU周辺部と、I/Oコントローラ520により接続される通信インターフェイス550、ハードディスクドライブ580、及びCD/DVD等の円盤型メディア595を読み書きできるマルチコンボドライブ590、フレキシブルディスク585を読み書きできるFDドライブ545、サウンド入出力装置565を駆動するサウンドコントローラ560、表示装置575を駆動するグラフィックコントローラ570を備える。
CPU500は、ROM530、BIOS及びRAM540に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ570は、CPU500等がRAM540内に設けたバッファ上に生成する画像データを取得し、表示装置575上に表示させる。もしくはグラフィックコントローラ570はCPU500等が生成する画像データを格納するバッファをその内部に含んでもよい。情報処理装置501が評価装置を含む自己評価型の傾向分析システムとして機能する場合には、記憶装置580に記録された正解データを用いて傾向分析システムの正解率を算出する。より具体的にはキーボード515等の入力装置から終了条件を入力し、記憶装置からマイニングプログラムおよび本発明のプログラムをメモリにロードして、記憶装置580に記録された正解データを読み込み、CPU500によりプログラムを実行し正解率を算出する。正解率が終了条件に合致していればチューニングを終了する。終了条件に合致していなければ正解率の増減にあわせてパラメータ(信頼係数など)を変更する。チューニングの結果は表示装置575に表示する。
通信インターフェイス550は、ネットワークを介して外部の通信機器と通信する。情報処理装置501が評価装置のみとして機能する場合には通信インターフェイス550を通して外部の傾向分析システムからの正解率算出のための出力情報を受け取り情報処理装置501において正解率を計算し、その結果は通信インターフェイス550を通して外部の傾向分析システムに送信する。なおネットワークは有線、無線、赤外線、BLUETOOTH等の近距離無線で接続しても本願の構成を何ら変更することなく利用可能である。記憶装置580は、コンピュータ501が使用する本発明のプログラム、アプリケーション、OS等のコード及びデータを格納する。マルチコンボドライブドライブ590は、CD/DVD等のメディア595からプログラム又はデータを読み取り、これら記憶装置580から読み取られたプログラム、データはRAM540にロードされCPU500により利用される。本発明のプログラムおよび傾向分析対象のデータ、正解データは外部記憶メディアから供給されてもよい。
外部記憶メディアとしては、フレキシブルディスク585、CD−ROMの他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを取り込んでもよい。上記の構成の一例から理解されるように、本発明に必要なハードウェアは通常のコンピュータ機能を有するものは如何なるものでも利用可能である。例えばモバイル端末、携帯端末、家電機器でも何らの支障なく利用可能である。
本発明に好適な情報処理装置501は、マイクロソフト・コーポレーションが提供するWindows(R)オペレーティング・システム、アップル・コンピュータ・インコーポレイテッドが提供するMacOS(R)、X Window Systemを備えるUNIX(R)系システム(たとえば、インターナショナル・ビジネス・マシーンズ・コーポレーションが提供するAIX(R))のような、GUI(グラフィカル・ユーザー・インターフェース)マルチウインドウ環境をサポートするオペレーティング・システムが動作する。また、本発明は、ハードウェア、ソフトウェア、またはハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアの組み合わせによる実行において、所定のプログラムを有するデータ処理システムにおける実行が典型的な例として挙げられる。かかる場合、該所定プログラムが該データ処理システムにロードされ実行されることにより、該プログラムは、データ処理システムを制御し、本発明にかかる処理を実行させる。このプログラムは、任意の言語・コード・表記によって表現可能な命令群から構成される。
図5は本実施の形態を実現するコンピュータのハードウェア構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。上記の構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
本発明の処理のフローチャートである。 同一性、識別可能性を満足する重みの取る領域の例を説明する図である。 傾向分析システムの評価の説明である。 自己評価型テキストマイニングシステムのチューニング処理フローである。 ハードウェア構成例である。 各遺伝子間の関係をした Pathway である。 傾向分析システムの評価例である。 本発明の評価装置のブロック図である。
符号の説明
501 コンピュータ
510 ホストコントローラ
500 CPU
540 RAM
530 ROM
520 コントローラ
550 通信インターフェイス
580 ハードディスクドライブ
595 円盤型メディア
590 マルチコンボドライブ
585 フレキシブルディスク
545 ドライブ
565 サウンド入出力装置
560 サウンドコントローラ
575 表示装置
570 グラフィックコントローラ
501 情報処理装置
580 記憶装置
515 キーボード
590 マルチコンボドライブドライブ
595 メディア

Claims (3)

  1. 傾向分析システムを評価する装置であって、
    関係しないデータであるにもかかわらず関係ありと判定する偽陽性の許容値と、関係するデータであるにもかかわらず関係なしと判定する偽陰性の許容値とをメモリ上で受け取る許容値入力部と、
    前記傾向分析システムの正解率を算出する正解率算出部であって、
    CPUを使用して、記憶装置に記憶された正解データを前記記憶装置から読み取り、該読み取られた正解データを用いて、前記傾向分析システムの偽陽性の数に対する重み及び偽陰性の数に対する重みを、前記受け取った偽陽性の許容値と前記受け取った偽陰性の許容値とから決定する重み決定部であって、前記正解データは既定のデータ集合のデータ間の関係の有無を正しく表したものであり、前記偽陽性の数に対する重み及び前記偽陰性の数に対する重みそれぞれは、傾向分析システム間の正解率に差異がない場合に既定の確率以上で差異がないと判断する同一性条件、及び、傾向分析システム間の正解率に差異があった場合に既定の確率以上で差異があると判断する、前記受け取った偽陽性の許容値及び前記受け取った偽陰性の許容値それぞれからの識別可能性条件、両方を満たす値であり、前記偽陽性の数に対する重み及び前記偽陰性の数に対する重みそれぞれは、X軸が偽陽性の数に対する重みであり、及びY軸が偽陰性の数に対する重みである場合において、前記同一性条件を示す円、前記偽陽性の許容値からの識別可能性条件を示す双曲線、及び前記偽陽性の許容値からの識別可能性条件を示す双曲線における共通領域にある値である、前記重み決定部と、
    前記CPUを使用して、前記偽陽性の数とそれに対する前記決定された重み、前記偽陰性の数とそれに対する前記決定された重み、及び全データ数を、正解率算出関数に当てはめて前記正解率を計算する計算部であって、前記正解率(R)は、前記偽陽性の数をP、それに対する前記決定された重みをWP、前記偽陰性の数をN、それに対する前記決定された重みをWN、前記全データ数をSとして、正解率算出関数 R=1−(P×WP+N×WN)/S により算出される、前記計算部
    を含む、前記正解率算出部と
    を含み、それによって、パラメータ調節部が、前記傾向分析システムのパラメータを前記算出された正解率の増減に基づき調整する、前記装置。
  2. 傾向分析システムを評価する装置において、該傾向分析システムを評価する方法であって、前記装置に、
    関係しないデータであるにもかかわらず関係ありと判定する偽陽性の許容値と、関係するデータであるにもかかわらず関係なしと判定する偽陰性の許容値をメモリ上で受け取るステップと、
    前記傾向分析システムの正解率を算出するステップであって、
    CPUを使用して、記憶装置に記憶された正解データを前記記憶装置から読み取り、該読み取られた正解データを用いて、前記傾向分析システムの偽陽性の数に対する重み及び偽陰性の数に対する重みを、前記受け取った偽陽性の許容値と前記受け取った偽陰性の許容値とから決定するステップであって、前記正解データは既定のデータ集合のデータ間の関係の有無を正しく表したものであり、前記偽陽性の数に対する重み及び前記偽陰性の数に対する重みそれぞれは、傾向分析システム間の正解率に差異がない場合に既定の確率以上で差異がないと判断する同一性条件、及び、傾向分析システム間の正解率に差異があった場合に既定の確率以上で差異があると判断する、前記受け取った偽陽性の許容値及び前記受け取った偽陰性の許容値それぞれからの識別可能性条件、両方を満たす値であり、前記偽陽性の数に対する重み及び前記偽陰性の数に対する重みそれぞれは、X軸が偽陽性の数に対する重みであり、及びY軸が偽陰性の数に対する重みである場合において、前記同一性条件を示す円、前記偽陽性の許容値からの識別可能性条件を示す双曲線、及び前記偽陽性の許容値からの識別可能性条件を示す双曲線における共通領域にある値である、前記決定するステップと、
    前記CPUを使用して、前記偽陽性の数とそれに対する前記決定された重み、前記偽陰性の数とそれに対する前記決定された重み、及び全データ数を、正解率算出関数に当てはめて前記正解率を計算するステップであって、前記正解率(R)は、前記偽陽性の数をP、それに対する前記決定された重みをWP、前記偽陰性の数をN、それに対する前記決定された重みをWN、前記全データ数をSとして、正解率算出関数 R=1−(P×WP+N×WN)/S により算出される、前記計算するステップ
    を含む、前記算出するステップと
    を実行させ、それによって、パラメータ調節部が、前記傾向分析システムのパラメータを前記算出された正解率の増減に基づき調整する、前記方法。
  3. 傾向分析システムを評価するためのコンピュータ・プログラムであって、該傾向分析システムを評価する装置に、請求項に記載の方法の各ステップを実行させるコンピュータ・プログラム。
JP2006332192A 2006-08-12 2006-12-08 傾向分析システムの評価方法および装置 Expired - Fee Related JP4405500B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006332192A JP4405500B2 (ja) 2006-12-08 2006-12-08 傾向分析システムの評価方法および装置
CNB2007101927289A CN100570609C (zh) 2006-12-08 2007-11-16 用于评估趋势分析系统的方法和装置
US11/947,114 US20080126160A1 (en) 2006-08-12 2007-11-29 Method and device for evaluating a trend analysis system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006332192A JP4405500B2 (ja) 2006-12-08 2006-12-08 傾向分析システムの評価方法および装置

Publications (2)

Publication Number Publication Date
JP2008146319A JP2008146319A (ja) 2008-06-26
JP4405500B2 true JP4405500B2 (ja) 2010-01-27

Family

ID=39464832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006332192A Expired - Fee Related JP4405500B2 (ja) 2006-08-12 2006-12-08 傾向分析システムの評価方法および装置

Country Status (3)

Country Link
US (1) US20080126160A1 (ja)
JP (1) JP4405500B2 (ja)
CN (1) CN100570609C (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7526486B2 (en) * 2006-05-22 2009-04-28 Initiate Systems, Inc. Method and system for indexing information about entities with respect to hierarchies
US8332366B2 (en) 2006-06-02 2012-12-11 International Business Machines Corporation System and method for automatic weight generation for probabilistic matching
US7698268B1 (en) * 2006-09-15 2010-04-13 Initiate Systems, Inc. Method and system for filtering false positives
US8356009B2 (en) 2006-09-15 2013-01-15 International Business Machines Corporation Implementation defined segments for relational database systems
US7685093B1 (en) 2006-09-15 2010-03-23 Initiate Systems, Inc. Method and system for comparing attributes such as business names
US8359339B2 (en) 2007-02-05 2013-01-22 International Business Machines Corporation Graphical user interface for configuration of an algorithm for the matching of data records
US8515926B2 (en) * 2007-03-22 2013-08-20 International Business Machines Corporation Processing related data from information sources
US8423514B2 (en) 2007-03-29 2013-04-16 International Business Machines Corporation Service provisioning
WO2008121824A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for data exchange among data sources
WO2008121170A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for parsing languages
US8370355B2 (en) 2007-03-29 2013-02-05 International Business Machines Corporation Managing entities within a database
US20110010214A1 (en) * 2007-06-29 2011-01-13 Carruth J Scott Method and system for project management
BRPI0817507B1 (pt) 2007-09-28 2021-03-23 International Business Machines Corporation Método para análise de um sistema para associação de registro de dados, mídia de armazenamento legível por computador e sistema computacional para análise de um centro de identidade
US8713434B2 (en) 2007-09-28 2014-04-29 International Business Machines Corporation Indexing, relating and managing information about entities
CA2701043C (en) 2007-09-28 2016-10-11 Initiate Systems, Inc. Method and system for associating data records in multiple languages
US8244224B2 (en) * 2008-11-20 2012-08-14 Research In Motion Limited Providing customized information to a user based on identifying a trend
WO2014076524A1 (en) * 2012-11-16 2014-05-22 Data2Text Limited Method and apparatus for spatial descriptions in an output text
US10558713B2 (en) * 2018-07-13 2020-02-11 ResponsiML Ltd Method of tuning a computer system
US11087161B2 (en) * 2019-01-25 2021-08-10 Gracenote, Inc. Methods and systems for determining accuracy of sport-related information extracted from digital video frames

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7249162B2 (en) * 2003-02-25 2007-07-24 Microsoft Corporation Adaptive junk message filtering system
US7827225B2 (en) * 2005-01-21 2010-11-02 Texas Instruments Incorporated Methods and systems for a multi-channel Fast Fourier Transform (FFT)
US7698268B1 (en) * 2006-09-15 2010-04-13 Initiate Systems, Inc. Method and system for filtering false positives

Also Published As

Publication number Publication date
JP2008146319A (ja) 2008-06-26
US20080126160A1 (en) 2008-05-29
CN101196907A (zh) 2008-06-11
CN100570609C (zh) 2009-12-16

Similar Documents

Publication Publication Date Title
JP4405500B2 (ja) 傾向分析システムの評価方法および装置
US20200151187A1 (en) Website scoring system
WO2020024716A1 (zh) 一种针对新场景的预测模型训练方法及装置
JP5142135B2 (ja) データを分類する技術
US7840521B2 (en) Computer-based method and system for efficient categorizing of digital documents
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
JP4974470B2 (ja) Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現
US10204225B2 (en) System and method for determining description-to-permission fidelity in mobile applications
JP2018045559A (ja) 情報処理装置、情報処理方法およびプログラム
CN103885969A (zh) 提供软件问题解决方案的方法和装置
KR20150077580A (ko) 음성 인식 기반 서비스 제공 방법 및 그 장치
JP2016194683A (ja) ボキャブラリ学習サポートシステム
JP7314243B2 (ja) マルウェアの悪意ある行為フィーチャー情報を生成する方法
JP7189068B2 (ja) モデル作成支援方法、及びモデル作成支援システム
US20230146501A1 (en) Techniques for graph data structure augmentation
KR20170048008A (ko) 질의의도를 분석하기 위한 장치 및 방법
EP2755170A1 (en) Data management system and tool
CN112800022A (zh) 数据去识别处理装置及方法
KR102443786B1 (ko) 인공지능을 활용한 콘텐츠 흥행 등급 예측 방법 및 장치
JP5910216B2 (ja) 情報処理装置及び情報処理プログラム
US20120079402A1 (en) Terminal, method, system, and computer-readable storage medium for adjusting attributes of user-input area based on user selection
US7933853B2 (en) Computer-readable recording medium, apparatus and method for calculating scale-parameter
JP2021040221A (ja) 通信品質分析システム、通信品質分析方法
JPWO2020021609A1 (ja) 生成方法、生成プログラムおよび情報処理装置
KR102491925B1 (ko) 프로그램 분석 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090430

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20090430

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20090519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090714

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090714

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20090714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20091001

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20091029

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20091029

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091104

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121113

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4405500

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121113

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131113

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees