JP5939587B2 - アノテーションの相関を計算する装置及び方法 - Google Patents
アノテーションの相関を計算する装置及び方法 Download PDFInfo
- Publication number
- JP5939587B2 JP5939587B2 JP2014066947A JP2014066947A JP5939587B2 JP 5939587 B2 JP5939587 B2 JP 5939587B2 JP 2014066947 A JP2014066947 A JP 2014066947A JP 2014066947 A JP2014066947 A JP 2014066947A JP 5939587 B2 JP5939587 B2 JP 5939587B2
- Authority
- JP
- Japan
- Prior art keywords
- annotations
- correlation
- data group
- certainty factors
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
図1は、本実施の形態における相関計算システム1の全体構成例を示した図である。図示するように、この相関計算システム1は、アノテータ10と、相関計算装置20とを含む。
近年、アノテータ10のように、統計ベースの手法によりスコア付きのアノテーションをデータに付与する装置が増えてきたため、スコア付きのアノテーションどうしの相関を一般ユーザに分かり易い指標で提示したいというニーズがある。その際、アノテーションの相関を示す指標としては、如何なる指標を用いてもよいが、ユーザ受けのよい密度比(density ratio)の拡張として定義できるのが望ましい。
図3は、本実施の形態における相関計算システムの特に相関計算装置20の機能構成例を示したブロック図である。図示するように、この相関計算装置20は、テスト情報取得部21と、テスト情報記憶部22と、計算対象情報取得部23と、計算対象情報記憶部24と、密度比算出部25とを備える。
本実施の形態における相関計算装置20では、上述したように、まず、テスト情報取得部21がテスト情報を取得してテスト情報記憶部22に記憶し、計算対象情報取得部23が計算対象情報を取得して計算対象情報記憶部24に記憶する。
以下、この密度比の推定値c*を算出する式の導出方法について詳細に説明する。
Xi Y1 + (1 − Xi) Y0
Ea := E(Xai Ya1+ (1 − Xai) Ya0),μa1:=E(Ya1),μa0:=E(Ya0)
Eb := E(Xbi Yb1+ (1 − Xbi) Yb0),μb1:=E(Yb1),μb0:=E(Yb0)
E(Xabi) = c pa pb
Xabi Ya1 Yb1+ (Xai− Xabi) Ya1 Yb0 + (Xbi − Xabi) Ya0Yb1 + (1+Xabi− Xai − Xbi) Ya0 Yb0
= Xabi (Ya1 − Ya0) (Yb1− Yb0) + Xai(Ya1 − Ya0) Yb0 + Xbi (Yb1 − Yb0) Ya0 + Ya0 Yb0
Eab = c pa pb(μa1 − μa0) (μb1 − μb0)
+ pa (μa1 − μa0) μb0 + pb(μb1 − μb0) μa0 + μa0 μb0
= c pa pb (μa1 − μa0) (μb1 − μb0)
− pa pb (μa1 − μa0) (μb1 − μb0)
+ pa pb (μa1 − μa0) (μb1 − μb0)
+ pa (μa1 − μa0) μb0 + pb(μb1 − μb0) μa0 + μa0 μb0
= (c − 1) pa pb (μa1 − μa0) (μb1 − μb0)
+ (pa (μa1 − μa0) +μa0) ( pb (μb1 − μb0) + μb0)
Eab = (c − 1) (Ea − μa0) (Eb − μb0) + Ea Eb
ところで、このようなアノテーションの相関を表す密度比は、ファジィ集合の演算で計算することも考えられる。従って、ここでは、本実施の形態の効果を、ファジィ集合で既存式を計算した場合と比較して説明する。
ここまでは、2つのアノテーションの相関を算出する場合について述べたが、n個のアノテーションa1,a2,…,anの相関についても、同様に以下のようにして得たものを用いて計算すればよい(n≧3)。
・密度比
・負例文書におけるアノテーションa1,a2,…,anのスコアの期待値
・各文書におけるアノテーションa1,a2,…,anのうちの1個乃至(n−1)個のアノテーションのスコアの積の期待値(アノテーションa1のスコアの期待値、アノテーションa1,a2のスコアの積の期待値、アノテーションa1,a2,a3のスコアの積の期待値等)
図10は、本実施の形態における相関計算装置20のハードウェア構成例を示した図である。図示するように、相関計算装置20は、演算手段であるCPU(Central Processing Unit)20aと、M/B(マザーボード)チップセット20bを介してCPU20aに接続されたメインメモリ20cと、同じくM/Bチップセット20bを介してCPU20aに接続された表示機構20dとを備える。また、M/Bチップセット20bには、ブリッジ回路20eを介して、ネットワークインターフェイス20fと、磁気ディスク装置(HDD)20gと、音声機構20hと、キーボード/マウス20iと、光学ドライブ20jとが接続されている。
Claims (13)
- アノテーションの相関を計算する装置であって、
データが与えられると当該データに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第1のデータ群を与えることにより、当該第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度を取得する第1の取得部と、
前記複数のアノテーションの相関の計算に用いる第2のデータ群を前記アノテータに与えることにより、当該第2のデータ群における当該複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度を取得する第2の取得部と、
前記複数の第1の確信度と前記複数の第2の確信度とに基づいて、前記複数のアノテーションの相関の推定値を算出する算出部と
を含む、装置。 - 前記第1の取得部は、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、前記複数の第1の確信度を取得し、
前記算出部は、前記複数の第1の確信度のそれぞれの前記第1のデータ群における第1の代表値を求める処理を当該複数の第1の確信度について行うことにより複数の第1の代表値を算出し、当該複数の第1の代表値と前記複数の第2の確信度とを用いて、前記複数のアノテーションの相関の推定値を算出する、請求項1の装置。 - 前記算出部は、前記複数の第1の代表値の何れかが大きくなると前記複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、当該複数のアノテーションの相関の推定値を算出する、請求項2の装置。
- 前記算出部は、前記複数の第2の確信度の何れかの前記第2のデータ群における第2の代表値から前記複数の第1の代表値の何れかを減ずる式で除する項を含む前記算出式により、前記複数のアノテーションの相関の推定値を算出するに当たり、当該式の値を大きくする、請求項3の装置。
- 前記算出部は、前記複数の第2の確信度の積の前記第2のデータ群における第3の代表値を、前記複数の第2の確信度のそれぞれの前記第2のデータ群における第2の代表値を求める処理を当該複数の第2の確信度について行うことにより得られた複数の第2の代表値の積で除する式を、前記複数の第1の代表値を用いて補正する算出式により、前記複数のアノテーションの相関の推定値を算出する、請求項2の装置。
- 前記第1の取得部は、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、当該第1のデータ群における2つのアノテーションのそれぞれの確からしさを示す2つの第1の確信度を取得し、
前記第2の取得部は、前記2つのアノテーションの相関の計算に用いる前記第2のデータ群を前記アノテータに与えることにより、当該第2のデータ群における当該2つのアノテーションのそれぞれの確からしさを示す2つの第2の確信度を取得し、
前記算出部は、前記2つの第1の確信度のそれぞれの前記第1のデータ群における平均値を求める処理を当該2つの第1の確信度について行うことにより2つの平均値μ* a0,μ* b0を算出し、前記2つの第2の確信度のそれぞれの前記第2のデータ群における平均値を求める処理を当該2つの第2の確信度について行うことにより2つの平均値E* a,E* bを算出し、前記2つの第2の確信度の積の前記第2のデータ群における平均値E* abを算出し、下記の算出式により、前記2つのアノテーションの相関の推定値c*を算出する、請求項1の装置。
- コンピュータがアノテーションの相関を計算する方法であって、
前記コンピュータが、データが与えられると当該データに付与するアノテーションの確からしさを示す確信度を少なくとも出力するアノテータに、アノテーションを付与すべきかどうかを評価可能な第1のデータ群を与えることにより、当該第1のデータ群における複数のアノテーションのそれぞれの確からしさを示す複数の第1の確信度を取得するステップと、
前記コンピュータが、前記複数のアノテーションの相関の計算に用いる第2のデータ群を前記アノテータに与えることにより、当該第2のデータ群における当該複数のアノテーションのそれぞれの確からしさを示す複数の第2の確信度を取得するステップと、
前記コンピュータが、前記複数の第1の確信度と前記複数の第2の確信度とに基づいて、前記複数のアノテーションの相関の推定値を算出するステップと
を含む、方法。 - 前記複数の第1の確信度を取得するステップは、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、前記複数の第1の確信度を取得することを含み、
前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第1の確信度のそれぞれの前記第1のデータ群における第1の代表値を求める処理を当該複数の第1の確信度について行うことにより複数の第1の代表値を算出し、当該複数の第1の代表値と前記複数の第2の確信度とを用いて、前記複数のアノテーションの相関の推定値を算出することを含む、請求項7の方法。 - 前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第1の代表値の何れかが大きくなると前記複数のアノテーションの相関の基準値からの乖離が大きくなるような算出式により、当該複数のアノテーションの相関の推定値を算出することを含む、請求項8の方法。
- 前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第2の確信度の何れかの前記第2のデータ群における第2の代表値から前記複数の第1の代表値の何れかを減ずる式で除する項を含む前記算出式により、前記複数のアノテーションの相関の推定値を算出するに当たり、当該式の値を大きくすることを含む、請求項9の方法。
- 前記複数のアノテーションの相関の推定値を算出するステップは、前記複数の第2の確信度の積の前記第2のデータ群における第3の代表値を、前記複数の第2の確信度のそれぞれの前記第2のデータ群における第2の代表値を求める処理を当該複数の第2の確信度について行うことにより得られた複数の第2の代表値の積で除する式を、前記複数の第1の代表値を用いて補正する算出式により、前記複数のアノテーションの相関の推定値を算出することを含む、請求項8の方法。
- 前記複数の第1の確信度を取得するステップは、アノテーションを付与すべきでないと評価される前記第1のデータ群を前記アノテータに与えることにより、当該第1のデータ群における2つのアノテーションのそれぞれの確からしさを示す2つの第1の確信度を取得することを含み、
前記複数の第2の確信度を取得するステップは、前記2つのアノテーションの相関の計算に用いる前記第2のデータ群を前記アノテータに与えることにより、当該第2のデータ群における当該2つのアノテーションのそれぞれの確からしさを示す2つの第2の確信度を取得することを含み、
前記複数のアノテーションの相関の推定値を算出するステップは、前記2つの第1の確信度のそれぞれの前記第1のデータ群における平均値を求める処理を当該2つの第1の確信度について行うことにより2つの平均値μ* a0,μ* b0を算出し、前記2つの第2の確信度のそれぞれの前記第2のデータ群における平均値を求める処理を当該2つの第2の確信度について行うことにより2つの平均値E* a,E* bを算出し、前記2つの第2の確信度の積の前記第2のデータ群における平均値E* abを算出し、下記の算出式により、前記2つのアノテーションの相関の推定値c*を算出することを含む、請求項7の方法。
- アノテーションの相関を計算する装置として、コンピュータを機能させるプログラムであって、
前記コンピュータに、請求項7乃至12の何れかに記載の方法を実行させる、プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014066947A JP5939587B2 (ja) | 2014-03-27 | 2014-03-27 | アノテーションの相関を計算する装置及び方法 |
US14/658,347 US9858266B2 (en) | 2014-03-27 | 2015-03-16 | Calculating correlations between annotations |
US14/748,313 US9858267B2 (en) | 2014-03-27 | 2015-06-24 | Calculating correlations between annotations |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014066947A JP5939587B2 (ja) | 2014-03-27 | 2014-03-27 | アノテーションの相関を計算する装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015191348A JP2015191348A (ja) | 2015-11-02 |
JP5939587B2 true JP5939587B2 (ja) | 2016-06-22 |
Family
ID=54190691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014066947A Expired - Fee Related JP5939587B2 (ja) | 2014-03-27 | 2014-03-27 | アノテーションの相関を計算する装置及び方法 |
Country Status (2)
Country | Link |
---|---|
US (2) | US9858266B2 (ja) |
JP (1) | JP5939587B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6930179B2 (ja) * | 2017-03-30 | 2021-09-01 | 富士通株式会社 | 学習装置、学習方法及び学習プログラム |
US11232255B2 (en) * | 2018-06-13 | 2022-01-25 | Adobe Inc. | Generating digital annotations for evaluating and training automatic electronic document annotation models |
US11263272B2 (en) | 2020-04-23 | 2022-03-01 | International Business Machines Corporation | Ranking candidate documents for human annotation task in real-time |
JP7466808B2 (ja) | 2022-03-24 | 2024-04-12 | 三菱電機株式会社 | 二項分類装置及び二項分類装置のアノテーション補正方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7020561B1 (en) * | 2000-05-23 | 2006-03-28 | Gene Logic, Inc. | Methods and systems for efficient comparison, identification, processing, and importing of gene expression data |
US7747943B2 (en) * | 2001-09-07 | 2010-06-29 | Microsoft Corporation | Robust anchoring of annotations to content |
JP4587165B2 (ja) * | 2004-08-27 | 2010-11-24 | キヤノン株式会社 | 情報処理装置及びその制御方法 |
US20070150802A1 (en) * | 2005-12-12 | 2007-06-28 | Canon Information Systems Research Australia Pty. Ltd. | Document annotation and interface |
US7596549B1 (en) * | 2006-04-03 | 2009-09-29 | Qurio Holdings, Inc. | Methods, systems, and products for analyzing annotations for related content |
US7996762B2 (en) * | 2007-09-21 | 2011-08-09 | Microsoft Corporation | Correlative multi-label image annotation |
WO2010119615A1 (ja) | 2009-04-15 | 2010-10-21 | 日本電気株式会社 | 学習データ生成装置、及び固有表現抽出システム |
US20120002884A1 (en) * | 2010-06-30 | 2012-01-05 | Alcatel-Lucent Usa Inc. | Method and apparatus for managing video content |
JP5530476B2 (ja) * | 2012-03-30 | 2014-06-25 | 株式会社Ubic | 文書分別システム及び文書分別方法並びに文書分別プログラム |
-
2014
- 2014-03-27 JP JP2014066947A patent/JP5939587B2/ja not_active Expired - Fee Related
-
2015
- 2015-03-16 US US14/658,347 patent/US9858266B2/en not_active Expired - Fee Related
- 2015-06-24 US US14/748,313 patent/US9858267B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US9858267B2 (en) | 2018-01-02 |
US20150293907A1 (en) | 2015-10-15 |
JP2015191348A (ja) | 2015-11-02 |
US20150278312A1 (en) | 2015-10-01 |
US9858266B2 (en) | 2018-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11604956B2 (en) | Sequence-to-sequence prediction using a neural network model | |
RU2672394C1 (ru) | Способы и системы для оценки обучающих объектов посредством алгоритма машинного обучения | |
JP5751251B2 (ja) | 意味抽出装置、意味抽出方法、および、プログラム | |
CN111382255B (zh) | 用于问答处理的方法、装置、设备和介质 | |
JP6231944B2 (ja) | 学習モデル作成装置、判定システムおよび学習モデル作成方法 | |
US10552433B2 (en) | Evaluating quality of annotation | |
JP5939587B2 (ja) | アノテーションの相関を計算する装置及び方法 | |
CN107644051B (zh) | 用于同类实体分组的系统和方法 | |
CN112131322B (zh) | 时间序列分类方法及装置 | |
US20230045330A1 (en) | Multi-term query subsumption for document classification | |
JP2015075993A (ja) | 情報処理装置及び情報処理プログラム | |
CN113988157A (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
JPWO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
US20140317121A1 (en) | Supporting acquisition of information | |
JP2015018372A (ja) | 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム | |
JP5210224B2 (ja) | アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体 | |
JP5175585B2 (ja) | 文書処理装置、電子カルテ装置および文書処理プログラム | |
EP2638481A1 (en) | Seed set expansion | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN107608996B (zh) | 用于数据和信息源可靠性估计的系统和方法 | |
CN113868424A (zh) | 文本主题的确定方法、装置、计算机设备及存储介质 | |
CN113254650A (zh) | 一种基于知识图谱的评估推送方法、系统、设备和介质 | |
CN112712866A (zh) | 一种确定文本信息相似度的方法及装置 | |
JP2015203960A (ja) | 部分情報抽出システム | |
CN114861667B (zh) | 一种命名实体标签识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160105 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160115 |
|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160414 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160419 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20160419 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160511 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5939587 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |