JP6209492B2 - イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム - Google Patents
イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム Download PDFInfo
- Publication number
- JP6209492B2 JP6209492B2 JP2014120061A JP2014120061A JP6209492B2 JP 6209492 B2 JP6209492 B2 JP 6209492B2 JP 2014120061 A JP2014120061 A JP 2014120061A JP 2014120061 A JP2014120061 A JP 2014120061A JP 6209492 B2 JP6209492 B2 JP 6209492B2
- Authority
- JP
- Japan
- Prior art keywords
- event
- similarity
- electronic documents
- identity
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
図1に基づき前記イベント同一性判定装置の構成例を説明する。このイベント判定装置100は、主にブログなどのソーシャルテキストの文書から抽出したイベント情報の提供に利用され、同一イベントの集約・排除のためにイベントの同一性を判定する。
同一性判定部101の同一性判定は、前記各DB102,103の生成方法に応じてバッチ処理あるいは増分処理により実行される。すなわち、文書が定期的に解析され、複数のイベント情報が同時にイベントDB102に格納される場合はバッチ処理を行う。
図2に基づき同一性判定部101のバッチ処理を説明する。ここでは既に閾値格納部105には閾値が格納されているものとする。
図3に基づき同一性判定部101の増分処理を説明する。ここでは処理が始まる前において、既にバッチ処理によりイベントDB102内の既存のイベント情報について文書の特徴ベクトルが計算されているものとする。ここで計算された特徴ベクトルは事前に中間ファイル、即ち特徴ベクトルファイル310に格納されているものとする。
図4に基づき閾値決定部104の処理内容を説明する。処理が開始されると、閾値決定部104はイベント情報をイベントDB102から読みだす(S401)。このイベント情報に対応する文書情報を、元文書IDに基づき文書DBから読みだす(S402)。
(1)類似度計算
同一性判定部101における類似度計算(S205,S305)の一例として、単語集合による類似度計算、即ちちキーワードによる重みベクトルを用いた類似度計算を説明する。
前述のキーワードによる重みベクトルを用いた類似度計算を用いた場合、イベントの同一性判定には類似度の閾値を設定する必要がある。ここでは類似度の閾値を実験的に求める方法を説明する。
本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で変形して実施することができる。例えば閾値決定部104および閾値格納部105をクラウド化することもできる。
101…同一性判定部
102…イベントDB
103…文書DB
104…閾値決定部
105…閾値格納部
210,310…特徴ベクトルファイル(中間ファイル)
Claims (5)
- コンピュータにより複数の電子文書に記述されたイベントの同一性を判定するイベント同一性判定方法であって、
あらかじめ前記イベントを特定するためのイベント情報の集合と、前記イベントの抽出元となった電子文書の文書情報の集合とから統計データを計算し、電子文書間における類似度の閾値を決定する閾値決定ステップと、
判定対象のイベント情報に基づき電子文書を読み出して電子文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで電子文書間のイベントの同一性を判定する同一性判定ステップと、を有し、
前記閾値決定ステップは、あらかじめ前記イベント情報の集合に基づき電子文書の集合について文書間の類似度を算出するステップと、
算出された類似度の分布を、横軸が類似度で縦軸がイベント対の個数としてグラフ化するステップと、
前記グラフ中、前記類似度を任意値刻みで度数化させたスライディングウインドウ化し、前記度数を徐々に増やしたときにウインドウサイズ毎のイベント対の個数和が減少傾向から増加傾向に転じた箇所を前記閾値とするステップと、
を有することを特徴とするイベント同一性判定方法。 - コンピュータにより複数の電子文書に記述されたイベントの同一性を判定するイベント同一性判定方法であって、
あらかじめ前記イベントを特定するためのイベント情報の集合と、前記イベントの抽出元となった電子文書の文書情報の集合とから統計データを計算し、電子文書間における類似度の閾値を決定する閾値決定ステップと、
判定対象のイベント情報に基づき電子文書を読み出して電子文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで電子文書間のイベントの同一性を判定する同一性判定ステップと、を有し、
前記閾値決定ステップは、あらかじめ前記イベント情報の集合に基づき電子文書の集合について文書間の類似度を算出するステップと、
算出された類似度の分布を、横軸が類似度で縦軸がイベント対の個数としてグラフ化するステップと、
前記グラフ中、前記類似度を任意値刻みで度数化させたスライディングウインドウによって分布を平準化した上で、最も度数の小さい区間の中央を前記閾値とするステップと、
を有することを特徴とするイベント同一性判定方法。 - 複数の電子文書に記述されたイベントの同一性を判定するイベント同一性判定装置であって、
あらかじめ前記イベントを特定するためのイベント情報の集合と、前記イベントの抽出元となった電子文書の文書情報の集合とから統計データを計算し、電子文書間における類似度の閾値を決定する閾値決定部と、
判定対象のイベント情報に基づき電子文書を読み出して電子文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで電子文書間のイベントの同一性を判定する同一性判定部と、を備え、
前記閾値決定部は、あらかじめ前記イベント情報の集合に基づき電子文書の集合について文書間の類似度を算出する手段と、
算出された類似度の分布を、横軸が類似度で縦軸がイベント対の個数としてグラフ化する手段と、
前記グラフ中、前記類似度を任意値刻みで度数化させたスライディングウインドウ化し、前記度数を徐々に増やしたときにウインドウサイズ毎のイベント対の個数和が減少傾向から増加傾向に転じた箇所を前記閾値とする手段と、
を備えることを特徴とするイベント同一性判定装置。 - 複数の電子文書に記述されたイベントの同一性を判定するイベント同一性判定装置であって、
あらかじめ前記イベントを特定するためのイベント情報の集合と、前記イベントの抽出元となった電子文書の文書情報の集合とから統計データを計算し、電子文書間における類似度の閾値を決定する閾値決定部と、
判定対象のイベント情報に基づき電子文書を読み出して電子文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで電子文書間のイベントの同一性を判定する同一性判定部と、を備え、
前記閾値決定部は、あらかじめ前記イベント情報の集合に基づき電子文書の集合について文書間の類似度を算出する手段と、 算出された類似度の分布を、横軸が類似度で縦軸がイベント対の個数としてグラフ化する手段と、
前記グラフ中、前記類似度を任意値刻みで度数化させたスライディングウインドウによって分布を平準化した上で、最も度数の小さい区間の中央を前記閾値とする手段と、
を備えることを特徴とするイベント同一性判定装置 - 請求項3または4記載のイベント同一性判定装置としてコンピュータを機能させるイベント同一性判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014120061A JP6209492B2 (ja) | 2014-06-11 | 2014-06-11 | イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014120061A JP6209492B2 (ja) | 2014-06-11 | 2014-06-11 | イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015232855A JP2015232855A (ja) | 2015-12-24 |
JP6209492B2 true JP6209492B2 (ja) | 2017-10-04 |
Family
ID=54934237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014120061A Active JP6209492B2 (ja) | 2014-06-11 | 2014-06-11 | イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6209492B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722593B (zh) * | 2021-08-31 | 2024-01-16 | 北京百度网讯科技有限公司 | 事件数据处理方法、装置、电子设备和介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145288A (ja) * | 1997-07-29 | 1999-02-16 | Just Syst Corp | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 |
JP2001331529A (ja) * | 2000-03-17 | 2001-11-30 | Fujitsu Ltd | ニュース情報提示装置および提示方法 |
US7293019B2 (en) * | 2004-03-02 | 2007-11-06 | Microsoft Corporation | Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics |
US7603370B2 (en) * | 2004-03-22 | 2009-10-13 | Microsoft Corporation | Method for duplicate detection and suppression |
JP4784450B2 (ja) * | 2006-09-11 | 2011-10-05 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2011227688A (ja) * | 2010-04-20 | 2011-11-10 | Univ Of Tokyo | テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置 |
WO2013089260A1 (ja) * | 2011-12-12 | 2013-06-20 | 日本電気株式会社 | 画像処理システム及び画像処理方法 |
JP5223018B1 (ja) * | 2012-05-30 | 2013-06-26 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体 |
-
2014
- 2014-06-11 JP JP2014120061A patent/JP6209492B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015232855A (ja) | 2015-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11562012B2 (en) | System and method for providing technology assisted data review with optimizing features | |
US10339468B1 (en) | Curating training data for incremental re-training of a predictive model | |
JP5011830B2 (ja) | データ処理方法、データ処理プログラム、該プログラムを記録した記録媒体およびデータ処理装置 | |
US9967218B2 (en) | Online active learning in user-generated content streams | |
Ahmed et al. | Defining big data and measuring its associated trends in the field of information and library management | |
US20130191395A1 (en) | Social media data analysis system and method | |
US10698800B2 (en) | Indicating a readiness of a change for implementation into a computer program | |
Hartmann | Large-deviation properties of largest component for random graphs | |
US10467252B1 (en) | Document classification and characterization using human judgment, tiered similarity analysis and language/concept analysis | |
US10600501B2 (en) | System and methods for identifying a base call included in a target sequence | |
JP2019512127A (ja) | 文字列距離計算方法及び装置 | |
US20170097962A1 (en) | Topic mining method and apparatus | |
US20140229496A1 (en) | Information processing device, information processing method, and computer program product | |
JP6209492B2 (ja) | イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム | |
JP2016031629A (ja) | 特徴選択装置、特徴選択システム、特徴選択方法、および、特徴選択プログラム | |
CN112364012A (zh) | 数据特征确定方法、装置及电子设备 | |
JP5756052B2 (ja) | ユーザ属性推定装置及び方法及びプログラム | |
JP2014115911A (ja) | 情報推薦装置、情報推薦方法、及び情報推薦プログラム | |
JP6321529B2 (ja) | 情報信憑性判定システム、情報信憑性判定方法、情報信憑性判定プログラム | |
Kleerekoper et al. | A scalable implementation of information theoretic feature selection for high dimensional data | |
JP2021124949A (ja) | 機械学習モデル圧縮システム、プルーニング方法及びプログラム | |
CN112860626A (zh) | 一种文档排序方法、装置及电子设备 | |
CN106598986B (zh) | 相似度计算的方法及装置 | |
AU2017100013A4 (en) | Clustering coefficient-based adaptive clustering method and system | |
US10528608B2 (en) | Queries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160915 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170704 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170824 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170911 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6209492 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |