JP6209492B2 - イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム - Google Patents

イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム Download PDF

Info

Publication number
JP6209492B2
JP6209492B2 JP2014120061A JP2014120061A JP6209492B2 JP 6209492 B2 JP6209492 B2 JP 6209492B2 JP 2014120061 A JP2014120061 A JP 2014120061A JP 2014120061 A JP2014120061 A JP 2014120061A JP 6209492 B2 JP6209492 B2 JP 6209492B2
Authority
JP
Japan
Prior art keywords
event
similarity
electronic documents
identity
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014120061A
Other languages
English (en)
Other versions
JP2015232855A (ja
Inventor
要 船越
船越  要
義昌 小池
義昌 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014120061A priority Critical patent/JP6209492B2/ja
Publication of JP2015232855A publication Critical patent/JP2015232855A/ja
Application granted granted Critical
Publication of JP6209492B2 publication Critical patent/JP6209492B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複数の電子文書(以下、文書とする。)の記述内容の同一性を判定する情報処理の技術に関する。
ブログに代表されるソーシャルテキストなどの文書の記述内容、即ち文書に記述された事実(以下、「イベント」と呼ぶ。)を抽出する方法として、該テキストからイベント情報を抽出する技術が提案されている。
例えば非特許文献1には、テキストに含まれる名前,場所,日時の三つの組を構造情報の利用により抽出してイベント情報として保存する方法が提案されている。このような方法によれば、ブログなどのソーシャルテキストの文書に記述されたイベント情報を保存し、再利用することが可能である。
ところが、テキストから抽出される複数のイベント情報が、同一のイベントを表現しているか否かについて判定する方法は提案されていない。この場合に考えられる方法の一つとしては、元となる文書間の類似度を計算し、該文書間が一定以上の類似度を持つ場合は同一のイベントについて記述された文書と判断し、抽出されたイベント情報を同一と認定する方法が考えられる。
文書間の類似度を計算する方法としては、情報検索分野で利用されているキーワードベクトルの比較がよく知られている(非特許文献2参照)。
数原良彦, 鈴木潤, 鷲崎誠司. 構造学習を用いたテキストからの地域イベント情報抽出. 人工知能学会全国大会2013 北研二, 津田和彦, 獅々堀正幹. 情報検索アルゴリズム. 共立出版, 2002.
ソーシャルテキスト中には、複数の文書に同一のイベントについて記述されていることが頻繁に発生している。そのため、ソーシャルテキスト中から抽出したイベントの情報を提供する際には、同一イベントを集約/排除するため、イベントの情報の同一性の判定を行うことが必要である。この場合、単純には名前,場所,日時などイベントを表現する情報が同一であれば、同一のイベントであるとみなすのが妥当と思われる。
しかしながら、ソーシャルテキスト中からイベントの名前,場所,日時を抽出する際に名前や場所,日時それぞれに記述が異なる場合が多く、複数文書に記述された同一のイベントを同じイベントとして集約することが困難なことが少なくない。
また、非特許文献2のようにキーワードベクトルを単純に同一性判定に利用する場合、同一であることを判別するための閾値を設定しなければならないが、イベント情報を対象として合理的に閾値を決定する方法は提案されていない。
本発明は、このような従来技術の問題を解決するためになされ、複数文書の表現するイベントの同一性を判定する際の閾値を適切に設定することを解決課題としている。
本発明のイベント同一性判定方法は、あらかじめイベントを特定するためのイベント情報の集合と、イベントの抽出元となった文書の文書情報の集合とから統計データを計算し、文書間における類似度の閾値を決定する閾値決定ステップと、判定対象のイベント情報に基づき文書を読み出して文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで文書間の同一性を判定する同一性判定ステップと、を有することを特徴としている。
本発明のイベント同一性判定装置は、あらかじめイベントを特定するためのイベント情報の集合と、イベントの抽出元となった文書の文書情報の集合とから統計データを計算し、文書間における類似度の閾値を決定する閾値決定部と、判定対象のイベント情報に基づき文書を読み出して文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで文書間の同一性を判定する同一性判定部と、を備えることを特徴としている。
なお、本発明は、前記イベント同一性判定装置としてコンピュータを機能させるプログラムとして構成することもできる。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。
本発明によれば、複数文書の表現するイベントの同一性を判定する際の閾値を適切に設定することができる。
本発明の実施形態に係るイベント同一性判定装置の構成図。 同一性判定部のバッチ処理フロー図。 同 増分処理フロー図。 閾値決定部の処理フロー図。 文書対の類似度分布(0.01刻み)のグラフ。 図6の説明図。
以下、本発明の実施形態に係るイベント同一性判定装置を説明する。このイベント同一性判定装置は、イベントの同一性判定においてイベントを記載した文書の特徴ベクトルを利用する。すなわち、特徴ベクトルを用いた類似度によりイベントの同一性を判定する際の閾値を最適化させている。
≪構成例≫
図1に基づき前記イベント同一性判定装置の構成例を説明する。このイベント判定装置100は、主にブログなどのソーシャルテキストの文書から抽出したイベント情報の提供に利用され、同一イベントの集約・排除のためにイベントの同一性を判定する。
このイベント同一性判定装置100は、コンピュータにより構成され、CPU,主記憶装置(RAM,ROM等),補助記憶装置(ハードディスクドライブ装置,「Flash SSD」等)などのハードウェアリソースを備える。
このハードウェアリソースとソフトウェアリソースとの協働の結果、前記イベント同一性判定装置100は、同一性判定部101,イベントDB102,文書DB103,閾値決定部104,閾値格納部105を実装する。この前記各DB102,103および前記格納部105は、それぞれ前記記憶装置に構築されているものとする。
Figure 0006209492
表1はイベントDB102の格納データ例を示し、該DB102にはイベントを特定するイベント情報が格納されている。ここではイベント情報として、イベントを同定するためのイベントIDと、抽出されたイベントの名称と、該イベントの開催地と、該イベントの開催日時と、表示しないイベントか否かを示す非表示フラグと、抽出元となった元文書の文書IDと、イベントDB102に格納された更新日時とがペアに記録されている。
Figure 0006209492
表2は文書DB103の格納データ例を示し、該DB103には文書情報が格納されている。ここでは文書情報として、前記イベントDB102の元文書IDから参照可能な文書ID(例えばURLなど)と、文書DB103に格納された更新日時と、本文テキストとがペアに記録されている。この本文テキストとしては、テキストそのまま、あるいは事前にテキストを形態素解析されたものでよい。
同一性判定部101は、イベントDB102に格納されたイベント情報を読み出した後にそれぞれのイベントの抽出元となった文書を文書DB103から抽出し、抽出された文書間の類似度を計算する。この計算後に閾値格納部105から閾値を読み出し、文書間の類似度と前記閾値とを対比する。この対比の結果、文書間の類似度が閾値以上であれば文書同士を同一と判定し、イベントDB102の表示フラグを更新する。
閾値決定部104は、あらかじめ前記両DB102,103のそれぞれの格納データを利用して前記閾値を決定する。ここで決定された前記閾値は閾値格納部105に保存される。以下、前記各部101,104の処理内容を説明する。
≪同一性判定部101≫
同一性判定部101の同一性判定は、前記各DB102,103の生成方法に応じてバッチ処理あるいは増分処理により実行される。すなわち、文書が定期的に解析され、複数のイベント情報が同時にイベントDB102に格納される場合はバッチ処理を行う。
一方、文書をストリームとして随時イベント抽出が処理され、一度に1つのイベント情報のみがイベントDB102に格納される場合は、その都度増分処理を行う。なお、増分処理を行う場合は定期的にバッチ処理を実行し、イベントDB102内のすべてのイベント情報について同一性判定を再計算することがある。
(1)バッチ処理
図2に基づき同一性判定部101のバッチ処理を説明する。ここでは既に閾値格納部105には閾値が格納されているものとする。
S201,S202:まず処理が開始されると、同一性判定部101は閾値格納部105から閾値を読み出す(S201)。この閾値は1つの数値とする。
つぎにイベントDB102からイベント情報を読み出す(S202)。このとき非表示フラグが「0」のイベント情報のみを選択して読み出すことで計算量を削減することができる。
S203,S204:同一性判定部101は、S202で読み出した各イベント情報の元文書IDに基づき文書DB103から文書情報を読み出す(S203)。その後にイベント情報および文書情報に基づき各文書の特徴ベクトルを生成し、生成した特徴ベクトルを中間ファイル、即ち文書の特徴ベクトルファイル210に格納する(S204)。
S205:同一性判定部101は、前記特徴ベクトルファイル210に格納されたすべての特徴ベクトルについてベクトル間の類似度を計算する。ここで計算されたベクトル間の類似度が閾値「θ」以上であれば、同一のイベントを扱った文書と判定する。
ここで同一と判定されたイベントはグループ化し、同一イベントグループと呼ぶ。同一イベントグループの内、更新日に基づいて1つのイベントを選択し、選択されたイベントの非表示フラグを「0」のままとする。一方、同一イベントグループ内の選択されたイベント以外の他のイベントは、「1」以上に設定してイベントDB102のレコードを更新し、処理を終了する。
(2)増分処理
図3に基づき同一性判定部101の増分処理を説明する。ここでは処理が始まる前において、既にバッチ処理によりイベントDB102内の既存のイベント情報について文書の特徴ベクトルが計算されているものとする。ここで計算された特徴ベクトルは事前に中間ファイル、即ち特徴ベクトルファイル310に格納されているものとする。
S301:まず処理が開始されると、S201と同じく同一性判定部101は閾値格納部105から閾値を読み出す。ここで読みだされる閾値も1つの数値とする。
S302:つぎに同一性判定部101は、イベントDB102から最新のイベント情報を1件読み出す。このとき最新のイベント情報、即ち未処理のイベント情報が格納されていなければ、該最新のイベント情報が読み出し可能となるまで処理を中断するものとする。
S303,S304:同一性判定部101は、S302で読み出した各イベント情報の元文書IDに基づき文書DB103から文書情報を読み出す(S303)。その後にイベント情報および文書情報に基づき各文書の特徴ベクトルを生成し、生成した特徴ベクトルを前記特徴ベクトルファイル310に格納する(S304)。
S305:同一性判定部101は、S304で新たに格納した当該特徴ベクトルについて、前記特徴ベクトルファイル310中における既存のすべての特徴ベクトルとの間での類似度を計算する。
このベクトル間の類似度が閾値「θ」以上であれば、同一のイベントを扱った文書と判定する。ここで他のイベントと同一のイベントと判定されたイベントについては、イベント情報の表示フラグを「1」以上に設定してイベントDB102のレコードを更新する。この処理の終了後にS302に戻る。
≪閾値決定部104≫
図4に基づき閾値決定部104の処理内容を説明する。処理が開始されると、閾値決定部104はイベント情報をイベントDB102から読みだす(S401)。このイベント情報に対応する文書情報を、元文書IDに基づき文書DBから読みだす(S402)。
S401,S402で読みだされたイベント情報の集合および文書情報の集合から統計データを計算し、閾値を決定する(S403)。決定された閾値を閾値格納部105に格納して処理を終了する。
≪具体的な処理内容≫
(1)類似度計算
同一性判定部101における類似度計算(S205,S305)の一例として、単語集合による類似度計算、即ちちキーワードによる重みベクトルを用いた類似度計算を説明する。
この類似度計算では、文書に含まれる単語を等しく扱ってキーワード毎の重みベクトルとし、この重みベクトルを文書の特徴ベクトルとする。この重みベクトルの構成方法としては非特許文献2に記載された手法を採用することができる。
具体的にはS202,S302で読みだした文書情報について、文書のテキストを形態素解析して単語に分割して単語毎の重みベクトルを構成し、ベクトル間の類似度を計算する。
重みベクトルの構成方法としては、単語を個別に特徴ベクトルに変換するのではなく、文書テキスト中の単語の連接を要素とする特徴ベクトルを構成する。これによりイベントについての特徴的な表現を「形容詞+名詞」などの形式(例えば「ソウルフルなディーヴァ」や「笑いあり涙あり」)を特徴ベクトルとすることができる。
この場合、対比される文書における特徴ベクトル間の計算には、コサイン距離と呼ばれる指標が使用される。例えば二つの文書の「特徴ベクトルdi,dj」についての類似度は式(1)で与えられる。
Figure 0006209492
ただし、「θij」は「di,dj」のなす角を表し、「x・y」は二つのベクトルの内積を表し、「||x||」はベクトルのノルムを表している。
(2)閾値の決定
前述のキーワードによる重みベクトルを用いた類似度計算を用いた場合、イベントの同一性判定には類似度の閾値を設定する必要がある。ここでは類似度の閾値を実験的に求める方法を説明する。
この方法は、ある分量の文書集合から抽出されたイベント集合について文書間の類似度を求め、その分布から閾値を決定する。ここでは「2013年10月〜2014年1月」までの3ヶ月間に記述されたブログから抽出したイベント集合の内、無作為に選択した「10,988」件のイベント情報について、文書内の単語の出現頻度に基づいて重みベクトルを構成して類似度を計算した。
図5は計算結果の類似度の分布を、横軸に類似度:縦軸にイベント対の個数(対数)としてグラフ化した状態を示している。ここでは同一イベントが含まれていない場合、グラフは概ね右に向かって単調に減少することが期待される。すなわち、異なるイベントについて言及した文書対について、大部分は類似度「0」の付近に分布し、類似度が高い(「1」に近い)文書対は類似度が低い文書対よりも少なくなることが予想される。
ところが、図6に示すように、大部分の文書対の類似度が「0」付近に分布していることは予想通りであるものの、類似度「0.6〜0.8」を谷間として、「0.8」よりも類似度が高い領域で文書対の数が増加していることが判明した。
したがって、この場合は類似度「0.6〜0.8」の間に閾値を設定すればよく、偶然に閾値以上の類似度となる文書対が存在する可能性は残るものの、全体からみれば少なく、実用上は問題にならないと考えられる。
このような分布から閾値を設定する方法として、スライディングウインドウを使用する方法が考えられる。例えば類似度を「0.01」刻みで度数化し、類似度「0〜0.01」のイベント対の個数を「a1」とし、類似度「0.01〜0.02」のイベント対の個数を「a2」とし、以下同様に類似度「(k−0.01)〜k」のイベント対の個数を「ak」とする(類似度が0.01刻みの場合は、k=1,...,100)。
このときウインドウサイズwについて、「i」を「1」から順に増加し、ウインドウサイズ毎のイベント対の個数の和が上昇に転じた点を閾値とする。より厳密には、類似度の範囲を「n」個に分割したときの閾値は式(2)によって得られる。なお、式(2)の「min」は集合内の要素の内で最小の値を示している。
Figure 0006209492
あるいは同様にスライディングウインドウによって分布を平準化した上で、最も度数の小さい区間の中央を閾値とする。この場合の閾値は式(3)によって得ることができる。
Figure 0006209492
このようにイベント同一性判定装置100によれば、複数文書の表現するイベントの同一性を判定する際の閾値が実験的に求められる。このとき実験で得られた分布からスライディングウインドウに基づき機械的に適切な閾値に設定することができる。
≪その他・プログラム≫
本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で変形して実施することができる。例えば閾値決定部104および閾値格納部105をクラウド化することもできる。
また、本発明は、イベント同一性判定装置100の各部101〜105の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによればS201〜S205,S301〜S305,S401〜S404の一部あるいは全部をコンピュータに実行させることが可能となる。
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
100…イベント同一性判定装置
101…同一性判定部
102…イベントDB
103…文書DB
104…閾値決定部
105…閾値格納部
210,310…特徴ベクトルファイル(中間ファイル)

Claims (5)

  1. コンピュータにより複数の電子文書に記述されたイベントの同一性を判定するイベント同一性判定方法であって、
    あらかじめ前記イベントを特定するためのイベント情報の集合と、前記イベントの抽出元となった電子文書の文書情報の集合とから統計データを計算し、電子文書間における類似度の閾値を決定する閾値決定ステップと、
    判定対象のイベント情報に基づき電子文書を読み出して電子文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで電子文書間のイベントの同一性を判定する同一性判定ステップと、を有し、
    前記閾値決定ステップは、あらかじめ前記イベント情報の集合に基づき電子文書の集合について文書間の類似度を算出するステップと、
    算出された類似度の分布を、横軸が類似度で縦軸がイベント対の個数としてグラフ化するステップと、
    前記グラフ中、前記類似度を任意値刻みで度数化させたスライディングウインドウ化し、前記度数を徐々に増やしたときにウインドウサイズ毎のイベント対の個数和が減少傾向から増加傾向に転じた箇所を前記閾値とするステップと、
    を有することを特徴とするイベント同一性判定方法。
  2. コンピュータにより複数の電子文書に記述されたイベントの同一性を判定するイベント同一性判定方法であって、
    あらかじめ前記イベントを特定するためのイベント情報の集合と、前記イベントの抽出元となった電子文書の文書情報の集合とから統計データを計算し、電子文書間における類似度の閾値を決定する閾値決定ステップと、
    判定対象のイベント情報に基づき電子文書を読み出して電子文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで電子文書間のイベントの同一性を判定する同一性判定ステップと、を有し、
    前記閾値決定ステップは、あらかじめ前記イベント情報の集合に基づき電子文書の集合について文書間の類似度を算出するステップと、
    算出された類似度の分布を、横軸が類似度で縦軸がイベント対の個数としてグラフ化するステップと、
    前記グラフ中、前記類似度を任意値刻みで度数化させたスライディングウインドウによって分布を平準化した上で、最も度数の小さい区間の中央を前記閾値とするステップと、
    を有することを特徴とするイベント同一性判定方法。
  3. 複数の電子文書に記述されたイベントの同一性を判定するイベント同一性判定装置であって、
    あらかじめ前記イベントを特定するためのイベント情報の集合と、前記イベントの抽出元となった電子文書の文書情報の集合とから統計データを計算し、電子文書間における類似度の閾値を決定する閾値決定部と、
    判定対象のイベント情報に基づき電子文書を読み出して電子文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで電子文書間のイベントの同一性を判定する同一性判定部と、を備え、
    前記閾値決定部は、あらかじめ前記イベント情報の集合に基づき電子文書の集合について文書間の類似度を算出する手段と、
    算出された類似度の分布を、横軸が類似度で縦軸がイベント対の個数としてグラフ化する手段と、
    前記グラフ中、前記類似度を任意値刻みで度数化させたスライディングウインドウ化し、前記度数を徐々に増やしたときにウインドウサイズ毎のイベント対の個数和が減少傾向から増加傾向に転じた箇所を前記閾値とする手段と、
    を備えることを特徴とするイベント同一性判定装置。
  4. 複数の電子文書に記述されたイベントの同一性を判定するイベント同一性判定装置であって、
    あらかじめ前記イベントを特定するためのイベント情報の集合と、前記イベントの抽出元となった電子文書の文書情報の集合とから統計データを計算し、電子文書間における類似度の閾値を決定する閾値決定部と、
    判定対象のイベント情報に基づき電子文書を読み出して電子文書間の類似度を算出し、算出された類似度と前記閾値とを対比することで電子文書間のイベントの同一性を判定する同一性判定部と、を備え、
    前記閾値決定部は、あらかじめ前記イベント情報の集合に基づき電子文書の集合について文書間の類似度を算出する手段と、 算出された類似度の分布を、横軸が類似度で縦軸がイベント対の個数としてグラフ化する手段と、
    前記グラフ中、前記類似度を任意値刻みで度数化させたスライディングウインドウによって分布を平準化した上で、最も度数の小さい区間の中央を前記閾値とする手段と、
    を備えることを特徴とするイベント同一性判定装置
  5. 請求項3または4記載のイベント同一性判定装置としてコンピュータを機能させるイベント同一性判定プログラム。
JP2014120061A 2014-06-11 2014-06-11 イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム Active JP6209492B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014120061A JP6209492B2 (ja) 2014-06-11 2014-06-11 イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014120061A JP6209492B2 (ja) 2014-06-11 2014-06-11 イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム

Publications (2)

Publication Number Publication Date
JP2015232855A JP2015232855A (ja) 2015-12-24
JP6209492B2 true JP6209492B2 (ja) 2017-10-04

Family

ID=54934237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014120061A Active JP6209492B2 (ja) 2014-06-11 2014-06-11 イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム

Country Status (1)

Country Link
JP (1) JP6209492B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722593B (zh) * 2021-08-31 2024-01-16 北京百度网讯科技有限公司 事件数据处理方法、装置、电子设备和介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145288A (ja) * 1997-07-29 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2001331529A (ja) * 2000-03-17 2001-11-30 Fujitsu Ltd ニュース情報提示装置および提示方法
US7293019B2 (en) * 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US7603370B2 (en) * 2004-03-22 2009-10-13 Microsoft Corporation Method for duplicate detection and suppression
JP4784450B2 (ja) * 2006-09-11 2011-10-05 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2011227688A (ja) * 2010-04-20 2011-11-10 Univ Of Tokyo テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
WO2013089260A1 (ja) * 2011-12-12 2013-06-20 日本電気株式会社 画像処理システム及び画像処理方法
JP5223018B1 (ja) * 2012-05-30 2013-06-26 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体

Also Published As

Publication number Publication date
JP2015232855A (ja) 2015-12-24

Similar Documents

Publication Publication Date Title
US11562012B2 (en) System and method for providing technology assisted data review with optimizing features
US10339468B1 (en) Curating training data for incremental re-training of a predictive model
JP5011830B2 (ja) データ処理方法、データ処理プログラム、該プログラムを記録した記録媒体およびデータ処理装置
US9967218B2 (en) Online active learning in user-generated content streams
Ahmed et al. Defining big data and measuring its associated trends in the field of information and library management
US20130191395A1 (en) Social media data analysis system and method
US10698800B2 (en) Indicating a readiness of a change for implementation into a computer program
Hartmann Large-deviation properties of largest component for random graphs
US10467252B1 (en) Document classification and characterization using human judgment, tiered similarity analysis and language/concept analysis
US10600501B2 (en) System and methods for identifying a base call included in a target sequence
JP2019512127A (ja) 文字列距離計算方法及び装置
US20170097962A1 (en) Topic mining method and apparatus
US20140229496A1 (en) Information processing device, information processing method, and computer program product
JP6209492B2 (ja) イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム
JP2016031629A (ja) 特徴選択装置、特徴選択システム、特徴選択方法、および、特徴選択プログラム
CN112364012A (zh) 数据特征确定方法、装置及电子设备
JP5756052B2 (ja) ユーザ属性推定装置及び方法及びプログラム
JP2014115911A (ja) 情報推薦装置、情報推薦方法、及び情報推薦プログラム
JP6321529B2 (ja) 情報信憑性判定システム、情報信憑性判定方法、情報信憑性判定プログラム
Kleerekoper et al. A scalable implementation of information theoretic feature selection for high dimensional data
JP2021124949A (ja) 機械学習モデル圧縮システム、プルーニング方法及びプログラム
CN112860626A (zh) 一种文档排序方法、装置及电子设备
CN106598986B (zh) 相似度计算的方法及装置
AU2017100013A4 (en) Clustering coefficient-based adaptive clustering method and system
US10528608B2 (en) Queries

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170704

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170911

R150 Certificate of patent or registration of utility model

Ref document number: 6209492

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150