JP2012164097A - 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 - Google Patents
時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 Download PDFInfo
- Publication number
- JP2012164097A JP2012164097A JP2011023339A JP2011023339A JP2012164097A JP 2012164097 A JP2012164097 A JP 2012164097A JP 2011023339 A JP2011023339 A JP 2011023339A JP 2011023339 A JP2011023339 A JP 2011023339A JP 2012164097 A JP2012164097 A JP 2012164097A
- Authority
- JP
- Japan
- Prior art keywords
- information
- time
- series
- text data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 168
- 230000007704 transition Effects 0.000 claims abstract description 77
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 230000002776 aggregation Effects 0.000 claims abstract description 13
- 238000004220 aggregation Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 133
- 238000004364 calculation method Methods 0.000 claims description 36
- 230000007423 decrease Effects 0.000 claims description 24
- 238000010801 machine learning Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000004931 aggregating effect Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 41
- 238000012986 modification Methods 0.000 description 36
- 230000004048 modification Effects 0.000 description 36
- 238000012545 processing Methods 0.000 description 29
- 230000006870 function Effects 0.000 description 20
- 238000002474 experimental method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 230000014616 translation Effects 0.000 description 7
- 230000000877 morphologic effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000965477 Darksidea delta Species 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 241001074085 Scophthalmus aquosus Species 0.000 description 1
- 241001417871 Silurus asotus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置であって、複数の異なる時系列的テキストデータを取得する時系列的テキストデータ取得部と、解析の対象となるテキスト情報を取得する解析対象情報取得部と、前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出する共起情報抽出部と、前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する時系列係数付与部と、前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計する集計部と、前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析する変遷状態解析部と、前記変遷状態を出力する出力部と、を備える、情報解析装置。
【選択図】図1
Description
第一に、特許文献1の技術では、著者名の先輩・後輩関係、研究分野の先祖・子孫関係などのキーワード同士の変遷状態を把握することは困難である。
[スキームの説明]
図1は、本実施形態に係る情報解析装置を用いた人名の変遷情報の推定方法のスキームについて説明するための概念図である。以下、本実施形態に係る情報解析装置の構成・動作について人名の変遷情報の推定方法に用いる場合を例に挙げて説明する。
手順1 論文から著者名データ(本論文では著者名と共著の人名を合わせたものを著者名データとする)を抽出し、その中から指定した人名を抽出し人名Aとする。
手順2 人名Aを含む著者名データを取り出し、その中より(最初の時期によく共起した情報を取り出したいため)出現年の早いものから10件の著者名データを取り出す。
手順3 その10件の著者名データから共起している人名すべてを取り出し、人名Bj(jは整数。Bjは共起している人名の異なり数だけ設定する。)とする。後述する方法で重みを付け、出現した論文の分だけ人名Bjごとにその重みを加算する。
手順4 初出現年が人名Aの初出現年よりも早く、重みが最も大きい人名(人名B)を人名Aのルーツとする。
図2は、本実施形態に係る情報解析装置の構成について説明するための機能ブロック図である。本実施形態に係る情報解析装置1000は、時系列情報とテキスト情報とを含む時系列的テキストデータを解析するための装置である。この情報解析装置1000を用いれば、上記の人名の変遷情報の推定方法のスキームを効率かつ精度良く実行することができる。
時系列データの例:
論文1 A B C 1990
論文2 A C D 1991
論文3 A B E 1992
A
|−−A1
|−−−A12
|−−−−−−−A13
|−−−−A2
|−−−A22
横軸は出現年で、出現年の個所に単語を書くこととする。また、A1の子にA12、A13と二つ子があった場合は、A12とA13のうちでは、出現年の早い方を上に書く。
Aの折れ線グラフ
A1の折れ線グラフ
A12の折れ線グラフ
A13の折れ線グラフ
A2の折れ線グラフ
A22の折れ線グラフ
のように、表示することが可能である。横軸は時間軸で各折れ線グラフではAの単語の出現頻度を縦軸に取る。また、各折れ線グラフは、上下離して表記する。折れ線グラフは、特許公開2007−79899のように、バブルチャートでも、等高線図でもよい。この場合、折れ線グラフの始まり地点をみれば、
A
|−−A1
|−−−A12
|−−−−−−−A13
|−−−−A2
|−−−A22
の情報を復元可能であるので、この図でも、親子関係の木構造の情報を維持できる。
この表示方法(表示方法B)の利点は、親子関係の情報と、頻度の時系列的変化を同時に眺めることができることである。
図4は、実施形態に係る情報解析装置1000の動作について説明するためのフローチャートである。まず、動作を開始すると、時系列的テキストデータ取得部102が複数の異なる時系列的テキストデータを取得する(S102)。次いで、解析対象情報取得部104が解析の対象となるテキスト情報を取得する(S104)。そして、共起情報抽出部112が、複数の異なる時系列的テキストデータから、解析対象情報と共起する他の同属性の共起情報を抽出する(S106)。その後、時系列係数付与部114が、解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する(S108)。続いて、集計部116が、共起情報を含む複数の時系列的テキストデータに付与されている時系列係数を共起情報ごとに集計する(S110)。次に、変遷状態解析部118が、集計部116の集計結果に基づいて、解析対象情報と共起情報との間の時系列的な変遷状態を解析する(S112)。そして、出力部120が、変遷状態を出力して(S114)、一連の動作が終了する。
言語処理学会年次大会の論文1995年から2010年の3、139件のデータを使用し、人名のルーツとなるものを抽出した。出力例を以下の表1に示す。
は,a=0.5のものである。なお、表2に列挙したいずれの人名の先輩・後輩関係についても正解である。
論文1 A B C 1990
論文2 A C D 1991
論文3 A B E 1992
のようなデータが与えられた場合、
Aの初出を1990とし、B−Eの出現年を1990より前の出現年とする。
得点の与え方はAの出現した最初の論文から順に、1,a,a^2,a^3を与える。aは実験で定めるパラメータである。ただし、初出年が自分より後のものは先祖にならない。
B−−−1+0.25=1.25
C−−−1+0.5=1.5
D−−−0.5
E−−−0.25
のようになり、Cの得点が最も高いので、CをAの先祖と考える。
[スキームの説明]
本変形例のスキームも、著者を特定するための情報を含む著者情報の一種である「人名」の代わりにタイトルのキーワードの一種である「分野名」を用いることを除いては、基本的には人名の変遷情報の推定方法のスキームと同じである。
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w∈Wで加算
の式で表すΣで加算する前のものを単語wの重みとし、その単語の重みの高いものを取り出す方法である。また、電子情報通信学会、2003年12月,86巻,12号,p.959−963に記載されている手法を好適に用いることができる。具体的には、質問応答システムの一般的構成を応用したモデルを用いることができる。すなわち、解表現の推定、文書検索、解の抽出の3ステップを含む質問応答システムを応用したキーワードの抽出モデルである。また、情報処理学会、自然言語処理研究会、2004−NL−160、2004年、九州大学に記載されている手法を好適に用いることができる。具体的には、質問応答システムの精度向上のために複数の記事から得られた解の候補の得点を加算する(その際、単純に得点を加算せず、得点を少しずつ減らしながら加算する)ことで複数の記事の情報を利用するモデルである。
本変形例の装置構成も基本的には上記の実施形態の図2及び図3の装置構成と同様である。しかし、この変形例では、解析すべき対象が人名ではなく研究分野名であるため、標準的なデータ形式の論文の電子データに含まれるタイトルの欄はそのままではどこがキーワードかわからない。そのため、まずは、タイトルの欄が形態素解析部108にて品詞毎に分割される。形態素解析部108で用いる日本語の形態素解析エンジンとしては、以下のものを好適に活用できる。
MeCab(和布蕪)、mecab.sourceforge.net
ChaSen(茶筌)、chasen.naist.jp
Juman、nlp.kuee.kyoto-u.ac.jp
Sen(MeCabのJava(登録商標)への移植)、ultimania.org、sen.dev.java.net
日本語形態素解析Webサービス(Yahoo!デベロッパーネットワーク)、developer.yahoo.co.jp
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
Ven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging, Computational Linguistics, Vol.21, No.4, p.543-565, 1995. 参照)のものが有名であり、英語文の各単語の品詞を推定することができる。
TF−−−その文書でのその語の出現回数
IDF−−−その語があらかじめ持っている多数の文書のうち,何個の文書に出現するかのその個数の逆数
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w∈Wで加算
W はユーザが入力するキーワードの集合。
tf(w,D) は文書D での w の出現回数。
df(w) は全文書で w が出現した文書の数。
N は文書の総数。
score(D) が高い文書を検索結果として出力する。
length は記事Dの長さ。
delta は記事の長さの平均。
記事の長さは、記事のバイト数、また、記事に含まれる単語数などを使う。
言語処理学会年次大会の論文1995年から2010年の3、139件のデータを使用し、分野名のルーツとなるものを抽出した。出力例を以下の表3に示す。
繰り返しになるが、要約して説明すると、本実施形態では、上述の実施形態で説明したA、B1、B2などは、著者の人名ではなく、代わりに論文のタイトルに出現するキーワードを利用する。論文タイトルからのキーワードの取り出しには既存の技術が利用可能である。例えば、形態素解析システムChaSenを使うと単語の分割と品詞推定ができる。そこで名詞のみを取り出すことでキーワードを取り出せる。また、既存のキーワード抽出ソフトの利用も可能である。例えばgensenを用いることができる。
[スキームの説明]
本変形例のスキームも、後述する二段階処理を行う点を除けば、基本的には分野名の変遷情報の推定方法のスキームと同じである。すなわち、本変形例では、タイトルから得た単語を分野名として利用することで、分野の変遷情報を取得できることはすでにのべた通りであるが、これの発展として、分野間の関連性をより多く取るために後述する二段階処理を行う。
論文1 タイトル中の単語A、単語B、単語C
論文2 タイトル中の単語B、単語B1、単語B2
論文3 タイトル中の単語C、単語C1、単語C2
単語B、C、B1、B2、C1、C2は論文1より前に出ており、
単語Aは論文1で初出、論文2、3は論文1より前に出ているとする。
論文4 タイトル中の単語A、単語C
論文3 タイトル中の単語C、単語C1、単語C2
図5は、本変形例に係る情報解析装置の構成について説明するための機能ブロック図である。本変形例の装置構成も基本的には上記の実施形態の図2及び図3の装置構成と同様である。しかし、この変形例では、直接の共起のある単語以外の単語にも得点を与えるため、図5に示すように、本変形例に係る情報解析装置1000には間接共起情報抽出部113及び関連係数付与部115が設けられている点で異なっている。
本変形例でも、変形例1の場合と同様に、著者の人名ではなく、タイトルの単語(キーワード)で上記の実施形態と同様の解析を行うと、タイトルの単語は重要単語であることが多く、タイトルの単語が研究分野を意味することがあり、研究分野の変遷の情報(どの研究分野からどの研究分野が生まれたかを見ることができる。
[スキームの説明]
図5は、本変形例に係る情報解析装置の構成について説明するための機能ブロック図である。本変形例のスキームも、あらかじめ機械学習を行って好適な係数を求める点を除けば上述の二段階処理を行うスキームと同じである。すなわち、本変形例でも、二段階処理を行ってタイトルから得た単語を分野名として利用することで、分野の変遷情報を取得できることはすでにのべた通りであるが、これの発展としてあらかじめ好適な係数を求めておくために機械学習を行う。
上記の実施形態(変形例を含む)の作用効果が先行技術よりも優れていることを示すために、先行技術との対比結果を示す実施例について以下説明する。まず、人名Aとして44件、分野名Aとして32件を使用し本実施例の正解率を算出した。評価は言語処理学会に精通している人物が行った。結果として出力された人名B(または分野名B)の部分はランダムに表示して評価を行っている。評価の基準を次に示す。
分野名 言語処理学会においてルーツである分野名1つとして考えられるもの。
川中らの先行研究では、ソーシャルブックマークサービス(SBM)を解析することで研究を行っている。SBMとはWeb上のブックマーク管理、共有サービスのことである。先行研究では、Web上の様々なドキュメントについてユーザが付与したタグを用いている。今回本実験では、論文のデータを用いて、本実施例と先行研究の手法の比較実験を行う。
手順1 本実施例と同様。
手順2 人名Aを含む著者名データを取り出し、その中より出現年の早いものからm件の著者名データを取り出す。
手順3 そのm件の著者名データから共起している人名すべてを人名Bの候補として取り出し、相互情報量に基づく方法で共起度を測り、順に並べる。
手順4 本実施例と同様。
なお、上記の手順2で用いる「最初の著者名m件」のmの値を1から10に変化させ、違いを見る。
104 解析対象情報取得部
106 正規化部
108 形態素解析部
110 キーワード抽出部
112 共起情報抽出部
113 間接共起情報抽出部
114 時系列係数付与部
115 関連係数付与部
116 集計部
118 変遷状態解析部
120 出力部
122 画像表示部
123 機械学習部
125 ネットワーク
124 操作部
126 サーバ
127 学習結果記憶部
129 ランダム係数発生部
128 OCR装置
130 画像表示部
132 プリンタ
134 サーバ
138 ネットワーク
202 順序判定部
204 出現順ソート部
210 順序係数抽出部
212 時間距離判定部
214 時間差計算部
216 順序係数記憶部
218 時間差係数記憶部
220 時間差係数抽出部
222 係数計算部
224 漸減係数計算部
302 出現頻度算出部
304 間接集計データ取得部
306 直接集計部
308 間接集計部
1000 情報解析装置
著者名データに含まれる人名すべてに重みa i (i=出現年−初出現年、a<1)をつける。例えば、初出現年が1990年の場合、1990年に出てきた論文の著者名データに出現する人名すべてに重み1、1991年に出てきた論文の著者名データに出現する人名すべてに重み1×a、1992年に出てきた論文の著者名データに出現する人名すべてに重み1×a×a、...を与える。このように年毎に重みを付与する。この例では、1990年に出てきた論文の著者名データに出現する人名が一番重要と考え、一番大きい重みをつける。
上記の実施形態(変形例を含む)の作用効果が優れていることを示すために、実施例について以下説明する。まず、人名Aとして44件を使用し本実施例の正解率を算出した。評価は言語処理学会に精通している人物が行った。結果として出力された人名Bの部分はランダムに表示して評価を行っている。評価の基準を次に示す。
Claims (12)
- 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置であって、
複数の異なる時系列的テキストデータを取得する時系列的テキストデータ取得部と、
解析の対象となるテキスト情報を取得する解析対象情報取得部と、
前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出する共起情報抽出部と、
前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与する時系列係数付与部と、
前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計する集計部と、
前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析する変遷状態解析部と、
前記変遷状態を出力する出力部と、
を備える、情報解析装置。 - 請求項1に記載の情報解析装置において、
前記時系列係数付与部が、前記他の時系列的テキストデータの出現順序に応じて重み付けされた時系列係数を付与する順序判定部を有する、
情報解析装置。 - 請求項1に記載の情報解析装置において、
前記時系列係数付与部が、前記他の時系列的テキストデータと初出した時系列的テキストデータとの時間的距離に応じて重み付けされた前記時系列係数を付与する時間距離判定部を有する、
情報解析装置。 - 請求項1〜3のいずれかに記載の情報解析装置において、
前記時系列係数付与部が、前記重み付けを解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まるように行う係数計算部を有する、
情報解析装置。 - 請求項1〜4のいずれかに記載の情報解析装置において、
前記複数の異なる時系列的テキストデータから、前記共起情報を介して前記解析対象情報と間接的に共起する他の同属性の間接共起情報を抽出する間接共起情報抽出部と、
前記間接共起情報を含む時系列的テキストデータに対して、前記解析対象情報及び前記間接共起情報の関連性の強さに応じて関連係数を付与する関連係数付与部と、
をさらに備え、
前記集計部が、
前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計する直接集計部と、
前記間接共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数及び前記関連係数を統合して得られる統合指標を前記間接共起情報ごとに集計する間接集計部と、
を有し、
前記変遷状態解析部が、前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報及び前記間接共起情報との間の時系列的な変遷状態を解析可能に構成されている、
情報解析装置。 - 請求項5に記載の情報解析装置において、
前記関連係数付与部が、前記共起情報を介して前記解析対象情報と間接的に共起する複数の種類の間接共起情報の相対的な出現頻度に応じて関連係数を算出する出現頻度算出部を有する、
情報解析装置。 - 請求項1〜6のいずれかに記載の情報解析装置において、
前記時系列係数付与部が、あらかじめ互いの変遷関係の分かっている前記解析対象情報及び前記対応情報を含む前記複数の異なる時系列的テキストデータを機械学習して、解析対象情報が初出した基準から離れるに連れて重みが漸減し、互いに異なる重みの合計値が有限に収まるようにパラメータを算出する機械学習部を有する、
情報解析装置。 - 請求項1〜7に記載の情報解析装置において、
前記解析対象情報が、著者を特定するための情報を含む著者情報である、
情報解析装置。 - 請求項1〜7に記載の情報解析装置において、
前記解析対象情報が、タイトルのキーワードである、
情報解析装置。 - 請求項1〜9に記載の情報解析装置において、
前記変遷状態解析部が、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を木構造で表示するためのデータを生成するように構成されている、
情報解析装置。 - 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する方法であって、
複数の異なる時系列的テキストデータを取得するステップと、
解析の対象となるテキスト情報を取得するステップと、
前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出するステップと、
前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与するステップと、
前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計するステップと、
前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析するステップと、
前記変遷状態を出力するステップと、
を含む、情報解析方法。 - 時系列情報とテキスト情報とを含む時系列的テキストデータを解析するためのプログラムであって、
複数の異なる時系列的テキストデータを取得するステップと、
解析の対象となるテキスト情報を取得するステップと、
前記複数の異なる時系列的テキストデータから、前記解析対象情報と共起する他の同属性の共起情報を抽出するステップと、
前記解析対象情報が初出した時系列的テキストデータを基準として、他の時系列的テキストデータに時系列的な重み付けをされた時系列係数を付与するステップと、
前記共起情報を含む複数の時系列的テキストデータに付与されている前記時系列係数を前記共起情報ごとに集計するステップと、
前記集計部の集計結果に基づいて、前記解析対象情報と前記共起情報との間の時系列的な変遷状態を解析するステップと、
前記変遷状態を出力するステップと、
をコンピュータに実行させる、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011023339A JP5614687B2 (ja) | 2011-02-04 | 2011-02-04 | 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011023339A JP5614687B2 (ja) | 2011-02-04 | 2011-02-04 | 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012164097A true JP2012164097A (ja) | 2012-08-30 |
JP5614687B2 JP5614687B2 (ja) | 2014-10-29 |
Family
ID=46843434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011023339A Expired - Fee Related JP5614687B2 (ja) | 2011-02-04 | 2011-02-04 | 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5614687B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016123873A (ja) * | 2015-01-07 | 2016-07-11 | 株式会社東芝 | X線ct装置、補正方法及び補正プログラム |
CN112463952A (zh) * | 2020-12-22 | 2021-03-09 | 安徽商信政通信息技术股份有限公司 | 一种基于近邻搜索的新闻文本聚合方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008257150A (ja) * | 2007-04-06 | 2008-10-23 | Kizasi Company Inc | インターネットにおける広告配信方法 |
US20100153107A1 (en) * | 2005-09-30 | 2010-06-17 | Nec Corporation | Trend evaluation device, its method, and program |
-
2011
- 2011-02-04 JP JP2011023339A patent/JP5614687B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100153107A1 (en) * | 2005-09-30 | 2010-06-17 | Nec Corporation | Trend evaluation device, its method, and program |
JP2008257150A (ja) * | 2007-04-06 | 2008-10-23 | Kizasi Company Inc | インターネットにおける広告配信方法 |
Non-Patent Citations (2)
Title |
---|
CSNG201000308077; 川中 翔 他: 'ソーシャルブックマークにおけるタグの派生関係の解析' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集 [online] , 20090509, pp.1-8, 電子情報通信学会データ工学研究専門委員会 * |
JPN6014019417; 川中 翔 他: 'ソーシャルブックマークにおけるタグの派生関係の解析' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集 [online] , 20090509, pp.1-8, 電子情報通信学会データ工学研究専門委員会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016123873A (ja) * | 2015-01-07 | 2016-07-11 | 株式会社東芝 | X線ct装置、補正方法及び補正プログラム |
JP7002827B2 (ja) | 2015-01-07 | 2022-01-20 | キヤノンメディカルシステムズ株式会社 | X線ct装置、補正方法及び補正プログラム |
CN112463952A (zh) * | 2020-12-22 | 2021-03-09 | 安徽商信政通信息技术股份有限公司 | 一种基于近邻搜索的新闻文本聚合方法及系统 |
CN112463952B (zh) * | 2020-12-22 | 2023-05-05 | 安徽商信政通信息技术股份有限公司 | 一种基于近邻搜索的新闻文本聚合方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5614687B2 (ja) | 2014-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4904496B2 (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
Shahheidari et al. | Twitter sentiment mining: A multi domain analysis | |
JPWO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
Trnavac et al. | Discourse relations and evaluation | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
Rogushina | Use of Semantic Similarity Estimates for Unstructured Data Analysis. | |
Angrosh et al. | Context identification of sentences in research articles: Towards developing intelligent tools for the research community | |
JP5614687B2 (ja) | 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 | |
Khairani et al. | Named-entity recognition and optical character recognition for detecting halal food ingredients: Indonesian case study | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
JP5916016B2 (ja) | 同義判定装置、同義学習装置、及びプログラム | |
TWI636370B (zh) | Establishing chart indexing method and computer program product by text information | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
Kuş et al. | An Extractive Text Summarization Model for Generating Extended Abstracts of Medical Papers in Turkish | |
JP2002278982A (ja) | 情報抽出方法および情報検索方法 | |
JP2006286026A (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム | |
Navigli et al. | Glossextractor: A web application to automatically create a domain glossary | |
JP5137134B2 (ja) | 感性情報抽出・検索装置、その方法およびプログラム | |
Ibrahim et al. | Aspect oriented sentiment analysis model of Arabic tweets | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
Moulay Lakhdar et al. | Building an extractive Arabic text summarization using a hybrid approach | |
Alamir et al. | Arabic question-answering system using search engine techniques | |
Moiseeva et al. | TRENDNERT: A Benchmark for Trend and Downtrend Detection in a Scientific Domain | |
KR101712507B1 (ko) | 마이크로블로그의 개체명 링킹 시스템. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140819 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5614687 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |