JPH11134359A - 文書類似度計算方法、文書類似度計算装置及び文書類似度計算プログラムを記録した記録媒体 - Google Patents

文書類似度計算方法、文書類似度計算装置及び文書類似度計算プログラムを記録した記録媒体

Info

Publication number
JPH11134359A
JPH11134359A JP9301109A JP30110997A JPH11134359A JP H11134359 A JPH11134359 A JP H11134359A JP 9301109 A JP9301109 A JP 9301109A JP 30110997 A JP30110997 A JP 30110997A JP H11134359 A JPH11134359 A JP H11134359A
Authority
JP
Japan
Prior art keywords
documents
document
similarity
words
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9301109A
Other languages
English (en)
Inventor
Muneyuki Horii
統之 堀井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9301109A priority Critical patent/JPH11134359A/ja
Publication of JPH11134359A publication Critical patent/JPH11134359A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書とともに入力される概要を重要視して、
高精度の文書間の類似度計算を実現する。 【解決手段】 類似度を計算したい2組の文書及びその
概要の組を入力し(S1)、該入力された2組の文書及
び概要の形態素解析を行い(S2)、不要単語テーブル
を参照して形態素解析された該2組の文書及び概要から
不要単語を取り除いた後(S3)、2つの文書の類似度
を、それぞれの概要に含まれる単語に重み付けして、そ
れぞれの文書に含まれる単語に基づいて計算する(S
4)。ここで、不要単語除去は省略することも可能であ
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書検索、文書分
類等を行う際に必要な、2つの文書の類似度を計算する
文書類似度計算方法及び装置、その文書類似度計算プロ
グラムを記録した記録媒体に関する。
【0002】
【従来の技術】文書検索システムにおいて、ある文書と
似た文書を検索しようとした場合、入力した文書と検索
対象となるそれぞれの文書がどれくらい類似しているか
を計算する必要がある。また、文書分類システムにおい
て、文書を分類する場合にも、入力された文書がどこに
分類されるかを判断するために、各分類先の文書との類
似度を比較しなくてはならない。
【0003】従来、2つの文書の類似度を計算する方法
としては、一般的にそれぞれの文書に共通に出てくる単
語の頻度を指標とするのが一般的であった。これは、2
つの文書の両方に含まれている単語が多ければ、類似度
も高くなるという考えに基づいている。ただし、2つの
文書の両方に含まれている単語といっても、日本語の助
詞「は」、「の」とか、よく用いられる一般的な動詞
「する」「用いる」などは意味がない。従って、これら
の単語は取り除いて類似度を計算するのが普通である。
【0004】実際に、このような観点で文書間の類似度
を計算する方法がいくつか考えられ、文書検索システ
ム、文書分類システム等で利用されている。
【0005】
【発明が解決しようとする課題】しかしながら、2つの
文書の両方に含まれていても、各単語によってその文書
における重要度は異なる。各文書においてキーとなる単
語はいくつかあるが、それらは必ずしも文書中に多く現
れるとは限らず、頻度のみを手がかりとする手法では危
険である。
【0006】本発明は上記の点に鑑みてなされたもの
で、各文書の概要中に含まれている単語を重要視し、概
要中に含まれる各単語の、その文書における重要度を考
慮した文書類似度計算方法及び装置、更に、その文書類
似度計算プログラムを記録した記録媒体を提供すること
を目的とする。
【0007】
【発明を解決するための手段】上記目的を達成するため
に、本発明の文書類似度計算方法では、図1に示すよう
に、類似度を計算したい2組の文書及びその概要の組を
入力し(ステップS1)、この入力された2組の文書及
び概要の形態素解析を行って単語を抽出し(ステップS
2)、類似度計算に使用しない単語を記述した不要単語
テーブルを参照して、形態素解析された2組の文書及び
概要から不要単語を取り除き(ステップS3)、この不
要単語の取り除かれた単語群を対象に、それぞれの文書
に含まれる単語に基づいて、しかも、それぞれ概要に含
まれる単語には重み付けすることにより、2つの文書の
類似度を計算する(ステップS4)。ここで、ステップ
S3の不要単語除去処理は、場合によっては省略し、入
力された2組の文書及びその概要の形態素解析を行って
抽出された単語群すべてを、類似度計算に使用すること
でもよい。
【0008】また、本発明の文書類似度計算方法は、概
要の内容によっては、該概要中に含まれる単語のみに着
目し、文書とともに入力されるそれぞれの概要について
形態素解析を行い、それぞれの概要に含まれる単語に基
づいて2つの文書の類似度を計算することでもよい。こ
の場合、精度は多少落ちるが、文書の形態素解析等が省
略できる分、処理の高速化が可能になる。
【0009】
【発明の実施の形態】図2は、本発明の文書類似度計算
装置の一実施例の概略ブロック図である。本文書類似度
計算装置は、文書及び概要入力部10、形態素解析部2
0、不要単語除去部30、文書類似度計算部40、及び
不要単語テーブル50で構成される。この構成は、所謂
コンピュータシステムで実現される。
【0010】文書及び概要入力部10は、類似度を計算
したい2組の文書及びその概要の組の入力を行い、入力
された2組の文書及びその概要を形態素解析部20に送
出する。形態素解析部20は、文書及び概要入力部1よ
り受け取った2組の文書及びその概要の形態素解析を行
い、それぞれの形態素解析結果を不要単語除去部30に
送出する。不要単語除去部30は、不要単語テーブル5
0を参照することにより、形態素解析部20より受け取
ったそれぞれの形態素解析結果から類似度計算に不要な
単語を取り除く。不要単語テーブル50には、類似度計
算を行う際に必要でない単語の標準表記、品詞等が記述
されている。不要単語除去部30により、それぞれの形
態素解析結果中に不要単語テーブル50に記述されたパ
ターンにマッチする単語があった場合、それらが全て形
態秦解析結果から取り除かれる。不要単語が取り除かれ
たそれぞれの単語列が文書類似度計算部40に送出され
る。文書類似度計算部40は、不要単語除去部30より
受け取ったそれぞれの単語列、すなわち2組の文書及び
その概要の中から類似度計算に不要な単語が取り除かれ
た単語列を用いて、概要中に含まれる単語には重み付け
して、2つの文書の類似度を計算する。
【0011】次に、具体例を用いて、本発明による2つ
の文書間の類似度を計算する手法を説明する。文書及び
概要入力部10で、以下の2組の文書及びその概要の組
が入力された場合を考える。
【0012】<入力1> 文書:サッカーの1998年ワールドカップフランス大
会出場を争うアジア地区最終予選B組の日本対韓国戦は
28日午後、東京・国立競技場で行われ、日本は1対2
で逆転負けした。これで予選での成績は1勝1敗1分け
の勝ち点4となり、B組3位のまま。韓国は3戦全勝で
勝ち点を9に伸ばし、首位を守った。 概要:日本、韓国に逆転負け、フランスへの道遠のく。
【0013】<入力2> 文書:1998年フランス大会でワールドカップ初出場
を狙う日本に、韓国が立ちはだかった。ホームの利を生
かせず、1対2の逆転負け。1勝1敗1分けとなった日
本は、勝ち点で首位の韓国と5差、2位のUAEとは3
差となった。 概要:日本、韓国の壁高く、勝利目前で逆転負け。
【0014】上記入力文書はニュース記事であり、概要
はその記事の見出しである。入力する文書の概要は、そ
の文書のエッセンスが記述されていればよい。論文等な
らばアブストラクト(要約文)、ニュース記事ならば見
出しになる。
【0015】次に、形態素解析部20では上記入力1、
2の文書、概要それぞれの形態素解析を行う。便宜上、
ここでは上記入力1、2の概要の形態素解析結果のみを
示す。以下の形態素解析結果において、それぞれ上段が
原文及び分割点、中段が各単語の標準表記、下段が各単
語の品詞を表している。
【0016】 <入力1の概要の形態素解析結果> 日本/、 /韓国/に /逆転/負け /、 /フランス/へ /の /道 /遠のく 日本 、 韓国 に 逆転 負ける 、 フランス へ の 道 遠のく 名詞 読点 名詞 助詞 名詞 動詞 読点 名詞 助詞 助詞 名詞 動詞 <入力2の概要の形態素解析結果> 日本/、 /韓国/の /壁 /高く /、 /勝利/目前/で /逆転/負け 日本 、 韓国 の 壁 高く 、 勝利 目前 で 逆転 負ける 名詞 読点 名詞 助詞 名詞 形容詞 読点 名詞 名詞 助詞 名詞 動詞 入力1,2の文書も上記と同様な形で形態素解析され
る。
【0017】不要単語除去部30では、不要単語テーブ
ル50を参照することにより、一般的によく使われる単
語、すなわち文書の特徴を表すのに適当でない単語を、
形態素解析部2から受け取った形態素解析結果の単語列
から取り除く。
【0018】不要単語テーブル50の例を図3に示す。
図3の不要単語テーブルは、標準表記と品詞の組から構
成され、“*”は全てにマッチすることを表す。たとえ
ば、標準表記が“*”で品詞が“助詞”だったら、全て
の助詞が記述されていることになる。ここでは、文書の
特徴を表すのに適当と思われる名詞以外は全て不要単語
テーブルに記述されているものとする。したがって、不
要単語テーブル50に記述されていない名詞のみが文書
類似度計算部40へ送出される単語列として残る。
【0019】上記の入力1,2の概要の形態素解析結果
は、不要単語除去部30でその不要単語を除去すること
により、以下のような単語列となる。 <入力1の概要の単語列> 日本、韓国、逆転、フランス <入力2の概要の単語列>日本、韓国、勝利、逆転。
【0020】同様に入力1,2の文書は、形態素解析部
20、不要単語除去部30を経て、以下のような単語列
となる。 <入力1の文書の単語列>サッカー、ワールドカップ、
フランス、大会、出場、アジア、予選、日本、韓国、東
京、国立競技場、日本、逆転、予選、成績、韓国、全
勝、首位 <入力2の文書の単語列>フランス、大会、ワールドカ
ップ、出場、日本、韓国、ホーム、逆転、日本、首位、
韓国、UAE。
【0021】文書類似度計算部40では、不要単語除去
部30から受け取った入力1,2の文書及び概要の最終
的な単語列を用いて、入力1の文書と入力2の文書の類
似度を計算する。
【0022】類似度を計算する方法はいろいろあるが、
ここでは2つの文書に含まれる単語列をそれぞれベクト
ル表現で表し、2つのベクトルの内積を2つのベクトル
の大きさの積で割った値を類似度とする。入力1の文書
ベクトルをX、入力2の文書ベクトルをYとすると、類
似度Sは以下の計算式で求めることができる。
【0023】
【数2】
【0024】xi,yiはそれぞれベクトルX、Yのi番
目の要素である。
【0025】この式(1)で求めた類似度は、O≦S≦
1の値をとる。2つの文書中に共通に現れる単語が全く
無い時がS=0であり、2つの文書中に現れる単語が全
く同じでかつ各単語が現れる回数も全く同じの時、すな
わちベクトルX、Yが全く等しい時、S=1となる。
【0026】まず最初は、概要中に含まれる単語に重み
付けをしないで計算してみる。それぞれのベクトルの各
要素の値は、それぞれの文書中における、以下の各単語
の単語頻度である。(サッカー、ワールドカップ、フラ
ンス、大会、出場、アジア、予選、日本、韓国、東京、
国立競技場、逆転、成績、全勝、首位、ホーム、UA
E)。
【0027】したがって、 X=(1,1,1,1,1,1,2,2,2,1,1,1,1,1,
1,0,0) ※“予選”、“日本”、“韓国”はそれぞれ2回出現、
“ホーム”、“UAE”は出現しない Y=(0,1,1,1,1,0,0,2,2,0,0,1,0,0,
1,1,1) ※“日本”、“韓国”はそれぞれ2回出現、“サッカ
ー”、“アジア”、“予選”、“東京”、“国立競技
場”、“成績”、“全勝”は出現しないとなり、上記類
似度の式(1)を用いて計算すると、以下のようにな
る。
【0028】
【数3】
【0029】次に、本発明の概要中に含まれる単語に重
み付けをして計算してみる。概要はその文書のエッセン
スが記述されているので、その中に含まれている単語は
重要度が高い。そこで、概要中に含まれている単語につ
いては、その出現頻度をk倍(1<k)する。具体的に
は、入力1の概要に含まれる単語が、“日本”、“韓
国”、“逆転”、“フランス”なので、ベクトルX中の
それぞれの単語に該当する要素をk倍して、 X=(1,1,k,1,1,1,2,2k,2k,1,1,k,1,
1,1,0,0) k=2とすると、 X=(1,1,2,1,1,1,2,4,4,1,1,2,1,1,
1,0,0) となる。同様に、ベクトルY中の、入力2の概要に含ま
れる単語、“日本”、“韓国”、“勝利”、“逆転”に
該当する要素(“勝利”は文書中に出てこないので無
視)を2倍(k=2)して、 Y=(0,1,1,1,1,0,0,4,4,0,0,2,0,0,
1,1,1) となる。
【0030】これらのX、Yを用いて、Sを求めると、 S=42/(√54×√43)≒0.872 となる。
【0031】以上のように、概要中に含まれる単語に重
み付けをしない場合(S=0.714)よりも、重み付
けをした場合(S=0.872)の方が類似度がはるか
に高い。入力1の文書と入力2の文書は同じ内容の記事
なので、類似度はより高くなる方が自然である。
【0032】他の具体例として、入力1、2とは内容が
異なった記事である、以下の入力3を考え、文書及び概
要入力部10で先の入力1と入力3が入力された場合に
ついて説明する。
【0033】<入力3> 文書:サッカーの1998年ワールドカップフランス大
会のアジア地区最終予選の組み合わせが決定した。1次
予選を勝ち抜いた10チームがA、Bの2組に振り分け
られ、日本はB組に入った。B組で日本にとって強敵に
なるのは韓国、UAEであり、これらの国との対戦成績
がワールドカップ初出場の鍵となりそうである。 概要:フランスに向けて、組み合わせ決まる。
【0034】入力1については、不要単語除去部30で
不要単語を除去するところまでは、前述の例と同様であ
る。 <入力1の概要の単語列> 日本、韓国、逆転、フランス <入力1の文書の単語列>サッカー、ワールドカップ、
フランス、大会、出場、アジア、予選、日本、韓国、東
京、国立競技場、日本、逆転、予選、成績、韓国、全
勝、首位。
【0035】入力3についても、前述の例と同様に、形
態素解析部20で形態素解析を行い、不要単語除去部3
0で不要単語を除去することにより、以下のような単語
列になる。 <入力3の概要の単語列> フランス、組み合わせ <入力3の文書の単語列>サッカー、ワールドカップ、
フランス、大会、アジア、予選、組み合わせ、予選、チ
ーム、日本、日本、強敵、韓国、UAE、成績、ワール
ドカップ、出場。
【0036】文書類似度計算部40でも、前述の例と同
様に式(1)で類似度Sを計算する。入力1の文書ベク
トルをX、入力3の文書ベクトルをZとすると、それぞ
れのベクトルの各要素の値は、それぞれの文書中におけ
る、以下の各単語の単語頻度である。(サッカー、ワー
ルドカップ、フランス、大会、出場、アジア、予選、日
本、韓国、東京、国立競技場、逆転、成績、全勝、首
位、組み合わせ、チーム、強敵、UAE)。
【0037】ベクトルXの要素は前述の実施例と異なる
ことになるが、これは2つのベクトルのどちらかに現れ
ている単語のみを要素としているからである。ここで、
不要単語テーブルに記述されていない単語は全て要素と
考えられるが、2つのベクトルとも値が0である場合、
類似度の計算に全く影響を与えないので、無視してい
る。
【0038】まず、概要中に含まれる単語に重み付けを
しないで考えると、 X=(1,1,1,1,1,1,2,2,2,1,1,1,1,1,
1,0,0,0,0) Z=(1,2,1,1,1,1,2,2,1,0,0,0,1,0,
0,1,1,1,1) なので、類似度Sは、 S=18/(√24×√23)≒0.766 となる。
【0039】次に、本発明の概要中に含まれる単語に重
み付けをして計算する。前述の例と同様に、k=2とす
ると、 X=(1,1,2,1,1,1,2,4,4,1,1,2,1,1,
1,0,0,0,0) Z=(1,2,2,1,1,1,2,2,1,0,0,0,1,0,
0,2,1,1,1) なので、類似度Sは、 S=27/(√54×√29)≒0.682 となる。
【0040】先の入力1と入力2の類似度の値と、入力
1と入力3の類似度の値を比べてみる。 (i)概要中に含まれる単語に重み付けしない場合 入力1と入力2:0.714 入力1と入力3:0.766 (ii)概要中に含まれる単語に重み付けする場合 入力1と入力2:0.872 入力1と入力3:0.682 重み付けをしない場合、同じ内容の記事の類似度よりも
異なった内容の類似度の方が高くなっている。しかし、
概要中に含まれる単語に重み付けをすることにより、双
方の類似度の値は大きく逆転している。
【0041】以上、図2の本発明の文書類似度計算装置
の実施例について説明したが、文書の種類等によっては
不要単語除去部30の処理を省略することが可能であ
る。
【0042】また、図1に示した本発明の文書類似度計
算方法の処理フローは、文書類似度計算プログラムとし
て、FDもしくはCD−ROM等の記録媒体にコンピュ
ータ読み取り可能な形式で記録し、販売してもよい。こ
の記録媒体に記録された文書類似度計算プログラムを計
算機にインストールすると、図2の実施形態での使用が
可能になる。
【0043】
【発明の効果】上述のように本発明によれば、文書間の
類似度を計算する際に、各文書の概要中に含まれる単語
に着目し、それを重要視することにより、従来の文書中
の単語頻度のみを手がかりとするよりも精度良く2つの
文書間の類似度を計算することができる。
【図面の簡単な説明】
【図1】本発明の文書類似度計算方法の処理フロー図で
ある。
【図2】本発明の文書類似度計算装置の一実施例の概略
ブロック図である。
【図3】本発明に用いる不要単語テーブルの内容例を示
す図である。
【符号の説明】
10 文書及び概要入力部 20 形態素解析部 30 不要単語除去部 40 文書類似度計算部 50 不要単語テーブル

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 類似度を計算したい2組の文書及びその
    概要の組を入力し、該入力された2組の文書及び概要の
    形態素解析を行って単語を抽出し、概要に含まれる単語
    に重み付けして、それぞれの文書に含まれる単語に基づ
    いて2つの文書の類似度を計算することを特徴とする文
    書類似度計算方法。
  2. 【請求項2】 請求項1記載の文書類似度計算方法にお
    いて、類似度計算に使用しない単語を記述した不要単語
    テーブルを参照して、形態素解析された2組の文書及び
    概要から各々不要単語を取り除いた後の単語を類似度計
    算の対象とすることを特徴とする文書類似度計算方法。
  3. 【請求項3】 請求項1もしくは2記載の文書類似度計
    算方法において、2つの文書に包含される単語群をベク
    トル表現して、それぞれの文書ごとに文書ベクトルX、
    文書ベクトルYと表わしたときに、2つの文書の類似度
    Sを次式 【数1】 但し、xi、yiはそれぞれ文書ベクトルX、Yのi番目
    の要素で、当該単語の出現頻度に応じた値をとり、概要
    に含まれるときはk倍(k>1)とするにより計算する
    ことを特徴とする文書類似度計算方法。
  4. 【請求項4】 類似度を計算したい2組の文書及びその
    概要の組を入力し、該入力された2組の文書のそれぞれ
    の概要の形態素解析を行って単語を抽出し、それぞれの
    概要に含まれる単語に基づいて2つの文書の類似度を計
    算することを特徴とする文書類似度計算方法。
  5. 【請求項5】 類似度を計算したい2組の文書及びその
    概要の組を入力する手段と、 前記入力された2組の文書及びその概要の形態素解析を
    行って単語を抽出する手段と、 概要に含まれる単語に重み付けして、それぞれの文書に
    含まれる単語に基づいて、2つの文書の類似度を計算す
    る手段とを有することを特徴とする文書類似度計算装
    置。
  6. 【請求項6】 類似度を計算したい2組の文書及びその
    概要の組を入力する手段と、 前記入力された2組の文書及びその概要の形態素解析を
    行って単語を抽出する手段と、 類似度計算に使用しない単語を記述した不要単語テーブ
    ルと、 前記不要単語テーブルを参照して、前記形態素解析され
    た2組の文書及び概要から各々不要単語を取り除く手段
    と、 2組の文書及び概要における不要単語を取り除いた単語
    群を対象に、概要に含まれる単語に重み付けして、それ
    ぞれの文書に含まれる単語に基づいて、2つの文書の類
    似度を計算する手段とを有することを特徴とする文書類
    似度計算装置。
  7. 【請求項7】 2組の文書の類似度を計算するための文
    書類似度計算プログラムを記録したコンピュータ読み取
    り可能な記録媒体であって、 類似度を計算したい2組の文書及びその概要の組を入力
    する処理プロセスと、 入力された2組の文書及び概要の形態素解析を行う処理
    プロセスと、 類似度計算に使用しない単語を記述した不要単語テーブ
    ルを参照して、形態素解析された2組の文書及び概要か
    ら不要単語を取り除く処理プロセスと、 2組の文書及び概要における前記不要単語を取り除いた
    単語群を対象に、概要に含まれる単語に重み付けして、
    それぞれの文書に含まれる単語に基づいて、2つの文書
    の類似度を計算する処理プロセスとを有することを特徴
    とする記録媒体。
JP9301109A 1997-10-31 1997-10-31 文書類似度計算方法、文書類似度計算装置及び文書類似度計算プログラムを記録した記録媒体 Pending JPH11134359A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9301109A JPH11134359A (ja) 1997-10-31 1997-10-31 文書類似度計算方法、文書類似度計算装置及び文書類似度計算プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9301109A JPH11134359A (ja) 1997-10-31 1997-10-31 文書類似度計算方法、文書類似度計算装置及び文書類似度計算プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH11134359A true JPH11134359A (ja) 1999-05-21

Family

ID=17892955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9301109A Pending JPH11134359A (ja) 1997-10-31 1997-10-31 文書類似度計算方法、文書類似度計算装置及び文書類似度計算プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JPH11134359A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844493A (zh) * 2016-09-19 2018-03-27 上海泓智信息科技有限公司 一种文件关联方法及系统
JP2019175373A (ja) * 2018-03-29 2019-10-10 Necソリューションイノベータ株式会社 ファイル管理装置、ファイル管理方法、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153121A (ja) * 1994-09-30 1996-06-11 Hitachi Ltd 文書情報分類方法および文書情報分類装置
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153121A (ja) * 1994-09-30 1996-06-11 Hitachi Ltd 文書情報分類方法および文書情報分類装置
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844493A (zh) * 2016-09-19 2018-03-27 上海泓智信息科技有限公司 一种文件关联方法及系统
JP2019175373A (ja) * 2018-03-29 2019-10-10 Necソリューションイノベータ株式会社 ファイル管理装置、ファイル管理方法、及びプログラム

Similar Documents

Publication Publication Date Title
Biswas et al. A graph based keyword extraction model using collective node weight
Kutuzov et al. Texts in, meaning out: neural language models in semantic similarity task for Russian
US9471644B2 (en) Method and system for scoring texts
Kanaan et al. Building an effective rule-based light stemmer for Arabic language to inprove search effectiveness
JP2001524717A (ja) 情報管理及び検索
KR20030009704A (ko) 단어 추출을 이용한 특허지도 작성 시스템 및 그 방법
JP2004139222A (ja) 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
CN106372122B (zh) 一种基于维基语义匹配的文档分类方法及系统
Sajous et al. Semi-automatic endogenous enrichment of collaboratively constructed lexical resources: Piggybacking onto wiktionary
CN111460170B (zh) 一种词语识别方法、装置、终端设备及存储介质
CN110162752B (zh) 文章判重处理方法、装置及电子设备
Bijal et al. Overview of stemming algorithms for Indian and Non-Indian languages
CN114020876A (zh) 文本的关键词提取方法、装置、设备及存储介质
Koyyalagunta et al. Playing codenames with language graphs and word embeddings
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
JPH11134359A (ja) 文書類似度計算方法、文書類似度計算装置及び文書類似度計算プログラムを記録した記録媒体
JP6555810B2 (ja) 類似度算出装置、類似検索装置、および類似度算出プログラム
JP3844193B2 (ja) 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム
CN111274428A (zh) 一种关键词的提取方法及装置、电子设备、存储介质
CN107291686A (zh) 情感标识的辨识方法和情感标识的辨识系统
JP5145288B2 (ja) 類義語辞書構築装置及び方法、コンピュータプログラム
CN113849598A (zh) 基于深度学习的社交媒体虚假信息检测方法及检测系统
JP2004118647A (ja) 統計的検定を利用した質問応答方法,質問応答システム,質問応答プログラムおよび質問応答プログラムを記録した記録媒体
Wang et al. Compositionality of NN compounds: a case study on [N1+ Artifactual-Type Event Nouns]
Lim An Algorithm for Detection of Chiastic Structures in Text Databases

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040413

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040803