JP2011175568A - 文書間距離算出器および文章検索器 - Google Patents

文書間距離算出器および文章検索器 Download PDF

Info

Publication number
JP2011175568A
JP2011175568A JP2010040578A JP2010040578A JP2011175568A JP 2011175568 A JP2011175568 A JP 2011175568A JP 2010040578 A JP2010040578 A JP 2010040578A JP 2010040578 A JP2010040578 A JP 2010040578A JP 2011175568 A JP2011175568 A JP 2011175568A
Authority
JP
Japan
Prior art keywords
tree structure
nodes
parallel
syntactic information
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010040578A
Other languages
English (en)
Other versions
JP5441760B2 (ja
Inventor
Takashi Mikami
崇志 三上
Takashi Hirano
敬 平野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2010040578A priority Critical patent/JP5441760B2/ja
Publication of JP2011175568A publication Critical patent/JP2011175568A/ja
Application granted granted Critical
Publication of JP5441760B2 publication Critical patent/JP5441760B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】従来、文書間や検索時の文書と検索キー間の類似度は、文章中の単語の共起に基づき算出されるが、複数主題の文章で関連ない単語同士の共起がある場合、正しい類似度が求められず、又同義語や異なる言い回しの文章の類似度を精度よく算出できず、さらに、文章構造の類似性に従った似通った文章の分類ができない。
【解決手段】文書入力手段からの文書の文字列を構文解析手段で形態素解析および係り受け解析し、その構文解析結果から統語情報付き木構造作成手段で統語情報付き木構造を作成し、統語情報付き木構造の並列関係にあるノードを子ノードとした並列ノードを並列ノード追加手段で統語情報付き木構造に追加し、並列ノード順序付けする手段で追加並列ノード下のノードを順序付けし、その統語情報付き木構造を他文書の統語情報付き木構造に編集し、その編集距離を距離計算手段で算出する。
【選択図】図1

Description

この発明は、文書間における類似度の算出に関し、特に、文の係り受け構造を木構造に変換し、木構造同士の編集距離を類似度判定に利用する文書間距離算出器およびその文書間距離算出器を用いた文章検索器に関する。
従来の文書間類似度算出器や検索キーによる文書検索装置では、文章に含まれる単語の共起に基づいて文書間の類似度や文書と検索キー間の類似度が算出される。単語の共起を調べるためには一般に文章を形態素解析し、単語や文節単位に分割する。それらの出現頻度など統計情報を利用して単語の重要度を求め、重要な単語を共通して含んでいる文書同士は類似していると判断する。しかし、複数の主題を持つ文章などでは関連のない単語同士が共起することがあり、正しい類似度が求められない場合がある。従来の技術、例えば、特許文献1では単語同士の関連性に基づいてグラフ構造を構築することによりこれを解決している。
特許第3577972号公報
従来の方式では、基本的には単語の共起に依存して類似度を算出しているため、同義語や異なる言い回しを含む文章の類似度を精度よく算出できなかった。同義語に関しては同義語辞書などを利用して解決できる部分もあるが、辞書の構築が必要である。
また、単語が共通していなくとも、文章構造が類似している場合にも文章の意味内容が類似していることがある。例えば、以下の3つの文を考える。
文1: 「台風11号は伊豆諸島近海を進み、夕方から夜にかけて関東地方に最も近づくとみられる。」
文2: 「台風12号は東京湾沖を北上し、25日から26日にかけて日本に最接近とみられる。」
文3: 「東京湾でみられる日本近海の魚を紹介します。」
文1と文2では「台風」、「みられる」が共通しており、文2と文3では「東京湾」、「日本」、「みられる」が共通しているが、意味内容を考えると文1と文2の方が文2と文3よりも類似している。単語そのものを利用する従来の方式では、このような文章構造の類似性に従って似通った文章を分類するということはできない。
この発明は上記のような問題を解決するためになされたもので、文の係り受け構造を木構造に変換し、木構造同士の編集距離を類似度判定に利用することで出現単語の共通性と文の構造を考慮した類似度判定を可能とする。
この発明に係る文書間距離算出器は、
文書間の距離を算出する文章または文書を入力する文書入力手段と、
文書入力手段で入力された文章または文書の文字列を形態素解析および係り受け解析する構文解析手段と、
構文解析手段による構文解析結果から統語情報付き木構造を作成する統語情報付き木構造作成手段と、
統語情報付き木構造を構成するノードのうち並列関係にあるものを探索し、並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加する並列ノード追加手段と
並列ノード追加手段によって追加された並列ノード下のノードを順序付けする並列ノード順序付けする手段と、
並列ノード下のノードが順序付けされた並列ノードが追加された統語情報付き木構造を他の文章または文書の統語情報付き木構造に編集し、その編集距離を予め設定された定義により算出する距離計算手段とを備える。
また、この発明に係る文章検索器は、
文章または文書の形態素解析および係り受け解析結果から統語情報付き木構造を作成し、統語情報付き木構造を構成するノードのうち並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加し、追加された並列ノード下のノードが順序付けされた統語情報付き木構造が予め複数作成され、蓄積された木構造集合と、
検索文を入力する検索文入力手段と、
検索文入力手段で入力された文章または文書の文字列を形態素解析および係り受け解析する構文解析手段と、
構文解析手段による構文解析結果から統語情報付き木構造を作成する統語情報付き木構造作成手段と、
統語情報付き木構造を構成するノードのうち並列関係にあるものを探索し、並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加する並列ノード追加手段と
並列ノード追加手段によって追加された並列ノード下のノードを順序付けする並列ノード順序付けする手段と、
並列ノード下のノードが順序付けされた並列ノードが追加された統語情報付き木構造を木構造集合に蓄積された統語情報付き木構造との編集距離を求める距離計算手段と、
距離計算手段で得られた編集距離の集合をソートし、小さい順に所定の数だけ出力する検索結果出力手段を備える。
この発明に係る文書間距離算出器によれば、
形態素解析および係り受け解析された文書の文字列から統語情報付き木構造を作成し、統語情報付き木構造を構成するノードのうち並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加し、並列ノード下のノードを順序付けした木構造同士の編集距離を予め設定された定義により算出し、その編集距離を類似度判定に利用することで出現単語の共通性と文の構造を考慮した類似度判定を可能とする。
また、この発明に係る文章検索器によれば、
文章または文書の形態素解析および係り受け解析結果から統語情報付き木構造を作成し、統語情報付き木構造を構成するノードのうち並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加し、追加された並列ノード下のノードが順序付けされた統語情報付き木構造を予め複数作成して、蓄積された木構造集合を備え、
形態素解析および係り受け解析された検索文の文字列から統語情報付き木構造を作成し、統語情報付き木構造を構成するノードのうち並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加し、並列ノードが追加された統語情報付き木構造を木構造集合に蓄積された統語情報付き木構造との編集距離を距離計算手段で求め、
距離計算手段で得られた編集距離の集合をソートし、小さい順に所定の数だけ出力する検索結果出力手段を備えることで、検索文に類似する文書を検索することが可能となる。
この発明の実施の形態1による基本構成図である。 この発明の実施の形態1の処理手順を示すフロー図である。 構文解析手段による係り受け解析結果の例を示す図である。 統語情報付き木構造作成手段による統語情報付き木構造の例を示す図である。 並列・同格構造を持つ統語情報付き木構造の例を示す図である。 並列ノードの例を示す統語情報付き木構造図である。 この発明の実施形態1における統語情報付き木構造に並列ノードを追加する手順を示すフロー図である。 実施の形態1における統語情報付き木構造の編集距離算出処理ステップ210の説明図である。 実施の形態1における統語情報付き木構造の編集距離算出処理ステップ220の説明図である。 実施の形態1における統語情報付き木構造の編集距離算出処理ステップ230の説明図である。 実施の形態1における統語情報付き木構造の編集距離算出処理ステップ240の説明図である。 実施の形態1における統語情報付き木構造の編集距離算出処理ステップ250の説明図である。 実施の形態1における並列ノードの効果例の説明図である。 実施の形態1における並列ノードの効果例の説明図である。 実施の形態1におけるノードの移動例を示す説明図である。 この発明の実施の形態2の構成図である。 この発明の実施の形態3の構成図である。 この発明の実施の形態4の構成図である。
実施の形態1.
図1はこの発明の実施の形態1による基本構成を示すブロック図である。図1において、文書入力手段101は解析する文章または文書を入力するものである。構文解析手段102は文書入力手段101で入力された文字列を形態素解析および係り受け解析するものである。統語情報付き木構造作成手段103は構文解析手段102における解析結果から統語情報付き木構造を作成するものである。並列ノード追加手段104は統語情報付き木構造を構成するノードのうち並列関係にあるものを探索し、並列関係にあるノードを子ノードとした並列ノードを木構造に追加するものである。並列ノード順序付け手段105は、並列ノード追加手段104によって追加された並列ノード下のノードを順序付けするものである。統語情報付き木構造間の距離計算手段106は統語情報付き木構造同士の距離を算出するものである。
次に動作について説明する。図2は本実施の形態のフローチャートである。まず、ステップ10において、文書入力手段101より統語情報付き木構造同士の距離を求める対象となる文章または文書の集合を取得する。
次にステップ20において、構文解析手段102により取得した文章の形態素解析および係り受け解析を行い構文解析結果とする。ここでは形態素解析・係り受け解析は既存技術を用いるものとする。図3に「15時に変圧器の漏電のため障害が発生した」という文章を係り受け解析した結果の例を示す。長方形が文節のまとまりを示し、矢印は文節が係っている先を示す。
次にステップ30において、統語情報付き木構造作成手段103により構文解析結果を木構造形式に変換する。統語情報も付与した統語情報付き木構造の例を図4に示す。長方形は木構造の1ノードを示し、文節のまとまりと一致する。文節内の「/」は形態素の区切りを図示するために付与している。各形態素の品詞は[]内に示した。ここでは名詞や動詞など大きな単位で示したが、「サ変名詞」や「自立動詞」などさらに細分化することも可能である。また、各ノードの下に主辞となる形態素と機能語となる形態素を示した。主辞は文節の中心となる形態素である。
次にステップ40において、並列ノード追加手段104により、ステップ30で作成した統語情報付き木構造のうち、並列関係や同格関係の係り受け構造を持つものに並列ノードを追加する。同格関係の係り受け構造を持つ統語情報付き木構造の例を図5に示す。ただし、形態素の区切りや品詞などの情報は簡単のため省略した。「一昨日と」と「昨日、」は同格関係であるが、係り受け構造としては「一昨日と」が「昨日、」に係る形になっている。これに並列ノードを追加することによりこれらを平等に扱えるようにした木構造の例を図6に示す。
図7はこのような並列ノードを追加する手順を示したものである。リーフノードは木構造の末端に位置するノードのこととし、図5の木構造の場合は「一昨日と」と「変圧器の」と「2回の」がリーフノードに該当する。また、ルートノードはトップに位置するノードのこととし、図5の木構造の場合は「発生した」がルートノードに該当する。
次に図2のステップ50において、ステップ40で追加された並列ノード下の並列関係にあるノードを所定の基準により並列ノード順序付け手段105で順序付けをする。基準は一意に順序が決定できるものであれば良く、ここでは対象ノードの主辞となる形態素の五十音順とする。五十音順の若い方から左に配置するように決めると、図6の木構造はそのままで良い。
次にステップ60において、統語情報付き木構造間の距離計算手段106により統語情報付き木構造の編集距離を算出する。編集距離はノードの追加・削除・置換の操作により、一方の木構造をもう一方の木構造に変形するのに必要なコストのこととする。本実施の形態では編集距離の計算に必要なノードの挿入コスト、削除コスト、置換コストは統語情報を用いて定義する。ここでの統語情報とは、単語の文字数、品詞、活用、格などである。それぞれのコストを以下のように定義する。
Figure 2011175568
例えば、次の二つの文A、Bの対応する統語情報付き木構造間の編集距離を求めることを考える。
A:「15時に変圧器の漏電のため障害が発生した」
B:「20時に変圧器の漏電で2回の障害が発生した」
図8〜図12は A に対応する統語情報付き木構造を B に対応する統語情報付き木構造に変形させる手順を示した模式図である。図8のステップ210では A、B のそれぞれに対応する統語情報付き木構造を示している。A の統語情報付き木構造を B の統語情報付き木構造に変形させるため、まず図9のステップ220では A の統語情報付き木構造の右端のノード「障害が」に「2回の」を挿入する。このときのコストは上記定義1により2.0である。
次に図10のステップ230では「ため」を削除する。このときのコストは上記定義1により2.0である。
次に図11のステップ240では「漏電の」を「漏電で」に置換する。このときのコストは、主辞「漏電」の品詞が等しく、主辞までの見出し(表記文字列)「漏電」が等しいため0である。
次に図12のステップ250では「15時に」を「20時に」に置換する。このときのコストは、主辞「時」の品詞が等しく、主辞までの見出し「15時」、「20時」が異なるので0.5である。
上記の各ステップでのコストの総和=4.5が統語情報付き木構造 A、B 間の編集距離となる。従って、統語情報付き木構造の編集距離が小さいほど類似する文章となる。一方の木構造から他方の木構造へ変形する仕方は幾通りもあり、従って総コストも幾通りもあるが、編集距離としてはそれらのうち最小のものとして定義する。このような編集距離は動的計画法などにより求めることが出来る。例えば以下のように定義する。
[定義2]
Fiを順序付けされた木の集合(森、Forest)、d(F1,F2) をF1、F2 間の距離、φは空集合、vをF1に属するノードのうち最も右側に位置するルート、w をF2 に属するノードのうち最も右側に位置するルート、del(v) を v を削除するコスト、ins(w)をw を挿入するコスト、rep(v,w)をv を w に置換するコスト、F1(v)をFiのノードまたは木のうちv の子、Ti(v)をv をルートとする木、Fi−vをv を削除したF1のノードまたは木、Fi−Ti(v)をTi(v)のノード全てを削除したF1のノードまたは木とし、各々の関係を下記の式(1)〜(4)のように定める。
Figure 2011175568
F1、F2として編集距離を求めたい二つの統語情報付き木構造を与え、式(1)〜(4)を再帰的に適用することで d(F1,F2) として編集距離を求めることが出来る。ただし、del(v)、ins(w)、rep(v,w)を定義1に従うようにすることが重要である。特に置換コストrep(v,w)はノードの形態素の品詞による比較と見出しの文字列比較によりコストを変動させる必要がある。
以上のような実施の形態により、並列ノードは次のような効果がある。以下の二つの文C、Dの対応する統語情報付き木構造間の編集距離を求めることを考える。
C:「一昨日と昨日、変圧器の漏電で2回の障害が発生した」
D:「昨日と一昨日、変圧器の漏電で2回の障害が発生した」
統語情報付き木構造は図13のようになる。並列ノードを追加せずに定義1、定義2に従って編集距離を求めると、Cの「昨日、」を「一昨日、」に置換し、「一昨日と」を「昨日と」に置換する必要があり、それぞれの置換コストは0.5となるため編集距離は1.0となる。
一方、並列ノードを導入するとC、Dは図14のC'、D'のようになる。C'、D'の編集距離を定義1、定義2に従って求めると、C'の「昨日、」を「昨日と」に置換し、「一昨日と」を「一昨日、」に置換する必要があるが、それぞれのコストは0であるため、編集距離も0なる。実際、これらの二つの文に意味内容的な差異はないため、より正しく距離を求められたことになる。
以上のようにすれば、出現単語の共通性と文の構造を考慮した文章間の類似度判定が可能である。
本実施の形態では追加コスト・削除コストは固定としたが、同一ノードの移動に対応する追加・削除の場合はコストが小さくなるようにしても良い。図15は編集距離を求める途中でノードの移動が発生する例である。図15の E を F に変形する場合、「2回の」を一旦削除して「障害が」の下に追加すればよいが、これはノードの移動に他ならず、新規に「2回の」を追加するよりはコストが小さくなるように定義を設定することで、ノードの移動の場合は、新規に追加するよりはコストを小さくすることが可能である。このようにすることで同じ単語が使われている文章はより類似度が高いと判断される効果がある。
また、本実施の形態では統語情報付き木構造を作成する対象として1文を例に挙げたが、複数の文章であってもよい。その場合は定義2にあるように木構造ではなく木構造の集合=森構造として扱えばよい。
本実施の形態における追加コスト・削除コスト・置換コストは定義1のように定義したが、これらの数値は他の数値でも良い。さらに置換コストは主辞までの見出しが等しいかどうかでコストを分岐させたが、主辞のみの見出しが等しいかどうかで分岐しても良いし、他の統語情報を用いても良い。
実施の形態2.
図16はこの発明の実施の形態2を示す構成図である。統計情報解析手段107は、構文解析手段102によって分割された形態素や文節の、入力された文書全体における出現頻度をカウントするものである。
実施の形態1では、統語情報付き木構造間の距離計算手段106は定義1に従って編集距離を求めたが、本実施の形態では追加・挿入・置換等の編集対象となるノードの出現頻度情報を用いてそれぞれのコストを求める。
例えば、主辞までの見出しによるTF-IDFを編集距離に重みとして与える。TF-IDFによるノードv の重み TFID(v)を以下の式で定義する。
Figure 2011175568
ただし、nvはノードvの出現する頻度、Dは文書集合、dは文書集合Dに含まれる文書である。各ノードの重みは全文書で共通とするため、式(6)のようにtf(v)を定義した。
上記TF-IDF重みを利用して挿入コスト ins(v)、削除コスdel(v)を次のように定義する。
Figure 2011175568
TFIDFaverageはTFIDF(v)の平均値であり、TFIDF(v)を0〜1に正規化するため最大値で割っている。上記式は平均値のときにコストが2.0になる。
ノードvとwの置換コスト rep(v,w) は次のように定義する。
Figure 2011175568
このようにすることで、頻繁に出現し文の構成要素として重要度の低い文節(“「”、“」”、“次に”、“そして”、など)の距離計算への影響を軽減することが可能である。
実施の形態3.
実施の形態1では、文章として木構造または文章の集合として森構造を作成したが、文書構造を解析して森構造を作成しても良い。図17はこの発明の実施の形態3を示す構成図である。図17において、文書構造解析手段108は文書の箇条書きや章立てなどの文書構造を解析するものである。
本実施の形態では、まず文書を解析し箇条書きおよび章立ての項目(章節項)を並列関係として分解する。文書構造解析手段108は既存の技術を用いるものとし、人手によって分解するのでも良い。実施の形態1においては複数の文の場合は1文を1つの木構造とし、全体では森構造としたが、本実施の形態では並列関係にある文は並列ノードで連結して統語情報付き木構造を形成する。このようにすることで、箇条書きのような順番に依存しない文章の構造を平等に扱うことができ、文書同士の距離を正確に算出することが出来る。
実施の形態4.
蓄積された文書の木構造の中から入力文章に類似するものを検索するように構成することも出来る。図18はこの発明の実施の形態4を示す構成図である。図18において検索文入力手段109は検索文を入力するものである。木構造集合110はあらかじめ統語情報付き木構造に変換された文書の集合を蓄積するものである。検索結果出力手段111は、検索文と編集距離が小さい統語情報付き木構造を持つ文章を出力するものである。
本実施の形態では、実施の形態1または2または3と同様の方法により、あらかじめ複数の文書を木構造に変換して木構造集合110に蓄積しておく。木構造集合110はデータベースなどでよい。次に、検索文入力手段109から文章が入力された場合、実施の形態1または2または3と同様の方法により統語情報付き木構造に変換する。得られた統語情報付き木構造と木構造集合110に蓄積された統語情報付き木構造との編集距離を求める。得られた編集距離の集合をソートし、検索結果出力手段111により、小さい順に所定の数だけ出力する。このようにすることで、検索文に類似する文書を検索することができる。
この発明に係る文書間距離算出器および文章検索器は、文書間における類似度を算出し、複数の文書をその内容に応じて似通った文章を分類する装置や、複数の文書から検索文に類似する文書を検索する装置に利用可能である。
101;文書入力手段、102;構文解析手段、103;統語情報付き木構造作成手段、104;並列ノード追加手段、105;並列ノード順序付け手段、106;統語情報付き木構造間の距離計算手段、107;統計情報解析手段、108;文書構造解析手段、109;検索文入力手段、110;木構造集合、111;検索結果出力手段。

Claims (5)

  1. 文書間の距離を算出する文章または文書を入力する文書入力手段と、
    文書入力手段で入力された文章または文書の文字列を形態素解析および係り受け解析する構文解析手段と、
    構文解析手段による構文解析結果から統語情報付き木構造を作成する統語情報付き木構造作成手段と、
    統語情報付き木構造を構成するノードのうち並列関係にあるものを探索し、並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加する並列ノード追加手段と
    並列ノード追加手段によって追加された並列ノード下のノードを順序付けする並列ノード順序付けする手段と、
    並列ノード下のノードが順序付けされた並列ノードが追加された統語情報付き木構造を他の文章または文書の統語情報付き木構造に編集し、その編集距離を予め設定された定義により算出する距離計算手段とを備えた文書間距離算出器。
  2. 編集距離が予め設定された定義は、同一木構造内でのノードの移動が発生する場合、新規に追加する場合に比べ編集距離が小さく設定され、
    前記距離計算手段は、同一木構造内でのノードの移動が発生する場合、新規に追加する場合に比べ編集距離が小さく設定され定義により、同一木構造内でのノードの移動が発生する場合は、新規に追加する場合に比べ編集距離が小さく算出される構成とされたことを特徴とする請求項1記載の文書間距離算出器。
  3. 構文解析手段による構文解析結果から編集対象となるノードの出現頻度を取得する統計情報取得手段を備え、
    編集距離が予め設定された定義は、編集対象となるノードの出現頻度に応じて設定され、
    前記距離計算手段は、並列ノード下のノードが順序付けされた並列ノードが追加された統語情報付き木構造を他の文章または文書の統語情報付き木構造に編集する際の編集距離を算出する時の定義は、編集対象となるノードの出現頻度に応じて設定されものを用いることを特徴とする請求項1記載の文書間距離算出器。
  4. 文書入力手段で入力した文書の文書構造を解析する文書構造解析手段を備え、
    統語情報付き木構造作成手段は文書構造解析手段による解析の結果、並列関係にある文を並列ノードで連結して統語情報付き木構造を形成する構成にされたことを特徴とする請求項3記載の文書間距離算出器。
  5. 文章または文書の形態素解析および係り受け解析結果から統語情報付き木構造を作成し、統語情報付き木構造を構成するノードのうち並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加し、追加された並列ノード下のノードが順序付けされた統語情報付き木構造を予め複数作成し、蓄積された木構造集合と、
    検索文を入力する検索文入力手段と、
    検索文入力手段で入力された文章または文書の文字列を形態素解析および係り受け解析する構文解析手段と、
    構文解析手段による構文解析結果から統語情報付き木構造を作成する統語情報付き木構造作成手段と、
    統語情報付き木構造を構成するノードのうち並列関係にあるものを探索し、並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加する並列ノード追加手段と
    並列ノード追加手段によって追加された並列ノード下のノードを順序付けする並列ノード順序付けする手段と、
    並列ノード下のノードが順序付けされた並列ノードが追加された統語情報付き木構造を木構造集合に蓄積された統語情報付き木構造との編集距離を求める距離計算手段と、
    距離計算手段で得られた編集距離の集合をソートし、小さい順に所定の数だけ出力する検索結果出力手段を備えたことを特徴とする文章検索器。
JP2010040578A 2010-02-25 2010-02-25 文書間距離算出器および文章検索器 Expired - Fee Related JP5441760B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010040578A JP5441760B2 (ja) 2010-02-25 2010-02-25 文書間距離算出器および文章検索器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010040578A JP5441760B2 (ja) 2010-02-25 2010-02-25 文書間距離算出器および文章検索器

Publications (2)

Publication Number Publication Date
JP2011175568A true JP2011175568A (ja) 2011-09-08
JP5441760B2 JP5441760B2 (ja) 2014-03-12

Family

ID=44688350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010040578A Expired - Fee Related JP5441760B2 (ja) 2010-02-25 2010-02-25 文書間距離算出器および文章検索器

Country Status (1)

Country Link
JP (1) JP5441760B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013105321A (ja) * 2011-11-14 2013-05-30 Hitachi Ltd 文書処理装置、文書構成要素間の関係解析方法およびプログラム
CN110008465A (zh) * 2019-01-25 2019-07-12 网经科技(苏州)有限公司 句子语义距离的度量方法
JP2020017238A (ja) * 2018-07-27 2020-01-30 株式会社日立製作所 リスク分析支援装置、リスク分析支援方法、およびリスク分析支援プログラム
KR20200036367A (ko) * 2018-09-28 2020-04-07 한국전자통신연구원 지식 그래프 기반 문장 분석 방법
JP2021022252A (ja) * 2019-07-30 2021-02-18 株式会社ウェブサークル 類似文章検索装置およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03161865A (ja) * 1989-11-21 1991-07-11 Fujitsu Ltd 文章の検索方法
JPH04102171A (ja) * 1990-08-22 1992-04-03 Hitachi Ltd 文書処理システム及び文書処理方法
JPH06162098A (ja) * 1992-11-24 1994-06-10 Fujitsu Ltd 類義語生成処理方法
JP2000148793A (ja) * 1998-09-11 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体
JP2002032374A (ja) * 2000-07-18 2002-01-31 Hitachi Ltd 情報抽出方法及び記録媒体
JP2004110161A (ja) * 2002-09-13 2004-04-08 Fuji Xerox Co Ltd テキスト文比較装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03161865A (ja) * 1989-11-21 1991-07-11 Fujitsu Ltd 文章の検索方法
JPH04102171A (ja) * 1990-08-22 1992-04-03 Hitachi Ltd 文書処理システム及び文書処理方法
JPH06162098A (ja) * 1992-11-24 1994-06-10 Fujitsu Ltd 類義語生成処理方法
JP2000148793A (ja) * 1998-09-11 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体
JP2002032374A (ja) * 2000-07-18 2002-01-31 Hitachi Ltd 情報抽出方法及び記録媒体
JP2004110161A (ja) * 2002-09-13 2004-04-08 Fuji Xerox Co Ltd テキスト文比較装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG201000460018; 板尾 要祐、外3名: '特徴的な意味内容を抽出する木構造マイニングのための日本語処理手法' 言語処理学会第11回年次大会発表論文集 , 20050315, p.73-76, 言語処理学会 *
JPN6013044815; 板尾 要祐、外3名: '特徴的な意味内容を抽出する木構造マイニングのための日本語処理手法' 言語処理学会第11回年次大会発表論文集 , 20050315, p.73-76, 言語処理学会 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013105321A (ja) * 2011-11-14 2013-05-30 Hitachi Ltd 文書処理装置、文書構成要素間の関係解析方法およびプログラム
JP2020017238A (ja) * 2018-07-27 2020-01-30 株式会社日立製作所 リスク分析支援装置、リスク分析支援方法、およびリスク分析支援プログラム
JP7026018B2 (ja) 2018-07-27 2022-02-25 株式会社日立製作所 リスク分析支援装置、リスク分析支援方法、およびリスク分析支援プログラム
KR20200036367A (ko) * 2018-09-28 2020-04-07 한국전자통신연구원 지식 그래프 기반 문장 분석 방법
KR102588185B1 (ko) * 2018-09-28 2023-10-13 한국전자통신연구원 지식 그래프 기반 문장 분석 방법
CN110008465A (zh) * 2019-01-25 2019-07-12 网经科技(苏州)有限公司 句子语义距离的度量方法
CN110008465B (zh) * 2019-01-25 2023-05-12 网经科技(苏州)有限公司 句子语义距离的度量方法
JP2021022252A (ja) * 2019-07-30 2021-02-18 株式会社ウェブサークル 類似文章検索装置およびプログラム

Also Published As

Publication number Publication date
JP5441760B2 (ja) 2014-03-12

Similar Documents

Publication Publication Date Title
Křen et al. SYN2015: Representative corpus of contemporary written Czech
JP2005251206A (ja) 単語分割で使用される新単語収集方法およびシステム
Van Cranenburgh et al. Data-oriented parsing with discontinuous constituents and function tags
JP5441760B2 (ja) 文書間距離算出器および文章検索器
JP2011118689A (ja) 検索方法及びシステム
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
Kyjánek et al. Universal Derivations 1.0, A Growing Collection of Harmonised Word-Formation Resources.
KR101176772B1 (ko) 문장 온톨로지 생성을 위한 자동 어노테이션 시스템 및 방법
Shvedova et al. Handling of nonstandard spelling in GRAC
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
Novák et al. Morphological annotation of Old and Middle Hungarian corpora
CN115617965A (zh) 一种语言结构大数据的快速检索方法
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2009271819A (ja) 文書検索システム、文書検索方法および文書検索プログラム
Reddy et al. POS Tagger for Kannada Sentence Translation
JP2001084252A (ja) 類似文書検索システム及び方法並びに類似文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
RU2643438C2 (ru) Обнаружение языковой неоднозначности в тексте
Nevzorova et al. Corpus management system: Semantic aspects of representation and processing of search queries
Nevzorova et al. The Semantic Context Models of Mathematical Formulas in Scientific Papers.
Doan et al. Improving key concept extraction using word association measurement
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
CN113330430A (zh) 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
Pembe et al. A Tree Learning Approach to Web Document Sectional Hierarchy Extraction.
Bortolin et al. SEUPD@ CLEF: Team NEON. A Memoryless Approach To Longitudinal Evaluation.
JP3921543B2 (ja) 機械翻訳装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131021

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131217

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees