JP2011175568A - 文書間距離算出器および文章検索器 - Google Patents
文書間距離算出器および文章検索器 Download PDFInfo
- Publication number
- JP2011175568A JP2011175568A JP2010040578A JP2010040578A JP2011175568A JP 2011175568 A JP2011175568 A JP 2011175568A JP 2010040578 A JP2010040578 A JP 2010040578A JP 2010040578 A JP2010040578 A JP 2010040578A JP 2011175568 A JP2011175568 A JP 2011175568A
- Authority
- JP
- Japan
- Prior art keywords
- tree structure
- nodes
- parallel
- syntactic information
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書入力手段からの文書の文字列を構文解析手段で形態素解析および係り受け解析し、その構文解析結果から統語情報付き木構造作成手段で統語情報付き木構造を作成し、統語情報付き木構造の並列関係にあるノードを子ノードとした並列ノードを並列ノード追加手段で統語情報付き木構造に追加し、並列ノード順序付けする手段で追加並列ノード下のノードを順序付けし、その統語情報付き木構造を他文書の統語情報付き木構造に編集し、その編集距離を距離計算手段で算出する。
【選択図】図1
Description
また、単語が共通していなくとも、文章構造が類似している場合にも文章の意味内容が類似していることがある。例えば、以下の3つの文を考える。
文1: 「台風11号は伊豆諸島近海を進み、夕方から夜にかけて関東地方に最も近づくとみられる。」
文2: 「台風12号は東京湾沖を北上し、25日から26日にかけて日本に最接近とみられる。」
文3: 「東京湾でみられる日本近海の魚を紹介します。」
この発明は上記のような問題を解決するためになされたもので、文の係り受け構造を木構造に変換し、木構造同士の編集距離を類似度判定に利用することで出現単語の共通性と文の構造を考慮した類似度判定を可能とする。
文書間の距離を算出する文章または文書を入力する文書入力手段と、
文書入力手段で入力された文章または文書の文字列を形態素解析および係り受け解析する構文解析手段と、
構文解析手段による構文解析結果から統語情報付き木構造を作成する統語情報付き木構造作成手段と、
統語情報付き木構造を構成するノードのうち並列関係にあるものを探索し、並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加する並列ノード追加手段と
並列ノード追加手段によって追加された並列ノード下のノードを順序付けする並列ノード順序付けする手段と、
並列ノード下のノードが順序付けされた並列ノードが追加された統語情報付き木構造を他の文章または文書の統語情報付き木構造に編集し、その編集距離を予め設定された定義により算出する距離計算手段とを備える。
文章または文書の形態素解析および係り受け解析結果から統語情報付き木構造を作成し、統語情報付き木構造を構成するノードのうち並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加し、追加された並列ノード下のノードが順序付けされた統語情報付き木構造が予め複数作成され、蓄積された木構造集合と、
検索文を入力する検索文入力手段と、
検索文入力手段で入力された文章または文書の文字列を形態素解析および係り受け解析する構文解析手段と、
構文解析手段による構文解析結果から統語情報付き木構造を作成する統語情報付き木構造作成手段と、
統語情報付き木構造を構成するノードのうち並列関係にあるものを探索し、並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加する並列ノード追加手段と
並列ノード追加手段によって追加された並列ノード下のノードを順序付けする並列ノード順序付けする手段と、
並列ノード下のノードが順序付けされた並列ノードが追加された統語情報付き木構造を木構造集合に蓄積された統語情報付き木構造との編集距離を求める距離計算手段と、
距離計算手段で得られた編集距離の集合をソートし、小さい順に所定の数だけ出力する検索結果出力手段を備える。
形態素解析および係り受け解析された文書の文字列から統語情報付き木構造を作成し、統語情報付き木構造を構成するノードのうち並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加し、並列ノード下のノードを順序付けした木構造同士の編集距離を予め設定された定義により算出し、その編集距離を類似度判定に利用することで出現単語の共通性と文の構造を考慮した類似度判定を可能とする。
文章または文書の形態素解析および係り受け解析結果から統語情報付き木構造を作成し、統語情報付き木構造を構成するノードのうち並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加し、追加された並列ノード下のノードが順序付けされた統語情報付き木構造を予め複数作成して、蓄積された木構造集合を備え、
形態素解析および係り受け解析された検索文の文字列から統語情報付き木構造を作成し、統語情報付き木構造を構成するノードのうち並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加し、並列ノードが追加された統語情報付き木構造を木構造集合に蓄積された統語情報付き木構造との編集距離を距離計算手段で求め、
距離計算手段で得られた編集距離の集合をソートし、小さい順に所定の数だけ出力する検索結果出力手段を備えることで、検索文に類似する文書を検索することが可能となる。
図1はこの発明の実施の形態1による基本構成を示すブロック図である。図1において、文書入力手段101は解析する文章または文書を入力するものである。構文解析手段102は文書入力手段101で入力された文字列を形態素解析および係り受け解析するものである。統語情報付き木構造作成手段103は構文解析手段102における解析結果から統語情報付き木構造を作成するものである。並列ノード追加手段104は統語情報付き木構造を構成するノードのうち並列関係にあるものを探索し、並列関係にあるノードを子ノードとした並列ノードを木構造に追加するものである。並列ノード順序付け手段105は、並列ノード追加手段104によって追加された並列ノード下のノードを順序付けするものである。統語情報付き木構造間の距離計算手段106は統語情報付き木構造同士の距離を算出するものである。
次にステップ20において、構文解析手段102により取得した文章の形態素解析および係り受け解析を行い構文解析結果とする。ここでは形態素解析・係り受け解析は既存技術を用いるものとする。図3に「15時に変圧器の漏電のため障害が発生した」という文章を係り受け解析した結果の例を示す。長方形が文節のまとまりを示し、矢印は文節が係っている先を示す。
図7はこのような並列ノードを追加する手順を示したものである。リーフノードは木構造の末端に位置するノードのこととし、図5の木構造の場合は「一昨日と」と「変圧器の」と「2回の」がリーフノードに該当する。また、ルートノードはトップに位置するノードのこととし、図5の木構造の場合は「発生した」がルートノードに該当する。
A:「15時に変圧器の漏電のため障害が発生した」
B:「20時に変圧器の漏電で2回の障害が発生した」
次に図10のステップ230では「ため」を削除する。このときのコストは上記定義1により2.0である。
次に図11のステップ240では「漏電の」を「漏電で」に置換する。このときのコストは、主辞「漏電」の品詞が等しく、主辞までの見出し(表記文字列)「漏電」が等しいため0である。
次に図12のステップ250では「15時に」を「20時に」に置換する。このときのコストは、主辞「時」の品詞が等しく、主辞までの見出し「15時」、「20時」が異なるので0.5である。
Fiを順序付けされた木の集合(森、Forest)、d(F1,F2) をF1、F2 間の距離、φは空集合、vをF1に属するノードのうち最も右側に位置するルート、w をF2 に属するノードのうち最も右側に位置するルート、del(v) を v を削除するコスト、ins(w)をw を挿入するコスト、rep(v,w)をv を w に置換するコスト、F1(v)をFiのノードまたは木のうちv の子、Ti(v)をv をルートとする木、Fi−vをv を削除したF1のノードまたは木、Fi−Ti(v)をTi(v)のノード全てを削除したF1のノードまたは木とし、各々の関係を下記の式(1)〜(4)のように定める。
C:「一昨日と昨日、変圧器の漏電で2回の障害が発生した」
D:「昨日と一昨日、変圧器の漏電で2回の障害が発生した」
統語情報付き木構造は図13のようになる。並列ノードを追加せずに定義1、定義2に従って編集距離を求めると、Cの「昨日、」を「一昨日、」に置換し、「一昨日と」を「昨日と」に置換する必要があり、それぞれの置換コストは0.5となるため編集距離は1.0となる。
以上のようにすれば、出現単語の共通性と文の構造を考慮した文章間の類似度判定が可能である。
また、本実施の形態では統語情報付き木構造を作成する対象として1文を例に挙げたが、複数の文章であってもよい。その場合は定義2にあるように木構造ではなく木構造の集合=森構造として扱えばよい。
図16はこの発明の実施の形態2を示す構成図である。統計情報解析手段107は、構文解析手段102によって分割された形態素や文節の、入力された文書全体における出現頻度をカウントするものである。
実施の形態1では、統語情報付き木構造間の距離計算手段106は定義1に従って編集距離を求めたが、本実施の形態では追加・挿入・置換等の編集対象となるノードの出現頻度情報を用いてそれぞれのコストを求める。
例えば、主辞までの見出しによるTF-IDFを編集距離に重みとして与える。TF-IDFによるノードv の重み TFID(v)を以下の式で定義する。
ノードvとwの置換コスト rep(v,w) は次のように定義する。
実施の形態1では、文章として木構造または文章の集合として森構造を作成したが、文書構造を解析して森構造を作成しても良い。図17はこの発明の実施の形態3を示す構成図である。図17において、文書構造解析手段108は文書の箇条書きや章立てなどの文書構造を解析するものである。
蓄積された文書の木構造の中から入力文章に類似するものを検索するように構成することも出来る。図18はこの発明の実施の形態4を示す構成図である。図18において検索文入力手段109は検索文を入力するものである。木構造集合110はあらかじめ統語情報付き木構造に変換された文書の集合を蓄積するものである。検索結果出力手段111は、検索文と編集距離が小さい統語情報付き木構造を持つ文章を出力するものである。
Claims (5)
- 文書間の距離を算出する文章または文書を入力する文書入力手段と、
文書入力手段で入力された文章または文書の文字列を形態素解析および係り受け解析する構文解析手段と、
構文解析手段による構文解析結果から統語情報付き木構造を作成する統語情報付き木構造作成手段と、
統語情報付き木構造を構成するノードのうち並列関係にあるものを探索し、並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加する並列ノード追加手段と
並列ノード追加手段によって追加された並列ノード下のノードを順序付けする並列ノード順序付けする手段と、
並列ノード下のノードが順序付けされた並列ノードが追加された統語情報付き木構造を他の文章または文書の統語情報付き木構造に編集し、その編集距離を予め設定された定義により算出する距離計算手段とを備えた文書間距離算出器。 - 編集距離が予め設定された定義は、同一木構造内でのノードの移動が発生する場合、新規に追加する場合に比べ編集距離が小さく設定され、
前記距離計算手段は、同一木構造内でのノードの移動が発生する場合、新規に追加する場合に比べ編集距離が小さく設定され定義により、同一木構造内でのノードの移動が発生する場合は、新規に追加する場合に比べ編集距離が小さく算出される構成とされたことを特徴とする請求項1記載の文書間距離算出器。 - 構文解析手段による構文解析結果から編集対象となるノードの出現頻度を取得する統計情報取得手段を備え、
編集距離が予め設定された定義は、編集対象となるノードの出現頻度に応じて設定され、
前記距離計算手段は、並列ノード下のノードが順序付けされた並列ノードが追加された統語情報付き木構造を他の文章または文書の統語情報付き木構造に編集する際の編集距離を算出する時の定義は、編集対象となるノードの出現頻度に応じて設定されものを用いることを特徴とする請求項1記載の文書間距離算出器。 - 文書入力手段で入力した文書の文書構造を解析する文書構造解析手段を備え、
統語情報付き木構造作成手段は文書構造解析手段による解析の結果、並列関係にある文を並列ノードで連結して統語情報付き木構造を形成する構成にされたことを特徴とする請求項3記載の文書間距離算出器。 - 文章または文書の形態素解析および係り受け解析結果から統語情報付き木構造を作成し、統語情報付き木構造を構成するノードのうち並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加し、追加された並列ノード下のノードが順序付けされた統語情報付き木構造を予め複数作成し、蓄積された木構造集合と、
検索文を入力する検索文入力手段と、
検索文入力手段で入力された文章または文書の文字列を形態素解析および係り受け解析する構文解析手段と、
構文解析手段による構文解析結果から統語情報付き木構造を作成する統語情報付き木構造作成手段と、
統語情報付き木構造を構成するノードのうち並列関係にあるものを探索し、並列関係にあるノードを子ノードとした並列ノードを統語情報付き木構造に追加する並列ノード追加手段と
並列ノード追加手段によって追加された並列ノード下のノードを順序付けする並列ノード順序付けする手段と、
並列ノード下のノードが順序付けされた並列ノードが追加された統語情報付き木構造を木構造集合に蓄積された統語情報付き木構造との編集距離を求める距離計算手段と、
距離計算手段で得られた編集距離の集合をソートし、小さい順に所定の数だけ出力する検索結果出力手段を備えたことを特徴とする文章検索器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010040578A JP5441760B2 (ja) | 2010-02-25 | 2010-02-25 | 文書間距離算出器および文章検索器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010040578A JP5441760B2 (ja) | 2010-02-25 | 2010-02-25 | 文書間距離算出器および文章検索器 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011175568A true JP2011175568A (ja) | 2011-09-08 |
JP5441760B2 JP5441760B2 (ja) | 2014-03-12 |
Family
ID=44688350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010040578A Expired - Fee Related JP5441760B2 (ja) | 2010-02-25 | 2010-02-25 | 文書間距離算出器および文章検索器 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5441760B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013105321A (ja) * | 2011-11-14 | 2013-05-30 | Hitachi Ltd | 文書処理装置、文書構成要素間の関係解析方法およびプログラム |
CN110008465A (zh) * | 2019-01-25 | 2019-07-12 | 网经科技(苏州)有限公司 | 句子语义距离的度量方法 |
JP2020017238A (ja) * | 2018-07-27 | 2020-01-30 | 株式会社日立製作所 | リスク分析支援装置、リスク分析支援方法、およびリスク分析支援プログラム |
KR20200036367A (ko) * | 2018-09-28 | 2020-04-07 | 한국전자통신연구원 | 지식 그래프 기반 문장 분석 방법 |
JP2021022252A (ja) * | 2019-07-30 | 2021-02-18 | 株式会社ウェブサークル | 類似文章検索装置およびプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03161865A (ja) * | 1989-11-21 | 1991-07-11 | Fujitsu Ltd | 文章の検索方法 |
JPH04102171A (ja) * | 1990-08-22 | 1992-04-03 | Hitachi Ltd | 文書処理システム及び文書処理方法 |
JPH06162098A (ja) * | 1992-11-24 | 1994-06-10 | Fujitsu Ltd | 類義語生成処理方法 |
JP2000148793A (ja) * | 1998-09-11 | 2000-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体 |
JP2002032374A (ja) * | 2000-07-18 | 2002-01-31 | Hitachi Ltd | 情報抽出方法及び記録媒体 |
JP2004110161A (ja) * | 2002-09-13 | 2004-04-08 | Fuji Xerox Co Ltd | テキスト文比較装置 |
-
2010
- 2010-02-25 JP JP2010040578A patent/JP5441760B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03161865A (ja) * | 1989-11-21 | 1991-07-11 | Fujitsu Ltd | 文章の検索方法 |
JPH04102171A (ja) * | 1990-08-22 | 1992-04-03 | Hitachi Ltd | 文書処理システム及び文書処理方法 |
JPH06162098A (ja) * | 1992-11-24 | 1994-06-10 | Fujitsu Ltd | 類義語生成処理方法 |
JP2000148793A (ja) * | 1998-09-11 | 2000-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体 |
JP2002032374A (ja) * | 2000-07-18 | 2002-01-31 | Hitachi Ltd | 情報抽出方法及び記録媒体 |
JP2004110161A (ja) * | 2002-09-13 | 2004-04-08 | Fuji Xerox Co Ltd | テキスト文比較装置 |
Non-Patent Citations (2)
Title |
---|
CSNG201000460018; 板尾 要祐、外3名: '特徴的な意味内容を抽出する木構造マイニングのための日本語処理手法' 言語処理学会第11回年次大会発表論文集 , 20050315, p.73-76, 言語処理学会 * |
JPN6013044815; 板尾 要祐、外3名: '特徴的な意味内容を抽出する木構造マイニングのための日本語処理手法' 言語処理学会第11回年次大会発表論文集 , 20050315, p.73-76, 言語処理学会 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013105321A (ja) * | 2011-11-14 | 2013-05-30 | Hitachi Ltd | 文書処理装置、文書構成要素間の関係解析方法およびプログラム |
JP2020017238A (ja) * | 2018-07-27 | 2020-01-30 | 株式会社日立製作所 | リスク分析支援装置、リスク分析支援方法、およびリスク分析支援プログラム |
JP7026018B2 (ja) | 2018-07-27 | 2022-02-25 | 株式会社日立製作所 | リスク分析支援装置、リスク分析支援方法、およびリスク分析支援プログラム |
KR20200036367A (ko) * | 2018-09-28 | 2020-04-07 | 한국전자통신연구원 | 지식 그래프 기반 문장 분석 방법 |
KR102588185B1 (ko) * | 2018-09-28 | 2023-10-13 | 한국전자통신연구원 | 지식 그래프 기반 문장 분석 방법 |
CN110008465A (zh) * | 2019-01-25 | 2019-07-12 | 网经科技(苏州)有限公司 | 句子语义距离的度量方法 |
CN110008465B (zh) * | 2019-01-25 | 2023-05-12 | 网经科技(苏州)有限公司 | 句子语义距离的度量方法 |
JP2021022252A (ja) * | 2019-07-30 | 2021-02-18 | 株式会社ウェブサークル | 類似文章検索装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5441760B2 (ja) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Křen et al. | SYN2015: Representative corpus of contemporary written Czech | |
JP2005251206A (ja) | 単語分割で使用される新単語収集方法およびシステム | |
Van Cranenburgh et al. | Data-oriented parsing with discontinuous constituents and function tags | |
JP5441760B2 (ja) | 文書間距離算出器および文章検索器 | |
JP2011118689A (ja) | 検索方法及びシステム | |
JP2006065387A (ja) | テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム | |
Kyjánek et al. | Universal Derivations 1.0, A Growing Collection of Harmonised Word-Formation Resources. | |
KR101176772B1 (ko) | 문장 온톨로지 생성을 위한 자동 어노테이션 시스템 및 방법 | |
Shvedova et al. | Handling of nonstandard spelling in GRAC | |
JP2007164635A (ja) | 同義語彙獲得方法及び装置及びプログラム | |
Novák et al. | Morphological annotation of Old and Middle Hungarian corpora | |
CN115617965A (zh) | 一种语言结构大数据的快速检索方法 | |
JPWO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2009271819A (ja) | 文書検索システム、文書検索方法および文書検索プログラム | |
Reddy et al. | POS Tagger for Kannada Sentence Translation | |
JP2001084252A (ja) | 類似文書検索システム及び方法並びに類似文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
RU2643438C2 (ru) | Обнаружение языковой неоднозначности в тексте | |
Nevzorova et al. | Corpus management system: Semantic aspects of representation and processing of search queries | |
Nevzorova et al. | The Semantic Context Models of Mathematical Formulas in Scientific Papers. | |
Doan et al. | Improving key concept extraction using word association measurement | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
CN113330430A (zh) | 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序 | |
Pembe et al. | A Tree Learning Approach to Web Document Sectional Hierarchy Extraction. | |
Bortolin et al. | SEUPD@ CLEF: Team NEON. A Memoryless Approach To Longitudinal Evaluation. | |
JP3921543B2 (ja) | 機械翻訳装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120823 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131021 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131217 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |