JP2005190185A - 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体 - Google Patents

類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体 Download PDF

Info

Publication number
JP2005190185A
JP2005190185A JP2003430982A JP2003430982A JP2005190185A JP 2005190185 A JP2005190185 A JP 2005190185A JP 2003430982 A JP2003430982 A JP 2003430982A JP 2003430982 A JP2003430982 A JP 2003430982A JP 2005190185 A JP2005190185 A JP 2005190185A
Authority
JP
Japan
Prior art keywords
sentence
similar
grammar
similarity
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003430982A
Other languages
English (en)
Inventor
Tsutomu Hirao
努 平尾
Hideki Isozaki
秀樹 磯崎
Jun Suzuki
潤 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003430982A priority Critical patent/JP2005190185A/ja
Publication of JP2005190185A publication Critical patent/JP2005190185A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 複雑な構造を有する文に対して精度の高い類似文の選択処理を提供すること。
【解決手段】 類似判定の対象文の集合から検索文に類似する文を選択する類似文選択装置1が、類似判定の対象文の入力を受け付ける手順と、検索文の入力を受け付ける手順と、検索文および対象文について文から文節へ分割する手順と、分割された文節から文断片へ統合する手順と、文断片間の類似度を算出する手順と、検索文を構成する文断片に対して最高の類似度となる文断片を有する文を類似文として選択する手順と、類似文を出力する手順と、を実行し、かつ、分割された文節から文断片へ統合する手順は、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を文断片とすることを特徴とする。
【選択図】 図1

Description

本発明は、類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体に関する。
ある与えられた検索文をもとに、その検索文に類似する文を選択する処理が、コンピュータによる自然言語処理の一形態として行われている。類似する文を選択することにより、レポートの盗作の発見や、検索エンジンにおける検索文をキーとした文書検索を、効率的に実現することができる。また、類似する文の集合(コーパス)は、所定の言語の文法を理解する上で貴重な情報となるので、類似文の選択処理は、文法理解の支援ツールおよび文法書の作成支援ツールとして、有用となる。
そのため、類似文の選択処理を実現する様々な手法が、提案されている(非特許文献1など)。これらの従来の手法は、文を構成する品詞を手がかりとする。つまり、ある文と別の文とが類似する度合いを類似度として定義し、類似度が高い文どうしを、類似する文として抽出する。なお、類似度は、ある文と別の文とで一致する品詞数によって算出される。
また、コンピュータによる自然言語処理において、類似性を利用する一例として、蓄積されたテキスト集合から有効な相関情報を見つけだすための情報マイニング方法(特許文献1など)や、保存するデータを比較することでデータの重複を抑制する電子ファイル方法(特許文献2など)が、提案されている。
Michele Banko、Vibhu Mittal、Mark Kantrowitz、Jade Goldstein著、"Generating Extraction-Based Summaries from Hand-Written Summaries by Aligning Text Spans"、出典"Proc. of the Pacific Association for Computational Linguistics"、1999年 特開2000−172691号公報(段落[0005]〜[0017]) 特開平11−85779号公報(段落[0007]〜[0021])
ここで、文は、主語・述語の関係が1回だけで成り立っている単文だけでなく、複雑な構造を持つ文も存在する。例えば、複数の単文を要約した結果、独立した2つ以上の文が対等の資格で結合した重文や、主語・述語の関係が入れ子構造となっている複文が現れることもある。これらの複雑な構造を持つ文は、複数の文から構成されるため、類似する文も、構成要素となる文の数だけ存在する。
しかし、従来の類似文の選択処理(非特許文献1など)は、文と文とが直接対応されることを前提として、処理を行ってきた。換言すると、複数の文を基にして作成された複雑な構造を持つ文と、単純な単文の構造を持つ文とを区別せずに扱っていたため、検索文に類似する文の数を、その検索文の構造に従って変化させることは、なされてこなかった。その結果、複雑な構造を持つ文が、1つの類似文だけに対応付けられるなどの不都合が発生してしまい、複雑な構造を持つ文に対する類似文の検索精度は、不十分であった。
また、特許文献1は、データマイニングの統計処理に利用するために係り受け構造を抽出するに過ぎないため、類似文の選択処理という目的とは適合しない。さらに、特許文献2は、類似性の比較対象となる範囲が文ではなくデータとなっており、かつ、構文解析処理で得られた構造を利用するという抽象的な表現に留めているので、複文や重文などの複雑な構造を持つ文を基にした類似文の選択処理という目的を実現するには不十分である。
そこで、本発明は、前記した問題を解決し、複雑な構造を有する文に対して精度の高い類似文の選択処理を提供することを主な目的とする。
前記課題を解決するため、請求項1に記載の類似文選択方法は、類似判定の対象文の集合から検索文に類似する文を選択する類似文選択方法であって、類似文選択装置が、前記類似判定の対象文の入力を受け付ける手順と、前記検索文の入力を受け付ける手順と、前記検索文および前記対象文について文から文節へ分割する手順と、前記分割された文節から文断片へ統合する手順と、前記文断片間の類似度を算出する手順と、前記検索文を構成する文断片に対して最高の類似度となる文断片を有する文を類似文として選択する手順と、前記類似文を出力する手順と、を実行し、かつ、前記分割された文節から文断片へ統合する手順は、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を文断片とすることを特徴とする。
請求項2に記載の類似文選択方法は、請求項1に記載の類似文選択方法であって、前記文断片間の類似度を算出する手順は、後記の関数Kessk(T,U)によって算出されることを特徴とする。但し、Kessk(T,U)は、文断片(T)と文断片(U)との間の類似度を返す関数であり、tiおよびujは、TおよびUが有する品詞およびその出現順序(第i番目または第j番目に出現する品詞)を示し、val(ti,uj)は、品詞tiと、品詞ujとが一致している場合に1を返し、品詞が不一致の場合に0を返す関数であり、変数(d)は、組み合わせる品詞数を示す。
Figure 2005190185
請求項3に記載の類似文選択装置は、類似判定の対象文の集合から検索文に類似する文を選択する類似文選択装置であって、前記検索文および前記類似判定の対象文の文法を格納する文法記録部と、前記検索文および前記類似判定の対象文を記録する入力文記録部と、前記検索文および前記類似判定の対象文を前記文法に従ってその構成要素である文節単位に分割する文節分割部と、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を前記文法に従って文断片とする文断片作成部と、前記検索文における類似判定の過程および結果を格納する類似判定記録部と、前記文断片間の類似度を算出する文断片間類似判定部と、前記文断片間の類似度を基に前記検索文と類似する文を選択する文間類似判定部と、を含めて構成されることを特徴とする。
請求項4に記載の類似文選択装置は、請求項3に記載の類似文選択装置であって、前記類似文選択装置は、前記文法付きのサンプル文を記録するサンプル文記録部と、前記文法記録部に格納される文法を前記サンプル文を基に作成する文法抽出部と、語の意味によって分類された階層構造を持つ辞書であるシソーラスを記録するシソーラス記録部と、を含めて構成されることを特徴とする。
請求項5に記載の類似文選択プログラムの記録媒体は、類似判定の対象文の集合から検索文に類似する文を選択する類似文選択プログラムの記録媒体であって、コンピュータを、前記検索文および前記類似判定の対象文の文法を格納する文法記録手段と、前記検索文および前記類似判定の対象文を記録する入力文記録手段と、前記検索文および前記類似判定の対象文を前記文法に従ってその構成要素である文節単位に分割する文節分割手段と、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を前記文法に従って文断片とする文断片作成手段と、前記検索文における類似判定の過程および結果を格納する類似判定記録手段と、前記文断片間の類似度を算出する文断片間類似判定手段と、前記文断片間の類似度を基に前記検索文と類似する文を選択する文間類似判定手段、として機能させることを特徴とする。
請求項6に記載の類似文選択プログラムの記録媒体は、請求項5に記載のコンピュータ読み取り可能な類似文選択プログラムの記録媒体であって、前記コンピュータを、前記文法付きのサンプル文を記録するサンプル文記録手段と、前記文法記録部に格納される文法を前記サンプル文を基に作成する文法抽出手段と、語の意味によって分類された階層構造を持つ辞書であるシソーラスを記録するシソーラス記録手段、としてさらに機能させることを特徴とする。
本発明は、文から主語と述語の関係または修飾語と被修飾語の関係を抽出して文断片を作成し、その文断片ごとに、類似判定を行う。よって、複雑な構造を持つ文は、その文の基となる複数の文の要素が、各文断片として抽出される。よって、複雑な構造を持つ文は、文断片ごとに、類似判定が行われるため、適切な数の類似文と対応付けることが可能となり、精度の高い類似文の選択処理が実現される。
以下に、本発明が適用される類似文選択装置1の一実施形態について、図面を参照して詳細に説明する。まず、本実施形態の類似文選択装置1の構成について、図1から図3を参照して説明する。
図1は、類似文選択装置1の構成図である。類似文選択装置1は、所定の検索文と類似する文を選択する機能を有する。このため、類似文選択装置1は、所定の検索文と類似判定の対象文とを記録する入力文記録部10と、所定の検索文における類似判定の過程および結果を格納する類似判定記録部20と、類似文選択処理に使用される文法を格納する文法記録部30と、を含めて構成される。
入力文記録部10のデータは、類似文選択装置1の構成要素である、文をその構成要素である文節単位に分割する文節分割部11と、修飾関係または主語述語関係を有する文節群を文断片に統合する文断片作成部12と、によって処理される。
類似判定記録部20のデータは、類似文選択装置1の構成要素である、所定の文断片と、別の文断片との類似度を算出する文断片間類似判定部21と、文断片間の類似度を基に所定の文と別の文とが類似するかを判定する文間類似判定部22と、によって処理される。
文法記録部30のデータは、類似文選択装置1の構成要素である、文法記録部30に格納される文法をサンプル文を基に作成する文法抽出部31によって処理される。また、類似文選択装置1は、文法抽出部31が文法の抽出に使用するデータを格納するために、文法付きのサンプル文を記録するサンプル文記録部32と、語の意味によって分類された階層構造を持つ辞書であるシソーラスを記録するシソーラス記録部33と、を含めて構成される。なお、シソーラス記録部33の辞書データは、例えば、果物(上位概念)と、林檎(下位概念)との対応情報を示すものである。
なお、類似文選択装置1の各記録部(入力文記録部10、類似判定記録部20、文法記録部30、サンプル文記録部32、シソーラス記録部33)は、例えば、RAM(Random-Access Memory)などの記憶手段によって構成される。また、類似文選択装置1の各処理部(文節分割部11、文断片作成部12、文断片間類似判定部21、文間類似判定部22、文法抽出部31)は、例えば、類似文選択装置1のCPU(Central Processing Unit)によって読み取られて実行されるプログラムとして構成される。
以上、類似文選択装置1の構成について、説明した。次に、本実施形態の類似文選択装置1の動作について、図1を参照しつつ、図2に沿って説明する。なお、図2は、類似文選択装置1を主体にしたフローチャートである。
まず、類似文選択装置1は、前準備として、文法記録部30に文法の登録を行う(S101)。ここで、文法は、文節を構成する品詞の集合(名詞と、助詞“は”との組など)と、ある文節と別の文節との関係(主語と述語の関係、修飾語と被修飾語の関係など)と、を含めて構成される。なお、主語と述語の関係は、例えば、主語となりうる文節が有する品詞(固有名詞と、助詞“は”との組など)と、述語となりうる文節が有する品詞(動詞など)と、の組として定義される。また、修飾語と被修飾語の関係は、例えば、修飾語となりうる文節が有する品詞(副詞など)と、被修飾語となりうる文節が有する品詞(動詞など)と、の組として定義される。これらの文法は、ユーザによって類似文選択装置1に入力されたデータであり、文法記録部30に記録される。
次に、類似文選択装置1は、類似判定の対象文の入力を受け付け、入力された対象文を入力文記録部10に記録する(S102)。ここで、類似判定の対象文は、ある与えられた検索文に類似する文の選択の対象となる文の集合である。
そして、類似文選択装置1は、検索文の入力を受け付け、入力された検索文を入力文記録部10に記録する(S103)。図3(A)は、入力文記録部10に記録された文の集合を示す図である。図3(A)は、1つの検索文(検索文K)と、3つの類似判定の対象文(対象文TA、対象文TB、対象文TC)とが記録されている旨を示している。
さらに、文節分割部11は、入力文記録部10に格納された各文(検索文K、対象文TA、対象文TB、対象文TC)に対して、文から文節への分割処理を行う(S104)。ここで、文から文節への分割処理は、文をその構成要素である品詞に分割する処理、および、分割された1つ以上の品詞を文節に統合する処理から構成される。
なお、品詞に分割する処理は、類似文選択装置1が、シソーラス記録部33に記録された辞書データの各品詞の文字列と、文を構成する文字列とを比較し、両文字列が一致する場合に、その文字列の品詞が存在するとみなす処理である。
また、文節に統合する処理は、類似文選択装置1が、品詞の集合について、文法記録部30に記録された文法(文節を構成する品詞)に基づいて、品詞を文節にグループ化する処理である。以上、文から文節への分割処理によって、類似文選択装置1は、図3(A)に示す各文を、図3(B)に示す文節の集合に分割する。なお、図3(B)は、第1文節、第2文節、第3文節、のように文節の出現順序を規定し、“/”によって各文節が区切られている。
そして、文断片作成部12は、S104によって文節に分割されている各文に対して、文節から文断片への統合処理を行う(S105)。具体的には、文断片作成部12は、文法記録部30に記録されている文法(主語と述語の関係、修飾語と被修飾語の関係)に従って、修飾関係または主語述語関係を有する文節群を文節の集合から抽出し、文断片に統合する。
ここで、文断片作成部12は、修飾関係または主語述語関係が連続する場合には、それらの連続した文節を全て繋ぎ合わせて1つの文断片を作成する。例えば、対象文TAについて、文節“過去最高の”から文節“約415万編にも”への修飾関係があり、かつ、文節“約415万編にも”から文節“及んだ”への修飾関係があるとする。その場合、文断片作成部12は、文節“過去最高の”と、文節“約415万編にも”と、文節“及んだ”とを、連続した文節の集合であるとみなし、それらの文節の集合を全て繋ぎ合わせて1つの文断片TA2を作成する。なお、連続した文節を全て繋ぎ合わせる処理は、各文節をノード(葉または節)とし、かつ、修飾関係または主語述語関係による文節間の接続をリンク(枝)とするツリー(依存構造木)の作成処理とみなすこともできる。
以上、文節から文断片への統合処理によって、類似文選択装置1は、図4(A)に示す各文を、図4(B)に示す文節の集合に分割する。ここで、図4(A)は、図3(B)と同一である。なお、図4(B)は、各文断片が、第1文節、第2文節、第3文節の順序で、修飾関係または主語述語関係が存在する旨を示している。なお、作成された各文断片は、類似判定処理に使用されるために、入力文記録部10から類似判定記録部20にコピーされる。
さらに、文断片間類似判定部21は、類似判定記録部20に記録された文断片間の類似判定を行う(S106)。類似文選択装置1は、図5(A)に示す検索文Kの文断片(文断片K1、文断片K2、文断片K3、文断片K4)ごとに、類似判定を行った結果を付す(図5(B)参照)。ここで、図5(A)は、図4(B)と同一である。なお、文断片間の類似判定は、例えば、文断片を構成する文節において、両文断片に共通して含まれる文節の数が多いほど、類似度が高いとするアルゴリズムによって、行われる。次に、検索文Kの各文断片に対して、最高の類似度となる対象文の文断片が、文断片ごとに選択される。
そして、文間類似判定部22は、S106における文断片間の類似判定の結果を基に、文間の類似判定を行う(S107)。類似文選択装置1は、図6(A)に示す検索文Kの文断片(文断片K1、文断片K2、文断片K3、文断片K4)ごとに、類似する文断片を有する対象文を、検索文Kに類似する文として選択する(図6(B)参照)。ここで、図6(A)は、図5(B)と同一である。よって、検索文Kと類似する対象文は、文断片TA1および文断片TA2の類似による対象文TAと、文断片TB1および文断片TB2の類似による対象文TBの2つとなる。
さらに、類似文選択装置1は、S107の結果として得られた検索文に類似する文を出力する(S108)。つまり、S107で選択された2つの対象文(対象文TA、対象文TB)が、検索文Kに類似する文として、出力される。なお、出力形式は、例えば、ディスプレイへの表示、電子ファイルへの書き出し、および、ネットワークを介してのデータ送信などである。
以上説明した本発明は、以下のように発明の趣旨を逸脱しない範囲で広く変形実施することができる。
例えば、文法記録部30への文法の登録(S101)は、文法そのものを登録させる代わりに、文法の手がかりとなるサンプル文を入力させ、そのサンプル文から類似文選択装置1が文法を抽出する処理を行ってもよい。図7は、サンプル文からの文法の抽出処理を示す図である。まず、図7(A)は、類似文選択装置1のサンプル文記録部32に入力されるサンプル文の一例を示している。サンプル文は、所定の文“佐藤は、リンゴを食べる。”と、その文に対して付加された文法とによって構成される。なお、付加された文法は、文を文節に分割する文法(“/”によって区切られている)と、分割された文節間の関係を示す文法(主語述語の関係および修飾語被修飾語の関係)と、によって構成される。
まず、類似文選択装置1は、文を文節に分割する文法を、サンプル文から抽出する。その結果、文節に分割するための文法が、3つ取得される(図7(B)参照)。次に、類似文選択装置1は、文節間の関係を示す文法を、サンプル文から抽出する。それにより、2つの文節間の関係(主語述語の関係および修飾語被修飾語の関係)が、取得される(図7(C)参照)。ここで、類似文選択装置1は、シソーラス記録部33を用いて、サンプル文に使用される品詞そのものの代わりに、一般化(上位概念化)した品詞(例えば、“佐藤”→“固有名詞”)を、文法として取得してもよい。
また、類似文選択装置1は、図2に示す類似文の選択処理を複数回行う場合に、文節から文断片への統合処理(S105)までは、検索文または対象文に変更がなければ、前回の処理結果を次回以降に活用することができる。そこで、類似文選択装置1は、作成した文断片を記録し、次回以降の類似文の選択処理に活用してもよい。これにより、既に作成した文断片を使用するために、処理時間の短縮が期待できる。
そして、文断片間の類似判定(S106)において算出した類似度から、文間の類似判定を行う(S107)際に、算出された最高の類似度に所定のしきい値(例えば、0)を設け、そのしきい値以下の類似度の場合には、該当する文断片が存在しないとみなしてもよい。これにより、あまり似ていない文断片の誤検出を抑制することができる。
さらに、文断片間の類似判定(S106)における類似度の算出には、様々なアルゴリズムを活用することができる。例えば、以下の数式1またはその数式1を類似度が0から1の間に収まるように正規化した数式2を用いて文断片間の類似度を算出し、最高の類似度となる文断片を、検索文の文断片ごとに取得してもよい。なお、数式1の各変数は、次の通りである。まず、TおよびUは、文断片を示し、tiおよびujは、TおよびUが有する品詞およびその出現順序(第i番目または第j番目に出現する品詞)を示す。次に、Kessk(T,U)は、文断片Tと文断片Uとの間の類似度を返す関数であり、val(ti,uj)は、品詞が一致している場合に1を返し、品詞が不一致の場合に0を返す関数である。ここで、val関数が判定する品詞の一致とは、名詞や動詞などの品詞の種別の一致ではなく、品詞の内容の一致を意味する。例えば、動詞“走る”と、動詞“歩く”とでは、動詞という品詞の種別は一致するものの、品詞の内容が異なるため、val関数は、品詞の不一致の旨を示す0を返す。そして、変数dは、組み合わせる品詞数を示す。この数式1または数式2は、各文節に出現する品詞の順序情報の組み合わせを活用するので、単に出現する品詞の一致または不一致を考慮する方法に比べ、精度の高い類似度を算出することができ、類似文の検出精度の向上に貢献する。
Figure 2005190185
本発明の一実施形態に関する類似文選択装置の構成図である。 本発明の一実施形態に関する類似文選択装置の類似文選択処理を示すフローチャートである。 本発明の一実施形態に関する文から文節への分割処理を示す図である。 本発明の一実施形態に関する文節から文断片への統合処理を示す図である。 本発明の一実施形態に関する文断片間の類似判定処理を示す図である。 本発明の一実施形態に関する文間の類似判定処理を示す図である。 本発明の一実施形態に関するサンプル文からの文法の抽出処理を示す図である。
符号の説明
1 類似文選択装置
10 入力文記録部
11 文節分割部
12 文断片作成部
20 類似判定記録部
21 文断片間類似判定部
22 文間類似判定部
30 文法記録部
31 文法抽出部
32 サンプル文記録部
33 シソーラス記録部

Claims (6)

  1. 類似判定の対象文の集合から検索文に類似する文を選択する類似文選択方法であって、類似文選択装置が、前記類似判定の対象文の入力を受け付ける手順と、前記検索文の入力を受け付ける手順と、前記検索文および前記対象文について文から文節へ分割する手順と、前記分割された文節から文断片へ統合する手順と、前記文断片間の類似度を算出する手順と、前記検索文を構成する文断片に対して最高の類似度となる文断片を有する文を類似文として選択する手順と、前記類似文を出力する手順と、を実行し、かつ、前記分割された文節から文断片へ統合する手順は、類似文選択装置の記憶手段に格納された文法データを参照して、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を文断片とすることを特徴とする類似文選択方法。
  2. 前記文断片間の類似度を算出する手順は、後記の関数Kessk(T,U)によって算出されることを特徴とする請求項1に記載の類似文選択方法。但し、Kessk(T,U)は、文断片(T)と文断片(U)との間の類似度を返す関数であり、tiおよびujは、TおよびUが有する品詞およびその出現順序(第i番目または第j番目に出現する品詞)を示し、val(ti,uj)は、品詞tiと、品詞ujとが一致している場合に1を返し、品詞が不一致の場合に0を返す関数であり、変数(d)は、組み合わせる品詞数を示す。
    Figure 2005190185
  3. 類似判定の対象文の集合から検索文に類似する文を選択する類似文選択装置であって、前記検索文および前記類似判定の対象文の文法を格納する文法記録部と、前記検索文および前記類似判定の対象文を記録する入力文記録部と、前記検索文および前記類似判定の対象文を前記文法に従ってその構成要素である文節単位に分割する文節分割部と、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を前記文法に従って文断片とする文断片作成部と、前記検索文における類似判定の過程および結果を格納する類似判定記録部と、前記文断片間の類似度を算出する文断片間類似判定部と、前記文断片間の類似度を基に前記検索文と類似する文を選択する文間類似判定部と、を含めて構成されることを特徴とする類似文選択装置。
  4. 前記類似文選択装置は、前記文法付きのサンプル文を記録するサンプル文記録部と、前記文法記録部に格納される文法を前記サンプル文を基に作成する文法抽出部と、語の意味によって分類された階層構造を持つ辞書であるシソーラスを記録するシソーラス記録部と、を含めて構成されることを特徴とする請求項3に記載の類似文選択装置。
  5. 類似判定の対象文の集合から検索文に類似する文を選択する類似文選択プログラムの記録媒体であって、コンピュータを、前記検索文および前記類似判定の対象文の文法を格納する文法記録手段と、前記検索文および前記類似判定の対象文を記録する入力文記録手段と、前記検索文および前記類似判定の対象文を前記文法に従ってその構成要素である文節単位に分割する文節分割手段と、主語と述語の関係または修飾語と被修飾語の関係を有する文節の集合を前記文法に従って文断片とする文断片作成手段と、前記検索文における類似判定の過程および結果を格納する類似判定記録手段と、前記文断片間の類似度を算出する文断片間類似判定手段と、前記文断片間の類似度を基に前記検索文と類似する文を選択する文間類似判定手段、として機能させるためのプログラムを記録したコンピュータ読み取り可能な類似文選択プログラムの記録媒体。
  6. 前記コンピュータを、前記文法付きのサンプル文を記録するサンプル文記録手段と、前記文法記録部に格納される文法を前記サンプル文を基に作成する文法抽出手段と、語の意味によって分類された階層構造を持つ辞書であるシソーラスを記録するシソーラス記録手段、としてさらに機能させるためのプログラムを記録した請求項5に記載のコンピュータ読み取り可能な類似文選択プログラムの記録媒体。
JP2003430982A 2003-12-25 2003-12-25 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体 Pending JP2005190185A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003430982A JP2005190185A (ja) 2003-12-25 2003-12-25 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003430982A JP2005190185A (ja) 2003-12-25 2003-12-25 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体

Publications (1)

Publication Number Publication Date
JP2005190185A true JP2005190185A (ja) 2005-07-14

Family

ID=34789188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003430982A Pending JP2005190185A (ja) 2003-12-25 2003-12-25 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体

Country Status (1)

Country Link
JP (1) JP2005190185A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298618A (zh) * 2011-08-03 2011-12-28 百度在线网络技术(北京)有限公司 一种获取匹配度以执行相应操作的方法、装置及设备
JP2012123496A (ja) * 2010-12-07 2012-06-28 Fujitsu Ltd 検索装置、方法及びプログラム
US9262735B2 (en) 2013-08-12 2016-02-16 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes
CN110990539A (zh) * 2019-12-24 2020-04-10 北大方正集团有限公司 稿件内部查重方法、装置、存储介质及电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012123496A (ja) * 2010-12-07 2012-06-28 Fujitsu Ltd 検索装置、方法及びプログラム
CN102298618A (zh) * 2011-08-03 2011-12-28 百度在线网络技术(北京)有限公司 一种获取匹配度以执行相应操作的方法、装置及设备
US9262735B2 (en) 2013-08-12 2016-02-16 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes
US9558462B2 (en) 2013-08-12 2017-01-31 International Business Machines Corporation Identifying and amalgamating conditional actions in business processes
CN110990539A (zh) * 2019-12-24 2020-04-10 北大方正集团有限公司 稿件内部查重方法、装置、存储介质及电子设备
CN110990539B (zh) * 2019-12-24 2023-07-25 新方正控股发展有限责任公司 稿件内部查重方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US9223779B2 (en) Text segmentation with multiple granularity levels
US8606559B2 (en) Method and apparatus for detecting errors in machine translation using parallel corpus
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
Denis et al. Coupling an annotated corpus and a morphosyntactic lexicon for state-of-the-art POS tagging with less human effort
Harabagiu et al. Topic themes for multi-document summarization
JP5990178B2 (ja) キーワード抽出に関するシステム及び方法
JP4694111B2 (ja) 用例ベースの機械翻訳システム
JP6176017B2 (ja) 検索装置、検索方法、およびプログラム
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
KR101023209B1 (ko) 문서 번역 장치 및 그 방법
Sawalha et al. Fine-grain morphological analyzer and part-of-speech tagger for Arabic text
Comas et al. Sibyl, a factoid question-answering system for spoken documents
Rasheed et al. Query expansion in information retrieval for Urdu language
Nguyen et al. An ontology-based approach for key phrase extraction
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
Onyenwe et al. Toward an effective igbo part-of-speech tagger
Thangarasu et al. Design and development of stemmer for Tamil language: cluster analysis
JP2005190185A (ja) 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体
Alfonseca et al. German decompounding in a difficult corpus
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
Lakshmi et al. Literature review: stemming algorithms for Indian and Non-Indian languages
Hathout et al. Acquisition and enrichment of morphological and morphosemantic knowledge from the French Wiktionary
US20240070396A1 (en) Method for Determining Candidate Company Related to News and Apparatus for Performing the Method
US20240070387A1 (en) Method for Determining News Ticker Related to News Based on Sentence Ticker and Apparatus for Performing the Method
US20240070175A1 (en) Method for Determining Company Related to News Based on Scoring and Apparatus for Performing the Method