JPH06318202A - 文書記憶方式及び文書管理方式並びに文書表示方式 - Google Patents

文書記憶方式及び文書管理方式並びに文書表示方式

Info

Publication number
JPH06318202A
JPH06318202A JP5131194A JP13119493A JPH06318202A JP H06318202 A JPH06318202 A JP H06318202A JP 5131194 A JP5131194 A JP 5131194A JP 13119493 A JP13119493 A JP 13119493A JP H06318202 A JPH06318202 A JP H06318202A
Authority
JP
Japan
Prior art keywords
document
sentence
natural language
similar
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5131194A
Other languages
English (en)
Other versions
JP3139658B2 (ja
Inventor
Toshiyuki Okunishi
稔幸 奥西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP05131194A priority Critical patent/JP3139658B2/ja
Publication of JPH06318202A publication Critical patent/JPH06318202A/ja
Application granted granted Critical
Publication of JP3139658B2 publication Critical patent/JP3139658B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 言語表現が多様な自然言語文章を比較するこ
とで自然言語文書ファイルの管理や検索を容易にする。 【構成】 自然言語で記述された文書ファイルに対して
記述内容である自然言語文章を、文解析部4で解析し、
1文毎の構造から文章構造を、文章構造構築部5で構築
し、構築した構造を元に文書を記憶できる。また、格納
された文章構造同士を比較することで、類似文書検索部
6で既存の文書から類似文書を検索し、差分管理部7で
類似文書間の差分を検出し、検出した差分情報に基づき
文書を差分管理できる。また、管理する差分情報に基づ
き、相違箇所表示部8で類似した文書間の相違箇所を、
作成日、作成者、キーワードなどの属性別に使用者にわ
かりやすく表示できる。この結果、類似した段落や文を
削除し、文書を要約したり、ある特定のテーマに関する
類似した文書を集め、その相違点を掲示したりする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書記憶方式及び文書
管理方式並びに文書表示方式に関し、より詳細には、言
語表現が多様な自然言語文章の文章構造を比較すること
で、自然言語文書ファイルの管理や検索を容易にする文
書記憶方式及び文書管理方式並びに文書表示方式に関す
る。例えば、自然言語処理,文書処理,ファイルシステ
ムに適用されるものである。
【0002】
【従来の技術】日本語ワードプロセッサ、CD−RO
M,パソコン通信の急速な普及により手元に入手・蓄積
できる日本語文書ファイルが急増している。このような
現状を考慮すると、文書処理装置には従来のように、
「いかに簡単に文章を入力・作成できるか」だけではな
く「いかに効率よく大量の文書を格納できるか」といっ
たシステム的な側面から「大量の文書の中からいかに効
率よく必要な情報を見つけるか」といったユーザの立場
に立ったものまで幅広い課題が課せられる。
【0003】このような課題に対応するために、文書差
分管理に関する公知文献としては、以下の〜があ
る。 特開平3−8072号公報「文書管理方法」 特開平2−297284号公報「文書処理システムお
よびバージョン管理方式」 特開平4−54558号公報「テキスト管理方式」 特開平4−181367号公報「データ処理装置」
【0004】前記は、編集中の文書に加えた「編集操
作の入力列」を編集前の文書とともに記憶しておき、編
集後の文書が必要な時には入力列を編集前の文書に施す
ことで編集後の文書を復元するという文書差分管理を行
う。前記〜は、文書中の文章そのものを比較して差
分検出・管理し、編集前後のいずれか一方のみの文書と
両者の差分を記憶するという文書差分管理である。特
に、前記では図表も考慮しており、また文章の場合は
比較単位を設定できることが特徴である。また、前記
は、複数作者による同一文書の編集を想定したものその
ような場面ではオリジナル文書に同時に2つ以上の差分
が発生することがあり、それらの差分同士をマージする
ことを特徴としている。前記は、編集前後の文書を2
つとも記憶する場合(すなわちバックアップをとる場
合)にこの差分管理技術を利用することを特徴としてい
る。
【0005】
【発明が解決しようとする課題】前述のように、従来の
文書差分管理については、いずれも前述課題の前半のシ
ステム的な面や既存文書の編集という使用状況を強く意
識したものになっているため、新規に作成する文書や新
たに入手した文書に関しては有効ではない。特に、前記
は編集中の文書に加えた「編集操作の入力列」を差分
管理の対象にしており、既存文書の編集以外の場面では
利用できない。また、前記〜でも既存文書の編集を
想定しているため、それらの中で用いられている文章差
分検出の対象は文書の表層文字列が主である。確かに既
存文書の編集という場面では多くの表現をすっかり入れ
替えるということを毎回操り返すわけではないため、表
層文字列の比較で十分に有効かもしれない。しかしなが
ら、新規に文書を作成する時には例え同じ作者であって
もあることを表現するのに微妙に異なる表現を利用する
場合がある。ましてや他から入手した文書においては表
層上全く同じ表現が用いられることは希である。したが
って表層文字列による差分管理では前述課題の後半のユ
ーザ的課題「いかに必要な情報だけを見付け提示する
か」に対応できない。
【0006】例えば、下記文(A),文(B)について
検討する。それぞれ、ある作者のある研究に関する数年
を経た論文の1部であるとする。研究内容の差が2つの
文章の違いとなっていると考えられるため、2つの文書
の差分を検出するとその数年の間の研究の成果をすぐに
把握できる。前記で述べられている表層文字列の比較
する方式だと、文(A)との差分として文(B)の下線
部でマークした文字列を検出する。しかしながら、利用
者が読んで意味のある相違点(実質的に異なる点)はそ
の中でも実線下線で示した部分だけで、それ以外の破線
下線の部分は文(A)とほとんど同じ意味であり、わざ
わざこれらを差分として管理する必要はない。差分情報
に基づき2文書の相違点をユーザに提示する場合や、ま
た入手した文書から自分に不足している本当に必要な情
報だけを抽出する場面で差分管理を利用する情報フィル
タリングの場合である。
【0007】(A)「一般に自然言語解析は、形態素解
析、構文解析、意味解析の3つのフェーズから構成され
る。曖昧性解消を目指した本システムでもこれら3つの
解析部を備える。本論文では3つの解析部の実現方法に
関して報告を行なう。」
【0008】
【表1】
【0009】本発明は、このような実情に鑑みてなされ
たもので、言語表現が多様な自然言語文章を比較するこ
とで自然言語文書ファイルの管理や検索を容易にする文
書記憶方式及び文書管理方式並びに文書表示方式を提供
することを目的としている。
【0010】
【課題を解決するための手段】本発明は、上記の目的を
達成するために、(1)自然言語で記述された文書ファ
イルに対して記述内容である自然言語文章を解析する文
解析手段と、1文毎の構造から文章構造を構築する文章
構造構築手段と、構築した構造を元に文書を記憶する文
書記憶手段とを有すること、或いは、(2)自然言語で
記述された文書ファイルに対して記述内容である自然言
語文章を解析する文解析手段と、1文毎の構造から文章
構造を構築する文章構造構築手段と、構築した構造を元
に文書を記憶する文書記憶手段とを有することを特徴と
する文書記憶方式において、格納された文章構造同士を
比較することで既存の文書から類似文書を検索し、類似
文書間の差分を検出する類似文書検索手段と、検出した
差分情報に基づき文書を差分管理する文書差分管理手段
とを有すること、或いは、(3)自然言語で記述された
文書ファイルに対して記述内容である自然言語文章を解
析する文解析手段と、1文毎の構造から文章構造を構築
する文章構造構築手段と、構築した構造を元に文書を記
憶する文書記憶手段とを有することを特徴とする文書記
憶方式において、管理する差分情報に基づき、類似した
文書間の相違箇所を、作成日、作成者、キーワードなど
の属性別に使用者にわかりやすく表示する相違箇所表示
手段を有することことを特徴としたものである。
【0011】
【作用】自然言語で記述された文書ファイルに対して記
述内容である自然言語文章を解析し、1文毎の構造から
文章構造を構築し、構築した構造を元に文書を記憶でき
る。さらに、ここで格納された文章構造同士を比較する
ことで既存の文書から類似文書を検索して類似文書間の
差分を検出し、検出した差分情報に基づき文書を差分管
理できる。さらに、ここで管理する差分情報に基づき、
類似した文書間の相違箇所を、作成日、作成者、キーワ
ードなどの属性別に使用者にわかりやすく表示できる。
この結果、類似した段落や文を削除し、文書を要約した
り、ある特定のテーマに関する類似した文書を集め、そ
の相違点を提示したりすることで、今後ますます増加す
るであろう自然言語で記述された文書ファイルの管理が
容易になる。
【0012】
【実施例】実施例について、図面を参照して以下に説明
する。図1は、本発明による文書記憶方式及び文書管理
方式並びに文書表示方式の一実施例を説明するための構
成図で、図中、1は制御部、2は表示部、3は入力部、
4は文解析部、5は文章構造構築部、6は類似文書検索
部、7は差分管理部、8は相違箇所表示部である。制御
部1は日本語入力のため仮名漢字変換などのプログラム
やテーブル・文章バッファ・外部記憶装置など以下に明
記するものを含んでいる。表示部2はCRT(Cathode
Ray Tube)またはLCD(液晶ディスプレイ)等からな
る。入力部3はキーボード等からなる。文解析部4は漢
字交じり文字列の文解析を行う。文章構造構築部5は文
解析の結果である文構造を蓄積する。類似文書検索部6
は類似文書を検索する。差分管理部7は類似文書間の差
分を管理する。相違箇所表示部8は差分を利用者にわか
りやすく提示する。
【0013】図2は、図1における文解析部の構成図
で、図中4aは形態素解析部、4bは構文解析部、4c
は意味解析部である。形態素解析部4aは、文を形態
素、文節に区切り形態素情報を付加する。構文解析部4
bは、文節の間の係受け関係をチェックする構文解析部
である。意味解析部4cは係受け関係をもとに用言を中
心とした格関係を抽出する意味解析部である。
【0014】図3は、図1における文章構造構築部の構
成図で、図中、5aは同一オブジェクト結合部、5bは
同一関係認識部である。同一オブジェクト結合部5aは
同じ事物を指示するが文章中では異なる表現で示される
名詞どうしを結合する。同一関係認識部5bは同じ関係
を表現している用言(動詞,形容詞,形容動詞,助動
詞)や副詞を認識する。
【0015】図4は、文を意味解析する時に参照する言
語データの一例として動詞に関するデータを示してい
る。図2の意味解析部4cで利用される。図5(a)〜
(c)は、図1中の文章構造構築部の処理例を示してい
る。例文「私がパンを買った。太郎がそれを食べた」を
文解析すると用言を中心とした2つの格構造である図
(a)、図(b)が抽出できる。文節毎に1つのレコー
ドが割り当てられている。図面上は表層文字列が格納さ
れているが、ここへ辞書へのポインタを格納することで
メモリの効率化も可能である。それらの構造を文章構造
構築部に与えると第2文中の「それ」が「パン」である
ことを判断し、図(c)のように「それ」と「パン」の
結合(ポインタのリンク)が行われる(図3の同一オブ
ジェクト結合部5a)。このように入力文をそのまま記
憶するのではなく構造化を図るので、例えば「私が買っ
たパンを太郎が食ベた」を入力しても同じ構造を得るこ
とになる。
【0016】図6は、図1中の差分管理部で用いられる
ファイル構造例を示す。差分管理用に図5の構造に差分
管理用の2つのフィールドを追加している。それぞれ
「差分情報リスト」と「ファイルID」である。差分情
報リストは相違内容をリスト構造で連結している。最終
要素には*が入る。ファイルIDは比較相手の文書ID
を示す。ファイル更新前後のファイルならば日付、バー
ジョン番号などが入る。全く別のファイルならばファイ
ル名などが入る。図5で用いた例文「私がパンを買っ
た。太郎がそれを食べた」のファイル構造を図6(a)
に示す。差分情報リストは全て*で他に差分候補がない
ことを示す。ファイルIDはすべてt1に統一されてい
る。この文の蓄積後に別の文書t2中の例文「私が買っ
たパンを次郎と三郎が食ベた」を与えた後のファイル構
造を図6(b)に示す。太郎の差分情報リストにアドレ
ス<7>が入っており、アドレス<7>の内容は「次郎
と三郎」を表す意味構造の先頭要素である「AND」が
格納されている。「次郎と三郎」のファイルIDはt2
になっている。
【0017】ここでファイル構造からもとの内容を復元
する手段について説明する。またファイルIDがt1で
あるレコードを連結していけばファイルt1の内容が復
元できる。差分情報が*であるレコードを連結していけ
ば最終バージョン(であるファイルt2)の内容が復元
できる。また中間バージョンを復元するにはそれらを組
み合わせればよい。連結の順番は表層文をレコードに分
離する文解析部で用いた言語知識を利用していけばよ
い。
【0018】図7は、本発明の各種方式の処理フローを
示す図である。以下、各ステップに従って順に説明す
る。なお、図9及び図10は、ある研究者のある研究テ
ーマに関する時間を経た新旧2つの論文の一部分であ
る。まず、図4に示した動詞データを利用しながら、図
9の指定された文の解析を行う(step1)。この文解析
の結果を前文までの解析結果があればそれと併せて記憶
する(step2)。図9の残りの文に関して解析・蓄積を
繰り返し(step3)、図9の文書全体の文章構造を構築
する。
【0019】図11は、図9の論文の文章解析の結果を
表現した一般的な意味ネットワークである。“報告す
る”“報告される”などの楕円ノードは「用言」を表
し、“自然言語解析”“本論文”などの矩形ノードは
「体言」を表す。ノード間の有向アークはそれらの語句
間に関係があることを表す。例えば、体言ノードから用
言ノードへの有向アークは格フレームのまとまり関係を
表す。次に、図10の論文に関しても同様に解析して文
章構造を構築する。図12がその結果となる。この時点
で、図9の文書の文章構造(すなわち図11)との比較
を行う(step4)。なお、step4の比較手順については
図8に基づいて後述する。
【0020】類似した構造を有する文書があれば(step
5)、両者の相違点、すなわち上記アルゴリズム中で
「対応しない」と判定した体言や用言を利用者に提示す
る(step6)。破線枠および網掛け部分が、両論文の間
で内容的に相違がある箇所である。ここの例では“ユー
ザインタフェース”に関する部分が新しく加わった構造
である。言うならば“ユーザインタフェース”に関する
記述部分が新旧2つの論文が作成された間の研究の進展
部分であり、読者がこの研究者の一連の研究をサーベイ
するために論文を読む際に注目すればよい箇所である。
【0021】また、この比較結果を利用して類似した複
数文書の管理の効率化を図る。すなわち、最初の図9の
論文は全て記憶しておき、図10の論文は図9との差分
だけを記憶する(step7)ことで、2つの文書すべてを
記憶するより容量的に効率よく文書ファイルを管理でき
る。
【0022】図8は、図7におけるstep4(既存文書と
の文章構造の比較)の手順を示すフローチャートであ
る。すなわち、図1における類似文書検索部で行われる
類似文書の判定に必要な文章構造の比較に関するフロー
チャートである。以下、各ステップに従って順に説明す
る。まず、2つの文章構造をそれぞれについて用言(楕
円ノード)を集める(step4-1)。その中に対応する2
つの用言があれば(step4-2)、それらの用言に係って
いる体言同士を順次比較する(step4-3)。図11及び
図12は、例えば“報告する”が対応する用言であり、
それには“本論文”“実現方法”“概要”などの体言が
係っている。逆に“選択できる”が一方にしかない用言
である。すなわち、図11及び図12は、図9及び図1
0の2文を図1における相違箇所表示部により提示した
結果の例である。ここでは意味ネットワークに基づき、
相違箇所を網掛けすることで利用者に2つの文書の内容
をわかりやすく提示している。
【0023】次に、対応する体言があれば(step4-
5)、その体言に係っている用言同士の比較を行う(ste
p4-6)。ここでは“本論文”“実現方法”が対応する
体言であり、逆に“概要”が対応しない体言である。さ
らに、体言同士の比較が終了した時(step4-4)に対応
する体言が多ければ(step4-7)、その体言が係る用言
は「対応する」と判定し、逆に少なければ「対応しな
い」と判定する(step4-8)。なお、これは前記step4
-2 で行った判定を覆したことになる。図11及び図1
2の場合、“構成される”に関しては完全に対応し、
“報告する”“備える”に関しても係っている体言に対
応が多いことから「対応する」と判定する。
【0024】同様に、全ての用言同士の比較が終了する
と(step4-9)、2つの文章構造の比較が終了したこと
になるので、最後に文書の類似の判定を行う(step4-1
0)。そこでは、一致した用言が多ければその文章構造
は類似していると判定でき、逆に少なければ文章構造は
類似していないものと判定する。図11及び図12の場
合だと、対応する用言は“構造される”“報告する”
“備える”で対応しない用言は“選択できる”だけなの
で図11及び図12は類似した文書と判定する。
【0025】
【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。 (1)自然言語で記述された文書ファイルに対して記述
内容である自然言語文章を解析し、1文毎の構造から文
章構造を構築し、構築した構造を元に文書を記憶でき
る。 (2)前記文書記憶方式で格納された文章構造同士を比
較することで既存の文書から類似文書を検索して類似文
書間の差分を検出し、検出した差分情報に基づき文書を
差分管理できる。 (3)前記文書記憶方式で管理する差分情報に基づき、
類似した文書間の相違箇所を、作成日、作成者、キーワ
ードなどの属性別に使用者をわかりやすく表示できる。 (4)前記(1)〜(3)により、類似した段落や文を
削除し、文書を要約したり、ある特定のテーマに関する
類似した文書を集め、その相違点を提示したりすること
で、今後ますます増加するであろう自然言語で記述され
た文書ファイルの管理が容易になる。
【図面の簡単な説明】
【図1】本発明による文書記憶方式及び文書管理方式並
びに文書表示方式の一実施例を説明するための構成図で
ある。
【図2】図1における文解析部の構成図である。
【図3】図1における文章構造構築部の構成図である。
【図4】本発明における文を意味解析する時に参照する
言語データの一例として動詞に関するデータを示す図で
ある。
【図5】図1における文章構造構築部の処理例を示す図
である。
【図6】図1における差分管理部で用いられるファイル
構造例を示す図である。
【図7】本発明による各種方式の処理の流れを示すフロ
ーチャートである。
【図8】図1における類似文章検索部の処理を示すフロ
ーチャートである。
【図9】本発明における実施例の説明で用いる例文を示
す図である。
【図10】本発明における実施例の説明で用いる他の例
文を示す図である。
【図11】図1における相違箇所表示部の表示例を示す
図である。
【図12】図1における相違箇所表示部の他の表示例を
示す図である。
【符号の説明】
1…制御部、2…表示部、3…入力部、4…文解析部、
5…文章構造構築部、6…類似文書検索部、7…差分管
理部、8…相違箇所表示部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 自然言語で記述された文書ファイルに対
    して記述内容である自然言語文章を解析する文解析手段
    と、1文毎の構造から文章構造を構築する文章構造構築
    手段と、構築した構造を元に文書を記憶する文書記憶手
    段とを有することを特徴とする文書記憶方式。
  2. 【請求項2】 自然言語で記述された文書ファイルに対
    して記述内容である自然言語文章を解析する文解析手段
    と、1文毎の構造から文章構造を構築する文章構造構築
    手段と、構築した構造を元に文書を記憶する文書記憶手
    段とを有することを特徴とする文書記憶方式において、
    格納された文章構造同士を比較することで既存の文書か
    ら類似文書を検索し、類似文書間の差分を検出する類似
    文書検索手段と、検出した差分情報に基づき文書を差分
    管理する文書差分管理手段とを有することを特徴とする
    文書管理方式。
  3. 【請求項3】 自然言語で記述された文書ファイルに対
    して記述内容である自然言語文章を解析する文解析手段
    と、1文毎の構造から文章構造を構築する文章構造構築
    手段と、構築した構造を元に文書を記憶する文書記憶手
    段とを有することを特徴とする文書記憶方式において、
    管理する差分情報に基づき、類似した文書間の相違箇所
    を、作成日、作成者、キーワードなどの属性別に使用者
    にわかりやすく表示する相違箇所表示手段を有すること
    を特徴とする文書表示方式。
JP05131194A 1993-05-06 1993-05-06 文書表示方式 Expired - Fee Related JP3139658B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05131194A JP3139658B2 (ja) 1993-05-06 1993-05-06 文書表示方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05131194A JP3139658B2 (ja) 1993-05-06 1993-05-06 文書表示方式

Publications (2)

Publication Number Publication Date
JPH06318202A true JPH06318202A (ja) 1994-11-15
JP3139658B2 JP3139658B2 (ja) 2001-03-05

Family

ID=15052228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05131194A Expired - Fee Related JP3139658B2 (ja) 1993-05-06 1993-05-06 文書表示方式

Country Status (1)

Country Link
JP (1) JP3139658B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143540A (ja) * 1996-09-13 1998-05-29 Toshiba Corp 情報フィルタリング装置および情報フィルタリング方法
WO2000007094A2 (en) * 1998-07-31 2000-02-10 The Regents Of The University Of California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
WO2009091917A1 (en) * 2008-01-15 2009-07-23 Kingsley Martin Processing of phrases and clauses in documents
JP2011113535A (ja) * 2009-11-30 2011-06-09 Fuji Xerox Co Ltd 自然言語処理プログラム及び自然言語処理装置
JP2015005174A (ja) * 2013-06-21 2015-01-08 日本放送協会 コンテンツ検索装置、方法及びプログラム
JP2015005112A (ja) * 2013-06-20 2015-01-08 コニカミノルタ株式会社 情報処理装置、文書データ整理装置、文書提示方法、およびコンピュータプログラム
JP2021149426A (ja) * 2020-03-18 2021-09-27 株式会社東芝 情報処理装置、情報処理方法、およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61221874A (ja) * 1985-03-08 1986-10-02 Sharp Corp 自然言語のデ−タベ−ス化方式
JPS62139076A (ja) * 1985-12-13 1987-06-22 Agency Of Ind Science & Technol 言語解析方式
JPS6421624A (en) * 1987-07-17 1989-01-25 Nippon Telegraph & Telephone Japanese document retrieval system
JPH03172966A (ja) * 1989-12-01 1991-07-26 Nippon Telegr & Teleph Corp <Ntt> 類似文書検索装置
JPH04237365A (ja) * 1991-01-21 1992-08-25 Fujitsu Ltd テキスト処理装置における差分検出方式および自動編集方式

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61221874A (ja) * 1985-03-08 1986-10-02 Sharp Corp 自然言語のデ−タベ−ス化方式
JPS62139076A (ja) * 1985-12-13 1987-06-22 Agency Of Ind Science & Technol 言語解析方式
JPS6421624A (en) * 1987-07-17 1989-01-25 Nippon Telegraph & Telephone Japanese document retrieval system
JPH03172966A (ja) * 1989-12-01 1991-07-26 Nippon Telegr & Teleph Corp <Ntt> 類似文書検索装置
JPH04237365A (ja) * 1991-01-21 1992-08-25 Fujitsu Ltd テキスト処理装置における差分検出方式および自動編集方式

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143540A (ja) * 1996-09-13 1998-05-29 Toshiba Corp 情報フィルタリング装置および情報フィルタリング方法
WO2000007094A2 (en) * 1998-07-31 2000-02-10 The Regents Of The University Of California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
WO2000007094A3 (en) * 1998-07-31 2002-10-10 Univ California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
WO2009091917A1 (en) * 2008-01-15 2009-07-23 Kingsley Martin Processing of phrases and clauses in documents
JP2011113535A (ja) * 2009-11-30 2011-06-09 Fuji Xerox Co Ltd 自然言語処理プログラム及び自然言語処理装置
JP2015005112A (ja) * 2013-06-20 2015-01-08 コニカミノルタ株式会社 情報処理装置、文書データ整理装置、文書提示方法、およびコンピュータプログラム
JP2015005174A (ja) * 2013-06-21 2015-01-08 日本放送協会 コンテンツ検索装置、方法及びプログラム
JP2021149426A (ja) * 2020-03-18 2021-09-27 株式会社東芝 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP3139658B2 (ja) 2001-03-05

Similar Documents

Publication Publication Date Title
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
US5850561A (en) Glossary construction tool
JP4658420B2 (ja) 文字列の正規化表示を生成するシステム
US7890533B2 (en) Method and system for information extraction and modeling
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US10296584B2 (en) Semantic textual analysis
WO2009154153A1 (ja) 文書検索システム
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JPH07325827A (ja) ハイパーテキスト自動生成装置
JP2003186894A (ja) サブスタンス辞書の作成方法、サブスタンス間の二項関係抽出方法、予測方法、及び表示方法
JP7168411B2 (ja) 情報処理システムおよび情報処理方法
Ritchie Citation context analysis for information retrieval
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
Orliac et al. Collocation extraction for machine translation
US20090132521A1 (en) Efficient Storage and Retrieval of Posting Lists
JP3139658B2 (ja) 文書表示方式
JP4177070B2 (ja) 文書検索装置
WO2000026839A1 (en) Advanced model for automatic extraction of skill and knowledge information from an electronic document
JP2997469B2 (ja) 自然言語理解方法および情報検索装置
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
Rosén et al. Creating and exploring LFG treebanks
Manad et al. A cleaning algorithm for noiseless opinion mining corpus construction
JP3710463B2 (ja) 翻訳支援辞書装置
JP3744136B2 (ja) 訳語選択装置と記憶媒体
KR20020003701A (ko) 디지털 문서의 키워드를 자동으로 추출하는 방법

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071215

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111215

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees