JP2004086851A - 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体 - Google Patents
電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP2004086851A JP2004086851A JP2003055617A JP2003055617A JP2004086851A JP 2004086851 A JP2004086851 A JP 2004086851A JP 2003055617 A JP2003055617 A JP 2003055617A JP 2003055617 A JP2003055617 A JP 2003055617A JP 2004086851 A JP2004086851 A JP 2004086851A
- Authority
- JP
- Japan
- Prior art keywords
- electronic document
- difference
- significant
- detection
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】電子文書の更新と呼ぶに相応しいようなレベルの更新箇所を検知する。
【解決手段】本発明では、検知対象の電子文書及び比較対象の電子文書を取り込み、検知対象の電子文書及び比較対象の電子文書の重要な箇所の差分を検知する。重要な箇所の差分は、(1)各電子文書の重要な箇所を抽出した後、差分検知を行って得たり、(2)両電子文書全体の差分を検知した後、有意な差分か否かを判断したり、(3)各電子文書の重要な箇所を抽出した後、差分検知を行い、さらに、有意な差分か否かを判断したりすることで得る。
【選択図】 図1
【解決手段】本発明では、検知対象の電子文書及び比較対象の電子文書を取り込み、検知対象の電子文書及び比較対象の電子文書の重要な箇所の差分を検知する。重要な箇所の差分は、(1)各電子文書の重要な箇所を抽出した後、差分検知を行って得たり、(2)両電子文書全体の差分を検知した後、有意な差分か否かを判断したり、(3)各電子文書の重要な箇所を抽出した後、差分検知を行い、さらに、有意な差分か否かを判断したりすることで得る。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体に関し、例えば、Webページやテキスト等の電子文書の更新を監視し、更新の旨をユーザへ通知するシステムに適用し得るものである。
【0002】
【従来の技術】
従来、同一のURLに係るWebページも適宜更新される。このようなWebページの更新を検出する方式として、特許文献1に開示されたものがあり、対象とするWebページのチェックサムを比較し、変化があればWebページが更新されたとみなしている。
【0003】
【特許文献1】特開2000−35913号公報
【0004】
【発明が解決しようとする課題】
しかしながら、上述の方式では、文章の微小な修正(例えば、誤字、脱字、訂正等)や、本文とは関連のない部位(例えば、広告欄や他の小さな見出し等)の更新までも、Webページの更新として検知してしまうため、有意な更新を期待する多くの利用者にとって、不要な結果が得られることになる。
【0005】
そのため、電子文書の更新と呼ぶに相応しいようなレベルの更新を検知できる電子文書有意更新検知装置等が望まれている。
【0006】
【課題を解決するための手段】
第1の本発明の電子文書有意更新検知装置は、検知対象の電子文書及び比較対象の電子文書を取り込む入力手段と、入力された検知対象の電子文書及び比較対象の電子文書の重要な箇所の差分を検知する有意更新検知手段とを有することを特徴とする。
【0007】
第2の本発明の電子文書有意更新検知方法は、検知対象の電子文書及び比較対象の電子文書を取り込む入力工程と、入力された検知対象の電子文書及び比較対象の電子文書の重要な箇所の差分を検知する有意更新検知工程とを有することを特徴とする。
【0008】
第3の本発明の電子文書有意更新検知プログラムは、第2の本発明の電子文書有意更新検知方法の各工程をコンピュータが処理し得るコードで記述したことを特徴とする。
【0009】
第4の本発明の記録媒体は、第3の本発明の電子文書有意更新検知プログラムを記録していることを特徴とする。
【0010】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体の第1の実施形態を図面を参照しながら詳述する。
【0011】
(A−1)第1の実施形態の構成
図1は、第1の実施形態の電子文書有意更新検知装置の機能的構成を示すブロック図である。
【0012】
例えば、第1の実施形態の電子文書有意更新検知装置は、通信機能を有するユーザのパソコン等の情報処理装置又はプロバイダサーバ等の上で実現されるが、機能的には、図1で表すことができる。例えば、パソコン等の情報処理装置又はプロバイダサーバ等に対し、CD−ROMやフレキシブルディスク等の記録媒体上に記録されている電子文書有意更新検知プログラムをインストールすることにより、第1の実施形態の電子文書有意更新検知装置が構築される。なお、実際上、1つのシステム上で構築しても構わないし、ネットワークで結ばれたサーバ間で協調動作するように構築しても構わない。
【0013】
第1の実施形態の電子文書有意更新検知装置は、入力部1、有意更新検知部2及び出力部5を有し、有意更新検知部2は、前処理部3と差分抽出部4とを有する。
【0014】
入力部1は、インターネットやイントラネット等のネットワークから、又は、CD−ROM等の記録媒体から、Webページやテキスト等の電子文書を取得して入力データとする。
【0015】
入力部1は、有意な更新の検知対象である電子文書及び比較対象の電子文書の2文書を、バージョンを指定して取り出すことが可能ならば、同時に取り出しても良く、また、URLを指定して過去に取り出し記憶していたものを比較対象の電子文書とし、同一のURLで今回取り出したものを有意な更新の検知対象の電子文書として取り出しても良く、さらには、異なる時期の過去に取り出して記憶していた新旧の2文書を検知対象である電子文書及び比較対象の電子文書として入力しても良い。
【0016】
有意更新検知部2は、比較対象の電子文書に対する検知対象である電子文書の有意な更新部分を検知するものである。有意更新検知部2において、前処理部3は、各電子文書のそれぞれに対して、重要な箇所を抽出するものであり、差分抽出部4は、前処理部3によって抽出された重要な箇所同士におけるテキスト列の差分を抽出するものである。
【0017】
ここで、電子文書の重要な箇所とは、例えば、電子文書の本文、又は、本文やタイトル内の主要文章(その要約を含む)を言い、これらとは関連のない部位(例えば、広告欄や他の小さな見出し等)は非重要な箇所とする。
【0018】
前処理部3による電子文書の重要な箇所の抽出方法としては、既存の方法を適用することができる。また、重要な箇所を、自動判定しても良く、重要な箇所をユーザが特定しても良い。
【0019】
例えば、Webページは、HTMLやXML等で記述されており、複数のフレームによって1画像が形成されるが、各フレーム部分を規定するタグ識別子(例えば「MAIN」)や、各フレーム部分の面積の大小や、各フレーム部分における文字数や、各フレームの配置位置や、所定のキーワードを含むか否か等によって、重要な箇所(フレーム部分)を判別することができる。
【0020】
差分抽出部4におけるテキスト列の差分抽出方法としても、既存の方法を適用することができる。
【0021】
出力部5は、Webページ等の電子文書に有意な更新であった場合に、その旨を表示装置に表示したり、ユーザに電子メールで更新内容を通知したりするものである。出力内容には、更新前後の内容を含んでいても良く、また、更新された部分を特定した更新後の内容であっても良く、また、その出力形式も任意で構わない。
【0022】
(A−2)第1の実施形態の動作
以下、第1の実施形態の詳細な処理について、架空の更新前後のWebページを例として取り上げて説明する。なお、図2は、更新前のWebページを示し、図3は、更新後のWebページを示している。また、上述した図1は、機能ブロック図であったが、処理の流れを示すフローチャートと見ることもできる。
【0023】
符号11は、更新前のWebページのブラウザでの表示例を表しており、符号16は、更新後のWebページのブラウザでの表示例を表してでいる。更新後のWebページ16には、更新箇所を明示するための便宜上、更新された個所に下線を付与しているが、Webページ自体にはこの下線は付与されていない。
【0024】
更新前後のWebページ11及び16は、4個のフレーム12〜15(図2参照)でなっており、それぞれ、ヘッダ、メニュー、記事、フッタとする。
【0025】
入力部1は、図2及び図3に示す更新前後のWebページ11及び16を取り込んで有意更新検知部2に与える。
【0026】
有意更新検知部2は、前処理部3と差分検知部4を含んでおり、前処理部3において、対象となる文書に対して重要個所の抽出を行い、その結果を差分検知部4で比較する。
【0027】
前処理部3による重要個所の抽出方法は、例えば、ユーザによるフレームの事前指定、要約(重要文抽出)等の種々の方法があるが、以下では、ユーザによるフレームの事前指定方法を用いた例と、要約(重要文抽出)を抽出する例とを説明する。
【0028】
ユーザによるフレームの事前指定は、図4に示すような注目個所テーブルを用いて、ユーザが監視して欲しいWebページのURLと更新を検知して欲しい個所(フレーム)を指定しておく。前処理部3では、この情報に基づき、対象となるWebページ内の特定フレームを抽出してその特定フレームのみを差分抽出部4へ送る。このときの処理イメージを図5に示す。フレーム群17は、図4で指定されなかったフレームの一群を示しており、フレーム18は図4で指定して抽出されたフレームを示している。図5は更新後のWebページの抽出イメージを示しているが、図示は省略するが、更新前のWebページに対しても同様な抽出が行われる。
【0029】
差分抽出部4では、更新前後のWebページにおけるフレーム18同士の差分のみを抽出する。図5に示すフレーム18の下線部分は、更新後のWebページにおける差分抽出部4によって抽出された差分部分を示している。
【0030】
一方、要約抽出(重要文抽出)は、文書内の文字列から重要と思われる文を抽出する手法であり、例えば、特開平11−272686号公報に開示されるものを適用できる。前処理部3では重要と思われる文字列(文)を抽出して差分抽出部4へ送る。
【0031】
このときの処理イメージを図6に示す。図6において、符号19、20を付与したものはそれぞれ、前処理部3による更新前と更新後のWebページの要約抽出結果を示している。なお、図6の処理イメージ図19及び20において、それぞれ重要でないと判断された文字列は二重線で消去して示しているが、これは、理解の容易化のためであり、これらの文字列は、重要でないため抽出されず、差分抽出部4には引き渡されない。
【0032】
図6において、符号21を付与したものは、差分抽出部4による差分抽出結果を示している。差分抽出部4は、重要文として抽出された二重線で消去されていない文同士を比較照合し、符号21を付した文で下線が付与された部分を差分であると抽出する。なお、図6の処理イメージ図21において、差分抽出部分に下線を付与しているが、これは、理解の容易化のためであり、文字列に対する下線付与動作を、差分抽出部4は必ずしも実行していない。
【0033】
前処理部3の別の手法(追加手法)としては、キーワード抽出による微小な修正等の除去も挙げることができる。キーワード抽出は、例えば、キーワードを「異なる文字コードに囲まれた漢字及びカナの連続文字」として定義することにより、上述した図2及び図3に示す更新前後のWebページに対するキーワード抽出結果は、図7に示すようになる。更新前後のWebページのフレーム13及び15の変更箇所(「サイトマップ」や「e−mail」)は、上述の定義ではキーワードとはなり得ないため抽出されない。図7に示すようなキーワード抽出結果を、差分抽出部4で比較することで、更新されたかどうかを判別することができる。なお、キーワード抽出だけを用いた場合において、図2及び図3のフレーム14内の1月1日の記事における「します」を「しました」にする変更のみがあったときには、変更前と変更後のキーワードの違いは生じず、微小な修正であり、有意な更新ではないと判別される。
【0034】
出力部5では、差分抽出部4の結果に基づき、対象とするWebページに有意な更新があることを出力する。例えば、対象とするWebページに有意な更新があったことをユーザに通知する。
【0035】
ユーザへの通知は、表示デバイスへの表示やメールによる通知などで行うことができ、通知内容は、対象となったWebページのURLや、変更を検知したフレームの情報でもよく、具体的な変更内容を含めても構わない。また、ユーザへの通知は、ユーザが該当するWebページを取り出そうとしたタイミングで行っても良い。
【0036】
なお、更新前のWebページの情報を予め格納しておくバッファや、任意のタイミングで対象Webページを取得するタイマー類の存在等は、容易に理解できるので、その説明は省略している。また、格納しておく更新前のWebページの情報は、Webページの生のデータでも良く、前処理部3の処理後のデータでも良い。
【0037】
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、前処理部3において対象となる更新前後の電子文書に対して重要個所の抽出を行い、差分抽出部4では、重要個所の変化を有意な更新として検知することができる。これにより、出力部5において、有意な更新があった旨をユーザに伝えることが可能となる。
【0038】
なお、前処理部3において、キーワード抽出を利用することにより、差分抽出部4では微小な修正は検知対象外とでき、真に有意な更新のみを検知することができる。
【0039】
(B)第2の実施形態
次に、本発明による電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体の第2の実施形態を図面を参照しながら詳述する。
【0040】
(B−1)第2の実施形態の構成
図8は、第2の実施形態の電子文書有意更新検知装置の機能的構成を示すブロック図である。
【0041】
例えば、第2の実施形態の電子文書有意更新検知装置も、通信機能を有するユーザのパソコン等の情報処理装置又はプロバイダサーバ等の上で実現されるが、機能的には、図8で表すことができる。記録媒体上の電子文書有意更新検知プログラムをインストールして、第2の実施形態の電子文書有意更新検知装置を構築しても良い。なお、実際上、1つのシステム上で構築しても構わないし、ネットワークで結ばれたサーバ間で協調動作するように構築しても構わない。
【0042】
第2の実施形態の電子文書有意更新検知装置も、大きくは、入力部1、有意更新検知部6及び出力部5を有するが、有意更新検知部6の内部構成が第1の実施形態のものと異なっており、入力部1及び出力部5は、第1の実施形態のものと同様である。
【0043】
第2の実施形態の有意更新検知部6も、Webページ等の電子文書の有意な更新を検知するものであが、第2の実施形態の有意更新検知部6は、差分抽出部4及び価値判断部7を有している。
【0044】
差分抽出部4は、第1の実施形態と同様な方法によって差分を抽出するものであるが、第2の実施形態の場合、差分抽出対象は、電子文書全体になっている点が、第1の実施形態と異なっている。
【0045】
価値判断部7は、差分抽出部4が抽出した差分が有意なものであるかを判断し、有意な差分だけを抽出するものである。価値判断部7は、例えば、差分量(例えば差分文字数)の閾値との比較処理や、形態素解析等の自然言語処理による属性判断等を用いて有意な差分を判別する。
【0046】
(B−2)第2の実施形態の動作
第2の実施形態の詳細な処理についても、上述した図2及び図3で示す架空の更新前後のWebページを例として取り上げて説明する。
【0047】
上述のように有意更新検知部6は、差分抽出部4と価値判断部7を含んでおり、差分抽出部4によって文書全体の差分の抽出を行い、その結果の有意性を価値判断部7によって判断する。
【0048】
第2の実施形態の場合、差分抽出対象が電子文書全体になっている点が第1の実施形態とは異なっているが、差分抽出部4による差分抽出方法自体は、第1の実施形態と同様であるので、その説明は省略し、以下では、価値判断部7による差分価値判断処理を詳述する。なお、図9における符号22を付したものは、図2及び図3に示す更新前後のWebページに対し、第2の差分抽出部4が抽出した差分結果を示すものである。
【0049】
価値判断部7による差分価値判断処理を、以下では、差分量の閾値との比較処理を用いた差分価値判断処理と、形態素解析等の自然言語処理による属性判断を用いた差分価値判断処理とについて説明する。
【0050】
差分量の閾値との比較処理を用いた差分価値判断処理では、例えば、個々の差分の文字列長(例えば文字数又は全角に置き直した文字数等)がある閾値を超えた場合に価値がある(有意な差分である)と判断するものである。
【0051】
仮に、差分の文字列が10文字以上で有効(有意)とした場合(閾値が10文字)であれば、図9の差分抽出結果における差分「サイトマップ」、「した」、「e−mail.」は有意でないと判断され、一方、差分「2月…開催します。」は有意であると判断される。その結果、価値判断部7による判断結果は、図9に符号23で示した部分の二重線が付与されていない文字列になる。言い換えると、閾値未満の文字列を削除(二重線部分参照)することで、価値判断部7は、まとまりのある文に価値があると判別している。
【0052】
形態素解析等の自然言語処理による属性判断を用いた差分価値判断処理では、差分抽出部4から渡された図9に示すような差分22をいくつかのパーツに分類し、各パーツの属性に基づいて、価値(有意な差分)を判別していく。例えば、文を構成しないパーツ(例えば助詞や単独の名詞等)を不要パーツと定義して判別する。この場合の判別結果も、図9の符号23を付与した内容で表され、不要パーツ(二重線参照)を削除することにより、まとまりのある文に価値があると判別している。なお、月日は、その後のスペースを挟んで文章に繋がっているときには、文章の一部と認識するようにしている。
【0053】
価値判断部7によって価値がある(有意な箇所)と判断された文字列は出力部5に渡され、第1の実施形態と同様にして出力される。
【0054】
なお、第2の実施形態の説明においても、更新前のWebページの情報を予め格納しておくバッファや、任意のタイミングで対象Webページを取得するタイマー類の存在等は、容易に理解できるので、その説明は省略している。
【0055】
(B−3)第2の実施形態の効果
以上のように、第2の実施形態によれば、価値判断部7において対象となる文書の差分文字列に対して価値判断を行うことで、文書の小さな修正等を更新情報から除外することができる。これにより、有意更新検知部6では対象となる文書の更新内容のうち有意な情報のみを検知し、出力部5においてその更新内容をユーザ等に出力することができる。
【0056】
(C)他の実施形態
第1の実施形態及び第2の実施形態は、インターネット、イントラネットのWebページやテキスト文書を監視するシステムに利用することができる。このようにした場合には、システム側では多くのユーザからの個別アクセスによるトラフィックを減らすことができると共に、ユーザ側ではサイトの巡回を行う時間と労力を削減することが可能となる。
【0057】
第1及び第2の実施形態共に、有意な更新があったかどうかを検知してその旨を出力するようにしても良く、有意と判断した情報そのものを出力するようにしても良い。
【0058】
第1の実施形態の技術思想と第2の実施形態の技術思想は、個別にシステムに実装しても良く、同時にシステムに実装しても良い。
【0059】
また、第1の実施形態の前処理部3で用いた処理を、第2の実施形態の価値判別部7の処理にアレンジしても良く、逆に、第2の実施形態の価値判別部7で用いた処理を、第1の実施形態の前処理部3の処理にアレンジしても良い。これらの工夫で、処理の強化や、サイト毎のきめ細かな処理に対応することが可能となる。
【0060】
さらに、上記各実施形態は、更新後の電子文書での更新情報を出力するものを意図しているが、更新前の電子文書での更新情報を出力するものであっても良く、両者の更新情報を出力するものであっても良い。
【0061】
さらにまた、有意差分を抽出するための2電子文書は、任意の時期のものであって良く、一方が最新のものに限定されるものではない。
【0062】
なお、上記では、差分が抽出できた例を説明したが、差分が存在しない場合には、その旨を出力するようにしても良い。また、出力が、ユーザに通知する態様の場合には、ユーザに通知しないようにしても良い。さらに、差分が、一方の電子文書の全体又は所定フレームの全体であれば、両文書が比較照合をする関係ないことを出力するようにしても良い。
【0063】
【発明の効果】
以上のように、本発明によれば、電子文書の更新と呼ぶに相応しいようなレベルの更新を検知することができる。
【図面の簡単な説明】
【図1】第1の実施形態の電子文書有意更新検知装置の機能的構成を示すブロック図である。
【図2】更新前のWebページ例を示す説明図である。
【図3】図2のWebページに対応した更新後のWebページ例を示す説明図である。
【図4】第1の実施形態のフレーム事前指定に利用する注目個所テーブルを示す説明図である。
【図5】第1の実施形態のWebページでの注目フレームの説明図である。
【図6】第1の実施形態の要約(重要文)の抽出方法の説明図である。
【図7】第1の実施形態のキーワード抽出という前処理で得られたキーワード例の説明図である。
【図8】第2の実施形態のの電子文書有意更新検知装置の機能的構成を示すブロック図である。
【図9】第2の実施形態の動作の説明図である。
【符号の説明】
1…入力部、2、6…有意更新検知部、3…前処理部、4…差分抽出部、5…出力部、7…価値判断部。
【発明の属する技術分野】
本発明は、電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体に関し、例えば、Webページやテキスト等の電子文書の更新を監視し、更新の旨をユーザへ通知するシステムに適用し得るものである。
【0002】
【従来の技術】
従来、同一のURLに係るWebページも適宜更新される。このようなWebページの更新を検出する方式として、特許文献1に開示されたものがあり、対象とするWebページのチェックサムを比較し、変化があればWebページが更新されたとみなしている。
【0003】
【特許文献1】特開2000−35913号公報
【0004】
【発明が解決しようとする課題】
しかしながら、上述の方式では、文章の微小な修正(例えば、誤字、脱字、訂正等)や、本文とは関連のない部位(例えば、広告欄や他の小さな見出し等)の更新までも、Webページの更新として検知してしまうため、有意な更新を期待する多くの利用者にとって、不要な結果が得られることになる。
【0005】
そのため、電子文書の更新と呼ぶに相応しいようなレベルの更新を検知できる電子文書有意更新検知装置等が望まれている。
【0006】
【課題を解決するための手段】
第1の本発明の電子文書有意更新検知装置は、検知対象の電子文書及び比較対象の電子文書を取り込む入力手段と、入力された検知対象の電子文書及び比較対象の電子文書の重要な箇所の差分を検知する有意更新検知手段とを有することを特徴とする。
【0007】
第2の本発明の電子文書有意更新検知方法は、検知対象の電子文書及び比較対象の電子文書を取り込む入力工程と、入力された検知対象の電子文書及び比較対象の電子文書の重要な箇所の差分を検知する有意更新検知工程とを有することを特徴とする。
【0008】
第3の本発明の電子文書有意更新検知プログラムは、第2の本発明の電子文書有意更新検知方法の各工程をコンピュータが処理し得るコードで記述したことを特徴とする。
【0009】
第4の本発明の記録媒体は、第3の本発明の電子文書有意更新検知プログラムを記録していることを特徴とする。
【0010】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体の第1の実施形態を図面を参照しながら詳述する。
【0011】
(A−1)第1の実施形態の構成
図1は、第1の実施形態の電子文書有意更新検知装置の機能的構成を示すブロック図である。
【0012】
例えば、第1の実施形態の電子文書有意更新検知装置は、通信機能を有するユーザのパソコン等の情報処理装置又はプロバイダサーバ等の上で実現されるが、機能的には、図1で表すことができる。例えば、パソコン等の情報処理装置又はプロバイダサーバ等に対し、CD−ROMやフレキシブルディスク等の記録媒体上に記録されている電子文書有意更新検知プログラムをインストールすることにより、第1の実施形態の電子文書有意更新検知装置が構築される。なお、実際上、1つのシステム上で構築しても構わないし、ネットワークで結ばれたサーバ間で協調動作するように構築しても構わない。
【0013】
第1の実施形態の電子文書有意更新検知装置は、入力部1、有意更新検知部2及び出力部5を有し、有意更新検知部2は、前処理部3と差分抽出部4とを有する。
【0014】
入力部1は、インターネットやイントラネット等のネットワークから、又は、CD−ROM等の記録媒体から、Webページやテキスト等の電子文書を取得して入力データとする。
【0015】
入力部1は、有意な更新の検知対象である電子文書及び比較対象の電子文書の2文書を、バージョンを指定して取り出すことが可能ならば、同時に取り出しても良く、また、URLを指定して過去に取り出し記憶していたものを比較対象の電子文書とし、同一のURLで今回取り出したものを有意な更新の検知対象の電子文書として取り出しても良く、さらには、異なる時期の過去に取り出して記憶していた新旧の2文書を検知対象である電子文書及び比較対象の電子文書として入力しても良い。
【0016】
有意更新検知部2は、比較対象の電子文書に対する検知対象である電子文書の有意な更新部分を検知するものである。有意更新検知部2において、前処理部3は、各電子文書のそれぞれに対して、重要な箇所を抽出するものであり、差分抽出部4は、前処理部3によって抽出された重要な箇所同士におけるテキスト列の差分を抽出するものである。
【0017】
ここで、電子文書の重要な箇所とは、例えば、電子文書の本文、又は、本文やタイトル内の主要文章(その要約を含む)を言い、これらとは関連のない部位(例えば、広告欄や他の小さな見出し等)は非重要な箇所とする。
【0018】
前処理部3による電子文書の重要な箇所の抽出方法としては、既存の方法を適用することができる。また、重要な箇所を、自動判定しても良く、重要な箇所をユーザが特定しても良い。
【0019】
例えば、Webページは、HTMLやXML等で記述されており、複数のフレームによって1画像が形成されるが、各フレーム部分を規定するタグ識別子(例えば「MAIN」)や、各フレーム部分の面積の大小や、各フレーム部分における文字数や、各フレームの配置位置や、所定のキーワードを含むか否か等によって、重要な箇所(フレーム部分)を判別することができる。
【0020】
差分抽出部4におけるテキスト列の差分抽出方法としても、既存の方法を適用することができる。
【0021】
出力部5は、Webページ等の電子文書に有意な更新であった場合に、その旨を表示装置に表示したり、ユーザに電子メールで更新内容を通知したりするものである。出力内容には、更新前後の内容を含んでいても良く、また、更新された部分を特定した更新後の内容であっても良く、また、その出力形式も任意で構わない。
【0022】
(A−2)第1の実施形態の動作
以下、第1の実施形態の詳細な処理について、架空の更新前後のWebページを例として取り上げて説明する。なお、図2は、更新前のWebページを示し、図3は、更新後のWebページを示している。また、上述した図1は、機能ブロック図であったが、処理の流れを示すフローチャートと見ることもできる。
【0023】
符号11は、更新前のWebページのブラウザでの表示例を表しており、符号16は、更新後のWebページのブラウザでの表示例を表してでいる。更新後のWebページ16には、更新箇所を明示するための便宜上、更新された個所に下線を付与しているが、Webページ自体にはこの下線は付与されていない。
【0024】
更新前後のWebページ11及び16は、4個のフレーム12〜15(図2参照)でなっており、それぞれ、ヘッダ、メニュー、記事、フッタとする。
【0025】
入力部1は、図2及び図3に示す更新前後のWebページ11及び16を取り込んで有意更新検知部2に与える。
【0026】
有意更新検知部2は、前処理部3と差分検知部4を含んでおり、前処理部3において、対象となる文書に対して重要個所の抽出を行い、その結果を差分検知部4で比較する。
【0027】
前処理部3による重要個所の抽出方法は、例えば、ユーザによるフレームの事前指定、要約(重要文抽出)等の種々の方法があるが、以下では、ユーザによるフレームの事前指定方法を用いた例と、要約(重要文抽出)を抽出する例とを説明する。
【0028】
ユーザによるフレームの事前指定は、図4に示すような注目個所テーブルを用いて、ユーザが監視して欲しいWebページのURLと更新を検知して欲しい個所(フレーム)を指定しておく。前処理部3では、この情報に基づき、対象となるWebページ内の特定フレームを抽出してその特定フレームのみを差分抽出部4へ送る。このときの処理イメージを図5に示す。フレーム群17は、図4で指定されなかったフレームの一群を示しており、フレーム18は図4で指定して抽出されたフレームを示している。図5は更新後のWebページの抽出イメージを示しているが、図示は省略するが、更新前のWebページに対しても同様な抽出が行われる。
【0029】
差分抽出部4では、更新前後のWebページにおけるフレーム18同士の差分のみを抽出する。図5に示すフレーム18の下線部分は、更新後のWebページにおける差分抽出部4によって抽出された差分部分を示している。
【0030】
一方、要約抽出(重要文抽出)は、文書内の文字列から重要と思われる文を抽出する手法であり、例えば、特開平11−272686号公報に開示されるものを適用できる。前処理部3では重要と思われる文字列(文)を抽出して差分抽出部4へ送る。
【0031】
このときの処理イメージを図6に示す。図6において、符号19、20を付与したものはそれぞれ、前処理部3による更新前と更新後のWebページの要約抽出結果を示している。なお、図6の処理イメージ図19及び20において、それぞれ重要でないと判断された文字列は二重線で消去して示しているが、これは、理解の容易化のためであり、これらの文字列は、重要でないため抽出されず、差分抽出部4には引き渡されない。
【0032】
図6において、符号21を付与したものは、差分抽出部4による差分抽出結果を示している。差分抽出部4は、重要文として抽出された二重線で消去されていない文同士を比較照合し、符号21を付した文で下線が付与された部分を差分であると抽出する。なお、図6の処理イメージ図21において、差分抽出部分に下線を付与しているが、これは、理解の容易化のためであり、文字列に対する下線付与動作を、差分抽出部4は必ずしも実行していない。
【0033】
前処理部3の別の手法(追加手法)としては、キーワード抽出による微小な修正等の除去も挙げることができる。キーワード抽出は、例えば、キーワードを「異なる文字コードに囲まれた漢字及びカナの連続文字」として定義することにより、上述した図2及び図3に示す更新前後のWebページに対するキーワード抽出結果は、図7に示すようになる。更新前後のWebページのフレーム13及び15の変更箇所(「サイトマップ」や「e−mail」)は、上述の定義ではキーワードとはなり得ないため抽出されない。図7に示すようなキーワード抽出結果を、差分抽出部4で比較することで、更新されたかどうかを判別することができる。なお、キーワード抽出だけを用いた場合において、図2及び図3のフレーム14内の1月1日の記事における「します」を「しました」にする変更のみがあったときには、変更前と変更後のキーワードの違いは生じず、微小な修正であり、有意な更新ではないと判別される。
【0034】
出力部5では、差分抽出部4の結果に基づき、対象とするWebページに有意な更新があることを出力する。例えば、対象とするWebページに有意な更新があったことをユーザに通知する。
【0035】
ユーザへの通知は、表示デバイスへの表示やメールによる通知などで行うことができ、通知内容は、対象となったWebページのURLや、変更を検知したフレームの情報でもよく、具体的な変更内容を含めても構わない。また、ユーザへの通知は、ユーザが該当するWebページを取り出そうとしたタイミングで行っても良い。
【0036】
なお、更新前のWebページの情報を予め格納しておくバッファや、任意のタイミングで対象Webページを取得するタイマー類の存在等は、容易に理解できるので、その説明は省略している。また、格納しておく更新前のWebページの情報は、Webページの生のデータでも良く、前処理部3の処理後のデータでも良い。
【0037】
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、前処理部3において対象となる更新前後の電子文書に対して重要個所の抽出を行い、差分抽出部4では、重要個所の変化を有意な更新として検知することができる。これにより、出力部5において、有意な更新があった旨をユーザに伝えることが可能となる。
【0038】
なお、前処理部3において、キーワード抽出を利用することにより、差分抽出部4では微小な修正は検知対象外とでき、真に有意な更新のみを検知することができる。
【0039】
(B)第2の実施形態
次に、本発明による電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体の第2の実施形態を図面を参照しながら詳述する。
【0040】
(B−1)第2の実施形態の構成
図8は、第2の実施形態の電子文書有意更新検知装置の機能的構成を示すブロック図である。
【0041】
例えば、第2の実施形態の電子文書有意更新検知装置も、通信機能を有するユーザのパソコン等の情報処理装置又はプロバイダサーバ等の上で実現されるが、機能的には、図8で表すことができる。記録媒体上の電子文書有意更新検知プログラムをインストールして、第2の実施形態の電子文書有意更新検知装置を構築しても良い。なお、実際上、1つのシステム上で構築しても構わないし、ネットワークで結ばれたサーバ間で協調動作するように構築しても構わない。
【0042】
第2の実施形態の電子文書有意更新検知装置も、大きくは、入力部1、有意更新検知部6及び出力部5を有するが、有意更新検知部6の内部構成が第1の実施形態のものと異なっており、入力部1及び出力部5は、第1の実施形態のものと同様である。
【0043】
第2の実施形態の有意更新検知部6も、Webページ等の電子文書の有意な更新を検知するものであが、第2の実施形態の有意更新検知部6は、差分抽出部4及び価値判断部7を有している。
【0044】
差分抽出部4は、第1の実施形態と同様な方法によって差分を抽出するものであるが、第2の実施形態の場合、差分抽出対象は、電子文書全体になっている点が、第1の実施形態と異なっている。
【0045】
価値判断部7は、差分抽出部4が抽出した差分が有意なものであるかを判断し、有意な差分だけを抽出するものである。価値判断部7は、例えば、差分量(例えば差分文字数)の閾値との比較処理や、形態素解析等の自然言語処理による属性判断等を用いて有意な差分を判別する。
【0046】
(B−2)第2の実施形態の動作
第2の実施形態の詳細な処理についても、上述した図2及び図3で示す架空の更新前後のWebページを例として取り上げて説明する。
【0047】
上述のように有意更新検知部6は、差分抽出部4と価値判断部7を含んでおり、差分抽出部4によって文書全体の差分の抽出を行い、その結果の有意性を価値判断部7によって判断する。
【0048】
第2の実施形態の場合、差分抽出対象が電子文書全体になっている点が第1の実施形態とは異なっているが、差分抽出部4による差分抽出方法自体は、第1の実施形態と同様であるので、その説明は省略し、以下では、価値判断部7による差分価値判断処理を詳述する。なお、図9における符号22を付したものは、図2及び図3に示す更新前後のWebページに対し、第2の差分抽出部4が抽出した差分結果を示すものである。
【0049】
価値判断部7による差分価値判断処理を、以下では、差分量の閾値との比較処理を用いた差分価値判断処理と、形態素解析等の自然言語処理による属性判断を用いた差分価値判断処理とについて説明する。
【0050】
差分量の閾値との比較処理を用いた差分価値判断処理では、例えば、個々の差分の文字列長(例えば文字数又は全角に置き直した文字数等)がある閾値を超えた場合に価値がある(有意な差分である)と判断するものである。
【0051】
仮に、差分の文字列が10文字以上で有効(有意)とした場合(閾値が10文字)であれば、図9の差分抽出結果における差分「サイトマップ」、「した」、「e−mail.」は有意でないと判断され、一方、差分「2月…開催します。」は有意であると判断される。その結果、価値判断部7による判断結果は、図9に符号23で示した部分の二重線が付与されていない文字列になる。言い換えると、閾値未満の文字列を削除(二重線部分参照)することで、価値判断部7は、まとまりのある文に価値があると判別している。
【0052】
形態素解析等の自然言語処理による属性判断を用いた差分価値判断処理では、差分抽出部4から渡された図9に示すような差分22をいくつかのパーツに分類し、各パーツの属性に基づいて、価値(有意な差分)を判別していく。例えば、文を構成しないパーツ(例えば助詞や単独の名詞等)を不要パーツと定義して判別する。この場合の判別結果も、図9の符号23を付与した内容で表され、不要パーツ(二重線参照)を削除することにより、まとまりのある文に価値があると判別している。なお、月日は、その後のスペースを挟んで文章に繋がっているときには、文章の一部と認識するようにしている。
【0053】
価値判断部7によって価値がある(有意な箇所)と判断された文字列は出力部5に渡され、第1の実施形態と同様にして出力される。
【0054】
なお、第2の実施形態の説明においても、更新前のWebページの情報を予め格納しておくバッファや、任意のタイミングで対象Webページを取得するタイマー類の存在等は、容易に理解できるので、その説明は省略している。
【0055】
(B−3)第2の実施形態の効果
以上のように、第2の実施形態によれば、価値判断部7において対象となる文書の差分文字列に対して価値判断を行うことで、文書の小さな修正等を更新情報から除外することができる。これにより、有意更新検知部6では対象となる文書の更新内容のうち有意な情報のみを検知し、出力部5においてその更新内容をユーザ等に出力することができる。
【0056】
(C)他の実施形態
第1の実施形態及び第2の実施形態は、インターネット、イントラネットのWebページやテキスト文書を監視するシステムに利用することができる。このようにした場合には、システム側では多くのユーザからの個別アクセスによるトラフィックを減らすことができると共に、ユーザ側ではサイトの巡回を行う時間と労力を削減することが可能となる。
【0057】
第1及び第2の実施形態共に、有意な更新があったかどうかを検知してその旨を出力するようにしても良く、有意と判断した情報そのものを出力するようにしても良い。
【0058】
第1の実施形態の技術思想と第2の実施形態の技術思想は、個別にシステムに実装しても良く、同時にシステムに実装しても良い。
【0059】
また、第1の実施形態の前処理部3で用いた処理を、第2の実施形態の価値判別部7の処理にアレンジしても良く、逆に、第2の実施形態の価値判別部7で用いた処理を、第1の実施形態の前処理部3の処理にアレンジしても良い。これらの工夫で、処理の強化や、サイト毎のきめ細かな処理に対応することが可能となる。
【0060】
さらに、上記各実施形態は、更新後の電子文書での更新情報を出力するものを意図しているが、更新前の電子文書での更新情報を出力するものであっても良く、両者の更新情報を出力するものであっても良い。
【0061】
さらにまた、有意差分を抽出するための2電子文書は、任意の時期のものであって良く、一方が最新のものに限定されるものではない。
【0062】
なお、上記では、差分が抽出できた例を説明したが、差分が存在しない場合には、その旨を出力するようにしても良い。また、出力が、ユーザに通知する態様の場合には、ユーザに通知しないようにしても良い。さらに、差分が、一方の電子文書の全体又は所定フレームの全体であれば、両文書が比較照合をする関係ないことを出力するようにしても良い。
【0063】
【発明の効果】
以上のように、本発明によれば、電子文書の更新と呼ぶに相応しいようなレベルの更新を検知することができる。
【図面の簡単な説明】
【図1】第1の実施形態の電子文書有意更新検知装置の機能的構成を示すブロック図である。
【図2】更新前のWebページ例を示す説明図である。
【図3】図2のWebページに対応した更新後のWebページ例を示す説明図である。
【図4】第1の実施形態のフレーム事前指定に利用する注目個所テーブルを示す説明図である。
【図5】第1の実施形態のWebページでの注目フレームの説明図である。
【図6】第1の実施形態の要約(重要文)の抽出方法の説明図である。
【図7】第1の実施形態のキーワード抽出という前処理で得られたキーワード例の説明図である。
【図8】第2の実施形態のの電子文書有意更新検知装置の機能的構成を示すブロック図である。
【図9】第2の実施形態の動作の説明図である。
【符号の説明】
1…入力部、2、6…有意更新検知部、3…前処理部、4…差分抽出部、5…出力部、7…価値判断部。
Claims (12)
- 検知対象の電子文書及び比較対象の電子文書を取り込む入力手段と、
入力された検知対象の電子文書及び比較対象の電子文書の重要な箇所の差分を検知する有意更新検知手段とを有する
ことを特徴とする電子文書有意更新検知装置。 - 上記有意更新検知手段が、上記検知対象の電子文書及び上記比較対象の電子文書のそれぞれに対して、重要な箇所を抽出する前処理部と、上記前処理部により抽出された結果に対して、差分検知を行う差分検知部とを備えていることを特徴とする請求項1に記載の電子文書有意更新検知装置。
- 上記有意更新検知手段が、上記検知対象の電子文書及び上記比較対象の電子文書の間での差分検知を行う差分検知部と、抽出された差分に対して、有意な差分か否かを判断する価値判断部とを備えていることを特徴とする請求項1に記載の電子文書有意更新検知装置。
- 上記有意更新検知手段が、上記検知対象の電子文書及び上記比較対象の電子文書のそれぞれに対して、重要な箇所を抽出する前処理部と、上記前処理部により抽出された結果に対して、差分検知を行う差分検知部と、抽出された差分に対して、有意な差分か否かを判断する価値判断部とを備えていることを特徴とする請求項1に記載の電子文書有意更新検知装置。
- 上記有意更新検知手段の検知結果を、外部の情報処理装置に通知する出力手段をさらに備えていることを特徴とする請求項1〜4のいずれかに記載の電子文書有意更新検知装置。
- 検知対象の電子文書及び比較対象の電子文書を取り込む入力工程と、
入力された検知対象の電子文書及び比較対象の電子文書の重要な箇所の差分を検知する有意更新検知工程とを有する
ことを特徴とする電子文書有意更新検知方法。 - 上記有意更新検知工程が、上記検知対象の電子文書及び上記比較対象の電子文書のそれぞれに対して、重要な箇所を抽出する前処理と、この前処理により抽出された結果に対して、差分検知を行う差分検知処理とを有することを特徴とする請求項6に記載の電子文書有意更新検知方法。
- 上記有意更新検知工程が、上記検知対象の電子文書及び上記比較対象の電子文書の間での差分検知を行う差分検知処理と、抽出された差分に対して、有意な差分か否かを判断する価値判断処理とを有することを特徴とする請求項6に記載の電子文書有意更新検知方法。
- 上記有意更新検知工程が、上記検知対象の電子文書及び上記比較対象の電子文書のそれぞれに対して、重要な箇所を抽出する前処理と、この前処理により抽出された結果に対して、差分検知を行う差分検知処理と、抽出された差分に対して、有意な差分か否かを判断する価値判断処理とを含むことを特徴とする請求項6に記載の電子文書有意更新検知方法。
- 上記有意更新検知工程の検知結果を、外部の情報処理装置に通知する出力処理をさらに有することを特徴とする請求項6〜9のいずれかに記載の電子文書有意更新検知方法。
- 請求項6〜10のいずれかに記載の電子文書有意更新検知方法の各工程をコンピュータが処理し得るコードで記述したことを特徴とする電子文書有意更新検知プログラム。
- 請求項11の電子文書有意更新検知プログラムを記録していることを特徴とする記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003055617A JP2004086851A (ja) | 2002-06-27 | 2003-03-03 | 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体 |
US10/602,725 US20040261009A1 (en) | 2002-06-27 | 2003-06-25 | Electronic document significant updating detection apparatus, electronic document significant updating detection method; electronic document significant updating detection program, and recording medium on which electronic document significant updating detection program is recording |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002187859 | 2002-06-27 | ||
JP2003055617A JP2004086851A (ja) | 2002-06-27 | 2003-03-03 | 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004086851A true JP2004086851A (ja) | 2004-03-18 |
Family
ID=32071720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003055617A Pending JP2004086851A (ja) | 2002-06-27 | 2003-03-03 | 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040261009A1 (ja) |
JP (1) | JP2004086851A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006285963A (ja) * | 2005-03-31 | 2006-10-19 | Microsoft Corp | 別々のデータ情報源にまたがる選択済みコンテンツの生の要約の作成を容易にするシステム及び方法 |
JP2007188123A (ja) * | 2006-01-11 | 2007-07-26 | Kansai Electric Power Co Inc:The | 文書更新判定方法、システム及びその動作プログラム |
JP2009276873A (ja) * | 2008-05-13 | 2009-11-26 | Nec Corp | データ処理装置、そのコンピュータプログラムおよびデータ処理方法 |
JP2011090524A (ja) * | 2009-10-22 | 2011-05-06 | Dainippon Hourei Printing Co Ltd | 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム |
JP2011198275A (ja) * | 2010-03-23 | 2011-10-06 | Konica Minolta Business Technologies Inc | 文書管理装置、文書管理方法、文書管理プログラム |
JP2012230539A (ja) * | 2011-04-26 | 2012-11-22 | Nec System Technologies Ltd | 文書添削装置、文書添削方法及び文書添削プログラム |
JP2012529688A (ja) * | 2009-06-23 | 2012-11-22 | 北京捜狗科技▲発▼展有限公司 | 更新通知方法、およびシステム |
US8423949B2 (en) | 2010-01-06 | 2013-04-16 | Fujitsu Limited | Apparatus for displaying a portion to which design modification is made in designing a product |
JP2015075982A (ja) * | 2013-10-10 | 2015-04-20 | 富士ゼロックス株式会社 | 差分抽出システム及びプログラム |
JP2016001473A (ja) * | 2014-06-11 | 2016-01-07 | エフエムアール エルエルシー | 自動化された予測的なタグ管理システム |
JP2021114041A (ja) * | 2020-01-16 | 2021-08-05 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、情報処理システムおよびプログラム |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9563875B2 (en) * | 2004-12-02 | 2017-02-07 | International Business Machines Corporation | Automatically providing notifications regarding interesting content from shared sources based on important persons and important sources for a user |
US8302011B2 (en) | 2005-01-24 | 2012-10-30 | A9.Com, Inc. | Technique for modifying presentation of information displayed to end users of a computer system |
FR2895817B1 (fr) * | 2005-12-29 | 2009-09-11 | Trusted Logic Sa | Procede et systeme d'analyse de page |
JP5264136B2 (ja) * | 2007-09-27 | 2013-08-14 | キヤノン株式会社 | 医用診断支援装置及びその制御方法、ならびにコンピュータプログラム及び記憶媒体 |
US11295076B1 (en) * | 2019-07-31 | 2022-04-05 | Intuit Inc. | System and method of generating deltas between documents |
CN112487784B (zh) * | 2020-11-18 | 2024-05-03 | 中信银行股份有限公司 | 一种技术文档管理方法、装置、电子设备和可读存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5898836A (en) * | 1997-01-14 | 1999-04-27 | Netmind Services, Inc. | Change-detection tool indicating degree and location of change of internet documents by comparison of cyclic-redundancy-check(CRC) signatures |
US6854016B1 (en) * | 2000-06-19 | 2005-02-08 | International Business Machines Corporation | System and method for a web based trust model governing delivery of services and programs |
US20030014745A1 (en) * | 2001-06-22 | 2003-01-16 | Mah John M. | Document update method |
US7284191B2 (en) * | 2001-08-13 | 2007-10-16 | Xerox Corporation | Meta-document management system with document identifiers |
US7093243B2 (en) * | 2002-10-09 | 2006-08-15 | International Business Machines Corporation | Software mechanism for efficient compiling and loading of java server pages (JSPs) |
US20040216084A1 (en) * | 2003-01-17 | 2004-10-28 | Brown Albert C. | System and method of managing web content |
JP4097263B2 (ja) * | 2003-06-11 | 2008-06-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ウェブアプリケーションモデル生成装置、ウェブアプリケーション生成支援方法及びプログラム |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
-
2003
- 2003-03-03 JP JP2003055617A patent/JP2004086851A/ja active Pending
- 2003-06-25 US US10/602,725 patent/US20040261009A1/en not_active Abandoned
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006285963A (ja) * | 2005-03-31 | 2006-10-19 | Microsoft Corp | 別々のデータ情報源にまたがる選択済みコンテンツの生の要約の作成を容易にするシステム及び方法 |
KR101153009B1 (ko) | 2005-03-31 | 2012-06-04 | 마이크로소프트 코포레이션 | 텍스트 요약을 갖는 라이브 그래픽 미리보기 |
JP2007188123A (ja) * | 2006-01-11 | 2007-07-26 | Kansai Electric Power Co Inc:The | 文書更新判定方法、システム及びその動作プログラム |
JP2009276873A (ja) * | 2008-05-13 | 2009-11-26 | Nec Corp | データ処理装置、そのコンピュータプログラムおよびデータ処理方法 |
JP2012529688A (ja) * | 2009-06-23 | 2012-11-22 | 北京捜狗科技▲発▼展有限公司 | 更新通知方法、およびシステム |
JP2011090524A (ja) * | 2009-10-22 | 2011-05-06 | Dainippon Hourei Printing Co Ltd | 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム |
US8423949B2 (en) | 2010-01-06 | 2013-04-16 | Fujitsu Limited | Apparatus for displaying a portion to which design modification is made in designing a product |
US8676747B2 (en) | 2010-03-23 | 2014-03-18 | Konica Minolta Business Technologies, Inc. | Document management apparatus, document management method, and computer-readable non-transitory storage medium storing document management program |
JP2011198275A (ja) * | 2010-03-23 | 2011-10-06 | Konica Minolta Business Technologies Inc | 文書管理装置、文書管理方法、文書管理プログラム |
JP2012230539A (ja) * | 2011-04-26 | 2012-11-22 | Nec System Technologies Ltd | 文書添削装置、文書添削方法及び文書添削プログラム |
JP2015075982A (ja) * | 2013-10-10 | 2015-04-20 | 富士ゼロックス株式会社 | 差分抽出システム及びプログラム |
JP2016001473A (ja) * | 2014-06-11 | 2016-01-07 | エフエムアール エルエルシー | 自動化された予測的なタグ管理システム |
JP2021114041A (ja) * | 2020-01-16 | 2021-08-05 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、情報処理システムおよびプログラム |
JP7484176B2 (ja) | 2020-01-16 | 2024-05-16 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、情報処理システムおよびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20040261009A1 (en) | 2004-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004086851A (ja) | 電子文書有意更新検知装置、方法及びプログラム、並びに、電子文書有意更新検知プログラムを記録した記録媒体 | |
US7464078B2 (en) | Method for automatically extracting by-line information | |
US20010049700A1 (en) | Information processing apparatus, information processing method and storage medium | |
US8037403B2 (en) | Apparatus, method, and computer program product for extracting structured document | |
JP2007140603A (ja) | アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム | |
CN114357335A (zh) | 信息获取方法、介质、装置和计算设备 | |
JP5063877B2 (ja) | 情報処理装置およびコンピュータプログラム | |
JP5806449B2 (ja) | 商標情報処理装置、商標情報処理方法、およびプログラム | |
WO2014023151A1 (en) | Method and apparatus for processing browsing history of web site | |
Luo et al. | Web article extraction for web printing: a dom+ visual based approach | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP3683687B2 (ja) | 情報フィルタリング装置および情報フィルタリング方法 | |
CN105787032B (zh) | 网页快照的生成方法及装置 | |
JP2006085234A (ja) | 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム | |
JP3648101B2 (ja) | コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法 | |
JP2004295836A (ja) | 文書管理方法 | |
JP6530002B2 (ja) | コンテンツ探索装置、コンテンツ探索方法、プログラム | |
JP2005316590A (ja) | 情報検索装置 | |
JP2009238131A (ja) | 著作物比較システム | |
JP2008090523A (ja) | コンテンツ作成装置及びコンテンツ作成方法 | |
JP2001022788A (ja) | 情報検索装置および情報検索プログラムを記録した記録媒体 | |
JP7116940B2 (ja) | オープンデータを効率的に構造化し補正する方法及びプログラム | |
JP2004287781A (ja) | 重要度算出装置 | |
JP2004062262A (ja) | 未知語を自動的に辞書へ登録する方法 | |
JP2004086843A (ja) | 情報抽出装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070803 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070807 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071204 |