JP4787955B2 - 対象文書からキーワードを抽出する方法、システムおよびプログラム - Google Patents
対象文書からキーワードを抽出する方法、システムおよびプログラム Download PDFInfo
- Publication number
- JP4787955B2 JP4787955B2 JP2005128532A JP2005128532A JP4787955B2 JP 4787955 B2 JP4787955 B2 JP 4787955B2 JP 2005128532 A JP2005128532 A JP 2005128532A JP 2005128532 A JP2005128532 A JP 2005128532A JP 4787955 B2 JP4787955 B2 JP 4787955B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- information
- characters
- image data
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
このように本発明においては、まず対象文書の文書形式を求め、対象文書のレイアウト情報、フォントサイズ情報及び出現頻度情報を用いて正確な推論を実行してキーワードを抽出することができる。
また、決定された文書形式毎の知識に限定して推論を実行するので、他の文書形式の知識を参照することなく推論実行時の演算処理を迅速に行うことができる。
本発明に係る対象文書からキーワードを抽出するコンピュータシステムは、予め被験者から得られた知識に基づく前記各評価項目における要素の重要度について、前記文書形式毎に、各要素間の重要度を一対一で比較して当該要素間の相対重要度を算出し、予め被験者から得られた知識に基づいて、前記評価項目の重要度が設定された代替案について、前記文書形式毎に、各代替案間の重要度を一対一で比較して当該代替案間の相対重要度を算出し、前記算出された各相対重要度の積算及び乗算により確信度を算出し、前記推論を実行する手段が用いる知識の各後件部に前記算出した確信度を対応させており、前記対象文書中の任意の文字列についての確信度が予め設定された閾値を超えている場合に、当該文字列をキーワードと推論するものである。
このように本発明においては、知識の各後件部に確信度を対応させているので確信度に基づいて適切にキーワードを出力することができる。
本発明に係る対象文書の画像データからマークアップ言語ファイルを生成するコンピュータシステムは、走査による画像データを入力するイメージスキャナーで対象文書を読み込み、出力された画像データを入力するための入力部と、入力された画像データをレイアウト解析し、対象文書中での文字の位置、文字の大きさを求め、当該求めた対象文書中での文字の位置及び文字の大きさに基づきマークアップ言語で記述されたマークアップ言語ファイルを閲覧装置で閲覧した場合に対象文書内の文字の位置、文字の大きさと略同様となるようにマークアップ言語ファイルを生成する制御部とを備えるものである。このように本発明においては、対象文書の画像データから文字に関して位置、大きさの情報を取得し、マークアップ言語ファイルを生成するので、マークアップ言語ファイルの閲覧装置で閲覧した場合に元となる対象文書から文字のみを抜粋した形での表示を行うことができる。文字以外の図等のデータサイズの大きなものがマークアップ言語ファイルには存在せずに、閲覧装置で迅速に表示を行うことができると共に、小さなメモリ容量で動作することができる。
本発明に係る対象文書の画像データからマークアップ言語ファイルを生成するコンピュータシステムは必要に応じて、前記マークアップ言語がHTMLであって、マークアップ言語ファイルがHTMLファイルであり、前記制御部が、対象文書中の文字の位置に基づき、改行タグで縦位置を定め、スペースの文字実態参照で横位置を定め、HTMLファイルを生成するものである。
これら前記の発明の概要は、本発明に必須となる特徴を列挙したものではなく、これら複数の特徴のサブコンビネーションも発明となり得る。
各実施形態では、主にシステムについて説明するが、所謂当業者であれば明らかな通り、本発明はコンピュータで使用可能なプログラム及び方法としても実施できる。また、本発明は、ハードウェア、ソフトウェア、または、ソフトウェア及びハードウェアの実施形態で実施可能である。プログラムは、ハードディスク、CD−ROM、DVD−ROM、光記憶装置または磁気記憶装置等の任意のコンピュータ可読媒体に記録できる。さらに、プログラムはネットワークを介した他のコンピュータに記録することができる。
本発明の第1の実施形態に係るキーワードを抽出するコンピュータシステムについて、図に基づき説明する。
コンピュータシステムのブロック構成図を示す図1のように、本実施形態に係るキーワード抽出装置は、走査による画像データを入力するイメージスキャナーで対象文書を読み込み、出力された画像データを入力するための入力部10と、入力された画像データから対象文書中の構成要素に基づき文書形式を決定する文書形式決定手段21と、入力された画像データをレイアウト解析し対象文書のレイアウト情報および対象文書中の文字のフォントサイズ情報を生成するレイアウト解析手段22と、入力された画像データを文字認識してテキストデータを生成するテキストデータ変換手段23と、このテキストデータを形態素解析し、形態素解析情報を出力する形態素解析手段24と、前記レイアウト情報及びフォントサイズ情報をHTMLファイルに変換するHTML変換手段25と、前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する出現頻度演算手段26と、対象文書の文書形式毎にプロダクションシステムのプロダクションメモリに、条件部が対象文書の形態素の位置、フォントサイズ及び出現頻度の評価項目要素の評価項目状態であり、後件部がキーワードであるか否かである知識が格納されたプロダクションシステムのワーキングメモリにレイアウト情報、フォントサイズ情報及び出現頻度情報を入力し、推論を実行する推論手段27と、記録部40に画像データ、HTMLファイル及びキーワードを対応付けて記録する記録手段28と、推論結果の形態素を表示する表示部30とを備える構成である。
レイアウト情報は、文字、文字列が文書中のどの位置にあるかを示した情報である。フォントサイズ情報は、文字の大きさの情報である。
文字数を指標に図面は識別でき、また、表を多く含むフォーム形式は、罫線等線分数が多く、文字数も多く、レター形式は、線分数が少なく文字数が多いことを利用して文書形式決定手段21が対象文書を3種類のいずれかに分類することができる。すなわち、文書の構成要素である文字、線分等で分類することができる。
フォーム形式文書は、表中にタイトルが現れる場合が多く、文書タイトルの現れる位置、次いで、その出現頻度が重要であり、フォントサイズはさほど重要ではない。
図面は、文書タイトルの位置が最も重要であり、フォントサイズもさほど重要ではなく、文字数が少ないことから出現頻度は殆ど重要ではない。すなわち、上記のように文書形式によって検索用キーワードを抽出する際の知識の重要度は異なる。
AHPに基づき、事前に知識重要度の考慮方法を検討する。対象文書の文書形式による知識キーワードの重要度の設定を最適化し、これに必要な評価項目を事前に推定する。AHPは、問題分析において主観的判断とシステムアプローチを上手く利用した問題解決型意思決定手法である。複雑に絡み合った要素の中から一つの答えを取り出されなければならない時に、あまり単純に割り切ってしまうと大事な要素を見落としてしまう危険があり、あまりに複雑な手法では臨機応変に使いこなすことが難しくなる。そこで、多くの要素をバランスよく取り込み、意思決定できる方法としてAHPを採用する。
意思決定の目的の要素を1つ、目的評価のための評価項目の要素を複数個、目的に対する代替案を複数個用意する。本実施形態では、目的に知識の重要度(重み係数)、評価項目要素にフォントサイズ、文字列の位置、出現頻度、さらに、代替案にそれら評価項目要素の大きさを設定した。
最上層を目的要素とし、評価層を意思決定のための評価項目要素、さらに、最下層を代替案とする。
目的の評価項目と各代替案の一対一比較を行う。そして、各階層で求めた重み係数を用いて、代替案の中から最適な案を求める。
検索キーワード抽出のためのプロダクションシステムをAHPに基づき、あらかじめ構築する。ここでは、特に、あまり試みられていない「図面形式」の対象文書を例に取り上げ、AHPに基づく知識の重要度、確信度の決定方法を示す。図4に対象文書の一例を示す。例示するように、線分数は多く文字が少ないことが図面形式の文書の特徴である。AHPの最上層は目的であり、重要度(重み係数)であり、中間層の評価項目の要素は、フォントサイズ、縦横位置、出現頻度である。また、最下層の代替案は重要度の大小である。
(2)頻度(Frequency)は、文字認識し、テキストに変換した後に、前出の形態素解析ソフトChaSenを利用し、「分かち書き」単語の頻度を調べることにより抽出した。
ステップ300のキーワード処理の後、記録手段28が、入力部10の画像データ及びHTML変換手段のHTMLファイルを、キーワードと対応させて記録部40に記録する。
[オペレータによる閾値の設定]
前記閾値は、オペレータがキーボード及びマウスを用いて自由に設定することができるようにすることもできる。そうすることで、精度良くキーワードを抽出している場合には閾値を落とし自動的に記録部40に登録される処理(トランザクション)を多くしオペレータの労力を省き、精度が悪い場合には閾値を挙げて精度良くキーワードを抽出できる。
前記オペレータに対してキーワード候補を提示する場合には、対象文書の画像データ又はHTMLファイルを共に表示し、さらに、オペレータにより選択されているキーワードに対応する文字、文字列を他の文字、文字列に比し明示した表示をもって提示することもできる。そうすることで、オペレータはキーワード候補と実際の対象文書を見比べる必要もなく、表示部の参照だけで適切にキーワードを選択することができる。
また、キーワード候補を確信度と共に対応付けてオペレータに提示することもできる。そうすることで、オペレータのキーワード候補を選択する場合に、確信度を選択の一基準とすることができる。この場合において、表示部10に画像データ又はHTMLファイルを表示することがさらに好ましい。
オペレータがキーワード候補からキーワードを選択した場合に、確信度が一番高いキーワードが選択されたとき、かかるキーワード選択に基づいて該当するプロダクションルールに対応する評価項目要素の重要度を変更することもできる。そうすることで、本システムにおいて次回から精度良くキーワードを抽出することができる。重要度を変更する場合には、所定数増減させることもできるし、選択したキーワードの確信度または一番高い確信度と選択したキーワードの確信度との差に基づいて重要度を増減することもできる。複数のプロダクションルールが該当する場合には、オペレータにどの重要度を変更するかを選択させることもできる。ここでは、キーワード候補から選択した場合について説明したが、対象文書の画像データ及びHTMLファイルを、文字、文字列を選択可能に表示し、選択した文字、文字列に対応するプロダクションルールの評価項目要素の重要度を変更するようにもできる。この場合に選択可能に表示とは、例えば、HTMLファイル中、文字、文字列をリンク表示させ、該当リンクを選択した場合に、該当する文字列を特定する情報を入力部10に取り込むことで該当する文字列を特定することができる。このようにした場合には、デフォルトの重要度で設定されていたシステムが使用される度にオペレータの環境に合致したシステムになり、オペレータによる設定がなくともより精度高くキーワードを抽出することができる。
レイアウト解析には、文字、文字列の位置以外に、文字、文字列自体の情報も包含されており、この文字、文字列自体の情報を形態素解析手段24に出力し、テキストデータ変換手段23を設けない構成とすることもできる。そうすることで、より単純な構成となり、コンピュータシステムの処理も軽減され、ターンアラウンドタイムを向上できる。
本実施形態では、レイアウト解析では画像データを対象としたが、ワープロソフトのデータ、表計算ソフトのデータ等の他のデータ形式を解析し、レイアウト情報を得ることもでき、この場合には紙の文書だけでなく電子文書もキーワード抽出の対象とすることができる。例えば、ワープロソフトのデータ形式では、ある文字列が何ページの何行目にあるかを認識することは容易に行うことができ、これによりレイアウト情報を出力することができる。詳細には、データの形式によってはファイルの状態で文字列の位置を特定することができる場合もあり、また、ワープロソフトを起動させた状態でないと文字列の位置を特定することができない場合もある。いずれの場合にしろ、ワープロソフトで特定の場所にジャンプして編集を続けることができるということは、逆に特定の文字列の位置を求めることも容易に行うことができることを意味する。表計算ソフトのデータ形式の電子文書についても同様である。
レイアウト情報、フォントサイズ情報及び形態素解析情報は、該当する文字、文字列に関して関連付いていることが好ましい。この関連付けを行う場合に、文字、文字列の識別子を設けることもできる。コンピュータシステムの起動状態においては、レイアウト情報、フォントサイズ情報及び形態素解析情報は、構造体の変数、クラスのメンバ、確保されたメモリ領域の該当箇所に格納されていることを利用することで、文字、文字列毎に関連付けることができる。
文書形式決定手段21は、文字、線分を認識する処理を行っているが、レイアウト解析手段22で得られたレイアウト情報に基づいて文書形式を決定することもできる。ただし、この場合において、レイアウト解析手段22にて線分の認識を行う必要があるが、モジュールの構成として重複機能部分が少なくなり、実装が容易となるだけでなく、起動させた場合のメモリ使用領域を縮小することができる。
前記第1の実施形態に係るコンピュータシステムにおいては、HTML変換手段25がレイアウト情報、フォントサイズ情報及び形態素解析情報をHTMLファイルに変換していることを説明した。ここでは、入力部10が、走査による画像データを入力するイメージスキャナーで対象文書を読み込み、出力された画像データを入力し、制御部が、入力された画像データをレイアウト解析し、対象文書中での文字の位置、文字の大きさを求め、当該求めた対象文書中での文字の位置及び文字の大きさに基づきマークアップ言語で記述されたマークアップ言語ファイルをWWWブラウザ等の閲覧装置で閲覧した場合に対象文書内の文字の位置、文字の大きさと略同様となるようにマークアップ言語ファイルを生成する構成を、単独のコンピュータシステムとして取ることもできる。このコンピュータシステムは、前記第1の実施形態で使用することができるだけでなく、単独でも画像データの文字列のみをHTMLファイルに変換することができる装置として用いることができる。マークアップ言語とは、文書の一部を「タグ」という特別な文字列で囲うことにより、文章の構造や、修飾情報を、文章中に記述していく記述言語のことである。マークアップ言語としては、SGML(Standard Generalized Markup Language)、SGMLから発展したHTML(HyperText Markup Language)、TeXなどがある。
スキャナ等で取得した対象文書の画像データ(画像ファイル、ファイルとなっていないメモリ上のデータも含む)に基づき文字列部分に線太らせ処理を施し、文字間を埋めるように文字線分を太らせる。埋めるのに要した太らせ画素数分、太らせた線分文字列を細線化することにより、文字列の輪郭を抽出する。これにより、画像データ中の文字列の位置、大きさを求めることができる。次に、抽出した文字列を文字認識装置(文字認識ソフトを読み込んだコンピュータ)で文字認識し、前記求めた文字列の位置及び大きさからWWWブラウザにて表示可能なデータ形式(例えばHTMLファイル、XMLファイル、これらファイルとなっていないメモリ上のデータも含む)に変換することができる。
[システム評価]
まず、評価方法について説明する。システムの評価は主観評価との比較により行った。評価は100種類の対象文書を用い、被験者10名に対して以下の手順に従って行った。
(1)被験者に対象文書を提示し、キーワードと思われるものを選択してもらう。また、すべてのキーワード候補に対し、その重要度(選択率)を0から1までの間を1/8刻みにて評価してもらった。
(2)提案方法に基づきキーワードを選択する。また、キーワード候補のすべてに対し、重要度(選択率)を評価した。
(3)手順(1)、(2)により抽出されたキーワードを比較し、キーワードの一致率を求める。
同様に100の対象文書からすべての知識(評価項目)の重要度が同じと考えてキーワードを選択し、10名の被験者の主観に基づいて選択したキーワードと比較し、一致率を評価した。
キーワード一致率の一例を表7に示す。提案システムがキーワード候補として選択した結果を左欄に、また、被験者が選出した結果を右欄にそれぞれ示す。さらに、この時、評価項目(パラメータ)に選んだフォントサイズ、縦位置、横位置および出現頻度をそれぞれ基準に選んだキーワード候補の重要度およびAHPに基づき求められたキーワード候補と確信度、最終重要度を図12に示す。単語、「重軽油系統」は、提案システム、被験者ともにキーワードとして最重要であるとの一致を見ている。
100種類の対象文書のうち、フォントサイズ、キーワード候補の文書内の位置、出現頻度がまったく同じであるキーワード候補が複数存在するような文書(2%)の場合は、オペレータにキーワード候補と重要度(確信度)を提示して判断を仰がなければならなかったが、残る大半(98%)の対象文書のキーワードは自動的に抽出することができることを確認した。
21 文書形式決定手段
22 レイアウト解析手段
23 テキストデータ変換手段
24 形態素解析手段
25 HTML変換手段
26 出現頻度演算手段
27 推論手段
28 記録手段
30 表示部
40 記録部
Claims (4)
- 画像データを入力するための入力部と、
入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いフォーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する手段と、
入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する手段と、
入力された前記画像データを文字認識してテキストデータとする手段と、
当該テキストデータを形態素解析し、形態素解析情報を出力する手段と、
前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とWWWブラウザ上での表示態様とが同じになるようにWWWブラウザ上で表示可能なマークアップ言語情報を生成する手段と、
前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する手段と、
前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする文書形式毎の知識を用い、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する手段とを備えるコンピュータシステム。 - 予め被験者から得られた知識に基づく前記各評価項目における要素の重要度について、前記文書形式毎に、各要素間の重要度を一対一で比較して当該要素間の相対重要度を算出し、
予め被験者から得られた知識に基づいて、前記評価項目の重要度が設定された代替案について、前記文書形式毎に、各代替案間の重要度を一対一で比較して当該代替案間の相対重要度を算出し、
前記算出された各相対重要度の積算及び乗算により確信度を算出し、前記推論を実行する手段が用いる知識の各後件部に前記算出した確信度を対応させており、前記対象文書中の任意の文字列についての確信度が予め設定された閾値を超えている場合に、当該文字列をキーワードと推論する
前記請求項1に記載のコンピュータシステム。
- プロセッサに、
画像データを入力する手順と、
入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いファーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する手順と、
入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する手順と、
入力された前記画像データを文字認識してテキストデータとする手順と、
当該テキストデータを形態素解析し、形態素解析情報を出力する手順と、
前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とWWWブラウザ上での表示態様とが同じになるようにWWWブラウザ上で表示可能なマークアップ言語情報を生成する手順と、
前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する手順と、
前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする知識を用いて、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する手順とを実行させるコンピュータプログラム。 - プロセッサが、
画像データを入力する工程と、
入力された前記画像データから対象文書中の文字数及び線分数に基づき、文字数が少ない図面形式、線分数及び文字数が多いファーム形式、並びに線分数が少なく文字数が多いレター形式のいずれかの文書形式を決定する工程と、
入力された画像データの文字列部分に線太らせ処理を施し、線を太らせて文字間を埋めると共に、当該線を太らせた文字列に対して、線を太らせるのに要した画素数分細線化処理を施し、文字列の輪郭を抽出して、前記文字列の位置の情報であるレイアウト情報、及び前記文字列の大きさの情報であるフォントサイズ情報を生成する工程と、
入力された前記画像データを文字認識してテキストデータとする工程と、
当該テキストデータを形態素解析し、形態素解析情報を出力する工程と、
前記テキストデータ、レイアウト情報及びフォントサイズ情報に基づいて、前記画像データの表示態様とWWWブラウザ上での表示態様とが同じになるようにWWWブラウザ上で表示可能なマークアップ言語情報を生成する工程と、
前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する工程と、
前記文字列の位置、文字列の大きさ及び前記形態素の出現頻度を評価項目の要素とし、前記評価項目の各要素が取り得る状態を条件部とし、当該条件部の条件において対象となる文字列がキーワードであるか否かの結果を後件部とする知識を用いて、前記対象文書中の任意の文字列の前記レイアウト情報、フォントサイズ情報及び当該文字列を構成する形態素の出現頻度情報を、前記生成したマークアップ言語情報から抽出し、当該文字列が前記条件部の条件を満たす場合に、当該文字列をキーワードであると推論する工程とを含む方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005128532A JP4787955B2 (ja) | 2005-04-26 | 2005-04-26 | 対象文書からキーワードを抽出する方法、システムおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005128532A JP4787955B2 (ja) | 2005-04-26 | 2005-04-26 | 対象文書からキーワードを抽出する方法、システムおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006309347A JP2006309347A (ja) | 2006-11-09 |
JP4787955B2 true JP4787955B2 (ja) | 2011-10-05 |
Family
ID=37476186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005128532A Active JP4787955B2 (ja) | 2005-04-26 | 2005-04-26 | 対象文書からキーワードを抽出する方法、システムおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4787955B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11481447B2 (en) * | 2019-09-20 | 2022-10-25 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011511366A (ja) * | 2008-02-01 | 2011-04-07 | ジ・オリバー・グループ・リミテッド・ライアビリティ・カンパニー | データの検索および索引付けの方法およびそれを実施するシステム |
JP6996190B2 (ja) * | 2017-09-26 | 2022-01-17 | 大日本印刷株式会社 | 複合語生成装置、プログラム及び複合語生成方法 |
CN109670183B (zh) * | 2018-12-21 | 2023-03-24 | 北京锐安科技有限公司 | 一种文本重要性的计算方法、装置、设备和存储介质 |
CN113111864A (zh) * | 2021-05-13 | 2021-07-13 | 上海巽联信息科技有限公司 | 基于多模态下的智能表格抽取算法 |
CN116501862B (zh) * | 2023-06-25 | 2023-09-12 | 桂林电子科技大学 | 一种基于动态分布式汇集的文本自动摘录系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3623998B2 (ja) * | 1995-01-27 | 2005-02-23 | キヤノン株式会社 | 画像処理方法および画像処理装置 |
JPH08166959A (ja) * | 1994-12-12 | 1996-06-25 | Canon Inc | 画像処理方法 |
US6442555B1 (en) * | 1999-10-26 | 2002-08-27 | Hewlett-Packard Company | Automatic categorization of documents using document signatures |
JP2003030220A (ja) * | 2001-07-13 | 2003-01-31 | Murata Mach Ltd | 構造化文書生成装置とそのプログラム |
JP2004206468A (ja) * | 2002-12-25 | 2004-07-22 | Ricoh Co Ltd | 文書管理システム及び文書管理プログラム |
-
2005
- 2005-04-26 JP JP2005128532A patent/JP4787955B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11481447B2 (en) * | 2019-09-20 | 2022-10-25 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
JP2006309347A (ja) | 2006-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11551567B2 (en) | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter | |
JP3856778B2 (ja) | 複数言語を対象とした文書分類装置及び文書分類方法 | |
US7698627B2 (en) | Method, program, and device for analyzing document structure | |
US8577887B2 (en) | Content grouping systems and methods | |
Al-Zaidy et al. | A machine learning approach for semantic structuring of scientific charts in scholarly documents | |
US20090144277A1 (en) | Electronic table of contents entry classification and labeling scheme | |
US20070255553A1 (en) | Information Extraction System | |
CN107590219A (zh) | 网页人物主题相关信息提取方法 | |
JP2007226792A (ja) | 目次抽出におけるロバスト性向上 | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
US20220375246A1 (en) | Document display assistance system, document display assistance method, and program for executing said method | |
Al-Zaidy et al. | Automatic summary generation for scientific data charts | |
JP4787955B2 (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
JP7281905B2 (ja) | 文書評価装置、文書評価方法及びプログラム | |
CN115017903A (zh) | 文档层次结构联合全局局部信息抽取关键短语方法及系统 | |
CN114239588A (zh) | 文章处理方法、装置、电子设备及介质 | |
Doush et al. | Detecting and recognizing tables in spreadsheets | |
KR102185733B1 (ko) | 프로필 자동생성서버 및 방법 | |
CN113673294A (zh) | 文献关键信息的提取方法、装置、计算机设备和存储介质 | |
WO2007070010A1 (en) | Improvements in electronic document analysis | |
JP2013016036A (ja) | 文書部品生成方法及び計算機システム | |
CN116822634A (zh) | 一种基于布局感知提示的文档视觉语言推理方法 | |
JP6621514B1 (ja) | 要約作成装置、要約作成方法、及びプログラム | |
JP2007279978A (ja) | 文書検索装置及び文書検索方法 | |
US11900060B2 (en) | Information processing device, information processing method, and computer program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100720 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110308 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110524 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110621 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |