JPH09190449A - 索引自動生成方法とその利用方法 - Google Patents

索引自動生成方法とその利用方法

Info

Publication number
JPH09190449A
JPH09190449A JP8003022A JP302296A JPH09190449A JP H09190449 A JPH09190449 A JP H09190449A JP 8003022 A JP8003022 A JP 8003022A JP 302296 A JP302296 A JP 302296A JP H09190449 A JPH09190449 A JP H09190449A
Authority
JP
Japan
Prior art keywords
word
index
file
phrase
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8003022A
Other languages
English (en)
Other versions
JP3254642B2 (ja
Inventor
Yoichi Yokoyama
陽一 横山
Yoshio Matsushita
美穂 松下
Yushi Otani
雄史 大谷
Noriaki Yokoyama
法明 横山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP00302296A priority Critical patent/JP3254642B2/ja
Priority to US08/778,096 priority patent/US5983171A/en
Priority to EP97300042A priority patent/EP0784280A3/en
Priority to EP02020636A priority patent/EP1271355A3/en
Publication of JPH09190449A publication Critical patent/JPH09190449A/ja
Application granted granted Critical
Publication of JP3254642B2 publication Critical patent/JP3254642B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 ユーザが設定した索引化抽出条件に基づいて
索引の見出しに用いる単語を選び出すことを可能とする
索引自動生成方法およびその利用方法を提供すること。 【解決手段】 電子化された文書ファイルを対象とする
索引の自動作成方法であって、字句解析プログラムによ
る語句の自動切り出しステップと、該ステップによる切
り出し時における語句の電子出版物上の位置を抽出する
ステップと、ユーザが入力する索引化抽出条件を受け付
けるステップとを有し、前記切り出された語句中の前記
索引化抽出条件に適合する語句を索引候補辞書へ単語登
録することを特徴とする索引自動生成方法、および、該
索引自動生成方法により生成された索引を指定して、前
記電子化された文書ファイル中の該当ページを出力させ
ることを特徴とする索引利用方法。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子化された出版
物,文書ファイル全般を対象とした索引自動作成方法お
よびその利用方法に関する。
【0002】
【従来の技術】従来の一般的な技術では、電子出版物の
文中にある各索引候補の語句を索引作成者が指定して、
索引候補辞書に登録する際に、索引場所を抽出し索引化
を行うか、または、辞書の単語について再検索を行い、
位置抽出によって索引化を行っていた。この種の索引作
成方法に関しては、例えば、特開昭62-154025号 公報に
開示された技術が知られている。この技術では、文書作
成時の「変換を行う時点」で、その単語に関する索引登録
指示を行っていた。また、特開昭61-75952号公報に開示
された技術では、文章の入力中に、文章中のキーワード
を自動的に抽出し、文章と関連づけてファイルへの格納
を行っている。この方法では、抽出したすべての語句を
文書に関連づけて、ファイルに格納している。
【0003】
【発明が解決しようとする課題】上記従来技術のうち、
前者では、索引登録指示は人間の操作により行われてい
たため、単語の登録数が多い場合には索引作成者の作業
量が膨大なものとなるという問題があった。また、後者
では、索引化候補となる語句が膨大な数となるため、実
際に索引化する語句を選択する作業量が大きくなってし
まうという欠点があった。すなわち、上記いずれの技術
においても、索引作成者の作業量が大きくなってしまう
という問題、および、キーワードの自動抽出は、文章の
入力時に限られてしまうという問題があった。また、従
来の技術では、電子化された文書ファイルへの索引付け
は行われていたが、これを用いる文書の出力方法、すな
わち、生成した索引の利用方法については配慮されてい
なかった。本発明は上記事情に鑑みてなされたもので、
その目的とするところは、従来の技術における上述の如
き問題を解消し、ユーザが設定した索引化抽出条件に基
づいて索引の見出しに用いる単語を選び出すことを可能
とする索引自動生成方法およびその利用方法を提供する
ことにある。
【0004】
【課題を解決するための手段】本発明の上記目的は、電
子化された文書ファイルを対象とする索引作成方法であ
って、字句解析プログラムによる語句の自動切り出しス
テップと、該ステップによる切り出し時における語句の
電子出版物上の位置を抽出するステップと、ユーザが入
力する索引化抽出条件を受け付けるステップとを有し、
前記切り出された語句中の前記索引化抽出条件に適合す
る語句を索引候補辞書へ単語登録することを特徴とする
索引自動生成方法、および、該索引自動生成方法により
生成された索引を指定して、前記電子化された文書ファ
イル中の該当ページを出力させることを特徴とする索引
利用方法によって達成される。
【0005】
【発明の実施の形態】本発明に係る索引自動生成方法に
おいては、初めに、既に存在している電子化ファイルに
ついてトークン化する。ここで、「トークン」とは、字句
解析,構文解析等により文中から切り出される語句を指
しており、「トークン化」とは、この手順を指している。
すなわち、上述のトークン化では、文章を読み込んで文
節毎に区切り、その文節を単語毎に分解することによ
り、単語の自動切り出しを行う。次に、その単語の中か
らユーザが設定した索引化抽出条件に基づいて索引の見
出しに用いる単語を選び出す。そして、この索引の見出
しに用いる単語中から、ユーザが指定・入力する索引化
抽出条件に基づいて索引化候補単語を選び出すことによ
って、抽出の際の作業量は、従来よりも少なくなる。こ
れにより、候補単語から索引となる単語を抽出する際、
迅速に作業を進めることができる。また、ユーザが索引
化抽出条件を指定することによって、個々のユーザの必
要性に応じた索引の作成が可能となる。更に、再度索引
を作成し直すことも容易に実現できる。本発明に係る索
引自動生成方法を複数文書を対象に適用することによ
り、広範囲にわたる索引を作成が可能となる。更に、既
存の索引を参照することにより、新出単語のみの索引あ
るいは新出単語を強調した索引作りが可能となり、ユー
ザは新たに加えられた語句を素早く検索することができ
る。以下、本発明の実施例を図面に基づいてより詳細に
説明する。
【0006】まず、本発明の実施例の概要を説明する。
図1および図2は、本発明の一実施例に係る索引自動作
成システムの全体構成を示すものである。両図に示す如
く、本発明に係る索引自動作成システムは、文書ファイ
ル1の内容を読み込んで語句を切り出してトークン化2
し、辞書3aと照合した後に索引化候補ファイル4に登
録する単語登録部10、および、ユーザが入力した索引
化抽出条件を設定し、その条件に基づいて選択した語句
を索引ファイル5に登録する索引作成部20、そして、
複数の索引ファイル5から表示条件に合わせて表示を行
う索引表示部30から構成される。すなわち、本実施例
に係る索引自動作成システムにおいては、単語登録部1
0により電子化された文書ファイル1から索引化候補フ
ァイル4を作成し、更に、索引作成部20により索引化
抽出条件に基づいて索引ファイル5を作成し、索引表示
部30により生成した表示出力する。
【0007】まず、電子化された文書ファイル1につい
て、単語登録部10において候補単語の登録を行う。電
子化された文書ファイル1は、語句の切り出し機能11
を持つ字句パーサ(解析機能)によって自動的に単語とし
て切り出され、トークン化される。ここで、抽出の際に
比較条件として必要となる文書別情報,語句別情報,位
置情報を単語毎に設定する。これをトークン化語句ファ
イル2に格納し、辞書3aと照合する。照合された語句
は、候補単語の登録機能12によってこれらの情報と共
に候補ファイル4へ格納される。次に、索引作成部20
では、まず、索引化抽出条件の設定機能21によってユ
ーザが入力した条件を設定する。そして、候補単語の抽
出機能22によってこの候補ファイル4内の語句を取り
出し、語句の各情報を設定条件と比較して、索引化する
単語を抽出する。抽出された単語およびその情報を索引
ファイル5へ登録する。
【0008】索引表示部30では、索引の表示機能31
において、まず、複数の索引ファイル5をマージし、マ
ージ済み索引ファイル6を作成する。それからユーザの
出力指定条件に合わせて索引出力リストを作り、索引の
表示・出力を行う。以下、本実施例に係る索引自動作成
システムを構成する各部分について、詳細に説明する。
まず、電子化されたファイル1から、語句切り出し用辞
書,翻訳用辞書等3bを用いて単語を切り出し、候補単
語の登録を行う単語登録部10の処理に関するフローチ
ャートを、図3に示す。初めに、文書ファイル1からフ
ァイルの内容を読み込む(ステップ111)。その内容を
字句パーサによってトークン化する(ステップ112)。
トークン化した語句が持つことのできる各情報のフォー
マットを、図7に示した。図7に示す如く、トークン化
した語句は、単語の読み方,文書別情報(複数項目可),
位置情報(複数項目可)および語句別情報等を単語毎に持
つことができる。
【0009】文書ファイル1は、図8に示す如きフォー
マットに従って、文書の登録時期,文書名あるいは文書
ID/文書ファイル名,文書の作者名,文書の発行者ま
たは発行社,文書の最終利用時期といった文書別情報を
持っている。そして、前述の単語の切り出しと同時に、
文書から文書別情報を取得し、図7に示したフォーマッ
トに従ってその内容をセットする(ステップ113)。な
お、このステップ113と上述のステップ112は、順
序を入れ替えてもよい。また、それぞれの語句に関し
て、電子化された文書ファイル1中での位置情報を抽出
する(ステップ114)。位置情報は、図7に示した如
く、語句が抽出された位置に関する情報であり、文書中
のページ,ページ中の行数および行の中で何番めの語で
あるかを示す語数から成る。そして、語句については、
どの国で使われている言語かを示す国別言語,単語を構
成する文字が漢字かな混じり,英数字,特殊文字および
それらの混合の内のどれであるかを示す文字種別、単語
の品詞といった語句別情報を字句パーサにおいて取得す
る(ステップ115)。このステップ115と上述のステ
ップ114の順序も、入れ替えてもよい。
【0010】そして、図7に示したトークン化語句のフ
ォーマットに従って、これらの情報を単語と共にトーク
ン化語句ファイル2に格納する(ステップ116)。文書
ファイル1内にまだ語句が残っているか否かを判断し
(ステップ117)、残っていれば、ステップ112〜1
16を繰り返し行う。次に、トークン化語句ファイル2
内の語句を取り出して(ステップ121)、語句と品詞を
キーとして、辞書3aとの照合を行う。辞書3aの単語
は、図9に示したフォーマットに従って、単語毎に単語
の読み方,単語の品詞を持っている。図7に示したトー
クン化語句の各情報のうち、語句名と品詞について、辞
書3a中のそれぞれの語句と比較する。この辞書3との
照合(ステップ122)により、語句の読み方を取得し
(ステップ123)、同一語句の出現回数のカウントを行
う(ステップ124)。そして、各情報と共に、図10の
フォーマットに従って候補ファイル4へ格納する(ステ
ップ125)。
【0011】図10に示した候補ファイルのフォーマッ
トは、図7に示したトークン化語句ファイルのフォーマ
ットと同じであり、格納されている単語毎に単語の読み
方,文書別情報,位置情報および語句別情報を持ってい
る。ここで、トークン化語句ファイル2のフォーマット
との相違点は、位置情報が1つの単語に対して複数の情
報を持つことが可能であるという点である。その後、ト
ークン化語句ファイル2内にまだ語句が残っている否か
かを判断し(ステップ126)、まだ語句が残っていれ
ば、ステップ121〜125の処理を繰り返し行う。な
お、文書ファイル1が複数ある場合には、同様にして各
々の文書ファイル1に対応した候補ファイル4を作成
し、次の索引作成部20においてマージして、1つの索
引ファイル5を作成する。
【0012】次に、候補ファイル4を用いて索引5を作
成する索引作成部20の処理に関するフローチャート
を、図4に示す。索引候補として抽出された語句を、索
引ファイル5に格納するか否かは、ユーザが指定する索
引化抽出条件によって決定する。ここで、指定された索
引化抽出条件(ステップ211)は、図11に示したフォ
ーマットに従って、索引作成部20に与えられる(ステ
ップ212)。なお、この索引化抽出条件は、ユーザが
直接入力する方式、または、予め用意した組み合わせの
中からユーザが選択する方式のいずれでもよい。索引化
抽出条件は、例えば、次の12種類とする。一例を挙げ
れば、条件(9)国別単語において、日本語を選択した場
合には、条件(9)は「言語が日本語である単語」となる。
また、条件(3)対象文書,条件(4)対象文書ID/ファ
イル名の指定は、複数文書あるいは複数ファイルの指定
も可能である。
【0013】(1) 単語(あ行の単語,頭文字がAであ
る単語,・・・・) (2) 登録期間別(指定年月日以降,指定年月日以前) (3) 対象文書名(文書1,文書2,・・・・) (4) 対象文書ID/ファイル名(ファイル1,ファイ
ル2,・・・・) (5) 作者別 (6) 部門別(専門分野毎) (7) 発行社・者別 (8) 最終利用時期(指定年月日以前・以降に利用した
もの) (9) 国別言語(日本語,英語,その他の言語) (10) 文字種別(英数字,漢字かな混じり,記号,混合) (11) 品詞(動詞,名詞,形容詞,・・・・) (12) 出現頻度(指定したしきい値の回数以上出現した
単語を可とする)
【0014】説明に戻る。次に、読み込むべき候補ファ
イル4がまだ残っているか否かを確認する(ステップ2
21)。まだ残っていたら、その候補ファイル4中にま
だ読み込んでいない語句があるか否かを確認する(ステ
ップ222)。残っていたら、語句の取得(ステップ22
3)を行う。ここで、候補ファイル4から抽出した語句
に関する項目の内容と、設定された索引化抽出条件の項
目内容とを比較して(ステップ224)、語句の選択を行
う。条件の比較は、索引化抽出条件の各項目のうち、ユ
ーザが指定した項目のみを比較対象とする。比較する条
件についてすべて一致した語句が、ここで索引に掲載す
る語句として選択され、図12に示したフォーマットに
従って、索引ファイル5に登録される(ステップ22
5)。一つでも条件が不一致となった語句は、索引ファ
イル5へ登録しない。
【0015】語句を登録するまたは登録しないことが決
定(ステップ225)したら、次の語句の有無の確認(ス
テップ222)からの手順を繰り返す。ここで、単語に
関する情報が指定される索引ファイル5は、図12に示
した如く、図7のトークン化語句ファイル2,図10の
候補ファイル4と同じフォーマットを持つ。これら前出
のフォーマットとの相違点は、索引対象とする文書を示
す文書別情報のうち、文書名あるいは文書ID/ファイ
ル名は複数指定できることである。語句の有無の確認
(ステップ222)において、候補ファイル4中に読み込
むべき語句がなくなったら、候補ファイル4の有無の確
認(ステップ221)へ戻り、以上の手順を繰り返す。な
お、候補ファイル4の有無の確認(ステップ221)にお
いて、読み込むべき候補ファイル4が既になければ、索
引ファイル5の作成が完了する。
【0016】次に、ユーザが指定した表示形式に従っ
て、索引ファイル5に登録された単語の一覧を各情報と
共に表示できる索引表示部30について、図5および図
6に示したフローチャートを用いて説明する。まず、索
引ファイル5の内容を表示する(ステップ311)。この
とき、語句に関する情報のうち、ユーザが訂正したい箇
所があるか否かを、ユーザに確認する(ステップ31
2)。訂正の必要があれば、訂正する(ステップ31
3)。次に、ユーザが指定する表示・出力したい索引フ
ァイルの名称またはIDを、図13に示したフォーマッ
トに従って設定する(ステップ314)。この出力指定に
おいて複数のファイルを指定した際には、それらのファ
イルの内容をマージする必要があるか否かについても設
定する。そして、このマージ指定の欄を参照して、既存
の索引ファイルをマージさせる必要性の有無を判断する
(ステップ315)。もし、マージさせる必要がある場合
は、その指定に従って各文書の索引ファイル5をマージ
し、新たなマージ済み索引ファイル6を作成する(ステ
ップ316)。
【0017】次に、ユーザが指定する表示条件を、図1
4に示したフォーマットに従って設定する(ステップ3
17)。表示条件によって指定できる出力形式は、図1
4に示す如く、表示項目,文書別表示形式,ソート順,
表示出力形式の4種類である。表示項目では、各単語が
持っている情報のうち、単語名と共に出力する項目を選
択する。表示項目は、複数指定可とする。文書別表示形
式とは、複数文書それぞれの単独文書索引、または、複
数文書の情報をマージさせて混在している文書混合索引
のどちらかを選択する。2つの文書から索引を作成する
際の出力として、図15に単独文書索引、図16に文書
混合索引の表示形式の一例を示した。ソート順では、登
録順にファイルに格納されている各情報をソートする際
のキーとなる項目を示す。
【0018】ここでは、登録順,文字コード順,文字種
別毎の読み方順,文字種別の区別なしの読み方順のいず
れかを選択する。表示出力形式とは、出力先をファイル
にするのか、ディスプレイ上に画面出力するのかを選択
する。指定された索引ファイル5あるいはマージ済み索
引ファイル6の内容をソートして出力リスト7を作成
し、ユーザの指定条件のとおりに出力・表示する(ステ
ップ318)。更に、索引語句指定による本文出力機能
32では、表示された索引語句を指定(同時複数指定も
可とする)し、これに該当する本文(文書ファイルの該当
ページ)を、出力表示する(ステップ319)。前述の如
く、従来は、対象文書の語句の中から索引化するための
語句を個々に指定していたため作業量が大きかったが、
上記実施例によれば、自動的に索引対象語句を条件付き
で抽出するために、索引作成の工数が大幅に低減すると
いう効果が得られる。なお、上記実施例は本発明の一例
を示したものであり、本発明はこれに限定されるべきも
のではないことは言うまでもないことである。
【0019】
【発明の効果】以上、詳細に説明した如く、本発明によ
れば、ユーザが設定した索引化抽出条件に基づいて索引
の見出しに用いる単語を選び出すことを可能とする索引
自動生成方法および該索引自動生成方法により生成され
た索引の効果的な利用方法を実現できるという顕著な効
果を奏するものである。より具体的には、従来の索引が
文書,出版物の作成側により作成されていたのに対し
て、本発明では、ユーザ側が個々の利用目的に合わせ
て、見たい単語だけを容易に索引化することが可能とな
る。ユーザは、今まで、文書毎にばらばらな索引を引き
ながら複数文書を取り扱ってきたが、本発明によって、
複数ファイルを自由に組み合わせて、独自の索引を作成
・利用することが可能になる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る索引自動作成システム
の構成の概略を示すブロック図(その1)である。
【図2】本発明の一実施例に係る索引自動作成システム
の構成の概略を示すブロック図(その2)である。
【図3】実施例に係る単語登録部に関するフローチャー
トである。
【図4】実施例に係る索引作成部に関するフローチャー
トである。
【図5】実施例に係る索引表示部に関するフローチャー
ト(その1)である。
【図6】実施例に係る索引表示部に関するフローチャー
ト(その2)である。
【図7】実施例に係るトークン化語句ファイルのフォー
マット例を示す図である。
【図8】実施例に係る文書ファイルのフォーマット例を
示す図である。
【図9】実施例に係る辞書のフォーマット例を示す図で
ある。
【図10】実施例に係る候補ファイルのフォーマット例
を示す図である。
【図11】実施例に係る索引化抽出条件のフォーマット
例を示す図である。
【図12】実施例に係る索引ファイルのフォーマット例
を示す図である。
【図13】実施例に係る出力指定のフォーマット例を示
す図である。
【図14】実施例に係る表示形式のフォーマット例を示
す図である。
【図15】実施例に係る単独文書索引の表示形式例を示
す図である。
【図16】実施例に係る文書混合索引の表示形式例を示
す図である。
【符号の説明】
1 電子化されたファイル 2 トークン化された語句ファイル 3a,3b 辞書 4 索引化候補ファイル 5 索引ファイル 6 マージ済みファイル 7 出力用索引リスト 10 単語登録部 11 文書ファイル1からの語句の切り出し機能 12 候補単語の登録機能 20 索引作成部 21 索引化抽出条件の設定機能 22 候補単語の抽出機能 30 索引表示部 31 索引の表示機能 32 索引語句指定による本文出力機能
───────────────────────────────────────────────────── フロントページの続き (72)発明者 横山 法明 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 電子化された文書ファイルを対象とする
    索引の自動作成方法であって、字句解析プログラムによ
    る語句の自動切り出しステップと、該ステップによる切
    り出し時における語句の電子出版物上の位置を抽出する
    ステップと、ユーザが入力する索引化抽出条件を受け付
    けるステップとを有し、前記切り出された語句中の前記
    索引化抽出条件に適合する語句を索引候補辞書へ単語登
    録することを特徴とする索引自動生成方法。
  2. 【請求項2】 前記索引化抽出条件には、少なくとも、
    語句の読み方,出現頻度を含むことを特徴とする請求項
    1記載の索引自動生成方法。
  3. 【請求項3】 複数文書を対象とし、同一語句について
    は、前記複数文書中の該当するすべての位置を抽出する
    ことを特徴とする請求項1または2記載の索引自動生成
    方法。
  4. 【請求項4】 請求項1から3のいずれかに記載の索引
    自動生成方法により生成された索引を指定して、前記電
    子化された文書ファイル中の該当ページを出力させるこ
    とを特徴とする索引利用方法。
JP00302296A 1996-01-11 1996-01-11 索引の表示方法 Expired - Fee Related JP3254642B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP00302296A JP3254642B2 (ja) 1996-01-11 1996-01-11 索引の表示方法
US08/778,096 US5983171A (en) 1996-01-11 1997-01-02 Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program
EP97300042A EP0784280A3 (en) 1996-01-11 1997-01-07 Auto-index method
EP02020636A EP1271355A3 (en) 1996-01-11 1997-01-07 Auto-index method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00302296A JP3254642B2 (ja) 1996-01-11 1996-01-11 索引の表示方法

Publications (2)

Publication Number Publication Date
JPH09190449A true JPH09190449A (ja) 1997-07-22
JP3254642B2 JP3254642B2 (ja) 2002-02-12

Family

ID=11545712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00302296A Expired - Fee Related JP3254642B2 (ja) 1996-01-11 1996-01-11 索引の表示方法

Country Status (3)

Country Link
US (1) US5983171A (ja)
EP (2) EP0784280A3 (ja)
JP (1) JP3254642B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224263A (ja) * 1998-02-09 1999-08-17 Fuji Xerox Co Ltd キーワード検索装置及びキーワード検索プログラムを記録したコンピュータ読み取り可能な記録媒体
KR20030001261A (ko) * 2001-06-26 2003-01-06 소니 가부시끼 가이샤 정보처리장치, 정보처리방법, 기록매체, 프로그램과전자출판 데이터제공 시스템
JP2009544088A (ja) * 2006-07-19 2009-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション パーソナライズされた検索インデックス付けのための方法
US7860316B2 (en) 2005-11-18 2010-12-28 Samsung Electronics Co., Ltd. Image forming apparatus that automatically creates an index and a method thereof
JP2014038616A (ja) * 2012-08-15 2014-02-27 Hon Hai Precision Industry Co Ltd 大量データのインデックス構築システム及びその構築方法

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5822720A (en) 1994-02-16 1998-10-13 Sentius Corporation System amd method for linking streams of multimedia data for reference material for display
JP3143079B2 (ja) 1997-05-30 2001-03-07 松下電器産業株式会社 辞書索引作成装置と文書検索装置
US6092074A (en) 1998-02-10 2000-07-18 Connect Innovations, Inc. Dynamic insertion and updating of hypertext links for internet servers
JP3696731B2 (ja) 1998-04-30 2005-09-21 株式会社日立製作所 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US7770123B1 (en) * 1998-05-08 2010-08-03 Apple Inc. Method for dynamically generating a “table of contents” view of a HTML-based information system
GB2338089A (en) * 1998-06-02 1999-12-08 Sharp Kk Indexing method
US6466901B1 (en) * 1998-11-30 2002-10-15 Apple Computer, Inc. Multi-language document search and retrieval system
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US6473729B1 (en) * 1999-12-20 2002-10-29 Xerox Corporation Word phrase translation using a phrase index
US8205237B2 (en) 2000-09-14 2012-06-19 Cox Ingemar J Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet
US6708161B2 (en) * 2000-09-26 2004-03-16 I2 Technologies Us, Inc. System and method for selective database indexing
US7130861B2 (en) 2001-08-16 2006-10-31 Sentius International Corporation Automated creation and delivery of database content
US6678699B2 (en) 2001-10-09 2004-01-13 International Business Machines Corporation Visual indexing of displayable digital documents
US20030105622A1 (en) * 2001-12-03 2003-06-05 Netbytel, Inc. Retrieval of records using phrase chunking
NZ518744A (en) * 2002-05-03 2004-08-27 Hyperbolex Ltd Electronic document indexing using word use nodes, node objects and link objects
US7024408B2 (en) 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
US7016895B2 (en) 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
US7003516B2 (en) * 2002-07-03 2006-02-21 Word Data Corp. Text representation and method
US20040006547A1 (en) * 2002-07-03 2004-01-08 Dehlinger Peter J. Text-processing database
US7386442B2 (en) * 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
US20040006459A1 (en) * 2002-07-05 2004-01-08 Dehlinger Peter J. Text-searching system and method
US7181451B2 (en) * 2002-07-03 2007-02-20 Word Data Corp. Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library
US20040054520A1 (en) * 2002-07-05 2004-03-18 Dehlinger Peter J. Text-searching code, system and method
US8255417B2 (en) * 2003-05-20 2012-08-28 Google Inc. System and method for providing definitions
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US20060041484A1 (en) 2004-04-01 2006-02-23 King Martin T Methods and systems for initiating application processes by data capture from rendered documents
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8799303B2 (en) 2004-02-15 2014-08-05 Google Inc. Establishing an interactive environment for rendered documents
US20080313172A1 (en) 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US8793162B2 (en) 2004-04-01 2014-07-29 Google Inc. Adding information or functionality to a rendered document via association with an electronic counterpart
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20060098900A1 (en) * 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US8621349B2 (en) 2004-04-01 2013-12-31 Google Inc. Publishing techniques for adding value to a rendered document
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20070300142A1 (en) 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US9460346B2 (en) 2004-04-19 2016-10-04 Google Inc. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US20050289182A1 (en) * 2004-06-15 2005-12-29 Sand Hill Systems Inc. Document management system with enhanced intelligent document recognition capabilities
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US8805803B2 (en) * 2004-08-12 2014-08-12 Hewlett-Packard Development Company, L.P. Index extraction from documents
US20060036649A1 (en) * 2004-08-12 2006-02-16 Simske Steven J Index extraction from documents
US20060047656A1 (en) * 2004-09-01 2006-03-02 Dehlinger Peter J Code, system, and method for retrieving text material from a library of documents
US20110029504A1 (en) * 2004-12-03 2011-02-03 King Martin T Searching and accessing documents on private networks for use with captures from rendered documents
US20060212415A1 (en) * 2005-03-01 2006-09-21 Alejandro Backer Query-less searching
US8051045B2 (en) * 2005-08-31 2011-11-01 Sap Ag Archive indexing engine
US20110096174A1 (en) * 2006-02-28 2011-04-28 King Martin T Accessing resources based on capturing information from a rendered document
CN101512518B (zh) * 2006-09-07 2015-06-24 日本电气株式会社 自然语言处理系统和词典登录系统
EP2067119A2 (en) 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US20090132406A1 (en) * 2007-11-21 2009-05-21 Paperless Office Solutions, Inc. D/B/A Docvelocity System and method for paperless loan applications
DE202010018601U1 (de) * 2009-02-18 2018-04-30 Google LLC (n.d.Ges.d. Staates Delaware) Automatisches Erfassen von Informationen, wie etwa Erfassen von Informationen unter Verwendung einer dokumentenerkennenden Vorrichtung
US8990235B2 (en) 2009-03-12 2015-03-24 Google Inc. Automatically providing content associated with captured information, such as information captured in real-time
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
TW201211798A (en) * 2010-09-13 2012-03-16 jun-da Li Establishment method and use method of dictionary index
US10339173B2 (en) * 2010-09-27 2019-07-02 Adobe Inc. Content aggregation
US9824091B2 (en) 2010-12-03 2017-11-21 Microsoft Technology Licensing, Llc File system backup using change journal
US8620894B2 (en) 2010-12-21 2013-12-31 Microsoft Corporation Searching files
US20120284276A1 (en) * 2011-05-02 2012-11-08 Barry Fernando Access to Annotated Digital File Via a Network
US20130024459A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Combining Full-Text Search and Queryable Fields in the Same Data Structure
US9218411B2 (en) * 2012-08-07 2015-12-22 International Business Machines Corporation Incremental dynamic document index generation
US9588971B2 (en) * 2014-02-03 2017-03-07 Bluebeam Software, Inc. Generating unique document page identifiers from content within a selected page region
AU2017218166B2 (en) 2016-02-12 2022-01-20 Bluebeam, Inc. Method of computerized presentation of a document set view for auditing information and managing sets of multiple documents and pages
US20180089241A1 (en) * 2016-09-29 2018-03-29 Intel Corporation Context enhanced indexing
US11151108B2 (en) * 2016-11-21 2021-10-19 International Business Machines Corporation Indexing and archiving multiple statements using a single statement dictionary
CN106649597B (zh) * 2016-11-22 2019-10-01 浙江大学 一种基于图书内容的图书书后索引自动构建方法
US11144579B2 (en) * 2019-02-11 2021-10-12 International Business Machines Corporation Use of machine learning to characterize reference relationship applied over a citation graph
JP7126971B2 (ja) 2019-03-13 2022-08-29 日産合成工業株式会社 バイパスペレット飼料の製造方法及びバイパスペレット飼料
JP7376307B2 (ja) 2019-10-08 2023-11-08 アズビル株式会社 不調判定装置および方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01265361A (ja) * 1988-04-17 1989-10-23 Akihiro Fujimura 文字選択システム及び辞典検索システム
JPH01304574A (ja) * 1988-06-02 1989-12-08 Nippon Telegr & Teleph Corp <Ntt> 目次索引作成装置
JPH025175A (ja) * 1988-06-24 1990-01-10 Canon Inc 文字処理装置
JPH0251766A (ja) * 1988-08-15 1990-02-21 Fujitsu Ltd 索引項目自動抽出方式
JPH0259861A (ja) * 1988-08-25 1990-02-28 Nec Corp 索引付文書作成・保管・検索装置
JPH02165379A (ja) * 1988-12-20 1990-06-26 Matsushita Electric Ind Co Ltd 文書処理装置
JPH03102565A (ja) * 1989-09-18 1991-04-26 Toshiba Corp 文書作成装置
JPH07262207A (ja) * 1994-03-25 1995-10-13 Kengo Konishi イメージデータファイリング方法,イメージデータ登録方法,イメージデータ検索方法及びその装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6175952A (ja) * 1984-09-21 1986-04-18 Nec Corp 文書入力処理方式
JPS62154025A (ja) * 1985-12-26 1987-07-09 Casio Comput Co Ltd ワ−ドプロセツサにおける索引語登録装置
JPS6370372A (ja) * 1986-09-12 1988-03-30 Canon Inc 文書処理装置
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
US5201048A (en) * 1988-12-01 1993-04-06 Axxess Technologies, Inc. High speed computer system for search and retrieval of data within text and record oriented files
EP0380239A3 (en) * 1989-01-18 1992-04-15 Lotus Development Corporation Search and retrieval system
US5276616A (en) * 1989-10-16 1994-01-04 Sharp Kabushiki Kaisha Apparatus for automatically generating index
JPH03132872A (ja) * 1989-10-19 1991-06-06 Nippon Telegr & Teleph Corp <Ntt> 索引情報生成装置
JP3691844B2 (ja) * 1990-05-21 2005-09-07 株式会社東芝 文書処理方法
JPH06348695A (ja) * 1993-06-07 1994-12-22 Nec Corp ワードプロセッサ索引生成方式
JP3220885B2 (ja) * 1993-06-18 2001-10-22 株式会社日立製作所 キーワード付与システム
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
US5752051A (en) * 1994-07-19 1998-05-12 The United States Of America As Represented By The Secretary Of Nsa Language-independent method of generating index terms

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01265361A (ja) * 1988-04-17 1989-10-23 Akihiro Fujimura 文字選択システム及び辞典検索システム
JPH01304574A (ja) * 1988-06-02 1989-12-08 Nippon Telegr & Teleph Corp <Ntt> 目次索引作成装置
JPH025175A (ja) * 1988-06-24 1990-01-10 Canon Inc 文字処理装置
JPH0251766A (ja) * 1988-08-15 1990-02-21 Fujitsu Ltd 索引項目自動抽出方式
JPH0259861A (ja) * 1988-08-25 1990-02-28 Nec Corp 索引付文書作成・保管・検索装置
JPH02165379A (ja) * 1988-12-20 1990-06-26 Matsushita Electric Ind Co Ltd 文書処理装置
JPH03102565A (ja) * 1989-09-18 1991-04-26 Toshiba Corp 文書作成装置
JPH07262207A (ja) * 1994-03-25 1995-10-13 Kengo Konishi イメージデータファイリング方法,イメージデータ登録方法,イメージデータ検索方法及びその装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224263A (ja) * 1998-02-09 1999-08-17 Fuji Xerox Co Ltd キーワード検索装置及びキーワード検索プログラムを記録したコンピュータ読み取り可能な記録媒体
KR20030001261A (ko) * 2001-06-26 2003-01-06 소니 가부시끼 가이샤 정보처리장치, 정보처리방법, 기록매체, 프로그램과전자출판 데이터제공 시스템
US7860316B2 (en) 2005-11-18 2010-12-28 Samsung Electronics Co., Ltd. Image forming apparatus that automatically creates an index and a method thereof
US8369623B2 (en) 2005-11-18 2013-02-05 Samsung Electronics Co., Ltd. Image forming apparatus that automatically creates an index and a method thereof
JP2009544088A (ja) * 2006-07-19 2009-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション パーソナライズされた検索インデックス付けのための方法
JP2014038616A (ja) * 2012-08-15 2014-02-27 Hon Hai Precision Industry Co Ltd 大量データのインデックス構築システム及びその構築方法

Also Published As

Publication number Publication date
EP1271355A2 (en) 2003-01-02
US5983171A (en) 1999-11-09
EP0784280A2 (en) 1997-07-16
EP0784280A3 (en) 1998-09-02
EP1271355A3 (en) 2004-08-25
JP3254642B2 (ja) 2002-02-12

Similar Documents

Publication Publication Date Title
JPH09190449A (ja) 索引自動生成方法とその利用方法
EP0645720B1 (en) Dictionary creation supporting system
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH07325827A (ja) ハイパーテキスト自動生成装置
JPH05158401A (ja) 文書速読支援表示方式並びに文書処理装置及び文書検索装置
JP3230606B2 (ja) 固有名詞特定方法
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JPH03105465A (ja) 複合語抽出装置
Chan Concordancers and concordances: Tools for Chinese language teaching and research
JPH1011431A (ja) 漢字検索装置および方法
JPS61248160A (ja) 文書情報登録方式
JP3136973B2 (ja) 言語解析システムおよび方法
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH0612453A (ja) 未知語抽出登録装置
JPH08329059A (ja) 汎用参照装置
Myskiv et al. Peculiarities of medical slang translation into Ukrainian: corpus-based approach (on the material of Adam Kay's book" This is Going to Hurt: Secret Diaries of a Junior Doctor")
JPH03271962A (ja) 複合語抽出装置
JP3233283B2 (ja) 日本文文章解析装置
Cowie CRL’s Approach to MET
JPH10340262A (ja) ドキュメント作成支援装置
JPH02110771A (ja) 電訳機
JPH0830627A (ja) キーワード抽出方式
JPH04282764A (ja) 非文訳出装置
JPH03105667A (ja) 索引ページデータ自動作成処理方式

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071130

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081130

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081130

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091130

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees