JP4861078B2 - 索引作成プログラム、索引作成装置および索引作成方法 - Google Patents

索引作成プログラム、索引作成装置および索引作成方法 Download PDF

Info

Publication number
JP4861078B2
JP4861078B2 JP2006182251A JP2006182251A JP4861078B2 JP 4861078 B2 JP4861078 B2 JP 4861078B2 JP 2006182251 A JP2006182251 A JP 2006182251A JP 2006182251 A JP2006182251 A JP 2006182251A JP 4861078 B2 JP4861078 B2 JP 4861078B2
Authority
JP
Japan
Prior art keywords
index
electronic document
information
item
creation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006182251A
Other languages
English (en)
Other versions
JP2008009918A (ja
Inventor
友哉 岩倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006182251A priority Critical patent/JP4861078B2/ja
Priority to US11/589,403 priority patent/US20080005151A1/en
Publication of JP2008009918A publication Critical patent/JP2008009918A/ja
Application granted granted Critical
Publication of JP4861078B2 publication Critical patent/JP4861078B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists

Description

この発明は、索引作成プログラム、索引作成装置および索引作成方法に関する。
従来より、複数の文書からなる文書集合を効果的に閲覧する技術が考案されている。例えば、特許文献1では、電子化された文書集合において、当該文書集合の全ての文書における全ての文字の出現位置を登録した全文インデクスと、同様に全ての文書における地名、数量および年代に関する文字の出現位置を登録した特徴インデクスを作成し、ユーザから検索語(全文インデクスによって検索する文字列)、検索特徴の種類(地名、数量または年代)および範囲(例えば検索特徴の種類「地名」に対する範囲は、東京などになる)を受け付け、範囲内で検索語に関連する特徴を表す文字列を含むテキストを検索結果として表示することによって、ユーザが文書に含まれる情報そのものを直接に検索可能となる技術が開示されている。つまり、例を挙げれば、検索語が「一揆」、特徴が「地名」、範囲が「日本」の場合には、日本の地名で一揆に関連する地名「真壁郡」を含むテキスト「真壁郡一揆の激発により、政府は・・・」を表示する。
また、特許文献2では、検索対象文書集合上の文字列の出現位置を記録する全文検索インデクスと、検索対象文書集合から抽出した名詞句と当該名詞句に含まれる単語とを対応付けて記憶する名詞句インデクスとを作成し、ユーザから検索語を受け付けると、全文検索インデクスによって検索語を含む文書の存在を検索結果として表示するともに、当該検索結果をさらに絞込むための名詞句を名詞句インデクスから抽出し、それらを表示することによって、ユーザが大量の検索結果の中から所望の文書を探し出すことの支援をする技術が開示されている。つまり、例を挙げれば、「リサイクル」という検索語を受け付けると、「リサイクル」を含む文書を全文検索インデクスより検索し、その文書の存在を検索結果として表示するとともに、名詞句インデクスから「リサイクル」を含む「アルミ缶のリサイクル」や「リサイクル・ネット」などの名詞句を抽出し、検索結果の文書をさらに絞り込むための検索語として当該名詞句を表示する。
これらの技術は、文書内に記述されている情報を得るために、文書集合の内容に対し焦点を絞っていく技術であり、文書そのものに何が書かれているかを大まかに把握することはできなかった。そこで、文書に何が書かれているかを大まかに把握するものとして、目次や索引が挙げられる。ここで、索引とは、「ある書物に載っている人名・用語などを項目として書き出して五十音順などに並べ、その所在ページを示した表」であり、従来、その索引を自動で作成する技術として、索引とする文字列をあらかじめ受け付けることにより、文書の作成時に索引を自動生成するものや、人名事典・用語事典などをデータベースとして保持しておき、事典の項目が文書内に記述されている場合には、それらを索引項目として索引を自動作成するものがあった。
特許3445800号公報 特開2002−342373号公報
ところで、上記した従来の索引を自動作成する技術は、索引を作成するだけで(索引項目およびその所在ページを表示するだけで)、索引項目の電子文書内出現位置への移動インターフェースがなく、索引項目の該当箇所をユーザに対して早急に参照させることができないという問題点があった。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、索引項目の該当箇所をユーザに対して早急に把握させることが可能となる索引作成プログラム、索引作成装置および索引作成方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、発明は、電子文書から索引を作成する方法をコンピュータに実行させる索引作成プログラムであって、前記電子文書から当該電子文書の索引となる索引項目を当該索引項目の出現位置情報とともに抽出する索引項目抽出手順と、前記索引項目抽出手順によって抽出された索引項目について前記電子文書における出現位置をリンク先とするリンク先情報を前記出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された索引項目を並べてなる索引リストを作成する索引リスト作成手順と、をコンピュータに実行させることを特徴とする。
また、発明は、上記の発明において、前記索引項目抽出手順によって抽出された索引項目を所定の基準に従って並べ替える索引項目並替手順をさらにコンピュータに実行させ、前記索引リスト作成手順は、前記索引項目並替手順によって索引項目が並べ替えられた索引リストを作成することを特徴とする。
また、発明は、上記の発明において、前記索引項目抽出手順は、複数の用語が規定された電子辞書を参照して、当該電子辞書に規定された用語を前記電子文書から前記索引項目として抽出することを特徴とする。
また、発明は、上記の発明において、前記索引項目抽出手順は、前記電子文書における固有表現を属性ごとにスコア付けして取り出した後に、当該スコアが最大となる属性に対応付けて前記固有表現を前記索引項目として抽出することを特徴とする。
また、発明は、上記の発明において、前記スコア付けにおける属性ごとの重み付けを受け付ける重み受付手順をさらにコンピュータに実行させ、前記索引項目抽出手順は、前記重み受付手順によって受け付けた重み付けに基づいて、前記電子文書における固有表現を属性ごとにスコア付けすることを特徴とする。
また、発明は、上記の発明において、前記索引項目並替手順は、前記電子文書における各索引項目の出現頻度、検索利用頻度、五十音読み、属性のいずれか一つまたは複数に従って、前記索引項目抽出手順によって抽出された索引項目を並び替えることを特徴とする。
また、発明は、上記の発明において、前記索引項目抽出手順は、前記電子文書内の音声ファイルおよび/または画像ファイルを前記索引項目として抽出し、前記索引リスト作成手順は、前記索引項目抽出手順によって抽出された音声ファイルおよび/または画像ファイルについて前記電子文書における出現位置をリンク先とするリンク先情報を前記出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された音声ファイルおよび/または画像ファイルを並べてなる索引リストを作成することを特徴とする。
また、発明は、上記の発明において、前記索引項目並替手順は、前記電子文書における音声ファイルおよび/または画像ファイルの属性に従って、前記索引項目抽出手順によって抽出された索引項目を並び替えることを特徴とする。
また、発明は、電子文書から索引を作成する索引作成装置であって、前記電子文書から当該電子文書の索引となる索引項目を当該索引項目の出現位置情報とともに抽出する索引項目抽出手段と、前記索引項目抽出手順によって抽出された索引項目について前記電子文書における出現位置をリンク先とするリンク先情報を前記出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された索引項目を並べてなる索引リストを作成する索引リスト作成手段と、を備えたことを特徴とする。
また、発明は、電子文書から索引を作成する索引作成方法であって、前記電子文書から当該電子文書の索引となる索引項目を当該索引項目の出現位置情報とともに抽出する索引項目抽出工程と、前記索引項目抽出手順によって抽出された索引項目について前記電子文書における出現位置をリンク先とするリンク先情報を前記出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された索引項目を並べてなる索引リストを作成する索引リスト作成工程と、を含んだことを特徴とする。
発明によれば、電子文書から索引を作成する方法をコンピュータに実行させる索引作成プログラムであって、電子文書から当該電子文書の索引となる索引項目を当該索引項目の出現位置情報とともに抽出し、索引項目について電子文書における出現位置をリンク先とするリンク先情報を出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された索引項目を並べてなる索引リストを作成するので、例えば、表示部に表示された索引リストにおいて所定の索引項目に併記されているリンク先情報がクリックされれば、電子文書において所定の索引項目が出現している箇所を直ちに表示部に表示する結果、索引項目の該当箇所をユーザに対して早急に把握させることが可能となる。
また、発明によれば、抽出された索引項目を所定の基準に従って並べ替え、索引項目が並べ替えられた索引リストを作成するので、秩序ある項目建ての索引リストが表示される結果、電子文書の内容をユーザに対して効果的に把握させることが可能となる。
また、発明によれば、複数の用語が規定された電子辞書を参照して、当該電子辞書に規定された用語を電子文書から索引項目として抽出するので、電子辞書に則した信頼性がある用語が列挙された索引リストを作成することが可能となる。
また、発明によれば、電子文書における固有表現を属性ごとにスコア付けして取り出した後に、当該スコアが最大となる属性に対応付けて固有表現を索引項目として抽出するので、電子辞書に左右されることなく、固有表現抽出に基づいた柔軟な用語が列挙された索引リストを生成することが可能となる。
また、発明によれば、スコア付けにおける属性ごとの重み付けを受け付け、当該重み付けに基づいて、電子文書における固有表現を属性ごとにスコア付けするので、いずれの属性(例えば、人名や場所など)に重みを置くかを自由に設定し、例えば、人名を主に置いた索引リストを作成したり、場所を主に置いた索引リストを作成するなどできる結果、柔軟に索引リストを作成することが可能となる。
また、発明によれば、電子文書における各索引項目の出現頻度、検索利用頻度、五十音読み、属性のいずれか一つまたは複数に従って索引項目を並び替えるので、秩序ある項目建ての索引リストが表示される結果、文書の内容をユーザに対して効果的に把握させることが可能となる。
また、発明によれば、電子文書内の音声ファイルおよび/または画像ファイルを索引項目として抽出し、音声ファイルおよび/または画像ファイルについて電子文書における出現位置をリンク先とするリンク先情報を出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された音声ファイルおよび/または画像ファイルを並べてなる索引リストを作成するので、文字情報に限らず、音声ファイルや画像ファイルなどのマルチメディアも索引項目として抽出することが可能となる。
また、発明によれば、電子文書における音声ファイルおよび/または画像ファイルの属性に従って、索引項目を並び替えるので、索引リストの索引項目である音声ファイルや画像ファイルが、属性(例えば、画像か音声かの種別、ファイルの拡張子など)に従って秩序ある項目建てで表示することが可能となる。
以下に添付図面を参照して、この発明に係る索引作成装置、索引作成方法および索引作成プログラムの実施例を詳細に説明する。なお、以下では、実施例1に係る索引作成装置の概要および特徴、実施例1に係る索引作成装置の構成、実施例1に係る索引作成制御処理の流れ、実施例1に係る画面の出力例、実施例1の効果を順に説明し、次に、実施例1と同様に、実施例2に係る索引作成装置、実施例3に係る索引作成装置について順に説明し、最後に他の実施例を説明する。
[実施例1に係る索引作成装置の概要および特徴]
まず最初に、図1および図2を用いて、実施例1に係る索引作成装置の概要および特徴を説明する。図1および図2は、実施例1に係る索引作成装置の概要および特徴を説明するための図である。
この索引作成装置は、例えば、ウェブの検索結果が一覧で記載された電子文書から索引を作成し、当該索引を表示部に表示するものであり、索引項目の電子文書における該当箇所をユーザに対して早急に把握させる点に主たる特徴がある。
この主たる特徴について簡単に説明すると、索引作成装置は、複数の用語が規定された電子辞書(例えば、複数の組織名を記憶する組織名事典など)を参照して、電子文書から索引となる索引項目を当該索引項目の出現位置情報(例えば、電子文書の文頭からのバイト数など)とともに抽出する。
具体的に例を挙げれば、図1に示すように、索引作成装置は、組織名事典を参照することで、電子文書1から索引となる索引項目2「経済産業省」や「日経文庫」を、出現位置情報3「40バイト」や「80バイト」とともに抽出する。
そして、索引作成装置は、抽出した索引項目について電子文書における出現位置をリンク先とするリンク先情報を出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された索引項目を並べてなる索引リストを作成する。
具体的に例を挙げれば、図1に示すように、索引作成装置は、電子文書1における索引項目2「経済産業省」の出現位置をリンク先とするリンク先情報6「499(下線付)」を、例えば、ウェブの検索結果の一覧において項目ごとにふられた段落番号である「499」に出現位置情報3「40バイト」を埋め込むことによって生成し、当該リンク先情報6「499(下線付)」を索引項目5「経済産業省」の右隣に配置した索引リスト4を作成する。
さらに、例を挙げれば、索引作成装置は、HTMLで記述された電子文書1に対し、同様にHTMLで記述して索引リスト4を作成する場合には、出現位置情報3の「40バイト」に基づいて、電子文書1のテキスト文頭から40バイトの位置にリンク先であることを示すタグ<a name="xxx">を埋め込むとともに、索引リスト4のテキスト内にリンク元となるタグ<a href="xxx">を埋め込み、かかるタグに「499」を入れ込むことによって電子文書にリンク先情報6「499(下線付)」が表示される索引リスト4を作成する。xxxはそれぞれの出現位置情報に割り振られるユニークな識別子である。
そして、索引作成装置は、作成した索引リストを表示部に表示し、リンク先情報に対して所定の操作を受け付けた場合には、電子文書において所定の索引項目が出現している箇所を直ちに表示部に表示する。
具体的には、図2に示すように、索引作成装置は、索引リスト4および電子文書1の一部7を画面8に表示し、例えば、索引項目5「経済産業省」に付与されたリンク先情報6「499(下線付)」に対してマウスポインタ9の位置でマウスによるクリック操作を受け付けた場合には、電子文書1において索引項目2「経済産業省」が出現している箇所を表示する。
このようなことから、実施例1に係る索引作成装置は、上記した主たる特徴の通り、索引項目の電子文書における該当箇所をユーザに対して早急に把握させることが可能となる。
[実施例1に係る索引作成装置の構成]
次に、図3を用いて、図1および図2に示した索引作成装置10の構成を説明する。図3は、索引作成装置10の構成を示すブロック図である。同図に示すように、この索引作成装置10は、入力部20と、出力部30と、入出力制御IF部40と、記憶部50と、制御部60とから構成される。
このうち、入力部20は、各種の情報の入力を受付ける入力手段であり、キーボードやマウスなどを備えて構成され、例えば、マウスのクリック操作などで、索引リスト上のリンク先情報から電子文書の該当箇所へのアクセスを受け付ける。なお、後述する出力部30のディスプレイも、マウスと協働してポインティングディバイス機能を実現する。
出力部30は、各種の情報を出力する出力手段であり、ディスプレイを備えて構成され、例えば、電子文書や索引リストなどを表示出力する(図9のA参照)。また、例えば、出力部30は、索引リストのリンク先情報に対してマウスのクリック操作が受け付けられた場合には、電子文書のリンク先の該当箇所を表示出力する(図9のB参照)。
入出力制御IF部40は、これら入力部20および出力部30と、後述する記憶部50および制御部60との間におけるデータ転送を制御する手段である。
記憶部50は、制御部60による各種処理に必要なデータおよびプログラムを記憶する記憶手段であり、特に本発明に密接に関連するものとしては、各種アプリケーション61に利用される各種データ51の他に、索引作成記憶部52を備え、さらにこの索引作成記憶部52は、後述する索引作成制御部62による各種処理に必要なデータを記憶する記憶手段であり、電子文書記憶部52aと、事典記憶部52bと、索引情報記憶部52cと、ソート済索引情報記憶部52dと、索引リスト記憶部52eとを備える。
このうち、電子文書記憶部52aは、電子文書を記憶する記憶手段であり、具体的には、後述する電子文書受付部62aが出力した電子文書を受け取り記憶する。電子文書記憶部52aが記憶する電子文書は、例えば、HTML文書などである。
事典記憶部52bは、複数の用語が規定された電子辞書を記憶する記憶手段であり、具体的には人名を記憶する人名事典53と、地名を記憶する地名事典54と、組織名を記憶するする組織名事典55とを備える。例えば、事典記憶部52bの組織名事典55は、「経済産業省」や「日経文庫」などの組織名を記憶する。
索引情報記憶部52cは、索引リストの作成に必要な索引情報(索引項目や索引項目の出現位置情報など)を記憶する記憶手段であり、具体的には、後述する索引情報抽出部62bから出力される索引項目と、当該索引項目の電子文書内の出現位置情報(電子文書の文頭からのバイト数など)を受け取ると、それぞれを対応付けて記憶する。なお、実施例1では、索引情報抽出部62bは、索引項目の出力に際して事典の属性情報を索引項目に付加させる。例えば、索引情報記憶部52cは、図4に示すように、事典の属性情報が付加された索引項目「経済産業省(組織名事典)」に対応付けて、出現位置情報「27」を記憶する。なお、図4は、索引情報記憶部が記憶する情報の例を示す図である。
ソート済索引情報記憶部52dは、索引情報記憶部52cと同様に索引情報を記憶する記憶手段であり、具体的には、後述する索引情報ソート部62cが索引情報記憶部52cに格納された索引情報を並び替えた結果の索引情報を、同じく索引情報ソート部62cから受け取り記憶する。なお、後述するリンク付索引リスト作成部62dは、ソート済索引情報記憶部52dに格納された索引情報を順に読み込むことにより秩序ある項目建ての索引リストを作成することができる。
索引リスト記憶部52eは、索引リストのデータを記憶する記憶手段であり、具体的には、後述するリンク付索引リスト作成部62dから出力された索引リストのデータを受け取って記憶する。なお、索引リストのデータとは、テキスト情報はもちろん、リンク先情報や表示部に表示される際のレイアウト情報などである。
制御部60は、OS(Operating System)などの制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する処理部であり、特に本発明に密接に関連するものとしては、各種アプリケーション61と、索引作成制御部62とを備える。
このうち、各種アプリケーション61は、それぞれの仕事や利用目的のために実行される応用ソフトウェアである。具体的に例を挙げれば、各種アプリケーション61は、Webブラウザソフトであって、例えば、ウェブの検索結果が一覧で記載された電子文書であるHTML文書などを電子文書受付部62aに出力する。
索引作成制御部62は、図3に示すように、電子文書受付部62aと、索引情報抽出部62bと、索引情報ソート部62cと、リンク付索引リスト作成部62dと、索引リスト付電子文書表示制御部62eとを備える。なお、索引情報抽出部62bは、特許請求の範囲に記載の「索引項目抽出手順」に対応し、索引情報ソート部62cは、同じく「索引項目並替手順」に対応し、リンク付索引リスト作成部62dは、同じく「索引リスト作成手順」に対応する。
このうち、電子文書受付部62aは、電子文書を受け付ける手段であり、具体的には、各種アプリケーション61から出力された電子文書を受け取ると、電子文書記憶部52aに格納するとともに、索引情報の抽出を指示する制御信号を索引情報抽出部62bに出力する。
索引情報抽出部62bは、電子文書から索引となる索引項目を当該索引項目の出現位置情報とともに抽出する手段であり、具体的には、電子文書受付部62aから制御信号を受け取ると、電子文書記憶部52aから電子文書を読み込み、事典記憶部52bを参照しつつ、人名事典53、地名事典54、組織名事典55に規定された用語である索引項目および当該索引項目の出現位置情報を電子文書より抽出し、索引情報記憶部52cに格納するとともに、索引情報の並べ替えを指示する制御信号を索引情報ソート部62cに出力する。なお、索引情報抽出部62bが索引項目に各事典の属性情報を付与して索引情報記憶部52cに格納することにより、後述する索引情報ソート部62cは、索引項目に対して事典の種類による並び替えを実現する。
かかる索引情報抽出部62bによる処理を具体的に例を挙げて説明すると、図5に示すように、索引情報抽出部62bは、電子文書1を読み込み、形態素解析等を利用して切り出した索引項目「経済産業省」に対し(図5の(1)参照)、事典記憶部52bの各事典を参照し、組織名事典に「経済産業省」が記載されている場合には(図5の(2)参照)、当該索引項目「経済産業省」を電子文書1より抽出し、索引情報記憶部52cに組織名事典の属性情報を付与した索引項目「経済産業省」および出現位置情報「40バイト」を格納する(図5の(3)参照)。なお、図5は、索引情報抽出部62bを説明するための図である。
索引情報ソート部62cは、索引情報記憶部52cが記憶する索引情報を所定の基準で並び替える手段であり、具体的には、索引情報抽出部62bから制御信号を受け取ると、索引情報記憶部52cから索引情報を読み込み、各索引項目に付与された事典の属性情報によって索引項目を事典の種類ごとに並び替え、その順番でソート済索引情報記憶部52dに格納するとともに、索引リストの作成を指示する制御信号をリンク付索引リスト作成部62dに出力する。なお、索引項目に対応付けられた出現位置情報についても索引項目の並び替えに応じて同様に並び替え、元の対応付けのままソート済索引情報記憶部52dに格納する。
かかる索引情報ソート部62cによる処理を具体的に例を挙げて説明すると、図6に示すように、索引情報ソート部62cは、索引情報抽出部62bが索引情報記憶部52cに格納した順で並ぶ各索引情報を、組織名事典から抽出した索引情報、人名事典から抽出した索引情報、地名事典から抽出した索引情報ごとに並び替えてソート済索引情報記憶部52dに格納する。なお、図6は、索引情報ソート部62cを説明するための図である。他のソートの所定の基準として、索引の読み情報、索引の出現頻度順、索引の文字の長さ順、索引の文字コード順などを利用して索引をソートすることもできる。
リンク付索引リスト作成部62dは、抽出された索引項目について電子文書における出現位置をリンク先とするリンク先情報を出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された索引項目を並べてなる索引リストを作成する手段であり、具体的には、索引情報ソート部62cから制御信号を受け取ると、ソート済索引情報記憶部52dに格納された索引情報を次々に読み込み、索引項目によって索引リストの索引項目を生成し、出現位置情報によって電子文書記憶部52aに格納された電子文書へのリンク先情報を生成し、索引項目に付与された事典の属性情報によって索引リストの索引項目の仕切りを生成してなる索引リストを作成し、当該索引リストのデータを索引リスト記憶部52eに格納するとともに、索引リストおよび電子文書の出力表示を指示する制御信号を索引リスト付電子文書表示制御部62eに出力する。
かかるリンク付索引リスト作成部62dによる処理を具体的に例を挙げて説明すると、図7に示すように、ソート済索引情報記憶部52dに格納された索引項目が「経済産業省」である索引情報を読み込むと、索引項目「経済産業省」によって索引リスト4の索引項目を作成し、出現位置情報によって電子文書内の「経済産業省」が記述されている箇所を検索するとともに、段落番号「12」を電子文書記憶部52aから読み込み、当該段落番号「12」に出現位置情報を埋め込むことでリンク先情報「12(下線付)」を作成し、「経済産業省」の右隣に付与する。なお、図7は、リンク付索引リストの作成を説明するための図である。
索引リスト付電子文書表示制御部62eは、表示部に索引リストおよび電子文書を表示する手段であり、具体的には、リンク付索引リスト作成部62dの制御信号を受け取ると、電子文書記憶部52aから電子文書を読み込むとともに、索引リスト記憶部52eから索引リストのデータを読み込み、電子文書および索引リストを出力部30に出力することによって電子文書および索引リストを画面に表示する(図9参照)。
なお、この索引作成装置10は、既知のパーソナルコンピュータ、ワークステーション、携帯電話、PHS端末、移動体通信端末またはPDAなどの情報処理装置に、上記した電子文書受付部62a、索引情報抽出部62b、索引情報ソート部62c、リンク付索引リスト作成部62dおよび索引リスト付電子文書表示制御部62eの各機能を搭載することによって実現することもできる。
[実施例1に係る索引作成制御処理]
次に、図8を用いて、索引作成装置10の索引作成制御部62による処理を説明する。図8は、実施例1における索引作成装置10の索引作成制御部62の処理の流れを示すフローチャートである。
図8に示すように、索引作成制御部62は、電子文書受付部62aが各種アプリケーション61から電子文書を受け付けると(ステップS801肯定)、電子文書記憶部52aに当該電子文書を格納する(ステップS802)。
そして、索引作成制御部62は、索引情報抽出部62bによって電子文書記憶部52aに格納された電子文書から索引情報を抽出し(ステップS803)、索引情報記憶部52cに当該索引情報を格納する(ステップS804)。
そして、索引作成制御部62は、索引情報ソート部62cによって索引情報記憶部52cに格納された索引情報を所定の基準で並べ替えつつ、ソート済索引情報記憶部52dに索引情報を格納する(ステップS805)。
そして、索引作成制御部62は、リンク付索引リスト作成部62dによってソート済索引情報記憶部52dに格納された索引情報を次々に読み込むとともに、電子文書記憶部52aに格納された電子文書へのリンク先情報を生成した索引リストを作成し(ステップS806)、当該索引リストのデータを索引リスト記憶部52eに格納する(ステップS807)。
最後に、索引作成制御部62は、索引リスト付電子文書表示制御部62eによって電子文書記憶部52aから電子文書を読み込むとともに、索引リスト記憶部52eから索引リストのデータを読み込むと、電子文書および索引リストを出力部30に出力してディスプレイに電子文書および索引リストを表示し(ステップS808)、処理を終了する。
[実施例1に係る画面の出力例]
最後に、図9を用いて、この索引作成装置10が表示するディスプレイの具体例を説明する。なお、図9は、出力部50の画面の例を示す図である。
索引作成装置10は、ユーザによって、例えば、HTML文書を読み込むブラウザソフトが実行され、検索サイトなどで検索を行った結果、膨大な検索結果が返ってきた場合には、当該検索結果のHTML文書に対して索引リストを作成し、図9のAに示すように、検索結果の電子文書とともに、索引リストをディスプレイに表示する。
そして、索引作成装置10は、ユーザによって、例えば、リンク先情報「499(下線付)」に対しマウスのクリック操作を受け付けると、図9のBに示すように、リンク先である電子文書の該当箇所を表示する。
[実施例1の効果]
上記したように、実施例1によれば、検索結果が一覧で記載されたHTML文書から当該HTML文書の索引となる索引項目を文頭からのバイト数とともに抽出し、抽出された索引項目についてHTML文書における出現位置をリンク先とするリンク先情報を文頭からのバイト数から生成して各索引項目に付与し、当該リンク先情報が付与された索引項目を並べてなる索引リストを作成するので、例えば、ディスプレイに表示された索引リストにおいて所定の索引項目に併記されているリンク先情報がクリックされれば、HTML文書において所定の索引項目が出現している箇所を直ちにディスプレイに表示する結果、索引項目の該当箇所をユーザに対して早急に把握させることが可能となる。
また、実施例1によれば、抽出された索引項目を事典に従って並べ替え、索引項目が並べ替えられた索引リストを作成するので、秩序ある項目建ての索引リストが表示される結果、HTML文書の内容をユーザに対して効果的に把握させることが可能となる。
また、実施例1によれば、事典を参照して、当該事典に規定された用語をHTML文書から索引項目として抽出するので、事典に則した信頼性がある用語が列挙された索引リストを作成することが可能となる。
上述した実施例1では、事典を参照して事典に規定された用語を電子文書から索引項目として抽出する手法を説明したが、実施例2では、事典を参照せずに固有表現抽出技術を利用して索引項目を抽出する手法について説明する。
[実施例2に係る情報処理装置の構成]
図10は、実施例2における索引作成装置70の構成を示すブロック図である。同図に示すように、索引作成装置70は、実施例1と同様、入力部80と、出力部90と、入出力制御IF部100と、記憶部110と、制御部120とから構成される。また、記憶部110は、各種データ111と、索引作成記憶部112とから構成され、索引作成記憶部112は、電子文書記憶部112aと、スコア記憶部112bと、索引情報記憶部112cと、ソート済索引情報記憶部112dと、索引リスト記憶部112eを備える。さらに、制御部120は、各種アプリケーション121と、索引作成制御部122とから構成され、索引作成制御部122は、電子文書受付部122aと、索引情報抽出部122bと、索引情報ソート部122cと、リンク付索引リスト作成部122dと、索引リスト付電子文書表示制御部122eとを備える。
なお、入力部80と、出力部90と、入出力制御IF部100と、記憶部110と、各種データ111と、索引作成記憶部112と、電子文書記憶部112aと、索引情報記憶部112cと、ソート済索引情報記憶部112dと、索引リスト記憶部112eと、制御部120と、各種アプリケーション121と、索引作成制御部122と、電子文書受付部122aとについては実施例1と同一の動作をするのでここでは説明を省略し、以下では、スコア記憶部112bと、索引情報抽出部122bとについて説明する。また、索引作成制御部122の基本的な処理は、図8を用いて説明したものと同様であるのでここでは説明を省略する。
スコア記憶部112bは、索引項目に対して固有表現の属性ごとに付けられたスコアを記憶する記憶手段であり、具体的には、後述する索引情報抽出部122bが切り出した索引項目と、当該索引項目に対して固有表現の属性(人名や地名など)ごとに付けられたスコアとを索引情報抽出部122bから受け取り、それらを対応付けて記憶する。ここで、スコアとは、固有表現の属性の可能性を示す尺度であり、スコアが高ければ高いほどその固有表現の属性である可能性が高いことを表し、文脈やパターン照合などによって判定される。例えば、「〜さん」などの接尾辞を含む索引項目は、固有表現の属性の一つである「人名」の可能性が高いので「人名」のスコアが高く付けられる。
例えば、図11に示すように、スコア記憶部112bは、索引項目「宮崎」に対し、人名のスコア「20」、地名のスコア「10」、その他のスコア「10」などと記憶する。なお、図11は、スコア記憶部112bが記憶する情報の例を示す図である。
索引情報抽出部122bは、電子文書における索引項目を固有表現の属性ごとにスコア付けして取り出した後に、当該スコアが最大となる固有表現の属性に対応付けて索引項目を抽出する手段であり、具体的には、電子文書受付部122aから索引情報の抽出を指示する制御信号を受け取ると、電子文書記憶部112aから電子文書を読み込み、形態素解析等を利用して文頭から索引項目を切り出し、各索引項目に対して文脈やパターン照合などに基づいて固有表現の属性ごとにスコア付けし、索引項目と、固有表現の属性ごとのスコアを対応付けて一時的にスコア記憶部112bに格納する。そして、索引情報抽出部122bは、電子文書から索引項目を抽出する際に、各索引項目に対してスコアが最大となる固有表現の属性情報を付与して索引項目を抽出するとともに、出現位置情報も抽出し、索引情報記憶部112cに格納する。
かかる索引情報抽出部122bによる処理を具体的に例を挙げて説明すると、図12に示すように、索引情報抽出部122bは、例えば、電子文書の「宮崎と福岡に行く」というテキストに対し、形態素解析を行うことで、5個の単語「宮崎」、「と」、「福岡」、「に」および「行く」に分解し、各単語を索引項目として切り出す(図12のA参照)。
そして、索引情報抽出部122bは、文脈やパターン照合に基づいて、例えば、索引項目「宮崎」に対して、人名らしさとして20点を付け、地名らしさとして10点を付け、その他として10点を付ける(図12のB参照)。
そして、索引情報抽出部122bは、索引項目「宮崎」の1番点数の高い固有表現の属性が人名であることを判定し(図12のBにおける表の網かけセル)、電子文書から索引項目「宮崎」を抽出する際に、固有表現の属性情報「人名」を付与して抽出するとともに、出現位置情報「30」も抽出し、索引情報記憶部112cに格納する(図12のC参照)。なお、図12は、索引情報抽出部122bを説明するための図である。
なお、索引情報抽出部122bが索引項目に付与する固有表現の属性情報は、人名、地名のほかに、組織名、固有物名、日付表現、時間表現、金額表現、割合表現などがあり、索引情報ソート部122cは、これら索引項目に付与された固有表現の属性情報に基づいて索引情報を並び替える。また、「その他」の固有表現の属性情報が付与された索引項目については、「その他」の固有表現の属性情報が付与された索引項目として抽出してもよいし、当該索引項目を除いて抽出してもよい。
索引情報ソート部122cは、索引情報記憶部112cが記憶する索引情報を所定の基準で並び替える手段であり、具体的には、実施例1と異なり、索引情報抽出部122bが索引項目に付与した固有表現の属性情報に基づいて索引情報を並び替え、ソート済索引情報記憶部112dに記憶する。つまり、上記した例でいえば、人名や地名などの固有表現の属性情報に基づいて索引情報を並び替え、ソート済索引情報記憶部112dに記憶する。
リンク付索引リスト作成部122dは、リンク先情報が付与された索引項目を並べてなる索引リストを作成する手段であり、具体的には、実施例1と異なり、索引項目に付与された固有表現の属性情報によって索引リストの仕切りを生成する。つまり、上記した例でいえば、「人名」や「地名」などで仕切りを設けた索引リストを作成する。
索引リスト付電子文書表示制御部122eは、表示部に索引リストおよび電子文書を表示する手段であり、具体的には、実施例1と異なり、リンク付索引リスト作成部122dが索引項目に付与された固有表現の属性情報によって生成した仕切りのある索引リストを表示する。例えば、図13は、実施例2に係る出力部の画面の例を示す図であるが、同図に示すように、索引リスト4には、固有表現の属性情報よって生成された仕切りが表示される。
[実施例2の効果]
上記したように、実施例2によれば、電子文書における索引項目を固有表現の属性ごとにスコア付けして取り出した後に、当該スコアが最大となる固有表現の属性情報を付与して索引項目を抽出するので、事典に左右されることなく、固有表現抽出に基づいた柔軟な用語が列挙された索引リストを生成することが可能となる。
また、実施例2によれば、電子文書における各索引項目の固有表現の属性(例えば、人名や地名など)に従って索引項目を並び替えるので、秩序ある項目建ての索引リストが表示される結果、文書の内容をユーザに対して効果的に把握させることが可能となる。
上述した実施例2では、固有表現の属性ごとに付けられたスコアをそのまま利用する手法について説明したが、実施例3では、所定の条件に基づいてスコアを変更することによって索引項目に付与される固有表現の属性情報を変化させる手法について説明する。
[実施例3に係る情報処理装置の構成]
図14は、実施例3における索引作成装置130の構成を示すブロック図である。同図に示すように、索引作成装置130は、実施例2と同様、入力部140と、出力部150と、入出力制御IF部160と、記憶部170と、制御部180とから構成される。また、記憶部170は、各種データ171と、索引作成記憶部172とから構成され、索引作成記憶部172は、電子文書記憶部172aと、条件記憶部172bと、スコア記憶部172cと、索引情報記憶部172dと、ソート済索引情報記憶部172eと、索引リスト記憶部172fを備える。さらに、制御部180は、各種アプリケーション181と、索引作成制御部182とから構成され、索引作成制御部182は、電子文書受付部182aと、条件受付部182bと、索引情報抽出部182cと、索引情報ソート部182dと、リンク付索引リスト作成部182eと、索引リスト付電子文書表示制御部182fとを備える。
なお、入力部140と、出力部150と、入出力制御IF部160と、記憶部170と、各種データ171と、索引作成記憶部172と、電子文書記憶部172aと、スコア記憶部172cと、索引情報記憶部172dと、ソート済索引情報記憶部172eと、索引リスト記憶部172fと、制御部180と、各種アプリケーション181と、索引作成制御部182と、電子文書受付部182aと、索引情報ソート部182dと、リンク付索引リスト作成部182eと、索引リスト付電子文書表示制御部182fについては実施例2と同一の動作をするのでここでは説明を省略し、以下では、条件記憶部172bと、条件受付部182bと、索引情報抽出部182cとについて説明する。また、索引作成制御部の基本的な処理は、図8を用いて説明したものと同様であるのでここでは説明を省略する。
条件記憶部172bは、固有表現の属性ごとのスコアにおける重み付けの条件を記憶する記憶手段であり、具体的には、後述する条件受付部182bから出力される重み付けにかかる情報を受け取り記憶する。例えば、条件記憶部172bは、人名の点数を2倍、地名の点数を5倍などの条件を記憶する。
条件受付部182bは、固有表現の属性ごとのスコアにおける重み付けの条件を受け付ける手段であり、具体的には、ユーザから任意の時期に入力部140が受け付けた重み付けにかかる情報(例えば、「人名の点数を2倍、地名の点数を5倍」などの)を受け取り、当該情報を条件記憶部172bに格納する。
例えば、図15は、実施例3に係る出力部の画面の例を示す図であるが、同図に示すように、条件受付部182bは、ウィンドウ183によって、ユーザから各固有表現の属性について、重み付けにかかる情報を受け付ける。
索引情報抽出部182cは、条件受付部182bが受け付けた重み付けの条件に基づいて、電子文書における索引項目を固有表現の属性ごとにスコア付けする手段である。
具体的には、実施例2と同様に、電子文書受付部182aから索引情報の抽出を指示する制御信号を受け取ると、電子文書記憶部172aから電子文書を読み込み、形態素解析等を利用して文頭から索引項目を切り出し、各索引項目に対して文脈やパターン照合などに基づいて固有表現の属性ごとにスコア付けし、索引項目と、固有表現の属性ごとのスコアとを対応付けて一時的にスコア記憶部172cに格納する。
そして、索引情報抽出部182cは、実施例2と異なり、条件記憶部172bから重み付けにかかる情報を読み込み、かかる情報に基づいてスコア記憶部172cのスコアを変更する。
そして、索引情報抽出部182cは、実施例2と同様に、電子文書から索引項目を抽出する際に、各索引項目に対してスコアが最大となる固有表現の属性情報を付与して索引項目を抽出するとともに、出現位置情報も抽出し、索引情報記憶部172dに格納する。
かかる索引情報抽出部182cによる処理を具体的に例を挙げて説明すると、図16に示すように、重み付け前のスコアでは、索引項目「宮崎」は人名のスコアが最大であったが、「人名の点数を2倍、地名の点数を5倍」の重み付け条件によって、地名のスコアが最大となる。その結果、索引情報抽出部182cは、索引項目「宮崎」に対して、重み付けがない場合の結果と異なり、地名の固有表現の属性情報を付与して索引項目を抽出することになる。なお、図16は、重み付けによる固有表現の属性の変化を説明するための図である。
[実施例3の効果]
上記したように、実施例3によれば、スコア付けにおける固有表現の属性ごとの重み付け条件を受け付け、当該重み付け条件に基づいて、電子文書における索引項目を固有表現の属性ごとにスコア付けするので、いずれの固有表現の属性(例えば、人名や場所など)に重みを置くかを自由に設定し、例えば、人名を主に置いた索引リストを作成したり、場所を主に置いた索引リストを作成するなどできる結果、柔軟に索引リストを作成することが可能となる。
ところで、これまで実施例1〜3に係る索引作成装置について説明したが、本発明は上記した実施例以外にも種々の異なる形態にて実施されてよいものである。そこで、以下では、実施例4に係る索引作成装置として、異なる実施例を(1)〜(4)に区分けして説明する。
(1)並び替え
上記の実施例1〜3では、索引作成装置の索引情報ソート部は、索引項目に付与された属性によって索引情報の並び替えを行う場合を説明したが、本発明はこれに限定されるものではなく、図17に例示するように、索引項目の読み仮名によって索引情報を五十音順に並び替えてもよい(この場合には、「経済産業省」は、「け」の項目に並び替えられる)。なお、図17は、索引項目の並べ方の例を示す図である。
また、電子文書における索引項目の出現頻度順に並び替えを行ってもよいし、ウェブの検索結果に係る電子文書に対して、検索サイトのログから得られる検索語としての利用頻度順に並び替えてもよい。さらに、これら並び替えの基準を組み合わせてもよく、例えば、属性ごとに並び替えを行い、かつ、五十音順に並び替えを行ってもよい。
このように、電子文書における各索引項目の出現頻度、検索利用頻度、五十音読み、属性のいずれか一つまたは複数に従って、抽出された索引項目を並び替えるので、秩序ある項目建ての索引リストが表示される結果、文書の内容をユーザに対して効果的に把握させることが可能となる。
(2)電子文書
上記の実施例1では、電子文書としてHTML文書のウェブの検索結果を挙げたが、本発明はこれに限定されるものではなく、例えば、一般のWebページや電子書籍など、いかなる電子文書でもよい。
(3)索引項目
上記の実施例1〜3では、索引作成装置の索引情報抽出部は、索引項目としてテキスト情報を抽出する場合を説明したが、本発明はこれに限定されるものではなく、画像ファイルや音声ファイルなどを索引項目として抽出するようにしてもよい。この場合には、索引作成装置は、図18や図19に例示するように、画像ファイルの場合には、サムネイルを表示したり、音声ファイルの場合には、音声ファイルを示す拡張子を表示したりして、それらを索引リストの索引項目として並べる。なお、これらのファイルについても、ファイルの種類ごとに並び替えを行ってもよい。また、図18や図19に示すように、索引作成装置は、他の実施例と同様に、各索引項目に付与されたリンク先情報に対しマウスのクリック操作を受け付けると、電子文書における当該索引項目が出現する箇所を表示する。なお、図18および図19は、出力部の画面の例を示す図である。
このように、電子文書内の音声ファイルおよび/または画像ファイルを索引項目として抽出し、音声ファイルおよび/または画像ファイルについて電子文書における出現位置をリンク先とするリンク先情報を出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された音声ファイルおよび/または画像ファイルを並べてなる索引リストを作成するので、文字情報に限らず、音声ファイルや画像ファイルなどのマルチメディアも索引項目として抽出することが可能となる。
また、電子文書における音声ファイルおよび/または画像ファイルの属性に従って、索引項目を並び替えるので、索引リストの索引項目である音声ファイルや画像ファイルが、属性(例えば、画像か音声かの種別、ファイルの拡張子、ファイルのサイズなど)に従って秩序ある項目建てで表示することが可能となる。
(4)システム構成等
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報(例えば、図2や図9に示した画面の例)については、特記する場合を除いて任意に変更することができる。
また、図示した各装置(索引作成装置10、索引作成装置70および索引作成装置130)の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、例えば、索引情報抽出部62bと索引情報ソート部62cとを統合する、または、リンク付索引リスト作成部62dと索引リスト付電子文書表示制御部62eとを統合するなど、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
(5)索引作成プログラム
ところで、上記の実施例1〜4では、ハードウェアロジックによって各種の処理を実現する場合を説明したが、本発明はこれに限定されるものではなく、あらかじめ用意されたプログラムをコンピュータで実行することによって実現するようにしてもよい。そこで、以下では、図20を用いて、上記の実施例1に示した索引作成装置10と同様の機能を有する索引作成プログラムを実行するコンピュータの一例を説明する。図20は、索引作成プログラムを実行するコンピュータを示す図である。
同図に示すように、索引作成装置としてのコンピュータ190は、マウス191、キーボード192、ディスプレイ193、CPU194、ROM195、HDD196およびRAM197をバス198などで接続して構成される。
ROM195には、上記の実施例1に示した索引作成装置10と同様の機能を発揮する索引作成プログラム、つまり、図20に示すように、各種アプリケーションプログラム195a、電子文書受付プログラム195b、索引情報抽出プログラム195c、索引情報ソートプログラム195d、リンク付索引リスト作成プログラム195e、索引リスト付電子文書表示制御プログラム195f、が予め記憶されている。なお、これらのプログラム195a〜195fについては、図3に示した索引作成装置10の各構成要素と同様、適宜統合または分散してもよい。
そして、CPU194が、これらのプログラム195a〜195fをROM195から読み出して実行することで、図20に示すように、各プログラム195a〜195fは、各種アプリケーションプロセス194a、電子文書受付プロセス194b、索引情報抽出プロセス194c、索引情報ソートプロセス194d、リンク付索引リスト作成プロセス194e、索引リスト付電子文書表示制御プロセス194fとして機能するようになる。なお、各プロセス194a〜194fは、図3に示した各種アプリケーション61、電子文書受付部62a、索引情報抽出部62b、索引情報ソート部62c、リンク付索引リスト作成部62d、索引リスト付電子文書表示制御部62eにそれぞれ対応する。
また、HDD196には、図20に示すように、各種テーブル196aと、索引作成テーブル196bと、電子文書テーブル196cと、事典テーブル196dと、索引情報テーブル196eと、ソート済索引情報テーブル196fと、索引リストテーブル196gとが設けられる。なお、各種テーブル196a、索引作成テーブル196b、電子文書テーブル196c、事典テーブル196d、索引情報テーブル196e、ソート済索引情報テーブル196fおよび索引リストテーブル196gは、図3に示した各種データ51、索引作成記憶部52、電子文書記憶部52a、事典記憶部52b、索引情報記憶部52c、ソート済索引情報記憶部52dおよび索引リスト記憶部52eにそれぞれ対応する。そして、CPU194は、各種テーブル196a、索引作成テーブル196b、電子文書テーブル196c、事典テーブル196d、索引情報テーブル196e、ソート済索引情報テーブル196fおよび索引リストテーブル196gから各種データ197a、索引作成データ197b、電子文書データ197c、事典データ197d、索引情報データ197e、ソート済索引情報データ197fおよび索引リストデータ197gを読み出してRAM197に格納し、RAM197に格納された各種データ197a、索引作成データ197b、電子文書データ197c、事典データ197d、索引情報データ197e、ソート済索引情報データ197fおよび索引リストデータ197gに基づいて索引リストの作成や、索引リストの表示などを実行する。
なお、上記した各プログラム195a〜195fについては、必ずしも最初からROM195に記憶させておく必要はなく、例えば、コンピュータ190に挿入されるフレキシブルディスク(FD)、CD−ROM、MOディスク、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、または、コンピュータ190の内外に備えられるHDDなどの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ190に接続される「他のコンピュータ(またはサーバ)」などに各プログラムを記憶させておき、コンピュータ190がこれらから各プログラムを読み出して実行するようにしてもよい。
以上のように、本発明に係る索引作成プログラム、索引作成装置および索引作成方法は、電子文書から索引を作成することに有用であり、特に、電子文書の索引リストについて、索引項目の該当箇所をユーザに対して早急に把握させることに適する。
索引作成装置の概要および特徴を説明する図である。 索引作成装置の概要および特徴を説明する図である。 索引作成装置の構成を示すブロック図である。 索引情報記憶部が記憶する情報の例を示す図である。 索引情報抽出部を説明するための図である。 索引情報ソート部を説明するための図である。 リンク付索引リストの作成を説明するための図である。 索引作成制御部の処理の流れを示すフローチャートである。 実施例1に係る出力部の画面の例を示す図である。 索引作成装置の構成を示すブロック図である。 スコア記憶部が記憶する情報の例を示す図である。 索引情報抽出部を説明するための図である。 実施例2に係る出力部の画面の例を示す図である。 索引作成装置の構成を示すブロック図である。 実施例3に係る出力部の画面の例を示す図である。 重み付けによる固有表現の属性の変化を説明するための図である。 索引項目の並べ方の例を示す図である。 実施例4に係る出力部の画面の例を示す図である。 実施例4に係る出力部の画面の例を示す図である。 索引作成プログラムを実行するコンピュータを示す図である。
符号の説明
1 電子文書
2 索引項目
3 出現位置情報
4 索引リスト
5 索引項目
6 リンク先情報
7 電子文書1の一部
8 画面
9 マウスポインタ
10 索引作成装置
20 入力部
30 出力部
40 入出力制御IF部
50 記憶部
51 各種データ
52 索引作成記憶部
52a 電子文書記憶部
52b 事典記憶部
52c 索引情報記憶部
52d ソート済索引情報記憶部
52e 索引リスト記憶部
53 人名事典
54 地名事典
55 組織名事典
60 制御部
61 各種アプリケーション
62 索引作成制御部
62a 電子文書受付部
62b 索引情報抽出部
62c 索引情報ソート部
62d リンク付索引リスト作成部
62e 索引リスト付電子文書表示制御部

Claims (11)

  1. 電子文書から索引を作成する方法をコンピュータに実行させる索引作成プログラムであって、
    前記電子文書における固有表現を属性ごとにスコア付けして取り出した後に、前記電子文書の索引となる索引項目として、前記スコアが最大となる属性に対応付けて前記固有表現を当該固有表現の出現位置情報とともに抽出する索引項目抽出手順と、
    前記索引項目抽出手順によって抽出された索引項目について前記電子文書における出現位置をリンク先とするリンク先情報を前記出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された索引項目を並べてなる索引リストを作成する索引リスト作成手順と、
    をコンピュータに実行させることを特徴とする索引作成プログラム。
  2. 前記索引項目抽出手順によって抽出された索引項目を所定の基準に従って並べ替える索引項目並替手順をさらにコンピュータに実行させ、
    前記索引リスト作成手順は、前記索引項目並替手順によって索引項目が並べ替えられた索引リストを作成することを特徴とする請求項1に記載の索引作成プログラム。
  3. 前記索引項目抽出手順は、複数の用語が規定された電子辞書を参照して、当該電子辞書に規定された用語を前記電子文書から前記索引項目として抽出することを特徴とする請求項1または2に記載の索引作成プログラム。
  4. 前記スコア付けにおける属性ごとの重み付けを受け付ける重み受付手順をさらにコンピュータに実行させ、
    前記索引項目抽出手順は、前記重み受付手順によって受け付けた重み付けに基づいて、前記電子文書における固有表現を属性ごとにスコア付けすることを特徴とする請求項1に記載の索引作成プログラム。
  5. 前記索引項目並替手順は、前記電子文書における各索引項目の出現頻度、検索利用頻度、五十音読み、属性のいずれか一つまたは複数に従って、前記索引項目抽出手順によって抽出された索引項目を並び替えることを特徴とする請求項1〜4のいずれか一つに記載の索引作成プログラム。
  6. 前記索引項目抽出手順は、前記電子文書内の音声ファイルおよび/または画像ファイルを前記索引項目として抽出し、
    前記索引リスト作成手順は、前記索引項目抽出手順によって抽出された音声ファイルおよび/または画像ファイルについて前記電子文書における出現位置をリンク先とするリンク先情報を前記出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された音声ファイルおよび/または画像ファイルを並べてなる索引リストを作成することを特徴とする請求項1に記載の索引作成プログラム。
  7. 前記索引項目並替手順は、前記電子文書における音声ファイルおよび/または画像ファイルの属性に従って、前記索引項目抽出手順によって抽出された索引項目を並び替えることを特徴とする請求項6に記載の索引作成プログラム。
  8. 電子文書から索引を作成する索引作成装置であって、
    前記電子文書における固有表現を属性ごとにスコア付けして取り出した後に、前記電子文書の索引となる索引項目として、前記スコアが最大となる属性に対応付けて前記固有表現を当該固有表現の出現位置情報とともに抽出する索引項目抽出手段と、
    前記索引項目抽出手段によって抽出された索引項目について前記電子文書における出現位置をリンク先とするリンク先情報を前記出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された索引項目を並べてなる索引リストを作成する索引リスト作成手段と、
    を備えたことを特徴とする索引作成装置。
  9. 前記スコア付けにおける属性ごとの重み付けを受け付ける重み受付手段をさらに備え、
    前記索引項目抽出手段は、前記重み受付手段によって受け付けた重み付けに基づいて、前記電子文書における固有表現を属性ごとにスコア付けすることを特徴とする請求項8に記載の索引作成装置。
  10. 電子文書から索引を作成する索引作成方法であって、
    コンピュータが、
    前記電子文書における固有表現を属性ごとにスコア付けして取り出した後に、前記電子文書の索引となる索引項目として、前記スコアが最大となる属性に対応付けて前記固有表現を当該固有表現の出現位置情報とともに抽出する索引項目抽出工程と、
    前記索引項目抽出工程によって抽出された索引項目について前記電子文書における出現位置をリンク先とするリンク先情報を前記出現位置情報から生成して各索引項目に付与し、当該リンク先情報が付与された索引項目を並べてなる索引リストを作成する索引リスト作成工程と、
    実行することを特徴とする索引作成方法。
  11. 前記コンピュータが、
    前記スコア付けにおける属性ごとの重み付けを受け付ける重み受付工程をさらに実行し、
    前記索引項目抽出工程は、前記重み受付工程によって受け付けた重み付けに基づいて、前記電子文書における固有表現を属性ごとにスコア付けすることを特徴とする請求項10に記載の索引作成方法。
JP2006182251A 2006-06-30 2006-06-30 索引作成プログラム、索引作成装置および索引作成方法 Expired - Fee Related JP4861078B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006182251A JP4861078B2 (ja) 2006-06-30 2006-06-30 索引作成プログラム、索引作成装置および索引作成方法
US11/589,403 US20080005151A1 (en) 2006-06-30 2006-10-30 Method and apparatus for creating index, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006182251A JP4861078B2 (ja) 2006-06-30 2006-06-30 索引作成プログラム、索引作成装置および索引作成方法

Publications (2)

Publication Number Publication Date
JP2008009918A JP2008009918A (ja) 2008-01-17
JP4861078B2 true JP4861078B2 (ja) 2012-01-25

Family

ID=38878001

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006182251A Expired - Fee Related JP4861078B2 (ja) 2006-06-30 2006-06-30 索引作成プログラム、索引作成装置および索引作成方法

Country Status (2)

Country Link
US (1) US20080005151A1 (ja)
JP (1) JP4861078B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489853B2 (en) * 2004-09-27 2016-11-08 Kenneth Nathaniel Sherman Reading and information enhancement system and method
US20080071732A1 (en) * 2006-09-18 2008-03-20 Konstantin Koll Master/slave index in computer systems
US8812508B2 (en) * 2007-12-14 2014-08-19 Hewlett-Packard Development Company, L.P. Systems and methods for extracting phases from text
JP5374881B2 (ja) * 2008-02-05 2013-12-25 日本電気株式会社 情報検索システム、情報検索方法およびプログラム
US20090307183A1 (en) * 2008-06-10 2009-12-10 Eric Arno Vigen System and Method for Transmission of Communications by Unique Definition Identifiers
JP5458640B2 (ja) * 2009-04-17 2014-04-02 富士通株式会社 規則処理方法及び装置
US8533213B2 (en) * 2009-06-17 2013-09-10 Sap Portals Israel Ltd. Apparatus and method for integrating applications into a computerized environment
US8745506B2 (en) * 2010-02-19 2014-06-03 Microsoft Corporation Data structure mapping and navigation
US8510344B1 (en) 2010-08-27 2013-08-13 Amazon Technologies, Inc. Optimistically consistent arbitrary data blob transactions
US8510304B1 (en) * 2010-08-27 2013-08-13 Amazon Technologies, Inc. Transactionally consistent indexing for data blobs
US8688666B1 (en) 2010-08-27 2014-04-01 Amazon Technologies, Inc. Multi-blob consistency for atomic data transactions
US8856089B1 (en) 2010-08-27 2014-10-07 Amazon Technologies, Inc. Sub-containment concurrency for hierarchical data containers
US8402061B1 (en) 2010-08-27 2013-03-19 Amazon Technologies, Inc. Tiered middleware framework for data storage
US8621161B1 (en) 2010-09-23 2013-12-31 Amazon Technologies, Inc. Moving data between data stores
JP5634209B2 (ja) * 2010-10-15 2014-12-03 株式会社日立ソリューションズ 検索インデックス作成システム、文書検索システム、インデックス作成方法、文書検索方法及びプログラム
WO2012083541A1 (en) * 2010-12-23 2012-06-28 Nokia Corporation Methods, apparatus and computer program products for providing automatic and incremental mobile application recognition
US9116991B2 (en) * 2011-08-16 2015-08-25 Google Inc. Searching encrypted electronic books
JP5737079B2 (ja) * 2011-08-31 2015-06-17 カシオ計算機株式会社 テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
JP5910134B2 (ja) * 2012-02-07 2016-04-27 カシオ計算機株式会社 テキスト検索装置及びプログラム
US9235565B2 (en) * 2012-02-14 2016-01-12 Facebook, Inc. Blending customized user dictionaries
JP2015035162A (ja) * 2013-08-09 2015-02-19 株式会社日立ソリューションズ東日本 文書閲覧システム及び文書閲覧方法
CN104123378A (zh) * 2014-07-30 2014-10-29 联想(北京)有限公司 一种信息处理方法及电子设备
KR101992631B1 (ko) * 2017-07-17 2019-06-25 주식회사 코난테크놀로지 비동기 방식을 사용하는 파일 색인장치 및 그 방법
JP6949449B2 (ja) * 2018-09-13 2021-10-13 東芝情報システム株式会社 データ検索システム及びデータ検索用プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3445800B2 (ja) * 1997-05-16 2003-09-08 株式会社日立製作所 テキスト検索方法
US5909687A (en) * 1997-07-03 1999-06-01 Tapper; Douglas S. Automated business card locator
JP3692764B2 (ja) * 1998-02-25 2005-09-07 株式会社日立製作所 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
JP4049967B2 (ja) * 2000-03-27 2008-02-20 株式会社東芝 データベース処理装置
JP4342753B2 (ja) * 2001-08-10 2009-10-14 株式会社リコー 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
JP4490012B2 (ja) * 2001-11-26 2010-06-23 富士通株式会社 ファイル検索装置、ファイル検索プログラム
JP2004151979A (ja) * 2002-10-30 2004-05-27 Olympus Corp 電子カタログ用索引自動作成システム
JP2005202916A (ja) * 2004-01-15 2005-07-28 Ainteku Joho:Kk マルチメディア学習装置の学習データ検索及び提供方法
JP2005228033A (ja) * 2004-02-13 2005-08-25 Fuji Xerox Co Ltd 文書検索装置および方法

Also Published As

Publication number Publication date
JP2008009918A (ja) 2008-01-17
US20080005151A1 (en) 2008-01-03

Similar Documents

Publication Publication Date Title
JP4861078B2 (ja) 索引作成プログラム、索引作成装置および索引作成方法
US8635061B2 (en) Language identification in multilingual text
WO2005041068A1 (ja) 質問応答型文書検索のためのシステム及び方法
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
Xu et al. Using SVM to extract acronyms from text
CN101470701A (zh) 支持基于有限状态机的语义规则的文本分析器及其方法
JP5056133B2 (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP4969209B2 (ja) 検索システム
JP5345987B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2006323517A (ja) テキスト分類装置およびプログラム
US20120323904A1 (en) Automatic generation of a search query
JP2012230544A (ja) 画像検索装置およびプログラム
Gupta et al. Text analysis and information retrieval of text data
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP2017117021A (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
JP5112416B2 (ja) 用語抽出装置、方法及び用語辞書のデータ構造
JP6843588B2 (ja) 文書検索方法及び装置
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP4671440B2 (ja) 評判関係抽出装置、その方法およびプログラム
JP7443667B2 (ja) 検索装置、辞書検索プログラム、辞書検索方法
JP2000293537A (ja) データ分析支援方法および装置
JP2012104051A (ja) 文書インデックス作成装置
JP4649731B2 (ja) 文書要約システム及び文書要約方法
JP4980604B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111101

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111104

R150 Certificate of patent or registration of utility model

Ref document number: 4861078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees