JPH0877179A - 文書索引生成装置 - Google Patents
文書索引生成装置Info
- Publication number
- JPH0877179A JPH0877179A JP6209500A JP20950094A JPH0877179A JP H0877179 A JPH0877179 A JP H0877179A JP 6209500 A JP6209500 A JP 6209500A JP 20950094 A JP20950094 A JP 20950094A JP H0877179 A JPH0877179 A JP H0877179A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- index
- document
- question
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
文書索引生成装置に関し、文書から文パターンを用いて
文を抽出および当該文パターンの種類に対応した規則を
用いて索引表現を自動生成し、ユーザの検索が容易とな
る索引を自動生成することを目的とする。 【構成】 文書中の文について予め作成した文パターン
4と照合を行い合致する文を抽出する文抽出部3と、こ
の抽出した文について文パターン4に対応する生成規則
をもとに索引表現を生成する索引表現生成部7と、この
生成した索引表現を表示して編集された結果を文書の索
引とする索引編集部8とを備えるように構成する。
Description
動生成する文書索引生成装置であって、マニュアルなど
の文書から文パターンによって文を抽出しこれから文書
索引の生成を行う文書索引生成装置に関するものであ
る。
とした「見出し」を自動抽出することが行われていた。
とした「見出し」だけでは、ユーザが知りたい事柄を効
率的に検索することができない。例えば「新しいインス
タンスを作る方法」を知りたい場合、「インスタンス」
という見出しだけでは、そこには「インスタンスの定
義」が記述されているかもしれないし、「インスタンス
の削除の方法」が記述されているかもしれない。
的確にとらえた「インスタンスとは?」や「インスタン
スを生成するには?」という見出しがあれば、ユーザは
求める情報を速く得ることができる。
した見出しを自動的に生成することができないために索
引を作成する人が手作業で作成する必要があり、極めて
多大な労力が必要となってしまう問題があった。
文書から文パターンを用いて文を抽出および当該文パタ
ーンの種類に対応した規則を用いて索引表現を自動生成
し、ユーザの検索が容易となる索引を自動生成すること
を目的としている。
成図を示す。図1において、入力文書1は、索引を生成
する対象の文書である。
引を自動生成するものであって、文抽出部3、文パター
ン4、質問応答文生成部5、質問応答文の生成規則6、
索引表現生成部7、索引編集部8、および索引10を付
加した文書データベース9から構成されるものである。
て、文パターン4と照合して一致する文を抽出するもの
である。文パターン4は、予め文のパターンを登録した
ものである。
いて、質問応答文の生成規則6をもとに質問応答文を生
成するものである。質問応答文の生成規則6は、抽出さ
れた文から質問応答文を生成する規則である。
文を取り出して索引表現として生成するものである。索
引編集部8は、索引表現を提示し編集された結果を文書
の索引とするものである。
ータベースであって、ここでは、自動生成した索引10
を文書に付加して保存したデータベースである。索引1
0は、索引編集部8によって編集された索引であって、
文書に索引として付加されたものである。
書中の文について予め作成した文パターン4と照合を行
い合致する文を抽出し、索引表現生成部7が抽出した文
について文パターン4に対応する生成規則をもとに索引
表現を生成し、索引編集部8がこの生成した索引表現を
提示し編集された結果を文書の索引とするようにしてい
る。
め作成した文パターン4と照合を行い合致する文を抽出
し、質問応答文生成部5が抽出した文について文パター
ン4に対応する生成規則を使った質問応答文を生成し、
索引表現生成部7が生成された質問応答文から質問文を
取り出して索引表現とし、索引編集部8が索引表現を提
示し編集された結果を文書の索引とするようにしてい
る。
を抽出および当該文パターン4の種類に対応した生成規
則を用いて索引表現を自動生成して提示し編集した結果
を文書の索引とすることにより、ユーザの検索が容易と
なる索引を自動生成することが可能となる。
例の構成および動作を順次詳細に説明する。
ャートを示す。図2において、S1は、文書の取り込み
を行う。これは、図1の文書索引生成装置2が文書(入
力文書1)を取り込む。
取り込んだ索引生成対象の文書を形態素解析する。例え
ば後述する図9に示す下記の/のように形態素解析す
る。 ・総称/関数/の/適用/に/よって/起動/さ/れる
/手続き/を/メソッド/と/いう/ S3は、文パターンと照合する。これは、S2で形態素
解析した文について、図1の予め作成した文パターン4
と照合を行う。
パターン4と照合を行い、一致した文を抽出する。S5
は、文パターンを元に質問応答文の生成規則を検索す
る。これは、後述する図11に示すように、一致した文
の文パターン4の種類(定義、場合、あるいは方法な
ど)に対応する質問応答文の生成規則を検索して取り出
す。
とY)を置き換える。これは、後述する図12に示すよ
うに、S5で取り出した生成規則のXとYに置き換え、
質問応答文を作成する。
す。S8は、取り出して質問文をソートする。そして、
編集者が画面上に表示された索引を見て修正・削除など
の編集を行い、索引を完成し、文書に対応づけて文書デ
ータベース9に保存する。
4と照合して一致する文を抽出し、抽出した文について
文パターンの種類に対応した質問応答文の生成規則を見
つけて質問応答文を生成し、この質問応答文から質問文
を取り出しソートして索引を生成することにより、文書
から自動的に文の種類(定義、場合、方法など)に応じ
た質問文形式の索引を自動生成して付加することが可能
となった。以下図3から図16を用いて順次詳細に説明
する。
示す。これは、文書から文を抽出する手順を示したもの
である。図3において、S11は、文書に対して形態素
解析を行う。これは、文書例えば図4に示すマニュアル
を取り込み、形態素解析を下記の/に示すように行う。
れは、名詞で終わる、タイトル、見出しなどで終わる文
を除去する。上記例では、図6の横線の文(タイトル、
見出しなど)を除去する。
位置情報と共に抽出する。例えば図8の文パターンをマ
ッチするものを位置情報と共に図9に示すように抽出す
る。詳述すれば、文パターン 文パターンの種類 文パターン 定義 X/を/Y/と/いう などとマッチする文を図7から抽出すると共にその位置
情報を抽出する。例えば ・データの属性と動作を規定する、抽象的なオブジェクトをクラスという. X を Y という とマッチするので、この文および位置情報“L4”を抽
出し、図9のに示すように格納する。
ュアルから名詞で終わるタイトル、見出しなどを除去し
て図6のようにし、更に図8の文パターンとマッチする
文を図7の矩形で囲んだ文として抽出し、これら抽出し
た文および位置情報を取り出して図9に示すように、
文、位置情報、および種類(マッチした文パターンの種
類)を取り出して格納する。
れは、文書の例であって、 ・タイトル:第2章 オブジェクト指向データ 2.1 基本用語 ・見出し :クラス インスタンス メソッド などがある。右端は位置情報を表し、行である。
す。これは、図4の文書中の文を形態素解析した結果を
示す。 総称/関数/の/適用/に/よって/起動/さ/れる/手続き/を/メソッド X を Y /と/いう/ と いう ここで、下線は、後述する文パターンとマッチした様子
を示す。
結果例を示す。これは、図4のマニュアルのうちから、
タイトル、見出しなどの名詞で終わるものを横線で示す
ように除去したものである。
文例を示す。これは、図6のタイトルなどを除去した後
の文について、図8の文パターンとマッチするものを矩
形で囲んだように抽出したものである。例えばの文 属性とその値を持つ具体的なオブジェクトをインスタンスという. X を Y という は、文パターン“XをYという”にマッチする。
こでは、図示の下記のような文パターンを予め登録して
おく。 文パターンの種類 文パターン 定義 X/を/Y/と/いう 場合 X/場合/、/Y/する 方法 X/を/、/Y/に/よって/Z/さ/れる 図9は、本発明の抽出した文例を示す。これは、図7で
文パターンにマッチした文および位置情報、更にマッチ
した文パターンの種類を取り出したものである。
に従い、図11および図12を参照し、図9の抽出した
文、種類をもとに質問応答文を生成する手順を詳細に説
明する。
文パターンの生成規則を取り出す。これは、例えば既述
した図9の抽出した文について、抽出時にマッチした文
パターンの種類(例えば定義、場合、方法など)に対応
する生成規則を、図11の予め登録した生成規則例から
取り出す。
生成する。例えば文書中から図9の上から3つ目の 抽出した文 位置情報 種類 総称関数の適用によって起動される手続きをメソッドという L11 定義 X を Y という のとき、文パターンの種類“定義”をもとに図11から
対応する生成規則 種類 文パターン 生成規則 定義 XをYという Yとは何か?Xのことである を取り出し、この取り出した生成規則を適用し、質問応
答文として図12に示す下記を生成する。
た文について、マッチした文パターンの種類に対応する
生成規則を取り出し、この生成規則を適用して文から質
問応答文を作成することが可能となる。
例を示す。ここで、種類は文パターンの種類(例えば定
義、場合、方法など)であり、文パターンはその種類の
ときのパターンであり、生成規則は種類に適用する質問
応答文を生成する規則である。
を示す。これは、既述した文書から抽出した文 抽出した文 位置 種類 総称関数の適用によって起動される手続きをメソッドという L11 定義 について、生成規則“Yとは何か?Xのことである”を
適用して質問応答文 メソッドとは何か? X 総称関数の適用によって起動される手続きのことである。
成フローチャートを示す。
ら質問文を取り出す。これは、例えば図12に示すよう
に生成規則を適用して生成した質問応答文中から質問文
を索引表現として取り出す。
引表現とするために、辞書順にソートする。S33は、
質問文と元の文の位置情報を記録する。
引表現として取り出し、これをソートおよび位置情報を
付加して文書の索引表現を作成できたこととなる。次
に、図14のフローチャートに示す順序に従い、図15
および図16を参照し、作成された索引表現を編集者が
編集する手順を詳細に説明する。
示する。これは、図13によって作成した索引表現、例
えば図15に示すように索引表現を画面上に表示する。
S42は、索引編集の編集要求を受け取る。これは、例
えば図15の示すように画面上に表示した索引表現につ
いて、編集者から“修正”、“削除”などの編集要求を
受け取る。そして、これら編集要求に対応した処理(索
引表現の修正、削除など)を行う。
報とともに文書データベースに格納する。これは、S4
2で編集した後の索引表現(索引)を元の位置情報(文
書の位置情報)と一緒に文書データベースに図16に示
すように格納する。
画面上に図15に示すように提示し、編集者がこの提示
された索引表現を必要に応じて修正、削除して編集し、
編集後の索引表現を文書の位置情報と一緒に文書データ
ベースに格納して保存する。これにより、ユーザは、索
引表現(索引)をもとの質問文形式の索引を使って所望
を文書の位置を見つけ出し、その文を表示してその内容
を見ることができるようになった。
示す。ここでは、画面上にアイウエオ順にソートした索
引表現を表示する。この表示された自動生成された索引
表現を見た編集者は、図示のように修正あるいは削除な
どして編集し、最終チェックを行う。これら修正あるい
は削除などの編集をした後、図16に示すように、元の
文書の位置情報と一緒にして文書データベースに格納す
る。
納例を示す。ここでは文書および索引表現(位置情報を
付加)を一緒に格納する。これにより、索引表現を画面
上に表示させ、ユーザはこの索引表現(索引)を見て所
望の文の位置情報を取り出し、この位置情報の文を表示
してその内容を見ることが容易に可能となった。
文書から文パターン4を用いて文を抽出および当該文パ
ターン4の種類に対応した生成規則を用いて索引表現を
自動生成し提示し編集した結果を文書の索引(索引表
現)とする構成を採用しているため、ユーザの検索が容
易となる質問文形式の索引を容易に自動生成できる。こ
れらにより、形態素解析して名詞で終わる文等を自動削
除した後、文パターンを用いて索引付けに必要な文を自
動抽出し質問文形式の索引を自動生成し、ユーザの要求
にあった箇所を効率的に検索できる索引を生成すること
が可能となる。また、1つの文から複数の索引も生成で
きるため、ユーザの多様な検索要求に応じる索引を自動
作成することが可能となる。
る。
る。
ある。
る。
Claims (2)
- 【請求項1】文書中の文について予め作成した文パター
ン(4)と照合を行い合致する文を抽出する文抽出部
(3)と、 この抽出した文について文パターン(4)に対応する生
成規則をもとに索引表現を生成する索引表現生成部
(7)と、 この生成した索引表現を表示して編集された結果を文書
の索引とする索引編集部(8)とを備えたことを特徴と
する文書索引生成装置。 - 【請求項2】文書中の文について予め作成した文パター
ン(4)と照合を行い合致する文を抽出する文抽出部
(3)と、 この抽出した文について文パターン(4)に対応する生
成規則を使った質問応答文を生成する質問応答文生成部
(5)と、 この生成された質問応答文から質問文を取り出して索引
表現とする索引表現生成部(7)と、 この索引表現を提示して編集された結果を文書の索引と
する索引編集部(8)とを備えたことを特徴とする文書
索引生成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20950094A JP3981158B2 (ja) | 1994-09-02 | 1994-09-02 | 文書索引生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20950094A JP3981158B2 (ja) | 1994-09-02 | 1994-09-02 | 文書索引生成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0877179A true JPH0877179A (ja) | 1996-03-22 |
JP3981158B2 JP3981158B2 (ja) | 2007-09-26 |
Family
ID=16573839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP20950094A Expired - Fee Related JP3981158B2 (ja) | 1994-09-02 | 1994-09-02 | 文書索引生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3981158B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030001261A (ko) * | 2001-06-26 | 2003-01-06 | 소니 가부시끼 가이샤 | 정보처리장치, 정보처리방법, 기록매체, 프로그램과전자출판 데이터제공 시스템 |
JP2019207648A (ja) * | 2018-05-30 | 2019-12-05 | 株式会社野村総合研究所 | 対話型業務支援システム |
WO2020100553A1 (ja) * | 2018-11-13 | 2020-05-22 | 株式会社日立製作所 | 質問応答データ生成装置および質問応答データ生成方法 |
JP2020135402A (ja) * | 2019-02-19 | 2020-08-31 | 株式会社リコー | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
JP2021022211A (ja) * | 2019-07-29 | 2021-02-18 | Necソリューションイノベータ株式会社 | 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体 |
JP2022080691A (ja) * | 2020-11-18 | 2022-05-30 | 西日本電信電話株式会社 | 文書作成支援装置、文書作成支援方法およびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60100223A (ja) * | 1983-11-07 | 1985-06-04 | Hitachi Ltd | 索引自動作成機能を有する文書作成・管理装置 |
JPH0251765A (ja) * | 1988-08-15 | 1990-02-21 | Fujitsu Ltd | 用語集自動作成方式 |
JPH0251766A (ja) * | 1988-08-15 | 1990-02-21 | Fujitsu Ltd | 索引項目自動抽出方式 |
-
1994
- 1994-09-02 JP JP20950094A patent/JP3981158B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60100223A (ja) * | 1983-11-07 | 1985-06-04 | Hitachi Ltd | 索引自動作成機能を有する文書作成・管理装置 |
JPH0251765A (ja) * | 1988-08-15 | 1990-02-21 | Fujitsu Ltd | 用語集自動作成方式 |
JPH0251766A (ja) * | 1988-08-15 | 1990-02-21 | Fujitsu Ltd | 索引項目自動抽出方式 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030001261A (ko) * | 2001-06-26 | 2003-01-06 | 소니 가부시끼 가이샤 | 정보처리장치, 정보처리방법, 기록매체, 프로그램과전자출판 데이터제공 시스템 |
JP2019207648A (ja) * | 2018-05-30 | 2019-12-05 | 株式会社野村総合研究所 | 対話型業務支援システム |
WO2020100553A1 (ja) * | 2018-11-13 | 2020-05-22 | 株式会社日立製作所 | 質問応答データ生成装置および質問応答データ生成方法 |
JP2020080025A (ja) * | 2018-11-13 | 2020-05-28 | 株式会社日立製作所 | 質問応答データ生成装置および質問応答データ生成方法 |
JP2020135402A (ja) * | 2019-02-19 | 2020-08-31 | 株式会社リコー | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
JP2021022211A (ja) * | 2019-07-29 | 2021-02-18 | Necソリューションイノベータ株式会社 | 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体 |
JP2022080691A (ja) * | 2020-11-18 | 2022-05-30 | 西日本電信電話株式会社 | 文書作成支援装置、文書作成支援方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3981158B2 (ja) | 2007-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2783558B2 (ja) | 要約生成方法および要約生成装置 | |
JP3691844B2 (ja) | 文書処理方法 | |
US6353840B2 (en) | User-defined search template for extracting information from documents | |
JP2896634B2 (ja) | 全文登録語検索装置および全文登録語検索方法 | |
US20080071803A1 (en) | Methods and systems for real-time citation generation | |
JPWO2004034282A1 (ja) | コンテンツ再利用管理装置およびコンテンツ再利用支援装置 | |
JPH0484271A (ja) | 文書内情報検索装置 | |
US11301441B2 (en) | Information processing system and information processing method | |
JPWO2015162737A1 (ja) | 音訳作業支援装置、音訳作業支援方法及びプログラム | |
JP2000020537A (ja) | テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH0877179A (ja) | 文書索引生成装置 | |
JP2005107931A (ja) | 画像検索装置 | |
JP2005173999A (ja) | 電子ファイル検索装置、電子ファイル検索システム、電子ファイル検索方法、プログラムおよび記録媒体 | |
KR101835994B1 (ko) | 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치 | |
JPH0877196A (ja) | 文書情報抽出装置 | |
JP2000250908A (ja) | 電子書籍の作成支援装置 | |
JP2009123067A (ja) | 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体 | |
JP3825829B2 (ja) | 登録情報検索装置及びその方法 | |
JP2002140338A (ja) | 辞書構築支援装置および辞書構築支援方法 | |
JP4384736B2 (ja) | 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN115577132B (zh) | 一种基于云平台的信息分类及检索系统 | |
JPH1145238A (ja) | 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH04673A (ja) | 連語登録方法および装置 | |
JP3464518B2 (ja) | 文書索引作成システム | |
JP3239845B2 (ja) | 全文検索装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20031007 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070629 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100706 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100706 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110706 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110706 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120706 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |