JPH01199263A - キーワード抽出装置 - Google Patents

キーワード抽出装置

Info

Publication number
JPH01199263A
JPH01199263A JP63023584A JP2358488A JPH01199263A JP H01199263 A JPH01199263 A JP H01199263A JP 63023584 A JP63023584 A JP 63023584A JP 2358488 A JP2358488 A JP 2358488A JP H01199263 A JPH01199263 A JP H01199263A
Authority
JP
Japan
Prior art keywords
symbol
pointer
character
characters
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63023584A
Other languages
English (en)
Inventor
Masako Mochizuki
望月 雅子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63023584A priority Critical patent/JPH01199263A/ja
Publication of JPH01199263A publication Critical patent/JPH01199263A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は、ワードプロセッサなどの文書登録。
校正、検索システムに利用されるキーワード抽出装置に
関し、より詳細には、文書中の標題や見出しなどのキー
ワードを抽出するキーワード抽出装置に関するものであ
る。
〔従来の技術〕
従来、論文などの文書中から所定の内容や構成を調べる
には、文書に−通り目を通して、手作業により標題や見
出しなどのキーワードを検索し、抽出するようになって
いた。
しかしながら、キーワードの抽出を手作業で行なうのは
、人手および時間を要する。さらには、キーワード、例
えば見出が’1.1」 rl。
1(1)J、・・・・・・のように複雑で深く階層付け
られているような場合には、誤りをおかし易いという問
題があった。
〔目的〕
本発明は、文書中のキーワードが複雑で深く階層付けら
れているような場合であってもこれをユーザが希望する
詳細さで正確にかつ迅速に抽出することの可能なキーワ
ード抽出装置を提供することを目的としている。
〔構成〕
本発明は上記の目的を達成させるため、記号パターンを
構成する所定の文字が登録されている記号辞書と、階層
ごとに記号パターンを記憶する記号記憶部と、記号辞書
を参照して文書中の文字が所定のキーワードを校正する
かの判断を行なうとともに記号記憶部を参照して所定の
階層深さまでの記号パターンを検索し文書中から所定の
キーワードを抽出する抽出処理部とを備えていることを
特徴とするキーワード抽出装置。
以下、本発明の一実施例に基づいて具体的に説明する。
第1図は本発明のキーワード抽出装置の構成図である。
このキーワード抽出装置1は、入力文書2から所定のキ
ーワード、すなわち徐題、見出しを抽出し、抽出された
キーワードを出力部3に格納する抽出処理部4を備えて
いる。なお以下の説明において、標題は最初の文字が数
字(’OJ。
「1」、・・・・・・、r9J)、区切り文字(’:(
」。
r)」、ra」、ra」、r、J等)以″外の文字で構
成されているものと定義され、また見出しは最初のいく
つかの文字が数字8区切り文字で構成され所定の記号パ
ターンかつ所定の階層′JfR造になっているとする。
抽出処理部4は、標題、見出しを抽出する際に、数字1
区切り文字を記録した記号辞書5を参照するとともに、
入力文書2を自動検索することにより出現した数字1区
切り文字からなる記号パターンを記号記憶部6に記録し
、この記号記憶部6を参照することによって所望の階層
深さまでの見出しを抽出できるようになっている。
第2図には、記号辞書5の具体例が示され、第3図には
記号記憶g6の具体例が示されている。
第3図を参照すると、抽出処理部4により抽出された記
号パターン、例えばrl」、rl、IJ。
・・・・・・が記号記憶部6に順次に入力すると、記号
記憶部6は、これらを記号パターンとして記憶するとと
もに、これらに番号“1”、“2”、・・・・・・を付
与する。抽出処理部4は、この番号を参照してユーザの
所望する階層の深さまでの見出しを抽出するようになっ
ている。すなわちこの登録番号の大きさが階層深さに対
応するようになっている。
次に第1図のキーワード抽出装置1の動作を第4図乃至
第6図のフローチャートを用いて説明する。
第4図は第1図のキーワード抽出装置1の全体の処理流
れを示すフローチャート、第5図、第6図はそれぞれ第
4図のフローチャート中に存在する標題処理、見出し処
理のフローチャートである。
第4図において、ステラ781では、ポインタpに0″
を設定し、ステップS2でユーザの希望する階層の深さ
を“N”に入れる。なお、階層の深さは、図示しないが
例えばキーボードから抽出処理部4に入力することがで
きる。
次いでステップS3では、入力文書2から抽出処理部4
に文字が入力されたか否かを判別する。
入力文字がなければ入力文書2中の文字が全て入力され
てキーワード抽出がなされたことを意味するので、処理
を終了する。一方、入力文字があれば、ステップS4に
進み、空白か否かを判別する。
空白であるときには、次の文字を調べる。ため、ステッ
プS5に進みポインタpを1つ歩進して再びステラ7S
3に戻る。
ステップS4において入力された文字が空白でないと判
断されたときには、ステップS6に進み、数字または区
切り文字であるかを記号辞書5を参照して調べる。
数字0区切り文字でない場合には、入力された文字を標
題を構成する候補とみなし、ステップS7に進んで標題
処理を行なう。
標題処理は、第5図に示すようにしてなされる。
すなわち、ステップS21では、現在のポインタpの位
置をポインタtpにセーブし、ステップ322において
次の文字を調べるなめポインタpを1つ歩進する。ステ
ップS23では、次の文字が空白であるか否かを調べ、
空白でないときにはステップS22に戻る。ステップ3
22.323を繰返すことにより空白の文字が見つかる
まで空白でない部分すなわち標題とみなされる部分を読
み飛ばす。
ステップ323において空白であると判断されると、ス
テップS24に進み、ポインタPとポインタtpとの差
が“1”であるか否かを調べる。
ポインタpとポインタtpとの差が“1″であるときに
は、ポインタtpの位置から計数して空白でない部分の
文字数が1”であることを意味するので、ステップS2
5に進み1文字の標題として抽圧する。一方、ポインタ
Pとポインタtpとの差が“1”以上のときには、ステ
ップS26に進み複数文字からなる標題として抽出する
標題の抽出を終了後、ステップS27に進み、ポインタ
pを1つ歩進させ、ステップ828においてポインタp
の位置が改行であるか否かを調べる。改行であれば、ス
テップS29に進みポインタpをさらに1つ歩進させ、
ステップS30において、ポインタpの位置の文字が数
字2区切り文字または空白であるかを調べる。
ステップ828において改行ではなく、またステップ3
28において改行であっても、ステップS30において
数字9区切り文字または空白が生起しないときには、見
出しの候補とはなり得ないので、改行の次に数字1区切
り文字または空白が生起するまでステップ327乃至S
30の処理を緑返す、改行の次に数字1区切り文字また
は空白が生起したときには見出しの候補となるので見出
し処理を行なうため標題処理を終了する。
このようにして第4図のステップS7の標題処理を終了
してステップS8の見出し処理を行なう。
なお、ステップS6において、数字または区切り文字で
ある場合に、はステップS7の標題処理を行なわずにス
テップS8の見出し処理に進む。
見出し処理は、第6図のようにしてなされる。
すなわち、第6図においてステップ541では現在のポ
インタpの位置をポインタstにセーブし、ステップ8
42において、ポインタpの位置に文字があるか否かを
調べる0文字がない場合には見出し処理を終了する。一
方、文字がある場合にはステップ843に進み、この文
字が数字または区切り文字であるかを記号辞書5を参照
して調べる。数字または区切り文字である場合には、ス
テップS44に進み、次の文字を調べるためポインタp
を1つ歩進させて再びステップ842に戻る。
ステップ843において数字または区切り文字でないと
判断されたときにはステップ845に進み、ポインタs
tの位置からポインタ(p−1)の位置までの文字パタ
ーンと同じ形の記号パターンが記号記憶部6にすでに登
録されているかを調べる。この際、例えば“1−1″と
“1−2″とは同じパターンの形とみなすが、′1−1
″と“1.2′とは違うパターンであるとする。ステッ
プ345にお(する比較の結果、違うパターンならば、
ステップS46に進み、記号記憶部6に記憶されている
番号の最大値が第4図のステップS2において入力した
階層の深さNよりも大きいか否かを調べる0階層の深さ
Nよりも大きいときには、このパターンは、所望の深さ
よりもさらに深いすなわちより詳細な見出しとなってい
るので、これを記号記憶部6に登録したり抽出したりす
る必要なく見出し処理を終了する。
こ・れに対しステップ346において番号の最大値が階
層の深さNよりも大きいものでない場合には、このパタ
ーンを記号記憶部6に記憶させるためステップS47に
進み、ポインタstの位置からポインタ(P−1)の位
置までの文字を記号記憶部6に入れ、ステップ348に
進む。
また、ステップS45においてポインタstの位置から
ポインタ(p−1)の位置までの文字パターンと同じ形
の記号パターンが記号記憶部6にすでに登録されている
場合には、記号パターンを新たに登録するステップ34
6,847の処理をせずにステップS48に進む。
ステップ848ではポインタpの位置の文字が空′白か
否かを調べ、空白であるときには、ステップS49にお
いてポインタpを1つ歩進し、空白でない文字が見つか
るまでステップ348.S49を繰返し、空白部分を読
み飛ばす、ステップ848において空白でないと判別さ
れたときにはステップS50に進み、ステップ350.
851を次の空白が見つかるまで繰返し、空白でない部
分を読み飛ばす。
ステップ851において次の空白が見つかったときには
、ステップS52に進み、ポインタstの位置からポイ
ンタ(p−1)の位置までの文字を見出しとして抽出し
、見出し処理を終了する。
このようにして見出し処理が終了すると、第4図におい
て、ステップS9に進みポインタpを1つ歩進させステ
ップS10に進む。
ステップSIOでは、ポインタpの位置に文字があるか
否かを調べなければ、キーワード抽出処理を終了する0
文字がある場合には、ステップS11に進み、この文字
が改行であるか否かを調べ、改行でない場合には、次の
文字を調べるためステップS9に戻る。ステップ811
において改行である場合には、ステップS12に進みポ
インタpを1つ歩進させステップS13において次の文
字を調べる。
次の文字が数字1区切り文字または空白であると判断さ
れたときには、次の見出し候補を検出したと判断されス
テップS8に戻り、見出し処理S8を行なわせる。
ステップ313で次の文字が数字1区切り文字または空
白でないと判断されたときにはステップS9に戻り次の
文字へ処理を進める。
このようにしてキーワード抽出処理が行なわれるが、こ
のような処理流れを第7図の例に基づきより具体的に説
明する。
第7図は入力文書2の一例を示す図であり、この入力文
書からキーワードを抽出する際、当初、記号記憶部6に
は記号パターンが登録されておらず、またステップS2
において階層深さNを“2”に設定したとする。
先づ第1行目のポインタpが“0″から“2′。
までの間は空白であるので、ステップS3乃至S5を繰
返す0次いでポインタpが“3”となったときに「1」
の文字が見つかり、これは空白ではなく、さらには数字
であるので、ステップS6゜S8と進みステップS8の
見出し処理を行なう。
見出し処理では、ステップS41でポインタstに“3
”が設定され、次の文字「国」は数字や区切り文字では
ないので、ステップS42゜S43,845と進み、ポ
インタstの位置からポインタ(p−1)の位置までの
文字、すなわち「1」を取出ず、記号記憶部6にはまだ
何も記憶されていないので、番号を“1″に設定しステ
ップS46に進む、ステップS46では、この番号“1
°゛と階層深さ“2”とが比教されるが、番号“1″は
“2″よりも小さいので、ステップS47に進み、記号
記憶部6に文字「1」を登録する0次いでステップS4
8に進むが、次の文字「国」は空白ではないので空白に
なるまでステップS50.S51を繰返し、文字を読み
飛ばす。
ポインタPが“7″になるときに空白になるので、ステ
ップ852に進み、ポインタstの位置からポインタp
の位置まで、すなわち“3″の位置から“7″の位置ま
での文字「1国文法」を抽出する。これにより、見出し
「1国文法」を抽出できる。
この見出し処理を終了後、改行の次に数字1区切り文字
または空白が生起するまでステップS9乃至313を繰
返し、文字を読み飛ばす、第2行目においてポインタp
が“57″のときに改行があり、第3行目においてポイ
ンタpが“58′”のときに数字があるので、再びステ
ップS8に戻り同様にして見出し処理を行なう、この見
出し処理では文字r1.IJが取出され、記号記憶部6
にはこの文字のパターンとは異なる記号パターン[1」
だけが記憶されているので番号“1”を更新して“2″
にする。この番号“2”は階層深さ“2″よりも大きく
ないので文字’1.IJを新たな記号パターンとして登
録できて、さらに見出し[1,1序言」を抽出できる。
第7図の例ではその後、文字r1.1.3Jが出現する
が、この文字r1.1.34は改行した次に生起してい
ないので見出しの候補にはならず、登録、抽出されない
また、文字r1.1.IJも出現し、この文字r1.1
.IJは見出しの候補となるが、階層深さ“2”よりも
大きな番号″3”が付されるようになるので、登録され
ず、抽出されない。
このようにして、番号“2”までの階層深さの記号パタ
ーンを有する見出しだけを抽出することができる。
なお、上述の実施例では、入力文書2を自動検索するこ
とにより出現した記号パターンを記号記憶部6に階層ご
とに記憶させ、記号記憶部6を自動作成するようになっ
ているが、記号記憶部6に予め所定の記号パターンを階
層ごとに記憶・させておいても良い。
〔効果〕
以上に説明したように、本発明によれば、記号辞書を参
照して入力された文字が所定のキーワードであるかの判
断を行ない、記号記憶部を参照して所定の階層深さまで
の記号パターンを検索しキーワードを抽出するようにし
ているので、キーワードが複雑で階層付けられているよ
うな場合であってもこれをユーザが希望する詳細さで正
確にかつ迅速に抽出することができる。
【図面の簡単な説明】
第1図は本発明のキーワード抽出装置の梢或図、第2図
は記号辞書の具体例を示す図、第3図は記号記憶部の具
体例を示す図、第4図はキーワード抽出装置の全体の処
理流れを示すフローチャート、第5図、第6図はそれぞ
れ標題処理、見出し処理のフローチャート、第7図は入
力文書の具体例を示す図である。 1・・・キーワード抽出装置、2・・・入力文書、3・
・・出力部、4・・・抽出処理部、5・・・記号辞書、
6・・・記号記憶部 特許出願人  株式会社 リ コ −

Claims (1)

    【特許請求の範囲】
  1. 記号パターンを構成する所定の文字が登録されている記
    号辞書と、階層ごとに記号パターンを記憶する記号記憶
    部と、記号辞書を参照して入力された文字が所定のキー
    ワードを構成するかの判断を行なうとともに、記号記憶
    部を参照して所定の階層深さまでの記号パターンを検索
    し文書中から所定のキーワードを抽出する抽出処理部と
    を備えていることを特徴とするキーワード抽出装置。
JP63023584A 1988-02-03 1988-02-03 キーワード抽出装置 Pending JPH01199263A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63023584A JPH01199263A (ja) 1988-02-03 1988-02-03 キーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63023584A JPH01199263A (ja) 1988-02-03 1988-02-03 キーワード抽出装置

Publications (1)

Publication Number Publication Date
JPH01199263A true JPH01199263A (ja) 1989-08-10

Family

ID=12114626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63023584A Pending JPH01199263A (ja) 1988-02-03 1988-02-03 キーワード抽出装置

Country Status (1)

Country Link
JP (1) JPH01199263A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309365A (ja) * 1993-04-20 1994-11-04 Fuji Xerox Co Ltd 文書処理装置
JP2003248690A (ja) * 2003-02-13 2003-09-05 Fuji Xerox Co Ltd 文書処理装置および方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309365A (ja) * 1993-04-20 1994-11-04 Fuji Xerox Co Ltd 文書処理装置
JP2003248690A (ja) * 2003-02-13 2003-09-05 Fuji Xerox Co Ltd 文書処理装置および方法

Similar Documents

Publication Publication Date Title
US6169999B1 (en) Dictionary and index creating system and document retrieval system
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
CN110390006B (zh) 问答语料生成方法、装置和计算机可读存储介质
JPH0724055B2 (ja) 単語分割処理方法
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
CN103733193A (zh) 统计拼写检查器
JP2002032770A (ja) 文書処理方法、文書処理システムおよび媒体
JP4502114B2 (ja) データベース検索装置
US7593844B1 (en) Document translation systems and methods employing translation memories
JP2001318792A (ja) 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置
JPH01199263A (ja) キーワード抽出装置
JPS6118072A (ja) 辞書デ−タの自動登録方式
KR100452024B1 (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JPH08190571A (ja) 文書検索方法
EP1072986A2 (en) System and method for extracting data from semi-structured text
CN116226362B (zh) 一种提升搜索医院名称准确度的分词方法
JP4059501B2 (ja) 自然語辞書更新装置
JPS63136224A (ja) キ−ワ−ド自動抽出装置
JP2848430B2 (ja) 情報抽出方法
JP2000311170A (ja) テキスト情報抽出方法
Toselli et al. Probabilistic Indexing Search Extensions
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
JP2839515B2 (ja) 文字読取システム
JP3279002B2 (ja) 情報管理装置