JPH05303594A - 並列処理型内容検索装置 - Google Patents

並列処理型内容検索装置

Info

Publication number
JPH05303594A
JPH05303594A JP4131369A JP13136992A JPH05303594A JP H05303594 A JPH05303594 A JP H05303594A JP 4131369 A JP4131369 A JP 4131369A JP 13136992 A JP13136992 A JP 13136992A JP H05303594 A JPH05303594 A JP H05303594A
Authority
JP
Japan
Prior art keywords
storage means
divided
stored
character string
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4131369A
Other languages
English (en)
Inventor
Ichigaku Asano
一学 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4131369A priority Critical patent/JPH05303594A/ja
Publication of JPH05303594A publication Critical patent/JPH05303594A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 検索対象である特定文字列が2つの記憶手段
に分割されているとき、分割部を連結する処理をするた
めの余分な通信を不要にし、検索時間を短縮することを
目的とする。 【構成】 記憶するテキスト情報は、まず制御プロセッ
サ120で記憶手段11〜114それぞれの記憶容量に
合わせて単純に分割される。その分割部の文字列は、テ
キスト分割部140により単語毎に切れ目が入れられ
る。テキスト情報は制御プロセッサ120でその切れ目
によって再度分割し直されされ、記憶手段111〜11
4に分割記憶される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、複数の記憶手段に分
割されて格納されている文献検索や新聞記事検索などの
テキスト情報の内容と検索対象の文字とを比較すること
により、必要な情報を検索する並列処理型内容検索装置
に関する。
【0002】
【従来の技術】図3は、従来の並列処理型内容検索装置
の構成を示すブロック図である。図3において、101
〜104はプロセッサ要素、120は各プロセッサ要素
101〜104への検索の指示の送出、および各プロセ
ッサ要素101〜104からの検索結果を受信してまと
める処理を行なう制御プロセッサ、130は各プロセッ
サ要素101〜104それぞれの間、および制御プロセ
ッサ120とプロセッサ要素101〜104それぞれと
の間の通信を伝達する相互結合網、311〜314はそ
れぞれプロセッサ要素101〜104に接続され複数の
文章から構成されるテキスト情報を分割して格納してい
る記憶手段である。
【0003】つぎに、この装置の動作を説明する。例え
ば、「レジスタ」などの特定の文字列を含んでいる文献
を、テキスト情報内から検索する場合、制御プロセッサ
120は検索開始の指示とともに、検索対称の文字列
「レジスタ」を各プロセッサ要素101〜104へ送
る。プロセッサ要素101〜104では、それぞれの記
憶手段311〜314に記憶されているテキスト情報を
読みだして、制御プロセッサ120から送られてきた文
字列「レジスタ」が、そのテキスト情報の中に含まれて
いるかどうか比較を行なう。
【0004】文字列「レジスタ」が記憶手段311〜3
14に記憶されているテキスト情報の中に含まれていた
場合には、プロセッサ要素101〜104は、その文字
列「テキスト」が含まれていた文献(テキスト情報)の
識別名など必要な情報を制御プロセッサ120へ送信す
る。制御プロセッサ120は、プロセッサ要素101〜
104から受信した文献の識別名などの情報をまとめ
て、装置全体としての検索結果を作成する。
【0005】この従来の装置では、テキスト情報のそれ
ぞれの文献を記憶手段311〜314に単純に一定量毎
に分けて記憶している。それぞれの文献を記憶手段31
1から記憶手段314まで、端から順に詰めて記憶させ
てある状態では、文献1は記憶手段311に全て格納さ
れてしまい、文字列「レジスタ」を検索する場合、プロ
セッサ要素101が記憶手段311の中で文字列「レジ
スタ」を検索し、他のプロセッサ要素101〜104は
遊んでいる状態になる。一方、図3に示す従来の装置の
ように、文献1,2を記憶手段311〜314に分けて
記憶してあると、文字列「レジスタ」を複数のプロセッ
サ要素101〜104が検索するので、遊んでいるプロ
セッサ要素がなくなる。したがって、文献1や文献2か
らなるテキスト情報を記憶手段311〜314に分けて
記憶しておくと、テキスト情報を記憶手段311から詰
めて記憶してある場合よりも、文字列「レジスタ」を早
く検索できることになる。
【0006】ところで、検索の対称となる文字列「レジ
スタ」が、例えば図3に示すように記憶手段311と記
憶手段312とに分割されている場合がある。図3で
は、他に文献1の文字列「カウンタ」が記憶手段314
と記憶手段311に分割され、文献2の文字列「カウン
タ」が記憶手段312と記憶手段313とに分割されて
記憶されている。ここで、図3に示すように、テキスト
情報である文献1と文献2が、分割されて記憶手段31
1〜314に記憶されており、その文献1内の検索しよ
うとする文字列「レジスタ」が記憶手段311と記憶手
段312とに分割されている状態であるとき、その文字
列「レジスタ」を検索するときのこの装置の動作を説明
する。
【0007】第1の動作としては、文献1中の文字列
「レジスタ」は、記憶手段311に「レジス」まで記憶
されていて、記憶手段312に残りの「タ」が記憶され
ているので、プロセッサ要素101で記憶手段311内
のテキスト情報を検索し、検索しようとする文字列「レ
ジスタ」と「レジス」まで一致したところで、この文献
1の記憶手段311と記憶手段312とに分割されてい
る最初の部分である第1分割部分したところに到達し、
これに続く先の部分は記憶手段311には無く記憶手段
312にあるので、プロセッサ要素102へ文献1の記
憶部311の部分で「レジス」まで検出した旨を送信す
る。これを受信したプロセッサ要素102では、記憶手
段311の「レジス」から続いている第1分割部分の
「タ」が、検索している文字列「レジスタ」の「タ」で
あるかを判断し、ここでは一致しているので、この「レ
ジスタ」が存在している文献1の識別名などを制御プロ
セッサ120へ送信する。
【0008】第2の動作としては、プロセッサ要素10
1で「レジス」まで一致した時点で第1分割部分に到達
すると、この場合は文字列「レジスタ」より「レジス」
は1文字少ないので、プロセッサ要素101は、この文
献1の第1分割部分の続きの部分から1文字分をプロセ
ッサ要素101に送信するようにプロセッサ要素102
に依頼する。この依頼を受けたプロセッサ要素102で
は、第1分割部分の続きのところから1文字分の「タ」
をプロセッサ要素101に送信し、この「タ」を受けた
プロセッサ要素101ではこの文字が文字列「レジス
タ」のまだ一致していない残りの部分「タ」と比較す
る。ここで、この場合は一致しているので第1の動作と
同様に、この「レジスタ」が存在する文献1の識別名な
どを制御プロセッサ120へ送信する。
【0009】第3の動作としては、文字列「レジスタ」
と文献1の記憶手段311中の「レジス」まで一致した
時点で第1分割部分に到達すると、プロセッサ要素10
1はこの検出した旨を制御プロセッサ120に送信す
る。すなわち、プロセッサ要素101は記憶手段311
内の文献1の第1分割部の手前で文字列「レジス」を見
つけたことを制御プロセッサ120へ送信する。一方、
プロセッサ要素102は、プロセッサ要素101の動作
とは独立して動作し、文献1内の第1分割部分の記憶手
段311と記憶手段312に連続している文字列の残り
の部分を、文字列「レジスタ」の途中からの文字列「ジ
スタ」,「スタ」、「タ」と比較し、記憶手段312内
の文献1の第1分割部分の先頭に「タ」を検出した旨を
制御プロセッサ120へ送信する。
【0010】制御プロセッサ120では、これらのプロ
セッサ要素101とプロセッサ要素102からの報告を
合わせて、すなわち、記憶手段311内の文献1の第1
分割部で終わっている「レジス」と、記憶手段312内
の文献1の第1分割部から始まっている「タ」とは、文
献1内の第1分割部で切られている元々はつながってい
る文字であり、「レジス」と「タ」とをつなげて「レジ
スタ」とし、それが検索文字列「レジスタ」と同一であ
ると判断し、そして、文字列「レジスタ」が文献1内に
存在すると判断する。
【0011】
【発明が解決しようとする課題】従来の並列処理型内容
検索装置は以上のように構成されていたので、検索しよ
うとしている特定文字列が、2つの記憶手段に分割され
て記憶されていると、2つのプロセッサ要素間、また
は、制御プロセッサとプロセッサ要素間の余分な通信が
必要となり、検索時間が長くなると言う問題があった。
【0012】この発明は、以上のような問題点を解消す
るために成されたものであり、検索対象である特定文字
列が2つの記憶手段に分割されているとき、分割部を連
結する処理をするための余分な通信を不要にし、検索時
間を短縮することを目的とする。
【0013】
【課題を解決するための手段】以上の問題を解決するた
めに、この発明では、テキスト情報を特定文字列毎に切
れ目をいれるテキスト分割手段と、テキスト分割手段に
より入れられた切れ目のところでテキスト情報を分割記
憶する記憶手段とを有する
【0014】
【作用】ある記憶手段に記憶されているテキスト情報内
の検索動作は、その記憶手段のプロセッサ要素だけで完
了する。
【0015】
【実施例】以下、この発明の1実施例を図を参照して説
明する。図1は、この発明の1実施例である並列処理型
内容検索装置の構成を示すブロック図である。図1にお
いて、111〜114はプロセッサ要素101〜104
にそれぞれ接続された文献などのテキスト情報を分割し
て記憶する記憶手段、140は記憶手段111〜114
に記憶するテキスト情報を指定された特定文字列毎に形
態要素解析などにより分析し、その特定文字列毎に切れ
目を入れるテキスト分割部であり、他は図3と同様であ
る。また、図2は記憶手段111〜114に記憶しよう
としているテキスト情報の1部を示す説明図であり、2
01は記憶手段111に格納しようとしている文献1の
文書、211はその文献1を分割して記憶した記憶手段
111内の第1分割部、212は文献1を分割して記憶
した記憶手段112内の第1分割部である。
【0016】つぎに、この装置の動作を説明する。ま
ず、記憶しようとするテキスト情報を、制御プロセッサ
120で、従来と同様に記憶手段111〜114のそれ
ぞれの記憶容量に合わせて単純に一定量に分割し、その
後、その分割した分割部の文字列をテキスト分割部に渡
す。単純に分割されたテキスト情報の分割部を渡された
テキスト分割部140は、その部分のテキスト情報につ
いて、指定された特定文字列である単語毎に切れ目を入
れる。例えば、図2(a)に示すように「・・データを
レジス」と「タ・・」に単純に分割された分割部を渡さ
れたテキスト分割部140は、この部分の「データをレ
ジスタ」を「データ」,「を」,「レジスタ」の単語毎
に切り離し、そのあいだに切れ目を入れ、これらを制御
プロセッサ120に返す。
【0017】これらを返された制御プロセッサ120
は、始めに単純に分割されたテキスト情報の分割部を、
テキスト分割部140により入れられた切れ目により再
度分割し直す。すなわち、単純に分割した時点では、
「・・データをレジス」と「タ・・」とに分割されてい
たのを、テキスト分割部140で入れれれた切れ目のと
ころである「・・データを」と「レジスタ・・・」とに
分割し直す。そして、分割し直したテキスト情報をプロ
セッサ要素101〜104を介して記憶手段111〜1
14にそれぞれ記憶させる。
【0018】ここで、記憶手段111内の第1分割部2
11では、3文字分の空き部分ができる(図2斜線
部)。この空き部分は、この部分の検索を無効化するた
め、ここまでの有効部分の長さ、またはこの有効部分の
終点位置をテキスト情報とともに記憶しておくか、この
空き部分に検索時に無効となる通常は出現しないテキス
トパターンを入れておく。検索時には、有効部分の長さ
かもしくは終点の位置を記憶してある場合は、この位置
までで検索を停止し、空き部分に通常出現しないテキス
トパターンを入れておく場合は、その空き部分を含めて
記憶手段全体を検索する。
【0019】なお、プロセッサ要素101〜104内で
の文字検索は、テキスト情報を1文字ずつシフトして検
索して特定文字列と比較する方法や、有限状態オートマ
トン法などの従来の装置と同様にできる。
【0020】
【発明の効果】以上のように、この発明では、特定文字
列が複数の記憶手段に分割されることないので、検索す
る特定文字列の検索が1つのプロセッサ要素内で完了
し、プロセッサ要素間での余分な通信がなくなるので、
検索時間が短くなると言う効果がある。
【図面の簡単な説明】
【図1】この発明の1実施例である並列処理型内容検索
装置の構成を示すブロック図である。
【図2】記憶手段111〜114に記憶しようとしてい
るテキスト情報の1部を示す説明図である。
【図3】従来の並列処理型内容検索装置の構成を示すブ
ロック図である。
【符号の説明】
101〜104 プロセッサ要素 111〜113 記憶手段 120 制御プロセッサ 130 相互結合網 140 テキスト分割部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 それぞれ記憶手段を有するプロセッサ要
    素同士が相互結合網を介して接合されたマルチプロセッ
    サからなり、文書からなるテキスト情報を分割して前記
    記憶手段に格納し、格納された前記テキスト情報の内容
    を比較して検索する並列処理型内容検索装置において、 前記テキスト情報を特定文字列毎に切れ目をいれるテキ
    スト分割手段と、 前記テキスト分割手段により入れられた切れ目のところ
    で前記テキスト情報を分割記憶する記憶手段とを有する
    ことを特徴とする並列処理型内容検索装置。
JP4131369A 1992-04-27 1992-04-27 並列処理型内容検索装置 Pending JPH05303594A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4131369A JPH05303594A (ja) 1992-04-27 1992-04-27 並列処理型内容検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4131369A JPH05303594A (ja) 1992-04-27 1992-04-27 並列処理型内容検索装置

Publications (1)

Publication Number Publication Date
JPH05303594A true JPH05303594A (ja) 1993-11-16

Family

ID=15056326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4131369A Pending JPH05303594A (ja) 1992-04-27 1992-04-27 並列処理型内容検索装置

Country Status (1)

Country Link
JP (1) JPH05303594A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115329A (ja) * 1994-10-13 1996-05-07 Fuji Xerox Co Ltd 文字列検索装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115329A (ja) * 1994-10-13 1996-05-07 Fuji Xerox Co Ltd 文字列検索装置及び方法

Similar Documents

Publication Publication Date Title
US8135717B2 (en) Processor for fast contextual matching
EP0155284B1 (en) Indexing subject-locating method
EP0501770B1 (en) Data base creating method and apparatus
JPS5846742B2 (ja) 対話式デ−タ検索装置
JPH11120203A (ja) データベースを合併する方法およびデータベースからドキュメントを検索する装置
EP0241717A2 (en) Linguistic analysis method and apparatus
JPH05303594A (ja) 並列処理型内容検索装置
Hollaar et al. A specialized architecture for textual information retrieval
JP2000339323A (ja) 文書検索方法、文書検索装置、文書検索システム及び記録媒体
Hollaar Rotating memory processors for the matching of complex textual patterns
JPH09212523A (ja) 全文検索方法
JPH02297282A (ja) 文書処理装置
JP3187671B2 (ja) 電子辞書表示装置
JPH05307566A (ja) 並列処理型内容検索装置
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
JP2975529B2 (ja) 電子化辞書検索装置
JPH08153112A (ja) 文書作成装置及び文書作成方法
JP3360308B2 (ja) 文字列検索方法および装置
JPH03118661A (ja) 単語検索装置
JP2001010146A (ja) 書式指定印刷システムおよび方法
JP2000339317A (ja) リンク情報とキーワードの関連度計算方法、装置、及びその方法を記憶した記録媒体
CN110347804A (zh) 一种线性时间复杂度的敏感信息检测方法
JPH06162083A (ja) 文字列検索装置
JPH06139279A (ja) 検索装置
JPH0245874A (ja) Cd−rom検索装置