JPH0799521B2 - Similar character string search device - Google Patents

Similar character string search device

Info

Publication number
JPH0799521B2
JPH0799521B2 JP62057957A JP5795787A JPH0799521B2 JP H0799521 B2 JPH0799521 B2 JP H0799521B2 JP 62057957 A JP62057957 A JP 62057957A JP 5795787 A JP5795787 A JP 5795787A JP H0799521 B2 JPH0799521 B2 JP H0799521B2
Authority
JP
Japan
Prior art keywords
item
similarity
character string
keyword
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62057957A
Other languages
Japanese (ja)
Other versions
JPS63225857A (en
Inventor
竜男 太田
俊二 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62057957A priority Critical patent/JPH0799521B2/en
Publication of JPS63225857A publication Critical patent/JPS63225857A/en
Publication of JPH0799521B2 publication Critical patent/JPH0799521B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔概要〕 この発明は、入力文字列から切り出したキーワードに類
似する登録されている項目を検索する類似文字列検索装
置において、データベース中から所望の項目を選択する
場合に、メニュー選択方式を採用して複数ページに渡っ
て設けられたメニューから所望のものを選択したので
は、その選択が極めて煩雑となってしまう問題があり、
また、入力した文字列を認識してデータベース中の所望
の項目を選択させたのでは、言語認識のためのシステム
が大きくかつ煩雑となってしまう問題を解決するため、
入力文字列から切り出したキーワードに対して、データ
ベース中に階層化して設けた注目する項目から所定レベ
ル下位の項目のうち最も類似しているものを検出し、次
にこれに注目して繰り返し実行して所望の項目を検索す
ることにより、入力文字列から切り出したキーワードに
対して、データベースのデータ構造に関連づけた類似す
る所望の項目を検索するようにしている。
DETAILED DESCRIPTION OF THE INVENTION [Outline] The present invention is a similar character string search device that searches for registered items similar to a keyword cut out from an input character string, when a desired item is selected from a database. However, if a desired one is selected from a menu provided over a plurality of pages by adopting a menu selection method, there is a problem that the selection becomes extremely complicated,
Moreover, in order to solve the problem that the system for language recognition becomes large and complicated if the input character string is recognized and the desired item in the database is selected,
With respect to the keyword cut out from the input character string, the most similar item among the items of a predetermined level lower than the item of interest provided hierarchically in the database is detected, and then this item is focused and repeated. By searching for a desired item with the keyword, a similar desired item associated with the data structure of the database is searched for the keyword cut out from the input character string.

〔産業上の利用分野〕 本発明は、入力文字列から切り出したキーワードに対し
て、データベース中に階層化して設けた項目から最も類
似している項目を検出して所望の項目を検索し得るよう
構成した類似文字列検索装置に関するものである。
[Industrial field of application] The present invention enables a desired item to be searched for by detecting the most similar item from the items hierarchically provided in a database for a keyword cut out from an input character string. The present invention relates to a configured similar character string search device.

〔従来の技術と発明が解決しようとする問題点〕[Problems to be solved by conventional technology and invention]

従来、データベース中に登録されているデータを読み出
すため、あるいは追加、修正するために、その対象とな
る項目を指定する必要があり、メニュー選択方式、自然
言語入力方式などがある。
Conventionally, in order to read the data registered in the database, or to add or modify it, it is necessary to specify the target item, and there are a menu selection method, a natural language input method, and the like.

メニュー選択方式は、データベース中に登録されている
データに付された項目を全て表示させ、そのうちから所
望のページ中の所望の項目をキー入力して指定するもの
である。この方式では、メニュー画面に表示すべき項
目数が多量になってしまうと共に、複数ページに渡っ
て順次所望のものを順次キー入力して選択する必要があ
り、項目選択のための操作が極めて煩雑となってしまう
という問題点があった。
In the menu selection method, all the items attached to the data registered in the database are displayed, and a desired item in a desired page is designated by key input from the displayed items. With this method, the number of items to be displayed on the menu screen becomes large, and it is necessary to sequentially key in and select desired items over a plurality of pages, which makes the operation for selecting items extremely complicated. There was a problem that became.

また、自然言語入力方式は、入力された文字列を言語認
識する必要があり、システムが大きくなってしまうと共
に、形態素解析などのためのCPU負荷が大きくなってし
まうという問題点があった。
In addition, the natural language input method has a problem in that it is necessary to recognize the input character string in a language, the system becomes large, and the CPU load for morphological analysis becomes large.

〔問題点を解決するための手段〕[Means for solving problems]

本発明は、前記問題点を解決するために、入力文字列か
ら切り出したキーワードに対応する候補となる項目とし
て、データベース中の注目している項目から所定レベル
下位の階層までの全ての項目を順次読み出す読出し部4
と、この読み出し部4によって読み出した項目と、キー
ワードとの類似度を算出する類似度算出部5と、この類
似度算出部5によって算出された類似度に基づいて、項
目を特定する項目特定部6とを設け、この項目特定部6
によって特定された項目に注目し、これから所定レベル
下位の階層までの全ての項目を読み出し、次のキーワー
ドとの類似度を算出して項目を特定することを繰り返し
実行し、所望の項目を検索するようにしている。
In order to solve the above problems, the present invention sequentially selects all items from a focused item in a database to a hierarchy lower than a predetermined level as candidate items corresponding to a keyword cut out from an input character string. Readout unit 4
An item read by the reading unit 4, a similarity calculation unit 5 for calculating the similarity with the keyword, and an item specifying unit for specifying the item based on the similarity calculated by the similarity calculation unit 5. 6 and the item specifying unit 6
Pay attention to the item specified by, read all items up to a predetermined level lower hierarchy, calculate the degree of similarity with the next keyword and specify the item repeatedly, and search for the desired item. I am trying.

第1図は本発明の原理構成図を示す。図中キー分解部1
は、入力文例えば“ESHELLのデモのプラント其を開発し
たのは?"からキーワード例えば“ESHELL"、“デモ”、
“プラント其”、および“開発”を切り出すものであ
る。
FIG. 1 shows the principle configuration of the present invention. Key disassembly unit 1 in the figure
Is an input sentence such as "Why did you develop the plant for the demo of ESHELL?" From keywords such as "ESHELL", "Demo",
"Plant" and "development" are cut out.

コマンド決定部2は、キー分解部1によって入力文から
切り出したキーワードからコマンド(検索、登録、更
新、削除など)を決定するものである。
The command determination unit 2 determines a command (search, registration, update, deletion, etc.) from the keyword cut out from the input sentence by the key decomposition unit 1.

項目検索部3は、データ7中からキーワードに対応する
項目を検索するものであって、4ないし6から構成され
ている。
The item search unit 3 searches the data 7 for an item corresponding to a keyword, and is composed of 4 to 6.

読出し部4は、データ7中の注目している項目から下位
の所定レベルまでの階層に登録されている全ての項目を
順次読み出すものである。
The reading unit 4 sequentially reads all items registered in the hierarchy from the focused item in the data 7 to a predetermined lower level.

類似度算出部5は、キーワードに対して、読出し部4に
よってデータ7中から読み出した項目の類似度を夫々算
出し、最大類似度およびこの時の文字列(項目の文字
列)を類似テーブル8に格納するものである。
The similarity calculating unit 5 calculates the similarity of each item read from the data 7 by the reading unit 4 for the keyword, and calculates the maximum similarity and the character string (character string of the item) at this time in the similarity table 8. To be stored in.

項目特定部6は、類似度算出部5によって算出された最
大類似度およびこの時の最大類似文字列に基づいて、キ
ーワードに対応する項目を特定するものである。
The item specifying unit 6 specifies an item corresponding to the keyword based on the maximum similarity calculated by the similarity calculating unit 5 and the maximum similar character string at this time.

データ7は、データベース中に格納されている項目など
である。
The data 7 is items and the like stored in the database.

類似テーブル8は、類似度算出部5によって算出された
最大類似度およびこの時の最大類似文字列を格納するも
のである。
The similarity table 8 stores the maximum similarity calculated by the similarity calculator 5 and the maximum similar character string at this time.

〔作用〕[Action]

次に、動作を説明する。 Next, the operation will be described.

第1図において、入力文例えばESHELLのデモのプラント
其を開発したのは?"が入力されたキー分解部1は、キー
ワードに分解、例えば“開発”、“プラント其”、“デ
モ”、および“ESHELL"に分解してコマンド決定部2に
通知する。これらキーワードの通知を受けたコマンド決
定部2は、コマンドを決定、例えばキーワード中の先頭
の“開発”に基づいて、入力文に対して実行する処理を
検索(検索コマンド)と決定し、項目検索部3に通知す
る。項目検索部3を構成する読出し部4は、キーワード
に対応する候補項目例えば注目する項目から2レベル下
位までの全ての項目をデータ7中から順次読み出して類
似度算出部5に通知する。類似度算出部5は、この通知
を受けた項目に対するキーワードとの類似度を夫々算出
し、最大類似度の値およびこの時の項目の文字列を類似
テーブル8に格納する。項目特定部6は、この類似テー
ブル8に格納された最大類似度およびこの時の最大類似
文字列に基づいて、注目すべき項目を特定する。以下同
様に、次のキーワードについてこの注目している項目か
ら下位2レベルまでの全ての項目を読み出し、その最大
類似度およびこの時の最大類似文字列を類似テーブル8
に格納して、該当する項目を特定する。
In FIG. 1, an input sentence, for example, "Have you developed the plant for the demo of ESHELL?" Is input, and the key decomposition unit 1 decomposes into keywords, such as "development", "plant", "demo" The command is decomposed into "ESHELL" and notified to the command determination unit 2. The command determination unit 2 that has received the notification of these keywords determines the command, for example, based on the "development" at the beginning of the keyword, with respect to the input sentence. The process to be executed is determined to be a search (search command) and is notified to the item search unit 3. The reading unit 4 configuring the item search unit 3 detects all candidate items corresponding to the keyword, for example, the item of interest to the second lower level. Items are sequentially read out from the data 7 and notified to the similarity calculation unit 5. The similarity calculation unit 5 calculates the similarity with the keyword for each of the notified items, and calculates the maximum similarity value and the maximum similarity value. The character string of the item at this time is stored in the similarity table 8. The item specifying unit 6 specifies the noteworthy item based on the maximum similarity stored in the similarity table 8 and the maximum similar character string at this time. Similarly, all the items from the item of interest to the lower two levels are read for the next keyword, and the maximum similarity and the maximum similar character string at this time are stored in the similarity table 8.
And specify the corresponding item.

以上のように、入力文から切り出したキーワードについ
て、順次注目する項目から所定レベル下位の階層までの
全ての項目を読み出し、最も類似している項目を特定
し、次にこの特定した項目に注目して同様に繰り返し最
も類似する項目を特定することにより、簡単なシステム
を用いて入力文から切り出したキーワードに最も類似す
る項目を容易に検索することが可能となる。
As described above, with respect to the keywords cut out from the input sentence, all the items from the item of interest to the hierarchy lower by a predetermined level are sequentially read out, the most similar item is specified, and then the specified item is focused. Similarly, by repeatedly specifying the most similar item, it becomes possible to easily search the item most similar to the keyword cut out from the input sentence using a simple system.

〔実施例〕〔Example〕

次に、第2図ないし第10図を用いて本発明の1実施例の
構成および動作を順次詳細に説明する。
Next, the configuration and operation of one embodiment of the present invention will be sequentially described in detail with reference to FIGS. 2 to 10.

第2図は本発明の概念説明図を示す。これは、ディスプ
レイ9上の図中(a)入力文に示すように、キーボード
から入力文“リレヒショナルDBの検索ツールはないです
か”をキー入力した場合の動作および表示を示したもの
である。
FIG. 2 is a conceptual explanatory view of the present invention. This shows the operation and display when the input sentence "Is there a search tool for reletional DB?" Is input from the keyboard as shown in (a) Input sentence on the display 9.

図中キーに分解は、図中(a)入力文から「リレヒシ
ョナルDB」および、「検索ツール」を切り出してキーワ
ードに分解する状態を示す。
The “decompose to key” in the figure shows a state in which “relational DB” and “search tool” are cut out from the input sentence in (a) and decomposed into keywords.

図中マッチングは、図中で分解したキーワードの
「検索ツール」に対応する最も類似する項目「ツール」
を特定する状態を示す。これは、後述するように、デー
タベースのデータ構造中に登録されている項目のうち、
最も類似度の高いものを選択することを意味している。
Matching in the figure is the most similar item "tool" corresponding to the "search tool" of the decomposed keyword in the figure
Indicates the state of identifying. Of the items registered in the data structure of the database, as described later,
This means selecting the one with the highest degree of similarity.

図中マッチングは、図中で分解した次のキーワード
の「リレヒショナルDB」に対応する最も類似する項目
「RDB」(これは別名として「リレーショナルDB」と登
録されている)を選択する状態を示す。
Matching in the figure shows a state in which the most similar item “RDB” (this is registered as an alias “relational DB”) corresponding to the next keyword “relational DB” decomposed in the figure is selected.

以上のマッチングによって、入力文から切り出したキー
ワードとのマッチングが終了したので、この項目“RDB"
(別名“リレーショナルDB")に関連つけて登録してあ
る情報が、ディスプレイ9上に図中(b)表示(1)に
示すように表示される。ユーザは、この図中(b)表示
(1)に示す情報“RDBに関するツールは以下のものが
あります”というメニューに対応して、例えば番号“1"
をキー入力する。これにより、図中(c)表示(2)に
示す情報“Xは〜するためのツールです”などの情報を
検索することができる。
By the above matching, the matching with the keyword cut out from the input sentence is completed, so this item "RDB"
Information registered in association with (alias “relational DB”) is displayed on the display 9 as shown in FIG. The user corresponds to the information "Tools related to RDB include the following" menu shown in (b) display (1) in this figure, for example, the number "1"
Key in. As a result, information such as the information “X is a tool for doing” shown in (c) display (2) in the figure can be searched.

以上のように、入力文が正確に入力されなくても、入力
文から切り出したキーワードに最も類似する項目が順次
特定され、所望の情報を検索して表示などさせることが
できる。
As described above, even if the input sentence is not accurately input, items most similar to the keywords cut out from the input sentence can be sequentially specified, and desired information can be searched and displayed.

次に、第3図を用いて第1図構成の動作を詳細に説明す
る。
Next, the operation of the configuration shown in FIG. 1 will be described in detail with reference to FIG.

第3図において、図中は、入力文を入力する状態を示
す。
In FIG. 3, the figure shows a state in which an input sentence is input.

図中は、キーワードに分解する状態を示す。これは、
図中でキー分解部1に入力された入力文例えば第4図
(イ)に示す“ESHELLのデモのプラント其を開発したの
は?"の入力文を、第4図(イ)キーワードに示すように
“開発”、“プラント其”、“デモ”、および“ESHEL
L"からなるキーリストに分解することを意味している。
尚この分解は入力文に対して逆順となっている。同様
に、第5図(イ)に示すように、入力文をキーワードに
分解する。
The figure shows a state of being decomposed into keywords. this is,
Input sentence input to the key decomposition unit 1 in the figure. For example, the input sentence "Why did you develop the plant for the demonstration of ESHELL?" Shown in Fig. 4 (a) is shown in Fig. 4 (a) keyword. "Development", "Plant Part", "Demo", and "ESHEL"
It means to decompose into a key list consisting of L ".
Note that this decomposition is in reverse order to the input sentence. Similarly, the input sentence is decomposed into keywords as shown in FIG.

図中は、コマンドを決定する状態を示す。これは、図
中で分解したキーリストの先頭が、登録、更新、削除
(およびその別名)の時、その対応するコマンドを実行
すると共に、キーリストの先頭を削除することを意味し
ている。例えば第5図(イ)キーリストの先頭が“登
録”であるから、第5図(ロ)に示すように、登録を実
行すると共に、キーリスト中から当該“登録”を削除し
ておく。一方、それ以外の時、例えば第4図(イ)キー
ワードの先頭が“開発”などの時、第4図(ロ)に示す
ように、検索を実行する。このとき、キーリストの先頭
の削除は行わない。
The figure shows the state in which a command is determined. This means that when the head of the key list decomposed in the figure is registration, update, or deletion (and its alias), the corresponding command is executed and the head of the key list is deleted. For example, since the head of the key list in FIG. 5 (a) is "registration", the registration is executed and the "registration" is deleted from the key list as shown in FIG. 5 (b). On the other hand, in other cases, for example, when the beginning of the keyword in FIG. 4 (a) is "development", the search is executed as shown in FIG. 4 (b). At this time, the top of the key list is not deleted.

図中は、初期設定を行う状態を示す。これは、第1図
類似テーブル8中の最大類似度“0.0"、最大類似文字列
“ ”(これは空っぽの文字列を意味する)に初期設定
する状態を示す。
The figure shows a state in which initial setting is performed. This shows a state in which the maximum similarity “0.0” and the maximum similar character string “” (this means an empty character string) in the similarity table 8 in FIG. 1 are initialized.

図中は、選択対象のキーリストが空きか否かを判別す
る状態を示す。これは、入力文を分解し、登録などの場
合にこれを削除したキーリスト例えば第4図(ハ)およ
び第5図(ハ)に示すキーリスト10-1、11-1について、
全て類似度を判断し、削除されて空きになったか否かを
判別することを意味している。YESの場合には、終了す
る(END)。NOの場合には、図中を実行する。
The figure shows a state in which it is determined whether or not the key list to be selected is empty. This is the key list that decomposes the input sentence and deletes it in the case of registration, for example, for key lists 10-1 and 11-1 shown in FIGS. 4 (c) and 5 (c),
This means that all the similarities are judged, and it is judged whether or not they are deleted and become empty. If YES, end (END). If NO, execute in the figure.

図中は、類似度を算出する状態を示す。この類似度
は、第4図(ハ)キーリスト10-1中のキーワード“ESHE
LL"から矢印を用いて示すように、注目する項目例えば
“優れ”から下位2レベルまでの階層に登録されている
全ての項目(注目する項目は既に特定されているので除
く、以下同じ)に対して類似度を算出することを意味し
ている(第6図ないし第8図を用いて後述する)。
The figure shows a state in which the degree of similarity is calculated. This similarity is determined by the keyword “ESHE” in the key list 10-1 in FIG.
As indicated by the arrow from LL ", the item of interest, for example, all items registered in the hierarchy from" excellent "to the lower two levels (except the item of interest has already been specified, the same applies below). On the other hand, it means calculating the degree of similarity (which will be described later with reference to FIGS. 6 to 8).

図中は、類似度が最大類似度よりも大きいか否かを判
別する状態を示す。これは、図中で算出した類似度
が、第1図類似テーブル8に格納してある最大類似度よ
りも大きいか否かを判別することを意味している。YES
の場合には、図中で図中で算出した類似度を第1図
類似テーブル8中の最大類似度にし、かつその時の項目
を最大類似文字列にし、図中以下を繰り返す。NOの場
合には、図中以下を繰り返す。
The figure shows a state in which it is determined whether or not the similarity is higher than the maximum similarity. This means that it is determined whether or not the similarity calculated in the drawing is larger than the maximum similarity stored in the FIG. 1 similarity table 8. YES
In the case of, the similarity calculated in the drawing is set to the maximum similarity in the FIG. 1 similarity table 8, the item at that time is set to the maximum similar character string, and the following steps in the drawing are repeated. If NO, repeat the following in the figure.

以上の手順によって、第1図類似テーブル8中には、キ
ーワードに最も類似した最大類似度と、この最大類似度
を持つ最大類似文字列(項目)とが格納される。具体的
に説明すると、例えば、第4図(ハ)キーリスト10-1中
の第1のキーワード“ESHELL"に対して、矢印を用いて
示すように、注目する項目“優れ”から2階層下の“ES
HELL"というキー(項目)の別名として登録してある半
角の“ESHELL"が最も類似(マッチ)する。第2のキー
ワード“デモ”に対して、矢印を用いて示すように、注
目する項目“ESHELL"の1階層下の“デモプロ”という
キー(項目)が最も類似する。第3のキーワード“プラ
ント其”に対して、矢印を用いて示すように、注目する
項目“デモプロ”の1階層下に“石油プラント生産計
画”というキー(項目)が最も類似する。更に、第4図
(ニ)に示すように、第4のキーワード“開発”に対し
て、矢印を用いて示すように、“石油プラント生産計
画”の情報に含まれる“開発元、開発工数などの項目が
最も類似する。
By the above procedure, the maximum similarity that is most similar to the keyword and the maximum similar character string (item) having this maximum similarity are stored in the similarity table 8 in FIG. More specifically, for example, for the first keyword “ESHELL” in the key list 10-1 in FIG. Of “ES
The half-width "ESHELL" registered as an alias for the key (item) "HELL" is the most similar (match). As shown by the arrow to the second keyword "demo", the item of interest " The key (item) "DemoPro" one level below ESHELL is the most similar. As shown by the arrow for the third keyword "Plant No.", one level below the item "DemoPro" to be noted. Is most similar to the key (item) of “Petroleum plant production plan.” Further, as shown in FIG. Items such as "developer, development man-hours" included in the information of "oil plant production plan" are most similar.

また、第5図(ハ)の場合には、第5図(ロ)で登録コ
マンドが抽出され、登録を実行するものと決定されてい
るので、まず、登録したい対象データを図示のように
“プラント故障診断”と決定する。次に、キーリスト11
-1中の第1のキーワード“ESHELL"に対して、矢印を用
いて示すように、注目する項目“優れ”から2階層下の
“ESHELL"というキー(項目)の別名として登録してあ
る半角の“ESHELL"が最も類似(マッチ)する。以上に
よって、キーリスト11-1中にマッチすべきキーワードが
無くなった(空きになった)ので、第5図(ニ)に示す
ように、この“ESHELL"から下位に示される項目“デモ
プロ”の下に項目“プラント故障診断”を新たに登録す
ると共にパスでつなぐ。更に、この項目“プラント故障
診断”に対する対象データに対しても、図示のようにパ
スでつなぐ。
Further, in the case of FIG. 5C, the registration command is extracted in FIG. 5B and it is determined that the registration is to be executed. Plant fault diagnosis ". Then keylist 11
-For the first keyword "ESHELL" in -1, as indicated by the arrow, a half-width character that is registered as an alias for the key (item) named "ESHELL" two levels below the item of interest "excellent""ESHELL" is the most similar (match). As a result, there are no more keywords to match in the key list 11-1 (it became empty), so as shown in Fig. 5 (d), the item "DemoPro" shown below this "ESHELL" Register the item "plant fault diagnosis" below and connect it with a path. Further, the target data for this item "plant fault diagnosis" is also connected by a path as shown in the figure.

第6図ないし第8図を用いてキーによるデータ検索につ
いて具体的に説明する。
The data search by the key will be specifically described with reference to FIGS. 6 to 8.

第6図図中“FOCUS"は注目している項目、SUBIは注目し
ている“FOCUS"から1レベル下位の階層の項目、SSUBI
は注目している“FOCUS"から2レベル下位の階層の項目
を表す。NEWFOCUSは、最も類似度の高い項目を求めた結
果に基づいて、新たにFOCUSと特定して次のデータ検索
を行うための注目する項目である。図中黒丸“●”の部
分がマッチした項目である。以下第7図検索フローを用
いて説明する。
In Fig. 6, "FOCUS" is the item of interest, SUBI is the item one level below the "FOCUS" of interest, and SSUBI.
Indicates an item in a layer two levels below the focused "FOCUS". NEWFOCUS is an item of interest for newly specifying FOCUS and performing the next data search based on the result of obtaining the item with the highest degree of similarity. The black circles "●" in the figure are the matched items. This will be described below using the search flow of FIG.

第7図において、図中(1)に記述した“SUBI、SSUBI
共にキーとマッチする項目があったとき”、かつ“SUBI
の項目の方がSSUBIの項目よりもキーとの類似度が高い
とき”、かつ“SSUBIの項目がSUBIの項目の下位にあれ
ば”、“SUBIを確定し、SSUBIを新たなFOCUSとして処理
を続ける”(第6図(イ))。第6図(イ)図中黒丸が
マッチしたものであって、SSUBI中の黒丸の項目を新た
な注目点(NEWFOCUS)と特定する様子を示す。
In FIG. 7, “SUBI, SSUBI described in (1) in the figure
When there is an item that matches the key together, and "SUBI
Item has a higher degree of similarity with the key than the item of SSUBI ”, and“ If the item of SSUBI is lower than the item of SUBI ”,“ SUBI is confirmed and SSUBI is processed as a new FOCUS. Continue ”(Fig. 6 (a)). Fig. 6 (a) shows that the black circles match, and the black circles in SSUBI are identified as new attention points (NEWFOCUS).

以下同様に、第7図図中に示す論理を適用して、右側に
示す第6図(ロ)ないし(ホ)図中にNEWFOCUSと記載し
た項目を新たな注目する項目として特定する。
Similarly, by applying the logic shown in FIG. 7, the item described as NEWFOCUS in FIGS. 6B to 6E on the right side is specified as a new item of interest.

以上のように、第7図に示す検索フローを用いて特定し
た項目を、新たな注目する項目として順次検索すること
により、関連づけられて登録されているデータ中から類
似する項目を容易に見つけ出すことが可能となる。
As described above, the items specified using the search flow shown in FIG. 7 are sequentially searched as new items of interest, so that similar items can be easily found from the associated and registered data. Is possible.

第8図は、“故障の診断”と、“スタッカクレーン故障
診断”との類似度算出の具体例を示す。
FIG. 8 shows a specific example of the similarity calculation between the “fault diagnosis” and the “stacker crane fault diagnosis”.

図中(a)は、類似度を算出する「故障診断」と、「ス
タッカクレーン故障診断」とを第1図類似度算出部5に
入力する状態を示す。
In the figure, (a) shows a state in which the "fault diagnosis" for calculating the similarity and the "stacker crane fault diagnosis" are input to the similarity calculation unit 5 in FIG.

図中(b)は、評価点を算出する状態を示す。これは、
下式を用いて評価点を算出することを意味している。
In the figure, (b) shows a state in which evaluation points are calculated. this is,
This means that the evaluation score is calculated using the following formula.

評価点=1/(短い文字列の文字数) ……(1) 本例の場合には、短い文字列“故障の診断”が5文字で
あるから、式(1)にこの値“5"を代入して評価点=0.
2が求まる。
Evaluation point = 1 / (number of characters in short character string) (1) In this example, since the short character string “fault diagnosis” has 5 characters, this value “5” is added to the expression (1). Substitute and evaluate points = 0.
2 is obtained.

図中(c)は、初期設定する状態を示す。これは、第1
図類似テーブル8中の最大類似度=0.0にセットするこ
とを意味している。
In the figure, (c) shows a state of initial setting. This is the first
This means that the maximum similarity in the figure similarity table 8 is set to 0.0.

図中(d)は、“故障”が、一致し、その類似度を算出
する状態を示す。この類似度(n)は、下式を用いて算
出する。
In the figure, (d) shows a state in which the “fault” matches and the degree of similarity is calculated. This similarity (n) is calculated using the following formula.

類似度(n)=類似度(n−1)+部分類似度−(類似
度(n−1)×部分類似度) ……(2) 本例の場合には、 類似度(1)=0.0+0.2×2−0.0×0.2×2 =0.4 ここで、式(2)に代入する部分類似度は、式(1)を
用いて算出した評価点“0.2"に対し、一致した部分文字
列“故障”の長さ“2"を乗算したものである。
Similarity (n) = similarity (n−1) + partial similarity− (similarity (n−1) × partial similarity) (2) In this example, similarity (1) = 0.0 + 0.2 × 2-0.0 × 0.2 × 2 = 0.4 Here, the partial similarity substituted into the equation (2) is a partial character string that matches the evaluation score “0.2” calculated using the equation (1). It is the length of the "fault" multiplied by "2".

図中(e)は、次の文字列“診断”が、一致し、その類
似度を式(2)を用いて算出する状態を示す。
In the figure, (e) shows a state in which the next character string “diagnosis” matches and the degree of similarity is calculated using equation (2).

類似度(2)=0.4+0.2×2−0.4×0.2×2 =0.64 図中(f)は、2つの文字列の長さ(文字数)の差を考
慮して類似度を算出する状態を示す。ここで、式(2)
に代入する部分類似度は、定数例えば“0.3"を2つの文
字列の長さの差(12−5+1)で割算したものである。
Similarity (2) = 0.4 + 0.2 × 2-0.4 × 0.2 × 2 = 0.64 In the figure (f), the similarity is calculated in consideration of the difference in the length (the number of characters) of the two character strings. Show. Here, the formula (2)
The partial similarity substituted for is a constant, for example "0.3", divided by the difference (12-5 + 1) in the length of two character strings.

類似度(3)=0.64+0.3/(12−5+1)−0.64×0.3/
(12−5+1)=0.65 以上の手順によって、両者の類似度(3)は、0.65と算
出され、閾値を例えば0.6と設定すれば、マッチしたも
のとみなされる。
Similarity (3) = 0.64 + 0.3 / (12-5 + 1) −0.64 × 0.3 /
(12−5 + 1) = 0.65 By the above procedure, the similarity (3) between the two is calculated as 0.65, and if the threshold value is set to, for example, 0.6, it is regarded as a match.

次に、第9図および第10図を用いて実行例を説明する。Next, an execution example will be described with reference to FIGS. 9 and 10.

第9図において、図中(a)を用いて示す入力文“ファ
イルを扱う関数は?"をキー入力すると、キーワードとし
て“ファイル”および“関数”が切り出されデータ構造
を辿って図中(b)表示(1)を用いて示すFG:COPYFIL
E″というデータに至り、ディスプレイ上に図示のよう
に表示される。更にその内容が、図中(c)表示(2)
に示すように表示される。このように、入力文から最も
類似する項目が表示されると共に、その内容が表示され
るので、データベースを検索する場合の文字入力が極め
て容易になる。
In Fig. 9, when the input sentence "Which function handles a file?" Shown in Fig. 9A is keyed in, "File" and "Function" are cut out as keywords, and the data structure is traced (b) ) Display using (1) FG: COPYFIL
The data "E" is reached and displayed on the display as shown in the figure. Furthermore, the contents are displayed in (c) in the figure (2).
It is displayed as shown in. In this way, the most similar item is displayed from the input sentence and the content thereof is displayed, so that character input when searching the database becomes extremely easy.

第10図(イ)は、“出力処理”に対して、最も類似して
いる項目“入出力処理”を求めたもの(NEAREST)であ
って、既述した手順を用いて算出したものである。これ
は、図中リスト処理、文字列処理、入出力処理、編集処
理、プログラム管理、データタイプ変換、判定の項目の
うちで、“出力処理”に対して、最も類似しているのが
“入出力処理”であって、その類似度は0.68である旨を
表す。
FIG. 10 (a) shows the most similar item "input / output processing" to "output processing" (NEAREST), which is calculated using the procedure described above. . Of the list processing, character string processing, input / output processing, editing processing, program management, data type conversion, and determination items in the figure, the most similar item to "output processing" is "input." Output processing ”, and the similarity is 0.68.

第10図(ロ)は、“出力処理”が“リスト処理”に類似
している類似度は、0.19である旨を表している。これ
は、第10図(イ)に示す類似度よりも小さい。
FIG. 10 (B) shows that the degree of similarity that "output processing" is similar to "list processing" is 0.19. This is smaller than the degree of similarity shown in FIG.

第10図(ハ)は、同様に、“入出力処理”が“入出力処
分”に類似している類似度は0.70、“入力処理”が“入
力処分”に類似している類似度は0.41である旨を表す。
Similarly, in Fig. 10 (c), the similarity between "input / output processing" and "input / output disposal" is 0.70, and the similarity between "input processing" and "input disposal" is 0.41. It means that.

以上のうち、閾値を例えば0.6と設定すれば、“出力処
理”が“入出力処理”にマッチング(合致)し、“入出
力処理”が“入出力処分”にマッチングするものと判別
され、これらの項目がディスプレイ上に表示されると共
に、関連づけて登録されている内容などが表示される。
Of the above, if the threshold value is set to, for example, 0.6, it is determined that “output processing” matches (input / output processing) and “input / output processing” matches “input / output disposal”. Item is displayed on the display, and the contents registered in association with each other are displayed.

〔発明の効果〕〔The invention's effect〕

以上説明したように、本発明によれば、入力文字列から
切り出したキーワードに対して、データベース中に階層
化して設けた項目中の注目する項目から所定レベル下位
の項目のうちで最も類似している項目を特定し、次にこ
の特定した項目に注目して順次検索する構成を採用して
いるため、入力文字列から切り出したキーワードに対し
て、データベースのデータ構造に関連づけられた類似す
る項目を簡易なシステムを用いて容易に検索することが
できる。
As described above, according to the present invention, a keyword cut out from an input character string is most similar to a keyword lower than a focused item among items hierarchically provided in a database. Since a configuration is adopted in which the specified item is specified and then the specified item is focused and sequentially searched, similar items related to the data structure of the database are searched for the keywords cut out from the input character string. It can be easily searched using a simple system.

【図面の簡単な説明】 第1図は本発明の原理構成図、第2図は本発明の概念説
明図、第3図は本発明の動作説明フローチャート、第4
図および第5図は本発明の動作説明図、第6図はキーに
よるデータ検索説明図、第7図はキーによるデータ検索
フロー、第8図は類似度算出例、第9図および第10図は
実行例を示す。 図中、1はキー分解部、2はコマンド決定部、3は項目
検索部、4は読出し部、5は類似度算出部、6は項目特
定部、7はデータ、8は類似テーブル、9はディスプレ
イ、10-1、10-2、11-1はキーリストを表す。
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a principle configuration diagram of the present invention, FIG. 2 is a conceptual explanatory diagram of the present invention, FIG. 3 is an operation explanatory flowchart of the present invention, and FIG.
FIGS. 5 and 5 are explanatory diagrams of the operation of the present invention, FIG. 6 is an explanatory diagram of data retrieval by keys, FIG. 7 is a data retrieval flow by keys, FIG. 8 is a similarity calculation example, FIGS. 9 and 10. Shows an execution example. In the figure, 1 is a key decomposing unit, 2 is a command determining unit, 3 is an item searching unit, 4 is a reading unit, 5 is a similarity calculating unit, 6 is an item specifying unit, 7 is data, 8 is a similarity table, 9 is a similarity table. The displays, 10-1, 10-2, and 11-1 represent key lists.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】入力された文字列中からキーワードを抽出
するキーワード抽出部と、 階層的構造を持つデータベース中の注目している項目か
ら所定の複数レベル下位の階層までの全ての項目を順次
読み出す読出し部(4)と、 この読み出し部(4)によって読み出した項目と、キー
ワードとの類似度を算出する類似度算出部(5)と、 この類似度算出部(5)によって算出された類似度に基
づいて、項目を特定する項目特定部(6)とを備えたこ
とを特徴とする類似文字列検索装置。
1. A keyword extraction unit for extracting a keyword from an input character string, and sequentially reading all items from a focused item in a database having a hierarchical structure up to a predetermined lower level of a plurality of levels. A reading unit (4), an item read by the reading unit (4), a similarity calculation unit (5) for calculating the similarity with the keyword, and a similarity calculated by the similarity calculation unit (5). A similar character string search device comprising: an item specifying unit (6) for specifying an item based on
JP62057957A 1987-03-14 1987-03-14 Similar character string search device Expired - Lifetime JPH0799521B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62057957A JPH0799521B2 (en) 1987-03-14 1987-03-14 Similar character string search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62057957A JPH0799521B2 (en) 1987-03-14 1987-03-14 Similar character string search device

Publications (2)

Publication Number Publication Date
JPS63225857A JPS63225857A (en) 1988-09-20
JPH0799521B2 true JPH0799521B2 (en) 1995-10-25

Family

ID=13070501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62057957A Expired - Lifetime JPH0799521B2 (en) 1987-03-14 1987-03-14 Similar character string search device

Country Status (1)

Country Link
JP (1) JPH0799521B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100495398C (en) * 2006-03-30 2009-06-03 国际商业机器公司 Method for searching order in file system and correlation search engine

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6128134A (en) * 1984-07-18 1986-02-07 Nec Corp Symbol string collecting device and its control system
JPS61267129A (en) * 1985-05-22 1986-11-26 Hitachi Ltd Accumulating and retrieving system for hierarchical tree structure type data

Also Published As

Publication number Publication date
JPS63225857A (en) 1988-09-20

Similar Documents

Publication Publication Date Title
WO2009154153A1 (en) Document search system
WO2015084759A1 (en) Systems and methods for in-memory database search
JPH09153061A (en) Method and device for document retrieval
JP6577692B1 (en) Learning system, learning method, and program
JP2011248596A (en) Searching system and searching method for picture-containing documents
JP2007047974A (en) Information extraction device and information extraction method
EP3553696B1 (en) Generating a structured document based on a machine readable document and artificial intelligence-generated annotations
CN106570196B (en) Video program searching method and device
JPH0484271A (en) Intra-information retrieval device
JP2012230544A (en) Image retrieval device and program
JP2014102625A (en) Information retrieval system, program, and method
JP2007279978A (en) Document retrieval device and document retrieval method
JP7427510B2 (en) Information processing device, information processing method and program
JPH09245052A (en) Structured document processor
JPH0799521B2 (en) Similar character string search device
JPH11231998A (en) Help display device and medium recording help display program
JPH1145252A (en) Information retrieval device and computer readable recording medium for recording program for having computer function as the same device
JP2001325104A (en) Method and device for inferring language case and recording medium recording language case inference program
JPH1166078A (en) Retrieval request embodiment method/device and storage medium storing retrieval, request embodiment program
JP4573358B2 (en) Reputation information retrieval apparatus, method and program thereof
JPH0727532B2 (en) Information retrieval method and system
KR102593884B1 (en) System and method for automatically generating documents and computer-readable recording medium storing of the same
JPH06195371A (en) Unregistered word acquiring system
JP2002149670A (en) Method and device for classifying information
Bosman et al. Documentation, cataloging, and query by navigation: A practical and sound approach

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term