JP4936650B2 - Similar word search device, method thereof, program thereof, and information search device - Google Patents
Similar word search device, method thereof, program thereof, and information search device Download PDFInfo
- Publication number
- JP4936650B2 JP4936650B2 JP2004217628A JP2004217628A JP4936650B2 JP 4936650 B2 JP4936650 B2 JP 4936650B2 JP 2004217628 A JP2004217628 A JP 2004217628A JP 2004217628 A JP2004217628 A JP 2004217628A JP 4936650 B2 JP4936650 B2 JP 4936650B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- information
- input
- similar
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 54
- 238000004364 calculation method Methods 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 40
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 18
- 238000010295 mobile communication Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 72
- 238000004891 communication Methods 0.000 description 25
- 238000006243 chemical reaction Methods 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000013332 literature search Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Description
本発明は、入力される単語に類似する単語を検索する類似単語検索装置、その方法、そのプログラム、および、情報検索装置に関する。 The present invention, similar word search device for searching for a word that is similar to a word to be input, the method, the program, you and an information retrieval device.
従来、入力される単語を正しい単語に修正する装置として、取得した単語をスペルチェックにより正しい単語に修正する構成が知られている(例えば、特許文献1または特許文献2参照)。
2. Description of the Related Art Conventionally, as an apparatus that corrects an input word to a correct word, a configuration is known in which an acquired word is corrected to a correct word by a spell check (see, for example,
特許文献1に記載のものは、光学的文字読取装置や画像読取装置などにより入力され切り取った欧文文字列の単語を、単語辞書に記憶された単語と比較して正誤判定するスペルチェックを実施する。誤りであると判断した場合、誤認文字データベースを参照して入力された単語中の文字を間違いやすい文字と置換して新たな単語を生成し、再度スペルチェックする。このスペルチェックにより正しいと判定した単語が複数ある場合、表示装置に表示し、オペレータが指定した単語に変更する構成が採られている。 The one described in Japanese Patent Application Laid-Open No. H10-228707 carries out a spell check that compares a word of a European character string input and cut by an optical character reader or an image reader with a word stored in a word dictionary to determine whether it is correct or incorrect. . If it is determined that there is an error, the characters in the word input with reference to the misidentified character database are replaced with easy-to-mistake characters, a new word is generated, and the spell check is performed again. When there are a plurality of words determined to be correct by this spell check, a configuration is adopted in which the words are displayed on a display device and changed to words designated by the operator.
一方、特許文献2に記載のものは、取り出した単語のスペルを、辞書記憶部に記憶された正しいスペルの単語と比較し、辞書記憶部にないと判断するとスペルミスと判定する。そして、ミス癖ルール表からルールを取り出し、このルールのスペル変換によりスペルミスと判定した単語を変換する。そして、変換した後のスペルが辞書記憶部にあれば候補として表示し、ユーザが表示される候補を選択することで正しく修正する構成が採られている。 On the other hand, the device described in Patent Document 2 compares the spelling of the extracted word with a correctly spelled word stored in the dictionary storage unit, and determines that the spelling error is found if it is not in the dictionary storage unit. Then, a rule is taken out from the miss rule table, and a word determined to be misspelled by the spell conversion of this rule is converted. And if the spelling after conversion exists in a dictionary memory | storage part, it will display as a candidate and the structure correct | amended correctly will be taken by selecting the candidate displayed by a user.
しかしながら、上述した特許文献1または特許文献2に記載のような従来の単語を修正する構成では、判定する単語と辞書中の単語との字面の類似度合いに基づいて正誤判断しているため、正しい単語を適切に選出できないおそれがある。例えば、正誤判断する単語が「ケミッタ」である場合、「エミッタ」か「リミッタ」かいずれが最も確からしいか判定できない。
However, in the configuration for correcting the conventional word as described in
本発明の目的は、このような点に鑑みて、類似する単語が適切に検索される類似単語検索装置、その方法、そのプログラム、および、情報検索装置を提供することにある。 An object of the present invention, in view of the above problems, similar word search device, method thereof similar words are properly retrieved, the program, contact and to provide an information retrieval device.
本発明の類似単語検索装置は、端末装置の入力プログラムによって変換された単語に関する単語情報を取得する単語情報取得手段と、前記取得した単語情報から、その単語に変換する前の入力ローマ字列を出力するローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を生成する信号列情報生成手段と、この信号列情報生成手段にて生成された前記単語の入力ローマ字列と単語情報記憶手段に複数記憶された単語における前記入力操作に応じた入力ローマ字列との類似状態に関する類似度情報を演算する類似度演算手段と、前記類似度情報に基づいて前記入力ローマ字列が類似する前記単語情報記憶手段に記憶された単語を選出する単語候補選出手段と、を具備したことを特徴とする。 The similar word search device of the present invention outputs word information acquisition means for acquiring word information relating to a word converted by an input program of a terminal device, and an input Roman character string before conversion to the word from the acquired word information Signal string information generating means for generating an input Roman character string that is output for each input operation of an operation key of the Roman character input keyboard, and an input Roman character string and word information storage means for the word generated by the signal string information generating means Similarity calculation means for calculating similarity information related to a similarity state with the input Roman character string corresponding to the input operation in a plurality of stored words, and the word information similar to the input Roman character string based on the similarity information And word candidate selection means for selecting words stored in the storage means.
この発明では、単語情報取得手段で端末装置の入力プログラムによって変換された単語に関する単語情報を取得し、この単語情報に基づいて、その単語に変換する前の入力ローマ字列を出力するローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を信号列情報生成手段で生成させる。この生成した単語の入力ローマ字列と、単語情報記憶手段に複数記憶された単語における同様の入力ローマ字列との類似状態に関する類似度情報を類似度演算手段にて演算させる。この演算した類似度情報に基づいて、入力ローマ字列が類似する単語情報記憶手段に記憶された単語を単語候補選出手段にて選出させる。このことにより、例えば単語の文字列での編集距離などにて数学的に定義される類似度による判断では、確からしさの差別化ができない場合でも類比判別が得られ、より適切な類似する単語の選出が得られる。 In the present invention, the word information acquisition means acquires word information relating to a word converted by the input program of the terminal device, and based on this word information, outputs an input Roman character string before conversion to the word. An input Roman character string output for each input operation of the operation key is generated by the signal string information generating means. Similarity information regarding the similarity state between the generated input Roman character string of the generated word and similar input Roman character strings in a plurality of words stored in the word information storage unit is calculated by the similarity calculation unit. Based on the calculated similarity information, the word candidate selection means selects words stored in the word information storage means with similar input Roman character strings . As a result, for example, the similarity determination that is mathematically defined by the edit distance in the character string of the word can provide an analogy determination even when the probability cannot be differentiated. Selection is obtained.
また、本発明では、請求項1に記載の類似単語検索装置であって、前記信号列情報生成手段は、前記端末装置から取得した単語情報から、その単語に携帯通信端末装置に設けられた入力プログラムで変換する前の前記携帯通信端末装置の入力ローマ字列を出力するローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を生成する構成とすることが好ましい。この構成では、例えば携帯電話やPHS(Personal Handyphone System)、PDA(Personal Digital Assistant)などの携帯通信端末装置に設けられたローマ字入力キーボードの操作キーにおける入力操作に応じた入力ローマ字列を生成するので、数字キーなどの入力操作が限られたローマ字入力キーボードの操作キーを備えた携帯通信端末装置でも適切な類似する単語の選出が得られ、利用の拡大が容易に図れる。
Further, in the present invention, the similar word search device according to
さらに、本発明では、請求項1又は請求項2に記載の類似単語検索装置であって、前記類似度演算手段は、前記単語情報記憶手段に記憶された前記単語における前記入力ローマ字列を前記信号列情報生成手段にて生成させ、この生成した入力ローマ字列との類似度情報を演算する構成とすることが好ましい。この構成では、類似度演算手段は、取得した単語の入力ローマ字列との類似度情報を演算するための単語情報記憶手段に記憶された単語の入力ローマ字列を信号列情報生成手段にて生成させるので、単語情報記憶手段に単語の入力ローマ字列を記憶させておく必要がなく、単語情報記憶手段の構成が簡略化する。
Furthermore, in the present invention, the similar word search device according to
さらに、本発明では、請求項1又は請求項2に記載の類似単語検索装置であって、前記類似度演算手段は、前記単語情報記憶手段に記憶された前記単語に関連付けられた前記入力ローマ字列を取得し、この取得した入力ローマ字列との類似度情報を演算する構成とすることが好ましい。この構成では、類似度演算手段は、取得した単語の入力ローマ字列との類似度情報を演算するための単語情報記憶手段に記憶された単語の入力ローマ字列を、単語譲歩うき置く手段に記憶された単語に関連付けられた入力ローマ字列を用いるので、単語情報記憶手段に記憶された単語から入力ローマ字列を生成させる処理が不要で、処理負荷が低減し、処理の高速化が容易に得られる。
Furthermore, in the present invention, the similar word search device according to
そして、本発明では、請求項1ないし請求項4のいずれかに記載の類似単語検索装置であって、前記類似度演算手段は、前記入力ローマ字列における前記ローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列の単位信号およびこれら単位信号を組み合わせた部分信号のうちの少なくともいずれか1つを有する分割信号情報を生成する分割信号情報生成手段と、この生成された分割信号情報と前記単語情報記憶手段に記憶された前記単語における前記分割信号情報との同一性に応じた重み付けに関する重み度情報を演算する重み度情報演算手段と、を備え、前記重み度情報に基づいて前記単語情報記憶手段に記憶された前記単語の類似状態に関する類似度情報を演算する構成とすることが好ましい。この構成では、類似度演算手段は、分割信号情報生成手段にて入力ローマ字列におけるローマ字入力キーボードの操作キーでの入力操作毎に出力される入力ローマ字列の単位信号およびこれら単位信号を組み合わせた部分信号のうちの少なくともいずれか1つを有する分割信号情報を生成させ、重み度情報演算手段にて単位情報記憶手段に記憶された単語の分割信号情報と取得した単語の分割信号情報との同一性に応じた重み付けに関する重み度情報を演算させ、重み度情報に基づいて単語情報記憶手段に記憶された単語における取得した単語に対する類似度情報を演算するので、信号列に基づいた適切な類比判別が得られる。
And in this invention, it is a similar word search device in any one of
また、本発明では、請求項5に記載の類似単語検索装置であって、前記分割信号情報生成手段は、前記部分信号の前記入力ローマ字列を1字分ずつずらした文字列の並びとして生成する構成とすることが好ましい。この構成では、分割信号情報生成手段は、部分信号として入力ローマ字列を1文字分ずつずらした文字列の並びとして生成させるので、検索漏れが減少し、適切な類似する単語が適切に検出される。また、形態素解析などの分析をする必要が無く、簡単な処理で容易に適切な類似する単語の選出が得られる。なお、文字列の文字数は、特に限定されない。例えば、1字ずつずらした3文字の部分文字列、2文字の部分文字列、または1文字の単位文字列としてもよい。また、これら3文字の部分文字列、2文字の部分文字列、および1文字の単位文字列を全て分割文字列として分割信号情報として抽出する構成とするなどしてもよい。 Further, the present invention provides a similar word search device according to claim 5, wherein the division signal information generating means generates a sequence of character strings which the input Roman characters string shifted by one character content of the partial signal A configuration is preferable. In this configuration, since the divided signal information generation unit generates the input Roman character string as a partial signal as a sequence of character strings shifted by one character at a time, search omissions are reduced and appropriate similar words are detected appropriately. . Further, it is not necessary to perform analysis such as morphological analysis, and appropriate similar words can be easily selected by simple processing. The number of characters in the character string is not particularly limited. For example, a partial character string of three characters shifted by one character, a partial character string of two characters, or a unit character string of one character may be used. Alternatively, the three character partial character string, the two character partial character string, and the single character unit character string may be extracted as divided signal information as divided signal information.
さらに、本発明では、請求項1ないし請求項6のいずれかに記載の類似単語検索装置であって、前記単語候補選出手段にて選出された単語を、入力操作により選択可能に表示手段に表示させる表示制御手段を具備した構成とすることが好ましい。この構成では、表示制御手段により、単語候補選出手段で選出した単語が入力操作により選択可能に表示手段で表示されるので、選択された類似する単語が利用者により確認可能となり、例えば類似する単語に置換するなどの入力支援処理や類似する単語での検索処理など、適切な処理が確実に得られる。
Furthermore, in this invention, it is a similar word search device in any one of
そして、本発明では、請求項1ないし請求項7のいずれかに記載の類似単語検索装置であって、所定の入力操作により前記単語候補選出手段にて選出された単語を前記取得した単語に代える単語修正手段を具備した構成とすることが好ましい。この構成では、単語修正手段により、所定の入力操作に基づいて、単語候補選出手段にて選出された単語を取得した単語に代えることにより、例えば誤入力された単語が適切に類似する単語にて修正され、良好な入力支援処理が得られる。
And in this invention, it is a similar word search device in any one of
また、本発明では、請求項1ないし請求項8のいずれかに記載の類似単語検索装置であって、前記類似度演算手段は、前記信号列情報生成手段にて生成された前記単語の入力ローマ字列と、前記単語情報記憶手段に記憶された前記単語における前記入力操作に応じた入力ローマ字列との距離に関する距離情報を前記類似度情報として演算する構成とすることが好ましい。この構成では、類似度演算手段により、信号列情報生成手段にて生成された単語の入力ローマ字列と、単語情報記憶手段に記憶された単語の入力ローマ字列との例えば編集距離またはリーベンシュタイン距離などの距離に関する距離情報を類似度情報として演算するので、例えば入力ローマ字列から分割信号情報を生成させて重み度を演算させる処理に代えて距離情報を演算して類似状態を判別する構成としても入力操作に応じた信号列を利用するため、適切な類比判別が得られ、分割信号情報により重み度を演算させてさらに距離情報を演算することにより、より適切な類比判別が得られ、適切な類似する単語の選出が得られる。
Also, in the present invention, the similar word search device according to any one of
さらに、本発明では、請求項1ないし請求項8のいずれかに記載の類似単語検索装置であって、前記単語候補選出手段は、前記選出した単語のうち、前記取得した単語との距離に関する距離情報を演算し、この演算した距離情報に基づいて前記選出した単語のいずれかを選出する構成とすることが好ましい。この構成では、単語候補選出手段により、選出した単語のうち、取得した単語との例えば編集距離またはリーベンシュタイン距離などの距離に関する距離情報を演算し、選出した単語のいずれかをさらに選出することとなるので、より適切に類似する単語の絞り込みが得られ、適切な類似する単語の選出が得られる。
Furthermore, in this invention, it is a similar word search apparatus in any one of
そして、本発明では、請求項10に記載の類似単語検索装置であって、前記単語候補選出手段は、前記距離情報として、前記選出した単語の入力ローマ字列と、前記取得した単語における前記入力ローマ字列との距離に関する距離情報を演算する構成とすることが好ましい。この構成では、単語候補選出手段により、距離情報として選出した単語の入力ローマ字列と、取得した単語の入力ローマ字列との距離に関する距離情報を演算するので、例えば単語の文字列での距離を演算するなどの処理に比してより適切な類比判別が可能となり、より適切な類似する単語の選出が得られる。 In the present invention, there is provided a similar word search device according to claim 10, wherein the word candidate selection means, as the distance information, an input Romaji sequence of words and the selected, the input of the word the acquired Romaji It is preferable that the distance information regarding the distance to the column is calculated. In this configuration, the word candidate selection means calculates distance information related to the distance between the input roman character string of the word selected as distance information and the input roman character string of the acquired word. For example, the distance in the character string of the word is calculated. Compared with processing such as performing a similar process, it is possible to determine a similar ratio more appropriately and to select a more appropriate similar word.
また、本発明では、請求項1ないし請求項11のいずれかに記載の類似単語検索装置であって、前記単語候補選出手段は、前記選出する単語のうち、前記単語を含む文献に関する文献情報を複数記憶する文献記憶手段における前記選出する単語の利用頻度を演算し、この利用頻度に基づいて前記単語情報記憶手段に記憶された単語を選出する構成とすることが好ましい。この構成では、単語候補選出手段により、選出する単語のうち、単語を含む文献に関する文献情報を複数記憶する文献手段における選出する単語の利用頻度を演算し、この利用頻度に基づいて単語情報記憶手段に記憶された単語を選出するので、例えば類似する単語の文献における利用頻度に応じた類比判別が得られ、より適切に類似する単語の絞り込みが得られ、適切な類似する単語の選出が得られる。
Moreover, in this invention, it is a similar word search device in any one of
さらに、本発明では、請求項12に記載の類似単語検索装置であって、前記単語候補選出手段は、前記文献記憶手段に記憶された文献情報での出現頻度、および前記選出する単語を含む文献頻度のうちの少なくともいずれか一方を利用頻度として演算する構成とすることが好ましい。この構成では、単語候補選出手段により、文献記憶手段に記憶された文献情報での出現頻度、および選出する単語を含む文献頻度のうちの少なくともいずれか一方を利用頻度として演算するので、類似する単語の文献における利用頻度に応じた適切な類比判別が得られ、より適切に類似する単語を選出する処理が容易に得られる。 Furthermore, in this invention, it is a similar word search device of Claim 12 , Comprising: The said word candidate selection means is the literature containing the appearance frequency in the literature information memorize | stored in the said literature memory | storage means, and the said word to select It is preferable that at least one of the frequencies is calculated as the usage frequency. In this configuration, the word candidate selection unit calculates at least one of the appearance frequency in the document information stored in the document storage unit and the document frequency including the word to be selected as the usage frequency. Thus, it is possible to obtain an appropriate analogy discrimination according to the frequency of use in the literature, and to easily obtain a process for selecting similar words more appropriately.
そして、本発明では、請求項12又は請求項13に記載の類似単語検索装置であって、前記単語候補選出手段は、前記単語記憶手段に記憶された単語情報に、この単語情報の単語を含む文献に対応し文献を特定する文献固有情報が関連付けられた単語出現一覧テーブルに基づいて前記利用頻度を演算する構成とすることが好ましい。この構成では、単語候補選出手段により、単語記憶手段に記憶された単語情報に、この単語情報の単語を含む文献に対応し文献を特定する文献固有情報が関連付けられた単語出現一覧テーブルに基づいて利用頻度を演算するので、類似する単語における適切な類比判別のための文献における利用頻度が簡単なデータ構造で演算可能となり、処理効率の向上が容易に得られる。 And in this invention, it is a similar word search apparatus of Claim 12 or Claim 13 , Comprising: The said word candidate selection means includes the word of this word information in the word information memorize | stored in the said word memory | storage means It is preferable that the usage frequency is calculated based on a word appearance list table associated with document-specific information for identifying documents corresponding to documents. In this configuration, based on the word appearance list table in which the word candidate selection means associates the word information stored in the word storage means with the document specific information for identifying the document corresponding to the document including the word of the word information. Since the usage frequency is calculated, the usage frequency in the literature for determining an appropriate analogy for similar words can be calculated with a simple data structure, and the processing efficiency can be easily improved.
また、本発明の情報検索装置は、請求項1ないし請求項14のいずれかに記載の類似単語検索装置と、単語を含む文献に関する文献情報を複数記憶する文献記憶手段を利用して、前記類似単語検索装置にて選出された単語を含む前記文献情報を検索する検索手段と、を具備したことを特徴とする。
Moreover, the information search device of the present invention uses the similar word search device according to any one of
この発明では、検索手段により、単語を含む文献に関する文献情報を複数記憶する文献記憶手段を利用して、適切な類似する単語を選出する請求項1ないし請求項14のいずれ
かに記載の類似単語検索装置にて選出された単語を含む文献情報を検索する。このことに
より、文献情報の検索のための単語に適切に類似する単語での検索が得られ、検索漏れが
減少し、適切な文献検索が得られる。
In this invention, the similar word according to any one of
本発明の類似単語検索方法は、コンピュータにより、取得した単語に類似する単語を選出する類似単語検索方法であって、前記コンピュータは、端末装置の入力プログラムによって変換された単語を取得し、この取得した単語に変換する入力ローマ字列を出力するローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を生成する処理をし、この生成した単語の入力ローマ字列と単語情報記憶手段に複数記憶された単語における前記入力操作に応じた入力ローマ字列との類似状態に関する類似度情報を演算する処理をし、この演算した類似度情報に基づいて前記入力ローマ字列が類似する前記単語情報記憶手段に記憶された単語を選出する処理をすることを特徴とする。 The similar word search method of the present invention is a similar word search method for selecting a word similar to the acquired word by a computer, wherein the computer acquires the word converted by the input program of the terminal device, and acquires this A process for generating an input Roman character string to be output for each input operation of an operation key of a Roman character input keyboard that outputs an input Roman character string to be converted into a word, and a plurality of input Roman character strings and word information storage means for the generated word The word information storage means for calculating similarity information regarding a similarity state of the stored word with the input Roman character string according to the input operation and similar to the input Roman character string based on the calculated similarity information It is characterized in that a process of selecting a word stored in is performed.
この発明では、請求項1に記載の類似単語検索装置の動作を、演算手段により実施する方法に展開したもので、請求項1に記載の発明と同様の作用効果を奏する。
In this invention, operation | movement of the similar word search device of
本発明の類似単語検索プログラムは、演算手段を、請求項1ないし請求項14のいずれかに記載の類似単語検索装置、または請求項15に記載の情報検索装置として機能させることを特徴とする。
The similar word search program of the present invention is characterized in that the calculation means functions as the similar word search device according to any one of
この発明では、例えば汎用のコンピュータなどを演算手段として利用しインストールすることにより請求項1ないし請求項14のいずれかに記載の類似単語検索装置、または請求項15に記載の情報検索装置として機能させて実施させることが可能となり、本発明の利用促進が大幅に図れる。
According to the present invention, for example, a general-purpose computer or the like is used and installed as a calculation means to function as the similar word search device according to any one of
本発明の類似単語検索プログラムは、請求項16に記載の類似単語検索方法をコンピュータに実行させることを特徴とする。 The similar word search program of this invention makes a computer perform the similar word search method of Claim 16 .
この発明では、例えば汎用のコンピュータなどを利用しコンピュータにインストールすることにより請求項16に記載の類似単語検索方法がコンピュータに実行されるので、本発明の利用促進が大幅に図れる。 In the present invention, for example, a similar word search method according to claim 16 is executed on a computer by installing it on a computer using, for example, a general-purpose computer, so that the use of the present invention can be greatly promoted.
そして、本発明において、コンピュータは、例えば1つのパーソナルコンピュータ、複数のコンピュータをネットワーク状に組み合わせた構成、マイクロコンピュータなどの素子、あるいは複数の電子部品が搭載された回路基板などをも含むものである。 In the present invention, the computer includes, for example, one personal computer, a configuration in which a plurality of computers are combined in a network, an element such as a microcomputer, or a circuit board on which a plurality of electronic components are mounted.
〔文献情報検索システムの構成〕
以下、本発明の一実施の形態について図面を参照して説明する。本実施の形態では、本発明の類似単語検索装置を備え、産業財産権として、特許、実用新案および意匠に関する文献情報を検索するための情報検索装置としての文献情報検索システムの構成について例示するが、例えば商標などの他の産業財産権に関わる文献情報や、技術文献などいずれの文献情報をも対象とすることができる。さらには、文献情報検索システムに適用する構成に限らず、例えばワードプロセッサなどの文字入力支援装置として類似単語検索装置を適用するなどしてもよい。図1は、本実施の形態における文献情報検索システムの概略構成を示す概念図である。図2は、文献情報検索システムを構成する端末装置の概略構成を示すブロック図である。図3は、文献情報検索システムを構成するサーバ装置の概略構成を示すブロック図である。図4は、文献情報記憶領域のテーブル構造を概念的に示す模式図である。図5は、単語出現一覧記憶領域のテーブル構造を概念的な単語出現一覧テーブルを示す模式図である。図6は、入力されたキーワードの入力ローマ字列を分割して生成された分割文字列に関する分割信号情報を概念的に示す模式図である。図7は、単語出現一覧テーブルの単語の入力ローマ字列を分割して生成された分割文字列に関する分割信号情報を概念的に示す模式図である。
[Configuration of Bibliographic Information Retrieval System]
Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In this embodiment, the similar word search device of the present invention is provided, and the configuration of a document information search system as an information search device for searching for document information relating to patents, utility models and designs as industrial property rights is illustrated. For example, any document information related to other industrial property rights such as trademarks and technical documents can be targeted. Furthermore, the configuration is not limited to the configuration applied to the document information search system, and a similar word search device may be applied as a character input support device such as a word processor. FIG. 1 is a conceptual diagram showing a schematic configuration of a document information search system in the present embodiment. FIG. 2 is a block diagram showing a schematic configuration of a terminal device constituting the literature information search system. FIG. 3 is a block diagram showing a schematic configuration of a server device constituting the literature information search system. FIG. 4 is a schematic diagram conceptually showing the table structure of the document information storage area. FIG. 5 is a schematic diagram showing a conceptual word appearance list table with the table structure of the word appearance list storage area. FIG. 6 is a schematic diagram conceptually showing divided signal information related to a divided character string generated by dividing an input Roman character string of an input keyword. FIG. 7 is a schematic diagram conceptually showing division signal information related to a divided character string generated by dividing an input Roman character string of words in the word appearance list table.
図1において、100は文献情報検索システムで、この文献情報検索システム100は、例えば特許、実用新案および意匠などの産業財産権に関わる文献に関する文献情報を検索するためのシステムである。この文献情報検索システム100は、端末装置200と、この端末装置200がネットワーク110を介して各種情報を送受信可能に接続する文献情報検索装置としても機能するサーバ装置300と、を備えている。
In FIG. 1,
ここで、ネットワーク110としては、サーバ装置300と端末装置200との間を、各種データを送受信可能に接続する。このネットワーク110は、TCP/IP(Transmission Control Protocol/Internet Protocol)などの汎用のプロトコルに基づくインターネット、LAN(Local Area Network)などのイントラネット、無線媒体により情報が送受信可能な複数の基地局がネットワークを構成する通信回線網や放送網などのネットワーク、さらには、データを直接送受信するための媒体となる無線媒体自体など、データを送受信させるいずれの構成が利用できる。ここで、無線媒体としては、電波、光、音波、電磁波などのいずれの媒体をも適用できる。
Here, the
端末装置200は、サーバ装置300から単語である所定のキーワードに対応する文献情報を取得するための装置で、例えばパーソナルコンピュータやオフィスコンピュータなどが例示できる。そして、端末装置200は、例えば図2に示すように、端末通信手段210と、操作手段としての端末入力手段220と、表示手段としての端末表示手段230と、端末記憶手段240と、端末処理手段250と、を備えている。
The
端末通信手段210は、ネットワーク110を介してサーバ装置300に接続される。この端末通信手段210は、ネットワーク110を介してサーバ装置300から端末信号を受信可能で、この端末信号の取得によりあらかじめ設定されている入力インターフェース処理を実施し、処理端末信号として端末処理手段250に出力する。また、端末通信手段210は、端末処理手段250から処理端末信号が入力可能で、この入力される処理端末信号の取得によりあらかじめ設定されている出力インターフェース処理を実施し、端末信号としてネットワーク110を介してサーバ装置300に送信する。
The
端末入力手段220は、例えばキーボードやマウスなどで、検索を実施する利用者により入力操作される図示しない各種操作ボタンや操作つまみなどを有している。これら操作ボタンや操作つまみなどの入力操作としては、端末装置200の動作内容の設定の他、文献情報の検索のための条件項目、例えばキーワードなどである。そして、端末入力手段220は、入力操作に対応した所定の信号を端末処理手段250へ適宜出力して設定させる。なお、この端末入力手段220としては、操作ボタンや操作つまみなどの入力操作に限らず、例えば端末表示手段230に設けられたタッチパネルによる入力操作や、音声による入力操作など、さらには光学的文字読取装置(Optical Character Reader:OCR)や画像読取装置などにて読み取るなど、各種入力事項を設定入力可能ないずれの構成が適用できる。
The
端末表示手段230は、端末処理手段250にて制御され端末処理手段250からの画像データを画面表示させる。画像データとしては、例えば文献情報に関する各種検索のための条件項目の入力を促す画面表示、検索した文献情報に関する情報を表示する画面表示などの他、端末装置200の動作内容や他のアプリケーションソフトウェアに関する画像データなど、各種画像データが表示可能である。この端末表示手段230としては、種々のディスプレイが挙げられ、例えば液晶表示パネルや有機EL(Electro Luminescence)パネル、PDP(Plasma Display Panel)、CRT(Cathode-Ray Tube)、FED(Field Emission Display)、電気泳動ディスプレイパネルなどが例示できる。
The
端末記憶手段240は、ネットワーク110を介してサーバ装置300から取得した各種情報や、端末入力手段220で入力操作される入力事項の他、外部から取得した各種情報をも適宜記憶する。また、端末記憶手段240には、端末装置200全体を動作制御するOS(Operating System)上に展開される各種プログラムなどを記憶する。なお、端末記憶手段240としては、HD(Hard Disk)や光ディスクなどの記録媒体に読み出し可能に記憶するドライブやドライバなどを備えた構成の他、メモリなど、各種情報を記憶可能ないずれの構成が利用でき、ドライブとメモリとの双方さらには複数を備えた構成などとしてもよい。
The terminal storage unit 240 appropriately stores various types of information acquired from the
端末処理手段250は、例えばCPU(Central Processing Unit)を備え、図示しない各種入出力ポート、例えば端末通信手段210が接続される通信制御ポート、端末入力手段220が接続されるキー入力ポート、端末表示手段230が接続される表示部制御ポート、印刷出力する図示しない出力手段としての印刷装置が接続可能な印刷制御ポート、端末記憶手段240が接続される記憶ポートなどを有する。そして、端末処理手段250は、各種プログラムとして、入力支援手段としても機能するキーワード設定手段251と、検索要求手段252と、検索結果取得手段253と、表示制御手段としても機能する出力制御手段254と、などを備えている。
The
キーワード設定手段251は、端末入力手段220による入力操作にて入力された情報に基づいて、文献情報を検索するための単語であるキーワードを設定する。具体的には、所定の入力操作にて端末入力手段220で入力されたキーワードに関する単語情報を生成する。なお、設定されるキーワードは、例えば入力支援手段としての入力プログラム(Input Method Editor:IME)などにより、いわゆるローマ字入力やかな入力などの入力に対応して変換された、ひらがな、カタカナ、漢字などの日本語に限らず、アルファベット入力された英単語、中国語、ハングル文字など、いずれの単語が対象となる。
The
検索要求手段252は、キーワード設定手段251で取得した単語情報のキーワードに基づいて、このキーワードを含む文献情報の検索の実行をサーバ装置300に要求する旨の検索要求情報を生成する。すなわち、検索要求情報には、キーワードと、このキーワードを含む文献情報を検索する条件である検索条件情報と、検索を要求する利用者や端末装置200を特定する顧客情報などを有した端末特定情報とが、1つのデータ構造として関連付けられている。そして、検索要求手段252は、生成した検索要求情報を端末通信手段210によりネットワーク110を介してサーバ装置300へ送信する。
Based on the keyword of the word information acquired by the
検索結果取得手段253は、ネットワーク110を介して端末通信手段210によりサーバ装置300から取得した検索結果情報を取得する。この取得した検索結果情報は、端末記憶手段240や図示しないメモリなどに適宜記憶される。この検索結果情報としては、例えば文献情報を特定する文献固有情報、例えば出願番号や登録番号などの他、文献情報自体の情報をも含む。
The search
出力制御手段254は、端末入力手段220による入力操作にて設定された出力状況に基づいて、検索結果取得手段253にて取得した検索結果情報を適宜処理し、端末表示手段230で表示させたり、図示しない接続された印刷装置にて印刷出力させたりする検索結果情報の出力制御をする。また、出力制御手段254は、サーバ装置300から出力される単語候補を、端末入力手段220による入力操作にて選択可能に端末表示手段230で複数表示させる制御をする。
The output control means 254 appropriately processes the search result information acquired by the search result acquisition means 253 based on the output status set by the input operation by the terminal input means 220, and displays it on the terminal display means 230. Search result information output control is performed such that printing is performed by a connected printing apparatus (not shown). The
サーバ装置300は、端末装置200からのキーワードを含む文献情報を検索して端末装置200へ提供する装置で、ネットワーク110を介して端末装置200と各種情報の送受信が可能となっている。このサーバ装置300は、例えば図3に示すように、サーバ通信手段310と、サーバ入力手段320と、サーバ表示手段330と、記憶手段として機能するサーバ記憶手段340と、演算手段としての類似単語検索装置であるサーバ処理手段350と、などを備えている。
The
サーバ通信手段310は、ネットワーク110を介して入力されるサーバ信号に対してあらかじめ設定されている入力インターフェース処理を実行し、処理サーバ信号としてサーバ処理手段350へ出力する。また、サーバ通信手段310は、サーバ処理手段350から端末装置200に対して送信すべき処理サーバ信号が入力されると、入力された処理サーバ信号に対してあらかじめ設定されている出力インターフェース処理を実行し、サーバ信号としてネットワーク110を介して端末装置200へ出力する。なお、サーバ信号は、処理サーバ信号に記載された情報に基づいて、適宜所定の端末装置200のみに出力させたり、ネットワーク110を介して接続される全ての端末装置200に出力させたりすることも可能である。
The
サーバ入力手段320は、例えば端末入力手段220と同様に、サーバ管理者などにて入力操作される図示しない各種操作ボタンや操作つまみなどを有している。これら操作ボタンや操作つまみなどの入力操作は、サーバ装置300の動作内容の設定や、サーバ記憶手段340に記憶する情報の設定入力、サーバ記憶手段340に記憶された情報の更新など、各種の設定事項である。そして、サーバ入力手段320は、設定事項の入力操作により、設定事項に対応する信号をサーバ処理手段350へ適宜出力して設定入力させる。なお、入力操作としては、同様に、操作ボタンや操作つまみなどの操作に限られない。
The
サーバ表示手段330は、例えば端末表示手段230と同様に、各種表示装置が用いられる。このサーバ表示手段330は、サーバ処理手段350に接続され、サーバ処理手段350の制御によりこのサーバ処理手段350から出力される画像データを適宜表示する。
As the
サーバ記憶手段340は、端末記憶手段240と同様に、各種情報を記憶可能ないずれの構成が用いられ、文献情報記憶領域341と、単語出現一覧記憶領域342と、を備えている。文献情報記憶領域341は、複数の文献情報341Aを記憶するテーブル構造に構成されている。文献情報341Aは、例えば図4に示すように、テキスト形式の本文や画像データ形式の図面などが1つのデータ構造に構成された本文情報341A1と、文献情報341Aを特定する固有情報である例えばID(identification)である識別情報341A2と、を1つのデータ構造として関連付けられて構成されている。なお、文献情報341Aには、出願番号や出願人、著者などの付帯情報などをも適宜関連付けられている。単語出現一覧記憶領域342は、例えば図5に示すように、単語に関する単語情報342A1と、その単語情報342A1を本文情報341A1に含む文献情報341Aの識別情報341A2とを1つのレコードとした単語出現情報342Aを複数記録したテーブル構造に構成されている。この単語出現一覧記憶領域342の単語情報342A1は、例えば各文献情報341Aの本文情報341A1に基づいて形態素解析などにより本文情報341A1に含まれる単語を抜き出して設定される。すなわち、各文献情報341Aに含まれる単語について、その単語を含む文献情報341Aの識別情報341A2が関連付けられたテーブル構造に構成されている。
Similar to the terminal storage unit 240, the
また、サーバ記憶手段340は、サーバ装置300全体および文献情報検索システム100全体を動作制御するOS上に展開される各種プログラムなどをも記憶している。さらに、サーバ記憶手段340は、端末装置200などから受信した各種情報や、サーバ入力手段320にて入力された各種情報をも適宜記憶可能となっている。
The
サーバ処理手段350は、端末処理手段250と同様にCPUを備え、図示しない各種入出力ポート、例えばサーバ通信手段310が接続される通信制御ポート、サーバ入力手段320が接続される入力ポート、サーバ表示手段330が接続される表示制御ポート、サーバ記憶手段340が接続される記憶ポートなどを有している。そして、サーバ処理手段350は、図3に示すように、サーバ記憶手段340に記憶された各種プログラムとして、単語情報取得手段としても機能する検索要求情報取得手段351と、単語変換手段352と、類似度演算手段353と、単語候補選出手段354と、検索手段355と、検索結果生成手段356と、報知手段357と、課金演算手段358と、決済手段359と、などを備えている。
The
検索要求情報取得手段351は、端末装置200から送信されサーバ通信手段310を介して検索要求情報を取得する。そして、検索要求情報取得手段351は、検索要求情報に含まれるキーワードを取得し、単語変換手段352へ出力する。
The search request
単語変換手段352は、検索要求情報取得手段351から出力されるキーワードを所定の信号列の信号列情報に変換する。このキーワードの変換処理は、例えば入力支援手段としての入力プログラム(Input Method Editor:IME)などによりそのキーワードを入力するために端末入力手段220やサーバ入力手段320で実行されるキー操作などの入力操作に対応した信号列であるローマ字読み文字列となる入力ローマ字列に変換する。具体的には、図6にも示すように、キーワードが「ケミッタ」であれば信号列である入力ローマ字列は「kemitta」、「信号」であれば「shingou」の文字列となる信号列の信号列情報に変更する。なお、この入力ローマ字列への変更は、例えば入力プログラムを利用して変更処理される。そして、この変換された信号列情報は、サーバ記憶手段340に適宜記憶される。
The
類似度演算手段353は、単語変換手段352で変換された信号列情報に基づいて、キーワードに類似した単語を選出するためにキーワードと単語出現一覧記憶領域342に記憶された単語との類似状態に関する類似度を演算する。すなわち、類似度演算手段353は、例えば、分割信号情報生成手段353Aと、重み度情報演算手段353Bと、を備えている。
The
分割信号情報生成手段353Aは、単語変換手段352でキーワードから変換された文字列の信号列情報に基づいて、分割信号情報を作成する。例えば、変換した文字列を構成する文字や文字列の文字を1字ずつずらした際の部分的な文字列となる分割文字列に分割してこれら分割した文字列に関する信号の集合体である分割信号情報を生成する。具体的には、図6に示すように、キーワードが「ケミッタ」の場合、変換された入力ローマ字列である「kemitta」から、「kem」、「emi」、「mit」、「itt」、「tta」の3文字で構成された分割文字列である部分文字列と、「ke」、「em」、「mi」、「it」、「tt」、「ta」の2文字で構成された分割文字列である部分文字列と、「k」、「e」、「m」、「i」、「t」、「t」、「a」の1文字の分割文字列である単位文字列とに分割され、これら部分文字列に関する信号である部分信号と、単位文字列に関する単位信号とを有する集合体である分割信号情報を生成する。そして、生成された分割信号情報は、サーバ記憶手段340に適宜記憶される。なお、本実施の形態では、1字ずつずらした3文字の部分文字列、2文字の部分文字列、および1文字の単位文字列を全て分割文字列として抽出して説明するが、これに限られない。すなわち、部分文字列の文字数は4文字以上でもよく、特に限定されるものではなく、また、部分文字列または単位文字列を分割文字列としてもよく、いずれの組み合わせが適用できる。
The divided signal information generation unit 353A creates divided signal information based on the signal string information of the character string converted from the keyword by the
重み度情報演算手段353Bは、分割信号情報生成手段353Aにて生成された分割信号情報と、単語出現一覧記憶領域342に記憶された単語における分割信号情報との同一性に関する度合い情報を演算する。ここで、単語出現一覧記憶領域342に記憶された単語における分割信号情報は、例えば図7に示すように、上述した分割信号情報と同様に、単語出現一覧記憶領域342の各単語における部分文字列や単位文字列などの分割文字列に関する部分信号や単位信号の集合である。なお、図7は、説明の都合上、単語情報342A1として、「エミッタ」(emitta)と「リミッタ」(limitta)とについて例示した図である。そして、あらかじめ単語出現一覧記憶領域342の各単語情報342A1にそれぞれ関連付けられた上述したような分割信号情報を利用したり、別途単語出現一覧記憶領域342に記憶された各単語について単語変換手段352でそれぞれ分割信号情報を生成させ、これら生成した分割信号情報を利用したりするなどが例示できる。なお、処理の高速化や処理負荷の低減などの点であらかじめ単語情報342A1に分割信号情報を関連付けておく構成とすることが好ましいことから、本実施の形態では分割信号情報が関連付けられた構成について説明する。
The weight degree information calculating unit 353B calculates degree information regarding the identity between the divided signal information generated by the divided signal information generating unit 353A and the divided signal information in the words stored in the word appearance
そして、分割信号情報の同一性に関する度合い情報の演算として、例えばキーワードが「ケミッタ」の場合、図6に示す分割した各部分文字列や単位文字列などの各分割文字列と一致する図7に示す分割した部分文字列や単位文字列などの各分割文字列における重み度を演算する。すなわち、キーワードの各部分文字列や単位文字列の分割文字列をq1,…,qn(上記「ケミッタ」の場合、nは18)、単語出現一覧記憶領域342の各単語における部分文字列や単位文字列の分割文字列をd1,…,dmとすると、重み度W(qi,dj,q,d)は、qi=djについて、以下の数1により演算される。そして、演算された重み度W(qi,dj,q,d)は、サーバ記憶手段340に適宜記憶される。
Then, as the calculation of the degree information regarding the identity of the divided signal information, for example, when the keyword is “chemiter”, FIG. 7 matches the divided character strings such as the divided partial character strings and unit character strings shown in FIG. The degree of weight in each divided character string such as the divided partial character string or unit character string shown is calculated. That is, the partial character strings of the keywords and the divided character strings of the unit character strings are q1,..., Qn (n is 18 in the case of the above “chemitter”), and the partial character strings and units in each word in the word appearance
〔数1〕
W(qi,dj,q,d)=Log(総単語数/(qi=djの出現する単語数))
×(qiのキーワード内での出現数)
×(djの単語内での出現数)
[Equation 1]
W (qi, dj, q, d) = Log (total number of words / (qi = number of words in which dj appears))
X (number of occurrences in qi keyword)
X (number of occurrences of dj in a word)
さらに、類似度演算手段353は、演算した重み度に基づいて、単語出現一覧記憶領域342の各単語の類似状態に関する類似度を演算して類似度情報を生成する。例えば、各単語の分割信号情報についての各分割文字列において、キーワードの分割信号情報についての各分割文字列との共通部分の重み度の総和を類似度Sとして演算する。具体的には、類似度Sの演算としては、以下の数2により演算される。
Furthermore, the
〔数2〕
S(q,d)=g(ΣW(qi,dj),q,d)
[Equation 2]
S (q, d) = g (ΣW (qi, dj), q, d)
なお、類似度演算手段353は、各単語の類似度Sの演算として、高速かつ多数の各単語について効率よく演算するために、以下の加算方法が例示できる。すなわち、各単語InN(Nは自然数)のうち、所定の単語In1を特定する。そして、所定の単語In1の分割信号情報を構成する各分割文字列d1,…,dtのうち、キーワードの分割文字列q1と一致する分割文字列d1,…,dtの重み度W(q1,In1)を演算し、サーバ記憶手段340にあらかじめ設けた単語毎の類似度Sの記憶領域s(In1)番地に加算する。同様にキーワードの分割文字列q2〜qnについても上述した処理を繰り返し、記憶領域s(In1)番地に加算する処理をする。さらに、他の単語In2〜InNについても同様に重み度W(qi,Ini)を順次計算し、サーバ記憶手段340の記憶領域s(In2)番地〜記憶領域s(InN)番地に加算する処理をする。これらにより、各単語の類似度Sがそれぞれ演算される。
In addition, the similarity calculation means 353 can illustrate the following addition methods in order to calculate the similarity S of each word quickly and efficiently about many each word. That is, a predetermined word In1 is specified among each word InN (N is a natural number). Then, among the divided character strings d1,..., Dt constituting the divided signal information of the predetermined word In1, the weight W (q1, In1) of the divided character strings d1,. ) And is added to the storage area s (In1) of the similarity S for each word provided in the
単語候補選出手段354は、類似度演算手段353にて演算した類似度Sに基づいて、キーワードに類似する単語を選出する。すなわち、類似度Sの値が多い順からあらかじめ設定された数の単語、あるいは所定の閾値以上の類似度Sとなる単語を類似単語として1つあるいは複数選出する。なお、選出される類似単語の数は、端末装置200における入力設定により設定してもよい。また、単語候補選出手段354は、選出した類似単語を端末装置200で確認させて設定する。そして、単語候補選出手段354は、複数の類似単語からさらに絞り込みを実施する距離情報算出手段354Aと、選出した類似単語を設定する単語修正手段としても機能する検索単語設定手段354Bと、を備えている。
The word
距離情報算出手段354Aは、キーワードと、選出した類似単語との距離に関する距離情報を演算し、距離情報に基づいて類似単語のいずれかをさらに選出する絞り込み処理をする。この距離に関する距離情報としては、例えばキーワードと類似単語との編集距離またはリーベンシュタイン距離を演算する。ここで、編集距離は、キーワードと所定の類似単語とのそれぞれ文字列の異なり度合いを、1文字ごとの置換・削除・挿入などの操作を繰り返しにより、それぞれの文字列を同一にするために必要な最小の操作数である。具体的には、編集距離を動的計画法に基づいて演算する。
The distance
すなわち、x1,…,xnの文字の集合であるキーワードをXとし、y1,…,ynの文字の集合である類似単語をYとする。そして、X[i]=xi、Y[j]=yjである。また、キーワードXと類似単語Yとの編集距離Dist(X,Y)を演算するため、x1,…,xiと、y1,…,yjとの距離を距離行列D[i,j]とする。そして、距離情報算出手段354Aは、距離行列D[i,j]において、以下の数3に示すように、iおよびjのうちの少なくともいずれか一方が「0」に関しての距離を設定する。
That is, a keyword that is a set of characters x1,..., Xn is X, and a similar word that is a set of characters y1,. X [i] = xi and Y [j] = yj. In addition, in order to calculate the edit distance Dist (X, Y) between the keyword X and the similar word Y, the distance between x1,..., Xi and y1,. Then, the distance
〔数3〕
d[0,0]=0,
d[i,0]=i,
d[0,j]=j
[Equation 3]
d [0,0] = 0,
d [i, 0] = i,
d [0, j] = j
ここで、編集距離の計算として、挿入および削除の操作数を「1」とし、置換の操作数を同一文字の場合には「0」、異なる文字の場合には「1」とする。そして、距離行列D[0,0]は空文字列と空文字列との距離であり、編集距離の計算としてはD[0,0]=0と設定される。また、距離行列D[i,0]はx1,…,xiとy1の前の空文字列とを一致させる操作であり、この操作ではx1,…,xiを削除する操作となるので、編集距離の計算としてはD[i,0]=iと設定される。さらに、距離行列D[0,j]はx1の前の空文字列とy1,…,yjとを一致させる操作であり、この操作ではy1,…,yjをx1の前に挿入する操作となるので、編集距離の計算としてはD[0,j]=jと設定される。そして、距離情報算出手段354Aは、以下の数4および数5に基づいて、iが1〜n、jが1〜mの距離行列D[i,j]をそれぞれ計算する。
Here, in the calculation of the edit distance, the number of operations for insertion and deletion is “1”, the number of replacement operations is “0” for the same character, and “1” for different characters. The distance matrix D [0, 0] is the distance between the empty character string and the empty character string, and D [0, 0] = 0 is set as the calculation of the edit distance. Further, the distance matrix D [i, 0] is an operation for matching x1,..., Xi and the empty character string before y1, and this operation is an operation for deleting x1,. In the calculation, D [i, 0] = i is set. Further, the distance matrix D [0, j] is an operation for matching the empty character string before x1 with y1,..., Yj, and this operation is an operation for inserting y1,. For the calculation of the edit distance, D [0, j] = j is set. Then, the distance
〔数4〕
D[i,j]=MIN(D[i−1,j]+1,
D[i,j−1]+1,
D[i−1,j−1]+Cost)
[Equation 4]
D [i, j] = MIN (D [i-1, j] +1,
D [i, j-1] +1,
D [i-1, j-1] + Cost)
〔数5〕
Cost=0 if X[i]=Y[j],
Cost=1 if X[i]≠Y[j]
[Equation 5]
Cost = 0 if X [i] = Y [j],
Cost = 1 if X [i] ≠ Y [j]
ここで、数4において、距離行列D[i,j]を計算する際、x1,…,xi-1とy1,…,yjとの距離行列D[i−1,j]の計算、x1,…,xiとy1,…,yj-1との距離行列D[i,j−1]の計算、および、x1,…,xi-1と、y1,…,yj-1との距離行列D[i−1,j−1]の計算が済んでいるとする。この後の距離計算を続けていくとして、xiとyjとについて可能な操作は、以下のような3つの操作のみである。 Here, when calculating the distance matrix D [i, j] in Equation 4, the calculation of the distance matrix D [i-1, j] between x1,..., Xi-1 and y1,. ..., xi and y1, ..., yj-1 calculation of distance matrix D [i, j-1], and x1, ..., xi-1 and y1, ..., yj-1 distance matrix D [ Suppose that i-1, j-1] have been calculated. Assuming that distance calculation is continued thereafter, there are only the following three operations for xi and yj.
すなわち、1つ目の可能な操作としては、x1,…,xi-1とy1,…,yjとの距離行列D[i−1,j]の計算から、x1,…,xiとy1,…,yjとの距離行列D[i,j]の計算を続ける場合、xiを削除する操作となる。このため、1つ目の距離行列D[i,j]の計算として、D[i−1,j]+1となる。また、2つ目の可能な操作としては、x1,…,xiとy1,…,yj-1との距離行列D[i,j−1]の計算から、x1,…,xiとy1,…,yjとの距離行列D[i,j]の計算を続ける場合、yjをxiの後に挿入する操作となる。このため、2つ目の距離行列D[i,j]の計算として、D[i,j−1]+1となる。さらに、3つ目の可能な操作としては、x1,…,xi-1とy1,…,yj-1との距離行列D[i−1,j−1]の計算から、x1,…,xiとy1,…,yjとの距離行列D[i,j]の計算を続ける場合、xiとyjとを置換する操作となる。このため、3つ目の距離行列D[i,j]の計算として、D[i−1,j−1]+Costとなる。ここで、Costは、xiとyjとを置換する操作数を示し、数5に示すように、X[i]とY[j]とが同一か否か、すなわちxiとyjとが同一か否かに応じて設定される。そして、距離行列D[i,j]を演算するため、数4に示すように、これら3つの可能な操作の中で計算値が最小となる操作が選択される。 That is, as the first possible operation, from the calculation of the distance matrix D [i-1, j] between x1, ..., xi-1 and y1, ..., yj, x1, ..., xi and y1, ... , Yj, when continuing to calculate the distance matrix D [i, j], this is an operation to delete xi. Therefore, D [i−1, j] +1 is calculated as the calculation of the first distance matrix D [i, j]. As a second possible operation, x1,..., Xi and y1,... Are calculated from the calculation of the distance matrix D [i, j-1] between x1,. , Yj, the calculation of the distance matrix D [i, j] is continued by inserting yj after xi. Therefore, the calculation of the second distance matrix D [i, j] is D [i, j-1] +1. Further, as a third possible operation, x1,..., Xi can be calculated from the calculation of the distance matrix D [i-1, j-1] between x1,..., Xi-1 and y1,. , Y1,..., Yj, when the calculation of the distance matrix D [i, j] is continued, the operation replaces xi and yj. Therefore, the calculation of the third distance matrix D [i, j] is D [i−1, j−1] + Cost. Here, Cost indicates the number of operations for replacing xi and yj. As shown in Equation 5, whether X [i] and Y [j] are the same, that is, whether xi and yj are the same. It is set according to. Then, in order to calculate the distance matrix D [i, j], as shown in Equation 4, an operation with the smallest calculated value is selected from these three possible operations.
そして、距離情報算出手段354Aは、計算した距離行列D[i,j]のうち、距離行列D[n,m]をキーワードXと類似単語Yとの編集距離Dist(X,Y)として算出する。この編集距離Dist(X,Y)を、キーワードXと全ての選出した類似単語Yとについて算出する。これら各類似単語Yとの各編集距離Dist(X,Y)は、サーバ記憶手段340に適宜記憶される。そして、単語候補選出手段354は、選出した類似単語のうち、編集距離Dist(X,Y)の値が小さい類似単語を1つあるいは所定の数で選出する。
Then, the distance
また、単語候補選出手段354の検索単語設定手段354Bは、選出した類似単語を端末装置200で出力可能に送信させる処理をする。例えば、端末表示手段230で表示させるとともに端末入力手段220で表示された類似単語を選択さらには修正など入力操作可能に、サーバ通信手段310にてネットワーク110を介して端末装置200へ送信する。そして、端末装置200で類似単語が選択さらには修正されることにより、選択された類似単語や修正された類似単語をサーバ通信手段310にて読み取らせ、確定する処理をする。この確定処理は、文献情報341Aの検索要求のキーワードと合わせ、設定した類似単語をキーワードとして含む文献情報341Aを検索する対象とする処理である。なお、端末装置200での入力操作により、検索要求時のキーワードに代えて類似単語をキーワードとして文献検索させるようにしたり、類似単語が選択されずにキーワードのみで文献検索させたりするなどし、利用者の要求する検索条件に対応可能としてもよい。
In addition, the search
検索手段355は、検索要求情報取得手段351にて取得した検索要求情報に基づいて、キーワードおよび単語候補選出手段354で選出されて設定された類似単語を含む文献情報341Aを検索する。この検索は、単語出現一覧記憶領域342の単語出現一覧テーブルにより、キーワードおよび類似単語に対応する単語情報342A1に関連付けられた識別情報341A2を読み取る。この読み取った識別情報341A2に対応する文献情報341Aを文献情報記憶領域341から読み出し、その本文情報341A1を読み取る。そして、検索手段355は、読み取った文献情報341Aを検索結果生成手段356へ適宜出力する。なお、検索の結果、キーワードおよび類似単語を本文情報341A1に含む文献情報341Aを検出できなかった場合、検出できなかった旨の信号を検索結果生成手段356へ適宜出力する。
Based on the search request information acquired by the search request
検索結果生成手段356は、検索手段355で取得した文献情報341Aを端末装置200へ報知するために適宜処理して検索結果情報を生成する。すなわち、端末装置200で文献情報341Aの本文情報341A1を確認可能な例えばサーバ記憶手段340にあらかじめ記憶された所定のフォームに基づいて検索結果情報を生成する。また、検出できなかった旨の信号を取得した場合には、その旨を端末装置200で出力可能な所定のフォームの検索結果情報を生成、例えばサーバ記憶手段340にあらかじめ記憶された所定のフォームを読み出す。そして、生成された検索結果情報は、サーバ記憶手段340に適宜記憶されるとともに、報知手段357へ適宜出力される。
The search
報知手段357は、検索結果生成手段356で生成した検索結果情報を取得して適宜処理し、サーバ通信手段310によりネットワーク110を介して端末装置200へ送信する。このことにより、端末装置200は、検索結果取得手段253にて取得した検索結果情報を適宜処理し、文献情報341Aの本文情報341A1を端末表示手段230で表示させたり、図示しない接続された印刷装置にて印刷出力させたりし、検索結果が端末装置200で報知される。
The
課金演算手段358は、検索要求情報や検索手段355にて検索し報知手段357にて送信する検索結果情報などに基づいて、検索要求をした利用者に対して検索結果の報知に関する対価を演算する。この対価の演算としては、例えば端末装置200がネットワーク110を介してサーバ装置300に接続した時間、検索を実行するための検索料金、検索結果の情報量に対応する回答出力料金などに基づいて演算される。なお、この対価の額は、検索結果情報とともに報知手段357により端末装置200で確認可能に送信される。
The billing calculation means 358 calculates a consideration related to the notification of the search result for the user who made the search request based on the search request information and the search result information searched by the search means 355 and transmitted by the notification means 357. . The calculation of the consideration is based on, for example, the time when the
決済手段359は、課金演算手段358にて演算した対価を回収するための処理をする。例えば、サーバ記憶手段340にあらかじめ記憶されている端末装置200を用いて文献検索を利用する利用者を特定する顧客情報などに基づいて、請求書を発行したり、ネットワーク110を介して各金融機関が管理する付加価値通信網(Value-Added Network:VAN)であるいわゆる金融VANに構築されたファームバンキング(Firm Banking:FB)を利用して決済処理したり、決済処理する旨をサーバ表示手段330に表示させて管理者に決済処理を促す案内を報知するなどの処理をする。
The
〔文献情報検索システムの動作〕
次に、上述した文献情報検索システム100における所定の文献情報341Aを検索する検索処理の動作について図面を参照して説明する。図8は、文献情報を検索する検索処理の動作を示すフローチャートである。
[Operation of Bibliographic Information Retrieval System]
Next, an operation of search processing for searching for the
文献情報検索システム100を利用した文献の検索に際しては、まず利用者が端末装置200の端末入力手段220を適宜入力操作することで、サーバ装置300とネットワーク110を介して各種情報を送受信可能に端末装置200を接続させる。この接続としては、例えばあらかじめサーバ装置用のアプリケーションソフトウェアがインストールされて構築されたサーバ装置300が常駐するホームページなどにアクセスするなどが例示できる。そして、利用者が端末表示手段230に表示させる画面表示にしたがって端末入力手段220を適宜入力操作し、文献を検索するための文献に含まれるキーワードを入力する。この入力操作により、端末処理手段250のキーワード設定手段251が、端末入力手段220からの入力操作に対応、例えばキーボードの操作キーの操作毎に出力される信号列に対応して適宜変換されたキーワードを設定する(ステップS101)。
When searching for a document using the document
この後、利用者が画面表示に従って端末入力手段220を適宜操作し、設定したキーワードを含む文献の検索を要求する旨の入力操作により、文献検索を実行させる。この文献検索の実行を要求する旨の入力操作としては、例えば表示画面中に設けられ文献検索の実行を促すコマンドボタンの入力操作などが例示できる。この入力操作により、端末処理手段250の検索要求手段252は、設定させたキーワードを含む文献検索の実行をサーバ装置300に要求する旨の検索要求情報を生成し(ステップS102)、端末通信手段210によりネットワーク110を介してサーバ装置300へ送信させる処理をする(ステップS103)。
Thereafter, the user appropriately operates the
そして、ステップS103で端末装置200から送信された検索要求情報を、サーバ通信手段310でサーバ装置300が受信すると(ステップS104)、サーバ処理手段350の検索要求情報取得手段351が検索要求情報に含まれるキーワードを取得する(ステップS105)。このステップS105で取得したキーワードに基づいて、単語変換手段352により信号列情報を生成する信号列情報処理工程が実施する。すなわち、単語変換手段352は、取得したキーワードから、入力操作に応じて入力プログラムが変換する際のキー操作などの入力操作に対応した信号列、例えばローマ字読み文字列となる入力ローマ字列に変換して信号列情報を生成する(ステップS106)。
When the
この後、類似度演算手段353により、生成した信号列情報に基づいて、サーバ記憶手段340の単語出現一覧記憶領域342に記憶された単語との類似状態に関する類似度を演算して類似度情報を生成させる類似度情報演算工程を実施する。すなわち、類似度演算手段353の分割信号情報生成手段353Aにより、キーワードから変換された入力ローマ字列の信号列情報に基づいて、例えば図6に示すように、例えば1字ずつずらした際の部分的な文字列となる分割文字列に分割して分割信号情報を生成する(ステップS107)。さらに、類似度演算手段353の重み度情報演算手段353Bは、単語出現一覧記憶領域342に記憶された単語における同様の入力ローマ字列から分割した例えば図7に示すような複数の分割文字列に関する分割信号情報を取得する。そして、重み度情報演算手段353Bは、キーワードの入力ローマ字列から分割した複数の分割文字列に関する分割信号情報と、単語出現一覧記憶領域342の単語の分割信号情報とに基づいて、上述した数1によりキーワードの各分割文字列と一致する単語の各分割文字列における重み度を演算する(ステップS108)。さらに、類似度演算手段353は、ステップS108で演算した重み度に基づいて、上述した数2により、各単語の分割信号情報についての各分割文字列において、キーワードの分割信号情報についての各分割文字列との共通部分の重み度の総和を演算し、キーワードと単語出現一覧記憶領域342の各単語の類似状態に関する類似度を演算し、類似度情報を生成する(ステップS109)。
Thereafter, the
そして、サーバ処理手段350は、ステップS107〜S109の類似度情報演算工程で演算された類似度に基づいて、類似する単語を選出する類似単語選出工程を実施する。すなわち、単語候補選出手段354により、ステップS109で演算した類似度に基づいて、キーワードに類似する単語を、例えば類似度の値が多い順からあらかじめ設定された数の単語を類似単語として複数選出する(ステップS110)。なお、このステップS110における類似単語の選出の際、例えば選出する類似単語の数が多いなどの場合、距離情報算出手段354Aにより、キーワードと類似単語との編集距離またはリーベンシュタイン距離などの距離に関する距離情報を演算する処理などを適宜実施して、さらに絞り込み処理を実施してもよい。このステップS110の後、単語候補選出手段354の検索単語設定手段354Bは、選出した類似単語を端末装置200へ送信する処理をする(ステップS111)。この選出した類似単語に関する情報を送信する先の端末装置200は、例えばステップS104で受信した検索要求情報に基づいて特定される。
Then, the
このステップS111により、サーバ装置300で選出された類似単語に関する情報を端末通信手段210で端末装置200が受信すると(ステップS112)、端末処理手段250の出力制御手段254により、端末表示手段230を適宜制御して類似単語を端末入力手段220での入力操作により選択さらには修正などが可能に画面表示させる。そして、画面表示にしたがって所定の類似単語が選択あるいは修正されると(ステップS113)、出力制御手段254は入力操作で選択あるいは修正された類似単語をサーバ装置300へ送信させる(ステップS114)。この類似単語の選択あるいは修正に関する情報を端末装置200からサーバ通信手段310で受信すると(ステップS115)、単語候補選出手段354の検索単語設定手段354Bが選択あるいは修正された類似単語を検索要求のキーワードとして確定する(ステップS116)。なお、例えば、検索要求時のキーワードに代えて類似単語をキーワードとして文献検索させるようにしたり、類似単語が選択されずにキーワードのみで文献検索させたり、キーワードとともに類似単語をキーワードとして文献検索させたりするなど、端末装置200での入力操作に対応して検索要求のキーワードが適宜確定される。このような一連の処理により、キーワードに類似する類似単語が選出される。
In step S111, when the
このステップS110〜S116の類似単語選出工程の後、選出された類似単語およびキーワードを含む文献を検索する検索工程が実施される。すなわち、ステップS116の後、サーバ処理手段350の検索手段355は、ステップS104で受信した検索要求情報に基づいて、ステップS116で確定された検索要求のキーワードおよび類似単語を含む文献情報341Aを、単語出現一覧記憶領域342の単語出現一覧テーブルを用いて検索する(ステップS117)。すなわち、キーワードおよび類似単語に対応する単語情報342A1に関連付けられた識別情報341A2を読み取り、識別情報341A2に対応する文献情報341Aを文献情報記憶領域341から読み出し、その本文情報341A1を読み取る。そして、検索結果生成手段356により、検索手段355で取得した文献情報341Aを端末装置200へ報知するために、例えばサーバ記憶手段340にあらかじめ記憶された所定のフォームに基づいて検索結果情報を生成する。さらに、課金演算手段358により、例えば端末装置200がネットワーク110を介してサーバ装置300に接続した時間、検索を実行するための検索料金、検索結果の情報量に対応する回答出力料金などに基づいて、検索要求をした利用者に対して検索結果の報知に関する対価を演算する(ステップS118)。この検索工程の後、サーバ処理手段350は、検索結果を報知する検索結果報知工程を実施する。すなわち、報知手段357により、検索結果生成手段356で生成した検索結果情報を、課金演算手段358で演算した文献検索の対価に関する情報とともに、サーバ通信手段310によりネットワーク110を介して端末装置200へ送信する処理をする(ステップS119)。
After the similar word selection process in steps S110 to S116, a search process for searching for a document including the selected similar word and keyword is performed. That is, after step S116, the
このステップS119で送信される検索結果情報および文献検索の対価に関する情報を端末装置200が端末通信手段210にて受信すると(ステップS120)、端末処理手段250の検索結果取得手段253が取得し、出力制御手段254にて例えば所定のフォームに基づいて文献情報341Aを端末表示手段230で表示させたり、図示しない接続された印刷装置にて印刷出力させたりする検索結果情報の出力制御をし(ステップS121)、端末装置200における文献のキーワード検索の処理が終了する。
When the
一方、ステップS119の後、サーバ装置300は、決済手段359により、課金演算手段358で演算した対価を回収するための処理をする。例えば、サーバ記憶手段340にあらかじめ記憶されている端末装置200を用いて文献検索を利用する利用者を特定する顧客情報などに基づいて、請求書を発行したり、ネットワーク110を介していわゆる金融VANに構築されたファームバンキングを利用して決済処理したり、決済処理する旨をサーバ表示手段330に表示させて管理者に決済処理を促す案内を報知するなどの処理をし(ステップS122)、サーバ装置300における文献のキーワード検索の処理が終了する。
On the other hand, after step S <b> 119, the
ここで、検索要求のキーワードが上述した「ケミッタ」の場合、「エミッタ」と「リミッタ」とは編集距離またはリーベンシュタイン距離において数学的に定義される類似度が同一となる。ところで、入力操作に応じた文字列、例えば入力ローマ字列で比較した場合、図6および図7に示すように、「kemitta」と、「emitta」および「limitta」とでは、字面が似ていることで「エミッタ」が「ケミッタ」により似ていることがわかる。すなわち、入力操作に応じた入力文字列においてより高い類似性が認められることは、そのキーワードを入力しようとする意図の基、入力操作上の誤りによりキーワードが誤入力された蓋然性が高いことが判断できる。 Here, when the keyword of the search request is the above-mentioned “chemiter”, “emitter” and “limiter” have the same similarity defined mathematically in the edit distance or Levenshtein distance. By the way, when compared with a character string corresponding to an input operation, for example, an input Roman character string, as shown in FIGS. 6 and 7, “kemitta”, “emitta”, and “limitta” have similar character faces. It can be seen that “emitter” is more similar to “chemita”. In other words, if a higher similarity is recognized in the input character string according to the input operation, it is determined that there is a high probability that the keyword is erroneously input due to an error in the input operation based on the intention to input the keyword. it can.
〔実施の形態の作用効果〕
上述したように、上記実施の形態では、端末装置200からネットワーク110を介して取得した検索要求情報に含まれるキーワードを取得し、所定の入力操作に対応して所定の単語に変換する入力支援手段でキーワードに変換するための入力操作に応じた入力ローマ字列の信号列情報を単語変換手段352で生成させる。この生成したキーワードの入力ローマ字列と、単語出現一覧記憶領域342に複数記憶された単語における同様の信号列情報の入力ローマ字列との類似状態に関する類似度情報を類似度演算手段353にて演算させる。この演算した類似度情報に基づいて、信号列情報の入力ローマ字列が類似する単語出現一覧記憶領域342に記憶された単語を単語候補選出手段354にて選出させる。このため、例えば上述したように、単語の文字列での編集距離などにて数学的に定義される類似度による判断では確からしさの差別化ができない場合でも、キーワードを入力しようとする意図で入力操作上の誤りによりキーワードが誤入力された蓋然性が高いことによる高い類似性が認められる入力操作に応じた信号列である文字列すなわち入力ローマ字列に変換することで、類似状態に差が生じて類比判別が可能となり、より適切な類似する単語を選出できる。
[Effects of Embodiment]
As described above, in the above embodiment, the input support means for acquiring a keyword included in the search request information acquired from the
そして、単語変換手段352により、入力操作に応じた信号列として、ローマ字読みした場合における入力ローマ字列に変換して信号列情報を生成する構成としている。このため、特に日本語入力されたキーワードに類似する単語をより適切に判別でき、より適切な類似単語を選出できる。 Then, the word conversion means 352 converts the signal string corresponding to the input operation into an input Roman character string when the Roman character is read, and generates signal string information. For this reason, it is possible to more appropriately discriminate words that are particularly similar to keywords input in Japanese, and to select more appropriate similar words.
また、類似度演算手段353により、単語出現一覧記憶領域342に記憶された単語情報342A1に関連付けられた入力ローマ字列の信号列情報、さらには分割信号情報を読み取って類似度情報の演算を実施している。このため、単語出現一覧記憶領域342に記憶された全単語から信号列情報さらには分割信号情報を生成させる処理が不要で、処理負荷を低減でき、処理の高速化を容易に得ることができる。
Further, the similarity calculation means 353 reads the signal string information of the input Roman character string associated with the word information 342A1 stored in the word appearance
そして、類似度演算手段353により、分割信号情報生成手段353Aにてキーワードの入力ローマ字列の入力操作毎に対応した部分文字列や単位文字列などの分割文字列の分割信号情報を生成させ、重み度情報演算手段353Bにて単語出現一覧記憶領域342に記憶された単語の分割信号情報と、キーワードの分割信号情報との同一性に応じた重み付けに関する重み度を演算させ、重み度に基づいて単語出現一覧記憶領域342に記憶された単語におけるキーワードに対する類似度を演算している。このため、入力操作に応じた入力ローマ字列に基づいた適切な類比判別が容易に得られる。
Then, the similarity calculation means 353 causes the division signal information generation means 353A to generate division signal information of a divided character string such as a partial character string or a unit character string corresponding to each input operation of the keyword input Roman character string, and the weight The degree information calculating means 353B calculates a weighting degree related to weighting according to the identity of the divided signal information of the word stored in the word appearance
さらに、分割信号情報生成手段353Aで分割文字列を入力ローマ字列を1字分ずつずらした文字列の並びとして生成している。このため、入力ローマ字列に基づいてキーワードに対して類似性を有する類似単語を検索する際に、検索漏れを減少させることができ、適切な類似単語を選出できる。検索漏れが減少し、適切な類似する単語が適切に検出される。さらには、キーワードおよび単語を構成する複数の部分的な分割文字列としているので、キーワードおよび単語を形態素解析などの分析を実施する必要がなく、簡単な処理で容易にキーワードおよび単語の特徴となる情報を抽出でき、簡単な処理で容易に適切な類似する単語の選出が得られる。 Further, the divided signal information generating means 353A generates the divided character string as a string of character strings obtained by shifting the input Roman character string by one character. For this reason, when searching for similar words having similarity to the keyword based on the input Roman character string, search omissions can be reduced, and appropriate similar words can be selected. Search omissions are reduced and appropriate similar words are properly detected. Furthermore, since a plurality of partially divided character strings constituting the keyword and the word are used, it is not necessary to perform an analysis such as morphological analysis on the keyword and the word, and the keyword and the word can be easily obtained by a simple process. Information can be extracted, and appropriate similar words can be easily selected by simple processing.
そして、出力制御手段254により、単語候補選出手段354で選出した単語が入力操作により選択可能に端末表示手段230で表示している。このため、選択された類似する単語が利用者にて確認でき、例えば類似する単語に置換するなどの入力支援処理や類似する単語での検索処理など、適切な処理が確実に得られる。 The output control means 254 displays the word selected by the word candidate selection means 354 on the terminal display means 230 so that it can be selected by an input operation. For this reason, the selected similar word can be confirmed by the user, and appropriate processing such as input support processing such as replacement with a similar word and search processing with a similar word can be surely obtained.
また、単語候補選出手段354により、選出した類似単語のうち、キーワードとの例えば編集距離またはリーベンシュタイン距離などの距離に関する距離情報を演算し、選出した類似単語のいずれかをさらに選出して絞り込み処理をしている。このため、より適切に類似する類似単語の絞り込みが得られ、また重み度と異なる距離による類比判別により、類比判断が多面的となり、より適切な類似する類似単語を選出できる。さらに、このキーワードと類似単語との距離を演算する絞り込み処理の際、キーワードを入力しようとする意図で入力操作上の誤りによりキーワードが誤入力された蓋然性が高いことによる高い類似性が認められるそれぞれの入力ローマ字列における距離を演算することで、より適切な類似単語の絞り込みが得られる。 In addition, the word candidate selection means 354 calculates distance information regarding the distance from the keyword, such as an edit distance or a Levenshtein distance, among the selected similar words, and further selects and selects one of the selected similar words. I am doing. For this reason, similar similar words can be narrowed down more appropriately, and the analogy determination based on distances different from the weighting degree makes multifaceted analogy determination, and more appropriate similar similar words can be selected. Furthermore, in the narrowing-down process for calculating the distance between this keyword and a similar word, a high similarity is recognized due to the high probability that the keyword was erroneously input due to an error in input operation with the intention of inputting the keyword. By calculating the distance in the input Roman character string, it is possible to obtain a more appropriate narrowing down of similar words.
そして、文献検索のキーワードに類似する類似単語を選出する構成に適用している。このため、より漏れのない文献検索ができる。 And it applies to the structure which selects the similar word similar to the keyword of literature search. For this reason, it is possible to perform a literature search without omission.
また、ネットワーク110を介して接続する端末装置200からの検索要求によりサーバ装置300で文献検索して報知するシステム構成としている。このため、簡単な端末装置200の構成でも、文献情報341Aの関連に関する検索が容易にでき、利用の拡大を容易に図ることができる。さらには、サーバ装置300にて統括的に容量の大きな文献情報341Aを管理でき、データの更新などが容易で、運用管理性を容易に向上できる。したがって、携帯電話などの処理能力が比較的に小さいものを用いても容易に検索でき、利用の拡大が容易に図れる。
In addition, the system configuration is such that the
そして、パーソナルコンピュータなどにプログラムとして検索処理が実行可能に構成している。このため、プログラムを組み込む、さらにはプログラムを記録した記録媒体を用いることで、上記処理が容易に得られ、利用の拡大が容易に図れる。 A search process can be executed as a program in a personal computer or the like. For this reason, by using a recording medium in which the program is incorporated or the program is recorded, the above processing can be easily obtained, and the use can be easily expanded.
〔実施形態の変形〕
なお、本発明は、上述した一実施の形態に限定されるものではなく、本発明の目的を達成できる範囲で以下に示される変形をも含むものである。
[Modification of Embodiment]
Note that the present invention is not limited to the above-described embodiment, and includes the following modifications as long as the object of the present invention can be achieved.
例えば、システム構成として説明したが、1台のパーソナルコンピュータを用い、文献情報記憶領域341である記録媒体から文献情報341Aを適宜検索する装置構成としたり、文献情報記憶領域341をネットワーク110を介して読み取る構成としたり、端末装置200に類似単語を選出させる構成、すなわちキーワードを取得する手段、信号列に変換する手段、類似度を演算する手段、類似単語を選出する手段を設け、サーバ装置300では検索処理するのみの構成としたり、類似単語を選出させる構成と検索する構成とをそれぞれ異なるサーバ装置300で実施するシステム構成としたり、サーバ記憶手段340の構成をサーバ装置300と切り離してネットワーク110を介して別のサーバ装置として構成したりするなど、いずれの形態とすることができる。
For example, although the system configuration has been described, a single personal computer is used to appropriately search the
また、文献を検索するためのキーワードに類似する単語を選出する構成について説明したが、例えば上述したように、ワードプロセッサなどの文字入力支援装置として類似単語検索装置を独立して構成するなどしてもよい。このような文字入力支援装置として構成する場合には、入力操作に応じて類似単語を正しい入力文字として置換する構成、すなわち単語修正手段を設けると、より入力操作性が向上するので好ましい。 Moreover, although the structure which selects the word similar to the keyword for searching literature was demonstrated, for example, as mentioned above, a similar word search apparatus may be comprised independently as character input assistance apparatuses, such as a word processor. Good. When configured as such a character input support device, it is preferable to provide a configuration that replaces similar words with correct input characters in accordance with the input operation, that is, a word correcting means, because the input operability is further improved.
そして、単語変換手段352にてキーワードをローマ字読み文字列となる入力ローマ字列に変換して説明したが、入力ローマ字列に限らず、そのキーワードを入力するために入力操作する操作手段で入力操作することにより出力されるいずれの入力信号列に変換してもよい。例えば携帯電話による「ケミッタ」の入力の際には、「2」の操作ボタンを4回操作し、「7」を2回操作し、「4」を3回操作して小文字に変換する操作ボタンを操作し、「4」を1回操作することによる信号列に変換するなどが例示できる。このような例えば携帯電話やPHS、PDAなどの携帯通信端末装置に設けられた操作手段における入力操作に応じた信号列の信号列情報を生成することで、数字キーなどの入力操作が限られた操作手段を備えた携帯通信端末装置でも適切な類似する単語の選出が得られ、利用の拡大を容易に図ることができる。さらには、入力文字列として、入力ローマ字列に変換して説明したが、例えば入力かな文字列に変換するなどして類似度を演算してもよい。 In the above description, the word conversion means 352 converts the keyword into an input Roman character string to be a Roman character reading character string. It may be converted into any input signal sequence output. For example, when inputting “Chemitta” using a mobile phone, the “2” operation button is operated four times, the “7” is operated twice, and the “4” is operated three times to convert to lower case. Can be converted into a signal sequence by operating “4” once. By generating the signal sequence information of the signal sequence according to the input operation in the operation means provided in the mobile communication terminal device such as a mobile phone, PHS, PDA, etc., input operations such as numeric keys are limited. An appropriate similar word can be selected even in a mobile communication terminal device provided with an operation means, and the use can be easily expanded. Furthermore, although the input character string has been described as being converted into an input Roman character string, the similarity may be calculated by converting into an input kana character string, for example.
また、類似度の演算として、分割文字列での重み付けに基づいて実施したが、例えば単語変換手段352で変換した信号列を用いて、単語出現一覧テーブルの単語の入力ローマ字列との距離を演算して類比判断するなどしてもよい。
Further, although the similarity is calculated based on weighting with the divided character string, the distance from the input Roman character string of the word in the word appearance list table is calculated using, for example, the signal string converted by the
さらに、選出した類似単語の絞り込みの処理として、距離を演算する構成としては、入力ローマ字列での距離の他、キーワードおよび類似単語の文字列での距離を演算してもよい。さらには、距離を演算する構成に代えて、例えば単語出現一覧テーブルを利用して関連付けられた文献が多いすなわち文献頻度が高い方、あるいは全文献中での出現頻度が多い方などのその単語の文献での利用頻度に基づいて判断し、利用頻度が高い方が確からしい単語であるとして重み付け(例えばスコア付け)をし、絞り込みの類比判断をするなどしてもよい。なお、単語出現一覧テーブルを用いて文献頻度に応じて類似単語のスコア付けをしてスコアの大きい順が類似度がより高いとして絞り込みを実施する構成では、単語出現一覧テーブルの共用が図れ、情報の有効利用による構成の簡略化や処理の高速化などが容易に得られる。そして、出現頻度を利用する構成では、例えば以下の数6に示す指揮に基づいてスコアV付けを実施することが例示できる。 Further, as a process of narrowing down selected similar words, as a configuration for calculating the distance, in addition to the distance in the input Roman character string, the distance in the character string of the keyword and the similar word may be calculated. Furthermore, instead of the configuration for calculating the distance, for example, there are many documents related using the word appearance list table, that is, the document frequency is high, or the word frequency such as one with a high frequency of appearance in all documents is used. Judgment may be made based on the frequency of use in the literature, weighting (for example, scoring) may be performed on the basis that the higher frequency of use is a more probable word, and narrowing down comparison may be judged. In the configuration in which by using a word appearance list table to the scoring of similar words in accordance with the literature frequency descending order of scores implementing narrowing as higher degree of similarity, Hakare sharing of word appearance list table, information Simplification of the configuration and speeding up of processing can be easily obtained by effective use of. In the configuration using the appearance frequency, for example, the score V can be applied based on the command shown in the following formula 6.
〔数6〕
V=Log(Freq(w)+C)/d
Freq(w):単語wの出現頻度
C:定数
d:リーベンシュタイン距離
[Equation 6]
V = Log (Freq (w) + C) / d
Freq (w): Appearance frequency of word w C: constant d: Liebenstein distance
これらのように、文献における利用頻度、例えば全文献での単語の出現頻度やその単語を含む文献頻度が高い単語は、頻繁に文献中にキーワードとして利用されていることから、文献検索のキーワードとしての蓋然性が高いこととなる。このため、類似単語のうち、その類似単語を含む文献における利用頻度を演算し、この利用頻度に基づいてさらに絞り込みを実施することで、より適切な類似単語を選出できる。 Like these, the frequency of use in documents, for example, the appearance frequency of words in all documents and the words with high document frequency including the words are frequently used as keywords in documents. The probability is high. For this reason, a more suitable similar word can be selected by calculating the use frequency in the literature containing the similar word among similar words, and further narrowing down based on this use frequency.
また、入力されたキーワードを入力ローマ字列に変換して説明したが、例えば文字入力支援装置として利用する構成において入力された単語に類似する単語を選出する際、単語を入力操作に応じた信号列に変換する処理に代えて、例えば入力された当初の信号列を取得し、この取得した信号列で類似度を演算して類似する単語を選出するなどしてもよい。 Moreover, although the input keyword was converted into the input Roman character string and described, for example, when selecting a word similar to the input word in the configuration used as a character input support device, the signal string corresponding to the input operation of the word Instead of the process of converting to the above, for example, the input initial signal sequence may be acquired, and similar words may be calculated by calculating the similarity using the acquired signal sequence.
そして、類似度演算手段353により、キーワードの入力ローマ字列との類似度情報を演算するための単語出現一覧テーブルにおける単語の入力ローマ字列を、あらかじめ単語出現一覧テーブルの単語情報342A1に関連付けた信号列情報を読み取らせて説明したが、例えば単語出現一覧テーブルの単語に基づいて単語変換手段352により入力ローマ字列を生成させ、この生成した入力ローマ字列を利用するなどしてもよい。このことにより、単語出現一覧テーブルの単語情報342A1に入力ローマ字列の信号列情報を記憶させておく必要がなく、サーバ記憶手段340の構成の簡略化を容易に得ることができる。
Then, a signal string in which the input Roman character string of the word in the word appearance list table for calculating the similarity information with the input Roman character string of the keyword is previously associated with the word information 342A1 of the word appearance list table by the similarity calculating means 353. Although the description has been made by reading the information, for example, an input Roman character string may be generated by the
また、分割信号情報生成手段353Aで分割する分割文字列としては、1字ずつずらした3文字の部分文字列、2文字の部分文字列、および1文字の単位文字列を全て分割文字列として抽出する構成に限られない。すなわち、上述したように、部分文字列の文字数は4文字以上でもよく、特に限定されるものではなく、また、1字ずつずらした3文字の部分文字列、2文字の部分文字列、または1文字の単位文字列、あるいはこれらのいずれの組み合わせが適用できる。 Further, as the divided character string to be divided by the divided signal information generating means 353A, all three character partial character strings, two character partial character strings, and one character unit character string shifted by one character are extracted as divided character strings. It is not restricted to the structure to do. That is, as described above, the number of characters in the partial character string may be four or more, and is not particularly limited. Further, the partial character string is shifted by one character, the three character partial character string, the two character partial character string, or 1 A character unit character string or any combination thereof can be applied.
さらに、キーワードおよび類似単語での文献検索の結果を一括して報知する構成としたが、この場合に限られない。例えばキーワードで文献検索し、その文献結果を端末装置200に報知する際に類似単語での文献検索を続行してよいか否かの設定を促す案内を実施させ、類似単語での文献検索の続行の設定を認識することで初めて類似単語での文献検索を実施しその結果を報知するなどしてもよい。このことにより、キーワードで十分に文献が検出されたと利用者が判断した場合には、類似単語での文献検索は不要となるので、不要な処理を省略することでの処理効率を向上でき、また文献検索の適切な対価請求を実施でき、利用の拡大が容易に図れる。また、課金処理さらには決済処理などを実施しない構成としてもよい。
Furthermore, although it was set as the structure which alert | reports the result of the literature search by a keyword and a similar word collectively, it is not restricted to this case. For example, when searching for a document by keyword and informing the
その他、本発明は、上述した一実施の形態および実施形態の変形のみに限ることなく、その他、本発明の目的を逸脱しない範囲で、例えばデータ構造を変更したり、データ構造の項目を設定したり、処理のための構成を変更するなど、様々な応用が可能である。 In addition, the present invention is not limited to the above-described embodiment and modifications of the embodiment, and other modifications such as changing the data structure or setting data structure items are possible without departing from the object of the present invention. Various applications are possible, such as changing the configuration for processing.
本発明は、特許や実用新案、意匠、商標などの他、商号など広義の意味の産業財産権に関わる文献情報に関連する他の文献情報を検索する構成に利用できる。また、文献情報としては、公報以外の刊行物などをも対象とすることができる。さらには、文献情報を検索する構成に限らず、ワードプロセッサなどの文字入力支援装置として誤入力された単語に類似する単語を選出、さらには置換して修正する構成にも適用できる。 INDUSTRIAL APPLICABILITY The present invention can be used in a configuration for searching for other document information related to document information related to industrial property rights in a broad sense such as a trade name in addition to patents, utility models, designs, trademarks, and the like. Further, as the literature information, publications other than the gazette can be targeted. Furthermore, the present invention is not limited to a configuration for searching for literature information, but can also be applied to a configuration in which a word similar to a word erroneously input as a character input support device such as a word processor is selected and further replaced and corrected.
100…情報検索装置としての文献情報検索システム
110…ネットワーク
220…操作手段としての端末入力手段
230…表示手段としての端末表示手段
251…入力支援手段としても機能するキーワード設定手段
254…表示制御手段としても機能する出力制御手段
341…文献記憶手段としての文献情報記憶領域
341A…文献情報
341A2…文献固有情報としての識別情報
342…単語情報記憶手段としての単語出現一覧テーブルを構成する単語出現一覧記憶領域
342A1…単語情報
350…演算手段としての類似単語検索装置であるサーバ処理手段
351…単語情報取得手段としても機能する検索要求情報取得手段
352…単語変換手段
353…類似度演算手段
353A…分割信号情報生成手段
353B…重み度情報演算手段
354…単語候補選出手段
356…検索手段
DESCRIPTION OF
Claims (18)
前記取得した単語情報から、その単語に変換する前の入力ローマ字列を出力するローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を生成する信号列情報生成手段と、
この信号列情報生成手段にて生成された前記単語の入力ローマ字列と単語情報記憶手段に複数記憶された単語における前記入力操作に応じた入力ローマ字列との類似状態に関する類似度情報を演算する類似度演算手段と、
前記類似度情報に基づいて前記入力ローマ字列が類似する前記単語情報記憶手段に記憶された単語を選出する単語候補選出手段と、
を具備したことを特徴とした類似単語検索装置。 Word information acquisition means for acquiring word information related to words converted by the input program of the terminal device;
Signal string information generating means for generating an input Roman character string output for each input operation of an operation key of a Roman character input keyboard that outputs an input Roman character string before being converted into the word from the acquired word information;
Similarity for calculating similarity information on the similarity state between the input Roman character string of the word generated by the signal string information generating means and the input Roman character string according to the input operation in a plurality of words stored in the word information storage means Degree calculation means;
Word candidate selection means for selecting words stored in the word information storage means with which the input Roman character string is similar based on the similarity information;
The similar word search device characterized by comprising.
前記信号列情報生成手段は、前記端末装置から取得した単語情報から、その単語に携帯通信端末装置に設けられた入力プログラムで変換する前の前記携帯通信端末装置のローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を生成する
ことを特徴とした類似単語検索装置。 The similar word search device according to claim 1,
The signal sequence information generating means inputs from the word information acquired from the terminal device to the operation key of the Roman character input keyboard of the mobile communication terminal device before converting the word into the word by the input program provided in the mobile communication terminal device A similar word search device that generates an input Roman character string that is output for each operation.
前記類似度演算手段は、前記単語情報記憶手段に記憶された前記単語における前記入力ローマ字列を前記信号列情報生成手段にて生成させ、この生成した入力ローマ字列との類似度情報を演算する
ことを特徴とした類似単語検索装置。 The similar word search device according to claim 1 or 2 ,
The similarity calculation means causes the signal string information generation means to generate the input Roman character string in the word stored in the word information storage means, and calculates similarity information with the generated input Roman character string. Similar word search device characterized by
前記類似度演算手段は、前記単語情報記憶手段に記憶された前記単語に関連付けられた前記入力ローマ字列を取得し、この取得した入力ローマ字列との類似度情報を演算する
ことを特徴とした類似単語検索装置。 The similar word search device according to claim 1 or 2 ,
The similarity calculating means acquires the input Roman character string associated with the word stored in the word information storage means, and calculates similarity information with the acquired input Roman character string. Word search device.
前記類似度演算手段は、前記入力ローマ字列における前記ローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列の単位信号およびこれら単位信号を組み合わせた部分信号のうちの少なくともいずれか1つを有する分割信号情報を生成する分割信号情報生成手段と、この生成された分割信号情報と前記単語情報記憶手段に記憶された前記単語における前記分割信号情報との同一性に応じた重み付けに関する重み度情報を演算する重み度情報演算手段と、を備え、
前記重み度情報に基づいて前記単語情報記憶手段に記憶された前記単語の類似状態に関する類似度情報を演算する
ことを特徴とした類似単語検索装置。 The similar word search device according to any one of claims 1 to 4 ,
The similarity calculation means, wherein at least any one of the Romanized unit signal input Romaji sequence output for each input operation of the operation keys of the input keyboard and partial signal combining these units signal in the input Romaji sequence A divided signal information generating means for generating divided signal information having a weight, and a weighting degree related to weighting according to the identity between the generated divided signal information and the divided signal information in the word stored in the word information storage means Weight degree information calculation means for calculating information,
A similarity word search device, wherein similarity information related to the similarity state of the word stored in the word information storage means is calculated based on the weight information.
前記分割信号情報生成手段は、前記部分信号の前記入力ローマ字列を1字分ずつずらした文字列の並びとして生成する
ことを特徴とした類似単語検索装置。 The similar word search device according to claim 5 ,
The divided signal information generating means, similar word search apparatus and generating a sequence of strings said input Roman characters string shifted by one character content of the partial signal.
前記単語候補選出手段にて選出された単語を、入力操作により選択可能に表示手段に表示させる表示制御手段を具備した
ことを特徴とした類似単語検索装置。 The similar word search device according to any one of claims 1 to 6 ,
A similar word search apparatus, comprising: a display control means for causing a display means to display a word selected by the word candidate selection means so as to be selectable by an input operation.
所定の入力操作により前記単語候補選出手段にて選出された単語を前記取得した単語に代える単語修正手段を具備した
ことを特徴とした類似単語検索装置。 The similar word search device according to any one of claims 1 to 7 ,
A similar word search device, comprising: a word correction unit that replaces a word selected by the word candidate selection unit by a predetermined input operation with the acquired word.
前記類似度演算手段は、前記信号列情報生成手段にて生成された前記単語の入力ローマ字列と、前記単語情報記憶手段に記憶された前記単語における前記入力操作に応じた入力ローマ字列との距離に関する距離情報を前記類似度情報として演算する
ことを特徴とした類似単語検索装置。 The similar word search device according to any one of claims 1 to 8 ,
The similarity calculating means, the distance between the signal sequence information and the input Romaji sequence of the words generated by the generating means, the input Romaji sequence corresponding to the input operation in the words stored in the word information storage means The similar word search apparatus characterized by calculating the distance information regarding as said similarity information.
前記単語候補選出手段は、前記選出した単語のうち、前記取得した単語との距離に関する距離情報を演算し、この演算した距離情報に基づいて前記選出した単語のいずれかを選出する
ことを特徴とした類似単語検索装置。 The similar word search device according to any one of claims 1 to 8 ,
The word candidate selection means calculates distance information related to a distance from the acquired word among the selected words, and selects any of the selected words based on the calculated distance information. Similar word search device.
前記単語候補選出手段は、前記距離情報として、前記選出した単語の入力ローマ字列と、前記取得した単語における前記入力ローマ字列との距離に関する距離情報を演算する
ことを特徴とした類似単語検索装置。 The similar word search device according to claim 10 ,
It said word candidate selection means, as the distance information, an input Romaji sequence of words and the selected, the obtained similar word search apparatus and calculates the distance information about the distance between the input Romaji sequence in the word.
前記単語候補選出手段は、前記選出する単語のうち、前記単語を含む文献に関する文献情報を複数記憶する文献記憶手段における前記選出する単語の利用頻度を演算し、この利用頻度に基づいて前記単語情報記憶手段に記憶された単語を選出する
ことを特徴とした類似単語検索装置。 The similar word search device according to any one of claims 1 to 11 ,
The word candidate selection means calculates a use frequency of the selected word in a document storage means for storing a plurality of document information related to a document including the word among the selected words, and the word information based on the use frequency A similar word search device characterized by selecting a word stored in a storage means.
前記単語候補選出手段は、前記文献記憶手段に記憶された文献情報での出現頻度、および前記選出する単語を含む文献頻度のうちの少なくともいずれか一方を利用頻度として演算する
ことを特徴とした類似単語検索装置。 The similar word search device according to claim 12 ,
The word candidate selecting means calculates at least one of the appearance frequency in the document information stored in the document storage means and the document frequency including the selected word as the usage frequency. Word search device.
前記単語候補選出手段は、前記単語記憶手段に記憶された単語情報に、この単語情報の単語を含む文献に対応し文献を特定する文献固有情報が関連付けられた単語出現一覧テーブルに基づいて前記利用頻度を演算する
ことを特徴とした類似単語検索装置。 The similar word search device according to claim 12 or claim 13 ,
The word candidate selection means is based on the word appearance list table in which the word information stored in the word storage means is associated with the document-specific information that identifies the document corresponding to the document including the word of the word information. A similar word search device characterized by calculating a frequency.
単語を含む文献に関する文献情報を複数記憶する文献記憶手段を利用して、前記類似単語検索装置にて選出された単語を含む前記文献情報を検索する検索手段と、
を具備したことを特徴とした情報検索装置。 The similar word search device according to any one of claims 1 to 14 ,
Search means for searching the document information including the word selected by the similar word search device using a document storage means for storing a plurality of document information relating to documents including the word;
An information retrieval apparatus comprising:
前記コンピュータは、
端末装置の入力プログラムによって変換された単語を取得し、この取得した単語に変換する前の入力ローマ字列を出力するローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を生成する処理をし、
この生成した単語の入力ローマ字列と単語情報記憶手段に複数記憶された単語における前記入力操作に応じた入力ローマ字列との類似状態に関する類似度情報を演算する処理をし、
この演算した類似度情報に基づいて前記入力ローマ字列が類似する前記単語情報記憶手段に記憶された単語を選出する処理をする
ことを特徴とする類似単語検索方法。 A similar word search method for selecting words similar to an acquired word by a computer,
The computer
A process of acquiring words converted by the input program of the terminal device and generating an input Roman character string output for each input operation of an operation key of the Roman character input keyboard that outputs the input Roman character string before being converted into the acquired word And
A process of calculating similarity information regarding the similarity state between the input Roman character string of the generated word and the input Roman character string according to the input operation in a plurality of words stored in the word information storage means,
A similar word search method comprising: selecting a word stored in the word information storage unit having a similar input Roman character string based on the calculated similarity information.
ことを特徴とした類似単語検索プログラム。 A similar word search program that causes a computer to function as the similar word search device according to any one of claims 1 to 14 or the information search device according to claim 15 .
ことを特徴とした類似単語検索プログラム。 A similar word search program that causes a computer to execute the similar word search method according to claim 16 .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004217628A JP4936650B2 (en) | 2004-07-26 | 2004-07-26 | Similar word search device, method thereof, program thereof, and information search device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004217628A JP4936650B2 (en) | 2004-07-26 | 2004-07-26 | Similar word search device, method thereof, program thereof, and information search device |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006039866A JP2006039866A (en) | 2006-02-09 |
JP2006039866A5 JP2006039866A5 (en) | 2007-08-09 |
JP4936650B2 true JP4936650B2 (en) | 2012-05-23 |
Family
ID=35904814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004217628A Active JP4936650B2 (en) | 2004-07-26 | 2004-07-26 | Similar word search device, method thereof, program thereof, and information search device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4936650B2 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689554B2 (en) * | 2006-02-28 | 2010-03-30 | Yahoo! Inc. | System and method for identifying related queries for languages with multiple writing systems |
JP5321777B2 (en) * | 2007-12-25 | 2013-10-23 | 大日本印刷株式会社 | Product search device and product search method having function of presenting reference keyword |
KR100957416B1 (en) | 2008-07-03 | 2010-05-11 | 엔에이치엔(주) | Method and System for Providing Search Service Using Synonym |
KR101049358B1 (en) * | 2008-12-08 | 2011-07-13 | 엔에이치엔(주) | Method and system for determining synonyms |
KR101483433B1 (en) * | 2013-03-28 | 2015-01-16 | (주)이스트소프트 | System and Method for Spelling Correction of Misspelled Keyword |
US9934217B2 (en) | 2013-07-26 | 2018-04-03 | Facebook, Inc. | Index for electronic string of symbols |
WO2015040793A1 (en) * | 2013-09-20 | 2015-03-26 | 三菱電機株式会社 | Character string retrieval device |
JP6106616B2 (en) * | 2014-02-13 | 2017-04-05 | 日本電信電話株式会社 | Database creation device, word search device, information terminal, word search method, program |
-
2004
- 2004-07-26 JP JP2004217628A patent/JP4936650B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2006039866A (en) | 2006-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10156981B2 (en) | User-centric soft keyboard predictive technologies | |
US7286115B2 (en) | Directional input system with automatic correction | |
US8914275B2 (en) | Text prediction | |
US9588596B2 (en) | Handheld electronic device with text disambiguation | |
US11736587B2 (en) | System and method for integrating message content into a target data processing device | |
JP2007529069A (en) | Apparatus, method and system for data entry interface | |
CN101436110A (en) | Method and device for performing ideogram and phonography input | |
CN103299550A (en) | Spell-check for a keyboard system with automatic correction | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
JP4936650B2 (en) | Similar word search device, method thereof, program thereof, and information search device | |
JP2010257392A (en) | Device and method for inputting character, computer readable program, and recording medium | |
JP4511892B2 (en) | Synonym search device, method thereof, program thereof, and information search device | |
JP4615279B2 (en) | Document classification recognition apparatus, method thereof, document classification apparatus, and program thereof | |
JP5271526B2 (en) | Trademark search system and trademark search server | |
CN112684910A (en) | Input method candidate word display method and device and electronic equipment | |
JP3979288B2 (en) | Document search apparatus and document search program | |
JP2005099938A (en) | Search data structure of document information about industrial property, recording medium with search data structure recorded, and apparatus, system, method, and program for search of document information about industrial property, and recording medium with program recorded | |
JP6752705B2 (en) | Server equipment, information processing equipment, information processing methods, and programs | |
US20120212514A1 (en) | Apparatus, a method and a program thereof | |
JP2005267468A (en) | Information search apparatus | |
CN111488062A (en) | Character input device and character input method | |
JPH08263509A (en) | Software utilization device | |
JPH10187748A (en) | Method and device for information retrieval, and computer-readable memory | |
JPH11149519A (en) | Character recognizing device and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20070208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070514 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070514 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070622 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070622 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090710 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091215 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100106 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20100219 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120221 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150302 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4936650 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |