JP4936650B2 - Similar word search device, method thereof, program thereof, and information search device - Google Patents

Similar word search device, method thereof, program thereof, and information search device Download PDF

Info

Publication number
JP4936650B2
JP4936650B2 JP2004217628A JP2004217628A JP4936650B2 JP 4936650 B2 JP4936650 B2 JP 4936650B2 JP 2004217628 A JP2004217628 A JP 2004217628A JP 2004217628 A JP2004217628 A JP 2004217628A JP 4936650 B2 JP4936650 B2 JP 4936650B2
Authority
JP
Japan
Prior art keywords
word
information
input
similar
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004217628A
Other languages
Japanese (ja)
Other versions
JP2006039866A (en
JP2006039866A5 (en
Inventor
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2004217628A priority Critical patent/JP4936650B2/en
Publication of JP2006039866A publication Critical patent/JP2006039866A/en
Publication of JP2006039866A5 publication Critical patent/JP2006039866A5/ja
Application granted granted Critical
Publication of JP4936650B2 publication Critical patent/JP4936650B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力される単語に類似する単語を検索する類似単語検索装置、その方法、そのプログラム、および、情報検索装置に関する。 The present invention, similar word search device for searching for a word that is similar to a word to be input, the method, the program, you and an information retrieval device.

従来、入力される単語を正しい単語に修正する装置として、取得した単語をスペルチェックにより正しい単語に修正する構成が知られている(例えば、特許文献1または特許文献2参照)。   2. Description of the Related Art Conventionally, as an apparatus that corrects an input word to a correct word, a configuration is known in which an acquired word is corrected to a correct word by a spell check (see, for example, Patent Document 1 or Patent Document 2).

特許文献1に記載のものは、光学的文字読取装置や画像読取装置などにより入力され切り取った欧文文字列の単語を、単語辞書に記憶された単語と比較して正誤判定するスペルチェックを実施する。誤りであると判断した場合、誤認文字データベースを参照して入力された単語中の文字を間違いやすい文字と置換して新たな単語を生成し、再度スペルチェックする。このスペルチェックにより正しいと判定した単語が複数ある場合、表示装置に表示し、オペレータが指定した単語に変更する構成が採られている。   The one described in Japanese Patent Application Laid-Open No. H10-228707 carries out a spell check that compares a word of a European character string input and cut by an optical character reader or an image reader with a word stored in a word dictionary to determine whether it is correct or incorrect. . If it is determined that there is an error, the characters in the word input with reference to the misidentified character database are replaced with easy-to-mistake characters, a new word is generated, and the spell check is performed again. When there are a plurality of words determined to be correct by this spell check, a configuration is adopted in which the words are displayed on a display device and changed to words designated by the operator.

一方、特許文献2に記載のものは、取り出した単語のスペルを、辞書記憶部に記憶された正しいスペルの単語と比較し、辞書記憶部にないと判断するとスペルミスと判定する。そして、ミス癖ルール表からルールを取り出し、このルールのスペル変換によりスペルミスと判定した単語を変換する。そして、変換した後のスペルが辞書記憶部にあれば候補として表示し、ユーザが表示される候補を選択することで正しく修正する構成が採られている。   On the other hand, the device described in Patent Document 2 compares the spelling of the extracted word with a correctly spelled word stored in the dictionary storage unit, and determines that the spelling error is found if it is not in the dictionary storage unit. Then, a rule is taken out from the miss rule table, and a word determined to be misspelled by the spell conversion of this rule is converted. And if the spelling after conversion exists in a dictionary memory | storage part, it will display as a candidate and the structure correct | amended correctly will be taken by selecting the candidate displayed by a user.

特開平5−298495号公報(第4頁左欄〜第6頁左欄)JP-A-5-298495 (page 4 left column to page 6 left column) 特開平10−207888号公報(第3頁左欄〜第4頁右欄)JP-A-10-207888 (page 3 left column to page 4 right column)

しかしながら、上述した特許文献1または特許文献2に記載のような従来の単語を修正する構成では、判定する単語と辞書中の単語との字面の類似度合いに基づいて正誤判断しているため、正しい単語を適切に選出できないおそれがある。例えば、正誤判断する単語が「ケミッタ」である場合、「エミッタ」か「リミッタ」かいずれが最も確からしいか判定できない。   However, in the configuration for correcting the conventional word as described in Patent Document 1 or Patent Document 2 described above, correct / incorrect determination is made based on the degree of similarity of the face of the word to be determined and the word in the dictionary. The word may not be selected properly. For example, when the correct / wrong word is “chemiter”, it cannot be determined whether “emitter” or “limiter” is most likely.

本発明の目的は、このような点に鑑みて、類似する単語が適切に検索される類似単語検索装置、その方法、そのプログラム、および、情報検索装置を提供することにある。 An object of the present invention, in view of the above problems, similar word search device, method thereof similar words are properly retrieved, the program, contact and to provide an information retrieval device.

本発明の類似単語検索装置は、端末装置の入力プログラムによって変換された単語に関する単語情報を取得する単語情報取得手段と、前記取得した単語情報から、その単語に変換する前の入力ローマ字列を出力するローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を生成する信号列情報生成手段と、この信号列情報生成手段にて生成された前記単語の入力ローマ字列と単語情報記憶手段に複数記憶された単語における前記入力操作に応じた入力ローマ字列との類似状態に関する類似度情報を演算する類似度演算手段と、前記類似度情報に基づいて前記入力ローマ字列が類似する前記単語情報記憶手段に記憶された単語を選出する単語候補選出手段と、を具備したことを特徴とする。 The similar word search device of the present invention outputs word information acquisition means for acquiring word information relating to a word converted by an input program of a terminal device, and an input Roman character string before conversion to the word from the acquired word information Signal string information generating means for generating an input Roman character string that is output for each input operation of an operation key of the Roman character input keyboard, and an input Roman character string and word information storage means for the word generated by the signal string information generating means Similarity calculation means for calculating similarity information related to a similarity state with the input Roman character string corresponding to the input operation in a plurality of stored words, and the word information similar to the input Roman character string based on the similarity information And word candidate selection means for selecting words stored in the storage means.

この発明では、単語情報取得手段で端末装置の入力プログラムによって変換された単語に関する単語情報を取得し、この単語情報に基づいて、その単語に変換する前の入力ローマ字列を出力するローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を信号列情報生成手段で生成させる。この生成した単語の入力ローマ字列と、単語情報記憶手段に複数記憶された単語における同様の入力ローマ字列との類似状態に関する類似度情報を類似度演算手段にて演算させる。この演算した類似度情報に基づいて、入力ローマ字列が類似する単語情報記憶手段に記憶された単語を単語候補選出手段にて選出させる。このことにより、例えば単語の文字列での編集距離などにて数学的に定義される類似度による判断では、確からしさの差別化ができない場合でも類比判別が得られ、より適切な類似する単語の選出が得られる。 In the present invention, the word information acquisition means acquires word information relating to a word converted by the input program of the terminal device, and based on this word information, outputs an input Roman character string before conversion to the word. An input Roman character string output for each input operation of the operation key is generated by the signal string information generating means. Similarity information regarding the similarity state between the generated input Roman character string of the generated word and similar input Roman character strings in a plurality of words stored in the word information storage unit is calculated by the similarity calculation unit. Based on the calculated similarity information, the word candidate selection means selects words stored in the word information storage means with similar input Roman character strings . As a result, for example, the similarity determination that is mathematically defined by the edit distance in the character string of the word can provide an analogy determination even when the probability cannot be differentiated. Selection is obtained.

また、本発明では、請求項1に記載の類似単語検索装置であって、前記信号列情報生成手段は、前記端末装置から取得した単語情報から、その単語に携帯通信端末装置に設けられた入力プログラムで変換する前の前記携帯通信端末装置の入力ローマ字列を出力するローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を生成する構成とすることが好ましい。この構成では、例えば携帯電話やPHS(Personal Handyphone System)、PDA(Personal Digital Assistant)などの携帯通信端末装置に設けられたローマ字入力キーボードの操作キーにおける入力操作に応じた入力ローマ字列を生成するので、数字キーなどの入力操作が限られたローマ字入力キーボードの操作キーを備えた携帯通信端末装置でも適切な類似する単語の選出が得られ、利用の拡大が容易に図れる。 Further, in the present invention, the similar word search device according to claim 1, wherein the signal string information generation unit inputs the word from the word information acquired from the terminal device to the portable communication terminal device. It is preferable to generate an input Roman character string that is output for each input operation of an operation key of a Roman character input keyboard that outputs the input Roman character string of the portable communication terminal device before conversion by a program. In this configuration, for example, an input Roman character string corresponding to an input operation on an operation key of a Roman character input keyboard provided in a mobile communication terminal device such as a mobile phone, a PHS (Personal Handyphone System), or a PDA (Personal Digital Assistant) is generated. The mobile communication terminal device having the operation keys of the Romaji input keyboard with limited input operations such as numeric keys can select appropriate similar words and can easily expand the use.

さらに、本発明では、請求項1又は請求項に記載の類似単語検索装置であって、前記類似度演算手段は、前記単語情報記憶手段に記憶された前記単語における前記入力ローマ字列を前記信号列情報生成手段にて生成させ、この生成した入力ローマ字列との類似度情報を演算する構成とすることが好ましい。この構成では、類似度演算手段は、取得した単語の入力ローマ字列との類似度情報を演算するための単語情報記憶手段に記憶された単語の入力ローマ字列を信号列情報生成手段にて生成させるので、単語情報記憶手段に単語の入力ローマ字列を記憶させておく必要がなく、単語情報記憶手段の構成が簡略化する。 Furthermore, in the present invention, the similar word search device according to claim 1 or 2 , wherein the similarity calculation means uses the input Roman character string in the word stored in the word information storage means as the signal. It is preferable that the information is generated by the column information generating means and the similarity information with the generated input Roman character string is calculated. In this configuration, the similarity calculation means causes the signal string information generation means to generate an input Roman character string of a word stored in the word information storage means for calculating similarity information between the acquired word and the input Roman character string . Therefore, it is not necessary to store the input Roman character string of words in the word information storage means, and the configuration of the word information storage means is simplified.

さらに、本発明では、請求項1又は請求項に記載の類似単語検索装置であって、前記類似度演算手段は、前記単語情報記憶手段に記憶された前記単語に関連付けられた前記入力ローマ字列を取得し、この取得した入力ローマ字列との類似度情報を演算する構成とすることが好ましい。この構成では、類似度演算手段は、取得した単語の入力ローマ字列との類似度情報を演算するための単語情報記憶手段に記憶された単語の入力ローマ字列を、単語譲歩うき置く手段に記憶された単語に関連付けられた入力ローマ字列を用いるので、単語情報記憶手段に記憶された単語から入力ローマ字列を生成させる処理が不要で、処理負荷が低減し、処理の高速化が容易に得られる。 Furthermore, in the present invention, the similar word search device according to claim 1 or 2 , wherein the similarity calculation means includes the input Roman character string associated with the word stored in the word information storage means. And the similarity information with the acquired input Roman character string is preferably calculated. In this configuration, the similarity calculation means is stored in the word concession means for storing the word input Roman character string stored in the word information storage means for calculating similarity information between the acquired word and the input Roman character string. Since the input Roman character string associated with the word is used, the process of generating the input Roman character string from the word stored in the word information storage means is unnecessary, the processing load is reduced, and the processing speed can be easily increased.

そして、本発明では、請求項1ないし請求項のいずれかに記載の類似単語検索装置であって、前記類似度演算手段は、前記入力ローマ字列における前記ローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列の単位信号およびこれら単位信号を組み合わせた部分信号のうちの少なくともいずれか1つを有する分割信号情報を生成する分割信号情報生成手段と、この生成された分割信号情報と前記単語情報記憶手段に記憶された前記単語における前記分割信号情報との同一性に応じた重み付けに関する重み度情報を演算する重み度情報演算手段と、を備え、前記重み度情報に基づいて前記単語情報記憶手段に記憶された前記単語の類似状態に関する類似度情報を演算する構成とすることが好ましい。この構成では、類似度演算手段は、分割信号情報生成手段にて入力ローマ字列におけるローマ字入力キーボードの操作キーでの入力操作毎に出力される入力ローマ字列の単位信号およびこれら単位信号を組み合わせた部分信号のうちの少なくともいずれか1つを有する分割信号情報を生成させ、重み度情報演算手段にて単位情報記憶手段に記憶された単語の分割信号情報と取得した単語の分割信号情報との同一性に応じた重み付けに関する重み度情報を演算させ、重み度情報に基づいて単語情報記憶手段に記憶された単語における取得した単語に対する類似度情報を演算するので、信号列に基づいた適切な類比判別が得られる。 And in this invention, it is a similar word search device in any one of Claim 1 thru | or 4 , Comprising: The said similarity calculation means is every input operation of the operation key of the said Roman character input keyboard in the said input Roman character string . Split signal information generating means for generating split signal information having at least one of the unit signals of the input Roman character string and the partial signals obtained by combining these unit signals, and the generated split signal information Weight degree information calculation means for calculating weight degree information regarding weighting according to the identity of the word stored in the word information storage means with the divided signal information, and the word based on the weight degree information It is preferable that the similarity information regarding the similarity state of the word stored in the information storage means is calculated. In this configuration, the similarity calculation means includes a unit signal of the input Roman character string output for each input operation with the operation key of the Roman character input keyboard in the input Roman character string in the divided signal information generation means, and a part obtained by combining these unit signals The divided signal information having at least one of the signals is generated, and the identity of the divided signal information of the word stored in the unit information storage means and the obtained divided signal information of the word by the weight degree information calculating means Weighting information related to weighting according to the information is calculated, and similarity information for the acquired word in the word stored in the word information storage means is calculated based on the weighting information, so that an appropriate analogy discrimination based on the signal sequence is performed. can get.

また、本発明では、請求項に記載の類似単語検索装置であって、前記分割信号情報生成手段は、前記部分信号前記入力ローマ字列を1字分ずつずらした文字列の並びとして生成する構成とすることが好ましい。この構成では、分割信号情報生成手段は、部分信号として入力ローマ字列を1文字分ずつずらした文字列の並びとして生成させるので、検索漏れが減少し、適切な類似する単語が適切に検出される。また、形態素解析などの分析をする必要が無く、簡単な処理で容易に適切な類似する単語の選出が得られる。なお、文字列の文字数は、特に限定されない。例えば、1字ずつずらした3文字の部分文字列、2文字の部分文字列、または1文字の単位文字列としてもよい。また、これら3文字の部分文字列、2文字の部分文字列、および1文字の単位文字列を全て分割文字列として分割信号情報として抽出する構成とするなどしてもよい。 Further, the present invention provides a similar word search device according to claim 5, wherein the division signal information generating means generates a sequence of character strings which the input Roman characters string shifted by one character content of the partial signal A configuration is preferable. In this configuration, since the divided signal information generation unit generates the input Roman character string as a partial signal as a sequence of character strings shifted by one character at a time, search omissions are reduced and appropriate similar words are detected appropriately. . Further, it is not necessary to perform analysis such as morphological analysis, and appropriate similar words can be easily selected by simple processing. The number of characters in the character string is not particularly limited. For example, a partial character string of three characters shifted by one character, a partial character string of two characters, or a unit character string of one character may be used. Alternatively, the three character partial character string, the two character partial character string, and the single character unit character string may be extracted as divided signal information as divided signal information.

さらに、本発明では、請求項1ないし請求項のいずれかに記載の類似単語検索装置であって、前記単語候補選出手段にて選出された単語を、入力操作により選択可能に表示手段に表示させる表示制御手段を具備した構成とすることが好ましい。この構成では、表示制御手段により、単語候補選出手段で選出した単語が入力操作により選択可能に表示手段で表示されるので、選択された類似する単語が利用者により確認可能となり、例えば類似する単語に置換するなどの入力支援処理や類似する単語での検索処理など、適切な処理が確実に得られる。 Furthermore, in this invention, it is a similar word search device in any one of Claim 1 thru | or 6 , Comprising: The word selected by the said word candidate selection means is displayed on a display means so that selection is possible by input operation. It is preferable that the display control means is provided. In this configuration, the display control means displays the word selected by the word candidate selection means on the display means so as to be selectable by an input operation, so that the selected similar word can be confirmed by the user, for example, a similar word Appropriate processing such as input support processing such as replacement with a word or search processing with a similar word can be reliably obtained.

そして、本発明では、請求項1ないし請求項のいずれかに記載の類似単語検索装置であって、所定の入力操作により前記単語候補選出手段にて選出された単語を前記取得した単語に代える単語修正手段を具備した構成とすることが好ましい。この構成では、単語修正手段により、所定の入力操作に基づいて、単語候補選出手段にて選出された単語を取得した単語に代えることにより、例えば誤入力された単語が適切に類似する単語にて修正され、良好な入力支援処理が得られる。 And in this invention, it is a similar word search device in any one of Claim 1 thru | or 7 , Comprising: The word selected by the said word candidate selection means by predetermined | prescribed input operation is replaced with the said acquired word. It is preferable to have a configuration including word correcting means. In this configuration, the word corrector replaces the word selected by the word candidate selector with the acquired word based on a predetermined input operation. It is corrected and a good input support process is obtained.

また、本発明では、請求項1ないし請求項のいずれかに記載の類似単語検索装置であって、前記類似度演算手段は、前記信号列情報生成手段にて生成された前記単語の入力ローマ字列と、前記単語情報記憶手段に記憶された前記単語における前記入力操作に応じた入力ローマ字列との距離に関する距離情報を前記類似度情報として演算する構成とすることが好ましい。この構成では、類似度演算手段により、信号列情報生成手段にて生成された単語の入力ローマ字列と、単語情報記憶手段に記憶された単語の入力ローマ字列との例えば編集距離またはリーベンシュタイン距離などの距離に関する距離情報を類似度情報として演算するので、例えば入力ローマ字列から分割信号情報を生成させて重み度を演算させる処理に代えて距離情報を演算して類似状態を判別する構成としても入力操作に応じた信号列を利用するため、適切な類比判別が得られ、分割信号情報により重み度を演算させてさらに距離情報を演算することにより、より適切な類比判別が得られ、適切な類似する単語の選出が得られる。 Also, in the present invention, the similar word search device according to any one of claims 1 to 8 , wherein the similarity calculation means is an input Roman character of the word generated by the signal string information generation means. and columns, it is preferable to adopt a configuration that calculates the distance information about the distance between the input Romaji sequence and in accordance with the input operation in the words stored in the word information storage means as the similarity information. In this configuration, by the similarity calculation means, signal and a column information input Romaji sequence of words generated by generation means, the word information storage means such as edit distance or Levenshtein distance between stored input Romaji sequence of words Since the distance information regarding the distance is calculated as the similarity information, for example, instead of the process of generating the divided signal information from the input Roman character string and calculating the weight, the distance information is calculated and the similar state is determined. Since a signal sequence according to the operation is used, an appropriate analogy discrimination is obtained, and by calculating the weight by using the divided signal information and further calculating the distance information, an appropriate analogy discrimination is obtained and an appropriate similarity is obtained. A selection of words to do is obtained.

さらに、本発明では、請求項1ないし請求項のいずれかに記載の類似単語検索装置であって、前記単語候補選出手段は、前記選出した単語のうち、前記取得した単語との距離に関する距離情報を演算し、この演算した距離情報に基づいて前記選出した単語のいずれかを選出する構成とすることが好ましい。この構成では、単語候補選出手段により、選出した単語のうち、取得した単語との例えば編集距離またはリーベンシュタイン距離などの距離に関する距離情報を演算し、選出した単語のいずれかをさらに選出することとなるので、より適切に類似する単語の絞り込みが得られ、適切な類似する単語の選出が得られる。 Furthermore, in this invention, it is a similar word search apparatus in any one of Claim 1 thru | or 8 , Comprising: The said word candidate selection means is the distance regarding the distance with the said acquired word among the selected words. It is preferable that information is calculated and any of the selected words is selected based on the calculated distance information. In this configuration, the word candidate selection means calculates distance information related to a distance such as an edit distance or a Levenshtein distance from the acquired word among the selected words, and further selects one of the selected words. Therefore, it is possible to narrow down similar words more appropriately, and to select appropriate similar words.

そして、本発明では、請求項10に記載の類似単語検索装置であって、前記単語候補選出手段は、前記距離情報として、前記選出した単語の入力ローマ字列と、前記取得した単語における前記入力ローマ字列との距離に関する距離情報を演算する構成とすることが好ましい。この構成では、単語候補選出手段により、距離情報として選出した単語の入力ローマ字列と、取得した単語の入力ローマ字列との距離に関する距離情報を演算するので、例えば単語の文字列での距離を演算するなどの処理に比してより適切な類比判別が可能となり、より適切な類似する単語の選出が得られる。 In the present invention, there is provided a similar word search device according to claim 10, wherein the word candidate selection means, as the distance information, an input Romaji sequence of words and the selected, the input of the word the acquired Romaji It is preferable that the distance information regarding the distance to the column is calculated. In this configuration, the word candidate selection means calculates distance information related to the distance between the input roman character string of the word selected as distance information and the input roman character string of the acquired word. For example, the distance in the character string of the word is calculated. Compared with processing such as performing a similar process, it is possible to determine a similar ratio more appropriately and to select a more appropriate similar word.

また、本発明では、請求項1ないし請求項11のいずれかに記載の類似単語検索装置であって、前記単語候補選出手段は、前記選出する単語のうち、前記単語を含む文献に関する文献情報を複数記憶する文献記憶手段における前記選出する単語の利用頻度を演算し、この利用頻度に基づいて前記単語情報記憶手段に記憶された単語を選出する構成とすることが好ましい。この構成では、単語候補選出手段により、選出する単語のうち、単語を含む文献に関する文献情報を複数記憶する文献手段における選出する単語の利用頻度を演算し、この利用頻度に基づいて単語情報記憶手段に記憶された単語を選出するので、例えば類似する単語の文献における利用頻度に応じた類比判別が得られ、より適切に類似する単語の絞り込みが得られ、適切な類似する単語の選出が得られる。 Moreover, in this invention, it is a similar word search device in any one of Claim 1 thru | or 11 , Comprising: The said word candidate selection means carries out the literature information regarding the literature containing the said word among the said words to select. It is preferable that the usage frequency of the selected word is calculated in the document storage means for storing a plurality of words, and the word stored in the word information storage means is selected based on the usage frequency. In this configuration, the word candidate selection means calculates the usage frequency of the word to be selected in the literature means for storing a plurality of literature information relating to the literature including the word among the words to be selected, and the word information storage means based on the usage frequency Therefore, for example, it is possible to obtain an analogy determination according to the frequency of use of similar words in the literature, to more appropriately narrow down similar words, and to select appropriate similar words. .

さらに、本発明では、請求項12に記載の類似単語検索装置であって、前記単語候補選出手段は、前記文献記憶手段に記憶された文献情報での出現頻度、および前記選出する単語を含む文献頻度のうちの少なくともいずれか一方を利用頻度として演算する構成とすることが好ましい。この構成では、単語候補選出手段により、文献記憶手段に記憶された文献情報での出現頻度、および選出する単語を含む文献頻度のうちの少なくともいずれか一方を利用頻度として演算するので、類似する単語の文献における利用頻度に応じた適切な類比判別が得られ、より適切に類似する単語を選出する処理が容易に得られる。 Furthermore, in this invention, it is a similar word search device of Claim 12 , Comprising: The said word candidate selection means is the literature containing the appearance frequency in the literature information memorize | stored in the said literature memory | storage means, and the said word to select It is preferable that at least one of the frequencies is calculated as the usage frequency. In this configuration, the word candidate selection unit calculates at least one of the appearance frequency in the document information stored in the document storage unit and the document frequency including the word to be selected as the usage frequency. Thus, it is possible to obtain an appropriate analogy discrimination according to the frequency of use in the literature, and to easily obtain a process for selecting similar words more appropriately.

そして、本発明では、請求項12又は請求項13に記載の類似単語検索装置であって、前記単語候補選出手段は、前記単語記憶手段に記憶された単語情報に、この単語情報の単語を含む文献に対応し文献を特定する文献固有情報が関連付けられた単語出現一覧テーブルに基づいて前記利用頻度を演算する構成とすることが好ましい。この構成では、単語候補選出手段により、単語記憶手段に記憶された単語情報に、この単語情報の単語を含む文献に対応し文献を特定する文献固有情報が関連付けられた単語出現一覧テーブルに基づいて利用頻度を演算するので、類似する単語における適切な類比判別のための文献における利用頻度が簡単なデータ構造で演算可能となり、処理効率の向上が容易に得られる。 And in this invention, it is a similar word search apparatus of Claim 12 or Claim 13 , Comprising: The said word candidate selection means includes the word of this word information in the word information memorize | stored in the said word memory | storage means It is preferable that the usage frequency is calculated based on a word appearance list table associated with document-specific information for identifying documents corresponding to documents. In this configuration, based on the word appearance list table in which the word candidate selection means associates the word information stored in the word storage means with the document specific information for identifying the document corresponding to the document including the word of the word information. Since the usage frequency is calculated, the usage frequency in the literature for determining an appropriate analogy for similar words can be calculated with a simple data structure, and the processing efficiency can be easily improved.

また、本発明の情報検索装置は、請求項1ないし請求項14のいずれかに記載の類似単語検索装置と、単語を含む文献に関する文献情報を複数記憶する文献記憶手段を利用して、前記類似単語検索装置にて選出された単語を含む前記文献情報を検索する検索手段と、を具備したことを特徴とする。 Moreover, the information search device of the present invention uses the similar word search device according to any one of claims 1 to 14 and a document storage unit that stores a plurality of document information relating to documents including the word, to thereby perform the similarity. Search means for searching for the document information including the word selected by the word search device.

この発明では、検索手段により、単語を含む文献に関する文献情報を複数記憶する文献記憶手段を利用して、適切な類似する単語を選出する請求項1ないし請求項14のいずれ
かに記載の類似単語検索装置にて選出された単語を含む文献情報を検索する。このことに
より、文献情報の検索のための単語に適切に類似する単語での検索が得られ、検索漏れが
減少し、適切な文献検索が得られる。
In this invention, the similar word according to any one of claims 1 to 14 , wherein an appropriate similar word is selected by a search means using a document storage means for storing a plurality of document information relating to documents including the word. Search for document information including the word selected by the search device. As a result, a search with a word appropriately similar to a word for searching for document information is obtained, search omission is reduced, and an appropriate document search is obtained.

本発明の類似単語検索方法は、コンピュータにより、取得した単語に類似する単語を選出する類似単語検索方法であって、前記コンピュータは、端末装置の入力プログラムによって変換された単語を取得し、この取得した単語に変換する入力ローマ字列を出力するローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を生成する処理をし、この生成した単語の入力ローマ字列と単語情報記憶手段に複数記憶された単語における前記入力操作に応じた入力ローマ字列との類似状態に関する類似度情報を演算する処理をし、この演算した類似度情報に基づいて前記入力ローマ字列が類似する前記単語情報記憶手段に記憶された単語を選出する処理をすることを特徴とする。 The similar word search method of the present invention is a similar word search method for selecting a word similar to the acquired word by a computer, wherein the computer acquires the word converted by the input program of the terminal device, and acquires this A process for generating an input Roman character string to be output for each input operation of an operation key of a Roman character input keyboard that outputs an input Roman character string to be converted into a word, and a plurality of input Roman character strings and word information storage means for the generated word The word information storage means for calculating similarity information regarding a similarity state of the stored word with the input Roman character string according to the input operation and similar to the input Roman character string based on the calculated similarity information It is characterized in that a process of selecting a word stored in is performed.

この発明では、請求項1に記載の類似単語検索装置の動作を、演算手段により実施する方法に展開したもので、請求項1に記載の発明と同様の作用効果を奏する。   In this invention, operation | movement of the similar word search device of Claim 1 is expand | deployed to the method implemented by a calculating means, and there exists an effect similar to the invention of Claim 1.

本発明の類似単語検索プログラムは、演算手段を、請求項1ないし請求項14のいずれかに記載の類似単語検索装置、または請求項15に記載の情報検索装置として機能させることを特徴とする。 The similar word search program of the present invention is characterized in that the calculation means functions as the similar word search device according to any one of claims 1 to 14 or the information search device according to claim 15 .

この発明では、例えば汎用のコンピュータなどを演算手段として利用しインストールすることにより請求項1ないし請求項14のいずれかに記載の類似単語検索装置、または請求項15に記載の情報検索装置として機能させて実施させることが可能となり、本発明の利用促進が大幅に図れる。 According to the present invention, for example, a general-purpose computer or the like is used and installed as a calculation means to function as the similar word search device according to any one of claims 1 to 14 or the information search device according to claim 15. The use of the present invention can be greatly promoted.

本発明の類似単語検索プログラムは、請求項16に記載の類似単語検索方法をコンピュータに実行させることを特徴とする。 The similar word search program of this invention makes a computer perform the similar word search method of Claim 16 .

この発明では、例えば汎用のコンピュータなどを利用しコンピュータにインストールすることにより請求項16に記載の類似単語検索方法がコンピュータに実行されるので、本発明の利用促進が大幅に図れる。 In the present invention, for example, a similar word search method according to claim 16 is executed on a computer by installing it on a computer using, for example, a general-purpose computer, so that the use of the present invention can be greatly promoted.

そして、本発明において、コンピュータは、例えば1つのパーソナルコンピュータ、複数のコンピュータをネットワーク状に組み合わせた構成、マイクロコンピュータなどの素子、あるいは複数の電子部品が搭載された回路基板などをも含むものである。 In the present invention, the computer includes, for example, one personal computer, a configuration in which a plurality of computers are combined in a network, an element such as a microcomputer, or a circuit board on which a plurality of electronic components are mounted.

〔文献情報検索システムの構成〕
以下、本発明の一実施の形態について図面を参照して説明する。本実施の形態では、本発明の類似単語検索装置を備え、産業財産権として、特許、実用新案および意匠に関する文献情報を検索するための情報検索装置としての文献情報検索システムの構成について例示するが、例えば商標などの他の産業財産権に関わる文献情報や、技術文献などいずれの文献情報をも対象とすることができる。さらには、文献情報検索システムに適用する構成に限らず、例えばワードプロセッサなどの文字入力支援装置として類似単語検索装置を適用するなどしてもよい。図1は、本実施の形態における文献情報検索システムの概略構成を示す概念図である。図2は、文献情報検索システムを構成する端末装置の概略構成を示すブロック図である。図3は、文献情報検索システムを構成するサーバ装置の概略構成を示すブロック図である。図4は、文献情報記憶領域のテーブル構造を概念的に示す模式図である。図5は、単語出現一覧記憶領域のテーブル構造を概念的な単語出現一覧テーブルを示す模式図である。図6は、入力されたキーワードの入力ローマ字列を分割して生成された分割文字列に関する分割信号情報を概念的に示す模式図である。図7は、単語出現一覧テーブルの単語の入力ローマ字列を分割して生成された分割文字列に関する分割信号情報を概念的に示す模式図である。
[Configuration of Bibliographic Information Retrieval System]
Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In this embodiment, the similar word search device of the present invention is provided, and the configuration of a document information search system as an information search device for searching for document information relating to patents, utility models and designs as industrial property rights is illustrated. For example, any document information related to other industrial property rights such as trademarks and technical documents can be targeted. Furthermore, the configuration is not limited to the configuration applied to the document information search system, and a similar word search device may be applied as a character input support device such as a word processor. FIG. 1 is a conceptual diagram showing a schematic configuration of a document information search system in the present embodiment. FIG. 2 is a block diagram showing a schematic configuration of a terminal device constituting the literature information search system. FIG. 3 is a block diagram showing a schematic configuration of a server device constituting the literature information search system. FIG. 4 is a schematic diagram conceptually showing the table structure of the document information storage area. FIG. 5 is a schematic diagram showing a conceptual word appearance list table with the table structure of the word appearance list storage area. FIG. 6 is a schematic diagram conceptually showing divided signal information related to a divided character string generated by dividing an input Roman character string of an input keyword. FIG. 7 is a schematic diagram conceptually showing division signal information related to a divided character string generated by dividing an input Roman character string of words in the word appearance list table.

図1において、100は文献情報検索システムで、この文献情報検索システム100は、例えば特許、実用新案および意匠などの産業財産権に関わる文献に関する文献情報を検索するためのシステムである。この文献情報検索システム100は、端末装置200と、この端末装置200がネットワーク110を介して各種情報を送受信可能に接続する文献情報検索装置としても機能するサーバ装置300と、を備えている。   In FIG. 1, reference numeral 100 denotes a document information search system. This document information search system 100 is a system for searching document information related to documents related to industrial property rights such as patents, utility models, and designs. The document information search system 100 includes a terminal device 200 and a server device 300 that also functions as a document information search device to which the terminal device 200 is connected via a network 110 so that various types of information can be transmitted and received.

ここで、ネットワーク110としては、サーバ装置300と端末装置200との間を、各種データを送受信可能に接続する。このネットワーク110は、TCP/IP(Transmission Control Protocol/Internet Protocol)などの汎用のプロトコルに基づくインターネット、LAN(Local Area Network)などのイントラネット、無線媒体により情報が送受信可能な複数の基地局がネットワークを構成する通信回線網や放送網などのネットワーク、さらには、データを直接送受信するための媒体となる無線媒体自体など、データを送受信させるいずれの構成が利用できる。ここで、無線媒体としては、電波、光、音波、電磁波などのいずれの媒体をも適用できる。   Here, the network 110 connects the server device 300 and the terminal device 200 so that various data can be transmitted and received. The network 110 includes an Internet based on a general-purpose protocol such as TCP / IP (Transmission Control Protocol / Internet Protocol), an intranet such as a LAN (Local Area Network), and a plurality of base stations capable of transmitting and receiving information via a wireless medium. Any configuration that transmits / receives data, such as a network such as a communication line network or a broadcast network, or a wireless medium itself that directly transmits / receives data, can be used. Here, any medium such as radio waves, light, sound waves, and electromagnetic waves can be applied as the wireless medium.

端末装置200は、サーバ装置300から単語である所定のキーワードに対応する文献情報を取得するための装置で、例えばパーソナルコンピュータやオフィスコンピュータなどが例示できる。そして、端末装置200は、例えば図2に示すように、端末通信手段210と、操作手段としての端末入力手段220と、表示手段としての端末表示手段230と、端末記憶手段240と、端末処理手段250と、を備えている。   The terminal device 200 is a device for acquiring document information corresponding to a predetermined keyword that is a word from the server device 300, and examples thereof include a personal computer and an office computer. Then, as shown in FIG. 2, for example, the terminal device 200 includes a terminal communication unit 210, a terminal input unit 220 as an operation unit, a terminal display unit 230 as a display unit, a terminal storage unit 240, and a terminal processing unit. 250.

端末通信手段210は、ネットワーク110を介してサーバ装置300に接続される。この端末通信手段210は、ネットワーク110を介してサーバ装置300から端末信号を受信可能で、この端末信号の取得によりあらかじめ設定されている入力インターフェース処理を実施し、処理端末信号として端末処理手段250に出力する。また、端末通信手段210は、端末処理手段250から処理端末信号が入力可能で、この入力される処理端末信号の取得によりあらかじめ設定されている出力インターフェース処理を実施し、端末信号としてネットワーク110を介してサーバ装置300に送信する。   The terminal communication unit 210 is connected to the server device 300 via the network 110. The terminal communication unit 210 can receive a terminal signal from the server device 300 via the network 110, performs input interface processing set in advance by acquiring the terminal signal, and sends it to the terminal processing unit 250 as a processing terminal signal. Output. Further, the terminal communication unit 210 can receive a processing terminal signal from the terminal processing unit 250, performs an output interface process set in advance by obtaining the input processing terminal signal, and transmits it as a terminal signal via the network 110. To the server device 300.

端末入力手段220は、例えばキーボードやマウスなどで、検索を実施する利用者により入力操作される図示しない各種操作ボタンや操作つまみなどを有している。これら操作ボタンや操作つまみなどの入力操作としては、端末装置200の動作内容の設定の他、文献情報の検索のための条件項目、例えばキーワードなどである。そして、端末入力手段220は、入力操作に対応した所定の信号を端末処理手段250へ適宜出力して設定させる。なお、この端末入力手段220としては、操作ボタンや操作つまみなどの入力操作に限らず、例えば端末表示手段230に設けられたタッチパネルによる入力操作や、音声による入力操作など、さらには光学的文字読取装置(Optical Character Reader:OCR)や画像読取装置などにて読み取るなど、各種入力事項を設定入力可能ないずれの構成が適用できる。   The terminal input unit 220 includes various operation buttons and operation knobs (not shown) that are input by a user who performs a search using, for example, a keyboard or a mouse. These input operations such as operation buttons and operation knobs include condition items for searching for literature information, such as keywords, in addition to setting operation contents of the terminal device 200. Then, the terminal input unit 220 appropriately outputs and sets a predetermined signal corresponding to the input operation to the terminal processing unit 250. The terminal input unit 220 is not limited to an input operation such as an operation button or an operation knob. For example, an input operation using a touch panel provided on the terminal display unit 230, an input operation using voice, or the like, or optical character reading. Any configuration in which various input items can be set and input, such as reading with a device (Optical Character Reader: OCR) or an image reading device, can be applied.

端末表示手段230は、端末処理手段250にて制御され端末処理手段250からの画像データを画面表示させる。画像データとしては、例えば文献情報に関する各種検索のための条件項目の入力を促す画面表示、検索した文献情報に関する情報を表示する画面表示などの他、端末装置200の動作内容や他のアプリケーションソフトウェアに関する画像データなど、各種画像データが表示可能である。この端末表示手段230としては、種々のディスプレイが挙げられ、例えば液晶表示パネルや有機EL(Electro Luminescence)パネル、PDP(Plasma Display Panel)、CRT(Cathode-Ray Tube)、FED(Field Emission Display)、電気泳動ディスプレイパネルなどが例示できる。   The terminal display unit 230 is controlled by the terminal processing unit 250 and displays the image data from the terminal processing unit 250 on the screen. The image data includes, for example, a screen display that prompts input of condition items for various searches related to the document information, a screen display that displays information related to the searched document information, and the operation content of the terminal device 200 and other application software. Various image data such as image data can be displayed. Examples of the terminal display means 230 include various displays such as a liquid crystal display panel, an organic EL (Electro Luminescence) panel, a PDP (Plasma Display Panel), a CRT (Cathode-Ray Tube), an FED (Field Emission Display), Examples thereof include an electrophoretic display panel.

端末記憶手段240は、ネットワーク110を介してサーバ装置300から取得した各種情報や、端末入力手段220で入力操作される入力事項の他、外部から取得した各種情報をも適宜記憶する。また、端末記憶手段240には、端末装置200全体を動作制御するOS(Operating System)上に展開される各種プログラムなどを記憶する。なお、端末記憶手段240としては、HD(Hard Disk)や光ディスクなどの記録媒体に読み出し可能に記憶するドライブやドライバなどを備えた構成の他、メモリなど、各種情報を記憶可能ないずれの構成が利用でき、ドライブとメモリとの双方さらには複数を備えた構成などとしてもよい。   The terminal storage unit 240 appropriately stores various types of information acquired from the server device 300 via the network 110 and input items input and operated by the terminal input unit 220 as well as various types of information acquired from the outside. The terminal storage unit 240 stores various programs developed on an OS (Operating System) that controls the operation of the entire terminal device 200. The terminal storage unit 240 includes any configuration capable of storing various types of information, such as a memory, in addition to a configuration including a drive and a driver that are readable and stored in a recording medium such as an HD (Hard Disk) or an optical disc. It can be used, and it is good also as a structure provided with both the drive and the memory, and more than one.

端末処理手段250は、例えばCPU(Central Processing Unit)を備え、図示しない各種入出力ポート、例えば端末通信手段210が接続される通信制御ポート、端末入力手段220が接続されるキー入力ポート、端末表示手段230が接続される表示部制御ポート、印刷出力する図示しない出力手段としての印刷装置が接続可能な印刷制御ポート、端末記憶手段240が接続される記憶ポートなどを有する。そして、端末処理手段250は、各種プログラムとして、入力支援手段としても機能するキーワード設定手段251と、検索要求手段252と、検索結果取得手段253と、表示制御手段としても機能する出力制御手段254と、などを備えている。   The terminal processing unit 250 includes, for example, a CPU (Central Processing Unit), and various input / output ports (not shown), for example, a communication control port to which the terminal communication unit 210 is connected, a key input port to which the terminal input unit 220 is connected, and a terminal display A display unit control port to which the unit 230 is connected; a print control port to which a printing apparatus as an output unit (not shown) that performs print output can be connected; a storage port to which the terminal storage unit 240 is connected; The terminal processing unit 250 includes, as various programs, a keyword setting unit 251 that also functions as an input support unit, a search request unit 252, a search result acquisition unit 253, and an output control unit 254 that also functions as a display control unit. , Etc.

キーワード設定手段251は、端末入力手段220による入力操作にて入力された情報に基づいて、文献情報を検索するための単語であるキーワードを設定する。具体的には、所定の入力操作にて端末入力手段220で入力されたキーワードに関する単語情報を生成する。なお、設定されるキーワードは、例えば入力支援手段としての入力プログラム(Input Method Editor:IME)などにより、いわゆるローマ字入力やかな入力などの入力に対応して変換された、ひらがな、カタカナ、漢字などの日本語に限らず、アルファベット入力された英単語、中国語、ハングル文字など、いずれの単語が対象となる。   The keyword setting unit 251 sets a keyword that is a word for searching for document information based on information input by an input operation by the terminal input unit 220. Specifically, word information relating to a keyword input by the terminal input unit 220 by a predetermined input operation is generated. The keywords to be set are, for example, hiragana, katakana, kanji, etc. that have been converted in response to input such as so-called Roman character input by an input program (Input Method Editor: IME) as input support means. Not only Japanese, but any words such as English words entered in alphabet, Chinese, Korean characters, etc. are targeted.

検索要求手段252は、キーワード設定手段251で取得した単語情報のキーワードに基づいて、このキーワードを含む文献情報の検索の実行をサーバ装置300に要求する旨の検索要求情報を生成する。すなわち、検索要求情報には、キーワードと、このキーワードを含む文献情報を検索する条件である検索条件情報と、検索を要求する利用者や端末装置200を特定する顧客情報などを有した端末特定情報とが、1つのデータ構造として関連付けられている。そして、検索要求手段252は、生成した検索要求情報を端末通信手段210によりネットワーク110を介してサーバ装置300へ送信する。 Based on the keyword of the word information acquired by the keyword setting unit 251, the search request unit 252 generates search request information indicating that the server apparatus 300 is requested to perform a search for document information including the keyword. That is, the search request information includes terminal specification information including a keyword, search condition information that is a condition for searching for literature information including the keyword, customer information that specifies a user who requests the search and the terminal device 200, and the like. bets are associated as one data structure. Then, the search request unit 252 transmits the generated search request information to the server apparatus 300 via the network 110 by the terminal communication unit 210.

検索結果取得手段253は、ネットワーク110を介して端末通信手段210によりサーバ装置300から取得した検索結果情報を取得する。この取得した検索結果情報は、端末記憶手段240や図示しないメモリなどに適宜記憶される。この検索結果情報としては、例えば文献情報を特定する文献固有情報、例えば出願番号や登録番号などの他、文献情報自体の情報をも含む。   The search result acquisition unit 253 acquires the search result information acquired from the server device 300 by the terminal communication unit 210 via the network 110. The acquired search result information is appropriately stored in the terminal storage unit 240 or a memory (not shown). This search result information includes, for example, document specific information for identifying document information, such as application number and registration number, as well as information on document information itself.

出力制御手段254は、端末入力手段220による入力操作にて設定された出力状況に基づいて、検索結果取得手段253にて取得した検索結果情報を適宜処理し、端末表示手段230で表示させたり、図示しない接続された印刷装置にて印刷出力させたりする検索結果情報の出力制御をする。また、出力制御手段254は、サーバ装置300から出力される単語候補を、端末入力手段220による入力操作にて選択可能に端末表示手段230で複数表示させる制御をする。   The output control means 254 appropriately processes the search result information acquired by the search result acquisition means 253 based on the output status set by the input operation by the terminal input means 220, and displays it on the terminal display means 230. Search result information output control is performed such that printing is performed by a connected printing apparatus (not shown). The output control unit 254 controls the terminal display unit 230 to display a plurality of word candidates output from the server device 300 so as to be selectable by an input operation by the terminal input unit 220.

サーバ装置300は、端末装置200からのキーワードを含む文献情報を検索して端末装置200へ提供する装置で、ネットワーク110を介して端末装置200と各種情報の送受信が可能となっている。このサーバ装置300は、例えば図3に示すように、サーバ通信手段310と、サーバ入力手段320と、サーバ表示手段330と、記憶手段として機能するサーバ記憶手段340と、演算手段としての類似単語検索装置であるサーバ処理手段350と、などを備えている。   The server device 300 is a device that retrieves literature information including a keyword from the terminal device 200 and provides it to the terminal device 200, and can transmit and receive various information to and from the terminal device 200 via the network 110. For example, as shown in FIG. 3, the server device 300 includes a server communication unit 310, a server input unit 320, a server display unit 330, a server storage unit 340 functioning as a storage unit, and a similar word search as a calculation unit. Server processing means 350, which is a device, and the like.

サーバ通信手段310は、ネットワーク110を介して入力されるサーバ信号に対してあらかじめ設定されている入力インターフェース処理を実行し、処理サーバ信号としてサーバ処理手段350へ出力する。また、サーバ通信手段310は、サーバ処理手段350から端末装置200に対して送信すべき処理サーバ信号が入力されると、入力された処理サーバ信号に対してあらかじめ設定されている出力インターフェース処理を実行し、サーバ信号としてネットワーク110を介して端末装置200へ出力する。なお、サーバ信号は、処理サーバ信号に記載された情報に基づいて、適宜所定の端末装置200のみに出力させたり、ネットワーク110を介して接続される全ての端末装置200に出力させたりすることも可能である。   The server communication unit 310 performs a preset input interface process on a server signal input via the network 110 and outputs the processed server signal to the server processing unit 350 as a processing server signal. Further, when a processing server signal to be transmitted from the server processing unit 350 to the terminal device 200 is input from the server processing unit 350, the server communication unit 310 executes an output interface process set in advance for the input processing server signal. And it outputs to the terminal device 200 via the network 110 as a server signal. The server signal may be output only to a predetermined terminal device 200 as appropriate based on information described in the processing server signal, or may be output to all the terminal devices 200 connected via the network 110. Is possible.

サーバ入力手段320は、例えば端末入力手段220と同様に、サーバ管理者などにて入力操作される図示しない各種操作ボタンや操作つまみなどを有している。これら操作ボタンや操作つまみなどの入力操作は、サーバ装置300の動作内容の設定や、サーバ記憶手段340に記憶する情報の設定入力、サーバ記憶手段340に記憶された情報の更新など、各種の設定事項である。そして、サーバ入力手段320は、設定事項の入力操作により、設定事項に対応する信号をサーバ処理手段350へ適宜出力して設定入力させる。なお、入力操作としては、同様に、操作ボタンや操作つまみなどの操作に限られない。   The server input unit 320 includes various operation buttons and operation knobs (not shown) that are input by a server administrator or the like, for example, like the terminal input unit 220. These input operations such as operation buttons and operation knobs are various settings such as setting of operation contents of the server device 300, setting input of information stored in the server storage unit 340, updating of information stored in the server storage unit 340, and the like. It is matter. Then, the server input unit 320 appropriately outputs a signal corresponding to the setting item to the server processing unit 350 by the setting item input operation to input the setting. Similarly, the input operation is not limited to operation of an operation button, an operation knob, or the like.

サーバ表示手段330は、例えば端末表示手段230と同様に、各種表示装置が用いられる。このサーバ表示手段330は、サーバ処理手段350に接続され、サーバ処理手段350の制御によりこのサーバ処理手段350から出力される画像データを適宜表示する。   As the server display unit 330, various display devices are used, for example, similarly to the terminal display unit 230. The server display unit 330 is connected to the server processing unit 350 and appropriately displays image data output from the server processing unit 350 under the control of the server processing unit 350.

サーバ記憶手段340は、端末記憶手段240と同様に、各種情報を記憶可能ないずれの構成が用いられ、文献情報記憶領域341と、単語出現一覧記憶領域342と、を備えている。文献情報記憶領域341は、複数の文献情報341Aを記憶するテーブル構造に構成されている。文献情報341Aは、例えば図4に示すように、テキスト形式の本文や画像データ形式の図面などが1つのデータ構造に構成された本文情報341A1と、文献情報341Aを特定する固有情報である例えばID(identification)である識別情報341A2と、を1つのデータ構造として関連付けられて構成されている。なお、文献情報341Aには、出願番号や出願人、著者などの付帯情報などをも適宜関連付けられている。単語出現一覧記憶領域342は、例えば図5に示すように、単語に関する単語情報342A1と、その単語情報342A1を本文情報341A1に含む文献情報341Aの識別情報341A2とを1つのレコードとした単語出現情報342Aを複数記録したテーブル構造に構成されている。この単語出現一覧記憶領域342の単語情報342A1は、例えば各文献情報341Aの本文情報341A1に基づいて形態素解析などにより本文情報341A1に含まれる単語を抜き出して設定される。すなわち、各文献情報341Aに含まれる単語について、その単語を含む文献情報341Aの識別情報341A2が関連付けられたテーブル構造に構成されている。   Similar to the terminal storage unit 240, the server storage unit 340 uses any configuration capable of storing various types of information, and includes a document information storage area 341 and a word appearance list storage area 342. The document information storage area 341 has a table structure for storing a plurality of document information 341A. For example, as shown in FIG. 4, the document information 341A includes text information 341A1 in which a text-format text, an image data-format drawing, and the like are configured in one data structure, and unique information that identifies the document information 341A, for example, ID (Identification) and identification information 341A2 are associated with each other as one data structure. The document information 341A is appropriately associated with application information, supplementary information such as the applicant and author, and the like. For example, as shown in FIG. 5, the word appearance list storage area 342 includes word information 342A1 related to a word and word appearance information including identification information 341A2 of document information 341A including the word information 342A1 in the body information 341A1 as one record. The table structure is configured by recording a plurality of 342A. The word information 342A1 in the word appearance list storage area 342 is set by extracting words included in the text information 341A1 by morphological analysis or the like based on the text information 341A1 of each document information 341A, for example. That is, for each word included in each document information 341A, a table structure is formed in which identification information 341A2 of the document information 341A including the word is associated.

また、サーバ記憶手段340は、サーバ装置300全体および文献情報検索システム100全体を動作制御するOS上に展開される各種プログラムなどをも記憶している。さらに、サーバ記憶手段340は、端末装置200などから受信した各種情報や、サーバ入力手段320にて入力された各種情報をも適宜記憶可能となっている。   The server storage unit 340 also stores various programs developed on the OS that controls the operation of the entire server device 300 and the entire document information search system 100. Further, the server storage unit 340 can appropriately store various information received from the terminal device 200 and the like and various information input by the server input unit 320.

サーバ処理手段350は、端末処理手段250と同様にCPUを備え、図示しない各種入出力ポート、例えばサーバ通信手段310が接続される通信制御ポート、サーバ入力手段320が接続される入力ポート、サーバ表示手段330が接続される表示制御ポート、サーバ記憶手段340が接続される記憶ポートなどを有している。そして、サーバ処理手段350は、図3に示すように、サーバ記憶手段340に記憶された各種プログラムとして、単語情報取得手段としても機能する検索要求情報取得手段351と、単語変換手段352と、類似度演算手段353と、単語候補選出手段354と、検索手段355と、検索結果生成手段356と、報知手段357と、課金演算手段358と、決済手段359と、などを備えている。   The server processing unit 350 includes a CPU similar to the terminal processing unit 250, and includes various input / output ports (not shown) such as a communication control port to which the server communication unit 310 is connected, an input port to which the server input unit 320 is connected, and a server display. A display control port to which the means 330 is connected, a storage port to which the server storage means 340 is connected, and the like. As shown in FIG. 3, the server processing unit 350 is similar to a search request information acquisition unit 351 that also functions as a word information acquisition unit and a word conversion unit 352 as various programs stored in the server storage unit 340. Degree calculation means 353, word candidate selection means 354, search means 355, search result generation means 356, notification means 357, billing calculation means 358, settlement means 359, and the like.

検索要求情報取得手段351は、端末装置200から送信されサーバ通信手段310を介して検索要求情報を取得する。そして、検索要求情報取得手段351は、検索要求情報に含まれるキーワードを取得し、単語変換手段352へ出力する。   The search request information acquisition unit 351 acquires search request information transmitted from the terminal device 200 via the server communication unit 310. Then, the search request information acquisition unit 351 acquires a keyword included in the search request information and outputs it to the word conversion unit 352.

単語変換手段352は、検索要求情報取得手段351から出力されるキーワードを所定の信号列の信号列情報に変換する。このキーワードの変換処理は、例えば入力支援手段としての入力プログラム(Input Method Editor:IME)などによりそのキーワードを入力するために端末入力手段220やサーバ入力手段320で実行されるキー操作などの入力操作に対応した信号列であるローマ字読み文字列となる入力ローマ字列に変換する。具体的には、図6にも示すように、キーワードが「ケミッタ」であれば信号列である入力ローマ字列は「kemitta」、「信号」であれば「shingou」の文字列となる信号列の信号列情報に変更する。なお、この入力ローマ字列への変更は、例えば入力プログラムを利用して変更処理される。そして、この変換された信号列情報は、サーバ記憶手段340に適宜記憶される。   The word conversion unit 352 converts the keyword output from the search request information acquisition unit 351 into signal sequence information of a predetermined signal sequence. This keyword conversion processing is performed by, for example, an input operation such as a key operation executed by the terminal input unit 220 or the server input unit 320 in order to input the keyword by an input program (Input Method Editor: IME) as an input support unit. Is converted into an input Roman character string which becomes a Roman character reading character string which is a signal string corresponding to. Specifically, as shown in FIG. 6, if the keyword is “chemiter”, the input Roman character string that is a signal string is “kemitta”, and if it is “signal”, the signal string that is the character string “shingou”. Change to signal sequence information. Note that the change to the input Roman character string is changed using, for example, an input program. The converted signal string information is stored in the server storage unit 340 as appropriate.

類似度演算手段353は、単語変換手段352で変換された信号列情報に基づいて、キーワードに類似した単語を選出するためにキーワードと単語出現一覧記憶領域342に記憶された単語との類似状態に関する類似度を演算する。すなわち、類似度演算手段353は、例えば、分割信号情報生成手段353Aと、重み度情報演算手段353Bと、を備えている。   The similarity calculation unit 353 relates to the similarity state between the keyword and the word stored in the word appearance list storage area 342 in order to select a word similar to the keyword based on the signal string information converted by the word conversion unit 352. Calculate the similarity. That is, the similarity calculation unit 353 includes, for example, a divided signal information generation unit 353A and a weight information calculation unit 353B.

分割信号情報生成手段353Aは、単語変換手段352でキーワードから変換された文字列の信号列情報に基づいて、分割信号情報を作成する。例えば、変換した文字列を構成する文字や文字列の文字を1字ずつずらした際の部分的な文字列となる分割文字列に分割してこれら分割した文字列に関する信号の集合体である分割信号情報を生成する。具体的には、図6に示すように、キーワードが「ケミッタ」の場合、変換された入力ローマ字列である「kemitta」から、「kem」、「emi」、「mit」、「itt」、「tta」の3文字で構成された分割文字列である部分文字列と、「ke」、「em」、「mi」、「it」、「tt」、「ta」の2文字で構成された分割文字列である部分文字列と、「k」、「e」、「m」、「i」、「t」、「t」、「a」の1文字の分割文字列である単位文字列とに分割され、これら部分文字列に関する信号である部分信号と、単位文字列に関する単位信号とを有する集合体である分割信号情報を生成する。そして、生成された分割信号情報は、サーバ記憶手段340に適宜記憶される。なお、本実施の形態では、1字ずつずらした3文字の部分文字列、2文字の部分文字列、および1文字の単位文字列を全て分割文字列として抽出して説明するが、これに限られない。すなわち、部分文字列の文字数は4文字以上でもよく、特に限定されるものではなく、また、部分文字列または単位文字列を分割文字列としてもよく、いずれの組み合わせが適用できる。   The divided signal information generation unit 353A creates divided signal information based on the signal string information of the character string converted from the keyword by the word conversion unit 352. For example, a divided character string constituting a converted character string or a divided character string that is a partial character string when the characters of the character string are shifted one by one, and a division that is a collection of signals related to the divided character strings Generate signal information. Specifically, as shown in FIG. 6, when the keyword is “chemiter”, “kemitta”, which is the converted input Roman character string, is used to convert “kem”, “emi”, “mit”, “itt”, “it” a partial character string that is a divided character string composed of three characters "tta" and a divided character string composed of two characters "ke", "em", "mi", "it", "tt", "ta" A partial character string that is a character string and a unit character string that is a divided character string of one character of “k”, “e”, “m”, “i”, “t”, “t”, “a” Divided signal information is generated that is divided and includes a partial signal that is a signal related to these partial character strings and a unit signal that is related to a unit character string. The generated divided signal information is appropriately stored in the server storage unit 340. In this embodiment, a description is made by extracting all three partial character strings shifted by one character, two partial character strings, and one character unit character string as divided character strings. I can't. That is, the number of characters in the partial character string may be four or more, and is not particularly limited. The partial character string or the unit character string may be a divided character string, and any combination is applicable.

重み度情報演算手段353Bは、分割信号情報生成手段353Aにて生成された分割信号情報と、単語出現一覧記憶領域342に記憶された単語における分割信号情報との同一性に関する度合い情報を演算する。ここで、単語出現一覧記憶領域342に記憶された単語における分割信号情報は、例えば図7に示すように、上述した分割信号情報と同様に、単語出現一覧記憶領域342の各単語における部分文字列や単位文字列などの分割文字列に関する部分信号や単位信号の集合である。なお、図7は、説明の都合上、単語情報342A1として、「エミッタ」(emitta)と「リミッタ」(limitta)とについて例示した図である。そして、あらかじめ単語出現一覧記憶領域342の各単語情報342A1にそれぞれ関連付けられた上述したような分割信号情報を利用したり、別途単語出現一覧記憶領域342に記憶された各単語について単語変換手段352でそれぞれ分割信号情報を生成させ、これら生成した分割信号情報を利用したりするなどが例示できる。なお、処理の高速化や処理負荷の低減などの点であらかじめ単語情報342A1に分割信号情報を関連付けておく構成とすることが好ましいことから、本実施の形態では分割信号情報が関連付けられた構成について説明する。   The weight degree information calculating unit 353B calculates degree information regarding the identity between the divided signal information generated by the divided signal information generating unit 353A and the divided signal information in the words stored in the word appearance list storage area 342. Here, the divided signal information in the word stored in the word appearance list storage area 342 is a partial character string in each word of the word appearance list storage area 342 as shown in FIG. And a set of partial signals and unit signals related to divided character strings such as unit character strings. FIG. 7 is a diagram illustrating “emitter” (limiter) and “limiter” as word information 342A1 for convenience of explanation. Then, the divided signal information as described above associated with each word information 342A1 in the word appearance list storage area 342 in advance is used, or each word stored in the word appearance list storage area 342 is separately converted by the word conversion means 352. For example, the divided signal information is generated, and the generated divided signal information is used. Note that it is preferable to associate the divided signal information with the word information 342A1 in advance in terms of speeding up the processing and reducing the processing load. Therefore, in the present embodiment, the configuration in which the divided signal information is associated. explain.

そして、分割信号情報の同一性に関する度合い情報の演算として、例えばキーワードが「ケミッタ」の場合、図6に示す分割した各部分文字列や単位文字列などの各分割文字列と一致する図7に示す分割した部分文字列や単位文字列などの各分割文字列における重み度を演算する。すなわち、キーワードの各部分文字列や単位文字列の分割文字列をq1,…,qn(上記「ケミッタ」の場合、nは18)、単語出現一覧記憶領域342の各単語における部分文字列や単位文字列の分割文字列をd1,…,dmとすると、重み度W(qi,dj,q,d)は、qi=djについて、以下の数1により演算される。そして、演算された重み度W(qi,dj,q,d)は、サーバ記憶手段340に適宜記憶される。   Then, as the calculation of the degree information regarding the identity of the divided signal information, for example, when the keyword is “chemiter”, FIG. 7 matches the divided character strings such as the divided partial character strings and unit character strings shown in FIG. The degree of weight in each divided character string such as the divided partial character string or unit character string shown is calculated. That is, the partial character strings of the keywords and the divided character strings of the unit character strings are q1,..., Qn (n is 18 in the case of the above “chemitter”), and the partial character strings and units in each word in the word appearance list storage area 342 If the divided character strings of the character string are d1,..., Dm, the weight degree W (qi, dj, q, d) is calculated by the following equation 1 for qi = dj. The calculated weight W (qi, dj, q, d) is appropriately stored in the server storage unit 340.

〔数1〕
W(qi,dj,q,d)=Log(総単語数/(qi=djの出現する単語数))
×(qiのキーワード内での出現数)
×(djの単語内での出現数)
[Equation 1]
W (qi, dj, q, d) = Log (total number of words / (qi = number of words in which dj appears))
X (number of occurrences in qi keyword)
X (number of occurrences of dj in a word)

さらに、類似度演算手段353は、演算した重み度に基づいて、単語出現一覧記憶領域342の各単語の類似状態に関する類似度を演算して類似度情報を生成する。例えば、各単語の分割信号情報についての各分割文字列において、キーワードの分割信号情報についての各分割文字列との共通部分の重み度の総和を類似度Sとして演算する。具体的には、類似度Sの演算としては、以下の数2により演算される。   Furthermore, the similarity calculation unit 353 calculates similarity based on the calculated weight degree and calculates the similarity regarding the similarity state of each word in the word appearance list storage area 342 to generate similarity information. For example, in each divided character string for the divided signal information of each word, the sum of the weights of the common part with each divided character string for the divided signal information of the keyword is calculated as the similarity S. Specifically, the similarity S is calculated by the following equation 2.

〔数2〕
S(q,d)=g(ΣW(qi,dj),q,d)
[Equation 2]
S (q, d) = g (ΣW (qi, dj), q, d)

なお、類似度演算手段353は、各単語の類似度Sの演算として、高速かつ多数の各単語について効率よく演算するために、以下の加算方法が例示できる。すなわち、各単語InN(Nは自然数)のうち、所定の単語In1を特定する。そして、所定の単語In1の分割信号情報を構成する各分割文字列d1,…,dtのうち、キーワードの分割文字列q1と一致する分割文字列d1,…,dtの重み度W(q1,In1)を演算し、サーバ記憶手段340にあらかじめ設けた単語毎の類似度Sの記憶領域s(In1)番地に加算する。同様にキーワードの分割文字列q2〜qnについても上述した処理を繰り返し、記憶領域s(In1)番地に加算する処理をする。さらに、他の単語In2〜InNについても同様に重み度W(qi,Ini)を順次計算し、サーバ記憶手段340の記憶領域s(In2)番地〜記憶領域s(InN)番地に加算する処理をする。これらにより、各単語の類似度Sがそれぞれ演算される。   In addition, the similarity calculation means 353 can illustrate the following addition methods in order to calculate the similarity S of each word quickly and efficiently about many each word. That is, a predetermined word In1 is specified among each word InN (N is a natural number). Then, among the divided character strings d1,..., Dt constituting the divided signal information of the predetermined word In1, the weight W (q1, In1) of the divided character strings d1,. ) And is added to the storage area s (In1) of the similarity S for each word provided in the server storage unit 340 in advance. Similarly, the above process is repeated for the divided character strings q2 to qn of the keyword, and the process of adding to the storage area s (In1) is performed. Further, similarly for the other words In2 to InN, a weighting factor W (qi, Ini) is sequentially calculated and added to the storage area s (In2) to the storage area s (InN) of the server storage unit 340. To do. Thus, the similarity S of each word is calculated.

単語候補選出手段354は、類似度演算手段353にて演算した類似度Sに基づいて、キーワードに類似する単語を選出する。すなわち、類似度Sの値が多い順からあらかじめ設定された数の単語、あるいは所定の閾値以上の類似度Sとなる単語を類似単語として1つあるいは複数選出する。なお、選出される類似単語の数は、端末装置200における入力設定により設定してもよい。また、単語候補選出手段354は、選出した類似単語を端末装置200で確認させて設定する。そして、単語候補選出手段354は、複数の類似単語からさらに絞り込みを実施する距離情報算出手段354Aと、選出した類似単語を設定する単語修正手段としても機能する検索単語設定手段354Bと、を備えている。   The word candidate selection unit 354 selects a word similar to the keyword based on the similarity S calculated by the similarity calculation unit 353. That is, one or a plurality of words having a predetermined number of words or a word having a similarity S equal to or higher than a predetermined threshold value are selected from the descending order of the similarity S. Note that the number of similar words to be selected may be set by input settings in the terminal device 200. Moreover, the word candidate selection means 354 makes the terminal device 200 confirm and set the selected similar word. The word candidate selection unit 354 includes distance information calculation unit 354A that further narrows down a plurality of similar words, and search word setting unit 354B that also functions as a word correction unit that sets the selected similar words. Yes.

距離情報算出手段354Aは、キーワードと、選出した類似単語との距離に関する距離情報を演算し、距離情報に基づいて類似単語のいずれかをさらに選出する絞り込み処理をする。この距離に関する距離情報としては、例えばキーワードと類似単語との編集距離またはリーベンシュタイン距離を演算する。ここで、編集距離は、キーワードと所定の類似単語とのそれぞれ文字列の異なり度合いを、1文字ごとの置換・削除・挿入などの操作を繰り返しにより、それぞれの文字列を同一にするために必要な最小の操作数である。具体的には、編集距離を動的計画法に基づいて演算する。   The distance information calculation unit 354A calculates distance information related to the distance between the keyword and the selected similar word, and performs a narrowing process for further selecting one of the similar words based on the distance information. As distance information regarding this distance, for example, an edit distance or Levenshtein distance between a keyword and a similar word is calculated. Here, the edit distance is necessary to make the character strings different by repeating operations such as replacement, deletion, and insertion for each character, and the degree of difference between the character strings of the keyword and a predetermined similar word. The minimum number of operations. Specifically, the edit distance is calculated based on dynamic programming.

すなわち、x1,…,xnの文字の集合であるキーワードをXとし、y1,…,ynの文字の集合である類似単語をYとする。そして、X[i]=xi、Y[j]=yjである。また、キーワードXと類似単語Yとの編集距離Dist(X,Y)を演算するため、x1,…,xiと、y1,…,yjとの距離を距離行列D[i,j]とする。そして、距離情報算出手段354Aは、距離行列D[i,j]において、以下の数3に示すように、iおよびjのうちの少なくともいずれか一方が「0」に関しての距離を設定する。   That is, a keyword that is a set of characters x1,..., Xn is X, and a similar word that is a set of characters y1,. X [i] = xi and Y [j] = yj. In addition, in order to calculate the edit distance Dist (X, Y) between the keyword X and the similar word Y, the distance between x1,..., Xi and y1,. Then, the distance information calculation unit 354A sets a distance in which at least one of i and j is “0” in the distance matrix D [i, j], as shown in the following Equation 3.

〔数3〕
d[0,0]=0,
d[i,0]=i,
d[0,j]=j
[Equation 3]
d [0,0] = 0,
d [i, 0] = i,
d [0, j] = j

ここで、編集距離の計算として、挿入および削除の操作数を「1」とし、置換の操作数を同一文字の場合には「0」、異なる文字の場合には「1」とする。そして、距離行列D[0,0]は空文字列と空文字列との距離であり、編集距離の計算としてはD[0,0]=0と設定される。また、距離行列D[i,0]はx1,…,xiとy1の前の空文字列とを一致させる操作であり、この操作ではx1,…,xiを削除する操作となるので、編集距離の計算としてはD[i,0]=iと設定される。さらに、距離行列D[0,j]はx1の前の空文字列とy1,…,yjとを一致させる操作であり、この操作ではy1,…,yjをx1の前に挿入する操作となるので、編集距離の計算としてはD[0,j]=jと設定される。そして、距離情報算出手段354Aは、以下の数4および数5に基づいて、iが1〜n、jが1〜mの距離行列D[i,j]をそれぞれ計算する。   Here, in the calculation of the edit distance, the number of operations for insertion and deletion is “1”, the number of replacement operations is “0” for the same character, and “1” for different characters. The distance matrix D [0, 0] is the distance between the empty character string and the empty character string, and D [0, 0] = 0 is set as the calculation of the edit distance. Further, the distance matrix D [i, 0] is an operation for matching x1,..., Xi and the empty character string before y1, and this operation is an operation for deleting x1,. In the calculation, D [i, 0] = i is set. Further, the distance matrix D [0, j] is an operation for matching the empty character string before x1 with y1,..., Yj, and this operation is an operation for inserting y1,. For the calculation of the edit distance, D [0, j] = j is set. Then, the distance information calculation unit 354A calculates a distance matrix D [i, j] where i is 1 to n and j is 1 to m based on the following equations 4 and 5.

〔数4〕
D[i,j]=MIN(D[i−1,j]+1,
D[i,j−1]+1,
D[i−1,j−1]+Cost)
[Equation 4]
D [i, j] = MIN (D [i-1, j] +1,
D [i, j-1] +1,
D [i-1, j-1] + Cost)

〔数5〕
Cost=0 if X[i]=Y[j],
Cost=1 if X[i]≠Y[j]
[Equation 5]
Cost = 0 if X [i] = Y [j],
Cost = 1 if X [i] ≠ Y [j]

ここで、数4において、距離行列D[i,j]を計算する際、x1,…,xi-1とy1,…,yjとの距離行列D[i−1,j]の計算、x1,…,xiとy1,…,yj-1との距離行列D[i,j−1]の計算、および、x1,…,xi-1と、y1,…,yj-1との距離行列D[i−1,j−1]の計算が済んでいるとする。この後の距離計算を続けていくとして、xiとyjとについて可能な操作は、以下のような3つの操作のみである。   Here, when calculating the distance matrix D [i, j] in Equation 4, the calculation of the distance matrix D [i-1, j] between x1,..., Xi-1 and y1,. ..., xi and y1, ..., yj-1 calculation of distance matrix D [i, j-1], and x1, ..., xi-1 and y1, ..., yj-1 distance matrix D [ Suppose that i-1, j-1] have been calculated. Assuming that distance calculation is continued thereafter, there are only the following three operations for xi and yj.

すなわち、1つ目の可能な操作としては、x1,…,xi-1とy1,…,yjとの距離行列D[i−1,j]の計算から、x1,…,xiとy1,…,yjとの距離行列D[i,j]の計算を続ける場合、xiを削除する操作となる。このため、1つ目の距離行列D[i,j]の計算として、D[i−1,j]+1となる。また、2つ目の可能な操作としては、x1,…,xiとy1,…,yj-1との距離行列D[i,j−1]の計算から、x1,…,xiとy1,…,yjとの距離行列D[i,j]の計算を続ける場合、yjをxiの後に挿入する操作となる。このため、2つ目の距離行列D[i,j]の計算として、D[i,j−1]+1となる。さらに、3つ目の可能な操作としては、x1,…,xi-1とy1,…,yj-1との距離行列D[i−1,j−1]の計算から、x1,…,xiとy1,…,yjとの距離行列D[i,j]の計算を続ける場合、xiとyjとを置換する操作となる。このため、3つ目の距離行列D[i,j]の計算として、D[i−1,j−1]+Costとなる。ここで、Costは、xiとyjとを置換する操作数を示し、数5に示すように、X[i]とY[j]とが同一か否か、すなわちxiとyjとが同一か否かに応じて設定される。そして、距離行列D[i,j]を演算するため、数4に示すように、これら3つの可能な操作の中で計算値が最小となる操作が選択される。   That is, as the first possible operation, from the calculation of the distance matrix D [i-1, j] between x1, ..., xi-1 and y1, ..., yj, x1, ..., xi and y1, ... , Yj, when continuing to calculate the distance matrix D [i, j], this is an operation to delete xi. Therefore, D [i−1, j] +1 is calculated as the calculation of the first distance matrix D [i, j]. As a second possible operation, x1,..., Xi and y1,... Are calculated from the calculation of the distance matrix D [i, j-1] between x1,. , Yj, the calculation of the distance matrix D [i, j] is continued by inserting yj after xi. Therefore, the calculation of the second distance matrix D [i, j] is D [i, j-1] +1. Further, as a third possible operation, x1,..., Xi can be calculated from the calculation of the distance matrix D [i-1, j-1] between x1,..., Xi-1 and y1,. , Y1,..., Yj, when the calculation of the distance matrix D [i, j] is continued, the operation replaces xi and yj. Therefore, the calculation of the third distance matrix D [i, j] is D [i−1, j−1] + Cost. Here, Cost indicates the number of operations for replacing xi and yj. As shown in Equation 5, whether X [i] and Y [j] are the same, that is, whether xi and yj are the same. It is set according to. Then, in order to calculate the distance matrix D [i, j], as shown in Equation 4, an operation with the smallest calculated value is selected from these three possible operations.

そして、距離情報算出手段354Aは、計算した距離行列D[i,j]のうち、距離行列D[n,m]をキーワードXと類似単語Yとの編集距離Dist(X,Y)として算出する。この編集距離Dist(X,Y)を、キーワードXと全ての選出した類似単語Yとについて算出する。これら各類似単語Yとの各編集距離Dist(X,Y)は、サーバ記憶手段340に適宜記憶される。そして、単語候補選出手段354は、選出した類似単語のうち、編集距離Dist(X,Y)の値が小さい類似単語を1つあるいは所定の数で選出する。   Then, the distance information calculation unit 354A calculates the distance matrix D [n, m] of the calculated distance matrix D [i, j] as the edit distance Dist (X, Y) between the keyword X and the similar word Y. . This edit distance Dist (X, Y) is calculated for the keyword X and all selected similar words Y. Each edit distance Dist (X, Y) with each similar word Y is appropriately stored in the server storage unit 340. And the word candidate selection means 354 selects one similar word with a small edit distance Dist (X, Y) among the selected similar words, or a predetermined number.

また、単語候補選出手段354の検索単語設定手段354Bは、選出した類似単語を端末装置200で出力可能に送信させる処理をする。例えば、端末表示手段230で表示させるとともに端末入力手段220で表示された類似単語を選択さらには修正など入力操作可能に、サーバ通信手段310にてネットワーク110を介して端末装置200へ送信する。そして、端末装置200で類似単語が選択さらには修正されることにより、選択された類似単語や修正された類似単語をサーバ通信手段310にて読み取らせ、確定する処理をする。この確定処理は、文献情報341Aの検索要求のキーワードと合わせ、設定した類似単語をキーワードとして含む文献情報341Aを検索する対象とする処理である。なお、端末装置200での入力操作により、検索要求時のキーワードに代えて類似単語をキーワードとして文献検索させるようにしたり、類似単語が選択されずにキーワードのみで文献検索させたりするなどし、利用者の要求する検索条件に対応可能としてもよい。   In addition, the search word setting unit 354B of the word candidate selection unit 354 performs processing for transmitting the selected similar words so that the terminal device 200 can output them. For example, the server communication unit 310 transmits the similar word displayed on the terminal display unit 230 and the terminal input unit 220 to the terminal device 200 via the network 110 so that an input operation such as selection or correction can be performed. Then, when the similar word is selected and corrected by the terminal device 200, the selected similar word or the corrected similar word is read by the server communication unit 310 and determined. This confirmation process is a process for searching the document information 341A including the set similar word as a keyword together with the keyword of the search request of the document information 341A. It should be noted that the input operation at the terminal device 200 may be used to search for documents using similar words as keywords instead of keywords at the time of a search request, or to search for documents using only keywords without selecting similar words. It may be possible to cope with the search condition requested by the person.

検索手段355は、検索要求情報取得手段351にて取得した検索要求情報に基づいて、キーワードおよび単語候補選出手段354で選出されて設定された類似単語を含む文献情報341Aを検索する。この検索は、単語出現一覧記憶領域342の単語出現一覧テーブルにより、キーワードおよび類似単語に対応する単語情報342A1に関連付けられた識別情報341A2を読み取る。この読み取った識別情報341A2に対応する文献情報341Aを文献情報記憶領域341から読み出し、その本文情報341A1を読み取る。そして、検索手段355は、読み取った文献情報341Aを検索結果生成手段356へ適宜出力する。なお、検索の結果、キーワードおよび類似単語を本文情報341A1に含む文献情報341Aを検出できなかった場合、検出できなかった旨の信号を検索結果生成手段356へ適宜出力する。   Based on the search request information acquired by the search request information acquisition unit 351, the search unit 355 searches the document information 341A including the similar words selected and set by the keyword and word candidate selection unit 354. In this search, the identification information 341A2 associated with the word information 342A1 corresponding to the keyword and the similar word is read by the word appearance list table in the word appearance list storage area 342. The document information 341A corresponding to the read identification information 341A2 is read from the document information storage area 341, and the text information 341A1 is read. Then, the search unit 355 appropriately outputs the read document information 341A to the search result generation unit 356. If the document information 341A including the keyword and the similar word in the text information 341A1 cannot be detected as a result of the search, a signal indicating that the document information 341A has not been detected is appropriately output to the search result generating unit 356.

検索結果生成手段356は、検索手段355で取得した文献情報341Aを端末装置200へ報知するために適宜処理して検索結果情報を生成する。すなわち、端末装置200で文献情報341Aの本文情報341A1を確認可能な例えばサーバ記憶手段340にあらかじめ記憶された所定のフォームに基づいて検索結果情報を生成する。また、検出できなかった旨の信号を取得した場合には、その旨を端末装置200で出力可能な所定のフォームの検索結果情報を生成、例えばサーバ記憶手段340にあらかじめ記憶された所定のフォームを読み出す。そして、生成された検索結果情報は、サーバ記憶手段340に適宜記憶されるとともに、報知手段357へ適宜出力される。   The search result generation unit 356 appropriately processes the document information 341A acquired by the search unit 355 to notify the terminal device 200, and generates search result information. That is, the search result information is generated based on a predetermined form stored in advance in, for example, the server storage unit 340 in which the terminal device 200 can confirm the text information 341A1 of the document information 341A. In addition, when a signal indicating that the detection is not possible is acquired, search result information of a predetermined form that can be output by the terminal device 200 is generated. For example, a predetermined form stored in advance in the server storage unit 340 is generated. read out. The generated search result information is appropriately stored in the server storage unit 340 and is also output to the notification unit 357 as appropriate.

報知手段357は、検索結果生成手段356で生成した検索結果情報を取得して適宜処理し、サーバ通信手段310によりネットワーク110を介して端末装置200へ送信する。このことにより、端末装置200は、検索結果取得手段253にて取得した検索結果情報を適宜処理し、文献情報341Aの本文情報341A1を端末表示手段230で表示させたり、図示しない接続された印刷装置にて印刷出力させたりし、検索結果が端末装置200で報知される。   The notification unit 357 acquires the search result information generated by the search result generation unit 356, processes it appropriately, and transmits it to the terminal device 200 via the network 110 by the server communication unit 310. Accordingly, the terminal device 200 appropriately processes the search result information acquired by the search result acquisition unit 253, displays the text information 341A1 of the document information 341A on the terminal display unit 230, or a connected printing device (not shown). The terminal device 200 is notified of the search result.

課金演算手段358は、検索要求情報や検索手段355にて検索し報知手段357にて送信する検索結果情報などに基づいて、検索要求をした利用者に対して検索結果の報知に関する対価を演算する。この対価の演算としては、例えば端末装置200がネットワーク110を介してサーバ装置300に接続した時間、検索を実行するための検索料金、検索結果の情報量に対応する回答出力料金などに基づいて演算される。なお、この対価の額は、検索結果情報とともに報知手段357により端末装置200で確認可能に送信される。   The billing calculation means 358 calculates a consideration related to the notification of the search result for the user who made the search request based on the search request information and the search result information searched by the search means 355 and transmitted by the notification means 357. . The calculation of the consideration is based on, for example, the time when the terminal device 200 is connected to the server device 300 via the network 110, the search fee for executing the search, the answer output fee corresponding to the information amount of the search result, and the like. Is done. The amount of the consideration is transmitted together with the search result information so that the terminal device 200 can confirm the information by the notification unit 357.

決済手段359は、課金演算手段358にて演算した対価を回収するための処理をする。例えば、サーバ記憶手段340にあらかじめ記憶されている端末装置200を用いて文献検索を利用する利用者を特定する顧客情報などに基づいて、請求書を発行したり、ネットワーク110を介して各金融機関が管理する付加価値通信網(Value-Added Network:VAN)であるいわゆる金融VANに構築されたファームバンキング(Firm Banking:FB)を利用して決済処理したり、決済処理する旨をサーバ表示手段330に表示させて管理者に決済処理を促す案内を報知するなどの処理をする。   The settlement unit 359 performs processing for collecting the consideration calculated by the charging calculation unit 358. For example, an invoice is issued based on customer information for identifying a user who uses a document search using the terminal device 200 stored in advance in the server storage unit 340, or each financial institution via the network 110 The server display means 330 indicates that payment processing is performed using farm banking (Firm Banking: FB) built in a so-called financial VAN which is a value-added network (VAN) managed by the server, or that payment processing is performed. To display an instruction for prompting the administrator to make a settlement process.

〔文献情報検索システムの動作〕
次に、上述した文献情報検索システム100における所定の文献情報341Aを検索する検索処理の動作について図面を参照して説明する。図8は、文献情報を検索する検索処理の動作を示すフローチャートである。
[Operation of Bibliographic Information Retrieval System]
Next, an operation of search processing for searching for the predetermined document information 341A in the above-described document information search system 100 will be described with reference to the drawings. FIG. 8 is a flowchart showing an operation of a search process for searching for document information.

文献情報検索システム100を利用した文献の検索に際しては、まず利用者が端末装置200の端末入力手段220を適宜入力操作することで、サーバ装置300とネットワーク110を介して各種情報を送受信可能に端末装置200を接続させる。この接続としては、例えばあらかじめサーバ装置用のアプリケーションソフトウェアがインストールされて構築されたサーバ装置300が常駐するホームページなどにアクセスするなどが例示できる。そして、利用者が端末表示手段230に表示させる画面表示にしたがって端末入力手段220を適宜入力操作し、文献を検索するための文献に含まれるキーワードを入力する。この入力操作により、端末処理手段250のキーワード設定手段251が、端末入力手段220からの入力操作に対応、例えばキーボードの操作キーの操作毎に出力される信号列に対応して適宜変換されたキーワードを設定する(ステップS101)。   When searching for a document using the document information search system 100, first, the user appropriately inputs and operates the terminal input unit 220 of the terminal device 200 so that various types of information can be transmitted and received via the server device 300 and the network 110. The device 200 is connected. As this connection, for example, access to a homepage or the like in which the server device 300 that is built by installing application software for the server device in advance is resident can be exemplified. And according to the screen display which a user displays on the terminal display means 230, the input operation of the terminal input means 220 is input suitably, and the keyword contained in the document for searching a document is input. By this input operation, the keyword setting unit 251 of the terminal processing unit 250 corresponds to the input operation from the terminal input unit 220, for example, the keyword appropriately converted corresponding to the signal sequence output for each operation key of the keyboard. Is set (step S101).

この後、利用者が画面表示に従って端末入力手段220を適宜操作し、設定したキーワードを含む文献の検索を要求する旨の入力操作により、文献検索実行させる。この文献検索の実行を要求する旨の入力操作としては、例えば表示画面中に設けられ文献検索の実行を促すコマンドボタンの入力操作などが例示できる。この入力操作により、端末処理手段250の検索要求手段252は、設定させたキーワードを含む文献検索の実行をサーバ装置300に要求する旨の検索要求情報を生成し(ステップS102)、端末通信手段210によりネットワーク110を介してサーバ装置300へ送信させる処理をする(ステップS103)。 Thereafter, the user appropriately operates the terminal input unit 220 according to the screen display, and performs a document search by an input operation for requesting a search for a document including the set keyword. As an input operation for requesting execution of the document search, for example, an input operation of a command button provided on the display screen and prompting the execution of the document search can be exemplified. By this input operation, the search request unit 252 of the terminal processing unit 250 generates search request information for requesting the server apparatus 300 to execute a document search including the set keyword (step S102), and the terminal communication unit 210. Thus, a process of transmitting to the server apparatus 300 via the network 110 is performed (step S103).

そして、ステップS103で端末装置200から送信された検索要求情報を、サーバ通信手段310でサーバ装置300が受信すると(ステップS104)、サーバ処理手段350の検索要求情報取得手段351が検索要求情報に含まれるキーワードを取得する(ステップS105)。このステップS105で取得したキーワードに基づいて、単語変換手段352により信号列情報を生成する信号列情報処理工程が実施する。すなわち、単語変換手段352は、取得したキーワードから、入力操作に応じて入力プログラムが変換する際のキー操作などの入力操作に対応した信号列、例えばローマ字読み文字列となる入力ローマ字列に変換して信号列情報を生成する(ステップS106)。   When the server device 300 receives the search request information transmitted from the terminal device 200 in step S103 (step S104), the search request information acquisition unit 351 of the server processing unit 350 is included in the search request information. The keyword to be acquired is acquired (step S105). Based on the keyword acquired in step S105, a signal sequence information processing step of generating signal sequence information by the word conversion means 352 is performed. That is, the word conversion means 352 converts the acquired keyword into a signal string corresponding to an input operation such as a key operation when the input program converts according to the input operation, for example, an input Roman character string that becomes a Roman character reading character string. Signal sequence information is generated (step S106).

この後、類似度演算手段353により、生成した信号列情報に基づいて、サーバ記憶手段340の単語出現一覧記憶領域342に記憶された単語との類似状態に関する類似度を演算して類似度情報を生成させる類似度情報演算工程を実施する。すなわち、類似度演算手段353の分割信号情報生成手段353Aにより、キーワードから変換された入力ローマ字列の信号列情報に基づいて、例えば図6に示すように、例えば1字ずつずらした際の部分的な文字列となる分割文字列に分割して分割信号情報を生成する(ステップS107)。さらに、類似度演算手段353の重み度情報演算手段353Bは、単語出現一覧記憶領域342に記憶された単語における同様の入力ローマ字列から分割した例えば図7に示すような複数の分割文字列に関する分割信号情報を取得する。そして、重み度情報演算手段353Bは、キーワードの入力ローマ字列から分割した複数の分割文字列に関する分割信号情報と、単語出現一覧記憶領域342の単語の分割信号情報とに基づいて、上述した数1によりキーワードの各分割文字列と一致する単語の各分割文字列における重み度を演算する(ステップS108)。さらに、類似度演算手段353は、ステップS108で演算した重み度に基づいて、上述した数2により、各単語の分割信号情報についての各分割文字列において、キーワードの分割信号情報についての各分割文字列との共通部分の重み度の総和を演算し、キーワードと単語出現一覧記憶領域342の各単語の類似状態に関する類似度を演算し、類似度情報を生成する(ステップS109)。   Thereafter, the similarity calculation unit 353 calculates similarity based on the similarity state with the words stored in the word appearance list storage area 342 of the server storage unit 340 based on the generated signal string information, and obtains similarity information. A similarity information calculation step to be generated is performed. That is, the partial signal information generated by the divided signal information generation means 353A of the similarity calculation means 353 is shifted partially by one character as shown in FIG. 6, for example, based on the signal string information of the input Roman character string converted from the keyword. The divided signal information is generated by dividing the divided character string into a character string (step S107). Further, the weight degree information calculation unit 353B of the similarity calculation unit 353 divides a plurality of divided character strings as shown in FIG. 7, for example, divided from the same input Roman character strings in the words stored in the word appearance list storage area 342. Get signal information. Then, the weight degree information calculation means 353B is based on the division signal information related to a plurality of divided character strings divided from the input Roman character string of the keyword and the division signal information of the words in the word appearance list storage area 342, as described above. Thus, the degree of weight in each divided character string of the word that matches each divided character string of the keyword is calculated (step S108). Further, the similarity calculation means 353 calculates each divided character for the divided signal information of the keyword in each divided character string for the divided signal information of each word according to the above-described formula 2 based on the weight calculated in step S108. The sum of the weights of the common part with the column is calculated, the similarity regarding the similar state of each word in the keyword and the word appearance list storage area 342 is calculated, and similarity information is generated (step S109).

そして、サーバ処理手段350は、ステップS107〜S109の類似度情報演算工程で演算された類似度に基づいて、類似する単語を選出する類似単語選出工程を実施する。すなわち、単語候補選出手段354により、ステップS109で演算した類似度に基づいて、キーワードに類似する単語を、例えば類似度の値が多い順からあらかじめ設定された数の単語を類似単語として複数選出する(ステップS110)。なお、このステップS110における類似単語の選出の際、例えば選出する類似単語の数が多いなどの場合、距離情報算出手段354Aにより、キーワードと類似単語との編集距離またはリーベンシュタイン距離などの距離に関する距離情報を演算する処理などを適宜実施して、さらに絞り込み処理を実施してもよい。このステップS110の後、単語候補選出手段354の検索単語設定手段354Bは、選出した類似単語を端末装置200へ送信する処理をする(ステップS111)。この選出した類似単語に関する情報を送信する先の端末装置200は、例えばステップS104で受信した検索要求情報に基づいて特定される。   Then, the server processing unit 350 performs a similar word selection step of selecting similar words based on the similarity calculated in the similarity information calculation step of steps S107 to S109. In other words, the word candidate selection means 354 selects a plurality of words similar to the keyword based on the similarity calculated in step S109 as, for example, a predetermined number of words from the highest similarity value as the similar word. (Step S110). When selecting similar words in step S110, for example, when there are a large number of similar words to be selected, the distance information calculating unit 354A uses a distance related to a distance such as an edit distance between the keyword and the similar word or a Levenshtein distance. A narrowing process may be performed by appropriately performing a process for calculating information. After step S110, the search word setting unit 354B of the word candidate selection unit 354 performs a process of transmitting the selected similar word to the terminal device 200 (step S111). The terminal device 200 to which the information related to the selected similar word is transmitted is specified based on the search request information received in step S104, for example.

このステップS111により、サーバ装置300で選出された類似単語に関する情報を端末通信手段210で端末装置200が受信すると(ステップS112)、端末処理手段250の出力制御手段254により、端末表示手段230を適宜制御して類似単語を端末入力手段220での入力操作により選択さらには修正などが可能に画面表示させる。そして、画面表示にしたがって所定の類似単語が選択あるいは修正されると(ステップS113)、出力制御手段254は入力操作で選択あるいは修正された類似単語をサーバ装置300へ送信させる(ステップS114)。この類似単語の選択あるいは修正に関する情報を端末装置200からサーバ通信手段310で受信すると(ステップS115)、単語候補選出手段354の検索単語設定手段354Bが選択あるいは修正された類似単語を検索要求のキーワードとして確定する(ステップS116)。なお、例えば、検索要求時のキーワードに代えて類似単語をキーワードとして文献検索させるようにしたり、類似単語が選択されずにキーワードのみで文献検索させたり、キーワードとともに類似単語をキーワードとして文献検索させたりするなど、端末装置200での入力操作に対応して検索要求のキーワードが適宜確定される。このような一連の処理により、キーワードに類似する類似単語が選出される。   In step S111, when the terminal device 200 receives the information related to the similar word selected by the server device 300 by the terminal communication unit 210 (step S112), the terminal display unit 230 is appropriately switched by the output control unit 254 of the terminal processing unit 250. The similar word is controlled and displayed on the screen so that it can be selected and corrected by an input operation using the terminal input means 220. When a predetermined similar word is selected or corrected in accordance with the screen display (step S113), the output control means 254 causes the similar word selected or corrected by the input operation to be transmitted to the server device 300 (step S114). When the server communication means 310 receives the information related to the selection or correction of the similar word from the terminal device 200 (step S115), the search word setting means 354B of the word candidate selection means 354 selects the similar word selected or corrected as a search request keyword. (Step S116). In addition, for example, instead of a keyword at the time of a search request, a document search may be performed using a similar word as a keyword, a document search may be performed using only the keyword without selecting a similar word, or a document search may be performed using the similar word together with the keyword as a keyword. For example, the keyword of the search request is determined as appropriate in response to the input operation on the terminal device 200. By such a series of processes, similar words similar to the keyword are selected.

このステップS110〜S116の類似単語選出工程の後、選出された類似単語およびキーワードを含む文献を検索する検索工程が実施される。すなわち、ステップS116の後、サーバ処理手段350の検索手段355は、ステップS104で受信した検索要求情報に基づいて、ステップS116で確定された検索要求のキーワードおよび類似単語を含む文献情報341Aを、単語出現一覧記憶領域342の単語出現一覧テーブルを用いて検索する(ステップS117)。すなわち、キーワードおよび類似単語に対応する単語情報342A1に関連付けられた識別情報341A2を読み取り、識別情報341A2に対応する文献情報341Aを文献情報記憶領域341から読み出し、その本文情報341A1を読み取る。そして、検索結果生成手段356により、検索手段355で取得した文献情報341Aを端末装置200へ報知するために、例えばサーバ記憶手段340にあらかじめ記憶された所定のフォームに基づいて検索結果情報を生成する。さらに、課金演算手段358により、例えば端末装置200がネットワーク110を介してサーバ装置300に接続した時間、検索を実行するための検索料金、検索結果の情報量に対応する回答出力料金などに基づいて、検索要求をした利用者に対して検索結果の報知に関する対価を演算する(ステップS118)。この検索工程の後、サーバ処理手段350は、検索結果を報知する検索結果報知工程を実施する。すなわち、報知手段357により、検索結果生成手段356で生成した検索結果情報を、課金演算手段358で演算した文献検索の対価に関する情報とともに、サーバ通信手段310によりネットワーク110を介して端末装置200へ送信する処理をする(ステップS119)。   After the similar word selection process in steps S110 to S116, a search process for searching for a document including the selected similar word and keyword is performed. That is, after step S116, the search unit 355 of the server processing unit 350 uses the search request information received in step S104 as a reference for the document information 341A including the keyword and similar words of the search request determined in step S116. A search is performed using the word appearance list table in the appearance list storage area 342 (step S117). That is, the identification information 341A2 associated with the word information 342A1 corresponding to the keyword and the similar word is read, the document information 341A corresponding to the identification information 341A2 is read from the document information storage area 341, and the text information 341A1 is read. The search result generation unit 356 generates search result information based on a predetermined form stored in advance in the server storage unit 340, for example, in order to notify the terminal device 200 of the document information 341A acquired by the search unit 355. . Further, the charging calculation means 358 may be based on, for example, a time when the terminal device 200 is connected to the server device 300 via the network 110, a search fee for executing the search, an answer output fee corresponding to the information amount of the search result, and the like. Then, a consideration relating to notification of the search result is calculated for the user who has made the search request (step S118). After this search step, the server processing unit 350 performs a search result notification step of notifying the search result. That is, the notifying unit 357 transmits the search result information generated by the search result generating unit 356 to the terminal device 200 via the network 110 by the server communication unit 310 together with information related to the price of the document search calculated by the billing calculating unit 358. (Step S119).

このステップS119で送信される検索結果情報および文献検索の対価に関する情報を端末装置200が端末通信手段210にて受信すると(ステップS120)、端末処理手段250の検索結果取得手段253が取得し、出力制御手段254にて例えば所定のフォームに基づいて文献情報341Aを端末表示手段230で表示させたり、図示しない接続された印刷装置にて印刷出力させたりする検索結果情報の出力制御をし(ステップS121)、端末装置200における文献のキーワード検索の処理が終了する。   When the terminal device 200 receives the search result information and the information related to the value of the document search transmitted in step S119 at the terminal communication unit 210 (step S120), the search result acquisition unit 253 of the terminal processing unit 250 acquires and outputs the result. The control means 254 controls the output of the search result information such that the document information 341A is displayed on the terminal display means 230 based on a predetermined form, for example, or is printed out by a connected printing device (not shown) (step S121). ), The keyword search process for documents in the terminal device 200 ends.

一方、ステップS119の後、サーバ装置300は、決済手段359により、課金演算手段358で演算した対価を回収するための処理をする。例えば、サーバ記憶手段340にあらかじめ記憶されている端末装置200を用いて文献検索を利用する利用者を特定する顧客情報などに基づいて、請求書を発行したり、ネットワーク110を介していわゆる金融VANに構築されたファームバンキングを利用して決済処理したり、決済処理する旨をサーバ表示手段330に表示させて管理者に決済処理を促す案内を報知するなどの処理をし(ステップS122)、サーバ装置300における文献のキーワード検索の処理が終了する。   On the other hand, after step S <b> 119, the server apparatus 300 performs processing for collecting the consideration calculated by the accounting calculation means 358 by the settlement means 359. For example, an invoice is issued based on customer information for identifying a user who uses a document search using the terminal device 200 stored in advance in the server storage unit 340, or so-called financial VAN via the network 110. Processing such as payment processing using the farm banking constructed in step S3, or displaying notification that payment processing is to be performed on the server display means 330 and notifying the administrator of guidance for payment processing (step S122). The document keyword search process in the apparatus 300 ends.

ここで、検索要求のキーワードが上述した「ケミッタ」の場合、「エミッタ」と「リミッタ」とは編集距離またはリーベンシュタイン距離において数学的に定義される類似度が同一となる。ところで、入力操作に応じた文字列、例えば入力ローマ字列で比較した場合、図6および図7に示すように、「kemitta」と、「emitta」および「limitta」とでは、字面が似ていることで「エミッタ」が「ケミッタ」により似ていることがわかる。すなわち、入力操作に応じた入力文字列においてより高い類似性が認められることは、そのキーワードを入力しようとする意図の基、入力操作上の誤りによりキーワードが誤入力された蓋然性が高いことが判断できる。   Here, when the keyword of the search request is the above-mentioned “chemiter”, “emitter” and “limiter” have the same similarity defined mathematically in the edit distance or Levenshtein distance. By the way, when compared with a character string corresponding to an input operation, for example, an input Roman character string, as shown in FIGS. 6 and 7, “kemitta”, “emitta”, and “limitta” have similar character faces. It can be seen that “emitter” is more similar to “chemita”. In other words, if a higher similarity is recognized in the input character string according to the input operation, it is determined that there is a high probability that the keyword is erroneously input due to an error in the input operation based on the intention to input the keyword. it can.

〔実施の形態の作用効果〕
上述したように、上記実施の形態では、端末装置200からネットワーク110を介して取得した検索要求情報に含まれるキーワードを取得し、所定の入力操作に対応して所定の単語に変換する入力支援手段でキーワードに変換するための入力操作に応じた入力ローマ字列の信号列情報を単語変換手段352で生成させる。この生成したキーワードの入力ローマ字列と、単語出現一覧記憶領域342に複数記憶された単語における同様の信号列情報の入力ローマ字列との類似状態に関する類似度情報を類似度演算手段353にて演算させる。この演算した類似度情報に基づいて、信号列情報の入力ローマ字列が類似する単語出現一覧記憶領域342に記憶された単語を単語候補選出手段354にて選出させる。このため、例えば上述したように、単語の文字列での編集距離などにて数学的に定義される類似度による判断では確からしさの差別化ができない場合でも、キーワードを入力しようとする意図で入力操作上の誤りによりキーワードが誤入力された蓋然性が高いことによる高い類似性が認められる入力操作に応じた信号列である文字列すなわち入力ローマ字列に変換することで、類似状態に差が生じて類比判別が可能となり、より適切な類似する単語を選出できる。
[Effects of Embodiment]
As described above, in the above embodiment, the input support means for acquiring a keyword included in the search request information acquired from the terminal device 200 via the network 110 and converting it into a predetermined word in response to a predetermined input operation. The word conversion means 352 generates signal string information of the input Roman character string corresponding to the input operation for converting into a keyword. Similarity information relating to the similarity state between the generated input Roman character string of the keyword and the input Roman character string of similar signal string information in a plurality of words stored in the word appearance list storage area 342 is calculated by the similarity calculating means 353. . Based on the calculated similarity information, the word candidate selection means 354 selects words stored in the word appearance list storage area 342 whose input Roman character string of the signal string information is similar. For this reason, for example, as described above, even if it is not possible to differentiate the certainty by the judgment based on the similarity defined mathematically by the edit distance in the character string of the word, it is input with the intention of inputting the keyword. By converting to a character string that is a signal sequence corresponding to an input operation, that is, a high similarity due to a high probability that a keyword is erroneously input due to an operational error, a difference occurs in the similar state Similarity discrimination is possible, and more appropriate similar words can be selected.

そして、単語変換手段352により、入力操作に応じた信号列として、ローマ字読みした場合における入力ローマ字列に変換して信号列情報を生成する構成としている。このため、特に日本語入力されたキーワードに類似する単語をより適切に判別でき、より適切な類似単語を選出できる。   Then, the word conversion means 352 converts the signal string corresponding to the input operation into an input Roman character string when the Roman character is read, and generates signal string information. For this reason, it is possible to more appropriately discriminate words that are particularly similar to keywords input in Japanese, and to select more appropriate similar words.

また、類似度演算手段353により、単語出現一覧記憶領域342に記憶された単語情報342A1に関連付けられた入力ローマ字列の信号列情報、さらには分割信号情報を読み取って類似度情報の演算を実施している。このため、単語出現一覧記憶領域342に記憶された全単語から信号列情報さらには分割信号情報を生成させる処理が不要で、処理負荷を低減でき、処理の高速化を容易に得ることができる。   Further, the similarity calculation means 353 reads the signal string information of the input Roman character string associated with the word information 342A1 stored in the word appearance list storage area 342, and further calculates the similarity information by reading the divided signal information. ing. This eliminates the need for processing for generating signal string information and further divided signal information from all words stored in the word appearance list storage area 342, reduces the processing load, and facilitates speeding up of the processing.

そして、類似度演算手段353により、分割信号情報生成手段353Aにてキーワードの入力ローマ字列の入力操作毎に対応した部分文字列や単位文字列などの分割文字列の分割信号情報を生成させ、重み度情報演算手段353Bにて単語出現一覧記憶領域342に記憶された単語の分割信号情報と、キーワードの分割信号情報との同一性に応じた重み付けに関する重み度を演算させ、重み度に基づいて単語出現一覧記憶領域342に記憶された単語におけるキーワードに対する類似度を演算している。このため、入力操作に応じた入力ローマ字列に基づいた適切な類比判別が容易に得られる。   Then, the similarity calculation means 353 causes the division signal information generation means 353A to generate division signal information of a divided character string such as a partial character string or a unit character string corresponding to each input operation of the keyword input Roman character string, and the weight The degree information calculating means 353B calculates a weighting degree related to weighting according to the identity of the divided signal information of the word stored in the word appearance list storage area 342 and the divided signal information of the keyword, and the word is calculated based on the weighting degree. The similarity to the keyword in the word stored in the appearance list storage area 342 is calculated. Therefore, it is possible to easily obtain an appropriate analogy discrimination based on the input Roman character string corresponding to the input operation.

さらに、分割信号情報生成手段353Aで分割文字列を入力ローマ字列を1字分ずつずらした文字列の並びとして生成している。このため、入力ローマ字列に基づいてキーワードに対して類似性を有する類似単語を検索する際に、検索漏れを減少させることができ、適切な類似単語を選出できる。検索漏れが減少し、適切な類似する単語が適切に検出される。さらには、キーワードおよび単語を構成する複数の部分的な分割文字列としているので、キーワードおよび単語を形態素解析などの分析を実施する必要がなく、簡単な処理で容易にキーワードおよび単語の特徴となる情報を抽出でき、簡単な処理で容易に適切な類似する単語の選出が得られる。   Further, the divided signal information generating means 353A generates the divided character string as a string of character strings obtained by shifting the input Roman character string by one character. For this reason, when searching for similar words having similarity to the keyword based on the input Roman character string, search omissions can be reduced, and appropriate similar words can be selected. Search omissions are reduced and appropriate similar words are properly detected. Furthermore, since a plurality of partially divided character strings constituting the keyword and the word are used, it is not necessary to perform an analysis such as morphological analysis on the keyword and the word, and the keyword and the word can be easily obtained by a simple process. Information can be extracted, and appropriate similar words can be easily selected by simple processing.

そして、出力制御手段254により、単語候補選出手段354で選出した単語が入力操作により選択可能に端末表示手段230で表示している。このため、選択された類似する単語が利用者にて確認でき、例えば類似する単語に置換するなどの入力支援処理や類似する単語での検索処理など、適切な処理が確実に得られる。   The output control means 254 displays the word selected by the word candidate selection means 354 on the terminal display means 230 so that it can be selected by an input operation. For this reason, the selected similar word can be confirmed by the user, and appropriate processing such as input support processing such as replacement with a similar word and search processing with a similar word can be surely obtained.

また、単語候補選出手段354により、選出した類似単語のうち、キーワードとの例えば編集距離またはリーベンシュタイン距離などの距離に関する距離情報を演算し、選出した類似単語のいずれかをさらに選出して絞り込み処理をしている。このため、より適切に類似する類似単語の絞り込みが得られ、また重み度と異なる距離による類比判別により、類比判断が多面的となり、より適切な類似する類似単語を選出できる。さらに、このキーワードと類似単語との距離を演算する絞り込み処理の際、キーワードを入力しようとする意図で入力操作上の誤りによりキーワードが誤入力された蓋然性が高いことによる高い類似性が認められるそれぞれの入力ローマ字列における距離を演算することで、より適切な類似単語の絞り込みが得られる。   In addition, the word candidate selection means 354 calculates distance information regarding the distance from the keyword, such as an edit distance or a Levenshtein distance, among the selected similar words, and further selects and selects one of the selected similar words. I am doing. For this reason, similar similar words can be narrowed down more appropriately, and the analogy determination based on distances different from the weighting degree makes multifaceted analogy determination, and more appropriate similar similar words can be selected. Furthermore, in the narrowing-down process for calculating the distance between this keyword and a similar word, a high similarity is recognized due to the high probability that the keyword was erroneously input due to an error in input operation with the intention of inputting the keyword. By calculating the distance in the input Roman character string, it is possible to obtain a more appropriate narrowing down of similar words.

そして、文献検索のキーワードに類似する類似単語を選出する構成に適用している。このため、より漏れのない文献検索ができる。   And it applies to the structure which selects the similar word similar to the keyword of literature search. For this reason, it is possible to perform a literature search without omission.

また、ネットワーク110を介して接続する端末装置200からの検索要求によりサーバ装置300で文献検索して報知するシステム構成としている。このため、簡単な端末装置200の構成でも、文献情報341Aの関連に関する検索が容易にでき、利用の拡大を容易に図ることができる。さらには、サーバ装置300にて統括的に容量の大きな文献情報341Aを管理でき、データの更新などが容易で、運用管理性を容易に向上できる。したがって、携帯電話などの処理能力が比較的に小さいものを用いても容易に検索でき、利用の拡大が容易に図れる。   In addition, the system configuration is such that the server device 300 searches for documents and notifies them in response to a search request from the terminal device 200 connected via the network 110. For this reason, even with a simple configuration of the terminal device 200, it is possible to easily search for the relation of the document information 341 </ b> A, and to easily expand the use. Furthermore, the server apparatus 300 can manage the document information 341A having a large capacity in an integrated manner, and data can be easily updated, so that the operational management can be easily improved. Therefore, even if a mobile phone or the like having a relatively small processing capability is used, a search can be easily performed and the use can be easily expanded.

そして、パーソナルコンピュータなどにプログラムとして検索処理が実行可能に構成している。このため、プログラムを組み込む、さらにはプログラムを記録した記録媒体を用いることで、上記処理が容易に得られ、利用の拡大が容易に図れる。   A search process can be executed as a program in a personal computer or the like. For this reason, by using a recording medium in which the program is incorporated or the program is recorded, the above processing can be easily obtained, and the use can be easily expanded.

〔実施形態の変形〕
なお、本発明は、上述した一実施の形態に限定されるものではなく、本発明の目的を達成できる範囲で以下に示される変形をも含むものである。
[Modification of Embodiment]
Note that the present invention is not limited to the above-described embodiment, and includes the following modifications as long as the object of the present invention can be achieved.

例えば、システム構成として説明したが、1台のパーソナルコンピュータを用い、文献情報記憶領域341である記録媒体から文献情報341Aを適宜検索する装置構成としたり、文献情報記憶領域341をネットワーク110を介して読み取る構成としたり、端末装置200に類似単語を選出させる構成、すなわちキーワードを取得する手段、信号列に変換する手段、類似度を演算する手段、類似単語を選出する手段を設け、サーバ装置300では検索処理するのみの構成としたり、類似単語を選出させる構成と検索する構成とをそれぞれ異なるサーバ装置300で実施するシステム構成としたり、サーバ記憶手段340の構成をサーバ装置300と切り離してネットワーク110を介して別のサーバ装置として構成したりするなど、いずれの形態とすることができる。   For example, although the system configuration has been described, a single personal computer is used to appropriately search the document information 341A from the recording medium that is the document information storage area 341, or the document information storage area 341 is connected via the network 110. In the server device 300, the server device 300 includes a reading configuration, a configuration in which the terminal device 200 selects a similar word, that is, a keyword acquisition unit, a signal string conversion unit, a similarity calculation unit, and a similar word selection unit. A configuration in which only the search processing is performed, a configuration in which the configuration for selecting similar words and a configuration for searching are performed in different server devices 300, or the configuration of the server storage unit 340 is separated from the server device 300, and the network 110 is configured. Or configure it as a separate server device It can be of the form.

また、文献を検索するためのキーワードに類似する単語を選出する構成について説明したが、例えば上述したように、ワードプロセッサなどの文字入力支援装置として類似単語検索装置を独立して構成するなどしてもよい。このような文字入力支援装置として構成する場合には、入力操作に応じて類似単語を正しい入力文字として置換する構成、すなわち単語修正手段を設けると、より入力操作性が向上するので好ましい。   Moreover, although the structure which selects the word similar to the keyword for searching literature was demonstrated, for example, as mentioned above, a similar word search apparatus may be comprised independently as character input assistance apparatuses, such as a word processor. Good. When configured as such a character input support device, it is preferable to provide a configuration that replaces similar words with correct input characters in accordance with the input operation, that is, a word correcting means, because the input operability is further improved.

そして、単語変換手段352にてキーワードをローマ字読み文字列となる入力ローマ字列に変換して説明したが、入力ローマ字列に限らず、そのキーワードを入力するために入力操作する操作手段で入力操作することにより出力されるいずれの入力信号列に変換してもよい。例えば携帯電話による「ケミッタ」の入力の際には、「2」の操作ボタンを4回操作し、「7」を2回操作し、「4」を3回操作して小文字に変換する操作ボタンを操作し、「4」を1回操作することによる信号列に変換するなどが例示できる。このような例えば携帯電話やPHS、PDAなどの携帯通信端末装置に設けられた操作手段における入力操作に応じた信号列の信号列情報を生成することで、数字キーなどの入力操作が限られた操作手段を備えた携帯通信端末装置でも適切な類似する単語の選出が得られ、利用の拡大を容易に図ることができる。さらには、入力文字列として、入力ローマ字列に変換して説明したが、例えば入力かな文字列に変換するなどして類似度を演算してもよい。   In the above description, the word conversion means 352 converts the keyword into an input Roman character string to be a Roman character reading character string. It may be converted into any input signal sequence output. For example, when inputting “Chemitta” using a mobile phone, the “2” operation button is operated four times, the “7” is operated twice, and the “4” is operated three times to convert to lower case. Can be converted into a signal sequence by operating “4” once. By generating the signal sequence information of the signal sequence according to the input operation in the operation means provided in the mobile communication terminal device such as a mobile phone, PHS, PDA, etc., input operations such as numeric keys are limited. An appropriate similar word can be selected even in a mobile communication terminal device provided with an operation means, and the use can be easily expanded. Furthermore, although the input character string has been described as being converted into an input Roman character string, the similarity may be calculated by converting into an input kana character string, for example.

また、類似度の演算として、分割文字列での重み付けに基づいて実施したが、例えば単語変換手段352で変換した信号列を用いて、単語出現一覧テーブルの単語の入力ローマ字列との距離を演算して類比判断するなどしてもよい。   Further, although the similarity is calculated based on weighting with the divided character string, the distance from the input Roman character string of the word in the word appearance list table is calculated using, for example, the signal string converted by the word conversion unit 352. Thus, the analogy may be judged.

さらに、選出した類似単語の絞り込みの処理として、距離を演算する構成としては、入力ローマ字列での距離の他、キーワードおよび類似単語の文字列での距離を演算してもよい。さらには、距離を演算する構成に代えて、例えば単語出現一覧テーブルを利用して関連付けられた文献が多いすなわち文献頻度が高い方、あるいは全文献中での出現頻度が多い方などのその単語の文献での利用頻度に基づいて判断し、利用頻度が高い方が確からしい単語であるとして重み付け(例えばスコア付け)をし、絞り込みの類比判断をするなどしてもよい。なお、単語出現一覧テーブルを用いて文献頻度応じて類似単語のスコア付けをしてスコアの大きい順が類似度がより高いとして絞り込みを実施する構成では、単語出現一覧テーブルの共用が図れ、情報の有効利用による構成の簡略化や処理の高速化などが容易に得られる。そして、出現頻度を利用する構成では、例えば以下の数6に示す指揮に基づいてスコアV付けを実施することが例示できる。 Further, as a process of narrowing down selected similar words, as a configuration for calculating the distance, in addition to the distance in the input Roman character string, the distance in the character string of the keyword and the similar word may be calculated. Furthermore, instead of the configuration for calculating the distance, for example, there are many documents related using the word appearance list table, that is, the document frequency is high, or the word frequency such as one with a high frequency of appearance in all documents is used. Judgment may be made based on the frequency of use in the literature, weighting (for example, scoring) may be performed on the basis that the higher frequency of use is a more probable word, and narrowing down comparison may be judged. In the configuration in which by using a word appearance list table to the scoring of similar words in accordance with the literature frequency descending order of scores implementing narrowing as higher degree of similarity, Hakare sharing of word appearance list table, information Simplification of the configuration and speeding up of processing can be easily obtained by effective use of. In the configuration using the appearance frequency, for example, the score V can be applied based on the command shown in the following formula 6.

〔数6〕
V=Log(Freq(w)+C)/d
Freq(w):単語wの出現頻度
C:定数
d:リーベンシュタイン距離
[Equation 6]
V = Log (Freq (w) + C) / d
Freq (w): Appearance frequency of word w C: constant d: Liebenstein distance

これらのように、文献における利用頻度、例えば全文献での単語の出現頻度やその単語を含む文献頻度が高い単語は、頻繁に文献中にキーワードとして利用されていることから、文献検索のキーワードとしての蓋然性が高いこととなる。このため、類似単語のうち、その類似単語を含む文献における利用頻度を演算し、この利用頻度に基づいてさらに絞り込みを実施することで、より適切な類似単語を選出できる。   Like these, the frequency of use in documents, for example, the appearance frequency of words in all documents and the words with high document frequency including the words are frequently used as keywords in documents. The probability is high. For this reason, a more suitable similar word can be selected by calculating the use frequency in the literature containing the similar word among similar words, and further narrowing down based on this use frequency.

また、入力されたキーワードを入力ローマ字列に変換して説明したが、例えば文字入力支援装置として利用する構成において入力された単語に類似する単語を選出する際、単語を入力操作に応じた信号列に変換する処理に代えて、例えば入力された当初の信号列を取得し、この取得した信号列で類似度を演算して類似する単語を選出するなどしてもよい。   Moreover, although the input keyword was converted into the input Roman character string and described, for example, when selecting a word similar to the input word in the configuration used as a character input support device, the signal string corresponding to the input operation of the word Instead of the process of converting to the above, for example, the input initial signal sequence may be acquired, and similar words may be calculated by calculating the similarity using the acquired signal sequence.

そして、類似度演算手段353により、キーワードの入力ローマ字列との類似度情報を演算するための単語出現一覧テーブルにおける単語の入力ローマ字列を、あらかじめ単語出現一覧テーブルの単語情報342A1に関連付けた信号列情報を読み取らせて説明したが、例えば単語出現一覧テーブルの単語に基づいて単語変換手段352により入力ローマ字列を生成させ、この生成した入力ローマ字列を利用するなどしてもよい。このことにより、単語出現一覧テーブルの単語情報342A1に入力ローマ字列の信号列情報を記憶させておく必要がなく、サーバ記憶手段340の構成の簡略化を容易に得ることができる。   Then, a signal string in which the input Roman character string of the word in the word appearance list table for calculating the similarity information with the input Roman character string of the keyword is previously associated with the word information 342A1 of the word appearance list table by the similarity calculating means 353. Although the description has been made by reading the information, for example, an input Roman character string may be generated by the word conversion unit 352 based on the words in the word appearance list table, and the generated input Roman character string may be used. Thus, it is not necessary to store the signal string information of the input Roman character string in the word information 342A1 of the word appearance list table, and the configuration of the server storage unit 340 can be easily simplified.

また、分割信号情報生成手段353Aで分割する分割文字列としては、1字ずつずらした3文字の部分文字列、2文字の部分文字列、および1文字の単位文字列を全て分割文字列として抽出する構成に限られない。すなわち、上述したように、部分文字列の文字数は4文字以上でもよく、特に限定されるものではなく、また、1字ずつずらした3文字の部分文字列、2文字の部分文字列、または1文字の単位文字列、あるいはこれらのいずれの組み合わせが適用できる。   Further, as the divided character string to be divided by the divided signal information generating means 353A, all three character partial character strings, two character partial character strings, and one character unit character string shifted by one character are extracted as divided character strings. It is not restricted to the structure to do. That is, as described above, the number of characters in the partial character string may be four or more, and is not particularly limited. Further, the partial character string is shifted by one character, the three character partial character string, the two character partial character string, or 1 A character unit character string or any combination thereof can be applied.

さらに、キーワードおよび類似単語での文献検索の結果を一括して報知する構成としたが、この場合に限られない。例えばキーワードで文献検索し、その文献結果を端末装置200に報知する際に類似単語での文献検索を続行してよいか否かの設定を促す案内を実施させ、類似単語での文献検索の続行の設定を認識することで初めて類似単語での文献検索を実施しその結果を報知するなどしてもよい。このことにより、キーワードで十分に文献が検出されたと利用者が判断した場合には、類似単語での文献検索は不要となるので、不要な処理を省略することでの処理効率を向上でき、また文献検索の適切な対価請求を実施でき、利用の拡大が容易に図れる。また、課金処理さらには決済処理などを実施しない構成としてもよい。   Furthermore, although it was set as the structure which alert | reports the result of the literature search by a keyword and a similar word collectively, it is not restricted to this case. For example, when searching for a document by keyword and informing the terminal device 200 of the document result, guidance for prompting the user to set whether or not to continue the document search by the similar word is performed, and the document search by the similar word is continued. For example, a document search using similar words may be performed for the first time by recognizing the setting and the result may be notified. As a result, when the user determines that the documents are sufficiently detected by the keyword, the document search using similar words is unnecessary, so that the processing efficiency can be improved by omitting unnecessary processing. Appropriate charges for document retrieval can be implemented, and usage can be expanded easily. Further, it may be configured such that the charging process and the settlement process are not performed.

その他、本発明は、上述した一実施の形態および実施形態の変形のみに限ることなく、その他、本発明の目的を逸脱しない範囲で、例えばデータ構造を変更したり、データ構造の項目を設定したり、処理のための構成を変更するなど、様々な応用が可能である。   In addition, the present invention is not limited to the above-described embodiment and modifications of the embodiment, and other modifications such as changing the data structure or setting data structure items are possible without departing from the object of the present invention. Various applications are possible, such as changing the configuration for processing.

本発明は、特許や実用新案、意匠、商標などの他、商号など広義の意味の産業財産権に関わる文献情報に関連する他の文献情報を検索する構成に利用できる。また、文献情報としては、公報以外の刊行物などをも対象とすることができる。さらには、文献情報を検索する構成に限らず、ワードプロセッサなどの文字入力支援装置として誤入力された単語に類似する単語を選出、さらには置換して修正する構成にも適用できる。   INDUSTRIAL APPLICABILITY The present invention can be used in a configuration for searching for other document information related to document information related to industrial property rights in a broad sense such as a trade name in addition to patents, utility models, designs, trademarks, and the like. Further, as the literature information, publications other than the gazette can be targeted. Furthermore, the present invention is not limited to a configuration for searching for literature information, but can also be applied to a configuration in which a word similar to a word erroneously input as a character input support device such as a word processor is selected and further replaced and corrected.

本発明の一実施の形態に係る文献情報検索システムの概略構成を示す概念図である。It is a conceptual diagram which shows schematic structure of the literature information search system which concerns on one embodiment of this invention. 前記一実施の形態における端末装置の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the terminal device in the said embodiment. 前記一実施の形態におけるサーバ装置の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the server apparatus in the said one Embodiment. 前記一実施の形態における文献情報記憶領域のテーブル構造を概念的に示す模式図である。It is a schematic diagram which shows notionally the table structure of the literature information storage area in the said one Embodiment. 前記一実施の形態における単語出現一覧記憶領域のテーブル構造を概念的な単語出現一覧テーブルを示す模式図である。It is a schematic diagram which shows a conceptual word appearance list table for the table structure of the word appearance list storage area in the embodiment. 前記一実施の形態における入力されたキーワードの入力ローマ字列を分割して生成された分割文字列に関する分割信号情報を概念的に示す模式図である。It is a schematic diagram which shows notionally the division | segmentation signal information regarding the division | segmentation character string produced | generated by dividing | segmenting the input Roman character string of the input keyword in the said embodiment. 前記一実施の形態における単語出現一覧テーブルの単語の入力ローマ字列を分割して生成された分割文字列に関する分割信号情報を概念的に示す模式図である。It is a schematic diagram which shows notionally the division | segmentation signal information regarding the division | segmentation character string produced | generated by dividing | segmenting the input Roman character string of the word of the word appearance list table in the said embodiment. 前記一実施の形態における文献情報を検索する検索処理の動作を示すフローチャートである。It is a flowchart which shows the operation | movement of the search process which searches the literature information in the said embodiment.

符号の説明Explanation of symbols

100…情報検索装置としての文献情報検索システム
110…ネットワーク
220…操作手段としての端末入力手段
230…表示手段としての端末表示手段
251…入力支援手段としても機能するキーワード設定手段
254…表示制御手段としても機能する出力制御手段
341…文献記憶手段としての文献情報記憶領域
341A…文献情報
341A2…文献固有情報としての識別情報
342…単語情報記憶手段としての単語出現一覧テーブルを構成する単語出現一覧記憶領域
342A1…単語情報
350…演算手段としての類似単語検索装置であるサーバ処理手段
351…単語情報取得手段としても機能する検索要求情報取得手段
352…単語変換手段
353…類似度演算手段
353A…分割信号情報生成手段
353B…重み度情報演算手段
354…単語候補選出手段
356…検索手段

DESCRIPTION OF SYMBOLS 100 ... Bibliographic information search system as an information search device 110 ... Network 220 ... Terminal input means as operation means 230 ... Terminal display means as display means 251 ... Keyword setting means 254 which also functions as input support means 254 ... As display control means Output control means 341 that also functions as a document information storage area as a document storage means 341A ... Document information 341A2 ... Identification information as document unique information 342 ... Word appearance list storage area that constitutes a word appearance list table as word information storage means 342A1... Word information 350... Server processing means that is a similar word search device as calculation means 351... Search request information acquisition means that also functions as word information acquisition means 352... Word conversion means 353. Generation means 353B ... Weight information Information calculation means 354 ... Word candidate selection means 356 ... Search means

Claims (18)

端末装置の入力プログラムによって変換された単語に関する単語情報を取得する単語情報取得手段と、
前記取得した単語情報から、その単語に変換する前の入力ローマ字列を出力するローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を生成する信号列情報生成手段と、
この信号列情報生成手段にて生成された前記単語の入力ローマ字列と単語情報記憶手段に複数記憶された単語における前記入力操作に応じた入力ローマ字列との類似状態に関する類似度情報を演算する類似度演算手段と、
前記類似度情報に基づいて前記入力ローマ字列が類似する前記単語情報記憶手段に記憶された単語を選出する単語候補選出手段と、
を具備したことを特徴とした類似単語検索装置。
Word information acquisition means for acquiring word information related to words converted by the input program of the terminal device;
Signal string information generating means for generating an input Roman character string output for each input operation of an operation key of a Roman character input keyboard that outputs an input Roman character string before being converted into the word from the acquired word information;
Similarity for calculating similarity information on the similarity state between the input Roman character string of the word generated by the signal string information generating means and the input Roman character string according to the input operation in a plurality of words stored in the word information storage means Degree calculation means;
Word candidate selection means for selecting words stored in the word information storage means with which the input Roman character string is similar based on the similarity information;
The similar word search device characterized by comprising.
請求項1に記載の類似単語検索装置であって、
前記信号列情報生成手段は、前記端末装置から取得した単語情報から、その単語に携帯通信端末装置に設けられた入力プログラムで変換する前の前記携帯通信端末装置のローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を生成する
ことを特徴とした類似単語検索装置。
The similar word search device according to claim 1,
The signal sequence information generating means inputs from the word information acquired from the terminal device to the operation key of the Roman character input keyboard of the mobile communication terminal device before converting the word into the word by the input program provided in the mobile communication terminal device A similar word search device that generates an input Roman character string that is output for each operation.
請求項1又は請求項に記載の類似単語検索装置であって、
前記類似度演算手段は、前記単語情報記憶手段に記憶された前記単語における前記入力ローマ字列を前記信号列情報生成手段にて生成させ、この生成した入力ローマ字列との類似度情報を演算する
ことを特徴とした類似単語検索装置。
The similar word search device according to claim 1 or 2 ,
The similarity calculation means causes the signal string information generation means to generate the input Roman character string in the word stored in the word information storage means, and calculates similarity information with the generated input Roman character string. Similar word search device characterized by
請求項1又は請求項に記載の類似単語検索装置であって、
前記類似度演算手段は、前記単語情報記憶手段に記憶された前記単語に関連付けられた前記入力ローマ字列を取得し、この取得した入力ローマ字列との類似度情報を演算する
ことを特徴とした類似単語検索装置。
The similar word search device according to claim 1 or 2 ,
The similarity calculating means acquires the input Roman character string associated with the word stored in the word information storage means, and calculates similarity information with the acquired input Roman character string. Word search device.
請求項1ないし請求項のいずれかに記載の類似単語検索装置であって、
前記類似度演算手段は、前記入力ローマ字列における前記ローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列の単位信号およびこれら単位信号を組み合わせた部分信号のうちの少なくともいずれか1つを有する分割信号情報を生成する分割信号情報生成手段と、この生成された分割信号情報と前記単語情報記憶手段に記憶された前記単語における前記分割信号情報との同一性に応じた重み付けに関する重み度情報を演算する重み度情報演算手段と、を備え、
前記重み度情報に基づいて前記単語情報記憶手段に記憶された前記単語の類似状態に関する類似度情報を演算する
ことを特徴とした類似単語検索装置。
The similar word search device according to any one of claims 1 to 4 ,
The similarity calculation means, wherein at least any one of the Romanized unit signal input Romaji sequence output for each input operation of the operation keys of the input keyboard and partial signal combining these units signal in the input Romaji sequence A divided signal information generating means for generating divided signal information having a weight, and a weighting degree related to weighting according to the identity between the generated divided signal information and the divided signal information in the word stored in the word information storage means Weight degree information calculation means for calculating information,
A similarity word search device, wherein similarity information related to the similarity state of the word stored in the word information storage means is calculated based on the weight information.
請求項に記載の類似単語検索装置であって、
前記分割信号情報生成手段は、前記部分信号前記入力ローマ字列を1字分ずつずらした文字列の並びとして生成する
ことを特徴とした類似単語検索装置。
The similar word search device according to claim 5 ,
The divided signal information generating means, similar word search apparatus and generating a sequence of strings said input Roman characters string shifted by one character content of the partial signal.
請求項1ないし請求項のいずれかに記載の類似単語検索装置であって、
前記単語候補選出手段にて選出された単語を、入力操作により選択可能に表示手段に表示させる表示制御手段を具備した
ことを特徴とした類似単語検索装置。
The similar word search device according to any one of claims 1 to 6 ,
A similar word search apparatus, comprising: a display control means for causing a display means to display a word selected by the word candidate selection means so as to be selectable by an input operation.
請求項1ないし請求項のいずれかに記載の類似単語検索装置であって、
所定の入力操作により前記単語候補選出手段にて選出された単語を前記取得した単語に代える単語修正手段を具備した
ことを特徴とした類似単語検索装置。
The similar word search device according to any one of claims 1 to 7 ,
A similar word search device, comprising: a word correction unit that replaces a word selected by the word candidate selection unit by a predetermined input operation with the acquired word.
請求項1ないし請求項のいずれかに記載の類似単語検索装置であって、
前記類似度演算手段は、前記信号列情報生成手段にて生成された前記単語の入力ローマ字列と、前記単語情報記憶手段に記憶された前記単語における前記入力操作に応じた入力ローマ字列との距離に関する距離情報を前記類似度情報として演算する
ことを特徴とした類似単語検索装置。
The similar word search device according to any one of claims 1 to 8 ,
The similarity calculating means, the distance between the signal sequence information and the input Romaji sequence of the words generated by the generating means, the input Romaji sequence corresponding to the input operation in the words stored in the word information storage means The similar word search apparatus characterized by calculating the distance information regarding as said similarity information.
請求項1ないし請求項のいずれかに記載の類似単語検索装置であって、
前記単語候補選出手段は、前記選出した単語のうち、前記取得した単語との距離に関する距離情報を演算し、この演算した距離情報に基づいて前記選出した単語のいずれかを選出する
ことを特徴とした類似単語検索装置。
The similar word search device according to any one of claims 1 to 8 ,
The word candidate selection means calculates distance information related to a distance from the acquired word among the selected words, and selects any of the selected words based on the calculated distance information. Similar word search device.
請求項10に記載の類似単語検索装置であって、
前記単語候補選出手段は、前記距離情報として、前記選出した単語の入力ローマ字列と、前記取得した単語における前記入力ローマ字列との距離に関する距離情報を演算する
ことを特徴とした類似単語検索装置。
The similar word search device according to claim 10 ,
It said word candidate selection means, as the distance information, an input Romaji sequence of words and the selected, the obtained similar word search apparatus and calculates the distance information about the distance between the input Romaji sequence in the word.
請求項1ないし請求項11のいずれかに記載の類似単語検索装置であって、
前記単語候補選出手段は、前記選出する単語のうち、前記単語を含む文献に関する文献情報を複数記憶する文献記憶手段における前記選出する単語の利用頻度を演算し、この利用頻度に基づいて前記単語情報記憶手段に記憶された単語を選出する
ことを特徴とした類似単語検索装置。
The similar word search device according to any one of claims 1 to 11 ,
The word candidate selection means calculates a use frequency of the selected word in a document storage means for storing a plurality of document information related to a document including the word among the selected words, and the word information based on the use frequency A similar word search device characterized by selecting a word stored in a storage means.
請求項12に記載の類似単語検索装置であって、
前記単語候補選出手段は、前記文献記憶手段に記憶された文献情報での出現頻度、および前記選出する単語を含む文献頻度のうちの少なくともいずれか一方を利用頻度として演算する
ことを特徴とした類似単語検索装置。
The similar word search device according to claim 12 ,
The word candidate selecting means calculates at least one of the appearance frequency in the document information stored in the document storage means and the document frequency including the selected word as the usage frequency. Word search device.
請求項12又は請求項13に記載の類似単語検索装置であって、
前記単語候補選出手段は、前記単語記憶手段に記憶された単語情報に、この単語情報の単語を含む文献に対応し文献を特定する文献固有情報が関連付けられた単語出現一覧テーブルに基づいて前記利用頻度を演算する
ことを特徴とした類似単語検索装置。
The similar word search device according to claim 12 or claim 13 ,
The word candidate selection means is based on the word appearance list table in which the word information stored in the word storage means is associated with the document-specific information that identifies the document corresponding to the document including the word of the word information. A similar word search device characterized by calculating a frequency.
請求項1ないし請求項14のいずれかに記載の類似単語検索装置と、
単語を含む文献に関する文献情報を複数記憶する文献記憶手段を利用して、前記類似単語検索装置にて選出された単語を含む前記文献情報を検索する検索手段と、
を具備したことを特徴とした情報検索装置。
The similar word search device according to any one of claims 1 to 14 ,
Search means for searching the document information including the word selected by the similar word search device using a document storage means for storing a plurality of document information relating to documents including the word;
An information retrieval apparatus comprising:
コンピュータにより、取得した単語に類似する単語を選出する類似単語検索方法であって、
前記コンピュータは、
端末装置の入力プログラムによって変換された単語を取得し、この取得した単語に変換する前の入力ローマ字列を出力するローマ字入力キーボードの操作キーの入力操作毎に出力される入力ローマ字列を生成する処理をし、
この生成した単語の入力ローマ字列と単語情報記憶手段に複数記憶された単語における前記入力操作に応じた入力ローマ字列との類似状態に関する類似度情報を演算する処理をし、
この演算した類似度情報に基づいて前記入力ローマ字列が類似する前記単語情報記憶手段に記憶された単語を選出する処理をする
ことを特徴とする類似単語検索方法。
A similar word search method for selecting words similar to an acquired word by a computer,
The computer
A process of acquiring words converted by the input program of the terminal device and generating an input Roman character string output for each input operation of an operation key of the Roman character input keyboard that outputs the input Roman character string before being converted into the acquired word And
A process of calculating similarity information regarding the similarity state between the input Roman character string of the generated word and the input Roman character string according to the input operation in a plurality of words stored in the word information storage means,
A similar word search method comprising: selecting a word stored in the word information storage unit having a similar input Roman character string based on the calculated similarity information.
コンピュータを、請求項1ないし請求項14のいずれかに記載の類似単語検索装置、または請求項15に記載の情報検索装置として機能させる
ことを特徴とした類似単語検索プログラム。
A similar word search program that causes a computer to function as the similar word search device according to any one of claims 1 to 14 or the information search device according to claim 15 .
請求項16に記載の類似単語検索方法をコンピュータに実行させる
ことを特徴とした類似単語検索プログラム。
A similar word search program that causes a computer to execute the similar word search method according to claim 16 .
JP2004217628A 2004-07-26 2004-07-26 Similar word search device, method thereof, program thereof, and information search device Active JP4936650B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004217628A JP4936650B2 (en) 2004-07-26 2004-07-26 Similar word search device, method thereof, program thereof, and information search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004217628A JP4936650B2 (en) 2004-07-26 2004-07-26 Similar word search device, method thereof, program thereof, and information search device

Publications (3)

Publication Number Publication Date
JP2006039866A JP2006039866A (en) 2006-02-09
JP2006039866A5 JP2006039866A5 (en) 2007-08-09
JP4936650B2 true JP4936650B2 (en) 2012-05-23

Family

ID=35904814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004217628A Active JP4936650B2 (en) 2004-07-26 2004-07-26 Similar word search device, method thereof, program thereof, and information search device

Country Status (1)

Country Link
JP (1) JP4936650B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
JP5321777B2 (en) * 2007-12-25 2013-10-23 大日本印刷株式会社 Product search device and product search method having function of presenting reference keyword
KR100957416B1 (en) 2008-07-03 2010-05-11 엔에이치엔(주) Method and System for Providing Search Service Using Synonym
KR101049358B1 (en) * 2008-12-08 2011-07-13 엔에이치엔(주) Method and system for determining synonyms
KR101483433B1 (en) * 2013-03-28 2015-01-16 (주)이스트소프트 System and Method for Spelling Correction of Misspelled Keyword
US9934217B2 (en) 2013-07-26 2018-04-03 Facebook, Inc. Index for electronic string of symbols
WO2015040793A1 (en) * 2013-09-20 2015-03-26 三菱電機株式会社 Character string retrieval device
JP6106616B2 (en) * 2014-02-13 2017-04-05 日本電信電話株式会社 Database creation device, word search device, information terminal, word search method, program

Also Published As

Publication number Publication date
JP2006039866A (en) 2006-02-09

Similar Documents

Publication Publication Date Title
US10156981B2 (en) User-centric soft keyboard predictive technologies
US7286115B2 (en) Directional input system with automatic correction
US8914275B2 (en) Text prediction
US9588596B2 (en) Handheld electronic device with text disambiguation
US11736587B2 (en) System and method for integrating message content into a target data processing device
JP2007529069A (en) Apparatus, method and system for data entry interface
CN101436110A (en) Method and device for performing ideogram and phonography input
CN103299550A (en) Spell-check for a keyboard system with automatic correction
US20220222292A1 (en) Method and system for ideogram character analysis
JP4936650B2 (en) Similar word search device, method thereof, program thereof, and information search device
JP2010257392A (en) Device and method for inputting character, computer readable program, and recording medium
JP4511892B2 (en) Synonym search device, method thereof, program thereof, and information search device
JP4615279B2 (en) Document classification recognition apparatus, method thereof, document classification apparatus, and program thereof
JP5271526B2 (en) Trademark search system and trademark search server
CN112684910A (en) Input method candidate word display method and device and electronic equipment
JP3979288B2 (en) Document search apparatus and document search program
JP2005099938A (en) Search data structure of document information about industrial property, recording medium with search data structure recorded, and apparatus, system, method, and program for search of document information about industrial property, and recording medium with program recorded
JP6752705B2 (en) Server equipment, information processing equipment, information processing methods, and programs
US20120212514A1 (en) Apparatus, a method and a program thereof
JP2005267468A (en) Information search apparatus
CN111488062A (en) Character input device and character input method
JPH08263509A (en) Software utilization device
JPH10187748A (en) Method and device for information retrieval, and computer-readable memory
JPH11149519A (en) Character recognizing device and recording medium

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20070208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070514

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070622

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070622

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090710

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091215

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100106

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20100219

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4936650

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250