JP2005275880A - Device, method and program for converting word and phrase into data - Google Patents

Device, method and program for converting word and phrase into data Download PDF

Info

Publication number
JP2005275880A
JP2005275880A JP2004089101A JP2004089101A JP2005275880A JP 2005275880 A JP2005275880 A JP 2005275880A JP 2004089101 A JP2004089101 A JP 2004089101A JP 2004089101 A JP2004089101 A JP 2004089101A JP 2005275880 A JP2005275880 A JP 2005275880A
Authority
JP
Japan
Prior art keywords
words
word
logical
memory
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004089101A
Other languages
Japanese (ja)
Inventor
Tatsuhiko Aikawa
達彦 相川
Ichiro Nakada
一朗 中田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MUFG Bank Ltd
NTT Data Getronics Corp
Original Assignee
Getronics Japan Co Ltd
Bank of Tokyo Mitsubishi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Getronics Japan Co Ltd, Bank of Tokyo Mitsubishi Ltd filed Critical Getronics Japan Co Ltd
Priority to JP2004089101A priority Critical patent/JP2005275880A/en
Publication of JP2005275880A publication Critical patent/JP2005275880A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To reduce the load and required time for a program initialization processing, and to enhance the efficiency of the processing by accelerating the overall analyzing speed of words and phrases. <P>SOLUTION: Words and the logical indexes of fixed values assigned to those words are stored so as to be associated with each other in a basic word dictionary 14. The logical index set corresponding to the combination of words for specifying CIF codes and its CIF codes are stored so as to be associated with each other in a designation dictionary 16. Those dictionaries are memory-developed on a main memory 12, and the words of input words and phrases are converted into the logical indexes by referring to them, and whether or not the logical index set corresponding to the CIF codes is included in the elements of the arbitrary combination is decided, and the CIF codes corresponding to the included logical index set are derived. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置、方法及びプログラムに関する。   The present invention relates to an apparatus, a method, and a program for converting a lexical phrase including a plurality of words into another data including one piece of information specified by the plurality of words.

例えば、銀行等では受信する決済指図電文等について、計算機を使用して取引先顧客情報(CIF)解析処理が必要になることがある(なお、CIFは顧客情報ファイル(Customer Information File)を意味する。)。詳細には、例えば図1の参照番号30で示されるような電文中の字句「GETRONICS FOODS CO.,LTD 1−2−34 AKASAKA」の中の複数の単語「GETRONICS」、「FOODS」、「CO.,LTD」及び「AKASAKA」の組み合わせを図1の参照番号32に示される顧客コード「123−45678」に変換することが必要になる。   For example, a bank or the like may require a customer information (CIF) analysis process using a computer for a settlement instruction message received (CIF means a customer information file). .) Specifically, for example, a plurality of words “GETRONICS”, “FOODS”, “COODS” in a lexical “GETRONICS FOODs CO., LTD 1-2-34 AKASAKA” as shown by reference numeral 30 in FIG. ., LTD ”and“ AKASAKA ”need to be converted into the customer code“ 123-45678 ”indicated by reference numeral 32 in FIG.

従来は、この変換処理を次のように行っていた。即ち、顧客コードを特定する複数の単語の組み合わせとそれに対応する顧客コードとの顧客コード・テーブルを予め記憶装置に格納しておく。次いで、入力データから変換すべき複数の単語を抽出して、その抽出された複数の単語と顧客コード・テーブルの中の複数の単語とを文字列比較を行い、一致した場合顧客コードに変換していた(そのような例として、特許文献1参照。)。   Conventionally, this conversion processing is performed as follows. That is, a customer code table of a combination of a plurality of words specifying a customer code and a corresponding customer code is stored in the storage device in advance. Next, a plurality of words to be converted are extracted from the input data, and the extracted plurality of words and a plurality of words in the customer code table are subjected to character string comparison. (See Patent Document 1 for such an example.)

しかしながら、このような文字列比較は、1文字毎(1バイト単位)で行うため、とりわけ大量のデータが対象になるときには、当該処理に要する検索時間(seek time)の関係上、高速に処理を行うことができないという問題があった。   However, since such character string comparison is performed for each character (in 1-byte units), especially when a large amount of data is targeted, the processing is performed at high speed due to the search time required for the processing. There was a problem that could not be done.

このような問題を克服しようとする方式として、電文中の字句をCIFコードに変換するために用いる辞書類をメイン・メモリに上にメモリ・アドレスをシンボルとしてシンボル化することがこの特許出願より前の特許出願において提案された(特許文献2参照)。詳細には、複数の単語のそれぞれとその属性情報を関連付けて二次記憶装置に予め登録してある基本語辞書と、基本語辞書に登録されている2つの単語を組み合わせた組と、キーとして選択された当該組の中の単語と当該組により特定される記号とを関連付けて二次記憶装置に予め登録してある核名称辞書と、当該記号と当該組に含まれない別の単語と当該記号及び別の単語により特定されるCIFコードとを関連付けて二次記憶装置に予め登録してあるフル名称辞書とをメイン・メモリ上にメモリ・アドレスをシンボルとしてシンボル化する。シンボル化された基本語辞書を参照して、被変換字句に含まれる単語に対応するアドレスを取得する。そのうちの2つのアドレス(一方をキーとする)が一致する組をシンボル化された核名称辞書から見つけ、次いで、もう1つのアドレスと一致する組をシンボル化されたフル名称辞書から見つけて、被変換字句を目的のCIFコードに変換する。   As a method for overcoming such a problem, prior to this patent application, a dictionary used for converting a lexical in a message to a CIF code is symbolized as a main memory on a memory address as a symbol. (See Patent Document 2). Specifically, a basic word dictionary associated with each of a plurality of words and their attribute information and registered in the secondary storage device in advance, a combination of two words registered in the basic word dictionary, and a key The nuclear name dictionary that is pre-registered in the secondary storage device in association with the selected word in the set and the symbol specified by the set, the symbol and another word not included in the set, and the The full name dictionary registered in advance in the secondary storage device in association with the symbol and the CIF code specified by another word is symbolized on the main memory using the memory address as a symbol. By referring to the symbolized basic word dictionary, an address corresponding to the word included in the converted lexical phrase is acquired. A pair that matches two addresses (one of which is a key) is found from the symbolized nuclear name dictionary, and then a pair that matches the other address is found from the symbolized full name dictionary, The conversion token is converted into a target CIF code.

また、辞書上の単語にインデックスを付し、それをディスクの格納位置と対応付けて、アクセス時間を短縮化する方法は知られている(例えば、特許文献3参照)。
特開2002−56005号公報 特願2003−115287号特許出願 特開平7−36900号公報
In addition, a method is known in which an index is attached to a word on a dictionary and the access time is shortened by associating it with a storage position on a disk (see, for example, Patent Document 3).
JP 2002-56005 A Patent application for Japanese Patent Application No. 2003-115287 JP-A-7-36900

前述のように、特許文献2においては、各辞書を関連付けるキー(シンボル)を物理的メモリ・アドレスに直接割り当てる仕様としている。そのような仕様とした場合、コンピュータの特性として、メモリ・アドレスは動的に割り付けられてしまうために、プログラムをメモリ・ロードする度に、辞書相互間のキー関係を、取得したメモリ・アドレスに置き換え、生成する必要があり、この点でプログラム初期処理上、高負荷及び所要時間がかかる。   As described above, in Patent Document 2, a key (symbol) that associates each dictionary is directly assigned to a physical memory address. When such a specification is used, the memory address is dynamically allocated as a characteristic of the computer. Therefore, each time the program is loaded into the memory, the key relationship between the dictionaries is changed to the acquired memory address. It is necessary to replace and generate, and in this respect, high load and required time are required in the program initial processing.

従って、本発明の課題は、プログラム初期処理上の負荷及び所要時間を低減し、更に字句解析の全体的解析速度を向上させて処理の効率化を図ることにある。   Accordingly, an object of the present invention is to reduce the load and required time for initial program processing, and to improve the overall analysis speed of lexical analysis, thereby improving the processing efficiency.

上記課題は、本発明の一局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置であって、複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する論理インデックスの組を前記単語の組により特定される1つの情報と関連付けて記憶手段に予め登録してある名称辞書と、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、前記処理エンジンは、前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開し、前記名称辞書に登録されている論理インデックスの組を、各論理インデックスの組に対応する前記特定される1つの情報と関連付けて前記メモリ上にメモリ展開し、変換されるべき字句を単語に分解し、前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語に対応する論理インデックスを取得、変換し、前記のメモリ展開された論理インデックスの組の中から、前記の分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択し、当該選択された論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置により解決される。   According to one aspect of the present invention, there is provided an apparatus for converting a lexical phrase including a plurality of words into another data including one piece of information specified by the plurality of words, wherein each of the plurality of words is converted. A basic word dictionary previously registered in the storage means in association with a logical index representing each word, and a set of logical indexes corresponding to a set of words obtained by combining words registered in the basic word dictionary A process of converting a name dictionary registered in advance in storage means in association with one piece of information specified by the set of words, and a phrase containing the plurality of words into another data containing the specified piece of information An engine, and the processing engine expands the memory registered in the memory in association with the logical index representing each word, the word registered in the basic word dictionary, A set of logical indexes registered in the name dictionary is associated with the one specified information corresponding to each set of logical indexes and expanded in the memory, and a lexical word to be converted is decomposed into words. , Referring to the basic word dictionary expanded in the memory, obtaining and converting the logical index corresponding to the decomposed word, and from the set of logical indexes expanded in the memory, A logical index set that matches any logical index set composed of a plurality of logical indexes among the logical indexes corresponding to the decomposed word is selected and specified by the selected logical index set. By using one piece of information, a device that converts the lexical phrase including the plurality of words into another data including the specified one piece of information. It is solved by.

上記課題はまた、本発明の別の局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置であって、複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する論理インデックスの組を前記単語の組により特定される1つの情報と関連付けて記憶手段に予め登録してある名称辞書と、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、前記処理エンジンは、前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開し、変換されるべき字句を単語に分解し、前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語に対応する論理インデックスを取得、変換し、前記の取得された論理インデックスを含む全ての論理インデックスの組を前記名称辞書から検索し、当該検索された全ての論理インデックスの組を、各論理インデックスの組に対応する前記特定される1つの情報と関連付けて前記メモリ上にメモリ展開し、前記のメモリ展開された論理インデックスの組の中から、前記の分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択し、当該選択された論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置により解決される。   According to another aspect of the present invention, there is provided an apparatus for converting a lexical phrase including a plurality of words into another data including one piece of information specified by the plurality of words. A basic word dictionary registered in advance in the storage means in association with a logical index representing each word, and a logical index corresponding to a set of words obtained by combining words registered in the basic word dictionary A name dictionary pre-registered in storage means in association with one piece of information specified by the set of words, and a lexical word containing the plurality of words is converted into another data containing the specified information The processing engine associates a word registered in the basic word dictionary with a logical index representing each word in a memory. The word to be converted is decomposed into words, and a logical index corresponding to the decomposed word is obtained and converted by referring to the basic word dictionary expanded in the memory. A set of all the logical indexes including the logical index is searched from the name dictionary, and the set of all the searched logical indexes is associated with the specified one information corresponding to each set of the logical indexes. A set of logical indexes which are expanded on a memory and are composed of a plurality of logical indexes among the logical indexes corresponding to the decomposed words from the set of logical indexes expanded in the memory; A set of logical indexes that match the, and use one piece of information specified by the selected set of logical indexes. The is solved by a device for converting a lexical including the plurality of words into another data including one of information the identified.

本発明の装置の一態様によれば、単語を表象する前記論理インデックスが、それぞれの単語に対応する数字であることが好ましい。
本発明の装置の別の態様によれば、それぞれの単語に対応する前記数字が2進数で表現された数字であることが好ましい。
According to one aspect of the apparatus of the present invention, it is preferable that the logical index representing a word is a number corresponding to each word.
According to another aspect of the apparatus of the present invention, it is preferable that the numbers corresponding to the respective words are numbers expressed in binary numbers.

本発明の装置の更に別の態様によれば、前記基本語辞書は、単語を格納する単語欄、及び論理インデックスを格納する論理インデックス欄を少なくとも有し、前記単語欄は、単語を論理インデックスに変換するための解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを付すよう解析処理上同一の意味内容を有する表記の異なる複数の単語を格納可能に構成されており、前記処理エンジンが、前記基本語辞書に登録されている解析処理上同一の意味内容を有する表記の異なる複数の単語を、当該表記の異なる複数の単語に対して割り当てられている同一の論理インデックスと関連付けてメモリ上にメモリ展開することが好ましい。   According to still another aspect of the apparatus of the present invention, the basic word dictionary has at least a word column for storing words and a logical index column for storing logical indexes, and the word column uses words as logical indexes. It is configured to be able to store a plurality of words having different notation having the same meaning and content in the analysis process so that the same logical index is attached to a plurality of words having different notation having the same meaning and content in the analysis process for conversion. The same logical index assigned to the plurality of words having different notations having the same semantic content in the analysis process registered in the basic word dictionary by the processing engine. It is preferable to expand the memory on the memory in association with the.

更に、上記課題は、本発明の一局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する方法であって、複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書を設けるステップと、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する論理インデックスの組を前記単語の組により特定される1つの情報と関連付けて記憶手段に予め登録してある名称辞書を設けるステップと、前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、前記名称辞書に登録されている論理インデックスの組を、各論理インデックスの組に対応する前記特定される1つの情報と関連付けて前記メモリ上にメモリ展開して、メモリ展開された名称辞書を生成するステップと、変換されるべき字句を単語に分解するステップと、前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語に対応する論理インデックスを取得、変換するステップと、前記メモリ展開された名称辞書の中から、前記の分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択し、当該選択された論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを備える方法により解決される。   Further, according to one aspect of the present invention, there is provided a method for converting a lexical phrase including a plurality of words into another data including one piece of information specified by the plurality of words. Corresponding to a step of providing a basic word dictionary registered in advance in the storage means in association with a logical index representing each word, and a set of words obtained by combining words registered in the basic word dictionary Providing a name dictionary pre-registered in the storage means in association with one piece of information specified by the word set, and a word registered in the basic word dictionary for each word A step of expanding the memory on the memory in association with the logical index to be represented to generate a basic word dictionary expanded in the memory, and a theory registered in the name dictionary Associating an index set with the specified one piece of information corresponding to each logical index set and expanding the memory on the memory to generate a memory expanded name dictionary; A step of decomposing into words, a step of acquiring and converting a logical index corresponding to the decomposed words with reference to a basic word dictionary expanded in the memory, and a name dictionary expanded in the memory A logical index set that matches one of the logical index sets composed of a plurality of logical indexes among the logical indexes corresponding to the decomposed word is selected, and the selected logical index By using one piece of information specified by a set, one piece of information that specifies the lexical phrase including the plurality of words It is solved by a method comprising the steps of converting the other data, including.

更にまた、上記課題は、本発明の別の局面に従った、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する方法であって、複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書を設けるステップと、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する論理インデックスの組を前記単語の組により特定される1つの情報と関連付けて記憶手段に予め登録してある名称辞書を設けるステップと、前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、変換されるべき字句を単語に分解するステップと、前記メモリ展開された基本語辞書を参照して、前記の分解された単語に対応する論理インデックスを取得、変換するステップと、前記の取得された論理インデックスを含む全ての論理インデックスの組を前記名称辞書から検索し、当該検索された全ての論理インデックスの組を、各論理インデックスの組に対応する前記特定される1つの情報と関連付けて前記メモリ上にメモリ展開するステップと、前記のメモリ展開された論理インデックスの組の中から、前記の分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択し、当該選択された論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを備える方法により解決される。   Furthermore, the above-described problem is a method for converting a lexical phrase including a plurality of words into another data including one piece of information specified by the plurality of words, according to another aspect of the present invention. Providing a basic word dictionary pre-registered in the storage means in association with each logical word representing each word, and a set of words combining words registered in the basic word dictionary Providing a name dictionary pre-registered in the storage means in association with one piece of information specified by the set of words corresponding to a set of corresponding logical indexes; and a word registered in the basic word dictionary, A step of generating a memory-expanded basic word dictionary by associating with a logical index representing a word and expanding the memory on a memory, and a word to be converted Decomposing, referring to the memory expanded basic word dictionary, obtaining and converting a logical index corresponding to the decomposed word, and all logical indexes including the acquired logical index A set of all of the retrieved logical indexes in association with the one specified information corresponding to each set of logical indexes, and expanding the memory on the memory; A set of logical indexes that matches one of the sets of logical indexes of the logical indexes corresponding to the decomposed words from the set of logical indexes expanded in memory. And using one piece of information specified by the set of selected logical indexes Ri is solved by a method comprising the steps of converting the lexical including the plurality of words into another data including one of information the identified.

本発明の方法の一態様によれば、単語を表象する前記論理インデックスが、それぞれの単語に対応する数字であることが好ましい。
本発明の方法の別の態様によれば、それぞれの単語に対応する前記数字が2進数で表現された数字であることが好ましい。
According to one aspect of the method of the present invention, the logical index representing a word is preferably a number corresponding to each word.
According to another aspect of the method of the present invention, the numbers corresponding to the respective words are preferably numbers expressed in binary numbers.

本発明の方法の更に別の態様によれば、前記基本語辞書は、単語を格納する単語欄、及び論理インデックスを格納する論理インデックス欄を少なくとも有し、前記単語欄は、単語を論理インデックスに変換するための解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを付すよう解析処理上同一の意味内容を有する表記の異なる複数の単語を格納可能に構成されており、メモリ展開された基本語辞書を生成する前記ステップが、前記単語欄にある複数の単語を、当該複数の単語に対して割り当てられている同一の論理インデックスと関連付けて前記メモリ上にメモリ展開することが好ましい。   According to still another aspect of the method of the present invention, the basic word dictionary has at least a word field for storing words and a logical index field for storing logical indexes, and the word field has words as logical indexes. It is configured to be able to store a plurality of words having different notation having the same meaning and content in the analysis process so that the same logical index is attached to a plurality of words having different notation having the same meaning and content in the analysis process for conversion. The step of generating a memory expanded basic word dictionary expands the plurality of words in the word column on the memory in association with the same logical index assigned to the plurality of words. It is preferable.

上記課題は、本発明の更に別の局面に従った、複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する論理インデックスの組を前記単語の組により特定される1つの情報と関連付けて記憶手段に予め登録してある名称辞書とを備え、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換するコンピュータに、前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、前記名称辞書に登録されている論理インデックスの組を、各論理インデックスの組に対応する前記特定される1つの情報と関連付けて前記メモリ上にメモリ展開して、メモリ展開された名称辞書を生成するステップと、変換されるべき字句を単語に分解するステップと、前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語に対応する論理インデックスを取得、変換するステップと、前記メモリ展開された名称辞書の中から、前記の分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択し、当該選択された論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを実行させるプログラムにより解決される。   According to still another aspect of the present invention, there is provided a basic word dictionary in which each of a plurality of words is pre-registered in storage means in association with a logical index representing each word, and the basic word dictionary A name dictionary pre-registered in a storage means in association with one piece of information specified by the set of words, a set of logical indexes corresponding to a set of words obtained by combining words registered in A computer that converts a lexical word including a word into another data including one piece of information specified by the plurality of words, and associates a word registered in the basic word dictionary with a logical index representing each word A step of expanding the memory on the memory to generate a basic word dictionary expanded in the memory, and a set of logical indexes registered in the name dictionary, Expanding the memory on the memory in association with the specified information corresponding to the set of logical indexes, generating a memory expanded name dictionary, and decomposing the lexical terms to be converted into words Obtaining and converting a logical index corresponding to the decomposed word with reference to the basic word dictionary expanded in the memory on the memory; and the decomposition from the name dictionary expanded in the memory 1 is selected by selecting a set of logical indexes that matches a set of logical indexes composed of a plurality of logical indexes among the logical indexes corresponding to the selected word, and is specified by the set of selected logical indexes. By using one piece of information, the lexical phrase including the plurality of words is converted into another data including the one specified information. It is solved by a program for executing the steps.

上記課題は、本発明の別の局面に従った、複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する論理インデックスの組を前記単語の組により特定される1つの情報と関連付けて記憶手段に予め登録してある名称辞書とを備え、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換するコンピュータに、前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、変換されるべき字句を単語に分解するステップと、前記メモリ展開された基本語辞書を参照して、前記の分解された単語に対応する論理インデックスを取得、変換するステップと、前記の取得された論理インデックスを含む全ての論理インデックスの組を前記名称辞書から検索し、当該検索された全ての論理インデックスの組を、各論理インデックスの組に対応する前記特定される1つの情報と関連付けて前記メモリ上にメモリ展開するステップと、前記のメモリ展開された論理インデックスの組の中から、前記の分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択し、当該選択された論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップとを実行させるプログラムにより解決される。   According to another aspect of the present invention, there is provided a basic word dictionary in which each of a plurality of words is associated with a logical index representing each word and registered in advance in storage means, and the basic word dictionary A name dictionary pre-registered in a storage means in association with one piece of information specified by the set of words, a set of logical indexes corresponding to a set of registered words, A computer for converting a lexical word including a word into another data including one piece of information specified by the plurality of words, and associating a word registered in the basic word dictionary with a logical index representing each word Expanding a memory onto a memory to generate a memory expanded basic word dictionary; decomposing a lexical phrase to be converted into words; and Obtaining and converting a logical index corresponding to the decomposed word with reference to the obtained basic word dictionary, and searching a set of all logical indexes including the obtained logical index from the name dictionary And developing the memory-expanded logical index on the memory in association with the specified one piece of information corresponding to each logical index set, and the memory-expanded logical index A set of logical indexes that matches one of the sets of logical indexes composed of a plurality of logical indexes among the logical indexes corresponding to the decomposed word, and selected By using one piece of information specified by a set of logical indexes, a lexical including the plurality of words It is solved by a program and a step of converting the other data including one information specified.

本発明のプログラムの一態様によれば、単語を表象する前記論理インデックスが、それぞれの単語に対応する数字であることが好ましい。
本発明のプログラムの別の態様によれば、それぞれの単語に対応する前記数字が2進数で表現された数字であることが好ましい。
According to one aspect of the program of the present invention, it is preferable that the logical index representing a word is a number corresponding to each word.
According to another aspect of the program of the present invention, it is preferable that the numbers corresponding to the respective words are numbers expressed in binary numbers.

本発明のプログラムの更に別の態様によれば、前記基本語辞書は、単語を格納する単語欄、及び論理インデックスを格納する論理インデックス欄を少なくとも有し、前記単語欄は、単語を論理インデックスに変換するための解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを付すよう解析処理上同一の意味内容を有する表記の異なる複数の単語を格納可能に構成されており、メモリ展開された基本語辞書を生成する前記ステップが、前記単語欄にある複数の単語を、当該複数の単語に対して割り当てられている同一の論理インデックスと関連付けて前記メモリ上にメモリ展開することが好ましい。   According to still another aspect of the program of the present invention, the basic word dictionary has at least a word column for storing words and a logical index column for storing logical indexes, and the word column uses words as logical indexes. It is configured to be able to store a plurality of words having different notation having the same meaning and content in the analysis process so that the same logical index is attached to a plurality of words having different notation having the same meaning and content in the analysis process for conversion. The step of generating a memory expanded basic word dictionary expands the plurality of words in the word column on the memory in association with the same logical index assigned to the plurality of words. It is preferable.

本発明は、前述のような構成により、それぞれの単語を表象する論理インデックスを予め割り振って、単語と対応の論理インデックスとを関連付けて辞書に格納し、これをメモリ上にメモリ展開することにより、プログラム初期処理上メモリ・アドレスを用いる場合より負荷が軽減され、高速ロードが可能になり、初期処理時間を低減することが可能になる。   The present invention has a configuration as described above, pre-allocating a logical index representing each word, associating the word with a corresponding logical index and storing it in a dictionary, and expanding the memory on a memory, The load is reduced compared with the case of using a memory address in the program initial processing, high-speed loading becomes possible, and the initial processing time can be reduced.

本発明は、解析処理における検索の対象を文字からコードたる論理インデックスに変換し、そのコードたる論理インデックスの組み合わせによる集合論理に関する操作を施すことによって、文字を単位とする場合に比べ解析処理時間を大幅に短縮することができる。   The present invention converts the search target in the analysis processing from a character to a logical index that is a code, and performs an operation related to the collective logic by a combination of the logical indexes that are the code, thereby reducing the analysis processing time compared to the case where the character is a unit. It can be greatly shortened.

本発明は、入力された字句を論理インデックスに分解・変換し、その組み合わせが予め名称辞書に登録された正規の組み合わせに符号するかどうかの判別処理を主旨としており、背景技術に記載したような、基本語辞書から核名称辞書へ、更に核名称辞書からフル名称辞書へ展開するという段階的な辞書解析を行う処理を排除することで、前記判別処理の効率化を図り、その結果高速化を実現している。   The main purpose of the present invention is to determine whether or not the input lexical word is decomposed and converted into a logical index, and the combination is encoded in a regular combination registered in the name dictionary in advance, as described in the background art. By eliminating the step-by-step dictionary analysis process that expands from the basic word dictionary to the nuclear name dictionary and further from the nuclear name dictionary to the full name dictionary, the discrimination process is made more efficient, resulting in faster processing. Realized.

本発明の一形態においては、単語を表象する論理インデックスが、それぞれの単語に対応する定値であるので、メモリ展開された論理インデックスの組の中で、分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択する動作が、論理インデックスが他の記号の場合より高速化される。   In one aspect of the present invention, since the logical index representing a word is a constant value corresponding to each word, among the logical indexes corresponding to the decomposed word in the set of logical indexes expanded in memory, The operation of selecting a logical index set that matches any logical index set composed of a plurality of logical indexes is faster than when the logical index is other symbols.

本発明の別の形態においては、論理インデックスが、本来、文字(1文字=1バイト)から構成される単語を2進数表現の数字に変換して、これに基づいて辞書検索を行うので、メモリ負荷及びCPU負担が軽減され、処理高速化が更に図れる。   In another embodiment of the present invention, the logical index converts a word originally composed of characters (1 character = 1 byte) into a binary number, and performs a dictionary search based on this. The load and CPU burden are reduced, and the processing speed can be further increased.

また、入力された複数の単語を含む字句を単語に分割、それぞれを所定の論理インデックスに変換・抽出し、その組み合わせの要素の中に、例えばCIFコード等の特定の1つの情報に対応する論理インデックス・セットが包含されるかどうかを判別、包含されるときには当該字句をCIFコード等を導出するので、解析処理の高速化を図ることができる。   Also, a lexical word including a plurality of input words is divided into words, each is converted and extracted into a predetermined logical index, and a logic corresponding to one specific information such as a CIF code is included in an element of the combination. It is determined whether or not the index set is included. When the index set is included, the CIF code or the like is derived from the lexical phrase, so that the analysis process can be speeded up.

本発明の別の形態においては、基本語辞書の単語欄に解析処理上同一の意味内容を有する表記の異なる複数の単語を格納することができるので、基本語辞書を記憶する記憶装置のリソース上、及び基本語辞書がメモリ展開されるメモリのリソース上省資源が図れる。   In another embodiment of the present invention, a plurality of words having different notations having the same meaning and content in the analysis process can be stored in the word column of the basic word dictionary. , And memory resources where the basic word dictionary is expanded in memory can be saved.

本発明の好適な実施形態を以下図面を参照して説明する。なお、図面を通して同一又は類似の参照番号は同一又は類似の構成要素を示す。
図1は、銀行等で受信する決済指図電文等について計算機を使用して取引先顧客情報(CIF)解析処理に本発明を適用した場合の好適な実施形態に従った字句をデータに変換する装置の基本構成を示す図である。図1において、10はメイン・フレーム・コンピュータ、パーソナル・コンピュータ、マイクロプロセッサ等の任意のデータ処理装置より構成される処理エンジンを、12はメイン・メモリを、14は基本語辞書を、16は名称辞書をそれぞれ示す。基本語辞書14及び名称辞書16は、磁気ディスク等のハード・ディスク(図示せず)に格納されているが、これに限定されず、いずれの他の形式の記憶装置に格納され得る。処理エンジン10として機能するデータ処理装置と、メイン・メモリ12、及び基本語辞書14及び名称辞書16を格納するハード・ディスクとは通常のデータ・バス等(図示せず)により相互に結合されている。
Preferred embodiments of the present invention will be described below with reference to the drawings. Throughout the drawings, the same or similar reference numerals indicate the same or similar components.
FIG. 1 shows an apparatus for converting a lexical word into data according to a preferred embodiment when the present invention is applied to a customer customer information (CIF) analysis process using a computer for a settlement instruction message received at a bank or the like. It is a figure which shows the basic composition. In FIG. 1, 10 is a processing engine composed of an arbitrary data processing device such as a main frame computer, personal computer, microprocessor, 12 is a main memory, 14 is a basic word dictionary, and 16 is a name. Each dictionary is shown. The basic word dictionary 14 and the name dictionary 16 are stored in a hard disk (not shown) such as a magnetic disk, but are not limited thereto, and can be stored in any other type of storage device. The data processing device functioning as the processing engine 10 and the main memory 12, the hard disk storing the basic word dictionary 14 and the name dictionary 16 are coupled to each other by a normal data bus or the like (not shown). Yes.

図2は、基本語辞書14に事前に登録されている単語(以下、「基本語」とも言う。)をメイン・メモリ12上にメモリ展開した状態を示す。銀行等におけるCIF解析処理で扱う入力データは、通常アルファベット及びニューメリック(数字)から成り、従って、基本語辞書14に登録されている単語もアルファベット及びニューメリック(数字)から構成されている。なお、本明細書における単語あるいは基本語には、普通名詞、固有名詞、略語が含まれるのは勿論、その他、ある意味を有するいずれの一組の記号も含まれる。図2に示すように、基本語辞書14の一例は、項目として、単語、品詞、名称の属性、コードの属性、及び登録された各単語に対応する数字で表される論理インデックスを含む。この論理インデックスの数字は、CPU処理単位数を小さくするため、2進数で表現された数字であることが好ましい。本発明の基本語辞書としては基本語を登録するための単語の欄と、その単語に対応する数字の論理インデックスを格納するための論理インデックスの欄を少なくとも含めばよく、その他の項目は上記のものに限定されるものではない。論理インデックスは、基本語が基本語辞書14の単語の欄に登録されるとき、その単語に対応する数字(定値)が割り振られ、基本語辞書14の論理インデックスの欄に、登録される基本語と関連付けられて当該数字も格納、即ち登録される。基本語辞書14は、変換すべき字句に登録されていない基本語を含む場合、新たな基本語及びそれに対応する論理インデックスを登録し、また登録済みの基本語で使用しなくなった場合に当該基本語及びその対応の論理インデックスを削除できる構造であることが好ましい。   FIG. 2 shows a state where words (hereinafter, also referred to as “basic words”) registered in advance in the basic word dictionary 14 are expanded in the main memory 12. The input data handled in the CIF analysis processing in a bank or the like is usually composed of alphabets and numerics (numeric characters), and therefore the words registered in the basic word dictionary 14 are also composed of alphabets and numerics (numeric characters). Note that the word or basic word in this specification includes not only common nouns, proper nouns, and abbreviations, but also any set of symbols having a certain meaning. As shown in FIG. 2, an example of the basic word dictionary 14 includes, as items, words, parts of speech, name attributes, code attributes, and a logical index represented by numbers corresponding to each registered word. The number of the logical index is preferably a number expressed in binary to reduce the number of CPU processing units. The basic word dictionary of the present invention may include at least a word column for registering a basic word and a logical index column for storing a logical index of a number corresponding to the word. It is not limited to things. When a basic word is registered in the word column of the basic word dictionary 14, the logical index is assigned a number (fixed value) corresponding to the word, and is registered in the logical index column of the basic word dictionary 14. The number is also stored, that is, registered in association with. When the basic word dictionary 14 includes a basic word that is not registered in the lexical phrase to be converted, the basic word dictionary 14 registers a new basic word and a corresponding logical index, and when the basic word dictionary 14 is no longer used with the registered basic word, the basic word dictionary 14 The structure is preferably such that a word and its corresponding logical index can be deleted.

処理エンジン10は、変換処理を開始する前に、図2に示すように、基本語辞書14に登録されている基本語をメイン・メモリ12上にメモリ展開する。メモリ・アドレスは動的に割り付けられるので、プログラムをメモリ・ロードする度に、同じ単語が同一のメモリ・アドレスの場所に格納されるわけではなく、メモリ・アドレスが異なるのが一般的である。従って、この例では、単語の欄の基本語「AKASAKA」について、参照番号100で示されるように、プログラムが所与の時点でメモリ・ロードされたとき動的に割り付けられるメイン・メモリ12上のメモリ・アドレスとして50番が割り付けられ、その場所に「AKASAKA」に関する情報が格納される。メモリ・アドレスとは対照的に、基本語「AKASAKA」は、メイン・メモリ12上で定値の論理インデックス「#100」と関連付けられて格納されていることに注目されたい。なお、高速処理の観点からは、基本語辞書14を全てメイン・メモリ12上にメモリ展開するのが好ましいが、変換すべき字句に含まれる基本語が事前に分かっている場合には、用いられる基本語だけをメイン・メモリ12上にメモリ展開してもよく、更に、用途によっては、変換処理速度が遅くなるが、基本語辞書14に登録されている基本語の一部分をメモリ展開し、未展開の基本語が変換処理に必要になったとき追加的にメモリ展開するようにしてもよい。   The processing engine 10 expands the basic words registered in the basic word dictionary 14 in the main memory 12 as shown in FIG. 2 before starting the conversion process. Since memory addresses are dynamically allocated, the same word is not stored at the same memory address location each time a program is memory loaded, and the memory addresses are typically different. Thus, in this example, for the basic word “AKASAKA” in the word column, as indicated by reference numeral 100, on the main memory 12 that is dynamically allocated when the program is memory loaded at a given time. Number 50 is assigned as the memory address, and information relating to “AKASAKA” is stored at that location. Note that the basic word “AKASAKA” is stored in the main memory 12 in association with a fixed logical index “# 100”, in contrast to the memory address. From the viewpoint of high-speed processing, it is preferable that all the basic word dictionaries 14 are expanded in the main memory 12, but this is used when the basic words included in the lexical terms to be converted are known in advance. Only basic words may be expanded in the main memory 12, and depending on the application, the conversion processing speed may be slow, but a part of the basic words registered in the basic word dictionary 14 is expanded in the memory. When the basic word of expansion is necessary for the conversion process, the memory may be additionally expanded.

図3は、名称辞書16に事前に登録されている論理インデックス・セットをメイン・メモリ12上にメモリ展開した状態を示す。なお、図3には、図2と同様の基本語辞書14に事前に登録されている基本語をメイン・メモリ12上にメモリ展開した状態をも示す。図3に示すように、名称辞書16の項目は、論理インデックス・セット、名称、及び名称に示される単語の組み合わせにより特定される1つの情報、例えば、この銀行の応用の例ではCIFコードから成る。名称辞書16の名称の欄には、基本語辞書14に登録されている基本語のうちで、CIFコードが特定される基本語の組み合わせに含まれる基本語が事前に登録されている。一例として、単語の組み合わせ「GETRONICS FOODS CO.,LTD AKASAKA」によりCIFコード「123−45678」が、「GETRONICS SHOKUHIN OSAKA」により「101−23456」が、「GETRONICS BANK AKASAKA」により「102―34567」がそれぞれ特定されるとする。そこで、名称辞書16の第1行には「GETRONICS FOODS CO.,LTD AKASAKA」が、第2行には「GETRONICS SHOKUHIN OSAKA」が、第3行には「GETRONICS BANK AKASAKA」がそれぞれ文字列として登録されている。論理インデックス・セットの欄には、これらの組み合わされた基本語に対応する論理インデックスの組が登録されている。例えば、名称辞書16の第1行には、名称「GETRONICS FOODS CO.,LTD AKASAKA」に対応して、「#107,#106,#104,#100」が、第2行には、名称「GETRONICS SHOKUHIN OSAKA」に対応して、「#107,#112,#111」が、第3行には、名称「GETRONICS BANK AKASAKA」に対応して、「#107,#101,#100」がそれぞれ基本語辞書14の論理インデックスの組として登録されている。CIFコードの欄には、各名称に対応する固有の番号が登録される。例えば、名称辞書16の第1行には、「GETRONICS FOODS CO.,LTD AKASAKA」に対応するCIFコード「123−45678」が、第2行には、「GETRONICS SHOKUHIN OSAKA」に対応するCIFコード「101−23456」が、第3行には、「GETRONICS BANK AKASAKA」に対応するCIFコード「102−34567」がそれぞれ登録されている。なお、1つの単語の組み合わせにより一義的にCIFコードが定まる必要があるので、登録される単語の組み合わせには重複が無く、また或る単語の組み合わせを他の単語の組み合わせが含む関係を持たないように登録されている。名称辞書16は、変換すべき字句に、登録されていない基本語の組み合わせがある場合、新たな基本語を含む組み合わせを登録し、また登録済みの組み合わせで使用しなくなった場合に削除できるようにされていることが好ましい。   FIG. 3 shows a state where a logical index set registered in advance in the name dictionary 16 is expanded on the main memory 12. FIG. 3 also shows a state in which basic words registered in advance in the basic word dictionary 14 similar to FIG. 2 are expanded in the main memory 12. As shown in FIG. 3, each item in the name dictionary 16 consists of a piece of information specified by a combination of a logical index set, a name, and a word indicated in the name, for example, a CIF code in this bank application example. . Among the basic words registered in the basic word dictionary 14, basic words included in combinations of basic words for which the CIF code is specified are registered in advance in the name column of the name dictionary 16. As an example, the CIF code “123-45678” is obtained by the word combination “GETRONICS FOODS CO., LTD AKASAKA”, “101-23456” is obtained by “GETRONICS SHOKUHIN OSAKA”, and “102-34” is obtained by “GETRONICS BANK AKASAKA 56”. Assume that each is specified. Therefore, “GETRONICS FOODS CO., LTD AKASAKA” is registered in the first line of the name dictionary 16, “GETRONICS SHOKUHIN OSAKA” is registered in the second line, and “GETRONICS BANK AKASAKA” is registered in the third line. Has been. A set of logical indexes corresponding to these combined basic words is registered in the logical index set column. For example, “# 107, # 106, # 104, # 100” corresponding to the name “GETRONICS FOODS CO., LTD AKASAKA” is displayed in the first line of the name dictionary 16, and the name “ “# 107, # 112, # 111” corresponds to “GETRONICS SHOKUHIN OSAKA”, and “# 107, # 101, # 100” corresponds to the name “GETRONICS BANK AKASAKA” in the third row, respectively. It is registered as a set of logical indexes of the basic word dictionary 14. A unique number corresponding to each name is registered in the CIF code column. For example, the first line of the name dictionary 16 has a CIF code “123-45678” corresponding to “GETRONICS FOODS CO., LTD AKASAKA”, and the second line has a CIF code “123-5678” corresponding to “GETRONICS SHOKUHIN OSAKA” “101-23456” is registered in the third row, and the CIF code “102-34567” corresponding to “GETRONICS BANK AKASAKA” is registered. Since the CIF code needs to be uniquely determined by the combination of one word, there is no duplication in the registered word combination, and there is no relation that a combination of a word is included in another word combination. So that it is registered. The name dictionary 16 can be deleted when there is a combination of basic words that are not registered in the lexical phrase to be converted, and a combination that includes a new basic word is registered and can be deleted when the registered combination is no longer used. It is preferable that

処理エンジン10は、変換処理を開始する前に、名称辞書16に登録されている論理インデックス・セットとCIFコードとを関連付けて、図3の参照番号16aで示されるようにメイン・メモリ12上へメモリ展開する。   Prior to starting the conversion process, the processing engine 10 associates the logical index set registered in the name dictionary 16 with the CIF code and moves it onto the main memory 12 as indicated by reference numeral 16a in FIG. Expand memory.

次に、入力データの変換処理を図1〜図3並びに図4を参照して説明する。図4は、図1に示す変換装置に入力されたデータが変換される過程を説明するための図である。
ここで、メイン・メモリ12上には前述したように基本語辞書14、及び名称辞書16がメモリ展開されているとする。そして、図4の参照番号40で示すデータが入力されたとする。処理エンジン10は、ステップ42に示されるように入力データ40を単語に分解する。この例では、参照番号40に示されるように、入力データは、アルファベット及びニューメリック(数字)から成り、単語間はスペースにより区切られている。処理エンジン10は、入力データ40文字列に含まれるスペースを区切りに入力データ40を単語に分解する。
Next, input data conversion processing will be described with reference to FIGS. FIG. 4 is a diagram for explaining a process in which data input to the conversion device shown in FIG. 1 is converted.
Here, it is assumed that the basic word dictionary 14 and the name dictionary 16 are expanded on the main memory 12 as described above. Assume that data indicated by reference numeral 40 in FIG. 4 is input. The processing engine 10 breaks the input data 40 into words as shown in step 42. In this example, as indicated by reference numeral 40, the input data is composed of alphabets and numerics (numeric characters), and the words are separated by spaces. The processing engine 10 breaks down the input data 40 into words with a space included in the input data 40 character string as a delimiter.

次いで、処理エンジン10は、ステップ44に示されるように、分解された単語に対応する論理インデックスを、図3に示すメイン・メモリ12上にメモリ展開された基本語辞書14aを参照して取得する。この例では、図3の基本語辞書14aの中の丸で囲った基本語に対応する論理インデックスが取得される。   Next, as shown in step 44, the processing engine 10 acquires the logical index corresponding to the decomposed word with reference to the basic word dictionary 14a expanded in the memory on the main memory 12 shown in FIG. . In this example, the logical index corresponding to the basic word circled in the basic word dictionary 14a of FIG. 3 is acquired.

次いで、処理エンジン10は、ステップ46において、分解された単語のうち、論理インデックスが取得できた単語については、当該単語を、取得できた論理インデックスに変換する。なお、<1−2−34>のように基本語辞書14aにはない場合にはそのままにしておく。この例では、変換後に、「#107」、「#106」、「#104」及び「#100」という論理インデックスが得られる。   Next, in step 46, the processing engine 10 converts the word that has been obtained with the logical index out of the decomposed words into the logical index that has been obtained. If <1-234> does not exist in the basic word dictionary 14a, it is left as it is. In this example, after conversion, logical indexes “# 107”, “# 106”, “# 104”, and “# 100” are obtained.

処理エンジン10は、ステップ48において、論理インデックス「#107」、「#106」、「#104」及び「#100」のうちの任意の組が、図3に示すメモリ展開された名称辞書16aの論理インデックス・セットの中にあるか検索して、一致した場合にはその論理インデックス・セットに対応するCIFコードを取得する。この例においては、論理インデックス「#107」、「#106」、「#104」及び「#100」の組み合わせが一致し、それに対応するCIFコード「123−45678」が取得される。その結果、入力データ即ち字句の中の「GETRONICS FOODS CO.,LTD AKASAKA」が所望のデータであるCIFコード「123−45679」に変換される。   In step 48, the processing engine 10 stores an arbitrary set of logical indexes “# 107”, “# 106”, “# 104”, and “# 100” in the name dictionary 16a expanded in the memory shown in FIG. Whether the logical index set exists is searched, and if they match, the CIF code corresponding to the logical index set is obtained. In this example, the combinations of logical indexes “# 107”, “# 106”, “# 104”, and “# 100” match, and the corresponding CIF code “123-45678” is acquired. As a result, “GETRONICS FOODS CO., LTD AKASAKA” in the input data, that is, the lexical phrase is converted into CIF code “123-45679” which is the desired data.

要約すると、本発明の上記好適実施形態においては、入力された名称等の文字列を基礎となる単語に分割、それぞれを所定の論理インデックスに変換・抽出し、その組み合わせの要素の中にCIFコード等に対応するインデックス・セットが包含されるかどうかを判別し、包含されるときには当該入力名称等に対しCIFコード等を導出する。   In summary, in the preferred embodiment of the present invention, a character string such as an input name is divided into basic words, each is converted and extracted into a predetermined logical index, and the CIF code is included in the combination element. It is determined whether or not an index set corresponding to etc. is included, and when included, a CIF code or the like is derived for the input name or the like.

ここで、論理インデックスを用いる利点について説明する。前述のとおり、論理インデックスを用いることにより、本来、文字(1文字=1バイト)から構成される単語は2進数表現の数字に変換され、これに基づいて辞書検索が行われる。例えば、7文字で構成される単語「Shoyama」は、このままをメモリ展開する場合、通常7バイトを要するが、これに論理インデックス「207」を適用した場合、「207」は、2進数でビット表現すると「11001111」となり、8ビット(=1バイト)で表現が可能となる。そのため、論理インデックスは、それにより表象されるいずれの単語よりもCPU処理単位数を小さくする。このような論理インデックスを用いることにより、メモリ負荷及びCPU負担が軽減され、処理高速化が図れる。   Here, an advantage of using the logical index will be described. As described above, by using a logical index, a word originally composed of characters (1 character = 1 byte) is converted into a binary number, and a dictionary search is performed based on this. For example, the word “Shoyama” consisting of 7 characters normally requires 7 bytes to expand the memory as it is. However, when the logical index “207” is applied to this, “207” is expressed as a bit in binary. Then, “11001111” is obtained, which can be expressed by 8 bits (= 1 byte). Therefore, the logical index makes the number of CPU processing units smaller than any word represented by it. By using such a logical index, memory load and CPU load are reduced, and processing speed can be increased.

なお、図1の処理エンジン10内に記載されている処理ブロックと図4の処理ステップとは、図4のステップ42及び44が図1の単語認識ブロック20に、図4のステップ46及び48が名称認識ブロック22にそれぞれ対応する。   The processing blocks described in the processing engine 10 in FIG. 1 and the processing steps in FIG. 4 are the steps 42 and 44 in FIG. 4 in the word recognition block 20 in FIG. 1, and the steps 46 and 48 in FIG. Each corresponds to the name recognition block 22.

次に、前述した実施形態の変形例を以下に説明する。上記実施形態と同じ構成、動作の部分は説明を省き、相違する部分のみを説明する。処理エンジン10は、入力データを受け取る前に、基本語辞書14をメイン・メモリ12上にメモリ展開するが、名称辞書16について事前にメイン・メモリ12上にメモリ展開しない。   Next, modifications of the above-described embodiment will be described below. The description of the same configuration and operation as in the above embodiment will be omitted, and only the differences will be described. The processing engine 10 expands the basic word dictionary 14 on the main memory 12 before receiving the input data, but does not expand the name dictionary 16 on the main memory 12 in advance.

次いで、処理エンジン10は、入力データを受け取り、図4のステップ44及び46までの処理を行う。処理エンジン10は、次いで、入力データに含まれる単語に対応する取得された論理インデックスを含む論理インデックス・セットの全てを名称辞書16から抽出し、それらを図3の16aで示すようにメイン・メモリ12上にメモリ展開する。   Next, the processing engine 10 receives the input data and performs processing up to steps 44 and 46 in FIG. The processing engine 10 then extracts all of the logical index sets including the acquired logical index corresponding to the words contained in the input data from the name dictionary 16 and stores them in the main memory as shown at 16a in FIG. 12 expands the memory on the memory

次いで、処理エンジン10は、図4のステップ48と類似の処理を行う。詳細には、図10は、入力データに含まれる単語に対応する取得された論理インデックス「#107」、「#106」、「#104」及び「#100」のうちの任意の組が、図3に示すメモリ展開された核名称辞書16aの論理インデックス・セットの中にあるか検索して、一致した場合にはその論理インデックス・セットに対応するCIFコードとして「123−45678」が取得される。その結果、入力データ即ち字句の中の「GETRONICS FOODS CO.,LTD AKASAKA」が所望のデータであるCIFコード「123−45679」に変換される。この変形例は、変換処理速度が前の実施形態より遅くなるが、メイン・メモリ12の容量が少なくてよい。   Next, the processing engine 10 performs processing similar to step 48 in FIG. More specifically, FIG. 10 shows an arbitrary set of logical indexes “# 107”, “# 106”, “# 104”, and “# 100” corresponding to the words included in the input data. 3 is searched for in the logical index set of the nuclear name dictionary 16a expanded in memory shown in FIG. 3, and if they match, “123-45678” is acquired as the CIF code corresponding to the logical index set. . As a result, “GETRONICS FOODS CO., LTD AKASAKA” in the input data, that is, the lexical phrase is converted into CIF code “123-45679” which is the desired data. In this modification, the conversion processing speed is slower than in the previous embodiment, but the capacity of the main memory 12 may be small.

前述の好適な実施形態においては、論理インデックスを予め定値として定義し、その論理インデックスを基本語と関連付けて基本語辞書14に格納し、これをメイン・メモリ12上にメモリ展開することにより、キーを、プログラムをメモリ・ロードする度に変化し得るメモリ・アドレスに変換する処理が不要となり、また辞書相互間のキー関係を、取得したメモリ・アドレスに置き換え、生成する必要がなくなるため、プログラム初期処理上負荷が軽減され、ロード時間を高速化することができる。また、論理インデックス及び論理インデックス・セットにより構成された辞書解析により、解析処理自体の高速化の可能となる。   In the above-described preferred embodiment, a logical index is defined as a fixed value in advance, the logical index is stored in the basic word dictionary 14 in association with the basic word, and this is expanded in the memory on the main memory 12, whereby the key is Is not necessary to convert the memory address into a memory address that can change each time the program is loaded into the memory, and it is not necessary to replace the key relationship between dictionaries with the acquired memory address. The processing load is reduced, and the load time can be increased. Moreover, the analysis process itself can be speeded up by the dictionary analysis composed of logical indexes and logical index sets.

更に、前述した実施形態の別の変形例を以下に説明する。この変形例では、基本語辞書14の単語の欄の1つの行に複数の単語を格納し得るようにする。前述した実施形態では、単語を論理インデックスに変換する解析処理を行っている。この解析処理すべき単語には、表記は異なるものの解析処理上同一の意味内容を有するものがある。これらの単語には、個々に異なる論理インデックスを割り振ってもよいが、解析処理上同一の意味内容を有するので、同一の論理インデックスを割り振っても解析処理上問題は生じないし、処理効率上無駄を省くことができる。そこで、このような表記は異なるものの解析処理上同一の意味内容を有する複数の単語を基本語辞書14の単語の欄の1つの行に格納する。格納の仕方の一例としては、各単語を識別できるように、単語と単語との間にスペースを挿入すればよい。なお、本発明は、複数の単語の格納の仕方は、各単語が識別できればいずれの方法でもよい。例えば、「FOODS」と「FOOD」とは、解析処理上表記が異なるが解析処理上同一の意味内容を有する単語である。これらの単語を、図2の参照番号102に示されるように「FOODS」と「FOOD」との間にスペースを挿入して格納する。従って、「FOODS」と「FOOD」とには、同一の論理インデックス「#106」が割り振られることになる。   Furthermore, another modification of the above-described embodiment will be described below. In this modification, a plurality of words can be stored in one line of the word field of the basic word dictionary 14. In the embodiment described above, analysis processing for converting a word into a logical index is performed. Some words to be analyzed have different meanings but have the same meaning in the analysis process. Although different logical indexes may be assigned to these words individually, they have the same semantic content in the analysis process, so even if the same logical index is assigned, no problem occurs in the analysis process, and there is a waste in processing efficiency. It can be omitted. Therefore, a plurality of words having the same semantic content in the analysis processing are stored in one row of the word column of the basic word dictionary 14 although such notation is different. As an example of the storing method, a space may be inserted between words so that each word can be identified. In the present invention, any method may be used for storing a plurality of words as long as each word can be identified. For example, “FOODS” and “FOOD” are words having different meanings in the analysis process but different in notation in the analysis process. These words are stored by inserting a space between “FOODS” and “FOOD” as indicated by reference numeral 102 in FIG. Therefore, the same logical index “# 106” is allocated to “FOODS” and “FOOD”.

基本語辞書14の単語欄に2つの単語「FOODS」及び「FOOD」が格納されている場合には、それらの単語は、参照番号104に示されるように単語欄に2つの単語を含む「FOODS FOOD」の形式で、メイン・メモリ12上にメモリ展開される。そのため、メイン・メモリ12上で、単語「FOOD」も単語「FOODS」と同一の論理インデックス「#106」と関連付けされる。   When two words “FOODS” and “FOOD” are stored in the word field of the basic word dictionary 14, these words include “FOODS” including two words in the word field as indicated by reference numeral 104. The memory is expanded on the main memory 12 in the format of “FOOD”. Therefore, on the main memory 12, the word “FOOD” is also associated with the same logical index “# 106” as the word “FOODS”.

図4に示す入力データにおいて、「FOODS」の代わりに「FOOD」が入力された場合も、前述した実施形態と同様の動作により、「FOOD」は論理インデックス「#106」に変換され、図4のステップ46及び48における動作と同じ動作により、「GETRONICS FOOD CO.,LTD AKASAKA」は、「123−45678」に変換される。   In the input data shown in FIG. 4, when “FOOD” is input instead of “FOODS”, “FOOD” is converted into the logical index “# 106” by the same operation as the above-described embodiment, and FIG. “GETRONICS FOOD CO., LTD AKASAKA” is converted to “123-45678” by the same operation as in steps 46 and 48 of FIG.

図5は、前述した解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを割り振る発明の理解を容易にするための概要を示す図である。参照番号110は、基本語辞書14における単語と論理インデックスとの対応関係を示し、単語「Syoyama」は単語「Shoyama」と、そして単語「&」は単語「and」とそれぞれ表記が異なるが解析処理上同一の意味内容を有するので、単語「Syoyama」には単語「Shoyama」と同じ論理インデックス「#207」が、また単語「&」には単語「and」と同じ論理インデックス「#206」が割り振られている。参照番号112は、名称辞書16における論理インデックス・セットとCIFコードとの対応関係を示す。入力1に示されるような字句が入力された場合、分割1に示されるように単語に分割され、分割された各単語に対して参照番号110に示す単語−論理インデックスの対応関係を参照する、即ち辞書を適用すると、辞書適用に示される論理インデックスに変換される。一方、入力2に示されるような字句が入力された場合、分割2に示されるように単語に分割され、分割された各単語に対して参照番号110に示す単語と論理インデックスとの対応関係を参照する、即ち辞書を適用すると、辞書適用に示されるように入力1の場合と同じ論理インデックスに変換される。入力1及び入力2は同じ論理インデックスの組に変換されるので、CIF解析において、参照番号112に示される論理インデックス・セットとCIFコードとの対応関係を参照すると、入力1も入力2も同じCIFコードに変換される。   FIG. 5 is a diagram showing an overview for facilitating the understanding of the invention in which the same logical index is assigned to a plurality of differently expressed words having the same meaning and content in the analysis processing described above. Reference numeral 110 indicates a correspondence relationship between the words and the logical index in the basic word dictionary 14, the word “Syoyama” is different from the word “Shoyama”, and the word “&” is different from the word “and”, but is analyzed. Since the word “Syoyama” is assigned the same logical index “# 207” as the word “Shoyama”, the word “&” is assigned the same logical index “# 206” as the word “and”. It is. Reference numeral 112 indicates the correspondence between the logical index set in the name dictionary 16 and the CIF code. When a lexical word as shown in input 1 is inputted, it is divided into words as shown in division 1, and the word-logical index correspondence relationship indicated by reference number 110 is referred to for each divided word. That is, when a dictionary is applied, it is converted into a logical index shown in dictionary application. On the other hand, when a lexical word as shown in input 2 is input, it is divided into words as shown in division 2, and the correspondence between the word indicated by reference number 110 and the logical index is assigned to each divided word. When referring, that is, applying a dictionary, it is converted to the same logical index as input 1 as shown in Dictionary application. Since the input 1 and the input 2 are converted into the same set of logical indexes, when the correspondence between the logical index set indicated by reference numeral 112 and the CIF code is referred to in the CIF analysis, both the input 1 and the input 2 have the same CIF. Converted to code.

解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを割り振る上記の実施形態では、それら複数の単語には解析処理上同一の意味内容を有するので同一の論理インデックスを割り振り、基本語辞書14の単語欄にそれら複数の単語を同一の論理インデックスと関連付けて格納することにより、メイン・メモリ及びハード・ディスク等の記憶装置のリソースが省資源となり、また処理効率が向上する。   In the above embodiment in which the same logical index is assigned to a plurality of words having the same meaning and content in the analysis process, the same logical index is assigned to the plurality of words because they have the same meaning and content in the analysis process. By storing the plurality of words in the word column of the basic word dictionary 14 in association with the same logical index, the resources of the storage device such as the main memory and the hard disk are saved, and the processing efficiency is improved. .

図1は、銀行等で受信する決済指図電文等について計算機を使用してCIF解析処理に本発明を適用した場合の好適な実施形態に従った字句をデータに変換する装置の基本構成を示す図である。FIG. 1 is a diagram showing a basic configuration of an apparatus for converting a lexical word into data according to a preferred embodiment when the present invention is applied to a CIF analysis process using a computer for a settlement instruction message received at a bank or the like. It is. 図2は、基本語辞書14に事前に登録されている基本語をメイン・メモリ12上にメモリ展開した状態を示す。FIG. 2 shows a state in which basic words registered in advance in the basic word dictionary 14 are expanded in the main memory 12. 図3は、名称辞書16に事前に登録されている論理インデックス・セットをメイン・メモリ12上にメモリ展開した状態を示す。FIG. 3 shows a state where a logical index set registered in advance in the name dictionary 16 is expanded on the main memory 12. 図4は、図1に示す変換装置に入力されたデータが変換される過程を説明するための図である。FIG. 4 is a diagram for explaining a process in which data input to the conversion device shown in FIG. 1 is converted. 図5は、解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを割り振る発明の理解を容易にするための概要を示す図である。FIG. 5 is a diagram showing an overview for facilitating understanding of the invention in which the same logical index is assigned to a plurality of differently expressed words having the same meaning and content in the analysis process.

符号の説明Explanation of symbols

10 処理エンジン
12 メイン・メモリ
14 基本語辞書
16 名称辞書
10 Processing Engine 12 Main Memory 14 Basic Language Dictionary 16 Name Dictionary

Claims (15)

複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置であって、
複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、
前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する論理インデックスの組を前記単語の組により特定される1つの情報と関連付けて記憶手段に予め登録してある名称辞書と、
前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、
前記処理エンジンは、
前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開し、
前記名称辞書に登録されている論理インデックスの組を、各論理インデックスの組に対応する前記特定される1つの情報と関連付けて前記メモリ上にメモリ展開し、
変換されるべき字句を単語に分解し、
前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語に対応する論理インデックスを取得、変換し、
前記のメモリ展開された論理インデックスの組の中から、前記の分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択し、当該選択された論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置。
An apparatus for converting a lexical word including a plurality of words into another data including one piece of information specified by the plurality of words,
A basic word dictionary pre-registered in the storage means in association with each of a plurality of words and a logical index representing each word;
A name dictionary pre-registered in storage means in association with one piece of information specified by the set of words, a set of logical indexes corresponding to a set of words obtained by combining words registered in the basic word dictionary ,
A processing engine for converting a lexical phrase including the plurality of words into another data including the specified one piece of information,
The processing engine is
The words registered in the basic word dictionary are associated with a logical index representing each word and expanded in memory.
A set of logical indexes registered in the name dictionary is associated with the specified one information corresponding to each set of logical indexes and expanded in the memory;
Break the lexical word to be converted into words,
Referencing a basic word dictionary expanded in memory on the memory, obtaining and converting a logical index corresponding to the decomposed word,
A set of logical indexes that matches one of the sets of logical indexes of the logical indexes corresponding to the decomposed words from the set of logical indexes expanded in memory. And converting a lexical phrase including the plurality of words into another data including the specified information by using one information specified by the selected set of logical indexes.
複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する装置であって、
複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、
前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する論理インデックスの組を前記単語の組により特定される1つの情報と関連付けて記憶手段に予め登録してある名称辞書と、
前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する処理エンジンとを備え、
前記処理エンジンは、
前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開し、
変換されるべき字句を単語に分解し、
前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語に対応する論理インデックスを取得、変換し、
前記の取得された論理インデックスを含む全ての論理インデックスの組を前記名称辞書から検索し、当該検索された全ての論理インデックスの組を、各論理インデックスの組に対応する前記特定される1つの情報と関連付けて前記メモリ上にメモリ展開し、
前記のメモリ展開された論理インデックスの組の中から、前記の分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択し、当該選択された論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換する装置。
An apparatus for converting a lexical word including a plurality of words into another data including one piece of information specified by the plurality of words,
A basic word dictionary pre-registered in the storage means in association with each of a plurality of words and a logical index representing each word;
A name dictionary pre-registered in storage means in association with one piece of information specified by the set of words, a set of logical indexes corresponding to a set of words obtained by combining words registered in the basic word dictionary ,
A processing engine for converting a lexical phrase including the plurality of words into another data including the specified one piece of information,
The processing engine is
The words registered in the basic word dictionary are associated with a logical index representing each word and expanded in memory.
Break the lexical word to be converted into words,
Referencing a basic word dictionary expanded in memory on the memory, obtaining and converting a logical index corresponding to the decomposed word,
A set of all logical indexes including the acquired logical index is searched from the name dictionary, and the specified one piece of information corresponding to each set of logical indexes is searched for the set of all searched logical indexes. And expand the memory on the memory in association with
A set of logical indexes that matches one of the sets of logical indexes of the logical indexes corresponding to the decomposed words from the set of logical indexes expanded in memory. And converting a lexical phrase including the plurality of words into another data including the specified information by using one information specified by the selected set of logical indexes.
単語を表象する前記論理インデックスが、それぞれの単語に対応する数字である請求項1又は2記載の装置。   The apparatus according to claim 1 or 2, wherein the logical index representing a word is a number corresponding to each word. それぞれの単語に対応する前記数字が2進数で表現された数字である請求項3記載の装置。   The apparatus according to claim 3, wherein the number corresponding to each word is a number expressed in a binary number. 前記基本語辞書は、単語を格納する単語欄、及び論理インデックスを格納する論理インデックス欄を少なくとも有し、
前記単語欄は、単語を論理インデックスに変換するための解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを付すよう解析処理上同一の意味内容を有する表記の異なる複数の単語を格納可能に構成されており、
前記処理エンジンが、前記基本語辞書に登録されている解析処理上同一の意味内容を有する表記の異なる複数の単語を、当該表記の異なる複数の単語に対して割り当てられている同一の論理インデックスと関連付けてメモリ上にメモリ展開する
請求項1から4のいずれか一項に記載の装置。
The basic word dictionary has at least a word column for storing words and a logical index column for storing logical indexes,
The word column includes a plurality of different notations having the same semantic content in the analysis process so as to attach the same logical index to a plurality of different notations having the same semantic content in the analysis process for converting the word into a logical index. Is configured to be able to store
A plurality of words having different notations having the same semantic content in the analysis process registered in the basic word dictionary, and the same logical index assigned to the plurality of words having different notations; The apparatus according to any one of claims 1 to 4, wherein the memory is expanded on the memory in association with each other.
複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する方法であって、
複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書を設けるステップと、
前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する論理インデックスの組を前記単語の組により特定される1つの情報と関連付けて記憶手段に予め登録してある名称辞書を設けるステップと、
前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、
前記名称辞書に登録されている論理インデックスの組を、各論理インデックスの組に対応する前記特定される1つの情報と関連付けて前記メモリ上にメモリ展開して、メモリ展開された名称辞書を生成するステップと、
変換されるべき字句を単語に分解するステップと、
前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語に対応する論理インデックスを取得、変換するステップと、
前記メモリ展開された名称辞書の中から、前記の分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択し、当該選択された論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
を備える方法。
A method of converting a lexical word including a plurality of words into another data including one piece of information specified by the plurality of words,
Providing a basic word dictionary pre-registered in the storage means in association with each of a plurality of words and a logical index representing each word;
A name dictionary registered in advance in storage means in association with one piece of information specified by the set of words, a set of logical indexes corresponding to a set of words obtained by combining words registered in the basic word dictionary Providing steps;
Associating words registered in the basic word dictionary with a logical index representing each word in a memory to generate a basic word dictionary expanded in memory; and
A set of logical indexes registered in the name dictionary is associated with the specified one piece of information corresponding to each set of logical indexes and expanded in the memory to generate a name dictionary expanded in memory. Steps,
Breaking the lexical terms to be converted into words;
Obtaining and converting a logical index corresponding to the decomposed word with reference to a basic word dictionary expanded in the memory;
From the memory expanded name dictionary, a logical index set that matches any logical index set composed of a plurality of logical indexes among the logical indexes corresponding to the decomposed words is selected. And converting one lexical word including the plurality of words into another data including the one specified information by using one information specified by the selected set of logical indexes.
複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換する方法であって、
複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書を設けるステップと、
前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する論理インデックスの組を前記単語の組により特定される1つの情報と関連付けて記憶手段に予め登録してある名称辞書を設けるステップと、
前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、
変換されるべき字句を単語に分解するステップと、
前記メモリ展開された基本語辞書を参照して、前記の分解された単語に対応する論理インデックスを取得、変換するステップと、
前記の取得された論理インデックスを含む全ての論理インデックスの組を前記名称辞書から検索し、当該検索された全ての論理インデックスの組を、各論理インデックスの組に対応する前記特定される1つの情報と関連付けて前記メモリ上にメモリ展開するステップと、
前記のメモリ展開された論理インデックスの組の中から、前記の分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択し、当該選択された論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
を備える方法。
A method of converting a lexical word including a plurality of words into another data including one piece of information specified by the plurality of words,
Providing a basic word dictionary pre-registered in the storage means in association with each of a plurality of words and a logical index representing each word;
A name dictionary registered in advance in storage means in association with one piece of information specified by the set of words, a set of logical indexes corresponding to a set of words obtained by combining words registered in the basic word dictionary Providing steps;
Associating words registered in the basic word dictionary with a logical index representing each word in a memory to generate a basic word dictionary expanded in memory; and
Breaking the lexical terms to be converted into words;
Obtaining and converting a logical index corresponding to the decomposed word by referring to the memory expanded basic word dictionary;
A set of all logical indexes including the acquired logical index is searched from the name dictionary, and the specified one piece of information corresponding to each set of logical indexes is searched for the set of all searched logical indexes. Expanding the memory on the memory in association with
A set of logical indexes that matches one of the sets of logical indexes of the logical indexes corresponding to the decomposed words from the set of logical indexes expanded in memory. And converting the lexical phrase including the plurality of words into another data including the specified one information by using one information specified by the selected set of logical indexes. How to prepare.
単語を表象する前記論理インデックスが、それぞれの単語に対応する数字である請求項6又は7記載の方法。   The method according to claim 6 or 7, wherein the logical index representing a word is a number corresponding to each word. それぞれの単語に対応する前記数字が2進数で表現された数字である請求項8記載の方法。   The method according to claim 8, wherein the number corresponding to each word is a number expressed in a binary number. 前記基本語辞書は、単語を格納する単語欄、及び論理インデックスを格納する論理インデックス欄を少なくとも有し、
前記単語欄は、単語を論理インデックスに変換するための解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを付すよう解析処理上同一の意味内容を有する表記の異なる複数の単語を格納可能に構成されており、
メモリ展開された基本語辞書を生成する前記ステップが、前記単語欄にある複数の単語を、当該複数の単語に対して割り当てられている同一の論理インデックスと関連付けて前記メモリ上にメモリ展開する
請求項6から9のいずれか一項に記載の方法。
The basic word dictionary has at least a word column for storing words and a logical index column for storing logical indexes,
The word column includes a plurality of different notations having the same semantic content in the analysis process so as to attach the same logical index to a plurality of different notations having the same semantic content in the analysis process for converting the word into a logical index. Is configured to be able to store
The step of generating a basic word dictionary expanded in memory expands the plurality of words in the word column in the memory in association with the same logical index assigned to the plurality of words. Item 10. The method according to any one of Items 6 to 9.
複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する論理インデックスの組を前記単語の組により特定される1つの情報と関連付けて記憶手段に予め登録してある名称辞書とを備え、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換するコンピュータに、
前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、
前記名称辞書に登録されている論理インデックスの組を、各論理インデックスの組に対応する前記特定される1つの情報と関連付けて前記メモリ上にメモリ展開して、メモリ展開された名称辞書を生成するステップと、
変換されるべき字句を単語に分解するステップと、
前記メモリ上にメモリ展開された基本語辞書を参照して、前記の分解された単語に対応する論理インデックスを取得、変換するステップと、
前記メモリ展開された名称辞書の中から、前記の分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択し、当該選択された論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
を実行させるプログラム。
Corresponding to a basic word dictionary that is pre-registered in the storage means in association with a logical index that represents each word, and a set of words that combine words registered in the basic word dictionary And a name dictionary registered in advance in the storage means in association with one piece of information specified by the set of words, and a phrase containing a plurality of words is specified by the plurality of words. To a computer that converts it to another data containing one piece of information,
Associating words registered in the basic word dictionary with a logical index representing each word in a memory to generate a basic word dictionary expanded in memory; and
A set of logical indexes registered in the name dictionary is associated with the specified one piece of information corresponding to each set of logical indexes and expanded in the memory to generate a name dictionary expanded in memory. Steps,
Breaking the lexical terms to be converted into words;
Obtaining and converting a logical index corresponding to the decomposed word with reference to a basic word dictionary expanded in the memory;
From the memory expanded name dictionary, a logical index set that matches any logical index set composed of a plurality of logical indexes among the logical indexes corresponding to the decomposed words is selected. And a step of converting a lexical phrase including the plurality of words into another data including the specified information by using one information specified by the selected set of logical indexes. .
複数の単語のそれぞれを、それぞれの単語を表象する論理インデックスと関連付けて記憶手段に予め登録してある基本語辞書と、前記基本語辞書に登録されている単語同士を組み合わせた単語の組に対応する論理インデックスの組を前記単語の組により特定される1つの情報と関連付けて記憶手段に予め登録してある名称辞書とを備え、複数の単語を含む字句を当該複数の単語により特定される1つの情報を含む別のデータに変換するコンピュータに、
前記基本語辞書に登録されている単語を、それぞれの単語を表象する論理インデックスと関連付けてメモリ上にメモリ展開して、メモリ展開された基本語辞書を生成するステップと、
変換されるべき字句を単語に分解するステップと、
前記メモリ展開された基本語辞書を参照して、前記の分解された単語に対応する論理インデックスを取得、変換するステップと、
前記の取得された論理インデックスを含む全ての論理インデックスの組を前記名称辞書から検索し、当該検索された全ての論理インデックスの組を、各論理インデックスの組に対応する前記特定される1つの情報と関連付けて前記メモリ上にメモリ展開するステップと、
前記のメモリ展開された論理インデックスの組の中から、前記の分解された単語に対応する論理インデックスのうちの複数の論理インデックスから構成されるいずれかの論理インデックスの組と一致する論理インデックスの組を選択し、当該選択された論理インデックスの組により特定される1つの情報を用いることにより、前記複数の単語を含む字句を前記特定される1つの情報を含む別のデータに変換するステップと
を実行させるプログラム。
Corresponding to a basic word dictionary that is pre-registered in the storage means in association with a logical index that represents each word, and a set of words that combine words registered in the basic word dictionary And a name dictionary registered in advance in the storage means in association with one piece of information specified by the set of words, and a phrase containing a plurality of words is specified by the plurality of words. To a computer that converts it to another data containing one piece of information,
Associating words registered in the basic word dictionary with a logical index representing each word in a memory to generate a basic word dictionary expanded in memory; and
Breaking the lexical terms to be converted into words;
Obtaining and converting a logical index corresponding to the decomposed word with reference to the memory expanded basic word dictionary;
A set of all logical indexes including the acquired logical index is searched from the name dictionary, and the specified one piece of information corresponding to each set of logical indexes is searched for the set of all searched logical indexes. Expanding the memory on the memory in association with
A set of logical indexes that matches one of the sets of logical indexes of the logical indexes corresponding to the decomposed words from the set of logical indexes expanded in memory. And converting the lexical phrase including the plurality of words into another data including the specified one information by using one information specified by the selected set of logical indexes. The program to be executed.
単語を表象する前記論理インデックスが、それぞれの単語に対応する数字である請求項11又は12記載のプログラム。   The program according to claim 11 or 12, wherein the logical index representing a word is a number corresponding to each word. それぞれの単語に対応する前記数字が2進数で表現された数字である請求項13記載のプログラム。   The program according to claim 13, wherein the numbers corresponding to the respective words are numbers expressed in binary numbers. 前記基本語辞書は、単語を格納する単語欄、及び論理インデックスを格納する論理インデックス欄を少なくとも有し、
前記単語欄は、単語を論理インデックスに変換するための解析処理上同一の意味内容を有する表記の異なる複数の単語に同一の論理インデックスを付すよう解析処理上同一の意味内容を有する表記の異なる複数の単語を格納可能に構成されており、
メモリ展開された基本語辞書を生成する前記ステップが、前記単語欄にある複数の単語を、当該複数の単語に対して割り当てられている同一の論理インデックスと関連付けて前記メモリ上にメモリ展開する
請求項11から14のいずれか一項に記載のプログラム。
The basic word dictionary has at least a word column for storing words and a logical index column for storing logical indexes,
The word column includes a plurality of different notations having the same semantic content in the analysis process so as to attach the same logical index to a plurality of different notations having the same semantic content in the analysis process for converting the word into a logical index. Is configured to be able to store
The step of generating a basic word dictionary expanded in memory expands the plurality of words in the word column in the memory in association with the same logical index assigned to the plurality of words. Item 15. The program according to any one of Items 11 to 14.
JP2004089101A 2004-03-25 2004-03-25 Device, method and program for converting word and phrase into data Pending JP2005275880A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004089101A JP2005275880A (en) 2004-03-25 2004-03-25 Device, method and program for converting word and phrase into data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004089101A JP2005275880A (en) 2004-03-25 2004-03-25 Device, method and program for converting word and phrase into data

Publications (1)

Publication Number Publication Date
JP2005275880A true JP2005275880A (en) 2005-10-06

Family

ID=35175484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004089101A Pending JP2005275880A (en) 2004-03-25 2004-03-25 Device, method and program for converting word and phrase into data

Country Status (1)

Country Link
JP (1) JP2005275880A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159699A (en) * 2018-03-12 2019-09-19 富士通株式会社 Generation program, generation method, information processor and information processing system
JP2020173646A (en) * 2019-04-11 2020-10-22 株式会社三菱Ufj銀行 Information processor and customer information analysis method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159699A (en) * 2018-03-12 2019-09-19 富士通株式会社 Generation program, generation method, information processor and information processing system
JP7013957B2 (en) 2018-03-12 2022-02-01 富士通株式会社 Generation program, generation method, information processing device and information processing system
JP2020173646A (en) * 2019-04-11 2020-10-22 株式会社三菱Ufj銀行 Information processor and customer information analysis method
JP7260380B2 (en) 2019-04-11 2023-04-18 株式会社三菱Ufj銀行 Information processing device and customer information analysis method

Similar Documents

Publication Publication Date Title
KR101265263B1 (en) Method and system for name matching using phonetic sign and computer readable medium recording the method
US8190613B2 (en) System, method and program for creating index for database
US20020184251A1 (en) Efficient collation element structure for handling large numbers of characters
US20180143954A1 (en) Non-transitory computer-readable storage medium, encoding apparatus, and encoding method
JP6447161B2 (en) Semantic structure search program, semantic structure search apparatus, and semantic structure search method
JP2006301446A (en) Reading generation device and method, and computer program
JP6805720B2 (en) Data search program, data search device and data search method
US20130179147A1 (en) Methods and systems for tokenizing multilingual textual documents
US6470362B1 (en) Extracting ordered list of words from documents comprising text and code fragments, without interpreting the code fragments
JP6737117B2 (en) Encoded data search program, encoded data search method, and encoded data search device
JP6787755B2 (en) Document search device
US6469643B1 (en) Information processing system
JP2005275880A (en) Device, method and program for converting word and phrase into data
JP4061283B2 (en) Apparatus, method and program for converting lexical data to data
US7130470B1 (en) System and method of context-based sorting of character strings for use in data base applications
JP2018163505A (en) Searching program, information processing device, and searching method
JP4139805B2 (en) Apparatus, method and program for converting lexical data to data
JP2002007104A (en) Character data compressing and displaying device
JP4845921B2 (en) Machine translation apparatus, machine translation program, and machine translation method
JP2001357031A (en) Method and system for converting unicode text into mixed code page
JP2007102540A (en) Character string conversion device and character string conversion program
JP2004334690A (en) Character data inputting/outputting device and method, character data inputting/outputting program, and computer-readable recording medium
JP4303027B2 (en) Apparatus and method for converting lexical data to data
JP2009093405A (en) System, method and computer program for data retrieval
JP4051369B2 (en) Apparatus, method and program for converting lexical data to data

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070611

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070806

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070720

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070829

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070829

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071225

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080206

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080229