JP3452353B2 - Recording medium recording dictionary data structure, dictionary lookup method, phrase acquisition method, dictionary lookup apparatus, phrase acquisition apparatus, recording medium recording program - Google Patents

Recording medium recording dictionary data structure, dictionary lookup method, phrase acquisition method, dictionary lookup apparatus, phrase acquisition apparatus, recording medium recording program

Info

Publication number
JP3452353B2
JP3452353B2 JP2000202127A JP2000202127A JP3452353B2 JP 3452353 B2 JP3452353 B2 JP 3452353B2 JP 2000202127 A JP2000202127 A JP 2000202127A JP 2000202127 A JP2000202127 A JP 2000202127A JP 3452353 B2 JP3452353 B2 JP 3452353B2
Authority
JP
Japan
Prior art keywords
node
information data
dictionary
character
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000202127A
Other languages
Japanese (ja)
Other versions
JP2002024233A (en
Inventor
由嘉里 金田
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2000202127A priority Critical patent/JP3452353B2/en
Publication of JP2002024233A publication Critical patent/JP2002024233A/en
Application granted granted Critical
Publication of JP3452353B2 publication Critical patent/JP3452353B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、暗号化された辞書
とこれを用いた高速な辞書引きとを実現するのに好適
な、辞書データ構造を記録した記録媒体、辞書引き方
法、語句取得方法、辞書引き装置、語句取得装置、なら
びに、プログラムを記録した記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a recording medium recording a dictionary data structure, a dictionary lookup method, and a word acquisition method suitable for realizing an encrypted dictionary and a high-speed dictionary lookup using the encrypted dictionary. The present invention relates to a dictionary lookup device, a phrase acquisition device, and a recording medium recording a program.

【0002】[0002]

【従来の技術】従来から、ワードプロセッサなどで用い
られる日本語仮名漢字変換では、文字の並びが辞書に登
録されているか否かを高速に判断するため、辞書をトラ
イ(trie)構造のデータとして記録媒体に記録する手法
が提案されている。図1は、かな漢字変換用辞書の一部
を実現するトライ構造の概要を示す模式図である。
2. Description of the Related Art Conventionally, in Japanese Kana-Kanji conversion used in a word processor or the like, a dictionary is recorded as data of a trie structure in order to quickly determine whether or not a character sequence is registered in the dictionary. A method of recording on a medium has been proposed. FIG. 1 is a schematic diagram showing an outline of a trie structure that realizes a part of a kana-kanji conversion dictionary.

【0003】本図に示すように、このトライ構造では、 ・読み「わ」に対して綴り「和」「話」等が、 ・読み「わた」に対して綴り「綿」「わた」等が、 ・読み「わたくし」に対して綴り「私」等が、 ・読み「わたし」に対して綴り「私」「渡し」「わた
し」等が、 それぞれ記録されている。
As shown in the figure, in this trie structure, the spelling "wa" and "story" are read for the reading "wa", and the spelling "cotton""wata" and the like for the reading "wata". , ・ The spelling "I" etc. is recorded for the reading "Watakushi", and the spelling "I""passing""I" etc. is recorded for the reading "I".

【0004】本図に示すように、トライ構造は一般に木
構造で表され、開始ノード101から順に、調べたい仮
名文字列中の文字102が割り当てられた矢印103に
沿ってノード104を移動する。また、図中の終了文字
(#)105は、そこまでの読みで登録された綴りデー
タ106があることを示す。
As shown in the figure, the trie structure is generally represented by a tree structure, and the node 104 is moved in order from the start node 101 along the arrow 103 to which the character 102 in the kana character string to be examined is assigned. Further, the end character (#) 105 in the figure indicates that there is the spelling data 106 registered by reading up to that point.

【0005】一方、ワードプロセッサにおいても、文章
の校正や要約、検索などの必要性から、形態素解析を行
うことも多い。形態素解析では、綴りを分割して、それ
ぞれの読みなどの単語情報を得ることを目的とする。形
態素解析においても、やはりトライ構造の辞書が用いら
れる。
On the other hand, even in a word processor, morphological analysis is often performed because of the necessity of proofreading, summarizing, searching, etc. of sentences. The purpose of morphological analysis is to divide spelling and obtain word information such as readings. In morphological analysis, a trie structure dictionary is also used.

【0006】図2は、形態素解析用辞書の一部を実現す
るトライ構造の概要を示す模式図である。なお、本図に
おいて、上述の図と同様の機能を果たす要素には、同じ
符号を付してある。
FIG. 2 is a schematic diagram showing an outline of a trie structure for realizing a part of the morphological analysis dictionary. Note that, in this figure, elements having the same functions as those in the above-mentioned figures are denoted by the same reference numerals.

【0007】本図に示すように、このトライ構造では、 ・綴り「私」に対して読み「わたし」「わたくし」
「し」などの形態素情報が、 ・綴り「私用」に対して読み「しよう」などの形態素情
報が、 ・綴り「わた」に対して読み「わた」などの形態素情報
が、 ・綴り「わたくし」に対して読み「わたくし」などの形
態素情報が、 ・綴り「わたし」に対して読み「わたし」などの形態素
情報が、 それぞれ記録されている。
As shown in the figure, in this trie structure, the spelling "I" is read for "I""Wakushi"
Morphological information such as "shi" is read for spelling "private" Morphological information such as "Let's" is read for spelling "wata" Morphological information such as "wata" is spelled "watakushi" Morphological information such as reading "Watakushi" is recorded for the spelling "I", and morphological information such as reading "I" is recorded for the spelling "I".

【0008】開始ノード101、文字102、矢印10
3、ノード104、終了文字(#)105を用いてトラ
イ構造が実現されているのは、上述の図に示すものと同
様であるが、綴りデータ106のかわりに読みデータ1
07が記録されている。
Start node 101, character 102, arrow 10
The trie structure is realized by using the node No. 3, the node 104, and the end character (#) 105 as in the case of the above-described figure, but the reading data 1 is used instead of the spelling data 106.
07 is recorded.

【0009】さらに、これらの辞書を1つのトライ構造
に融合することもできる。図3は、上記の辞書の一部を
融合したトライ構造の概要を示す模式図である。なお、
本図において、上述の図と同様の機能を果たす要素に
は、同じ符号を付してある。なお、終了文字は、これに
対応する情報が綴り情報か読み情報かを区別するため、
図中では前者を#1、後者を#2で図示している。
Further, these dictionaries can be fused into one trie structure. FIG. 3 is a schematic diagram showing an outline of a trie structure in which a part of the above-mentioned dictionary is fused. In addition,
In this figure, the elements having the same functions as those in the above-mentioned figures are designated by the same reference numerals. Note that the end character distinguishes whether the corresponding information is spelling information or reading information,
In the figure, the former is shown as # 1 and the latter as # 2.

【0010】また、このようなトライ構造の辞書を配列
を用いて実現する手法については、たとえば以下の文献
に開示されている。 ・青江順一「ダブル配列による高速ディジタル検索アル
ゴリズム」(電子情報通信学会論文誌, D, Vol.171-D,
No.9, pp.1592-1600, 1988年9月) ・青江順一「自然言語辞書の検索 ダブル配列による高
速ディジタル検索アルゴリズム」(bit, Vol.21, No.6,
pp.776-784, 1989年5月)
A method for realizing such a trie-structured dictionary by using an array is disclosed in the following document, for example.・ Junichi Aoe "High-speed digital search algorithm using double array" (IEICE Transactions, D, Vol. 171-D,
No.9, pp.1592-1600, September 1988) ・ Junichi Aoe “High-speed digital search algorithm using search double array of natural language dictionary” (bit, Vol.21, No.6,
pp.776-784, May 1989)

【0011】[0011]

【発明が解決しようとする課題】従来の手法では、綴り
データ106や読みデータ107にこれらの情報がその
まま格納されている。このような辞書を作成して配布す
るにあたって問題となるのが、辞書に記録されたデータ
の盗用、特に、登録された単語の綴りや読みのデータの
盗用である。このため、トライ構造による辞書引きの利
点を維持したまま、単語データの暗号化を図る手法が望
まれている。
In the conventional method, such information is stored as it is in the spelling data 106 and the reading data 107. A problem in creating and distributing such a dictionary is plagiarism of data recorded in the dictionary, particularly plagiarism of registered word spelling and reading data. Therefore, there is a demand for a method for encrypting word data while maintaining the advantage of dictionary lookup by the trie structure.

【0012】本発明の目的は、暗号化されたトライ構造
の辞書により単語の読みや綴りのデータの盗用を防止
し、当該辞書を用いて高速な辞書引きや読み、綴りを復
元する手法を実現することにある。
An object of the present invention is to realize a method of preventing the reading and spelling of word data from being stolen by using an encrypted trie-structured dictionary and restoring the dictionary, reading and spelling at high speed using the dictionary. To do.

【0013】[0013]

【課題を解決するための手段】上記目的を達成するた
め、本発明の第1の観点に係る辞書データ構造を記録し
たコンピュータ読取可能な記録媒体は、任意の長さの語
句と、当該語句の情報データと、を対応付けて保持する
辞書データ構造を記録し、以下のように構成する。
To achieve the above object, a computer-readable recording medium in which a dictionary data structure according to a first aspect of the present invention is recorded is a phrase of an arbitrary length, and a phrase of the phrase. A dictionary data structure that holds information data and data in association with each other is recorded and configured as follows.

【0014】すなわち、当該辞書データ構造は、開始ノ
ードn1を蓄積する。
That is, the dictionary data structure stores the start node n 1 .

【0015】ここで、当該辞書データ構造は、長さsの
文字の列c1, c2, …, csにて表現される語句と、当該語
句の情報データdと、を対応付けて保持する場合、
(a)前記開始ノードn1と前記文字c1との対(n1,c1)
と、1対1に対応させてノードn2を蓄積し、(b)整数
i (2≦i≦s)について、ノードniと前記文字ciとの対(n
i,ci)と、1対1に対応させてノードni+1を蓄積し、
(c)ノードns+1に1対1に対応させて情報データdを
蓄積する。
Here, the dictionary data structure holds a phrase expressed by a character string c 1 , c 2 , ..., C s having a length s and information data d of the phrase in association with each other. If you do
(A) A pair of the start node n 1 and the character c 1 (n 1 , c 1 )
And node n 2 is stored in a one-to-one correspondence, and (b) an integer
For i (2 ≦ i ≦ s) , pairs of the character c i and node n i (n
i , c i ) and the nodes n i + 1 are stored in a one-to-one correspondence,
(C) The information data d is stored in one-to-one correspondence with the node n s + 1 .

【0016】本発明では、整数i (1≦i≦s)について対
(ni,ci)と、次のノードni+1とが1対1に対応付けられ
て蓄積されるため、情報データdの中に語句を表現する
文字の列c1, c2, …, csをそのまま蓄積しておく必要が
ない。このため、綴りや読みのデータを暗号化すること
ができる。
In the present invention, the pair for integer i (1≤i≤s)
Since (n i , c i ) and the next node n i + 1 are stored in a one-to-one correspondence, they are stored in the information data d as character strings c 1 , c 2 , …, It is not necessary to store c s as it is. Therefore, the spelling and reading data can be encrypted.

【0017】一方、1対1の対応付けがされているた
め、トライ構造の高速な検索手法をそのまま適用するこ
とができる。
On the other hand, since there is a one-to-one correspondence, the high speed search method of the trie structure can be applied as it is.

【0018】本発明の第2の観点に係る辞書引き方法
は、上記の辞書データ構造を記憶する記録媒体から、長
さsの文字の列e1, e2, …esにより表現される語句に対
応付けられて保持される情報データを引き、先頭取得工
程と、順次取得工程と、データ出力工程と、を備えるよ
うに構成する。
A dictionary lookup method according to a second aspect of the present invention is a word / phrase expressed by a character string e 1 , e 2 , ... E s of length s from a recording medium storing the above-mentioned dictionary data structure. The information data held in association with the above is subtracted, and a head acquisition step, a sequential acquisition step, and a data output step are provided.

【0019】ここで、先頭取得工程では、前記開始ノー
ドn1と前記文字e1との対(n1,e1)に、1対1に対応させ
て蓄積されたノードn2を取得する。
Here, in the head acquisition step, the node n 2 accumulated in a one-to-one correspondence with the pair (n 1 , e 1 ) of the start node n 1 and the character e 1 is acquired.

【0020】一方、順次取得工程では、整数i (2≦i≦
s)について、先に取得されたノードn iと前記文字eiとの
対(ni,ei)に、1対1に対応させて蓄積されたノードn
i+1を順次取得する。
On the other hand, in the sequential acquisition process, the integer i (2 ≦ i ≦
node n obtained earlier for (s) iAnd the letter eiWith
Pair (ni, ei), A node n stored in a one-to-one correspondence
i + 1Are sequentially acquired.

【0021】さらに、データ出力工程では、前記取得さ
れたノードns+1に1対1に対応させて蓄積された情報デ
ータdを取得して出力する。
Further, in the data output step, the information data d accumulated in a one-to-one correspondence with the obtained node n s + 1 is obtained and outputted.

【0022】本発明により、上記記録媒体から文字列に
より表現される語句の情報データを高速に得ることがで
きる。
According to the present invention, information data of a phrase expressed by a character string can be obtained at high speed from the recording medium.

【0023】また、本発明の辞書引き方法は、報告工程
をさらに備えるように構成することができる。
Further, the dictionary lookup method of the present invention can be configured to further include a reporting step.

【0024】ここで、報告工程では、前記先頭取得工程
もしくは前記順次取得工程にて、1対1に対応させて蓄
積されたノードが取得できない場合、当該語句に対応付
けられて保持される情報データはない旨を報告する。
Here, in the reporting step, if the nodes accumulated in a one-to-one correspondence in the head acquisition step or the sequential acquisition step cannot be acquired, the information data held in correspondence with the word / phrase is held. Report that there is no.

【0025】本発明により、文字列により表現される語
句が辞書に登録されていない場合は、その旨の報告を高
速に得ることができる。
According to the present invention, when the word / phrase expressed by the character string is not registered in the dictionary, a report to that effect can be obtained at high speed.

【0026】本発明の第3の観点に係る語句取得方法
は、上記の辞書データ構造を記憶する記録媒体に保持さ
れた情報データdから、これに対応付けられて保持され
る語句を得るものであって、ノード取得工程と、先頭取
得工程と、順次取得工程と、文字列出力工程と、を備え
るように構成する。
A word / phrase acquisition method according to a third aspect of the present invention obtains a word / phrase held in association with information data d held in a recording medium storing the above-mentioned dictionary data structure. Therefore, a node acquisition process, a head acquisition process, a sequential acquisition process, and a character string output process are provided.

【0027】ここで、ノード取得工程では、情報データ
dに1対1に対応させて、もしくは、情報データdに参照
されて蓄積されたノードm0を取得する。
Here, in the node acquisition step, information data
The node m 0 stored in one-to-one correspondence with d or by being referred to by the information data d is acquired.

【0028】一方、先頭取得工程では、前記取得された
ノードm0に1対1に対応させて蓄積された対(m1,e1)を
取得する。
On the other hand, in the head acquisition step, the pair (m 1 , e 1 ) stored in one-to-one correspondence with the acquired node m 0 is acquired.

【0029】さらに、順次取得工程では、整数j (1≦
j)について、先に取得されたノードm jに1対1に対応さ
せて蓄積された対(mj+1,ej+1)を順次取得する。
Furthermore, in the sequential acquisition step, the integer j (1 ≦
For j), the node m obtained earlier jOne-to-one correspondence with
The accumulated pairs (mj + 1, ej + 1) Are sequentially acquired.

【0030】そして、文字列出力工程では、前記開始ノ
ードn1が順次得られた対のいずれかの先頭の要素mkと一
致する場合、順次得られた対の末尾の要素の列ek,
ek-1, …e2, e1を、前記情報データdに対応付けられて
保持された語句を表現する文字の列として出力する。
Then, in the character string output step, if the start node n 1 matches any one of the leading elements m k of the sequentially obtained pairs, the sequence e k of the last elements of the sequentially obtained pairs,
e k−1 , ... E 2 , e 1 are output as a string of characters expressing a word held in association with the information data d.

【0031】本発明により、暗号化された辞書の単語デ
ータdから、当該単語の読みや綴りの文字列を復元する
ことができる。
According to the present invention, it is possible to restore the reading or spelling character string of the word from the word data d of the encrypted dictionary.

【0032】本発明の第4の観点に係る辞書引き装置
は、上記の辞書データ構造を記憶する記録媒体から、長
さsの文字の列e1, e2, …esにより表現される語句に対
応付けられて保持される情報データを引くものであり、
先頭取得部と、順次取得部と、データ出力部と、を備え
るように構成する。
According to a fourth aspect of the present invention, there is provided a dictionary lookup device, wherein a phrase expressed by a character string e 1 , e 2 , ... E s having a length s from a recording medium storing the above dictionary data structure. The information data held in association with
A head acquisition unit, a sequential acquisition unit, and a data output unit are provided.

【0033】ここで、先頭取得部は、前記開始ノードn1
と前記文字e1との対(n1,e1)に、1対1に対応させて蓄
積されたノードn2を取得する。
In this case, the head acquisition unit is the start node n 1
And a node n 2 accumulated in a one-to-one correspondence with the pair (n 1 , e 1 ) of the character e 1 and the character e 1 .

【0034】一方、順次取得部は、整数i (2≦i≦s)に
ついて、先に取得されたノードniと前記文字eiとの対(n
i,ei)に、1対1に対応させて蓄積されたノードni+1
順次取得する。
On the other hand, the sequential acquisition unit, for an integer i (2 ≦ i ≦ s), pairs (n) of the node n i acquired previously and the character e i.
i , e i ) and the nodes n i + 1 stored in a one-to-one correspondence are sequentially acquired.

【0035】さらに、データ出力部は、前記取得された
ノードns+1に1対1に対応させて蓄積された情報データ
dを取得して出力する。
Furthermore, the data output unit is configured to store the information data stored in one-to-one correspondence with the acquired node n s + 1.
Get d and output it.

【0036】また、本発明の辞書引き装置は、報告部を
さらに備えるように構成することができる。
The dictionary lookup apparatus of the present invention can be configured to further include a reporting unit.

【0037】ここで、報告部は、前記先頭取得部もしく
は前記順次取得部において、1対1に対応させて蓄積さ
れたノードが存在しないため取得ができない場合、当該
語句に対応付けられて保持される情報データはない旨を
報告する。
Here, when the report part cannot be acquired in the head acquisition part or the sequential acquisition part because there is no node accumulated in a one-to-one correspondence, the report part is held in association with the relevant phrase. Report that there is no information data available.

【0038】本発明の第5の観点に係る語句取得装置
は、上記の辞書データ構造を記憶する記録媒体に保持さ
れた情報データdから、これに対応付けられて保持され
る語句を得るものであって、ノード取得部と、先頭取得
部と、順次取得部と、文字列出力部と、を備えるように
構成する。
A word / phrase acquisition device according to a fifth aspect of the present invention obtains a word / phrase held in association with information data d held in a recording medium storing the above-mentioned dictionary data structure. Therefore, the node acquisition unit, the head acquisition unit, the sequential acquisition unit, and the character string output unit are provided.

【0039】ここで、ノード取得部は、情報データdに
1対1に対応させて、もしくは、情報データdに参照さ
れて蓄積されたノードm0を取得する。
Here, the node acquisition unit acquires the node m 0 accumulated in one-to-one correspondence with the information data d, or by being referred to by the information data d.

【0040】一方、先頭取得部は、前記取得されたノー
ドm0に1対1に対応させて蓄積された対(m1,e1)を取得
する。
On the other hand, the head acquisition unit acquires the pair (m 1 , e 1 ) stored in one-to-one correspondence with the acquired node m 0 .

【0041】さらに、順次取得部は、整数j (1≦j)に
ついて、先に取得されたノードmjに1対1に対応させて
蓄積された対(mj+1,ej+1)を順次取得する。
Furthermore, the sequential acquisition unit, for the integer j (1≤j), stores the pair (m j + 1 , e j + 1 ) stored in one-to-one correspondence with the node m j acquired previously. Are sequentially acquired.

【0042】そして、文字列出力部は、前記開始ノード
n1が前記順次得られた対のいずれかの先頭の要素mkと一
致する場合、前記順次得られた対の末尾の要素の列ek,
ek-1, …e2, e1を、前記情報データdに対応付けられて
保持された語句を表現する文字の列として出力する。
Then, the character string output unit is the start node
If n 1 matches the first element m k of any of the sequentially obtained pairs, the last element sequence e k , of the sequentially obtained pair
e k−1 , ... E 2 , e 1 are output as a string of characters expressing a word held in association with the information data d.

【0043】本発明の第6の観点に係る辞書データ構造
を記録したコンピュータ読取可能な記録媒体は、上記辞
書データ構造を記録した記録媒体を、以下のように構成
する。
A computer-readable recording medium having a dictionary data structure recorded according to a sixth aspect of the present invention has the following structure of the recording medium having the dictionary data structure recorded therein.

【0044】すなわち、前記辞書データ構造は、配列BA
SEと配列CHECKとを用いて、語句と、ノードと、その情
報データとを保持する。
That is, the dictionary data structure is the array BA.
SE and array CHECK are used to hold words, nodes, and their information data.

【0045】一方、また、開始ノードn1と、保持される
語句を表現する文字の列c1, c2, …, csと、これに対応
付けられるノードn2, …, ns, ns+1と、の情報をそれぞ
れ整数で表現する。
On the other hand, the start node n 1 , a string of characters c 1 , c 2 , ..., C s representing the held word and the nodes n 2, ..., N s , n associated with it The information of s + 1 and is represented by integers.

【0046】さらに、整数i (1≦i≦s)について、前記
配列BASEのni番目の要素BASE[ni]と、前記配列CHECKのn
i+1番目の要素CHECK[ni+1]と、に対して、2つの条件 ni+1 = BASE[ni] + ci CHECK[ni+1] = ni がいずれも満たされるように保持する。
Furthermore, for an integer i (1 ≦ i ≦ s), the n i- th element BASE [n i ] of the array BASE and the n-th element of the array CHECK.
For the i + 1th element CHECK [n i + 1 ] and two conditions n i + 1 = BASE [n i ] + c i CHECK [n i + 1 ] = n i are both satisfied. To hold.

【0047】本発明により、配列を用いて暗号化された
トライ構造の辞書を実現することができる。
According to the present invention, it is possible to realize a dictionary having a trie structure encrypted by using an array.

【0048】本発明の第7の観点に係る辞書引き方法
は、上記辞書データ構造を記憶する記録媒体から、長さ
sの文字の列e1, e2, …esにより表現される語句に対応
付けられて保持される情報データを引くものであって、
順次取得工程と、データ出力工程と、を備えるように構
成する。
According to a seventh aspect of the present invention, there is provided a dictionary look-up method in which the length of a dictionary is stored in a recording medium storing the dictionary data structure.
The information data held by being associated with the phrase expressed by the character string of s e 1 , e 2 , ... e s ,
It is configured to include a sequential acquisition step and a data output step.

【0049】ここで、順次取得工程では、整数i (1≦i
≦s)について、前記配列BASEのni番目の要素BASE[ni]と
文字eiとの和ti = BASE[ni] + eiが、条件CHECK[ti] =
niを満たす場合、整数ni+1 = tiとして順次取得する。
Here, in the sequential acquisition step, the integer i (1 ≦ i
≤ s), the sum of the n i- th element BASE [n i ] of the array BASE and the character e i is t i = BASE [n i ] + e i , and the condition CHECK [t i ] =
When n i is satisfied, it is sequentially acquired as an integer n i + 1 = t i .

【0050】一方、データ出力工程では、前記取得され
た整数ns+1に1対1に対応されて蓄積された情報データ
dを取得して出力する。
On the other hand, in the data output step, information data accumulated in a one-to-one correspondence with the obtained integer n s + 1
Get d and output it.

【0051】また、本発明の辞書引き方法は、報告工程
をさらに備えるように構成することができる。
The dictionary lookup method of the present invention can be configured so as to further include a reporting step.

【0052】ここで、報告工程では、前記順次取得工程
において、前記条件が満たされない場合、当該語句に対
応付けられて保持される情報データはない旨を報告す
る。
Here, in the reporting step, if the condition is not satisfied in the sequential acquisition step, it is reported that there is no information data held in association with the word.

【0053】本発明の第8の観点にかかる語句取得方法
は、上記辞書データ構造を記憶する記録媒体に保持され
た情報データdから、これに対応付けられて保持される
語句を得るものであって、ノード取得工程と、順次取得
工程と、文字列出力工程と、を備えるように構成する。
A word / phrase acquisition method according to an eighth aspect of the present invention is to obtain a word / phrase held in association with the information data d held in a recording medium storing the dictionary data structure. Then, a node acquisition process, a sequential acquisition process, and a character string output process are provided.

【0054】ここで、ノード取得工程では、情報データ
dに1対1に対応させて、もしくは、情報データdに1対
1に参照されて蓄積されたノードの情報を表現する整数
m0を取得する。
Here, in the node acquisition step, information data
An integer that represents the information of the node that is stored in a one-to-one correspondence with d or with a one-to-one reference to the information data d
Get m 0 .

【0055】一方、順次取得工程では、整数j (0≦j)
について、先に取得された整数mjから、整数mj+1 = CHE
CK[mj]と、文字整数ej+1 = mj - BASE[mj]とを順次取得
する。
On the other hand, in the sequential acquisition process, an integer j (0 ≦ j)
For the integer m j obtained earlier, the integer m j + 1 = CHE
CK [m j ] and the character integer e j + 1 = m j -BASE [m j ] are sequentially acquired.

【0056】さらに、文字列出力工程では、前記開始ノ
ードの情報を表現する整数n1と、前記順次得られたいず
れかの整数mkと、が等しい場合、前記順次得られた文字
整数の列ek, ek-1, …e2, e1を、前記情報データdに対
応付けられて保持された語句を表現する文字の列として
出力する。
Further, in the character string output step, when the integer n 1 expressing the information of the start node is equal to any of the sequentially obtained integers m k , the sequence of the sequentially obtained character integers The e k , e k-1 , ... E 2 , e 1 are output as a string of characters expressing the word held in association with the information data d.

【0057】本発明の第9の観点に係る辞書引き装置
は、上記辞書データ構造を記憶する記録媒体から、長さ
sの文字の列e1, e2, …esにより表現される語句に対応
付けられて保持される情報データを引くものであって、
順次取得部と、データ出力部と、を備えるように構成す
る。
According to a ninth aspect of the present invention, there is provided a dictionary look-up device, in which a length of a dictionary medium for storing the dictionary data structure is
The information data held by being associated with the phrase expressed by the character string of s e 1 , e 2 , ... e s ,
It is configured to include a sequential acquisition unit and a data output unit.

【0058】ここで、順次取得部では、整数i (1≦i≦
s)について、前記配列BASEのni番目の要素BASE[ni]と文
字eiとの和ti = BASE[ni] + eiが、条件CHECK[ti] = ni
を満たす場合、整数ni+1 = tiとして順次取得する。
Here, in the sequential acquisition unit, the integer i (1 ≦ i ≦
s), the sum of the n i- th element BASE [n i ] of the array BASE and the character e i is t i = BASE [n i ] + e i , and the condition CHECK [t i ] = n i
When it satisfies, it is sequentially acquired as an integer n i + 1 = t i .

【0059】一方、データ出力部では、前記取得された
整数ns+1に1対1に対応されて蓄積された情報データd
を取得して出力する。
On the other hand, in the data output section, the information data d stored in a one-to-one correspondence with the obtained integer n s + 1.
To get and output.

【0060】また、本発明の辞書引き装置は、報告部を
さらに備えるように構成することができる。
Further, the dictionary lookup apparatus of the present invention can be configured to further include a reporting unit.

【0061】ここで、報告部は、前記順次取得部におい
て、前記条件が満たされない場合、当該語句に対応付け
られて保持される情報データはない旨を報告する。
Here, if the condition is not satisfied in the sequential acquisition unit, the report unit reports that there is no information data held in association with the word / phrase.

【0062】本発明の第10の観点に係る語句取得装置
は、上記辞書データ構造を記憶する記録媒体に保持され
た情報データdから、これに対応付けられて保持される
語句を得るものであって、ノード取得部と、順次取得部
と、文字列出力部と、を備えるように構成する。
A word / phrase acquisition device according to a tenth aspect of the present invention obtains a word / phrase held in association with information data d held in a recording medium storing the dictionary data structure. And a node acquisition unit, a sequential acquisition unit, and a character string output unit.

【0063】ここで、ノード取得部は、情報データdに
1対1に対応させて、もしくは、情報データdに1対1
に参照されて蓄積されたノードの情報を表現する整数m0
を取得する。
Here, the node acquisition unit makes one-to-one correspondence with the information data d, or one-to-one with the information data d.
An integer m 0 that represents the information of the node that is accumulated by being referred to
To get.

【0064】一方、順次取得部は、整数j (0≦j)につ
いて、先に取得された整数mjから、整数mj+1 = CHECK[m
j]と、文字整数ej+1 = mj - BASE[mj]とを順次取得す
る。
[0064] On the other hand, sequential acquisition unit, for integer j (0 ≦ j), the integer m j obtained above, the integer m j + 1 = CHECK [m
j ] and the character integer e j + 1 = m j -BASE [m j ] are sequentially acquired.

【0065】さらに、文字列出力部は、前記開始ノード
の情報を表現する整数n1と、前記順次得られたいずれか
の整数mkと、が等しい場合、前記順次得られた文字整数
の列ek, ek-1, …e2, e1を、前記情報データdに対応付
けられて保持された語句を表現する文字の列として出力
する。
Further, when the integer n 1 expressing the information of the start node is equal to any of the sequentially obtained integers m k , the character string output unit outputs the sequence of the sequentially obtained character integers. The e k , e k-1 , ... E 2 , e 1 are output as a string of characters expressing the word held in association with the information data d.

【0066】本発明の第11の観点に係るプログラムを
記録したコンピュータ読取可能な記録媒体は、コンピュ
ータを、上記辞書引き装置、または、上記語句取得装置
として機能させるプログラムを記録するように構成す
る。
A computer-readable recording medium recording a program according to an eleventh aspect of the present invention is configured to record a program that causes a computer to function as the dictionary lookup device or the phrase acquisition device.

【0067】[0067]

【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the accompanying drawings.

【0068】(情報処理装置の概要構成)図4は、本発
明の辞書引き装置、もしくは、語句取得装置として機能
する典型的な情報処理装置(汎用のコンピュータ、各種
端末、携帯端末、携帯電話、ゲーム装置などの専用機器
を含む)の概要構成を示す模式図である。以下、図4を
参照して説明する。
(Schematic Configuration of Information Processing Apparatus) FIG. 4 is a typical information processing apparatus (general-purpose computer, various terminals, mobile terminal, mobile phone, etc.) that functions as a dictionary lookup apparatus or word acquisition apparatus of the present invention. FIG. 3 is a schematic diagram showing a schematic configuration of a dedicated device such as a game device). Hereinafter, description will be given with reference to FIG.

【0069】情報処理装置401は、CPU(Central
Processing Unit;中央処理ユニット)402によって
制御される。情報処理装置401に電源を投入すると、
CPU402は、ROM(Read Only Memory;読出専用
メモリ)403に記憶されたIPL(Initial Program
Loader;初期プログラムローダ)を実行する。
The information processing device 401 has a CPU (Central
Processing Unit (Central Processing Unit) 402. When the information processing device 401 is powered on,
The CPU 402 is an IPL (Initial Program) stored in a ROM (Read Only Memory) 403.
Loader; initial program loader) is executed.

【0070】IPLは、ハードディスク404、FD
(Floppy Disk;フロッピー(登録商標)ディスク)ド
ライブ410に装着されたFD、CD−ROM(Compac
t Disk ROM)ドライブ411に装着されたCD−ROM
などの記録媒体に記憶されたOS(Operating System;
オペレーティング・システム)プログラムを読み出して
実行するプログラムである。
The IPL is a hard disk 404, FD
(Floppy Disk; FD, CD-ROM (Compac
t Disk ROM) CD-ROM installed in the drive 411
OS (Operating System) stored in a recording medium such as
Operating system) A program that reads and executes a program.

【0071】OSを起動した後、CPU402は、キー
ボード405やマウス406などにより入力されたユー
ザの指示にしたがって、あるいは、ハードディスクなど
にあらかじめ記述された設定ファイルの内容にしたがっ
て、ハードディスクなどに記憶されたアプリケーション
プログラムを実行する。
After booting the OS, the CPU 402 is stored in the hard disk or the like according to the user's instruction input through the keyboard 405 or the mouse 406, or according to the contents of the setting file previously described in the hard disk or the like. Run the application program.

【0072】なお、携帯端末などの小規模な情報処理装
置では、IPL自体がOSやアプリケーションプログラ
ムとしての機能を果たすような実施形態も採用すること
ができる。
In a small-scale information processing device such as a mobile terminal, an embodiment in which the IPL itself functions as an OS or an application program can be adopted.

【0073】CPU402は、プログラムの実行の際
に、RAM(Random Access Memory)407を一時的な
作業用記憶領域として用いる。このほか、一時的な作業
用記憶領域として、CPU402内に設けられたレジス
タやキャッシュ(図示せず)が使われる。
The CPU 402 uses a RAM (Random Access Memory) 407 as a temporary work storage area when executing a program. In addition, a register or a cache (not shown) provided in the CPU 402 is used as a temporary work storage area.

【0074】プログラムの実行に伴ない、ユーザに結果
を報告したり、途中経過を見せるため、CPU402
は、液晶ディスプレイやCRT(Cathode Ray Tube)な
どの表示装置408に当該情報を表示することができ
る。マウス406による指示操作では、マウス406を
移動することにより、画面に表示されたカーソルが移動
し、マウス406をクリックすることにより、カーソル
が指すメニュー項目を選択することができる。
In order to report the result to the user or show the progress along with the execution of the program, the CPU 402
Can display the information on a display device 408 such as a liquid crystal display or a CRT (Cathode Ray Tube). In the instruction operation using the mouse 406, the cursor displayed on the screen is moved by moving the mouse 406, and the menu item pointed to by the cursor can be selected by clicking the mouse 406.

【0075】情報処理装置401は、NIC(Network
Interface Card)やモデムなどのインターフェース40
9を介してインターネットなどのコンピュータ通信網と
通信を行うことができる。インターフェース409を介
して受信した文書データを処理の対象としたり、処理し
た結果をインターフェース409を介して送信したり、
インターフェース409を介して受信したプログラムを
実行したり、などができる。
The information processing device 401 is a NIC (Network
Interface Card) or modem interface 40
9 can communicate with a computer communication network such as the Internet. The document data received via the interface 409 can be processed, the processed result can be transmitted via the interface 409,
The program received via the interface 409 can be executed and so on.

【0076】(トライ構造の概要)図5は、図3に示す
融合されたトライ構造の辞書と同等の内容を有する辞書
を、本発明の手法により構成したものの様子を示す模式
図である。以下、本図を参照して説明する。
(Outline of Trie Structure) FIG. 5 is a schematic diagram showing a state in which a dictionary having the same contents as the fused trie structure dictionary shown in FIG. 3 is constructed by the method of the present invention. Hereinafter, description will be given with reference to this figure.

【0077】ある文字の列がこの辞書501に登録され
ているか否かを調べる場合には、まず、開始ノード10
1から文字列中の文字を順に調べ、その文字102が割
り当てられた矢印103に沿ってノード104を移行し
ていけばよい。当該104から終了文字105が割り当
てられた矢印103が伸びている場合には、そこまでの
文字列に対応する語句が登録されていることを意味す
る。伸びた矢印103に指されるノード104が最後の
ノードであり、互いに重複しない番号がふられている。
なお、図示しないが、最後のノード104以外のノード
104にも、互いに重複しない番号(ノード番号)が付
与されている。
To check whether or not a character string is registered in this dictionary 501, first, the start node 10
The characters in the character string are sequentially examined from 1, and the node 104 may be moved along the arrow 103 to which the character 102 is assigned. When the arrow 103 to which the end character 105 is assigned extends from the relevant 104, it means that the word or phrase corresponding to the character string up to that point is registered. The node 104 pointed to by the extended arrow 103 is the last node and is given a number that does not overlap with each other.
Although not shown, the nodes 104 other than the last node 104 are also given numbers (node numbers) that do not overlap with each other.

【0078】最後のノード104からは、さらに、綴り
データ106や読みデータ107を指す矢印が伸びてい
る。綴りデータ106や読みデータ107には、当該綴
りや読みを表す番号が割り当てられている。
An arrow pointing to the spelling data 106 and the reading data 107 further extends from the last node 104. A number indicating the spelling or reading is assigned to the spelling data 106 or the reading data 107.

【0079】本発明の手法により構成したトライ構造の
辞書501は、以下の情報が記録されている。 ・読み「わたくし」(最終ノード番号9)に対する綴り
「私」(番号21)。 ・綴り「わたくし」(最終ノード番号10)に対する読
み「わたくし」(番号9)。 ・読み「わたし」(最終ノード番号12)に対する綴り
「私」(番号21)、「わたし」(番号13)。 ・綴り「わたし」(最終ノード番号13)に対する読み
「わたし」(番号12)。 ・綴り「私」(最終ノード番号21)に対する読み「わ
たくし」(番号9)「わたし」(番号12)。
The following information is recorded in the dictionary 501 having a trie structure constructed by the method of the present invention.・ The spelling "I" (number 21) for the reading "Watakushi" (final node number 9). The reading "Watakushi" (number 9) for the spelling "Watakushi" (final node number 10) Spelling "I" (number 21), "I" (number 13) for reading "I" (final node number 12). The reading "I" (number 12) for the spelling "I" (final node number 13). The reading "Watakushi" (number 9) "I" (number 12) for the spelling "I" (final node number 21).

【0080】当該綴りデータ106や読みデータ107
は、開始ノード101から当該綴りデータ106や読み
データ107に至るまでに走査した文字102の列から
なる語句の綴りや読みを格納するが、当該綴り情報や、
読み情報として、トライ構造辞書501のノード番号を
格納している。
The spelling data 106 and reading data 107
Stores the spelling and reading of a word or phrase consisting of a sequence of characters 102 scanned from the start node 101 to the spelling data 106 and reading data 107.
The node number of the trie structure dictionary 501 is stored as the reading information.

【0081】たとえば、開始ノード101から順に、
「わ」「た」「く」「し」「#1」とたどると、最後の
ノード104(番号9)を経て、読み「わたくし」に対
する綴り「私」の綴りデータ106が得られる。
For example, in order from the start node 101,
By tracing "wa", "ta", "ku", "shi", "# 1", the spelling data 106 of the spelling "I" for the reading "watakushi" is obtained through the last node 104 (number 9).

【0082】また、開始ノード101から「私」「#
2」とたどると、最後のノード104(番号21)を経
て、綴り「私」に対する読み「わたし」「わたくし」の
読みデータ107が得られる。
From the start node 101, "I" and "#"
2 ”, the reading data 107 of the reading“ I ”and“ Watakushi ”for the spelling“ I ”is obtained through the last node 104 (number 21).

【0083】ここで、綴り「わたくし」に対する読みデ
ータ107として、番号9が格納されている。これは、
開始ノード101から順に「わ」「た」「く」「し」
「#1」とたどった場合の最後のノード104の番号で
ある。
Here, the reading data for the spelling "Watakushi"
The number 9 is stored as the data 107 . this is,
“Wa” “ta” “ku” “shi” in order from the start node 101
This is the number of the last node 104 when “# 1” is traced.

【0084】また、読み「わたくし」に対する読みデー
タ106として、番号21が格納されている。これは、
開始ノード101から「私」「#2」と順にたどった場
合の最後のノード104の番号である。
The number 21 is stored as the reading data 106 for the reading "Watakushi". this is,
This is the number of the last node 104 when “I” and “# 2” are sequentially traced from the start node 101.

【0085】最後のノード104から開始ノード101
へ向かって矢印を逆にたどった場合に、その途中で出会
った文字を逆順に並べかえれば、綴りデータ106や読
みデータ107に格納されているノード番号から、読み
や綴りが復元できる。
From the last node 104 to the start node 101
If the arrow is followed in the opposite direction and the characters encountered in the middle are rearranged in reverse order, the reading and spelling can be restored from the node numbers stored in the spelling data 106 and reading data 107.

【0086】このため、綴りデータ106や読みデータ
107に読みや綴りをそのまま格納するのに比べ、辞書
501を盗用することが難しくなる。また、トライ構造
の木の中に読みや綴りが埋め込まれるため、辞書501
全体のサイズが小さくなることが期待される。
For this reason, it becomes more difficult to plagiarize the dictionary 501 as compared with the case where the reading and the spelling are stored as they are in the spelling data 106 and the reading data 107. Also, since the reading and spelling are embedded in the tree of the trie structure, the dictionary 501
The overall size is expected to be smaller.

【0087】(ダブル配列による実現)以下では、上記
のように構成されるトライ構造の辞書501がダブル配
列に格納される様子について説明する。
(Realization by Double Array) The following describes how the tri-structure dictionary 501 configured as described above is stored in the double array.

【0088】現在のノード104(ノード番号r)から
文字コードaの文字102により移行する矢印103が
存在するか否かを、2つの配列BASEとCHECKを用いて以
下のように判断する。すなわち、まず、 t ← BASE[r] + a を計算する。次に、 CHECK[t] = r が成立するか否かを調べる。成立すれば、次のノード1
04のノード番号はtである。成立しなければ、次のノ
ードは存在しないことになる。
Whether or not there is an arrow 103 that moves from the current node 104 (node number r) by the character 102 of the character code a is determined as follows using the two arrays BASE and CHECK. That is, first, t ← BASE [r] + a is calculated. Next, check whether CHECK [t] = r holds. If it holds, next node 1
The node number of 04 is t. If not, the next node does not exist.

【0089】図6は、ダブル配列に実際に「わたし」
「わたくし」が登録される場合の数値例を示す説明図で
ある。なお、本図は、上記した例とノード番号が異なる
点に注意されたい。また、本図に示すものは、読みから
綴り情報などを得るための日本語仮名漢字変換用の辞書
であるが、綴りデータ106の図示を省略している。
FIG. 6 shows that the double array is actually "I".
It is explanatory drawing which shows the numerical example in case "Watakushi" is registered. Note that the node numbers in this figure differ from the above example. Further, although the figure shows a dictionary for Japanese Kana-Kanji conversion for obtaining spelling information and the like from reading, spelling data 106 is not shown.

【0090】本例においては、以下のように文字コード
を割り当てている。 終了文字 → 1 「あ」「い」… → 2 3 … 「き」「く」「け」… → 7 8 9 … 「し」… → 12 … 「た」… → 16 … 「わ」→ 44
In this example, character codes are assigned as follows. End character → 1 “A” “I”… → 2 3… “Ki” “Ku” “Ke”… → 7 8 9… “Shi”… → 12… “Ta”… → 16… “Wa” → 44

【0091】図6に示す図には、配列の各要素を上下に
重なった箱(上の箱はBASE、下の箱はCHECK)で表現
し、さらに、その箱の上に、当該要素の添字を記載して
いる。また、開始ノードのノード番号は1である。この
場合に、「わたし」を走査していく手順について、以下
に簡単に説明する。
In the diagram shown in FIG. 6, each element of the array is expressed by a box that is vertically overlapped (the upper box is BASE, the lower box is CHECK), and the subscript of the element is added on the box. Is described. The node number of the start node is 1. In this case, the procedure for scanning "I" will be briefly described below.

【0092】まず、開始ノード1に対して、図示するよ
うにBASE[1] = 1であり、BASE[1] +わ(44) = 1 + 44 =
45である。CHECK[45] = 1であるから、「わ」で始まる
語句が登録されていることがわかる。
First, for the start node 1, BASE [1] = 1 as shown in the figure, and BASE [1] + wa (44) = 1 + 44 =
45. Since CHECK [45] = 1, it can be seen that the words beginning with "wa" are registered.

【0093】次にノード45に対して、図示するように
BASE[45] = 2であり、BASE[45] +た(16) = 2 + 16 = 18
である。CHECK[18] = 45であるから、「わた」で始まる
語句が登録されていることがわかる。
Next, as shown in FIG.
BASE [45] = 2 and BASE [45] + C (16) = 2 + 16 = 18
Is. Since CHECK [18] = 45, it can be seen that the words and phrases beginning with "wata" are registered.

【0094】次にノード18に対して、図示するように
BASE[18] = 1であり、BASE[18] +し(12) = 13である。C
HECK[13] = 18であるから、「わたし」で始まる語句が
登録されていることがわかる。
Next, as shown in FIG.
BASE [18] = 1 and BASE [18] + then (12) = 13. C
Since HECK [13] = 18, it can be seen that the words beginning with "I" are registered.

【0095】さらにノード13に対して、BASE[13] = 1
であり、BASE[13] + #(1) = 2である。CHECK[2] = 13で
あるから、語句「わたし」が登録されていることがわか
る。
Further, for node 13, BASE [13] = 1
And BASE [13] + # (1) = 2. Since CHECK [2] = 13, it can be seen that the word "I" is registered.

【0096】また、最後のノード(番号e)に対するBAS
E[e]は、トライ構造のノードと矢印の関係を表現するに
は用いないですむため、ここに、綴りデータ106や読
みデータ107の識別番号やこれらのデータが格納され
るアドレス等を格納しておくことができる。
The BAS for the last node (number e)
Since E [e] does not have to be used to express the relationship between the nodes of the trie structure and the arrows, the identification numbers of the spelling data 106 and reading data 107, the addresses where these data are stored, etc. are stored here. You can keep it.

【0097】一方、これを逆にたどる手順について説明
する。辞書において、ノードrからノードtへ文字aによ
り移行することができる場合に、ノードtから文字aとノ
ードrを求めるためには、上記の関係から、以下のよう
に計算すればよい。すなわち、 r ← CHECK[t] a ← t - BASE[r]
On the other hand, a procedure for tracing this in reverse will be described. In the dictionary, when it is possible to transfer from the node r to the node t by the character a, in order to obtain the character a and the node r from the node t, the following calculation may be performed from the above relationship. That is, r ← CHECK [t] a ← t-BASE [r]

【0098】以下では、本図に示す例において、最後の
ノードのノード番号2から文字列を復元してみる。
In the following, in the example shown in this figure, the character string is restored from the node number 2 of the last node.

【0099】まず、 CHECK[2] = 13, 2 - BASE[13] = 2 - 1 = 1 より、文字「#(1)」と前のノード13が得られる。First, CHECK [2] = 13, 2-BASE [13] = 2-1 = 1 As a result, the character “# (1)” and the previous node 13 are obtained.

【0100】次に、 CHECK[13] = 18, 13 - BASE[18] = 13 - 1 = 12 より、文字「し(12)」と前のノード18が得られ
る。
Next, from CHECK [13] = 18, 13-BASE [18] = 13-1 = 12, the character "shi (12)" and the previous node 18 are obtained.

【0101】さらに、 CHECK[18] = 45, 18 - BASE[45] = 18 - 2 = 16 より、文字「た(16)」と前のノード45が得られ
る。
Further, from CHECK [18] = 45, 18-BASE [45] = 18-2 = 16, the character "ta (16)" and the previous node 45 are obtained.

【0102】さらに、 CHECK[45] = 1, 45 - 1 = 44 より、文字「わ(44)」と、前のノード1が得られ
る。これは開始ノードであるため、ここで上記の繰り返
しを終了する。順に得られた文字「#」「し」「た」
「わ」を逆に並べれば「わたし」が得られる。
Further, from CHECK [45] = 1, 45-1 = 44, the character "wa (44)" and the previous node 1 are obtained. Since this is the start node, the above iteration ends here. The characters “#” “shi” “ta” obtained in order
If you arrange "wa" in reverse, you will get "me".

【0103】このように、ダブル配列を用いれば、最後
のノードのノード番号から、当該ノードに至るまでトラ
イ構造をたどるための文字の列を得ることができる。こ
れは、あるノードrとある文字aにより別のノードtへ移
行する場合に、対(r,a)と番号tとが1対1に対応付けて
格納されているためである。
As described above, by using the double array, it is possible to obtain a character string for tracing the trie structure from the node number of the last node to the node. This is because the pair (r, a) and the number t are stored in a one-to-one correspondence with each other when a certain node r and a certain character a move to another node t.

【0104】なお、ダブル配列に、順次語句を登録して
辞書を構成する手法については、上で参照した論文に開
示されているので、本願では説明を省略する。
The method of sequentially registering words and phrases in the double array and constructing the dictionary is disclosed in the above-referenced paper, and the description thereof is omitted here.

【0105】(辞書引きの手順)図7は、ダブル配列を
用いた実施形態において、文字列c1, c2, …, cs(cs
終了文字)が与えられた場合に、以下の語句が登録され
ているか否かを調べ、当該語句の情報(読みデータや綴
りデータ)を得る辞書引き処理の手順を示すフローチャ
ートである。以下、本図を参照して説明する。
(Dictionary Lookup Procedure) FIG. 7 shows the following when the character strings c 1 , c 2 , ..., C s (c s is an end character) are given in the embodiment using the double array. It is a flowchart which shows the procedure of the dictionary look-up process which investigates whether the term is registered and acquires the information (reading data or spelling data) of the term. Hereinafter, description will be given with reference to this figure.

【0106】なお、これらの処理は、情報処理装置40
1のCPU402がRAM407やハードディスク40
4、CD−ROMドライブ411などを制御しつつ実行
する。また、レジスタやRAM407などに、あらかじ
め、変数t、変数r、変数i用の領域が確保されているも
のとする。
Note that these processes are performed by the information processing device 40.
CPU 402 of No. 1 is RAM 407 or hard disk 40
4. The CD-ROM drive 411 and the like are controlled and executed. In addition, it is assumed that areas for variables t, r, and i are secured in advance in the register, the RAM 407, and the like.

【0107】まず、変数iに整数1を代入する(ステッ
プS701)。これは、何文字目までを走査したかを調
べるためのカウンタである。
First, the integer 1 is assigned to the variable i (step S701). This is a counter for checking how many characters have been scanned.

【0108】ついで、変数rに開始ノードのノード番号
を代入する(ステップS702)。
Then, the node number of the start node is assigned to the variable r (step S702).

【0109】次に、BASE[r] + ciを計算して、結果を変
数tに代入する(ステップS703)。
Next, calculate the BASE [r] + c i, assign the result to the variable t (step S703).

【0110】さらに、CHECK[t] = rであるか否かを調べ
(ステップS704)、そうでない場合(ステップS7
04;No)、当該文字列が登録されていない旨を報告
し(ステップS705)、本処理を終了する。
Further, it is checked whether CHECK [t] = r (step S704), and if not (step S7).
04; No), and reports that the character string is not registered (step S705), and ends this processing.

【0111】一方、CHECK[t] = rである場合(ステップ
S704;Yes)、i = sであるか否かを調べ(ステ
ップS706)、そうでない場合(ステップS706;
No)、iの値を1増やし(ステップS707)、変数t
の値を変数rに代入して(ステップS708)、ステッ
プS703に戻る。
On the other hand, if CHECK [t] = r (step S704; Yes), it is checked whether i = s (step S706), and if not (step S706;
No), the value of i is increased by 1 (step S707), and the variable t
Is assigned to the variable r (step S708), and the process returns to step S703.

【0112】一方、i = sである場合(ステップS70
6;Yes)、すなわち、ciが終了文字である場合、BA
SE[t]に記録されている情報の識別番号やアドレスを取
得して、当該情報を出力し(ステップS709)、本処
理を終了する。
On the other hand, if i = s (step S70)
6; Yes), that is, if c i is the ending character, BA
The identification number or address of the information recorded in SE [t] is acquired, the information is output (step S709), and this processing ends.

【0113】(語句取得の手順)図8は、綴りデータや
読みデータなどの情報に最後のノードのノード番号が格
納されている場合に、当該情報に至る語句を表す文字列
を得るための語句取得処理の手順を示すフローチャート
である。以下、本図を参照して説明する。なお、本手順
は、辞書引き処理の手順と同様に構成設定された情報処
理装置401において実行される。さらに、語句を表現
する文字列を格納するための配列eをあらかじめ用意し
ておく。
(Procedure for obtaining a phrase) FIG. 8 is a phrase for obtaining a character string representing a phrase reaching the information when the node number of the last node is stored in information such as spelling data and reading data. It is a flowchart which shows the procedure of an acquisition process. Hereinafter, description will be given with reference to this figure. It should be noted that this procedure is executed in the information processing apparatus 401 that is configured and set similarly to the procedure of the dictionary lookup processing. Furthermore, an array e for storing a character string expressing a phrase is prepared in advance.

【0114】まず、変数iの値を1に設定する(ステッ
プS801)。
First, the value of the variable i is set to 1 (step S801).

【0115】最後のノードのノード番号を変数tに代入
する(ステップS802)。
The node number of the last node is assigned to the variable t (step S802).

【0116】次に、CHECK[t]の値を得て、これを変数r
に代入する(ステップS803)。
Next, the value of CHECK [t] is obtained, and this is set to the variable r.
(Step S803).

【0117】さらに、rが開始ノードのノード番号に等
しいか否かを調べる(ステップS804)。等しくない
場合(ステップS804;No)、t - BASE[r]を計算
して、これを変数aに代入する(ステップS805)。
Further, it is checked whether r is equal to the node number of the start node (step S804). If they are not equal (step S804; No), t-BASE [r] is calculated and is substituted for the variable a (step S805).

【0118】ついで、配列eのi番目の要素に、変数aの
値を代入する(ステップS806)。
Then, the value of the variable a is substituted into the i-th element of the array e (step S806).

【0119】さらに、変数iの値を1増やし(ステップ
S807)、変数rの値を変数tに代入して(ステップS
808)、ステップS803に戻る。
Further, the value of the variable i is incremented by 1 (step S807), and the value of the variable r is substituted into the variable t (step S807).
808) and the process returns to step S803.

【0120】一方、rが開始ノードのノード番号に等し
い場合(ステップS804;Yes)、配列の要素e[i-
1], e[i-2], …, e[1]をこの順に出力して(ステップS
809)、本処理を終了する。
On the other hand, if r is equal to the node number of the start node (step S804; Yes), the element e [i-
1], e [i-2], ..., e [1] are output in this order (step S
809), and this processing ends.

【0121】[0121]

【発明の効果】以上説明したように、本発明によれば、
暗号化された辞書とこれを用いた高速な辞書引きとを実
現するのに好適な、辞書データ構造を記録した記録媒
体、辞書引き方法、語句取得方法、辞書引き装置、語句
取得装置、ならびに、プログラムを記録した記録媒体を
提供することができる。
As described above, according to the present invention,
Suitable for realizing an encrypted dictionary and a high-speed dictionary lookup using the same, a recording medium recording a dictionary data structure, a dictionary lookup method, a phrase acquisition method, a dictionary lookup device, a phrase acquisition device, and A recording medium recording the program can be provided.

【図面の簡単な説明】[Brief description of drawings]

【図1】かな漢字変換用辞書の一部を実現するトライ構
造の概要を示す模式図である。
FIG. 1 is a schematic diagram showing an outline of a trie structure that realizes a part of a kana-kanji conversion dictionary.

【図2】形態素解析用辞書の一部を実現するトライ構造
の概要を示す模式図である。
FIG. 2 is a schematic diagram showing an outline of a trie structure that realizes a part of a morphological analysis dictionary.

【図3】上記の辞書の一部を融合したトライ構造の概要
を示す模式図である。
FIG. 3 is a schematic diagram showing an outline of a trie structure in which a part of the dictionary is fused.

【図4】本発明の辞書引き装置、もしくは、語句取得装
置として機能する典型的な情報処理装置の概要構成を示
す模式図である。
FIG. 4 is a schematic diagram showing a schematic configuration of a typical information processing device that functions as a dictionary lookup device or a phrase acquisition device of the present invention.

【図5】本発明にかかるトライ構造の辞書の概要構成を
示す模式図である。
FIG. 5 is a schematic diagram showing a schematic configuration of a dictionary having a trie structure according to the present invention.

【図6】本発明のトライ構造の辞書をダブル配列により
実現する場合の様子を示す説明図である。
FIG. 6 is an explanatory diagram showing a state in which the trie-structured dictionary of the present invention is realized by a double array.

【図7】本発明の辞書引きの手順を示すフローチャート
である。
FIG. 7 is a flowchart showing a dictionary lookup procedure of the present invention.

【図8】本発明の語句取得の手順を示すフローチャート
である。
FIG. 8 is a flow chart showing the procedure of word acquisition according to the present invention.

【符号の説明】[Explanation of symbols]

101 開始ノード 102 文字 103 矢印 104 ノード 105 終了文字 106 綴りデータ 107 読みデータ 401 情報処理装置 402 CPU 403 ROM 404 ハードディスク 405 キーボード 406 マウス 407 RAM 408 表示装置 409 インターフェース 410 FDドライブ 411 CD−ROMドライブ 101 Start node 102 characters 103 arrow 104 nodes 105 end character 106 Spelling data 107 reading data 401 Information processing device 402 CPU 403 ROM 404 hard disk 405 keyboard 406 mouse 407 RAM 408 display device 409 interface 410 FD drive 411 CD-ROM drive

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平11−7451(JP,A) 青江順一,自然言語辞書の検索 ダブ ル配列による高速ディジタル検索アルゴ リズム,bit,日本,共立出版,1989 年 5月 1日,第270号,第776〜784 頁 長尾真、佐藤理史、黒橋禎夫、角田達 彦,岩波講座ソフトウェア科学15 自然 言語処理,日本,株式会社岩波書店, 1999年10月 5日,第4刷,第250〜253 頁 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 - 17/30 419 G06F 17/22 520 JICSTファイル(JOIS)─────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-11-7451 (JP, A) Jun'ichi Aoe, search of natural language dictionary High-speed digital search using double array algorithm, bit, Japan, Kyoritsu Publishing, 1989 May 1st, Issue 270, pp. 776-784 Makoto Nagao, Rifumi Sato, Sadao Kurohashi, Tatsuhiko Tsunoda, Iwanami Course Software Science 15 Natural Language Processing, Japan, Iwanami Shoten, October 5, 1999 , No. 4, pp. 250-253 (58) Fields surveyed (Int.Cl. 7 , DB name) G06F 17/30-17/30 419 G06F 17/22 520 JISST file (JOIS)

Claims (15)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】文字の列と情報データとを対応付けて保持
することにより、語句の読みと当該語句の綴りとを対応
付けて保持する辞書データ構造であって、 当該辞書データ構造は、開始ノードn1を蓄積し、 当該辞書データ構造は、長さsの文字の列c1,c2,…,c
sと、情報データdと、 (a)前記開始ノードn1と前記文字c1との対(n1,c1)
と、1対1に対応させてノードn2を蓄積し、 (b)整数i (2≦i≦s)について、ノードniと前記文字
ciとの対(ni,ci)と、1対1に対応させてノードni+1
蓄積し、 (c)ノードns+1に1対1に対応させて情報データdを
蓄積することにより、対応付けて保持し(以下、ノード
n s+1 を「文字の列c 1 ,c 2 ,…,c s に対する最終ノード」
と呼ぶ。)、 当該辞書データ構造は、他の文字と識別可能な、第1お
よび第2の終端文字により、語句の読みと、当該語句の
綴りと、を、 (p)「当該読みの文字の列に第1の終端文字を追加し
た文字の列」と「当該綴りの情報データ」とを対応付け
て蓄積し、 (q)「当該綴りの文字の列に第2の終端文字を追加し
た文字の列」と「当該読みの情報データ」とを対応付け
て蓄積し、 (r)「当該綴りの情報データ」に、「『当該綴りの文
字の列に第2の終端文字を追加した文字の列』に対する
最終ノード」を参照する情報を蓄積し、 (s)「当該読みの情報データ」に、「『当該読みの文
字の列に第1の終端文字を追加した文字の列』に対する
最終ノード」を参照する情報を蓄積することにより、対
応付けて保持することを特徴とする辞書データ構造を記
録したコンピュータ読取可能な記録媒体。
1. Correspondence between reading of a phrase and spelling of the phrase by holding a character string and information data in association with each other.
A dictionary data structure to be attached and held , wherein the dictionary data structure accumulates a start node n 1 , and the dictionary data structure is a character string c 1 , c 2 , ..., C of length s.
and s, the information data d, the (a) the start node n 1 and pair with the character c 1 (n 1, c 1 )
And node n 2 is stored in a one-to-one correspondence, and (b) for integer i (2 ≦ i ≦ s), node n i and the character
c i and the pair (n i, c i) and, to a one-to-one correspondence to the storage node n i + 1, the information data d by a one-to-one correspondence to the (c) the node n s + 1
By accumulating, it is associated and retained (hereinafter, node
Let n s + 1 be the " final node for the character string c 1 , c 2 , ..., c s "
Call. ), The dictionary data structure uses the first and second terminating characters that are distinguishable from other characters to read the phrase and
Spelling and (p) " string of characters obtained by adding the first terminating character to the string of the reading" and "information data of the spelling" are stored in association with each other, and (q) "the spelling The “character string in which the second terminal character is added to the character string of” and the “information data of the reading” are stored in association with each other, and (r) “information data of the spelling” is written with ““ Sentence
"Character string in which the second terminal character is added to the character string"
Information that refers to the “final node” is accumulated, and (s) “information data of the relevant reading” indicates ““ text of the relevant reading.
"Character string in which the first terminating character is added to the character string"
By accumulating information that refers to the "final node,"
Computer readable recording medium storing a dictionary data structure, characterized in that retaining attach response.
【請求項2】請求項1に記載の辞書データ構造を記憶す
る記録媒体から、長さsの文字の列e1,e2,…esにより
表現される語句に対応付けられて保持される情報データ
を引く辞書引き方法であって、 前記開始ノードn1と前記文字e1との対(n1,e1)に、1対
1に対応させて蓄積されたノードn2を取得する先頭取得
工程と、 整数i (2≦i≦s)について、先に取得されたノードni
前記文字eiとの対(ni,ei)に、1対1に対応させて蓄積
されたノードni+1を順次取得する順次取得工程と、 前記取得されたノードns+1に1対1に対応させて蓄積さ
れた情報データdを取得して出力するデータ出力工程
と、を備え、 ある読みに対応付けられて保持される綴りの情報データ
を引く場合、当該語句として、「当該読みに当該第1の
終端文字を追加したもの」を用い、 ある綴りに対応付けられて保持される読みの情報データ
を引く場合、当該語句として、「当該綴りに当該第2の
終端文字を追加したもの」を用いる ことを特徴とする辞
書引き方法。
2. A storage medium storing the dictionary data structure according to claim 1, which is held in association with a word or phrase expressed by a character string e 1 , e 2 , ... E s having a length s. A dictionary lookup method for pulling information data, which acquires a node n 2 accumulated in a one-to-one correspondence with the pair (n 1 , e 1 ) of the start node n 1 and the character e 1 The acquisition step, and for the integer i (2 ≦ i ≦ s), stored in a one-to-one correspondence with the pair (n i , e i ) of the previously acquired node n i and the character e i . comprising a sequential acquisition step of sequentially acquiring the node n i + 1, a data output step of the obtained node n s + 1 to obtain the stored information data d to correspond to one-to-one output, the , Spelling information data stored in association with a certain reading
When referring to,
It used after adding the terminator ", reading of the information data stored in association with some spelling
When you draw a
A dictionary lookup method characterized by using "the one with the addition of a terminal character" .
【請求項3】前記先頭取得工程もしくは前記順次取得工
程にて、1対1に対応させて蓄積されたノードが取得で
きない場合、当該語句に対応付けられて保持される情報
データはない旨を報告する報告工程をさらに備えること
を特徴とする請求項2に記載の辞書引き方法。
3. In the case where a node accumulated in a one-to-one correspondence cannot be acquired in the head acquisition step or the sequential acquisition step, it is reported that there is no information data stored in association with the word or phrase. The dictionary lookup method according to claim 2, further comprising a reporting step of:
【請求項4】請求項1に記載の辞書データ構造を記憶す
る記録媒体に保持された情報データdから、これに対応
付けられて保持される語句を得る語句取得方法であっ
て、 情報データdに1対1に対応させて、もしくは、情報デ
ータdに参照されて蓄積されたノードm0を取得するノー
ド取得工程と、 前記取得されたノードm0に1対1に対応させて蓄積され
た対(m1,e1)を取得する先頭取得工程と、 整数j (1≦j)について、先に取得されたノードmjに1
対1に対応させて蓄積された対(mj+1,ej+1)を順次取得
する順次取得工程と、 前記開始ノードn1が順次得られた対のいずれかの先頭の
要素mkと一致する場合、順次得られた対の末尾の要素の
列ek,ek-1,…e2,e1を、前記情報データdに対応付け
られて保持された語句を表現する文字の列として出力す
る文字列出力工程と、を備え、 前記文字列出力工程では、当該情報データが読みの情報
データである場合、得られる語句の末尾の終端文字を除
去した文字の列をその綴りとして出力し、 当該情報データが綴りの情報データである場合、得られ
る語句の末尾の終端文字を除去した文字の列をその読み
として出力する ことを特徴とする語句取得方法。
4. A word / phrase acquisition method for obtaining a word / phrase held in association with the information data d held in a recording medium storing the dictionary data structure according to claim 1, the information data d to correspond to one-to-one, or a node acquisition step of acquiring node m 0 stored is referred to the information data d, stored in correspondence with one-to-one to the node m 0 of the acquired For the leading acquisition step of acquiring the pair (m 1 , e 1 ), and the integer j (1 ≦ j), 1 is set to the node m j acquired earlier.
A sequential acquisition step of sequentially acquiring pairs (m j + 1 , e j + 1 ) stored in association with pair 1 , and a start element n k of one of the pairs from which the start node n 1 is sequentially acquired , The sequence of the last elements of the pair obtained sequentially, e k , e k-1 , ... E 2 , e 1 of the character representing the word held in association with the information data d includes a character string output step of outputting as a column, and wherein in the character string output step, information of the information data is read
If it is data, remove the terminator at the end of the resulting phrase.
If the information string is the spelling information data, the obtained string of characters is output as the spelling.
Read the string of characters with the trailing terminating characters removed.
The phrase acquisition method is characterized by outputting as .
【請求項5】請求項1に記載の辞書データ構造を記憶す
る記録媒体から、長さsの文字の列e1,e2,…esにより
表現される語句に対応付けられて保持される情報データ
を引く辞書引き装置であって、 前記開始ノードn1と前記文字e1との対(n1,e1)に、1対
1に対応させて蓄積されたノードn2を取得する先頭取得
部と、 整数i (2≦i≦s)について、先に取得されたノードni
前記文字eiとの対(ni,ei)に、1対1に対応させて蓄積
されたノードni+1を順次取得する順次取得部と、 前記取得されたノードns+1に1対1に対応させて蓄積さ
れた情報データdを取得して出力するデータ出力部と、
を備え、 ある読みに対応付けられて保持される綴りの情報データ
を引く場合、当該語句として、「当該読みに当該第1の
終端文字を追加したもの」を用い、 ある綴りに対応付けられて保持される読みの情報データ
を引く場合、当該語句として、「当該綴りに当該第2の
終端文字を追加したもの」を用いる ことを特徴とする辞
書引き装置。
5. A recording medium storing the dictionary data structure according to claim 1, which is held in association with a word or phrase expressed by a character string e 1 , e 2 , ... E s having a length s. A dictionary look-up device for drawing information data, which acquires a node n 2 accumulated in a one-to-one correspondence with the pair (n 1 , e 1 ) of the start node n 1 and the character e 1 Acquiring unit, for the integer i (2 ≦ i ≦ s), stored in a one-to-one correspondence with the pair (n i , e i ) of the previously acquired node n i and the character e i . A sequential acquisition unit that sequentially acquires the nodes n i + 1, and a data output unit that acquires and outputs the information data d stored in one-to-one correspondence with the acquired nodes n s + 1 ,
And spelling information data that is stored in association with a certain reading
When referring to,
It used after adding the terminator ", reading of the information data stored in association with some spelling
When you draw a
A dictionary lookup device characterized by using "the one with the addition of a terminal character" .
【請求項6】前記先頭取得部もしくは前記順次取得部に
おいて、1対1に対応させて蓄積されたノードが存在し
ないため取得ができない場合、当該語句に対応付けられ
て保持される情報データはない旨を報告する報告部をさ
らに備えることを特徴とする請求項5に記載の辞書引き
装置。
6. If the head acquisition unit or the sequential acquisition unit cannot acquire information because there is no node accumulated in a one-to-one correspondence, there is no information data stored in association with the word or phrase. The dictionary lookup apparatus according to claim 5, further comprising a reporting unit that reports the effect.
【請求項7】請求項1に記載の辞書データ構造を記憶す
る記録媒体に保持された情報データdから、これに対応
付けられて保持される語句を得る語句取得装置であっ
て、 情報データdに1対1に対応させて、もしくは、情報デ
ータdに参照されて蓄積されたノードm0を取得するノー
ド取得部と、 前記取得されたノードm0に1対1に対応させて蓄積され
た対(m1,e1)を取得する先頭取得部と、 整数j (1≦j)について、先に取得されたノードmjに1
対1に対応させて蓄積された対(mj+1,ej+1)を順次取得
する順次取得部と、 前記開始ノードn1が前記順次得られた対のいずれかの先
頭の要素mkと一致する場合、前記順次得られた対の末尾
の要素の列ek,ek-1,…e2,e1を、前記情報データdに
対応付けられて保持された語句を表現する文字の列とし
て出力する文字列出力部と、を備え、 前記文字列出力部は、当該情報データが読みの情報デー
タである場合、得られる語句の末尾の終端文字を除去し
た文字の列をその綴りとして出力し、 当該情報データが綴りの情報データである場合、得られ
る語句の末尾の終端文字を除去した文字の列をその読み
として出力する ことを特徴とする語句取得装置。
7. A word / phrase acquisition device for obtaining a word / phrase held in association with the information data d held in a recording medium storing the dictionary data structure according to claim 1, the information data d In a one-to-one correspondence with each other, or with reference to the information data d, to acquire the accumulated node m 0, and a node acquisition unit, and in a one-to-one correspondence with the acquired node m 0 For the head acquisition unit that acquires the pair (m 1 , e 1 ), and the integer j (1 ≦ j), 1 is set for the node m j acquired earlier.
A sequential acquisition unit that sequentially acquires pairs (m j + 1 , e j + 1 ) stored in association with pair 1 , and the start node n 1 is the head element m of one of the sequentially acquired pairs. When it matches with k , the sequence e k , e k-1 , ... E 2 , e 1 of the last element of the pair obtained in sequence is expressed as the word held in association with the information data d. A character string output unit for outputting as a character string , wherein the character string output unit is an information data reading device for reading the information data.
Remove the trailing terminator of the resulting phrase,
Character of the string is output as a spelling, when the information data is information data for spelling, obtained
Read the string of characters with the trailing terminating characters removed.
The phrase acquisition device is characterized by outputting as .
【請求項8】前記辞書データ構造は、配列BASEと配列CH
ECKとを用いて、語句と、ノードと、その情報データと
を保持し、 開始ノードn1と、 保持される語句を表現する文字の列c1,c2,…,csと、 これに対応付けられるノードn2,…,ns,ns+1と、の情
報をそれぞれ整数で表現し、 整数i (1≦i≦s)について、前記配列BASEのni番目の要
素BASE[ni]と、前記配列CHECKのni+1番目の要素CHECK[n
i+1]と、に対して、2つの条件 ni+1 = BASE[ni] + ci CHECK[ni+1] = ni がいずれも満たされるように保持することを特徴とする
請求項1に記載の記録媒体。
8. The dictionary data structure includes an array BASE and an array CH.
ECK is used to hold a word, a node, and its information data, and a start node n 1 and a character string c 1 , c 2 , ..., c s representing the held word, and The information of the associated nodes n 2, ..., N s , n s + 1 is represented by integers, and for the integer i (1 ≦ i ≦ s), the n i- th element BASE [n of the array BASE i ] and the n i + 1th element CHECK [n of the array CHECK
i + 1 ] and two conditions n i + 1 = BASE [n i ] + c i CHECK [n i + 1 ] = n i are held so that both are satisfied. The recording medium according to claim 1.
【請求項9】請求項8に記載の辞書データ構造を記憶す
る記録媒体から、長さsの文字の列e1,e2,…esにより
表現される語句に対応付けられて保持される情報データ
を引く辞書引き方法であって、 整数i (1≦i≦s)について、前記配列BASEのni番目の要
素BASE[ni]と文字eiとの和ti = BASE[ni] + eiが、条件
CHECK[ti] = niを満たす場合、整数ni+1 = tiとして順
次取得する順次取得工程と、 前記取得された整数ns+1に1対1に対応されて蓄積され
た情報データdを取得して出力するデータ出力工程と、
を備えることを特徴とする辞書引き方法。
9. A recording medium storing the dictionary data structure according to claim 8, which is held in association with a word or phrase expressed by a character string e 1 , e 2 , ... E s of length s. A dictionary lookup method for pulling information data, wherein, for an integer i (1 ≦ i ≦ s), the sum of the n i- th element BASE [n i ] of the array BASE and the character e i t i = BASE [n i ] + e i is the condition
When CHECK [t i ] = n i is satisfied, a sequential acquisition step of sequentially acquiring as integer n i + 1 = t i , and information accumulated in a one-to-one correspondence with the acquired integer n s + 1 A data output step of acquiring and outputting the data d,
A dictionary lookup method comprising:
【請求項10】前記順次取得工程において、前記条件が
満たされない場合、当該語句に対応付けられて保持され
る情報データはない旨を報告する報告工程をさらに備え
ることを特徴とする請求項9に記載の辞書引き方法。
10. The method according to claim 9, further comprising a reporting step of reporting that there is no information data held in association with the phrase when the condition is not satisfied in the sequential acquisition step. How to look up the dictionary.
【請求項11】請求項8に記載の辞書データ構造を記憶
する記録媒体に保持された情報データdから、これに対
応付けられて保持される語句を得る語句取得方法であっ
て、 情報データdに1対1に対応させて、もしくは、情報デ
ータdに参照されて蓄積されたノードの情報を表現する
整数m0を取得するノード取得工程と、 整数j (0≦j)について、先に取得された整数mjから、
整数mj+1 = CHECK[mj]と、文字整数ej+1 = mj - BASE[m
j]とを順次取得する順次取得工程と、 前記開始ノードの情報を表現する整数n1と、前記順次得
られたいずれかの整数mkと、が等しい場合、前記順次得
られた文字整数の列ek,ek-1,…e2,e1を、前記情報デ
ータdに対応付けられて保持された語句を表現する文字
の列として出力する文字列出力工程と、を備えることを
特徴とする語句取得方法。
11. A phrase acquisition method for obtaining a phrase retained in association with an information data d retained in a recording medium storing the dictionary data structure according to claim 8, the information data d The node acquisition step of acquiring the integer m 0 expressing the information of the node accumulated in one-to-one correspondence with or in reference to the information data d, and the integer j (0 ≦ j) are acquired first. From the integer m j
The integer m j + 1 = CHECK [m j ] and the character integer e j + 1 = m j -BASE [m
j ] and a sequential acquisition step of sequentially acquiring, and an integer n 1 expressing the information of the start node, and any of the sequentially obtained integers m k , if the sequentially obtained character integer A character string output step of outputting the strings e k , e k-1 , ... E 2 , e 1 as a string of characters expressing a word held in association with the information data d. How to get words and phrases.
【請求項12】請求項8に記載の辞書データ構造を記憶
する記録媒体から、長さsの文字の列e1,e2,…esによ
り表現される語句に対応付けられて保持される情報デー
タを引く辞書引き装置であって、 整数i (1≦i≦s)について、前記配列BASEのni番目の要
素BASE[ni]と文字eiとの和ti = BASE[ni] + eiが、条件
CHECK[ti] = niを満たす場合、整数ni+1 = tiとして順
次取得する順次取得部と、 前記取得された整数ns+1に1対1に対応されて蓄積され
た情報データdを取得して出力するデータ出力部と、を
備えることを特徴とする辞書引き装置。
12. A storage medium, which stores the dictionary data structure according to claim 8, is held in association with a word or phrase represented by a character string e 1 , e 2 , ... E s having a length s. A dictionary look-up device for drawing information data, wherein, for an integer i (1 ≦ i ≦ s), the sum of the n i- th element BASE [n i ] of the array BASE and the character e i t i = BASE [n i ] + e i is the condition
When CHECK [t i ] = n i is satisfied, a sequential acquisition unit that sequentially acquires as an integer n i + 1 = t i , and information accumulated in a one-to-one correspondence with the acquired integer n s + 1 A dictionary lookup device, comprising: a data output unit that acquires and outputs data d.
【請求項13】前記順次取得部において、前記条件が満
たされない場合、当該語句に対応付けられて保持される
情報データはない旨を報告する報告部をさらに備えるこ
とを特徴とする請求項12に記載の辞書引き装置。
13. The sequential acquisition unit further comprises a reporting unit for reporting that there is no information data held in association with the phrase when the condition is not satisfied. The dictionary lookup device described.
【請求項14】請求項8に記載の辞書データ構造を記憶
する記録媒体に保持された情報データdから、これに対
応付けられて保持される語句を得る語句取得装置であっ
て、 情報データdに1対1に対応させて、もしくは、情報デ
ータdに参照されて蓄積されたノードの情報を表現する
整数m0を取得するノード取得部と、 整数j (0≦j)について、先に取得された整数mjから、
整数mj+1 = CHECK[mj]と、文字整数ej+1 = mj - BASE[m
j]とを順次取得する順次取得部と、 前記開始ノードの情報を表現する整数n1と、前記順次得
られたいずれかの整数mkと、が等しい場合、前記順次得
られた文字整数の列ek,ek-1,…e2,e1を、前記情報デ
ータdに対応付けられて保持された語句を表現する文字
の列として出力する文字列出力部と、を備えることを特
徴とする語句取得装置。
14. A word / phrase acquisition device for obtaining a word / phrase held in association with the information data d held in a recording medium storing the dictionary data structure according to claim 8, the information data d The node acquisition unit that acquires the integer m 0 that represents the information of the node that is stored in a one-to-one correspondence with or in reference to the information data d, and the integer j (0 ≦ j) From the integer m j
The integer m j + 1 = CHECK [m j ] and the character integer e j + 1 = m j -BASE [m
j ] and a sequential acquisition unit that sequentially acquires the integer n 1 that represents the information of the start node, and any of the sequentially obtained integers m k , if the sequentially obtained character integer A character string output unit that outputs the strings e k , e k-1 , ... E 2 , e 1 as a string of characters expressing a word held in association with the information data d. A phrase acquisition device.
【請求項15】コンピュータを、請求項5、6、12も
しくは13に記載の辞書引き装置、または、請求項7も
しくは14に記載の語句取得装置として機能させること
を特徴とするプログラムを記録したコンピュータ読取可
能な記録媒体。
15. A computer recording a program for causing a computer to function as the dictionary lookup device according to claim 5, 6, 12 or 13 or the word acquisition device according to claim 7 or 14. A readable recording medium.
JP2000202127A 2000-07-04 2000-07-04 Recording medium recording dictionary data structure, dictionary lookup method, phrase acquisition method, dictionary lookup apparatus, phrase acquisition apparatus, recording medium recording program Expired - Fee Related JP3452353B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000202127A JP3452353B2 (en) 2000-07-04 2000-07-04 Recording medium recording dictionary data structure, dictionary lookup method, phrase acquisition method, dictionary lookup apparatus, phrase acquisition apparatus, recording medium recording program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000202127A JP3452353B2 (en) 2000-07-04 2000-07-04 Recording medium recording dictionary data structure, dictionary lookup method, phrase acquisition method, dictionary lookup apparatus, phrase acquisition apparatus, recording medium recording program

Publications (2)

Publication Number Publication Date
JP2002024233A JP2002024233A (en) 2002-01-25
JP3452353B2 true JP3452353B2 (en) 2003-09-29

Family

ID=18699697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000202127A Expired - Fee Related JP3452353B2 (en) 2000-07-04 2000-07-04 Recording medium recording dictionary data structure, dictionary lookup method, phrase acquisition method, dictionary lookup apparatus, phrase acquisition apparatus, recording medium recording program

Country Status (1)

Country Link
JP (1) JP3452353B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103264303A (en) * 2013-05-16 2013-08-28 大连理工大学 Pneumatic precise clamping device of low-rigidity thin-wall cavity part

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3761451B2 (en) * 2001-11-19 2006-03-29 株式会社ジャストシステム Data structure for storing symbol string, symbol string search device, symbol string search method, program, and information recording medium
JP2003263461A (en) * 2002-03-08 2003-09-19 Just Syst Corp Data structure for storing symbol string, registration device, retrieval device, registering method, retrieval method, and program
JP6300596B2 (en) * 2014-03-27 2018-03-28 Kddi株式会社 Dictionary device, morpheme analyzer, data structure, morpheme analysis method and program
JP6300601B2 (en) * 2014-03-31 2018-03-28 Kddi株式会社 Dictionary device, morpheme analyzer, data structure, morpheme analysis method and program
CN117540434B (en) * 2024-01-10 2024-03-15 成都数据集团股份有限公司 Database management and security analysis method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
長尾真、佐藤理史、黒橋禎夫、角田達彦,岩波講座ソフトウェア科学15 自然言語処理,日本,株式会社岩波書店,1999年10月 5日,第4刷,第250〜253頁
青江順一,自然言語辞書の検索 ダブル配列による高速ディジタル検索アルゴリズム,bit,日本,共立出版,1989年 5月 1日,第270号,第776〜784頁

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103264303A (en) * 2013-05-16 2013-08-28 大连理工大学 Pneumatic precise clamping device of low-rigidity thin-wall cavity part
CN103264303B (en) * 2013-05-16 2015-04-29 大连理工大学 Pneumatic precise clamping device of low-rigidity thin-wall cavity part

Also Published As

Publication number Publication date
JP2002024233A (en) 2002-01-25

Similar Documents

Publication Publication Date Title
JP3167500B2 (en) Handwritten information input processing method
JP3452353B2 (en) Recording medium recording dictionary data structure, dictionary lookup method, phrase acquisition method, dictionary lookup apparatus, phrase acquisition apparatus, recording medium recording program
JP2010134922A (en) Similar word determination method and system
CN110704608A (en) Text theme generation method and device and computer equipment
JP2004233577A (en) Method for forming speech recognition dictionary
JP4845523B2 (en) Character processing apparatus, method, program, and recording medium
CN115577683A (en) HTML rich text content conversion method, device, equipment and medium
JPH05113964A (en) Electronic dictionary
JP2020115246A (en) Generation device, software robot system, generation method and generation program
JP2004334690A (en) Character data inputting/outputting device and method, character data inputting/outputting program, and computer-readable recording medium
JP2831837B2 (en) Document search device
JP5483166B2 (en) Document search apparatus, document search method, and program
JP2005284417A (en) Random access method for xml document of table format, and its program
JP3329476B2 (en) Kana-Kanji conversion device
JPH0716192Y2 (en) Text processor
JP2004118461A (en) Method and device for training language model, method and device for kana/kanji conversion, computer program, and computer readable recording medium
JP3021224B2 (en) Dictionary search device
JP5522017B2 (en) Information processing apparatus, information processing apparatus control method, and computer program
JP2005011215A (en) Information processor, information processing method, and program
JPH0677252B2 (en) Japanese data input processor
CN114283914A (en) Medical data conversion method and device and electronic equipment
JP2015197697A (en) Character input device, character input method, and character input program
JP2013191106A (en) Input support program, input support device and input support method
JP3184035B2 (en) Single-phrase kana-kanji conversion input method
JP2688651B2 (en) String converter

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees