JPH03134773A - 日本語辞書データ管理方式 - Google Patents

日本語辞書データ管理方式

Info

Publication number
JPH03134773A
JPH03134773A JP1271855A JP27185589A JPH03134773A JP H03134773 A JPH03134773 A JP H03134773A JP 1271855 A JP1271855 A JP 1271855A JP 27185589 A JP27185589 A JP 27185589A JP H03134773 A JPH03134773 A JP H03134773A
Authority
JP
Japan
Prior art keywords
word
dictionary
characters
word dictionary
japanese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1271855A
Other languages
English (en)
Other versions
JPH0827804B2 (ja
Inventor
Masahiro Oku
雅博 奥
Shinichiro Takagi
伸一郎 高木
Koji Matsuoka
浩司 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1271855A priority Critical patent/JPH0827804B2/ja
Publication of JPH03134773A publication Critical patent/JPH03134773A/ja
Publication of JPH0827804B2 publication Critical patent/JPH0827804B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の目的〕 (産業上の利用分野) 本発明は、計算機による日本語処理において日本文中か
ら単語を抽出する日本語辞書のデータを管理する日本語
辞書データ管理方式に関し、更に詳しくは、日本語辞書
を単語の長さに応じて複数の辞書に分類することによっ
て単語の検索時間の短縮を図る日本語辞書データ管理方
式に関する。
(従来の技術) 日本文を単語に分類する従来の方法は、1つの日本語辞
書にすべての単語を登録しておき、この辞書を用いて日
本文を単語に分割するものである。
第4図は日本文の中から2文字以上の単語を抽出する従
来の方法の説明図である。同図において、1は単語候補
抽出の対象文字列であり、2はこの対象文字列から網羅
的に抽出される単語候補列であり、3はフィールド長と
して最も長い単語の長さを有する日本語辞書の見出しキ
一部であり(長さをn文字とする)、4はデータ部であ
る。
第5図は第4図に示す方法における単語抽出の概略処理
を示すフローチャートである。単語抽出は、第4図およ
び第5図に示すように、2文字から1文字ずつ増やして
、単語候補抽出の対象文字列1との見出しのマツチング
により網羅的に行われる。この従来の方法では、このマ
ツチングの際にいかなる長さの文字列であっても、辞書
の見出しキ一部3の長さのn文字に合わせなければなら
ないので、n文字に足りない部分はブランクを埋める等
の処理が必要となる。また、一般に、キー長が長くなる
ほど、マツチングに要する時間が長くなる。
第4図においては、単語候補文字列2の中の「特許」を
キーとして日本語辞書を検索する際に、日本語辞書の見
出しキー長であるn文字に合わせるために文字列「特許
」の後方に(n −2)文字のブランクを埋め、この「
特許」を含むn文字の文字列をキーとして日本語辞書を
検索し、検索に成功して初めて「特許」が単語として判
明する。
次に、「特許」よりも1文字だけ長い文字列「特許出」
が単語であるか否かを調べるために、「特許」の場合と
同様に(n−3)文字のブランクを埋め、日本語辞書を
検索する。文字列「特許出」は日本語辞書に登録されて
いないので、単語ではないことが判明する。以下、文字
列「許出」、「出願」、「出願人」についても同様の処
理が行われる。そして結果として、[特許」、「出願」
、「出願人」の3つの単語候補列が日本語辞書に登録さ
れていることがわかり、単語として認定される。
(発明が解決しようとする課題) 以上のように従来の方法では、短い単語候補列であって
も、見出しのキー長を日本語辞書の最も長い見出しキー
長に合わせることが必要であるため、短い単語候補列に
対しても最も長い見出しキー長に対応した長い検索時間
がかかるとともに、またキ一部分に無駄な空き領域が多
く、非効率的であるという問題がある。
本発明は、上記に鑑みてなされたもので、その目的とす
るところは、無駄な空き領域が少なく、かつ検索時間が
短い日本語辞書データ管理方式を提供することにある。
〔発明の構成〕
(課題を解決するための手段) 上記目的を達成するため、本発明の日本語辞書データ管
理方式は、単語を構成する文字数に応じた複数の単語辞
書に各単語を分類して登録する分類登録手段と、前記複
数の単語辞書のうち単語の文字数の短い単語辞書に存在
しない単語と同し単語を先頭文字に含む単語が単語の文
字数の長い単語辞書に存在する場合、前記文字数の短い
単語辞書に存在しない前記単語を該文字数の短い単語辞
書に追加登録する追加登録手段と、前記複数の単語辞書
のうち単語の文字数の短い単語辞書に存在する単語と同
じ単語を先頭文字に含む単語が単語の文字数の長い単語
辞書に存在する場合、該文字数の長い単語辞書の中で最
も短い文字数の単語辞書を示す次検索辞書種別情報を前
記文字数の短い単語辞書に設定する次検索辞書種別情報
設定手段とを有することを要旨とする。
(作用) 本発明の日本語辞書データ管理方式では、単語の文字数
に応じて複数の単語辞書に各単語を分類登録し、文字数
の短い単語辞書に存在しない単語と同じ単語を先頭文字
に含む単語が文字数の長い単語辞書に存在する場合、該
単語を文字数の短い単語辞書に追加登録し、文字数の短
い単語辞書に存在する単語と同じ単語を先頭文字に含む
単語が文字数の長い単語辞書に存在する場合、該文字数
の長い単語辞書の中で最も短い文字数の単語辞書を示す
次検索辞書種別情報を前記文字数の短い単語辞書に設定
している。
(実施例) 以下、図面を用いて本発明の詳細な説明する。
第1図は本発明の一実施例に係わる日本語辞書データ管
理方式の説明図であり、第2図は第1図の日本語辞書デ
ータ管理方式の作用を示すフローチャートである。第1
図において、1および2はそれぞれ前述したと同様に単
語候補抽出の対象文字列であり、2はこの対象文字列か
ら網羅的に抽出される単語候補列である。本実施例にお
いては、単語辞書は単語文字の長さに応じて分割されて
構成され、例えば、図示のように2文字の単語からなる
2文字単語辞書10および3文字列以上の単語からなる
3文字以上単語辞書11のように構成される。
2文字単語辞書10において、5は2文字単語辞書10
用の見出しキ一部であり、その長さは2文字である。6
は次検索辞書種別情報であり、この情報に対応する2文
字単語辞書10の見出しキ一部5の2文字が3文字以上
単語辞書11の先頭の2文字にある場合には、該次検索
辞書種別情報6は「1」に設定され、また3文字以上単
語辞書11の先頭の2文字にない場合には、該次検索辞
書種別情報6は「0」に設定される。更に、7は2文字
単語辞書10のデータ部である。
また、3文字以上単語辞書11において、8は見出しキ
一部であり、9はデータ部である。
次に、第2図に示すフローチャートを参照して作用を説
明する。
第2図においては、対象文字列1をlとするとともに、
この文字列gの対象文字列1の中で検索しようとする文
字列の先頭の文字位置iを1としく1−1)、また検索
キー長を2に設定する(ステップ110,120)。更
に、対象文字列1のi文字目からj文字までを最初の検
索キーとする(ステップ130)。また、jは最初2に
設定され、次のステップ140においてjが2より大き
いか否かチエツクされ(j>2)、この結果に応じて2
文字単語辞書10または3文字以上単語辞書11が検索
される。
具体的には、第1図に示す場合には、単語候補抽出の対
象文字列1の中において第1番目(i −1)から第2
番目(j−2)に対応する最初の2文字の「特許」を単
語候補列2として抽出する。
そして、この場合のjは2より大きいので、ステップ1
50に進み、この単語候補列2の文字列「特許」を検索
キーとして2文字単語辞書10を検索する。この場合、
2文字単語辞書10のキー長は2文字であるので、「特
許」で検索すればよく、従来のようなブランクを付加す
る必要はない。
「特許」を検索キーとして2文字単語辞書10を検索す
ると、「特許」が単語として登録されているので、完全
マツチするため(ステップ160)、更に完全マツチす
る単語のすべてを次検索で検索する(ステップ170)
。それから、この検索した単語の次検索辞書種別情報6
が「1」であるか否か、すなわち「特許」を先頭2文字
として有する単語が3文字以上単語辞書11の中に存在
するか否かチエツクする(ステップ180)。「特許」
の次検索辞書種別情報6は「0」であり、3文字以上単
語辞書11の中に「特許」を先頭2文字とする単語が存
在しないことがわかる。また、単語候補列2の中の「特
作出」は3文字以上単語辞書11の中にはないことがわ
かるので、この「特作出」については辞書検索を行う必
要はない。
また、次の「作出」については、2文字単語辞書10を
検索した時点て登録されていないことがわかるので、単
語でないことが明らかとなる。
更に、「出願」については、2文字単語辞書10の中に
「出願」として登録されていることが上述したと同じ検
索処理により認定されるとともに、この「出願」の次検
索辞書種別情報6は「1」と認定され、3文字以上単語
辞書11の中に「出願」を先頭2文字として有する単語
が存在することがわかる。従って、この場合の検索キー
長を3として、「出願」に1文字加えた「出願人」を検
索キーとして、3文字以上単語辞書11を検索する(ス
テップ190以降)。この結果、3文字以上単語辞書1
1には「出願人」が登録されているので、「出願人」は
単語として登録される。
以上のように、「特許」、「出願」、「出願人」の3つ
が単語として認定される。このとき、「特許」、「出願
」の2語に対しては、2文字をキーとして検索すればよ
いので、従来の方法に比較して検索時間が非常に短くな
る。
本実施例の日本語辞書データ管理方式の有効性を確認す
るために、漢字用語辞書(漢字2文字以上の単語)、漢
字1文字辞書、カタカナ辞書、ひらがな辞書、混ぜ書き
辞書の5つの辞書を用いて、日本文の形態素解析を行う
システムに本実施例の日本語辞書データ管理方式を適用
し、従来の漢字用語辞書を2文字単語辞書と3文字以上
単語辞書の2つに分割して、この分割前後の辞書サイズ
および形態素解析時間の比較を行った結果は次の通りで
ある。
(1)辞書サイズの比較 分割前の漢字用語辞書 ・18896000バイト 分割後の2つの辞書の合計 ・15633408バイト (2)形態素解析時間の比較 マニュアルから任意に取り出した1文当りの39文字の
平均文字長を有する20文について比較した結果は次の
通りである。
分割前の形態素解析時間・・・177.7秒分割後の形
態素解析時間・・・148.7秒以上のことから、本日
本語辞書データ管理方式を日本語の形態素解析に使用す
ることにより、辞書サイズを約8%削減でき、更に形態
素解析に必要な処理時間も約16%削減できる。
第3図は本発明の他の実施例に係わる日本語辞書データ
管理方式の説明図である。同図に示す実施例は、同図に
示す9語を2文字単語辞書、3文字単語辞書および4文
字以上単語辞書に登録する場合の処理を説明するもので
ある。
第3図において、12は2文字単語辞書の見出しキ一部
、13は3文字単語辞書または4文字以上単語辞書への
次検索辞書種別情報であって、2文字単語辞書の見出し
キ一部12にある2文字が3文字単語辞書の中の先頭に
文字にある場合には「3」が設定され、4文字以上単語
辞書の中の先頭2文字にある場合には「4」が設定され
、両者にない場合には「0」が設定される。14は2文
字単語辞書のデータ部である。
3文字単語辞書において、15は見出しキ一部であり、
16は4文字以上単語辞書への次検索辞書種別情報であ
って、3文字単語辞書の見出しキ一部12にある2文字
が4文字以上単語辞書の中の先頭2文字にある場合には
「4」が設定され、ない場合には「0」が設定される。
17は3文字単語辞書データ部である。
4文字以上単語辞書において、18は見出しキ一部であ
り、19はデータ部である。
登録すべき9語、すなわちAA、A’AB、AB。
ABA、ABAC,ABACDE、AE、AFE。
AFEDは、その字面長に応じて、2文字単語辞書、3
文字単語辞書または4文字以上単語辞書のいずれかに分
割して登録される。なお、この時には、2文字単語辞書
および3文字単語辞書の次検索辞書種別情報は設定され
ない。
次に、3文字単語辞書および4文字以上単語辞書に登録
されている単語であって、その先頭2文字の文字列が2
文字単語辞書に登録されていない文字列を検出する。第
3図においては、文字列rAFJがこの文字列に相当す
る。従って、この文字列rAFJを2文字単語辞書の見
出しキ一部にダミーレコードとして登録する。
最後に、次検索辞書種別情報の設定を行う。例えば、2
文字単語辞書のrAFJは3文字単語辞書のrAFEJ
および4文字以上単語辞書の「AFEDJの2つに含ま
れているので、2文字単語辞書の次検索辞書種別情報1
3には、単語長の短い方の3文字単語辞書を示す「3」
を設定する。
また、2文字単語辞書のrAAJは3文字単語辞書のr
AABJに含まれているので、次検索辞書種別情報13
には「3」が設定されている。2文字単語辞書の「AB
」も同様である。2文字)■語辞書のrAEJは他の辞
書に含まれていないので、次検索辞書種別情報13には
「0」が設定される。
更に、3文字単語辞書のrAABJは4文字以上単語辞
書に含まれていないので、その次検索辞書種別情報16
には「0」が設定される。3文字単語辞書の「A B 
AJは4文字以上単語辞書の「ABACJおよびrAB
ACDEJに含まれているので、その次検索辞書種別情
報16には「4」が設定される。3文字単語辞書のrA
FEJは4文字以上単語辞書のrA F E DJに含
まれているので、その次検索辞書種別情報16には「4
」が設定される。
以上のようにして、第3図に示す2文字単語辞書、3文
字単語辞書および4文字以上単語辞書が作成される。
〔発明の効果〕
以上説明したように、本発明によれば、単語の文字数に
応じて複数の単語辞書に各単語を分類登録し、文字数の
短い単語辞書に存在しない単語と同じ単語を先頭文字に
含む単語が文字数の長いji1語辞書に存在する場合、
該単語を文字数の短い単語辞書に追加登録し、文字数の
短い単語辞書に存在する単語と同じ単語を先頭文字に含
む(11語が文字数の長い単語辞書に存在する場合、該
文字数の長い単語辞書の中で最も短い文字数の単語辞書
を示す次検索辞書種別情報を前記文字数の短い単語辞書
に設定しているので、単語の検索に当たって単語の長さ
を単語辞書の見出しキー長に合わせる必要がなく、単語
辞書のキ一部分に空領域か存在しないため、使用効率を
向上することかできるとともに、検索時間を短縮するこ
とができる。
【図面の簡単な説明】
第1図は本発明の一実施例に係わる日本語辞書データ管
理方式の説明図、第2図は第1図の日本語辞書データ管
理方式の作用を示すフローチャート、第3図は本発明の
他の実施例に係わる日本語辞書データ管理方式の説明図
、第4図は従来の方法による単語抽出の説明図、第5図
は第4図の作用を示すフローチャートである。 1・・・対象文字列、 2・ ・単語候補列、 5.8・・・見出しキ一部、 6・・・次検索辞書種別情報、 7.9・ ・データ部、 10・ ・2文字単語辞書、 11・ ・3文字以上単語辞書。

Claims (1)

    【特許請求の範囲】
  1. 単語を構成する文字数に応じた複数の単語辞書に各単語
    を分類して登録する分類登録手段と、前記複数の単語辞
    書のうち単語の文字数の短い単語辞書に存在しない単語
    と同じ単語を先頭文字に含む単語が単語の文字数の長い
    単語辞書に存在する場合、前記文字数の短い単語辞書に
    存在しない前記単語を該文字数の短い単語辞書に追加登
    録する追加登録手段と、前記複数の単語辞書のうち単語
    の文字数の短い単語辞書に存在する単語と同じ単語を先
    頭文字に含む単語が単語の文字数の長い単語辞書に存在
    する場合、該文字数の長い単語辞書の中で最も短い文字
    数の単語辞書を示す次検索辞書種別情報を前記文字数の
    短い単語辞書に設定する次検索辞書種別情報設定手段と
    を有することを特徴とする日本語辞書データ管理方式。
JP1271855A 1989-10-20 1989-10-20 日本語辞書データ管理方式 Expired - Lifetime JPH0827804B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1271855A JPH0827804B2 (ja) 1989-10-20 1989-10-20 日本語辞書データ管理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1271855A JPH0827804B2 (ja) 1989-10-20 1989-10-20 日本語辞書データ管理方式

Publications (2)

Publication Number Publication Date
JPH03134773A true JPH03134773A (ja) 1991-06-07
JPH0827804B2 JPH0827804B2 (ja) 1996-03-21

Family

ID=17505822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1271855A Expired - Lifetime JPH0827804B2 (ja) 1989-10-20 1989-10-20 日本語辞書データ管理方式

Country Status (1)

Country Link
JP (1) JPH0827804B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241324A (ja) * 1995-03-03 1996-09-17 Olympus Optical Co Ltd 文書検索方法
JPH0991297A (ja) * 1995-09-26 1997-04-04 Nippon Steel Corp 文字列検索方法及び装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08241324A (ja) * 1995-03-03 1996-09-17 Olympus Optical Co Ltd 文書検索方法
JPH0991297A (ja) * 1995-09-26 1997-04-04 Nippon Steel Corp 文字列検索方法及び装置

Also Published As

Publication number Publication date
JPH0827804B2 (ja) 1996-03-21

Similar Documents

Publication Publication Date Title
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
JP3300866B2 (ja) テキスト処理システムにより使用されるテキストを準備する方法及び装置
US5680628A (en) Method and apparatus for automated search and retrieval process
US7110939B2 (en) Process of automatically generating translation-example dictionary, program product, computer-readable recording medium and apparatus for performing thereof
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
JPH0724055B2 (ja) 単語分割処理方法
US6360197B1 (en) Method and apparatus for identifying erroneous characters in text
EP0775963B1 (en) Indexing a database by finite-state transducer
Zitouni et al. The impact of morphological stemming on Arabic mention detection and coreference resolution
JP3022539B1 (ja) 文書検索装置
CN1464430A (zh) 区分亚洲语言写入系统中组织名称的系统
JPH0869476A (ja) 検索システム
JPH03134773A (ja) 日本語辞書データ管理方式
JP3489237B2 (ja) 文書検索方法
JPH056398A (ja) 文書登録装置及び文書検索装置
JPS61248160A (ja) 文書情報登録方式
JPS61166676A (ja) 文字処理装置における辞書作成方式
JPH1011431A (ja) 漢字検索装置および方法
JP3880116B2 (ja) 電子ファイリングシステム、電子ファイリング方法及び記録媒体
JP3743252B2 (ja) アルファベット表記法人名検索システムと方法およびその処理プログラムを記録した記録媒体
WO2018228101A1 (zh) 基于汉语含义的汉语编码方法及系统和介质设备
JPH08221443A (ja) 漢字を含むテキストの検索方法及び装置
JPH05250403A (ja) 日本文単語解析方式
JPH0944496A (ja) 自然語解析方法及び装置
JPH1185761A (ja) 未知語登録装置および方法並びに記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090321

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090321

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100321

Year of fee payment: 14

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100321

Year of fee payment: 14