JPS58146927A - 関連語情報を有する単語辞書作成方式 - Google Patents

関連語情報を有する単語辞書作成方式

Info

Publication number
JPS58146927A
JPS58146927A JP57029216A JP2921682A JPS58146927A JP S58146927 A JPS58146927 A JP S58146927A JP 57029216 A JP57029216 A JP 57029216A JP 2921682 A JP2921682 A JP 2921682A JP S58146927 A JPS58146927 A JP S58146927A
Authority
JP
Japan
Prior art keywords
word
information
identification number
storage area
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57029216A
Other languages
English (en)
Inventor
Hitoshi Miyai
均 宮井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Priority to JP57029216A priority Critical patent/JPS58146927A/ja
Publication of JPS58146927A publication Critical patent/JPS58146927A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、仮名漢字変換等の言語処理において用いられ
るもので、単語に関する属性等を含む単語情報を格納し
た単語辞壷に、単−間の@、4紬関係を示す情報、即ち
関連語情報を登録する方式に関するものである。
従来単語辞書に関連語情報を登録する方式には2つの方
式が知られている。単鎚人と単a=33が関連している
場合を例にとって前記2つの方式を説明する。第1の方
式は単語Aに対応する単語情報に、単語Bに対応する単
語情報の内容の一部または全部を付加するとともに、逆
に単語Bに対応する単語情報に、単飴人に対応する単語
情報の内容の一部または全部を付加することにより、単
!aA、  に単語Bを関連させたものである。また第
2の方式は、単語ムに対応する単語情報に、単語BK対
応する単語情報の格納位置情報を付加するとともに、逆
に単lIBに対応する単語情報に、単語人に対応する単
語情報の格納位置情報を付加することにより、単語ムに
単NIBを関連させたものである。
しかしながらいずれの方式も以下に示す欠点を有してい
る。IIlの方式においては、単語情報自体を一連語情
報として付加しているため1通常数万語を越えるといわ
れる単語辞書に重複して、同じ単結情報が登録される形
になり、単結辞書の容量が膨大になるという欠点を有し
ている6また第20方式においては、単語情報の格納位
置情報を付加しているため、新しく単語情報を単結辞書
に追加登録する場合には、単結辞書に既に登録されてい
る他の単語情報の格納位置情報がすれるため、単語辞書
全体に分散格納されている関連付けのための位置情報も
同じように変更しなければならないという欠点を有して
いる。
本発明の目的に以上のような欠点を除去し、単m辞書K
ll鍮される一連語情報を少なくするとともに、単語辞
書に既に登録されている一連語情報を全く変更すること
なく、新しく単語情報を追加することを可能にすること
である。
本発明によれば、日本語を構成する単結に関する単語情
報を、複数個格納した単結辞書において、各単結情報を
一意的に識別することのできる基本識別番号を格納し九
m桁の識別番号格納領域と、n桁から成る初期化された
拡張識別番号を格納した拡張識別番号格納領域の2種類
の領域で構成される単語識別番号格納領域、およびm 
+ n桁から成るp個の関連語識別番号を格納する関連
飴繊別番号格納領域1−、各単語情報毎に紋け、互いに
関連のある単語対人、Bが入力されたとき、単語ムに対
応する単結情報に付されている単結1に別番号を、単9
Bi(対応する単結情報に付されている関連語識別番号
格納領域に格納するとともに、単語Bに対応する単結情
報に付されている単語識別番号を、単MAに対応する単
語情報に付されている関連語識別番号格納領域に格納す
ることにより、単語間に関連語化を行なうえ単語辞書を
作成することができる。
次に本発明の原理を図面に基づいて説明する。
第1図は単結AおよびBの関連語関係が記述されていな
い単語辞@ 100の内容を示す模式図である。鯖1w
Aにおいては繁雑さを避けるため、単語ムおよびB以外
の単語に関する記述は省略している。
単語辞書1000構成について単結Aを例にとって11
1!明する。単結AK関して単結辞書100内には、単
結情報格納領域1013および基本識別番号格納領域1
011および拡張識別番号格納領域1012および5餉
の関連語識別番号格納領域1014〜1018の4纏類
の情報格納領域が設けられる。基本m別番号格納領域1
011および拡張識別番号格納領域1012を総称して
単語識別番号格納領w、1011 。
1012と呼ぶ、QL下の虹明では、繁雑さを避ける丸
め前記各情報格納領域に付された番号は、咳情報格納領
域に格納された情報自体をも指すものとする。
単語ムに関する単語情報1013は、単結ムについての
「読み」、「表記」、「品詞」、「属性」等言語処理を
行なう上で必要となる情報を総称する。基本峻別番号1
011は、単語AK対する単語情報1013を単語辞書
10G内で一意的Km別するための番号であり、第1図
の例では151とい53桁のlθ進数で単語ムに対する
基本識別番号1011としている。拡張識別番号101
2は、単語辞書100内に新しい単結に対する単結情報
を追加登録するときの基本識別番号1011の拡張用で
あり、追加登録されていない状lIの単語辞書10Gで
は、全て初期値が格納される。第1図の例では00とい
う2桁のlO迩数が格納されている。基本識別番号1o
llおよび拡張識別番号1o12を総称して単S!識別
香号1011 、1012  ト呼ヒ、第1 bin)
Nでは単語ムに対する単語識別番号1011 、101
2として、1510G  という5桁の10進数に対応
づけている。
次に関連語識別番号1014〜1018について説明す
る。関連M識別番号1014〜101gは、単結ムと関
連語関係にある。単語に対する単語情報〇単語識別番号
であり、単語人と関連語関係にある単語が登録されてい
ないときは初期値をとる。第1図の例では、単語識別番
号が51I7格納できる関連fll判別番号格納領域0
14〜1018がとられ、内容には全て零が格納されて
いる。
次に単語間の関連語関係を単語辞書100に登録する方
法について説明する。
単結ムと単−Bとが関連語関係にあるとは、単MAK対
する単結情報1013の関連語識別番号として、単−B
に対する単一情報1023の単語識別番号1021 、
1022が登録されているとともに、単−Bに対する単
一情報1023の関連語識別番号として、II#紬人に
対する単一情報1013の単語識別番号1011 、1
012が登録されていることを意味する。
単語人と単−Bが関連語関係にあるという情報が入力さ
れたとき、卑語辞書100内から単iiBに対する単一
情報1023 K付されている単語識別番号1021 
、1022 を取り出す、第1図の例では単語Bに対す
る単語情報1023に付されている単一識別番号102
1 、1022は23500という5桁のlθ進数であ
る。 I?XKm単lIIMi別番号1021 。
1022を単語ムに対する単語情報1013 K付され
ている関連語vk別番号格納領域1014〜1018 
に登録する。関逍語識別番号格納領域1014〜101
gは、複数個の単語識別番号が登録できるため登録に際
しては、初期値を有する関連&!鍼別番号格納領域に登
録する。第1図の例では、23500  という単MB
K対する単語識別番号1021 、1022が単−Aに
対する関連語識別番号格納領域1014 K登録される
。次に上記と逆の手順で、単語人に対°する単語識別番
号1011 、1012 を、単1!BK対する関連語
識別番号格納領域1024〜1028  K登録する。
第1図の例では15100 という単語Aに対する単語
識別番号1011 、1012が単−BK対する関連舶
識別番号格納輌域!024に登録される。
第2図は、第1図に示し九単語辞費100を基に単−A
およびBの関連語関係を登録した後の単一辞書200の
模式図である。
関連話島別番号格納領域2014には、単結Bに対する
単語情報1023 K付されている単M識別香号102
1 、1022が登録され、関連語識別番号格納儀域2
024 K#′i、単MAに対する単語情報1013に
付されている単語識別番号1011,1012が登録さ
れている。呻ち関連語識別番号領域2014 Kは23
500  という5桁の単IAに対する単語識別番号1
021 、1022が、関連ss識別番号領域2024
には、15100  という5桁の単結Bに対する単語
*311号1011 、1012が登録されている。
次に既に@連語識別番号が登録されている単一辞書K、
新しい単結に対する単結情報を追加登録する場合につい
て説明する。前述のように単語辞書200には既に単−
Aと単MBとの間の関連語関係が登録されている。今新
しい単#!4Cに対する単語情報を、単一辞書200の
単一情報1013の直後に追加登録する場合を考える。
以下繁雑さを避ける九め既に追加登録された後の単一辞
書の模式図である第3図を用いて説明を行なう、まず単
−Cに対する単一情報3033 Kli! して新しく
単結識別番号格納領域3031 、3032 オ!び関
連111511喬号格納領域3034〜3038が確保
される。基本識別番号3031 Kは、直前の基本識別
番号1011と同一の番号即ち151とい53桁のlO
道数が登録され、拡張識別番号3032 Kは、直前の
拡張識別番号1012 K 1加え九01とい52桁の
10過数が登録される。関連@識別番号3034〜30
38には初期値として各々零が登録される0以上のよう
にして追加登録された単一情報3033は、単一識別番
号3031 、3032として15101という5桁の
10進数を有することになる。尚拡張1km喬号303
2は、直前の拡張識別1i41012に1加え九奇号を
例で示したが、卑Mik別番号として結果的に他と一意
的に識別できるならは、どのような番号付けをしてもよ
い。
以上の手順より明らかなように、新しい率飴惰帷303
3 を追加登録しても、他0単結諏角番号および関連語
識別を号に何ら影響を及ぼさない0例えば単一情報30
33の追加登録によって、単結辞111200内の単一
情報1023の絶対記憶位置は変化するけれども、単一
識別番号1021 、1022  自体は不変である。
したがって単語情報101Bの関連am別番号2014
として登録されている単語情報1023の単wI識別番
号は変更する必要がない。
次に図面を用いて本発明の詳細な説明する。
以下で単語人あるいは単結Bという場倉は読み、表記等
の各単結を一意的に指定できる単結情報を指すものとす
る。
第4図は単結AおよびBの関連語関係を単語辞IFK登
録するだめの7p−チャートを示すものである。コンピ
ュータには互いに関連語関係にある単結ムおよびBが入
力され、ICメモリの如きコンビ、−夕の内部記憶装置
あるいは磁気ディスクの如きコンピータの外部記憶装置
の所定の記憶位置に格納されている。また単結辞書とし
ては、3131図に示す如く、各単MK対して単結情報
および単結識別番号および関連飴緻別番号から成る情報
の集合体がICメモリの如きコンピュータの内部記憶装
置あるいは磁気ディスクの如きコンピュータの外部記憶
装置に格納されている。単結辞書における基本細別番号
は、単結辞書の先頭の単結から順に一意的な番号を付し
、拡張緻別蚤号および関連語識別番号については、全て
零に設定している。
ブP、り401は、関連語を構成する単語人およびBを
コンビ、−夕の内部あるいは外S記憶装置からコンピュ
ータに読み込む処理を示す。読み込んだ単wIAおよび
Bはコンピュータの内部記憶装置に一時格納する。
プロ、り402は、コンピュータの内部記憶装置に一時
格納している単結ムおよびBtuみ出し、コンピュータ
の内部あるいは外部記憶装置に格納されている単結辞書
を、単結AおよびBをキーとして検索することKより各
単@に対する単結g別香号および関連Mil別釜号をコ
ンピュータに読み込み、コンビ、−夕の内部記憶装置に
−II格納する処理を示す。
プロ、り403は、プロ、り402で得られた単結Aお
よびBK対する情報の中から各々の単結識別番号を抜き
出し、一時的にコンピュータの内部記憶装置に格納する
処理を示す。
プロ、り404は1.A、、り402で得られた単語ム
およびBK対する情報の中から各々の関連語識別番号を
抜き出し、その値が零である関連語識別番号の内部記憶
装置内での位置情報を各々検出する処理を示す。
プロツク405は、プ゛ロック403で得られた単結ム
に対する*@識別番号を、グp、り404で得られ九単
MBK対する関連語識別番号の位置情報が示す格納位置
に格納するとともに、逆に一;fv=、り403で得ら
れ九奉飴Bに対する単結識別番号を、グー、り404で
得られ九単結AK対する関連Miml!別香号の位置情
報が示す格納位置に格納する関連を示す。
プp、り406は、プロ、り405で更新され九単錯ム
およびBK対するー遅M蝕別番号を、単結辞書内の元の
格納位置に戻す処理を示す。
第5図は、単結AおよびBの関連II!−係を単語辞書
に登録する装−の一実施例を示すりp、り図である。5
01は外部から単結ムおよびBを読み込む単結読込装診
、502は単語ムおよびBに対する単結識別番号および
関連語識別番号を単結辞書から検索する単結検索装置、
503は、前記単結検索装置502によって検索された
情報の中から単語人および単結Bに対する単結識別番号
を取出す単結識別番号取出装置、504d、前記単結検
索装置502によって検索された情報の中から単QAお
よび単結BK対する初期化された関連紡織別番号格納位
置を検出する格納位置検出装置、505は単結AJ6よ
び単MBK対する単結識別番号を、各々相手の関連M識
別番号として登録する関連紬識別番号登録装置、506
は、関連飴識別を号登録装置505の結果を単語辞書に
書戻す単結格納装置である。
図における各プp、り501〜506は、第4図のツー
−チャートにおける各グp、り401〜406に対応し
九処理を行なう。
本発明の実施例においては、単結辞書の容量を増加させ
ずに、単結の追加登録が容易な、関連語情報の格納した
単結情報を作成することが可能となっている。
【図面の簡単な説明】
第1図は本発明で作成する単一辞書の形式を示すための
模式図、第2図は関連語関係が登録された単結辞書の内
容を示す模式図、第3図は関連語関係が登録されている
単一辞書に新しく単一を追加登録し九率舶辞曽の内容を
示す模式図、第4図は関連語関係を単語辞書に登録する
ためのコンビーータのフローチャートを示す図、第5図
は関連i1!関係を単一辞書に登録するための装置の一
実施例を示すブp、り図を示す。 図においてZoo、200,300は単語辞書、501
は単語読込装置、502は単語検索装置、503は単結
識別番号取出装置、504は格納値it検出装置、50
5は胸連紬識別番号登録装置、506は単語格納装置で
ある。 第4ロ オ 50

Claims (1)

    【特許請求の範囲】
  1. 日本紬を構成する単語に関する単語情報を、複数個格納
    した単−辞優において、各単語情報を一意的に識別する
    ことのできる基本&551J番号を格納し九m桁から成
    る基本識別番号格納9A域と、1桁から成る初期化され
    九拡*識別査号を格納した拡張識別奇号格納領域の2s
    類の領域で構成される卑妬Jik別番号格納領域、およ
    びm+n桁から成るp鯛の閣遅詰織別着号を格納する関
    連結−別番号格納領域を、各単鮎情報毎に設け、互いに
    関連のある単結対A、Bが入力されたとき、単始人に対
    応する単一情報に付されているjIL語識別番号を、単
    結BK対応する単語情報に付されている関連結識別喬号
    格納領域に格納するとともに、単@BK対応する単語情
    報に付されている単語識別番号を単語人に対応する単語
    情報に付されている関連結織別番号格納領域に格納する
    ことにより、単語間に関連論比を行なうことを特徴とす
    る関連語情報を存する単語辞書作成方式。
JP57029216A 1982-02-25 1982-02-25 関連語情報を有する単語辞書作成方式 Pending JPS58146927A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57029216A JPS58146927A (ja) 1982-02-25 1982-02-25 関連語情報を有する単語辞書作成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57029216A JPS58146927A (ja) 1982-02-25 1982-02-25 関連語情報を有する単語辞書作成方式

Publications (1)

Publication Number Publication Date
JPS58146927A true JPS58146927A (ja) 1983-09-01

Family

ID=12269996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57029216A Pending JPS58146927A (ja) 1982-02-25 1982-02-25 関連語情報を有する単語辞書作成方式

Country Status (1)

Country Link
JP (1) JPS58146927A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60151780A (ja) * 1984-01-18 1985-08-09 Fujitsu Ltd 類似語による辞書更新方法
JPS6177954A (ja) * 1984-09-25 1986-04-21 Ricoh Co Ltd 仮名漢字変換方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60151780A (ja) * 1984-01-18 1985-08-09 Fujitsu Ltd 類似語による辞書更新方法
JPS6177954A (ja) * 1984-09-25 1986-04-21 Ricoh Co Ltd 仮名漢字変換方式

Similar Documents

Publication Publication Date Title
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
JPH0869476A (ja) 検索システム
JPS58146927A (ja) 関連語情報を有する単語辞書作成方式
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JPH08329112A (ja) フリーテキスト検索システム
JPH056398A (ja) 文書登録装置及び文書検索装置
JP2000250931A (ja) 位置情報の自動抽出装置および自動抽出方法と記録媒体
JPH03156677A (ja) 複合データベースシステム
JPH09114856A (ja) 検索用索引生成装置
JPS61182132A (ja) 情報検索方式
JPS62144269A (ja) 情報検索装置
KR100289332B1 (ko) 전자화된 문서의 어절 데이터베이스 자동 구축장치 및 방법
JPS6128134A (ja) 記号列照合装置とその制御方式
JP2526678B2 (ja) 単語辞書検索装置
JPH02148174A (ja) Ocrによる住所データベース検索装置
JPH0748218B2 (ja) 情報処理装置
JPS63103393A (ja) 単語認識装置
JPS6195442A (ja) 記号列照合装置
JPH0113579B2 (ja)
JPS61128366A (ja) カナ漢字変換装置
JPH10143408A (ja) 索引付順編成ファイル作成装置
JPS6198472A (ja) カナ漢字変換装置
JPH05120325A (ja) 電子化辞書
JPS61128367A (ja) カナ漢字変換装置
Levitt et al. Building a data file from historical archives