JPH0962700A - 辞書構築方法及び装置 - Google Patents

辞書構築方法及び装置

Info

Publication number
JPH0962700A
JPH0962700A JP7220848A JP22084895A JPH0962700A JP H0962700 A JPH0962700 A JP H0962700A JP 7220848 A JP7220848 A JP 7220848A JP 22084895 A JP22084895 A JP 22084895A JP H0962700 A JPH0962700 A JP H0962700A
Authority
JP
Japan
Prior art keywords
dictionary
word
words
record
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7220848A
Other languages
English (en)
Inventor
Hiroaki Karasawa
裕明 唐沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7220848A priority Critical patent/JPH0962700A/ja
Publication of JPH0962700A publication Critical patent/JPH0962700A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 従来は、検索対象となる入力単語で辞書にヒ
ットさせるために辞書単語自身の意味を考慮したものは
なく、入力単語が辞書に対して比較的容易に語順転換が
起こるという問題がある。 【解決手段】 本発明は、複数の単語から構成される辞
書レコードを読み込み、辞書レコードを各単語に分割す
ると共に、該各単語に意味を付与し単語の意味と存在位
置の関係を記述したルールを参照して、各単語を並べ替
え、並べ変えられた各単語からなる新たな辞書レコード
を出力する処理を辞書レコード毎に実行する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、辞書構築方法及び
装置に係り、特に、入力された単語が辞書に登録されて
いる単語と完全一致していない場合でも検索可能となる
ように辞書を構築する辞書構築方法及び装置に関する。
【0002】詳しくは、ある辞書についての検索を行う
際に、検索対象となる入力単語が元の辞書に対して完全
一致関係や前方一致関係である場合に、辞書に近接可能
であることに対して検索対象となる入力単語が省略入力
される場合等においても、近接可能な辞書を作成するた
めの辞書構築方法及び装置に関する。
【0003】
【従来の技術】従来、入力された単語で辞書を検索する
場合には、入力された単語と一致する単語が辞書に登録
されていれば、ヒットしたものとして処理し、登録され
ていなければ未登録として結果を返す処理が一般的であ
る。
【0004】また、入力された単語が辞書未登録である
場合には、末尾語の曖昧性を考慮して前方一致検索を行
う方法もある。この方法は、例えば、『グランドビル』
という単語が入力された場合に、当該単語が辞書に登録
されていない場合には、末尾語(ビル)の曖昧性に着目
して『グランドビルディング』等が辞書に登録されてい
るかを調べるものである。
【0005】
【発明が解決しようとする課題】しかしながら、従来の
方法において、検索対象となる入力単語で辞書にヒット
させるには、辞書単語自身の意味を考慮したものはな
く、末尾語の曖昧性を考慮した前方一致検索等が行われ
ているのみで、入力単語が辞書に対して比較的容易に語
順転換が起こる 『東京第二ビル』 → 『第二東京ビル』 や、毎に異表記である 『田中ハイツ』 → 『田中ハイム』 等を吸収した検索を行うことは不可能である。
【0006】本発明は、上記の点に鑑みなされたもの
で、上記従来の問題点を解決し、容易に語順転換が起こ
る単語や異表記等の単語が入力された場合であっても辞
書近接を容易に行うことが可能な辞書を元の辞書を入力
することにより自動的に作成することが可能な辞書構築
方法及び装置を提供することを目的とする。
【0007】
【課題を解決するための手段】本発明の辞書構築方法
は、入力された単語の意味を考慮して、辞書レコードの
単語を並べ替えて新たな辞書を生成する。図1は、本発
明の原理を説明するための図である。
【0008】本発明の辞書構築方法は、複数の単語から
構成される辞書レコードを読み込み(ステップ1)、辞
書レコードを各単語に分割すると共に、該各単語に意味
を付与し(ステップ2)、単語の意味と存在位置の関係
を記述したルールを参照して、各単語を並べ替え(ステ
ップ3)、並べ替えられた各単語からなる新たな辞書レ
コードを出力し(ステップ4)、第1のステップから第
4のステップの処理を辞書レコード毎に実行する(ステ
ップ5)。
【0009】図2は、本発明の原理構成図である。本発
明の辞書構築装置は、複数の単語から構成される辞書レ
コードを読み込むレコード読み込み手段1と、レコード
読み込み手段1で読み込まれた辞書レコードを各単語に
分割すると共に、該各単語に意味を付与する自然語解析
手段2と、単語の意味と存在位置の関係を記述したルー
ル3と、自然語解析手段2により付与された各単語の意
味に基づいてルール3を参照して自然語解析手段2によ
り分割された各単語を並べ替える単語並べ替え手段4
と、 単語並べ替え手段4により並べ替えられた各単語
からなる新たな辞書レコードを出力するレコード出力手
段5とを有する。
【0010】上記のルール3は、自然語解析手段2によ
り付与された各単語の意味に基づいて、並べ替えても意
味的に矛盾が発生しない条件を含む。また、上記のルー
ル3は、自然語解析手段2により付与された各単語の意
味に基づいて、類似する単語に置き替える条件を含む。
【0011】このように、本発明によれば、検索対象の
入力単語が、省略されて入力される、または、単語の順
序が異なっている、誤表記等であっても、各単語が有す
る意味に基づいて適宜置換を行い、接近可能な辞書を構
築することが可能となる。
【0012】
【発明の実施の形態】図3は、本発明の辞書構築装置の
システム構成を示す。同図に示す辞書構築装置は、入出
力部11、自然語解析装置12、文字列処理部13、ル
ール14及び意味記号表15より構成される。
【0013】入出力部11は、ファイル等の外部装置間
との入出力を行うものであり、入力された元の辞書の文
字列(辞書レコード)を自然語解析装置12に転送する
と共に、文字列処理部13で処理された結果(辞書レコ
ード)を出力する。自然語解析装置12は、入出力部1
1より入力された辞書レコードを形態素解析処理により
単語分割を行い、意味記号表15を用いて分割された単
語の各々に意味を付与する。
【0014】文字列処理部13は、自然語解析装置12
で付与された分割単語の各々の意味と、単語が存在する
位置関係に基づいてルール14を参照して文字列操作を
行う。ルール14は、自然語解析装置12で付与された
意味と、当該単語が存在する位置関係に関する文字列操
作方法が記述されている。
【0015】意味記号表15は、自然語解析装置12で
分割された単語毎に意味を付与するための対応表であ
り、例えば、分割された単語に対して、企業名、組織
名、職業毎、職業、商品、番号等の意味を付与するため
に参照される。図4は、本発明の辞書構築装置の概要動
作を示すフローチャートである。
【0016】ステップ100) 入出力部11から入力
された辞書レコード及び当該辞書レコードに付随する情
報を読み込む。 ステップ101) 入出力部11から受け取った辞書レ
コードを自然語解析装置12において、辞書単語分割を
行うと共に、意味記号表15を用いて分割された各単語
に意味を付与する。
【0017】ステップ102) 文字列処理部13は、
自然語解析装置12において付与された単語毎の意味
と、単語が存在する位置関係に基づいてルール14を逐
次的に実行し、ルール14に該当する文字列操作を行
い、入出力部11に出力する。 ステップ103) 入出力部11は、文字列処理部13
により出力された辞書レコードを入出力部11を介して
ファイル等の外部記憶装置(新しい辞書)に出力する。
【0018】ステップ104) 入力辞書レコードの終
了を検知して辞書レコードが存在すれば、ステップ10
0に移行し、入力される辞書レコードがなければ処理を
終了する。
【0019】
【実施例】以下、本発明の実施例を説明する。図5は、
本発明の一実施例の入出力のデータの例を示す。同図
(A)は、入力される元の辞書の文字列であり、 『東京第二ビル、東京都中央区築地1−3−5』 『田中ハイツ、東京都港区赤坂2−1−3』 が入力される。また、同図(B)は、新たな辞書として
登録される出力される文字列であり、入力文字列 『東京第二ビル、東京都中央区築地1−3−5』 に対して、 『第二東京ビル、東京都中央区築地1−3−5』 が出力され、もう一つの入力文字列 『田中ハイツ、東京都港区赤坂2−1−3』 に対して、 『田中ハイム、東京都港区赤坂2−1−3』 が出力される。
【0020】上記のような処理が行われる経緯を以下に
示す。最初に、辞書構築装置は、 『東京第二ビル、東京都中央区築地1−3−5』 が入出力部11から入力されると、自然語解析装置12
において、入力された文字列を以下のように、単語分割
する。 「東京」「第二」「ビル」「、」「東京」「都」「中
央」「区」「築地」「1」「−」「3」「−」「5」 次に、自然語解析装置12は、図6に示す意味記号表1
5を参照して分割された単語毎に意味を付与する。
【0021】まず、自然語解析装置12で単語分割され
た 「東京」「第二」「ビル」「、」「東京」「都」「中
央」「区」「築地」「1」「−」「3」「−」「5」 については、意味記号表15を参照することにより、以
下のような意味が付与される。
【0022】「東京」−企業名 「第二」−番号 「ビル」−ビル 「東京」−住所 「都」−住所 「中央」−住所 「区」−住所 「築地」−住所 「1」−番号 「−」−記号 「3」−番号 「−」−記号 「5」−番号 上記の意味付与において、「東京」「第二」「ビル」に
ついては、先頭分割単語「東京」の後に地名を表す単語
がないため、“企業名”と判定され、第三分割単語「ビ
ル」があるため、“東京第二ビル”は、建物の名前と判
定される。また、「東京」「都」「中央」「区」「築
地」「1」「−」「3」「−」「5」については、分割
単語「東京」の後に地名語尾を示す「都」が存在するた
め、住所と判定される。
【0023】次に、文字列処理部13は、ルール14を
参照して、「東京」「第二」「ビル」の単語の並べ替え
が可能であるかを判定する。ここで、ルール14には、
意味として、“企業名”+“番号”の場合には、“番
号”と“企業名”への並べ替えが可能であると記載され
ているものとする。従って、文字列処理部13は、分割
された単語を、 「東京」「第二」「ビル」→「第二」「東京」「ビル」 のように並べ替えを行う。
【0024】また、自然語解析装置12は、入出力部1
1から、 『田中ハイツ、東京都港区赤坂2−1−3』 が入力されると、入力された文字列を以下のように、単
語分割する。 「田中」「ハイツ」「、」「東京」「都」「港」「区」
「赤坂」「2」「−」「1」「−」「3」 次に、自然語解析装置12は、図6に示す意味記号表1
5を参照して分割された単語毎に以下のように意味を付
与する。
【0025】「田中」−姓 「ハイツ」−ビル 「東京」−住所 「都」−住所 「港」−住所 「区」−住所 「赤坂」−住所 「2」−番号 「−」−記号 「1」−番号 「−」−記号 「3」−番号 次に、文字列処理部13は、図7に示すルール14の一
行目により当該単語を「ハイム」と置換することを示し
ている。また、図7に示すルールの二行目は最終分割単
語の意味が“ビル”であり、当該単語が「ハイム」であ
る場合には、当該単語を「ハイツ」と置換することを示
している。
【0026】従って、上記の例の場合には、 『田中ハイム、東京都港区赤坂2−1−3』 が出力される。本実施例によれば、元の辞書から入出力
部11に入力された図5(A)に示す文字列は、上記の
処理により、図5(B)に示すように元の文字列と置き
替え後の文字列とを組にして入出力部11より辞書(フ
ァイル)に出力される。
【0027】これにより、ユーザは、「東京第二ビル」
または「第二東京ビル」のどちらかを入力した場合でも
辞書に登録されているため、検索可能となる。なお、上
記の実施例では、文字列処理部13で用いられるルール
14として、置換可能な単語や、単語の位置を置き換え
るルールを示したが、その他に、入力された文字列が正
しいか否かを判定するようなルールを用いて、誤りがあ
る場合には、正しく置換するようなルールを用いてもよ
い。例えば、 『ケイコ浅野』 のような文字列が入力された場合には、自然語解析装置
12で 「ケイコ」−氏名 「浅野」−姓 のように意味付けが行われる。一般に、日本国内で用い
られる氏名の形態としては、“姓”+“氏名”であるの
で、このような文字列の場合には、単語の位置の誤りと
判定して、「浅野」+「ケイコ」と置換するルールであ
ってもよい。
【0028】また、 『東京都八王子区』 のような入力があった場合には、ルール14として“八
王子市”以外は、誤りとして、 『東京都八王子市』 に変換するようなルールを用いてもよい。
【0029】また、上記の実施例において、自然語解析
装置12では、意味記号表15を参照して分割された単
語に意味を付与するのみの処理を説明したが、この例に
限定されることなく、1つの文字列の単語毎に付与され
た意味の統合性を判定し、1つの文字列として意味の矛
盾を無くすためのチェック処理を加え、意味の最適化を
図るように構築してもよい。
【0030】次に、本発明の他の実施例について説明す
る。上記の実施例では、自動的に置換された辞書レコー
ドを入出力部11を介して新たな辞書レコードとして出
力する例を示したが、入出力部11において、置換され
た結果をユーザに一度表示して、ユーザによる修正等を
加えた後、新たな辞書レコードとして登録する方法もあ
る。例えば、文字列処理部13で取得したレコードが、 『田中ハイツ、東京都港区赤坂2−1−3』 である場合に、ユーザに対して表示することにより、ユ
ーザは当該辞書レコードを、 『東京都港区赤坂二の一の三、田中ハイツ』 のように変更して新たな辞書に登録することも可能とな
る。
【0031】このように、辞書構築装置において文字列
内の単語の意味に応じて置換を行う処理を行っておくこ
とにより、辞書編集等にも容易に適用することが可能と
なる。なお、本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。
【0032】
【発明の効果】上述のように本発明の辞書構築方法及び
装置によれば、 『東京第二ビル』 → 『第二東京ビル』 『田中ハイツ』 → 「田中ハイム』 等の入力単語による辞書接近を容易に行うことが可能な
辞書を元の辞書を入力することにより自動的に作成する
ことが可能である。
【0033】更に、本発明を辞書検索に適用した場合
に、表記誤り等において単語を置換して表記している場
合であっても辞書検索においては照合が可能となり、ま
た、正確な表記を併せて出力することが可能となる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の辞書構築装置のシステム構成図であ
る。
【図4】本発明の辞書構築装置の概要動作を示すフロー
チャートである。
【図5】本発明の一実施例の入出力のデータの例を示す
図である。
【図6】本発明の一実施例の意味記号表の例を示す図で
ある。
【図7】本発明の一実施例のルールの例を示す図であ
る。
【符号の説明】
1 レコード読み込み手段 2 自然語解析手段 3 ルール 4 単語並べ替え手段 5 レコード出力手段 11 入出力部 12 自然語解析装置 13 文字列処理部 14 ルール 15 意味記号表

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力された単語の意味を考慮して、辞書
    レコードの単語を並べ替えて新たな辞書を生成すること
    を特徴とする辞書構築方法。
  2. 【請求項2】 複数の単語から構成される辞書レコード
    を読み込む第1の過程と、 前記辞書レコードを各単語に分割すると共に、該各単語
    に意味を付与する第2の過程と、 単語の意味と存在位置の関係を記述したルールを参照し
    て、前記各単語を並べ替える第3の過程と、 並べ替えられた各単語からなる新たな辞書レコードを出
    力する第4の過程と、 前記第1の過程から前記第4の過程の処理を辞書レコー
    ド毎に実行する請求項1記載の辞書構築方法。
  3. 【請求項3】 複数の単語から構成される辞書レコード
    を読み込むレコード読み込み手段と、 前記レコード読み込み手段で読み込まれた前記辞書レコ
    ードを各単語に分割すると共に、該各単語に意味を付与
    する自然語解析手段と、 単語の意味と存在位置の関係を記述したルールと、 前記自然語解析手段により付与された各単語の意味に基
    づいて前記ルールを参照して前記自然語解析手段により
    分割された前記各単語を並べ替える単語並べ替え手段
    と、 前記単語並べ替え手段により並べ替えられた各単語から
    なる新たな辞書レコードを出力するレコード出力手段と
    を有することを特徴とする辞書構築装置。
  4. 【請求項4】 前記ルールは、 前記自然語解析手段により付与された各単語の意味に基
    づいて、並べ替えても意味的に矛盾が発生しない条件を
    含む請求項3記載の辞書構築装置。
  5. 【請求項5】 前記ルールは、 前記自然語解析手段により付与された各単語の意味に基
    づいて、類似する単語に置き換える条件を含む請求項3
    記載の辞書構築装置。
JP7220848A 1995-08-29 1995-08-29 辞書構築方法及び装置 Pending JPH0962700A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7220848A JPH0962700A (ja) 1995-08-29 1995-08-29 辞書構築方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7220848A JPH0962700A (ja) 1995-08-29 1995-08-29 辞書構築方法及び装置

Publications (1)

Publication Number Publication Date
JPH0962700A true JPH0962700A (ja) 1997-03-07

Family

ID=16757497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7220848A Pending JPH0962700A (ja) 1995-08-29 1995-08-29 辞書構築方法及び装置

Country Status (1)

Country Link
JP (1) JPH0962700A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11288416A (ja) * 1998-04-01 1999-10-19 Nippon Telegr & Teleph Corp <Ntt> 住所情報を持つ異種データ自動結合の誤り排除方法およびその処理装置
JP2004110633A (ja) * 2002-09-20 2004-04-08 Ricoh Co Ltd 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
WO2007029625A1 (ja) * 2005-09-06 2007-03-15 Tosho Inc. 処方箋受付装置
JP2014116689A (ja) * 2012-12-06 2014-06-26 Alpine Electronics Inc 車載装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11288416A (ja) * 1998-04-01 1999-10-19 Nippon Telegr & Teleph Corp <Ntt> 住所情報を持つ異種データ自動結合の誤り排除方法およびその処理装置
JP2004110633A (ja) * 2002-09-20 2004-04-08 Ricoh Co Ltd 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
WO2007029625A1 (ja) * 2005-09-06 2007-03-15 Tosho Inc. 処方箋受付装置
JP2014116689A (ja) * 2012-12-06 2014-06-26 Alpine Electronics Inc 車載装置

Similar Documents

Publication Publication Date Title
JP2001344562A (ja) 文書読取装置および文書読取方法
JP2006004274A (ja) 対話処理装置、対話処理方法及び対話処理プログラム
JPH0776958B2 (ja) 文書整形装置
JPH09179872A (ja) 有限状態トランスデューサを用いてデータベースのインデックス付けを行う方法及び装置
JPH0962700A (ja) 辞書構築方法及び装置
JPH1097530A (ja) 日付変換方法および日付変換機能を備えた文書処理装置並びに文書処理プログラムを記録した記録媒体
JPS60176169A (ja) 文章処理装置
JP2778025B2 (ja) 共起関係辞書の学習方法
JP4382634B2 (ja) 住所解析装置、住所解析方法及び住所解析プログラム
JPH05250416A (ja) データベースの登録・検索装置
JPH0576068B2 (ja)
JPH06195379A (ja) 事例ベース及びその入力・蓄積装置
JP2001134596A (ja) 構造化文書管理装置および構造化文書検索方法
JP2628775B2 (ja) 辞書作成装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JP2866437B2 (ja) 用例辞書登録方法及び装置
JP2839515B2 (ja) 文字読取システム
JPH07110816A (ja) 翻訳用辞書登録装置
JPH10198693A (ja) 住所録管理装置及び住所録管理方法
JPH09218868A (ja) 漢字指定方法及び装置
JPS63184864A (ja) 文章作成装置
JP2007140781A (ja) 名義解析装置、名義解析方法及び名義解析プログラム
JPH0934899A (ja) 検索経路出力方法及び装置
JPH01181123A (ja) 情報検索装置
JPS61223980A (ja) 翻訳処理装置