JPH0962700A

JPH0962700A - 辞書構築方法及び装置

Info

Publication number: JPH0962700A
Application number: JP7220848A
Authority: JP
Inventors: Hiroaki Karasawa; 裕明唐沢
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1995-08-29
Filing date: 1995-08-29
Publication date: 1997-03-07

Abstract

(57)【要約】【課題】従来は、検索対象となる入力単語で辞書にヒ
ットさせるために辞書単語自身の意味を考慮したものは
なく、入力単語が辞書に対して比較的容易に語順転換が
起こるという問題がある。【解決手段】本発明は、複数の単語から構成される辞
書レコードを読み込み、辞書レコードを各単語に分割す
ると共に、該各単語に意味を付与し単語の意味と存在位
置の関係を記述したルールを参照して、各単語を並べ替
え、並べ変えられた各単語からなる新たな辞書レコード
を出力する処理を辞書レコード毎に実行する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、辞書構築方法及び
装置に係り、特に、入力された単語が辞書に登録されて
いる単語と完全一致していない場合でも検索可能となる
ように辞書を構築する辞書構築方法及び装置に関する。

【０００２】詳しくは、ある辞書についての検索を行う
際に、検索対象となる入力単語が元の辞書に対して完全
一致関係や前方一致関係である場合に、辞書に近接可能
であることに対して検索対象となる入力単語が省略入力
される場合等においても、近接可能な辞書を作成するた
めの辞書構築方法及び装置に関する。

【０００３】

【従来の技術】従来、入力された単語で辞書を検索する
場合には、入力された単語と一致する単語が辞書に登録
されていれば、ヒットしたものとして処理し、登録され
ていなければ未登録として結果を返す処理が一般的であ
る。

【０００４】また、入力された単語が辞書未登録である
場合には、末尾語の曖昧性を考慮して前方一致検索を行
う方法もある。この方法は、例えば、『グランドビル』
という単語が入力された場合に、当該単語が辞書に登録
されていない場合には、末尾語（ビル）の曖昧性に着目
して『グランドビルディング』等が辞書に登録されてい
るかを調べるものである。

【０００５】

【発明が解決しようとする課題】しかしながら、従来の
方法において、検索対象となる入力単語で辞書にヒット
させるには、辞書単語自身の意味を考慮したものはな
く、末尾語の曖昧性を考慮した前方一致検索等が行われ
ているのみで、入力単語が辞書に対して比較的容易に語
順転換が起こる『東京第二ビル』 → 『第二東京ビル』や、毎に異表記である『田中ハイツ』 → 『田中ハイム』等を吸収した検索を行うことは不可能である。

【０００６】本発明は、上記の点に鑑みなされたもの
で、上記従来の問題点を解決し、容易に語順転換が起こ
る単語や異表記等の単語が入力された場合であっても辞
書近接を容易に行うことが可能な辞書を元の辞書を入力
することにより自動的に作成することが可能な辞書構築
方法及び装置を提供することを目的とする。

【０００７】

【課題を解決するための手段】本発明の辞書構築方法
は、入力された単語の意味を考慮して、辞書レコードの
単語を並べ替えて新たな辞書を生成する。図１は、本発
明の原理を説明するための図である。

【０００８】本発明の辞書構築方法は、複数の単語から
構成される辞書レコードを読み込み（ステップ１）、辞
書レコードを各単語に分割すると共に、該各単語に意味
を付与し（ステップ２）、単語の意味と存在位置の関係
を記述したルールを参照して、各単語を並べ替え（ステ
ップ３）、並べ替えられた各単語からなる新たな辞書レ
コードを出力し（ステップ４）、第１のステップから第
４のステップの処理を辞書レコード毎に実行する（ステ
ップ５）。

【０００９】図２は、本発明の原理構成図である。本発
明の辞書構築装置は、複数の単語から構成される辞書レ
コードを読み込むレコード読み込み手段１と、レコード
読み込み手段１で読み込まれた辞書レコードを各単語に
分割すると共に、該各単語に意味を付与する自然語解析
手段２と、単語の意味と存在位置の関係を記述したルー
ル３と、自然語解析手段２により付与された各単語の意
味に基づいてルール３を参照して自然語解析手段２によ
り分割された各単語を並べ替える単語並べ替え手段４
と、単語並べ替え手段４により並べ替えられた各単語
からなる新たな辞書レコードを出力するレコード出力手
段５とを有する。

【００１０】上記のルール３は、自然語解析手段２によ
り付与された各単語の意味に基づいて、並べ替えても意
味的に矛盾が発生しない条件を含む。また、上記のルー
ル３は、自然語解析手段２により付与された各単語の意
味に基づいて、類似する単語に置き替える条件を含む。

【００１１】このように、本発明によれば、検索対象の
入力単語が、省略されて入力される、または、単語の順
序が異なっている、誤表記等であっても、各単語が有す
る意味に基づいて適宜置換を行い、接近可能な辞書を構
築することが可能となる。

【００１２】

【発明の実施の形態】図３は、本発明の辞書構築装置の
システム構成を示す。同図に示す辞書構築装置は、入出
力部１１、自然語解析装置１２、文字列処理部１３、ル
ール１４及び意味記号表１５より構成される。

【００１３】入出力部１１は、ファイル等の外部装置間
との入出力を行うものであり、入力された元の辞書の文
字列（辞書レコード）を自然語解析装置１２に転送する
と共に、文字列処理部１３で処理された結果（辞書レコ
ード）を出力する。自然語解析装置１２は、入出力部１
１より入力された辞書レコードを形態素解析処理により
単語分割を行い、意味記号表１５を用いて分割された単
語の各々に意味を付与する。

【００１４】文字列処理部１３は、自然語解析装置１２
で付与された分割単語の各々の意味と、単語が存在する
位置関係に基づいてルール１４を参照して文字列操作を
行う。ルール１４は、自然語解析装置１２で付与された
意味と、当該単語が存在する位置関係に関する文字列操
作方法が記述されている。

【００１５】意味記号表１５は、自然語解析装置１２で
分割された単語毎に意味を付与するための対応表であ
り、例えば、分割された単語に対して、企業名、組織
名、職業毎、職業、商品、番号等の意味を付与するため
に参照される。図４は、本発明の辞書構築装置の概要動
作を示すフローチャートである。

【００１６】ステップ１００）入出力部１１から入力
された辞書レコード及び当該辞書レコードに付随する情
報を読み込む。ステップ１０１）入出力部１１から受け取った辞書レ
コードを自然語解析装置１２において、辞書単語分割を
行うと共に、意味記号表１５を用いて分割された各単語
に意味を付与する。

【００１７】ステップ１０２）文字列処理部１３は、
自然語解析装置１２において付与された単語毎の意味
と、単語が存在する位置関係に基づいてルール１４を逐
次的に実行し、ルール１４に該当する文字列操作を行
い、入出力部１１に出力する。ステップ１０３）入出力部１１は、文字列処理部１３
により出力された辞書レコードを入出力部１１を介して
ファイル等の外部記憶装置（新しい辞書）に出力する。

【００１８】ステップ１０４）入力辞書レコードの終
了を検知して辞書レコードが存在すれば、ステップ１０
０に移行し、入力される辞書レコードがなければ処理を
終了する。

【００１９】

【実施例】以下、本発明の実施例を説明する。図５は、
本発明の一実施例の入出力のデータの例を示す。同図
（Ａ）は、入力される元の辞書の文字列であり、『東京第二ビル、東京都中央区築地１−３−５』『田中ハイツ、東京都港区赤坂２−１−３』が入力される。また、同図（Ｂ）は、新たな辞書として
登録される出力される文字列であり、入力文字列『東京第二ビル、東京都中央区築地１−３−５』に対して、『第二東京ビル、東京都中央区築地１−３−５』が出力され、もう一つの入力文字列『田中ハイツ、東京都港区赤坂２−１−３』に対して、『田中ハイム、東京都港区赤坂２−１−３』が出力される。

【００２０】上記のような処理が行われる経緯を以下に
示す。最初に、辞書構築装置は、『東京第二ビル、東京都中央区築地１−３−５』が入出力部１１から入力されると、自然語解析装置１２
において、入力された文字列を以下のように、単語分割
する。「東京」「第二」「ビル」「、」「東京」「都」「中
央」「区」「築地」「１」「−」「３」「−」「５」次に、自然語解析装置１２は、図６に示す意味記号表１
５を参照して分割された単語毎に意味を付与する。

【００２１】まず、自然語解析装置１２で単語分割され
た「東京」「第二」「ビル」「、」「東京」「都」「中
央」「区」「築地」「１」「−」「３」「−」「５」については、意味記号表１５を参照することにより、以
下のような意味が付与される。

【００２２】「東京」−企業名「第二」−番号「ビル」−ビル「東京」−住所「都」−住所「中央」−住所「区」−住所「築地」−住所「１」−番号「−」−記号「３」−番号「−」−記号「５」−番号上記の意味付与において、「東京」「第二」「ビル」に
ついては、先頭分割単語「東京」の後に地名を表す単語
がないため、“企業名”と判定され、第三分割単語「ビ
ル」があるため、“東京第二ビル”は、建物の名前と判
定される。また、「東京」「都」「中央」「区」「築
地」「１」「−」「３」「−」「５」については、分割
単語「東京」の後に地名語尾を示す「都」が存在するた
め、住所と判定される。

【００２３】次に、文字列処理部１３は、ルール１４を
参照して、「東京」「第二」「ビル」の単語の並べ替え
が可能であるかを判定する。ここで、ルール１４には、
意味として、“企業名”＋“番号”の場合には、“番
号”と“企業名”への並べ替えが可能であると記載され
ているものとする。従って、文字列処理部１３は、分割
された単語を、「東京」「第二」「ビル」→「第二」「東京」「ビル」のように並べ替えを行う。

【００２４】また、自然語解析装置１２は、入出力部１
１から、『田中ハイツ、東京都港区赤坂２−１−３』が入力されると、入力された文字列を以下のように、単
語分割する。「田中」「ハイツ」「、」「東京」「都」「港」「区」
「赤坂」「２」「−」「１」「−」「３」次に、自然語解析装置１２は、図６に示す意味記号表１
５を参照して分割された単語毎に以下のように意味を付
与する。

【００２５】「田中」−姓「ハイツ」−ビル「東京」−住所「都」−住所「港」−住所「区」−住所「赤坂」−住所「２」−番号「−」−記号「１」−番号「−」−記号「３」−番号次に、文字列処理部１３は、図７に示すルール１４の一
行目により当該単語を「ハイム」と置換することを示し
ている。また、図７に示すルールの二行目は最終分割単
語の意味が“ビル”であり、当該単語が「ハイム」であ
る場合には、当該単語を「ハイツ」と置換することを示
している。

【００２６】従って、上記の例の場合には、『田中ハイム、東京都港区赤坂２−１−３』が出力される。本実施例によれば、元の辞書から入出力
部１１に入力された図５（Ａ）に示す文字列は、上記の
処理により、図５（Ｂ）に示すように元の文字列と置き
替え後の文字列とを組にして入出力部１１より辞書（フ
ァイル）に出力される。

【００２７】これにより、ユーザは、「東京第二ビル」
または「第二東京ビル」のどちらかを入力した場合でも
辞書に登録されているため、検索可能となる。なお、上
記の実施例では、文字列処理部１３で用いられるルール
１４として、置換可能な単語や、単語の位置を置き換え
るルールを示したが、その他に、入力された文字列が正
しいか否かを判定するようなルールを用いて、誤りがあ
る場合には、正しく置換するようなルールを用いてもよ
い。例えば、『ケイコ浅野』のような文字列が入力された場合には、自然語解析装置
１２で「ケイコ」−氏名「浅野」−姓のように意味付けが行われる。一般に、日本国内で用い
られる氏名の形態としては、“姓”＋“氏名”であるの
で、このような文字列の場合には、単語の位置の誤りと
判定して、「浅野」＋「ケイコ」と置換するルールであ
ってもよい。

【００２８】また、『東京都八王子区』のような入力があった場合には、ルール１４として“八
王子市”以外は、誤りとして、『東京都八王子市』に変換するようなルールを用いてもよい。

【００２９】また、上記の実施例において、自然語解析
装置１２では、意味記号表１５を参照して分割された単
語に意味を付与するのみの処理を説明したが、この例に
限定されることなく、１つの文字列の単語毎に付与され
た意味の統合性を判定し、１つの文字列として意味の矛
盾を無くすためのチェック処理を加え、意味の最適化を
図るように構築してもよい。

【００３０】次に、本発明の他の実施例について説明す
る。上記の実施例では、自動的に置換された辞書レコー
ドを入出力部１１を介して新たな辞書レコードとして出
力する例を示したが、入出力部１１において、置換され
た結果をユーザに一度表示して、ユーザによる修正等を
加えた後、新たな辞書レコードとして登録する方法もあ
る。例えば、文字列処理部１３で取得したレコードが、『田中ハイツ、東京都港区赤坂２−１−３』である場合に、ユーザに対して表示することにより、ユ
ーザは当該辞書レコードを、『東京都港区赤坂二の一の三、田中ハイツ』のように変更して新たな辞書に登録することも可能とな
る。

【００３１】このように、辞書構築装置において文字列
内の単語の意味に応じて置換を行う処理を行っておくこ
とにより、辞書編集等にも容易に適用することが可能と
なる。なお、本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。

【００３２】

【発明の効果】上述のように本発明の辞書構築方法及び
装置によれば、『東京第二ビル』 → 『第二東京ビル』『田中ハイツ』 → 「田中ハイム』等の入力単語による辞書接近を容易に行うことが可能な
辞書を元の辞書を入力することにより自動的に作成する
ことが可能である。

【００３３】更に、本発明を辞書検索に適用した場合
に、表記誤り等において単語を置換して表記している場
合であっても辞書検索においては照合が可能となり、ま
た、正確な表記を併せて出力することが可能となる。

【図面の簡単な説明】

【図１】本発明の原理を説明するための図である。

【図２】本発明の原理構成図である。

【図３】本発明の辞書構築装置のシステム構成図であ
る。

【図４】本発明の辞書構築装置の概要動作を示すフロー
チャートである。

【図５】本発明の一実施例の入出力のデータの例を示す
図である。

【図６】本発明の一実施例の意味記号表の例を示す図で
ある。

【図７】本発明の一実施例のルールの例を示す図であ
る。

【符号の説明】

１レコード読み込み手段２自然語解析手段３ルール４単語並べ替え手段５レコード出力手段１１入出力部１２自然語解析装置１３文字列処理部１４ルール１５意味記号表

Claims

【特許請求の範囲】

【請求項１】入力された単語の意味を考慮して、辞書
レコードの単語を並べ替えて新たな辞書を生成すること
を特徴とする辞書構築方法。
【請求項２】複数の単語から構成される辞書レコード
を読み込む第１の過程と、前記辞書レコードを各単語に分割すると共に、該各単語
に意味を付与する第２の過程と、単語の意味と存在位置の関係を記述したルールを参照し
て、前記各単語を並べ替える第３の過程と、並べ替えられた各単語からなる新たな辞書レコードを出
力する第４の過程と、前記第１の過程から前記第４の過程の処理を辞書レコー
ド毎に実行する請求項１記載の辞書構築方法。
【請求項３】複数の単語から構成される辞書レコード
を読み込むレコード読み込み手段と、前記レコード読み込み手段で読み込まれた前記辞書レコ
ードを各単語に分割すると共に、該各単語に意味を付与
する自然語解析手段と、単語の意味と存在位置の関係を記述したルールと、前記自然語解析手段により付与された各単語の意味に基
づいて前記ルールを参照して前記自然語解析手段により
分割された前記各単語を並べ替える単語並べ替え手段
と、前記単語並べ替え手段により並べ替えられた各単語から
なる新たな辞書レコードを出力するレコード出力手段と
を有することを特徴とする辞書構築装置。
【請求項４】前記ルールは、前記自然語解析手段により付与された各単語の意味に基
づいて、並べ替えても意味的に矛盾が発生しない条件を
含む請求項３記載の辞書構築装置。
【請求項５】前記ルールは、前記自然語解析手段により付与された各単語の意味に基
づいて、類似する単語に置き換える条件を含む請求項３
記載の辞書構築装置。