JPH0944496A - 自然語解析方法及び装置 - Google Patents

自然語解析方法及び装置

Info

Publication number
JPH0944496A
JPH0944496A JP7190695A JP19069595A JPH0944496A JP H0944496 A JPH0944496 A JP H0944496A JP 7190695 A JP7190695 A JP 7190695A JP 19069595 A JP19069595 A JP 19069595A JP H0944496 A JPH0944496 A JP H0944496A
Authority
JP
Japan
Prior art keywords
unit
analysis
character string
word
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7190695A
Other languages
English (en)
Other versions
JP3470930B2 (ja
Inventor
Shigeto Iwase
成人 岩瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP19069595A priority Critical patent/JP3470930B2/ja
Publication of JPH0944496A publication Critical patent/JPH0944496A/ja
Application granted granted Critical
Publication of JP3470930B2 publication Critical patent/JP3470930B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 入力された自然語の文字列が住所である場合
に、英数字が固有の建物の名称か、または、部屋番号ま
たは、階数を表しているか等が区別できないという問題
がある。 【解決手段】 本発明は、入力された文字列を複数の単
語に分類し(ステップ1)、分類された各単語に意味及
び分類を割り当て(ステップ2)、単位詞並びに係り受
け関係によって、単語中の英数字の意味を判定し(ステ
ップ3)、判定した英数字を用いて入力された文字列か
ら特定の文字列を抽出するか、入力された文字列のうち
特定の文字列を除外する(ステップ4)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然語解析方法及
び装置に係り、特に、入力された文字列から、特定の意
味分野の単語を抽出したり、逆にマスクする処理を実現
するものであり、特に、住所を表現した文字列の処理を
行う自然語解析方法及び装置に関する。
【0002】詳しくは、建物名、棟番号、階、部屋番号
が混在した住所を正確に記載するための自然語解析方法
及び装置に関する。
【0003】
【従来の技術】従来から、入力された自然文を形態素解
析し、単語辞書を参照して漢字、平仮名、カタカナ、英
字、数字等の文字種により助詞を認識し、辞書を用いず
に意味を判定する方法がある。
【0004】また、住所のように助詞が出現しない文字
列もある。従来の住所等の数字を含む文字列を解析する
例(特開平4−42354)を示す。図6は、従来の住
所解析システムの構成を示す。同図に示す解析システム
は、番地等の数字を含む文字列を入力する入力部10、
入力された文字列に対して1文字ずつ読み取る1文字取
得部20、一文字取得部20で取得された1文字毎に文
字種別を判定する1文字判定部30、及び判定した文字
種別により数字を含む地番データを格納する地番データ
格納部40より構成される。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来の方法において、住所の場合、助詞が現れないため、
助詞を認識する方法は使用できない。特開平4−423
54に示す方法では、丁目、地番までの解析では多義が
少ないので、有効であるが、棟番号、階、部屋番号の解
析を行う場合には、以下のような問題がある。
【0006】(1) 英数字を含むビル名に対処できな
い。 例a:「××ビルパート2」のようなビル名において、
「2」を部屋番号を解釈してしまう。 例b:「築地2号倉庫」の場合、「2号」を部屋番号と
解釈し、建物に付与されている固有の名前であることが
認識できない。
【0007】(2) 英数字名の多義に対処できない。 例c:「B1−23」の「B」は、地下の意味である
が、「B1−23」の「B」は部屋番号の一部であると
判断されてしまう。 例d:本来、「123F」は部屋番号を表し、「5F」
の場合には、階を表しているがこれらの区別がつかな
い。
【0008】上記の例のように、固有の建物の名称か、
または、部屋番号または、階数を表しているか等が区別
できないという問題がある。本発明は、上記の点に鑑み
なされたもので、上記従来の問題点を解決し、住所等の
助詞を含まない文字列を正確に解析することが可能な自
然語解析方法及び装置を提供することが可能な自然語解
析方法及び装置を提供することを目的とする。
【0009】本発明の更なる目的は、棟、階、部屋番号
等の多義のある英数字列の意味を適切な意味に判断する
ことが可能な自然語解析方法及び装置を提供することで
ある。
【0010】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明の自然語解析方法は、
入力された文字列を複数の単語に分類し(ステップ
1)、分類された各単語に意味及び分類を割り当て(ス
テップ2)、単位詞並びに係り受け関係によって、単語
中の英数字の意味を判定し(ステップ3)、判定した英
数字を用いて入力された文字列から特定の文字列を抽出
するか、入力された文字列のうち特定の文字列を除外す
る(ステップ4)。
【0011】また、本発明は、入力された文字列を形態
素解析を用いて複数の単語に分割すると共に、分割され
た各単語に意味、数詞、単位詞等で表現される役割、及
び英字、数字、かな、漢字等で表現される字種を割り当
て、単語の並びである文節において、複数文字からなる
英字列がある場合は、企業名、団体名等からなる集合名
と判定し、文節内の単位詞をもとに、あるいは、英数字
の前後の単語の意味によって、該文節内の英数字が有す
る建物番号、階数等で表現される役割を判定し、判定さ
れた集合名、または役割に基づいて、入力された文字列
のうち特定の文字列を除外する。
【0012】また、本発明は、形態素解析の結果に基づ
いて、英数字の桁数またはハイフン等で表現される区切
り記号の出現位置を用いて英数字の役割を判定する。図
2は、本発明の原理構成図である。本発明の自然語解析
装置は、入力された文字列を複数の単語に分類し、分類
された各単語に意味及び分類を割り当て、単位詞並びに
係り受け関係によって、単語中の英数字の意味を判定
し、判定した英数字を用いて入力された文字列から特定
の文字列を抽出するか、入力された文字列のうち特定の
文字列を除外する手段を有する。
【0013】また、本発明は、文字列の入力を受け付け
る文字列入力手段10と、文字列入力手段10で入力さ
れた文字列を、形態素解析を用いて複数の単語に分割す
ると共に、分割された各単語に意味、数詞、単位詞等で
表現される役割、及び英字、数字、かな、漢字等で表現
される字種を割り当てる形態素解析手段20と、形態素
解析手段20が分割した複数の単語から文節を作成する
文節合成手段30と、文節合成手段30が生成した文節
に対して、該文節中の単位詞をキー情報として、該文節
内の英数字が有する、建物番号、階数等で表現される役
割を判定する単位詞解析手段40と、文節合成手段40
が合成した文節に対して該文節中の英数字の前後の単語
の意味を参照し、該文節内の英数字が有する建物番号、
階数等で表現される役割を判定する、係り受け解析手段
50と、文節合成手段30により合成された文節に対し
て、該文節中の英数字の桁数またはハイフン等で表現さ
れる区切り記号の出現範囲を判定することにより、英数
字の役割を判定する桁数記号解析手段60と、単位詞解
析手段40、係り受け解析手段50、桁数記号解析手段
60が判定した文節内の英数字を受け取り、それら英数
字を出力するか、文字列入力手段10が受け付けた入力
文字列から、英数字部分を省略して出力する解析結果出
力手段70とを有する。
【0014】また、本発明は、単位詞解析手段40、係
り受け解析手段50、または、桁数記号解析手段60に
おいて、複数の文字からなる英字列がある場合には、該
英字列は企業名、団体名等からなる集合名と判定する集
合名判定手段70を有する。本発明は、上記に示すよう
に、建物名・棟番号・階・部屋番号が混在するデータか
らそれぞれの意味の情報を正しく取り出すためには、文
字列全体の形態素解析を行い、入力データを構成する単
語の意味を求めておくことが必要である。その結果を用
いて、英数字の意味を判断する。
【0015】まず、単位詞のある文節について文節の意
味を決める。次に、係り受け関係を解析し、単位詞のあ
る文節が複合語の一部になるか解析する。最後に、単位
詞のない文節について前後の名詞の意味、単位詞のある
文節の意味、ハイフン等の記号の有無から判断すること
ができる。
【0016】従って、前述の問題点である英数字を含む
ビル名に対処できないという点については、前後の単語
意味から数字の意味を判断することで対処できる。前述
の例aの場合には、「パート」の意味が数字の前に付く
単位詞であること、例bの場合、当該単語の後に「倉
庫」が続くことにより判断できる。また、前述の問題点
である英数字名の多義に対処できない点については、英
字に付与される数字の桁数で判断できる。通常、「階」
は2桁以内であり、「部屋番号」は1〜4桁まであり得
るが3〜4桁が多いという知識を用いれば判断できる。
【0017】これにより、本発明は、単語毎に付与され
た意味及び単位詞により文節の意味を決定し、前後の文
字列の意味を解析し、当該単位詞を有する文節が複合語
になり得るかを判定する。さらに、単位詞を持たない文
節については、英数字の桁数や記号の種類の情報に基づ
いて文字列の意味を決定することにより、 英数字列がビル名の一部か「階」または、「部屋番
号」かを正確に判断できる。
【0018】 「階」または「部屋番号」かを正確に
判断できる。
【0019】
【発明の実施の形態】図3は、本発明の住所解析システ
ムの構成を示す。同図に示すシステムは、形態素解析結
果記憶部201、解析制御部202、形態素解析部20
3、単語辞書204、文節選択部205、単位詞解析部
206、係り受け解析部207、桁数・記号解析部20
8、単位詞解析ルール209、係り受けルール210、
及び桁数・記号解析ルール211より構成される。
【0020】解析制御部202は、形態素解析結果記憶
部201、形態素解析部203、文節選択部205の各
構成要素を制御する。形態素解析部203は、単語辞書
204を参照して、入力された自然語の文字列を単語分
割し、形態素解析を行う。単語辞書204には、一般的
な登録単語に加えて住所を構成する意味として「建物」
「棟」「階」「部屋番号」等の単語が登録されているも
のとする。これにより、形態素解析部203は、単位詞
として、「棟」「階」「部屋番号」の意味を持つ英数字
にはそれぞれ、「棟」「階」「部屋番号」の意味を付与
する。また、単語分割された中に連続する2文字以上の
英字がある場合には、当該英字は「企業名」とする。
【0021】形態素解析結果記憶部201は、形態素解
析部203で解析された結果を保持し、解析制御部20
2を介して文節選択部205に読み出される。文節選択
部205は、形態素解析結果記憶部201より解析対象
とする文節を選択して読み出す。読み出された文節を単
位詞解析部206、係り受け解析部208、桁数・記号
解析部208にそれぞれ転送する。
【0022】単位詞解析部206は、単位詞解析ルール
209を参照して、単位詞を含む文節の英数字を含む文
節の意味を決定する。このとき、単位詞解析ルール20
9を参照して、数字や1文字の英字の意味を決定する。
また、数字と1文字の英字が連続している場合に、当該
文字の意味候補が2つ以上になる場合には、当該候補を
選択するために桁数・記号解析部208に入力する。
【0023】係り受け解析部207は、係り受けルール
210を参照して、前後の単語との係り受け関係により
複合語の解析を行う。つまり、入力された単語の前の単
語または、後続する単語に当該入力された単語に関連す
る意味を有する単語の存在を確認し、前後の単語が入力
された単語に意味を与える単語であれば、係り受け関係
が成立するものとして、入力単語に意味を与える。
【0024】桁数・記号解析部208は、単位詞が付与
されていない英数字列について、桁数・記号ルール21
1を参照して、桁数やハイフン等の記号の位置関係から
意味を解析する。このとき、単位詞解析部206におい
て複数の候補が存在している場合には、いずれかの候補
を選択する。
【0025】単位詞解析ルール209は、「建物」
「棟」「階」「部屋番号」等の単位詞を含む文節の意味
を決定するためのルールである。係り受け解析ルール2
10は単位詞のある文節が複合語の一部を形成すること
が可能であるかの判定のためのルールである。
【0026】桁数・記号解析ルール211は、単位詞の
ない文節について前後の名詞の意味、単位詞のある文節
の意味、ハイフン等の記号の有無による判定を行うと共
に、数字の桁数による意味を付与するルールである。桁
数については、2桁以内であれば「階数」、3〜4桁の
場合には「部屋番号」の意味を付与する等のルールであ
る。
【0027】図4は、本発明の住所解析システムの動作
を示すフローチャートである。 ステップ101) 最初に、単語分割過程として、形態
素解析部203が入力された住所文字列を解析用の単語
辞書204を参照して、単語分割する。 ステップ102) 単語の分割過程において、形態素解
析部203は通常の形態素解析の他に企業名に対する解
析処理として、予め登録されているルールである“2文
字以上の英字は企業名と見做す”を用いて連続する2文
字以上の英字が入力された場合には企業名として意味を
付与する。これにより、2文字以上の英字は、「棟」、
「階」、「部屋番号」と見做されない。
【0028】ステップ103) 次に、単位詞解析過程
として、文節選択部205で単位詞を含む文節を選択す
る。ここでは、単位詞解析ルール209を参照して単位
詞を含む文節があるとき、単語に付与されている意味を
参考にして数字や1文字の英字の意味を決める。例え
ば、「2号館」は「号館」という単位詞があるので、全
体は「棟」の意味に分類される。「2階」は「階」があ
るので、「階」の意味に分類される。但し、「2F」は
ここでは「階」の意味と英数字列「2F」の2通りの解
候補が残される。
【0029】ステップ104) 係り受け解析部207
が係り受けルール210を参照して前後の単語との係り
受け関係を解析し、複合語の解析を行う。例えば、後の
単語に「倉庫」「団地」「宿舎」などの建物の意味を持
つ単語があるので、『2号倉庫』のような場合には、
“2号”は「部屋番号」ではなく、後の単語も含めて
「建物」の意味になる。また、「地下」等の位置に関す
る名詞の解析も行う。
【0030】ステップ105) 最後に、桁数・記号解
析過程として文節選択部205において、単位詞が付与
されていない英数字について意味を決定する。前後の文
節でステップ102で意味が決定した文節があるとき
は、それ以外の意味に変更する。
【0031】
【実施例】本発明の実施例を説明する。図5は、本発明
の一実施例の動作を説明するための図である。以下例1
〜例4の各処理過程毎に説明する。
【0032】[例1] 単語分割過程(ステップ101) 入力文字列『A棟1階123』が入力され、形態素解析
部203において、以下のように単語に分割される。
【0033】A/棟/1/階/123 「A」は英字、「棟」は単位詞、「1」は数字、「階」
は単位詞、「123」は数字である。 後処理過程(ステップ102) 形態素解析部203は、英字「A」は1文字であるの
で、企業名とは見做さない。従って、英字「A」が有す
る意味は「棟」の意味となる。また、数字「1」が有す
る意味は「階」の意味となり、数字「123」はその後
に単位詞が付与されていないため、単に数字と判定され
る。
【0034】 単位詞解析過程(ステップ103) 次に、単位詞解析部206において、単位詞を含む「A
棟」「1階」はそれぞれ、「棟」と「階」があるので、
それぞれの意味が付与される。 係り受け解析過程(ステップ104) 次に、係り受け解析部207が建物の意味が文字列にあ
るかを判定する。この例の場合には、建物を表す単語
「倉庫」「団地」「宿舎」等は含まれていないので、次
の処理に移行する。
【0035】 桁数・記号解析過程(ステップ10
5) 文節選択部205は、単位詞の付かない数値「123」
があるので、当該数字「123」についての係り受け関
係を判定する。桁数・記号解析ルール211を参照する
と、「123」の直前に「階」の意味の文節があり、か
つ、桁数が3桁であるため「部屋番号」であると解析す
る。
【0036】上記のように例1においては、1文字で表
される英字「A」の後に単位詞「棟」があるため、企業
名とは判断せず、「A棟」とする。また、数字「1」の
後に単位詞「階」があるため、「1階」とする。最後の
数字「123」については、桁数で判断して、3桁であ
るため、「部屋番号」であると判断する。
【0037】[例2] 単語分割過程(ステップ101) 入力文字列『2号倉庫』が入力され、形態素解析部20
3において、以下のように単語に分割される。
【0038】2/号/倉庫 「2」は数字、「号」は単位詞、「倉庫」は建物を表
す。 後処理過程(ステップ102) この例の文字列には英字は含まれていないため、の解
析結果のまま次の処理に移行する。
【0039】 単位詞解析過程(ステップ103) 次に、単位詞解析部206において、単位詞「号」があ
るため、部屋番号を表す「2号」の意味に解析される。 係り受け解析過程(ステップ104) 次に、「2号」の後に「倉庫」という建物の意味を有す
る単語があるので、「部屋番号」ではなく、「2号倉
庫」という倉庫の名前に変更する。
【0040】 桁数・記号解析過程(ステップ10
5) この例では、単位詞が付与されない英数字はないので、
処理をスキップする。上記の例2については、数字
「2」の後に単位詞「号」があるため、解析結果は部屋
番号「2号」と判断されるが、さらに、後に建物を表す
「倉庫」があるため、建物を表す「2号倉庫」と判断さ
れる。
【0041】[例3] 単語分割過程(ステップ101) 入力文字列『ABCビル地下1階』が入力され、形態素
解析部203において、以下のように単語に分割され
る。
【0042】ABC/ビル/地下/1/階 「ABC」は英字、「ビル」は建物を表し、「地下」は
位置を表し、「1」は数字、「階」は単位詞を表す。 後処理過程(ステップ102) この例の文字列に英字「ABC」が含まれており、この
英字は、3文字であるので、企業名と見做される。
【0043】 単位詞解析過程(ステップ103) 次に、単位詞解析部206において、単位詞「階」があ
るため、階数「1階」を表す意味に解析される。 係り受け解析過程(ステップ104) 次に、係り受け解析部207は、「ABC」の後に「ビ
ル」という建物の意味を有する単語があるので、企業名
「ABC」を建物の名称に変更し「ABCビル」とし、
位置を表す単語「地下」があるので、「ABCビル」
「地下1階」となる。
【0044】 桁数・記号解析過程(ステップ10
5) この例では、単位詞が付与されない英数字はないので、
処理をスキップする。号であると解析する。上記の例3
では、2文字以上の英字「ABC」があるため、企業名
と判断され、「ABC」の後に建物を示す「ビル」があ
るので、「ABCビル」と判定され、その後に、位置を
示す「地下」があり、後続の数字「1」に続いて単位詞
「階」が続くため、係り受け関係解析部207により
「地下1階」と判断される。
【0045】[例4] 単語分割過程(ステップ101) 入力文字列『ABCビルB1F』が入力され、形態素解
析部203において、以下のように単語に分割される。
【0046】ABC/ビル/B/1/F 「ABC」は英字、「ビル」は建物を表し、「B」は英
字、「1」は数字、「F」は英字かつ階数を表す単位詞
である。 後処理過程(ステップ102) この例の文字列に英字「ABC」が含まれており、この
英字は、3文字であるので、企業名と見做される。
【0047】 単位詞解析過程(ステップ103) 次に、単位詞解析部206において、英字の単位詞
「F」があるため、この例では、「1階」の意味と「1
F」の2通りの解候補が残される。 係り受け解析過程(ステップ104) 次に、係り受け解析部207は、「ABC」の後に「ビ
ル」という建物の意味を有する単語があるので、「AB
C」を企業名から建物名に変更し、「ABCビル」とす
る。
【0048】 桁数・記号解析過程(ステップ10
5) この例4では、上記のの処理において2つの解候補が
ある。従って、1桁の数値「1」の前に英字「B」があ
るため、当該「B」は「地下」の意味を持つものとし、
その後にづづく「1F」が階数を表しているものと、解
析する。
【0049】上記のように、単語辞書204に入力デー
タを構成する単語の意味を登録すると共に、単位詞解析
ルール209、係り受け解析ルール210、桁数・記号
解析ルール211にそれぞれ、住所を解析するための知
識を予め登録することにより、それぞれの解析部におい
て、単語分割後、英数字の意味を判断し、さらに、単位
詞のある文節について文節の意味を決め、前後の単語間
の係り受け関係を解析し、単位詞のある文節の意味や、
ハイフン等の記号の有無や位置関係により判断すること
ができる。
【0050】なお、上記の実施例では、単位詞解析部2
06、係り受け解析部207及び桁数・記号解析部20
8において、それぞれルールを参照して解析を行ってい
るが、この例に限定されることなく、各解析部毎にルー
ルを内蔵しておき、当該ルールを参照して種々解析する
ことも可能である。
【0051】さらに、上記の実施例では、自然語として
住所に関する文字列が入力された場合の処理を示した
が、この例に限定されることなく、自然語の解析におい
て特殊な形態をとる文字列の入力についても種々適用が
可能であり、特殊な形態をとる文字列に対応する分類と
ルールを予め設定しておき、その対応関係に基づいて解
析することが可能である。
【0052】また、上記の実施例による解析結果を記憶
手段に格納しておき、住所編集等の作業時に、既に解析
による意味付けが終了しているためある一定の編集基準
を設け、不要な記載は省略する等のデータの加工を行う
ことも可能である。なお、本発明は、上記の実施例に限
定されることなく、特許請求の範囲内で種々変更・応用
が可能である。
【0053】
【発明の効果】上述のように、本発明の自然語解析方法
及び装置によれば、棟・階・部屋番号の多義のある英数
字列の意味をより適切な意味に判断することが可能であ
る。従って、本発明によれば、建物名、棟番号、階、部
屋番号の混在した住所から建物名のみを取り出してデー
タベース化し、ビル名から正式住所に変換するような業
務のデータ作成に利用したり、個人名の同姓同名を区別
するために必要なデータを残しつつ、プライバシーを保
護するため、建物名を省略して、階・部屋番号のみ表示
すう様なデータの作成に利用したり、電話帖のように限
られたスペースに住所をおさめるため、建物名を省略し
て階・部屋番号のみをを抽出する業務に適用することが
可能である。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の住所解析システムの構成図である。
【図4】本発明の住所解析システムの動作を示すフロー
チャートである。
【図5】本発明の一実施例の動作を説明するための図で
ある。
【図6】従来の住所解析システムの構成図である。
【符号の説明】
10 文字列入力手段 20 形態素解析手段 30 文節合成手段 40 単位詞解析手段 50 係り受け解析手段 60 桁数・記号解析手段 70 解析結果出力手段 201 形態素解析結果記憶部 202 解析制御部 203 形態素解析部 204 単語辞書 205 文節選択部 206 単位詞解析部 207 係り受け解析部 208 桁数・記号解析部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力された文字列を複数の単語に分類
    し、分類された各単語に意味及び分類を割り当て、 単位詞並びに係り受け関係によって、単語中の英数字の
    意味を判定し、 判定した英数字を用いて前記入力された文字列から特定
    の文字列を抽出するか、前記入力された文字列のうち特
    定の文字列を除外することを特徴とする自然語解析方
    法。
  2. 【請求項2】 前記入力された文字列を形態素解析を用
    いて複数の単語に分割すると共に、分割された各単語に
    意味、数詞、単位詞等で表現される役割、及び英字、数
    字、かな、漢字等で表現される字種を割り当て、 単語の並びである文節において、複数文字からなる英字
    列がある場合は、企業名、団体名等からなる集合名と判
    定し、 前記文節内の単位詞をもとに、あるいは、英数字の前後
    の単語の意味によって、該文節内の英数字が有する建物
    番号、階数等で表現される役割を判定し、 判定された集合名、または役割に基づいて、前記入力さ
    れた文字列のうち特定の文字列を除外する請求項1記載
    の自然語解析方法。
  3. 【請求項3】 前記形態素解析の結果に基づいて、前記
    英数字の桁数またはハイフン等で表現される区切り記号
    の出現位置を用いて前記英数字の役割を判定する請求項
    2記載の自然語解析方法。
  4. 【請求項4】 入力された文字列を複数の単語に分類
    し、分類された各単語に意味及び分類を割り当て、単位
    詞並びに係り受け関係によって、単語中の英数字の意味
    を判定し、判定した英数字を用いて前記入力された文字
    列から特定の文字列を抽出するか、前記入力された文字
    列のうち特定の文字列を除外する手段を有することを特
    徴とする自然語解析装置。
  5. 【請求項5】 文字列の入力を受け付ける文字列入力手
    段と、 前記文字列入力手段で入力された文字列を、形態素解析
    を用いて複数の単語に分割すると共に、分割された各単
    語に意味、数詞、単位詞等で表現される役割、及び英
    字、数字、かな、漢字等で表現される字種を割り当てる
    形態素解析手段と、 前記形態素解析手段が分割した複数の単語から文節を作
    成する文節合成手段と、 前記文節合成手段が生成した文節に対して、該文節中の
    単位詞をキー情報として、該文節内の英数字が有する、
    建物番号、階数等で表現される役割を判定する単位詞解
    析手段と、 前記文節合成手段が合成した文節に対して該文節中の英
    数字の前後の単語の意味を参照し、該文節内の英数字が
    有する建物番号、階数等で表現される役割を判定する、
    係り受け解析手段と、 前記文節合成手段により合成された文節に対して、該文
    節中の英数字の桁数またはハイフン等で表現される区切
    り記号の出現範囲を判定することにより、前記英数字の
    役割を判定する桁数記号解析手段と、 前記単位詞解析手段、係り受け解析手段、桁数記号解析
    手段が判定した前記文節内の英数字を受け取り、それら
    英数字を出力するか、前記文字列入力手段が受け付けた
    前記入力文字列から、前記英数字部分を省略して出力す
    る解析結果出力手段とを有する請求項4記載の自然語解
    析装置。
  6. 【請求項6】 前記単位詞解析手段、係り受け解析手
    段、または、桁数記号解析手段において、複数文字から
    なる英字列がある場合には、該英字列は企業名、団体名
    等からなる集合名と判定する集合名判定手段を有する請
    求項5記載の自然語解析装置。
JP19069595A 1995-07-26 1995-07-26 自然語解析方法及び装置 Expired - Lifetime JP3470930B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19069595A JP3470930B2 (ja) 1995-07-26 1995-07-26 自然語解析方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19069595A JP3470930B2 (ja) 1995-07-26 1995-07-26 自然語解析方法及び装置

Publications (2)

Publication Number Publication Date
JPH0944496A true JPH0944496A (ja) 1997-02-14
JP3470930B2 JP3470930B2 (ja) 2003-11-25

Family

ID=16262325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19069595A Expired - Lifetime JP3470930B2 (ja) 1995-07-26 1995-07-26 自然語解析方法及び装置

Country Status (1)

Country Link
JP (1) JP3470930B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10283355A (ja) * 1997-04-02 1998-10-23 Nippon Telegr & Teleph Corp <Ntt> 企業名解析方法及び装置
JP2001216300A (ja) * 2000-01-31 2001-08-10 Just Syst Corp 個体名の認定装置、認定方法、並びに、記録媒体
JPWO2021038836A1 (ja) * 2019-08-30 2021-03-04

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10283355A (ja) * 1997-04-02 1998-10-23 Nippon Telegr & Teleph Corp <Ntt> 企業名解析方法及び装置
JP2001216300A (ja) * 2000-01-31 2001-08-10 Just Syst Corp 個体名の認定装置、認定方法、並びに、記録媒体
JPWO2021038836A1 (ja) * 2019-08-30 2021-03-04
WO2021038836A1 (ja) * 2019-08-30 2021-03-04 富士通株式会社 情報処理方法、情報処理プログラム、および情報処理装置

Also Published As

Publication number Publication date
JP3470930B2 (ja) 2003-11-25

Similar Documents

Publication Publication Date Title
KR100330801B1 (ko) 언어식별장치및언어식별방법
JPH07282063A (ja) 機械翻訳装置
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP3470930B2 (ja) 自然語解析方法及び装置
JP2943791B2 (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
JP3079844B2 (ja) 全文データベースシステム
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JPH01205265A (ja) 文書整形装置
JPH10207875A (ja) 表作成装置およびその方法
JP3022079B2 (ja) 全文データベースシステム
JPH08115330A (ja) 類似文書検索方法および装置
JPH07191986A (ja) 文章入力装置
JP2024021555A (ja) 日本語入力システムのkearm優先変換
JP2023169063A (ja) 日本語入力システムのkearm学習変換
JP3022080B2 (ja) 全文データベースシステム
JPH0991311A (ja) 情報蓄積検索装置およびその制御方法
JPH0628396A (ja) 電子化辞書装置
JPH0612453A (ja) 未知語抽出登録装置
JP3926906B2 (ja) N単語連鎖を用いたかな漢字変換システム,方法および記録媒体
JP3774056B2 (ja) 文字処理装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPH08190565A (ja) データベース検索方式
JPS6366663A (ja) 文書構造管理方式
JPH09128405A (ja) 文書検索方法及び文書検索装置
JPH06131329A (ja) 日本語文字処理装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080912

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080912

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090912

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090912

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100912

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100912

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120912

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130912

Year of fee payment: 10

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term