JPH0619959A - 固有名詞特定処理システム - Google Patents

固有名詞特定処理システム

Info

Publication number
JPH0619959A
JPH0619959A JP4172176A JP17217692A JPH0619959A JP H0619959 A JPH0619959 A JP H0619959A JP 4172176 A JP4172176 A JP 4172176A JP 17217692 A JP17217692 A JP 17217692A JP H0619959 A JPH0619959 A JP H0619959A
Authority
JP
Japan
Prior art keywords
proper noun
proper
pattern
dictionary
noun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4172176A
Other languages
English (en)
Other versions
JP3230606B2 (ja
Inventor
Tsuyoshi Kitani
強 木谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP17217692A priority Critical patent/JP3230606B2/ja
Publication of JPH0619959A publication Critical patent/JPH0619959A/ja
Application granted granted Critical
Publication of JP3230606B2 publication Critical patent/JP3230606B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 辞書に固有名詞が存在しない場合や、固有名
詞の文字列が部分的に省略されている場合にも、固有名
詞を高精度に特定することが可能な固有名詞特定処理シ
ステムを提供すること。 【構成】 日本語文章中の固有名詞を特定する処理シス
テムにおいて、固有名詞の前後で頻繁に出現する接頭
語,接尾語,同格語等を登録した固有名詞修飾語辞書
と、固有名詞とその前後の接頭語,同格語,接尾語等の
出現形式を定めた固有名詞出現パターン辞書とを備え、
前記固有名詞修飾語辞書に定義した接頭語および接尾語
と、前記固有名詞出現パターン辞書に定義したパターン
とを参照して、パターンマッチングにより固有名詞を探
索することを特徴とする固有名詞特定処理システム。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語文章に出現する
固有名詞を特定し、企業名,人名,地名等の固有名詞の
種類を特定する固有名詞特定処理システムに関するもの
である。
【0002】
【従来の技術】固有名詞は、データベースへの登録デー
タ,データベース検索のためのキーとなることが多く、
固有名詞を特定することにより、日本語文章を処理対象
とする種々の分野のアプリケーションに適用することが
可能になる。従来の、一般的な固有名詞の特定技術は、
固有名詞を登録した辞書との照合によるものであった。
【0003】
【発明が解決しようとする課題】上記従来技術は、辞書
に登録されていない固有名詞は特定することができない
という問題があった。また、固有名詞が同一の文書内で
複数回出現する場合、2度目以降は接頭語および接尾語
を省略して表記することがあるため、単純な照合では省
略に対応することができないという問題もあった。更
に、形態素解析処理においては、固有名詞が特定できな
いために、固有名詞の前後の形態素の特定にも悪影響を
及ぼし、形態素の分割精度と品詞の付与精度を低下させ
る原因にもなっていた。本発明は上記事情に鑑みてなさ
れたもので、その目的とするところは、従来の技術にお
ける上述の如き問題を解消し、辞書に固有名詞が存在し
ない場合や、固有名詞の文字列が部分的に省略されてい
る場合にも、固有名詞を高精度に特定することが可能な
固有名詞特定処理システムを提供することにある。
【0004】
【課題を解決するための手段】本発明の上記目的は、日
本語文章中の固有名詞を特定する処理システムにおい
て、固有名詞の前後で頻繁に出現する接頭語,接尾語,
同格語等を登録した固有名詞修飾語辞書と、固有名詞と
その前後の接頭語,同格語,接尾語等の出現形式を定め
た固有名詞出現パターン辞書とを備え、前記固有名詞修
飾語辞書に定義した接頭語および接尾語と、前記固有名
詞出現パターン辞書に定義したパターンとを参照して、
パターンマッチングにより固有名詞を探索することを特
徴とする固有名詞特定処理システムによって達成され
る。
【0005】
【作用】本発明に係る固有名詞特定処理システムにおい
ては、企業名,人名,地名等の固有名詞をすべて、辞書
に登録しておくことは困難であることに鑑み、固有名詞
を、登録した辞書のみに頼らず、その出現パターンか
ら、固有名詞の範囲とその種類を特定するようにしたも
のである。これにより、データベースへの追加情報,デ
ータベースの検索キー等、特定した固有名詞を種々のア
プリケーションプログラムで利用することができるよう
になる。また、形態素解析処理と組み合わせれば、形態
素解析処理で特定できなかった固有名詞の範囲が特定で
き、形態素分割および品詞付与の精度を向上させること
が可能になる。
【0006】
【実施例】以下、本発明の実施例を図面に基づいて詳細
に説明する。図1は、本発明の一実施例に係る日本語文
章に対する固有名詞特定処理の概要を示す動作フロー図
である。本実施例に示す日本語文章に対する固有名詞特
定処理は、図示されていない入力装置から日本語文章を
受け取る入力処理1,入力文字列と固有名詞の前後で頻
繁に出現する接頭語,接尾語,同格語を登録した固有名
詞修飾語辞書6(その内容の一部を図2に示した)、およ
び、固有名詞とその前後の接頭語,接尾語,同格語等の
出現形式を定めた固有名詞出現パターン辞書7(そのフ
ォーマットを図3に示した)とのパターンマッチングに
よって、企業名,人名,地名等の固有名詞を捜し出す固
有名詞パターンマッチング処理2,捜し出した固有名詞
のパターンが重なる場合に、パターンの一致度およびマ
ッチしたパターンの長さと文字位置に基づき、確からし
いパターンを選択する重なりパ復ーン選択処理3,接頭
語および接尾語が省略された場合でも、固有名詞を捜し
出す省略固有名詞探索処理4,決定した処理結果を、図
示されていない出力装置に出力する出力処理5から構成
されている。
【0007】なお、上記処理のうち、固有名詞パターン
マッチング処理2,重なりパターン選択処理3,省略固
有名詞探索処理4については、図4〜図7に、その詳細
を示すフローチャートを示した。図2は、固有名詞の前
後に頻繁に出現する接頭語,接尾語,同格語の一例を示
すものであり、(a)は企業名の接頭語、(b)は企業名の
接尾語、(c)は同格語の例を示すものである。なお、同
格語は、すべての種類の固有名詞で共通である。また、
記号”|”は、OR演算子であり、接頭語,接尾語,同
格語は、この演算困を用いて簡単に追加することができ
る。図3は、固有名詞の出現パターンの一例を示すもの
であり、記号[ ]で囲まれる部分は、省略可能であるこ
とを示している。このパターンにマッチングする文字列
は、例えば、「大手のABC社(本社、東京)」であり、
「大手」が接頭語、「の」が同格語、「ABC」が企業名の
属性を有する固有名詞、「社」が接尾語、そして、「本
社、東京」が説明である。
【0008】以下、上述の如く構成された本実施例の動
作を、図1および図4〜図7に示す動作フロー図に基づ
いて説明する。入力処理1は、図示されていない入力装
置から日本語文章を受け取る。固有名詞パターンマッチ
ング処理2は、入力文字列に、固有名詞修飾語辞書6に
定義された接尾語が存在すれば、その前後の文字列が固
有名詞出現パターン辞書7に定義された固有名詞出現パ
ターンを満足するか否かを調べる(ステップ11と12)。パ
ターンに適合する接頭語が存在する場合には、固有名詞
の範囲は、同格語が存在すれば同格語の直後、同格語が
存在しなければ接頭語の直後から接尾語の直前までとす
る(ステップ13と14)。ステップ13において、パターンに
適合する接頭語が存在しない場合には、固有名詞の範囲
は、接尾語の直前の文字から入力文字方向と逆の方向に
同じ文字種類が続く限り遡り、文字種類が変化する直前
の文字までとする(ステップ15)。ここで、文字種類は、
漢字,平仮名,片仮名,数字,英字,記号に分類する。
【0009】これと同様にして、入力文字列に、固有名
詞修飾語辞書に定義された接頭語が存在すれば、その前
後の文字列が固有名詞出現パターン辞書7に定義された
固有名詞出現パターンを満足するか否かを調べる(ステ
ップ16と17)。パターンに適合する接尾語が存在する場
合には、固有名詞の範囲は、同格語が存在すれば同格語
の直後、同格語が存在しなければ接頭語の直後から接尾
語の直前までとする(ステップ18と19)。ステップ18にお
いて、パターンに適合する接尾語が存在しない場合に
は、固有名詞の範囲は、同格語が存在すれば同格語の直
後、同格語が存在しなければ接頭語の直後から入力文字
方向と同じ方向に同じ文字種類が続く限り進み、文字種
類が変化する直前の文字までとする(ステップ20)。次
に、接頭語に対して1点、接尾語に対して2点、説明に
対して1点を与え、マッチしたパターンの合計得点を求
める。すべての文字位置に対して上述の処理を行い、マ
ッチしたパターンの文字位置と得点を記憶する(ステッ
プ21と22)。
【0010】すべてのパターンを捜し出した後に、重な
りパターン選択処理3は、固有名詞と接尾語の部分のパ
ターンが重なり合っているものを捜す(ステップ31)。固
有名詞と接尾語の部分のパターンが重なり合いがない場
合は、固有名詞と接尾語を出力とする。ここで、固有名
詞と接尾語を出力とするのは、例えば、「日本航空」,
「東京銀行」のように、「航空」,「銀行」のような接尾語も
固有名詞の一部となることが多いためである。そして、
重なっている部分のそれぞれのパターンに対して、パタ
ーンの得点の最も高いものが一つだけ存在すれば(ステ
ップ32と33)、そのパターンを出力として選ぶ。また、
ステップ35の判定において、得点の最も高いパターンが
複数個存在すれば、パターンが最も長いものを選び(ス
テップ36)、それも一つに絞れない場合は、最も後方か
らパターンが始まっているものを選び、出力とする。
【0011】次に、省略固有名詞探索処理4では、上述
の処理で決定したすべての固有名詞から接尾語を取り除
き、固有名詞だけで、新たなパターンマッチング用の文
字列を生成する(ステップ41)。そして、入力文字列の先
頭から、このパターンに一致するものがあるか否かを調
べ(ステップ42)、一致したもので、まだ、出力となって
いない文字列を、一致した元のパターンの固有名詞の種
別を有する固有名詞として出力する(ステップ43)。以
下、上述の固有名詞パターンマッチング処理2から省略
固有名詞探索処理4までの処理を、実例で説明する。な
お、ここでは、入力文字列を、「大手の鈴木建設工業
は、鈴木の関連企業であるABC社の株式を売却すると
発表した。」とする。前述の固有名詞パターンマッチン
グ処理2での接尾語および接頭語に基づくパターンマッ
チングにより、(1)「大手の鈴木建設」,(2)「大手の鈴
木建設工業」,(3)「ABC社」が、適合するパターンと
して得られ、それぞれ、得点として、3点,3点,2点
が与えられる。
【0012】上の(1),(2)の場合、「大手」が接頭語、
「の」が同格語であり、固有名詞は、(1)が「鈴木」、(2)
が「鈴木建設」、接尾語は(1)が「建設」、(2)が「工業」、
(3)が「社」である。また、(1)と(2)のパターンは、固
有名詞と接尾語が重なっているので、重なりパターン選
択処理3により得点を比較するが、同点であるので、パ
ターンの長い「大手の鈴木建設工業」を、出力のパターン
として選ぶ。パターン「ABC社」については、重なり合
うパターンが他にないので、そのまま、出力される。省
略固有名詞探索処理4では、接尾語である「建設」と「工
業」を固有名詞から取り除き、新たに、「鈴木」をパター
ンマッチング用の文字列として生成する。このパターン
は、入力文字列の2個所でマッチするが、最初にマッチ
したものは既に出力となっているので、2度目にマッチ
した「鈴木」を、企業名の種別を有する固有名詞と判定す
る。
【0013】上記実施例によれば、日本語文章の固有名
詞を特定する処理において、固有名詞の前後で頻繁に出
現する接頭語、接尾語,同格語に着目することにより、
辞書に固有名詞が存在しない場合や、固有名詞の文字列
が部分的に省略されている場合にも、固有名詞を高精度
に特定することが可能になる。なお、上記実施例は本発
明の一例を示すものであり、本発明はこれに限定される
べきものではないことは言うまでもない。例えば、上記
実施例においては、入力は連続した日本語文字列から成
る日本語文章としたが、これは、形態素に分割されて品
詞が付与されている形態素解析結果でも良く、また、固
有名詞が登録された辞書との照合を併用するようにする
ことも可能である。
【0014】
【発明の効果】以上、詳細に説明した如く、本発明によ
れば、辞書に固有名詞が存在しない場合や、固有名詞の
文字列が部分的に省略されている場合にも、固有名詞を
高精度に特定することが可能な固有名詞特定処理システ
ムを実現できるという顕著な効果を奏するものである。
【0015】
【図面の簡単な説明】
【図1】本発明の一実施例に係る日本語文章に対する固
有名詞特定処理の概要を示す動作フロー図である。
【図2】実施例の固有名詞修飾語辞書6の内容の一部を
示す図である。
【図3】実施例の固有名詞出現パターン辞書7の内容の
一部を示す図である。
【図4】実施例の固有名詞パターンマッチング処理2の
動作フロー図の一部である。
【図5】実施例の固有名詞パターンマッチング処理2の
動作フロー図の続きである。
【図6】実施例の重なりパターン選択処理3の動作フロ
ー図である。
【図7】実施例の省略固有名詞探索処理4の動作フロー
図である。
【符号の説明】
1:入力処理、2:固有名詞パターンマッチング処理、
3:重なりパターン選択処理、4:省略固有名詞探索処
理、5:出力処理、6:固有名詞修飾語辞書、7:固有
名詞出現パターン辞書。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 日本語文章中の固有名詞を特定する処理
    システムにおいて、固有名詞の前後で頻繁に出現する接
    頭語,接尾語,同格語等を登録した固有名詞修飾語辞書
    と、固有名詞とその前後の接頭語,同格語,接尾語等の
    出現形式を定めた固有名詞出現パターン辞書とを備え、
    前記固有名詞修飾語辞書に定義した接頭語および接尾語
    と、前記固有名詞出現パターン辞書に定義したパターン
    とを参照して、パターンマッチングにより固有名詞を探
    索することを特徴とする固有名詞特定処理システム。
  2. 【請求項2】 前記パターンマッチングにより探索した
    固有名詞のパターンが重なる場合に、パターンの一致度
    およびマッチしたパターンの長さと文字位置に基づき、
    確からしいパターンを選択する処理を有することを特徴
    とする請求項1記載の固有名詞特定処理システム。
JP17217692A 1992-06-30 1992-06-30 固有名詞特定方法 Expired - Lifetime JP3230606B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17217692A JP3230606B2 (ja) 1992-06-30 1992-06-30 固有名詞特定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17217692A JP3230606B2 (ja) 1992-06-30 1992-06-30 固有名詞特定方法

Publications (2)

Publication Number Publication Date
JPH0619959A true JPH0619959A (ja) 1994-01-28
JP3230606B2 JP3230606B2 (ja) 2001-11-19

Family

ID=15936988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17217692A Expired - Lifetime JP3230606B2 (ja) 1992-06-30 1992-06-30 固有名詞特定方法

Country Status (1)

Country Link
JP (1) JP3230606B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944489A (ja) * 1995-07-28 1997-02-14 Nippon Telegr & Teleph Corp <Ntt> 自然語解析方法及び装置
EP0839990A1 (de) 1996-11-01 1998-05-06 Roland Klaar Gebaute Nockenwelle
JPH10283355A (ja) * 1997-04-02 1998-10-23 Nippon Telegr & Teleph Corp <Ntt> 企業名解析方法及び装置
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JPH11272695A (ja) * 1998-03-20 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置及びその方法並びに情報記憶媒体
JP2000076293A (ja) * 1998-09-02 2000-03-14 Nec Corp 省略名称抽出装置、方法および記録媒体
JP2001216300A (ja) * 2000-01-31 2001-08-10 Just Syst Corp 個体名の認定装置、認定方法、並びに、記録媒体
JP2002259368A (ja) * 2001-03-01 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 文書伏字加工方法、文書伏字加工装置、文書伏字加工処理プログラム及びその記録媒体
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
WO2009081861A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP2015176567A (ja) * 2014-03-18 2015-10-05 富士通株式会社 音声出力順制御プログラム、音声出力順制御方法及び音声出力順制御装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944489A (ja) * 1995-07-28 1997-02-14 Nippon Telegr & Teleph Corp <Ntt> 自然語解析方法及び装置
EP0839990A1 (de) 1996-11-01 1998-05-06 Roland Klaar Gebaute Nockenwelle
JPH10283355A (ja) * 1997-04-02 1998-10-23 Nippon Telegr & Teleph Corp <Ntt> 企業名解析方法及び装置
JPH11272695A (ja) * 1998-03-20 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置及びその方法並びに情報記憶媒体
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JP2000076293A (ja) * 1998-09-02 2000-03-14 Nec Corp 省略名称抽出装置、方法および記録媒体
JP2001216300A (ja) * 2000-01-31 2001-08-10 Just Syst Corp 個体名の認定装置、認定方法、並びに、記録媒体
JP2002259368A (ja) * 2001-03-01 2002-09-13 Nippon Telegr & Teleph Corp <Ntt> 文書伏字加工方法、文書伏字加工装置、文書伏字加工処理プログラム及びその記録媒体
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
US8494839B2 (en) 2007-05-16 2013-07-23 Sony Corporation Apparatus, method, and recording medium for morphological analysis and registering a new compound word
WO2009081861A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US8583436B2 (en) 2007-12-21 2013-11-12 Nec Corporation Word category estimation apparatus, word category estimation method, speech recognition apparatus, speech recognition method, program, and recording medium
JP5440177B2 (ja) * 2007-12-21 2014-03-12 日本電気株式会社 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP2015176567A (ja) * 2014-03-18 2015-10-05 富士通株式会社 音声出力順制御プログラム、音声出力順制御方法及び音声出力順制御装置

Also Published As

Publication number Publication date
JP3230606B2 (ja) 2001-11-19

Similar Documents

Publication Publication Date Title
US6957213B1 (en) Method of utilizing implicit references to answer a query
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH0619959A (ja) 固有名詞特定処理システム
JPH09198395A (ja) 文書検索装置
JP2595934B2 (ja) 仮名漢字変換処理装置
JP2828692B2 (ja) 情報検索装置
JPH1011431A (ja) 漢字検索装置および方法
JPH11161650A (ja) 電子辞書
JP2621999B2 (ja) 文書処理装置
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP4145776B2 (ja) 質問応答装置および質問応答方法
JPH07141381A (ja) 電子辞書表示装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPS613267A (ja) 仮名漢字変換処理装置
JPH08221443A (ja) 漢字を含むテキストの検索方法及び装置
JPH0612453A (ja) 未知語抽出登録装置
JP3233283B2 (ja) 日本文文章解析装置
JP3058275B1 (ja) 検索装置
JPH09179865A (ja) 翻訳対象領域決定機能付き機械翻訳装置
JPS62247480A (ja) 文字認識後処理方式
JPH0973460A (ja) 文書検索装置
JPH03125265A (ja) キーワード抽出装置
JPH04147363A (ja) 日本語入力装置
JP2000259675A (ja) 検索装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090914

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090914

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110914

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120914

Year of fee payment: 11

EXPY Cancellation because of completion of term