JP2002183133A - 固有名詞抽出装置、固有名詞抽出方法及び記憶媒体 - Google Patents

固有名詞抽出装置、固有名詞抽出方法及び記憶媒体

Info

Publication number
JP2002183133A
JP2002183133A JP2000376742A JP2000376742A JP2002183133A JP 2002183133 A JP2002183133 A JP 2002183133A JP 2000376742 A JP2000376742 A JP 2000376742A JP 2000376742 A JP2000376742 A JP 2000376742A JP 2002183133 A JP2002183133 A JP 2002183133A
Authority
JP
Japan
Prior art keywords
proper noun
proper
noun
japanese
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000376742A
Other languages
English (en)
Inventor
Masayuki Kameda
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000376742A priority Critical patent/JP2002183133A/ja
Publication of JP2002183133A publication Critical patent/JP2002183133A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 固有名詞の抽出精度を向上させる。 【解決手段】 日本語文書を入力する文書入力手段と
(S1)、この文書入力手段により入力された前記日本
語文書について、表記と品詞とを関連付けて記憶した日
本語形態素辞書と品詞間の接続規則を定めた形態素解析
規則とを参照して形態素単位に分割する形態素解析を実
行する形態素解析手段と(S2)、この形態素解析手段
による解析結果に基づき前記日本語形態素辞書に未登録
の名詞及び複合名詞を認識する未登録名詞認識手段と
(S2)、この未登録名詞認識手段により認識された未
登録の複合名詞から固有名詞を認識し、その構造を解析
する固有名詞認識手段と(S3)、を備える。これによ
り、日本語文書から抽出・認識された固有名詞がその内
部にも固有名詞を含む場合、その内部構造の固有名詞も
抽出することができるので、固有名詞の抽出精度を向上
させることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日本語文書から固
有名詞を抽出する固有名詞抽出装置、固有名詞抽出方法
及び記憶媒体に関する。
【0002】
【従来の技術】文書情報が増大する中、今日において
は、大量の文書からキーワードや重要文を抽出する情報
抽出技術、大量の文書から特定の事象情報を定型化(た
とえば、商品の発売に関し、「どこの会社が何という商
品をいつ、いくらで発売する」)して抽出・収集する情
報抽出技術、同じく大量の文書を類似する文書群に分け
る文書分類技術等が、非常に重要になってきている。そ
して、このような各種技術を実行する上では、特定の事
物を表わす固有名詞を認識・抽出する技術が求められて
いる。
【0003】しかしながら、特定の事物を表わす固有名
詞は、次々に新しい命名が行われるため、全ての固有名
詞を辞書等に情報として予め記憶させておくことが難し
くなっている。そのため、新規な固有名詞については辞
書等に記憶されていないことが多く、新規な固有名詞に
ついては単語の認識ができずに未登録語として処理さ
れ、正しい情報抽出処理ができないという問題があっ
た。
【0004】このような問題に対し、特開平11-272695
号公報には、全く新たな固有名詞が作られた場合は別と
して、既知の単語を含む複合固有名詞は一般に固有名詞
であることの手掛かりになる文字や短い単語を含んでい
るため、文字レベルのパターンによって固有名詞とその
種別(人名、企業名、地名等)を抽出・認識する技術が
開示されている。
【0005】
【発明が解決しようとする課題】ところで、従来の固有
名詞抽出ではタグ付けを行って固有名詞部分を示してい
るが、 <ORGANIZATION>日本銀行福岡支店</ORGANIZATION> のように表現が重なっている場合には、最も長い部分に
対してのみにタグを付与するようにしている。
【0006】しかしながら、上記の場合、「日本」,
「日本銀行」等も固有名詞であるにもかかわらず、これ
らの内部の固有名詞は抽出・認識されないという問題が
あった。
【0007】本発明の目的は、日本語文書から抽出・認
識された固有名詞がその内部にも固有名詞を含む場合、
その内部構造の固有名詞も抽出し、固有名詞の抽出精度
を向上させることである。
【0008】
【課題を解決するための手段】請求項1記載の発明の固
有名詞抽出装置は、日本語文書を入力する文書入力手段
と、表記と品詞とを関連付けて記憶した日本語形態素辞
書と、品詞間の接続規則を定めた形態素解析規則と、こ
の文書入力手段により入力された前記日本語文書につい
て、前記日本語形態素辞書と前記形態素解析規則とを参
照して形態素単位に分割する形態素解析を実行する形態
素解析手段と、この形態素解析手段による解析結果に基
づき前記日本語形態素辞書に未登録の名詞及び複合名詞
を認識する未登録名詞認識手段と、この未登録名詞認識
手段により認識された未登録の複合名詞から固有名詞を
認識し、その構造を解析する固有名詞認識手段と、を備
える。
【0009】したがって、日本語文書から抽出・認識さ
れた固有名詞がその内部にも固有名詞を含む場合、その
内部構造の固有名詞も抽出することが可能になる。これ
により、固有名詞の抽出精度を向上させることが可能に
なる。
【0010】請求項2記載の発明は、請求項1記載の固
有名詞抽出装置において、前記固有名詞認識手段は、前
記固有名詞の構造を解析する規則を格納する固有名詞構
造解析規則を有する。
【0011】したがって、固有名詞の構造解析が容易に
なる。
【0012】請求項3記載の発明は、請求項1または2
記載の固有名詞抽出装置において、前記固有名詞認識手
段により解析された前記固有名詞の構造に従って、前記
日本語文書中に前記固有名詞を示すタグを付加して出力
する第一固有名詞出力手段を備える。
【0013】したがって、固有名詞が、日本語文書中に
固有名詞を示すタグを付加されて出力されることにな
る。これにより、抽出された固有名詞を日本語文書中に
おいて確認することが可能になる。
【0014】請求項4記載の発明は、請求項1または2
記載の固有名詞抽出装置において、前記固有名詞認識手
段により解析された前記固有名詞の各構造の最も大きな
単位毎に、前記日本語文書中に前記固有名詞を示すタグ
を付加して出力する第二固有名詞出力手段を備える。
【0015】したがって、固有名詞が、各構造の最も大
きな単位毎であって、日本語文書中に固有名詞を示すタ
グを付加されて出力されることになる。これにより、抽
出された固有名詞を各構造の最も大きな単位毎に日本語
文書中において確認することが可能になる。
【0016】請求項5記載の発明は、請求項1または2
記載の固有名詞抽出装置において、前記固有名詞認識手
段により解析された前記固有名詞の構造に従って、前記
固有名詞部分を抽出して出力する第三固有名詞出力手段
を備える。
【0017】したがって、固有名詞が、その部分のみを
出力されることになる。これにより、抽出された固有名
詞をその固有名詞部分のみについて確認することが可能
になる。
【0018】請求項6記載の発明は、請求項1または2
記載の固有名詞抽出装置において、前記固有名詞認識手
段により解析された前記固有名詞の各構造の最も大きな
単位毎に、前記固有名詞部分を抽出して出力する第四固
有名詞出力手段を備える。
【0019】したがって、固有名詞が、各構造の最も大
きな単位毎であって、その部分のみを出力されることに
なる。これにより、抽出された固有名詞を各構造の最も
大きな単位毎にその固有名詞部分のみについて確認する
ことが可能になる。
【0020】請求項7記載の発明は、請求項1ないし6
のいずれか一記載の固有名詞抽出装置において、前記固
有名詞認識手段により解析された前記固有名詞の構造に
従って抽出した前記固有名詞のうち、前記日本語形態素
辞書に未登録の前記固有名詞を追加する辞書追加手段を
備える。
【0021】したがって、抽出された固有名詞が日本語
形態素辞書に未登録の固有名詞である場合には、その未
登録の固有名詞が日本語形態素辞書に追加される。これ
により、日本語形態素辞書の精度を高めることが可能に
なり、抽出処理能力の向上を図ることが可能になる。
【0022】請求項8記載の発明は、請求項1ないし7
のいずれか一記載の固有名詞抽出装置において、固有名
詞を格納する固有名詞辞書と、前記固有名詞認識手段に
より解析された前記固有名詞の構造に従って抽出した前
記固有名詞のうち、前記日本語形態素辞書に未登録であ
った前記固有名詞を前記固有名詞辞書に追加する固有名
詞辞書追加手段と、を備える。
【0023】したがって、抽出された固有名詞が日本語
形態素辞書に未登録の固有名詞である場合には、その未
登録の固有名詞が固有名詞辞書に追加される。これによ
り、日本語形態素辞書に加えて固有名詞辞書を用いるこ
とにより、抽出処理能力の向上を図ることが可能にな
る。
【0024】請求項9記載の発明の固有名詞抽出方法
は、日本語文書を入力する文書入力工程と、この文書入
力工程により入力された前記日本語文書について、表記
と品詞とを関連付けて記憶した日本語形態素辞書と品詞
間の接続規則を定めた形態素解析規則とを参照して形態
素単位に分割する形態素解析を実行する形態素解析工程
と、この形態素解析工程による解析結果に基づき前記日
本語形態素辞書に未登録の名詞及び複合名詞を認識する
未登録名詞認識工程と、この未登録名詞認識工程により
認識された未登録の複合名詞から固有名詞を認識し、そ
の構造を解析する固有名詞認識工程と、を含んでなる。
【0025】したがって、日本語文書から抽出・認識さ
れた固有名詞がその内部にも固有名詞を含む場合、その
内部構造の固有名詞も抽出することが可能になる。これ
により、固有名詞の抽出精度を向上させることが可能に
なる。
【0026】請求項10記載の発明は、請求項9記載の
固有名詞抽出方法において、前記固有名詞認識工程は、
前記固有名詞の構造を解析する規則を格納する固有名詞
構造解析規則を用いる。
【0027】したがって、固有名詞の構造解析が容易に
なる。
【0028】請求項11記載の発明は、請求項9または
10記載の固有名詞抽出方法において、前記固有名詞認
識工程により解析された前記固有名詞の構造に従って、
前記日本語文書中に前記固有名詞を示すタグを付加して
出力する第一固有名詞出力工程を含んでなる。
【0029】したがって、固有名詞が、日本語文書中に
固有名詞を示すタグを付加されて出力されることにな
る。これにより、抽出された固有名詞を日本語文書中に
おいて確認することが可能になる。
【0030】請求項12記載の発明は、請求項9または
10記載の固有名詞抽出方法において、前記固有名詞認
識工程により解析された前記固有名詞の各構造の最も大
きな単位毎に、前記日本語文書中に前記固有名詞を示す
タグを付加して出力する第二固有名詞出力工程を含んで
なる。
【0031】したがって、固有名詞が、各構造の最も大
きな単位毎であって、日本語文書中に固有名詞を示すタ
グを付加されて出力されることになる。これにより、抽
出された固有名詞を各構造の最も大きな単位毎に日本語
文書中において確認することが可能になる。
【0032】請求項13記載の発明は、請求項9または
10記載の固有名詞抽出方法において、前記固有名詞認
識工程により解析された前記固有名詞の構造に従って、
前記固有名詞部分を抽出して出力する第三固有名詞出力
工程を含んでなる。
【0033】したがって、固有名詞が、その部分のみを
出力されることになる。これにより、抽出された固有名
詞をその固有名詞部分のみについて確認することが可能
になる。
【0034】請求項14記載の発明は、請求項9または
10記載の固有名詞抽出方法において、前記固有名詞認
識工程により解析された前記固有名詞の各構造の最も大
きな単位毎に、前記固有名詞部分を抽出して出力する第
四固有名詞出力工程を含んでなる。
【0035】したがって、固有名詞が、各構造の最も大
きな単位毎であって、その部分のみを出力されることに
なる。これにより、抽出された固有名詞を各構造の最も
大きな単位毎にその固有名詞部分のみについて確認する
ことが可能になる。
【0036】請求項15記載の発明は、請求項9ないし
14のいずれか一記載の固有名詞抽出方法において、前
記固有名詞認識工程により解析された前記固有名詞の構
造に従って抽出した前記固有名詞のうち、前記日本語形
態素辞書に未登録の前記固有名詞を追加する辞書追加工
程を含んでなる。
【0037】したがって、抽出された固有名詞が日本語
形態素辞書に未登録の固有名詞である場合には、その未
登録の固有名詞が日本語形態素辞書に追加される。これ
により、日本語形態素辞書の精度を高めることが可能に
なり、抽出処理能力の向上を図ることが可能になる。
【0038】請求項16記載の発明は、請求項9ないし
15のいずれか一記載の固有名詞抽出方法において、前
記固有名詞認識工程により解析された前記固有名詞の構
造に従って抽出した前記固有名詞のうち、前記日本語形
態素辞書に未登録であった前記固有名詞を固有名詞辞書
に追加する固有名詞辞書追加工程を含んでなる。
【0039】したがって、抽出された固有名詞が日本語
形態素辞書に未登録の固有名詞である場合には、その未
登録の固有名詞が固有名詞辞書に追加される。これによ
り、日本語形態素辞書に加えて固有名詞辞書を用いるこ
とにより、抽出処理能力の向上を図ることが可能にな
る。
【0040】請求項17記載の発明の記憶媒体は、固有
名詞抽出装置の動作制御をコンピュータに実行させるコ
ンピュータに読み取り可能なプログラムを記憶している
記憶媒体であって、前記プログラムは、日本語文書を入
力する文書入力機能と、この文書入力機能により入力さ
れた前記日本語文書について、表記と品詞とを関連付け
て記憶した日本語形態素辞書と品詞間の接続規則を定め
た形態素解析規則とを参照して形態素単位に分割する形
態素解析を実行する形態素解析機能と、この形態素解析
機能による解析結果に基づき前記日本語形態素辞書に未
登録の名詞及び複合名詞を認識する未登録名詞認識機能
と、この未登録名詞認識機能により認識された未登録の
複合名詞から固有名詞を認識し、その構造を解析する固
有名詞認識機能と、を前記コンピュータに実行させる。
【0041】したがって、日本語文書から抽出・認識さ
れた固有名詞がその内部にも固有名詞を含む場合、その
内部構造の固有名詞も抽出することが可能になる。これ
により、固有名詞の抽出精度を向上させることが可能に
なる。
【0042】請求項18記載の発明は、請求項17記載
の記憶媒体において、前記固有名詞認識機能は、前記固
有名詞の構造を解析する規則を格納する固有名詞構造解
析規則を用いる。
【0043】したがって、固有名詞の構造解析が容易に
なる。
【0044】請求項19記載の発明は、請求項17また
は18記載の記憶媒体において、前記固有名詞認識機能
により解析された前記固有名詞の構造に従って、前記日
本語文書中に前記固有名詞を示すタグを付加して出力す
る第一固有名詞出力機能を前記コンピュータに実行させ
る。
【0045】したがって、固有名詞が、日本語文書中に
固有名詞を示すタグを付加されて出力されることにな
る。これにより、抽出された固有名詞を日本語文書中に
おいて確認することが可能になる。
【0046】請求項20記載の発明は、請求項17また
は18記載の記憶媒体において、前記固有名詞認識機能
により解析された前記固有名詞の各構造の最も大きな単
位毎に、前記日本語文書中に前記固有名詞を示すタグを
付加して出力する第二固有名詞出力機能を前記コンピュ
ータに実行させる。
【0047】したがって、固有名詞が、各構造の最も大
きな単位毎であって、日本語文書中に固有名詞を示すタ
グを付加されて出力されることになる。これにより、抽
出された固有名詞を各構造の最も大きな単位毎に日本語
文書中において確認することが可能になる。
【0048】請求項21記載の発明は、請求項17また
は18記載の記憶媒体において、前記固有名詞認識機能
により解析された前記固有名詞の構造に従って、前記固
有名詞部分を抽出して出力する第三固有名詞出力機能を
前記コンピュータに実行させる。
【0049】したがって、固有名詞が、その部分のみを
出力されることになる。これにより、抽出された固有名
詞をその固有名詞部分のみについて確認することが可能
になる。
【0050】請求項22記載の発明は、請求項17また
は18記載の記憶媒体において、前記固有名詞認識機能
により解析された前記固有名詞の各構造の最も大きな単
位毎に、前記固有名詞部分を抽出して出力する第四固有
名詞出力機能を前記コンピュータに実行させる。
【0051】したがって、固有名詞が、各構造の最も大
きな単位毎であって、その部分のみを出力されることに
なる。これにより、抽出された固有名詞を各構造の最も
大きな単位毎にその固有名詞部分のみについて確認する
ことが可能になる。
【0052】請求項23記載の発明は、請求項17ない
し22のいずれか一記載の記憶媒体において、前記固有
名詞認識機能により解析された前記固有名詞の構造に従
って抽出した前記固有名詞のうち、前記日本語形態素辞
書に未登録の前記固有名詞を追加する辞書追加機能を前
記コンピュータに実行させる。
【0053】したがって、抽出された固有名詞が日本語
形態素辞書に未登録の固有名詞である場合には、その未
登録の固有名詞が日本語形態素辞書に追加される。これ
により、日本語形態素辞書の精度を高めることが可能に
なり、抽出処理能力の向上を図ることが可能になる。
【0054】請求項24記載の発明は、請求項17ない
し23のいずれか一記載の記憶媒体において、前記固有
名詞認識機能により解析された前記固有名詞の構造に従
って抽出した前記固有名詞のうち、前記日本語形態素辞
書に未登録であった前記固有名詞を固有名詞辞書に追加
する固有名詞辞書追加機能を前記コンピュータに実行さ
せる。
【0055】したがって、抽出された固有名詞が日本語
形態素辞書に未登録の固有名詞である場合には、その未
登録の固有名詞が固有名詞辞書に追加される。これによ
り、日本語形態素辞書に加えて固有名詞辞書を用いるこ
とにより、抽出処理能力の向上を図ることが可能にな
る。
【0056】
【発明の実施の形態】本発明の実施の一形態を図1ない
し図11に基づいて説明する。
【0057】図1は、固有名詞抽出装置1のハードウェ
ア構成を概略的に示すブロック図である。図1に示すよ
うに、固有名詞抽出装置1は、この固有名詞抽出装置1
の各部を集中的に制御するCPU(Central Processing
Unit)2を備えており、このCPU2には、BIOS
などを記憶した読出し専用メモリであるROM(ReadOn
ly Memory)3と、各種データを書換え可能に記憶する
RAM(Random Access Memory)4とがバス5で接続さ
れている。さらにバス5には、外部記憶となるHDD
(Hard Disk Drive)6と、CD(Compact Disc)−R
OM7を読み取るCD−ROMドライブ8と、固有名詞
抽出装置1とネットワーク9との通信を司る通信制御装
置10と、キーボード、マウスなどの入力装置11と、
CRT(Cathode Ray Tube)、LCD(Liquid Crystal
Display)などの出力装置12とが、図示しないI/O
を介して接続されている。
【0058】RAM4は、各種データを書換え可能に記
憶する性質を有していることから、CPU2の作業エリ
アとして機能し、例えば入力バッファ、解析バッファ等
の役割を果たす。
【0059】また、HDD6には、各種のプログラムを
格納するプログラムファイルのほか、日本語形態素辞書
13、形態素解析規則14、固有名詞構造解析規則15
が格納されている。ここで、図2を参照して日本語形態
素辞書13について説明する。日本語形態素辞書13
は、形態素列を登録単位(エントリ)としており、図2で
は各行が1エントリに対応している。図2に示すよう
に、日本語形態素辞書13中におけるエントリの属性と
しては、“表記”と、各構成形態素の“品詞[カテゴ
リ]”とが設けられている。なお、品詞[カテゴリ]の
後において、より細かく分類するための属性を括弧内に
示してある。例えば、「名詞(組織名接尾)」の属性
「組織名接尾」とあるのは、名詞ではあるが、固有名詞
等に付加されて組織名を表わす固有名詞になりやすい属
性である。
【0060】また、形態素解析規則14は、特に図示し
ないが、品詞間の接続規則等を定めたものである。
【0061】次に、固有名詞構造解析規則15について
説明する。固有名詞構造解析規則15は、概略的には、
名詞連続の複合名詞について、その構造を解析するため
のものである。図3は名詞連続の複合名詞から固有名詞
を解析する句構造規則の一部を例示したものであって、
右辺の1つ以上のカテゴリの並びを左辺のカテゴリに書
き換える規則である。例えば、規則11は、一般的な句
構造規則の記法によれば、 (規則11) 固有名詞(組織名)→固有名詞(地名)
名詞(組織名接尾) のように表される規則である。これは、[固有名詞(地
名)]と[名詞(組織名接尾)]のカテゴリの並びを[固
有名詞(組織名)]のカテゴリに書き換えるものである。
なお、生成規則のための記法のため、解析で用いる場合
は矢印の向きが処理(書き換え処理)と逆向きとなって
いる。
【0062】図1に示すCD−ROM7は、この発明の
記憶媒体を実施するものであり、所定のプログラムが記
憶されている。CPU2は、CD−ROM7に記憶され
ているプログラムをCD−ROMドライブ8で読み取
り、HDD6にインストールする。これにより、固有名
詞抽出装置1は、後述するような各種の処理を行うこと
が可能な状態となる。
【0063】なお、記憶媒体としては、CD−ROM7
のみならず、DVDなどの各種の光ディスク、各種光磁
気ディスク、フロッピー(登録商標)ディスクなどの各
種磁気ディスク等、半導体メモリ等の各種方式のメディ
アを用いることができる。また、通信制御装置10を介
してインターネットなどのネットワーク9からプログラ
ムをダウンロードし、HDD6にインストールするよう
にしてもよい。この場合に、送信側のサーバでプログラ
ムを記憶している記憶装置も、この発明の記憶媒体であ
る。なお、プログラムは、所定のOS(Operating Syst
em)上で動作するものであってもよいし、その場合に後
述の各種処理の一部の実行をOSに肩代わりさせるもの
であってもよいし、ワープロソフトなど所定のアプリケ
ーションソフトやOSなどを構成する一群のプログラム
ファイルの一部として含まれているものであってもよ
い。
【0064】次に、固有名詞抽出装置1のCPU2がプ
ログラムに基づいて実行する各種処理の内容について説
明する。図4は、固有名詞抽出装置1の機能ブロック図
である。日本語文書入力部16は、入力装置11から入
力された「日本語文書」を入力バッファに記憶する。固
有名詞抽出装置1における固有名詞抽出は、この「日本
語文書」を対象に行われる。入力装置11から入力され
た「日本語文書」は、日本語文書入力部16により入力
バッファに記憶された後、日本語形態素解析部17に送
られる。
【0065】日本語形態素解析部17は、日本語形態素
辞書13と形態素解析規則14を参照して、また、未登
録名詞認定部18を呼び出しつつ、「日本語文書」を形
態素解析し、結果を固有名詞認識部19に送る。
【0066】固有名詞認識部19は、固有名詞構造解析
規則15を参照して、未登録名詞から固有名詞を認識す
るとともに固有名詞の構造を解析し、結果を固有名詞出
力部20に送る。
【0067】固有名詞出力部20は、抽出された固有名
詞を形式を整えて出力装置12に出力する。
【0068】次に、固有名詞抽出装置1における固有名
詞抽出処理の全体的な流れについて図5を参照して説明
する。図5に示すように、固有名詞抽出処理は、まず、
入力装置11から入力された「日本語文書」を日本語文
書入力部16により入力バッファに記憶した後、その記
憶された「日本語文書」を特定の単位で切り出して、日
本語形態素解析部17に渡す(ステップS1:文書入力
手段)。なお、「日本語文書」の切り出す単位は、一般
には、句点や改行などで区切られる文単位とされてい
る。ここでは、 「日本銀行福岡支店は、普通銀行ではない。」 という日本語文が切り出され、日本語形態素解析部17
に渡されるものとする。
【0069】続くステップS2においては、日本語形態
素解析部17が、日本語形態素辞書13と形態素解析規
則14とを参照して、上記の日本語文の形態素解析を実
行する。ここに、形態素解析手段の機能が実行される。
なお、形態素解析の技術は公知であるので特に詳説はし
ない。
【0070】ここで、上記日本語文の単語のうちの「日
本銀行」[固有名詞(組織名)]や「普通銀行」[名
詞]が、日本語形態素辞書13に格納されていないもの
とすると、ステップS2の形態素解析の実行により、図
6に示すような品詞[カテゴリ]付きの単語分割結果が
得られ、その解析結果が解析バッファに記憶される。
【0071】ところで、図6に示すような解析結果に対
し、固有名詞や一般の名詞(名詞の可能性のある未登録
語を含む)の名詞連続は、日本語形態素辞書13に格納
されていなくても複合名詞を構成すると考えられる。上
記日本語文の例では、「日本銀行福岡支店」や「普通銀
行」がこれにあたる。そこで、日本語形態素解析部17
は、ステップS2において、図7に示すような日本語形
態素辞書13に未登録の複合名詞については未登録名詞
認定部18で認定する。この複合名詞が固有名詞となる
ことがあるからである。ここに、未登録名詞認識手段の
機能が実行される。
【0072】続くステップS3においては、固有名詞認
識部19が固有名詞構造解析規則15を参照しつつ、形
態素解析結果のうち上記の名詞連続の複合名詞について
その構造を解析し、固有名詞かどうか、また、固有名詞
ならどんな属性を有しているかを認識する。ここに、固
有名詞認識手段の機能が実行される。
【0073】ここで、固有名詞の認識・解析について複
合名詞「日本銀行福岡支店」を例に説明する。複合名詞
「日本銀行福岡支店」は、 日本[固有名詞(国名)] 銀行[名詞(組織名接尾)] 福岡[固有名詞(地名)] 支店[名詞(組織名接尾)] のような固有名詞や一般の名詞で構成されている。 「日本」のカテゴリ「[固有名詞(国名)]」に対し
ては、固有名詞構造解析規則15の規則10が適用さ
れ、カテゴリ「[固有名詞(地名)]」になる。 「日本」由来のカテゴリ「[固有名詞(地名)]」と
「銀行」のカテゴリ「[名詞(組織名接尾)]」の並び
に対しては、規則11が適用され、カテゴリ「[固有名
詞(組織名)]」になる。 「福岡」のカテゴリ「[固有名詞(地名)]」と「支
店」のカテゴリ「[名詞(組織名接尾)]」の並びに対
しては、規則11が適用され、カテゴリ「[固有名詞
(組織名)]」になる。 「日本|銀行」由来のカテゴリ「[固有名詞(組織
名)]」と「福岡|支店」由来のカテゴリ「[固有名詞
(組織名)]」の並びに対しては、規則12が適用さ
れ、カテゴリ「[固有名詞(組織名)]」になる。 以上のような一連の規則適用により、図8に示すような
構造が得られる。
【0074】なお、もう一つの未登録の複合名詞「普通
銀行」=「普通[名詞]|銀行[名詞(組織名接
尾)]」に対しては、規則0が適用されて名詞となる
が、最終的に固有名詞には至らないので、固有名詞とし
ては認識されない。
【0075】そして、ステップS4においては、固有名
詞出力部20がステップS3において認識・抽出された
固有名詞を構造に従って出力装置12に出力する。ここ
で、図9は、固有名詞をカテゴリのタグで囲んだ出力例
である。ただし、開始タグは<カテゴリ名>、終了タグは
</カテゴリ名>の形式としてある。また、規則10のよ
うにカテゴリの上位化の構造は、簡単のために下位のカ
テゴリのみにしてある。ここに、第一固有名詞出力手段
の機能が実行される。これにより、図9に示すように、
日本語文書中に固有名詞を示すタグを付加した状態で固
有名詞を出力することができるので、抽出された固有名
詞を日本語文書中において確認することができる。
【0076】なお、この出力形式に限るものではなく、 「<組織名>日本銀行福岡支店</組織名>」 のように最も長い単位についてのみを出力するようにし
ても良い。ここに、第二固有名詞出力手段の機能が実行
される。さらに、図10に示すように固有名詞のすべて
を抽出してリスト出力するようにしても良いし(第三固
有名詞出力手段)、図11に示すように従来と同様に最
も長い単位についてだけを出力するようにしても良い
(第四固有名詞出力手段)。
【0077】また、ステップS4においては、図10に
示したような得られたすべての固有名詞のうち、未登録
の固有名詞(ここでは、「日本銀行」、「福岡支店」、
「日本銀行福岡支店」)を日本語形態素辞書13に追加
するようにしても良い。ここに、辞書追加手段の機能が
実行される。これにより、日本語形態素辞書13の精度
を高めることができ、抽出処理能力の向上を図ることが
できる。
【0078】さらに、別途に固有名詞辞書(図示せず)
を設け、この固有名詞辞書に未登録の固有名詞を追加す
るようにしても良い。ここに、固有名詞辞書追加手段の
機能が実行される。これにより、日本語形態素辞書13
に加えて固有名詞辞書を用いることにより、抽出処理能
力の向上を図ることができる。
【0079】以上ステップS1〜S4の処理は、入力装
置11から入力された「日本語文書」について全て終了
する迄(ステップS5のY)、繰り返される。
【0080】ここに、日本語文書から抽出・認識された
固有名詞がその内部にも固有名詞を含む場合、その内部
構造の固有名詞も抽出することができるので、固有名詞
の抽出精度を向上させることができる。
【0081】
【発明の効果】請求項1記載の発明の固有名詞抽出装置
によれば、日本語文書を入力する文書入力手段と、表記
と品詞とを関連付けて記憶した日本語形態素辞書と、品
詞間の接続規則を定めた形態素解析規則と、この文書入
力手段により入力された前記日本語文書について、前記
日本語形態素辞書と前記形態素解析規則とを参照して形
態素単位に分割する形態素解析を実行する形態素解析手
段と、この形態素解析手段による解析結果に基づき前記
日本語形態素辞書に未登録の名詞及び複合名詞を認識す
る未登録名詞認識手段と、この未登録名詞認識手段によ
り認識された未登録の複合名詞から固有名詞を認識し、
その構造を解析する固有名詞認識手段と、を備えること
により、日本語文書から抽出・認識された固有名詞がそ
の内部にも固有名詞を含む場合、その内部構造の固有名
詞も抽出することができるので、固有名詞の抽出精度を
向上させることができる。
【0082】請求項2記載の発明によれば、請求項1記
載の固有名詞抽出装置において、前記固有名詞認識手段
は、前記固有名詞の構造を解析する規則を格納する固有
名詞構造解析規則を有することにより、固有名詞の構造
解析を容易に実行することができる。
【0083】請求項3記載の発明によれば、請求項1ま
たは2記載の固有名詞抽出装置において、前記固有名詞
認識手段により解析された前記固有名詞の構造に従っ
て、前記日本語文書中に前記固有名詞を示すタグを付加
して出力する第一固有名詞出力手段を備えることによ
り、日本語文書中に固有名詞を示すタグを付加した状態
で固有名詞を出力することができるので、抽出された固
有名詞を日本語文書中において確認することができる。
【0084】請求項4記載の発明によれば、請求項1ま
たは2記載の固有名詞抽出装置において、前記固有名詞
認識手段により解析された前記固有名詞の各構造の最も
大きな単位毎に、前記日本語文書中に前記固有名詞を示
すタグを付加して出力する第二固有名詞出力手段を備え
ることにより、各構造の最も大きな単位毎であって日本
語文書中に固有名詞を示すタグを付加した状態で固有名
詞を出力することができるので、抽出された固有名詞を
各構造の最も大きな単位毎に日本語文書中において確認
することができる。
【0085】請求項5記載の発明によれば、請求項1ま
たは2記載の固有名詞抽出装置において、前記固有名詞
認識手段により解析された前記固有名詞の構造に従っ
て、前記固有名詞部分を抽出して出力する第三固有名詞
出力手段を備えることにより、固有名詞部分のみを出力
することができるので、抽出された固有名詞のみについ
て確認することができる。
【0086】請求項6記載の発明によれば、請求項1ま
たは2記載の固有名詞抽出装置において、前記固有名詞
認識手段により解析された前記固有名詞の各構造の最も
大きな単位毎に、前記固有名詞部分を抽出して出力する
第四固有名詞出力手段を備えることにより、各構造の最
も大きな単位毎であってその固有名詞部分のみを出力す
ることができるので、抽出された固有名詞を各構造の最
も大きな単位毎にその固有名詞部分のみについて確認す
ることができる。
【0087】請求項7記載の発明によれば、請求項1な
いし6のいずれか一記載の固有名詞抽出装置において、
前記固有名詞認識手段により解析された前記固有名詞の
構造に従って抽出した前記固有名詞のうち、前記日本語
形態素辞書に未登録の前記固有名詞を追加する辞書追加
手段を備えることにより、抽出された固有名詞が日本語
形態素辞書に未登録の固有名詞である場合には、その未
登録の固有名詞を日本語形態素辞書に追加することがで
きるので、日本語形態素辞書の精度を高めることがで
き、抽出処理能力の向上を図ることができる。
【0088】請求項8記載の発明によれば、請求項1な
いし7のいずれか一記載の固有名詞抽出装置において、
固有名詞を格納する固有名詞辞書と、前記固有名詞認識
手段により解析された前記固有名詞の構造に従って抽出
した前記固有名詞のうち、前記日本語形態素辞書に未登
録であった前記固有名詞を前記固有名詞辞書に追加する
固有名詞辞書追加手段と、を備えることにより、抽出さ
れた固有名詞が日本語形態素辞書に未登録の固有名詞で
ある場合には、その未登録の固有名詞を固有名詞辞書に
追加することができるので、日本語形態素辞書に加えて
固有名詞辞書を用いることにより、抽出処理能力の向上
を図ることができる。
【0089】請求項9記載の発明の固有名詞抽出方法に
よれば、日本語文書を入力する文書入力工程と、この文
書入力工程により入力された前記日本語文書について、
表記と品詞とを関連付けて記憶した日本語形態素辞書と
品詞間の接続規則を定めた形態素解析規則とを参照して
形態素単位に分割する形態素解析を実行する形態素解析
工程と、この形態素解析工程による解析結果に基づき前
記日本語形態素辞書に未登録の名詞及び複合名詞を認識
する未登録名詞認識工程と、この未登録名詞認識工程に
より認識された未登録の複合名詞から固有名詞を認識
し、その構造を解析する固有名詞認識工程と、を含んで
なることにより、日本語文書から抽出・認識された固有
名詞がその内部にも固有名詞を含む場合、その内部構造
の固有名詞も抽出することができるので、固有名詞の抽
出精度を向上させることができる。
【0090】請求項10記載の発明によれば、請求項9
記載の固有名詞抽出方法において、前記固有名詞認識工
程は、前記固有名詞の構造を解析する規則を格納する固
有名詞構造解析規則を用いることにより、固有名詞の構
造解析を容易に実行することができる。
【0091】請求項11記載の発明によれば、請求項9
または10記載の固有名詞抽出方法において、前記固有
名詞認識工程により解析された前記固有名詞の構造に従
って、前記日本語文書中に前記固有名詞を示すタグを付
加して出力する第一固有名詞出力工程を含んでなること
により、日本語文書中に固有名詞を示すタグを付加した
状態で固有名詞を出力することができるので、抽出され
た固有名詞を日本語文書中において確認することができ
る。
【0092】請求項12記載の発明によれば、請求項9
または10記載の固有名詞抽出方法において、前記固有
名詞認識工程により解析された前記固有名詞の各構造の
最も大きな単位毎に、前記日本語文書中に前記固有名詞
を示すタグを付加して出力する第二固有名詞出力工程を
含んでなることにより、各構造の最も大きな単位毎であ
って日本語文書中に固有名詞を示すタグを付加した状態
で固有名詞を出力することができるので、抽出された固
有名詞を各構造の最も大きな単位毎に日本語文書中にお
いて確認することができる。
【0093】請求項13記載の発明によれば、請求項9
または10記載の固有名詞抽出方法において、前記固有
名詞認識工程により解析された前記固有名詞の構造に従
って、前記固有名詞部分を抽出して出力する第三固有名
詞出力工程を含んでなることにより、固有名詞部分のみ
を出力することができるので、抽出された固有名詞のみ
について確認することができる。
【0094】請求項14記載の発明によれば、請求項9
または10記載の固有名詞抽出方法において、前記固有
名詞認識工程により解析された前記固有名詞の各構造の
最も大きな単位毎に、前記固有名詞部分を抽出して出力
する第四固有名詞出力工程を含んでなることにより、各
構造の最も大きな単位毎であってその固有名詞部分のみ
を出力することができるので、抽出された固有名詞を各
構造の最も大きな単位毎にその固有名詞部分のみについ
て確認することができる。
【0095】請求項15記載の発明によれば、請求項9
ないし14のいずれか一記載の固有名詞抽出方法におい
て、前記固有名詞認識工程により解析された前記固有名
詞の構造に従って抽出した前記固有名詞のうち、前記日
本語形態素辞書に未登録の前記固有名詞を追加する辞書
追加工程を含んでなることにより、抽出された固有名詞
が日本語形態素辞書に未登録の固有名詞である場合に
は、その未登録の固有名詞を日本語形態素辞書に追加す
ることができるので、日本語形態素辞書の精度を高める
ことができ、抽出処理能力の向上を図ることができる。
【0096】請求項16記載の発明によれば、請求項9
ないし15のいずれか一記載の固有名詞抽出方法におい
て、前記固有名詞認識工程により解析された前記固有名
詞の構造に従って抽出した前記固有名詞のうち、前記日
本語形態素辞書に未登録であった前記固有名詞を固有名
詞辞書に追加する固有名詞辞書追加工程を含んでなるこ
とにより、抽出された固有名詞が日本語形態素辞書に未
登録の固有名詞である場合には、その未登録の固有名詞
を固有名詞辞書に追加することができるので、日本語形
態素辞書に加えて固有名詞辞書を用いることにより、抽
出処理能力の向上を図ることができる。
【0097】請求項17記載の発明の記憶媒体によれ
ば、固有名詞抽出装置の動作制御をコンピュータに実行
させるコンピュータに読み取り可能なプログラムを記憶
している記憶媒体であって、前記プログラムは、日本語
文書を入力する文書入力機能と、この文書入力機能によ
り入力された前記日本語文書について、表記と品詞とを
関連付けて記憶した日本語形態素辞書と品詞間の接続規
則を定めた形態素解析規則とを参照して形態素単位に分
割する形態素解析を実行する形態素解析機能と、この形
態素解析機能による解析結果に基づき前記日本語形態素
辞書に未登録の名詞及び複合名詞を認識する未登録名詞
認識機能と、この未登録名詞認識機能により認識された
未登録の複合名詞から固有名詞を認識し、その構造を解
析する固有名詞認識機能と、を前記コンピュータに実行
させることにより、日本語文書から抽出・認識された固
有名詞がその内部にも固有名詞を含む場合、その内部構
造の固有名詞も抽出することができるので、固有名詞の
抽出精度を向上させることができる。
【0098】請求項18記載の発明によれば、請求項1
7記載の記憶媒体において、前記固有名詞認識機能は、
前記固有名詞の構造を解析する規則を格納する固有名詞
構造解析規則を用いることにより、固有名詞の構造解析
を容易に実行することができる。
【0099】請求項19記載の発明によれば、請求項1
7または18記載の記憶媒体において、前記固有名詞認
識機能により解析された前記固有名詞の構造に従って、
前記日本語文書中に前記固有名詞を示すタグを付加して
出力する第一固有名詞出力機能を前記コンピュータに実
行させることにより、日本語文書中に固有名詞を示すタ
グを付加した状態で固有名詞を出力することができるの
で、抽出された固有名詞を日本語文書中において確認す
ることができる。
【0100】請求項20記載の発明によれば、請求項1
7または18記載の記憶媒体において、前記固有名詞認
識機能により解析された前記固有名詞の各構造の最も大
きな単位毎に、前記日本語文書中に前記固有名詞を示す
タグを付加して出力する第二固有名詞出力機能を前記コ
ンピュータに実行させることにより、各構造の最も大き
な単位毎であって日本語文書中に固有名詞を示すタグを
付加した状態で固有名詞を出力することができるので、
抽出された固有名詞を各構造の最も大きな単位毎に日本
語文書中において確認することができる。
【0101】請求項21記載の発明によれば、請求項1
7または18記載の記憶媒体において、前記固有名詞認
識機能により解析された前記固有名詞の構造に従って、
前記固有名詞部分を抽出して出力する第三固有名詞出力
機能を前記コンピュータに実行させることにより、固有
名詞部分のみを出力することができるので、抽出された
固有名詞のみについて確認することができる。
【0102】請求項22記載の発明によれば、請求項1
7または18記載の記憶媒体において、前記固有名詞認
識機能により解析された前記固有名詞の各構造の最も大
きな単位毎に、前記固有名詞部分を抽出して出力する第
四固有名詞出力機能を前記コンピュータに実行させるこ
とにより、各構造の最も大きな単位毎であってその固有
名詞部分のみを出力することができるので、抽出された
固有名詞を各構造の最も大きな単位毎にその固有名詞部
分のみについて確認することができる。
【0103】請求項23記載の発明によれば、請求項1
7ないし22のいずれか一記載の記憶媒体において、前
記固有名詞認識機能により解析された前記固有名詞の構
造に従って抽出した前記固有名詞のうち、前記日本語形
態素辞書に未登録の前記固有名詞を追加する辞書追加機
能を前記コンピュータに実行させることにより、抽出さ
れた固有名詞が日本語形態素辞書に未登録の固有名詞で
ある場合には、その未登録の固有名詞を日本語形態素辞
書に追加することができるので、日本語形態素辞書の精
度を高めることができ、抽出処理能力の向上を図ること
ができる。
【0104】請求項24記載の発明によれば、請求項1
7ないし23のいずれか一記載の記憶媒体において、前
記固有名詞認識機能により解析された前記固有名詞の構
造に従って抽出した前記固有名詞のうち、前記日本語形
態素辞書に未登録であった前記固有名詞を固有名詞辞書
に追加する固有名詞辞書追加機能を前記コンピュータに
実行させることにより、抽出された固有名詞が日本語形
態素辞書に未登録の固有名詞である場合には、その未登
録の固有名詞を固有名詞辞書に追加することができるの
で、日本語形態素辞書に加えて固有名詞辞書を用いるこ
とにより、抽出処理能力の向上を図ることができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の固有名詞抽出装置のハ
ードウェア構成を概略的に示すブロック図である。
【図2】日本語形態素辞書のデータ構成を示す模式図で
ある。
【図3】固有名詞構造解析規則のデータ構成を示す模式
図である。
【図4】固有名詞抽出装置の機能ブロック図である。
【図5】固有名詞抽出処理の流れを概略的に示すフロー
チャートである。
【図6】単語分割結果の一例を示す説明図である。
【図7】日本語形態素辞書に未登録の複合名詞を示す説
明図である。
【図8】固有名詞の認識・解析の一例を示す説明図であ
る。
【図9】固有名詞をカテゴリのタグで囲んだ出力例を示
す説明図である。
【図10】別の出力例を示す説明図である。
【図11】さらに別の出力例を示す説明図である。
【符号の説明】
1 固有名詞抽出装置 7 記憶媒体 13 日本語形態素辞書 14 形態素解析規則 15 固有名詞構造解析規則

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 日本語文書を入力する文書入力手段と、 表記と品詞とを関連付けて記憶した日本語形態素辞書
    と、 品詞間の接続規則を定めた形態素解析規則と、 この文書入力手段により入力された前記日本語文書につ
    いて、前記日本語形態素辞書と前記形態素解析規則とを
    参照して形態素単位に分割する形態素解析を実行する形
    態素解析手段と、 この形態素解析手段による解析結果に基づき前記日本語
    形態素辞書に未登録の名詞及び複合名詞を認識する未登
    録名詞認識手段と、 この未登録名詞認識手段により認識された未登録の複合
    名詞から固有名詞を認識し、その構造を解析する固有名
    詞認識手段と、を備える固有名詞抽出装置。
  2. 【請求項2】 前記固有名詞認識手段は、前記固有名詞
    の構造を解析する規則を格納する固有名詞構造解析規則
    を有する請求項1記載の固有名詞抽出装置。
  3. 【請求項3】 前記固有名詞認識手段により解析された
    前記固有名詞の構造に従って、前記日本語文書中に前記
    固有名詞を示すタグを付加して出力する第一固有名詞出
    力手段を備える請求項1または2記載の固有名詞抽出装
    置。
  4. 【請求項4】 前記固有名詞認識手段により解析された
    前記固有名詞の各構造の最も大きな単位毎に、前記日本
    語文書中に前記固有名詞を示すタグを付加して出力する
    第二固有名詞出力手段を備える請求項1または2記載の
    固有名詞抽出装置。
  5. 【請求項5】 前記固有名詞認識手段により解析された
    前記固有名詞の構造に従って、前記固有名詞部分を抽出
    して出力する第三固有名詞出力手段を備える請求項1ま
    たは2記載の固有名詞抽出装置。
  6. 【請求項6】 前記固有名詞認識手段により解析された
    前記固有名詞の各構造の最も大きな単位毎に、前記固有
    名詞部分を抽出して出力する第四固有名詞出力手段を備
    える請求項1または2記載の固有名詞抽出装置。
  7. 【請求項7】 前記固有名詞認識手段により解析された
    前記固有名詞の構造に従って抽出した前記固有名詞のう
    ち、前記日本語形態素辞書に未登録の前記固有名詞を追
    加する辞書追加手段を備える請求項1ないし6のいずれ
    か一記載の固有名詞抽出装置。
  8. 【請求項8】 固有名詞を格納する固有名詞辞書と、 前記固有名詞認識手段により解析された前記固有名詞の
    構造に従って抽出した前記固有名詞のうち、前記日本語
    形態素辞書に未登録であった前記固有名詞を前記固有名
    詞辞書に追加する固有名詞辞書追加手段と、を備える請
    求項1ないし7のいずれか一記載の固有名詞抽出装置。
  9. 【請求項9】 日本語文書を入力する文書入力工程と、 この文書入力工程により入力された前記日本語文書につ
    いて、表記と品詞とを関連付けて記憶した日本語形態素
    辞書と品詞間の接続規則を定めた形態素解析規則とを参
    照して形態素単位に分割する形態素解析を実行する形態
    素解析工程と、 この形態素解析工程による解析結果に基づき前記日本語
    形態素辞書に未登録の名詞及び複合名詞を認識する未登
    録名詞認識工程と、 この未登録名詞認識工程により認識された未登録の複合
    名詞から固有名詞を認識し、その構造を解析する固有名
    詞認識工程と、を含んでなる固有名詞抽出方法。
  10. 【請求項10】 前記固有名詞認識工程は、前記固有名
    詞の構造を解析する規則を格納する固有名詞構造解析規
    則を用いる請求項9記載の固有名詞抽出方法。
  11. 【請求項11】 前記固有名詞認識工程により解析され
    た前記固有名詞の構造に従って、前記日本語文書中に前
    記固有名詞を示すタグを付加して出力する第一固有名詞
    出力工程を含んでなる請求項9または10記載の固有名
    詞抽出方法。
  12. 【請求項12】 前記固有名詞認識工程により解析され
    た前記固有名詞の各構造の最も大きな単位毎に、前記日
    本語文書中に前記固有名詞を示すタグを付加して出力す
    る第二固有名詞出力工程を含んでなる請求項9または1
    0記載の固有名詞抽出方法。
  13. 【請求項13】 前記固有名詞認識工程により解析され
    た前記固有名詞の構造に従って、前記固有名詞部分を抽
    出して出力する第三固有名詞出力工程を含んでなる請求
    項9または10記載の固有名詞抽出方法。
  14. 【請求項14】 前記固有名詞認識工程により解析され
    た前記固有名詞の各構造の最も大きな単位毎に、前記固
    有名詞部分を抽出して出力する第四固有名詞出力工程を
    含んでなる請求項9または10記載の固有名詞抽出方
    法。
  15. 【請求項15】 前記固有名詞認識工程により解析され
    た前記固有名詞の構造に従って抽出した前記固有名詞の
    うち、前記日本語形態素辞書に未登録の前記固有名詞を
    追加する辞書追加工程を含んでなる請求項9ないし14
    のいずれか一記載の固有名詞抽出方法。
  16. 【請求項16】 前記固有名詞認識工程により解析され
    た前記固有名詞の構造に従って抽出した前記固有名詞の
    うち、前記日本語形態素辞書に未登録であった前記固有
    名詞を固有名詞辞書に追加する固有名詞辞書追加工程を
    含んでなる請求項9ないし15のいずれか一記載の固有
    名詞抽出方法。
  17. 【請求項17】 固有名詞抽出装置の動作制御をコンピ
    ュータに実行させるコンピュータに読み取り可能なプロ
    グラムを記憶している記憶媒体であって、 前記プログラムは、 日本語文書を入力する文書入力機能と、 この文書入力機能により入力された前記日本語文書につ
    いて、表記と品詞とを関連付けて記憶した日本語形態素
    辞書と品詞間の接続規則を定めた形態素解析規則とを参
    照して形態素単位に分割する形態素解析を実行する形態
    素解析機能と、 この形態素解析機能による解析結果に基づき前記日本語
    形態素辞書に未登録の名詞及び複合名詞を認識する未登
    録名詞認識機能と、 この未登録名詞認識機能により認識された未登録の複合
    名詞から固有名詞を認識し、その構造を解析する固有名
    詞認識機能と、を前記コンピュータに実行させる記憶媒
    体。
  18. 【請求項18】 前記固有名詞認識機能は、前記固有名
    詞の構造を解析する規則を格納する固有名詞構造解析規
    則を用いる請求項17記載の記憶媒体。
  19. 【請求項19】 前記固有名詞認識機能により解析され
    た前記固有名詞の構造に従って、前記日本語文書中に前
    記固有名詞を示すタグを付加して出力する第一固有名詞
    出力機能を前記コンピュータに実行させる請求項17ま
    たは18記載の記憶媒体。
  20. 【請求項20】 前記固有名詞認識機能により解析され
    た前記固有名詞の各構造の最も大きな単位毎に、前記日
    本語文書中に前記固有名詞を示すタグを付加して出力す
    る第二固有名詞出力機能を前記コンピュータに実行させ
    る請求項17または18記載の記憶媒体。
  21. 【請求項21】 前記固有名詞認識機能により解析され
    た前記固有名詞の構造に従って、前記固有名詞部分を抽
    出して出力する第三固有名詞出力機能を前記コンピュー
    タに実行させる請求項17または18記載の記憶媒体。
  22. 【請求項22】 前記固有名詞認識機能により解析され
    た前記固有名詞の各構造の最も大きな単位毎に、前記固
    有名詞部分を抽出して出力する第四固有名詞出力機能を
    前記コンピュータに実行させる請求項17または18記
    載の記憶媒体。
  23. 【請求項23】 前記固有名詞認識機能により解析され
    た前記固有名詞の構造に従って抽出した前記固有名詞の
    うち、前記日本語形態素辞書に未登録の前記固有名詞を
    追加する辞書追加機能を前記コンピュータに実行させる
    請求項17ないし22のいずれか一記載の記憶媒体。
  24. 【請求項24】 前記固有名詞認識機能により解析され
    た前記固有名詞の構造に従って抽出した前記固有名詞の
    うち、前記日本語形態素辞書に未登録であった前記固有
    名詞を固有名詞辞書に追加する固有名詞辞書追加機能を
    前記コンピュータに実行させる請求項17ないし23の
    いずれか一記載の記憶媒体。
JP2000376742A 2000-12-12 2000-12-12 固有名詞抽出装置、固有名詞抽出方法及び記憶媒体 Pending JP2002183133A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000376742A JP2002183133A (ja) 2000-12-12 2000-12-12 固有名詞抽出装置、固有名詞抽出方法及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000376742A JP2002183133A (ja) 2000-12-12 2000-12-12 固有名詞抽出装置、固有名詞抽出方法及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2002183133A true JP2002183133A (ja) 2002-06-28

Family

ID=18845563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000376742A Pending JP2002183133A (ja) 2000-12-12 2000-12-12 固有名詞抽出装置、固有名詞抽出方法及び記憶媒体

Country Status (1)

Country Link
JP (1) JP2002183133A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178980A (ja) * 2004-12-21 2006-07-06 Xerox Corp 言語処理方法、及び記憶媒体
JP2020030379A (ja) * 2018-08-24 2020-02-27 ソプラ株式会社 認識結果補正装置、認識結果補正方法、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178980A (ja) * 2004-12-21 2006-07-06 Xerox Corp 言語処理方法、及び記憶媒体
JP2020030379A (ja) * 2018-08-24 2020-02-27 ソプラ株式会社 認識結果補正装置、認識結果補正方法、およびプログラム

Similar Documents

Publication Publication Date Title
US4994967A (en) Information retrieval system with means for analyzing undefined words in a natural language inquiry
JP4024861B2 (ja) 辞書に基づく品詞確率による自然言語パーザ
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
US20030217066A1 (en) System and methods for character string vector generation
JP4263371B2 (ja) 文書をパージングするシステム及び方法
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP4001283B2 (ja) 形態素解析装置および自然言語処理装置
JP2008084070A (ja) 構造化文書検索装置およびプログラム
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
JP5228451B2 (ja) 文書検索装置
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JPH02254566A (ja) 自動抄録生成装置
KR102390009B1 (ko) Ai기반 구문분석 연구노트 생성 시스템
JP2002183133A (ja) 固有名詞抽出装置、固有名詞抽出方法及び記憶媒体
JP5295576B2 (ja) 自然言語解析装置、自然言語解析方法および自然言語解析プログラム
KR100371135B1 (ko) 용언 굴절사전을 이용한 용언 형태소 분석장치 및 방법
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JPH0320866A (ja) テキストベース検索方式
JPS6389976A (ja) 言語解析装置
JPH1139347A (ja) テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体
JP2000029882A (ja) 要約文作成装置
JP2023120824A (ja) 文書分析システム、文書分析方法、及びプログラム
JPH0333977A (ja) 構文解析装置における文法誤り発見方法
JPH08235180A (ja) 機械翻訳装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040929