JPH11272701A - 情報抽出装置 - Google Patents
情報抽出装置Info
- Publication number
- JPH11272701A JPH11272701A JP10073684A JP7368498A JPH11272701A JP H11272701 A JPH11272701 A JP H11272701A JP 10073684 A JP10073684 A JP 10073684A JP 7368498 A JP7368498 A JP 7368498A JP H11272701 A JPH11272701 A JP H11272701A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- attribute
- abbreviation
- character
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
ため、多くの計算量を要する。 【解決手段】 自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、形態素解析前
に、文書中に現れる各文字を、文頭から順番に、特定の
文字種のまとまりとその他の文字種のまとまりとに分割
し、1又は複数の文字からなる2種類の部分文字列に分
割する領域分割処理部を備えるようにする。
Description
れたテキストデータから所望の情報(例えば、人名、地
名等)を抽出するのに使用する情報抽出装置に関するも
のである。
記述されたテキストデータから重要な語(いわゆるキー
ワード)を、機械的に抽出する技術が重要である。この
ため、かかる分野では、従来から様々な手法が研究され
ており、その研究成果も公表されている。例えば、特開
平9−44522号公報がある。この文献は、検索用の
キーワードを抽出するのを目的とするものであり、処理
対象とする文書の全体を形態素解析することを前提とし
ている。
記載された技術の場合には、処理対象とする文書の全体
を形態素解析するため、多くの計算量を要するという課
題に加え、単語辞書に記載されていない語(未知語)が
文書中に含まれている場合に、解析結果が誤る可能性が
高いという課題がある。
もので、従来に比して計算量が少なくて済み、しかも、
高い精度で解析結果が得られる情報抽出装置を提案しよ
うとするものである。
するため、第1の発明においては、自然言語で記述され
た文書より、必要な情報を抽出する情報抽出装置におい
て、以下の手段を備えるようにする。
る各文字を、文頭から順番に、特定の文字種のまとまり
とその他の文字種のまとまりとに分割し、1又は複数の
文字からなる2種類の部分文字列に分割する領域分割処
理部を備えるようにする。
により得られた部分文字列を対象として形態素解析を行
うため、文書全体を形態素解析する場合に比して、必要
とされる計算量を格段に低減できる。
言語で記述された文書より、必要な情報を抽出する情報
抽出装置において、以下の手段を備えるようにする。
る文書中から特定の文字種列と接辞とからなる文字列を
検出し、検出された文字列のうち特定の文字種列の部分
を、当該文字種列と共に現れた接辞により確定される属
性の語として、単語辞書に予め登録する新出語獲得処理
部を備えるようにする。
素解析の対象となる文書中に未知語が含まれる場合に
も、これを形態素解析に先立ち特定して単語辞書に登録
できるため、その後に実行される形態素解析の精度の向
上を図ることができる。
然言語で記述された文書より、必要な情報を抽出する情
報抽出装置において、以下の手段を備えるようにする。
文字列が出現する場合、当該文字列を略称に有する固有
名詞が単語辞書に含まれているか否か検索し、当該文字
列を略称とする固有名詞が検出された場合、検出された
固有名詞に付されている属性を、当該文字列の属性とし
て付与する略称マッチング処理部を備えるようにする。
辞書に該当する語が存在しなくても、その文字列が、単
語辞書に登録されている固有名詞の略称に該当する場合
には、その抽出を可能とできるため、形態素解析精度の
一層の向上を図ることができる。
然言語で記述された文書より、必要な情報を抽出する情
報抽出装置において、以下の手段を備えるようにする。
文字列が出現する場合、当該文字列を正式名称に有する
略称が単語辞書に含まれているか否か検索し、当該文字
列を正式名称とする略称が検出された場合、検出された
略称に付されている属性を、当該文字列の属性として付
与する正式名称マッチング処理部を備えるようにする。
辞書に該当する語が存在しなくても、その文字列が、単
語辞書に登録されている略称の正式名称に該当する場合
には、その抽出が可能とできるため、形態素解析精度の
一層の向上を図ることができる。
然言語で記述された文書より、必要な情報を抽出する情
報抽出装置において、以下の手段を備えるようにする。
字列が出現する場合、当該文字列中に、単語辞書に含ま
れる正式名称に所定の略称生成規則を適用して略称を生
成することにより生成される略称と一致する文字列が存
在するか否かを判断し、一致する文字列が存在していた
とき、当該略称の生成に供した正式名称に付されている
属性を当該文字列の属性として付与する合成略称検出処
理部を備えるようにする。
辞書に該当する語が存在しなくても、その文字列が、単
語辞書に登録されている固有名詞の略称に該当する場合
には、その抽出を可能とできるため、形態素解析精度の
一層の向上を図ることができる。また、この際、所定の
略称生成規則に基づいて生成した略称との一致の有無を
検出するため、略称でない語が誤って略称と判断される
可能性を低減でき、その精度を一層向上できる。
に適用する場合の第1の実施形態を、図面を用いて詳述
する。
処理装置は、実際上、入出力装置、通信装置、外部記憶
装置等を適宜組み合わせたワークステーションやパソコ
ン等の情報処理装置で実現されるものであるが、その機
能構成をブロック図で表すと、図1に示すようになる。
は、領域分割処理部1、基本語分解処理部2、属性付与
処理部3の3つの処理モジュールと、ひらがな固有語辞
書4、基本語辞書5、属性付与規則格納部6の3つの記
憶領域とからなる。
成を、以下順番に説明する。
を、文頭から順番に、特定の文字種のまとまりとその他
の文字種のまとまりとに分割し、1又は複数の文字から
なる2種類の部分文字列に分割する手段である。
は、日本語で記述されたテキストデータを処理対象とす
る。日本語の文は、ひらがな、カタカナ、漢字、数字等
の文字で表されるが、ここでは、「ひらがな」のまとま
りである部分文字列(以下「ひらがな領域」という。)
と「非ひらがな(例えば、(カタカナ、漢字、数字
等))」のまとまりである部分文字列(以下「非ひらが
な領域」という。)とに分割する処理を行う。
域分割処理部1は、図3に示す区分規則に基づき、入力
文を、「ひらがな領域」と「非ひらがな領域」とに区分
し、「非ひらがな領域」にタグを付して「ひらがな領
域」と区別する(ステップ100)。ただし、領域分割
処理部1は、図4に示す特定の記号(その他の記号を除
く)や文頭、文末については、「ひらがな」として扱
い、その他の文字については「非ひらがな」として扱
う。
域」に含まれる文字列のうち固有名詞に該当するものを
検出するため、「ひらがな領域」の文字列と、ひらがな
固有語辞書4に格納されている全ての「ひらがな混じり
語」との照合を行う。そして、領域分割処理部1は、一
致の認められた文字列のうち「非ひらがな領域」と隣接
するものについてはこれを結合し、最終的な分割結果と
する(ステップ101)。
な混じり語」を格納する記憶領域である。ここで、ひら
がな固有語辞書4には、「ひらがな混じり語」とその
「属性」を示す情報とが組として格納されている。図5
は、その一例である。地名の「つくば」や「ひたちな
か」等が、かかる「ひらがな混じり語」に当る。
における1段目の処理結果(ステップ100)が、つく
ばのつくば[市役所]である場合、文中に現れる「つく
ば」という文字列が、ひらがな固有語辞書4に格納され
ている「ひらがな混じり語」と一致することになる。
文字列部分にタグを付し、[つくば]の[つくば][市
役所]を得る。なお、領域分割処理部1は、処理の
後、][という文字列が現れた場合これを削除し、「ひ
らがな語領域」と「非ひらがな領域」を接続する。従っ
て、前述の文は、[つくば]の[つくば市役所]とな
る。
「非ひらがな領域」の文字列と、基本語辞書5に格納さ
れている基本語とを照合し、各「非ひらがな領域」を複
数の基本語に分解する手段である。このとき、基本語分
解処理部2は、基本語辞書5に格納されている基本語に
対し、これに固有の属性情報を付す。
本語への分割は一通りではなく、複数通りの配列が考え
られるが、複数の配列の中から最適と思われる配列を選
択する方法には、既存の自然言語処理技術の中から様々
な方法を使用することができる。
先の最長優先方法を適用するものとする。ここで、左側
優先の最長優先方法とは、長い基本語が現れる分割を優
先し、同じ長さを有する複数の基本語に分割できる場合
には、長い基本語が左側に現れるものを優先する方法で
ある。
阪駅」であって、基本語辞書5に、「新」、「駅」、
「新大阪」、「大阪駅」が格納されている場合、基本語
分解処理部2は、「新・大阪駅」と「新大阪・駅」との
2つの候補のうち、左側に長い基本語が現れる「新大阪
・駅」を最終的な分割とする。
語を格納する記憶領域である。ここで、基本語辞書5に
は、基本語を構成する「単語」と、その「属性」と、
「タグ用記号」とが組として保持されている。図6は、
その一例である。なお、この基本語辞書5における「タ
グ用記号」は小文字で表されている。これは、かかる基
本語への分割が最終的に確定されるまでは、属性の内容
が覆る可能性があるからである。
基本語に付された属性の組と、属性付与規則格納部6に
格納されている属性付与規則とを照合し、その属性の組
合わせから領域全体の属性をほぼ間違いなく決定できる
「非ひらがな領域」に確定属性を付する手段である。こ
こで、属性付与処理部3は、確定属性として大文字を付
する。この後、属性付与処理部3は、確定属性の付され
た「非ひらがな領域」にのみタグが埋め込まれた状態の
テキストデータを、出力情報として出力する。
ての属性の確定が可能な属性の組を、規則として格納す
る記憶領域である。図7は、その一例である。
であることを示す属性lと、文字列Yが組織修飾名であ
ることを示す属性iとが連結して現れる場合、文字列X
と文字列Yとの連結文字列XYを確定組織名として良い
ことを表している。なお、この場合の確定属性は大文字
のOとなる。
であることを示す属性pと、文字列Yが組織修飾名であ
ることを示す属性iとが連結して現れる場合、文字列X
と文字列Yとの連結文字列XYを確定組織名として良い
ことを表している。その他の規則も同様である。
報の抽出動作を説明する。なお、本実施形態において
は、入力されたテキストデータから、地名、人名、組織
名等の固有名詞を抽出するものとする。また、以下の説
明では、テキストデータとして、『つくば市で鈴木電気
と埼玉ガスの技術展示会があった。』が入力されたもの
とする。
される。ここで、領域分割処理部1は、テキストをひら
がな領域と非ひらがな領域に分割する。その際、領域分
割処理部1は、前述したように、図4示す記号と文頭、
文末の文字はひらがなと同じ扱い、図3の分割規則に基
づいて1段目の分割処理(図2のステップ100)を行
う。
と[埼玉ガス]の[技術展示会]があった。』が、処理
結果として得られる。
域」の文字列と、ひらがな固有語辞書4に格納されてい
る全ての「ひらがな混じり語」とを照合し、「ひらがな
領域」に現れる固有語の抽出を行う。
字列部分にタグを付し[つくば][市]で[鈴木電気]
と[埼玉ガス]の[技術展示会]があった。
の後、][という文字列が現れた場合これを削除し、
「ひらがな語領域」と「非ひらがな領域」を接続するた
め、前述の文を、『[つくば市]で[鈴木電気]と[埼
玉ガス]の[技術展示会]があった。』のように変更す
る。
よる「非ひらがな領域」の基本語への分解処理が行われ
る。
辞書5を用いて所定の分解処理を実行するが、基本語辞
書5に格納されていた基本語に対しては、同時にその属
性が付される。この実施形態では、属性として付される
小文字lは地名を、pは人名を、sは地名接辞を、iは
組織修飾名(組織名の一部であり、業種を表す語)を、
tは組織接辞を、fは人名接辞を表すものとする。
理部2は、左側優先の最長優先方法により分割方法を決
定する。この結果、前述の文は、『[lつくばl][s
市s]で[p鈴木p][i電気i]と[l埼玉l][i
ガスi]の[i技術i][展示会]があった。』に分解
される。
ていないのは、この例で用いる基本語辞書5に、当該語
が含まれていないためである。
理により得られた属性に基づいて、属性付与処理部3
が、各「非ひらがな領域」の属性の確定処理を行う。な
お、前述したように、この属性の確定処理は、属性付与
規則格納部6に格納する規則と一致する属性の組が存在
する「非ひらがな領域」についてのみ行われる。
s]」の部分が図7の規則3に適合し、「[p鈴木p]
[i電気i]」の部分が図7の規則2に適合し、「[l
埼玉l][iガスi]の部分に規則1が適合する。
で[O鈴木電気O]と[O埼玉ガスO]の[i技術i]
[展示会]があった。』となる。
次に、大文字の確定属性が付されているタグのみを保存
し、属性のないタグや英小文字の属性の付されているタ
グは不確定属性であるとして除去する。
『[Lつくば市L]で[O鈴木電気O]と[O埼玉ガス
O]の技術展示会があった。』のように、入力時のテキ
ストデータに対し、確定属性タグが挿入されたテキスト
データが最終的な抽出情報として出力されることにな
る。
た日本語のテキストデータから、地名、人名、組織名と
いった情報の抽出を行うことができる。しかも、この第
1の実施形態の場合には、予め文字種(「ひらがな領
域」と「非ひらがな領域」)に応じてテキストデータを
区分けしてから基本語に分解する処理を行うため、従来
方式のように、全てのテキストデータを形態素解析する
場合に比して、その計算量を大幅に軽減することができ
る。
組み合せに分解することにしたので、辞書量を削減する
ことができる。例えば、銀行名を抽出する場合には、存
在する銀行の名称をすべて辞書に登録して照合する方法
では、銀行名を収集することが大きな手間となる上、辞
書も大きくなる。これに対し、この第1の実施形態で
は、これを基本語に分解し、「地名+”銀行”」となる
語は銀行名であるというように定義することで、データ
作成の手間を省き、辞書サイズの大幅な低減を実現でき
る。
置に適用する場合の第2の実施形態を、図面を用いて詳
述する。
理装置の構成を示す。ここで、図8には、図1と同一対
応部分に対応同一符号を付している。
形態に係る自然言語処理装置の特徴は、前述の第1の実
施形態に係る自然言語処理装置に対し、新たな処理モジ
ュール「新出語獲得処理部7」を付け加えた点と、新た
な記憶領域「新出語獲得規則格納部8及び不要語辞書
9」を付け加えた点である。
る部分のみを説明し、同一部分についての説明は省略す
る。
出語獲得処理部7の構成を説明する。この新出語獲得処
理部7は、情報抽出対象となるテキストデータに含まれ
る基本語辞書5に存在しない可能性のある語を、新出語
獲得規則格納部8に格納されている規則を用いて予め獲
得しておく手段である。
と接辞の組を用いて新出語を獲得すると、獲得された語
を基本語辞書5に登録するようになっている。ただし、
かかる規則で得られる語の全てが正しい情報の抽出とは
限らないので、新出語獲得処理部7は、獲得された語を
基本語辞書5に登録するのに先立ち、不要語辞書9に格
納されている語との照合を行い、不適切な語を予め除去
するようになっている。
する規則を格納する記憶領域である。ここで、新出語獲
得規則格納部8には、獲得に用いる条件(文字種と接辞
の組)と、条件に一致する文字列のうちどの部分が新出
語として獲得すべきものか、そしてその属性は何かを表
す情報とが格納されている。図9は、その一例である。
に、条件「カタカナ列+(州,市,町,村,公園)+ひ
らがな」に一致する文字列があれば、その文字列中の
「カタカナ文字列」の部分を「地名」として抽出すると
の情報が格納されている。なお、条件中にある括弧内の
コロンは、条件の論理和を意味し、括弧内にあるいずれ
かの語と前後の条件との組を満たせば良いことを表して
いる。
から、人名を獲得するための条件とその取り扱い情報と
を格納し、第3の規則は、テキストデータ中から、組織
名を獲得するための条件とその取り扱い情報とを格納し
ている。
基本語辞書5に格納されないようにするため、新出語と
して誤って獲得される可能性のある不要語の一覧を保持
している記憶領域である。
が文中に含まれる場合、前述の新出語獲得処理部7は、
図9の第1の規則を適合し、「スポーツ」という文字列
を「地名」として抽出してしまう。しかし、これは明ら
かに誤りである。そこで、図10に示すように、不要語
辞書9に、「スポーツ」という語と、「地名」という属
性の組を格納しておけば、事前に誤った語の獲得を除外
することができる。
報の抽出動作を説明する。なお、本実施形態の場合も、
入力されたテキストデータから、地名、人名、組織名等
の固有名詞を抽出するものとする。また、以下の説明で
は、テキストデータとして、『昨日、テキサス州のダラ
ス市で、鈴木電気工業株式会社が工場操業を開始し
た。』が入力されたものとする。
力される。ここで、新出語獲得処理部7は、新出語獲得
規則格納部8に格納されている規則を用い、規則の条件
に一致する文字列が含まれているかの照合を行う。
なわち、カタカナ列+州+ひらがな)と、「ダラス市
で」(すなわち、カタカナ列+市+ひらがな」の箇所が
第1の規則に適合する。また、「鈴木電気工業株式会社
が」(すなわち、漢字文字列+株式会社+ひらがな」の
箇所が第3の規則に適合する。
ス」と「ダラス」を地名として、「鈴木電気工業」を組
織名として獲得する。これを表しているのが、図11で
ある。なお、この例の場合、獲得された3つの語は、不
要語辞書9に格納されている語のいずれとも一致しない
ため、そのまま基本語辞書5に追加登録される。
が目的であるので、入力文に対しては何らのタグその他
の記号の挿入は行われない。
様に実行される。すなわち、領域分割処理部1における
処理により、入力文は、『[昨日]、[テキサス州]の
[ダラス市]で、[鈴木電気工業株式会社]が[工場操
業]を[開始]した。』に変換される。
力され、基本語に分解される。ただし、この動作は、第
2の実施形態に固有の動作となる。すなわち、前述の第
1の実施形態では、「テキサス」、「ダラス」、「鈴木
電気工業」なる語が基本語辞書に当初から登録されてい
なければ、それらの語の属性を特定できない。
新出語獲得処理部7によりこれら語が既に獲得され登録
されているので、属性の特定が可能となり、入力文は、
『[昨日]、[lテキサスl][s州s]の[lダラス
l][s市s]で、[m鈴木電気工業m][t株式会社
t]が[工場操業]を[開始]した。』のようになる。
なおここでは、組織名の属性をmで表している。
力され、前述した図7の規則に基づいて、以下のよう
に、その属性が確定される。その結果、前述の入力文
は、『昨日、[Lテキサス州L]の[Lダラス市L]
で、[O鈴木電気工業株式会社O]が工場操業を開始し
た。』となり、地名と組織名の部分に確定属性タグが挿
入された状態の抽出情報が得られる。
となるテキストデータ中に、基本語辞書5に格納されて
いないような新出語が含まれる場合にも、これを事前に
獲得して、適切な属性の付与が可能となることにより、
これら新出語を含めた適切な情報抽出を可能とできる。
置に適用する場合の第2の実施形態を、図面を用いて詳
述する。
処理装置の構成を示す。ここで、図12には、図1と同
一対応部分に対応同一符号を付している。
施形態に係る自然言語処理装置の特徴は、前述の第1の
実施形態に係る自然言語処理装置に対し、新たな処理モ
ジュール「略称マッチング処理部10」を付け加えた点
である。
る部分のみを説明し、同一部分についての説明は省略す
る。ただし、第1の実施形態では、属性付与処理部3か
ら抽出情報が出力される時点で、属性の確定できなかっ
た部分(以下「不確定属性領域」という。)からタグを
除去していたが、この第2の実施形態では、この部分の
タグもそのまま除去されずに出力されるものとする。
され、属性が決定された語を利用して、属性が不明であ
る「非ひらがな領域」から略称を推定し、属性を付与す
る手段である。このような処理を行うのは、日本語その
他の自然言語の場合、固有名詞である正式名称の略称が
頻繁に用いられるためである。例えば、日本銀行に対す
る日銀、自由民主党に対する自民党等である。
く存在するのに加え、使用する個人によっても、また、
文献によっても使用される略称の内容が異なることも多
い。従って、考え得る全ての略称を辞書に登録してお
き、これとの照合により属性を特定するといった処理を
行うことは事実上困難である。
れている文字列の順番を保ったまま、これを構成する各
文字の幾つかを選択的に組み合わせて構成されているこ
とが多い。そこで、この略称マッチング処理部10で
は、かかる規則を利用し、既に抽出した正式名称を用い
ることにより、略称の抽出を行う。
まず、不確定属性領域の語を構成する文字の先頭文字
と、属性の確定した正式名称を構成する各文字とをその
先頭から順に照合し、一致が確認されれば、次に、不確
定文字側の次の文字と正式名称側のそれ以降に現れる文
字とを照合し、照合する正式名称側の文字がなくなるま
でに不確定文字の全てが一致するか否かで略語か否かの
判定を行う。
概要を示す。なお、P(m)は、正式名称である文字列
の先頭からm文字目の文字を表し、P(n)は、不確定
文字列の先頭からn文字目の文字を表すものとする。ま
た、正式名称の文字数をMとし、不確定文字の文字数を
Nとする。
メータmとnを、共に1に設定する(ステップ20
0)。このことは、各文字列の先頭文字を指定したこと
を意味する。次に、略称マッチング処理部10は、パラ
メータmとnで与えられる文字数目の各文字P(m)と
P(n)とが一致するか判定する(ステップ201)。
なお、当該処理の開始直後では、先頭文字同士について
の判定となる。
ング処理部10は、一致の確認された文字が不確定文字
の最終文字(N番目の文字)か否か判定し(ステップ2
02)、否定結果が得られた場合には、次の判定に移行
すべく、それぞれ一致の確認された文字に続く文字(m
+1番目の文字とn+1番目の文字)を次の比較対象文
字に更新する(ステップ203)。
致が確認された場合には、略称マッチング処理部10
は、正式名称側の次の文字と比較を行うべく、パラメー
タmをm+1に変更し(ステップ204)、その後、変
更後の文字が正式名称側の最終文字(M+1番目の文
字)でないか否かを判定する(ステップ205)。この
判定では、ステップ201で比較される文字が正式名称
側の最終文字(M番目)であった場合を除き、常に否定
結果が得られる。
結果が得られるまでに(すなわち、照合する正式名称側
の文字がなくなるまでに)、ステップ202の肯定結果
が先に得られれば、不確定文字が照合した正式名称の略
語であると判定し(ステップ206)、そうでなけれ
ば、略語でないと判定する(ステップ207)。
報の抽出動作を説明する。なお、本実施形態の場合も、
入力されたテキストデータから、地名、人名、組織名等
の固有名詞を抽出するものとする。また、以下の説明で
は、テキストデータとして、『日本銀行は、日銀の援助
方針について発表した。』が入力されたものとする。
は、第1の実施形態の場合と同じであるので、ここで
は、属性付与処理部3による処理が終了した段階以降の
処理を説明する。なお、前述したように、属性付与処理
部3の出力には、不確定属性領域を示すタグがそのまま
保存されている。
日本銀行O]は、[日銀]の[援助方針]について[発
表]した。』なる文が出力されることになる。
力すると、既に抽出された固有名詞の収集を用い、不確
定属性領域中にこれらの略称に相当する語が含まれてい
ないかの判定を行う。なお、この例の場合、「日本銀
行」が既に抽出された固有名詞に相当し、「日銀」、
「援助方針」、「発表」の3つが略語の候補となる。
本銀行」と「日銀」とのマッチングを、図13の処理手
順に基づいて行う。この場合には、「日銀」の1文字目
が「日本銀行」の1文字目と一致し、「日銀」の2文字
目が「日本銀行」の3文字目と一致するので、固有名詞
である「日本銀行」の全ての文字に対するマッチングが
終了する前に照合が終わり、「日銀」は「日本銀行」の
略称と推定されることになる。これにより、「日銀」に
は、正式名称「日本銀行」に付されているのと同じ属
性、すなわち組織名の属性Oが付与される。
本銀行」と「援助方針」とのマッチングを、図13の処
理手順に基づいて行う。この場合は、一文字も一致する
文字が存在しないので、略称マッチング処理部10は、
ステップ201−204−205−201のループを繰
り返し、パラメータmが5に更新された時点で、略称で
ないとの結論が出される。なお、「発表」についてのマ
ッチング処理も同様である。
は、最終的な出力として、『[O日本銀行O]は、[O
日銀O]の援助方針について発表した。』が出力され
る。
後、略称と判断された語を基本語辞書5に記録する。こ
れにより、これ以降の処理において、別のテキストデー
タ中に同一の略称が出現した場合には、当該テキストデ
ータ中から正式名称を抽出できなくても、当該略称に対
して適正な属性を付与することが可能となる。
となるテキストデータ中に、基本語辞書5に格納されて
いない新出語として略語が含まれる場合にも、正式名称
の抽出さえできていれば、その略称の検出を可能とし、
適切な属性を付与することができる。
録するため、他のテキストデータの処理中に同一の略語
が単独で現れる場合にも、その検出と属性の付与を可能
とでき、情報抽出能力の向上を実現できる。
置に適用する場合の第4の実施形態を、図面を用いて詳
述する。
処理装置の構成を示す。ここで、図14には、図1と同
一対応部分に対応同一符号を付している。
施形態に係る自然言語処理装置の特徴は、前述の第1の
実施形態に係る自然言語処理装置に対し、新たな処理モ
ジュール「合成略称検出処理部11」を付け加えた点
と、新たな記憶領域「略称生成規則格納部12」を付け
加えた点である。
る部分のみを説明し、同一部分についての説明は省略す
る。ただし、第1の実施形態では、属性付与処理部3か
ら抽出情報が出力される時点で、属性の確定できなかっ
た部分(以下「不確定属性領域」という。)からタグを
除去していたが、この第4の実施形態では、この部分の
タグもそのまま除去されずに出力されるものとする。ま
た、属性の確定した部分についても、これを構成する基
本語とその属性の情報がそのまま保存されて出力される
ものとする。
確定された固有名詞の文字列を、略称生成規則格納部1
2に格納されている規則と照合し、当該文字列から考え
られる略称を生成する処理と、生成された略称と未確定
属性領域の語とを照合し、一致した語に略称の生成に用
いた固有名詞の属性と同じ属性を付与する処理を実行す
る手段である。
は、属性の確定した固有名詞からその略称を推定し、推
定された略称と一致する文字列を未確定属性領域中から
抽出する。この点が、第3の実施形態との違いである。
の組み合わせから考えられる略称の生成規則を格納する
手段である。ここで、略称生成規則格納部12には、
「適用条件」とその「生成略称」とが組として格納され
ている。図15は、その一例である。なお、適用条件中
の()で囲まれた部分が基本語であり、()内の「x」
が任意の属性を、また英大文字が基本語の先頭一文字
を、さらに「*」が先頭以降の全ての文字を表してい
る。
固有名詞が、2つの基本語から構成される場合、その2
つの基本語の先頭一文字を結合したABを略語とすべき
ことを規定している。例えば、「(l東京l)(i大学
i)」からは、「東大」という略語が得られる。
有名詞が、3つの基本語から構成される場合であって、
1番目の基本語が地名であり、2番目及び3番目の基本
語が組織修飾名であるときは、1番目及び2番目の基本
語の先頭一文字を結合したABと3番目の基本語C*を
結合したABC*を略語とすべきことを規定している。
例えば、「(l日本l)(i経済i)(i新聞i)」か
らは、「日経新聞」という略称が得られる。
報の抽出動作を説明する。なお、本実施形態において
は、入力されたテキストデータから、地名、人名、組織
名等の固有名詞を抽出するものとする。
『日本銀行は、日銀の援助方針について発表した。』が
入力されたものとする。
検出処理以前の処理は、第1の実施形態の場合と同じで
あるので、ここでは、属性付与処理部3による処理が終
了した段階以降の処理を説明する。なお、前述したよう
に、属性付与処理部3の出力には、不確定属性領域を示
すタグがそのまま保存されており、また、属性の確定し
た部分にもそれを構成する基本語の情報とその属性情報
が保存されている。
(l日本l)(i銀行i)O]は、[日銀]の[援助方
針]について[発表]した。』なる文が出力されること
になる。
すると、既に抽出された固定名詞の収集を行う。そし
て、略称生成規則格納部12に格納されている適用条件
に合う固定名詞が存在するかをチェックする。もし、適
合する固有名詞がある場合には、規則に従って略称を生
成し、生成された規則を一時的に記録する。例文の場
合、「日本銀行」が、既に抽出された固有名詞に当た
り、これに規則番号1が合致するため、略称「日銀」を
生成し、これを一時的に記録する。
と、次に、合成略称検出処理部11は、不確定属性領域
を検索し、先に求めた略称と同一の文字列が存在するか
否かを確認する。そして、同一の文字列が存在する場合
には、その領域部分に、一致した略称を生成するのに用
いた固有名詞と同じ属性を付与する。例文では、最初の
不確定属性領域である「日銀」の文字列が、生成された
略称と等しいため、この領域に「日本銀行」と同じ属性
「O」を付与する。
は、最終的な出力として、『[O日本銀行O]は、[O
日銀O]の援助方針について発表した。』が出力され
る。
後、略称と判断された語であり、実際にテキストデータ
中に存在していたものを、基本語辞書5に記録する。こ
れにより、これ以降の処理において、別のテキストデー
タ中に同一の略称が出現した場合には、当該テキストデ
ータ中から正式名称を抽出できなくても、当該略称に対
して適正な属性を付与することが可能となる。
とするテキストデータ中に、基本語辞書5に格納されて
いない新出語として略語が含まれる場合にも、正式名称
の抽出さえできていれば、その略称の検出を可能とし、
適切な属性を付与することができる。
生成規則とを照合し、適用条件に一致した固有名詞につ
いては、その条件に従って略称を生成するため、本来あ
り得ないような語が略称として現れる可能性を低減で
き、抽出情報の信頼性を一層高めることができる。
録するため、他のテキストデータの処理中に同一の略語
が単独で現れる場合にも、その検出と属性の付与を可能
とでき、情報抽出能力の向上を実現できる。
置に適用する場合の第5の実施形態を、図面を用いて詳
述する。
処理装置の構成を示す。ここで、図16には、図1と同
一対応部分に対応同一符号を付している。
施形態に係る自然言語処理装置の特徴は、前述の第1の
実施形態に係る自然言語処理装置に対し、新たな処理モ
ジュール「固有名集計処理部13」を付け加えた点であ
る。
る部分のみを説明し、同一部分についての説明は省略す
る。
たタグ付きの情報を、テキストデータを構成する文、段
落、記事などを単位として、その単位中に現れるタグ付
き情報の属性ごとに整理し集計する手段である。なお、
固有名集計処理部13は、後段の処理で必要とされる場
合には、集計後の情報を表形式で出力するようになって
いる。
報の抽出動作を説明する。なお、本実施形態において
は、入力されたテキストデータから、地名、人名、組織
名の固有名詞や日付けについての情報を抽出するものと
する。
『国防総省は十五日、イラクでの米軍機による米ヘリコ
プター撃墜事件を受け、同国北部の飛行禁止空域内での
米軍戦闘機による十五日の偵察飛行を中止することを明
らかにした。またペリー国防長官は同日、ABCテレビ
などのインタビュー番組で、誤射事件の真相を明らかに
するための調査委員会が既に発足し、責任者がトルコに
向かったと述べた。』が入力されたものとする。
検出処理以前の処理は、第1の実施形態の場合と同じで
あるので、ここでは、属性付与処理部3による処理が終
了した段階以降の処理を説明する。なお、この実施形態
では、固有名だけでなく、日付に関する情報もタグ付け
されている。
国防総省O]は[D十五日D]、[LイラクL]での
[O米軍O]機による[L米L]ヘリコプター撃墜事件
を受け、同国北部の飛行禁止空域内での[O米軍O]戦
闘機による[D十五日D]の偵察飛行を中止することを
明らかにした。また[PペリーP]国防長官は同日、
[OABCテレビO]などのインタビュー番組で、誤射
事件の真相を明らかにするための調査委員会が既に発足
し、責任者が[LトルコL]に向かったと述べた。』な
る文が出力される。
ると、文、段落、記事などの文書単位と属性との2次元
で、抽出された情報の集計を行う。ここでは、文を単位
として、集計を行うものとする。なお、文の区切りは句
点により判別することができる。
この集計結果を用いれば、例えば、文番号1には、日付
についての情報と、組織名についての情報と、地名につ
いての情報が含まれること、その内容は、「十五日」、
「国防省」等であることを即座に把握することが可能と
なる。勿論、集計の次元には、この他に頻度を用いても
良い。
データ中から必要な属性の情報のみを選択的に抽出し一
覧表として出力することができ、ユーザの利用勝手を一
段と向上できる。
入力後の処理手順について述べたが、テキストデータ
は、ストレージ装置等から読み出される静的なデータフ
ァイルに限らず、キーボード、マウス、OCR(光学式
文字認識装置)、音声認識装置等からリアルタイムで入
力されるものでも良い。また、ネットワーク等の通信路
を介し外部から電子メールやネットニュース等の形態で
受信されるものでも良い。
キストデータを、文中に現れる各文字が「ひらがな」か
「非ひらがな」かで分割する場合について述べたが、こ
の際、テキストデータ中に現れる漢字を特定する漢字コ
ードの種類については特に問わない。例えば、漢字コー
ドは、EUCやシフトJIS形式であっても良い。
理対象とする自然言語を日本語とする場合について述べ
たが、他の自然言語を処理対象とする場合にも適用し得
る。
は、抽出された固有名詞を用いてその略称を推定し、さ
らに、推定された略称と一致する名称が同文中に存在す
るか否か検索する場合について述べたが、推定に用いる
名詞は抽出された固有名詞に限らず、基本語辞書に登録
されている語の全て又は一部としても良い。
は、正式名称である固有名詞から略称を推定し、当該推
定された略称を用いて一致する文字列を文中から検索す
る場合について述べたが、その反対に略称から正式名称
を推定し、推定された正式名称に一致する文字列を文中
から検索するようにしても良い。
は、テキストデータ中から抽出された情報部分に、当該
属性に固有の属性情報タグを埋め込んで出力する場合に
ついて述べたが、この属性情報タグを表示用タグに変換
し、表示の際に情報が強調されるようにしても良い。例
えば、属性情報タグを、HTML(Hypertext Markup L
anguage )の手法で、その属性ごとに色を換えたり、文
字の大きさを変換するタグに変換し、WWWブラウザで
表示することにより、抽出情報を強調した表示としても
良い。
出情報を表形式にまとめた場合について述べたが、最終
的出力形態としてCSV(Comma Separated Value )形
式にしたり、表計算ソフトのファイル形式にしても良
い。
域分割処理と、基本語分解処理と、属性付与処理の3つ
の処理全てを組み合わせた実施形態について述べたが、
領域分割処理と既存の技術とを組み合わせる場合にも適
用し得る。また、これに、基本語分解処理を組み合わせ
る場合にも適用し得る。
は、各実施形態に固有の処理を第1の実施形態と組み合
わせる場合について述べたが、かかる技術の組み合わせ
はこれに限らず、既存の技術と組み合わせる場合にも適
用し得る。その場合にも、各処理に固有の効果を得るこ
とができる。
前に、文書中に現れる各文字を、文頭から順番に、特定
の文字種のまとまりとその他の文字種のまとまりとに分
割し、1又は複数の文字からなる2種類の部分文字列に
分割する領域分割処理部を備えることにより、分割によ
り得られた部分文字列を対象として形態素解析を行うこ
とができ、文書全体を形態素解析する場合に比して、必
要とされる計算量を格段に低減できる。
に、処理対象とする文書中から特定の文字種列と接辞と
からなる文字列を検出し、検出された文字列のうち特定
の文字種列の部分を、当該文字種列と共に現れた接辞に
より確定される属性の語として、単語辞書に予め登録す
る新出語獲得処理部を備えることにより、形態素解析の
対象となる文書中に未知語が含まれる場合にも、これを
形態素解析に先立ち特定して単語辞書に登録でき、その
後に実行される形態素解析の精度の向上を図ることがで
きる。
結果に、属性未定の文字列が出現する場合、当該文字列
を略称に有する固有名詞が単語辞書に含まれているか否
か検索し、当該文字列を略称とする固有名詞が検出され
た場合、検出された固有名詞に付されている属性を、当
該文字列の属性として付与する略称マッチング処理部を
備えることにより、単語辞書に該当する語が存在しなく
ても、その文字列が、単語辞書に登録されている固有名
詞の略称に該当する場合には、その抽出を可能とできる
ため、形態素解析精度の一層の向上を図ることができ
る。
の結果に属性未定の文字列が出現する場合、当該文字列
を正式名称に有する略称が単語辞書に含まれているか否
か検索し、当該文字列を正式名称とする略称が検出され
た場合、検出された略称に付されている属性を、当該文
字列の属性として付与する正式名称マッチング処理部を
備えることにより、単語辞書に該当する語が存在しなく
ても、その文字列が、単語辞書に登録されている略称の
正式名称に該当する場合には、その抽出が可能とできる
ため、形態素解析精度の一層の向上を図ることができ
る。
結果に属性未定の文字列が出現する場合、当該文字列中
に、単語辞書に含まれる正式名称に所定の略称生成規則
を適用することにより生成される略称と一致する文字列
が存在するか否かを判断し、一致する文字列が存在して
いたとき、当該略称の生成に供した正式名称に付されて
いる属性を、当該文字列の属性として付与する合成略称
検出処理部を備えることにより、単語辞書に該当する語
が存在しなくても、その文字列が、単語辞書に登録され
ている固有名詞の略称に該当する場合には、その抽出を
可能とできるため、形態素解析精度の一層の向上を図る
ことができる。また、この際、所定の略称生成規則に基
づいて生成した略称との一致の有無を検出するため、略
称でない語が誤って略称と判断される可能性を低減で
き、その精度を一層向上できる。
る。
示すフローチャートである。
る。
示す図表である。
示す図表である。
る。
を示す図表である。
表である。
る。
トである。
る。
を示す図表である。
る。
付与処理部、4…ひらがな固有語辞書、5…基本語辞
書、6…属性付与規則格納部、7…新出語獲得処理部、
8…新出語獲得規則格納部、9…不要語辞書、10…略
称マッチング処理部、11…合成略称検出処理部、12
…略称生成規則格納部、13…固有名集計処理部。抽出
された情報の表示例を示す図である。
Claims (16)
- 【請求項1】 自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、 形態素解析前に、文書中に現れる各文字を、文頭から順
番に、特定の文字種のまとまりとその他の文字種のまと
まりとに分割し、1又は複数の文字からなる2種類の部
分文字列に分割する領域分割処理部を備えることを特徴
とする情報抽出装置。 - 【請求項2】 請求項1に記載の情報抽出装置におい
て、 各部分文字列の基本語への分解可能性を判断し、分割可
能な部分文字列について、これを複数の基本語に分解す
る基本語分解処理部をさらに備えたことを特徴とする情
報抽出装置。 - 【請求項3】 請求項2に記載の情報抽出装置におい
て、 部分文字列を構成する基本語の組から特定可能な属性
を、当該部分文字列の全体に対する確定属性として付与
する属性付与処理部をさらに備えることを特徴とする情
報抽出装置。 - 【請求項4】 請求項1に記載の情報抽出装置におい
て、 上記自然言語が日本語である場合、上記領域分割処理部
は、文書中に現れる各文字を、文頭から順番に、平仮名
のみのまとまりである平仮名領域と平仮名以外の文字種
のまとまりである非平仮名領域に分割することを特徴と
する情報抽出装置。 - 【請求項5】 請求項4に記載の情報抽出装置におい
て、 上記領域分割処理部は、特定の固有語を含む平仮名領域
を、当該領域と連続する非平仮名領域に結合することを
特徴とする情報抽出装置。 - 【請求項6】 請求項4又は5に記載の情報抽出装置に
おいて、 上記基本語分解処理部は、上記非平仮名領域のみを対象
に、部分文字列を複数の基本語に分解する処理を実行す
ることを特徴とする情報抽出装置。 - 【請求項7】 自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、 形態素解析前に、処理対象とする文書中から特定の文字
種列と接辞とからなる文字列を検出し、検出された文字
列のうち特定の文字種列の部分を、当該文字種列と共に
現れた接辞により確定される属性の語として、単語辞書
に予め登録する新出語獲得処理部を備えることを特徴と
する情報抽出装置。 - 【請求項8】 請求項7に記載の情報抽出装置におい
て、 上記新出語獲得処理部は、検出された文字種列を登録す
るのに先立ち、当該文字種列と推定された属性が登録の
禁止されている語か否か判断し、登録の禁止されている
語であると判定された場合には、当該文字種列の単語辞
書への登録を中止することを特徴とする情報抽出装置。 - 【請求項9】 自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、 形態素解析結果に、属性未定の文字列が出現する場合、
当該文字列を略称に有する固有名詞が単語辞書に含まれ
ているか否か検索し、当該文字列を略称とする固有名詞
が検出された場合、検出された固有名詞に付されている
属性を、当該文字列の属性として付与する略称マッチン
グ処理部を備えることを特徴とする情報抽出装置。 - 【請求項10】 請求項9に記載の情報抽出装置におい
て、 上記略称マッチング処理部は、属性未定の文字列を構成
する各文字の順番を保ち、かつ、それらの文字を全て含
む固有名詞が存在する場合、上記文字列を当該固有名詞
に対応する略称であると判定することを特徴とする情報
抽出装置。 - 【請求項11】 自然言語で記述された文書より、必要
な情報を抽出する情報抽出装置において、 形態素解析の結果に属性未定の文字列が出現する場合、
当該文字列を正式名称に有する略称が単語辞書に含まれ
ているか否か検索し、当該文字列を正式名称とする略称
が検出された場合、検出された略称に付されている属性
を、当該文字列の属性として付与する正式名称マッチン
グ処理部を備えることを特徴とする情報抽出装置。 - 【請求項12】 請求項11に記載の情報抽出装置にお
いて、 上記正式名称マッチング処理部は、属性未定の文字列を
構成する各文字の一部からなり、かつ、その順番を保つ
略称が存在する場合、上記文字列を当該略称に対応する
正式名称であると判定することを特徴とする情報抽出装
置。 - 【請求項13】自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、 形態素解析結果に属性未定の文字列が出現する場合、当
該文字列中に、単語辞書に含まれる正式名称に所定の略
称生成規則を適用することにより生成される略称と一致
する文字列が存在するか否かを判断し、一致する文字列
が存在していたとき、当該略称の生成に供した正式名称
に付されている属性を当該文字列の属性として付与する
合成略称検出処理部を備えることを特徴とする情報抽出
装置。 - 【請求項14】 請求項9〜13のいずれかに記載の情
報抽出装置は、 新たに属性の確定された略称又は正式名称を、基本語と
して、単語辞書に登録することを特徴とする情報抽出装
置。 - 【請求項15】 請求項1〜14のいずれかに記載の情
報抽出装置は、 属性の確定により抽出された文字列からなる情報を、
文、段落、記事その他の文書単位と属性とで分類し出力
することを特徴とする情報抽出装置。 - 【請求項16】 請求項1〜14のいずれかに記載の情
報抽出装置は、 属性の確定により抽出された文字列からなる情報に、そ
の属性を表すタグを付して出力することを特徴とする情
報抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10073684A JPH11272701A (ja) | 1998-03-23 | 1998-03-23 | 情報抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10073684A JPH11272701A (ja) | 1998-03-23 | 1998-03-23 | 情報抽出装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11272701A true JPH11272701A (ja) | 1999-10-08 |
Family
ID=13525297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10073684A Pending JPH11272701A (ja) | 1998-03-23 | 1998-03-23 | 情報抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11272701A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125911A (ja) * | 1999-10-27 | 2001-05-11 | Just Syst Corp | 個体名の抽出装置、抽出方法、並びに記録媒体 |
JP2001202381A (ja) * | 2000-01-21 | 2001-07-27 | Just Syst Corp | 個体名の抽出装置、抽出方法、並びに、記録媒体 |
JP2004185306A (ja) * | 2002-12-03 | 2004-07-02 | Toshiba Corp | 辞書構築支援装置および辞書構築支援方法 |
JP2010250480A (ja) * | 2009-04-14 | 2010-11-04 | Degital Works Kk | テキストデータ処理装置およびプログラム |
JP2012022354A (ja) * | 2010-07-12 | 2012-02-02 | Fujitsu Ltd | 略称検索装置,方法およびプログラム,ならびに略称検索機能を備えるデータパース装置 |
JP2018032187A (ja) * | 2016-08-24 | 2018-03-01 | 日本電信電話株式会社 | 正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム |
CN109271527A (zh) * | 2018-09-27 | 2019-01-25 | 华东师范大学 | 一种需求功能点智能识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6394365A (ja) * | 1986-10-08 | 1988-04-25 | Nippon Telegr & Teleph Corp <Ntt> | 日本文文書誤り検定装置 |
JPH01217623A (ja) * | 1988-02-26 | 1989-08-31 | Nippon Telegr & Teleph Corp <Ntt> | キーワード自動生成装置 |
JPH03116374A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 専門用語抽出システム |
JPH03150668A (ja) * | 1989-11-08 | 1991-06-27 | Fujitsu Ltd | 検索システムの入力文字列正規化方式 |
JPH05233686A (ja) * | 1992-02-20 | 1993-09-10 | Nec Corp | 日本語処理装置 |
JPH0619959A (ja) * | 1992-06-30 | 1994-01-28 | N T T Data Tsushin Kk | 固有名詞特定処理システム |
JPH07230468A (ja) * | 1994-02-18 | 1995-08-29 | Fujitsu Ltd | キーワード自動抽出装置およびキーワード自動抽出方法 |
JPH08314947A (ja) * | 1995-05-22 | 1996-11-29 | Mainichi Shinbunsha:Kk | キーワード自動抽出装置 |
JPH1069487A (ja) * | 1996-08-28 | 1998-03-10 | Hitachi Ltd | あいまい名称による情報の管理方法 |
-
1998
- 1998-03-23 JP JP10073684A patent/JPH11272701A/ja active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6394365A (ja) * | 1986-10-08 | 1988-04-25 | Nippon Telegr & Teleph Corp <Ntt> | 日本文文書誤り検定装置 |
JPH01217623A (ja) * | 1988-02-26 | 1989-08-31 | Nippon Telegr & Teleph Corp <Ntt> | キーワード自動生成装置 |
JPH03116374A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 専門用語抽出システム |
JPH03150668A (ja) * | 1989-11-08 | 1991-06-27 | Fujitsu Ltd | 検索システムの入力文字列正規化方式 |
JPH05233686A (ja) * | 1992-02-20 | 1993-09-10 | Nec Corp | 日本語処理装置 |
JPH0619959A (ja) * | 1992-06-30 | 1994-01-28 | N T T Data Tsushin Kk | 固有名詞特定処理システム |
JPH07230468A (ja) * | 1994-02-18 | 1995-08-29 | Fujitsu Ltd | キーワード自動抽出装置およびキーワード自動抽出方法 |
JPH08314947A (ja) * | 1995-05-22 | 1996-11-29 | Mainichi Shinbunsha:Kk | キーワード自動抽出装置 |
JPH1069487A (ja) * | 1996-08-28 | 1998-03-10 | Hitachi Ltd | あいまい名称による情報の管理方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125911A (ja) * | 1999-10-27 | 2001-05-11 | Just Syst Corp | 個体名の抽出装置、抽出方法、並びに記録媒体 |
JP2001202381A (ja) * | 2000-01-21 | 2001-07-27 | Just Syst Corp | 個体名の抽出装置、抽出方法、並びに、記録媒体 |
JP2004185306A (ja) * | 2002-12-03 | 2004-07-02 | Toshiba Corp | 辞書構築支援装置および辞書構築支援方法 |
JP2010250480A (ja) * | 2009-04-14 | 2010-11-04 | Degital Works Kk | テキストデータ処理装置およびプログラム |
JP2012022354A (ja) * | 2010-07-12 | 2012-02-02 | Fujitsu Ltd | 略称検索装置,方法およびプログラム,ならびに略称検索機能を備えるデータパース装置 |
JP2018032187A (ja) * | 2016-08-24 | 2018-03-01 | 日本電信電話株式会社 | 正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム |
CN109271527A (zh) * | 2018-09-27 | 2019-01-25 | 华东师范大学 | 一种需求功能点智能识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7424421B2 (en) | Word collection method and system for use in word-breaking | |
US8370128B2 (en) | Semantically-driven extraction of relations between named entities | |
US20060112091A1 (en) | Method and system for obtaining collection of variants of search query subjects | |
EP0971294A2 (en) | Method and apparatus for automated search and retrieval processing | |
JP3584848B2 (ja) | 文書処理装置、項目検索装置及び項目検索方法 | |
Budi et al. | Named entity recognition for the Indonesian language: combining contextual, morphological and part-of-speech features into a knowledge engineering approach | |
US20040267737A1 (en) | Database search system | |
JP3361563B2 (ja) | 形態素解析装置及びキーワード抽出装置 | |
JP3596210B2 (ja) | 関連語辞書作成装置 | |
JPH11272701A (ja) | 情報抽出装置 | |
JP4114927B2 (ja) | 文書検索システム、質問応答システム、文書検索方法 | |
Besagni et al. | A segmentation method for bibliographic references by contextual tagging of fields | |
Asahara et al. | Japanese unknown word identification by character-based chunking | |
Khalil et al. | Extracting Arabic composite names using genitive principles of Arabic grammar | |
JPH1011443A (ja) | 文書符号検査システム | |
Charoenpornsawat et al. | Feature-based proper name identification in Thai | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
US8024347B2 (en) | Method and apparatus for automatically differentiating between types of names stored in a data collection | |
JPH1011431A (ja) | 漢字検索装置および方法 | |
Sithamparanathan et al. | A sinhala and tamil extension to generic environment for context-aware correction | |
JPH077415B2 (ja) | 日本文文書誤り検定装置 | |
JPH0944521A (ja) | インデックス作成装置および文書検索装置 | |
Dhanju et al. | Design and implementation of Shahmukhi spell checker | |
JP3924899B2 (ja) | テキスト検索装置およびテキスト検索方法 | |
JP4047894B2 (ja) | 文書校正装置およびプログラム記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040720 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040914 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041012 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050125 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050906 |