JP4593966B2 - 抽出システム - Google Patents
抽出システム Download PDFInfo
- Publication number
- JP4593966B2 JP4593966B2 JP2004140840A JP2004140840A JP4593966B2 JP 4593966 B2 JP4593966 B2 JP 4593966B2 JP 2004140840 A JP2004140840 A JP 2004140840A JP 2004140840 A JP2004140840 A JP 2004140840A JP 4593966 B2 JP4593966 B2 JP 4593966B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- pattern
- extraction unit
- extracted
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Michael Fleischman,Eduard Hovy,and Abdessamad Echihabi "Offline strategies for online question answering:Answering questions before they are asked" Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (eds. Erhard Hinrichs and Dan Roth),(2003),pp.1-7 。 Sergey Brin "Extracting patterns and relations from the world wide web" WebDB Workshop at 6th International Conference on Extending Database Technology,EDBT'98,(1998)。 安藤まや, 関根聡, 石崎俊 "定型表現を利用した新聞記事からの下位概念単語の自動抽出" 情報処理学会自然言語処理研究会 2003-NL-157,(2003) 。
(1):抽出システムの説明
図1は本発明の抽出システムの説明図である。図1において、用語を抽出する抽出システムには、パターン抽出部1、用語抽出部2、データベースDが設けてある。
図2は用語抽出処理フローチャートである。以下図2の処理S1〜S3に従って説明する。
S3:用語抽出部2で、パターン抽出部1で抽出したパターンci をデータベースDで全文検索し、パターンci によって抽出される表現expを抽出すると同時に、抽出した表現expをScoreの値の大きい順にソートして出力手段に出力する。
1) 国名Aと首都名Bの対(二項データ)の場合の例
・パターン抽出部1に入力される入力正例の例:
日本_東京
中国_北京
韓国_ソウル
シンガポール_シンガポール
ロシア_モスクワ
・パターン抽出部1が抽出する抽出パターンの例:
、Aの首都B
Aの首都B
A・B市に
る。〔B支局〕A
B支局〕A外務省
ただし、左右にA、Bがある場合は、さらにその左右は平仮名文字であることが条件となる。
・入力正例:
日本
中国
朝鮮
タイ
韓国
・抽出パターンの例(1) :(両端とも利用、スピードは遅いが性能は良い)
日、A軍
人のA人女性
日本はAと
〔A通信・
省。駐A大使な
・抽出パターンの例(2) :(片方のみ利用、片方は平仮名文字、スピードは早い)
[..A国]。
[..A国]側
[..A国]伝来
A語入力
ただし、[..A..]は、それ自体が国名Aにマッチすることを意味する。例えば[A国]だとそのマッチした用語の最後が国であることを意味する。
本発明では、抽出システムの精度を求めるために、用語抽出用評価データ(正解データ)を作成した。作成したデータの例を表1と表2に示している。表1は、国名に関するデータで国名を国ごとに行に分けて格納しており、行頭を代表形としてそれ以外は代表形の異表記として同じ行に格納している。表2は、国名と首都名の対のデータで表1と同じく国ごとにデータを行に分けて先頭を代表形としてそれ以外は代表形の異表記として同じ行に格納している。
表1:一項データの例( 国名データ)
┌────────────────────────┐ │アイスランド アイスランド共和国 ISL │
│アイルランド アイルランド共和国 IRL │
│アゼルバイジャン アゼルバイジャン共和国 AZE│
│アゾレス諸島 │
│アドゥイゲ アドゥイゲ共和国 │
│アフガニスタン アフガニスタン共和国 │
│アメリカ アメリカ合衆国 米国 米 USA │
│... │
└────────────────────────┘
┌─────────┬─────┬─────┐
│ │一項データ│二項データ│
├─────────┼─────┼─────┤
│データの種類の数 │ 58│ 58│
│代表形数 │ 17696│ 19387│
│代表形+異表記数 │ 26728│ 106850│
└─────────┴─────┴─────┘
(データの作成方法は以下の方法をとった)
a)単一の辞書・参考書などから手入力する。(例:太陽系惑星、衛星、十二支、祝日、スペースシャトル)
b)Webのサイトから入手する。(例:大河ドラマの名称)
c)複数の辞書・参考書またWebのサイトから得た情報を組み合わせる。(例:世界の山、花の名称、商品名)
d)その分野の知識が豊富な人間が知識と記憶によって作成する。(例:サッカー守備位置)
(データの補充、異表記の作成には以下の方法をとった)
a)規則性を持った異表記を自動で生成する。(例:人名から姓を取り出す)
b)規則性がない異表記をWebなどから取得する。(例:世界の山,花の名称,商品名)
c)規則性がない異表記を思いつく範囲で入力する。(例:相撲決り手、星座)
d)その分野の知識が豊富な人間が知識と記憶によって作成する。(例:サッカー守備位置)
データの作成の際には、それぞれのデータごとにその収集方法、異表記作成方法、代表形の基準の定義、異表記の基準の定義、その他のコメント、代表形の網羅度の情報を作成している。例えば、「国名データ」の代表形の基準の定義は「正式名称ではなく最も一般的に使用されるもの(例:フランス共和国→代表形「フランス」)」と記載されている。
前記(2)により評価データ(正解データ)ができたので、これを使った簡単な用語抽出実験を行なってみた。この実験では網羅性が「ほぼ100%網羅している」となっているデータのうち実験できるように代表形が10個以上あったデータ(一項データで40種類、二項データで44種類)を用いた。ここで行なう実験では、少数の正例を使って学習し多くの正例を取ってくる正例のみによる学習を利用した(例えば、アメリカ、日本等の代表的な少数の国を入力し、他の国を抽出できるかどうかの実験)。
手法1は、抽出した表現expのScoreとして、パターンci の中でpi が最も大きかったパターンのpi を使用するもの。
手法5は、抽出した表現expのScoreとして、少なくとも一つは確からしくなる値を用いるものである。
(a)字種とKRを利用する方法
表4の例で抽出方法には、さらに字種とKRを利用する方法を用いた。ここで、字種とは、漢字、カタカナ、ひらがな、記号、数字などであり、例えば英語だと、アルファベット、数字、記号、単語の先頭が大文字かどうかなどである。
品詞に基づく方法では、例えば、入力表現に名詞しかない場合は出力時に名詞以外の表現を省く、また、入力表現に形容詞しかない場合は出力時に形容詞以外の表現を省くというものである。さらに、表現が複数の単語で構成されている場合は、末尾の単語(形態素)の品詞の情報を使うようにすることができる。
入力正例として次のものであった場合、
「楽しい」「哀しい」「嬉しい」「とても嬉しい」「とても哀しい」
抽出物として次のものが得られる場合、
「とても」「新しい」「美しい」「とても美しい」「とても難しい」
上記抽出物の表現中の末尾の単語の品詞を推定し、上記入力正例では、末尾の単語の品詞は「形容詞」しかないので、抽出物の中で、末尾の単語の品詞が「形容詞」でない、副詞(「とても」)を除いて出力するようにする。
入力正例として次のものであった場合、
「楽しい」「歓喜」「悲痛」「悲しい」
上記入力正例では、「形容詞」と「名詞」のように複数種類があった場合は、それらの品詞は出力し、それらの品詞以外の表現は出力しないようにする。
日本語を単語に分割するために、用語抽出部2で形態素解析システムを利用することが必要になる。ここではChaSenについて説明する(奈良先端大で開発されている形態素解析システム茶筌http://chasen.aist-nara.ac.jp/index.html.jp で公開されている)。
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
例えば、入力表現がすべて同じ「しい」という共通末尾表現を持っている場合、出力時に「しい」を持たない表現を省くものである。なお、これは末尾だけでなく、先頭の文字列でも同様にできる。
入力正例として次のものであった場合、
「悲しい」「楽しい」「嬉しい」
抽出されるものが次の場合、
「歓喜」「悲痛」「美しい」「新しい」
上記入力正例の共通部分文字列が「しい」なので、「しい」を持たない「歓喜」と「悲痛」を削除して出力するものである。
今までは、入力表現から自動で制約を得る方法でしたが、この制約はユーザにさせることもできる。例えば、ユーザが「漢字のみ」というオプションを選択すると出力では漢字以外の字種を用いた表現を出力しないことができる。また、ユーザが末尾は「しい」というオプションを選択すると出力では「しい」を末尾に持たない表現を出力しないようにすることができる。さらに、ユーザが品詞は名詞というオプションを選択すると出力では名詞以外の表現を出力しないようにする。
(1):表示システムの説明
図3は本発明の表示システムの説明図である。図3において、表示システムには、パターン抽出部1、用語抽出部2、用語表示部3、可視化装置4、データベースDが設けてある。
図4は表示処理フローチャートである。以下図4の処理S11〜S14に従って説明する。
S13:用語抽出部2で、パターン抽出部1で抽出したパターンci をデータベースDで全文検索し、パターンci によって抽出される表現(用語)expを抽出すると同時に、抽出した表現expをScoreの値の大きい順にソートして用語表示部3に渡す。
意味マップの自動構築マシンとしてはKohonen の自己組織化型神経回路網モデルである自己組織化マップ(Self-Organizing Map ,略してSOM)(Kohonen, T.: Self-organizing maps, 2nd edition,Springer, 1997.)を用いる。SOMは高次元入力を持つ2次元配列のノードで構成され、以下に述べる自己組織化によって、高次元データをその特徴を反映するように2次元空間にマッピングすることができる。
前記の用語抽出手法は、文字列の全文検索を使うので高速に計算できる特徴を持つ。この文字列の全文検索には、suffix arrayという高速検索アルゴリズムがある。そこで前記の手法を用いた簡易な応用システムを開発した。まず、ユーザは、好きな数語を入力する。この数語を少数の正例として前記の字種・KRを利用する手法5を利用して入力の数語と同じ分野の語を収集する。
図5はユーザによる「色」に関する用語抽出の説明図である。図5において、実際にユーザがこのシステムに「赤色」「青色」「黄色」「紫色」「茶色」を入力した場合の出力(上位20個の出力)を示してある。ここでは入力(入力正例)には“●”の記号を付けている。また各表現につけている数字は抽出手法で何番目に得られたかを示している。一般には意味マップにより類似したパターンを持つ表現が近くに配置され見やすくなる。この例だと左上の「赤色」の近くに「朱色」「紅色」が出現しており、類似した表現が近くに出現している場合があることがわかる。また、右の上から真ん中辺りに「音色」「異色」「同色」という色ではない表現が固まっているが、意味マップでの可視化ではこのように不適合な表現をどこかに集めてくれて(順位では集まらない)それを除けばよいということを見やすく示す効果もある。
前記の例等では、入力正例として名詞を用いる説明をしたが、形容詞などの評価表現も扱うことができる。例えば、パターン抽出部へ入力する入力正例として、「●悲しい」「●楽しい」「●哀しい」「●嬉しい」だと、用語抽出部の出力として次の用語を得ることができる。
このように、入力する用語は、名詞ばかりでなく、どのようなものも扱うことができる。
文脈1 文脈2 文脈3 ・・・・ 文脈N
用語1 2 0 1 1
用語2 2 1 1 2
・・・・
用語M 0 0 1 0
上記行列の各要素の数字は、その文脈でのその用語の出現回数を意味する。また、主成分分析による手法でも、このような形式のものを入力として可視化することが可能である。
以上のように、本発明では、用語抽出の際の評価に用いることができるデータを作成した。この評価データとして「国名」や「国名と首都名の組」など一項データと二項データを作成した。本発明のデータは用語の網羅性が高く、どのようなデータからの用語抽出においても再現率・適合率を算出するなどの性能評価ができるものである。また、本願で作成した二項データは、用語リストというよりは知識に近いもので、質問応答などの知識処理の研究にも用いることができるものである。
パターン抽出部1、用語抽出部2、用語表示部3、可視化装置4等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータで処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。
2 用語抽出部
D データベース
Claims (4)
- 入力する複数の少数の用語である入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンにマッチする文のうち、前記入力正例が位置していた場所にある表現を抽出すると同時にスコアの大きい順にソートする用語抽出部とを備え、
前記用語抽出部は、前記スコアの算出に前記パターンで抽出される表現での入力正例の割合(pi )に前記パターンが出現した前記入力正例の個数(fi )を前記入力正例の個数(ni )で割った値を掛けた値(pi ×fi /ni )を用いることを特徴とした抽出システム。 - 入力する複数の少数の用語である入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンにマッチする文のうち、前記入力正例が位置していた場所にある表現を抽出する用語抽出部とを備え、
前記用語抽出部は、前記入力正例の共通部分文字列を持った表現を抽出することを特徴とした抽出システム。 - 前記入力正例として複数の少数の二項以上の用語データを入力し、前記用語抽出部で二項以上の用語の表現を抽出することを特徴とした請求項1又は2記載の抽出システム。
- 入力する複数の少数の二項以上の用語データである入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンにマッチする文のうち、前記入力正例が位置していた場所にある二項以上の用語の表現を抽出すると同時にスコアの大きい順にソートする用語抽出部とを備え、
前記用語抽出部は、前記スコアの算出に前記抽出した複数のパターンのデータの組み合わせを用いることを特徴とした抽出システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004140840A JP4593966B2 (ja) | 2004-05-11 | 2004-05-11 | 抽出システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004140840A JP4593966B2 (ja) | 2004-05-11 | 2004-05-11 | 抽出システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005322120A JP2005322120A (ja) | 2005-11-17 |
JP4593966B2 true JP4593966B2 (ja) | 2010-12-08 |
Family
ID=35469348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004140840A Expired - Fee Related JP4593966B2 (ja) | 2004-05-11 | 2004-05-11 | 抽出システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4593966B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH086971A (ja) * | 1994-06-16 | 1996-01-12 | Xerox Corp | シソーラス作成方法 |
JPH09237277A (ja) * | 1996-02-29 | 1997-09-09 | Hitachi Ltd | 複合名詞解析方法 |
-
2004
- 2004-05-11 JP JP2004140840A patent/JP4593966B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH086971A (ja) * | 1994-06-16 | 1996-01-12 | Xerox Corp | シソーラス作成方法 |
JPH09237277A (ja) * | 1996-02-29 | 1997-09-09 | Hitachi Ltd | 複合名詞解析方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2005322120A (ja) | 2005-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3981734B2 (ja) | 質問応答システムおよび質問応答処理方法 | |
CN109582704B (zh) | 招聘信息和求职简历匹配的方法 | |
Clinchant et al. | Xrce’s participation in wikipedia retrieval, medical image modality classification and ad-hoc retrieval tasks of imageclef 2010 | |
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
Cao et al. | Machine learning based detection of clickbait posts in social media | |
JP4849596B2 (ja) | 質問応答装置、質問応答方法および質問応答プログラム | |
Mann et al. | Multi-field information extraction and cross-document fusion | |
JP3831357B2 (ja) | 対訳情報作成装置及び対訳情報検索装置 | |
JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
JP4931114B2 (ja) | データ表示装置、データ表示方法及びデータ表示プログラム | |
JP4426041B2 (ja) | カテゴリ因子による情報検索方法 | |
JP2004334766A (ja) | 単語分類装置、単語分類方法及び単語分類プログラム | |
JP2004029906A (ja) | 文書検索装置および方法 | |
Hassan et al. | Query answering approach based on document summarization | |
Thangarasu et al. | Design and development of stemmer for Tamil language: cluster analysis | |
JP2009086903A (ja) | 検索サービス装置 | |
JP4593967B2 (ja) | 表示システム | |
JP4593966B2 (ja) | 抽出システム | |
Séaghdha | Annotating and learning compound noun semantics | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
Tanev et al. | Exploiting linguistic indices and syntactic structures for multilingual question answering: ITC-irst at CLEF 2005 | |
JP2002183194A (ja) | 検索式生成装置およびその方法 | |
Ploch et al. | GerNED: A German Corpus for Named Entity Disambiguation. | |
Nwesri et al. | Applying Arabic stemming using query expansion | |
Dershowitz et al. | Relating articles textually and visually |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070405 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090501 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100412 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100622 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100916 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130924 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |