JP3518998B2 - 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体 - Google Patents

意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体

Info

Publication number
JP3518998B2
JP3518998B2 JP26615398A JP26615398A JP3518998B2 JP 3518998 B2 JP3518998 B2 JP 3518998B2 JP 26615398 A JP26615398 A JP 26615398A JP 26615398 A JP26615398 A JP 26615398A JP 3518998 B2 JP3518998 B2 JP 3518998B2
Authority
JP
Japan
Prior art keywords
dictionary
semantic
semantic attribute
words
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26615398A
Other languages
English (en)
Other versions
JP2000099515A (ja
Inventor
香織 井上
克己 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP26615398A priority Critical patent/JP3518998B2/ja
Publication of JP2000099515A publication Critical patent/JP2000099515A/ja
Application granted granted Critical
Publication of JP3518998B2 publication Critical patent/JP3518998B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、インターネット上
から収集したHTML文書などのタグ付き文書を利用し
て意味属性辞書を自動的に作成する方法及び装置並びに
そのためのプログラムを記録した記録媒体に関する。
【0002】
【従来の技術】意味属性辞書とは、単語間の意味の関係
を表している辞書であり、その関係は階層構造で表現さ
れることが多い。現存の意味属性辞書は、一般に手動で
構築されている。
【0003】一方、文字列の論理構造を自動的に抽出す
る技術としては、特開平10−21249号公報に記載
の「キーワード抽出ルール生成方法」があるが、これ
は、人手により与えた論理構造定義から、文字列を内容
とする論理構造要素とそれらの間の隣接関係を表す要素
情報を生成し、論理構造を表すキーワード抽出ルールを
生成するものである。これは、非構造化文書を構造化文
書に変換する際に、論理構造を表す文字列(キーワー
ド)を抽出するために用いることを目的としており、構
造化に限らず、意味解析全体に使える辞書を作成するこ
とについては述べられていない。
【0004】
【発明が解決しようとする課題】テキストの意味解析の
ためには、単語間の上位下位(is−a)関係や、全体
部分(has−a)関係というような意味の階層関係を
記述した辞書、即ち、意味属性辞書を利用する。しか
し、この意味属性辞書を手動で構築するのはコストが大
きい。また、意味の階層関係は、分野毎に異なる。例え
ば、「カメラ」という単語は、美術の分野では「道具」
の下位概念であるが、店の広告分野では、「商品」の下
位概念となる。このように、分野毎に異なる意味階層関
係を一つ一つ手動で記述するのも、コストがかかりすぎ
る。さらに、意味属性辞書を手動で構築するには時間が
かかるため、辞書の情報が古くなるという欠点がある。
【0005】本発明は、このような課題を解決するもの
で、単語間の意味の階層関係を記述した意味属性辞書を
自動的に作成・構築することを目的とする。
【0006】
【課題を解決するための手段】本発明による意味属性辞
書を自動作成する処理手順を図1に示す。 〈HTML文書作成〉ステップS1では、インターネッ
ト上よりHTML文書を収集する。即ち、意味属性辞書
を自動で作成するための情報源として、インターネット
上にあるHTML文書あるいはそれと同様のタグ付き文
書(以下では、HTML文書で総称する)を使用する。
HTMLは文書のレイアウトを決めるための文書記述言
語であるが、文書のレイアウトから、文字列間の関係を
推定することが出来る。例えば表を表すHTMLタグを
用いて、表の属性部分の文字列や値の部分の文字列を特
定することが出来る。
【0007】〈構造抽出〉ステップS2では、収集した
HTML文書より、各文字列の階層構造(属性とその
値)を抽出する。これは、HTMLタグのパターンとそ
れに対応する意味階層構造をルールとして記述してお
き、そのルールに基づいて、ある上位概念(属性)の文
字列に対し下位概念(値)の文字列を抽出することで行
う。
【0008】構造変換ルールの例を図2に示す。図2の
例は、HTMLタグの、リストを表すタグにおけるルー
ルの一つである。HTMLタグのレイアウト規則では、
<dl></dl>で囲まれている部分がリストを表
す。<dt></dt>で囲まれた部分はリストの見出
し部分を表し、<dd></dd>で囲まれた部分は見
出しに対する内容を表している。HTML夕グのレイア
ウト規則より、図2のようなHTMLタグパターンが現
われた場合、xが上位概念(属性)、yが下位概念
(値)を表しているというルールを定義することができ
る。
【0009】〈辞書記述〉ステップS3では、こうして
抽出された上位概念(属性)と下位概念(値)を単語レ
ベルで辞書に記述し、意味属性辞書を生成する。まず、
上位概念(属性)、下位概念(値)という意味階層構造
を付与された文字列を、単語に分割する。その上で、被
係り受け単語のような、辞書に記述すべき中心となる単
語を選択し、単語レベルで意味階層構造を辞書に記述す
る。これは、文法解析ルールを参照して行う。単語分割
(形態素解析)および、係り受け関係の解析には、既存
技術を使えばよい。
【0010】なお、意味属性辞書を特定の分野に対応さ
せるためには、インターネット上の特定の分野の文書集
合から文字列を抽出すればよい。また、インターネット
上の文書は日々更新されている生のデータなので、それ
に合わせて辞書を更新させていくことで、辞書の陳腐化
が防止出来る。
【0011】
【発明の実施の形態】図3は、本発明の意味属性辞書作
成方法を実現する装置構成のブロック図を示し、100
はインターネット、110は意味属性辞書自動作成装置
本体、120は構造変換ルールデータベース、130は
文法解析ルールデータベース、140は作成される意味
属性辞書データベースである。ここで、意味属性辞書自
動作成装置本体110はHTML文書収集部111、構
造抽出部112及び辞書記述部113からなり、それぞ
れ図1のステップS1〜S3を実行する。この図3の構
成は、実際には、いわゆるコンピュータのハードウエ
ア、ソフトウエア資源を利用して実現されることは云う
までもない。
【0012】HTML文書収集部111は、いわゆるロ
ボットと呼ばれ、インターネット100上のHTML文
書を収集する。該HTML文書収集部111は、収集し
たHTML文書を蓄積して構造抽出部112に渡す。
【0013】構造抽出部112は、構造変換ルールデー
タベース120を参照して、HTML文書収集部111
から渡されたHTML文書より、各文字列の階層構造を
抽出する。構造変換ルールデータベース120には、図
2に示したように、HTMLタグのパターンとそれに対
応する意味階層構造がルールとして記述されている。構
造抽出部112は、抽出された階層構造の文字列を上位
概念(属性)と下位概念(値)に分け、解析結果を辞書
記述部113に渡す。
【0014】辞書記述部113は、文法解析ルールデー
タベース130を参照して、構造抽出部112から渡さ
れた文字列を単語に分割して、意味属性辞書データベー
ス140に記述すべき単語を選び、上位概念(属性)と
下位概念(値)を単語レベルで意味属性辞書データベー
ス140に記述する。文法解析ルールデータベース13
0には単語間の係り受けルールなどが記述されている。
この文法解析ルールデータベース130を参照すること
で、例えば、「形容詞−名詞」という文法から、「きれ
いな服」といった文字列を「きれいな」という形容詞と
「服」という名詞に分割し、「服」の方を辞書に記述す
るべき中心語として取り出すことができる。
【0015】以下に、具体例にもとづいて構造抽出部1
12及び辞書記述部113の動作を詳述する。
【0016】〈構造抽出部112〉構造抽出部112で
は、構造変換ルールデータベース120を参照して、H
TML文書収集部111で収集されたHTML文書よ
り、各文字列の階層構造(属性とその値)を抽出する。
【0017】例えば、HTML文書中に、”<dl><
dt>今日の天気</dt><dd>晴れ</dd><
/dl>”という表現Aがあるとする。これはリスト表
現である。また、構造変換ルールデータベース120
に、図2に示したように、”<dl><dt>X</d
t><dd>Y</dd></dl>という表現があっ
た場合、X=属性、Y=値である”というルールがある
とする。このとき、HTML文書中の表現Aは、属性=
「今日の天気」、値=「晴れ」というように解析され
る。
【0018】もう一つ例をあげる。”<table><
tr><td></td><td>カレーライス</t
d></tr><tr><td>材料</td><td
>にんじん、じゃがいも、たまねぎ・・・</td><
/tr><tr><td>作り方</td><td>野
菜をやわらかくなるまでゆでる</td></tr><
/table>”という表現Bがあるとする。これは表
の表現である。また、構造変換ルールデータベース12
0に、”<table><tr><td></td><
td>X</td></tr><tr><td>Y</
td><td>Z</td></tr><tr><td
>α</td><td>β</td></tr></t
able>の場合、属性1=X、値1=Y、α、属性2
=Y、値2=Z、属性3=α、値=βである。”という
ルールがあるとする。このとき、HTML文書中の表現
Bは、属性1=「カレーライス」、値1=「材料」「作
り方」、属性2=「材料」、値2=「じゃがいも」「に
んじん」・・・、属性3=「作り方」、値「野菜をやわ
らかくゆでる」というように解析できる。
【0019】〈辞書記述部113〉辞書記述部113で
は、文法解析ルールデータベース130を参照して、構
造抽出部112の解析結果の文字列を単語に分割し、分
割された単語中から、意味属性辞書データベース140
に記述する単語を選ぶ。そして、上位概念(属性)の単
語と下位概念(値)の単語として、意味属性辞書データ
ベース140辞書に記述する。
【0020】さきの具体例、表現Aを用いて説明する。
構造抽出部112で解析された、属性=「今日の天
気」、値=「晴れ」を、文法解析辞書130を参照し
て、単語に分割し、係り受け関係を解析する。文法解析
ルールには、”名詞1+「の」+名詞2が現われる場
合、名詞1+「の」が係り受け語で、名詞2が被係り受
け単語であり、辞書に記述すべき単語は名詞2の方であ
る”と記述されているとする。このルールより、「今日
の天気」は、「天気」が意味属性辞書データベース14
0に登録すべき単語として選択される。値の「晴れ」は
これ以上分割できないので、解析されない。結局、辞書
記述部113は、上位概念(属性)「天気」と下位概念
(値)「晴れ」を対にして意味属性辞書データベース1
40に記述する。
【0021】同様に、表現Bの属性3「作り方」、値3
「野菜をやわらかくゆでる」の対について説明する。
「作り方」はこれ以上解析しない。「野菜をやわらかく
ゆでる」については、文法解析ルールに”名詞+格助詞
+形容詞の連体形+動詞の終止形が現われる場合、動詞
の終止形を辞書に登録する”とあったとすると、上位概
念(属性)「作り方」に対し、「ゆでる」が下位概念
(値)として、意味属性辞書データベース140に記述
される。
【0022】構造抽出部112及び辞書記述部113で
は、収集されたすべてのHTML文書に対して、以上の
ような処理を繰り返し実行することになる。また、HT
ML文書収集部111では、例えば定期的にHTML文
書を収集する。
【0023】以上、実施例では使用するタグ付き文書を
HTML文書としたが、HTML文書と同様の文書記述
言語のものであれば、HTML文書以外のタグ付き文書
を使用することが可能である。
【0024】また、図1に示したような処理手順をコン
ピュータに実行させるためのプログラム(意味属性辞書
作成プログラム)を、該コンピュータが読み取り可能な
記録媒体、例えばフロッピーディスクやメモリカード、
コンパクトディスク(CD−ROM)などに記録して提
供することも可能である。この記録媒体に記録された意
味属性辞書作成プログラムをコンピュータにインストー
ルすることで、図2のHTML文書収集部111、構造
抽出部112及び辞書記述部113の機能が達成され
る。また、当該記録媒体には、構造変換ルールや文法解
析ルールを一緒に記録することでもよい。
【0025】
【発明の効果】以上説明したように、本発明によれば、
インターネット上のHTML文書などのタグ付き文書を
利用して、意味属性辞書を自動で作成・構築することが
可能であり、該辞書の作成コストを削減できる。また、
定期的にHTML文書等を収集して、作成処理を繰り返
し、辞書を自動的に更新することで、意味属性辞書の情
報が古くなるのを防止できる。
【図面の簡単な説明】
【図1】本発明による意味属性辞書作成方法の処理の手
順を示す図である。
【図2】構造変換ルールの一例を示す図である。
【図3】本発明による意味属性辞書作成装置の一実施例
のブロック図である。
【符号の説明】
100 インターネット 111 HTML文書収集部 112 構造抽出部 113 辞書記述部 120 構造変換ルールデータベース 130 文法解析ルールデータベース 140 意味属性辞書データベース140
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平10−207910(JP,A) 冨田一郎 外3名,HTML文書から の商品情報抽出方式の提案,信学技報 (KBSE97−27),1998年 1月22 日,Vol.97,No.502,p.15− 22 井上香織,高橋克巳,検索のための広 告文書構造化,情報処理学会第57回(平 成10年後期)全国大会講演論文集 (3),1998年10月 5日,p.207− 208 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 インターネット上からタグ付き文書を収
    集して、単語間の意味の階層関係を記述した辞書(意味
    属性辞書)を自動的に作成する方法であって、 タグ付き文書のタグのパターンとそのパターンに対応し
    た文字列の意味階層構造を記述した構造変換ルールを参
    照して、収集したタグ付き文書から各文字列の階層構造
    を抽出し、 単語間の係り受けルールを記述した文法解析ルールを参
    照して、前記階層構造の抽出された各文字列を単語に分
    割し、単語ごとの意味階層関係(意味属性)を辞書に記
    述することを特徴とする意味属性辞書作成方法。
  2. 【請求項2】 定期的にタグ付き文書を収集して処理を
    繰り返すことで、辞書を定期的に更新することを特徴と
    する請求項1記載の意味属性辞書作成方法。
  3. 【請求項3】 インターネット上からタグ付き文書を収
    集する手段と、タグ付き文書のタグのパターンとそのパ
    ターンに対応した文字列の意味階層構造を記述した構造
    変換ルールデータベースと、前記構造変換ルールデータ
    ベースを参照して、前記収集したタグ付き文書から各文
    字列の階層構造を抽出する手段と、単語間の係り受けル
    ールを記述した文法解析ルールデータベースと、前記文
    法解析ルールデータベースを参照して、前記階層構造の
    抽出された各文字列を単語に分割し、単語ごとの意味階
    層関係を辞書(意味属性辞書)に記述する手段とを具備
    することを特徴とする意味属性辞書作成装置。
  4. 【請求項4】 単語間の意味の階層関係を記述した辞書
    (意味属性辞書)を自動的に作成するための意味属性辞
    書作成プログラムを記述したコンピュータ読み取り可能
    な記録媒体であって、 インターネット上からタグ付き文書を収集する処理プロ
    セスと、タグ付き文書のタグのパターンとそのパターン
    に対応した文字列の意味階層構造を記述した構造変換ル
    ールを参照して、前記収集したタグ付き文書から各文字
    列の階層構造を抽出する処理プロセスと、単語間の係り
    受けルールを記述した文法解析ルールを参照して、前記
    階層構造の抽出された各文字列を単語に分割し、単語ご
    との意味階層関係を辞書(意味属性辞書)に記述する処
    理プロセスとを有することを特徴とする意味属性辞書作
    成プログラムを記録した記録媒体。
JP26615398A 1998-09-21 1998-09-21 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体 Expired - Fee Related JP3518998B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26615398A JP3518998B2 (ja) 1998-09-21 1998-09-21 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26615398A JP3518998B2 (ja) 1998-09-21 1998-09-21 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000099515A JP2000099515A (ja) 2000-04-07
JP3518998B2 true JP3518998B2 (ja) 2004-04-12

Family

ID=17427036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26615398A Expired - Fee Related JP3518998B2 (ja) 1998-09-21 1998-09-21 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3518998B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025490A1 (fr) * 2000-09-20 2002-03-28 Cai Co.. Ltd. Procede et systeme de recherche automatique d'une page d'accueil sur internet
JP4480353B2 (ja) * 2003-06-20 2010-06-16 株式会社 日立システムアンドサービス リンク情報配送システムおよびリンク情報配送方法
JP4119413B2 (ja) * 2004-09-30 2008-07-16 株式会社東芝 知識情報収集システム、知識検索システム及び知識情報収集方法
JP2009026083A (ja) * 2007-07-19 2009-02-05 Fujifilm Corp コンテンツ検索装置
JPWO2022208822A1 (ja) * 2021-03-31 2022-10-06
CN114707045B (zh) * 2022-03-23 2023-09-26 江苏悉宁科技有限公司 一种基于大数据的舆情监测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3596210B2 (ja) * 1997-01-16 2004-12-02 富士ゼロックス株式会社 関連語辞書作成装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
井上香織,高橋克巳,検索のための広告文書構造化,情報処理学会第57回(平成10年後期)全国大会講演論文集(3),1998年10月 5日,p.207−208
冨田一郎 外3名,HTML文書からの商品情報抽出方式の提案,信学技報(KBSE97−27),1998年 1月22日,Vol.97,No.502,p.15−22

Also Published As

Publication number Publication date
JP2000099515A (ja) 2000-04-07

Similar Documents

Publication Publication Date Title
US9256584B2 (en) Rich text handling for a web application
CN106681708A (zh) 一种基于数据挖掘的源代码注释自动生成方法
US20070204215A1 (en) Device for analyzing log files generated by process automation tools
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2020098596A (ja) ウェブページから情報を抽出する方法、装置及び記憶媒体
JP3518998B2 (ja) 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体
JPH11110384A (ja) 構造化文書検索表示方法及び装置
Al-Ghuribi et al. A comprehensive survey on web content extraction algorithms and techniques
JP2004030202A (ja) 特徴語抽出システム
JP4937709B2 (ja) 構造化文書生成方法及び装置及びプログラム
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
Martins et al. The WebCAT framework automatic generation of meta-data for Web resources
JP2009140113A (ja) 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JPH0743728B2 (ja) 要約文生成方式
Lakshmi et al. Web structure analysis for information mining
JP3943005B2 (ja) 情報検索プログラム
US20030217051A1 (en) Information retrieving apparatus and storage medium storing information retrieving software therein
JP5337575B2 (ja) 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム
KR20110008980A (ko) 중복 정보가 제거된 웹사이트 통합 검색 장치 및 방법
JP2007213157A (ja) 用例文検索装置および用例文検索方法
Li et al. Automatic function interpretation: Using natural language processing on patents to understand design purposes
JP2001184351A (ja) 文書情報抽出装置および文書分類装置
JPH0863483A (ja) 情報解析・編集システム

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040127

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090206

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090206

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100206

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110206

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees