JP2003085181A - 事典システム - Google Patents

事典システム

Info

Publication number
JP2003085181A
JP2003085181A JP2001271678A JP2001271678A JP2003085181A JP 2003085181 A JP2003085181 A JP 2003085181A JP 2001271678 A JP2001271678 A JP 2001271678A JP 2001271678 A JP2001271678 A JP 2001271678A JP 2003085181 A JP2003085181 A JP 2003085181A
Authority
JP
Japan
Prior art keywords
encyclopedia
term
information
user
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001271678A
Other languages
English (en)
Inventor
Tetsuya Ishikawa
徹也 石川
Atsushi Fujii
敦 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Corp filed Critical Japan Science and Technology Corp
Priority to JP2001271678A priority Critical patent/JP2003085181A/ja
Publication of JP2003085181A publication Critical patent/JP2003085181A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ウェブページから用語の知識情報を抽出して
事典情報を生成したり、利用者がわからない用語を簡単
に検索できる機能を提供する。 【解決手段】 本発明の事典システムは、大きく分け
て、インターネット上のウェブページから、ウェブサイ
ト検索エンジンを利用して、事典情報データベースを生
成する事典情報生成部と、利用者が入力した調べたい用
語・情報を事典情報データベースより検索して出力する
質問応答部とから構成されている。事典情報生成部は、
利用者が入力した用語に対してWWW上のページから関
連するページを検索する検索部、検索されたページから
用語説明を抽出する抽出部、その抽出した情報の用語説
明部分を整理し、事典情報を生成する組織化部で構成さ
れている。この構成により、利用しやすい形式の事典情
報を生成し、利用者がわからない用語を簡単に検索でき
る機能を提供することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、用語・情報検索に
関するものであり、特に、インターネット上の情報を用
いるものに関する。
【0002】
【背景技術】ある言葉について調べるときに、通常我々
は市販の事典/辞書を用いて検索する。しかし、専門用
語や日々増え続ける新語は登録されていないことが多
く、調べることができない。しかし、ある程度熟練した
利用者ならば、書物やマスメディアなどの既存の媒体に
頼らなくても、検索することができる。今やウェブから
取得した情報を駆使して日常の様々な問題解決に活用で
きるほどであり、WorldWide Web(以下、WWW)に存
在するページの数は依然として増加の一途をたどってお
り、未曾有の情報源となりつつある。しかしながら、W
WWの検索エンジンを使って知りたい言葉を検索する
と、その未曾有の情報源なゆえに、不要なページが多数
検索され、欲しい情報を特定することが困難である。ま
た、漠然とした概念だけがあって、検索したい用語がわ
からない場合にはそもそも事典やWWWを引くことがで
きない。
【0003】このような現状は情報処理の研究にも強く
影響し、事実、ウェブを対象にした情報検索や知識発見
などの研究が数多くなされている。本発明の発明者ら
も、例えば論文「用語説明抽出に基づくWeb文書の事
典的利用(藤井敦,石川徹也,言語処理学会第6回年次
大会発表論文集,pp.296-299,2000)」や「World Wide
Webを利用した百科事典的知識の収集法(藤井敦,石川
徹也,人工知能学会第48回知識ベースシステム研究会
資料SIG-KBS-A001,pp.31-36,2000)」にて、ウェブに
基づいて事典情報(用語説明)を抽出する手法を提案
し、その結果、既存の事典が網羅していない情報も取得
できるようになった。
【0004】
【発明が解決しようとする課題】本発明の目的は、WW
W上のページから用語の知識情報を抽出し、意味や専門
分野に基づいて整理し、利用しやすい形式の事典情報を
生成したり、利用者がわからない用語を簡単に検索でき
る機能を提供することである。
【0005】
【課題を解決するための手段】インターネット上の情報
を用いる事典システムであって、事典情報格納部を有し
ており、利用者が入力する用語から、関連するウェブペ
ージを得る検索部と、前記検索部が得たページより用語
説明部分を抽出する抽出部と、前記抽出した用語説明部
分を整理し、事典情報を生成して、前記事典情報格納部
に格納する組織化部とを備える。
【0006】また、前記組織化部は、用語説明部分の妥
当性と専門分野との関連性により、抽出された用語説明
部分を整理することもできる。この組織化部は、用語説
明部分の妥当性を、言語の妥当性により求めたり、言語
の妥当性と用語説明部分を抽出したウェブページの信頼
性とにより求めたりすることもできる。さらに、利用者
が調べたい用語を入力して、前記事典情報格納部より検
索して出力する質問応答部を備えることもできる。これ
により、生成した事典情報より検索し、後に関連の高い
分野の用語説明を選択的に出力することもできる。
【0007】前記質問応答部は、さらに、利用者が入力
する単数もしくは複数の用語で、前記事典情報格納部内
のデータを全文検索して、見出し語を提示することもで
きる。また、前記の全文検索は、前記利用者が入力する
単数もしくは複数の用語に対して形態素解析をし、該用
語を形態素単位に分解した語を用いて行うこともでき
る。なお、本事典システムをコンピュータ・システムに
構成させるコンピュータ・プログラムおよびコンピュー
タ・プログラムを記録した記録媒体も本発明である。
【0008】
【発明の実施の形態】<概要>本発明のシステムは、市
販の事典等に収録されていない新語や専門用語の情報を
格納した事典情報データベースを生成し、このデータベ
ースを用いて、利用者が新語や専門用語の情報を容易に
検索できるシステムである。また、利用者により入力さ
れた用語から、事典情報データベース上のデータを全文
検索し、用語検索用のためなどにあらかじめ設定された
検索キーを提示する「逆引き」をすることもでき、最適
な検索キーを用いて、利用者は新語や専門用語の情報を
容易に検索することもできる。以下、図面を参照して、
本発明のシステムについて詳細に説明する。
【0009】<構成>図1は本発明の実施形態の事典情
報生成・検索システムの構成を示す図である。本システ
ムは、大きく分けて、インターネット100内のウェブ
サイト72,74にあるWWWページから、ウェブサイ
ト検索エンジン60を利用して、事典情報データベース
50を生成する事典情報生成部10と、利用者が入力し
た調べたい用語・情報を事典情報データベース50より
検索して出力する質問応答部20とから構成されてい
る。事典情報生成部10は、利用者が入力した用語に対
してWWW上のページから関連するページを検索する検
索部12、検索されたページから用語説明を抽出する抽
出部14、その抽出した用語説明部分を整理し、事典情
報を生成する組織化部16で構成されている。また、上
述の事典情報生成部10や質問応答部20の処理を計算
機上で実行することもでき、その処理を行うためにプロ
グラムを格納した記録媒体から読み出したり、通信回線
を介して受信したりしたプログラムを実行する等によ
り、本発明の構成を実現することもできる。この記録媒
体には、フロッピー(登録商標)・ディスク、CD、D
VD、磁気テープ、ROMカセット等がある。また、通
信回線としては、インターネット等がある。
【0010】<事典情報の生成>上述のシステムにおけ
る事典情報生成の原理は、本発明の発明者らが上記の論
文で提案した「検索」「抽出」「組織化」の処理による
事典情報生成手法に基づいている。図2は本システムの
事典情報データベースを生成する処理のフローチャート
である。この図2を用いて、事典情報生成の処理につい
て以下で説明する。 [関連ページの検索]まず、検索部12は利用者から事
典情報データベース50に格納したい用語の入力を受け
付ける。検索部12は、受け付けた用語を検索キーとし
て、インターネット100を通じてウェブサイト検索エ
ンジン60にアクセスし、検索キーを含むページを検索
させる(S210)。そして検索エンジン60が出力し
た検索結果をもとに、ウェブサイト72,74にアクセ
スして、それぞれのウェブページを収集し、まとめて抽
出部14に出力する(S212)。なお、検索されるペ
ージの量は膨大な量になることも考えられるため、検索
部12は検索結果を基に、1つのウェブページにアクセ
スしてダウンロードし、それを抽出部14に渡し、後で
説明する抽出部14での抽出作業を終えてから、再び他
のウェブページをダウンロードするというように、ウェ
ブページひとつずつの処理を行うこともできる。既存の
用語集を基にして、ウェブ・ロボットを用いてオフライ
ンで定期的に関連ページ検索を取得し、あらかじめ事典
情報を生成しておき、利用者の検索要求に応じた事典情
報を出力することもできる。さらに、生成された事典情
報に利用者の要求に応じた事典情報が存在しない場合に
は、オンラインでも検索、抽出、組織化を実行し、事典
情報を動的に生成することも可能である。また、当該情
報を新たに保存し、次回以降の要求に利用することも可
能である。
【0011】[説明の抽出]抽出部14は検索部12が
収集したページから、ある特定の規則に基づいて用語説
明を抽出する(S214)。抽出の手法についての詳細
は、上記の論文にて述べているが、例えば、文章表現に
基づく手法やHTMLレイアウトに基づく手法を用いて
行っている。文章表現に基づく手法は、用語の説明文に
は例えば「とは」、「である。」を含む独特の構文(テ
ンプレート)が多いことを利用して、このようなテンプ
レートをたくさん用意しておき、「(用語)とは(定
義)である」というような説明文を抽出する手法であ
る。HTMLに基づく手法は、ウェブページにおいて、
「<H*>…</H>」(見出し)タグを使って用語を見出し化
し、後続する段落の文を用語の説明としていることが多
いので、このような部分を抽出したり、「<B>…</B>」
(太字)等の文字列を強調しているときも、このタグで
囲まれた文字列の説明の文が続くことが多いので、この
部分を抽出する。また、「<A HREF=*>…</A>」タグを用
いて、用語の説明をリンク先で行っている場合は、リン
ク先等も含めた部分を抽出する。抽出する部分を決める
場合、HTMLのタグ(例えば、<P>…</P>(段落)
等)による文書構造を利用した段落等の配慮や、抽出す
る文の数を決めて行う。さらに改行記号や冗長な空白、
抽出処理で利用しないHTMLタグを削除して、形式を
統一している。上述の抽出部14の処理によって、単に
検索キーが含まれるだけで、説明等が書かれていないペ
ージを排除し、用語説明を抽出することが可能となる。
【0012】[説明の組織化]抽出された用語説明は、
専門分野に対応付けることで間接的に語義を区別する。
そこで、抽出処理によって得られた情報のうち、形態素
解析処理等を行い(S216)、各分野(語義)に対し
て最適な用語説明を1つ(あるいは高々数件)選択し、
最終的な事典情報を生成する。ここで、対象となってい
る用語がどの分野に関連するのかがあらかじめ分かって
いると仮定する。我々の目的は、それぞれの関連分野c
に対して最適な用語説明dを選択することである。確率
論的な観点からは、各cに対しP(d|c)を最大化す
るdを選択することに相当する。ベイズの定理によって
式(1)が成り立つ。
【数1】 式(1)の右辺において、分母P(c)は対象となって
いる分野cに関する定数なので、分子のみが組織化の中
核である。P(c|d)は用語説明dが分野cに関連す
る度合を定量化し、P(d)はdが言語(用語説明)と
して妥当である度合を定量化する。両者をそれぞれ「分
野モデル」「事典モデル」と呼ぶ。言い替えれば、本シ
ステムの組織化手法では、ある特定の分野との関連度が
高く、かつそれ自身が用語説明らしい情報が最終結果と
して出力される。実際の処理では、まず全ての専門分野
に対してP(d|c)を計算し(S218)、P(d|
c)の値が、ある閥値以上の用語説明だけを選択する
(S220)。その結果、対象用語が関連する分野と適
切な用語説明を同時に特定することができる。つまり、
対象用語が関連する分野をあらかじめ知る必要はないの
である。
【0013】この組織化処理において、P(d|c)の
値があらかじめ定めた閾値以上の用語説明を選択し、各
分野ごとにP(d|c)の値が大きい順に上位3件を最
終的な用語説明として事典情報データベース50に格納
する(S222)。なお、本実施形態の例に用いる手法
では、高々上位3件まで取れば正しい用語説明が含まれ
ることが経験的に分かっているため、3件としたが、件
数に限りはなく自由に設定可能である。また、上述の閾
値についても同様に0.05と定めているが、閾値も自
由に設定できる。
【0014】次に、上述の式(1)を用いた、それぞれ
の関連分野cに対して最適な用語説明dを選択し、ある
特定の分野との関連度が高く、用語説明らしい情報を最
終結果として出力するための「分野モデル」及び「事典
モデル」について、以下に詳しく説明する。 (1)分野モデル まず、抽出部14で抽出した説明文は組織化部16で形
態素解析をする。これによって説明文は単語等の形態素
に分解されることになる。これについては後述する。そ
して既存の文書分類法(例えば、「“A probabilistic
model for textcategorization: Based on a single ra
ndom variable with multiple values.”,Makoto Iway
ama and Takenobu Tokunaga,In Proceedings of the 4
th Conference on Applied Natural Language Processi
ng,pp.162-167,1994」等)を利用し、P(c|d)
を、以下の式(2)によって堆定する。
【数2】 ここで、P(t|d),P(t|c),P(t)はそれ
ぞれ、用語説明d,分野c,分野全体における単語tの
出現確率である。P(c)は全分野に共通の定数として
扱う。実際には、P(t|d)は用語説明における単語
の相対出現頻度として計算する。計算の対象である単語
tは、形態素解析を行った結果中の、予め定義した名詞
的単語である。P(t|c),P(t)を計算するため
には、まず分野を定義し、それらに関する語の頻度分布
を推定する必要があり、この目的のために、分野情報を
付与した文書集合や、分野ごとに用語を整理した専門分
野辞書を利用する。特に専門分野辞書は、電子媒体とし
て様々なものが出版されており(例えば、(株)ノヴァ
の専門用語辞書(http://www.nova.co.jp)、これらを
利用することで分野に関する語の統計頻度を容易に抽出
可能である。すなわち、これらの言語情報から形態素解
析システム(例えば「茶筌」(http://chasen.aist-nar
a.ac.jp/index.html.ja))を用いて単語tを抽出し、
P(t|c),P(t)を計算する。また、日本語の用
語説明は英単語を含むことがあるので、英単語の統計頻
度も利用することで精度を向上させることができる。
【0015】(2)事典モデル 事典モデルP(d)は、抽出結果dが用語説明として妥
当である度合を定量化する。そこで、用語説明としての
妥当性について詳しく検討する必要がある。まず、言語
的な妥当性、すなわち文章がきちんと書けているか、と
いう観点がある。対象の用語について説明していない抽
出結果は排除する必要がある。また、ウェブページは言
語的な情報だけから構成される訳ではなく、装飾用の特
殊記号、電子メールアドレスなどの非言語情報を含む場
合がある。そこで、これらを含む抽出結果も排除する必
要がある。また、品質に関する妥当性がある。一般の出
版物に比べると、ウェブページは誤りや虚偽を含むこと
が多い。そこで、言語的に妥当であっても、品質や信頼
性が低い用語説明は排除しなければならない。
【0016】以上より、事典モデルを言語モデルP
(d)と品質モデルP(d)に分解し、式(3)の
ように定式化する。
【数3】 P(d) = P(d)・P(d) (3) P(d)はウェブページの品質を評価する尺度であ
り、この計算のためには、例えば検索エンジンGoogleで
用いられている「PageRank」方式を用いて、ページの品
質を定量化する。PageRankとは、ウェブの膨大なリンク
構造を用いて、それらを分析して求める。簡単に説明す
ると、あるページAからあるページBへのリンクをペー
ジAによるページBへの支持投票とみなし、その投票数
によりそのページの信頼性を判断する。しかし、単純な
投票数ではなく、票を投じたページAについても投票数
を分析する。投票数の多いページ(信頼性が高いペー
ジ)によって投じられた票はより高く評価され、この評
価の集計によって決められる順位をPageRankという。な
お、PageRankの詳細については、以下の2つの論文「La
wrence Page,Sergey Brin,Rajeev Motwani,Terry Wi
nograd,『The PageRank Citation Ranking: Bringing
Order to the Web』,1998」(http://www-db.stanfor
d.edu/~backrub/pageranksub.ps)および「Taher H. Ha
veliwala,『Efficient Computation of PageRank』,S
tanford Technical Report,1999」(http://dbpubs.st
anford.edu:8090/pub/1999-31)を参考されたい。
【0017】統計的言語モデルに関する研究は、機械翻
訳や音声認識などの言語処理において一定の成果を収め
ており、それらを応用すればP(d)を計算すること
ができる。そこで、実施形態のシステムでは、多くの統
計的言語処理と同じように、単語のNグラムを用いて言
語モデルを作成した。具体的には「茶筌」を用いて、約
8万語収録している「CD−ROM世界大百科事典プロ
フェッショナル版」(日立デジタル平凡社,1998)を単
語に分割し、CMU-Cambridge toolkit(http://svr-www.
eng.cam.ac.uk/~prc14/toolkit.html)を用いて単語ト
ライグラムを学習した。ここで、対象用語の表層的な違
いに左右されないように、世界大百科事典の見出し語は
あらかじめ共通の変数に置換した。通常のNグラムモデ
ルでは、短い単語列ほど高い確率値が与えられる傾向が
ある。この傾向は、機械翻訳や音声認識のように、比較
対象となる単語列がほぼ同じ長さである場合には問題に
ならない。しかし、本システムでは、用語説明の長さは
様々であり、質に拘わらずに短い用語説明が常に選択さ
れやすくなる。そのため、用語説明中の単語数によって
P(d)を正規化することで、この問題を回避した。
【0018】<検索>本システムでは、概要でも述べた
ように、生成されたデータベース50を用いて、利用者
が入力した新語や専門用語等を「検索キー」として、そ
れらの情報を検索できる。また、この検索キーから、事
典情報データベース上のデータを「逆引き」をすること
もできる。次に、これらのデータベース中の情報検索の
手法について説明をする。 [用語の検索]利用者が調べたい用語を質問応答部20
に入力すると、質問応答部20は入力された用語を検索
キーとし、事典情報生成部10によって生成された事典
情報データベース50の見出し語にアクセスして検索を
する。そして該当する情報が存在すれば、それを回答と
して出力する。なお、本実施形態の例では、事典情報デ
ータ生成時に最大3件の事典情報が事典情報データベー
ス50に格納されている。このように回答が複数あるも
のに関してはすべて出力するようにしてもよいし、P
(c|d)により順位をつけ、順番で回答を出力するよ
うにしてもよい。また、特定の分野だけを出力するよう
にしてもよい。
【0019】[逆引きによる検索]利用者に漠然とした
検索要求があるが、具体的な検索キーワードが思いつか
ない場合には、本システムの機能である逆引きを用いる
ことができる。利用者は検索要求に関連しそうな複数の
連想語を質問応答部20に入力すると、質問応答部は入
力された連想語から、事典情報データベース50上のデ
ータを全文検索し、その連想語を説明部分で用いている
見出し語を提示するような、いわゆる「逆引き」を行う
ことができる。入力する連想語は複数でもよい。逆引き
を行ったら質問応答部20は、見つけた見出し語を提示
する。このときに、利用者が入力する連想語を形態素に
分解して、あらかじめ事典データベース50生成時に形
態素に分解処理をしてある説明データと照合すること
で、説明文中に連想語(もしくは連想語の形態素)が存
在する検索キーを見つけるようにしている。出力された
見出し語を利用して、利用者は最適な検索キーを選択
し、それを用いて通常の検索を行えば、新語や専門用語
の情報を容易に検索することもできる。
【0020】
【実施例】図3及び図4は上述のシステムを用いて、実
際に作成されたデータを基に検索を行った実施例を示す
図である。この2つの実施例を以下に示す。なお、本実
施例において、ウェブサイトを検索するための検索エン
ジンのサイトは「Google」(http://www.google.com/)
を利用した。なお、「Google」の検索エンジンは、前に
説明したように、ページの品質をハイパーリンク情報に
基づいて判定し、高い信頼性のあるページを選択して採
用しているので、ここでは、信頼性P(d)を定数と
した。 <通常の用語検索>図3の例は、通常の検索を行ったも
のである。入力する用語は「パイプライン」とした。
「パイプライン」という用語はよく知られているよう
に、コンピュータ分野では「処理方式」、建築分野では
「輸送管」の意味で使われる。利用者からの入力を質問
応答部20が受け付け、事典情報データベース50より
「パイプライン」についての検索を行う。結果として図
3の出力結果のように、コンピュータ分野と、土木・建
築分野の2つの分野からの説明を、質問応答部20は回
答した。
【0021】<逆引き検索を利用した用語検索>利用者
がコンピュータの並列化に関する用語を知りたいとす
る。そこで利用者は、まず、図4(a)のように逆引き
を利用して、適切な検索キーを探すことから始めること
を想定する。質問応答部20に連想語として「コンピュ
ータ」と「並列化」の2つの語を入力し、事典情報デー
タベース50の逆引きを行う。すると質問応答部20
は、図4(a)の出力結果のように、「ノードコンピュ
ータ」,「アレイプロセッサ」,「クラスタ型並列計算
機」,「演算パイプライン」という、4つの辞書情報の
検索キーを返した。そして図4(b)のように、利用者
はこれらの検索キーより、適切な検索キーを選択し、今
度は通常の検索を行えばよい。利用者は出力された検索
キーである、「クラスタ型並列計算機」を選択し、これ
を質問応答部20に入力し、用語の検索を行った。結果
は図4(b)のように、コンピュータ分野からの説明を
質問応答部20は回答した。
【0022】なお、図4(a)の段階で入力した「コン
ピュータ」と「並列化」という語は、「クラスタ型並列
計算機」の説明文(図4(b)の出力結果)には含まれ
ていない。なぜ、図4(a)の逆引き処理の際、関連す
る検索キーとして「クラスタ型並列計算機」が出力され
たかというと、上述したように、入力した連想語と説明
文を形態素解析を行って分解し、それによって照合した
からである。実際、「コンピュータ」と「並列化」は、
「コンピュータ」と「並列」,「化」と形態素解析が行
われて分解され、「化」のように語義の概念の範囲を狭
めるための語を無視し、「コンピュータ」と「並列」を
含む文として「クラスタ型並列計算機」の説明文が合致
したため出力されたのである。このように、利用者の入
力する連想語と説明文とを形態素解析及び分解してから
の両者の照合は、利用者の知りたい用語の検索を満足さ
せられる程度に語義を広げることができる。
【0023】
【発明の効果】本発明により、WWW上のページから用
語の知識情報を抽出し、意味や専門分野に基づいて整理
し、利用しやすい形式の事典情報を生成したり、利用者
がわからない用語を簡単に検索できる機能を提供するこ
とができる。
【図面の簡単な説明】
【図1】 本発明の実施形態のシステムの構成を示す図
である。
【図2】 本システムの事典情報データベースを生成す
る処理を示すフローチャートである。
【図3】 本発明の実施例を示す図である。
【図4】 本発明の実施例を示す図である。
【符号の説明】
10 事典情報生成部 12 検索部 14 抽出部 16 組織化部 20 質問応答部 50 事典情報データベース 60 ウェブサイト検索エンジン 72,74 ウェブサイト 100 インターネット

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 インターネット上の情報を用いる事典シ
    ステムであって、事典情報格納部を有しており、 利用者が入力する用語から、関連するウェブページを得
    る検索部と、 前記検索部が得たページより用語説明部分を抽出する抽
    出部と、 前記抽出した用語説明部分を整理し、事典情報を生成し
    て、前記事典情報格納部に格納する組織化部とを備える
    ことを特徴とする事典システム。
  2. 【請求項2】 請求項1に記載の事典システムにおい
    て、 前記組織化部は、用語説明部分の妥当性と専門分野との
    関連性により、抽出された用語説明部分を整理すること
    を特徴とする事典システム。
  3. 【請求項3】 請求項2に記載の事典システムにおい
    て、 前記組織化部は、用語説明部分の妥当性を、言語の妥当
    性により求めることを特徴とする事典システム。
  4. 【請求項4】 請求項2に記載の事典システムにおい
    て、 前記組織化部は、用語説明部分の妥当性を、言語の妥当
    性と用語説明部分を抽出したウェブページの信頼性とに
    より求めることを特徴とする事典システム。
  5. 【請求項5】 請求項1〜4のいずれかに記載の事典シ
    ステムにおいて、 さらに、利用者が調べたい用語を入力して、前記事典情
    報格納部より検索して出力する質問応答部を備えること
    を特徴とする事典システム。
  6. 【請求項6】 請求項5に記載の事典システムにおい
    て、 前記質問応答部は、さらに、利用者が入力する単数もし
    くは複数の用語で、前記事典情報格納部内のデータを全
    文検索して、見出し語を提示することを特徴とする事典
    システム。
  7. 【請求項7】 請求項6に記載の事典システムにおい
    て、 前記の全文検索は、前記利用者が入力する単数もしくは
    複数の用語に対して形態素解析をし、該用語を形態素単
    位に分解した語を用いて行うことを特徴とする事典シス
    テム。
  8. 【請求項8】 請求項1〜7のいずれかに記載の事典を
    コンピュータ・システムに構成させるためのプログラム
    を格納した記録媒体。
  9. 【請求項9】 請求項1〜7のいずれかに記載の事典情
    報生成・検索システムをコンピュータ・システムに構成
    させるためのプログラム。
JP2001271678A 2001-09-07 2001-09-07 事典システム Pending JP2003085181A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001271678A JP2003085181A (ja) 2001-09-07 2001-09-07 事典システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001271678A JP2003085181A (ja) 2001-09-07 2001-09-07 事典システム

Publications (1)

Publication Number Publication Date
JP2003085181A true JP2003085181A (ja) 2003-03-20

Family

ID=19097157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001271678A Pending JP2003085181A (ja) 2001-09-07 2001-09-07 事典システム

Country Status (1)

Country Link
JP (1) JP2003085181A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031351A (ja) * 2004-07-15 2006-02-02 Casio Comput Co Ltd 情報表示制御装置、サーバ及びプログラム
JP2009003717A (ja) * 2007-06-21 2009-01-08 Yahoo Japan Corp ふり仮名収集利用装置及びふり仮名収集利用方法
JP2009026108A (ja) * 2007-07-20 2009-02-05 Uchida Yoko Co Ltd 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法
JP2010134968A (ja) * 2010-03-16 2010-06-17 Casio Computer Co Ltd 情報表示制御装置及びプログラム
JP2010140373A (ja) * 2008-12-15 2010-06-24 Fujitsu Ltd 文書群検出方法及び文書群検出装置
JP2012068899A (ja) * 2010-09-24 2012-04-05 Fujitsu Social Science Laboratory Ltd 語句並べ替え装置,方法,およびプログラム
JP2013506187A (ja) * 2009-10-23 2013-02-21 浦項工科大學校 産學協力團 表現および説明抽出のための文書処理装置および方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031351A (ja) * 2004-07-15 2006-02-02 Casio Comput Co Ltd 情報表示制御装置、サーバ及びプログラム
JP4543800B2 (ja) * 2004-07-15 2010-09-15 カシオ計算機株式会社 情報表示制御装置及びプログラム
JP2009003717A (ja) * 2007-06-21 2009-01-08 Yahoo Japan Corp ふり仮名収集利用装置及びふり仮名収集利用方法
JP2009026108A (ja) * 2007-07-20 2009-02-05 Uchida Yoko Co Ltd 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法
JP2010140373A (ja) * 2008-12-15 2010-06-24 Fujitsu Ltd 文書群検出方法及び文書群検出装置
JP2013506187A (ja) * 2009-10-23 2013-02-21 浦項工科大學校 産學協力團 表現および説明抽出のための文書処理装置および方法
US8666987B2 (en) 2009-10-23 2014-03-04 Postech Academy—Industry Foundation Apparatus and method for processing documents to extract expressions and descriptions
JP2010134968A (ja) * 2010-03-16 2010-06-17 Casio Computer Co Ltd 情報表示制御装置及びプログラム
JP2012068899A (ja) * 2010-09-24 2012-04-05 Fujitsu Social Science Laboratory Ltd 語句並べ替え装置,方法,およびプログラム

Similar Documents

Publication Publication Date Title
CN113268569B (zh) 基于语义的关联词查找方法及装置、电子设备、存储介质
CN114706972A (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Kanapala et al. Passage-based text summarization for legal information retrieval
Yusuf et al. Query expansion method for quran search using semantic search and lucene ranking
Yunus et al. Semantic method for query translation.
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
WO1999014690A1 (fr) Procede d&#39;addition d&#39;un mot cle au moyen d&#39;informations de liaison
JP2003085181A (ja) 事典システム
Chen et al. Adding new concepts on the domain ontology based on semantic similarity
Walas et al. Named entity recognition in a Polish question answering system
Mezentseva et al. Optimization of analysis and minimization of information losses in text mining
KR20030006201A (ko) 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2007122525A (ja) 言い換え処理方法及び装置
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
Wang et al. Query construction based on concept importance for effective patent retrieval
JP2010282403A (ja) 文書検索方法
TWI290684B (en) Incremental thesaurus construction method
Keyvanpour et al. A Useful Framework for Identification and Analysis of Different Query Expansion Approaches based on the Candidate Expansion Terms Extraction Methods.
Abdou et al. Unsupervised automatic keywords and keyphrases extractor for web documents
US7970752B2 (en) Data processing system and method
Alashti et al. Parsisanj: an automatic component-based approach toward search engine evaluation
Sati et al. Arabic text question answering from an answer retrieval point of view: A survey

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20031031

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070612

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080304