JP3099756B2 - 文書処理装置、単語抽出装置及び単語抽出方法 - Google Patents

文書処理装置、単語抽出装置及び単語抽出方法

Info

Publication number
JP3099756B2
JP3099756B2 JP08290789A JP29078996A JP3099756B2 JP 3099756 B2 JP3099756 B2 JP 3099756B2 JP 08290789 A JP08290789 A JP 08290789A JP 29078996 A JP29078996 A JP 29078996A JP 3099756 B2 JP3099756 B2 JP 3099756B2
Authority
JP
Japan
Prior art keywords
word
search
document
probability
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP08290789A
Other languages
English (en)
Other versions
JPH10134075A (ja
Inventor
博 増市
宏 梅基
昌一 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP08290789A priority Critical patent/JP3099756B2/ja
Priority to US08/933,113 priority patent/US5905980A/en
Publication of JPH10134075A publication Critical patent/JPH10134075A/ja
Priority to JP2000112348A priority patent/JP3584848B2/ja
Application granted granted Critical
Publication of JP3099756B2 publication Critical patent/JP3099756B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/961Associative
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は各種文書を処理する
文書処理装置、複数の単語を含む項目から単語を抽出す
る単語抽出装置、各種文書を処理する文書処理装置の単
語抽出方法、及び単語抽出プログラムを記録した記憶媒
体に関し、特に単語間の関連度の計算を行う文書処理装
置、単語間の関連度に基づき単語抽出する単語抽出装
置、単語間の関連度の計算を行う文書処理装置の単語抽
出方法、及び単語間の関連度に基づき単語を抽出させる
ための単語抽出プログラムを記録した記憶媒体に関す
る。
【0002】
【従来の技術】膨大な量の文書を対象とした検索システ
ムでは、一般にキーワードによる検索方式が用いられて
いる。検索条件として任意のキーワード(検索語)を検
索システムに入力すると、文書内容に検索語を含む全て
の文書が検索結果として得られる。この方式による検索
は、全文検索と呼ばれている。また、各文書に対して検
索用のキーワードを予め付加しておき、入力された検索
語と一致するキーワードが付加された文書を検索結果と
する方式も広く用いられている。
【0003】上記の検索システムでは、ユーザによって
入力された検索語と完全に一致する語を含んでいる文書
か、あるいは、ユーザが入力したキーワードと完全に一
致する語が検索用のキーワードとして付加されている文
書しか検索結果として得ることができない。
【0004】従って、このような検索システムでは、検
索語とキーワード間の完全一致が要求されるため、ユー
ザが求める全ての文書を網羅的に得ることができるもの
ではない。そこで、「特開平2−297290号公報」
において提案されている通り、検索漏れを防ぐために、
関連語辞書を用いることにより検索語の関連語をユーザ
に提示し、より検索意図に合致する検索式の作成を促す
方式が用いられている。
【0005】例えば、ユーザが入力した検索語が「SG
ML」の場合、関連語辞書から「SGML」の関連語と
して「HTML」「ODA」「構造化文書」等を取得
し、ユーザに提示する。これにより、ユーザが適切であ
ると判断した関連語を「SGML」とOR結合して検索
することによって、検索漏れの軽減を図る。
【0006】関連語辞書を手作業で作成するためには多
大な工数を要するので、検索対象文書の内容を基に、関
連語を計算によって自動的に求める方法が提案されてい
る。すなわち、検索対象文書中に出現する単語の頻度情
報に統計処理を加えることにより、ある語と関連する語
を算出するものである。
【0007】関連語計算には、統計量として主に、相互
情報量、Dice−coefficient、t−sc
oreが用いられる。単語word1とword2の間
の相互情報量(MI)、Dice−coefficie
nt(DC)、t−score(TS)は、それぞれ、
【0008】
【数1】
【0009】
【数2】
【0010】
【数3】
【0011】と定義される。ただし、全検索対象文書数
をM、word1とword2を共に含む文書数をa、
word1のみを含む文書数をb、word2のみを含
む文書数をcとした場合、
【0012】
【数4】
【0013】
【数5】
【0014】
【数6】
【0015】である。MI(word1,word
2),DC(word1,word2),TS(wor
d1,word2)のいずれも、その値が大きいほどw
ord1とword2の間に高い関連性があることを意
味する。これらの統計量によって関連語を求め、関連語
辞書を作成するために、「春野,山崎:辞書と統計を用
いた対訳アライメント,情報処理学会自然言語処理研究
会研究報告,96−NL−112,pp.23−30
(1996)」、「大森,堤,中西:統計情報を用いた
対訳単語辞書の作成,言語処理学会第2回年次大会発表
論文集,pp.49−52(1996)」等において以
下のような従来技術が提案されている。
【0016】まず、第1のステップとして、検索対象文
書中から形態素解析等の技術を用いて文書中に含まれる
全ての単語(自立語)を抽出する。この際、抽出した全
単語に対して、各単語を含む文書の識別子へのポインタ
を記録しておく(各単語からその単語を含む文書を特定
できる構造を生成する)。
【0017】次に、第2のステップとして、以下のwo
rd1,word2に対する「第1の処理」を、第1の
ステップで抽出した単語の全2項組を対象として実行す
る。第1の処理は、以下のような処理である。
【0018】word1を含む文書数(=a+b)、w
ord2を含む文書数(=a+c)、word1および
word2を共に含む文書数(=a)を求め、それぞれ
を全文書数(=M)で除することによって、prob
(word1),prob(word2),prob
(word1, word2)を求める。これらの値か
ら式(1)(あるいは式(2),(3))に従って、M
I(word1,word2)(あるいは、DC(wo
rd1,word2),TS(word1,word
2))の値を求める。
【0019】第3のステップとして、以下のword3
に対する第2の処理を、第1のステップで抽出した全単
語を対象として実行し、関連語辞書を作成する。第2の
処理は、以下のような処理である。
【0020】以下のword4に対する第3の処理を、
第1のステップで抽出した単語のうちword3以外の
全ての単語を対象として実行し、戻り値として得られた
語をword3の関連語として記録する。
【0021】第3の処理は、以下のような処理である。
MI(word3,word4)(あるいは、DC(w
ord3,word4),TS(word3,word
4))の値が予め定めた閾値Tよりも大きい場合wor
d4を戻り値とする。Tよりも小さい場合は戻り値をか
えさない。
【0022】以上のような処理を行うことにより、第1
のステップで検出された全ての単語に対する関連語が求
められ、関連語辞書に保持される。この際、関連語辞書
に登録されるのは、相互情報量MI等の値が閾値Tより
も大きいものに限られるため、比較的関連性の高い単語
が関連語辞書に登録されるものと考えられる。
【0023】ところで、ある語の関連語がどのような語
彙集合となるかは、対象とする分野に大きく依存するの
が一般的である。例えば、情報処理分野においては、
「ODA」の関連語は「SGML」「HTML」「構造
化文書」等であるが、経済/社会分野においては、「政
府開発援助」「UNCTAD」「OOF」等である。前
述の従来技術では、検索対象文書の内容を基に関連語計
算を行うため、得られる関連語辞書は検索対象の分野に
沿ったものとなる。
【0024】また、対話的な文書検索システムでは、検
索プロセスの進行に伴って文書集合の絞り込みが行われ
る。このように文書集合の絞り込みを行えば、目的の文
書を容易に検出できるようになる。
【0025】
【発明が解決しようとする課題】しかし、従来の技術で
は、文書集合が検索プロセスに伴って絞り込まれた場
合、関連語辞書の分野依存性により、ユーザにとって必
要となる関連語と、全検索対象文書の内容に沿って作成
された関連語とは異なるものとなるという問題点があ
る。
【0026】例えば、書誌的事項により、”経済/社会
分野”の文書集合へと絞り込みを行った場合でも、全文
書内容に沿って作成された関連語辞書によれば、「OD
A」の関連語として、正しい語の他に「SGML」「H
TML」「構造化文書」等が得られてしまう。
【0027】関連度の大きい順に関連語が表示されてい
る場合であっても、上記のように、関連語の中に検索者
の意図を反映しないキーワードが多く含まれてしまう
と、上位に位置するキーワードが検索者の検索意図に近
いとは限らない。従って、得られた関連語の中から適切
なキーワードを探す作業が、検索者にとって大きな負荷
となる。
【0028】人間である検索者には、関連語の適合性を
判定する上で、無益点と呼ばれる物理的・心理的な限界
がある。関連語として示された数がその限界を超えてい
る場合には、検索意図に適合した語を全て選ぶという作
業を行うことができなくなってしまう。
【0029】このように、従来の対話的検索システムで
は、検索プロセスの進行に伴って文書集合の絞り込みが
行われると、得られる関連語中に不適切なキーワードの
占める割合が増大してしまう。さらに、適切な関連語が
含まれるよう提示を行うためには、提示キーワードを増
加させる必要があり、その数が容易に無益点に達してし
まうという問題点がある。即ち、事実上、関連語提示を
利用することが不可能となる。
【0030】本発明はこのような点に鑑みてなされたも
のであり、有益な関連語を的確に利用者に提示すること
ができる文書処理装置を提供することを目的とする。ま
た、本発明の他の目的は、有益な関連語を的確に利用者
に提示することができる単語抽出装置を提供することで
ある。
【0031】また、本発明の他の目的は、有益な関連語
を的確に利用者に提示することができる単語抽出方法を
提供することである。さらに、本発明の別の目的は、有
益な関連語を的確に利用者に提示できるコンピュータを
構築できる単語抽出プログラムを記録した記録媒体を提
供することである。
【0032】
【課題を解決するための手段】本発明では上記課題を解
決するために、文書を識別する文書識別子およびその文
書内に含まれる単語とを組にして記憶している文書情報
記憶手段と、前記文書情報記憶手段に記憶されている文
内の特定の文書集合を検索する検索条件を入力する検
索条件入力手段と、前記検索条件入力手段により入力さ
れた検索条件に適合する文書を前記文書情報記憶手段よ
り検索する検索手段と、前記検索手段により検索された
文書内に含まれる単語のうち、任意の単語を関連語探索
単語とし、前記関連語探索単語以外の単語を関連語候補
とするキーワード特定手段と、前記関連語探索単語と前
記関連語候補中の一つの単語とが、前記検索手段により
検索された文書の中の一つの文書内に含まれる確率であ
る同時出現確率を、前記関連語候補中の単語ごとに求め
る同時出現確率算出手段と、前記関連語探索単語が、前
記文書情報記憶手段に記憶されている文書の中の一つの
文書内に含まれる確率を求める第1の単独出現確率算出
手段と、前記関連語候補中の一つの単語が前記文書情報
記憶手段に記憶されている文書の中の一つの文書内に含
まれる確率を、前記関連語候補中の単語ごとに求める第
2の単独出現確率算出手段と、前記第1の単独出現確率
算出手段により求められた確率と、第2の単独出現確率
算出手段により求められた確率との積または和を、前記
関連語候補中の単語ごとに計算する計算手段と、前記関
連語候補中の単語ごとに、同時出現確率算出手段により
求められた前記同時出現確率と前記計算手段により計算
された値との比率を求め、各単語の比率に応じて単語を
抽出する単語抽出手段と、を具備することを特徴とする
文書処理装置が提供される。
【0033】この文書処理装置によれば、検索者が検索
条件入力手段に対して、特定の文書集合を検索する検索
条件を入力すると、検索手段が、入力された検索条件に
適合する文書を文書情報記憶手段内から検索する。する
と、キーワード特定手段が、検索手段により検索された
文書内に含まれる単語のうち、任意の単語を関連語探索
単語とし、関連語探索単語以外の単語を関連語候補とす
る。同時出現確率算出手段は、同時出現確率を、関連語
候補中の単語ごとに求める。第1の単独出現確率算出手
段は、関連語探索単語が、文書情報記憶手段に記憶され
ている文書の中の一つの文書内に含まれる確率を求め
る。第2の単独出現確率算出手段は、関連語候補中の一
つの単語が文書情報記憶手段に記憶されている文書の中
の一つの文書内に含まれる確率を、関連語候補中の単語
ごとに求める。計算手段は、第1の単独出現確率算出手
段により求められた確率と、第2の単独出現確率算出手
段により求められた確率との積または和を、関連語候補
中の単語ごとに計算する。そして、単語抽出手段が、関
連語候補中の単語ごとに、同時出現確率と計算手段によ
り計算された値との比率を求め、各単語の比率に応じて
単語を抽出する。
【0034】これにより、検索者が、関連語計算に使用
する文書集合を自由に定めることが可能となり、より柔
軟な関連語の提示が可能となる。また、本発明では上記
課題を解決するために、複数の単語を含む項目を識別す
る項目識別子とその項目内に含まれる単語とを組にして
記憶している項目記憶手段と、項目記憶手段に記憶され
ている項目内の特定の項目集合を検索する検索条件を入
力する検索条件入力手段と、前記検索条件入力手段によ
り入力された検索条件に適合する項目を前記項目記憶手
段より検索する検索手段と、前記検索手段により検索さ
れた項目内に含まれる単語のうち、任意の単語を関連語
探索単語とし、前記関連語探索単語以外の単語を関連語
候補とするキーワード特定手段と、前記関連語探索単語
と前記関連語候補中の一つの単語とが、前記検索手段に
より検索された項目の中の一つの項目内に含まれる確率
である同時出現確率を、前記関連語候補中の単語ごとに
求める同時出現確率算出手段と、前記関連語探索単語
が、前記項目記憶手段に記憶されている項目の中の一つ
の項目内に含まれる確率を求める第1の単独出現確率算
出手段と、前記関連語候補中の一つの単語が前記項目記
憶手段に記憶されている項目の中の一つの項目内に含ま
れる確率を、前記関連語候補中の単語ごとに求める第2
の単独出現確率算出手段と、前記第1の単独出現確率算
出手段により求められた確率と、第2の単独出現確率算
出手段により求められた確率との積または和を、前記関
連語候補中の単語ごとに計算する計算手段と、前記関連
語候補中の単語ごとに、同時出現確率算出手段により求
められた前記同時出現確率と前記計算手段により計算さ
れた値との比率を求め、各単語ごとの比率に応じて単語
を抽出する関連語抽出手段と、を具備することを特徴と
する単語抽出装置が提供される。
【0035】この単語抽出装置によれば、検索者が検索
条件入力手段に対して、特定の項目集合を検索する検索
条件を入力すると、検索手段が、入力された検索条件に
適合する項目を項目記憶手段内から検索する。すると、
キーワード特定手段が、検索手段により検索された項目
内に含まれる単語のうち、任意の単語を関連語探索単語
とし、関連語探索単語以外の単語を関連語候補とする。
同時出現確率算出手段は、同時出現確率を、関連語候補
中の単語ごとに求める。第1の単独出現確率算出手段
は、関連語探索単語が、項目記憶手段に記憶されている
項目の中の一つの項目内に含まれる確率を求める。第2
の単独出現確率算出手段は、関連語候補中の一つの単語
が項目情報記憶手段に記憶されている項目の中の一つの
項目内に含まれる確率を、関連語候補中の単語ごとに求
める。計算手段は、第1の単独出現確率算出手段により
求められた確率と、第2の単独出現確率算出手段により
求められた確率との積または和を、関連語候補中の単語
ごとに計算する。そして、関連語抽出手段が、関連語候
補中の単語ごとに、同時出現確率と計算手段により計算
された値との比率を求め、各単語の比率に応じて単語を
抽出する。
【0036】これにより、検索者が、関連語計算に使用
する項目の集合を自由に定めることが可能となり、より
柔軟な関連語の提示が可能となる。また、本発明では上
記課題を解決するために、複数の単語を含む項目を識別
する項目識別子とその項目内に含まれる単語とを組にし
て記憶している項目記憶手段を具備し、前記項目記憶手
段に記憶されている項目を検索する情報検索装置の単語
抽出方法において、前記項目記憶手段に記憶されている
項目内の特定の項目集合を検索する検索条件を入力する
第1のステップと、前記第1のステップにより入力され
た検索条件に適合する項目を前記項目記憶手段より検索
する第2のステップと、前記第2のステップにより検索
された項目内に含まれる単語のうち、任意の単語を関連
語探索単語とし、前記関連語探索単語以外の単語を関連
語候補とする第3のステップと、前記関連語探索単語と
前記関連語候補中の一つの単語とが、前記第2のステッ
プにより検索された項目の中の一つの項目内に含まれる
確率である同時出現確率を、前記関連語候補中の単語ご
とに求める第4のステップと、前記関連語探索単語が、
前記項目記憶手段に記憶されている項目の中の一つの項
目内に含まれる確率を求める第5のステップと、前記関
連語候補中の一つの単語が前記項目記憶手段に記憶され
ている項目の中の一つの項目内に含まれる確率を、前記
関連語候補中の単語ごとに求める第6のステップと、前
記第5のステップにより求められた確率と、前記第6の
ステップにより求められた確率との積または和を、前記
関連語候補中の単語ごとに計算する第7のステップと、
前記関連語候補中の単語ごとに、前記第4のステップに
より求められた前記同時出現確率と前記第7のステップ
により計算された値とを用いた統計量を求め、各単語の
統計量に応じて単語を抽出する第8のステップと、を具
備することを特徴とする単語抽出方法が提供される。
【0037】この単語抽出方法によれば、特定の項目集
合を検索する検索条件を入力すると、入力された検索条
件に適合する項目が検索される。次いで、検索された項
目内に含まれる単語のうち、任意の単語が関連語探索単
語とされ、関連語探索単語以外の単語が関連語候補リス
トに登録される。さらに、関連語探索単語と関連語探索
単語以外の単語との間の同時出現確率と、各単語の単独
出現確率の積あるいは和とから統計量が求められる。そ
して、各単語ごとに求められた統計量に応じて、単語が
抽出される。
【0038】これにより、検索者が、関連語計算に使用
する項目の集合を自由に定め、より柔軟な関連語の提示
が可能となる。
【0039】
【0040】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明の原理構成図であ
る。
【0041】文書情報記憶手段1は、文書を識別する文
書識別子およびその文書内に含まれる単語とを組にして
記憶している。検索条件入力手段2は、文書情報記憶手
段1に記憶されている特定の文書集合を検索する検索条
件を入力する。入力された検索条件は、検索手段3に渡
される。検索手段3は、検索条件入力手段2により入力
された検索条件に適合する文書を文書情報記憶手段1よ
り検索する。キーワード特定手段4は、検索手段3によ
り検索された文書内に含まれる単語のうち、任意の単語
を関連語探索単語とし、関連語探索単語以外の単語を関
連語候補とする。
【0042】同時出現確率算出手段5は、関連語探索単
語と関連語候補内の一つの単語とが、検索手段3により
検索された文書のうち、その一つの文書内に含まれる確
率を求め、同時出現確率とする。
【0043】第1の単独出現確率算出手段6は、関連語
探索単語が、文書情報記憶手段1に記憶されている文書
のうち、その一つの文書内に含まれる確率を求める。同
様に、第2の単独出現確率算出手段7は、関連語候補内
の一つの単語が、文書情報記憶手段1に記憶されている
文書のうち、その一つの文書内に含まれる確率を求め
る。
【0044】計算手段8は、第1の単独出現確率算出手
段6により求められた確率および第2の単独出現確率算
出手段7により求められた確率との積または和を計算す
る。単語抽出手段9は、同時出現確率算出手段5により
求められた同時出現確率および計算手段8により計算さ
れた値との比率に応じて、単語を抽出する。
【0045】この文書処理装置によれば、検索者が検索
条件入力手段2を用いて検索条件を入力すると、検索手
段3により検索条件に適合する文書が検索される。する
と、キーワード特定手段4により、関連語探索単語が特
定され、関連語探索単語以外の単語が関連語候補とされ
る。さらに、同時出現確率算出手段5が、検出手段3で
検出された文書に基づき、同時出現確率を算出する。一
方、第1の単独出現確率算出手段6と第2の単独出現確
率算出手段7とは、それぞれ関連語探索単語と、関連語
候補内の単語の出現確率を算出する。この出現確率は、
計算手段8により積または和の値が計算される。そし
て、単語抽出手段9が、同時出現確率と計算手段8の算
出した値とを用いて、特定の単語に対する関連語を抽出
する。
【0046】これにより、検索者の検索条件に応じて、
関連語を定めるための基準となる文書を任意に絞り込む
ことが可能となる。即ち、本発明のように、文書検索プ
ロセスにおける文書絞り込みとは別に、関連語探索のた
めの検索条件を定めることができるようにすれば、関連
語計算に使用する文書集合を自由に定めることが可能と
なり、より柔軟な関連語の提示が可能となる。
【0047】例えば、検索意図が「今年に入ってからの
野球選手の腰痛によるアクシデントについて知りたい」
であったとする。この場合検索者は、まず”今年の野球
関連の新聞記事”を書誌的事項から得た上で、「腰痛」
のキーワードで検索を行う。ここで、検索漏れを防ぐ目
的で「腰痛」の関連語を得る場合、検索者は検索条件入
力手段2を用いて”医学関連の文書”を検索対象に指定
する。すると、”医学関連の文書”を用いて関連語計算
が行われ、「ぎっくり腰」「椎間板ヘルニア」等の適切
な関連語が、単語抽出手段8により抽出される。
【0048】もし、通常の類似語辞書で関連語計算を行
うと、「腰痛」の関連語(類似語)は「腹痛」「頭痛」
「疼痛」等が抽出される。また、”今年の野球関連の新
聞記事”を基に「腰痛」の関連語計算を行うと「リタイ
ア」「欠場」等が抽出される。従って、どちらも適切な
関連語が得られるとは言い難い。
【0049】図2は、本発明の第1の実施の形態の構成
を示す図である。以下、図2の各構成要素について説明
する。文書格納手段11は、電子化された検索対象文書
の内容を書誌的事項および形態素解析手段12によって
付加される文書識別子と組にして格納する記憶装置であ
る。
【0050】形態素解析手段12は、文書格納手段11
に格納されている各文書に文書識別子を付加した上で、
各文書に形態素解析処理を施して自立語を抽出し、対応
する文書識別子と組にして格納する装置である。
【0051】索引構造生成手段13は、形態素解析手段
12での形態素解析処理結果を基に、索引構造として、
単語−単語識別子リスト14a、単語識別子−文書識別
子リスト14b、文書識別子−単語識別子リスト14c
を作成するプログラムモジュールである。
【0052】索引構造格納手段14は、索引構造生成手
段13によって作成された単語−単語識別子リスト14
a、単語識別子−文書識別子リスト14b、文書識別子
−単語識別子リスト14cを格納する記憶装置である。
単語−単語識別子リスト14aは、単語文字列とその単
語を示す単語識別子の対応関係を記述したリストであ
る。単語識別子−文書識別子リスト14bは、各単語識
別子について、その単語識別子で示される単語文字列を
含む文書の文書識別子の集合を記述したリストである。
文書識別子−単語識別子リスト14cは、各文書識別子
について、その文書識別子で示される文書に含まれる単
語の単語識別子の集合を記述したリストである。
【0053】キーワード入力手段15は、関連語を求め
るための初期条件としてキーワードを入力することが可
能なユーザインタフェースを持つプログラムモジュール
である。
【0054】文書検索手段16は、キーワードを受け取
り、そのキーワードを含む全文書の文書識別子を、単語
−単語識別子リスト14aおよび単語識別子−文書識別
子リスト14bを参照して取得するプログラムモジュー
ルである。受け取ったキーワードが、キーワードリスト
生成手段18によって作成されたキーワードリスト中の
キーワードである場合は、文書識別子の総数のみを取得
し、キーワード入力手段15に入力されたキーワードの
場合は、文書識別子の総数と共に、得られた文書識別子
のうち特定文書格納手段23に格納されている文書識別
子に属する文書識別子集合も取得する。
【0055】キーワード検索手段17は、文書検索手段
16によって得られた文書識別子集合で示される文書集
合の各文書に含まれる単語の識別子集合を、文書識別子
−単語識別子リスト14cを参照して取得し、それらを
連接して一つの単語識別子集合とするプログラムモジュ
ールである。
【0056】キーワードリスト生成手段18は、キーワ
ード検索手段17から得られた単語識別子集合中での各
単語識別子の出現回数を計測し、単語識別子と出現回数
との対をリストとして作成するプログラムモジュールで
ある。
【0057】関連語計算手段19は、キーワードリスト
生成手段18によって作成されたリストおよび文書検索
手段16によって取得された文書識別子の総数を基に、
キーワード入力手段15に入力されたキーワードとキー
ワードリスト生成手段18によって作成されたリスト中
の各単語識別子に対応する単語の相互情報量を計算する
プログラムモジュールである。
【0058】表示手段20は、関連語計算手段19で計
算された相互情報量の値を受け取り、キーワード入力手
段15に入力されたキーワードとの間で相互情報量が大
きい値となる順に単語を出力するユーザインタフェース
を持つプログラムモジュールである。
【0059】検索条件入力手段21は、ユーザが関連語
計算を行うための文書集合を得るための検索条件を入力
することが可能なユーザインタフェースを持つプログラ
ムモジュールである。
【0060】文書集合特定手段22は、文書格納手段1
1、単語−単語識別子リスト14aおよび単語識別子−
文書識別子リスト14bを参照し、検索条件入力手段2
1あるいは文書検索条件入力手段24に入力された検索
語あるいは論理式の条件に適合する文書識別子の集合を
得るプログラムモジュールである。
【0061】特定文書格納手段23は、検索条件入力手
段21に入力された検索条件を基に、文書集合特定手段
22によって得られた文書識別子集合を格納する記憶手
段である。
【0062】文書検索条件入力手段24は、ユーザが文
書検索を行うための検索条件を入力することが可能なユ
ーザインタフェースを持つプログラムモジュールであ
る。検索結果表示手段25は、文書検索条件入力手段2
4に入力された検索条件を基に、文書集合特定手段22
によって得られた文書識別子集合に対応する文書情報を
表示することが可能なユーザインタフェースを持つプロ
グラムモジュールである。
【0063】以上の図2に示した構成は、図1の本発明
の原理構成を具体化したものであり、それぞれの構成要
素は次のような関係にある。文書情報格納手段11およ
び索引構造格納手段14が、文書情報記憶手段1に対応
する。検索条件入力手段21が検索条件入力手段2に対
応する。文書集合特定手段22及び特定文書格納手段2
3が、検索手段3に対応する。キーワード入力手段1
5、文書検索手段16、キーワード検索手段17、キー
ワードリスト生成手段18が、キーワード特定手段4に
対応する。そして、関連語計算手段19が、同時出現確
率算出手段5、第1の単独出現確率算出手段6、第2の
単独出現確率算出手段7、計算手段8、及び単語抽出手
段9に対応する。
【0064】なお、文書検索条件入力手段24および検
索結果表示手段25は、文書検索を行うための手段であ
って、本発明の構成に必須のものではない。しかしなが
ら、関連語の提示システムは文書検索システムと密接な
関係があり、その関係を示すために、本実施の形態では
文書検索システムを含めて説明を行うこととした。
【0065】ここで、本実施の形態では関連語計算の前
に、索引構造の生成処理を実行しておく必要がある。そ
こで、以下に索引構造の生成処理について説明する。索
引構造の生成処理の前提として、形態素解析結果リスト
が生成されていなければならない。図3は、形態素解析
結果リストの例を示す図である。これは、形態素解析手
段12が作成する。形態素解析結果リスト31には、文
書格納手段11に格納されている各検索対象文書に識別
子(文書識別子)を割り当てた上で、それぞれの文書に
形態素解析処理を施して自立語を抽出し、抽出された単
語(抽出単語)を対応する文書識別子と組にして格納す
る。ただし、同一文書中から同一の自立語が複数回抽出
された場合は、2回目以降の抽出結果を無視し、一つの
文書識別子に対応する自立語が重複することはないもの
とする。
【0066】この形態素解析結果リストを基に、索引構
造生成手段13が各種索引構造を生成する。図4〜図6
に索引構造生成手段13により作成され、索引構造格納
手段14に格納される索引構造の例を示す。なお図4〜
図6中のデータは、図3のデータに基づいて作成された
例となっている。
【0067】図4は、単語−単語識別子リストの例を示
す図である。単語−単語識別子リスト32には、抽出さ
れた単語と、その単語に割り当てられた識別子とが組と
なって格納されている。
【0068】図5は、単語識別子−文書識別子リストの
例を示す図である。単語識別子−文書識別子リスト33
には、単語識別子と、その単語識別子が割り当てられて
いる単語を含む文書の識別子(文書識別子)が組となっ
て格納されている。
【0069】図6は、文書識別子−単語識別子リストの
例を示す図である。文書識別子−単語識別子リスト34
には、文書識別子と、その文書識別子が割り当てられて
いる文書に含まれる単語の単語識別子とが組となって格
納されている。
【0070】索引構造生成手段13による索引構造の生
成アルゴリズムは以下の通りである。図7は、索引構造
の生成の手順を示すフローチャートである。 〔S1〕単語−単語識別子リスト14aを生成する。具
体的には、まず、形態素解析手段12に格納されている
形態素解析結果リスト中の全単語を、重複なく、かつ、
単語文字列の持つ値の順にソートしたリストを作成す
る。そして、各単語に対して、リストの先頭から順に1
で始まる自然数を単語識別子として割り当てる。 〔S2〕文書識別子−単語識別子リスト14cを生成す
る。具体的には、形態素解析手段12中の形態素解析結
果リスト中の各単語をステップS1で割り当てた単語識
別子で置き換え、各文書識別子ごとに対応する単語識別
子を小さい値順にソートする。 〔S3〕単語識別子−文書識別子リスト14bを生成す
る。具体的には、単語識別子を1から順に並べ、各単語
識別子に対応する単語が含まれる文書の文書識別子を、
ステップS2で作成した文書識別子−単語識別子リスト
34を参照して抽出し、単語識別子と対にして格納す
る。
【0071】以上のようにして、索引構造が生成され、
索引構造格納手段14に格納される。この状態で関連語
の計算を行うことが可能となる。図8は、本発明の処理
手順を示すフローチャートの前半である。これは、検索
条件入力手段21に入力された検索条件に適合する文書
を基に、キーワード入力手段15に入力されたキーワー
ドの関連語を求めるためのアルゴリズムをフローチャー
トで示したものである。以下に、このフローチャートの
処理をステップ番号に沿って説明する。 〔S11〕キーワード入力手段15が、検索者がキーボ
ードあるいはマウスを操作することによって入力した初
期キーワードを受け取る。この初期キーワードは、文書
検索手段16に渡される。 〔S12〕検索条件入力手段21が、検索者がキーボー
ドあるいはマウスを操作することによって入力した検索
条件を受け取る。この検索条件は、文書集合特定手段2
2に渡される。 〔S13〕初期キーワードを受け取った文書検索手段1
6は、初期キーワードが単語−単語識別子リスト14a
に存在するか否かを判断する。存在していなければステ
ップS14に進み、存在していればステップS15に進
む。 〔S14〕初期キーワードが単語−単語識別子リスト1
4aに存在していなければ関連語の計算を行いようがな
いため、表示手段20が、初期キーワードの関連語がな
い旨の表示を行い、処理を終了する。 〔S15〕検索条件を受け取った文書集合特定手段22
が、検索条件を満たす文書の文書識別子を、文書格納手
段11、単語−単語識別子リスト14a、及び単語識別
子−文書識別子リスト14bから取得し、得られた文書
識別子集合をDとする。この文書識別子集合Dは、特定
文書格納手段23に格納される。 〔S16〕文書検索手段16が、初期キーワードに対応
する単語識別子をWiとする。 〔S17〕文書検索手段16が、Wiに対応しDに属す
る文書識別子を単語識別子−文書識別子リスト14bか
ら取得し、取得した文書識別子の集合をXとする。この
文書識別子の集合Xは、キーワード検索手段17に渡さ
れる。また、Wiに対応する文書識別子総数をNとす
る。この文書識別子総数Nは、関連語計算手段19に渡
される。この処理が終了したら、図9のステップS18
に進む。
【0072】図9は、本発明の処理手順を示すフローチ
ャートの後半である。 〔S18〕キーワード検索手段17が、Xに属する各単
語識別子に対応する単語識別子を文書識別子−単語識別
子リスト14cから取得する。取得した単語識別子の集
合をYとする。単語識別子の集合Yは、キーワードリス
ト生成手段18に渡される。 〔S19〕キーワードリスト生成手段18が、Yに属す
る単語識別子の重複を取り除き、各単語識別子の重複回
数を記録する。重複の取り除かれた単語識別子集合を新
たにYとし、Yの要素である単語識別子Wn(n=1,
2,・・・P)の重複回数をR(Wn)とする。重複回
数R(Wn)は、関連語計算手段19に渡される。但
し、PはYの要素数である。 〔S20〕文書検索手段16が、Yに属する全単語識別
子Wn(n=1,2,・・・P)について、Wnに対応
する文書識別子の総数を単語識別子−文書識別子リスト
14bから取得する。そして、Yの要素Wnに対応する
文書識別子数F(Wn)とする。文書識別子数F(W
n)は、関連語計算手段19に渡される。 〔S21〕関連語計算手段19が、Yに属する単語識別
子Wn(n=1,2,・・・P)について、全検索対象
文書数をMとして、
【0073】
【数7】 prob(Wi,Wn)=R(Wn)/M・・・(7)
【0074】
【数8】 prob(Wn)=F(Wn)/M・・・(8) を計算し、
【0075】
【数9】 prob(Wi)=N/M・・・(9) であることを考慮して、式(1)に従って、Wiで示さ
れる初期キーワードとWnで示される単語間の相互情報
量(MI(Wi,Wn))を計算する。 〔S22〕関連語計算手段19が、閾値Tを超えるMI
(Wi,Wn)(n=1,2,・・・P)が存在するか
否かを判断する。存在すればステップS23に進み、存
在しなければステップS24に進む。 〔S23〕表示手段20が、関連語計算手段19から、
閾値Tを超えるMI(Wi,Wn)(n=1,2,・・
・P)に関し、その値が大きいものから順に対応するW
nを取得する。そして、単語−単語識別子リスト14a
を参照することによって、取得したWnに対応する単語
を初期キーワードの関連語として出力し、処理を終了す
る。 〔S24〕表示手段20が、初期キーワードの関連語が
ない旨の表示を行い、処理を終了する。
【0076】このように、図中のステップS21におい
て、検索条件入力手段21に入力された検索条件に適合
する文書(識別子)集合D中でのWiおよびWnの間の
共起頻度を基にprob(Wi,Wn)を求めていることに
より、文書集合Dの内容に沿った関連語の算出が可能と
なる。
【0077】図10から図19に第1の実施の形態のユ
ーザインタフェースを示す。図10は、第1の実施の形
態のユーザインタフェースの初期画面を示す図である。
図10メインのウィンドウ40の中には複数のサブウィ
ンドウ41〜46が表示されている。サブウィンドウ4
1がキーワード入力手段15に、サブウィンドウ42が
検索条件入力手段21に、サブウィンドウ43が表示手
段20に、サブウィンドウ44、45が文書検索条件入
力手段24に、サブウィンドウ46が検索結果表示手段
25にそれぞれ対応している。サブウィンドウ44で
は、同一行中にカンマで区切ったキーワード集合をor
接続した上で、各行に対応するor接続されたキーワー
ド集合をand接続して検索するものとする。
【0078】図中下のアイコン47は、検索条件入力手
段21あるいは文書検索条件入力手段24に入力するた
めの検索条件を可視化したものである。例えば、「社会
経済辞典アイコン」は、社会経済辞典に含まれる項目で
ある旨の書誌的事項が付与された文書集合を検索するた
めの検索条件に対応するものである。これらのアイコン
をサブウィンドウ42および45に置くことにより、検
索条件の指定を行ったことになる。
【0079】以下図11から図19では、検索意図が
「米海軍におけるセキュリティ問題について書かれた新
聞記事を検索したい。」である場合の操作例を示す。ま
ず、検索条件の入力を行う。図11は、第1の実施の形
態のユーザインタフェースの第1の操作画面を示す図で
ある。この画面では、「セキュリティ」に関する関連語
を得るために、関連語検索を行う文書集合として「情報
工学辞典」のアイコン47aを選択する。
【0080】目的のアイコンを選択したら、そのアイコ
ン47aをサブウィンドウ42に複写する。図12は、
第1の実施の形態のユーザインタフェースの第2の操作
画面を示す図である。選択した「情報工学辞典」アイコ
ン42aがサブウィンドウ42に置かれる。これによ
り、検索条件入力手段21に「情報工学辞典に含まれる
項目である旨の書誌的事項が付与された文書集合を得る
ための検索条件」が入力される。
【0081】検索条件の入力が終了したら、初期キーワ
ードを入力する。図13は、第1の実施の形態のユーザ
インタフェースの第3の操作画面を示す図である。この
画面では、関連語を求めるための初期キーワード「セキ
ュリティ」をサブウィンドウ41に入力し、「関連語」
ボタン41aを押す(ここで、「押す」とは、画面上の
マウスポインタを「関連語」ボタン41a上に移動し、
マウスのボタンをクリックする動作を示す)。
【0082】「関連語」ボタン41aが押されると、図
8、図9に示した処理が実行される。図14は、第1の
実施の形態のユーザインタフェースの第4の操作画面を
示す図である。図8、図9に示した処理の実行の結果、
情報工学辞典に基づいて計算された「セキュリティ」の
関連語がサブウィンドウ43に表示される。このとき、
サブウィンドウ41に入力された「セキュリティ」は、
サブウィンドウ44にも入力される。
【0083】検索者は、表示された関連語のうち関連性
が高いと判断した語を選択する。図15は、第1の実施
の形態のユーザインタフェースの第5の操作画面を示す
図である。この例では、「デジタル署名」を選択してい
る。関連性が高いと判断した語が選択されると、サブウ
ィンドウ44の文書検索条件に選択語が追加される(。
図16は、第1の実施の形態のユーザインタフェースの
第6の操作画面を示す図である。この図では、図15と
同様に表示された関連語のうち関連性が高いと判断した
語として、「RSA方式」の追加を行っている。
【0084】次に、図8から図13までと同様に、社会
経済辞典を対象に「米海軍」の関連語を求め、関連性が
高いと判断した語(「ペンタゴン」「リムパック」)を
検索文書検索条件に追加する。図17は、第1の実施の
形態のユーザインタフェースの第7の操作画面を示す図
である。この例では、サブウィンドウ41には「米海
軍」の語が入力されている。サブウィンドウ42には、
「社会経済辞典」のアイコン42bが置かれている。サ
ブウィンドウ43には、「社会経済辞典」に基づいて
「米海軍」の関連語を計算することにより抽出された語
が表示されている。サブウィンドウ44には、図16の
画面で入力されていた語の下の行に、「米海軍」、「ペ
ンタゴン」、「リムパック」の語が追加されている。
【0085】次に、検索対象文書を選択する。図18
は、第1の実施の形態のユーザインタフェースの第8の
操作画面を示す図である。この画面では、検索対象文書
として「新聞記事」を選択し、サブウィンドウ45に
「新聞記事」アイコン45aを置いている。これによっ
て、文書検索条件入力手段24に「新聞記事に含まれる
項目である旨の書誌的事項が付与された文書集合を得る
ための検索条件」が入力される。
【0086】この状態で「検索」ボタンを押す。図19
は、第1の実施の形態のユーザインタフェースの第9の
操作画面を示す図である。「検索」ボタン44aを押す
ことによって、サブウィンドウ44中の検索条件を
「(セキュリティorデジタル署名orRSA方式)a
nd(米海軍orペンタゴンorリムパック)」と解釈
して、既に指定された新聞記事の中から該当する記事の
検索が実行される。
【0087】図20は、第1の実施の形態のユーザイン
タフェースの第10の操作画面を示す図である。図19
の状態で検索が実行されると、サブウィンドウ46に検
索結果が表示される。
【0088】この例からも分かるように、本実施の形態
によれば関連語検索に用いる文書集合を自由に指定でき
るため、従来技術と比較して、より検索者の意図に沿っ
た関連語の提示が可能となる。
【0089】なお、本実施の形態では、図9のステップ
S21で説明したとおり、F(Wn)およびNを文書集
合全体から求めている。これは、文書集合全体に多く出
現する語に対応する相互情報量を小さくすることを目的
としたものである。しかしながら、検索条件入力手段2
1に入力された検索条件に適合する文書集合(D)の要
素数が十分多い場合には、F(Wn)およびNを文書集
合Dの範囲内で求めても、上記の目的を達成することが
できる。
【0090】また、本実施の形態のユーザインタフェー
スは、関連語計算用の文書集合を特定するために検索条
件入力手段21に入力する検索条件を、書誌的事項に基
づくアイコン形式で与えたが、これをキーワード等を用
いたより一般的な入力方法で置き換えることは容易に実
現可能である。
【0091】図21は、本発明の第2の実施の形態の構
成を示す図である。本実施の形態は、第1の実施の形態
の構成からキーワード入力手段15および検索条件入力
手段21を除いたものとなっている。以下第1の実施の
形態と機能の異なる手段についてのみ説明し、第1の実
施の形態と同じ機能を有するものには同一の符号を付
し、説明を省略する。
【0092】文書格納手段11aは、電子化された検索
対象文書の内容を形態素解析手段12によって付加され
る文書識別子と対にして格納する記憶装置である。文書
検索手段16aは、キーワードを受け取り、そのキーワ
ードを含む全文書の文書識別子を、単語−単語識別子リ
スト14aおよび単語識別子−文書識別子リスト14b
を参照して取得するプログラムモジュールである。受け
取ったキーワードが、キーワードリスト生成手段18に
よって作成されたキーワードリスト中のキーワードであ
る場合は、文書識別子の総数のみを取得し、文書検索条
件入力手段24aに入力された検索条件中のキーワード
の場合は、文書識別子の総数と共に、得られた文書識別
子のうち特定文書格納手段23aに格納されている文書
識別子に属する文書識別子集合も取得する。
【0093】関連語計算手段19aは、キーワードリス
ト生成手段18によって作成されたリストおよび文書検
索手段16aによって取得された文書識別子の総数を基
に、文書検索条件入力手段24aに入力された検索条件
中のキーワードとそのキーワードに対してキーワードリ
スト生成手段18によって作成されたリスト中の各単語
識別子に対応する単語の相互情報量を計算するプログラ
ムモジュールである。
【0094】表示手段20aは、関連語計算手段19a
で計算された相互情報量の値を受け取り、文書検索条件
入力手段24aに入力された検索条件中のキーワードと
の間で相互情報量が大きい値となる順に単語を出力する
ユーザインタフェースを持つプログラムモジュールであ
る。
【0095】文書集合特定手段22aは、文書格納手段
11a、単語−単語識別子リスト14aおよび単語識別
子−文書識別子リスト14bを参照し、文書検索条件入
力手段24aに入力された検索条件に適合する文書識別
子の集合を得るプログラムモジュールである。
【0096】特定文書格納手段23aは、文書検索条件
入力手段24aに入力された検索条件を基に、文書集合
特定手段22aによって得られた文書識別子集合を格納
する記憶手段である。
【0097】文書検索条件入力手段24aは、ユーザが
文書検索を行うための検索条件を、キーワードをand
あるいはor接続した論理式形式で入力することが可能
なユーザインタフェースを持つプログラムモジュールで
ある。
【0098】検索結果表示手段25aは、文書検索条件
入力手段24aに入力された検索条件を基に、文書集合
特定手段22aによって得られた文書識別子集合に対応
する文書情報を表示することが可能なユーザインタフェ
ースを持つプログラムモジュールである。
【0099】本実施の形態では、文書検索条件入力手段
24aにキーワードをandあるいはor接続した論理
式形式で入力された検索条件を基に文書集合特定手段2
2aによって特定された文書集合を、関連語を求めるた
めの文書集合として用いる。
【0100】また、第1の実施の形態では、キーワード
入力手段15に入力されたキーワードを初期キーワード
として初期キーワードの関連語を求めたが、本実施の形
態では、文書検索条件入力手段24aに入力された検索
条件に含まれる全てのキーワードに対して図8,図9の
処理を行い、相互情報量を求める。さらに、検索結果表
示手段25aは、得られた全ての相互情報量の中から大
きい値のものから順に、対応するキーワードのペアを表
示する。
【0101】図22から図28に本実施の形態のユーザ
インタフェースを示す。図22は、第2の実施の形態の
ユーザインターフェースの初期画面50を示す図であ
る。図22メインのウィンドウ50の中には複数のサブ
ウィンドウ51〜53が表示されている。サブウィンド
ウ51が表示手段20aに、サブウィンドウ52が文書
検索条件入力手段24aに、サブウィンドウ53が検索
結果表示手段25aにそれぞれ対応している。
【0102】以下図23から図28では、検索意図が
「いかなる建築が地震に強いかについて具体的な地震事
例に基づいて書かれた文書を検索したい。」である場合
の操作例を示す。
【0103】まず、検索条件の入力を行う。図23は、
第2の実施の形態のユーザインタフェースの第1の操作
画面を示す図である。この画面では、検索条件を「地震
and建築」として、「検索」ボタン52aを押す。
【0104】「検索」ボタン52aが押されることによ
って検索が行われる。図24は、第2の実施の形態のユ
ーザインタフェースの第2の操作画面を示す図である。
検索が行われることにより、検索結果がサブウィンドウ
53に表示される。同時に、「地震」および「建築」の
それぞれに対して、検索結果として得られた文書集合を
基に、図8、図9で示した処理が行われ、相互情報量計
算が行われる。そして、サブウィンドウ51には、相互
情報量の値の大きいものから順に、関連語が表示され
る。サブウィンドウ51中の括弧付きの単語は、相互情
報量を求めた際の初期キーワードである。
【0105】検索者は、図24の画面の関連語表示を参
照しながら、適切であると思われる検索条件を選択す
る。図25は、第2の実施の形態のユーザインタフェー
スの第3の操作画面を示す図である。検索者は、さらに
適切であると思われる検索条件を選択したら、サブウィ
ンドウ53に入力する。図25では、「(兵庫県南部地
震or東海地震or十勝沖地震)and(対震建築or
耐火建築)」を新たな検索条件としている。
【0106】図25に示した条件によって再度検索を行
う。図26は、第2の実施の形態のユーザインタフェー
スの第4の操作画面を示す図である。再度検索を行う
と、図24と同様に、新たな検索条件から得られた文書
集合がサブウィンドウ53に表示されると共に、その文
書集合を基にして計算された関連語がサブウィンドウ5
1に表示される。
【0107】さらに適切な検索条件を入力して検索を行
う。図27は、第2の実施の形態のユーザインタフェー
スの第5の操作画面を示す図である。この画面のサブウ
ィンドウ52には、「(兵庫県南部地震or東海地震o
r十勝沖地震or神戸地震)and(2×4工法or軸
組工法orプレハブ工法or減震工法)」を新たな検索
条件として入力している。
【0108】すると、図27の検索条件に応じた文書集
合と関連語が得られる。図28は、第2の実施の形態の
ユーザインタフェースの第6の操作画面を示す図であ
る。図27の検索条件で検索を行うことにより、図26
とは異なった検索語がサブウィンドウ51に表示される
とともに、図26とは異なった検索結果がサブウィンド
ウ53に表示される。
【0109】このように本実施の形態では、関連語提示
システムと検索システムを結合して、一つのシステムと
して取り扱うことによって、検索プロセスの進行に伴っ
て文書集合の絞り込みが行われた場合でも、常に適切な
関連語の提示が可能となる。これにより、効果的な絞り
込みが可能となる。
【0110】本実施の形態では、文書検索条件入力手段
24aにキーワードをandあるいはor接続した論理
式形式で入力するものとしたが、この検索条件に書誌的
事項による検索条件を併用した場合でも、本実施の形態
で示した効果が得られることは明らかである。
【0111】なお、相互情報量(あるいはDice−c
oefficientあるいはt−score)は、任
意の2値間で絶対比較が可能な統計量である。例えば、
MI(活断層,地震)とMI(建築,火災保険)の比較
が可能であり、値の大きい単語対の方がより強い関連性
を持つといえる。従って、複数のキーワードに対応する
相互情報量を値の大きいものから順に並べる本実施の形
態におけるサブウィンドウ51のユーザインタフェース
は、関連語提示の際の表示順序として適切であるといえ
る。
【0112】以上のような実施の形態による効果を以下
に説明する。図26および図27は、本発明の効果の検
証を行うために用いたデータおよびシミュレーション結
果の一例である。
【0113】図29は、本発明の効果確認のためのシミ
ュレーション用データの例である。この図では、書誌的
事項あるいはキーワード検索で、二つの文書集合D1お
よびD2に分割する(絞り込む)ことが可能な20万の
文書集合を想定している。各文書には0から19999
9までの整数による文書IDが付加されており、文書集
合D1は文書IDが0から99999まで、D2は10
0000から199999までのそれぞれ10万の文書
を要素として含むとする。図29は、5つのキーワード
(wordA〜wordE)が文書集合中に存在する範
囲とその出現確率を示すものである。例えば、word
Aは、文書IDが0から50000の範囲および100
000からの150000の範囲の文書中に存在し、そ
れぞれの範囲における出現確率(分布確率)は0.5で
ある。
【0114】図30は、本発明の効果確認のためのシミ
ュレーション結果を示す図である。これは、文書集合全
体と文書集合D1のそれぞれを用いて、wordAに対
する相互情報量をwordBからwordEについて求
めた結果である。文書集合全体では、wordAに対す
る相互情報量の値が大きいものから順にwordB,w
ordC,wordD,wordEとなり、文書集合D
1では、wordE,wordD,wordC,wor
dBとなっている。即ち、文書集合全体を用いて関連語
計算を行った場合には他のキーワードと比較して関連性
が低いと判断されたwordEを、絞り込みによって得
られた文書集合D1を用いて計算することによって、ユ
ーザの検索意図に対して最も関連性が高いキーワードと
して提示することが可能である。逆に、文書全体を用い
て関連語計算を行った場合には最も関連性が高いと判断
されたwordBを、絞り込みによって得られた文書集
合D1を用いて計算することによって、ユーザの検索意
図に対しては提示するに適さないキーワードであると判
断することが可能である。
【0115】図31は、本発明の実データによる計算結
果例を示す図である。現代用語辞書の実データを基に、
関連語計算用の文書集合として「イスラエル」を含む項
目の集合と「インド」を含む項目の集合を用いて、初期
キーワード「宗教」の関連語を算出した結果である。い
ずれも、文書集合の内容を反映した計算結果となってい
ることが分かる。
【0116】以上のように本発明では、関連語提示シス
テムと検索システムを結合して、一つのシステムとして
取り扱うことによって、従来技術では不可能であった絞
り込みプロセスに沿った適切な関連語の提示が実現でき
る。
【0117】また、関連語計算に用いる文書集合を特定
するための検索条件と検索プロセスにおける文書絞り込
みに用いる検索条件を別のものとすることによって、関
連語計算に使用する文書集合を自由に定めることが可能
となり、より柔軟な関連語の提示が可能となる。
【0118】なお、上述の実施の形態では検索対象を文
書としているが、文書に限らず、百科事典内の項目の如
く、または構造化文書における文書要素の如く、複数の
単語を含んでおり、その単語群である項目が計算機にと
って区別可能に分けられているものであれば検索対象と
することができる。例えば、単語群と他の単語群との間
に区切り記号等が挿入されていれば、計算機にとって区
別可能な情報である。
【0119】また、上述の実施の形態は、コンピュータ
プログラムによっても実現可能である。その場合、その
プログラムおよびそのプログラムが検索対象とする文書
類は、コンピュータが読み取り可能な記憶媒体に記憶す
ることも可能である。
【0120】ここで「記憶媒体」とは、コンピュータの
ハードウエア資源に備えられている読取装置に対して、
プログラムの記述内容に応じて、磁気、光、電気等のエ
ネルギーの変化状態を引き起こして、それに対応する信
号の形式で、読取装置にプログラムの記述内容を伝達で
きるものである。例えば、磁気ディスク、光ディスク、
CD−ROM、コンピュータに内蔵されるメモリなどが
ある。
【0121】また、上述の実施の形態における機能は、
インターネットに代表される広域情報通信網を介して、
検索者に提供することができる。その際、ユーザインタ
フェースに該当する機能は、検索者側の端末に備えてい
る必要がある。もし、インターネット、若しくはイント
ラネットで本発明の文書処理機能を提供する場合には、
一般に流通している閲覧ソフトで閲覧可能な形態で、検
索者側の端末に、関連語等の情報を転送すればよい。
【0122】
【発明の効果】以上説明したように本発明の文書処置装
置では、検索者の特定の文書集合を検索する検索条件に
応じて文書を検索し、検出された文書を判断基準として
関連語を抽出するようにしたため、全体の文書を検索す
る場合に比べ不必要な関連語が抽出されない。また、
書検索プロセスにおける文書絞り込みとは別に、関連語
探索のための検索条件を定めることができる。その結
果、関連語計算に使用する文書集合を自由に定めること
が可能となり、より柔軟な関連語の提示が可能となる。
【0123】また、本発明の単語抽出装置では、検索者
特定の項目集合を検索する検索条件に応じて単語を含
む項目を検索し、検出された項目を判断基準として関連
語を抽出するようにしたため、全体の項目を検索する場
合に比べ不必要な関連語が抽出されない。また、文書検
索プロセスにおける項目の絞り込みとは別に、関連語探
索のための検索条件を定めることができる。その結果、
関連語計算に使用する項目の集合を自由に定めることが
可能となり、より柔軟な関連語の提示が可能となる。
【0124】また、本発明の単語抽出方法では、検索者
特定の項目集合を検索する検索条件に応じて単語を含
む項目を検索し、検出された項目を判断基準として関連
語を抽出するため、全体の項目を検索する場合に比べ不
必要な関連語が抽出されない。また、関連語探索のため
の検索条件を任意に定めることができる。その結果、関
連語計算に使用する項目の集合を自由に定めることが可
能となり、より柔軟な関連語の提示が可能となる。
【0125】
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の第1の実施の形態の構成を示す図であ
る。
【図3】形態素解析結果リストの例を示す図である。
【図4】単語−単語識別子リストの例を示す図である。
【図5】単語識別子−文書識別子リストの例を示す図で
ある。
【図6】文書識別子−単語識別子リストの例を示す図で
ある。
【図7】索引構造の生成の手順を示すフローチャートで
ある。
【図8】本発明の処理手順を示すフローチャートの前半
である。
【図9】本発明の処理手順を示すフローチャートの後半
である。
【図10】第1の実施の形態のユーザインタフェースの
初期画面を示す図である。
【図11】第1の実施の形態のユーザインタフェースの
第1の操作画面を示す図である。
【図12】第1の実施の形態のユーザインタフェースの
第2の操作画面を示す図である。
【図13】第1の実施の形態のユーザインタフェースの
第3の操作画面を示す図である。
【図14】第1の実施の形態のユーザインタフェースの
第4の操作画面を示す図である。
【図15】第1の実施の形態のユーザインタフェースの
第5の操作画面を示す図である。
【図16】第1の実施の形態のユーザインタフェースの
第6の操作画面を示す図である。
【図17】第1の実施の形態のユーザインタフェースの
第7の操作画面を示す図である。
【図18】第1の実施の形態のユーザインタフェースの
第8の操作画面を示す図である。
【図19】第1の実施の形態のユーザインタフェースの
第9の操作画面を示す図である。
【図20】第1の実施の形態のユーザインタフェースの
第10の操作画面を示す図である。
【図21】本発明の第2の実施の形態の構成を示す図で
ある。
【図22】第2の実施の形態のユーザインターフェース
の初期画面を示す図である。
【図23】第2の実施の形態のユーザインタフェースの
第1の操作画面を示す図である。
【図24】第2の実施の形態のユーザインタフェースの
第2の操作画面を示す図である。
【図25】第2の実施の形態のユーザインタフェースの
第3の操作画面を示す図である。
【図26】第2の実施の形態のユーザインタフェースの
第4の操作画面を示す図である。
【図27】第2の実施の形態のユーザインタフェースの
第5の操作画面を示す図である。
【図28】第2の実施の形態のユーザインタフェースの
第6の操作画面を示す図である。
【図29】本発明の効果確認のためのシミュレーション
用データの例である。
【図30】本発明の効果確認のためのシミュレーション
結果を示す図である。
【図31】本発明の実データによる計算結果例を示す図
である。
【符号の説明】
1 文書情報記憶手段 2 検索条件入力手段 3 検索手段 4 キーワード特定手段 5 同時出現確率算出手段 6 第1の単独出現確率算出手段 7 第2の単独出現確率算出手段 8 計算手段 9 単語抽出手段
フロントページの続き (72)発明者 舘野 昌一 神奈川県足柄上郡中井町境430 グリー ンテクなかい 富士ゼロックス株式会社 内 (56)参考文献 特開 平8−153112(JP,A) K.W.Church、P.Hank s,「Word Associatio n Norms,Mutual Inf ormation,and Lexic ography」,Computati onal Linguistics,V ol.16,No.1,1990年3月,p. 22−29 森田、小川、小林,「ファジィ文書検 索システム(1)実験システムと評価 〜」,情報処理学会第39回(平成元年度 後期)全国大会講演論文集(▲II ▼),平成1年10月16日,p.1067− 1068 北村、松本,「対訳コーパス中の共起 頻度に基づく対訳表現の自動抽出」,電 子情報通信学会技術研究報告,Vol. 96,No.157(MLC96−9〜20), 平成8年7月18日,p.69−76 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書を識別する文書識別子およびその文
    書内に含まれる単語とを組にして記憶している文書情報
    記憶手段と、 前記文書情報記憶手段に記憶されている文書内の特定の
    文書集合を検索する検索条件を入力する検索条件入力手
    段と、 前記検索条件入力手段により入力された検索条件に適合
    する文書を前記文書情報記憶手段より検索する検索手段
    と、 前記検索手段により検索された文書内に含まれる単語の
    うち、任意の単語を関連語探索単語とし、前記関連語探
    索単語以外の単語を関連語候補とするキーワード特定手
    段と、 前記関連語探索単語と前記関連語候補中の一つの単語と
    が、前記検索手段により検索された文書の中の一つの文
    書内に含まれる確率である同時出現確率を、前記関連語
    候補中の単語ごとに求める同時出現確率算出手段と、 前記関連語探索単語が、前記文書情報記憶手段に記憶さ
    れている文書の中の一つの文書内に含まれる確率を求め
    る第1の単独出現確率算出手段と、 前記関連語候補中の一つの単語が前記文書情報記憶手段
    に記憶されている文書の中の一つの文書内に含まれる確
    率を、前記関連語候補中の単語ごとに求める第2の単独
    出現確率算出手段と、 前記第1の単独出現確率算出手段により求められた確率
    と、第2の単独出現確率算出手段により求められた確率
    との積または和を、前記関連語候補中の単語ごとに計算
    する計算手段と、 前記関連語候補中の単語ごとに、同時出現確率算出手段
    により求められた前記同時出現確率と前記計算手段によ
    り計算された値との比率を求め、各単語の比率に応じて
    単語を抽出する単語抽出手段と、 を具備することを特徴とする文書処理装置。
  2. 【請求項2】 複数の単語を含む項目を識別する項目識
    別子とその項目内に含まれる単語とを組にして記憶して
    いる項目記憶手段と、 前記項目記憶手段に記憶されている項目内の特定の項目
    集合を検索する検索条件を入力する検索条件入力手段
    と、 前記検索条件入力手段により入力された検索条件に適合
    する項目を前記項目記憶手段より検索する検索手段と、 前記検索手段により検索された項目内に含まれる単語の
    うち、任意の単語を関連語探索単語とし、前記関連語探
    索単語以外の単語を関連語候補とするキーワード特定手
    段と、 前記関連語探索単語と前記関連語候補中の一つの単語と
    が、前記検索手段により検索された項目の中の一つの項
    目内に含まれる確率である同時出現確率を、前記関連語
    候補中の単語ごとに求める同時出現確率算出手段と、 前記関連語探索単語が、前記項目記憶手段に記憶されて
    いる項目の中の一つの項目内に含まれる確率を求める第
    1の単独出現確率算出手段と、 前記関連語候補中の一つの単語が前記項目記憶手段に記
    憶されている項目の中の一つの項目内に含まれる確率
    を、前記関連語候補中の単語ごとに求める第2の単独出
    現確率算出手段と、 前記第1の単独出現確率算出手段により求められた確率
    と、第2の単独出現確率算出手段により求められた確率
    との積または和を、前記関連語候補中の単語ごとに計算
    する計算手段と、 前記関連語候補中の単語ごとに、同時出現確率算出手段
    により求められた前記同時出現確率と前記計算手段によ
    り計算された値との比率を求め、各単語ごとの比率に応
    じて単語を抽出する関連語抽出手段と、 を具備することを特徴とする単語抽出装置。
  3. 【請求項3】 複数の単語を含む項目を識別する項目識
    別子とその項目内に含まれる単語とを組にして記憶して
    いる項目記憶手段と、 前記項目記憶手段に記憶されている項目内の特定の項目
    集合を検索する索条件を入力する検索条件入力手段と、 前記検索条件入力手段により入力された検索条件に適合
    する項目を前記項目記憶手段より検索する検索手段と、 前記検索手段により検索された項目内に含まれる単語の
    うち、任意の単語を関連語探索単語とし、前記関連語探
    索単語以外の単語を関連語候補とするキーワード特定手
    段と、 前記関連語探索単語と前記関連語候補中の一つの単語と
    が、前記検索手段により検索された項目の中の一つの項
    目内に含まれる確率である同時出現確率を、前記関連語
    候補中の単語ごとに求める同時出現確率算出手段と、 前記関連語探索単語が、前記項目記憶手段に記憶されて
    いる項目の中の一つの項目内に含まれる確率を求める第
    1の単独出現確率算出手段と、 前記関連語候補中の一つの単語が前記項目記憶手段に記
    憶されている項目の中の一つの項目内に含まれる確率
    を、前記関連語候補中の単語ごとに求める第2の単独出
    現確率算出手段と、 前記第1の単独出現確率算出手段により求められた確率
    と、第2の単独出現確率算出手段により求められた確率
    との積または和を、前記関連語候補中の単語ごとに計算
    する計算手段と、 前記関連語候補中の単語ごとに、同時出現確率算出手段
    により求められた前記同時出現確率と前記計算手段によ
    り計算された値とを用いた統計量を求め、各単語の統計
    量に応じて単語を抽出する関連語抽出手段と、 を具備することを特徴とする単語抽出装置。
  4. 【請求項4】 前記関連語抽出手段は、前記統計量とし
    て相互情報量、Dice−coefficientまた
    はt−scoreを用い、前記統計量が所定の閾値以上
    であり、かつその統計量の大きい単語を関連語として抽
    出することを特徴とする請求項3記載の単語抽出装置。
  5. 【請求項5】 前記検索手段で検索された項目を表示す
    る表示手段をさらに具備することを特徴とする請求項3
    記載の単語抽出装置。
  6. 【請求項6】 複数の単語を含む項目を識別する項目識
    別子とその項目内に含まれる単語とを組にして記憶して
    いる項目記憶手段を具備し、前記項目記憶手段に記憶さ
    れている項目を検索する情報検索装置の単語抽出方法に
    おいて、前記項目記憶手段に記憶されている項目内の特
    定の項目集合を検索する検索条件を入力する第1のステ
    ップと、 前記第1のステップにより入力された検索条件に適合す
    る項目を前記項目記憶手段より検索する第2のステップ
    と、 前記第2のステップにより検索された項目内に含まれる
    単語のうち、任意の単語を関連語探索単語とし、前記関
    連語探索単語以外の単語を関連語候補とする第3のステ
    ップと、 前記関連語探索単語と前記関連語候補中の一つの単語と
    が、前記第2のステップにより検索された項目の中の一
    つの項目内に含まれる確率である同時出現確率を、前記
    関連語候補中の単語ごとに求める第4のステップと、 前記関連語探索単語が、前記項目記憶手段に記憶されて
    いる項目の中の一つの項目内に含まれる確率を求める第
    5のステップと、 前記関連語候補中の一つの単語が前記項目記憶手段に記
    憶されている項目の中の一つの項目内に含まれる確率
    を、前記関連語候補中の単語ごとに求める第6のステッ
    プと、 前記第5のステップにより求められた確率と、前記第6
    のステップにより求められた確率との積または和を、前
    記関連語候補中の単語ごとに計算する第7のステップ
    と、 前記関連語候補中の単語ごとに、前記第4のステップに
    より求められた前記同時出現確率と前記第7のステップ
    により計算された値とを用いた統計量を求め、各単語の
    統計量に応じて単語を抽出する第8のステップと、 を具備することを特徴とする単語抽出方法。
JP08290789A 1996-10-31 1996-10-31 文書処理装置、単語抽出装置及び単語抽出方法 Expired - Fee Related JP3099756B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP08290789A JP3099756B2 (ja) 1996-10-31 1996-10-31 文書処理装置、単語抽出装置及び単語抽出方法
US08/933,113 US5905980A (en) 1996-10-31 1997-09-18 Document processing apparatus, word extracting apparatus, word extracting method and storage medium for storing word extracting program
JP2000112348A JP3584848B2 (ja) 1996-10-31 2000-04-13 文書処理装置、項目検索装置及び項目検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08290789A JP3099756B2 (ja) 1996-10-31 1996-10-31 文書処理装置、単語抽出装置及び単語抽出方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2000112348A Division JP3584848B2 (ja) 1996-10-31 2000-04-13 文書処理装置、項目検索装置及び項目検索方法

Publications (2)

Publication Number Publication Date
JPH10134075A JPH10134075A (ja) 1998-05-22
JP3099756B2 true JP3099756B2 (ja) 2000-10-16

Family

ID=17760527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08290789A Expired - Fee Related JP3099756B2 (ja) 1996-10-31 1996-10-31 文書処理装置、単語抽出装置及び単語抽出方法

Country Status (2)

Country Link
US (1) US5905980A (ja)
JP (1) JP3099756B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331032A (ja) * 1996-10-31 2000-11-30 Fuji Xerox Co Ltd 文書処理装置、単語抽出装置及び単語抽出方法

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6154757A (en) * 1997-01-29 2000-11-28 Krause; Philip R. Electronic text reading environment enhancement method and apparatus
JPH10307846A (ja) * 1997-03-03 1998-11-17 Toshiba Corp ドキュメント情報管理システム、ドキュメント情報管理方法、及びドキュメント検索方法
JP3173411B2 (ja) * 1997-03-17 2001-06-04 富士ゼロックス株式会社 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
US6128613A (en) * 1997-06-26 2000-10-03 The Chinese University Of Hong Kong Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words
JP3114703B2 (ja) * 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
US6405188B1 (en) * 1998-07-31 2002-06-11 Genuity Inc. Information retrieval system
US6314502B1 (en) 1998-11-12 2001-11-06 Ricoh Co., Ltd. Method and apparatus for opportunistic queue processing
US6978297B1 (en) * 1998-11-12 2005-12-20 Ricoh, Co., Ltd. System and method of managing queues by maintaining metadata files having attributes corresponding to capture of electronic document and using the metadata files to selectively lock the electronic document
US7039688B2 (en) * 1998-11-12 2006-05-02 Ricoh Co., Ltd. Method and apparatus for automatic network configuration
JP3022539B1 (ja) * 1999-01-07 2000-03-21 富士ゼロックス株式会社 文書検索装置
US6631373B1 (en) * 1999-03-02 2003-10-07 Canon Kabushiki Kaisha Segmented document indexing and search
US6269361B1 (en) * 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
JP3918374B2 (ja) 1999-09-10 2007-05-23 富士ゼロックス株式会社 文書検索装置および方法
US7386599B1 (en) 1999-09-30 2008-06-10 Ricoh Co., Ltd. Methods and apparatuses for searching both external public documents and internal private documents in response to single search request
US7239406B1 (en) 1999-09-30 2007-07-03 Ricoh Co., Ltd System for capturing facsimile data in an electronic document management system
US6772338B1 (en) 1999-10-26 2004-08-03 Ricoh Co., Ltd. Device for transfering data between an unconscious capture device and another device
EP1102472B1 (en) * 1999-11-12 2002-12-04 Ricoh Company, Ltd. Capturing facsimile data in an electronic document management system
DE60044423D1 (de) * 2000-02-03 2010-07-01 Hitachi Ltd Verfahren und Gerät zum Wiederauffinden und Ausgeben von Dokumenten und Speichermedium mit entspechendem Program
US7333983B2 (en) 2000-02-03 2008-02-19 Hitachi, Ltd. Method of and an apparatus for retrieving and delivering documents and a recording media on which a program for retrieving and delivering documents are stored
GB2362238A (en) 2000-05-12 2001-11-14 Applied Psychology Res Ltd Automatic text classification
US20020099730A1 (en) * 2000-05-12 2002-07-25 Applied Psychology Research Limited Automatic text classification system
US7322047B2 (en) 2000-11-13 2008-01-22 Digital Doors, Inc. Data security system and method associated with data mining
US7669051B2 (en) * 2000-11-13 2010-02-23 DigitalDoors, Inc. Data security system and method with multiple independent levels of security
US7146644B2 (en) * 2000-11-13 2006-12-05 Digital Doors, Inc. Data security system and method responsive to electronic attacks
US7313825B2 (en) * 2000-11-13 2007-12-25 Digital Doors, Inc. Data security system and method for portable device
US7140044B2 (en) * 2000-11-13 2006-11-21 Digital Doors, Inc. Data security system and method for separation of user communities
US8176563B2 (en) * 2000-11-13 2012-05-08 DigitalDoors, Inc. Data security system and method with editor
US7103915B2 (en) * 2000-11-13 2006-09-05 Digital Doors, Inc. Data security system and method
US8677505B2 (en) * 2000-11-13 2014-03-18 Digital Doors, Inc. Security system with extraction, reconstruction and secure recovery and storage of data
US7191252B2 (en) * 2000-11-13 2007-03-13 Digital Doors, Inc. Data security system and method adjunct to e-mail, browser or telecom program
US7546334B2 (en) 2000-11-13 2009-06-09 Digital Doors, Inc. Data security system and method with adaptive filter
US7349987B2 (en) * 2000-11-13 2008-03-25 Digital Doors, Inc. Data security system and method with parsing and dispersion techniques
US9311499B2 (en) * 2000-11-13 2016-04-12 Ron M. Redlich Data security system and with territorial, geographic and triggering event protocol
DE10057634C2 (de) * 2000-11-21 2003-01-30 Bosch Gmbh Robert Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
US20020133585A1 (en) * 2001-03-13 2002-09-19 Deming Douglas R. Computer program for recording and selective playback of a communication involving the hypertext transfer protocol
US20020133450A1 (en) * 2001-03-13 2002-09-19 Deming Douglas R. Hypertext transfer protocol application programming interface between client-side trading systems and server-side stock trading systems
US20050044274A1 (en) * 2001-03-13 2005-02-24 Deming Douglas R. Methods of handling automated trading
AU2006203729B2 (en) * 2001-11-26 2008-07-31 Fujitsu Limited Information analyzing method and apparatus
US7814043B2 (en) * 2001-11-26 2010-10-12 Fujitsu Limited Content information analyzing method and apparatus
US20030157470A1 (en) * 2002-02-11 2003-08-21 Michael Altenhofen E-learning station and interface
US20040049505A1 (en) * 2002-09-11 2004-03-11 Kelly Pennock Textual on-line analytical processing method and system
US7249312B2 (en) * 2002-09-11 2007-07-24 Intelligent Results Attribute scoring for unstructured content
JP2004280488A (ja) * 2003-03-17 2004-10-07 Hitachi Ltd 文書管理方法及び文書管理装置
US8533840B2 (en) * 2003-03-25 2013-09-10 DigitalDoors, Inc. Method and system of quantifying risk
JP2004348241A (ja) * 2003-05-20 2004-12-09 Hitachi Ltd 情報提供方法、サーバ及びプログラム
US20050010764A1 (en) * 2003-06-26 2005-01-13 International Business Machines Corporation System and method for securely transmitting, and improving the transmission of, tag based protocol files containing proprietary information
US7383262B2 (en) * 2004-06-29 2008-06-03 Microsoft Corporation Ranking database query results using probabilistic models from information retrieval
US20060074980A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
JP4008954B2 (ja) 2004-10-29 2007-11-14 松下電器産業株式会社 情報検索装置
JPWO2006051966A1 (ja) * 2004-11-12 2008-05-29 株式会社ジャストシステム 文書管理装置及び文書管理方法
WO2006073095A1 (ja) 2005-01-07 2006-07-13 Matsushita Electric Industrial Co., Ltd. 連想辞書作成装置
US9092523B2 (en) 2005-02-28 2015-07-28 Search Engine Technologies, Llc Methods of and systems for searching by incorporating user-entered information
US7392253B2 (en) * 2005-03-03 2008-06-24 Microsoft Corporation System and method for secure full-text indexing
JP4524640B2 (ja) * 2005-03-31 2010-08-18 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7953720B1 (en) 2005-03-31 2011-05-31 Google Inc. Selecting the best answer to a fact query from among a set of potential answers
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US8239394B1 (en) 2005-03-31 2012-08-07 Google Inc. Bloom filters for query simulation
US8688673B2 (en) * 2005-09-27 2014-04-01 Sarkar Pte Ltd System for communication and collaboration
JP4980604B2 (ja) * 2005-11-11 2012-07-18 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
US8055674B2 (en) * 2006-02-17 2011-11-08 Google Inc. Annotation framework
US7925676B2 (en) 2006-01-27 2011-04-12 Google Inc. Data object visualization using maps
US20070185870A1 (en) 2006-01-27 2007-08-09 Hogue Andrew W Data object visualization using graphs
US8954426B2 (en) * 2006-02-17 2015-02-10 Google Inc. Query language
EP1835418A1 (en) * 2006-03-14 2007-09-19 Hewlett-Packard Development Company, L.P. Improvements in or relating to document retrieval
US8954412B1 (en) 2006-09-28 2015-02-10 Google Inc. Corroborating facts in electronic documents
US8655939B2 (en) * 2007-01-05 2014-02-18 Digital Doors, Inc. Electromagnetic pulse (EMP) hardened information infrastructure with extractor, cloud dispersal, secure storage, content analysis and classification and method therefor
US9015301B2 (en) * 2007-01-05 2015-04-21 Digital Doors, Inc. Information infrastructure management tools with extractor, secure storage, content analysis and classification and method therefor
US8468244B2 (en) 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US8239751B1 (en) 2007-05-16 2012-08-07 Google Inc. Data from web documents in a spreadsheet
CN101606155B (zh) * 2007-08-09 2013-03-13 松下电器产业株式会社 内容检索装置
JP5161658B2 (ja) 2008-05-30 2013-03-13 株式会社東芝 キーワード入力支援装置、キーワード入力支援方法及びプログラム
JP2009080842A (ja) * 2008-12-12 2009-04-16 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム、及び記録媒体
US8719701B2 (en) * 2009-01-02 2014-05-06 Apple Inc. Identification of guides and gutters of a document
US9087059B2 (en) * 2009-08-07 2015-07-21 Google Inc. User interface for presenting search results for multiple regions of a visual query
US9135277B2 (en) 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US20110314001A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Performing query expansion based upon statistical analysis of structured data
US9495334B2 (en) * 2012-02-01 2016-11-15 Adobe Systems Incorporated Visualizing content referenced in an electronic document
US20150074127A1 (en) * 2013-09-10 2015-03-12 Microsoft Corporation Creating Visualizations from Data in Electronic Documents
WO2015086824A1 (en) * 2013-12-13 2015-06-18 Danmarks Tekniske Universitet Method of and system for information retrieval
WO2016151690A1 (ja) * 2015-03-20 2016-09-29 株式会社 東芝 文書検索装置、方法及びプログラム
GB2537927A (en) 2015-04-30 2016-11-02 Fujitsu Ltd Term Probabilistic Model For Co-occurrence Scores
JP6711678B2 (ja) * 2016-04-13 2020-06-17 キヤノン株式会社 情報処理システム、情報処理方法及びプログラム
JP6847812B2 (ja) * 2017-10-25 2021-03-24 株式会社東芝 文書理解支援装置、文書理解支援方法、およびプログラム
CN109885180B (zh) * 2019-02-21 2022-12-06 北京百度网讯科技有限公司 纠错方法和装置、计算机可读介质
CN113361275A (zh) * 2021-08-10 2021-09-07 北京优幕科技有限责任公司 演讲稿逻辑结构评价方法和设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02297290A (ja) * 1989-05-11 1990-12-07 Fuji Xerox Co Ltd 検索装置
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5694559A (en) * 1995-03-07 1997-12-02 Microsoft Corporation On-line help method and system utilizing free text query
US5749081A (en) * 1995-04-06 1998-05-05 Firefly Network, Inc. System and method for recommending items to a user
US5737734A (en) * 1995-09-15 1998-04-07 Infonautics Corporation Query word relevance adjustment in a search of an information retrieval system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
K.W.Church、P.Hanks,「Word Association Norms,Mutual Information,and Lexicography」,Computational Linguistics,Vol.16,No.1,1990年3月,p.22−29
北村、松本,「対訳コーパス中の共起頻度に基づく対訳表現の自動抽出」,電子情報通信学会技術研究報告,Vol.96,No.157(MLC96−9〜20),平成8年7月18日,p.69−76
森田、小川、小林,「ファジィ文書検索システム(1)実験システムと評価〜」,情報処理学会第39回(平成元年度後期)全国大会講演論文集(▲II▼),平成1年10月16日,p.1067−1068

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000331032A (ja) * 1996-10-31 2000-11-30 Fuji Xerox Co Ltd 文書処理装置、単語抽出装置及び単語抽出方法

Also Published As

Publication number Publication date
US5905980A (en) 1999-05-18
JPH10134075A (ja) 1998-05-22

Similar Documents

Publication Publication Date Title
JP3099756B2 (ja) 文書処理装置、単語抽出装置及び単語抽出方法
Clifton et al. Topcat: Data mining for topic identification in a text corpus
Larkey A patent search and classification system
US8051080B2 (en) Contextual ranking of keywords using click data
US5848407A (en) Hypertext document retrieving apparatus for retrieving hypertext documents relating to each other
JP4241934B2 (ja) テキスト処理及び検索システム及び方法
US7949648B2 (en) Compiling and accessing subject-specific information from a computer network
US10552467B2 (en) System and method for language sensitive contextual searching
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
JPH0778182A (ja) キーワード付与システム
US20050114317A1 (en) Ordering of web search results
JP4967133B2 (ja) 情報取得装置、そのプログラム及び方法
Benitez et al. Semantic knowledge construction from annotated image collections
JP3431836B2 (ja) ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP2014102625A (ja) 情報検索システム、プログラム、および方法
Kahloula et al. Plagiarism Detection in Arabic Documents: Approaches, Architecture and Systems.
JP2002032394A (ja) 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体
JP2003216634A (ja) 情報検索システム
Dhanapal An intelligent information retrieval agent
WO2009035871A1 (en) Browsing knowledge on the basis of semantic relations
US20150046437A1 (en) Search Method
JP2005316590A (ja) 情報検索装置
Boddu ELIMINATE THE NOISY DATA FROM WEB PAGES USING DATA MINING TECHNIQUES.
Murata Detection of breaking news from online web search queries

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070818

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080818

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090818

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100818

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees