JP2004029906A - 文書検索装置および方法 - Google Patents

文書検索装置および方法 Download PDF

Info

Publication number
JP2004029906A
JP2004029906A JP2002181203A JP2002181203A JP2004029906A JP 2004029906 A JP2004029906 A JP 2004029906A JP 2002181203 A JP2002181203 A JP 2002181203A JP 2002181203 A JP2002181203 A JP 2002181203A JP 2004029906 A JP2004029906 A JP 2004029906A
Authority
JP
Japan
Prior art keywords
search
word
index
document
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002181203A
Other languages
English (en)
Inventor
Katsunori Yoshiji
芳地 克典
Takeshi Nagamine
永峯 猛志
Akio Yamashita
山下 明男
Yasushi Seiki
清木 康
Hisafumi Yoshida
吉田 尚史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2002181203A priority Critical patent/JP2004029906A/ja
Publication of JP2004029906A publication Critical patent/JP2004029906A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索語と索引語の両方について拡張データベースを使って上位・下位・関連概念に拡張し、柔軟性を持った検索を行う。
【解決手段】検索要求受付部201は、検索語指定部201a、検索語拡張指定部201b、索引語拡張指定部201cを含んでいる。検索語指定部201aは、ユーザが指定した検索語を入力する。検索語拡張指定部201bではその検索語をどのように拡張するかを指定する。索引語拡張指定部201cではインデックスに保存される単語でどの拡張データベースで拡張された単語を検索対象とするかを指定する。固有表現拡張部202は検索語、検索語拡張指定、索引語拡張指定を受け取り、検索語を検索語拡張指定に基づき拡張する。検索部204は拡張された検索語と索引語拡張指定を受け取り、これらを用いてインデックスから検索する。
【選択図】 図14

Description

【0001】
【発明の属する技術分野】
この発明は、索引語に関係付けられた文書を検索語を指定して検索する文書検索技術に関し、とくに、検索語や索引語を所望の態様で拡張し、漏れのない検索を簡易に行えるようにしたものである。
【0002】
【従来の技術】
従来、検索語を何らかの方法を使って拡張し文書検索に役立てる方法が提案されている。例えば検索用に入力されたカテゴリに対して、それをキー語に展開したり(例.カテゴリ語を「コンピュータ」として、キー語を「OS、ソフトウエア、CPU」に展開する。特開平7―121552号公報)、一度文書に対して検索語で検索を行い、ヒットした文書に含まれる語集合で再検索を行う関連文書検索がある。また、人手で、関連語グループを作成しておき、検索語が関連語グループ内の語集合内に存在する場合、そのグループ内の語集合で検索を行う形式のものも提案されている(特開平9―44506号公報)。検索語の上位、下位、横の関係語による拡張を行い、検索を行う方式も提案されている(特開平1―201723号公報)。
【0003】
特開平3−122768号公報では、シソーラスを用いて関連索引語の一覧を作成し、ユーザに表示してどれを索引語として登録させるか選択させることが提案されている。
【0004】
特開平3−123971号公報では、予め文書から単語の関係を抽出した検索語コネクションを用いて関連索引語の一覧を作成し、ユーザに表示してどれを索引語として登録させるか選択させることが提案されている。
【0005】
また、検索語の展開には、固定的なシソーラス辞書を用いたり(特開平1―201723号公報)、人手で作成した関連語辞書を用いて行っている。関連検索の場合は種となる文書を指定して、その文書中に含まれる単語を用いて展開している。
【0006】
しかしながら、従来の方法では、検索語に対する上位・下位・関連語への拡張は行うものの、拡張した単語と、対象文書中の単語の表現や概念レベルが異なっていると検索できない場合があった。
【0007】
特開平3−122768号公報の手法や特開平3−123971号公報の手法では、文書毎に索引語の登録時に人手により拡張する索引語を選択しなければならない。
【0008】
また、関連辞書を用いて行う場合、既に存在するシソーラス辞書の対象とするドメインに入力すべき文書の範囲も限られ、一般的な文書の検索に対応できない問題があった。
【0009】
また、人手で関連語辞書を作成するのは、非常に労力を要し、対象とする分野を限っても、日々増えつづける語に対応することは困難である。
【0010】
【発明が解決する課題】
この発明は、以上の事情を考慮してなされたものであり、ユーザが指定した拡張方法等を指定したうえで検索語を入力するだけで漏れのない文書検索を行う技術を提供することを目的としている。
【0011】
【課題を解決するための手段】
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。
【0012】
この発明の一例によれば、検索語や索引語片方だけでなく両方とも上位概念、下位概念、関連語に展開する。また、その展開の程度や拡張方法を使用者が指定することが出来る。検索語と索引語両方を拡張することにより非常に抽象度の高い検索や、非常に具体性の高い検索を行うことが出来るようになる。なお、検索語は検索時にユーザ等により指定されるものであり、索引語は検索に用いる文書のメタデータである。以下では、文書と検索語との関係付けをインデックスと呼ぶこともある。
【0013】
検索に用いる単語は通常の形態素解析の結果だけでなく、固有名詞抽出技術を用い、固有名の正規化により表現の揺れを吸収したり、検索の際のコスト付けにも固有名に対しては一般名詞よりコストを重く与え、情報量が高いと考えられる固有名に重心を置いた検索が出来る。
【0014】
関連語データベースは固有名詞抽出技術を用いて、文書や辞書などから固有名詞を抽出し、その中におけるキー語となるエントリをユーザがあらかじめ指定しておくことにより、エントリ以外のカテゴリの単語はエントリの属性となるように関連語データベースを作成する。
【0015】
固有表現には人名、地名、組織名、日付、時間、金額などがあり、これについて上位概念、下位概念、関連概念などの拡張を行う。
拡張には例えば次のようなものがある。
人名:属する組織、上司・部下、趣味、住所、友人
地名:行政区域の包含関係、その他を代表する物、人
組織名:業種上位下位、会社系列上位下位、属する人物、所在地、産出物
日付:時間的前後関係、包含関係
時間:時間的前後関係、包含関係
金額:通貨表現
専門用語:上位下位の専門用語、関連する人物、
製品名:ラインナップ名、上位下位機種、メーカ、使用技術、構成部品
【0016】
さらに、この発明を説明する。この発明の一側面によれば、文書検索装置に:検索語を入力する入力手段と;その検索語の概念を拡張する方向と深さを指定する入力手段と;対象文書側の索引語の概念を拡張する方向と深さを指定する入力手段と;検索語および索引語を拡張するのに用いる拡張データベースを記憶する記憶手段と;索引語と結び付けられた文書を格納する記憶手段と;上記拡張データベースを使って上記検索語および上記索引語を拡張する拡張手段と;拡張された検索語および拡張された索引語を突き合わせて文書の検索を行う検索手段とを設けるようにしている。
【0017】
この構成においては、索引語および検索語の双方についてユーザの指定した拡張が可能となり、漏れのない検索を簡易に行うことができる。
【0018】
この構成において、上記検索手段は、拡張された索引語の集合に概念レベルや出現頻度に基づいたコスト付けを行い、上記拡張された検索語との突き合わせを行うようにすることが好ましい。
【0019】
このようにすれば、拡張された検索語および索引語により漏れなく検索を行えるとともに。コスト付けにより、ユーザの視点に立った絞り込みも可能になる。
【0020】
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
【0021】
この発明の上述の側面およびこの発明の他の側面は特許請求の範囲に記載され、以下実施例を用いて詳細に説明される。また、この発明の上述以外の目的についても以下から容易に理解される。
【0022】
【発明の実施の形態】
以下、この発明の実施例について説明する。この実施例は、文書登録装置、文書検索装置および拡張データベース生成装置を含んでいる。もちろん、文書登録装置、文書検索装置および拡張データベース生成装置を個別に構成してもよいし、組み合わせて構成してもよい。
【0023】
以下では、実施例の文書登録装置、文書検索装置および拡張データベース生成装置について順に説明する。文書登録装置は、検索対象としたい文書群を実施例の検索システムに登録するために用いられる。文書検索装置は、登録した文書を検索するために用いられる。拡張データベース生成装置は検索語や索引語を拡張するためのデータベースを生成するために用いられる。
【0024】
[文書登録装置]
図1は、文書登録装置10を全体として示しており、この図において、文書登録装置10は、文書受付部101、固有表現拡張部102、拡張データベース103、拡張語登録部104およびインデックス記憶部105を含んで構成されている。
【0025】
ユーザは登録したい文書を文書受付部101へ渡す。文書受付部101はユーザより受け取った文書を2の固有表現拡張部102へ渡す。固有表現拡張部102は受け取った文書から、固有表現を抽出し、拡張データベース103を使って、抽出された固有表現に対してその拡張語と拡張方法を獲得する。抽出された拡張語と拡張方法は拡張語登録部104に渡され、インデックス記憶部105に文書のIDと関連付けられて登録される。固有表現拡張部102は一般名詞も抽出し、同様に処理する。ここで「固有表現」は、人名、組織名、地名等の固有名詞や日時、価格(通貨)等の重要語句を指す。
【0026】
たとえば、文書として「富士ゼロックスが3月7日に赤坂で新機種についてプレス発表をした」(「富士ゼロックス」は商標である)という記事があるとする。この文書中に「富士ゼロックス」、「赤坂」、「3月7日」が含まれているとする。以下では、これらの固有表現に限定して説明を行うが、一般名詞についても従来の全文検索同様、文書から抽出しインデックスへ登録する。
【0027】
拡張データベース103は複数のテーブルから成る。各テーブルは基本語と拡張語の対のリストから成る。その拡張の意味にあわせて、各テーブルに分類されている。各テーブルには図2〜図10に示すような情報が保持されている。
【0028】
固有表現拡張部102は拡張データベース103(図2〜図10)を使用して、単語を基本語から拡張語に拡張する。
【0029】
上例では上位概念展開用と下位概念展開用を用意したが、上位概念展開用のテーブルを拡張語から基本語へと逆に展開することにより、一つのテーブルで上位概念、下位概念両方に展開することができる。この例を図11に示す。
【0030】
拡張の例としては、あるテーブルによって拡張された拡張語を基本語として、同じまたは別のテーブルを使用し拡張を繰り返すことが考えられる。また、そのときに何回拡張するか等を明示的に与えることも可能である。
【0031】
以下の例では、上位概念、下位概念を表わすテーブルによって拡張された拡張語はさらに同テーブルを用いて上位概念、または下位概念に拡張される。例えば、”富士ゼロックス”の上位概念は「組織名業種上位概念テーブル」により”OA機器メーカー”であることが求まる。さらに”OA機器メーカー”の業種上位概念を得たければ、同テーブルを使用することにより”製造業”を得ることができる。
【0032】
また、以下の例では、上位・下位を持たない関連テーブルによって拡張される基本語は一回のみの拡張とする。
【0033】
また拡張された回数に応じて、その拡張語に重み付けを行ってもよい。以下の例では、重みwは拡張された回数nをもとに
【数1】
w=1/(n+1)×10      ――――(式1)
で計算される。wが1よりも小さくなる場合はwは1とする。wの取る値は1〜10の間の実数となる。
【0034】
また重み付けの別の例として1文書におけるその単語の出現頻度をもとに重みを計算してもよいし、上記の重みとの組み合わせで計算してもよい。
【0035】
固有表現拡張部は文書1に含まれる「富士ゼロックス」、「赤坂」、「3月7日」を抽出し、上記の拡張データベースを利用して、固有表現を拡張語へ拡張する。それぞれの固有表現は図12に示すように拡張される。図12において「拡張方法」には、拡張データベースのどのテーブルを使用したかが記述される。この例ではテーブル名が直接記述されているが、対応するID番号を別途設けそれらを記述してもよい。文書中に直接含まれている単語については拡張方法を「オリジナル」としてその単語そのものを拡張語とする。
【0036】
固有表現拡張部102は基本語と拡張語と重みと拡張方法及び文書IDを拡張語登録部104に渡す。拡張語登録部104は受け取った文書ID、重み、拡張語、拡張方法を拡張語と拡張方法をキーとして、文書IDおよび重みが求まるようにインデックス記憶部105に登録する。インデックス記憶部105に登録されたインデックスの例(インデックス1)を図13に示す。
【0037】
なお、ここでは固有名にのみ着目しているが、一般的な全文検索同様、一般名詞をキーとして文書IDを得るように登録することも可能である。
【0038】
[文書検索装置]
つぎにユーザから検索要求を受け付け、文書を検索する文書検索装置20について説明する。
【0039】
図14は文書検索装置20を全体として示しており、この図において、文書検索装置20は、検索要求受付部201、固有表現拡張部202、拡張データベース203、検索部204、インデックス記憶部205および検索結果提示部206等を含んで構成されている。
【0040】
ユーザは検索要求として検索語指定と検索語拡張指定と索引語拡張指定を検索要求受付部201で行う。検索語はユーザが欲する文書に関連があると思われる単語であり、ユーザが指定する。もちろん、自然文を受け付けてその自然文から検索語を抽出してもよい。検索要求受付部201は、検索語指定部201a、検索語拡張指定部201b、索引語拡張指定部201cを含んでいる。検索語指定部201aは、ユーザが指定した検索語を入力する。検索語拡張指定部201bではその検索語を拡張データベース203使用してどのように拡張するかを指定する。指定の方法としては、複数の拡張テーブルの組み合わせや、上位・下位関係を持つ拡張テーブルについては上位または下位方向に何回拡張するかを指定できる。よく利用されると考えられる拡張の態様に、ユーザが理解しやすい名称を付して拡張をパッケージ化してもよい。
【0041】
たとえば、ある検索語をある拡張テーブル1を使用して拡張し、その結果得られた拡張語を別の拡張テーブル2で更に拡張したい場合は、「拡張テーブル1:拡張テーブル2」といったようにテーブル名を連ねて与える。また、ある検索語を上位クラスに拡張するために、上位クラスに拡張するための拡張テーブルを何回適用するかを指定できる。回数を指定しない場合は拡張可能な限り繰り返したり、あらかじめ定められた回数を繰り返すなどとしてもよい。
【0042】
検索語拡張指定を指定しない場合は、拡張はせずに検索語そのもののみで検索、または拡張可能なすべての拡張テーブルを指定したことにしてもよい。予めデフォルトの拡張テーブルを決定しておいてもよい。検索語拡張指定は各検索語ごとに指定できる。
【0043】
索引語拡張指定部201cではインデックスに保存される単語でどの拡張データベースで拡張された単語を検索対象とするかを指定する。検索語拡張指定は各検索語ごとに指定できる。
【0044】
指定の方法としては、検索語拡張指定同様、拡張テーブルの組み合わせや、上位・下位関係を持つ拡張テーブルについては上位または下位方向に何回拡張するかを指定できる。
【0045】
とくに指定しない場合は、拡張されていない索引語のみ、または拡張されているすべての索引語を検索対象に指定したことにしてもよい。予めデフォルトの拡張テーブルを決定しておいてもよい。索引語に予め属性を付与しておき、その属性毎に索引を拡張してを行うようにしてもよい。検索語毎に索引語拡張指定を行うようにしてもよい。例えば、所定の検索語についてはマッピングする索引語の拡張を有効にし、他の検索語についてはマッピングする索引語の拡張を無効にするようにしてもよい。
【0046】
また、索引語拡張指定は先の検索語拡張指定の制限を受けてもよい。たとえば検索語拡張指定で検索語を「組織名業種上位概念テーブル」で拡張した場合、その検索語に対する索引語拡張指定は「組織名業種上位概念テーブル」または「組織名業種下位概念テーブル」を自動的に選択してもよい。それらの制限をルールとしてあらかじめ与えておくことも可能とする。
【0047】
以下に検索の例を示す。
【0048】
たとえば、「3月に品川あたりで複写機メーカーが新製品の展示会を行った」という曖昧な情報をユーザが入手し、その記事を検索したいと思い、検索語として「リコー and 品川 and 3月」(「リコー」は商標である)を与えるとする。
【0049】
ユーザは複写機メーカの一例として「リコー」を思いつくが、あいまいなので検索語拡張指定では、組織名業種で1つ上の上位概念への拡張を意味する「組織名業種上位概念テーブル」を指定し、「品川」も曖昧と判断し「地名上位概念テーブル」を指定する。「3月」は正確であると判断しとくに拡張は指定しない。索引語拡張指定はとくにここでは指定しないことにする。この場合、すべての拡張方法で拡張された索引語を検索対象とする。
【0050】
固有表現拡張部202は検索語、検索語拡張指定、索引語拡張指定を受け取り、検索語を検索語拡張指定に基づき拡張する。ここでは「リコー」は「組織名業種上位概念テーブル」によって「OA機器メーカー」に拡張され、同テーブルによってさらにその拡張語である「製造業」に拡張される。拡張語はorで結ばれる。「品川」は「地名上位概念テーブル」によって「東京」とその拡張語である「関東」さらに「日本」に拡張されorで結ばれる。
【0051】
検索部204は拡張された検索語「(リコー or OA機器メーカー or製造業) and (品川 or 東京 or 関東 or 日本) and3月」と索引語拡張指定を受け取り、これらを用いてインデックスから検索する。
【0052】
索引語拡張指定は拡張方法を問わずすべての索引語が検索対象として指定されているので、拡張方法を問わず検索する。図13のインデックスを検索した場合、図15の内容が検索される。
【0053】
検索結果提示部206は検索結果として文書IDを受け取り、それに対応するタイトルまたは概要等をユーザに提示する。この例では、図示しないが文書IDとそれに対応づけられた本文、タイトル等を含むデータベースが別に存在するものとする。
【0054】
このように、ユーザが指定した検索語を直接含まない文書についても関連があると思われる文書を検索することが可能である。またインデックスにはあらかじめ拡張された索引語が登録されているため検索時に索引語を拡張することがなく高速に検索が可能である。
【0055】
次は、検索結果をランキングして提示する場合の例である。検索結果提示部206において、インデックスに含まれる拡張語と検索語を拡張した拡張語の重みをもとに検索された文書をランキングを行う。
【0056】
上記の拡張された検索語「(リコー or OA機器メーカー or 製造業) and (品川 or 東京 or 関東 or 日本) and 3月」のそれぞれの検索語に対して、拡張された回数に応じて次のように重み付けをする。この重み付けの例は、式(1)を用いて計算したものである。
【表1】
「(リコー:(1/1)*10 or OA機器メーカー:(1/2)*10 or 製造業:(1/3)*10) and (品川:(1/1)*10 or東京:(1/2)*10 or 関東:(1/3)*10 or 日本:(1/4)*10) and 3月:(1/1) *10」
【0057】
「リコー」はオリジナルであるので拡張回数は0回、式(1)によると重みは(1/1)*10=10となる。また、「東京」は「品川」から一回拡張されているので(1/2)*10=5となる。
【0058】
この重み付けされた検索語によって検索された文書のスコアDwは以下のように計算される。
【数2】
Dw=Σi(word[i].kw×word[i].iw)――――(式2)
【0059】
ここでword[i]はユーザが指定した検索語(拡張語を含む)と検索された文書に共通に含まれる単語である。word[i].kwはword[i]の検索語側の重みであり、word[i].iwは索引語側の重みである。
【0060】
具体的に上記の重み付けされた検索語と図13のインデックスから検索された文書1は図16に示すように計算される。
【0061】
文書1のスコアは(10.89+25+5+8.25+16.5+50)=115.64となる。このスコアの計算方法に従えば、ユーザが与えた検索語そのものを含む文書はより高いスコアを、その拡張が繰り返された拡張語で検索された場合はより低いスコアとなる。
【0062】
たとえば、文書2としてリコーが3月10日に品川で新製品の展示会をしたと言う記事がインデックス1(図13)に加えて登録されている場合(図17)、上記の検索要求では、文書1よりも高いスコアが与えられる。文書2のスコアは図18に示すように(10.89+25+100+5+8.25+16.5+100+50)=315.64となる。
【0063】
また、文書3として、富士通が3月12日に横浜で新製品の展示会を行った記事が図19に示すようにインデックスに登録されている場合、文書1よりも低いスコアが与えられる。図20に示すように文書3のスコアは(10.89+5+8.25+50)=74.14となる。
【0064】
検索結果提示部106はこれらの文書のスコアでランキングを行い、図21に示すようにユーザに提示することが可能である。
【0065】
次は検索結果を分類して提示する構成例を説明する。例として、ユーザは富士ゼロックスに関する概要を知りたいと思い、検索検索語として「富士ゼロックス」を与えるとする。検索語拡張指定はとくにここでは指定しないことにする。この場合、適応可能な拡張テーブルで拡張された拡張語を使用するとする。
【0066】
固有表現拡張部202は検索語、検索語拡張指定、索引語拡張指定を受け取り、検索語を検索語拡張指定に基づき拡張する。ここでは「富士ゼロックス」は図2〜図10の拡張データベースによって以下のように拡張される。検索部204は拡張された検索語と索引語拡張指定と受け取り、これらを用いてインデックスから検索を行う。索引語拡張指定はここではオリジナルの単語のみを検索するように指定してあるものとする。
【0067】
既に、登録されている文書として、図23に示すような文書4〜9が登録されているインデックスがあるとする。これらの文書から作成されるインデックスは図24に示すようになる。ここでは索引語拡張指定としてオリジナルのみを指定しているので拡張された拡張語については省略してある。
【0068】
拡張された検索語、(富士ゼロックス or 製造業 or OA機器メーカー or 富士フィルム or ゼロックス or FXLI or 赤坂 or 富士太郎 or コピー機 or プリンター)で検索される単語は図25に示すようなものになったとする(富士ゼロックス、富士フィルム、ゼロックスおよびFXLIは商標である)。
【0069】
検索部4は、図26に示すような文書IDとそれを検索した検索語と検索語の拡張方法を検索結果提示部206へ送る。検索結果提示部206は拡張方法毎に文書IDを図27に示すように提示する。
【0070】
以上の様に提示することにより、富士ゼロックスに関する情報が、業種上位、系列上位、場所、人、産出物の各カテゴリに分類されて提供される。たとえば業種上位カテゴリに分類される文書4はOA機器メーカーの勢力関係を説明する文書であるので富士ゼロックスを含む業種の関係が分かる。また場所カテゴリに分類される文書は富士ゼロックスと関連のある赤坂の情報を得ることができる。またオリジナルカテゴリは検索語そのもを含む文書9が分類される。
【0071】
索引語拡張指定を行った場合、検索結果提示部は、上記の各カテゴリを更に索引語拡張指定で指定されたカテゴリに分類して表示する。たとえば、検索語指定でオリジナルカテゴリを指定し、索引語拡張指定で組織名業種下位カテゴリとオリジナルカテゴリと組織名業種上位カテゴリを指定した場合、図28に示すように、検索語拡張指定で指定された拡張方法であるオリジナルカテゴリが索引語拡張指定で指定された3つのカテゴリに分類される。この時、検索語として「OA機器メーカー」が与えられていたとすると、文書Aは「リコー」「富士ゼロックス」等を含む文書(業種上位テーブルにより「OA機器メーカー」が拡張語としてインデックスに登録されている)となり、文書Bは「OA機器メーカー」を直接含む文書となる。文書Cは「製造業」を含む文書(業種下位テーブルにより「製造業」が「OA機器メーカ」拡張されて登録されている)となる。
【0072】
1つの文書が複数の拡張方法によって拡張された検索語によって検索された場合、そのまま複数のカテゴリに分類してもよいし、ある拡張方法によって拡張された拡張語をもっとも多く含むならば、そのカテゴリに分類してもよい。
【0073】
たとえば、先ほどの拡張された検索語、(富士ゼロックス or 製造業 or OA機器メーカー or 富士フィルム or ゼロックス or FXLI or 赤坂 or 富士太郎 or コピー機 or プリンター)で検索するとして、新たな文書10が「富士フィルム」、「プリンター」、「コピー機」を含む場合、文書10は系列上位概念テーブルによって拡張された「富士フィルム」と産出物属性テーブルによって拡張された「プリンター」と「コピー機」によって検索される。この場合、文書10は「系列上位カテゴリ」と「産出物カテゴリ」の両方に分類できる。また、「プリンター」と「コピー機」を二つ含むので数の最も多いカテゴリを優先し、「産出物カテゴリ」のみに分類することも可能である。
【0074】
分類されたカテゴリ内で、さきほどのように拡張語の重みを利用してランキングしてもよい。
【0075】
[拡張データベース生成装置]
拡張データベースの構成としては以下の3つを想定している。
(1)汎化(generalization)を表すデータ構造(後述の手法3)
(2)集約化(aggregation)を表すデータ構造(後述の手法4)
(3)関連(association)を表すデータ構造(後述の手法1、2、5)
以下では、拡張データベース生成手法のそれぞれについて説明する。
【0076】
[手法1]
手法1は、定型文書から拡張データベースを作成する(関連語に関する拡張データベースの作成例)ものである。
【0077】
文書として、図29に示すようなSGMLでフォーマットされた会社情報に関するファイルがあるとする。1ファイルに1つの会社情報が記載されているとする。重要語抽出モジュールとして、固有表現抽出部がある。固有表現抽出部は受け取った文書から会社名、地名、人名、数値表現を抽出し、そのカテゴリの判定を行う。またここでは単なる名詞の判定なども含むものとする。
【0078】
図30は、図29に示すような定型文書から拡張データベースを作成する拡張データベース生成装置30を全体として示している。図30において、拡張データベース生成装置30は、定型文書受付部301、文書抽出部302、重要語句抽出部303、関係置き換え部304、関係置き換え表記憶部305、拡張データベース生成部306および拡張データベース307等を含んで構成されている。定型文書受付部301は定型文書を受け付け、文書抽出部302に送る。文書抽出部302は各タグとタグ付けされた文を抽出し、抽出された文を重要語句抽出部303に送る。重要語句抽出部303は、受け取った文を解析し、図31に示すように固有表現を抽出する。関係置き換え部304は抽出結果を受け取り、元のタグとそれぞれの結果を組み合わせて図32に示すようなテーブルを作成する。さらに関係置き換え部304は図33に示すような関係置き換え表を参照しながら、属性を置き換える。置き換え結果は図34に示すようになる。
【0079】
拡張データベース生成部306は置きかえられた属性を受け取り拡張データベースにデータを格納する。この時、エントリ属性を持つ「富士ゼロックス」と他の属性を持つ単語を対にして、属性別に用意したテーブルに図35に示すように格納する。
【0080】
[手法2]
手法2は、非定型文書から拡張データベースを作成する(関連語に関する拡張データベースの作成例)ものである。非定型文書として図36に示すような例を考える。図37は、図36に示すような非定型文書から拡張データベースを作成する拡張データベース生成装置40を全体として示している。図37において、拡張データベース生成装置40は、定型文書受付部401、重要語句抽出部403、関係置き換え部404、関係置き換え表記憶部405、拡張データベース生成部406および拡張データベース407、エントリ指定部408等を含んで構成されている。
【0081】
定型文書受付部401は定型文書を受け付け、重要語句抽出部403に送る。重要語句抽出部403は受け取った文を解析し、固有表現および名詞を抽出する。例えば、図38に示すように抽出を行う。タグによる情報はないので、図39に示すようにNULLをタグ情報として追加し、3つ組みを構成する。3つ組の抽出情報は関係置き換え部404へ送る。関係置き換え部404は、図41に示すような関係置き換え表を参照しながら、図42に示すように属性を置き換える。
【0082】
エントリ指定部408はユーザーに何をエントリとするかを促す。エントリとして指定されたもの以外はエントリの関連語となる。ユーザが「ABC電器産業」をエントリに指定した場合、
【表2】
「ABC電器産業:会社名属性」→「ABC電器産業:会社名属性&エントリ」
のように置き換える。複数個指定することも可能である。
【0083】
また、エントリの候補としてユーザが任意の文字列を入力することもできる。たとえば、「電子株主総会」、「ネット投票」を入力した場合、
【表3】
「電子株主総会」→「電子株主総会:そのた属性&エントリ」
「ネット投票」→「ネット投票:そのた属性&エントリ」
を新たに追加する。
【0084】
特にユーザからの指定がない場合は、デフォルト指定に従い、エントリを決定する。たとえば、デフォルト指定は図42に示すようになる。
【0085】
まず、会社名属性が存在する場合は、該当する項目すべてをエントリにする。上記の例では、図43に示すように変更する。もし会社名属性がない場合は次の候補の人名属性をエントリにする。
【0086】
HTMLのようにHEADタグやH1タグなどのように明示的に示されている場合は、自動的にこれをエントリとしても良い。
【0087】
また、エントリを指定する別の方法として、すべての固有表現や名詞をそれぞれエントリにしてもよい。
【0088】
ここでは、ユーザが「ABC電器産業」をエントリとして指定し、また新たに「電子株主総会」を入力したとする。
【表4】
Figure 2004029906
と変更または追加され、拡張データベース生成部406へ送られる。拡張データベース生成部406は拡張データベース407にデータを格納する。この時、エントリ属性を持つ「ABC電器産業」と「電子株主総会」はそれぞれエントリとなる。ABC電器産業がエントリとなる場合、電子株主総会はその他属性テーブルへ格納され、電子株主総会がエントリとなる場合はABC電器産業は会社名属性テーブルへ格納される。
【0089】
新しく拡張データベースに追加される情報としては「ABC電器産業」をエントリとした場合は、図45のように新しくデータベースに登録される。
【0090】
非定型文書内に同じ単語が繰り返し出現している場合、出現回数を関連度とすることも出来る。(例えば上の例で「佐藤太郎」が3回出現していた場合、「佐藤太郎」のエントリである「ABC電器産業」との関連度は他の1回しか出現していない関連語と比較して3倍関連度が高く設定される。この関連度は一文書を処理するだけに留まらず、他の文書を同様に処理したときに同じエントリと拡張語の組合せが存在すれば、出現頻度は累積され関連度が増加する。この関連度は検索する際に利用され、関連度の高い拡張語で検索された文書に対して高いスコアを与えることにより、得られた検索結果に対してスコアリングが可能となる。
【0091】
また、上記の例のすべての例は1文書内に共起する単語についての拡張データベースの作成方法となっているが、1文書を段落や文や文節等の任意の範囲に分割し、上記の例を適用することも可能である。
【0092】
[手法3]
手法3は、拡張データベースを作成する(汎化構造を持つデータからの拡張データベースの作成例)ものである。
【0093】
既に世の中には様々なシソーラスデータが存在する。教科書の目次、企業の組織図、行政区分地名、様々な進化系図などである。これらのデータは本システムに以下のように取り込むことが可能である。
【0094】
例えば図46のような地名シソーラスがある場合、親ノードを基本語、子ノードを拡張語として、ルートノードの”東京都”から全てのエッジに対して処理を行い、再帰的に末端のノードまで繰り返すと地名データベースの図47に示すような下位概念テーブルが作成できる。
【0095】
手順としてはつぎのようになる。
ステップ1:ルートとなるノードから選択する。
ステップ2:そのノードと子ノードをそれぞれ基本語と対象語としてデータベースのテーブルに格納する。ステップ3:その子ノードに対して再帰的にステップ1、ステップ2を子ノードが存在する限り繰り返す。
【0096】
一般的にシソーラスの場合は下位概念テーブルの基本語と拡張語を入れ替えるだけで上位概念テーブルが生成できる。この例を図48に示す。
【0097】
[手法4]
手法4は、シソーラスから拡張データベースを作成する(集約化構造を持つデータからの拡張データベースの作成例)ものである。
【0098】
図49に示すような集約化の構造をもつデータからも拡張データベースを手法3と同様の方法を用いて作成することが出来る。この例を図50(部分概念テーブル)および図51(全体概念テーブル)に示す
【0099】
[手法5]
手法5は、関係ネットワークから拡張データベースを作成するものである。
【0100】
シソーラス以外にもネットワーク構造のようなものも拡張テーブルに取り込むことが出来る。例えば、このようなデータは電子メール送着信記録などから生成することが出来る。図52に示す例はメールを双方でやり取りした各人を結んだ関係図である。この例では全てのノードに対してエッジで結ばれた隣り合うノードを拡張語としている。
【0101】
つぎの手順を行うことにより図53に示すメール関係テーブルを生成できる。ステップ1:任意のノードを選択する。
ステップ2:そのノードと直接(距離1)つながっているノードを、それぞれ基本語と対象語としてデータベースのテーブルに格納する。
ステップ3:ステップ1、ステップ2をすべてのノードに対して行う。
【0102】
以上で実施例の説明を終了する。なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、上述の例では、拡張テーブルのテーブル名(拡張の方向)等を用いてユーザが索引語の拡張の態様を指定しているが、インデックスを複数用意してインデックスの識別子を用いて拡張の態様を指定するようにしてもよい。
【0103】
【発明の効果】
以上説明したように、この発明によれば、検索語や索引語をユーザの指定により拡張することにより簡易に漏れのない検索を行える。
【図面の簡単な説明】
【図1】この発明の実施例の文書登録装置を示すブロック図である。
【図2】上述実施例を用いる組織名業種上位概念テーブルの例を示す図である。
【図3】上述実施例を用いる組織名系列上位概念テーブルの例を示す図である。
【図4】上述実施例を用いる組織名系列下位概念テーブルの例を示す図である。
【図5】上述実施例を用いる組織名場所属性テーブルの例を示す図である。
【図6】上述実施例を用いる組織名人属性テーブルの例を示す図である。
【図7】上述実施例を用いる組織名産出物属性テーブルの例を示す図である。
【図8】上述実施例を用いる地名上位概念テーブルの例を示す図である。
【図9】上述実施例を用いる地名下位概念テーブルの例を示す図である。
【図10】上述実施例を用いる日付上位概念テーブルの例を示す図である。
【図11】テーブルでの表引きの態様を説明する図である。
【図12】基本語を拡張する例を示す図である。
【図13】インデックスの例を説明する図である。
【図14】上述実施例の文書検索装置を示すブロック図である。
【図15】上述実施例の検索結果の例を示す図である。
【図16】検索語の重み付けを説明する図である。
【図17】インデックスの他の例を説明する図である。
【図18】文書のスコアの例を説明する図である。
【図19】インデックスの他の例を説明する図である。
【図20】文書のスコアの他の例を説明する図である。
【図21】文書のスコアの順序を説明する図である。
【図22】拡張の具体例を説明する図である。
【図23】文書の例を説明する図である。
【図24】インデックスの他の例を説明する図である。
【図25】検索された単語の例を説明する図である。
【図26】検索結果提示部へ送られるデータの例を説明する図である。
【図27】検索結果の提示例を説明する図である。
【図28】検索結果の他の提示例を説明する図である。
【図29】拡張データベース生成に用いる定型文書の例を説明する図である。
【図30】実施例の拡張データベース生成装置を示すブロック図である。
【図31】拡張データベース生成の例を説明する図である。
【図32】拡張データベース生成の例を説明する図である。
【図33】拡張データベース生成の例を説明する図である。 拡張データベース生成の例を説明する図である。
【図34】拡張データベース生成の例を説明する図である。
【図35】拡張データベース生成に用いる非定型文書の例を説明する図である。
【図36】実施例の他の拡張データベース生成装置を示すブロック図である。
【図37】拡張データベース生成の例を説明する図である。
【図38】拡張データベース生成の例を説明する図である。
【図39】拡張データベース生成の例を説明する図である。
【図40】拡張データベース生成の例を説明する図である。
【図41】拡張データベース生成の例を説明する図である。
【図42】拡張データベース生成の例を説明する図である。
【図43】拡張データベース生成の例を説明する図である。
【図44】拡張データベース生成の例を説明する図である。
【図45】拡張データベース生成の例を説明する図である。
【図46】拡張データベース生成の他の手法を説明する図である。
【図47】上述の他の手法で生成されたテーブルの例を説明する図である。
【図48】上述の他の手法で生成された他のテーブルの例を説明する図である。
【図49】拡張データベース生成のさらに他の手法を説明する図である。
【図50】上述の他の手法で生成されたテーブルの例を説明する図である。
【図51】上述の他の手法で生成されたテーブルの例を説明する図である。
【図52】拡張データベース生成のさらに他の手法を説明する図である。
【図53】上述の他の手法で生成されたテーブルの例を説明する図である。
【符号の説明】
10   文書登録装置
20   文書検索装置
30   拡張データベース生成装置
40   拡張データベース生成装置
101   文書受付部
102   固有表現拡張部
103   拡張データベース
104   拡張語登録部
105   インデックス記憶部
106   検索結果提示部
201   検索要求受付部
201a   検索語指定部
201b   検索語拡張指定部
201c   索引語拡張指定部
202   固有表現拡張部
203   拡張データベース
204   検索部
205   インデックス記憶部
206   検索結果提示部
301   定型文書受付部
302   文書抽出部
303   重要語句抽出部
304   関係置き換え部
305   関係置き換え表記憶部
306   拡張データベース生成部
307   拡張データベース
401   非定型文書受付部
403   重要語句抽出部
404   関係置き換え部
405   関係置き換え表記憶部
406   拡張データベース生成部
407   拡張データベース
408   エントリ指定部

Claims (16)

  1. 検索語を入力する入力手段と、
    その検索語の概念を拡張する方向と深さを指定する入力手段と、
    対象文書側の索引語の概念を拡張する方向と深さを指定する入力手段と、
    検索語および索引語を拡張するのに用いる拡張データベースを記憶する記憶手段と、
    索引語と結び付けられた文書を格納する記憶手段と、
    上記拡張データベースを使って上記検索語および上記索引語を拡張する拡張手段と、
    拡張された検索語および拡張された索引語を突き合わせて文書の検索を行う検索手段とを有することを特徴とする文書検索装置。
  2. 上記検索手段は、拡張された索引語の集合に概念レベルや出現頻度に基づいたコスト付けを行い、上記拡張された検索語との突き合わせを行う請求項1記載の文書検索装置。
  3. 検索された結果を関連度と概念の拡張方法に従って秩序付けて表示する表示制御手段をさらに有する請求項1または2記載の文書検索装置。
  4. 前記拡張データベースを構築する為に、汎化また集約化の形態をもって構築されたデータから拡張データベースを構築する手段をさらに有する請求項1、2または3記載の文書検索装置。
  5. 前記拡張データベースを構築する為に、データから、ユーザがエントリとなるカテゴリを指定することにより、関連語に関する拡張データベースを作成する手段をさらに有する請求項1、2、3または4記載の文書検索装置。
  6. 扱う単語を唯一に対象を特定できる固有名詞や、定量的に扱うことの出来る数量を表す単語を一般名詞よりコストを重くする請求項2記載の文書検索装置。
  7. ユーザが特定した検索語を入力する検索語入力手段と、
    ユーザが特定した検索語から他の検索語を導出する態様を入力する検索語導出態様入力手段と、
    元の索引語から他の索引語を導出する態様を入力する索引語導出態様入力手段と、
    上記ユーザが特定した検索語、および、上記検索語導出態様入力手段により指定された態様で上記ユーザが特定した検索語から導出された他の検索語と、上記元の索引語、および、上記索引語導出態様入力手段により指定された態様で上記元の索引語から導出された他の索引語とを突き合わせて文書の検索を行う検索手段とを有することを特徴とする文書検索装置。
  8. ユーザが特定した検索語を入力する検索語入力手段と、
    元の索引語から他の索引語を導出する態様を入力する索引語導出態様入力手段と、
    上記ユーザが特定した検索語と、上記元の索引語、および、上記索引語導出態様入力手段により指定された態様で上記元の索引語から導出された他の索引語とを突き合わせて文書の検索を行う検索手段とを有することを特徴とする文書検索装置。
  9. ユーザが特定した検索語を入力する検索語入力手段と、
    検索対象の文書と索引語との間の対応関係を複数とおり記憶する文書索引語対応関係記憶手段と、
    検索に使用する1または複数の検索対象の文書と索引語との間の対応関係を指定する文書索引語対応関係指定手段と、
    上記ユーザが特定した検索語と、上記文書索引語対応関係指定手段で指定された検索対象の文書と索引語との間の対応関係とを用いて、文書の検索を行う検索手段とを有することを特徴とする文書検索装置。
  10. 単語と拡張語と拡張方法との対応関係を記述する拡張データベースを記憶する手段と、
    文書から基礎となる索引語を抽出する手段と、
    抽出した索引語から上記拡張データベースを参照して拡張した索引語を決定する手段と、
    上記文書と、上記基礎となる索引語との関係、ならびに文書と、上記拡張した索引語および拡張方法との関係からなる文書検索用索引データを記憶する手段とを有することを特徴とする文書検索用索引データ生成装置。
  11. 文書を入力する手段と、
    文書から所定の語句を抽出する手段と、
    1の文書から抽出された語句に対する上記1の文書から抽出された他の語句の関係を決定する手段と、
    上記語句と、上記他の語句と、上記他の語句の関係とを記述して上記関係の下で上記1の語句から上記他の語句を導出するテーブルを生成する手段とを有することを特徴とする関連語句導出用データ作成装置。
  12. 上記文書に含まれるタグにより上記関係を決定する請求項11記載の関連語句導出用データ作成装置。
  13. 上記所定の語句を抽出するときに用いられる辞書に当該語句の属性が規定され、上記属性に基づいて上記関係を決定する請求項11記載の関連語句導出用データ作成装置。
  14. 語句の間の構造を記述する情報を入力する手段と、
    語句の間の構造を記述する情報から語句および語句の間の関係を抽出する手段と、
    抽出された語句および語句の間の関係から1の語句に対する他の語句の関係を決定する手段と、
    上記1の語句と上記他の語句と上記他の語句との関係を記述して上記関係の下で上記1の語句から上記他の語句を導出するテーブルを生成する手段とを有することを特徴とする関連語句導出用データ作成装置。
  15. ユーザが特定した検索語を入力する検索語入力ステップと、
    ユーザが特定した検索語から他の検索語を導出する態様を入力する検索語導出態様入力ステップと、
    元の索引語から他の索引語を導出する態様を入力する索引語導出態様入力ステップと、
    上記ユーザが特定した検索語、および、上記検索語導出態様入力ステップにより指定された態様で上記ユーザが特定した検索語から導出された他の検索語と、上記元の索引語、および、上記索引語導出態様入力ステップにより指定された態様で上記元の索引語から導出された他の索引語とを突き合わせて文書の検索を行う検索ステップとを有することを特徴とする文書検索方法。
  16. ユーザが特定した検索語を入力する検索語入力ステップと、
    ユーザが特定した検索語から他の検索語を導出する態様を入力する検索語導出態様入力ステップと、
    元の索引語から他の索引語を導出する態様を入力する索引語導出態様入力ステップと、
    上記ユーザが特定した検索語、および、上記検索語導出態様入力ステップにより指定された態様で上記ユーザが特定した検索語から導出された他の検索語と、上記元の索引語、および、上記索引語導出態様入力ステップにより指定された態様で上記元の索引語から導出された他の索引語とを突き合わせて文書の検索を行う検索ステップとをコンピュータに実行させるために用いられることを特徴とする文書検索用コンピュータプログラム。
JP2002181203A 2002-06-21 2002-06-21 文書検索装置および方法 Pending JP2004029906A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002181203A JP2004029906A (ja) 2002-06-21 2002-06-21 文書検索装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002181203A JP2004029906A (ja) 2002-06-21 2002-06-21 文書検索装置および方法

Publications (1)

Publication Number Publication Date
JP2004029906A true JP2004029906A (ja) 2004-01-29

Family

ID=31178094

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002181203A Pending JP2004029906A (ja) 2002-06-21 2002-06-21 文書検索装置および方法

Country Status (1)

Country Link
JP (1) JP2004029906A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005158044A (ja) * 2003-10-30 2005-06-16 Fujitsu Ltd 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
JP2006031194A (ja) * 2004-07-13 2006-02-02 Internatl Business Mach Corp <Ibm> 検索システム、検索方法、報告システム、報告方法、及びプログラム
WO2006098031A1 (ja) * 2005-03-17 2006-09-21 Fujitsu Limited キーワード管理装置
JP2007149047A (ja) * 2005-04-01 2007-06-14 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
JP2009026083A (ja) * 2007-07-19 2009-02-05 Fujifilm Corp コンテンツ検索装置
JP2009110231A (ja) * 2007-10-30 2009-05-21 Nippon Telegr & Teleph Corp <Ntt> 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
JP4464463B2 (ja) * 2007-08-03 2010-05-19 パナソニック株式会社 関連語提示装置
JP2011175329A (ja) * 2010-02-23 2011-09-08 Dainippon Printing Co Ltd 電子チラシへの広告コンテンツ配信装置、広告コンテンツ配信システム、広告コンテンツ配信方法、及びプログラム
JP2012027788A (ja) * 2010-07-26 2012-02-09 Fyuutorekku:Kk 文書検索システム、文書検索方法およびプログラム
JP2014222448A (ja) * 2013-05-14 2014-11-27 株式会社図書館流通センター 書籍抽出装置、書籍抽出方法及び書籍抽出用プログラム
JP2016532175A (ja) * 2013-09-29 2016-10-13 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム
JP2020528705A (ja) * 2017-07-24 2020-09-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 認知的洞察を使用したビデオ・シーンの移動
JP2022073949A (ja) * 2020-10-30 2022-05-17 ソプラ株式会社 セキュリティidの会話文検索システム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005158044A (ja) * 2003-10-30 2005-06-16 Fujitsu Ltd 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
JP4587163B2 (ja) * 2004-07-13 2010-11-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索システム、検索方法、報告システム、報告方法、及びプログラム
JP2006031194A (ja) * 2004-07-13 2006-02-02 Internatl Business Mach Corp <Ibm> 検索システム、検索方法、報告システム、報告方法、及びプログラム
WO2006098031A1 (ja) * 2005-03-17 2006-09-21 Fujitsu Limited キーワード管理装置
JP2007149047A (ja) * 2005-04-01 2007-06-14 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
JP2009026083A (ja) * 2007-07-19 2009-02-05 Fujifilm Corp コンテンツ検索装置
JP4464463B2 (ja) * 2007-08-03 2010-05-19 パナソニック株式会社 関連語提示装置
JPWO2009019830A1 (ja) * 2007-08-03 2010-10-28 パナソニック株式会社 関連語提示装置
US8504357B2 (en) 2007-08-03 2013-08-06 Panasonic Corporation Related word presentation device
JP2009110231A (ja) * 2007-10-30 2009-05-21 Nippon Telegr & Teleph Corp <Ntt> 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
JP2011175329A (ja) * 2010-02-23 2011-09-08 Dainippon Printing Co Ltd 電子チラシへの広告コンテンツ配信装置、広告コンテンツ配信システム、広告コンテンツ配信方法、及びプログラム
JP2012027788A (ja) * 2010-07-26 2012-02-09 Fyuutorekku:Kk 文書検索システム、文書検索方法およびプログラム
JP2014222448A (ja) * 2013-05-14 2014-11-27 株式会社図書館流通センター 書籍抽出装置、書籍抽出方法及び書籍抽出用プログラム
JP2016532175A (ja) * 2013-09-29 2016-10-13 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド キーワード拡張方法及びシステム並びに分類コーパス注釈方法及びシステム
JP2020528705A (ja) * 2017-07-24 2020-09-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 認知的洞察を使用したビデオ・シーンの移動
JP7123122B2 (ja) 2017-07-24 2022-08-22 キンドリル・インク 認知的洞察を使用したビデオ・シーンの移動
JP2022073949A (ja) * 2020-10-30 2022-05-17 ソプラ株式会社 セキュリティidの会話文検索システム
JP7132576B2 (ja) 2020-10-30 2022-09-07 ソプラ株式会社 セキュリティidの会話文検索システム

Similar Documents

Publication Publication Date Title
US7783644B1 (en) Query-independent entity importance in books
JP3181548B2 (ja) 情報検索装置及び情報検索方法
US8799773B2 (en) Aspect-based sentiment summarization
JP3755134B2 (ja) コンピュータベースの適合テキスト検索システムおよび方法
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
US20100077001A1 (en) Search system and method for serendipitous discoveries with faceted full-text classification
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
US20130110839A1 (en) Constructing an analysis of a document
US20090055394A1 (en) Identifying key terms related to similar passages
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
JP2009528636A (ja) 複数の書記体系を有する言語に対する関連のクエリーを識別するためのシステム及び方法
CN108280689A (zh) 基于搜索引擎的广告投放方法、装置以及搜索引擎系统
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
JP2004029906A (ja) 文書検索装置および方法
KR101088710B1 (ko) 온라인 커뮤니티 사용자 간 상호작용 기반 온라인 커뮤니티 포스트 검색 방법, 장치 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
JP5455232B2 (ja) 画像選定装置、方法及びプログラム
JP4931114B2 (ja) データ表示装置、データ表示方法及びデータ表示プログラム
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
Boughareb et al. A graph-based tag recommendation for just abstracted scientific articles tagging
CN110688559A (zh) 一种检索方法及装置
JP4009937B2 (ja) 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体
JP4057962B2 (ja) 質問応答装置、質問応答方法及びプログラム
JPH09319767A (ja) 類義語辞書登録方法
JP2005234772A (ja) 文書管理装置および方法
JP2002183195A (ja) 概念検索方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080715

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090310