JP2004127086A - 文書検索システム及びそれを用いた情報提供システム - Google Patents

文書検索システム及びそれを用いた情報提供システム Download PDF

Info

Publication number
JP2004127086A
JP2004127086A JP2002292471A JP2002292471A JP2004127086A JP 2004127086 A JP2004127086 A JP 2004127086A JP 2002292471 A JP2002292471 A JP 2002292471A JP 2002292471 A JP2002292471 A JP 2002292471A JP 2004127086 A JP2004127086 A JP 2004127086A
Authority
JP
Japan
Prior art keywords
information
document
search
sentence
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002292471A
Other languages
English (en)
Inventor
Daiya Hashimoto
橋本 大也
Shunsuke Ikegami
池上 俊介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DATA SECTION KK
Original Assignee
DATA SECTION KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DATA SECTION KK filed Critical DATA SECTION KK
Priority to JP2002292471A priority Critical patent/JP2004127086A/ja
Publication of JP2004127086A publication Critical patent/JP2004127086A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ストックされた情報の中から必要な情報を容易に抽出して確認することができ、しかも汎用性が高く情報のストックや利用がしやすいシステムを提供する。
【解決手段】共通形式で文書情報が記録されているデータベース(1)と、入力された検索文を一旦共通書式に変換可能な入力変換手段(11)と、検索文との類似度が高いと判断される文書をデータベース(1)から抽出可能な検索手段(12)と、抽出された類似文書を問い合わせ元の書式に変換可能な出力変換手段(13)とを備える。
【選択図】  図1

Description

【0001】
【発明の属する技術分野】
本発明は、文書検索システム及びそれを用いた各種の情報提供システムに関するものである。
【0002】
【従来の技術】
近年ではコンピュータ用の記録媒体の進歩により、莫大な量の情報を記録,保管することが可能となっている。しかしながら、情報量が多くなると情報に埋もれてしまいやすく、情報を管理,活用することが難しくなる。有用な情報をストックしていても必要なときに簡単に取り出して確認することができなければ情報としての価値がない。
【0003】
そこで、情報をデータベースに記録し、情報を検索可能とすることが行われている。情報は検索できるように特定の書式に統一して記録される。検索に際しては指定されたキーワードを含む情報を抽出可能なキーワード検索が一般的であるが、情報を記録する際に各情報にカテゴリ(分類)を付与して登録すれば、カテゴリによる抽出も可能となる。
【0004】
キーワード検索では1つのキーワードだけでは不要な情報が多く含まれるため、複数のキーワードを利用した多重検索を行うことが多い。しかし、キーワードの選定の仕方により検索結果が大きく異なる。又、キーワードと同じ用語が使われていれば、内容的に無関係の情報も抽出され、検索ノイズが大きい。
【0005】
一方、全ての情報について内容を確認して情報毎にカテゴリを付与し、登録していくことは情報の量が多い場合には手間暇がかかりすぎ、現実的ではない。
【0006】
ところで、検索技術として自然な文書から、類似する文書を検索可能な文書検索(テキストサーチ)が可能なアプリケーションも知られている。
【0007】
これらは基になる文書を解析し、単語の文書への登場頻度や、単語の重要度(例えば一般の文書にはあまり登場しないのに、特定の文書に多く出現する単語について重要度が高いと考える等)を測定し、文書間の類似度を取得し、類似する内容の文章を抽出することができる。
【0008】
つまり、単なるキーワードの有無だけではなく、内容との関係で類似度を判断可能であるので、検索ノイズが少なくキーワード検索に比べ内容的に近い文章を抽出することができる。
【0009】
しかしこれらの文書検索ソフトは特定の書式にしか対応していないため汎用性に乏しく、情報をストックする際にも専用の書式で記録しなくてはならず、専用書式で入力し直すのに手間や時間がかかる。又、使用の度に専用のアプリケーションを起動させて検索,表示させなくてはならず、抽出された情報の利用も書式により制限されたものとなっている。
【0010】
【発明が解決しようとする課題】
そこで本発明はストックされた情報の中から必要な情報を容易に抽出して確認することができ、しかも汎用性が高く情報のストックや利用がしやすいシステムを提供することを課題とする。
【0011】
【課題を解決するための手段】
本発明の請求項1記載の文書検索システムは、共通形式で文書情報が記録されているデータベース(1)と、連携するアプリケーション(2)が使用する書式により入力された検索文を一旦共通書式に変換可能な入力変換手段(11)と、共通形式に変換された検索文を用いて該検索文との類似度が高いと判断される文書を該データベース(1)に記録されている文書情報中から抽出可能な検索手段(12)と、抽出された共通書式の類似文書を前記アプリケーション(2)が使用する書式又は指定された書式に変換可能な出力変換手段(13)とを備えたことを特徴とする。
【0012】
これによれば、連携するアプリケーション(2)から文を入力して問い合わせると、問い合わせ内容が共通書式に変換され、データベース(1)にストックされている文書情報の中から、問い合わせた文と内容的に類似する文書を抽出することができる。そして、検索により抽出された文書を、問い合わせ元のアプリケーション(2)の書式に変換して提供することができる。そのため、データベース(1)に蓄積した情報を複数のアプリケーションで有効利用することができる。
【0013】
請求項2記載の文書検索システムは、請求項の文書検索システムにおいて、データベースに記録すべき文書情報(3)の書式を前記共通書式に変換することが可能な記録変換手段(14)を備えたことを特徴とする。
【0014】
これによればデータベース(1)に文書情報を記録する際に、他の書式の文書を共通書式に変換して利用することができ、データベース(1)への文書情報のストックが容易となる。
【0015】
請求項3記載の情報提供システムは、請求項1又は請求項2の文書検索システムを有し、分類の基準となる重要単語又は基準文章が夫々カテゴリと関連づけてデータベース(1)に記録されており、検索文が入力された際に、前記文書検索システムによって該検索文との類似度が大きい重要単語又は基準文章を抽出し、該重要単語又は該基準文章に関連づけられたカテゴリと同じカテゴリを関連づけて記録することができ、記録された文章を関連づけられたカテゴリ毎にまとめて出力可能であることを特徴とする。
【0016】
これによれば、入力された文を内容的な類似に基づいて、予め定めた複数のカテゴリに分類することができる。これを用いれば、アンケートや掲示板に書かれた意見等の解析も容易となる。
【0017】
請求項4記載の情報提供システムは、請求項1記載の文書検索システムを有し、データベースは質問と該質問に対する回答とからなる質問情報を複数記録しており、検索文として質問文が入力されると、前記文書検索システムによりデータベース中に記録されている質問情報の中から、該質問文と類似する質問情報を抽出して出力可能であることを特徴とする。
【0018】
これによれば、ユーザから質問があった場合に、過去の内容的に類似する質問と回答を抽出して表示させることができる。そして、抽出された類似の質問と回答を参考にして、ユーザからの質問に対する回答を作成することができる。
【0019】
請求項5記載の情報提供システムは請求項4の情報提供システムにおいて、
新たな質問文に対して新たに回答文を作成して登録することにより、該質問文と該回答文とを質問情報として前記データベースに記録可能であることを特徴とする。
【0020】
これによれば、ユーザからの質問に回答をすると、その質問と回答がデータベースに記録され、次回以降の類似質問の検索時に過去の質問情報として利用することが可能となる。したがって、質問と回答を繰り返すことにより、自然に質問情報を蓄積していくことができる。
【0021】
請求項6記載の情報提供システムは、請求項4の情報提供システムにおいて質問者からインターネットを介して送信されて来た質問文が自動的に文書検索システムに入力され、検索によりデータベースから抽出された該質問文に類似する質問情報が自動的に該質問者にインターネットを介して返信されることを特徴とする。
【0022】
これによれば、ユーザから質問があった際に、内容が類似する過去の質問と回答を抽出し、抽出された内容を問い合わせたユーザに自動的に送信して確認してもらうことができる。回答者を介することなく質問に対して類似する回答を送ることができるため、素早い対応が可能となる。
【0023】
請求項7記載の情報提供システムは、請求項1又は請求項2記載の文書検索システムを有し、データベースは文献の名称と内容の少なくとも一部とを含む文献情報を記録しており、検索文を入力することにより、データベースに記録されている文献情報の中から、該検索文と類似する内容の文献についての文献情報を抽出して出力可能であることを特徴とする。
【0024】
これによれば、書籍や論文などの文献の内容を検索文として検索することにより、データベースに蓄積された過去の文献の中から、検索文と類似する内容の文献を抽出することができる。こうして抽出された過去の文献の情報は研究や執筆活動等の参考に供することができる。
【0025】
請求項8記載の情報提供システムは、請求項1又は請求項2の文書検索システムを有し、データベースにはインターネット上に公開されている情報とURLとが公開情報として記録されており、メールマガジンの原稿文章が検索文として入力されると、該原稿文章の内容に類似する公開情報が抽出され、該公開情報を前記原稿に自動的に付加することが可能であることを特徴とする。
【0026】
これによれば、メールマガジンを配信するに際し、その内容と関連する情報をメールマガジン中に参考として自動的に追記することができ、関連する情報を知りたい読者に対する便宜を図ることができる。
【0027】
請求項9記載の情報提供システムは、請求項1又は請求項2の文書検索システムと音声入力装置を備え、取り込まれた音声が前記音声入力装置により文字情報に変換され、該文字情報が検索文として前記文書検索システムに入力されることにより、データベース中に記録されている情報の中から該検索文と類似する内容の文書を抽出して出力可能であることを特徴とする。
【0028】
これによれば、音声による問い合わせによって、類似する内容の文書を探すことができる。キーボードなどを使って入力する必要がないため、屋外や店舗等での利用も容易となる。
【0029】
請求項10記載の情報提供システムは請求項9記載の情報提供システムにおいて、音声変換装置とスピーカを備え、データベースから抽出された文書を該音声変換装置により音声に変換し、該スピーカにより音声出力可能であることを特徴とする。
【0030】
これによれば、音声による問い合わせに対して、類似する内容の文書についての情報が抽出され、検索結果はスピーカにより音声で出力される。質問も回答も音声を利用できるので、気軽に利用することができる。
【0031】
請求項11記載の情報提供システムは、請求項1又は請求項2の文書検索システムと、光学式文字読取装置とを備え、該光学式文字読取装置により画像情報中から文字情報を読み取り、読みとられた文字情報が検索文として前記文書検索システムに入力されることにより、データベース中に記録されている情報の中から該検索文と類似する内容の文書を抽出して出力可能であることを特徴とする。
【0032】
これによれば、印刷された情報を読み込んで検索することができるので、検索文をキーボード等の再入力する必要がない。したがって、新聞や書籍等に記載された情報と類似する文書を容易に抽出することができる。
【0033】
請求項12記載の情報提供システムは、請求項1又は請求項2の文書検索システムと、タッチパネルを有し、該タッチパネル上に表示される入力ボタンと重要単語とが関連づけて記録されており、該入力ボタンが入力されるとデータベースに記録されている情報の中から該入力ボタンに関連づけられている重要単語と類似度が大きい文書を抽出して、該タッチパネル上に表示可能であることを特徴とする。
【0034】
これによれば、タッチパネルの入力ボタンに触れるだけで、関連する情報を抽出してタッチパネル上に表示させることができる。したがって、店舗や公共の場所等のゆっくり文章を入力するのが困難な場所に設置された端末からでも、容易に情報を得ることができる。
【0035】
請求項13記載の文書検索システムは、請求項1又は請求項2の文書検索システムと、該文書検索システムへの入力が可能なwebページとを有し、該webページから検索文が入力された際に、該検索文と内容的に類似する文書情報をデータベース中から抽出し、抽出された文書を該webページ又は他のwebページ上に表示可能であることを特徴とする。
【0036】
これによれば、webページから文書検索システムへの入力が可能となり、webページ上からの問い合わせに対して、類似する文書を検索し、検索結果をwebページ上に表示することができる。したがって、インターネットを介して他のサーバのデータベースを利用して類似文書を探すことが可能となる。
【0037】
請求項14記載の情報提供システムは、請求項1記載又は請求項2の文書検索システムを有し、基準となる文章を予め登録することができ、定期的にインターネット上に公開されている情報の中から前記基準となる文章と類似する内容の情報を抽出して出力可能であることを特徴とする。
【0038】
これによれば、興味のある文章を登録しておけば、所定時間毎にインターネット上に公開されている情報から登録した文章と類似する内容の文章を抽出できる。したがって、クリッピングサービスにおいて興味のある文章を探すのに利用することができる。
【0039】
請求項15記載の情報提供システムは、請求項1又は請求項2の文書検索システムを有し、データベースには過去に受診したEメールの内容が記録されており、新規のEメールを受信した際又は表示させる際に該新規Eメール中の文章が検索文として入力され、該新規Eメールの内容に類似する過去のEメールの内容を抽出して出力可能であることを特徴とする。
【0040】
これによれば、新規のEメールメールを読む際に過去のEメールの中から類似する内容のものを抽出して一緒に見ることができる。
【0041】
【発明の実施の形態】
以下、本発明を好適な実施例を用いて説明する。
【0042】
[実施例1]
図1は本実施例の概念を説明した図である。情報源(3)から得られた情報は共通書式に変換され、データベース(1)に記録される。
【0043】
データベース(1)には情報が共通書式で記録されるが、本実施例ではデータ記述言語XML(Extensible Markup Language)の一種であるRSS (RDF Site Summary/Rich Site Summary)を共通書式とした。
【0044】
情報源(3)に開示されている情報は共通書式で記述されている必要はなく、各種の書式で記載された文書であっても良い。各書式の情報は取り込む際に記録情報変換手段(14)により共通書式に変換され、データベース(1)に共通書式で記録される。
【0045】
検索する際には検索対象となる文(以下「検索文」という)を入力するが、入力の仕方としてはキーボードから検索文書記入欄に直接入力するようにしても良いし、他からコピーしたり、範囲を指定して入力するようにしても良い。
【0046】
入力された検索文は、一旦、入力変換手段(11)により上記の共通書式に変換される。変換された検索文は検索手段(12)により解析され、単語の文書への登場頻度や重要度が測定される。そして、データベース(1)に記録されている文書情報の中から、類似度が大きいと判断される文書を類似文書として抽出する。尚、重要単語の特定や類似度の算出としてはTF/IDF法等の既知の手段を利用することができる。
【0047】
このようにして得られた検索結果は一旦共通書式で出力される。その後、出力変換手段(13)により求められる書式に変換して出力される。
【0048】
そのため、共通書式との間で書式変換可能な書式であれば、変換することにより類似文書を検索することや、検索結果を利用することもできる。これにより他のアプリケーション(2)との連携が可能となる。
【0049】
例えば、ワープロ,会計ソフト,表計算ソフト,画像処理ソフト,データベースソフト,プレゼンテーションソフト,ゲームソフト,辞書ソフト,メーラー等の各種アプリケーション(2)から類似文書の問い合わせをすると、文は一旦共通書式であるRSSに変換され、検索が実行される。そして、検索結果はRSSから問い合わせ元のアプリケーションの書式に変換され、そのアプリケーション(2)の中で表示させることができる。
【0050】
つまり各アプリケーション(2)に検索対象となる文を入力できる機能と、結果を表示できる機能を設けておけば、あたかもそのアプリケーション(2)自体が類似文書の検索機能を有しているように利用することができる。
【0051】
連携するアプリケーション(2)における検索対象となる文の入力方式としては、検索用の記入欄を設けて、その記入欄に記入することや、アプリケーション上に表示されている文を範囲指定して、メニュー中の検索ボタンを押すようなことが考えられる。
【0052】
連携できるのは各種アプリケーション(2)のみならず、インターネット上のWebページとの連携も可能である。XML文書変換言語であるXSLTを用いればRSSとHTML文書との間の変換も可能だからである。
【0053】
そのためインターネット上で公開されているwebページ中の文書を取り込んでデータベースに記録すること、webページ中から検索を指示すること、検索結果をWebページに反映すること等も可能である。
【0054】
尚、上記では検索結果を問い合わせ先のアプリケーションの書式に変換したが、必要なら他の書式に変換することを指定可能とし、検索結果として抽出された類似文書を他のアプリケーションで利用できるようにしても良い。
【0055】
このようにして、複数のアプリケーションから類似文書の問い合わせが可能となるため、ストックしている情報の有効利用を図ることができる。
【0056】
[実施例2]
実施例1は新たな文章を入力することにより、データベース中に記録された文章の中から類似する文章を抽出した。
【0057】
本実施例は、単に類似する文章を抽出するのではなく、実施例1のような文章の類似判断が可能な文書検索システムを利用して、取り込んだ文章を分類して活用可能とするシステムに関するものである。
【0058】
予めカテゴリと、そのカテゴリに関する1又は複数の重要単語とが関連づけられてがデータベースに記録されている。重要単語としては例えばカテゴリが「自動車」である場合、「自動車」,「車」,「クルマ」,「バイク」,「オートバイ」,「中古車」,「免許」,「交通」等の重要単語が考えられる。
【0059】
新たな文章が入力されると、文書検索システムにより解析され、重要単語が求められる。各カテゴリに関連づけられている重要単語との類似度が求められ、一番類似していると思われる重要単語と関連づけられたカテゴリ又は、予め定められた以上の類似度を有する重要単語と関連づけられたカテゴリと同じカテゴリが新たな文章に付加されて記録される。
【0060】
つまり、新たに入力された文章は、重要単語間の類似度に基づいて所定のカテゴリに分類されることとなる。単なるキーワードの使用の有無による分類と異なり、文章全体の内容から重要単語を見つけだして判断しているため、分類はより適切なものとなる。
【0061】
このようにして各カテゴリと関連づけて類似する文書が蓄積されていく。そして、特定のカテゴリと関連づけて記録された文書を表示させれば、特定分野に関連する類似文書をまとめて見ることができる。又、単にカテゴリに分けるだけでなく、類似の程度を判別することができるため、類似の程度を表やグラフ等で表示することもできる。
【0062】
尚、本実施例ではカテゴリ毎に登録された「重要単語」を用いて分類をしたが、
類似判断の基準として基準文を記録したが、重要単語の代わりに類似判断の基準となる基準文書をカテゴリと関連づけて登録しておき、その基準文書との類似度により各カテゴリに分類するようにしても良い。
【0063】
次に上記の実施例1の文書検索システムを用いた情報提供システム、又は実施例2の応用に係る情報提供システムについての実施例を説明する。
【0064】
[実施例3]
本実施例は質問に対する回答を作成する際に用いられるシステムである。
【0065】
メーカーやサービス業のサポートセンターや、行政や民間の相談コーナー等でユーザや市民などからの質問を受け付けているが、多くのユーザや市民を相手にしているため、質問を受ける数が多い。質問は順に回答されるが回答作成に時間がかかることある。
【0066】
迅速な回答を行うためには回答者の数を増やすことも可能ではあるが、人件費をかけることなく効率的に回答ができる方が好ましい。そこで、本実施例ではこのようなサービスにおいて回答者を支援して円滑に回答を作成できるようにした。
【0067】
ユーザからの質問内容はよく似た内容のものが多く、過去の回答を参照できれば回答に要する時間や手間を短縮することができる。しかし、そのためには過去の質問と回答を短時間で効率よく探し出すことができなければ意味がない。
【0068】
本実施例では過去にあった質問や予想される質問と、それらに対する回答が予め質問情報としてデータベースに記録されている。そして、新たな質問が来ると質問文を類似文書検索システムに入力することにより、データベース中の類似質問とその回答を抽出することができる。
【0069】
質問手段は特に問わず、Eメール,FAX,電話,手紙等が考えられる。回答者はEメールで送られてきた質問文又はその要部をコピーして文書検索システムに入力する。Eメールのよる質問の場合、Eメール中の質問文をそのままコピーして、文書検索システムに入力することができる。
【0070】
質問文が入力されるとデータベース中から類似する質問とそれに対する回答が抽出され表示される。
【0071】
回答者は抽出された類似質問と回答を参考にして新たな回答を作成することができる。必要であれば、類似質問の回答を一部又は全部を回答中に取り込んで使用しても良い。作成された回答は質問者にEメールやFAX,郵送などで送られる。又、電話による質問であれば、通話中に類似する質問と回答を表示させて、その場で回答することもできる。
【0072】
これにより回答作成の手間が軽減できるだけでなく、回答者による回答内容のバラツキも少なくなる。
【0073】
新たな質問に対する回答を作成すると、その質問と回答も新たに質問情報としてデータベースに記録され、次回以降の質問時に利用できるようにした。
【0074】
[実施例4]
実施例3は以前の回答を参考にして回答者が新規の回答を作成したが、本実施例ではインスタントメッセンジャーとして質問者に対して自動的に類似の質問と回答を送信するようにした。
【0075】
上記のように質問には同じような内容のものが多く、実際には類似する質問の回答を見るだけでも疑問が解消することも多い。そこで、本実施例では、実施例3と同様に抽出された類似する質問とその回答を、回答者を通さずそのまま質問者に送信して確認させるようにした。
【0076】
送信手法としてはWebページ上に表示させても良いし、Eメールで送信しても良い。又、FAX等で送るようにしても良い。
【0077】
質問者は送られてきた類似質問と回答を参考にして、問題を解決すると良い。特殊な質問も有るので、全ての質問に対して有効な回答ができるわけではないが、多くの一般的な質問については、自動的に返信されてくる類似質問と回答を見ることにより解決できることが多い。しかも、回答作成者を通さないので質問してからレスポンスが有るまでの時間が短いという利点もある。
【0078】
第1段階としての上記の自動回答で不十分な場合には、次の段階として人間が対応して回答するようにすれば良い。これにより人間が回答すべき質問の数を絞り込み、回答に要する手間や時間を大幅に軽減することができる。
【0079】
[実施例5]
本実施例は専門分野の情報を抽出可能なシステムに関する。データベースには専門分野情報が記録されている。専門情報としては特許,裁判記録,医療情報,学術論文等が考えられるがこれらに限定されるものではない。
【0080】
ユーザが関心のある事項に関する文章を入力すると、蓄積されている専門分野の情報の中からその文章に類似する情報を短時間で抽出することができる。このようにして得られた情報は、開発,研究,論文作成等に利用することができるが、従来に比べて短時間且つ容易に欲しい情報を得ることができるため、効率よく仕事を進めることができる。
【0081】
[実施例6]
上記各実施例では、検索対象として文章をテキストデータで入力するが、本実施例は利便性を考慮して音声対応可能とした。
【0082】
音声を認識して文字情報を得ることが可能な音声入力装置を用い、話した言葉から文字情報としての文章を作成する。音声入力装置は物理的に独立した装置であっても良いし、パソコンに機能を付加したものであっても良い。作成された文を検索文として利用して検索し、データベースから類似する内容の文書を抽出する。それ以外は上記実施例と同様である。
【0083】
尚、必要なら文字情報を読み上げることが可能な音声変換装置とスピーカを用い、抽出された文書を音声として出力できるようにしても良い。
【0084】
[実施例7]
実施例6は音声から検索対象となる文章を入力したが、本実施例ではOCR(光学式文字読取装置)を用いて画像情報から検索文章を入力可能とした。
【0085】
ユーザは新聞や雑誌等の紙媒体に記録された情報をスキャナ,デジタルカメラ等の画像入力装置を用いて画像情報としてコンピュータに取り込む。取り込まれた画像情報中からOCRにより文字情報が読みとられる。そうして読みとられた文字情報を検索文として類似文書検索システムに入力することによりデータベース中の類似する文書を抽出することができる。
【0086】
これによれば、書籍,雑誌の記事,新聞記事,FAX文書,特許公報等の印刷された文章を直接利用して、類似する文書を探すことができる。再度キーボードで検索対象文書を入力し直す必要が無いので短時間で容易に類似文章を探すことが可能となる。
【0087】
[実施例8]
個人や商店,会社,団体などが登録したユーザ(読者)に対してインターネットを利用してEメールでエッセイ,記事,お知らせ等を送信するメールマガジンが普及している。
【0088】
メールマガジンでは過去にメールマガジンで発表した記事やインターネット上に開示された情報の中から、本文と関連する記事を補足として掲載することが有る。これは、本文に興味を持った読者に関連する情報を与えるという読者サービスや、本文の内容を補強するためのテクニックとして利用されている。
【0089】
本実施例では、メールマガジンの原稿を作成した後、送信時又は送信前に原稿の内容で文書検索することによりその原稿の内容に類似するバックナンバーや記事が記録されているWebページへのリンク又はバックナンバーの記事の一部又は全部を自動的にメールマガジンに追記される。
【0090】
メールマガジンの読者は、メールマガジンの記事を読んだ後に、更に関連する情報が欲しい場合には、メールマガジンに付記された記事やリンクを用いて容易に関連情報を得ることができる。
【0091】
[実施例9]
本実施例はEメールを受信すると自動的に関連する過去ログ(過去の送受信記録)を表示できるシステムに関する。
【0092】
業務でEメールを使うような場合、仕事上の問い合わせ,指示,命令,連絡,報告,判断等を、Eメールを使って行うことが多い。それらのEメールの内容は過去ログとして記録されるが、過去ログを参照できれば業務を進める上で同様の事案について以前はどのように対処したかを知ることができ参考になることが多い。
【0093】
しかし、うまく分類して整理しないと必要なEメールが過去ログの中に埋もれてしまい、探すことが困難である。特にEメールの使用が多い場合は、送受信したEメールを整理するのにも手間がかかってしまい、結果として過去ログを参考にすることは困難である。
【0094】
そこで本実施例では新たなEメールを受信すると自動的に過去ログの中から類似する内容を抽出して表示するようにし、ユーザの便宜を図ることができるようにした。
【0095】
ユーザがEメールを受信した段階、又は受信したEメールを開いて見る際に、メール中の文章が自動的に文書検索システムに入力される。そして、データベース中の過去ログの中から新たなメールの内容と類似する内容の記録が抽出され、ユーザがメールを読む際に併せて表示される。
【0096】
抽出された類似するEメールの内容は新たに受信したEメールとは別に表示しても良いし、新たに受信したEメールの末尾等に付加した状態で表示するようにしても良い。
【0097】
[実施例10]
図書館や大きな書店では書籍や論文等を探すための検索システムを備えていることが多い。このような検索システムでは「発行所」,「著者」,「タイトル」,「発行年月日」,「分野(例えば「経済」,「SF小説」,「料理」)」等をキーワードとして検索することができる。
【0098】
しかしながら、本を探す際に必ずしも正確なタイトルや著者等を記憶しているとは限らず、大まかな内容しかわかっていない場合すらある。又、調査・研究のために特定の内容が記載されている文献を探すような場合、特定の書籍を探しているわけではないのでタイトルや著者等を使った検索では探しにくい。
【0099】
本実施例は内容からも検索ができるようにしたものである。データベースには書籍,論文などの内容が文書情報として記録されている。内容は全文でも良いが、本実施例では要約又は抄録を記録している。
【0100】
ユーザは自分が求めている書籍,論文などの内容を文章として入力する。例えば「デジタルカメラ用CCDの開発及び今後の発展予想を詳細に説明したもの」のように入力すると良い。又、小説の場合、知っている範囲で「あらすじ」を入力して検索する。例えば、「米国人の女性と、ドイツ人の男性が恋に落ちるが、第二次大戦のために離ればなれになる。戦後、ドイツ人男性は米国にわたってロケット開発にたずさわりながら彼女を捜す。ある日、彼女は彼が写っている写真を偶然見つける。」のように入力すれば、それに近い内容の小説が探し出される。
【0101】
既に気に入った文献や資料を有しており、それに類似する内容の文献や資料を探したい場合には、文献の名称がわかっているはずなので、所持している文献や資料のタイトルを入力すると良い。その場合、データベース中から該当文献の抜粋又は要約が一旦呼び出され、次にその抜粋,要約等が検索文として入力されることにより類似する文献や資料が抽出される。
【0102】
尚、入力はキーボードやタッチパネル等により入力するようにしても良いし、実施例6のように音声を用いて文書を入力するようにしても良い。音声入力に対応した端末を書店や図書館に設置して利用に供すれば、店員や司書に尋ねるように気軽に利用することができる。
【0103】
[実施例11]
本実施例は作家の執筆を支援するシステムに関する。ノンフィクションの作家であれば執筆に際して資料として題材と関連する過去の事件や歴史的事実を調べる必要がある。又、小説やフィクションにしても舞台となる地域の習慣,風俗,世相,大きな出来事等を調べる必要がある。又、過去の作品や記事を参照することもある。
【0104】
そこで、本実施例では作者は草稿の一部、又は調べたい内容を類似文書検索システムに入力することによりデータベース中から関連する情報を抽出することができる。これにより、作家は草稿を書きながら随時で類似する記事を参照して推敲することができる。
【0105】
[実施例12]
本実施例は定期的にユーザが興味を持っている情報を知らせるクリッピングサービスのシステムに関するものである。
【0106】
インターネットでは毎日新しい情報が膨大に公開されていく。その中から毎日のように興味のある記事を探してチェックしていくことは面倒である。
【0107】
そこで本実施例ではユーザは自分が興味を持っている事項を文章にして登録しておく。登録する文章は自分が書いた文章でも良いし、興味のある記事を選んで指定(クリップ)しても良い。
【0108】
すると、定期的にインターネットに開示されている情報を検索し、ユーザが登録した文章と類似する文章を検出し、その文章が開示されているURLを通知する。必要なら、URLのみならず検出された文章の一部又は全部を送信できるようにしても良い。
【0109】
[実施例13]
本実施例は実施例2をアンケートの解析に応用したシステムである。アンケートには予め与えられた選択肢から1又は複数の選択肢を選択する選択式のものと、回答者が自由に感想や意見を書くことのできる記述式のものがある。
【0110】
この内、選択式のものは限られた選択肢であるために分析が簡単であるが、回答者の意見が十分に把握できないという問題がある。例えば「サービスに満足しましたか」という質問に対して「満足」,「やや満足」,「普通」,「やや不満」,「不満」という5つの選択肢を設けていても、実際にどのようなことについてどの程度の満足や不満が有ったのかはわからない。そのため、質問数を多くして、より細かな事項について質問して行かなくてはならない。
【0111】
一方、記述式のアンケートは回答者の意見がダイレクトに反映される。例えば、「サービス自体は気に入ったが、担当者の態度が気に入らない」とか、「サービスの料金は少し高いと思う。又、支払い方法が銀行振込だけであり、郵便振替が利用できないのが残念。」のような、質問に対する直接的な意見を聞くことができる。
【0112】
しかし選択式と異なり、これらの回答を分類して解析することが難しい。もし、行おうとする場合、各回答を詳しく読んで分類しなければならず、大変手間や時間がかかる。そのため、アンケートを取るだけで有効利用されず、アンケートの主目的である業務改善や顧客満足度の向上等の目的が達成できないケースが多く見受けられる。
【0113】
本実施例では記述式のアンケート回答について、所定のカテゴリー分類出来るようにしている。まず、複数の重要単語がカテゴリと関連付けて登録されている。例えばサービス業の顧客アンケートであれば、カテゴリとして「営業方法への要望」,「アフターサービスについての要望」,「配送についての要望」,「価格についての要望」等が考えられる。重要単語はそのカテゴリにふさわしい単語とすることが望ましい。
【0114】
アンケートの回答文章が入力されるとその回答中の重要単語が見つけだされ、類似度が大きいと判断された重要単語に関連づけられているカテゴリが回答文書に付与されて記録される。
【0115】
複数の重要単語と類似する場合に、最も類似する重要単語と関連づけられたカテゴリのみを付加するようにしても良いし、類似する全ての重要単語に関するカテゴリを付加するようにしても良い。
【0116】
回答文章はカテゴリが付加されて記録されるため、データベースに記録された回答をカテゴリ毎にまとめて利用することができる。例えば、上記の例であれば「販売担当者への要望」に関する回答内容をまとめて確認することができ、回答をフィードバックすることにより販売担当者への教育に有効に利用することができる。
【0117】
図2は、アンケート回答をカテゴリ別に一覧表示した画面の一例を示した図である。尚、同図では、カテゴリ番号「1」として「営業」に関する回答を、カテゴリ番号「2」として「価格」に関する回答を分類した場合の例を示している。同じカテゴリ中の表示の順は回答番号順でも良いし、類似度の順等でも良い。
【0118】
又、各カテゴリに分類される回答の数や、類似度も把握できるため、統計化して各種のヒストグラム(度数分布を表すグラフ)やマップ等を制作することができる。
【0119】
尚、実施例2と同様に類似判断の基準として「重要単語」を登録する代わりに、カテゴリ毎に登録された基準文書との類似を判断することによりカテゴリを付与するようにしても良い。
【0120】
[実施例14]
本実施例はインターネットの掲示板での発言を分析可能なシステムであり、書かれた内容を分類するという点では上記の実施例13と同様である。
【0121】
つまり予めカテゴリと重要単語を登録しておき、掲示板に書き込まれた発言内容を取り込んで内容から見た重要単語を特定し、それと事前に登録されている重要単語と比較して類似度が高いと判断されるカテゴリを発言内容に関連づけて記録する。
【0122】
このように掲示板での発言を分類することにより、「ユーザがどのようなことに興味を持っているのか」,「何が流行しているのか」,「ユーザが求めていることは何か」等をカテゴリに分けて整理することができる。もちろん、各カテゴリ毎に一覧を作ることや、ヒストグラムやマップ等を制作することができるため、発言の傾向を容易に把握することができる。
【0123】
尚、本実施例は掲示板について説明したが、十分な処理速度が確保できるのであれば、チャットでの発言についての分析に利用することも可能である。
【0124】
[実施例15]
本実施例は禁止内容コンテンツを発見するシステムに関する。インターネット上では違法な内容又は公序良俗に反する内容のコンテンツが掲載されることもある。そのようなコンテンツを放置すると、危険又は不愉快であるだけでなく、関連するサイトの社会的信用が失われるおそれもある。
【0125】
例えば、会員にwebサーバを提供するインターネットサービスプロバイダは、会員が違法なコンテンツ又は公序良俗に反するコンテンツ等、禁止内容について公開している場合に、これらを放置すれば責任を問われることも有る。
【0126】
そこで、禁止内容のコンテンツの存在しないかを定期的に調べるようにしているが、膨大な数のサイトをチェックして回ることは容易なことではなく、時間も手間もかかる仕事である。
【0127】
キーワード検索を用いて探すこともできるが、キーワードによる検索では検出制度がどうしても低くなってしまう。例えば「アダルト向け」コンテンツを禁止している場合に、「アダルト」というキーワードを用いて検索したのでは、禁止内容と関係のないサイトを検出してしまうと共に、禁止している多くのアダルト向けコンテンツの検出漏れが生じやすい。これに対し文書検索では文書全体で内容を判断できるためキーワード検索よりも検出の精度が高くなる。
【0128】
このようにして禁止内容を含むコンテンツを効率よく発見し、改善依頼,削除などの対応をすることができる。
【0129】
[実施例16]
本実施例はインターネットを利用して類似文書検索システムをユーザ(この場合、webページの閲覧者)の利用に供した例である。情報検索用のwebページを設け、そこに検索文記入欄を設ける等して類似文書検索システムへの入力を可能とする。情報検索用のwebページは独立して設けても良いが、他の用途を有するwebページの一部に情報検索用コーナーとして設置しても良い。
【0130】
webページ上から検索文が入力されると、検索文がインターネットを介してサーバに送られる。サーバは検索文を共通書式に変換して類似文書を抽出し、抽出された類似文書をHTML文書に変換してwebページ上に表示させることができる。結果を表示させるwebページは検索文を入力したwebページでも良いし、他のwebページに別途表示させるようにしても良い。
【0131】
本実施例によれば、ユーザは自分で文書情報をストックしたデータベースを有していなくても、インターネットを介して他のサーバのデータベースを利用して、内容的に類似する文書について調べることができる。
【0132】
尚、文書検索が可能なwebページは広く何人でも利用できるようにしても良いし、会員制にして限定されたユーザのみが使用できるようにしても良い。
【0133】
[実施例17]
上記の各実施例では、対象となる文章を入力する手段としてキーボード,音声,OCR等を利用したが、本実施例ではタッチパネルで入力できるようにした。
【0134】
予め端末のタッチパネル上に表示される各ボタンと基準となる文章又は重要キーワードとが関連付けて記録されている。ユーザがタッチパネル上のボタンに触ると、そのボタンに関連づけられた文章又は重要キーワードが類似文書検索システムに入力されて類似文書検索が行われ、検索結果をタッチパネル上に表示する。
【0135】
特に入力の手間や時間を取ることができない場所、例えば駅の売店やコンビニエンスストア等に端末を設置すると効果的である。
【0136】
【発明の効果】
以上述べたように本発明により、ストックされた情報の中から必要な情報を容易に抽出して確認することができる。しかも複数のアプリケーションやwebとの連携が可能であるため、ストックされた情報を各種のアプリケーションやwebから検索し、利用することができる。
【図面の簡単な説明】
【図1】本実施例の概念を説明した図。
【図2】アンケート回答をカテゴリ別表示した画面の一例を示した図。
【符号の説明】
(1)  データベース
(2)  連携するアプリケーション
(3)  情報源
(11) 入力変換手段
(12) 検索手段
(13) 出力変換手段
(14) 記録情報変換手段

Claims (15)

  1. 共通形式で文書情報が記録されているデータベースと、
    連携するアプリケーションが使用する書式により入力された検索文を一旦共通書式に変換可能な入力変換手段と、
    共通形式に変換された検索文を用いて該検索文との類似度が高いと判断される文書を該データベースに記録されている文書情報中から抽出可能な検索手段と、抽出された共通書式の類似文書を前記アプリケーションが使用する書式又は指定された書式に変換可能な出力変換手段とを備えた
    ことを特徴とする文書検索システム。
  2. データベースに記録すべき文書情報の書式を前記共通書式に変換することが可能な記録変換手段を備えたことを特徴とする請求項1記載の文書検索システム。
  3. 請求項1又は請求項2記載の文書検索システムを有し、
    分類の基準となる重要単語又は基準文章が夫々カテゴリと関連づけてデータベースに記録されており、
    検索文が入力された際に、前記文書検索システムによって該検索文との類似度が大きい重要単語又は基準文章を抽出し、該重要単語又は該基準文章に関連づけられたカテゴリと同じカテゴリを関連づけて記録することができ、
    記録された文章を関連づけられたカテゴリ毎にまとめて出力可能である
    ことを特徴とする情報提供システム。
  4. 請求項1記載の文書検索システムを有し、データベースは質問と該質問に対する回答とからなる質問情報を複数記録しており、
    検索文として質問文が入力されると、前記文書検索システムによりデータベース中に記録されている質問情報の中から、該質問文と類似する質問情報を抽出して出力可能である
    ことを特徴とする情報提供システム。
  5. 新たな質問文に対して新たに回答文を作成して登録することにより、該質問文と該回答文とを質問情報として前記データベースに記録可能である
    ことを特徴とする請求項4記載の情報提供システム。
  6. 質問者からインターネットを介して送信されて来た質問文が自動的に文書検索システムに入力され、検索によりデータベースから抽出された該質問文に類似する質問情報が自動的に該質問者にインターネットを介して返信される
    ことを特徴とする請求項4記載の情報提供システム。
  7. 請求項1又は請求項2記載の文書検索システムを有し、
    データベースは文献の名称と内容の少なくとも一部とを含む文献情報を記録しており、
    検索文を入力することにより、データベースに記録されている文献情報の中から、該検索文と類似する内容の文献についての文献情報を抽出して出力可能である
    ことを特徴とする情報提供システム。
  8. 請求項1又は請求項2記載の文書検索システムを有し、
    データベースにはインターネット上に公開されている情報とURLとが公開情報として記録されており、
    メールマガジンの原稿文章が検索文として入力されると、該原稿文章の内容に類似する公開情報が抽出され、該公開情報を前記原稿に自動的に付加することが可能である
    ことを特徴とする情報提供システム。
  9. 請求項1又は請求項2記載の文書検索システムと音声入力装置を備え、
    取り込まれた音声が前記音声入力装置により文字情報に変換され、
    該文字情報が検索文として前記文書検索システムに入力されることにより、データベース中に記録されている情報の中から該検索文と類似する内容の文書を抽出して出力可能である
    ことを特徴とする情報提供システム。
  10. 音声変換装置とスピーカを備え、データベースから抽出された文書を該音声変換装置により音声に変換し、該スピーカにより音声出力可能であることを特徴とする請求項9記載の情報提供システム。
  11. 請求項1又は請求項2記載の文書検索システムと、光学式文字読取装置とを備え、該光学式文字読取装置により画像情報中から文字情報を読み取り、読みとられた文字情報が検索文として前記文書検索システムに入力されることにより、データベース中に記録されている情報の中から該検索文と類似する内容の文書を抽出して出力可能である
    ことを特徴とする情報提供システム。
  12. 請求項1又は請求項2記載の文書検索システムと、タッチパネルを有し、
    該タッチパネル上に表示される入力ボタンと重要単語とが関連づけて記録されており、該入力ボタンが入力されるとデータベースに記録されている情報の中から該入力ボタンに関連づけられている重要単語と類似度が大きい文書を抽出して、該タッチパネル上に表示可能である
    ことを特徴とする情報提供システム。
  13. 請求項1又は請求項2記載の文書検索システムと、該文書検索システムへの入力が可能なwebページとを有し、該webページから検索文が入力された際に、該検索文と内容的に類似する文書情報をデータベース中から抽出し、抽出された文書を該webページ又は他のwebページ上に表示可能である
    ことを特徴とする文書検索システム。
  14. 請求項1記載又は請求項2記載の文書検索システムを有し、基準となる文章を予め登録することができ、定期的にインターネット上に公開されている情報の中から前記基準となる文章と類似する内容の情報を抽出して出力可能である
    ことを特徴とする情報提供システム。
  15. 請求項1又は請求項2記載の文書検索システムを有し、
    データベースには過去に受診したEメールの内容が記録されており、
    新規のEメールを受信した際又は表示させる際に該新規Eメール中の文章が検索文として入力され、該新規Eメールの内容に類似する過去のEメールの内容を抽出して出力可能である
    ことを特徴とする情報提供システム。
JP2002292471A 2002-10-04 2002-10-04 文書検索システム及びそれを用いた情報提供システム Pending JP2004127086A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002292471A JP2004127086A (ja) 2002-10-04 2002-10-04 文書検索システム及びそれを用いた情報提供システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002292471A JP2004127086A (ja) 2002-10-04 2002-10-04 文書検索システム及びそれを用いた情報提供システム

Publications (1)

Publication Number Publication Date
JP2004127086A true JP2004127086A (ja) 2004-04-22

Family

ID=32283711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002292471A Pending JP2004127086A (ja) 2002-10-04 2002-10-04 文書検索システム及びそれを用いた情報提供システム

Country Status (1)

Country Link
JP (1) JP2004127086A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072609A (ja) * 2004-09-01 2006-03-16 Toshiba Corp 問い合わせ処理装置、問い合わせ処理方法および問い合わせ処理プログラム
JP2011204038A (ja) * 2010-03-26 2011-10-13 Xconcept Corp 電子メール受付システム、電子メール受付方法およびプログラム
CN109635275A (zh) * 2018-11-06 2019-04-16 交控科技股份有限公司 文献内容检索与识别方法及装置
US11475068B2 (en) * 2019-07-26 2022-10-18 Beijing Boe Technology Development Co., Ltd. Automatic question answering method and apparatus, storage medium and server

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072609A (ja) * 2004-09-01 2006-03-16 Toshiba Corp 問い合わせ処理装置、問い合わせ処理方法および問い合わせ処理プログラム
JP2011204038A (ja) * 2010-03-26 2011-10-13 Xconcept Corp 電子メール受付システム、電子メール受付方法およびプログラム
CN109635275A (zh) * 2018-11-06 2019-04-16 交控科技股份有限公司 文献内容检索与识别方法及装置
US11475068B2 (en) * 2019-07-26 2022-10-18 Beijing Boe Technology Development Co., Ltd. Automatic question answering method and apparatus, storage medium and server

Similar Documents

Publication Publication Date Title
CN101061478B (zh) 用于识别web文档的方法和系统
Ackermann et al. The information specialist's guide to searching and researching on the Internet and the World Wide Web
US7707039B2 (en) Automatic modification of web pages
US9811728B2 (en) Adding value to a rendered document
US20180096203A1 (en) Adding value to a rendered document
US8713418B2 (en) Adding value to a rendered document
US9483534B2 (en) User interfaces for a document search engine
Fetterman Research News And Comment: Webs of Meaning: Computer and Internet Resources for Educational Research and Instruction
Chan Electronic journals and academic libraries
US20020120651A1 (en) Natural language search method and system for electronic books
JP2014041620A (ja) 取り込まれたレンダリングテキストに基づくコンテキスト動的広告
Duff et al. Use of historical documents in a digital world: comparisons with original materials and microfiche
JP2004127086A (ja) 文書検索システム及びそれを用いた情報提供システム
Dorner et al. A textured sculpture: The information needs of users of digitised New Zealand cultural heritage resources
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
Nwosu et al. Information resources in Nigerian university libraries
Montesi Genre analysis of bookmarked webpages
Séguinot Translation and the changing profession: A cross-disciplinary perspective
JPH08249347A (ja) データ検索方法及びデータ検索装置
JP2004206654A (ja) 情報検索方法、情報検索処理システム、プログラム
Stewart et al. Introduction. Secondary Research
Fineman DW3 classical music resources: managing Mozart on the web
Brightenburg The digitization of early English books: A database comparison of Internet Archive and Early English Books Online
Achugbue INTERNET LIBRARY BASED FACILITIES AND SERVICES FOR EFFICIENT LIBRARY OPERATIONS IN UNIVERSITY LIBRARIES
McBrayer Frequency Analysis in American Periodical Scholarship

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080819

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090106