JP2004206571A - Method, device, and program for presenting document information, and recording medium - Google Patents

Method, device, and program for presenting document information, and recording medium Download PDF

Info

Publication number
JP2004206571A
JP2004206571A JP2002377024A JP2002377024A JP2004206571A JP 2004206571 A JP2004206571 A JP 2004206571A JP 2002377024 A JP2002377024 A JP 2002377024A JP 2002377024 A JP2002377024 A JP 2002377024A JP 2004206571 A JP2004206571 A JP 2004206571A
Authority
JP
Japan
Prior art keywords
document
sentence
documents
matching
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002377024A
Other languages
Japanese (ja)
Inventor
Masayuki Sugizaki
正之 杉崎
Toshiaki Makino
俊朗 牧野
Akiya Kurishima
聡哉 栗島
Hisashi Ibaraki
久 茨木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002377024A priority Critical patent/JP2004206571A/en
Publication of JP2004206571A publication Critical patent/JP2004206571A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a method, device, and program for presenting document information, and a recording medium, making it possible to reduce the labor required of a user to acquire a necessary text when searching documents over a network. <P>SOLUTION: A first evaluation value is allocated to each of the documents to be processed. A plurality of documents to be processed are searched according to a string of characters for search which contain at least one word. Any documents that contain a sentence matching requirement are extracted as matching documents. When a plurality of the matching documents are detected, the matching documents are classified into a plurality of groups according to the similarity between the documents. Based on the first evaluation value of each of the matching documents included in each group, a second evaluation value is calculated for each group. Based on the second evaluation value, information on at least one sentence is extracted from the matching documents and is output. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、例えば文書作成支援のために利用可能な文書情報提示方法及び装置並びにプログラム及び記録媒体に関する。
【0002】
【従来の技術】
例えば、ある題材についてまとまった文章を作成しようとする場合には、参考となる文献や文書を収集し、それらに含まれる文章の内容の一部分を引用したり内容を分析した結果に基づいて自分の文章を作成する場合が多い。
最近では、インターネットや社内LANに接続された様々なコンピュータにアクセスして電子化された大量の文書を入手することができる。
【0003】
このようなネットワーク上で入手可能な文書は量が膨大であり、しかも各々の文書を保持するコンピュータも所在がそれぞれ異なるため、参照すべき文書を探し出すのは非常に難しい。
このような検索を容易にするために、インターネット上においては様々な検索サービスが提供されている。
【0004】
これらの検索サービスにおいては、一般に、予めツリー状のカテゴリで分類されている文書群を利用者がカテゴリを順に辿ることで表示される文書群を絞り込む方法や、利用者が入力したキーワード(単語)を含む文書群を自動的に検索して表示する方法が実現されている。
このような検索サービスを利用することにより、ネットワーク上で膨大な文書群の中から利用者が必要とする文書に近い文書を絞り込んで検索することができる。
【0005】
本発明と関連のある従来技術としては、次の非特許文献1が知られている。
【非特許文献1】
(“パターン認識と学習のアルゴリズム”,上坂,尾関,文一総合出版,P.91−108 1990)
【0006】
【発明が解決しようとする課題】
しかしながら、従来の検索サービスでは入力したキーワードを含む文章が含まれている全ての文書群を抽出してそれらのタイトルや内容の一部分などをアクセス数などを反映した優先順位に従って列挙するだけなので、実際に利用者が必要としている文書であるかどうかは、検索結果のそれぞれの文書にアクセスして内容を確認しない限り分からない。
【0007】
そのため、検索結果として出力された候補文書の数が多い場合には、目的の文書を見つけるまでに長い時間と労力を必要とする。
本発明は、ネットワーク上で文書を検索する場合に、利用者が必要としている文章の取得に要する労力を軽減することが可能な文書情報提示方法及び装置並びにプログラム及び記録媒体を提供することを目的とする。
【0008】
【課題を解決するための手段】
請求項1は、それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示方法において、処理対象の文書毎に第1の評価値を割り当てておき、少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出し、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分し、各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算し、前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力することを特徴とする。
【0009】
請求項1においては、単語を含む検索対象文字列を指定すると、その条件に適合する文書が適合文書として抽出される。また、抽出された適合文書が複数である場合には、これらの適合文書は文書間の類似性に基づいて複数のグループに区分される。更に、各適合文書に割り当てられた第1の評価値に基づいてグループ毎に第2の評価値が算出される。そして、第2の評価値に基づいて適合文書から少なくとも1つの文の情報が抽出され出力される。
【0010】
グループ化を行う意図は、獲得できる文の出現回数による有効性を確保することにある。つまり、互いに類似性の高い複数の文書で構成される同じグループ内で、検索条件を含む文の出現回数などを集計することにより、有効性の高い表現などを抽出することができる。
検索条件を含む文を中心としてその前後に存在する文あるいはフレーズの出現回数が多いものについては、一般的に使われている表現あるいは文書のストーリーを表している有効性の高い文章であるとみなすことができる。有効性の高い文章は、利用価値が高く文章を作成する際の参考になる。
【0011】
グループ化のための類似性の判断については、例えば検索対象文字列に関する肯定型の文書と否定型の文書とを互いに異なるグループに振り分けることが考えられる。これにより、それぞれのグループから互いに内容の異なる文章を取り出すことが可能になる。
また、インターネットなどで収集される文書情報には、噂や口コミのように真実性のない文書も多く含まれている。文書毎に第1の評価値を割り当てておくことにより、真実性の低い不適当な文書が抽出されるのを防止することが可能になる。
【0012】
また、第1の評価値に基づいてグループ毎に第2の評価値を算出するので、グループ毎の有効性を識別することも可能になる。例えば、多数のグループが形成された場合には、第2の評価値が大きいグループのみを選択して結果を出力すれば、不適当な文書の内容が出力されるのを防止できる。
【0013】
請求項2は、請求項1の文書情報提示方法において、文書間の類似性を調べる際には、各文書に含まれている各文を単語毎に分離し、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求め、前記類似度に従って適合文書を複数のグループに区分することを特徴とする。
【0014】
請求項2においては、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求めるので、各文書に含まれている文の内容の違いによってグループの割り当てを変更することが可能になる。
従って、例えば肯定型の文を含む文書と否定型の文を含む文書とを互いに異なるグループに割り当てることも可能である。
【0015】
請求項3は、請求項1の文書情報提示方法において、前記検索対象文字列を分析してそれに含まれる各単語を抽出し、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出し、グループ毎に区分して、複数グループについて前記提示文を出力することを特徴とする。
【0016】
請求項3においては、検索対象文字列を分析してそれに含まれる各単語を抽出するので、複数の単語で構成されるフレーズなどを検索対象文字列として用いることができる。また、各単語だけでなく検索対象文字列全体についての適合性も調べるので、検索対象文字列と完全に一致する文と、検索対象文字列に含まれている各単語を含む文とを文単位適合度において区別することができる。処理の結果は、複数グループのそれぞれについて出力される。
【0017】
請求項4は、請求項1の文書情報提示方法において、前記検索対象文字列を分析してそれに含まれる各単語を抽出し、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、選択された特定のグループについて、前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力することを特徴とする。
【0018】
請求項4においては、検索対象文字列を分析してそれに含まれる各単語を抽出するので、複数の単語で構成されるフレーズなどを検索対象文字列として用いることができる。また、各単語だけでなく検索対象文字列全体についての適合性も調べるので、検索対象文字列と完全に一致する文と、検索対象文字列に含まれている各単語を含む文とを文単位適合度において区別することができる。
【0019】
処理の結果は、選択された特定のグループについて文単位適合度の高い順番に並べて出力される。
請求項5は、それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示装置において、処理対象の文書毎に第1の評価値が割り当てられた場合に、少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手段と、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手段と、各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算する評価値計算手段と、前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力する情報出力制御手段とを設けたことを特徴とする。
【0020】
請求項5の装置を利用することにより、請求項1の方法と同様の結果が得られる。
請求項6は、請求項5の文書情報提示装置において、前記文書グループ化手段に、文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手段と、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手段とを設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とする。
【0021】
請求項6の装置を利用することにより、請求項2の方法と同様の結果が得られる。
請求項7は、請求項5の文書情報提示装置において、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出する提示文抽出手段とを設け、前記情報出力制御手段は、グループ毎に区分して複数グループについて前記提示文を出力することを特徴とする。
【0022】
請求項7の装置を利用することにより、請求項3の方法と同様の結果が得られる。
請求項8は、請求項5の文書情報提示装置において、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、を設け、前記情報出力制御手段は、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力することを特徴とする。
【0023】
請求項8の装置を利用することにより、請求項4の方法と同様の結果が得られる。
請求項9は、それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示するためのコンピュータで実行可能なプログラムにおいて、処理対象の文書毎に第1の評価値が割り当てられた場合に、少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手順と、複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手順と、各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算する評価値計算手順と、前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力する情報出力制御手順とを設けたことを特徴とする。
【0024】
請求項9のプログラムを所定のコンピュータで実行することにより、請求項1の方法と同様の結果が得られる。
請求項10は、請求項9のプログラムにおいて、前記文書グループ化手順には、文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手順と、文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手順とを設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とする。
【0025】
請求項10のプログラムを所定のコンピュータで実行することにより、請求項2の方法と同様の結果が得られる。
請求項11は、請求項9のプログラムにおいて、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出する提示文抽出手順とを設け、前記情報出力制御手順では、グループ毎に区分して複数グループについて前記提示文を出力することを特徴とする。
【0026】
請求項11のプログラムを所定のコンピュータで実行することにより、請求項3の方法と同様の結果が得られる。
請求項12は、請求項9のプログラムにおいて、前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、を設け、前記情報出力制御手順では、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力することを特徴とする。
【0027】
請求項12のプログラムを所定のコンピュータで実行することにより、請求項4の方法と同様の結果が得られる。
請求項13は、請求項9,請求項10,請求項11及び請求項12の何れかのプログラムを記録した記録媒体である。
請求項13の記録媒体からプログラムを読み込んで所定のコンピュータで実行することにより、請求項1〜請求項4の方法と同様の結果が得られる。
【0028】
【発明の実施の形態】
本発明の文書情報提示方法及び装置並びにプログラム及び記録媒体の1つの実施の形態について図1〜図5を参照して説明する。この形態は全ての請求項に対応する。
図1は文書情報提示装置の動作を示すフローチャートである。図2は文書のグループ化処理の具体例を示すフローチャートである。図3は文単位の適合度の算出処理の具体例を示すフローチャートである。図4は文書情報を扱う装置の構成例を示すブロック図である。図5は文書情報提示装置の動作の具体例を示す模式図である。
【0029】
この形態では、請求項5の適合文書抽出手段,文書グループ化手段,評価値計算手段及び情報出力制御手段は、それぞれステップS14,S15,S16及びS21(S23)に対応する。
また、請求項6の文書分析手段及び類似度算出手段は、それぞれステップS31及びS32に対応する。請求項7の検索対象文字列分析手段,文単位適合度算出手段及び提示文抽出手段は、それぞれステップS13,S19及びS21に対応する。請求項8の検索対象文字列分析手段及び文単位適合度算出手段は、それぞれステップS18及びS19に対応する。
【0030】
この例では、図4に示すような装置を用いる場合を想定している。利用者が使用する文書情報提示装置10は、パソコンなどを用いて構成できる。この文書情報提示装置10は、インターネット20を介して様々なサーバ21(1),21(2),21(3),・・・と接続されており、更にLAN30を介してサーバ31(1),31(2),・・・と接続されている。
【0031】
従って、文書情報提示装置10は様々なサーバ21(1),21(2),21(3),・・・のデータベース22や、サーバ31(1),31(2),・・・のデータベース32から様々な文書情報を収集することができる。
処理対象の文書情報としては、例えばHTML形式のファイルのようにテキスト情報が含まれるものを想定している。具体的には、例えば電子化された新聞記事のような情報を用いればよい。
【0032】
文書情報提示装置10は、利用者が何らかの文章を作成する際に、参考になる文章の情報を取得するために利用できる。
文書情報提示装置10の動作の概略は図1に示すとおりである。以下、図1を参照しながら文書情報提示装置10の動作を説明する。
ステップS10では、文書情報提示装置10はインターネット20やLAN30を介して各サーバ21や各サーバ31から文書の情報を収集し、記憶装置11に保存する。収集した文書情報が予め記憶装置11に保持されている場合にはステップS10は不要である。
【0033】
ステップS11では、収集された多数の文書のそれぞれに文書評価値Pdを割り当てる。各々の文書に割り当てる文書評価値Pdの値については、人間の判断により決定しても良いし、所定のアルゴリズムに基づいてコンピュータで自動的に決定しても良い。
【0034】
文書評価値Pdの具体例としては、「文書の信頼性」,「参考文献として参照されている数」,「文書の著者の知名度を数値化したもの」などが考えられる。
ステップS12では、文書情報提示装置10は検索対象文字列Kwを取得する。この検索対象文字列Kwは利用者によって入力されることを想定している。
例えば、利用者がある文書を作成する場合に、その文書の構成の核となる単語や文あるいはフレーズが検索対象文字列Kwとして入力される。図5の例では、「パソコンが普及している」が検索対象文字列Kwとして入力されている。
【0035】
ステップS13では、文書情報提示装置10は入力された検索対象文字列Kwに対して形態素解析処理を行い、Kwを構成する単語やその品詞情報及びそれらがどのように並んでいるかを認識する。
ステップS14では、記憶装置11上に保持されている膨大な文書の集合を検索対象とし、検索対象文字列Kwの全体やそれを構成する単語を含んでいる文を探し出し、その文を含む文書を適合文書Dmとして全て抽出する。
【0036】
ステップS15では、適合文書Dmの集合を処理対象とし、それらの適合文書Dmを類似性に基づいて複数グループに振り分ける。具体的には、図2に示すような処理を行う。
図2のステップS31では、各々の適合文書Dmに形態素解析を適用して文書毎に複数の単語を抽出する。
【0037】
ステップS32では、複数の適合文書Dmの間で単語毎の類似性及び単語の並び順の類似性を反映した文単位及び文書単位の類似度を算出する。
例えば、非特許文献1に記載されているDPマッチングのアルゴリズムを応用し、「アミノ酸系列の整列化」のアミノ酸1つを単語に置き換え、かつ評価値D(x,y)を利用して、i番目の文書とj番目の文書との類似度rel(i,j)は、次式により求めることができる。
【0038】
rel(i,j)=D(i,j)/((Ni)×(Nj))
D(i,j):(i,j)文書の評価値
Ni:i番目の文書内の単語数
Nj:j番目の文書内の単語数
この計算式を用いる場合、文書内の単語及びその並びが一致するほど類似度は大きくなる。
【0039】
ステップS33では、類似度の高い適合文書同士を同じグループに割り当てる。すなわち、互いに似ている文書同士を同じグループにまとめる。この処理を行う場合には、例えばクラスター分析を適用すればよい。
クラスター分析では、分類対象(この場合は文書や文)を、それらの間に何らかの意味で定義された類似度(similarity)を手がかりにして似たものをあつめ、いくつかの均質なものの集落(クラスター)に分類する。すなわち、類似した情報同士を結び付け、互いに関連のある情報をクラスターと呼ばれるグループに分類する。
【0040】
クラスター分析のアルゴリズムにおいては、一般に次のような処理が行われる。
(S1)初期設定:N個のデータ(d1,d2,・・・,dN)が存在する場合に各データを要素とする要素数が1のクラスター(C1,C2,・・・,CN)の集合D={C1,C2,・・・,CN}を形成する。
(S2)クラスター集合Dを探索し、この中で最も類似したクラスター同士をクラスター組(Ci,Cj)として抽出する。
【0041】
(S3)クラスターCi,Cjから新たなクラスターCkを生成し、Ckをクラスター集合Dに加える。
(S4)クラスター集合DからクラスターCi,Cjを削除する。
(S5)所定の終了条件を満たすまで上記(S2)〜(S4)の処理を繰り返す。
終了条件としては、例えば「クラスターの数がm個まで」や、前記ステップS2で「類似度の値によって類似していると判断されなくなった場合」などが想定される。
【0042】
新たに作られたクラスターとそれ以外のクラスターとの類似度を計算する場合には、計算コストの関係から、一般的に新たに作られたクラスターから代表的な値を使って計算される。これは「重心法」や「メジアン法」と呼ばれる。
このようなグループ化により、例えば互いの文書間の類似度が所定の閾値以上のもの同士が同じグループに割り当てられる。
【0043】
図1のステップS16では、各文書に割り当てられた文書評価値Pdに基づいて、グループ毎に評価値Pgを算出する。
例えば、同じグループに割り当てられた全ての適合文書における文書評価値Pdの総和や、同じグループに割り当てられた全ての適合文書における文書評価値Pdの総和の平均値として各グループの評価値Pgを求めることができる。また、評価値Pgを求める際には、各文書の検索条件に対する適合度を加味して計算しても良い。
【0044】
ステップS17では、各グループの各文書について、検索条件を満たす文を含む段落及びその前後のいくつかの文を候補段落部Paとして抽出する。例えば、検索対象文字列Kwを構成する全ての単語を含んでいる文を中心とし、それを含む段落とその前後1文ずつを候補段落部Paとして抽出すればよい。
ステップS19では、各文書の候補段落部Paから文をそれぞれ抽出し、文単位で検索対象文字列Kwとの適合度Pxを求める。この処理の具体例は図3に示されている。
【0045】
図3の例では、検索対象文字列Kwの全体が文Syに含まれている場合には、その文に関する適合度PxにステップS45で1が加算される。また、検索対象文字列Kwを構成する各単語と文Syを構成する各単語とが一致するたびに、ステップS49で(1/(n+m))が適合度Pxに加算される。
【0046】
すなわち、検索条件と完全に一致している場合は、その文の適合度は高く、一致する単語が減る、あるいは一致する単語が存在するが連続していない場合には、文の適合度が小さくなるように処理する。
図1のステップS20では、文書情報提示装置10は適合文書から抽出された各文を、グループ毎に分けて適合度Pxの大きい順に並べる。
【0047】
ステップS21では、各グループから適合度Pxが最大の文を1つずつ抽出し、抽出した文を複数グループについて文書情報提示装置10の画面上に一覧表示する。この場合、評価値Pgが大きいグループから順に並べて表示する。
ここで、利用者が表示された複数グループの中から何れかのグループを選択すると、ステップS22からS23に進む。そして、文書情報提示装置10は選択された特定のグループについて、適合度Pxの大きい順に並べて複数の文を一覧表示する。また、利用者が表示された特定の文を選択すると、その文を中心とする段落の全体及びその前後いくつかの文を画面に表示する。
【0048】
文書情報提示装置10の動作の具体例について以下に説明する。図1のステップS12で利用者から入力される検索条件は、例えば「パソコンの普及」という単語列(検索対象文字列Kw)を含む文であったり、「バイオ」と「スーパーコンピュータ」と「研究」という単語を全て含む文であったりする場合が想定される。
【0049】
また、例えば「2002年5月に作成された文書」のように検索対象を絞る条件があれば、それも入力される。
このような検索条件に従って、文書情報提示装置10は図1のステップS14〜S23に示すような処理を実行する。
例えば、検索条件が「パソコンの普及」という単語列を含む文書」であれば、「今年はパソコンの普及が進まない(1)」や「近年パソコンの普及が進んでいた(2)」や「パソコンの一般家庭への普及が見込まれる(3)」といった文を含む文書が適合文書としてS14で抽出される。
【0050】
ステップS15でグループ化を行う場合には、例えば「今年はパソコンの普及が進まない(1)」のような否定型の文書と、「近年パソコンの普及が進んでいた(2)」のような肯定型の文書とを互いに異なるグループに振り分けることが想定される。
この場合、それぞれのグループに属する文書の数を数えれば、否定型の文書の数や否定型の文書の数を知ることができる。
【0051】
また、文書の単位で数を数えるだけでは、噂や口コミのように真実性のない文書が多い場合に問題になる。そこで、各文書に対して与えられた評価値Pdを使って、文書のグループを評価する。
図1のステップS21やS23においては、評価値や適合度の順に並べて文書情報が表示される。例えば、「近年パソコンの普及が進んでいる(2)」の評価値のほうが「今年はパソコンの普及が進まない(1)」の評価値よりも大きい場合は、(2)が文の候補として最初に出力され、続いて(1)が出力される。また、(2)の表示の際に、その文の前後の文も合わせて表示することで、文章の流れを把握しやすくする。
【0052】
また、出力結果の全て又は一部分を文書情報提示装置10の処理対象とすることにより、再帰的に処理を進めることができる。これにより、長い文書が作りやすくなる。また、評価値の低い文あるいは文書を使って文書を作成することも問題はない。
評価値が高い文のグループから、文単位で集計した結果、及び中心となる文を抽出し提示することで、文書作成者は最初に入力した情報を含んだ文、及びその前後の展開の文を入手することが可能となる。
【0053】
【発明の効果】
以上説明したように、本発明では、文書を作成する際にその核となる単語列や文を入力すると、その条件により近い文を自動的に抽出して提示することができる。また、抽出された文書をグループ化し、その数や評価値を使って優先順位を付けて提示するので、文書作成の支援に効果がある。
【図面の簡単な説明】
【図1】文書情報提示装置の動作を示すフローチャートである。
【図2】文書のグループ化処理の具体例を示すフローチャートである。
【図3】文単位の適合度の算出処理の具体例を示すフローチャートである。
【図4】文書情報を扱う装置の構成例を示すブロック図である。
【図5】文書情報提示装置の動作の具体例を示す模式図である。
【符号の説明】
10 文書情報提示装置
11 記憶装置
20 インターネット
21 サーバ
22 データベース
30 LAN
31 サーバ
32 データベース
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a document information presentation method and apparatus, a program, and a recording medium that can be used, for example, for supporting document creation.
[0002]
[Prior art]
For example, if you are trying to create a set of texts on a subject, you can collect reference documents and documents, cite a part of the text contained in them, and analyze your content based on the results of analysis. I often write sentences.
Recently, a large number of electronic documents can be obtained by accessing various computers connected to the Internet or a company LAN.
[0003]
Since the amount of documents available on such a network is enormous, and the computers holding each document are located at different locations, it is very difficult to find a document to be referred to.
Various search services are provided on the Internet to facilitate such searches.
[0004]
In these search services, in general, a method of narrowing down a group of documents displayed in advance by a user following the categories in a group of documents previously classified in a tree-like category, or a keyword (word) input by the user A method of automatically retrieving and displaying a group of documents including "" has been realized.
By using such a search service, it is possible to narrow down and search a document close to a document required by a user from a huge document group on a network.
[0005]
The following non-patent document 1 is known as a related art related to the present invention.
[Non-patent document 1]
("Pattern Recognition and Learning Algorithm", Kamisaka, Ozeki, Bunichi Sogo Publishing, P.91-108 1990)
[0006]
[Problems to be solved by the invention]
However, the conventional search service only extracts all documents that contain the sentence including the input keyword and enumerates their titles and parts of their contents according to the priority that reflects the number of accesses. It is not known whether the user needs the document unless the user accesses each document in the search result and checks the contents.
[0007]
Therefore, when the number of candidate documents output as a search result is large, it takes a long time and effort to find a target document.
SUMMARY OF THE INVENTION An object of the present invention is to provide a document information presentation method and apparatus, a program, and a recording medium that can reduce the effort required to obtain a text required by a user when searching for a document on a network. And
[0008]
[Means for Solving the Problems]
Claim 1 is a document information presentation method for processing information of a plurality of documents and presenting a part of the documents to a user when each document includes at least a character string such as a word. A first evaluation value is assigned to each document, a plurality of documents to be processed is searched based on a search target character string including at least one word, and a document including a sentence that meets the conditions is extracted as a matching document. When a plurality of conforming documents are detected, the conforming documents are divided into a plurality of groups based on the similarity between the documents, and each group is classified based on the first evaluation value of each conforming document included in each group. Calculating a second evaluation value, extracting information of at least one sentence from the conforming document based on the second evaluation value, and outputting the extracted information.
[0009]
According to the first aspect, when a search target character string including a word is specified, a document meeting the condition is extracted as a matching document. When there are a plurality of extracted conforming documents, these conforming documents are divided into a plurality of groups based on the similarity between the documents. Further, a second evaluation value is calculated for each group based on the first evaluation value assigned to each conforming document. Then, information of at least one sentence is extracted from the conforming document based on the second evaluation value and output.
[0010]
The purpose of grouping is to ensure the validity by the number of appearances of the sentence that can be obtained. In other words, by summing up the number of appearances of a sentence including a search condition in the same group including a plurality of documents having high similarity with each other, it is possible to extract a highly effective expression or the like.
Sentences or phrases that precede and follow the sentence that contains the search condition and that have a large number of occurrences are considered to be highly effective sentences that represent commonly used expressions or document stories. be able to. Sentences with high validity have high utility value and can be helpful when creating sentences.
[0011]
As for the determination of similarity for grouping, for example, it is conceivable to assign positive type documents and negative type documents related to the search target character string to different groups. This makes it possible to extract sentences having different contents from each group.
In addition, document information collected on the Internet and the like includes many untrue documents such as rumors and word of mouth. By assigning the first evaluation value to each document, it is possible to prevent an inappropriate document with low truth from being extracted.
[0012]
Further, since the second evaluation value is calculated for each group based on the first evaluation value, it is also possible to identify the effectiveness of each group. For example, when a large number of groups are formed, selecting only the group having the large second evaluation value and outputting the result can prevent output of inappropriate document contents.
[0013]
According to a second aspect, in the document information presentation method according to the first aspect, when examining the similarity between documents, each sentence included in each document is separated for each word, and the similarity for each word is determined between the documents. In addition, the similarity of each sentence or the similarity of the entire document that reflects the similarity of the arrangement order of a plurality of words is obtained, and the matching documents are classified into a plurality of groups according to the similarity.
[0014]
According to the second aspect, similarity of each sentence or similarity of the entire document is calculated which reflects the similarity of each word and the similarity of the arrangement order of a plurality of words between documents. It is possible to change the group assignment depending on the difference in the content of the group.
Accordingly, for example, a document including a positive type sentence and a document including a negative type sentence can be assigned to different groups.
[0015]
A third aspect of the present invention provides the document information presentation method according to the first aspect, wherein the search target character string is analyzed to extract each word included in the search target character string, and the entire search target character string is extracted for each sentence extracted from each matching document. And a sentence unit relevance reflecting the relevance to each word included therein is obtained, and at least one sentence is extracted as a presentation sentence from each group in the order of the higher sentence unit relevance, and divided into groups. Outputting the presentation sentence for a plurality of groups.
[0016]
In claim 3, since the search target character string is analyzed and each word included therein is extracted, a phrase composed of a plurality of words can be used as the search target character string. In addition, since the suitability of not only each word but also the entire search target string is checked, a sentence that completely matches the search target string and a sentence containing each word included in the search target string are sentence by sentence. A distinction can be made in fitness. The processing result is output for each of the plurality of groups.
[0017]
According to a fourth aspect of the present invention, in the document information presentation method according to the first aspect, the search target character string is analyzed to extract each word included in the search target character string, and the entire search target character string is extracted for each sentence extracted from each matching document. And a sentence unit matching degree that reflects the matching with each word included therein, and for a selected specific group, arranges and outputs the sentences included in the matching document in the descending order of the sentence unit matching degree. Features.
[0018]
According to the fourth aspect, since the search target character string is analyzed and each word included therein is extracted, a phrase composed of a plurality of words can be used as the search target character string. In addition, since the suitability of not only each word but also the entire search target string is checked, a sentence that completely matches the search target string and a sentence containing each word included in the search target string are sentence by sentence. A distinction can be made in fitness.
[0019]
The results of the processing are output in the order of the sentence unit matching degree for the selected specific group.
Claim 5 is a document information presentation device that processes information of a plurality of documents and presents a part of the documents to a user when each document includes at least a character string such as a word. When a first evaluation value is assigned to each document, a plurality of documents to be processed are searched based on a search target character string including at least one word, and a document including a sentence that satisfies a condition is regarded as a matching document. A matching document extracting means for extracting, and, when a plurality of matching documents are detected, a document grouping means for classifying the matching documents into a plurality of groups based on similarity between the documents, and a matching group included in each group. Evaluation value calculation means for calculating a second evaluation value for each group based on the first evaluation value of the document, and extracting information of at least one sentence from the conforming document based on the second evaluation value Thigh Characterized by providing an information output control means for outputting information.
[0020]
By using the device of claim 5, the same result as the method of claim 1 is obtained.
According to a sixth aspect of the present invention, in the document information presentation apparatus according to the fifth aspect, the document grouping unit includes a document analysis unit that separates each sentence included in each document for each word when checking similarity between documents. A similarity calculating means for calculating a similarity of each sentence or a similarity of the entire document reflecting the similarity of each word and the similarity of the arrangement order of a plurality of words between documents, and determining a conforming document according to the similarity. It is characterized by being divided into a plurality of groups.
[0021]
By using the apparatus of claim 6, the same result as the method of claim 2 is obtained.
According to a seventh aspect of the present invention, there is provided the document information presentation apparatus according to the fifth aspect, wherein the search target character string analyzing means for analyzing the search target character string and extracting each word included therein, and for each sentence extracted from each matching document. A sentence unit matching calculating means for obtaining a sentence unit matching degree reflecting the matching with the entire search target character string and each word included therein, and at least one sentence from each group in the descending order of the sentence unit matching degree. And a presentation sentence extracting unit for extracting a sentence as a presentation sentence, wherein the information output control unit outputs the presentation sentence for a plurality of groups by dividing into groups.
[0022]
Utilizing the device of claim 7 achieves the same result as the method of claim 3.
An eighth aspect of the present invention provides the document information presentation apparatus according to the fifth aspect, wherein a search target character string analyzing unit that analyzes the search target character string and extracts each word included therein, and a sentence extracted from each matching document. Sentence unit matching degree calculating means for obtaining a sentence unit matching degree that reflects the matching with the entire search target character string and each word included therein, and the information output control means includes a selected specific group. The sentence included in the conforming document is arranged and output in the order of the higher sentence unit conformance.
[0023]
Utilizing the apparatus of claim 8 achieves the same result as the method of claim 4.
A computer-executable program for processing information of a plurality of documents and presenting a part of the documents to a user when each document includes at least a character string such as a word. When a first evaluation value is assigned to each document to be processed, a plurality of documents to be processed are searched based on a search target character string including at least one word, and a document including a sentence that meets a condition A document extraction procedure for extracting the relevant documents as a conforming document, a document grouping procedure for classifying the conforming documents into a plurality of groups based on the similarity between the documents when multiple conforming documents are detected, An evaluation value calculating step of calculating a second evaluation value for each group based on the first evaluation value of each included conforming document; and at least one of the conforming documents based on the second evaluating value. Extracts information of statements is characterized by providing an information output control procedure for outputting the information.
[0024]
By executing the program according to claim 9 on a predetermined computer, the same result as in the method according to claim 1 can be obtained.
According to a tenth aspect of the present invention, in the program according to the ninth aspect, the document grouping procedure includes a document analysis procedure for separating each sentence included in each document for each word when checking similarity between documents; And a similarity calculation procedure for calculating the similarity of each sentence or the whole document that reflects the similarity of each word and the similarity of the arrangement order of a plurality of words. It is characterized by being divided into groups.
[0025]
By executing the program according to claim 10 on a predetermined computer, the same result as the method according to claim 2 can be obtained.
An eleventh aspect is the program according to the ninth aspect, wherein the search target character string is analyzed by analyzing the search target character string to extract each word included in the search target character string, and the search is performed for each sentence extracted from each matching document. A sentence unit matching calculation procedure for obtaining a sentence unit matching that reflects the matching of the entire target character string and each word included therein, and presenting at least one sentence from each group in the descending order of the sentence unit matching. And a presentation sentence extraction procedure for extracting the presentation sentence as a sentence, wherein the information output control procedure is characterized in that the presentation sentence is output for a plurality of groups by dividing into groups.
[0026]
By executing the program according to claim 11 on a predetermined computer, the same result as the method according to claim 3 can be obtained.
According to a twelfth aspect of the present invention, in the program according to the ninth aspect, a search target character string analysis procedure for analyzing the search target character string and extracting each word included in the search target character string; And a sentence unit matching degree calculation procedure for obtaining a sentence unit matching degree that reflects the suitability of the entire target character string and each of the words included therein. In the information output control procedure, the matching is performed for the selected specific group. The invention is characterized in that the sentences included in the document are arranged and output in the order of the higher sentence unit matching degree.
[0027]
By executing the program according to claim 12 on a predetermined computer, a result similar to that of the method according to claim 4 can be obtained.
A thirteenth aspect is a recording medium on which the program according to any one of the ninth, tenth, eleventh, and twelfth aspects is recorded.
By reading the program from the recording medium of claim 13 and executing the program on a predetermined computer, the same result as that of the method of claims 1 to 4 can be obtained.
[0028]
BEST MODE FOR CARRYING OUT THE INVENTION
One embodiment of a document information presentation method and apparatus, a program, and a recording medium according to the present invention will be described with reference to FIGS. This form corresponds to all claims.
FIG. 1 is a flowchart showing the operation of the document information presentation device. FIG. 2 is a flowchart showing a specific example of the document grouping process. FIG. 3 is a flowchart showing a specific example of the process of calculating the degree of conformity for each sentence. FIG. 4 is a block diagram illustrating a configuration example of a device that handles document information. FIG. 5 is a schematic diagram showing a specific example of the operation of the document information presentation device.
[0029]
In this embodiment, the conforming document extracting unit, the document grouping unit, the evaluation value calculating unit, and the information output control unit in claim 5 correspond to steps S14, S15, S16, and S21 (S23), respectively.
The document analyzing means and the similarity calculating means of claim 6 correspond to steps S31 and S32, respectively. The search target character string analyzing means, sentence unit matching degree calculating means and presentation sentence extracting means in claim 7 correspond to steps S13, S19 and S21, respectively. The search target character string analyzing means and the sentence unit matching degree calculating means in claim 8 correspond to steps S18 and S19, respectively.
[0030]
In this example, it is assumed that a device as shown in FIG. 4 is used. The document information presentation device 10 used by the user can be configured using a personal computer or the like. The document information presentation device 10 is connected to various servers 21 (1), 21 (2), 21 (3),... Via the Internet 20, and further connected to the server 31 (1) via the LAN 30. , 31 (2),...
[0031]
Therefore, the document information presentation device 10 includes a database 22 of various servers 21 (1), 21 (2), 21 (3),... And a database 22 of servers 31 (1), 31 (2),. 32, various document information can be collected.
It is assumed that the document information to be processed includes text information such as an HTML file. Specifically, for example, information such as an electronic newspaper article may be used.
[0032]
The document information presentation device 10 can be used to obtain information on a reference sentence when a user creates a certain sentence.
The outline of the operation of the document information presentation device 10 is as shown in FIG. Hereinafter, the operation of the document information presentation device 10 will be described with reference to FIG.
In step S <b> 10, the document information presentation device 10 collects document information from each server 21 or each server 31 via the Internet 20 or the LAN 30 and stores it in the storage device 11. If the collected document information is stored in the storage device 11 in advance, step S10 is unnecessary.
[0033]
In step S11, a document evaluation value Pd is assigned to each of a large number of collected documents. The value of the document evaluation value Pd assigned to each document may be determined by human judgment, or may be automatically determined by a computer based on a predetermined algorithm.
[0034]
Specific examples of the document evaluation value Pd include “reliability of the document”, “the number referred to as a reference”, and “a numerical value of the name of the author of the document”.
In step S12, the document information presentation device 10 acquires the search target character string Kw. This search target character string Kw is assumed to be input by the user.
For example, when a user creates a document, a word, sentence, or phrase that is the core of the configuration of the document is input as the search target character string Kw. In the example of FIG. 5, "PC is widespread" is input as the search target character string Kw.
[0035]
In step S13, the document information presentation device 10 performs a morphological analysis process on the input search target character string Kw, and recognizes the words that constitute Kw, their part of speech information, and how they are arranged.
In step S14, an enormous set of documents held in the storage device 11 is set as a search target, a sentence including the entire search target character string Kw and words constituting the search target character string Kw is searched, and a document including the sentence is searched. All are extracted as conforming documents Dm.
[0036]
In step S15, a set of conforming documents Dm is processed, and the conforming documents Dm are sorted into a plurality of groups based on the similarity. Specifically, processing as shown in FIG. 2 is performed.
In step S31 of FIG. 2, morphological analysis is applied to each conforming document Dm to extract a plurality of words for each document.
[0037]
In step S32, a similarity between a sentence and a document that reflects the similarity of each word and the similarity of the order of words among a plurality of matching documents Dm is calculated.
For example, by applying the algorithm of DP matching described in Non-Patent Document 1, replacing one amino acid of “alignment of amino acid sequence” with a word, and using evaluation value D (x, y), i The similarity rel (i, j) between the j-th document and the j-th document can be obtained by the following equation.
[0038]
rel (i, j) = D (i, j) / ((Ni) × (Nj))
D (i, j): Evaluation value of (i, j) document
Ni: number of words in the i-th document
Nj: number of words in the j-th document
When this formula is used, the degree of similarity increases as the words and their arrangement in the document match.
[0039]
In step S33, matching documents with high similarity are assigned to the same group. That is, documents similar to each other are grouped into the same group. When performing this processing, for example, a cluster analysis may be applied.
In cluster analysis, the objects to be classified (in this case, documents and sentences) are gathered based on similarity defined in some sense as a clue, and several homogeneous settlements (clusters) are collected. ). That is, similar information is linked to each other, and information related to each other is classified into a group called a cluster.
[0040]
In a cluster analysis algorithm, the following processing is generally performed.
(S1) Initial setting: When there are N pieces of data (d1, d2,..., DN), a cluster (C1, C2,. A set D = {C1, C2,..., CN} is formed.
(S2) Search the cluster set D and extract the most similar clusters among them as a cluster set (Ci, Cj).
[0041]
(S3) A new cluster Ck is generated from the clusters Ci and Cj, and Ck is added to the cluster set D.
(S4) The clusters Ci and Cj are deleted from the cluster set D.
(S5) The processes of (S2) to (S4) are repeated until a predetermined termination condition is satisfied.
As the end condition, for example, “the number of clusters is up to m”, or “when it is determined that the similarity is not determined based on the value of the similarity” in step S2, and the like are assumed.
[0042]
When calculating the similarity between a newly created cluster and other clusters, it is generally calculated using a representative value from the newly created cluster due to the calculation cost. This is called the "center of gravity method" or the "median method".
Through such grouping, for example, documents having similarity between documents that are equal to or greater than a predetermined threshold value are assigned to the same group.
[0043]
In step S16 of FIG. 1, an evaluation value Pg is calculated for each group based on the document evaluation value Pd assigned to each document.
For example, the evaluation value Pg of each group is obtained as the sum of the document evaluation values Pd of all the conforming documents assigned to the same group or the average of the sum of the document evaluation values Pd of all the conforming documents assigned to the same group. be able to. When obtaining the evaluation value Pg, the evaluation value Pg may be calculated in consideration of the degree of relevance to the search condition of each document.
[0044]
In step S17, for each document in each group, a paragraph including a sentence that satisfies the search condition and some sentences before and after it are extracted as candidate paragraph parts Pa. For example, a sentence including all the words constituting the search target character string Kw may be mainly used, and a paragraph including the sentence and one sentence before and after the sentence may be extracted as the candidate paragraph Pa.
In step S19, a sentence is extracted from the candidate paragraph Pa of each document, and the relevance Px with the search target character string Kw is obtained for each sentence. A specific example of this process is shown in FIG.
[0045]
In the example of FIG. 3, when the entirety of the search target character string Kw is included in the sentence Sy, 1 is added to the relevance Px relating to the sentence in step S45. Further, each time a word constituting the search target character string Kw matches a word constituting the sentence Sy, (1 / (n + m)) is added to the fitness Px in step S49.
[0046]
In other words, when the search condition is completely matched, the relevance of the sentence is high, and the number of matching words decreases, or when the matching words exist but are not continuous, the relevance of the sentence is low. Process so that
In step S20 of FIG. 1, the document information presentation device 10 sorts each sentence extracted from the conforming document into groups and arranges the sentences in descending order of the conformity Px.
[0047]
In step S21, a sentence having the maximum matching degree Px is extracted one by one from each group, and the extracted sentences are displayed as a list on the screen of the document information presentation device 10 for a plurality of groups. In this case, the groups are displayed in order from the group having the largest evaluation value Pg.
Here, if the user selects any one of the displayed groups, the process proceeds from step S22 to S23. Then, the document information presentation device 10 displays a list of a plurality of sentences in the selected specific group, arranged in descending order of the degree of matching Px. When the user selects a particular sentence displayed, the entire paragraph centered on that sentence and several sentences before and after the paragraph are displayed on the screen.
[0048]
A specific example of the operation of the document information presentation device 10 will be described below. The search condition input by the user in step S12 of FIG. 1 is, for example, a sentence including a word string (character string Kw to be searched) of “Popularity of personal computers”, or “bio”, “supercomputer”, and “research”. It is assumed that the sentence includes all the words "."
[0049]
If there is a condition for narrowing down the search target such as “document created in May 2002”, that condition is also input.
According to such a search condition, the document information presentation device 10 executes a process as shown in steps S14 to S23 in FIG.
For example, if the search condition is "document including a word string of" PC spread "," PCs have not spread this year (1) "," PCs have spread in recent years (2) "or" A document including a sentence such as “(3) PC is expected to spread to general households” is extracted as a conforming document in S14.
[0050]
When grouping is performed in step S15, for example, a negative document such as "PCs will not spread this year (1)" and a document such as "PCs have spread in recent years (2)" It is assumed that positive type documents are assigned to different groups.
In this case, by counting the number of documents belonging to each group, it is possible to know the number of negative type documents and the number of negative type documents.
[0051]
Also, counting the number of documents alone may cause a problem when there are many untrue documents such as rumors and word of mouth. Therefore, a group of documents is evaluated using the evaluation value Pd given to each document.
In steps S21 and S23 in FIG. 1, the document information is displayed in the order of the evaluation value and the degree of conformity. For example, if the evaluation value of “(2) PCs are spreading in recent years” is larger than the evaluation value of “PCs will not spread this year (1)”, then (2) is a candidate sentence. Output first, followed by (1). In addition, in the display of (2), the sentence before and after the sentence is also displayed so that the flow of the sentence can be easily grasped.
[0052]
Further, by setting all or a part of the output result as a processing target of the document information presentation apparatus 10, the processing can be recursively performed. This makes it easier to create long documents. Also, there is no problem in creating a document using a sentence or a document with a low evaluation value.
From the group of sentences with high evaluation values, by summarizing the sentence unit and extracting the main sentence and presenting it, the document creator can send the sentence containing the information entered first and the sentence of the expansion before and after that. Can be obtained.
[0053]
【The invention's effect】
As described above, in the present invention, when a word string or a sentence that is the core of a document is created, a sentence closer to the condition can be automatically extracted and presented. In addition, since the extracted documents are grouped and prioritized using the number and the evaluation value and presented, it is effective in supporting document creation.
[Brief description of the drawings]
FIG. 1 is a flowchart illustrating an operation of a document information presentation device.
FIG. 2 is a flowchart illustrating a specific example of a document grouping process.
FIG. 3 is a flowchart illustrating a specific example of a process of calculating the degree of suitability for each sentence.
FIG. 4 is a block diagram illustrating a configuration example of a device that handles document information.
FIG. 5 is a schematic diagram showing a specific example of the operation of the document information presentation device.
[Explanation of symbols]
10 Document information presentation device
11 Storage device
20 Internet
21 Server
22 Database
30 LAN
31 Server
32 databases

Claims (13)

それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示方法において、
処理対象の文書毎に第1の評価値を割り当てておき、
少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出し、
複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分し、
各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算し、
前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力する
ことを特徴とする文書情報提示方法。
A document information presenting method for processing information of a plurality of documents and presenting a part of the documents to a user when each document includes at least a character string such as a word,
A first evaluation value is assigned to each document to be processed,
Searching a plurality of documents to be processed based on a search target character string including at least one word, extracting a document including a sentence that satisfies a condition as a matching document,
If multiple matching documents are detected, the matching documents are divided into multiple groups based on the similarity between the documents,
Calculating a second evaluation value for each group based on the first evaluation value of each conforming document included in each group;
A document information presentation method, comprising extracting information of at least one sentence from the conforming document based on the second evaluation value and outputting the information.
請求項1の文書情報提示方法において、文書間の類似性を調べる際には、
各文書に含まれている各文を単語毎に分離し、
文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求め、
前記類似度に従って適合文書を複数のグループに区分する
ことを特徴とする文書情報提示方法。
In the method for presenting document information according to claim 1, when checking similarity between documents,
Separate each sentence contained in each document for each word,
Find the similarity of each sentence or the whole document that reflects the similarity of each word and the similarity of the arrangement order of multiple words between documents,
A method for presenting document information, wherein a suitable document is divided into a plurality of groups according to the similarity.
請求項1の文書情報提示方法において、
前記検索対象文字列を分析してそれに含まれる各単語を抽出し、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、
前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出し、
グループ毎に区分して、複数グループについて前記提示文を出力する
ことを特徴とする文書情報提示方法。
The document information presentation method according to claim 1,
Analyzing the search target character string to extract each word contained therein,
For each sentence extracted from each matching document, determine the sentence unit matching degree that reflects the matching with the entire search target character string and each word contained therein,
Extracting at least one sentence from each group as a presentation sentence in the descending order of the sentence unit conformance,
A document information presentation method, wherein the presentation sentence is output for a plurality of groups by classifying each group.
請求項1の文書情報提示方法において、
前記検索対象文字列を分析してそれに含まれる各単語を抽出し、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求め、
選択された特定のグループについて、前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力する
ことを特徴とする文書情報提示方法。
The document information presentation method according to claim 1,
Analyzing the search target character string to extract each word contained therein,
For each sentence extracted from each matching document, determine the sentence unit matching degree that reflects the matching with the entire search target character string and each word contained therein,
A document information presentation method, wherein for a selected specific group, sentences included in the matching document are arranged and output in the order of the higher sentence unit matching degree.
それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示する文書情報提示装置において、
処理対象の文書毎に第1の評価値が割り当てられた場合に、
少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手段と、
複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手段と、
各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算する評価値計算手段と、
前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力する情報出力制御手段と
を設けたことを特徴とする文書情報提示装置。
A document information presentation device that processes information of a plurality of documents and presents a part of the documents to a user when each document includes at least a character string such as a word,
When the first evaluation value is assigned to each document to be processed,
Matching document extracting means for searching a plurality of documents to be processed based on a search target character string including at least one word, and extracting a document including a sentence meeting the condition as a matching document;
A document grouping means for, when a plurality of conforming documents are detected, dividing the conforming documents into a plurality of groups based on the similarity between the documents;
Evaluation value calculation means for calculating a second evaluation value for each group based on the first evaluation value of each conforming document included in each group;
A document information presentation device, comprising: information output control means for extracting information of at least one sentence from the relevant document based on the second evaluation value and outputting the information.
請求項5の文書情報提示装置において、前記文書グループ化手段に、
文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手段と、
文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手段と
を設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とする文書情報提示装置。
6. The document information presentation device according to claim 5, wherein the document grouping unit includes:
Document analysis means for separating each sentence included in each document into words when examining similarity between documents;
A similarity calculating means for calculating the similarity of each sentence or the similarity of the entire document reflecting the similarity of each word and the similarity of the arrangement order of a plurality of words between documents; A document information presenting apparatus characterized in that the document information is divided into groups.
請求項5の文書情報提示装置において、
前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、
前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出する提示文抽出手段と
を設け、前記情報出力制御手段は、グループ毎に区分して複数グループについて前記提示文を出力する
ことを特徴とする文書情報提示装置。
The document information presentation device according to claim 5,
A search target string analyzing means for analyzing the search target string and extracting each word included therein,
For each sentence extracted from each matching document, a sentence unit matching calculating means for obtaining a sentence unit matching that reflects the matching with the entire search target character string and each word included therein,
Providing a presentation sentence extracting means for extracting at least one sentence from each group as a presentation sentence in the order of high sentence unit matching degree, wherein the information output control means divides the presentation sentence for a plurality of groups into groups. And a document information presentation device for outputting the document information.
請求項5の文書情報提示装置において、
前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手段と、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手段と、
を設け、前記情報出力制御手段は、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力する
ことを特徴とする文書情報提示装置。
The document information presentation device according to claim 5,
A search target string analyzing means for analyzing the search target string and extracting each word included therein,
For each sentence extracted from each matching document, a sentence unit matching calculating means for obtaining a sentence unit matching that reflects the matching with the entire search target character string and each word included therein,
A document information presentation device, wherein the information output control means arranges and outputs the sentences included in the matching document in the selected specific group in the descending order of the sentence unit matching degree.
それぞれの文書が少なくとも単語などの文字列を含む場合に、複数の文書の情報を処理して前記文書の一部分を利用者に対して提示するためのコンピュータで実行可能なプログラムにおいて、
処理対象の文書毎に第1の評価値が割り当てられた場合に、
少なくとも1つの単語を含む検索対象文字列に基づいて処理対象の複数の文書を検索し、条件に適合する文を含む文書を適合文書として抽出する適合文書抽出手順と、
複数の適合文書が検出された場合には、文書間の類似性に基づいて適合文書を複数のグループに区分する文書グループ化手順と、
各グループに含まれる各適合文書の第1の評価値に基づいてグループ毎に第2の評価値を計算する評価値計算手順と、
前記第2の評価値に基づいて、前記適合文書から少なくとも1つの文の情報を抽出してその情報を出力する情報出力制御手順と
を設けたことを特徴とするプログラム。
When each document includes at least a character string such as a word, in a computer-executable program for processing information of a plurality of documents and presenting a part of the document to a user,
When the first evaluation value is assigned to each document to be processed,
A compatible document extraction procedure for searching a plurality of documents to be processed based on a search target character string including at least one word, and extracting a document including a sentence that meets a condition as a compatible document;
A document grouping procedure for dividing the conforming documents into a plurality of groups based on the similarity between the documents when a plurality of conforming documents are detected;
An evaluation value calculation procedure for calculating a second evaluation value for each group based on the first evaluation value of each conforming document included in each group;
A program for extracting information of at least one sentence from the conforming document based on the second evaluation value and outputting the information.
請求項9のプログラムにおいて、前記文書グループ化手順には、
文書間の類似性を調べる際に各文書に含まれている各文を単語毎に分離する文書分析手順と、
文書間で単語毎の類似性及び複数の単語の並び順の類似性を反映した文単位の類似度もしくは文書全体の類似度を求める類似度算出手順と
を設け、前記類似度に従って適合文書を複数のグループに区分することを特徴とするプログラム。
The program according to claim 9, wherein the document grouping procedure includes:
A document analysis procedure for separating each sentence included in each document for each word when examining similarity between documents;
A similarity calculation procedure for calculating the similarity of each sentence or the whole document that reflects the similarity of each word and the similarity of the arrangement order of a plurality of words between documents; A program characterized by being divided into groups.
請求項9のプログラムにおいて、
前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、
前記文単位適合度の高い順番で各グループからそれぞれ少なくとも1つの文を提示文として抽出する提示文抽出手順と
を設け、前記情報出力制御手順では、グループ毎に区分して複数グループについて前記提示文を出力する
ことを特徴とするプログラム。
In the program of claim 9,
A search target string analysis procedure for analyzing the search target string and extracting each word included therein,
For each sentence extracted from each matching document, a sentence unit matching degree calculation procedure for obtaining a sentence unit matching degree reflecting the matching with the entire search target character string and each word included therein,
A presentation sentence extracting step of extracting at least one sentence from each group as a presentation sentence in the order of the sentence unit matching degree, wherein the information output control procedure classifies the presentation sentence for a plurality of groups. A program characterized by outputting.
請求項9のプログラムにおいて、
前記検索対象文字列を分析してそれに含まれる各単語を抽出する検索対象文字列分析手順と、
各々の適合文書から抽出した文毎に、前記検索対象文字列全体及びそれに含まれる各単語との適合性を反映した文単位適合度を求める文単位適合度算出手順と、
を設け、前記情報出力制御手順では、選択された特定のグループについて前記適合文書に含まれる文を前記文単位適合度の高い順番に並べて出力する
ことを特徴とするプログラム。
In the program of claim 9,
A search target string analysis procedure for analyzing the search target string and extracting each word included therein,
For each sentence extracted from each matching document, a sentence unit matching degree calculation procedure for obtaining a sentence unit matching degree reflecting the matching with the entire search target character string and each word included therein,
Wherein the information output control procedure outputs the sentences included in the matching document in the selected specific group in the order of higher sentence unit matching degree.
請求項9,請求項10,請求項11及び請求項12の何れかのプログラムを記録した記録媒体。A recording medium on which the program according to any one of claims 9, 10, 11, and 12 is recorded.
JP2002377024A 2002-12-26 2002-12-26 Method, device, and program for presenting document information, and recording medium Pending JP2004206571A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002377024A JP2004206571A (en) 2002-12-26 2002-12-26 Method, device, and program for presenting document information, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002377024A JP2004206571A (en) 2002-12-26 2002-12-26 Method, device, and program for presenting document information, and recording medium

Publications (1)

Publication Number Publication Date
JP2004206571A true JP2004206571A (en) 2004-07-22

Family

ID=32814324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002377024A Pending JP2004206571A (en) 2002-12-26 2002-12-26 Method, device, and program for presenting document information, and recording medium

Country Status (1)

Country Link
JP (1) JP2004206571A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009537913A (en) * 2006-05-19 2009-10-29 ヨルン リセゲン Source search engine
JP2010506264A (en) * 2006-09-28 2010-02-25 アマゾン テクノロジーズ インク Evaluation of author authority and blog influence
JP2011243066A (en) * 2010-05-19 2011-12-01 Just Syst Corp Electronic document management device, display method, display program and record medium
JP2012088800A (en) * 2010-10-15 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> Retrieval device, retrieval system, retrieval method and retrieval program
JP2018534708A (en) * 2015-11-05 2018-11-22 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Comprehensive verification of patient medical records
WO2020084734A1 (en) * 2018-10-25 2020-04-30 日本電気株式会社 Knowledge generation system, method, and program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009537913A (en) * 2006-05-19 2009-10-29 ヨルン リセゲン Source search engine
KR101487561B1 (en) * 2006-05-19 2015-01-29 요른 리세그겐 Source search engine
JP2010506264A (en) * 2006-09-28 2010-02-25 アマゾン テクノロジーズ インク Evaluation of author authority and blog influence
JP2011243066A (en) * 2010-05-19 2011-12-01 Just Syst Corp Electronic document management device, display method, display program and record medium
JP2012088800A (en) * 2010-10-15 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> Retrieval device, retrieval system, retrieval method and retrieval program
JP2018534708A (en) * 2015-11-05 2018-11-22 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Comprehensive verification of patient medical records
WO2020084734A1 (en) * 2018-10-25 2020-04-30 日本電気株式会社 Knowledge generation system, method, and program
JPWO2020084734A1 (en) * 2018-10-25 2021-09-16 日本電気株式会社 Knowledge generation systems, methods and programs
JP7192874B2 (en) 2018-10-25 2022-12-20 日本電気株式会社 Knowledge generation system, method and program

Similar Documents

Publication Publication Date Title
US11048882B2 (en) Automatic semantic rating and abstraction of literature
KR101715432B1 (en) Word pair acquisition device, word pair acquisition method, and recording medium
US10552467B2 (en) System and method for language sensitive contextual searching
JP2005122295A (en) Relationship figure creation program, relationship figure creation method, and relationship figure generation device
JP2014041615A (en) Method and system with high performance data meta tag using coprocessor and with data index
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN111506727B (en) Text content category acquisition method, apparatus, computer device and storage medium
KR100876214B1 (en) Apparatus and method for context aware advertising and computer readable medium processing the method
CN116010552A (en) Engineering cost data analysis system and method based on keyword word library
JP2005301856A (en) Method and program for document retrieval, and document retrieving device executing the same
CN116882414B (en) Automatic comment generation method and related device based on large-scale language model
WO1999014690A1 (en) Keyword adding method using link information
JP2004206571A (en) Method, device, and program for presenting document information, and recording medium
JP2007317133A (en) Image classification method, device, and program
JP4428703B2 (en) Information retrieval method and system, and computer program
KR100809751B1 (en) System and method for making analysis of document
JP2003208447A (en) Device, method and program for retrieving document, and medium recorded with program for retrieving document
JP2002288189A (en) Method and apparatus for classifying documents, and recording medium with document classification processing program recorded thereon
CN113934910A (en) Automatic optimization and updating theme library construction method and hot event real-time updating method
CN113468339A (en) Label extraction method, system, electronic device and medium based on knowledge graph
CN109213830B (en) Document retrieval system for professional technical documents
JP4426893B2 (en) Document search method, document search program, and document search apparatus for executing the same
TWI813028B (en) Method and system of screening for text data relevance
JP2006501545A (en) Method and apparatus for automatically determining salient features for object classification
JP2023057658A (en) Information processing device, method executed by computer to provide information, and program