JP2017117311A - 文書検索方法、文書検索プログラムおよび文書検索装置 - Google Patents

文書検索方法、文書検索プログラムおよび文書検索装置 Download PDF

Info

Publication number
JP2017117311A
JP2017117311A JP2015253797A JP2015253797A JP2017117311A JP 2017117311 A JP2017117311 A JP 2017117311A JP 2015253797 A JP2015253797 A JP 2015253797A JP 2015253797 A JP2015253797 A JP 2015253797A JP 2017117311 A JP2017117311 A JP 2017117311A
Authority
JP
Japan
Prior art keywords
sentence
document
document data
headline
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015253797A
Other languages
English (en)
Other versions
JP6780244B2 (ja
Inventor
貴三郎 福田
Kisaburo Fukuda
貴三郎 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2015253797A priority Critical patent/JP6780244B2/ja
Publication of JP2017117311A publication Critical patent/JP2017117311A/ja
Application granted granted Critical
Publication of JP6780244B2 publication Critical patent/JP6780244B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】正しい分類結果に基づいた検索を行うこと。【解決手段】文書検索装置100は、評価部120を有する。評価部120は、文書データに含まれる文章の位置および前記文章のサイズに基づき、文書データに含まれる各文章について、文章の見出し文らしさを評価し、文章の見出し文らしさの評価結果を基にして、文書データに含まれる文章が見出し文であるか、内容文であるかを判別する。【選択図】図1

Description

本発明は、文書検索方法等に関する。
文書DB(Data Base)に格納された複数の文書から、検索対象の文書に類似する文書を検索する従来技術がある。図15は、従来技術を説明するための図である。図15において文書10Aを検索対象の文書とし、文書10Bを文書DBに格納されたある文書とする。従来技術では、文書10Aおよび文書10Bに含まれる単語と、単語の出現頻度等を基にして、文章10Aおよび文章10Bを単語ベクトル化する。図15に示す例では、文書10Aは、ベクトル15aに単語ベクトル化される。文書10Bは、ベクトル15bに単語ベクトル化される。
従来技術は、ベクトル15aとベクトル15bとのベクトル距離を比較して、文書10Aと文書10Bとの類似度を算出する。従来技術は、文書DBに格納された他の文書についても同様に単語ベクトル化を行い、文書10Aとの類似度を算出する。従来技術は、類似度が閾値以上となる文書を、検索対象の文書10Aに類似する文書として検索する。
特開2008−129894号公報 特開2009−145963号公報 特開2001−14326号公報 特開平11−250070号公報 特開2014−222542号公報
しかしながら、上述した従来技術では、正しい分類結果に基づいた検索を行うことができないという問題がある。
図16は、従来技術の問題点を説明するための図である。例えば、図16において、文書10Aと文書10Bとは、表題、目次が類似しており、文書の形式が類似していると言える。一方、文書10Aと文書10Cとは、内容記述が類似しており、文書の内容が類似しているといえる。
以下の説明では、表題、目次の他に、サマリページなど、文書のフォーマットが類似することを「形式的に類似する」と表記する。一方、記述内容、トピックが同じ文書など、文書の内容が類似することを「内容的に類似する」と表記する。
従来技術のように、単純に文書全体で類似度の計算を行うと、形式的に類似する文書と、内容的に類似する文書とを判別して検索することができない。例えば、図16に示す例では、文書10Aおよび文書10Bの類似度と、文書10Aおよび文書10Cの類似度は、どちらも高スコアになりやすい。
このため、例えば、「内容的に類似している文書を検索したい」という利用者の要求に対し、内容的に類似する文書だけでなく、形式的に類似した文書も合わせて出力されてしまい、適切に文書検索を行うことができない。
1つの側面では、本発明は、正しい分類結果に基づいた検索を行うことができる文書検索方法、文書検索プログラムおよび文書検索装置を提供することを目的とする。
第1の案では、コンピュータは、下記の処理を実行する。コンピュータは、文書データに含まれる文章の位置および前記文章のサイズに基づき、文書データに含まれる各文章について、文章の見出し文らしさを評価する。コンピュータは、文章の見出し文らしさの評価結果を基にして、文書データに含まれる文章が見出し文であるか、内容文であるかを判別する。
正しい分類結果に基づいた検索を行うことができる。
図1は、本実施例1に係る文書検索装置の構成を示す機能ブロック図である。 図2は、文書DBのデータ構造の一例を示す図である。 図3は、文書データの一例を示す図である。 図4は、モデル構築用文書DBのデータ構造の一例を示す図である。 図5は、文章構造DBのデータ構造の一例を示す図である。 図6は、見出し文らしさDBのデータ構造の一例を示す図である。 図7は、評価部の処理を説明するための図である。 図8は、判定部の処理を説明するための図である。 図9は、本実施例1に係る文書検索装置の処理手順を示すフローチャートである。 図10は、本実施例2に係る文書検索装置の構成を示す機能ブロック図である。 図11は、本実施例2に係る文章構造DBのデータ構造の一例を示す図である。 図12は、本実施例2に係る文書検索装置の処理手順を示すフローチャートである。 図13は、実験結果を説明するための図である。 図14は、文書検索プログラムを実行するコンピュータの一例を示す図である。 図15は、従来技術を説明するための図である。 図16は、従来技術の問題点を説明するための図である。
以下に、本願の開示する文書検索方法、文書検索プログラムおよび文書検索装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図1は、本実施例1に係る文書検索装置の構成を示す機能ブロック図である。図1に示すように、この文書検索装置100は、文書DB101と、モデル構築用文書DB102と、文章構造DB103と、見出し文らしさDB104と、文章構造抽出部110と、評価部120とを有する。また、文書検索装置100は、重み算出部130と、検索文書入力部140と、比較文書入力部150と、判別部160と、類似度算出部170とを有する。
文書DB101は、比較対象となる複数の文書の情報を格納する記憶部である。図2は、文書DBのデータ構造の一例を示す図である。図2に示すように、この文書DB101は、文書IDと、文書データとを対応付ける。文書IDは、文書を一意に識別する情報である。文書データは、文書のデータである。
図3は、文書データの一例を示す図である。図3に示す文書データは、文書ID「1」の文書データである。例えば、この文書データには、文章「目的」、文章「文書間の類似度を計算する」、文章「・・・」が含まれる。
モデル構築用文書DB102は、予め準備された文書について、文書に含まれる文章が、見出し文であるのか、内容文であるのかを予め定義した情報を格納する記憶部である。例えば、見出し文は、表題、目次等に対応する文章を示す。内容文は、見出し文に該当しない文章であり、例えば、記述内容の文章に対応する。
図4は、モデル構築用文書DBのデータ構造の一例を示す図である。図4に示すように、このモデル構築用文書DB102は、文章とラベルとを対応付ける。文章は、文書に含まれる文章に対応する。ラベルは、文章が見出し文であるか、内容文であるかを識別する情報である。例えば、ラベルが「1」である場合には、文章が見出し文であることを示す。ラベルが「0」である場合には、文章が内容文であることを示す。図4に示す例では、文章「目的」が見出し文であり、文章「文書間の類似度を計算する」が内容文であることが示される。
文章構造DB103は、文書に含まれる各文章の構造の情報を格納する記憶部である。図5は、文章構造DBのデータ構造の一例を示す図である。図5に示すように、この文章構造DB103は、文書IDと、文章構造とを対応付ける。文書IDは、文書を一意に識別する情報である。文章構造は、文章の構造に関する情報である。文章の構造に関する情報は、例えば、文書上の文章の位置やフォントサイズの情報が含まれる。
例えば、図5の1行目のレコードについて説明する。文書ID「1」に含まれる文章「目的」の先頭の位置は、基準位置から「1」つ後ろの位置である。文章「目的」のフォントサイズは「24」である。
図5の2行目のレコードについて説明する。文書ID「1」に含まれる文章「文書間の類似度を計算」の先頭の位置は、基準位置から「2」つ後ろの位置である。文章「文書間の類似度を計算」のフォントサイズは「20」である。
見出し文らしさDB104は、文章の見出し文らしさの情報を格納する記憶部である。図6は、見出し文らしさDBのデータ構造の一例を示す図である。図6に示すように、この見出し文らしさDB104は、文書IDと文書構造と見出し文らしさとを対応付ける。文書IDは、文書を一意に識別する情報である。文章構造は、文章の構造に関する情報である。見出し文らしさは、見出し文らしさを数値化したものであり、数値が大きいほど、より見出し文らしいことを意味する。見出し文らしさを算出する処理は後述する。
図1の説明に戻る。文章構造抽出部110は、文書DB101に格納された文書データを取得し、取得した文書データに含まれる各文章に対して構造解析を実行することで、文章の構造に関する情報を抽出する処理部である。文章の構造に関する情報には、文書上の文章の位置や、文章のフォントサイズが含まれる。
文章構造抽出部110は、文章を含む文書の文書IDと、文章構造の情報を、文書構造DB103に格納する。また、文章構造抽出部110は、文書IDと、文章構造の情報とを、評価部120に出力する。文章構造抽出部110は、文書DB101に格納された各文書データについて、上記処理を繰り返し実行する。
評価部120は、文書データに含まれる文章の位置、文章のフォントサイズ、文字数、記号の有無に基づいて、文章の見出し文らしさを評価する処理部である。評価部120は、評価結果を、見出し文らしさDB104に格納する。
例えば、評価部120は、式(1)に基づいて、文章の見出し文らしさyを算出する。式(1)において、x1は、文章の位置の相対値を示す。x2は、文章のフォントサイズの相対値を示す。x3は、文章の文字数の逆数により求められる値である。x4は、文章の先頭に記号が含まれるか否かにより決定される値である。a、b、c、dは、後述する重み算出部130により通知される重みである。
y=ax1+bx2+cx3+dx4・・・(1)
x1について説明する。評価部120は、式(2)に基づいて、x1の値を算出する。
x1=(種別数+1−相対順位)/種別数・・・(2)
図7は、評価部の処理を説明するための図である。図7に示す例では、文書データ16に文章16a、16b、16c、16dが含まれる。ここでは一例として、評価部120が、文章16aのx1の値を算出する場合について説明する。
式(2)の「種別数」は、文書データ16に、文章の開始位置が、何種類あるかを示す数である。図7に示す例では、文章16aの開始位置と、文章16bの開始位置が含まれ、文章16b〜16dの開始位置は同じである。このため、種別数は「2」となる。
式(2)の「相対順位」は、見出し文らしさを算出する文章16aの位置と、他の文章16b〜16dの相対位置に基づき決定される順位である。例えば、文章16aの先頭位置を「1」とし、文章16b〜16dの先頭位置を「2」とする。この場合には、文章16aの位置が他の文章16b〜16dと比較して最も先頭に位置しているため、文章16aの相対順位は「1」となる。
x2について説明する。評価部120は、式(3)に基づいて、x2の値を算出する。
x2=(種別数+1−相対順位)/種別数・・・(3)
式(3)の「種別数」は、文書データ16で用いられるフォントサイズの種別数を示すものである。図7において、例えば、文章16aのフォントサイズが「24」であり、文章16b〜16dのフォントサイズが「20」である場合には、種別数は「2」となる。
式(3)の「相対順位」は、見出し文らしさを算出する文章16aのフォントサイズが、他の文章16b〜16dのフォントサイズと比較して、何番目に大きいフォントサイズであるかを示す順位である。例えば、文章16aのフォントサイズが、他の文章16b〜16dのフォントサイズと比較して一番大きい場合には、文書16aの相対順位は「1」となる。
x3について説明する。評価部120は、式(4)に基づいて、x3の値を算出する。式(4)に含まれる文字数は、見出し文らしさを算出する文章16aの文字数「3」となる。
x3=(文字数)1/4・・・(4)
x4について説明する。評価部120は、下記の条件に基づいて、x4の値を特定する。評価部120は、文章16aに所定の記号が含まれている場合には、x4の値を「1」とする。評価部120は、文章16aに所定の記号が含まれていない場合には、x4の値を「0」に設定する。所定の記号は「・」等であり、利用者に予め設定される。
上記に示す例では、評価部120は、文章16aに対する見出し文らしさを算出する例を説明したが、文章16b〜16d、その他の文章についても、同様に見出し文らしさを算出する。
重み算出部130は、上述した評価部120が利用する重みa、b、c、dを算出する処理部である。重み算出部130は、下記の第1制約条件および第2制約条件に近づくように、重みa、b、c、dの値を変更しつつ、重回帰分析を行い、重みa、b、c、dの最適値を探索する。重み算出部130は、算出した重みa、b、c、dの情報を、評価部120に出力する。
第1制約条件:モデル構築用文書DB102に含まれる、見出し文の文章に対して、式(1)による値が、1に近づく。
第2制約条件:モデル構築用文書DB102に含まれる、内容文の文章に対して、式(1)による値が、0に近づく。
検索文書入力部140は、検索対象となる文書データの入力を受け付ける処理部である。また、検索文書入力部140は、検索対象となる文書データの入力を受け付けた場合に、上述した文章構造抽出110および評価部120と同様の処理を実行し、文書データに含まれる各文章の見出し文らしさを算出する。
検索文書入力部140は、検索対象となる文書データに関する情報を、判別部160に出力する。例えば、検索対象となる文書データに関する情報は、検索対象となる文書データに含まれる各文章と、各文章の見出し文らしさとを含む。以下の説明では適宜、検索対象となる文書データを、検索文書データと表記する。
比較文書入力部150は、比較対象になる文書データに関する情報を、判別部160に出力する処理部である。例えば、比較文書入力部150は、文章構造DB103から、未選択の文書IDを選択し、選択した文書IDに紐付く文章構造のデータを、判別部160に出力する。以下の説明では適宜、比較対象となる文書データを、比較文書データと表記する。
判別部160は、検索文書データに関する情報と、比較文書データに関する情報とを基にして、検索文書データおよび比較文書データの文章について、見出し文であるか、内容文で有るかを判別する処理部である。以下において、判別部160の処理を具体的に説明する。
判別部160は、検索文書データに含まれる文章のうち、見出し文らしさが閾値以上となる文章を、見出し文候補文章として選択する。また、判別部160は、比較文書データに含まれる文章のうち、見出し文らしさが閾値以上となる文章を、見出し文候補文章として選択する。
判別部160は、検索文書データに含まれる各見出し文候補文章と、比較文書データに含まれる各見出し文候補文章とを比較し、編集距離が閾値未満となる見出し文候補文章のペアが存在するか否かを判定する。判別部160は、編集距離が閾値未満となる見出し文候補文章のペアが存在する場合には、ペアとなる見出し文候補文章を、見出し文であると特定する。判別部160は、見出し文であると特定した文章以外を、内容文として特定する。
ここで、編集距離は、文章同士がどの程度一致するかを示す距離であり、一文字異なる毎に、編集距離に1が加算される。文章同士が完全一致する場合には、編集距離は「0」となる。理想的には、判別部160は、編集距離が「0」となる見出し文候補文章を、見出し文であると特定しても良い。編集距離は、一致度合いの一例である。
図8は、判定部の処理を説明するための図である。図8に示す例では、検索文書データ20に、見出し文候補文章21,22,23,24,25,26,27が含まれるものとする。また、比較文書データ40に、見出し文候補文章41,42,43,44,45,46,47が含まれるものとする。
判別部160は、見出し文候補文章21と見出し文候補文章41とを比較すると、各見出し文候補文章21,41のペアの編集距離が「0」となる。このため、判別部160は、見出し文候補文章21と見出し文候補文章41とを、見出し文であると特定する。判別部160は、他の見出し文候補文章22〜27、42〜47についても同様に、見出し文であると特定する。
判別部160は、見出し文と特定しなかった他の文章は、内容文であると判定する。例えば、判別部160は、検索文書データ20の文章28,29,30,31を内容文と判定する。判別部160は、比較文書データ40の文章48、49を内容文と判定する。
判別部160は、判別結果の情報を類似度算出部170に出力する。判別結果の情報には、検索文書データに含まれる各文章と、各文章が見出し文であるか、内容文であるかを示す情報が含まれる。また、判別結果の情報には、比較文書データに含まれる各文章と、各文章が見出し文であるか、内容文であるかを示す情報が含まれる。
判別部160は、比較文書入力部150から、新たな比較文書データに関する情報を取得する度に、既に取得している検索文書データと、新たな比較文書データとを基にして、比較文書データの文章が見出し文であるか内容文であるかを判別する。
類似度算出部170は、判別部160の判別結果の情報を基にして、形式的な類似度と、内容的な類似度とをそれぞれ算出する処理部である。
類似度算出部170が、形式的な類似度を算出する処理について説明する。類似度算出部170は、検索文書データの各見出し文と、比較文書データの各見出し文とを比較し、一致する見出し文の数を、形式的な類似度として算出する。
類似度算出部170が、内容的な類似度を算出する処理について説明する。類似度算出部170は、検索文書データに含まれる内容文について、単語と単語の出現回数とを基にして、検索文書データのベクトルを求める。また、類似度算出部170は、比較文書データに含まれる内容文について、単語と単語の出現回数とを基にして、比較文書データのベクトルを求める。類似度算出部170は、検索文書データのベクトルと、比較文書データのベクトルとを比較して、ベクトル間のコサイン距離を求め、求めたコサイン距離を、内容的な類似度として算出する。
類似度算出部170は、内容的な類似度が第1閾値以上である場合には、検索文書データと、比較文書データとが、内容的に類似すると判定する。一方、類似度算出部170は、内容的な類似度が第1閾値未満であり、かつ、形式的な類似度が第2閾値以上である場合には、検索文書データと、比較文書データとが、形式的に類似すると判定する。類似度算出部170は、内容的な類似度が第1閾値未満であり、かつ、形式的な類似度が第2閾値未満である場合には、検索文書データと、比較文書データとが、類似していないと判定する。
類似度算出部170は、各比較文書データについて、上記処理を繰り返し実行し、各比較文書データが、内容的に類似しているのか、形式的に類似しているのか、類似していないのかを判定し、各比較文書データを分類する。例えば、類似度算出部170は、形式的に類似する比較文書データの組と、内容的に類似する比較文書データの組とを区別して、表示装置等に出力してもよい。
次に、本実施例1に係る文書検索装置100の処理手順について説明する。図9は、本実施例1に係る文書検索装置の処理手順を示すフローチャートである。図9に示すように、この文書検索装置100の比較文書入力部150は、未選択の比較文書データが存在するか否かを判定する(ステップS101)。未選択の比較文書データが存在しない場合には(ステップS101,No)、文書検索装置100は処理を終了する。
一方、比較文書入力部150は、未選択の比較文書データが存在する場合には(ステップS101,Yes)、未選択の比較文書データを選択する(ステップS102)。文書検索装置100の判別部160は、見出し文らしさが閾値以上となる文章間の編集距離を計算する(ステップS103)。判別部160は、編集距離が閾値未満の文章を見出し文と判定し、見出し文以外の文章を内容文として判別する(ステップS104)。
文書検索装置100の類似度算出部170は、検索文書データと、比較文書データとの間で、形式的な類似度と、内容的な類似度を計算する(ステップS105)。類似度算出部170は、内容的な類似度が第1閾値以上である場合には(ステップS106,Yes)、検索文書データと、比較文書データとが内容的に類似していると判定し(ステップS107)、ステップS101に移行する。
一方、類似度算出部170は、内容的な類似度が第1閾値未満である場合には(ステップS106,No)、ステップS108に移行する。類似度算出部170は、形式的な類似度が第2閾値以上である場合には(ステップS108,Yes)、検索文書データと、比較文書データとが形式的に類似していると判定し(ステップS109)、ステップS101に移行する。
一方、類似度算出部170は、形式的な類似度が第2閾値未満である場合には(ステップS108,No)、検索文書データと、比較文書データとが類似していないと判定し(ステップS110)、ステップS101に移行する。
次に、本実施例1に係る文書検索装置100の効果について説明する。文書検索装置100は、文書データに含まれる文字の位置およびフォントサイズに基づき、文書データに含まれる文章について、見出し文らしさを評価し、評価結果を基にして、文章が見出し文であるか内容文であるかを判別する。このため、正しい分類結果に基づいた検索を行うことができる。例えば、検索対象となる文書データに内容的に類似する文書データと、形式的に類似する文書データとを区別して、利用者に通知することができる。
文書検索装置100によれば、検索文書データに含まれる見出し文らしい文章と、比較文書データに含まれる見出し文らしい文章とを比較し、比較した文章の編集距離に基づいて、検索文書データおよび比較文書データに含まれる見出し文らしい文章が、見出し文であるか否かを判別する。これにより、検索文書データおよび比較文書データに含まれる文章が、見出し文であるのか内容文であるのかを正確に判定することができる。
文書検索装置100によれば、例えば、文書データに含まれる文章が前方に位置するほど、文章はより見出し文らしいと評価する。また、文書検索装置100によれば、文書データに含まれる文章のサイズが大きいほど、前記文章はより見出し文らしいと評価する。このため、より正確に見出し文となる文章を特定することができる。
文書検索装置100によれば、検索文書データの見出し文と比較文書データの見出し文との形式的な類似度を算出し、検索文書データの内容文と比較文書データの内容文との内容的な類似度を算出し、類似度の情報を出力する。このため、検索文書データに類似する比較文書データが、内容的に類似するものなのか、形式的に類似するものなのかを、利用者が把握することができる。
ところで、上述した実施例1では、文書検索装置100の類似度算出部170は、検索文書データと、比較文書データとが、内容的に類似しているのか、形式的に類似しているのか、類似していないのかを判定していたが、これに限定されるものではない。例えば、類似度算出部170は、内容的な類似度が、第1閾値以上であり、かつ、形式的な類似度が、第2閾値以上である場合には、検索文書データと、比較文書データとが、形式的にも内容的にも類似していると判定し、出力しても良い。
次に、本実施例2に係る文書検索装置の構成について説明する。図10は、本実施例2に係る文書検索装置の構成を示す機能ブロック図である。図10に示すように、この文書検索装置200は、文書DB201と、モデル構築用文章DB202と、文章構造DB203と、文章構造抽出部210と、評価部220と、重み算出部230とを有する。また、文書検索装置200は、検索文書入力部240と、比較文書入力部250と、類似度算出部260とを有する。
文書DB201は、比較対象となる複数の文書の情報を格納する記憶部である。例えば、文書DB201のデータ構造は、図2で説明した文書DB101のデータ構造と同様であるため、説明を省略する。
モデル構築用文章DB202は、予め準備された文書について、文書に含まれる文章が、見出し文であるのか、内容文であるのかを予め定義した情報を格納する記憶部である。モデル構築用文章DB202のデータ構造は、図4で説明したモデル構築用文章DB102のデータ構造と同様であるため、説明を省略する。
文章構造DB203は、文書に含まれる各文章と、文章が見出し文であるか、内容文であるかの情報を格納する記憶部である。図11は、本実施例2に係る文章構造DBのデータ構造の一例を示す図である。図11に示すように、この文章構造DB203は、文書IDと、文章と、ラベルとを対応付ける。文書IDは、文書を一意に識別する情報である。文章は、文書に含まれる文章に対応する。ラベルは、文章が見出し文であるか、内容文であるかを識別する情報である。例えば、ラベルが「1」である場合には、文章が見出し文であることを示す。ラベルが「0」である場合には、文章が内容文であることを示す。図11に示す例では、文章「目的」が見出し文であり、文章「文書間の類似度を計算する」が内容文であることが示される。
文章構造抽出部210は、文書DB201に格納された文書データを取得し、取得した文書データに含まれる各文章に対して構造解析を実行することで、文章の構造に関する情報を抽出する処理部である。文章の構造に関する情報は、文書上の文章の位置や、文章のフォントサイズが含まれる。
文章構成抽出部210は、文書IDと、文章構造の情報とを、評価部220に出力する。
評価部220は、文書データに含まれる文章の位置、文章のフォントサイズ、文字数、記号の有無に基づいて、文章の見出し文らしさを評価する処理部である。評価部220が、文章の見出し文らしさを評価する処理は、実施例1で説明した評価部120と同様である。
評価部220は、文章の見出し文らしさを評価する処理を実行した後に、見出し文らしさと閾値との比較により、文章が見出し文であるのか、内容文であるのかを判別する。評価部220は、見出し文らしさが閾値以上である文章を、見出し文であると判定する。評価部220は、見出し文らしさが閾値未満である文章を、内容文であると判定する。評価部220は、文書に含まれる各文章について上記の処理を繰り返し実行し、処理結果を、文章構造DB203に格納する。
重み算出部230は、評価部220が利用する重みa、b、c、dを算出する処理部である。重み算出部230の処理は、実施例1で説明した重み算出部130の処理と同様である。
検索文書入力部240は、検索対象となる文書データの入力を受け付ける処理部である。また、検索文書入力部240は、検索対象となる文書データの入力を受け付けた場合に、上述した文章構造抽出210および評価部220と同様の処理を実行し、文書データに含まれる各文章が、見出し文であるか、内容文であるかを判別する。
検索文書入力部240は、検索対象となる文書データに関する情報を、類似度算出部260に出力する。例えば、検索対象となる文書データに関する情報は、検索対象となる文書データに含まれる各文章と、各文章が見出し文であるのか、内容文であるかの情報を含む。以下の説明では適宜、検索対象となる文書データを、検索文書データと表記する。
比較文書入力部250は、比較対象になる文書データに関する情報を、類似度算出部260に出力する処理部である。例えば、比較文書入力部250は、文章構造DB203から、未選択の文書IDを選択し、選択した文書IDに紐付く各文章および文章が見出し文であるのか、内容文であるのかの情報を、類似度算出部260に出力する。以下の説明では適宜、比較対象となる文書データを、比較文書データと表記する。
類似度算出部260は、検索文書データと、比較文書データとを基にして、形式的な類似度と、内容的な類似度とをそれぞれ算出する処理部である。
類似度算出部260が、形式的な類似度を算出する処理について説明する。類似度算出部260は、検索文書データの各見出し文と、比較文書データの各見出し文とを比較し、一致する見出し文の数を、形式的な類似度として算出する。
類似度算出部260が、内容的な類似度を算出する処理について説明する。類似度算出部260は、検索文書データに含まれる内容文について、単語と単語の出現回数とを基にして、検索文書データのベクトルを求める。また、類似度算出部260は、比較文書データに含まれる内容文について、単語と単語の出現回数とを基にして、比較文書データのベクトルを求める。類似度算出部260は、検索文書データのベクトルと、比較文書データのベクトルとを比較して、ベクトル間のコサイン距離を求め、求めたコサイン距離を、内容的な類似度として算出する。
類似度算出部260は、内容的な類似度が第1閾値以上である場合には、検索文書データと、比較文書データとが、内容的に類似すると判定する。一方、類似度算出部260は、内容的な類似度が第1閾値未満であり、かつ、形式的な類似度が第2閾値以上である場合には、検索文書データと、比較文書データとが、形式的に類似すると判定する。類似度算出部260は、内容的な類似度が第1閾値未満であり、かつ、形式的な類似度が第2閾値未満である場合には、検索文書データと、比較文書データとが、類似していないと判定する。
類似度算出部260は、各比較文書データについて、上記処理を繰り返し実行し、各比較文書データが、内容的に類似しているのか、形式的に類似しているのか、類似していないのかを判定し、各比較文書データを分類する。例えば、類似度算出部260は、形式的に類似する比較文書データの組と、内容的に類似する比較文書データの組とを区別して、表示装置等に出力してもよい。
次に、本実施例2に係る文書検索装置200の処理手順について説明する。図12は、本実施例2に係る文書検索装置の処理手順を示すフローチャートである。図12に示すように、この文書検索装置200の比較文書入力部250は、未選択の比較文書データが存在するか否かを判定する(ステップS201)。未選択の比較文書データが存在しない場合には(ステップS201,No)、文書検索装置200は処理を終了する。
一方、比較文書入力部250は、未選択の比較文書データが存在する場合には(ステップS201,Yes)、未選択の比較文書データを選択する(ステップS202)。
文書検索装置200の類似度算出部260は、検索文書データと、比較文書データとの間で、形式的な類似度と、内容的な類似度とを計算する(ステップS203)。類似度算出部260は、内容的な類似度が第1閾値以上である場合には(ステップS204,Yes)、検索文書データと、比較文書データとが内容的に類似していると判定し(ステップS205)、ステップS201に移行する。
一方、類似度算出部260は、内容的な類似度が第1閾値未満である場合には(ステップS204,No)、ステップS206に移行する。類似度算出部260は、形式的な類似度が第2閾値以上である場合には(ステップS206,Yes)、検索文書データと、比較文書データとが形式的に類似していると判定し(ステップS207)、ステップS201に移行する。
一方、類似度算出部260は、形式的な類似度が第2閾値未満である場合には(ステップS206,No)、検索文書データと、比較文書データとが類似していないと判定し(ステップS208)、ステップS201に移行する。
次に、本実施例2に係る文書検索装置200の効果について説明する。文書検索装置200は、文章の見出し文らしさと閾値との比較により、文章が見出し文であるか、内容文であるかを判別しておき、判別結果を基にして、形式的な類似度と内容的な類似度を算出する。実施例1の場合と比較して、見出し文らしい文章同士を比較して、見出し文であるか否かを判別する処理を省略するため、計算コストを抑止しつつ、正しい分類結果に基づいた検索を行うことができる。
続いて、発明者の実験結果について説明する。発明者は、下記の条件1〜3のそれぞれについて、類似する文書データを検索する実験を行った。
条件1:従来技術により、検索文書データに類似する比較文書データを検索。
条件2:実施例2の文書検索装置200を用いて検索文書データと「内容的に類似する」比較文書データを検索。
条件3:実施例1の文書検索装置100を用いて検索文書データと「内容的に類似する」比較文書データを検索。
図13は、実験結果を説明するための図である。図13では、一例として、検索された比較文書データのうち、類似度が上位50件に入る比較文書データについて、実際に、内容的に類似するものの件数と、形式的に類似するものの件数と、類似しないものの件数との関係を示す。
条件1では、31件が内容的に類似する比較文書データであり、11件が形式的に類似する比較文書データであり、8件が非類似の比較文書データであった。このため、適切に内容的に類似する文書データを検出できた割合は「31/50=62%」となる。
条件2では、39件が内容的に類似する比較文書データであり、1件が形式的に類似する比較文書データであり、10件が非類似の比較文書データであった。このため、適切に内容的に類似する文書データを検出できた割合は「39/50=78%」となる。
条件3では、44件が内容的に類似する比較文書データであり、2件が形式的に類似する比較文書データであり、4件が非類似の比較文書データであった。このため、適切に内容的に類似する文書データを検出できた割合は「44/50=88%」となる。
図13の実験結果に示すように、従来技術と比較して、文書検索装置100,200は、適切に文書データを検出可能であることがわかる。
次に、上記実施例に示した文書検索装置100,200と同様の機能を実現する文書検索プログラムを実行するコンピュータの一例について説明する。図14は、文書検索プログラムを実行するコンピュータの一例を示す図である。
図14に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る読み取り装置304と、ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置305とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301〜307は、バス308に接続される。
ハードディスク装置307は、評価プログラム307a、判別プログラム307b、類似度算出プログラム307cを有する。CPU301は、評価プログラム307a、判別プログラム307b、類似度算出プログラム307cを読み出してRAM306に展開する。
評価プログラム307aは、評価プロセス306aとして機能する。判別プログラム307bは、判別プロセス306bとして機能する。類似度算出プログラム307cは、類似度算出プロセス306cとして機能する。
評価プロセス306aの処理は、評価部120,220の処理に対応する。判別プロセス306bの処理は、判別部160の処理に対応する。類似度算出プロセス306cの処理は、類似度算出部170,260の処理に対応する。
なお、評価プログラム307a、判別プログラム307b、類似度算出プログラム307cについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a〜307cを読み出して実行するようにしてもよい。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)コンピュータが実行する文書検索方法であって、
文書データに含まれる文章の位置および前記文章のサイズに基づき、前記文書データに含まれる各文章について、前記文章の見出し文らしさを評価し、
前記文章の見出し文らしさの評価結果を基にして、前記文書データに含まれる文章が見出し文であるか、内容文であるかを判別する
処理を実行することを特徴とする文書検索方法。
(付記2)前記判別する処理は、第1文書データに含まれる見出し文らしい文章と、第2文書データに含まれる見出し文らしい文章とを比較し、比較した文章の一致度合いに基づいて、前記第1文書データおよび前記第2文書データに含まれる見出し文らしい文章が、見出し文であるか否かを判別することを特徴とする付記1に記載の文書検索方法。
(付記3)前記評価する処理は、前記文書データに含まれる文章が前方に位置するほど、前記文章はより見出し文らしいと評価することを特徴とする付記1または2に記載の文書検索方法。
(付記4)前記評価する処理は、前記文書データに含まれる文章のサイズが大きいほど、前記文章はより見出し文らしいと評価することを特徴とする付記1、2または3に記載の文書検索方法。
(付記5)第1文書データに含まれる見出し文と第2文書データに含まれる見出し文との第1類似度を算出し、前記第1文書データに含まれる内容文と前記第2文書データに含まれる内容文との第2類似度を算出し、算出した前記第1類似度および前記第2類似度の情報を出力する処理を更に実行することを特徴とする付記1〜4のいずれか一つに記載の文書検索方法。
(付記6)コンピュータに、
文書データに含まれる文章の位置および前記文章のサイズに基づき、前記文書データに含まれる各文章について、前記文章の見出し文らしさを評価し、
前記文章の見出し文らしさの評価結果を基にして、前記文書データに含まれる文章が見出し文であるか、内容文であるかを判別する
処理を実行させることを特徴とする文書検索プログラム。
(付記7)前記判別する処理は、第1文書データに含まれる見出し文らしい文章と、第2文書データに含まれる見出し文らしい文章とを比較し、比較した文章の一致度合いに基づいて、前記第1文書データおよび前記第2文書データに含まれる見出し文らしい文章が、見出し文であるか否かを判別することを特徴とする付記6に記載の文書検索プログラム。
(付記8)前記評価する処理は、前記文書データに含まれる文章が前方に位置するほど、前記文章はより見出し文らしいと評価することを特徴とする付記6または7に記載の文書検索プログラム。
(付記9)前記評価する処理は、前記文書データに含まれる文章のサイズが大きいほど、前記文章はより見出し文らしいと評価することを特徴とする付記6、7または8に記載の文書検索プログラム。
(付記10)第1文書データに含まれる見出し文と第2文書データに含まれる見出し文との第1類似度を算出し、前記第1文書データに含まれる内容文と前記第2文書データに含まれる内容文との第2類似度を算出し、算出した前記第1類似度および前記第2類似度の情報を出力する処理を更に実行することを特徴とする付記6〜9のいずれか一つに記載の文書検索プログラム。
(付記11)文書データに含まれる文章の位置および前記文章のサイズに基づいて、前記文書データに含まれる各文章について、前記文章の見出し文らしさを評価し、評価結果を基にして、前記文書データに含まれる文章が見出し文であるか、内容文であるかを判別する評価部
を有することを特徴とする文書検索装置。
(付記12)第1文書データに含まれる見出し文らしい文章と、第2文書データに含まれる見出し文らしい文章とを比較し、比較した文章の一致度合いに基づいて、前記第1文書データおよび前記第2文書データに含まれる見出し文らしい文章が、見出し文であるか否かを判別する判別部を更に有することを特徴とする付記11に記載の文書検索装置。
(付記13)前記評価部は、前記文書データに含まれる文章が前方に位置するほど、前記文章はより見出し文らしいと評価することを特徴とする付記11または12に記載の文書検索装置。
(付記14)前記評価部は、前記文書データに含まれる文章のサイズが大きいほど、前記文章はより見出し文らしいと評価することを特徴とする付記11、12または13に記載の文書検索装置。
(付記15)第1文書データに含まれる見出し文と第2文書データに含まれる見出し文との第1類似度を算出し、前記第1文書データに含まれる内容文と前記第2文書データに含まれる内容文との第2類似度を算出し、算出した前記第1類似度および前記第2類似度の情報を出力する類似度算出部を更に有することを特徴とする付記11〜14のいずれか一つに記載の文書検索装置。
100,200 文書検索装置
110,210 文章構造抽出部
120,220 評価部
130,230 重み算出部
160 判別部
170,260 類似度算出部

Claims (7)

  1. コンピュータが実行する文書検索方法であって、
    文書データに含まれる文章の位置および前記文章のサイズに基づき、前記文書データに含まれる各文章について、前記文章の見出し文らしさを評価し、
    前記文章の見出し文らしさの評価結果を基にして、前記文書データに含まれる文章が見出し文であるか、内容文であるかを判別する
    処理を実行することを特徴とする文書検索方法。
  2. 前記判別する処理は、第1文書データに含まれる見出し文らしい文章と、第2文書データに含まれる見出し文らしい文章とを比較し、比較した文章の一致度合いに基づいて、前記第1文書データおよび前記第2文書データに含まれる見出し文らしい文章が、見出し文であるか否かを判別することを特徴とする請求項1に記載の文書検索方法。
  3. 前記評価する処理は、前記文書データに含まれる文章が前方に位置するほど、前記文章はより見出し文らしいと評価することを特徴とする請求項1または2に記載の文書検索方法。
  4. 前記評価する処理は、前記文書データに含まれる文章のサイズが大きいほど、前記文章はより見出し文らしいと評価することを特徴とする請求項1、2または3に記載の文書検索方法。
  5. 第1文書データに含まれる見出し文と第2文書データに含まれる見出し文との第1類似度を算出し、前記第1文書データに含まれる内容文と前記第2文書データに含まれる内容文との第2類似度を算出し、算出した前記第1類似度および前記第2類似度の情報を出力する処理を更に実行することを特徴とする請求項1〜4のいずれか一つに記載の文書検索方法。
  6. コンピュータに、
    文書データに含まれる文章の位置および前記文章のサイズに基づき、前記文書データに含まれる各文章について、前記文章の見出し文らしさを評価し、
    前記文章の見出し文らしさの評価結果を基にして、前記文書データに含まれる文章が見出し文であるか、内容文であるかを判別する
    処理を実行させることを特徴とする文書検索プログラム。
  7. 文書データに含まれる文章の位置および前記文章のサイズに基づいて、前記文書データに含まれる各文章について、前記文章の見出し文らしさを評価し、評価結果を基にして、前記文書データに含まれる文章が見出し文であるか、内容文であるかを判別する評価部
    を有することを特徴とする文書検索装置。
JP2015253797A 2015-12-25 2015-12-25 判定方法、判定プログラムおよび判定装置 Expired - Fee Related JP6780244B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015253797A JP6780244B2 (ja) 2015-12-25 2015-12-25 判定方法、判定プログラムおよび判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015253797A JP6780244B2 (ja) 2015-12-25 2015-12-25 判定方法、判定プログラムおよび判定装置

Publications (2)

Publication Number Publication Date
JP2017117311A true JP2017117311A (ja) 2017-06-29
JP6780244B2 JP6780244B2 (ja) 2020-11-04

Family

ID=59234788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015253797A Expired - Fee Related JP6780244B2 (ja) 2015-12-25 2015-12-25 判定方法、判定プログラムおよび判定装置

Country Status (1)

Country Link
JP (1) JP6780244B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020095496A (ja) * 2018-12-13 2020-06-18 コニカミノルタ株式会社 文書処理装置および文書処理プログラム
KR20210006098A (ko) * 2019-07-08 2021-01-18 네이버 주식회사 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템
CN112784597A (zh) * 2019-11-06 2021-05-11 阿里巴巴集团控股有限公司 文章质量的评价方法及设备
WO2021164083A1 (zh) * 2020-02-18 2021-08-26 深圳中兴网信科技有限公司 档案质量评估方法、装置和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0484271A (ja) * 1990-07-26 1992-03-17 Nippon Telegr & Teleph Corp <Ntt> 文書内情報検索装置
JP2004046295A (ja) * 2002-07-08 2004-02-12 Ricoh Co Ltd タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体
JP2010061587A (ja) * 2008-09-05 2010-03-18 Nippon Telegr & Teleph Corp <Ntt> 類似文書判定装置、類似判定方法およびそのプログラム
JP2010218249A (ja) * 2009-03-17 2010-09-30 Konica Minolta Business Technologies Inc 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US20120041955A1 (en) * 2010-08-10 2012-02-16 Nogacom Ltd. Enhanced identification of document types

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0484271A (ja) * 1990-07-26 1992-03-17 Nippon Telegr & Teleph Corp <Ntt> 文書内情報検索装置
JP2004046295A (ja) * 2002-07-08 2004-02-12 Ricoh Co Ltd タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体
JP2010061587A (ja) * 2008-09-05 2010-03-18 Nippon Telegr & Teleph Corp <Ntt> 類似文書判定装置、類似判定方法およびそのプログラム
JP2010218249A (ja) * 2009-03-17 2010-09-30 Konica Minolta Business Technologies Inc 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US20120041955A1 (en) * 2010-08-10 2012-02-16 Nogacom Ltd. Enhanced identification of document types

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020095496A (ja) * 2018-12-13 2020-06-18 コニカミノルタ株式会社 文書処理装置および文書処理プログラム
JP7263753B2 (ja) 2018-12-13 2023-04-25 コニカミノルタ株式会社 文書処理装置および文書処理プログラム
KR20210006098A (ko) * 2019-07-08 2021-01-18 네이버 주식회사 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템
KR102315068B1 (ko) * 2019-07-08 2021-10-20 네이버 주식회사 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템
CN112784597A (zh) * 2019-11-06 2021-05-11 阿里巴巴集团控股有限公司 文章质量的评价方法及设备
WO2021164083A1 (zh) * 2020-02-18 2021-08-26 深圳中兴网信科技有限公司 档案质量评估方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
JP6780244B2 (ja) 2020-11-04

Similar Documents

Publication Publication Date Title
Levy et al. Unsupervised corpus–wide claim detection
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
Eyecioglu et al. Twitter paraphrase identification with simple overlap features and SVMs
JP6335898B2 (ja) 製品認識に基づく情報分類
CN103246687B (zh) 基于特征信息的Blog自动摘要方法
JP6780244B2 (ja) 判定方法、判定プログラムおよび判定装置
Cornolti et al. A piggyback system for joint entity mention detection and linking in web queries
CN109508391B (zh) 基于知识图谱的输入预测方法、装置和电子设备
JP2019212292A (ja) イベント発見方法、装置、機器及びプログラム
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN107193892B (zh) 一种文档主题确定方法及装置
WO2016015621A1 (zh) 人脸图片人名识别方法和系统
CN112214984B (zh) 内容抄袭识别方法、装置、设备及存储介质
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
JP6737151B2 (ja) 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム
US20150036930A1 (en) Discriminating synonymous expressions using images
JPWO2019077656A1 (ja) 生産設備監視装置、生産設備監視方法及び生産設備監視プログラム
CN108153728B (zh) 一种关键词确定方法及装置
US20150081477A1 (en) Search query analysis device, search query analysis method, and computer-readable recording medium
CN117763106B (zh) 一种文献查重的方法、装置、存储介质及电子设备
CN107633020B (zh) 文章相似度检测方法及装置
US20110264672A1 (en) Method and system for detecting a similarity of documents
US10055097B2 (en) Grasping contents of electronic documents
JPWO2013145249A1 (ja) 生体認証装置、生体認証方法、および生体認証プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200928

R150 Certificate of patent or registration of utility model

Ref document number: 6780244

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees