JP6426074B2

JP6426074B2 - 関連文書検索装置、モデル作成装置、これらの方法及びプログラム

Info

Publication number: JP6426074B2
Application number: JP2015195860A
Authority: JP
Inventors: 中村　孝; 孝中村; 克人別所; 淳史大塚
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-10-01
Filing date: 2015-10-01
Publication date: 2018-11-21
Anticipated expiration: 2035-10-01
Also published as: JP2017068742A

Description

この発明は、入力文章に関連した文書の検索を行う技術に関する。

入力文章に関連した文書の検索を行う技術は、大別すると、（１）入力された自然な文章から検索に用いる単語(キーワード)を抽出し、キーワードに適合する文書を探す技術と、（２）入力文章全体と検索対象文書との関連性を算出し、高い関連性の文書を探す技術とに分類される。以下、（１）をキーワードマッチ方式、（２）を文章類似性判定方式、とする。

キーワードマッチ方式では、非特許文献１のように、事前に転置インデックスを整備しておき、入力文章に紐づくキーワードが含まれる文書を転置インデックスを引くことで求める。その際、キーワードを類似性、文字ゆらぎ等の観点で拡張しておき、元々のキーワードに加え、拡張したキーワードを含む文書を求めることで、より再現率の高い検索を可能とする。

文章類似性判定方式では、特許文献１のように、入力文章および検索対象文書を概念ベクトル化し、文書類似性を概念ベクトル間の近さ（をコサイン測度として求める）とすることで検索を行う。

検索エンジンの仕組みと技術の発展（情報の科学と技術 54(2), 66-71, 2004-02-01）

特開２００７−３１７１３２号公報

しかしながら、キーワードマッチ方式では、入力文章に含まれるキーワードや拡張されたキーワード等を用いるが、あくまでキーワードのみに着目しているので、文書全体の意味を見ずに局所的な単語のみを見ているので、文意としては関連性が低い文書も類似していると判断してしまう場合がある。

また、文書類似性判定方式では、文書全体の近さを見ているので、文書全体が複数の意味・トピックを持っていたり、修飾的な文(挨拶、前置き、特殊な単語の説明等)が含まれていたりすると、文書の概念がぼやけてしまい、関連性を正しく判断できなくなる場合がある。

この発明の目的は、従来よりも精度の高い検索を可能とする関連文書検索装置、モデル作成装置、これらの方法及びプログラムを提供することである。

この発明の一態様による関連文書検索装置は、ある文章とある検索対象文書とについての類似度特徴量群をそのある文章とそのある検索対象文書との間の類似度を表すキーワードマッチ方式で求まる特徴量及び文書類似性判定方式で求まる特徴量として、入力された文章と各検索対象文書とについての類似度特徴量群を抽出する特徴量抽出部と、類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルが記憶された類似度スコアモデル記憶部と、類似度スコアモデル記憶部に記憶された類似度スコアモデルと抽出された類似度特徴量群とを用いて、入力された文章と各検索対象文書についての類似度スコアを計算する類似度スコア計算部と、を備えている。

この発明の一態様によるモデル作成装置は、ある文章とある文書とについての類似度特徴量群をそのある文章とそのある文書との間の類似度を表すキーワードマッチ方式で求まる特徴量及び文書類似性判定方式で求まる特徴量として、入力された文章と各文書とについての類似度特徴量群を抽出する特徴量抽出部と、入力された文章と各文書との間の類似度スコアが予め定められているとして、抽出された類似度特徴量群を説明変数とし、抽出された類似度特徴量群に対応する類似度スコアを目的変数として回帰分析をすることにより、類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルを作成する作成部と、を備えている。

従来よりも精度の高い検索が可能となる。

関連文書検索装置の例を説明するためのブロック図。関連文書検索方法の例を説明するための流れ図。モデル作成装置の例を説明するためのブロック図。モデル作成方法の例を説明するための流れ図。検索対象文書記憶部１に記憶されている検索対象文書についての情報の例を示す図。第１特徴量の例を示す図。第２特徴量の例を示す図。特徴量抽出部３により抽出された類似度特徴量群の例を示す図。出力条件記憶部６に記憶されている単語のペアの例を示す図。学習用文書記憶部１０に記憶されている複数の文書及び類似度スコアの例を示す図。特徴量抽出部８により抽出された類似度特徴量群の例を示す図。

［関連文書検索装置及び方法］
以下、図面を参照して、この関連文書検索装置及び方法の一実施形態について説明する。関連文書検索装置は、図１に示すように、検索対象文書記憶部１と、検索対象文書絞込部２と、特徴量抽出部３と、類似度スコアモデル記憶部４と、類似度スコア計算部５と、出力条件記憶部６と、出力部７とを例えば備えている。関連文書検索装置の各部が、図２の各ステップの処理を行うことにより、関連文書検索方法が実現される。

＜検索対象文書記憶部１＞
検索対象文書記憶部１には、複数の検索対象文書が記憶されている。

検索対象文書は、その検索対象文書を識別するための識別子である検索対象文書IDと共に検索対象文書記憶部１に記憶されている。

＜検索対象文書絞込部２＞
検索対象文書絞込部２には、文章と、検索対象文書記憶部１から読み込んだ検索対象文書とが入力される。

検索対象文書絞込部２は、入力された文書のカテゴリを判定し、検索対象文書記憶部１に記憶された複数の検索対象文書の中からその判定されたカテゴリの検索対象文書を選択する（ステップＳ２）。

まず、検索対象文書絞込部２は、例えば下記のテキストパタン抽出技術、トピック推定技術及び多値分類技術を用いて、入力された文書のカテゴリを抽出する。もちろん、検索対象文書絞込部２は、他のカテゴリ判定技術を用いて、入力された文書のカテゴリを抽出してもよい。

テキストパタン抽出技術の例は、参考文献１を参照のこと。

〔参考文献１〕日本電信電話株式会社、“テキスト知識抽出技術「リッチインデクサ」”、［online］、［平成２７年９月２４日検索］、インターネット〈URL：http://www.ntt.co.jp/svlab/activity/category_2/product2_07.html〉
トピック推定技術(LDA等)の例は、参考文献２を参照のこと。

〔参考文献２〕David M. Blei、外２名、“Latent Dirichlet Allocation”、［online］、Journal of Machine Learning Research 3 (2003) 993-1022、［平成２７年９月２４日検索］、インターネット〈URL：https://www.cs.princeton.edu/~blei/papers/BleiNgJordan2003.pdf〉
多値分類技術(多層パーセプトロン、SVC(SVM)等)の例は、参考文献３を参照のこと。

〔参考文献３〕Asa Ben-Hur、外３名、“Support Vector Clustering”、［online］、Journal of Machine Learning Research 2 (2001) 125-137、［平成２７年９月２４日検索］、インターネット〈URL：http://www.jmlr.org/papers/volume2/horn01a/rev1/horn01ar1.pdf〉

検索対象文書絞込部２の処理を行う場合には、図５に例示するように、検索対象文書記憶部１には、検索対象文書のカテゴリが予め定められて検索対象文書IDと共に記憶されているとする。

検索対象文書絞込部２は、判定された入力された文書のカテゴリと同じカテゴリの検索対象文書を検索対象文書記憶部１に記憶された複数の検索対象文書の中から選択し、選択された検索対象文書の検索対象文書IDを出力する。

検索対象を絞り込むことで、不要な文書に対する検索処理を削減して効率的に検索でき、トピックの異なる文書を検索対象から外すことで精度向上が期待できる。

＜特徴量抽出部３＞
特徴量抽出部３には、入力された文章と、検索対象文書絞込部２によって選択された検索対象文書とが入力される。検索対象文書絞込部２によって選択された検索対象文書は、検索対象文書絞込部２が出力した検索対象文書IDにより特定される。

特徴量抽出部３は、入力された文章と、検索対象文書絞込部２によって選択された各検索対象文書とについての類似度特徴量群を抽出する（ステップＳ３）。抽出された類似度特徴量群は、例えば、対応する検索対象文書IDと共に類似度スコア計算部５に出力される。

ここで、ある文章とある検索対象文書とについての類似度特徴量群を、そのある文章とそのある検索対象文書との間の類似度を表す異なる複数の特徴量とする。言い換えれば、類似度特徴量群は、複数の異なる性質の技術で求めた特徴量の組である。

例えば、第１の技術（例えば、キーワードマッチ方式）で求めた文書間の特徴量と、第１の技術とは性質が異なる第２の技術（例えば、文章類似性判定方式）で求めた文書間の特徴量との組を、類似度特徴量とすることができる。以下、この例を挙げて、特徴量抽出部３の処理について説明する。もちろん、これはあくまで一例であり、３個以上の技術のそれぞれで求めた文書間の特徴量の組を類似度特徴量としてもよい。また、第１の技術及び第２の技術は、キーワードマッチング方式と文書類似性判定方式に限定されるものでもない。文書同士の類似度を示す情報を算出可能な、他の性質を有する技術があれば用いてよい。

特徴量抽出部３の第一計算部３１は、入力された文章と、検索対象文書絞込部２によって選択された各検索対象文書との間の類似度を表す第１特徴量を第１の技術に基づいて計算する。

図６に、第１特徴量の例を示す。図６では、入力された文書と、各検索対象文書IDの検索対象文書との間の第１特徴量の例が記載されている。この図６の例では、第１特徴量は、３個の要素から構成されるベクトルである。この図６の例のように、特徴量、第１特徴量及び第２特徴量は、複数の要素から構成されるベクトルであってもよい。

また、特徴量抽出部３の第二計算部３２は、入力された文章と、検索対象文書絞込部２によって選択された各検索対象文書との間の類似度を表す第２特徴量を第２の技術に基づいて計算する。

図７に、第２特徴量の例を示す。図７では、入力された文書と、各検索対象文書IDの検索対象文書との間の第２特徴量の例が記載されている。

そして、特徴量抽出部３は、第１特徴量と第２特徴量とを結合して類似度特徴量群とする。

なお、結合の際に、特徴量抽出部３は、第１特徴量及び第２特徴量のそれぞれを正規化し、正規化された第１特徴量及び第２特徴量を類似度特徴量群としてもよい。例えば、正規化は、第１特徴量及び第２特徴量のそれぞれの要素ごとに行われる。

図８に、図６の第１特徴量を正規化した特徴量と、図７の第２特徴量を正規化した特徴量とを結合することにより得られた類似度特徴量群の例を示す。

以下、正規化処理の例について説明する。正規化は、例えば以下に例示する正規化関数f(x)の何れかを用いて行われる。特徴量ごとにどの正規化処理を行うのか（もしくは正規化処理を行わないのか）については、予め定めておく。また、特徴量が１以上の要素から構成さる場合、正規化関数を特徴量の各要素に対し適用して正規化を行うものとする。以下の式において、xは正規化前の特徴量の要素の値を表す。a,σ₁,σ₂,σ₃は定数とする。
f(x)＝tanh(x)
f(x)=1/(1+e^-ax)
f(x)=σ₁/(σ₂+σ₃|x|)

＜類似度スコアモデル記憶部４＞
類似度スコアモデル記憶部４には、類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルが記憶されている。

類似度スコアモデルは、例えば線形回帰モデルである。もちろん、類似度スコアモデルは、線形回帰モデル以外の回帰モデルであってもよい。

類似度スコアモデルは、図３及び図４を参照して後述するモデル作成装置及び方法により作成される。

＜類似度スコア計算部５＞
類似度スコア計算部５には、特徴量抽出部３で抽出された各検索対象文書に対応する類似度特徴量群と、類似度スコアモデル記憶部４から読み込んだ類似度スコアモデルが入力される。検索対象文書は、検索対象文書IDにより特定される。

類似度スコア計算部５は、類似度スコアモデル記憶部４に記憶された類似度スコアモデルと特徴量抽出部３で抽出された類似度特徴量群とを用いて、入力された文章と各検索対象文書についての類似度スコアを計算する（ステップＳ５）。類似度スコアは、類似度の算出の対象となっている文書間（文章と文書との間の場合も含む。）の類似度の高さを表す指標である。また、類似度スコアは、性質の異なる複数の技術で算出された類似度特徴量群を統合したものであるとも言える。

類似度スコアモデルは、例えば回帰分析により得られた回帰係数により構成される。この場合、類似度スコア計算部５は、回帰分析により得られた回帰係数により特定される式に、類似度特徴量群を入力した場合の出力値を計算して、その計算結果を類似度スコアとする。類似度スコアモデルが線形回帰モデルである場合には、類似度スコア計算部５は、ベクトルである類似度特徴量群とベクトルである回帰係数との内積を計算して、その計算結果を類似度スコアとする。

類似度スコア計算部５は、類似度スコアとその類似度スコアに対応する検索対象文書IDとのペアを出力部７に出力する。その際、類似度スコア計算部５は、類似度スコアとその類似度スコアに対応する検索対象文書IDとのペアを類似度スコアについての降順又は昇順に並び替えて、その並び替えられた順番で出力してもよい。

なお、類似度スコア計算部５は、既存技術であるランキング学習器を事前に学習しておき、類似度特徴量群を学習器に入力し、類似度を出力し、それを類似度スコアとしてもよい。この場合、ランキング学習器が類似度スコアモデルに対応する。

また、類似度スコア計算部５は、人手により類似度特徴量群を構成する特徴量の重みを決定し、その重みベクトルと類似度特徴量群との内積を求め、類似度スコアとしてもよい。この場合、人手により構成された特徴量の重みが類似度スコアモデルに対応する。

＜出力条件記憶部６＞
出力条件記憶部６には、出力部７で用いる出力条件が記憶されている。

＜出力部７＞
出力部７には、類似度スコア計算部５が出力した、類似度スコアとその類似度スコアに対応する検索対象文書IDとのペアが入力される。

出力部７は、類似度スコアが高い検索対象文書についての情報を出力する（ステップＳ７）。検索対象文書についての情報とは、例えば検索対象文書IDのことである。検索対象文書についての情報は、検索対象文書自体であってもよい。

出力部７は、出力条件記憶部６から出力条件を読み込み、その読み込んだ出力条件を満たす検索対象文書についての情報を出力してもよい。

例えば、出力部７は、類似度スコアが上位α個の検索対象文書についての情報を出力してもよい。この場合、「類似度スコアが上位α個」という情報が出力条件（以下、出力条件（１）とする。）となる。αは、１以上の整数である。

また、出力部７は、類似度スコア計算部５で計算された類似度スコアが所定の閾値以上である検索対象文書についての情報を出力してもよい。この場合、「所定の閾値以上」という情報が出力条件（以下、出力条件（２）とする。）となる。類似度スコアが小さいほど類似度が高くなるように設定されている場合には、出力部７は、類似度スコア計算部５で計算された類似度スコアが所定の閾値以下である検索対象文書についての情報を出力してもよい。

さらに、出力条件記憶部６に、いわゆるNGワードとして、単語のペアが複数記憶されているとする。出力条件記憶部６に記憶される単語のペアの例を、図９に示す。

この場合、出力部７は、入力された文書に単語のペアを構成する一方の単語が含まれており、かつ、検索対象文書にその単語のペアを構成する他方の単語が含まれているような単語のペアが、出力条件記憶部６に記憶された複数の単語のペアの中にある場合には、その検索対象文書は出力しないという処理を行ってもよい。言い換えれば、入力された文章に含まれる単語と検索対象文書に含まれる単語のペアが出力条件記憶部６に記憶されている場合には、その検索対象文書は出力しないという処理を行ってもよい。

この場合、「入力された文書に単語のペアを構成する一方の単語が含まれており、かつ、検索対象文書にその単語のペアを構成する他方の単語が含まれているような単語のペアが、出力条件記憶部６に記憶された複数の単語のペアの中にある場合には、その検索対象文書は出力しない」という条件が出力条件（以下、出力条件（３）とする。）となる。

出力条件（３）は、出力条件（１）又は（２）と両立することができる。すなわち、出力条件（１）又は（２）を満たす検索対象文書の中で、出力条件（３）を満たさない検索対象文書のみを出力し、出力条件（３）を満たす検索対象文書については出力しないという処理が行われてもよい。

このように、性質の異なる複数の技術により抽出した２種類以上の特徴量を考慮して最終的な類似度スコアを求めることにより、従来よりも精度の高い検索が可能となる。

［モデル作成装置及び方法］
以下、図面を参照して、モデル作成装置及び方法の一実施形態について説明する。モデル作成装置は、図３に示すように、学習用文書記憶部１０と、特徴量抽出部８と、作成部９とを例えば備えている。モデル作成装置の各部が、図４の各ステップの処理を行うことにより、モデル作成方法が実現される。

＜学習用文書記憶部１０＞
学習用文書記憶部１０には、複数の文書が記憶されている。複数の文書には、異なる２個の文書毎に類似度スコアが対応付けられている。この類似度スコアは例えば人手で予め定められたものである。複数の文書は、検索対象文書記憶部１に記憶されている検索対象文書と同じであっても異なっていてもよい。複数の文書として、互いに類似度が高い文書を記憶していてもよい。

図１０に、学習用文書記憶部１０に記憶されている複数の文書及び類似度スコアの例を示す。図１０の例では、複数の文書のそれぞれに識別子である文書IDが付されている。図１０の上段は、qid00001の文書IDの文書とpid00001の文書IDの文書についての類似度スコアが３であり、qid00001の文書IDの文書とpid00003の文書IDの文書についての類似度スコアが１であることを表している。この例では、類似度スコアが大きいほど、類似度が高くなるように設定されている。

＜特徴量抽出部８＞
特徴量抽出部８は、異なる２個の文書についての類似度特徴量群を抽出する（ステップ８）。抽出された類似度特徴量群は、作成部９に出力される。

特徴量抽出部８の処理は、上記説明した特徴量抽出部３の処理と同様である。すなわち、特徴量抽出部３が、入力された文章と各検索対象文書とについての類似度特徴量群を抽出した処理と同様の処理により、異なる２個の文書のそれぞれについての類似度特徴量群を抽出する。言い換えれば、特徴量抽出部８は、特徴量抽出部３が抽出した類似度特徴量群と同じ類似度特徴量群を抽出する。特徴量抽出部８の第一計算部８１の処理は特徴量抽出部３の第一計算部３１の処理と同様であり、特徴量抽出部８の第二計算部８２の処理は特徴量抽出部３の第二計算部３２の処理と同様である。

図１１に、特徴量抽出部８により抽出された類似度特徴量群の例を示す。

＜作成部９＞
作成部９は、抽出された類似度特徴量群を説明変数とし、特徴量抽出部８で抽出された類似度特徴量群に対応する類似度スコアを目的変数として回帰分析をすることにより、類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルを作成する（ステップＳ９）。

作成部９は、例えば線形回帰分析を行う。この場合、作成部９は、線形回帰モデルのパラメタを、例えばSVMを用いて学習し求める。

作成された類似度スコアモデルは、図１の類似度スコアモデル記憶部４に記憶される。

[プログラム及び記録媒体]
関連文書検索装置及び方法並びにモデル作成装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、関連文書検索装置又はモデル作成装置おける各処理をコンピュータによって実現する場合、関連文書検索装置又はモデル作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

［変形例］
検索対象文書絞込部２の処理は行われなくてもよい。この場合、特徴量抽出部３は、入力された文章と、検索対象文書記憶部１に記憶されている各検索対象文書とについての類似度特徴量群を抽出する。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

１検索対象文書記憶部
２検索対象文書絞込部
３特徴量抽出部
３１第一計算部
３２第二計算部
４類似度スコアモデル記憶部
５類似度スコア計算部
６出力条件記憶部
７出力部
８特徴量抽出部
８１第一計算部
８２第二計算部
９作成部
１０学習用文書記憶部

Claims

ある文章とある検索対象文書とについての類似度特徴量群をそのある文章とそのある検索対象文書との間の類似度を表すキーワードマッチ方式で求まる特徴量及び文書類似性判定方式で求まる特徴量として、入力された文章と各検索対象文書とについての類似度特徴量群を抽出する特徴量抽出部と、
類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルが記憶された類似度スコアモデル記憶部と、
上記類似度スコアモデル記憶部に記憶された類似度スコアモデルと上記抽出された類似度特徴量群とを用いて、入力された文章と各検索対象文書についての類似度スコアを計算する類似度スコア計算部と、
を含む関連文書検索装置。
請求項１の関連文書検索装置であって、
上記キーワードマッチ方式で求まる特徴量は複数の要素で構成されており、
上記類似度特徴量群は、上記キーワードマッチ方式で求まる特徴量を構成する複数の要素のそれぞれを正規化した特徴量と、上記文書類似性判定方式で求まる特徴量を正規化した特徴量とを結合したものである、
関連文書検索装置。
ある文章とある文書とについての類似度特徴量群をそのある文章とそのある文書との間の類似度を表すキーワードマッチ方式で求まる特徴量及び文書類似性判定方式で求まる特徴量として、入力された文章と各文書とについての類似度特徴量群を抽出する特徴量抽出部と、
上記入力された文章と各文書との間の類似度スコアが予め定められているとして、上記抽出された類似度特徴量群を説明変数とし、上記抽出された類似度特徴量群に対応する類似度スコアを目的変数として回帰分析をすることにより、類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルを作成する作成部と、
を含むモデル作成装置。
特徴量抽出部が、ある文章とある検索対象文書とについての類似度特徴量群をそのある文章とそのある検索対象文書との間の類似度を表すキーワードマッチ方式で求まる特徴量及び文書類似性判定方式で求まる特徴量として、入力された文章と各検索対象文書とについての類似度特徴量群を抽出する特徴量抽出ステップと、
類似度スコア計算部が、類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルと上記抽出された類似度特徴量群とを用いて、入力された文章と各検索対象文書についての類似度スコアを計算する類似度スコア計算ステップと、
を含む関連文書検索方法。
請求項４の関連文書検索方法であって、
上記キーワードマッチ方式で求まる特徴量は複数の要素で構成されており、
上記類似度特徴量群は、上記キーワードマッチ方式で求まる特徴量を構成する複数の要素のそれぞれを正規化した特徴量と、上記文書類似性判定方式で求まる特徴量を正規化した特徴量とを結合したものである、
関連文書検索方法。
特徴量抽出部が、ある文章とある文書とについての類似度特徴量群をそのある文章とそのある文書との間の類似度を表すキーワードマッチ方式で求まる特徴量及び文書類似性判定方式で求まる特徴量として、異なる２個の文書についての類似度特徴量群を抽出する特徴量抽出ステップと、
作成部が、上記異なる２個文書間の類似度スコアが予め定められているとして、上記抽出された類似度特徴量群を説明変数とし、上記抽出された類似度特徴量群に対応する類似度スコアを目的変数として回帰分析をすることにより、類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルを作成する作成ステップと、
を含むモデル作成方法。
請求項１又は２の関連文書検索装置の各部としてコンピュータを機能させるためのプログラム。
請求項３のモデル作成装置の各部としてコンピュータを機能させるためのプログラム。