JP7138981B1

JP7138981B1 - 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム

Info

Publication number: JP7138981B1
Application number: JP2021131400A
Authority: JP
Inventors: 佳典栗田; 謙一柏木; 裕志郎高橋
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2022-09-20
Anticipated expiration: 2041-08-11
Also published as: JP2023025933A

Abstract

【課題】より高精度に文章の類似度を算出することができる類似度判定装置、類似度判定システム、類似度判定方法、およびプログラムを提供すること。【解決手段】解析元の文章である第１文章と、比較対象の文章である第２文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部と、前記第１文章と前記第２文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部と、前記第１文章と前記第２文章との間の前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第１文章と前記第２文章の総合類似度を算出する類似度算出部と、を備える類似度判定装置。【選択図】図２

Description

特許法第３０条第２項適用１．電気通信回線を通じた公開ウェブサイトの掲載日令和２年８月２５日ウェブサイトのＵＲＬｈｔｔｐｓ：／／ｋａｇｅｍｕｓｙａ．ｂｉｚ－ｓａｍｕｒａｉ．ｃｏｍ／

特許法第３０条第２項適用２．電気通信回線を通じた公開ウェブサイトの掲載日令和２年８月２７日ウェブサイトのＵＲＬｈｔｔｐｓ：／／ｃｒｏ－ｃｏ．ｃｏ．ｊｐ／ｉｎｆｏｒｍａｔｉｏｎ／ｎｅｗｓ／ｓｅｒｖｉｃｅ／４１８／

本発明は、類似度判定装置、類似度判定システム、類似度判定方法、およびプログラムに関する。

インターネットを介してアクセス可能なオンライン文書の数が膨大になるに伴い、類似文書の検索に関する技術が、文献盗用検索等の多くの分野に活用されている。

これに関連し、複数に分類された文書群と入力文書との類似性を導出する文書類似性導出装置が提案されている（特許文献１参照）。具体的に、文書類似性導出装置は、入力文書に含まれる文を形態素解析した結果に基づいて、重みを要素とした入力文書の特徴ベクトルを算出し、複数に分類された各文書群に含まれる各文書の特徴ベクトルから文書群の平均特徴ベクトルを算出し、入力文書の特徴ベクトルおよび各文書群の平均特徴ベクトルから、入力文書が各文書群のうち、いずれの文書群に最も類似するかを判定する。

特開２００９－５３７４３号公報

特許文献１に記載の技術では、専ら特徴ベクトルを中心に文章の類似度を算出しており、特徴ベクトル以外の要素を考慮していないため、文章の類似度に関して精度が十分でない場合があった。

本発明は、このような事情を考慮してなされたものであり、より高精度に文章の類似度を算出することができる類似度判定装置、類似度判定システム、類似度判定方法、およびプログラムを提供することを目的とする。

上記目的を達成するため、本発明の類似度判定装置は、解析元の文章である第１文章と、比較対象の文章である第２文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部と、前記第１文章と前記第２文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部と、前記第１文章と前記第２文章との間の前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第１文章と前記第２文章の総合類似度を算出する類似度算出部と、表示部を備える端末装置に、前記キーフレーズ取得部により取得されたキーフレーズの前記第１文章と前記第２文章の間での出現度合の類似度を表すグラフを表示させる表示制御部と、を備え、前記類似度算出部は、前記第１文章に含まれる前記キーフレーズの出現数を要素とする第１キーフレーズベクトルと、前記第２文章に含まれる前記キーフレーズの出現数を要素とする第２キーフレーズベクトルとを求め、前記第１キーフレーズベクトルおよび前記第２キーフレーズベクトルに基づいて、前記第１文章と前記第２文章との類似度を表す第２指標値を算出するキーフレーズ比較部を備え、前記表示制御部は、前記第１文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第１ラインと、前記第２文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第２ラインとが表示されたレーダーチャートを、前記グラフとして前記端末装置に表示させる。

本発明の更なる特徴及び態様は、添付図面を参照し、以下に述べる実施形態の詳細な説明から明らかとなるであろう。

本発明によれば、より高精度に文章の類似度を算出することができる。

実施形態に係る類似度判定システム１の全体構成の一例を示す図である。実施形態に係る類似度判定装置１００の構成を示す図である。文ベクトル比較部１３２が文ベクトル同士の類似度を算出する様子の一例を示す図である。キーフレーズ比較部１３４が第１文章および第２文章における一致するキーフレーズがそれぞれの文章に出現した出現度合を算出する様子の一例を示す図である。類似度算出部１３０が第１文章と第２文章の総合類似度を算出する処理の内容を模式的に示す図である。類似度判定装置１００が、第１文章および第２文章の総合類似度を算出する処理の一例を示すフローチャートである。総合類似度を算出する処理が行われた後、類似度判定装置１００が端末装置２００に表示させる画面の一例を示す図である。

以下、実施形態の類似度判定装置、類似度判定システム、類似度判定方法、およびプログラムを、図面を参照して説明する。類似度判定装置は、文章を構成する各文の特徴ベクトルおよびキーフレーズに基づき、解析元の文章と比較対象の文章との類似度を判定する装置である。類似度判定装置は、例えば、解析元の文章と比較対象の文章との類似度を算出し、端末装置に算出結果を送信する。端末装置は、例えば、パーソナルコンピュータ、タブレット型コンピュータ、スマートフォンなどである。解析元の文章と比較対象の文章は、端末装置から取得されてもよいし、インターネット等の外部環境から自動で取得する等他の手法で取得されてもよい。類似度判定装置は、各文の特徴ベクトルを取得する際に、他のサーバの機能を利用してもよい。

図１は、実施形態に係る類似度判定システム１の全体構成の一例を示す図である。類似度判定システム１は、類似度判定装置１００と、端末装置２００とを備える。類似度判定装置１００、端末装置２００、および外部サーバ３００は、ネットワークを介して互いに通信する。ネットワークＮＷは、例えば、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、インターネット、プロバイダ装置、無線基地局、専用回線などのうちの一部または全部を含む。外部サーバ３００の役割については後述する。

図２は、実施形態に係る類似度判定装置１００の構成を示す図である。類似度判定装置１００は、例えば、通信部１１０、文章取得部１２０、文ベクトル取得部１２２、キーフレーズ取得部１２４、類似度算出部１３０、および記憶部１５０を備える。

通信部１１０と記憶部１５０以外の各部は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることで記憶装置にインストールされてもよい。

通信部１１０は、例えばＮＩＣ（Network Interface Card）などのネットワークインターフェースを備える。類似度判定装置１００の各部は、通信部１１０を用いて、ネットワークＮＷを介して端末装置２００および外部サーバ３００と通信する。

記憶部１５０は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。記憶部１５０には、例えば、取得文章１５２、取得文ベクトル１５４、取得キーフレーズ１５６、および文ベクトルの組の数１５８等のデータが格納される。

文章取得部１２０は、例えば、端末装置２００から解析元の文章と比較対象の文章を取得する。以下において、解析元の文章を第１文章とし、比較対象の文章を第２文章と称する。文章取得部１２０は、取得した第１文章および第２文章を記憶部１５０に記憶させる。

ここでは、文ベクトル取得部１２２を説明する前に、外部サーバ３００の役割について説明する。外部サーバ３００は、文章を分割、文章から単語の出現位置の特定、特徴ベクトル（文ベクトル）を取得やキーフレーズを取得等の各種解析器を有し、各種解析器に対して読み込ませる辞書・ライブラリ等を提供する。例えば、外部サーバ３００は、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）の自然言語処理モデルを用い、終止符などのような区切り符号に基づいて、文章ごとに対応する文ベクトルを作成することができる。また、外部サーバ３００は、例えば、ｓｐａＣｙ／ＧｉＮＺＡ（日本語形態素解析器の一種）を用いて、文章ごとに対して文章を構成する重要な要素（キーフレーズ）を取得することができる。

外部サーバ３００は、例えば、事前に用意したコーパスをクラスタリングし、分類したクラスタ単位で各単語のスコアを計算する。文章からキーフレーズを抽出する際は、文章が属するクラスタの各単語のスコアを用いてフレーズ候補のスコアを求める。外部サーバ３００は、類似した文章を多数集めることで、より良い精度の単語スコアを得ることができる。ここで、外部サーバ３００は、ジャンル別のコーパスを用いてキーフレーズを抽出してもよい。例えば、外部サーバ３００は、スポーツ、料理といったジャンルごとにコーパスを予め用意し、文ベクトル取得部１２２により指定されたジャンルに対応するコーパスを使用して単語のスコアを計算する。この場合、文ベクトル取得部１２２は、端末装置２００からジャンルの指定を受け付けてもよい。

文ベクトル取得部１２２は、記憶部１５０に格納された第１文章および第２文章を外部サーバ３００に送信して文ベクトルの作成を依頼し、第１文章および第２文章のそれぞれに対応する文ベクトルを取得する。本実施形態において、第１文章に基づき作成された文ベクトルを第１文ベクトルと称し、第２文章に基づき作成された文ベクトルを第２文ベクトルと称する。文ベクトル取得部１２２は、取得した第１文ベクトルおよび第２文ベクトルを類似度算出部１３０に出力する。

キーフレーズ取得部１２４は、記憶部１５０に格納された第１文章および第２文章を取得し、それらを外部サーバ３００に送信して第１文章および第２文章のそれぞれからのキーフレーズの抽出を依頼し、第１文章および第２文章のそれぞれに対応するキーフレーズを取得する。本実施形態において、第１文章に基づき作成されたキーフレーズを第１キーフレーズと称し、第２文章に基づき作成されたキーフレーズを第２キーフレーズと称する。キーフレーズ取得部１２４は、取得した第１キーフレーズおよび第２キーフレーズを類似度算出部１３０に出力する。

類似度算出部１３０は、第１文章および第２文章の総合類似度を算出する。類似度算出部１３０は、例えば、文ベクトル比較部１３２、キーフレーズ比較部１３４、総合類似度算出部１３６、および類似度表示制御部１３８を備える。

文ベクトル比較部１３２は、第１文章および第２文章のそれぞれに基づいて作成された第１文ベクトルおよび第２文ベクトルのベクトル間距離（ユークリッド距離）またはコサイン類似度に基づき、第１文ベクトルと第２文ベクトルの類似度を算出する。文ベクトル比較部１３２は、第１文ベクトルと第２文ベクトルの類似度を、例えば網羅的に算出し、第１文章および第２文章の総合類似度を算出するための第１指標値を算出する。

図３は、文ベクトル比較部１３２が文ベクトル同士の類似度を算出する様子の一例を示す図である。図示するように、第１文章および第２文章のそれぞれは、文１、文２、文３のような形で複数の文に分解されている。第１文章の文１の文ベクトルと、第２文章の文２の文ベクトルとの類似度は９７％であり、第１文章の文１の文ベクトルと、第２文章の文６の文ベクトルとの類似度は３５％であり、第１文章の文３の文ベクトルと、第２文章の文４の文ベクトルとの類似度は９７％である。このように、文ベクトル比較部１３２は、第１文章に含まれるそれぞれの文の文ベクトルと、第２文章に含まれるそれぞれの文の文ベクトルとの類似度を算出する。

文ベクトル比較部１３２は、例えば、上記文ベクトル同士の類似度を算出した後に、算出した類似度が閾値以上であるか否かを判定する。そして、文ベクトル比較部１３２は、閾値以上である類似度（類似度の最大値を含む）および類似度が閾値以上である文ベクトルの組の数を計数する。本実施形態において、例えば、文ベクトル同士の類似度閾値を８５％とする。この場合、図３における文ベクトルの組（１）、文ベクトルの組（４）、および文ベクトルの組（５）のそれぞれの類似度が「９７％」、「８８％」、「９７％」であり、これらは８５％の閾値以上であるため、文ベクトル比較部１３２は、上記文ベクトル同士の類似度およびそれらの組数「３」を算出して記憶部１５０に記憶させる。

文ベクトル比較部１３２は、単に、算出した文ベクトル同士の類似度が閾値以上である類似度に基づいて第１指標値を計算してもよいし、閾値以上である類似度および類似度が閾値以上である文ベクトルの組の数に基づいて第１指標値を計算してもよい。また、文ベクトル比較部１３２は、例えば、閾値を超えた値が大きいほど重みを大きくして組の数の加重和を求めてもよい。

更に、文ベクトル比較部１３２は、類似度の最大値に基づいて第１指標値を計算してもよい。本実施形態では、第１文章および第２文章の総合類似度を高精度に算出するため、文ベクトル比較部１３２は、文ベクトル同士の類似度の最大値および類似度が閾値以上である文ベクトルの組の数に基づいて、第１指標値を算出することとする。例えば、図３の場合、文ベクトル比較部１３２は、「９７％」および「３」を用いて第１指標値を算出する。

なお、文ベクトル比較部１３２は、単に類似度が閾値以上である文ベクトルの組の数に基づいて第１指標値を算出してもよいし、単に類似度の最大値に基づいて第１指標値を算出してもよい。文ベクトル比較部１３２は、例えば、類似度が閾値以上である文ベクトルの組の数が大きいほど第１指標値が大きくなるように、且つ、類似度の最大値が大きいほど第１指標値が大きくなるように、総合類似度を算出する。この傾向を有する限り、文ベクトル比較部１３２は、任意の手法で第１指標値を算出してよい。

キーフレーズ比較部１３４は、第１文章および第２文章のそれぞれから抽出されたキーフレーズの間で一致するキーフレーズが、第１文章および第２文章のそれぞれにおいて出現する出現度合に基づいて、第１文章および第２文章の総合類似度を算出するための第２指標値を算出する。出現度合とは、第１文章および第２文章の長さを考慮して、相対的にどの程度の頻度ないし比重で出現したかを示す情報量である。

図４は、キーフレーズ比較部１３４が第１文章および第２文章における一致するキーフレーズがそれぞれの文章に出現した出現度合を算出する様子の一例を示す図である。まず、キーフレーズ比較部１３４は、第１文章および第２文章におけるキーフレーズの出現数をカウントする。そして、キーフレーズ比較部１３４は、キーフレーズの出現数を、第１文章または第２文章の長さに応じた係数（第１係数または第２係数）で除算した値を、キーフレーズの出現度合として算出する。この係数は、第１文章または第２文章が長い程、大きくなる値である。

例えば、図示するように、第１文章および第２文章のそれぞれに出現するキーフレーズは、「ドリブル」、「ユース」、「ボール」、「プレースタイル」、「２０１９」や「２０１５」等である。キーフレーズ「ドリブル」は第１文章に５回出現し、第２文章に８回出現している。これに対して、第１文章に対応する係数α１が５０、第２文章に対応する係数α２が１００と計算されたとすると、「ドリブル」は、第１文章における出現度合が０．１と算出され、第２文章における出現度合が０．０８と算出される。第１文章と第２文章のうち一方にだけ出現するキーフレーズも存在し得る。その場合、そのキーフレーズが出現しない方の文章に対応するキーフレーズ出現数とキーフレーズ出現度合はゼロとなる。

そして、キーフレーズ比較部１３４は、例えば、第１文章と第２文章の少なくともいずれかに出現するキーフレーズを仮想的に並べ、その出現数を要素とするベクトル（キーフレーズベクトル）を、第１文章と第２文章のそれぞれについて定義する。第１文章に対応するキーフレーズベクトルを第１キーフレーズベクトルＶ１、第２文章に対応するキーフレーズベクトルを第２キーフレーズベクトルＶ２とすると、図４の例では、式（１）のように表される。
Ｖ１＝（０．１，０．０６，０．２，０．１４，０．２，０．０４，…）
Ｖ２＝（０．０８，０，０．１，０．０５，０．０２，０．０８，…） …（１）

キーフレーズ比較部１３４は、例えば、第１キーフレーズベクトルＶ１と第２キーフレーズベクトルＶ２とのベクトル間距離（ユークリッド距離）やコサイン類似度（すなわち第１キーフレーズベクトルＶ１と第２キーフレーズベクトルＶ２との類似度であり、キーフレーズの第１文章と第２文章における出現度合の類似度の一例である）を計算し、第２指標値として算出する。

総合類似度算出部１３６は、第１指標値および第２指標値に基づいて、第１文章および第２文章の総合類似度を算出する。例えば、総合類似度算出部１３６は、第１指標値が大きいほど総合類似度が大きくなるように、且つ、第２指標値が大きいほど総合類似度が大きくなるように、総合類似度を算出する。この傾向を有する限り、総合類似度算出部１３６は、任意の手法で総合類似度を算出してよい。

図５は、類似度算出部１３０が第１文章と第２文章の総合類似度を算出する処理の内容を模式的に示す図である。本実施形態において、例えば、類似度が閾値以上である文ベクトルの組の数はｎ、類似度の最大値はｍと計算され、更に、キーフレーズの第１文章における出現数はＰ_１、キーフレーズの第２文章における出現数はＰ_２であり、第１文章の正規化係数はα_１、第２文章の正規化係数はα_２と設定されている。

総合類似度算出部１３６は、文ベクトル比較部１３２がｎおよびｍに基づいて算出した第１指標値をＦとし、キーフレーズ比較部１３４がＰ_１、Ｐ_２、α_１、およびα_２に基づいて算出した第２指標値をＱとする。第１指標値Ｆの算出手法は、例えばＦ＝ｆ（ｎ，ｍ）で表される。ｆ（ｎ，ｍ）は、前述したように、類似度が閾値以上である文ベクトルの組の数ｎが大きいほど第１指標値Ｆが大きくなるように、且つ、類似度の最大値ｍが大きいほど第１指標値Ｆが大きくなるように、第１指標値Ｆを算出する関数である。また、第２指標値Ｑの算出手法は、例えば、Ｑ＝ｑ（Ｐ_１，Ｐ_２，α_１，α_２）で表される。Ｑ＝ｑ（Ｐ_１，Ｐ_２，α_１，α_２）は、前述したように、第１文章におけるキーフレーズの出現数Ｐ_１を第１文章の長さに応じた係数α_１で除算した値と、第２文章におけるキーフレーズの出現数Ｐ_２を第２文章の長さに応じた係数α_２で除算した値とを、キーフレーズの各文章における出現度合として算出し、算出した値に基づき第２指標値Ｑを算出する関数である。

そして、総合類似度算出部１３６は、第１指標値Ｆおよび第２指標値Ｑに基づいて、第１文章および第２文章の総合類似度Ｓを算出する。総合類似度Ｓの算出手法は、例えば、Ｓ＝ｈ（Ｆ，Ｑ）で表される。Ｓ＝ｈ（Ｆ，Ｑ）は、前述したように、第１指標値Ｆが大きいほど総合類似度Ｓが大きくなるように、且つ、第２指標値Ｑが大きいほど総合類似度Ｓが大きくなるように、総合類似度Ｓを算出する関数である。

類似度表示制御部１３８は、例えば、総合類似度、第１指標値、第２指標値、および第１文章と前記第２文章の間でのキーフレーズの出現度合の類似度を表すグラフ（レーダーチャート）を図示しない端末装置２００の表示部に表示させる。詳しくは、後述する。

図６は、類似度判定装置１００が、第１文章および第２文章の総合類似度を算出する処理の一例を示すフローチャートである。

まず、文章取得部１２０は、第１文章と第２文章のそれぞれの全文を、例えば端末装置２００から取得する（ステップＳ２００）。文ベクトル取得部１２２は、外部サーバ３００に第１文章および第２文章を送信して文ベクトルの作成を依頼する。そして、文ベクトル取得部１２２は、第１文章の文ベクトルおよび第２文章の文ベクトルを外部サーバ３００から取得し、キーフレーズ取得部１２４は、第１文章のキーフレーズおよび第２文章のキーフレーズを外部サーバ３００から取得する（ステップＳ２０２）。

次に、文ベクトル比較部１３２は、第１文章および第２文章のそれぞれに基づいて作成された組ごとの文ベクトル同士の類似度を算出する（ステップＳ２０４）。文ベクトル比較部１３２は、第１文ベクトルから一つの文ベクトルを選び、第２文ベクトルから一つの文ベクトルを選び、選ばれた文ベクトル同士の類似度Ａ_ｉ,ｊの算出を、全ての組み合わせについて実行する。そして、文ベクトル比較部１３２は、算出した文ベクトル同士の類似度Ａ_ｉ,ｊが閾値Ｔｈ以上であるか否かを判定する（ステップＳ２０８）。Ａ_ｉ,ｊとは、ｉ番目の第１文ベクトルと、ｊ番目の第２文ベクトルとの類似度を表している。算出した文ベクトル同士の類似度Ａ_ｉ,ｊが閾値Ｔｈ以上でない場合、文ベクトル比較部１３２は、ステップＳ２１６に進む。算出した文ベクトル同士の類似度Ａ_ｉ,ｊが閾値Ｔｈ以上である場合、文ベクトル比較部１３２は、閾値Ｔｈ以上である文ベクトルの組の数ｎをカウントアップし、記憶部１５０に格納させる（ステップＳ２１２）。

そして、文ベクトル比較部１３２は、全ての文ベクトルの組み合わせについて類似度Ａ_ｉ,ｊを算出したか否かを判定する（ステップＳ２１６）。全ての文ベクトルの組み合わせについて類似度Ａ_ｉ,ｊを算出していない場合、文ベクトル比較部１３２は、ステップＳ２０４に戻って、次の組の文ベクトルを選び、類似度Ａ_ｉ,ｊを算出する。全ての文ベクトルの組み合わせについて類似度Ａ_ｉ,ｊを算出した場合、文ベクトル比較部１３２は、算出した類似度のうち最大値ｍを抽出する（ステップＳ２２０）。次に、文ベクトル比較部１３２は、ステップＳ２１２においてカウントした数ｎおよびステップＳ２２０において計算した類似度の最大値ｍに基づいて、第１指標値Ｆを算出する（ステップＳ２２４）。

本実施形態において、類似度判定装置１００は、ステップＳ２０４の処理を行うに伴い、第１文章と第２文章のそれぞれにおける一致するキーフレーズを抽出することを並行してもよい（ステップＳ２０６）。

キーフレーズ比較部１３４は、第１文章と第２文章のそれぞれにおけるキーフレーズの出現数Ｐ_１およびＰ_２を算出する（ステップＳ２１０）。次に、キーフレーズ比較部１３４は、第１文章および第２文章のそれぞれの正規化係数α_１およびα_２を算出する（ステップＳ２１４）。上記算出したＰ_１、Ｐ_２、α_１、およびα_２に基づいて、キーフレーズ比較部１３４は、第２指標値Ｑを算出する（ステップＳ２１８）。そして、キーフレーズ比較部１３４は、キーフレーズの出現度合の類似度に関するレーダーチャートを作成し、類似度表示制御部１３８は、レーダーチャートを端末装置２００の表示部に表示させる（ステップＳ２２２）。

最後に、総合類似度算出部１３６は、第１指標値Ｆおよび第２指標値Ｑに基づき、第１文章および第２文章の総合類似度Ｓを算出する（ステップＳ２２６）。

キーフレーズの比較によれば、文章全体からキーフレーズを抽出するため、文章全体の類似度を判定することができる。しかしながら、比較対象の第２文章が解析元の第１文章の一部の文のみを流用する場合、キーフレーズの比較のみでは、類似度が低いと判定される可能性がある。これに対し、本実施形態のように、キーフレーズの比較と文ベクトルの比較とを組み合わせることで、類似度をより高精度に判定することができる。

すなわち、本実施形態において、文ベクトル同士の類似度を算出することで、ユーザは、解析元の第１文章と比較対象の第２文章の局所的な類似度を判定できる。また、キーフレーズの出現度合の類似度を算出することで、ユーザは、解析元の第１文章と比較対象の第２文章の全体の類似度を判断できる。

上述したように、本実施形態においては、解析元の第１文章と比較対象の第２文章のそれぞれに対し、文ベクトルの作成とキーフレーズの抽出という、文章の概要を示すという目的が類似しつつ互いに手法が全く異なる二種類の解析を行って総合類似度を算出している。これによって、例えばオリンピックを五輪と置換するといった単純な一括変換による文章の流用をも検出することが可能となっている。

図７は、総合類似度を算出する処理が行われた後、類似度判定装置１００が端末装置２００に表示させる画面の一例を示す図である。この画面には、例えば、「総合類似度」が表示される表示領域Ａ１、「第１指標値」が表示される表示領域Ａ２、「第２指標値」が表示される表示領域Ａ３、および「キーフレーズの出現度合の類似度に関するレーダーチャート」が表示される表示領域Ａ４が設けられる。図示するように、総合類似度の計算に関する処理が行われた後に、類似度表示制御部１３８は、各表示領域に表示される項目を含む「解析結果詳細報告」を端末装置２００の表示画面に表示させる。「キーフレーズの出現度合の類似度に関するレーダーチャート」において、第１文章におけるキーフレーズの出現度合を表すラインＬ１と、第２文章におけるキーフレーズの出現度合を表すラインＬ２とが表示されている。レーダーチャートの１２時方向、すなわち真上には、第１文章で最も出現頻度の高いキーフレーズが配置され、反時計回りに第１文章における出現頻度の順にキーフレーズが配置されている。したがって、第１文章を示すラインＬ１は、真上から反時計回りに徐々に半径が小さくなるらせん状の曲線が描画されることになる。これに対し、第２文章を示すラインＬ２は、類似度が低ければ、らせん状にはならずにいびつな形状となる。また、第１文章の一部で第２文章が使われていた場合には、特定のキーフレーズが突出して高く、もしくは低く描画されるが、多くのキーフレーズの出現頻度が類似することになるので、らせん形状に近くなる。このレーダーチャートにより、ユーザは、第１文章におけるキーフレーズの出現度合と、第２文章におけるキーフレーズの出現度合とを視覚的に比較することができる。

上記説明した外部サーバ３００の機能のうち一部または全部は、類似度判定装置１００の機能に含まれてもよい。例えば、類似度判定装置１００の文ベクトル取得部１２２が、文ベクトルを生成する機能を有してもよいし、類似度判定装置１００のキーフレーズ取得部１２４が、キーフレーズを抽出する機能を有してもよい。

また、文章取得部１２０によって取得される第１文章および第２文章は、論文、記事、歌詞、俳句、詩、小説等のようなあらゆる著作物であってよい。これによって、類似度判定装置１００を、論文、記事、歌詞、俳句、詩、小説等のような著作物の盗用の検出に使用することができる。

また、類似度判定装置１００は、文章に対応する文ベクトルおよびキーフレーズの双方に基づき、文章間の類似度を判定する（類似判定）ため、第１文章において、第２文章の内容の一部または全部を引用していることが明記されている場合（或いはその逆や、第１・第２文章ともに別の第３文章を引用している場合）、類似度判定装置１００は、第１文章および第２文章の引用されている部分を除外して、第１文章と第２文章の総合類似度を算出してもよい。例えば、第１文章および第２文章がＨＴＭＬ（Hyper Text Markup Language）形式で入力された場合、類似度判定装置１００は、引用タグに基づいて引用されている範囲を判定してもよい。文章の盗用を検出する目的において、引用されている部分で文章が同一となることは当然であるが、引用部分を含めて類似判定をしてしまうと不必要に類似度が高く判定され、結果的に文章の盗用が行われているかどうかという目的が達成できないためである。引用先がＨＴＭＬなどで入力されていない場合であっても、正しい引用が行われている場合にはフォントを変更したり、アスタリスクマーク（＊）等によって引用元文献が明示されていることが通常であるので、そのような引用か所を、自然言語処理を用いて機械検知してもよい。

このような引用が行われている場合、文章全体では類似度が高くないにも関わらず、特定の文章で極端に類似度スコアが高くなる。自然言語処理は類似度判定装置１００の負荷が大きいので、そのような局所的な類似度不連続箇所が見出された際にのみ、機械検知を動作させてもよいし、図７に示したチャートを表示する際に、ユーザがマニュアルで引用か所を指摘して再判定を促すように端末装置２００に表示してもよい。

また、ニュースや人気製品の発売等、客観的な事実に基づいた記事を作成する場合、当該事実に関しては多くのニュース媒体で同様の記事が作成される。このような場合は、事実を伝える部分について類似判定を行うと、盗用でなくても類似度が高いと判定されることになってしまい、結果として盗用が行われているかどうかという目的が達成できなくなるので、客観的事実を伝える部分を類似判定の対象から除外するようにしてもよい。引用か所が明記される引用と異なり、事実部分の指定は自然言語処理で行うことも可能であるが、文意から判定する必要がある上、事実に関する記載は全く同じ文章とは限らないため、より高度な自然言語処理が必要となる。そのようなニュース記事の場合、抽出される第２文章候補が比較的新しく、かつ近似した日付で複数検出される傾向がある。したがって、そのような近い日付の文献が第２文章の候補として複数抽出された場合にのみ、自然言語処理による除外か所検出を行ってもよいし、ユーザに事実を伝える記事であるかのチェックを入力させるチェックボックスを端末装置２００に表示し、事実を伝える記事部分をマニュアルで除外させる入力を促してもよい。引用と同様、図７に示したレーダーチャートを表示する際に、ユーザによる再判定を促してもよいが、自然言語処理が重い処理であるので、類似度判定装置１００の負荷軽減のためには、自然言語処理よりも前に除外か所の指定ができる方が好適である。

以上説明した実施形態によれば、解析元の文章である第１文章と、比較対象の文章である第２文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部１２２と、第１文章と第２文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部１２４と、第１文章と第２文章との間の文ベクトル同士の類似度と、同じキーフレーズの出現度合の類似度とに基づいて、第１文章と第２文章の総合類似度を算出する類似度算出部１３０とを備えることで、より高精度に文章の類似度を算出することができる。

また、実施形態によれば、文ベクトル同士の組のうち類似度が閾値以上である文ベクトルの組の数に基づいて第１指標値を算出することで、更に高精度に文章の類似度を算出することができる。

更に、実施形態によれば、第１文章と第２文章の間でのキーフレーズの出現度合の類似度を表すグラフを表示させる類似度表示制御部１３８を更に備えることで、ユーザは、第１文章におけるキーフレーズの出現度合と、第２文章におけるキーフレーズの出現度合とを比較することができる。

以上、本発明の好ましい実施例を説明したが、本発明はこれら実施例に限定されることはない。本発明の趣旨を逸脱しない範囲で、構成の付加、省略、置換、およびその他の変更が可能である。本発明は前述した説明によって限定されることはなく、添付のクレームの範囲によってのみ限定される。

１００類似度判定装置
１２０文章取得部
１２２文ベクトル取得部
１２４キーフレーズ取得部
１３０類似度算出部
１３２文ベクトル比較部
１３４キーフレーズ比較部
１３６総合類似度算出部
２００端末装置
３００外部サーバ

Claims

解析元の文章である第１文章と、比較対象の文章である第２文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部と、
前記第１文章と前記第２文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部と、
前記第１文章と前記第２文章との間の前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第１文章と前記第２文章の総合類似度を算出する類似度算出部と、
表示部を備える端末装置に、前記キーフレーズ取得部により取得されたキーフレーズの前記第１文章と前記第２文章の間での出現度合の類似度を表すグラフを表示させる表示制御部と、
を備え、
前記類似度算出部は、前記第１文章に含まれる前記キーフレーズの出現数を要素とする第１キーフレーズベクトルと、前記第２文章に含まれる前記キーフレーズの出現数を要素とする第２キーフレーズベクトルとを求め、前記第１キーフレーズベクトルおよび前記第２キーフレーズベクトルに基づいて、前記第１文章と前記第２文章との類似度を表す第２指標値を算出するキーフレーズ比較部を備え、
前記表示制御部は、前記第１文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第１ラインと、前記第２文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第２ラインとが表示されたレーダーチャートを、前記グラフとして前記端末装置に表示させる、
類似度判定装置。
前記類似度算出部は、
前記第１文章から得られた前記文ベクトルである一以上の第１文ベクトルと、前記第２文章から得られた前記文ベクトルである一以上の第２文ベクトルとを網羅的に比較して前記文ベクトル同士の類似度を算出し、前記文ベクトル同士の類似度に基づいて、前記第１文章と前記第２文章との類似度を表す第１指標値を算出する文ベクトル比較部と、
前記第１指標値と前記第２指標値とに基づいて前記第１文章と前記第２文章の総合類似度を算出する総合類似度算出部と、を更に備える、
請求項１に記載の類似度判定装置。
前記文ベクトル比較部は、前記文ベクトル同士の組のうち類似度が閾値以上である前記文ベクトルの組の数に基づいて前記第１指標値を算出する、
請求項２に記載の類似度判定装置。
前記文ベクトル比較部は、前記文ベクトル同士の類似度のうち最大値に基づいて前記第１指標値を算出する、
請求項２または３に記載の類似度判定装置。
前記キーフレーズ比較部は、前記第１文章における前記キーフレーズの出現数を、前記第１文章の長さに基づく第１係数で正規化した値と、前記第２文章における前記キーフレーズの出現数を、前記第２文章の長さに基づく第２係数で正規化した値とに基づいて、前記第２指標値を算出する、
請求項１から４のうちいずれか１項に記載の類似度判定装置。
前記類似度算出部は、前記第１文章および前記第２文章のうちのいずれか一方の内容の一部または全部を、前記第１文章および前記第２文章のうちのいずれか他方において引用していることが明記されている場合、前記第１文章および前記第２文章の引用されている部分を除外して、前記第１文章と前記第２文章の前記総合類似度を算出する、
請求項１から５のうちいずれか１項に記載の類似度判定装置。
請求項１から６のうちいずれか１項に記載の類似度判定装置と、
前記類似度判定装置の前記類似度算出部により算出された前記総合類似度を表示する前記端末装置と、を備える、
類似度判定システム。
コンピュータが、
解析元の文章である第１文章と、比較対象の文章である第２文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得し、
前記第１文章と前記第２文章のそれぞれから、文章を構成する重要な要素であるキーフレーズを取得し、
前記第１文章と前記第２文章に関して、前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第１文章と前記第２文章の総合類似度を算出し、
表示部を備える端末装置に、前記取得されたキーフレーズの前記第１文章と前記第２文章の間での出現度合の類似度を表すグラフを表示させ、
前記第１文章に含まれる前記キーフレーズの出現数を要素とする第１キーフレーズベクトルと、前記第２文章に含まれる前記キーフレーズの出現数を要素とする第２キーフレーズベクトルとを求め、前記第１キーフレーズベクトルおよび前記第２キーフレーズベクトルに基づいて、前記第１文章と前記第２文章との類似度を表す第２指標値を算出し、
前記第１文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第１ラインと、前記第２文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第２ラインとが表示されたレーダーチャートを、前記グラフとして前記端末装置に表示させる、
類似度判定方法。
コンピュータに、
解析元の文章である第１文章と、比較対象の文章である第２文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得させ、
前記第１文章と前記第２文章のそれぞれから、文章を構成する重要な要素であるキーフレーズを取得させ、
前記第１文章と前記第２文章に関して、前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第１文章と前記第２文章の総合類似度を算出させ、
表示部を備える端末装置に、前記取得されたキーフレーズの前記第１文章と前記第２文章の間での出現度合の類似度を表すグラフを表示させ、
前記第１文章に含まれる前記キーフレーズの出現数を要素とする第１キーフレーズベクトルと、前記第２文章に含まれる前記キーフレーズの出現数を要素とする第２キーフレーズベクトルとを求めさせ、前記第１キーフレーズベクトルおよび前記第２キーフレーズベクトルに基づいて、前記第１文章と前記第２文章との類似度を表す第２指標値を算出させ、
前記第１文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第１ラインと、前記第２文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第２ラインとが表示されたレーダーチャートを、前記グラフとして前記端末装置に表示させる、
プログラム。