JP7138981B1 - 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム - Google Patents

類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム Download PDF

Info

Publication number
JP7138981B1
JP7138981B1 JP2021131400A JP2021131400A JP7138981B1 JP 7138981 B1 JP7138981 B1 JP 7138981B1 JP 2021131400 A JP2021131400 A JP 2021131400A JP 2021131400 A JP2021131400 A JP 2021131400A JP 7138981 B1 JP7138981 B1 JP 7138981B1
Authority
JP
Japan
Prior art keywords
sentence
similarity
vector
key
key phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021131400A
Other languages
English (en)
Other versions
JP2023025933A (ja
Inventor
佳典 栗田
謙一 柏木
裕志郎 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2021131400A priority Critical patent/JP7138981B1/ja
Application granted granted Critical
Publication of JP7138981B1 publication Critical patent/JP7138981B1/ja
Publication of JP2023025933A publication Critical patent/JP2023025933A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】より高精度に文章の類似度を算出することができる類似度判定装置、類似度判定システム、類似度判定方法、およびプログラムを提供すること。【解決手段】解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部と、前記第1文章と前記第2文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部と、前記第1文章と前記第2文章との間の前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出する類似度算出部と、を備える類似度判定装置。【選択図】図2

Description

特許法第30条第2項適用 1.電気通信回線を通じた公開 ウェブサイトの掲載日 令和2年8月25日 ウェブサイトのURL https://kagemusya.biz-samurai.com/
特許法第30条第2項適用 2.電気通信回線を通じた公開 ウェブサイトの掲載日 令和2年8月27日 ウェブサイトのURL https://cro-co.co.jp/information/news/service/418/
本発明は、類似度判定装置、類似度判定システム、類似度判定方法、およびプログラムに関する。
インターネットを介してアクセス可能なオンライン文書の数が膨大になるに伴い、類似文書の検索に関する技術が、文献盗用検索等の多くの分野に活用されている。
これに関連し、複数に分類された文書群と入力文書との類似性を導出する文書類似性導出装置が提案されている(特許文献1参照)。具体的に、文書類似性導出装置は、入力文書に含まれる文を形態素解析した結果に基づいて、重みを要素とした入力文書の特徴ベクトルを算出し、複数に分類された各文書群に含まれる各文書の特徴ベクトルから文書群の平均特徴ベクトルを算出し、入力文書の特徴ベクトルおよび各文書群の平均特徴ベクトルから、入力文書が各文書群のうち、いずれの文書群に最も類似するかを判定する。
特開2009-53743号公報
特許文献1に記載の技術では、専ら特徴ベクトルを中心に文章の類似度を算出しており、特徴ベクトル以外の要素を考慮していないため、文章の類似度に関して精度が十分でない場合があった。
本発明は、このような事情を考慮してなされたものであり、より高精度に文章の類似度を算出することができる類似度判定装置、類似度判定システム、類似度判定方法、およびプログラムを提供することを目的とする。
上記目的を達成するため、本発明の類似度判定装置は、解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部と、前記第1文章と前記第2文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部と、前記第1文章と前記第2文章との間の前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出する類似度算出部と、表示部を備える端末装置に、前記キーフレーズ取得部により取得されたキーフレーズの前記第1文章と前記第2文章の間での出現度合の類似度を表すグラフを表示させる表示制御部と、を備え、前記類似度算出部は、前記第1文章に含まれる前記キーフレーズの出現数を要素とする第1キーフレーズベクトルと、前記第2文章に含まれる前記キーフレーズの出現数を要素とする第2キーフレーズベクトルとを求め、前記第1キーフレーズベクトルおよび前記第2キーフレーズベクトルに基づいて、前記第1文章と前記第2文章との類似度を表す第2指標値を算出するキーフレーズ比較部を備え、前記表示制御部は、前記第1文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第1ラインと、前記第2文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第2ラインとが表示されたレーダーチャートを、前記グラフとして前記端末装置に表示させる
本発明の更なる特徴及び態様は、添付図面を参照し、以下に述べる実施形態の詳細な説明から明らかとなるであろう。
本発明によれば、より高精度に文章の類似度を算出することができる。
実施形態に係る類似度判定システム1の全体構成の一例を示す図である。 実施形態に係る類似度判定装置100の構成を示す図である。 文ベクトル比較部132が文ベクトル同士の類似度を算出する様子の一例を示す図である。 キーフレーズ比較部134が第1文章および第2文章における一致するキーフレーズがそれぞれの文章に出現した出現度合を算出する様子の一例を示す図である。 類似度算出部130が第1文章と第2文章の総合類似度を算出する処理の内容を模式的に示す図である。 類似度判定装置100が、第1文章および第2文章の総合類似度を算出する処理の一例を示すフローチャートである。 総合類似度を算出する処理が行われた後、類似度判定装置100が端末装置200に表示させる画面の一例を示す図である。
以下、実施形態の類似度判定装置、類似度判定システム、類似度判定方法、およびプログラムを、図面を参照して説明する。類似度判定装置は、文章を構成する各文の特徴ベクトルおよびキーフレーズに基づき、解析元の文章と比較対象の文章との類似度を判定する装置である。類似度判定装置は、例えば、解析元の文章と比較対象の文章との類似度を算出し、端末装置に算出結果を送信する。端末装置は、例えば、パーソナルコンピュータ、タブレット型コンピュータ、スマートフォンなどである。解析元の文章と比較対象の文章は、端末装置から取得されてもよいし、インターネット等の外部環境から自動で取得する等他の手法で取得されてもよい。類似度判定装置は、各文の特徴ベクトルを取得する際に、他のサーバの機能を利用してもよい。
図1は、実施形態に係る類似度判定システム1の全体構成の一例を示す図である。類似度判定システム1は、類似度判定装置100と、端末装置200とを備える。類似度判定装置100、端末装置200、および外部サーバ300は、ネットワークを介して互いに通信する。ネットワークNWは、例えば、WAN(Wide Area Network)、LAN(Local Area Network)、インターネット、プロバイダ装置、無線基地局、専用回線などのうちの一部または全部を含む。外部サーバ300の役割については後述する。
図2は、実施形態に係る類似度判定装置100の構成を示す図である。類似度判定装置100は、例えば、通信部110、文章取得部120、文ベクトル取得部122、キーフレーズ取得部124、類似度算出部130、および記憶部150を備える。
通信部110と記憶部150以外の各部は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで記憶装置にインストールされてもよい。
通信部110は、例えばNIC(Network Interface Card)などのネットワークインターフェースを備える。類似度判定装置100の各部は、通信部110を用いて、ネットワークNWを介して端末装置200および外部サーバ300と通信する。
記憶部150は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。記憶部150には、例えば、取得文章152、取得文ベクトル154、取得キーフレーズ156、および文ベクトルの組の数158等のデータが格納される。
文章取得部120は、例えば、端末装置200から解析元の文章と比較対象の文章を取得する。以下において、解析元の文章を第1文章とし、比較対象の文章を第2文章と称する。文章取得部120は、取得した第1文章および第2文章を記憶部150に記憶させる。
ここでは、文ベクトル取得部122を説明する前に、外部サーバ300の役割について説明する。外部サーバ300は、文章を分割、文章から単語の出現位置の特定、特徴ベクトル(文ベクトル)を取得やキーフレーズを取得等の各種解析器を有し、各種解析器に対して読み込ませる辞書・ライブラリ等を提供する。例えば、外部サーバ300は、BERT(Bidirectional Encoder Representations from Transformers)の自然言語処理モデルを用い、終止符などのような区切り符号に基づいて、文章ごとに対応する文ベクトルを作成することができる。また、外部サーバ300は、例えば、spaCy/GiNZA(日本語形態素解析器の一種)を用いて、文章ごとに対して文章を構成する重要な要素(キーフレーズ)を取得することができる。
外部サーバ300は、例えば、事前に用意したコーパスをクラスタリングし、分類したクラスタ単位で各単語のスコアを計算する。文章からキーフレーズを抽出する際は、文章が属するクラスタの各単語のスコアを用いてフレーズ候補のスコアを求める。外部サーバ300は、類似した文章を多数集めることで、より良い精度の単語スコアを得ることができる。ここで、外部サーバ300は、ジャンル別のコーパスを用いてキーフレーズを抽出してもよい。例えば、外部サーバ300は、スポーツ、料理といったジャンルごとにコーパスを予め用意し、文ベクトル取得部122により指定されたジャンルに対応するコーパスを使用して単語のスコアを計算する。この場合、文ベクトル取得部122は、端末装置200からジャンルの指定を受け付けてもよい。
文ベクトル取得部122は、記憶部150に格納された第1文章および第2文章を外部サーバ300に送信して文ベクトルの作成を依頼し、第1文章および第2文章のそれぞれに対応する文ベクトルを取得する。本実施形態において、第1文章に基づき作成された文ベクトルを第1文ベクトルと称し、第2文章に基づき作成された文ベクトルを第2文ベクトルと称する。文ベクトル取得部122は、取得した第1文ベクトルおよび第2文ベクトルを類似度算出部130に出力する。
キーフレーズ取得部124は、記憶部150に格納された第1文章および第2文章を取得し、それらを外部サーバ300に送信して第1文章および第2文章のそれぞれからのキーフレーズの抽出を依頼し、第1文章および第2文章のそれぞれに対応するキーフレーズを取得する。本実施形態において、第1文章に基づき作成されたキーフレーズを第1キーフレーズと称し、第2文章に基づき作成されたキーフレーズを第2キーフレーズと称する。キーフレーズ取得部124は、取得した第1キーフレーズおよび第2キーフレーズを類似度算出部130に出力する。
類似度算出部130は、第1文章および第2文章の総合類似度を算出する。類似度算出部130は、例えば、文ベクトル比較部132、キーフレーズ比較部134、総合類似度算出部136、および類似度表示制御部138を備える。
文ベクトル比較部132は、第1文章および第2文章のそれぞれに基づいて作成された第1文ベクトルおよび第2文ベクトルのベクトル間距離(ユークリッド距離)またはコサイン類似度に基づき、第1文ベクトルと第2文ベクトルの類似度を算出する。文ベクトル比較部132は、第1文ベクトルと第2文ベクトルの類似度を、例えば網羅的に算出し、第1文章および第2文章の総合類似度を算出するための第1指標値を算出する。
図3は、文ベクトル比較部132が文ベクトル同士の類似度を算出する様子の一例を示す図である。図示するように、第1文章および第2文章のそれぞれは、文1、文2、文3のような形で複数の文に分解されている。第1文章の文1の文ベクトルと、第2文章の文2の文ベクトルとの類似度は97%であり、第1文章の文1の文ベクトルと、第2文章の文6の文ベクトルとの類似度は35%であり、第1文章の文3の文ベクトルと、第2文章の文4の文ベクトルとの類似度は97%である。このように、文ベクトル比較部132は、第1文章に含まれるそれぞれの文の文ベクトルと、第2文章に含まれるそれぞれの文の文ベクトルとの類似度を算出する。
文ベクトル比較部132は、例えば、上記文ベクトル同士の類似度を算出した後に、算出した類似度が閾値以上であるか否かを判定する。そして、文ベクトル比較部132は、閾値以上である類似度(類似度の最大値を含む)および類似度が閾値以上である文ベクトルの組の数を計数する。本実施形態において、例えば、文ベクトル同士の類似度閾値を85%とする。この場合、図3における文ベクトルの組(1)、文ベクトルの組(4)、および文ベクトルの組(5)のそれぞれの類似度が「97%」、「88%」、「97%」であり、これらは85%の閾値以上であるため、文ベクトル比較部132は、上記文ベクトル同士の類似度およびそれらの組数「3」を算出して記憶部150に記憶させる。
文ベクトル比較部132は、単に、算出した文ベクトル同士の類似度が閾値以上である類似度に基づいて第1指標値を計算してもよいし、閾値以上である類似度および類似度が閾値以上である文ベクトルの組の数に基づいて第1指標値を計算してもよい。また、文ベクトル比較部132は、例えば、閾値を超えた値が大きいほど重みを大きくして組の数の加重和を求めてもよい。
更に、文ベクトル比較部132は、類似度の最大値に基づいて第1指標値を計算してもよい。本実施形態では、第1文章および第2文章の総合類似度を高精度に算出するため、文ベクトル比較部132は、文ベクトル同士の類似度の最大値および類似度が閾値以上である文ベクトルの組の数に基づいて、第1指標値を算出することとする。例えば、図3の場合、文ベクトル比較部132は、「97%」および「3」を用いて第1指標値を算出する。
なお、文ベクトル比較部132は、単に類似度が閾値以上である文ベクトルの組の数に基づいて第1指標値を算出してもよいし、単に類似度の最大値に基づいて第1指標値を算出してもよい。文ベクトル比較部132は、例えば、類似度が閾値以上である文ベクトルの組の数が大きいほど第1指標値が大きくなるように、且つ、類似度の最大値が大きいほど第1指標値が大きくなるように、総合類似度を算出する。この傾向を有する限り、文ベクトル比較部132は、任意の手法で第1指標値を算出してよい。
キーフレーズ比較部134は、第1文章および第2文章のそれぞれから抽出されたキーフレーズの間で一致するキーフレーズが、第1文章および第2文章のそれぞれにおいて出現する出現度合に基づいて、第1文章および第2文章の総合類似度を算出するための第2指標値を算出する。出現度合とは、第1文章および第2文章の長さを考慮して、相対的にどの程度の頻度ないし比重で出現したかを示す情報量である。
図4は、キーフレーズ比較部134が第1文章および第2文章における一致するキーフレーズがそれぞれの文章に出現した出現度合を算出する様子の一例を示す図である。まず、キーフレーズ比較部134は、第1文章および第2文章におけるキーフレーズの出現数をカウントする。そして、キーフレーズ比較部134は、キーフレーズの出現数を、第1文章または第2文章の長さに応じた係数(第1係数または第2係数)で除算した値を、キーフレーズの出現度合として算出する。この係数は、第1文章または第2文章が長い程、大きくなる値である。
例えば、図示するように、第1文章および第2文章のそれぞれに出現するキーフレーズは、「ドリブル」、「ユース」、「ボール」、「プレースタイル」、「2019」や「2015」等である。キーフレーズ「ドリブル」は第1文章に5回出現し、第2文章に8回出現している。これに対して、第1文章に対応する係数α1が50、第2文章に対応する係数α2が100と計算されたとすると、「ドリブル」は、第1文章における出現度合が0.1と算出され、第2文章における出現度合が0.08と算出される。第1文章と第2文章のうち一方にだけ出現するキーフレーズも存在し得る。その場合、そのキーフレーズが出現しない方の文章に対応するキーフレーズ出現数とキーフレーズ出現度合はゼロとなる。
そして、キーフレーズ比較部134は、例えば、第1文章と第2文章の少なくともいずれかに出現するキーフレーズを仮想的に並べ、その出現数を要素とするベクトル(キーフレーズベクトル)を、第1文章と第2文章のそれぞれについて定義する。第1文章に対応するキーフレーズベクトルを第1キーフレーズベクトルV1、第2文章に対応するキーフレーズベクトルを第2キーフレーズベクトルV2とすると、図4の例では、式(1)のように表される。
V1=(0.1,0.06,0.2,0.14,0.2,0.04,…)
V2=(0.08,0,0.1,0.05,0.02,0.08,…) …(1)
キーフレーズ比較部134は、例えば、第1キーフレーズベクトルV1と第2キーフレーズベクトルV2とのベクトル間距離(ユークリッド距離)やコサイン類似度(すなわち第1キーフレーズベクトルV1と第2キーフレーズベクトルV2との類似度であり、キーフレーズの第1文章と第2文章における出現度合の類似度の一例である)を計算し、第2指標値として算出する。
総合類似度算出部136は、第1指標値および第2指標値に基づいて、第1文章および第2文章の総合類似度を算出する。例えば、総合類似度算出部136は、第1指標値が大きいほど総合類似度が大きくなるように、且つ、第2指標値が大きいほど総合類似度が大きくなるように、総合類似度を算出する。この傾向を有する限り、総合類似度算出部136は、任意の手法で総合類似度を算出してよい。
図5は、類似度算出部130が第1文章と第2文章の総合類似度を算出する処理の内容を模式的に示す図である。本実施形態において、例えば、類似度が閾値以上である文ベクトルの組の数はn、類似度の最大値はmと計算され、更に、キーフレーズの第1文章における出現数はP、キーフレーズの第2文章における出現数はPであり、第1文章の正規化係数はα、第2文章の正規化係数はαと設定されている。
総合類似度算出部136は、文ベクトル比較部132がnおよびmに基づいて算出した第1指標値をFとし、キーフレーズ比較部134がP、P、α、およびαに基づいて算出した第2指標値をQとする。第1指標値Fの算出手法は、例えばF=f(n,m)で表される。f(n,m)は、前述したように、類似度が閾値以上である文ベクトルの組の数nが大きいほど第1指標値Fが大きくなるように、且つ、類似度の最大値mが大きいほど第1指標値Fが大きくなるように、第1指標値Fを算出する関数である。また、第2指標値Qの算出手法は、例えば、Q=q(P,P,α,α)で表される。Q=q(P,P,α,α)は、前述したように、第1文章におけるキーフレーズの出現数Pを第1文章の長さに応じた係数αで除算した値と、第2文章におけるキーフレーズの出現数Pを第2文章の長さに応じた係数αで除算した値とを、キーフレーズの各文章における出現度合として算出し、算出した値に基づき第2指標値Qを算出する関数である。
そして、総合類似度算出部136は、第1指標値Fおよび第2指標値Qに基づいて、第1文章および第2文章の総合類似度Sを算出する。総合類似度Sの算出手法は、例えば、S=h(F,Q)で表される。S=h(F,Q)は、前述したように、第1指標値Fが大きいほど総合類似度Sが大きくなるように、且つ、第2指標値Qが大きいほど総合類似度Sが大きくなるように、総合類似度Sを算出する関数である。
類似度表示制御部138は、例えば、総合類似度、第1指標値、第2指標値、および第1文章と前記第2文章の間でのキーフレーズの出現度合の類似度を表すグラフ(レーダーチャート)を図示しない端末装置200の表示部に表示させる。詳しくは、後述する。
図6は、類似度判定装置100が、第1文章および第2文章の総合類似度を算出する処理の一例を示すフローチャートである。
まず、文章取得部120は、第1文章と第2文章のそれぞれの全文を、例えば端末装置200から取得する(ステップS200)。文ベクトル取得部122は、外部サーバ300に第1文章および第2文章を送信して文ベクトルの作成を依頼する。そして、文ベクトル取得部122は、第1文章の文ベクトルおよび第2文章の文ベクトルを外部サーバ300から取得し、キーフレーズ取得部124は、第1文章のキーフレーズおよび第2文章のキーフレーズを外部サーバ300から取得する(ステップS202)。
次に、文ベクトル比較部132は、第1文章および第2文章のそれぞれに基づいて作成された組ごとの文ベクトル同士の類似度を算出する(ステップS204)。文ベクトル比較部132は、第1文ベクトルから一つの文ベクトルを選び、第2文ベクトルから一つの文ベクトルを選び、選ばれた文ベクトル同士の類似度Ai,jの算出を、全ての組み合わせについて実行する。そして、文ベクトル比較部132は、算出した文ベクトル同士の類似度Ai,jが閾値Th以上であるか否かを判定する(ステップS208)。Ai,jとは、i番目の第1文ベクトルと、j番目の第2文ベクトルとの類似度を表している。算出した文ベクトル同士の類似度Ai,jが閾値Th以上でない場合、文ベクトル比較部132は、ステップS216に進む。算出した文ベクトル同士の類似度Ai,jが閾値Th以上である場合、文ベクトル比較部132は、閾値Th以上である文ベクトルの組の数nをカウントアップし、記憶部150に格納させる(ステップS212)。
そして、文ベクトル比較部132は、全ての文ベクトルの組み合わせについて類似度Ai,jを算出したか否かを判定する(ステップS216)。全ての文ベクトルの組み合わせについて類似度Ai,jを算出していない場合、文ベクトル比較部132は、ステップS204に戻って、次の組の文ベクトルを選び、類似度Ai,jを算出する。全ての文ベクトルの組み合わせについて類似度Ai,jを算出した場合、文ベクトル比較部132は、算出した類似度のうち最大値mを抽出する(ステップS220)。次に、文ベクトル比較部132は、ステップS212においてカウントした数nおよびステップS220において計算した類似度の最大値mに基づいて、第1指標値Fを算出する(ステップS224)。
本実施形態において、類似度判定装置100は、ステップS204の処理を行うに伴い、第1文章と第2文章のそれぞれにおける一致するキーフレーズを抽出することを並行してもよい(ステップS206)。
キーフレーズ比較部134は、第1文章と第2文章のそれぞれにおけるキーフレーズの出現数PおよびPを算出する(ステップS210)。次に、キーフレーズ比較部134は、第1文章および第2文章のそれぞれの正規化係数αおよびαを算出する(ステップS214)。上記算出したP、P、α、およびαに基づいて、キーフレーズ比較部134は、第2指標値Qを算出する(ステップS218)。そして、キーフレーズ比較部134は、キーフレーズの出現度合の類似度に関するレーダーチャートを作成し、類似度表示制御部138は、レーダーチャートを端末装置200の表示部に表示させる(ステップS222)。
最後に、総合類似度算出部136は、第1指標値Fおよび第2指標値Qに基づき、第1文章および第2文章の総合類似度Sを算出する(ステップS226)。
キーフレーズの比較によれば、文章全体からキーフレーズを抽出するため、文章全体の類似度を判定することができる。しかしながら、比較対象の第2文章が解析元の第1文章の一部の文のみを流用する場合、キーフレーズの比較のみでは、類似度が低いと判定される可能性がある。これに対し、本実施形態のように、キーフレーズの比較と文ベクトルの比較とを組み合わせることで、類似度をより高精度に判定することができる。
すなわち、本実施形態において、文ベクトル同士の類似度を算出することで、ユーザは、解析元の第1文章と比較対象の第2文章の局所的な類似度を判定できる。また、キーフレーズの出現度合の類似度を算出することで、ユーザは、解析元の第1文章と比較対象の第2文章の全体の類似度を判断できる。
上述したように、本実施形態においては、解析元の第1文章と比較対象の第2文章のそれぞれに対し、文ベクトルの作成とキーフレーズの抽出という、文章の概要を示すという目的が類似しつつ互いに手法が全く異なる二種類の解析を行って総合類似度を算出している。これによって、例えばオリンピックを五輪と置換するといった単純な一括変換による文章の流用をも検出することが可能となっている。
図7は、総合類似度を算出する処理が行われた後、類似度判定装置100が端末装置200に表示させる画面の一例を示す図である。この画面には、例えば、「総合類似度」が表示される表示領域A1、「第1指標値」が表示される表示領域A2、「第2指標値」が表示される表示領域A3、および「キーフレーズの出現度合の類似度に関するレーダーチャート」が表示される表示領域A4が設けられる。図示するように、総合類似度の計算に関する処理が行われた後に、類似度表示制御部138は、各表示領域に表示される項目を含む「解析結果詳細報告」を端末装置200の表示画面に表示させる。「キーフレーズの出現度合の類似度に関するレーダーチャート」において、第1文章におけるキーフレーズの出現度合を表すラインL1と、第2文章におけるキーフレーズの出現度合を表すラインL2とが表示されている。レーダーチャートの12時方向、すなわち真上には、第1文章で最も出現頻度の高いキーフレーズが配置され、反時計回りに第1文章における出現頻度の順にキーフレーズが配置されている。したがって、第1文章を示すラインL1は、真上から反時計回りに徐々に半径が小さくなるらせん状の曲線が描画されることになる。これに対し、第2文章を示すラインL2は、類似度が低ければ、らせん状にはならずにいびつな形状となる。また、第1文章の一部で第2文章が使われていた場合には、特定のキーフレーズが突出して高く、もしくは低く描画されるが、多くのキーフレーズの出現頻度が類似することになるので、らせん形状に近くなる。このレーダーチャートにより、ユーザは、第1文章におけるキーフレーズの出現度合と、第2文章におけるキーフレーズの出現度合とを視覚的に比較することができる。
上記説明した外部サーバ300の機能のうち一部または全部は、類似度判定装置100の機能に含まれてもよい。例えば、類似度判定装置100の文ベクトル取得部122が、文ベクトルを生成する機能を有してもよいし、類似度判定装置100のキーフレーズ取得部124が、キーフレーズを抽出する機能を有してもよい。
また、文章取得部120によって取得される第1文章および第2文章は、論文、記事、歌詞、俳句、詩、小説等のようなあらゆる著作物であってよい。これによって、類似度判定装置100を、論文、記事、歌詞、俳句、詩、小説等のような著作物の盗用の検出に使用することができる。
また、類似度判定装置100は、文章に対応する文ベクトルおよびキーフレーズの双方に基づき、文章間の類似度を判定する(類似判定)ため、第1文章において、第2文章の内容の一部または全部を引用していることが明記されている場合(或いはその逆や、第1・第2文章ともに別の第3文章を引用している場合)、類似度判定装置100は、第1文章および第2文章の引用されている部分を除外して、第1文章と第2文章の総合類似度を算出してもよい。例えば、第1文章および第2文章がHTML(Hyper Text Markup Language)形式で入力された場合、類似度判定装置100は、引用タグに基づいて引用されている範囲を判定してもよい。文章の盗用を検出する目的において、引用されている部分で文章が同一となることは当然であるが、引用部分を含めて類似判定をしてしまうと不必要に類似度が高く判定され、結果的に文章の盗用が行われているかどうかという目的が達成できないためである。引用先がHTMLなどで入力されていない場合であっても、正しい引用が行われている場合にはフォントを変更したり、アスタリスクマーク(*)等によって引用元文献が明示されていることが通常であるので、そのような引用か所を、自然言語処理を用いて機械検知してもよい。
このような引用が行われている場合、文章全体では類似度が高くないにも関わらず、特定の文章で極端に類似度スコアが高くなる。自然言語処理は類似度判定装置100の負荷が大きいので、そのような局所的な類似度不連続箇所が見出された際にのみ、機械検知を動作させてもよいし、図7に示したチャートを表示する際に、ユーザがマニュアルで引用か所を指摘して再判定を促すように端末装置200に表示してもよい。
また、ニュースや人気製品の発売等、客観的な事実に基づいた記事を作成する場合、当該事実に関しては多くのニュース媒体で同様の記事が作成される。このような場合は、事実を伝える部分について類似判定を行うと、盗用でなくても類似度が高いと判定されることになってしまい、結果として盗用が行われているかどうかという目的が達成できなくなるので、客観的事実を伝える部分を類似判定の対象から除外するようにしてもよい。引用か所が明記される引用と異なり、事実部分の指定は自然言語処理で行うことも可能であるが、文意から判定する必要がある上、事実に関する記載は全く同じ文章とは限らないため、より高度な自然言語処理が必要となる。そのようなニュース記事の場合、抽出される第2文章候補が比較的新しく、かつ近似した日付で複数検出される傾向がある。したがって、そのような近い日付の文献が第2文章の候補として複数抽出された場合にのみ、自然言語処理による除外か所検出を行ってもよいし、ユーザに事実を伝える記事であるかのチェックを入力させるチェックボックスを端末装置200に表示し、事実を伝える記事部分をマニュアルで除外させる入力を促してもよい。引用と同様、図7に示したレーダーチャートを表示する際に、ユーザによる再判定を促してもよいが、自然言語処理が重い処理であるので、類似度判定装置100の負荷軽減のためには、自然言語処理よりも前に除外か所の指定ができる方が好適である。
以上説明した実施形態によれば、解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部122と、第1文章と第2文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部124と、第1文章と第2文章との間の文ベクトル同士の類似度と、同じキーフレーズの出現度合の類似度とに基づいて、第1文章と第2文章の総合類似度を算出する類似度算出部130とを備えることで、より高精度に文章の類似度を算出することができる。
また、実施形態によれば、文ベクトル同士の組のうち類似度が閾値以上である文ベクトルの組の数に基づいて第1指標値を算出することで、更に高精度に文章の類似度を算出することができる。
更に、実施形態によれば、第1文章と第2文章の間でのキーフレーズの出現度合の類似度を表すグラフを表示させる類似度表示制御部138を更に備えることで、ユーザは、第1文章におけるキーフレーズの出現度合と、第2文章におけるキーフレーズの出現度合とを比較することができる。
以上、本発明の好ましい実施例を説明したが、本発明はこれら実施例に限定されることはない。本発明の趣旨を逸脱しない範囲で、構成の付加、省略、置換、およびその他の変更が可能である。本発明は前述した説明によって限定されることはなく、添付のクレームの範囲によってのみ限定される。
100 類似度判定装置
120 文章取得部
122 文ベクトル取得部
124 キーフレーズ取得部
130 類似度算出部
132 文ベクトル比較部
134 キーフレーズ比較部
136 総合類似度算出部
200 端末装置
300 外部サーバ

Claims (9)

  1. 解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部と、
    前記第1文章と前記第2文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部と、
    前記第1文章と前記第2文章との間の前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出する類似度算出部と、
    表示部を備える端末装置に、前記キーフレーズ取得部により取得されたキーフレーズの前記第1文章と前記第2文章の間での出現度合の類似度を表すグラフを表示させる表示制御部と、
    を備え、
    前記類似度算出部は、前記第1文章に含まれる前記キーフレーズの出現数を要素とする第1キーフレーズベクトルと、前記第2文章に含まれる前記キーフレーズの出現数を要素とする第2キーフレーズベクトルとを求め、前記第1キーフレーズベクトルおよび前記第2キーフレーズベクトルに基づいて、前記第1文章と前記第2文章との類似度を表す第2指標値を算出するキーフレーズ比較部を備え
    前記表示制御部は、前記第1文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第1ラインと、前記第2文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第2ラインとが表示されたレーダーチャートを、前記グラフとして前記端末装置に表示させる、
    類似度判定装置。
  2. 前記類似度算出部は、
    前記第1文章から得られた前記文ベクトルである一以上の第1文ベクトルと、前記第2文章から得られた前記文ベクトルである一以上の第2文ベクトルとを網羅的に比較して前記文ベクトル同士の類似度を算出し、前記文ベクトル同士の類似度に基づいて、前記第1文章と前記第2文章との類似度を表す第1指標値を算出する文ベクトル比較部と、
    前記第1指標値と前記第2指標値とに基づいて前記第1文章と前記第2文章の総合類似度を算出する総合類似度算出部と、を更に備える、
    請求項1に記載の類似度判定装置。
  3. 前記文ベクトル比較部は、前記文ベクトル同士の組のうち類似度が閾値以上である前記文ベクトルの組の数に基づいて前記第1指標値を算出する、
    請求項2に記載の類似度判定装置。
  4. 前記文ベクトル比較部は、前記文ベクトル同士の類似度のうち最大値に基づいて前記第1指標値を算出する、
    請求項2または3に記載の類似度判定装置。
  5. 前記キーフレーズ比較部は、前記第1文章における前記キーフレーズの出現数を、前記第1文章の長さに基づく第1係数で正規化した値と、前記第2文章における前記キーフレーズの出現数を、前記第2文章の長さに基づく第2係数で正規化した値とに基づいて、前記第2指標値を算出する、
    請求項1から4のうちいずれか1項に記載の類似度判定装置。
  6. 前記類似度算出部は、前記第1文章および前記第2文章のうちのいずれか一方の内容の一部または全部を、前記第1文章および前記第2文章のうちのいずれか他方において引用していることが明記されている場合、前記第1文章および前記第2文章の引用されている部分を除外して、前記第1文章と前記第2文章の前記総合類似度を算出する、
    請求項1から5のうちいずれか1項に記載の類似度判定装置。
  7. 請求項1から6のうちいずれか1項に記載の類似度判定装置と、
    前記類似度判定装置の前記類似度算出部により算出された前記総合類似度を表示する前記端末装置と、を備える、
    類似度判定システム。
  8. コンピュータが、
    解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得し、
    前記第1文章と前記第2文章のそれぞれから、文章を構成する重要な要素であるキーフレーズを取得し、
    前記第1文章と前記第2文章に関して、前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出し、
    表示部を備える端末装置に、前記取得されたキーフレーズの前記第1文章と前記第2文章の間での出現度合の類似度を表すグラフを表示させ、
    前記第1文章に含まれる前記キーフレーズの出現数を要素とする第1キーフレーズベクトルと、前記第2文章に含まれる前記キーフレーズの出現数を要素とする第2キーフレーズベクトルとを求め、前記第1キーフレーズベクトルおよび前記第2キーフレーズベクトルに基づいて、前記第1文章と前記第2文章との類似度を表す第2指標値を算出し、
    前記第1文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第1ラインと、前記第2文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第2ラインとが表示されたレーダーチャートを、前記グラフとして前記端末装置に表示させる、
    類似度判定方法。
  9. コンピュータに、
    解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得させ、
    前記第1文章と前記第2文章のそれぞれから、文章を構成する重要な要素であるキーフレーズを取得させ、
    前記第1文章と前記第2文章に関して、前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出させ、
    表示部を備える端末装置に、前記取得されたキーフレーズの前記第1文章と前記第2文章の間での出現度合の類似度を表すグラフを表示させ、
    前記第1文章に含まれる前記キーフレーズの出現数を要素とする第1キーフレーズベクトルと、前記第2文章に含まれる前記キーフレーズの出現数を要素とする第2キーフレーズベクトルとを求めさせ、前記第1キーフレーズベクトルおよび前記第2キーフレーズベクトルに基づいて、前記第1文章と前記第2文章との類似度を表す第2指標値を算出させ
    前記第1文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第1ラインと、前記第2文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第2ラインとが表示されたレーダーチャートを、前記グラフとして前記端末装置に表示させる、
    プログラム。
JP2021131400A 2021-08-11 2021-08-11 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム Active JP7138981B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021131400A JP7138981B1 (ja) 2021-08-11 2021-08-11 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021131400A JP7138981B1 (ja) 2021-08-11 2021-08-11 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP7138981B1 true JP7138981B1 (ja) 2022-09-20
JP2023025933A JP2023025933A (ja) 2023-02-24

Family

ID=83322633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021131400A Active JP7138981B1 (ja) 2021-08-11 2021-08-11 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7138981B1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002222193A (ja) * 2001-01-24 2002-08-09 Kddi Corp 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム
JP2003256441A (ja) * 2002-03-01 2003-09-12 Hewlett Packard Co <Hp> 文書分類方法及び装置
JP2019109654A (ja) * 2017-12-18 2019-07-04 ヤフー株式会社 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム
US20210124802A1 (en) * 2019-10-29 2021-04-29 International Business Machines Corporation Natural language polishing using vector spaces having relative similarity vectors
CN113032557A (zh) * 2021-02-09 2021-06-25 北京工业大学 一种基于频繁词集与bert语义的微博热点话题发现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002222193A (ja) * 2001-01-24 2002-08-09 Kddi Corp 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム
JP2003256441A (ja) * 2002-03-01 2003-09-12 Hewlett Packard Co <Hp> 文書分類方法及び装置
JP2019109654A (ja) * 2017-12-18 2019-07-04 ヤフー株式会社 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム
US20210124802A1 (en) * 2019-10-29 2021-04-29 International Business Machines Corporation Natural language polishing using vector spaces having relative similarity vectors
CN113032557A (zh) * 2021-02-09 2021-06-25 北京工业大学 一种基于频繁词集与bert语义的微博热点话题发现方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
▲高▼橋 和生,技術用語の類似度を用いた研究室配属支援システムの検討,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2016年01月14日,第115巻 第410号,pp.47-51,ISSN 0913-5685
▲高▼橋 和生: "技術用語の類似度を用いた研究室配属支援システムの検討", 電子情報通信学会技術研究報告, vol. 第115巻 第410号, JPN6018039439, 14 January 2016 (2016-01-14), JP, pages 47 - 51, ISSN: 0004854993 *
小野 大樹、外5名,テキストマイニングによる退院サマリー自動分類の試み,医療情報学,日本,日本医療情報学会,2004年04月01日,第24巻,第1号,p.35-44
小野 大樹、外5名: "テキストマイニングによる退院サマリー自動分類の試み", 医療情報学, vol. 第24巻,第1号, JPN6022034726, 1 April 2004 (2004-04-01), JP, pages 35 - 44, ISSN: 0004854994 *

Also Published As

Publication number Publication date
JP2023025933A (ja) 2023-02-24

Similar Documents

Publication Publication Date Title
US20240028651A1 (en) System and method for processing documents
Zhang Incorporating phrase-level sentiment analysis on textual reviews for personalized recommendation
US10095782B2 (en) Summarization of short comments
CN108269125B (zh) 评论信息质量评估方法及系统、评论信息处理方法及系统
US20200327151A1 (en) System and Method for Processing Contract Documents
CN104778186B (zh) 将商品对象挂载到标准产品单元的方法及系统
Wang et al. Customer-driven product design selection using web based user-generated content
US11023503B2 (en) Suggesting text in an electronic document
Zhang et al. Combining sentiment analysis with a fuzzy kano model for product aspect preference recommendation
WO2014002775A1 (ja) 同義語抽出システム、方法および記録媒体
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN113806660A (zh) 数据评估方法、训练方法、装置、电子设备以及存储介质
KR102351745B1 (ko) 사용자 리뷰 기반 평점 재산정 장치 및 방법
JP7138981B1 (ja) 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム
CN111144122A (zh) 评价处理方法、装置和计算机系统及介质
Vuković et al. Degrees of non-standardness: Feature-based analysis of variation in a Torlak dialect corpus
CN116127367A (zh) 服务评价的审核方法、装置以及计算机可读存储介质
CN110728131A (zh) 一种分析文本属性的方法和装置
Jadon et al. Sentiment analysis for movies prediction using machine leaning techniques
JP2015203960A (ja) 部分情報抽出システム
US12032905B2 (en) Methods and systems for summarization of multiple documents using a machine learning approach
Abudureheman Design of a User Comment Management System Based on Text Mining: Innovative Organization Management for E-Commerce
Korobkin et al. The formation of metrics of innovation potential and prospects
US20210117617A1 (en) Methods and systems for summarization of multiple documents using a machine learning approach

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20210819

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220128

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220308

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220705

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220705

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220713

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220831

R150 Certificate of patent or registration of utility model

Ref document number: 7138981

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150