JP2021179832A

JP2021179832A - 変化検出プログラム、変化検出装置及び変化検出方法

Info

Publication number: JP2021179832A
Application number: JP2020085172A
Authority: JP
Inventors: 謙介馬場; Kensuke Baba
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2021-11-18
Also published as: US20210357589A1

Abstract

【課題】文単位での話題の特定を可能とする変化検出プログラム、変化検出装置及び変化検出方法を提供する。【解決手段】文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、複数の文のそれぞれに対応する複数のベクトルを算出し、複数のベクトルと、複数の文の文書における記載順序に応じて複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行し、周波数解析の結果に基づいて特定される変化点に対応する文書における位置を示す情報を出力する。【選択図】図１６

Description

本発明は、変化検出技術に関する。

近年、例えば、会議の議事録等の文書データ（以下、対象文書データとも呼ぶ）に含まれる話題を特定するために、同一の話題に関連する文の検出を行う情報処理システムの構築が行われている。

具体的に、このような情報処理システムでは、例えば、他の文書データ（以下、訓練用文書データとも呼ぶ）における各単語の出現頻度についての統計情報を用いることにより、対象文書データに含まれる各文の内容についての類似度を算出する。そして、情報処理システムは、算出した類似度を用いることにより、内容が近いと判断できる複数の文が同一のクラスタに振り分けられるように、対象文書データに含まれる各文を複数のクラスタに振り分ける。さらに、情報処理システムは、例えば、同一のクラスタに振り分けられた１以上の文が同一の話題に関連する文であるとの判定結果を出力する（例えば、特許文献１乃至３参照）。

特開２０１５−２２５１３４号公報特開２００７−２４１９０２号公報特開２００４−１８５１３５号公報

ここで、上記のような情報処理システムでは、対象文書データに含まれる各文を複数のクラスタに振り分ける場合、前後の文との関係（以下、単に前後関係とも呼ぶ）を考慮することによって判断を行う。

しかしながら、前後関係を考慮する必要がある文の範囲は、対象文書データに含まれるノイズ（各クラスタに対応する各話題と関係がない文）の有無等によって異なる。そのため、情報処理システムでは、対象文書データに含まれる各文を複数のクラスタに振り分ける場合、前後関係を考慮する文の範囲を変えながら判断を行う必要がある。そのため、情報処理システムは、対象文書データにおける同一の話題に関連する文の検出に長時間を要する場合がある。

そこで、一つの側面では、本発明は、文単位での話題の特定を可能とする変化検出プログラム、変化検出装置及び変化検出方法を提供することを目的とする。

実施の形態の一態様では、文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出し、前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行し、前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する、処理をコンピュータに実行させる。

一つの側面によれば、文単位での話題の特定を可能とする。

図１は、情報処理システム１０の構成について説明する図である。図２は、変化検出装置１における処理の具体例を説明する図である。図３は、変化検出装置１における処理の具体例を説明する図である。図４は、変化検出装置１における処理の具体例を説明する図である。図５は、変化検出装置１のハードウエア構成を説明する図である。図６は、変化検出装置１の機能のブロック図である。図７は、第１の実施の形態における変化検出処理の概略を説明するフローチャート図である。図８は、第１の実施の形態における変化検出処理の詳細を説明するフローチャート図である。図９は、第１の実施の形態における変化検出処理の詳細を説明するフローチャート図である。図１０は、第１の実施の形態における変化検出処理の詳細を説明するフローチャート図である。図１１は、第１の実施の形態における変化検出処理の詳細を説明するフローチャート図である。図１２は、文書データ１３２の具体例について説明する図である。図１３は、統計情報１３１ａの具体例について説明する図である。図１４は、第１の実施の形態における変化検出処理の詳細を説明する図である。図１５は、第１の実施の形態における変化検出処理の詳細を説明する図である。図１６は、第１の実施の形態における変化検出処理の詳細を説明する図である。図１７は、第１の実施の形態における変化検出処理の詳細を説明する図である。図１８は、第１の実施の形態における変化検出処理の詳細を説明する図である。

［情報処理システムの構成］
初めに、情報処理システム１０の構成について説明を行う。図１は、情報処理システム１０の構成について説明する図である。図１に示す情報処理システム１０は、変化検出装置１（以下、情報処理装置１とも呼ぶ）と、操作端末３とを有する。

操作端末３は、例えば、作業者が必要な情報等の入力を行う端末であり、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）であってよい。また、操作端末３は、ネットワークＮＷを介して変化検出装置１と通信が可能な端末である。

変化検出装置１は、例えば、１台以上の物理マシンまたは仮想マシンからなり、対象文書データにおける話題の変化点を検出する処理（以下、変化検出処理とも呼ぶ）を行う。

具体的に、変化検出装置１は、例えば、訓練用文書データにおける各単語の出現頻度についての統計情報を用いることにより、対象文書データに含まれる各文に対応するベクトル値を算出する。そして、変化検出装置１は、算出したベクトル値についての類似度を用いることにより、内容が近いと判断できる複数の文が同一のクラスタに振り分けられるように、対象文書データに含まれる各文を複数のクラスタに振り分ける。その後、変化検出装置１は、例えば、同一のクラスタに振り分けられた１以上の文が同一の話題に関連する文であるとする判定結果を操作端末３に出力する。以下、変化検出装置１における処理の具体例について説明を行う。

［変化検出装置における処理の具体例］
図２から図４は、変化検出装置１における処理の具体例を説明する図である。図２は、対象文書データに含まれる各文のベクトル値を示す具体例である。また、図３は、対象文書データにおける記載順序に応じて表現した各文のベクトル値の時系列データを示す具体例である。さらに、図４は、対象文書データに含まれる各文のベクトル値の移動平均を行った場合における具体例である。なお、以下、各文のベクトル値が２次元のベクトル値であるものとして説明を行う。

具体的に、変化検出装置１は、図２に示すように、対象文書データに含まれる文ごとに、各文に対応する２次元のベクトル値のそれぞれを横軸（Ｘ軸）の値及び縦軸（Ｙ軸）の値に対応させた点を２次元平面にプロットする。図２に示す例において、丸に対応する点Ｐ１は、例えば、対象文書データの序盤に記載された文に対応するベクトル値の点である。また、図２に示す例において、三角に対応する点Ｐ２は、例えば、対象文書データの中盤に記載された文に対応するベクトル値の点である。さらに、図２に示す例において、四角に対応する点Ｐ３は、例えば、対象文書データの終盤に記載された文に対応するベクトル値の点である。

そして、変化検出装置１は、図２に示すグラフにおけるベクトル間の距離に基づき、対象文書データに含まれる各文に対応する複数のベクトル値のそれぞれを複数のクラスタに振り分ける。

具体的に、変化検出装置１は、例えば、図２に示す平面において距離が近いベクトルが同じクラスタに振り分けられるように、対象文書データに含まれる各文に対応する複数のベクトル値のそれぞれを複数のクラスタに振り分ける。

ここで、上記のように、対象文書データに含まれる各文のクラスタ分けを各文のベクトル値を用いて行う場合、変化検出装置１は、各文のクラスタ分けを精度良く行うことができない場合がある。

そこで、変化検出装置１は、例えば、図３（Ａ）に示すように、各文に対応する２次元のベクトル値のうち、１つ目のベクトル値（図２におけるＸ軸の値に対応するベクトル値）についての時系列データを生成する。また、変化検出装置１は、例えば、図３（Ｂ）に示すように、各文に対応する２次元のベクトル値のうち、２つ目のベクトル値（図２におけるＹ軸の値に対応するベクトル値）についての時系列データを生成する。

そして、変化検出装置１は、図３で生成した各時系列データにおける値の変化の状態に基づき、対象文書データに含まれる各文についてのクラスタ分けを行う。

ここで、上記のようなクラスタ分けを行うためには、大域的な変化が表れている時系列データを用いることが好ましい。そのため、変化検出装置１は、対象文書データに含まれる各文を複数のクラスタに振り分ける場合、例えば、前後の文との関係を考慮して判断を行う。

この点、前後関係を考慮する必要がある文の範囲は、対象文書データに含まれるノイズの有無等によって異なる。具体的に、前後関係を考慮する必要がある文の範囲は、例えば、対象文書データの書き方や対象文書データの記載内容が話された際の話し方等の個人的な特徴に起因するノイズの有無等によって異なる。また、前後関係を考慮する必要がある文の範囲は、例えば、対象文書データと訓練用文書データとのドメイン（内容）の違いによるノイズの有無等によって異なる。

そのため、変化検出装置１は、対象文書データに含まれる各文を複数のクラスタに振り分ける場合、前後関係を考慮する文の範囲を変えながら判断を行う必要がある。

具体的に、変化検出装置１は、この場合、図４に示すように、移動平均を行う文の数（前後関係を考慮する文の範囲）を変えながら、図２で説明した平面及び図３で説明した時系列データを複数回生成する。そして、変化検出装置１は、複数回生成した時系列データのうち、大域的な変化が表れていると判断できる時系列データを用いることにより、対象文書データに含まれる各文のクラスタ分けを行う。

さらに具体的に、変化検出装置１は、例えば、図４（Ａ）から図４（Ｃ）に示すように、移動平均を行う文の数を２とした場合における平面及び時系列データを生成する。また、変化検出装置１は、例えば、図４（Ｄ）から図４（Ｆ）に示すように、移動平均を行う文の数を４とした場合における平面及び時系列データを生成する。さらに、変化検出装置１は、例えば、図４（Ｇ）から図４（Ｉ）に示すように、移動平均を行う文の数を６とした場合における平面及び時系列データを生成する。

そして、図４に示す例において、各文に対応する２次元のベクトル値のうち、１つ目のベクトル値（Ｘ軸の値に対応するベクトル値）についての時系列データ（図４（Ｂ）、（Ｅ）及び（Ｈ））では、移動平均を行う文の数が増えるほどＸ軸の値が増加している。また、図４に示す例において、各文に対応する２次元のベクトル値のうち、２つ目のベクトル値（Ｙ軸の値に対応するベクトル値）についての時系列データ（図４（Ｃ）、（Ｆ）及び（Ｉ））では、移動平均を行う文の数が増えるほどＹ軸の値が減少している。すなわち、図４に示す例は、移動平均を行う文の数が増えるほど、大域的な変化がより表れる時系列データの取得が可能になることを示している。

そのため、変化検出装置１は、この場合、例えば、移動平均を行う文の数を６とした場合における時系列データ（図４（Ｈ）及び（Ｉ））を用いることによって、対象文書データに含まれる各文のクラスタ分けを行う。

しかしながら、上記のように、前後関係を考慮する文の範囲を変えながら行うクラスタ分けは、対象文書データに含まれるノイズの有無等によって長時間を要する場合がある。そのため、変化検出装置１は、対象文書データにおける同一の話題に関連する文の検出に長時間を要する場合がある。

そこで、本実施の形態における変化検出装置１は、対象文書データに含まれる複数の文のそれぞれに含まれる単語に基づいて、複数の文のそれぞれに対応する複数のベクトル値（以下、単にベクトルとも呼ぶ）を算出する。そして、変化検出装置１は、複数のベクトル値と、複数の文の対象文書データにおける記載順序に応じて複数のベクトル値に対応付けられた時間軸とに基づいて、周波数解析を実行する。その後、変化検出装置１は、周波数解析の結果に基づいて特定される変化点に対応する対象文書データにおける位置を示す情報を出力する。

すなわち、変化検出装置１は、例えば、対象文書データに含まれる複数の文のそれぞれに対応する複数のベクトル値（以下、抽出前ベクトル値とも呼ぶ）についての周波数分析を行うことにより、抽出前ベクトル値についての大域的な変化を検出する。そして、変化検出装置１は、検出した大域的な変化に基づいて、対象文書データにおける同一の話題に関連する部分の検出を行う。

具体的に、変化検出装置１は、例えば、抽出前ベクトル値を対象文書データにおける記載順序に応じた時系列データとして表現し、その時系列データにおける低周波成分の抽出を行う。ここでの低周波成分は、所定の閾値以下の周波数に対応する周波数成分であり、例えば、時系列データに対応する周波数成分のうち、低い方から１０（％）程度の部分に対応する周波数成分である。そして、変化検出装置１は、抽出した低周波成分に対応する複数のベクトル値（以下、抽出後ベクトル値とも呼ぶ）を、抽出前ベクトル値についての大域的な変化を示すベクトル値として特定する。

その後、変化検出装置１は、特定した抽出後ベクトル値のそれぞれを各ベクトル値の類似関係に基づいて複数のクラスタに振り分ける。さらに、変化検出装置１は、例えば、対象文書データにおいて記載位置が隣接する文の組合せのうち、それぞれ異なるクラスタに含まれるベクトル値に対応する文の組合せを特定し、特定した文の組合せに含まれる文の間の位置を話題の変化点として検出する。

これにより、変化検出装置１は、対象文書データに含まれる前後の文との関係を考慮することなく、対象文書データにおける同一の話題に関連する１以上の文を特定することが可能になる。そのため、変化検出装置１は、対象文書データにおける同一の話題に関連する１以上の文の特定を高速に行うことが可能になる。

なお、上記の低周波成分に対応する周波数は、対象文書データに含まれる各文が秒単位の時間に置き換えられる場合、例えば、０（Ｈｚ）〜０．１（Ｈｚ）程度である。

［情報処理システムのハードウエア構成］
次に、情報処理システム１０のハードウエア構成について説明する。図５は、変化検出装置１のハードウエア構成を説明する図である。

変化検出装置１は、図５に示すように、プロセッサであるＣＰＵ１０１と、メモリ１０２と、通信装置１０３と、記憶媒体１０４とを有する。各部は、バス１０５を介して互いに接続される。

記憶媒体１０４は、例えば、変化検出処理を行うためのプログラム１１０を記憶するプログラム格納領域（図示しない）を有する。また、記憶媒体１０４は、例えば、変化検出処理を行う際に用いられる情報を記憶する情報格納領域１３０を有する。なお、記憶媒体１０４は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）であってよい。

ＣＰＵ１０１は、記憶媒体１０４からメモリ１０２にロードされたプログラム１１０を実行して変化検出処理を行う。

また、通信装置１０３は、例えば、ネットワークＮＷを介して操作端末３との通信を行う。

［情報処理システムの機能］
次に、情報処理システム１０の機能について説明を行う。図６は、変化検出装置１の機能のブロック図である。

変化検出装置１は、図６に示すように、ＣＰＵ１０１やメモリ１０２等のハードウエアとプログラム１１０とが有機的に協働することにより、情報受信部１１１と、情報管理部１１２と、ベクトル算出部１１３と、解析実行部１１４とを含む各種機能を実現する。また、変化検出装置１は、ＣＰＵ１０１やメモリ１０２等のハードウエアとプログラム１１０とが有機的に協働することにより、クラスタ生成部１１５と、変化点特定部１１６と、情報出力部１１７とを含む各種機能を実現する。

また、変化検出装置１は、例えば、図６に示すように、機械学習モデル１３１と、対象文書データ１３２（以下、単に文書データ１３２とも呼ぶ）と、ベクトル値１３３とを情報格納領域１３０に記憶する。

情報受信部１１１は、例えば、作業者が操作端末３を介して入力した機械学習モデル１３１を受信する。機械学習モデル１３１は、訓練用文書データ（図示しない）における各単語の出現頻度についての統計情報１３１ａを用いることによって計算された関数である。また、情報受信部１１１は、例えば、作業者が操作端末３を介して入力した文書データ１３２を受信する。

情報管理部１１２は、例えば、情報受信部１１１が受信した機械学習モデル１３１を情報格納領域１３０に記憶する。また、情報管理部１１２は、例えば、情報受信部１１１が受信した文書データ１３２を情報格納領域１３０に記憶する。

ベクトル算出部１１３は、情報受信部１１１が受信した文書データ１３２に含まれる複数の文のそれぞれに含まれる単語に基づいて、その複数の文のそれぞれに対応する複数のベクトル値１３３を算出する。

具体的に、ベクトル算出部１１３は、情報格納領域１３０に記憶した機械学習モデル１３１に対して、情報格納領域１３０に記憶した文書データ１３２を入力することにより、文書データ１３２に含まれる複数の文に対応するベクトル値を算出する。

解析実行部１１４は、ベクトル算出部１１３が算出した複数のベクトル値１３３と、文書データ１３２に含まれる複数の文の文書データ１３２における記載順序に応じて複数のベクトル値１３３に対応付けられた時間軸とに基づいて、周波数解析を実行する。

具体的に、解析実行部１１４は、例えば、時間軸に対応付けられた複数のベクトル値１３３の時間軸データ（以下、第１波形データとも呼ぶ）に対してフーリエ変換を行うことによって、複数のベクトル値１３３に対応する周波数成分を取得する。そして、解析実行部１１４は、例えば、取得した周波数成分のうちの特定の周波数成分を抽出する。その後、解析実行部１１４は、例えば、抽出した特定の周波数成分に対して逆フーリエ変換を行うことによって、時間軸に対応付けられた複数のベクトル値１３３の時系列データ（以下、第２波形データとも呼ぶ）を取得する。

クラスタ生成部１１５は、例えば、第２波形データに対応する複数のベクトル値１３３の相互の類似度を用いることにより、第２波形データに対応する複数のベクトル値１３３を複数のクラスタＣＬに振り分ける。

変化点特定部１１６は、例えば、クラスタ生成部１１５が振り分けた複数のクラスタＣＬごとに、各クラスタＣＬに振り分けられた複数のベクトル値１３３に対応する複数の文の文書データ１３２における記載位置を特定する。そして、変化点特定部１１６は、例えば、文書データ１３２における記載位置が隣接する文の組合せのうち、それぞれ異なるクラスタＣＬに含まれるベクトル値１３３に対応する文の組合せを特定する。その後、変化点特定部１１６は、例えば、特定した組合せに含まれる文の間の位置を、変化点（話題の変化点）に対応する位置として特定する。

情報出力部１１７は、例えば、変化点特定部１１６が特定した位置を示す情報を、変化点に対応する位置を示す情報として操作端末３に出力する。

［第１の実施の形態の概略］
次に、第１の実施の形態の概略について説明する。図７は、第１の実施の形態における変化検出処理の概略を説明するフローチャート図である。

変化検出装置１は、図７に示すように、変化検出タイミングになるまで待機する（Ｓ１１のＮＯ）。変化検出タイミングは、例えば、作業者が操作端末３を介して入力した文書データ１３２を受信したタイミングであってよい。また、変化検出タイミングは、例えば、作業者によって予め設定されたタイミングであってよい。

そして、変化検出タイミングになった場合（Ｓ１１のＹＥＳ）、変化検出装置１は、文書データ１３２に含まれる複数の文のそれぞれに含まれる単語に基づいて、複数の文のそれぞれに対応する複数のベクトル値１３３を算出する（Ｓ１２）。

続いて、変化検出装置１は、Ｓ１２の処理で算出した複数のベクトル値１３３と、複数の文の文書データ１３２における記載順序に応じて複数のベクトル値１３３に対応付けられた時間軸とに基づいて、周波数解析を実行する（Ｓ１３）。

その後、変化検出装置１は、Ｓ１３の処理で実行した周波数解析の結果に基づいて特定される変化点に対応する文書データ１３２における位置を示す情報を出力する（Ｓ１４）。

すなわち、変化検出装置１は、例えば、文書データ１３２に含まれる複数の文のそれぞれに対応する複数のベクトル値１３３についての周波数分析を行うことにより、複数のベクトル値１３３についての大まかな変化を検出する。そして、変化検出装置１は、検出した大まかな変化に基づいて、文書データ１３２において同一の話題に関連する部分の検出を行う。

これにより、変化検出装置１は、文書データ１３２に含まれる前後の文との関係を考慮することなく、文書データ１３２において同一の話題に関連する１以上の文を特定することが可能になる。そのため、変化検出装置１は、文書データ１３２において同一の話題に関連する１以上の文の特定を高速に行うことが可能になる。

［第１の実施の形態の詳細］
次に、第１の実施の形態の詳細について説明する。図８から図１１は、第１の実施の形態における変化検出処理の詳細を説明するフローチャート図である。また、図１２から図１８は、第１の実施の形態における変化検出処理の詳細を説明する図である。

［情報管理処理］
初めに、変化検出処理のうち、機械学習モデル１３１の管理を行う処理（以下、情報管理処理とも呼ぶ）について説明を行う。図８は、情報管理処理を説明するフローチャート図である。

変化検出装置１の情報受信部１１１は、図８に示すように、例えば、作業者が操作端末３を介して入力した機械学習モデル１３１を受信するまで待機する（Ｓ２１のＮＯ）。

そして、作業者が操作端末３を介して入力した機械学習モデル１３１を受信した場合（Ｓ２１のＹＥＳ）、変化検出装置１の情報管理部１１２は、受信した機械学習モデル１３１を情報格納領域１３０に記憶する（Ｓ２２）。

なお、情報管理部１１２は、例えば、訓練用文書データ（図示しない）に基づいた機械学習によって機械学習モデル１３１の生成を自装置（変化検出装置１）において行うものであってもよい。この場合、情報管理部１１２は、例えば、文書データ１３２と内容が類似する訓練用文書データに基づいた機械学習によって、機械学習モデル１３１の生成を行うものであってよい。

［変化検出処理のメイン処理］
次に、変化検出処理のメイン処理について説明を行う。図９から図１１は、変化検出処理のメイン処理を説明するフローチャート図である。

情報受信部１１１は、図９に示すように、例えば、作業者が操作端末３を介して入力した文書データ１３２を受信するまで待機する（Ｓ３１のＮＯ）。以下、文書データ１３２の具体例について説明を行う。

［文書データの具体例］
図１２は、文書データ１３２の具体例について説明する図である。なお、以下、文書データ１３２に含まれる文の数がｋ（ｋは２以上の整数）個であるものとして説明を行う。

図１２に示す文書データ１３２は、例えば、「野球のオリンピック代表選手が発表されたんだけど．」という文１３２ａと、「今回は良い結果を残すと思う．」という文１３２ｂと、「ホームランを打てる選手が必要だね．」という文１３２ｃとを含む。

また、図１２に示す文書データ１３２は、例えば、「オリンピックといえばサッカーの代表にも期待してる．」という文１３２ｄと、「この間の壮行試合でも良い結果を残した．」という文１３２ｅとを含む。

さらに、図１２に示す文書データ１３２は、例えば、「再来年のワールドカップでもいいところまでいくんじゃないかな．」という文１３２ｆを含む。

図９に戻り、作業者が操作端末３を介して入力した文書データ１３２を受信した場合（Ｓ３１のＹＥＳ）、変化検出装置１のベクトル算出部１１３は、情報格納領域１３０に記憶した機械学習モデル１３１に対して、Ｓ３１の処理で受信した文書データ１３２に含まれるｋ個の文のそれぞれを入力する。そして、ベクトル算出部１１３は、機械学習モデル１３１から出力された値を、Ｓ３１の処理で受信した文書データ１３２に含まれる複数の文のそれぞれに対応するｋ個のベクトル列１３３ａ（複数のベクトル値１３３からなる列）として取得する（Ｓ３２）。

具体的に、機械学習モデル１３１は、文書データ１３２に含まれるｋ個の文のそれぞれの入力を受け付けた場合、例えば、ｋ個の文のそれぞれに含まれる名詞を抽出する。そして、機械学習モデル１３１は、例えば、ｋ個の文のそれぞれから抽出した名詞と、訓練用文書データ（図示しない）に基づいた機械学習に伴って予め生成された統計情報１３１ａとを用いることによって、ｋ個の文のそれぞれに対応するベクトル列１３３ａを算出する。その後、機械学習モデル１３１は、例えば、算出したｋ個のベクトル列１３３ａを出力する。以下、統計情報１３１ａの具体例及びＳ３２の処理の具体例について説明を行う。

［統計情報の具体例］
初めに、統計情報１３１ａの具体例について説明を行う。図１３は、統計情報１３１ａの具体例について説明する図である。

図１３に示す統計情報１３１ａは、各単語が設定される「単語」と、各単語に対応する１つ目のベクトル値１３３の算出に用いられる第１重み値が設定される「第１重み値」とを項目として有する。また、図１３に示す統計情報１３１ａは、各単語に対応する２つ目のベクトル値１３３の算出に用いられる第２重み値が設定される「第２重み値」を項目として有する。第１重み値は、例えば、「サッカー」及び「野球」のそれぞれと各単語との類似度を示す値である。また、第２重み値は、例えば、「オリンピック」及び「ワールドカップ」のそれぞれと各単語との類似度を示す値である。

具体的に、図１３に示す統計情報１３１ａにおいて、１行目の情報には、「単語」に「サッカー」が設定され、「第１重み値」に「１」が設定され、「第２重み値」に「０」が設定されている。

また、図１３に示す統計情報１３１ａにおいて、２行目の情報には、「単語」に「野球」が設定され、「第１重み値」に「−１」が設定され、「第２重み値」に「０」が設定されている。図１３に含まれる他の情報についての説明は省略する。

［Ｓ３２の処理の具体例］
次に、Ｓ３２の処理の具体例について説明を行う。

例えば、図１２で説明した文書データ１３２の入力を受け付けた場合、機械学習モデル１３１は、例えば、文１３２ａに含まれる名詞である「野球」、「オリンピック」、「代表」、「選手」及び「発表」を抽出する。

そして、機械学習モデル１３１は、例えば、抽出した単語である「野球」、「オリンピック」、「代表」、「選手」及び「発表」のそれぞれに対応する第１重み値の平均値を、文１３２ａに対応する１つ目のベクトル値１３３として算出する。また、機械学習モデル１３１は、例えば、抽出した単語である「野球」、「オリンピック」、「代表」、「選手」及び「発表」のそれぞれに対応する第２重み値の平均値を、文１３２ａに対応する２つ目のベクトル値１３３として算出する。

具体的に、図１３で説明した統計情報１３１ａにおいて、「単語」に「サッカー」、「野球」、「オリンピック」、「発表」及び「選手」のそれぞれが設定された情報には、「第１重み値」として、「１」、「−１」、「０」、「０．２」及び「０．３」のそれぞれが設定されている。また、図１３で説明した統計情報１３１ａにおいて、「単語」に「サッカー」、「野球」、「オリンピック」、「発表」及び「選手」のそれぞれが設定された情報には、「第２重み値」として、「０」、「０」、「１」、「０」及び「０」のそれぞれが設定されている。

そのため、機械学習モデル１３１は、例えば、図１４の１行目に示すように、文１３２ａから抽出した各単語の第１重み値の平均値である「０．１」を、文１３２ａに対応する１つ目のベクトル値１３３として算出する。また、機械学習モデル１３１は、文１３２ａから抽出した各単語の第２重み値の平均値である「０．２」を、文１３２ａに対応する２つ目のベクトル値１３３として算出する。

さらに、機械学習モデル１３１は、例えば、文１３２ｂ、１３２ｃ、１３２ｄ、１３２ｅ及び１３２ｆを含む他の文のそれぞれに対応するベクトル値１３３についても算出を行う。

具体的に、機械学習モデル１３１は、例えば、図１４の２行目に示すように、文１３２ｂから抽出した各単語の第１重み値の平均値である「０」を、文１３２ｂに対応する１つ目のベクトル値１３３として算出する。また、機械学習モデル１３１は、例えば、図１４の２行目に示すように、文１３２ｂから抽出した各単語の第２重み値の平均値である「０」を、文１３２ｂに対応する２つ目のベクトル値１３３として算出する。図１４についての他の情報についての説明は省略する。

その後、機械学習モデル１３１は、文１３２ａ等を含むｋ個の文に対応するｋ個のベクトル列１３３ａを出力する。

図９に戻り、変化検出装置１の解析実行部１１４は、カウンタとして用いる変数であるｉに１を設定する（Ｓ３３）。

そして、解析実行部１１４は、Ｓ３２の処理で取得したｋ個のベクトル列１３３ａのそれぞれにおけるｉ番目の要素を抽出する（Ｓ３４）。

具体的に、解析実行部１１４は、例えば、図１４で説明したｋ個のベクトル列１３３ａのそれぞれに含まれる１つ目のベクトル値１３３（ｋ個のベクトル値１３３）を抽出する。

続いて、解析実行部１１４は、Ｓ３４の処理で抽出したｋ個の要素からなるベクトル列１３３ｂを生成する（Ｓ３５）。

その後、解析実行部１１４は、Ｓ３１の処理で受信した文書データ１３２におけるｋ個の文の記載順序に応じて、Ｓ３５の処理で生成したベクトル列１３３ａに対応する第１波形データＷＤ１を生成する（Ｓ３６）。

すなわち、解析実行部１１４は、文書データ１３２における各文の記載順序を時系列とした場合におけるベクトル値１３３の時系列データを生成する。

具体的に、解析実行部１１４は、例えば、図１５に示すように、Ｓ３５の処理で生成したベクトル列１３３ａを構成する１つ目のベクトル値１３３に対応する第１波形データＷＤ１（図１５（Ａ））と、２つ目のベクトル値１３３に対応する第１波形データＷＤ１（図１５（Ｂ））とをそれぞれ生成する。

そして、解析実行部１１４は、図１０に示すように、Ｓ３６の処理で生成した第１波形データＷＤ１に対してフーリエ変換（高速フーリエ変換）を行うことによって、Ｓ３５の処理で生成したベクトル列１３３ａに対応する周波数成分ＦＣを取得する（Ｓ４１）。

具体的に、図１６に示すように、図１５（Ａ）で説明した第１波形データＷＤ１から取得した周波数成分ＦＣを示すグラフ（図１６（Ａ））と、図１５（Ｂ）で説明した第１波形データＷＤ１から取得した周波数成分ＦＣを示すグラフ（図１６（Ｂ））とをそれぞれ生成する。

続いて、解析実行部１１４は、Ｓ４１の処理で取得した周波数成分ＦＣのうちの特定の周波数成分ＦＣを抽出する（Ｓ４２）。

具体的に、解析実行部１１４は、例えば、図１６に示すように、各周波数成分ＦＣのうちの低周波成分ＦＣａの抽出を行う。

さらに、解析実行部１１４は、Ｓ４２の処理で抽出した周波数成分ＦＣに対して逆フーリエ変換を行うことによって、Ｓ３５の処理で生成したベクトル列１３３ａに対応する第２波形データＷＤ２を生成する（Ｓ４３）。

具体的に、解析実行部１１４は、図１７に示すように、図１５（Ａ）に示す第１波形データＷＤ１よりも大まかな変化を表現する第２波形データＷＤ２（図１７（Ａ））と、図１５（Ｂ）に示す第１波形データＷＤ１よりも大まかな変化を表現する第２波形データＷＤ２（図１７（Ｂ））との生成を行う。

すなわち、Ｓ３６の処理で生成した第１波形データＷＤ１には、話題を特定することができない文（特定対象の話題に関連しない文）や、文書データ１３２の著者の書き方の癖等による大域的なノイズが含まれている可能性がある。

また、例えば、Ｓ３１の処理で受信した文書データ１３２が会議の議事録等の文書データである場合、同一の話題に対応する各文は、文書データ１３２において纏まって位置しているものと判断できる。

そのため、解析実行部１１４は、例えば、第１波形データＷＤ１に対応する低周波成分のみを抽出し、抽出した低周波成分に対応する第２波形データＷＤ２を生成することにより、大域的なノイズが排除された波形データであって、かつ、話題についての大まかな変化が表現された波形データを取得することが可能になる。

これにより、変化検出装置１は、文書データ１３２に含まれる他の文との前後関係を考慮することなく、文書データ１３２において同一の話題に関連する１以上の文を特定することが可能になる。そのため、変化検出装置１は、文書データ１３２において同一の話題に関連する１以上の文の特定を高速に行うことが可能になる。

その後、解析実行部１１４は、Ｓ３２の処理で取得したベクトル列１３３ａのそれぞれに含まれるベクトル値１３３の数であるｎにｉに到達したか否かを判定する（Ｓ４４）。

その結果、ｉがｎに到達していないと判定した場合（Ｓ４４のＮＯ）、解析実行部１１４は、ｉに１を加算した後（Ｓ４５）、Ｓ３４以降の処理を再度行う。

一方、ｉがｎに到達したと判定した場合（Ｓ４４のＹＥＳ）、変化検出装置１のクラスタ生成部１１５は、図１１に示すように、Ｓ４３の処理で生成した第２波形データＷＤ２に対応する複数のベクトル値１３３のそれぞれの類似度を用いることにより、Ｓ４３の処理で生成した第２波形データＷＤ２に対応する複数のベクトル値１３３を複数のクラスタＣＬに振り分ける（Ｓ５１）。

具体的に、クラスタ生成部１１５は、例えば、図１８に示すように、第２波形データＷＤ２に対応する複数のベクトル値１３３のそれぞれを横軸（Ｘ軸）の値及び縦軸（Ｙ軸）の値に対応させた点を２次元平面にプロットする。そして、クラスタ生成部１１５は、例えば、２次元平面において距離が近いベクトルが同じクラスタＣＬに振り分けられるように、第２波形データＷＤ２に対応する複数のベクトル値１３３のそれぞれを複数のクラスタＣＬに振り分ける。

そして、変化検出装置１の変化点特定部１１６は、Ｓ５１の処理で振り分けた複数のクラスタＣＬごとに、各クラスタＣＬに含まれる複数のベクトル値１３３に対応する複数の文の文書データ１３２における記載位置を特定する（Ｓ５２）。

続いて、変化点特定部１１６は、Ｓ５２の処理で特定した記載位置が隣接する文の組合せのうち、それぞれ異なるクラスタＣＬに含まれるベクトル値１３３に対応する文の組合せを特定する（Ｓ５３）。

その後、変化検出装置１の情報出力部１１７は、Ｓ５３の処理で特定した組合せに含まれる文の間の位置を示す情報を、文書データ１３２における話題の変化点に対応する位置を示す情報として出力する（Ｓ５４）。

なお、解析実行部１１４は、Ｓ４２の処理において、例えば、各周波数成分ＦＣのうちの高周波成分の抽出を行うものであってもよい。この場合、解析実行部１１４は、文書データ１３２において話題が大きく変化する変化点を検出することが可能になる。

このように、本実施の形態における変化検出装置１は、文書データ１３２に含まれる複数の文のそれぞれに含まれる単語に基づいて、複数の文のそれぞれに対応する複数のベクトル値１３３を算出する。そして、変化検出装置１は、複数のベクトル値１３３と、複数の文の文書データ１３２における記載順序に応じて複数のベクトル値１３３に対応付けられた時間軸とに基づいて、周波数解析を実行する。その後、変化検出装置１は、周波数解析の結果に基づいて特定される変化点に対応する文書データ１３２における位置を示す情報を出力する。

すなわち、変化検出装置１は、例えば、文書データ１３２に含まれる複数の文のそれぞれに対応する複数のベクトル値（抽出前ベクトル値）についての周波数分析を行うことにより、抽出前ベクトル値についての大域的な変化を検出する。そして、変化検出装置１は、検出した大域的な変化に基づいて、文書データ１３２における同一の話題に関連する部分の検出を行う。

具体的に、変化検出装置１は、例えば、抽出前ベクトル値を文書データ１３２における記載順序に応じた時系列データとして表現し、その時系列データにおける低周波成分の抽出を行う。そして、変化検出装置１は、抽出した低周波成分に対応する複数のベクトル値（抽出後ベクトル値）を、抽出前ベクトル値についての大域的な変化を示すベクトル値として特定する。

その後、変化検出装置１は、特定した抽出後ベクトル値のそれぞれを各ベクトル値の類似関係に基づいて複数のクラスタに振り分ける。さらに、変化検出装置１は、例えば、文書データ１３２において記載位置が隣接する文の組合せのうち、それぞれ異なるクラスタに含まれるベクトル値に対応する文の組合せを特定し、特定した文の組合せに含まれる文の間の位置を話題の変化点として検出する。

これにより、変化検出装置１は、文書データ１３２に含まれる前後の文との関係を考慮することなく、文書データ１３２における同一の話題に関連する１以上の文を特定することが可能になる。そのため、変化検出装置１は、文書データ１３２における同一の話題に関連する１以上の文の特定を高速に行うことが可能になる。具体的に、変化検出装置１は、例えば、文書データ１３２における同一の話題に関連する１以上の文の特定を、文書データ１３２に含まれる文の数の準線形時間において行うことが可能になる。

以上の実施の形態をまとめると、以下の付記のとおりである。

（付記１）
文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出し、
前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行し、
前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する、
処理をコンピュータに実行させることを特徴とする変化検出プログラム。

（付記２）
前記算出する処理は、他の文書に含まれる複数の文のそれぞれにおける単語の出現状況に基づいた機械学習によって得られた機械学習モデルに、前記文書に含まれる複数の文のそれぞれを入力することにより、前記文書に含まれる複数の文のそれぞれに対応する複数のベクトルを算出する処理を含む、
ことを特徴とする付記１に記載の変化検出プログラム。

（付記３）
前記実行する処理は、
前記時間軸に対応付けられた前記複数のベクトルの第１波形データに対してフーリエ変換を行うことによって、前記複数のベクトルに対応する周波数成分を取得し、
取得した前記周波数成分のうちの特定の周波数成分を抽出し、
抽出した前記特定の周波数成分に対して逆フーリエ変換を行うことによって、前記時間軸に対応付けられた他の複数のベクトルの第２波形データを取得する、
処理を含み、
前記出力する処理は、取得した前記第２波形データに基づいて前記変化点を特定する処理を含む、
ことを特徴とする付記１に記載の変化検出プログラム。

（付記４）
前記特定の周波数成分は、前記周波数成分を取得する処理において取得された周波数成分のうち、閾値以下の周波数に対応する周波数成分である、
ことを特徴とする付記３に記載の変化検出プログラム。

（付記５）
前記出力する処理は、
前記他の複数のベクトルを複数のクラスタに分類し、
前記複数のクラスタのそれぞれに含まれるベクトルに対応する文の前記文書における記載位置を特定し、
記載位置が隣接する文の組のうち、対応するベクトルがそれぞれ異なるクラスタに含まれる特定の文の組を選択し、
選択された前記特定の文の組に対応する位置を、前記変化点と決定する、
処理を含む、
ことを特徴とする付記３に記載の変化検出プログラム。

（付記６）
文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出するベクトル算出部と、
前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行する解析実行部と、
前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する情報出力部と、を有する、
ことを特徴とする変化検出装置。

（付記７）
付記６において、
前記解析実行部は、
前記時間軸に対応付けられた前記複数のベクトルの第１波形データに対してフーリエ変換を行うことによって、前記複数のベクトルに対応する周波数成分を取得し、
取得した前記周波数成分のうちの特定の周波数成分を抽出し、
抽出した前記特定の周波数成分に対して逆フーリエ変換を行うことによって、前記時間軸に対応付けられた他の複数のベクトルの第２波形データを取得し、
前記情報出力部は、
取得した前記第２波形データに基づいて前記変化点を特定する、
ことを特徴とする変化検出装置。

（付記８）
文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出し、
前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行し、
前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する、
処理をコンピュータに実行させることを特徴とする変化検出方法。

（付記９）
付記８において、
前記実行する処理は、
前記時間軸に対応付けられた前記複数のベクトルの第１波形データに対してフーリエ変換を行うことによって、前記複数のベクトルに対応する周波数成分を取得し、
取得した前記周波数成分のうちの特定の周波数成分を抽出し、
抽出した前記特定の周波数成分に対して逆フーリエ変換を行うことによって、前記時間軸に対応付けられた他の複数のベクトルの第２波形データを取得する、
処理を含み、
前記出力する処理は、取得した前記第２波形データに基づいて前記変化点を特定する処理を含む、
ことを特徴とする変化検出方法。

１：変化検出装置３：操作端末
１０：情報処理システムＮＷ：ネットワーク

Claims

文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出し、
前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行し、
前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する、
処理をコンピュータに実行させることを特徴とする変化検出プログラム。
前記算出する処理は、他の文書に含まれる複数の文のそれぞれにおける単語の出現状況に基づいた機械学習によって得られた機械学習モデルに、前記文書に含まれる複数の文のそれぞれを入力することにより、前記文書に含まれる複数の文のそれぞれに対応する複数のベクトルを算出する処理を含む、
ことを特徴とする請求項１に記載の変化検出プログラム。
前記実行する処理は、
前記時間軸に対応付けられた前記複数のベクトルの第１波形データに対してフーリエ変換を行うことによって、前記複数のベクトルに対応する周波数成分を取得し、
取得した前記周波数成分のうちの特定の周波数成分を抽出し、
抽出した前記特定の周波数成分に対して逆フーリエ変換を行うことによって、前記時間軸に対応付けられた他の複数のベクトルの第２波形データを取得する、
処理を含み、
前記出力する処理は、取得した前記第２波形データに基づいて前記変化点を特定する処理を含む、
ことを特徴とする請求項１に記載の変化検出プログラム。
前記特定の周波数成分は、前記周波数成分を取得する処理において取得された周波数成分のうち、閾値以下の周波数に対応する周波数成分である、
ことを特徴とする請求項３に記載の変化検出プログラム。
前記出力する処理は、
前記他の複数のベクトルを複数のクラスタに分類し、
前記複数のクラスタのそれぞれに含まれるベクトルに対応する文の前記文書における記載位置を特定し、
記載位置が隣接する文の組のうち、対応するベクトルがそれぞれ異なるクラスタに含まれる特定の文の組を選択し、
選択された前記特定の文の組に対応する位置を、前記変化点と決定する、
処理を含む、
ことを特徴とする請求項３に記載の変化検出プログラム。
文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出するベクトル算出部と、
前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行する解析実行部と、
前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する情報出力部と、を有する、
ことを特徴とする変化検出装置。
文書に含まれる複数の文のそれぞれに含まれる単語に基づいて、前記複数の文のそれぞれに対応する複数のベクトルを算出し、
前記複数のベクトルと、前記複数の文の前記文書における記載順序に応じて前記複数のベクトルに対応付けられた時間軸とに基づいて、周波数解析を実行し、
前記周波数解析の結果に基づいて特定される変化点に対応する前記文書における位置を示す情報を出力する、
処理をコンピュータに実行させることを特徴とする変化検出方法。