JP2023042282A

JP2023042282A - 類似文書抽出システム、類似文章抽出方法

Info

Publication number: JP2023042282A
Application number: JP2021149503A
Authority: JP
Inventors: 大輝播磨; Daiki Harima; 司住谷; Tsukasa Sumiya; 愛子細包; Aiko Hosozutsumi; 太郎石川; Taro Ishikawa; 絵里滝川; Eri Takigawa; 美由紀古和; Miyuki Furuwa; 敬之若山; Noriyuki Wakayama; 哲平松本; Teppei Matsumoto; 程張; Cheng Zhang; 亘木ノ下; Wataru Kinoshita
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2023-03-27

Abstract

【課題】人（ユーザ等）の意図に沿った類似度を算出して文章を抽出することができる類似文書抽出システムおよび類似文章抽出方法を提供する。【解決手段】類似文章抽出システムは、プロセッサと、記憶装置と、を備える。記憶装置は、抽出する対象の文章である検索対象文章を記憶する。検索対象文章は、検索キーとなる文章である検索キー文章と同じ程度の長さに分割された１文以上の複数の文章で記憶される。プロセッサは、検索キー文章と、前記検索対象文章を分割したそれぞれの文章と、の類似度を算出する。プロセッサは、算出したそれぞれの文章に対する類似度を足し合わせることにより、１件以上の検索対象文章との類似度を算出する。プロセッサは、算出した類似度に基づいて１件以上の検索対象文章を抽出する。【選択図】図１

Description

本発明は、類似文書抽出システムおよび類似文書抽出方法に関する。

従来より、検索キーとする文書の入力により、類似する文書を蓄積された文書の中から抽出するシステムおよび方法が知られている。特許文献１～２は、この種の技術を開示する。

特許文献１は、検索キーとなるキー文書の入力を受け付ける入力部と、文書構成情報に基づいて、文書を複数の項目に分割する分割部と、前記項目に含まれる単語に基づいて当該項目を分類した項目情報、及び当該項目の順序情報を含む特徴量を算出する特徴量算出部と、複数の対象文書それぞれの前記特徴量と前記キー文書の前記特徴量との類似度を算出する類似度算出部と、前記複数の対象文書から、前記類似度の降順に文書を抽出する抽出部と、を備える類似文書抽出装置を開示する。

詳細には、この類似文書抽出装置の処理では、分割部は、文書構成データに基づいて、検索対象文書を作業項目の単位に分割する。そして、特徴量算出部は、分割された作業項目毎に、単語の出現頻度等の情報に基づいて作業種別を判定し、確度が最大の分類ラベル（項目情報）を付与する。そして、特徴量算出部は、付与した分類ラベル及び順序情報を、検索対象文書の特徴量として、特徴量データベースに格納する。

そして、入力部は、検索キーとなるキー文書の入力を受け付ける。分割部は、受け付けたキー文書を、文書構成データに基づいて作業項目の単位に分割する。特徴量算出部は、分割された作業項目毎に、単語の出現頻度等の情報に基づいて作業種別を判定し、確度が最大の分類ラベル（項目情報）を付与する。類似度算出部は、付与した分類ラベル及び順序情報からなるキー文書の特徴量を、特徴量データベースに格納されている特徴量と比較し、各検索対象文書との類似度を算出する。抽出部は、算出された類似度の降順に、所定数の類似文書を過去の類似事例として抽出する。

特許文献２は、入力部、制御部、表示部、単語分割部、文節合成部、文節類似度計算部、最適組み合わせ算出部、入力文保存部、文重み付け部、文書類似度計算部、文書記憶部及び単語辞書から構成される文章検索装置を開示する。この文章検索装置において、単語分割部は、入力部から検索のキーとなる文書を構成する文をなす文字列が入力された場合に、その文字列からなる入力文を検索入力文として単語単位に分割するものである。ここで文とは、句点で区切られる文字列、箇条書きの文字列等、文書を構成する独立の文字列をいう。そして、文節合成部は、単語分割部により分割された単語からなる文節を合成するものである。文節類似度計算部は、文節合成部により得られた検索入力文の文節と、文書記憶部に記憶されている文書（検索対象文書）の１文（検索対象文）の文節との類似度計算を行うものである。

特開２０１８－０７３３５４号公報特開平９－１６０９２８号公報

蓄積された複数の文書から、入力文書に類似した文書を検索する手法は公知例にも挙げたように様々発明されている。しかしながら、既存手法は、文書ボリュームの多少に関わらずひとつの文書をひと固まりにみて文書の構造や単語により類似度を判定するので、人（ユーザ）の類似度判定と比較すると結果に剥離があり、適切な類似度を算出できないことも少なくない。

例えば、公知例（特許文献１）は、検索キー文書も検索対象文書も、複数の作業項目の固まりで構成されており、共にある程度のボリューム(文章量)があると考えられるが、類似度を計算する文書にボリューム差がある場合に、人の意図に沿った適切な類似度が算出できないと考えられた。

その一方で、公知例（特許文献２）は、文と文の類似度の計算を文節ごとの類似度を計算して行う技術について開示するが、文節というミクロな視点の計算では、人の意図に沿った適切な類似度が算出できないと考えられた。

そこで、本発明は、人（ユーザ等）の意図に沿った類似度を算出して文章を抽出することができる類似文書抽出システムおよび類似文章抽出方法を提供することを目的とする。

本発明の第１の態様によれば、下記の類似文章抽出システムが提供される。類似文章抽出システムは、プロセッサと、記憶装置と、を備える。記憶装置は、抽出する対象の文章である検索対象文章を記憶する。検索対象文章は、検索キーとなる文章である検索キー文章と同じ程度の長さに分割された１文以上の複数の文章で記憶される。プロセッサは、検索キー文章と、検索対象文章を分割したそれぞれの文章と、の類似度を算出する。プロセッサは、算出したそれぞれの文章に対する類似度を足し合わせることにより、１件以上の検索対象文章との類似度を算出する。プロセッサは、算出した類似度に基づいて１件以上の検索対象文章を抽出する。

本発明の第２の態様によれば、下記の類似文章抽出方法が提供される。類似文章抽出方法は、プロセッサと、記憶装置と、を用いて行う方法である。この方法は、抽出する対象の文章である検索対象文章を、検索キーとなる文章である検索キー文章と同じ程度の長さに分割して、１文以上の複数の文章で記憶装置に記憶する。検索キー文章と、検索対象文章を分割したそれぞれの文章と、の類似度を算出する。算出したそれぞれの文章に対する類似度を足し合わせることにより、１件以上の検索対象文章との類似度を算出する。算出した類似度に基づいて１件以上の検索対象文章を抽出する。

本発明によれば、人（ユーザ等）の意図に沿った類似度を算出して文章を抽出することができる類似文書抽出システムおよび類似文章抽出方法を提供することができる。

類似文章抽出システムの構成の一例を示す図。抽出対象文章の格納形式の一例について示す図。抽出対象文章の分割・分類・ラベル付与の処理の操作に用いる画面の一例について示す図。類似文章抽出の処理の操作に用いる画面の一例について示す図。抽出した類似文章の表示の一例を示す図。抽出対象文章の分割・分類・ラベル付与の処理の一例を説明するためのフローチャート。類似文章抽出の処理の一例を説明するためのフローチャート。

図１を参照しながら、本実施形態に関する類似文章抽出システム１について説明する。図１は、類似文章抽出システムの構成の一例を示す図である。類似文章抽出システム１は、検索キーとなる文章の入力に応じて、予め準備（蓄積）されている文章のうちで類似する文章を抽出することができるシステムとされている。

図１に示すように、類似文章抽出システム１は、複数のサーバ（２、３、４）と、ユーザ端末５と、を備える。複数のサーバ（２、３、４）およびユーザ端末５それぞれは、一例として、適宜のコンピュータで構成することができ、プロセッサと、記憶装置と、インタフェースと、を備える。

プロセッサ（１２～１５）は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等を用いて適宜に構成され、演算機能を有しており、プログラム処理を行う主体となる。記憶装置（２２～２５）は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等を用いて適宜に構成され、処理に用いるデータやプログラムなどを記憶する。インタフェース（３２～３５）は、通信に用いられる構成であり、データの入出力は、インタフェースを介して行われる。なお、本実施形態では、複数のサーバが用いられる例について説明されるが、これらのサーバに関する適切な処理を実行することができればよく、複数のサーバに代えて単数のサーバが用いられてもよい。

本実施形態では、類似文章抽出システム１は、データ蓄積サーバ２と、文書分割・文書分類ラベル付与サーバ３と、類似文書抽出サーバ４と、を備える。データ蓄積サーバ２は、主に、文章を蓄積することに用いられる。文書分割・文書分類ラベル付与サーバ３は、後で詳しく説明するが、文章を分割したり、文章にラベルを付与することに用いられる。類似文章抽出サーバ４は、主に、類似文章を抽出する処理に用いられる。

データ蓄積サーバ２において、記憶装置２２には、抽出対象文章格納テーブル４１と、ラベル付与済み分割文章格納テーブル４２と、が配置されている。抽出対象文章格納テーブル４１には、抽出対象となる文章である抽出対象文章のデータが格納される。ラベル付与済み分割文章格納テーブル４２には、抽出対象文章を複数に分割した文章のデータが格納される。

ここで、図２を参照しながら、抽出対象文章の格納形式の一例について説明する。図２は、抽出対象文章の格納形式の一例について示す。

図２に示すように、抽出対象文章格納テーブル４１は、複数の抽出対象文章をテキストデータとして格納することができ、抽出対象文章それぞれには、それぞれを区別する情報となる文章番号が設定されている。

ラベル付与済み分割文章格納テーブル４２には、それぞれの抽出対象文章が複数の文章に分割された形式で格納される。本実施形態では、後で詳しく説明するが、使用する分類モデルごとに分割した文章が格納され、分割した文章それぞれには、分割文章番号が付与される。

また、分割された文章それぞれには、分類ラベルが付与される。分類ラベルは、後で詳しく説明する適用された分類モデルと、付与されたラベルと、を示す情報である。

文書分割・文書分類ラベル付与サーバ３において、記憶装置２３には、文章分割プログラム４３と、文書分類・ラベル付与プログラム４４と、が配置されている。そして、これらのプログラム（４３、４４）は、文書分割・文書分類ラベル付与サーバ３のプロセッサ１３により実行される。文章分割プログラム４３は、文章の分割処理に用いるプログラムである。文書分類・ラベル付与プログラム４４は、分類モデルを用いた文章の分類、および、分類ラベルを付与する処理に用いるプログラムである。

類似文章抽出サーバ４において、記憶装置２４には、文章類似度算出プログラム４５と、類似文章抽出プログラム４６と、が配置されている。そして、これらのプログラム（４５、４６）は、類似文章抽出サーバ４のプロセッサ１４により実行される。文章類似度算出プログラム４５は、文章の類似度を算出することに用いるプログラムである。類似文章抽出プログラム４６は、算出した類似度に基づいて適切な抽出対象文章を抽出することに用いるプログラムである。

ユーザ端末５は、入力部５１と、表示装置５２と、抽出モデル選択部５３と、抽出結果表示部５４と、を備える。入力部５１は、検索キーとなる文章である検索キー文章などのユーザによるデータ入力に用いられる。入力部５１は、適宜の操作装置（例えば、キーボードやタッチパネル）を用いて構成することができる。ユーザが適切な操作を行うことができればよく、入力部５１は、ユーザ端末５が備えてもよいし、ユーザ端末５の外部に設けられてもよい。表示装置５２は、画面表示に用いる構成であり、適宜のディスプレイにより構成することができる。表示装置５２は、ユーザに対して適切な表示を行うことができればよく、ユーザ端末５が備えてもよいし、ユーザ端末５の外部に設けられてもよい。

抽出モデル選択部５３は、ユーザが操作に利用する画面の生成、および、この画面の表示に用いるプログラムであり、記憶装置２５に記憶される。抽出モデル選択部５３は、ユーザ端末５のプロセッサ１５により実行され、プロセッサ１５は、生成した画面を表示装置５２に表示させることができる。そして、表示装置５２は、ユーザが操作に利用する画面を表示することができる。

抽出結果表示部５４は、抽出した文章を示す画面の生成、および、この画面の表示に用いるプログラムであり、記憶装置２５に記憶される。抽出結果表示部５４は、ユーザ端末５のプロセッサ１５により実行され、プロセッサ１５は、生成した画面を表示装置５２に表示させることができる。そして、表示装置５２は、抽出結果を示す画面を表示することができる。

ここで、図３および図４を参照しながら、ユーザが操作に利用する画面の一例について説明する。また、図５を参照しながら、抽出した類似文章の表示の一例について説明する。図３は、抽出対象文章の分割・分類・ラベル付与の処理の操作に用いる画面の一例について示す図である。図４は、類似文章抽出の処理の操作に用いる画面の一例について示す図である。図５は、抽出した類似文章の表示の一例を示す図である。

ユーザ端末５側の抽出モデル選択部５３の実行により、図３に示すような、分類モデルを入力する入力欄６２と、抽出対象文章に関する欄６３と、を備える画面６１を表示装置５２に表示させることができる。

先ず、分類モデルについて詳しく説明する。分類モデルは、ユーザの望む観点に基づいて文章を分類し、文章の意味を表すラベルを付与することに用いられるモデルであり、本実施形態では、予め準備されて保存される。分類モデルは、例えば、文章分割・文章分類ラベル付与サーバ３の記憶装置２３に保存される。

例えば、検索対象文章が保守作業における故障報告書であり、この検索対象文章中の構造において、状況（故障の発生）に関する部分の文章と、故障の原因に関する部分の文章と、その対処に関する部分の文章と、を分類して、文章の意味する内容を含めた類似度判定を行いたい場合を考える。この場合、例えば、「状況」、「原因」、「対処」を示すラベルを文章に付与する分類モデルを用いることで、検索対象文章を構成する文章にラベルを付与することができる。

また、例えば、検索対象文章が同じく故障報告書であり、この検索対象文章中の構造において、上記の分類モデルの場合に加えて、故障の周辺機器への影響に関する部分の文章も分類して、文章の意味する内容を含めた類似度判定を行いたい場合を考える。この場合、例えば、「状況」、「原因」、「対処」、「影響」を示すラベルを文章に付与する分類モデルを用いることで、検索対象文章を構成する文章にラベルを付与することができる。

従って、複数の分類モデルを準備しておくことで、ユーザは任意の分類モデルを選択することができ、ユーザの望む観点に基づく分類が行われる。そして、類似度判定において付与したラベルの観点を含めることで、単なる文章構造の観点だけではなく、ユーザの意図に沿った類似度判定を行うことができるようになる。

図３において、分類モデルの入力欄６２は、このような分類モデルをユーザが選択して入力する欄であり、本実施形態では、プルダウン形式で分類モデルが選択可能になっている。抽出対象文章に関する欄６３は、分類モデルを用いて処理を行う抽出対象文章を入力する欄である。そして、一例として画面６１に設けられる抽出対象文章読込６４ボタンを押すことで、選択した分類モデルと、分類モデルを適用する抽出対象文章と、の読み込み処理が行われる。

なお、図３の表示態様は一例であり、表示態様は適宜に変更してもよい。また、図３では、プルダウン形式を用いる例が示されているが、ユーザが情報を入力することができればよく、適宜に変更してもよい。

図４に示すように、類似文章を抽出する処理を行う場合に、検索キーとなる文章などをユーザが入力する画面７１の表示が行われる。この画面７１は、分類モデルを入力する入力欄７２と、検索キーとなる文章である検索キー文章を入力する入力欄７３と、類似判定に用いるモデルである類似文章判定モデルを入力する入力欄７４と、備える。

分類モデルの入力欄７２には、検索キー文章にラベルを付与する分類モデルが選択されて入力される。すなわち、ここで入力される分類モデルの候補は、上記で説明した文章の分類に用いる予め準備される分類モデルに対応しており、検索キー文章には、ここで選択された分類モデルによりラベルが付与される。そして、ラベルが付与された検索キー文章を用いて、類似判定が行われる。なお、図４の例では、プルダウン形式により選択可能とされているが、適宜に選択して入力することができればよく、この形式に限定されない。

検索キー文章の入力欄７３には、検索キーとなる文章である検索キー文章が、ユーザにより入力される。検索キー文章の入力は、適宜の操作装置（例えば、入力部５１）を用いて行うことができる。

類似文章判定モデルの入力欄７４には、類似判定に用いるモデルである類似文章判定モデルが入力される。本実施形態では、類似文章判定モデルは、分類モデルと同様に予め準備されて保存され、ユーザは、類似判定に用いる類似文章判定モデルを選択することができる。なお、図４の例では、プルダウン形式により選択可能とされているが、適宜に選択して入力することができればよく、この形式に限定されない。

また、本実施形態では、画面７１には、抽出実行ボタン７５が設けられている。そして、この抽出実行ボタン７５をユーザが押すことで、入力した内容に基づく処理が実行される。

ここで、類似文章判定モデルについて詳しく説明する。類似文章判定モデルは、ユーザの望む観点に基づいて文章を類似判定することに用いるモデルであり、本実施形態では、予め準備されて保存される。類似文章判定モデルは、例えば、類似文章抽出サーバ４の記憶装置２４に保存される。

類似文章判定モデルは、一例として、（１）検索キー文章と分割した検索対象文章との類似度算出手法、および、（２）検索キー文章と分割した検索対象文章との重み付け類似度算出手法の定義を保持するモデルと考えることができる。すなわち、類似文章判定モデルは、重み付けを含めて、検索キー文章と検索対象文章を分割した文章との類似度を算出する手法を定義している。

（１）の観点では、ユーザの好みで使用する類似度算出手法が設定されてもよい。例えば、一般的な手法（Ｄｏｃ２ＶｅｃやＴＦ－ＩＤＦ等）を用いる設定が行われてもよい。

（２）の観点では、ユーザの好みの重み付け類似度算出手法が設定されてもよい。ここで、重み付け類似度は、（１）に係る類似度算出手法を用いた算出した類似度に、重み付けを行うことで求められる類似度である。

重み付け類似度算出手法としては、例えば、文章間におけるタグ（ラベル）の類似性に関する重み付けが設定されてもよい。例えば、ユーザが検索キー文章のラベルの同一性に重きを置いて文書を抽出したい状況では、検索キー文章と分割文章のタグ（ラベル）が同じである場合、算出された文章間の類似度にｎ倍（一例として、ｎは２以上の任意の自然数）の重み付けが行われることで、類似度が必然的に高くなるように、重み付け類似度が算出されることが設定されてもよい。また、ユーザが検索キー文章のラベルと一致しない文章に興味のない状況では、検索キー文章と分割文章のタグが異なる場合、算出された文章間の類似度を０にする重み付けが行われることで、類似度が必然的に低くなるように、重み付け類似度が算出されることが設定されてもよい。また、ユーザが期待する様々な文章抽出の状況に合わせて、予めタグ間の類似度を決めておき、検索キー文章と分割文章のタグ間の類似度を、算出された文章間の類似度に掛けて重み付けすることで、重み付け類似度が算出されることが設定されてもよい。ここで、タグ間の類似度は、適宜の計算によって算出されてもよいし、ユーザが任意に決定してもよい。適宜の計算とは、意味が近しいタグ同士ではタグ間の類似度を高く、意味が遠いタグ同士ではタグ間の類似度を低くするような任意の手法であり、例えばＤｏｃ２ＶｅｃやＴＦ－ＩＤＦ等の手法を用いてもよい。

このように、上記（１）と（２）の観点より類似度を算出する手法を設定することで、無数の種類の類似文章判定モデルを定義することができる。そして、ユーザが適宜の類似文章判定モデルを用いることで（例えば、好みや対象の文章に適した類似判定モデルを選択することで）、ユーザの意図に沿った類似判定が可能になる。

すなわち、上記（１）に関する一般的な類似度算出手法と、上記（２）に関する類似度の重み付けに関する手法と、を組合わせることにより、様々な類似文章判定モデルを定義することができ、様々なバリエーションの文書抽出が可能となる。そして、ユーザは使用する時と場合によって自分好みに合ったモデルを使い分けることができる。

抽出処理が実行された後に、ユーザ端末５のプロセッサ１５が抽出結果表示部５４を実行することで、図５に示すように、その結果を示す画面８１が表示される。図５の例では、画面８１は、抽出した文章を表示する表示エリア８２を備え、この表示エリア８２には、類似度に応じて抽出された検索対象文章がそれぞれ表示される。なお、この例では、類似度の値とテキストが併せて表示される。また、画面８１は、抽出した検索対象文章の表示件数を示す欄８３を備え、この欄８３には、抽出した検索対象文章の表示件数が表示される。また、画面８１には、モデル再選択ボタン８４が設けられる。このモデル再選択ボタン８４をユーザが押すことで、モデルを選択して類似判定を実行させることに用いる画面（例えば、図４の画面７１）に遷移させることができる（すなわち、プロセッサ１５が当該画面に遷移させる処理を実行する）。

なお、類似文章の抽出結果を示す画面８１は、適切な結果を示すことができればよく、適宜に変更されてもよい。また、類似度の値に応じて降順／昇順にデータを並べるなどの適宜の処理が行われてもよい。

次に、フローチャートを参照しながら、抽出対象文章（検索対象文章）の分割・分類・ラベル付与の処理について詳しく説明する。図６は、抽出対象文章（検索対象文章）の分割・分類・ラベル付与の処理の一例を説明するためのフローチャートである。

まず、処理に用いる分類モデルを読み込ませる。すなわち、上記で説明したように、ユーザ端末５のプロセッサ１５が抽出モデル選択部５３を実行することで表示される画面（例えば、図３に示す画面６１）を利用して、ユーザが使用する分類モデルを適宜に選択し、この分類モデルを読み込ませる（Ｓ１０１）。

次に、処理の対象となる検索対象文章を読み込ませる。すなわち、同様の画面を利用して、処理する検索対象文章をユーザが入力し、この検索対象文章を読み込ませる（Ｓ１０２）。

その後、文書分割・分類ラベル付与サーバ３のプロセッサ１３が、適宜のプログラムを実行して、ユーザが入力した内容に応じた処理を実行する。まず、このプロセッサ１３が文章分割プログラム４３を実行することで、ユーザが入力した検索対象文章を分割する処理（文章分割の処理）が実行される（Ｓ１０３）。

このＳ１０３の処理では、プロセッサ１３は、検索キーとなる文章（検索キー文章）と同じ程度の長さ（つまり、同粒度の長さ）となるように検索対象文章を分割し、検索キー文章と同粒度の長さの文章を複数生成する。例えば、検索キー文章が１文である場合は１文に、検索キー文章が複数文を含む場合は文末あるいは段落で、検索対象文章を分割してもよい。ただし、検索キー文書と検索対象文書で文字数が極端に異なる場合は、同粒度の長さになるように調整してもよい。例えば検索キー文章が１００文字の１文、検索対象文章が２０文字程度の１０文で構成される場合、検索対象文章は５文ずつに２分割して、同粒度の長さになるように調整してもよい。分割の際に重視するのは同粒度の長さということであり、検索キー文書と分割した検索対象文章、あるいは分割した検索対象文章同士で、文や段落の数に差があってもよい。

次に、分割した文章それぞれに対して、ラベルを付与する処理が行われる。この処理は、文書分割・分類ラベル付与サーバ３のプロセッサ１３が文章分類・ラベル付与プログラム４４を実行することで行われる（Ｓ１０４）。

このＳ１０４の処理では、ユーザが入力した分類モデルに基づく文章の分類が行われ、分類された文章にラベルが付与される。上記したように、検索対象文章が故障報告書であり、「状況」、「原因」、「対処」を示すラベルを文章に付与する分類モデルを用いる場合、「状況」、「原因」、「対処」の観点で文章の分類が行われ、分類された文章に「状況」、「原因」、「対処」を示すラベルが付与される。

なお、本実施形態では、分割した文章全てに対して処理が行われたかどうかについての判定が行われる。従って、全ての文章に対して処理が行われるまで、処理が繰り返し行われる。

その後、文書分割・分類ラベル付与サーバ３のプロセッサ１３は、適宜のプログラムを実行して、分割してラベルを付与した文章を、データ蓄積サーバ２に保存する。分割した文章のデータは、上記で説明した、ラベル付与済み分割文章格納テーブル４２に格納される。また、分割元の検索対象文章のデータが、抽出対象文章格納テーブル４１に格納される（Ｓ１０５）。

次に、フローチャートを参照しながら、類似文章抽出の処理について詳しく説明する。図７は、類似文章抽出の処理の一例を説明するためのフローチャートである。

まず、処理に用いる分類モデルを読み込ませる。すなわち、上記で説明したように、ユーザ端末５のプロセッサ１５が抽出モデル選択部５３を実行することで表示される画面（例えば、図４に示す画面７１）を利用して、ユーザが使用する分類モデルを適宜に選択し、この分類モデルを読み込ませる（Ｓ２０１）。このＳ２０１の処理で、検索対象文章を分類・タグ付け（ラベル付け）した分類モデルの中から、ユーザにより好みの分類モデルが選択され、選択された分類モデルが読み込まれる。

また、検索キー文章が読み込まれる。すなわち、検索キーを入力する画面を利用して、ユーザが検索キーとなる文章を入力する（Ｓ２０２）。

また、処理に用いる類似文章判定モデル（図７において、類似度判定モデル）が読み込まれる。すなわち、類似文章判定モデルを選択して入力する画面を利用して、ユーザが使用する類似文章判定モデルを適宜に選択し、この類似文章判定モデルを読み込ませる（Ｓ２０３）。

そして、類似文章抽出サーバ４のプロセッサ１４は、文章類似度算出プログラム４５を実行して、分割文章との類似度を算出する。ここで、分割文章と検索キー文章は、同じ程度の長さ（同粒度の長さ）となっている。そして、ユーザが選択した類似文章判定モデルにおいて定義された類似度算出手法（例えば、Ｄｏｃ２ＶｅｃやＴＦ－ＩＤＦ等）により、分割文章との類似度が算出される（Ｓ２０４）。

そして、類似文章抽出サーバ４のプロセッサ１４は、文章類似度算出プログラム４５を実行して、分割文章との重み付け類似度を算出する。分割文章との重み付け類似度は、ユーザが選択した類似文章判定モデルにおいて定義された重み付け類似度算出手法（例えば、タグの類似度によって類似度に重み付けする手法）により、算出される（Ｓ２０５）。

そして、類似文章抽出サーバ４のプロセッサ１４は、文章類似度算出プログラム４５を実行して、検索対象文章全体との類似度を算出する。ここで、それぞれの分割文章との類似度から検索対象文章全体の類似度が適宜の方法により算出されればよい。例えば、検索キー文章と分割した検索対象文章それぞれとの類似度を足し合わせることにより、検索キー文章と検索対象文章全体の類似度が算出されてもよい（Ｓ２０６）。

そして、類似文章抽出サーバ４のプロセッサ１４は、類似文章抽出プログラム４６を実行して、類似度を算出した検索対象文章のうちで類似度の高い検索対象文章を、データ蓄積サーバ２から抽出する。ここで、ユーザが指定する件数分の検索対象文章が抽出されてもよい。そして、ユーザ端末５のプロセッサ１５は、抽出結果表示部５４を実行して、抽出した類似する検索対象文章を表示装置５２に表示させる。これにより、表示装置５２は、抽出した類似する検索対象文章を表示する（Ｓ２０７）。

さらに、ユーザは、表示される内容を参照して、好みに合った文章が抽出できたかどうかについて評価することができる。そして、その内容により再度の抽出処理を行いたい場合、再度の処理を実行させることができる。ここで、抽出結果を表示する画面８１には、図５に示すように、ユーザが押すことで、検索キー文章などをユーザが入力する画面（例えば、図４に示す画面７１）に遷移するボタン（モデル再選択ボタン８４）が設けられてもよい。

本実施形態によれば、一例として、下記のような活用シーンを想定することができる。ここでは、想定される事例として保守業務を挙げるが、保守業務はあくまで説明のための例であって、適切に用いることができればよく、活用用途は特に限定されない。

保守業務において、本システム（類似文章抽出システム１）のユーザである保守作業員は、確認した現象を検索キー文書として入力する。例えば、「〇月〇日〇時〇分製品Ａの製造ラインで稼働中の機器Ｂで異常を知らせるアラームが発報。５分後に作業員が現場に駆けつけると、機器Ｂが勤休停止しており、冷却ポンプに繋がる管のジョイント部分からの漏水が確認された。」のように、確認した状況を記載した文書である。

ここで、検索対象文書となる故障報告書は、過去に対応した保守作業に関するもので、「状況」「原因」「対処」のような構成が想定される。保守員は、本システムにより、類似事象を抽出して、原因や対処の方法を検討する上で参考になるような故障報告書を過去の事象から抽出することを期待する。

そして、本実施形態によれば、抽出時に発生する課題を解決する効果がある。例えば、保守作業における報告書は、発生事象は異なっても文書の構造や使用する単語は似たようなものとなり易く、既存手法では、文書の内容がかけ離れていても、文書の構造が似ていると類似度が高いと判定されるという課題が考えられる。

本実施形態によれば、そのような場合でも、ラベルによる類似度の重み付けによって、単に文書の構造や似た単語が多く含まれる文書ではなく文書の意味として類似した文書が抽出できる。

また、例えば、検索対象の文書は完全な報告書であり、検索キー文書は現時点で起こった現象を端的に表した文書であることから、文書間にボリュームの差があり、このことが期待する類似文書を抽出することの妨げとなっているという課題が考えられる。すなわち、ユーザの意図に沿った類似度を算出して文章を抽出することの妨げになっていると考えられる。

本実施形態では、検索対象文書を検索キー文書と同程度のボリュームに分割し、分割した文書単位に類似度を算出し、分割した文書単位で算出した類似度を元に、文書全体の類似度を算出することで、この課題を解決することができる。

また、例えば、検索対象文書の分類ラベルとして、検索対象の文書と同様に「状況」「原因」「対処」といった文書構成で分類する例や、ラインや機械といった故障対象によって分類する例が考えられる。

そして、抽出される文書について、ユーザは、「状況」という文書構造上の分類の中で検索キー文書と類似した報告書の抽出を望む場合もあれば、「機器Ｂ」という故障対象の分類の中で検索キー文書と類似した報告書の抽出を望む場合もある。前者であれば、機器Ｂに限らずとも同様の状況が確認された故障報告書の抽出が想定される。後者であれば、機器Ｂに関する故障報告書の抽出が想定される。

このような、抽出結果に対するユーザの期待の違いを、本実施形態では、ユーザの意図（個性・感覚・好み）としている。そして、本実施形態では、複数のモデルを作成しておき、ユーザが任意に選択したモデル、またはユーザ自身で新規に作成したモデルを読み込むことで、この課題を解決する。

また、保守業務におけるユーザである保守作業員は、最も類似度が高い結果の文書１件だけではなく、類似度が高い報告書を複数抽出して参考にしたいと期待する。なぜなら、保守業務において、確認した事象が過去に発生した事象と全く同じということはほとんどなく、より近い複数の過去事象を参考にして総合的に対応を検討することが多いからである。本実施形態では、表示装置５２がユーザに指定された件数の検索対象文章を表示することで、この課題を解決している。なお、表示する件数は、適宜の画面を用いてユーザにより入力されてもよい。また、表示する件数の入力には、適宜の構成（例えば、入力部５１）が用いられてもよい。

以上実施形態について説明したが、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、実施形態の構成の一部について、他の構成の追加、削除、置換をすることが可能である。

プロセッサ（１２～１５）は、演算機能を有しており、所定の処理を実行することができる主体であればよく、他の半導体デバイス（例えば、ＧＰＵ）であってもよい。

記憶装置（２２～２５）の位置は、システムが所定の処理を実行することができれば、特に限定されない。例えば、サーバ側の記憶装置は、サーバが備えてもよいし、サーバの外部に配置されてもよい。ユーザ端末側の記憶装置は、ユーザ端末が備えてもよいし、ユーザ端末の外部に配置してもよい。そして、サーバやユーザ端末は、外部に配置される記憶装置と通信をすることにより、データを取得してもよい。

ユーザ端末５は、一例として、スマートフォンやＰＣなどの適宜の端末装置とすることができる。

図６や図７に示すステップの順番は一例であり、適切な処理を行うことができれば順番を変更してもよい。例えば、Ｓ２０１～Ｓ２０３の順番は変更してもよい。

検索キー文章は、文章の長さ（文章のボリューム）に応じて、複数の異なるラベルが付されてもよい。また、検索キー文章と同じ程度の長さに分割された検索対象文章の分割文章についても、検索キー文章と同様にして、複数の異なるラベルが付されてもよい。そして、複数のラベルが付された検索キー文章と、複数のラベルが付された分割文章と、の類似度が算出されてもよい。

重み付けを行って類似度を算出する例について説明されたが、重み付けが省略されてもよい。この場合、類似文章判定モデルにおいて、重み付けに関する定義は行わなくてもよい。

分類モデルと類似文章判定モデルは、予め準備されており、適用するモデルをユーザが選択する例について説明されたが、分類モデルや類似文章判定モデルを入力する画面（例えば、画面６１、画面７１）には、新規のモデルをユーザが設定登録する表示が行われてもよい。そして、この設定登録に基づいて使用するモデルが入力されてもよい。

１類似文章抽出システム
２データ蓄積サーバ
３文書分割・文書分類ラベル付与サーバ
４類似文章抽出サーバ
５ユーザ端末

Claims

プロセッサと、
記憶装置と、
を備え、
前記記憶装置は、
抽出する対象の文章である検索対象文章を記憶し、
前記検索対象文章は、
検索キーとなる文章である検索キー文章と同じ程度の長さに分割された１文以上の複数の文章で記憶され、
前記プロセッサは、
前記検索キー文章と、前記検索対象文章を分割したそれぞれの文章と、の類似度を算出し、
算出したそれぞれの文章に対する類似度を足し合わせることにより、１件以上の前記検索対象文章との類似度を算出し、
算出した前記類似度に基づいて、１件以上の前記検索対象文章を抽出する、
ことを特徴とする類似文章抽出システム。
請求項１に記載の類似文章抽出システムであって、
前記プロセッサは、
前記検索キー文章、および、前記検索対象文章を分割したそれぞれの文章に、文章の意味を表すラベルを付与し、
算出したそれぞれの文章に対する前記類似度に、文章間における前記ラベルの類似性に関する重み付けを行う、
ことを特徴とする類似文章抽出システム。
請求項２に記載の類似文章抽出システムであって、
表示装置を備え、
前記プロセッサは、
前記ラベルの付与に用いる予め準備された分類モデルをユーザが選択する画面を、前記表示装置に表示させる、
ことを特徴とする類似文章抽出システム。
請求項２に記載の類似文章抽出システムであって、
表示装置を備え、
前記プロセッサは、
前記ラベルの付与に用いる分類モデルをユーザが設定登録する画面を、前記表示装置に表示させる、
ことを特徴とする類似文章抽出システム。
請求項３に記載の類似文章抽出システムであって、
前記プロセッサは、
前記の重み付けを含めて、前記検索キー文章と、前記検索対象文章を分割した文章と、の類似度を算出する手法を定義する予め準備された類似文章判定モデルをユーザが選択する画面を、前記表示装置に表示させる、
ことを特徴とする類似文章抽出システム。
請求項４に記載の類似文章抽出システムであって、
前記プロセッサは、
前記の重み付けを含めて、前記検索キー文章と、前記検索対象文章を分割した文章と、の類似度を算出する手法を定義する予め準備された類似文章判定モデルをユーザが選択する画面を、前記表示装置に表示させる、
ことを特徴とする類似文章抽出システム。
請求項３に記載の類似文章抽出システムであって、
前記プロセッサは、
前記の重み付けを含めて、前記検索キー文章と、前記検索対象文章を分割した文章と、の類似度を算出する手法を定義する類似文章判定モデルをユーザが設定登録する画面を、前記表示装置に表示させる、
ことを特徴とする類似文章抽出システム。
請求項４に記載の類似文章抽出システムであって、
前記プロセッサは、
前記の重み付けを含めて、前記検索キー文章と、前記検索対象文章を分割した文章と、の類似度を算出する手法を定義する類似文章判定モデルをユーザが設定登録する画面を、前記表示装置に表示させる、
ことを特徴とする類似文章抽出システム。
プロセッサと、記憶装置と、を用いて行う類似文章抽出方法であって、
抽出する対象の文章である検索対象文章を、検索キーとなる文章である検索キー文章と同じ程度の長さに分割して、１文以上の複数の文章で前記記憶装置に記憶し、
前記検索キー文章と、前記検索対象文章を分割したそれぞれの文章と、の類似度を算出し、
算出したそれぞれの文章に対する類似度を足し合わせることにより、１件以上の前記検索対象文章との類似度を算出し、
算出した前記類似度に基づいて１件以上の前記検索対象文章を抽出する、
ことを特徴とする類似文章抽出方法。
請求項９に記載の類似文章抽出方法をプロセッサに実行させるプログラム。