JP2023042282A - 類似文書抽出システム、類似文章抽出方法 - Google Patents

類似文書抽出システム、類似文章抽出方法 Download PDF

Info

Publication number
JP2023042282A
JP2023042282A JP2021149503A JP2021149503A JP2023042282A JP 2023042282 A JP2023042282 A JP 2023042282A JP 2021149503 A JP2021149503 A JP 2021149503A JP 2021149503 A JP2021149503 A JP 2021149503A JP 2023042282 A JP2023042282 A JP 2023042282A
Authority
JP
Japan
Prior art keywords
sentence
sentences
similarity
similar
extraction system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021149503A
Other languages
English (en)
Inventor
大輝 播磨
Daiki Harima
司 住谷
Tsukasa Sumiya
愛子 細包
Aiko Hosozutsumi
太郎 石川
Taro Ishikawa
絵里 滝川
Eri Takigawa
美由紀 古和
Miyuki Furuwa
敬之 若山
Noriyuki Wakayama
哲平 松本
Teppei Matsumoto
程 張
Cheng Zhang
亘 木ノ下
Wataru Kinoshita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2021149503A priority Critical patent/JP2023042282A/ja
Publication of JP2023042282A publication Critical patent/JP2023042282A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】人(ユーザ等)の意図に沿った類似度を算出して文章を抽出することができる類似文書抽出システムおよび類似文章抽出方法を提供する。【解決手段】類似文章抽出システムは、プロセッサと、記憶装置と、を備える。記憶装置は、抽出する対象の文章である検索対象文章を記憶する。検索対象文章は、検索キーとなる文章である検索キー文章と同じ程度の長さに分割された1文以上の複数の文章で記憶される。プロセッサは、検索キー文章と、前記検索対象文章を分割したそれぞれの文章と、の類似度を算出する。プロセッサは、算出したそれぞれの文章に対する類似度を足し合わせることにより、1件以上の検索対象文章との類似度を算出する。プロセッサは、算出した類似度に基づいて1件以上の検索対象文章を抽出する。【選択図】 図1

Description

本発明は、類似文書抽出システムおよび類似文書抽出方法に関する。
従来より、検索キーとする文書の入力により、類似する文書を蓄積された文書の中から抽出するシステムおよび方法が知られている。特許文献1~2は、この種の技術を開示する。
特許文献1は、検索キーとなるキー文書の入力を受け付ける入力部と、文書構成情報に基づいて、文書を複数の項目に分割する分割部と、前記項目に含まれる単語に基づいて当該項目を分類した項目情報、及び当該項目の順序情報を含む特徴量を算出する特徴量算出部と、複数の対象文書それぞれの前記特徴量と前記キー文書の前記特徴量との類似度を算出する類似度算出部と、前記複数の対象文書から、前記類似度の降順に文書を抽出する抽出部と、を備える類似文書抽出装置を開示する。
詳細には、この類似文書抽出装置の処理では、分割部は、文書構成データに基づいて、検索対象文書を作業項目の単位に分割する。そして、特徴量算出部は、分割された作業項目毎に、単語の出現頻度等の情報に基づいて作業種別を判定し、確度が最大の分類ラベル(項目情報)を付与する。そして、特徴量算出部は、付与した分類ラベル及び順序情報を、検索対象文書の特徴量として、特徴量データベースに格納する。
そして、入力部は、検索キーとなるキー文書の入力を受け付ける。分割部は、受け付けたキー文書を、文書構成データに基づいて作業項目の単位に分割する。特徴量算出部は、分割された作業項目毎に、単語の出現頻度等の情報に基づいて作業種別を判定し、確度が最大の分類ラベル(項目情報)を付与する。類似度算出部は、付与した分類ラベル及び順序情報からなるキー文書の特徴量を、特徴量データベースに格納されている特徴量と比較し、各検索対象文書との類似度を算出する。抽出部は、算出された類似度の降順に、所定数の類似文書を過去の類似事例として抽出する。
特許文献2は、入力部、制御部、表示部、単語分割部、文節合成部、文節類似度計算部、最適組み合わせ算出部、入力文保存部、文重み付け部、文書類似度計算部、文書記憶部及び単語辞書から構成される文章検索装置を開示する。この文章検索装置において、単語分割部は、入力部から検索のキーとなる文書を構成する文をなす文字列が入力された場合に、その文字列からなる入力文を検索入力文として単語単位に分割するものである。ここで文とは、句点で区切られる文字列、箇条書きの文字列等、文書を構成する独立の文字列をいう。そして、文節合成部は、単語分割部により分割された単語からなる文節を合成するものである。文節類似度計算部は、文節合成部により得られた検索入力文の文節と、文書記憶部に記憶されている文書(検索対象文書)の1文(検索対象文)の文節との類似度計算を行うものである。
特開2018-073354号公報 特開平9-160928号公報
蓄積された複数の文書から、入力文書に類似した文書を検索する手法は公知例にも挙げたように様々発明されている。しかしながら、既存手法は、文書ボリュームの多少に関わらずひとつの文書をひと固まりにみて文書の構造や単語により類似度を判定するので、人(ユーザ)の類似度判定と比較すると結果に剥離があり、適切な類似度を算出できないことも少なくない。
例えば、公知例(特許文献1)は、検索キー文書も検索対象文書も、複数の作業項目の固まりで構成されており、共にある程度のボリューム(文章量)があると考えられるが、類似度を計算する文書にボリューム差がある場合に、人の意図に沿った適切な類似度が算出できないと考えられた。
その一方で、公知例(特許文献2)は、文と文の類似度の計算を文節ごとの類似度を計算して行う技術について開示するが、文節というミクロな視点の計算では、人の意図に沿った適切な類似度が算出できないと考えられた。
そこで、本発明は、人(ユーザ等)の意図に沿った類似度を算出して文章を抽出することができる類似文書抽出システムおよび類似文章抽出方法を提供することを目的とする。
本発明の第1の態様によれば、下記の類似文章抽出システムが提供される。類似文章抽出システムは、プロセッサと、記憶装置と、を備える。記憶装置は、抽出する対象の文章である検索対象文章を記憶する。検索対象文章は、検索キーとなる文章である検索キー文章と同じ程度の長さに分割された1文以上の複数の文章で記憶される。プロセッサは、検索キー文章と、検索対象文章を分割したそれぞれの文章と、の類似度を算出する。プロセッサは、算出したそれぞれの文章に対する類似度を足し合わせることにより、1件以上の検索対象文章との類似度を算出する。プロセッサは、算出した類似度に基づいて1件以上の検索対象文章を抽出する。
本発明の第2の態様によれば、下記の類似文章抽出方法が提供される。類似文章抽出方法は、プロセッサと、記憶装置と、を用いて行う方法である。この方法は、抽出する対象の文章である検索対象文章を、検索キーとなる文章である検索キー文章と同じ程度の長さに分割して、1文以上の複数の文章で記憶装置に記憶する。検索キー文章と、検索対象文章を分割したそれぞれの文章と、の類似度を算出する。算出したそれぞれの文章に対する類似度を足し合わせることにより、1件以上の検索対象文章との類似度を算出する。算出した類似度に基づいて1件以上の検索対象文章を抽出する。
本発明によれば、人(ユーザ等)の意図に沿った類似度を算出して文章を抽出することができる類似文書抽出システムおよび類似文章抽出方法を提供することができる。
類似文章抽出システムの構成の一例を示す図。 抽出対象文章の格納形式の一例について示す図。 抽出対象文章の分割・分類・ラベル付与の処理の操作に用いる画面の一例について示す図。 類似文章抽出の処理の操作に用いる画面の一例について示す図。 抽出した類似文章の表示の一例を示す図。 抽出対象文章の分割・分類・ラベル付与の処理の一例を説明するためのフローチャート。 類似文章抽出の処理の一例を説明するためのフローチャート。
図1を参照しながら、本実施形態に関する類似文章抽出システム1について説明する。図1は、類似文章抽出システムの構成の一例を示す図である。類似文章抽出システム1は、検索キーとなる文章の入力に応じて、予め準備(蓄積)されている文章のうちで類似する文章を抽出することができるシステムとされている。
図1に示すように、類似文章抽出システム1は、複数のサーバ(2、3、4)と、ユーザ端末5と、を備える。複数のサーバ(2、3、4)およびユーザ端末5それぞれは、一例として、適宜のコンピュータで構成することができ、プロセッサと、記憶装置と、インタフェースと、を備える。
プロセッサ(12~15)は、CPU(Central Processing Unit)等を用いて適宜に構成され、演算機能を有しており、プログラム処理を行う主体となる。記憶装置(22~25)は、ROM(Read Only Memory)やHDD(Hard Disk Drive)等を用いて適宜に構成され、処理に用いるデータやプログラムなどを記憶する。インタフェース(32~35)は、通信に用いられる構成であり、データの入出力は、インタフェースを介して行われる。なお、本実施形態では、複数のサーバが用いられる例について説明されるが、これらのサーバに関する適切な処理を実行することができればよく、複数のサーバに代えて単数のサーバが用いられてもよい。
本実施形態では、類似文章抽出システム1は、データ蓄積サーバ2と、文書分割・文書分類ラベル付与サーバ3と、類似文書抽出サーバ4と、を備える。データ蓄積サーバ2は、主に、文章を蓄積することに用いられる。文書分割・文書分類ラベル付与サーバ3は、後で詳しく説明するが、文章を分割したり、文章にラベルを付与することに用いられる。類似文章抽出サーバ4は、主に、類似文章を抽出する処理に用いられる。
データ蓄積サーバ2において、記憶装置22には、抽出対象文章格納テーブル41と、ラベル付与済み分割文章格納テーブル42と、が配置されている。抽出対象文章格納テーブル41には、抽出対象となる文章である抽出対象文章のデータが格納される。ラベル付与済み分割文章格納テーブル42には、抽出対象文章を複数に分割した文章のデータが格納される。
ここで、図2を参照しながら、抽出対象文章の格納形式の一例について説明する。図2は、抽出対象文章の格納形式の一例について示す。
図2に示すように、抽出対象文章格納テーブル41は、複数の抽出対象文章をテキストデータとして格納することができ、抽出対象文章それぞれには、それぞれを区別する情報となる文章番号が設定されている。
ラベル付与済み分割文章格納テーブル42には、それぞれの抽出対象文章が複数の文章に分割された形式で格納される。本実施形態では、後で詳しく説明するが、使用する分類モデルごとに分割した文章が格納され、分割した文章それぞれには、分割文章番号が付与される。
また、分割された文章それぞれには、分類ラベルが付与される。分類ラベルは、後で詳しく説明する適用された分類モデルと、付与されたラベルと、を示す情報である。
文書分割・文書分類ラベル付与サーバ3において、記憶装置23には、文章分割プログラム43と、文書分類・ラベル付与プログラム44と、が配置されている。そして、これらのプログラム(43、44)は、文書分割・文書分類ラベル付与サーバ3のプロセッサ13により実行される。文章分割プログラム43は、文章の分割処理に用いるプログラムである。文書分類・ラベル付与プログラム44は、分類モデルを用いた文章の分類、および、分類ラベルを付与する処理に用いるプログラムである。
類似文章抽出サーバ4において、記憶装置24には、文章類似度算出プログラム45と、類似文章抽出プログラム46と、が配置されている。そして、これらのプログラム(45、46)は、類似文章抽出サーバ4のプロセッサ14により実行される。文章類似度算出プログラム45は、文章の類似度を算出することに用いるプログラムである。類似文章抽出プログラム46は、算出した類似度に基づいて適切な抽出対象文章を抽出することに用いるプログラムである。
ユーザ端末5は、入力部51と、表示装置52と、抽出モデル選択部53と、抽出結果表示部54と、を備える。入力部51は、検索キーとなる文章である検索キー文章などのユーザによるデータ入力に用いられる。入力部51は、適宜の操作装置(例えば、キーボードやタッチパネル)を用いて構成することができる。ユーザが適切な操作を行うことができればよく、入力部51は、ユーザ端末5が備えてもよいし、ユーザ端末5の外部に設けられてもよい。表示装置52は、画面表示に用いる構成であり、適宜のディスプレイにより構成することができる。表示装置52は、ユーザに対して適切な表示を行うことができればよく、ユーザ端末5が備えてもよいし、ユーザ端末5の外部に設けられてもよい。
抽出モデル選択部53は、ユーザが操作に利用する画面の生成、および、この画面の表示に用いるプログラムであり、記憶装置25に記憶される。抽出モデル選択部53は、ユーザ端末5のプロセッサ15により実行され、プロセッサ15は、生成した画面を表示装置52に表示させることができる。そして、表示装置52は、ユーザが操作に利用する画面を表示することができる。
抽出結果表示部54は、抽出した文章を示す画面の生成、および、この画面の表示に用いるプログラムであり、記憶装置25に記憶される。抽出結果表示部54は、ユーザ端末5のプロセッサ15により実行され、プロセッサ15は、生成した画面を表示装置52に表示させることができる。そして、表示装置52は、抽出結果を示す画面を表示することができる。
ここで、図3および図4を参照しながら、ユーザが操作に利用する画面の一例について説明する。また、図5を参照しながら、抽出した類似文章の表示の一例について説明する。図3は、抽出対象文章の分割・分類・ラベル付与の処理の操作に用いる画面の一例について示す図である。図4は、類似文章抽出の処理の操作に用いる画面の一例について示す図である。図5は、抽出した類似文章の表示の一例を示す図である。
ユーザ端末5側の抽出モデル選択部53の実行により、図3に示すような、分類モデルを入力する入力欄62と、抽出対象文章に関する欄63と、を備える画面61を表示装置52に表示させることができる。
先ず、分類モデルについて詳しく説明する。分類モデルは、ユーザの望む観点に基づいて文章を分類し、文章の意味を表すラベルを付与することに用いられるモデルであり、本実施形態では、予め準備されて保存される。分類モデルは、例えば、文章分割・文章分類ラベル付与サーバ3の記憶装置23に保存される。
例えば、検索対象文章が保守作業における故障報告書であり、この検索対象文章中の構造において、状況(故障の発生)に関する部分の文章と、故障の原因に関する部分の文章と、その対処に関する部分の文章と、を分類して、文章の意味する内容を含めた類似度判定を行いたい場合を考える。この場合、例えば、「状況」、「原因」、「対処」を示すラベルを文章に付与する分類モデルを用いることで、検索対象文章を構成する文章にラベルを付与することができる。
また、例えば、検索対象文章が同じく故障報告書であり、この検索対象文章中の構造において、上記の分類モデルの場合に加えて、故障の周辺機器への影響に関する部分の文章も分類して、文章の意味する内容を含めた類似度判定を行いたい場合を考える。この場合、例えば、「状況」、「原因」、「対処」、「影響」を示すラベルを文章に付与する分類モデルを用いることで、検索対象文章を構成する文章にラベルを付与することができる。
従って、複数の分類モデルを準備しておくことで、ユーザは任意の分類モデルを選択することができ、ユーザの望む観点に基づく分類が行われる。そして、類似度判定において付与したラベルの観点を含めることで、単なる文章構造の観点だけではなく、ユーザの意図に沿った類似度判定を行うことができるようになる。
図3において、分類モデルの入力欄62は、このような分類モデルをユーザが選択して入力する欄であり、本実施形態では、プルダウン形式で分類モデルが選択可能になっている。抽出対象文章に関する欄63は、分類モデルを用いて処理を行う抽出対象文章を入力する欄である。そして、一例として画面61に設けられる抽出対象文章読込64ボタンを押すことで、選択した分類モデルと、分類モデルを適用する抽出対象文章と、の読み込み処理が行われる。
なお、図3の表示態様は一例であり、表示態様は適宜に変更してもよい。また、図3では、プルダウン形式を用いる例が示されているが、ユーザが情報を入力することができればよく、適宜に変更してもよい。
図4に示すように、類似文章を抽出する処理を行う場合に、検索キーとなる文章などをユーザが入力する画面71の表示が行われる。この画面71は、分類モデルを入力する入力欄72と、検索キーとなる文章である検索キー文章を入力する入力欄73と、類似判定に用いるモデルである類似文章判定モデルを入力する入力欄74と、備える。
分類モデルの入力欄72には、検索キー文章にラベルを付与する分類モデルが選択されて入力される。すなわち、ここで入力される分類モデルの候補は、上記で説明した文章の分類に用いる予め準備される分類モデルに対応しており、検索キー文章には、ここで選択された分類モデルによりラベルが付与される。そして、ラベルが付与された検索キー文章を用いて、類似判定が行われる。なお、図4の例では、プルダウン形式により選択可能とされているが、適宜に選択して入力することができればよく、この形式に限定されない。
検索キー文章の入力欄73には、検索キーとなる文章である検索キー文章が、ユーザにより入力される。検索キー文章の入力は、適宜の操作装置(例えば、入力部51)を用いて行うことができる。
類似文章判定モデルの入力欄74には、類似判定に用いるモデルである類似文章判定モデルが入力される。本実施形態では、類似文章判定モデルは、分類モデルと同様に予め準備されて保存され、ユーザは、類似判定に用いる類似文章判定モデルを選択することができる。なお、図4の例では、プルダウン形式により選択可能とされているが、適宜に選択して入力することができればよく、この形式に限定されない。
また、本実施形態では、画面71には、抽出実行ボタン75が設けられている。そして、この抽出実行ボタン75をユーザが押すことで、入力した内容に基づく処理が実行される。
ここで、類似文章判定モデルについて詳しく説明する。類似文章判定モデルは、ユーザの望む観点に基づいて文章を類似判定することに用いるモデルであり、本実施形態では、予め準備されて保存される。類似文章判定モデルは、例えば、類似文章抽出サーバ4の記憶装置24に保存される。
類似文章判定モデルは、一例として、(1)検索キー文章と分割した検索対象文章との類似度算出手法、および、(2)検索キー文章と分割した検索対象文章との重み付け類似度算出手法の定義を保持するモデルと考えることができる。すなわち、類似文章判定モデルは、重み付けを含めて、検索キー文章と検索対象文章を分割した文章との類似度を算出する手法を定義している。
(1)の観点では、ユーザの好みで使用する類似度算出手法が設定されてもよい。例えば、一般的な手法(Doc2VecやTF-IDF等)を用いる設定が行われてもよい。
(2)の観点では、ユーザの好みの重み付け類似度算出手法が設定されてもよい。ここで、重み付け類似度は、(1)に係る類似度算出手法を用いた算出した類似度に、重み付けを行うことで求められる類似度である。
重み付け類似度算出手法としては、例えば、文章間におけるタグ(ラベル)の類似性に関する重み付けが設定されてもよい。例えば、ユーザが検索キー文章のラベルの同一性に重きを置いて文書を抽出したい状況では、検索キー文章と分割文章のタグ(ラベル)が同じである場合、算出された文章間の類似度にn倍(一例として、nは2以上の任意の自然数)の重み付けが行われることで、類似度が必然的に高くなるように、重み付け類似度が算出されることが設定されてもよい。また、ユーザが検索キー文章のラベルと一致しない文章に興味のない状況では、検索キー文章と分割文章のタグが異なる場合、算出された文章間の類似度を0にする重み付けが行われることで、類似度が必然的に低くなるように、重み付け類似度が算出されることが設定されてもよい。また、ユーザが期待する様々な文章抽出の状況に合わせて、予めタグ間の類似度を決めておき、検索キー文章と分割文章のタグ間の類似度を、算出された文章間の類似度に掛けて重み付けすることで、重み付け類似度が算出されることが設定されてもよい。ここで、タグ間の類似度は、適宜の計算によって算出されてもよいし、ユーザが任意に決定してもよい。適宜の計算とは、意味が近しいタグ同士ではタグ間の類似度を高く、意味が遠いタグ同士ではタグ間の類似度を低くするような任意の手法であり、例えばDoc2VecやTF-IDF等の手法を用いてもよい。
このように、上記(1)と(2)の観点より類似度を算出する手法を設定することで、無数の種類の類似文章判定モデルを定義することができる。そして、ユーザが適宜の類似文章判定モデルを用いることで(例えば、好みや対象の文章に適した類似判定モデルを選択することで)、ユーザの意図に沿った類似判定が可能になる。
すなわち、上記(1)に関する一般的な類似度算出手法と、上記(2)に関する類似度の重み付けに関する手法と、を組合わせることにより、様々な類似文章判定モデルを定義することができ、様々なバリエーションの文書抽出が可能となる。そして、ユーザは使用する時と場合によって自分好みに合ったモデルを使い分けることができる。
抽出処理が実行された後に、ユーザ端末5のプロセッサ15が抽出結果表示部54を実行することで、図5に示すように、その結果を示す画面81が表示される。図5の例では、画面81は、抽出した文章を表示する表示エリア82を備え、この表示エリア82には、類似度に応じて抽出された検索対象文章がそれぞれ表示される。なお、この例では、類似度の値とテキストが併せて表示される。また、画面81は、抽出した検索対象文章の表示件数を示す欄83を備え、この欄83には、抽出した検索対象文章の表示件数が表示される。また、画面81には、モデル再選択ボタン84が設けられる。このモデル再選択ボタン84をユーザが押すことで、モデルを選択して類似判定を実行させることに用いる画面(例えば、図4の画面71)に遷移させることができる(すなわち、プロセッサ15が当該画面に遷移させる処理を実行する)。
なお、類似文章の抽出結果を示す画面81は、適切な結果を示すことができればよく、適宜に変更されてもよい。また、類似度の値に応じて降順/昇順にデータを並べるなどの適宜の処理が行われてもよい。
次に、フローチャートを参照しながら、抽出対象文章(検索対象文章)の分割・分類・ラベル付与の処理について詳しく説明する。図6は、抽出対象文章(検索対象文章)の分割・分類・ラベル付与の処理の一例を説明するためのフローチャートである。
まず、処理に用いる分類モデルを読み込ませる。すなわち、上記で説明したように、ユーザ端末5のプロセッサ15が抽出モデル選択部53を実行することで表示される画面(例えば、図3に示す画面61)を利用して、ユーザが使用する分類モデルを適宜に選択し、この分類モデルを読み込ませる(S101)。
次に、処理の対象となる検索対象文章を読み込ませる。すなわち、同様の画面を利用して、処理する検索対象文章をユーザが入力し、この検索対象文章を読み込ませる(S102)。
その後、文書分割・分類ラベル付与サーバ3のプロセッサ13が、適宜のプログラムを実行して、ユーザが入力した内容に応じた処理を実行する。まず、このプロセッサ13が文章分割プログラム43を実行することで、ユーザが入力した検索対象文章を分割する処理(文章分割の処理)が実行される(S103)。
このS103の処理では、プロセッサ13は、検索キーとなる文章(検索キー文章)と同じ程度の長さ(つまり、同粒度の長さ)となるように検索対象文章を分割し、検索キー文章と同粒度の長さの文章を複数生成する。例えば、検索キー文章が1文である場合は1文に、検索キー文章が複数文を含む場合は文末あるいは段落で、検索対象文章を分割してもよい。ただし、検索キー文書と検索対象文書で文字数が極端に異なる場合は、同粒度の長さになるように調整してもよい。例えば検索キー文章が100文字の1文、検索対象文章が20文字程度の10文で構成される場合、検索対象文章は5文ずつに2分割して、同粒度の長さになるように調整してもよい。分割の際に重視するのは同粒度の長さということであり、検索キー文書と分割した検索対象文章、あるいは分割した検索対象文章同士で、文や段落の数に差があってもよい。
次に、分割した文章それぞれに対して、ラベルを付与する処理が行われる。この処理は、文書分割・分類ラベル付与サーバ3のプロセッサ13が文章分類・ラベル付与プログラム44を実行することで行われる(S104)。
このS104の処理では、ユーザが入力した分類モデルに基づく文章の分類が行われ、分類された文章にラベルが付与される。上記したように、検索対象文章が故障報告書であり、「状況」、「原因」、「対処」を示すラベルを文章に付与する分類モデルを用いる場合、「状況」、「原因」、「対処」の観点で文章の分類が行われ、分類された文章に「状況」、「原因」、「対処」を示すラベルが付与される。
なお、本実施形態では、分割した文章全てに対して処理が行われたかどうかについての判定が行われる。従って、全ての文章に対して処理が行われるまで、処理が繰り返し行われる。
その後、文書分割・分類ラベル付与サーバ3のプロセッサ13は、適宜のプログラムを実行して、分割してラベルを付与した文章を、データ蓄積サーバ2に保存する。分割した文章のデータは、上記で説明した、ラベル付与済み分割文章格納テーブル42に格納される。また、分割元の検索対象文章のデータが、抽出対象文章格納テーブル41に格納される(S105)。
次に、フローチャートを参照しながら、類似文章抽出の処理について詳しく説明する。図7は、類似文章抽出の処理の一例を説明するためのフローチャートである。
まず、処理に用いる分類モデルを読み込ませる。すなわち、上記で説明したように、ユーザ端末5のプロセッサ15が抽出モデル選択部53を実行することで表示される画面(例えば、図4に示す画面71)を利用して、ユーザが使用する分類モデルを適宜に選択し、この分類モデルを読み込ませる(S201)。このS201の処理で、検索対象文章を分類・タグ付け(ラベル付け)した分類モデルの中から、ユーザにより好みの分類モデルが選択され、選択された分類モデルが読み込まれる。
また、検索キー文章が読み込まれる。すなわち、検索キーを入力する画面を利用して、ユーザが検索キーとなる文章を入力する(S202)。
また、処理に用いる類似文章判定モデル(図7において、類似度判定モデル)が読み込まれる。すなわち、類似文章判定モデルを選択して入力する画面を利用して、ユーザが使用する類似文章判定モデルを適宜に選択し、この類似文章判定モデルを読み込ませる(S203)。
そして、類似文章抽出サーバ4のプロセッサ14は、文章類似度算出プログラム45を実行して、分割文章との類似度を算出する。ここで、分割文章と検索キー文章は、同じ程度の長さ(同粒度の長さ)となっている。そして、ユーザが選択した類似文章判定モデルにおいて定義された類似度算出手法(例えば、Doc2VecやTF-IDF等)により、分割文章との類似度が算出される(S204)。
そして、類似文章抽出サーバ4のプロセッサ14は、文章類似度算出プログラム45を実行して、分割文章との重み付け類似度を算出する。分割文章との重み付け類似度は、ユーザが選択した類似文章判定モデルにおいて定義された重み付け類似度算出手法(例えば、タグの類似度によって類似度に重み付けする手法)により、算出される(S205)。
そして、類似文章抽出サーバ4のプロセッサ14は、文章類似度算出プログラム45を実行して、検索対象文章全体との類似度を算出する。ここで、それぞれの分割文章との類似度から検索対象文章全体の類似度が適宜の方法により算出されればよい。例えば、検索キー文章と分割した検索対象文章それぞれとの類似度を足し合わせることにより、検索キー文章と検索対象文章全体の類似度が算出されてもよい(S206)。
そして、類似文章抽出サーバ4のプロセッサ14は、類似文章抽出プログラム46を実行して、類似度を算出した検索対象文章のうちで類似度の高い検索対象文章を、データ蓄積サーバ2から抽出する。ここで、ユーザが指定する件数分の検索対象文章が抽出されてもよい。そして、ユーザ端末5のプロセッサ15は、抽出結果表示部54を実行して、抽出した類似する検索対象文章を表示装置52に表示させる。これにより、表示装置52は、抽出した類似する検索対象文章を表示する(S207)。
さらに、ユーザは、表示される内容を参照して、好みに合った文章が抽出できたかどうかについて評価することができる。そして、その内容により再度の抽出処理を行いたい場合、再度の処理を実行させることができる。ここで、抽出結果を表示する画面81には、図5に示すように、ユーザが押すことで、検索キー文章などをユーザが入力する画面(例えば、図4に示す画面71)に遷移するボタン(モデル再選択ボタン84)が設けられてもよい。
本実施形態によれば、一例として、下記のような活用シーンを想定することができる。ここでは、想定される事例として保守業務を挙げるが、保守業務はあくまで説明のための例であって、適切に用いることができればよく、活用用途は特に限定されない。
保守業務において、本システム(類似文章抽出システム1)のユーザである保守作業員は、確認した現象を検索キー文書として入力する。例えば、「〇月〇日〇時〇分 製品Aの製造ラインで稼働中の機器Bで異常を知らせるアラームが発報。5分後に作業員が現場に駆けつけると、機器Bが勤休停止しており、冷却ポンプに繋がる管のジョイント部分からの漏水が確認された。」のように、確認した状況を記載した文書である。
ここで、検索対象文書となる故障報告書は、過去に対応した保守作業に関するもので、「状況」「原因」「対処」のような構成が想定される。保守員は、本システムにより、類似事象を抽出して、原因や対処の方法を検討する上で参考になるような故障報告書を過去の事象から抽出することを期待する。
そして、本実施形態によれば、抽出時に発生する課題を解決する効果がある。例えば、保守作業における報告書は、発生事象は異なっても文書の構造や使用する単語は似たようなものとなり易く、既存手法では、文書の内容がかけ離れていても、文書の構造が似ていると類似度が高いと判定されるという課題が考えられる。
本実施形態によれば、そのような場合でも、ラベルによる類似度の重み付けによって、単に文書の構造や似た単語が多く含まれる文書ではなく文書の意味として類似した文書が抽出できる。
また、例えば、検索対象の文書は完全な報告書であり、検索キー文書は現時点で起こった現象を端的に表した文書であることから、文書間にボリュームの差があり、このことが期待する類似文書を抽出することの妨げとなっているという課題が考えられる。すなわち、ユーザの意図に沿った類似度を算出して文章を抽出することの妨げになっていると考えられる。
本実施形態では、検索対象文書を検索キー文書と同程度のボリュームに分割し、分割した文書単位に類似度を算出し、分割した文書単位で算出した類似度を元に、文書全体の類似度を算出することで、この課題を解決することができる。
また、例えば、検索対象文書の分類ラベルとして、検索対象の文書と同様に「状況」「原因」「対処」といった文書構成で分類する例や、ラインや機械といった故障対象によって分類する例が考えられる。
そして、抽出される文書について、ユーザは、「状況」という文書構造上の分類の中で検索キー文書と類似した報告書の抽出を望む場合もあれば、「機器B」という故障対象の分類の中で検索キー文書と類似した報告書の抽出を望む場合もある。前者であれば、機器Bに限らずとも同様の状況が確認された故障報告書の抽出が想定される。後者であれば、機器Bに関する故障報告書の抽出が想定される。
このような、抽出結果に対するユーザの期待の違いを、本実施形態では、ユーザの意図(個性・感覚・好み)としている。そして、本実施形態では、複数のモデルを作成しておき、ユーザが任意に選択したモデル、またはユーザ自身で新規に作成したモデルを読み込むことで、この課題を解決する。
また、保守業務におけるユーザである保守作業員は、最も類似度が高い結果の文書1件だけではなく、類似度が高い報告書を複数抽出して参考にしたいと期待する。なぜなら、保守業務において、確認した事象が過去に発生した事象と全く同じということはほとんどなく、より近い複数の過去事象を参考にして総合的に対応を検討することが多いからである。本実施形態では、表示装置52がユーザに指定された件数の検索対象文章を表示することで、この課題を解決している。なお、表示する件数は、適宜の画面を用いてユーザにより入力されてもよい。また、表示する件数の入力には、適宜の構成(例えば、入力部51)が用いられてもよい。
以上実施形態について説明したが、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、実施形態の構成の一部について、他の構成の追加、削除、置換をすることが可能である。
プロセッサ(12~15)は、演算機能を有しており、所定の処理を実行することができる主体であればよく、他の半導体デバイス(例えば、GPU)であってもよい。
記憶装置(22~25)の位置は、システムが所定の処理を実行することができれば、特に限定されない。例えば、サーバ側の記憶装置は、サーバが備えてもよいし、サーバの外部に配置されてもよい。ユーザ端末側の記憶装置は、ユーザ端末が備えてもよいし、ユーザ端末の外部に配置してもよい。そして、サーバやユーザ端末は、外部に配置される記憶装置と通信をすることにより、データを取得してもよい。
ユーザ端末5は、一例として、スマートフォンやPCなどの適宜の端末装置とすることができる。
図6や図7に示すステップの順番は一例であり、適切な処理を行うことができれば順番を変更してもよい。例えば、S201~S203の順番は変更してもよい。
検索キー文章は、文章の長さ(文章のボリューム)に応じて、複数の異なるラベルが付されてもよい。また、検索キー文章と同じ程度の長さに分割された検索対象文章の分割文章についても、検索キー文章と同様にして、複数の異なるラベルが付されてもよい。そして、複数のラベルが付された検索キー文章と、複数のラベルが付された分割文章と、の類似度が算出されてもよい。
重み付けを行って類似度を算出する例について説明されたが、重み付けが省略されてもよい。この場合、類似文章判定モデルにおいて、重み付けに関する定義は行わなくてもよい。
分類モデルと類似文章判定モデルは、予め準備されており、適用するモデルをユーザが選択する例について説明されたが、分類モデルや類似文章判定モデルを入力する画面(例えば、画面61、画面71)には、新規のモデルをユーザが設定登録する表示が行われてもよい。そして、この設定登録に基づいて使用するモデルが入力されてもよい。
1 類似文章抽出システム
2 データ蓄積サーバ
3 文書分割・文書分類ラベル付与サーバ
4 類似文章抽出サーバ
5 ユーザ端末

Claims (10)

  1. プロセッサと、
    記憶装置と、
    を備え、
    前記記憶装置は、
    抽出する対象の文章である検索対象文章を記憶し、
    前記検索対象文章は、
    検索キーとなる文章である検索キー文章と同じ程度の長さに分割された1文以上の複数の文章で記憶され、
    前記プロセッサは、
    前記検索キー文章と、前記検索対象文章を分割したそれぞれの文章と、の類似度を算出し、
    算出したそれぞれの文章に対する類似度を足し合わせることにより、1件以上の前記検索対象文章との類似度を算出し、
    算出した前記類似度に基づいて、1件以上の前記検索対象文章を抽出する、
    ことを特徴とする類似文章抽出システム。
  2. 請求項1に記載の類似文章抽出システムであって、
    前記プロセッサは、
    前記検索キー文章、および、前記検索対象文章を分割したそれぞれの文章に、文章の意味を表すラベルを付与し、
    算出したそれぞれの文章に対する前記類似度に、文章間における前記ラベルの類似性に関する重み付けを行う、
    ことを特徴とする類似文章抽出システム。
  3. 請求項2に記載の類似文章抽出システムであって、
    表示装置を備え、
    前記プロセッサは、
    前記ラベルの付与に用いる予め準備された分類モデルをユーザが選択する画面を、前記表示装置に表示させる、
    ことを特徴とする類似文章抽出システム。
  4. 請求項2に記載の類似文章抽出システムであって、
    表示装置を備え、
    前記プロセッサは、
    前記ラベルの付与に用いる分類モデルをユーザが設定登録する画面を、前記表示装置に表示させる、
    ことを特徴とする類似文章抽出システム。
  5. 請求項3に記載の類似文章抽出システムであって、
    前記プロセッサは、
    前記の重み付けを含めて、前記検索キー文章と、前記検索対象文章を分割した文章と、の類似度を算出する手法を定義する予め準備された類似文章判定モデルをユーザが選択する画面を、前記表示装置に表示させる、
    ことを特徴とする類似文章抽出システム。
  6. 請求項4に記載の類似文章抽出システムであって、
    前記プロセッサは、
    前記の重み付けを含めて、前記検索キー文章と、前記検索対象文章を分割した文章と、の類似度を算出する手法を定義する予め準備された類似文章判定モデルをユーザが選択する画面を、前記表示装置に表示させる、
    ことを特徴とする類似文章抽出システム。
  7. 請求項3に記載の類似文章抽出システムであって、
    前記プロセッサは、
    前記の重み付けを含めて、前記検索キー文章と、前記検索対象文章を分割した文章と、の類似度を算出する手法を定義する類似文章判定モデルをユーザが設定登録する画面を、前記表示装置に表示させる、
    ことを特徴とする類似文章抽出システム。
  8. 請求項4に記載の類似文章抽出システムであって、
    前記プロセッサは、
    前記の重み付けを含めて、前記検索キー文章と、前記検索対象文章を分割した文章と、の類似度を算出する手法を定義する類似文章判定モデルをユーザが設定登録する画面を、前記表示装置に表示させる、
    ことを特徴とする類似文章抽出システム。
  9. プロセッサと、記憶装置と、を用いて行う類似文章抽出方法であって、
    抽出する対象の文章である検索対象文章を、検索キーとなる文章である検索キー文章と同じ程度の長さに分割して、1文以上の複数の文章で前記記憶装置に記憶し、
    前記検索キー文章と、前記検索対象文章を分割したそれぞれの文章と、の類似度を算出し、
    算出したそれぞれの文章に対する類似度を足し合わせることにより、1件以上の前記検索対象文章との類似度を算出し、
    算出した前記類似度に基づいて1件以上の前記検索対象文章を抽出する、
    ことを特徴とする類似文章抽出方法。
  10. 請求項9に記載の類似文章抽出方法をプロセッサに実行させるプログラム。
JP2021149503A 2021-09-14 2021-09-14 類似文書抽出システム、類似文章抽出方法 Pending JP2023042282A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021149503A JP2023042282A (ja) 2021-09-14 2021-09-14 類似文書抽出システム、類似文章抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021149503A JP2023042282A (ja) 2021-09-14 2021-09-14 類似文書抽出システム、類似文章抽出方法

Publications (1)

Publication Number Publication Date
JP2023042282A true JP2023042282A (ja) 2023-03-27

Family

ID=85717172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021149503A Pending JP2023042282A (ja) 2021-09-14 2021-09-14 類似文書抽出システム、類似文章抽出方法

Country Status (1)

Country Link
JP (1) JP2023042282A (ja)

Similar Documents

Publication Publication Date Title
US10592565B2 (en) Method and apparatus for providing recommended information
US10366154B2 (en) Information processing device, information processing method, and computer program product
CN106934069B (zh) 数据检索方法及系统
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
US20160085855A1 (en) Perspective data analysis and management
EP3446241A1 (en) Automatic extraction of a training corpus for a data classifier based on machine learning algorithms
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
CN111309200B (zh) 一种扩展阅读内容的确定方法、装置、设备及存储介质
US20150088491A1 (en) Keyword extraction apparatus and method
CN111428503B (zh) 同名人物的识别处理方法及处理装置
CN111666766A (zh) 数据处理方法、装置和设备
CN114238689A (zh) 视频生成方法、装置、电子设备、存储介质和程序产品
JP2008077163A (ja) 検索システム、検索方法及び検索プログラム
US20240086452A1 (en) Tracking concepts within content in content management systems and adaptive learning systems
US9298712B2 (en) Content and object metadata based search in e-reader environment
US10628632B2 (en) Generating a structured document based on a machine readable document and artificial intelligence-generated annotations
JP5345987B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP5577546B2 (ja) 計算機システム
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
JP5112027B2 (ja) 文書群提示装置および文書群提示プログラム
JP2023042282A (ja) 類似文書抽出システム、類似文章抽出方法
JP6696344B2 (ja) 情報処理装置及びプログラム
CN112069807A (zh) 文本数据的主题提取方法、装置、计算机设备及存储介质
KR20200110880A (ko) 스타일 속성에 기반하여 문서에 대한 중요 키워드를 선정하는 전자 장치 및 그 동작 방법
CN114417808B (zh) 文章生成方法、装置、电子设备以及存储介质