JP7159780B2

JP7159780B2 - 修正内容特定プログラムおよびレポート修正内容特定装置

Info

Publication number: JP7159780B2
Application number: JP2018195945A
Authority: JP
Inventors: 哲哉内海; 悠司齋藤; 幸洋渡辺
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2022-10-25
Anticipated expiration: 2038-10-17
Also published as: JP2020064457A

Description

本発明は、修正内容特定プログラムなどに関する。

近年、システム運用者の分析を助けるために、システムの状態からさまざまな情報を作成してシステム運用者に提供するサービスがある。例えば、複数の情報を作成するために、分析技術の開発者が分析技術を作成し、システム運用者が複数の分析技術を選択して、選択した複数の分析技術の結果から所定のルールに基づいてシステムの状態のレポートが自動生成される。所定のルールに基づいて出力されるレポートは、分析結果が期待したものではなかったり、コメントの文言がわかりにくかったりするため、レポート作成者が自動生成されたレポートのチェックおよび修正を行う。分析技術は、かかる修正内容をフィードバックして修正されることが望まれる。

特開２０１１－１２５４０２号公報特開２００４－３８９４４号公報特開２０１３－１４９０６１号公報

ところで、レポートは、複数の分析技術から自動生成されるので、レポートが修正されると、修正内容がどの分析技術に関するものなのかを把握することが難しい。このため、修正内容に対する分析技術の修正箇所を特定するのが難しいという問題がある。

本発明は、１つの側面では、修正内容に対する分析技術の修正箇所の特定を可能とすることを目的とする。

１つの態様では、修正内容特定プログラムは、コンピュータに、第１の文章と当該第１の文章を修正した第２の文章をそれぞれ形態素解析して単語に分割し、該分割した単語ごとに意味的な特徴量を表す単語ベクトルから、前記第１の文に含まれる単語と前記第２の文に含まれる単語の意味的類似度を算出し、前記意味的類似度が最も高くなる単語のペアを関連付け、該関連付けしたペアの単語が異なる箇所を修正箇所として抽出する、処理を実行させる。

１実施態様によれば、修正内容に対する分析技術の修正箇所を特定することができる。

図１は、実施例１に係るレポート修正内容特定装置の構成を示す機能ブロック図である。図２は、実施例１に係る文マッチング表のデータ構造の一例を示す図である。図３は、実施例１に係る修正箇所付き文マッチング表のデータ構造の一例を示す図である。図４は、実施例１に係る単語整形処理の一例を示す図である。図５は、実施例１に係る意味的類似度算出処理および修正単語特定処理の一例を示す図である。図６は、実施例１に係る修正箇所特定処理のフローチャートの一例を示す図である。図７は、実施例１に係る単語整形処理のフローチャートの一例を示す図である。図８は、実施例１に係る修正単語特定処理のフローチャートの一例を示す図である。図９は、実施例２に係るレポート修正内容特定装置の構成を示す機能ブロック図である。図１０は、レポートの一例を示す図である。図１１は、実施例２に係る文対応表のデータ構造の一例を示す図である。図１２は、実施例２に係る文章分割処理および文補完処理の一例を示す図である。図１３Ａは、実施例２に係る意味的類似度算出処理の一例を示す図（１）である。図１３Ｂは、実施例２に係る意味的類似度算出処理の一例を示す図（２）である。図１４Ａは、実施例２に係る文字的類似度算出処理の一例を示す図（１）である。図１４Ｂは、実施例２に係る文字的類似度算出処理の一例を示す図（２）である。図１５は、実施例２に係る統合類似度算出処理の一例を示す図である。図１６は、実施例２に係る文マッチング処理のフローチャートの一例を示す図である。図１７は、実施例３に係るレポート修正内容特定装置の構成を示す機能ブロック図である。図１８は、実施例３に係る修正タイプ付き文マッチング表のデータ構造の一例を示す図である。図１９は、実施例３に係る修正タイプ特定処理のフローチャートの一例を示す図である。図２０は、修正内容特定プログラムを実行するコンピュータの一例を示す図である。

以下に、本願の開示する修正内容特定プログラムおよびレポート修正内容特定装置の実施例を図面に基づいて詳細に説明する。なお、本発明は、実施例により限定されるものではない。

［実施例１に係るレポート修正内容特定装置の構成］
図１は、実施例１に係るレポート修正内容特定装置の構成を示す機能ブロック図である。図１に示すレポート修正内容特定装置１は、複数の分析技術から生成されるレポートに含まれる文と当該文を修正した修正後の文（修正内容）に関し、修正内容に対する分析技術の修正箇所を特定する。なお、実施例１では、修正前の文と修正後の文とは対応付けられている場合を説明する。すなわち、修正後の文は、複数の分析技術のうちいずれの分析技術に関するものなのかが把握されているものとする。

レポート修正内容特定装置１は、制御部１０および記憶部２０を有する。

制御部１０は、ＣＰＵ（Central Processing Unit）などの電子回路に対応する。そして、制御部１０は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、これらによって種々の処理を実行する。制御部１０は、修正箇所特定部１００を有する。修正箇所特定部１００は、形態素解析部１１０、単語整形部１２０、意味的類似度算出部１３０および修正単語特定部１４０を有する。なお、形態素解析部１１０は、分割部の一例である。意味的類似度算出部１３０は、算出部の一例である。修正単語特定部１４０は、関連付け部および抽出部の一例である。

記憶部２０は、例えば、ＲＡＭ、フラッシュメモリ（Flash Memory）などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。記憶部２０は、文マッチング表２１および修正箇所付き文マッチング表２２を有する。

文マッチング表２１は、複数の分析技術から生成されるレポートに含まれる修正前の文と修正後の文と分析技術とを対応付けた表である。なお、文マッチング表２１は、実施例１では、予め生成されるものとする。

ここで、文マッチング表２１のデータ構造の一例を、図２を参照して説明する。図２は、実施例１に係る文マッチング表のデータ構造の一例を示す図である。

図２に示すように、文マッチング表２１は、レポートＮｏ２１ａ、コメントＩＤ（Identifier）２１ｂ、修正前２１ｃ、分析技術２１ｄおよび修正後２１ｅを対応付けた情報である。レポートＮｏ２１ａは、複数の分析技術から生成されるレポートのＮｏを示す。コメントＩＤ２１ｂは、レポートに含まれる文に対するコメントのＩＤを示す。修正前２１ｃは、レポートに含まれる修正前の文を示す。分析技術２１ｄは、修正前の文を生成した分析技術の名称を示す。修正前２１ｃが示す修正前の文は、どの分析技術で生成されたものなのか把握されるので、分析技術２１ｄは、修正前２１ｃが示す修正前の文と紐付いている。修正後２１ｅは、修正前２１ｃが示す文を修正した後の文を示す。なお、実施例１では、修正前２１ｃが示す文と修正後２１ｅが示す文とは、複数の分析技術のうちいずれの分析技術に関するものなのかが把握されている。

図１に戻って、修正箇所付き文マッチング表２２は、文マッチング表２１に修正箇所を追加した表である。なお、修正箇所付き文マッチング表２２を、説明の便宜上、文マッチング表２１と異なる表として説明するが、これに限定されず、同じ表としても良い。また、修正箇所付き文マッチング表２２は、修正単語特定部１４０によって生成される。

ここで、修正箇所付き文マッチング表２２のデータ構造の一例を、図３を参照して説明する。図３は、実施例１に係る修正箇所付き文マッチング表のデータ構造の一例を示す図である。

図３に示すように、修正箇所付き文マッチング表２２は、レポートＮｏ２２ａ、コメントＩＤ２２ｂ、修正前２２ｃ、分析技術２２ｄ、修正後２２ｅ、修正ＩＤ２２ｆおよび修正箇所２２ｇを対応付けた情報である。レポートＮｏ２２ａ～修正後２２ｅは、文マッチング表２１のレポートＮｏ２１ａ～修正後２１ｅと同様であるので、その説明を省略する。修正ＩＤ２２ｆは、修正に対するＩＤを示す。修正箇所２２ｇは、修正前の文から修正後の文へ修正した場合の修正の箇所を示す。修正箇所２２ｇは、修正前の文の修正される箇所と修正後の文の修正された箇所とを含む。

一例として、修正前２２ｃが「ＨＯＧＥＨＯＧＥは毎日６時に負荷が高くなる傾向です」であり、修正後２２ｅが「ＨＯＧＥＨＯＧＥは毎日７時に負荷が高くなる傾向です」である場合には、修正箇所２２ｇとして「毎日６時⇒毎日７時」を記憶している。「毎日６時」は、修正前の文の修正される箇所である。「毎日７時」は、修正後の文の修正された箇所である。

図１に戻って、形態素解析部１１０は、修正前の文と修正後の文とをそれぞれ形態素解析を行う。例えば、形態素解析部１１０は、文マッチング表２１のレポートＮｏ２１ａおよびコメントＩＤ２１ｂに対応する修正前２１ｃが示す修正前の文と修正後２１ｅが示す修正後の文を取得する。形態素解析部１１０は、修正前の文について、形態素解析を行い、単語に分割する。形態素解析部１１０は、修正後の文について、形態素解析を行い、単語に分割する。なお、形態素解析は、例えば、ＭｅＣａｂを適用しても良いし、Ｊａｎｏｍｅを適用しても良いし、いかなる解析ツールを適用しても良い。

単語整形部１２０は、修正前の文および修正後の文ごとに、分割された単語を整形する。例えば、単語整形部１２０は、修正前の文について、品詞に基づいて、分割された単語を整形する。単語整形部１２０は、修正後の文について、品詞に基づいて、分割された単語を整形する。一例として、単語整形部１２０は、対象の単語の品詞のタイプが特定の品詞タイプである場合には、前の単語と対象の単語とを連結して、１つの単語に整形する。特定の品詞タイプは、例えば、動詞、助動詞または形容動詞である。これは、形態素解析部１１０によって単語が細かく分割されると、細かく分割された単語が雑音となって文の特徴をうまく表せなくなってしまうからである。つまり、文の特徴は、目的語や述語により現れるので、分析技術のコメント（文）の構造に沿って分割できれば、分析技術の特徴や文の特徴が現れると推定される。

意味的類似度算出部１３０は、分割した単語ごとに意味的な特徴量を表す単語ベクトル生成する。意味的類似度算出部１３０は、生成した単語ごとの単語ベクトルから、修正前の文に含まれる単語と修正後の文に含まれる単語の意味的類似度を算出する。ここでいう意味的類似度とは、２つの単語が意味的に類似する度合いのことをいう。

例えば、意味的類似度算出部１３０は、修正前の文を分割した各単語の単語ベクトルを生成する。また、意味的類似度算出部１３０は、修正後の文を分割した各単語の単語ベクトルを生成する。なお、単語ベクトルは、例えばｗｏｒｄ２ｖｅｃを適用すれば良いが、いかなる公知技術を適用しても良い。実施例では、ｗｏｒｄ２ｖｅｃを適用した場合を説明する。

そして、意味的類似度算出部１３０は、修正前の文を分割した各単語と修正後の文を分割した各単語とを順に比較するために、修正前の文の各単語の単語ベクトルと修正後の文の各単語の単語ベクトルとの意味的類似度を算出する。すなわち、意味的類似度算出部１３０は、修正前の文の単語ごとに、各単語と、修正後の文の各単語との意味的類似度を算出する。意味的類似度を算出するのは、修正箇所は、文中の位置が違っても、数値や文字が変わっても、意味的に似ていると推定されるからである。なお、意味的類似度は、例えばコサイン類似度を適用すれば良いが、いかなる公知技術を適用しても良い。実施例では、コサイン類似度を適用した場合を説明する。

修正単語特定部１４０は、意味的類似度が最も高くなる単語のペアを関連付ける。

また、修正単語特定部１４０は、関連付けしたペアの単語が異なる箇所を修正箇所として特定する。例えば、修正単語特定部１４０は、関連付けしたペアのうち、意味的類似度が修正なしであることを示す「１．０」以外のペアを修正箇所として特定する。そして、修正単語特定部１４０は、修正箇所を、修正前の文と修正後の文と対応付けて修正箇所付き文マッチング表２２に格納する。

［単語整形処理の一例］
ここで、単語整形部１２０によって行われる単語整形処理の一例を、図４を参照して説明する。図４は、実施例１に係る単語整形処理の一例を示す図である。図４では、「負荷が増加しています」という文の単語整形処理を説明する。

図４の符号ａ１に示すように、「負荷が増加しています」という文が、形態素解析部１１０によって品詞に分割されている。かかる文は、「負荷」、「が」、「増加」、「し」、「て」、「い」、「ます」に分割されている。ところが、細かく分割されすぎた単語は雑音となって、文の特徴をうまく表せない。ここでは、「し」、「て」、「い」の単語が雑音となって、文の特徴をうまく表せない。なお、「し」、「て」、「い」、「ます」のそれぞれの品詞は、助動詞、助詞、助動詞、助動詞である。

そこで、単語整形部１２０は、対象の単語の品詞のタイプが例えば動詞、助動詞または形容動詞である場合には、前の単語と対象の単語とを連結して、１つの単語に整形する。符号ａ２に示すように、対象の単語「し」の品詞のタイプは助動詞であるので、単語整形部１２０は、前の単語「増加」と対象の単語「し」とを連結して、１つの単語「増加し」に整形する。また、対象の単語「い」の品詞のタイプは助動詞であるので、単語整形部１２０は、前の単語「て」と対象の単語「い」とを連結して、１つの単語「てい」に整形する。さらに、対象の単語「ます」の品詞のタイプは助動詞であるので、単語整形部１２０は、前の単語「てい」と対象の単語「ます」とを連結して、１つの単語「ています」に整形する。

これにより、単語整形部１２０は、文の構造に沿って単語を整形することで、分析技術の特徴や文の特徴が現れるように、単語を分割できる。

［修正箇所特定処理の一例］
ここで、意味的類似度算出部１３０によって行われる意味的類似度算出処理および修正単語特定部１４０によって行われる修正単語特定処理の一例を、図５を参照して説明する。図５は、実施例１に係る意味的類似度算出処理および修正単語特定処理の一例を示す図である。図５では、符号ｂ１で表わす文と符号ｂ２で表わす文の修正箇所を特定する場合を説明する。符号ｂ１で表わす文は、「ＨＯＧＥＨＯＧＥは毎日３時に負荷が高くなっています」であり、単語が既に分割および整形された状態であるとする。符号ｂ２で表わす文は、「ＨＯＧＥＨＯＧＥは利用量が毎日４時に高い傾向です」であり、単語が既に分割および整形された状態であるとする。「」が単語の区切りである。

意味的類似度算出部１３０は、符号ｂ１の文を分割した各単語の単語ベクトルを生成する。意味的類似度算出部１３０は、符号ｂ２の文を分割した各単語の単語ベクトルを生成する。そして、意味的類似度算出部１３０は、符号ｂ１の文を分割した各単語と符号ｂ２の文を分割した各単語とを順に比較するために、符号ｂ１の文の各単語の単語ベクトルと符号ｂ２の文の各単語の単語ベクトルとのコサイン類似度を算出する。ここでは、符号ｂ１の文の単語「毎日３時」に着目して、この単語と符号ｂ２の文の各単語とのコサイン類似度を算出する場合を説明する。符号ｂ１の文の単語「毎日３時」と符号ｂ２の文の単語「利用量」とのコサイン類似度は、「－０．１０９」と算出される。符号ｂ１の文の単語「毎日３時」と符号ｂ２の文の単語「毎日４時」とのコサイン類似度は、「０．３２８」と算出される。符号ｂ１の文の単語「毎日３時」と符号ｂ２の文の単語「高い傾向です」とのコサイン類似度は、「０．０８９」と算出される。

そして、修正単語特定部１４０は、コサイン類似度が最も高くなる単語のペアを関連付ける。ここでは、符号ｂ１の文の単語「ＨＯＧＥＨＯＧＥ」は、符号ｂ２の文の単語「ＨＯＧＥＨＯＧＥ」と関連付けられる。コサイン類似度は１．０である。符号ｂ１の文の単語「は」は、符号ｂ２の文の単語「は」と関連付けられる。コサイン類似度は１．０である。符号ｂ１の文の単語「毎日３時」は、符号ｂ２の文の単語「毎日４時」と関連付けられる。コサイン類似度は０．３２８である。すなわち、これらの単語は、数値が変わっても意味的に似ている。符号ｂ１の文の単語「に」は、符号ｂ２の文の単語「に」と関連付けられる。コサイン類似度は１．０である。符号ｂ１の文の単語「利用量」は、符号ｂ２の文の単語「負荷」と関連付けられる。コサイン類似度は０．１９１である。すなわち、これらの単語は、文字が変わっても意味的に似ている。符号ｂ１の文の単語「が」は、符号ｂ２の文の単語「が」と関連付けられる。コサイン類似度は１．０である。符号ｂ１の文の単語「高くなっています」は、符号ｂ２の文の単語「高い傾向です」と関連付けられる。コサイン類似度は０．２１３である。すなわち、これらの単語は、文字が変わっても意味的に似ている。

そして、修正単語特定部１４０は、関連付けしたペアのうち、意味的類似度が修正なしであることを示す「１．０」以外のペアを修正箇所として特定する。ここでは、符号ｂ１の文の「毎日３時」と符号ｂ２の文の「毎日４時」とのペアが修正箇所として特定される。符号ｂ１の文の「利用量」と符号ｂ２の文の「負荷」とのペアが修正箇所として特定される。符号ｂ１の文の「高くなっています」と符号ｂ２の文の「高い傾向です」とのペアが修正箇所として特定される。

これにより、修正単語特定部１４０は、修正前の文を修正した修正後の文に対する分析技術の修正箇所を特定することが可能となる。言い換えれば、修正単語特定部１４０は、修正後の文の中で、修正前の文を生成した分析技術にフィードバックする修正箇所を特定することが可能となる。

［修正箇所特定処理のフローチャート］
図６は、実施例１に係る修正箇所特定処理のフローチャートの一例を示す図である。図６では、文マッチング表２１が予め生成されているとする。

図６に示すように、修正箇所特定部１００は、マッチングした修正前と修正後の文を取得する（ステップＳ１１）。例えば、形態素解析部１１０は、文マッチング表２１から、レポートＮｏ２１ａおよびコメントＩＤ２１ｂに対応する、修正前２１ｃが示す修正前の文と修正後２１ｅが示す修正後の文とを取得する。

修正箇所特定部１００は、修正前と修正後の文を、それぞれ形態素解析により、品詞に分解する（ステップＳ１２）。そして、修正箇所特定部１００は、修正前と修正後の文ごとに、品詞を基にした単語を整形する（ステップＳ１３）。なお、単語の整形処理のフローチャートの一例は、後述する。

そして、修正箇所特定部１００は、単語ベクトルを用いた意味的類似度による修正箇所（単語ペア）を特定する（ステップＳ１４）。なお、修正箇所の特定処理のフローチャートの一例は、後述する。そして、修正箇所特定部１００は、修正箇所特定処理を終了する。

［単語整形処理のフローチャート］
図７は、実施例１に係る単語整形処理のフローチャートの一例を示す図である。なお、図７では、単語整形部１２０は、修正前の文について、形態素解析で分解された各単語を受け付けると、単語整形処理を実行する。また、単語整形部１２０は、修正後の文について、形態素解析で分解された各単語を受け付けると、単語整形処理を実行する。

文の各単語を受け付けた単語整形部１２０は、文の単語と品詞のペアの集合を生成する（ステップＳ２１）。例えば、単語整形部１２０は、文のｉ番目の単語について、単語ｗｉと品詞ｈｉのペアの集合ｗｏｒｄｓを［（ｗ１，ｈ１），（ｗ２，ｈ２），（ｗ３，ｈ３），・・・］と生成する。なお、ｉは、１以上の整数である。

単語整形部１２０は、集合から順番に単語と品詞のペアを取り出す（ステップＳ２２）。例えば、単語整形部１２０は、集合ｗｏｒｄｓからｉ番目の単語と品詞のペアを取り出す。

単語整形部１２０は、取り出した品詞が助詞、助動詞または形容動詞であるか否かを判定する（ステップＳ２３）。取り出した品詞が助詞、助動詞および形容動詞でないと判定した場合には（ステップＳ２３；Ｎｏ）、単語整形部１２０は、ステップＳ２５に移行する。

一方、取り出した品詞が助詞、助動詞または形容動詞であると判定した場合には（ステップＳ２３；Ｙｅｓ）、単語整形部１２０は、前の単語と現在の単語を連結し、１つの単語に整形する（ステップＳ２４）。単語が細かく分割されたままだと、細かく分割された単語が雑音となって文の特徴をうまく表せなくなってしまうからである。そして、単語整形部１２０は、ステップＳ２５に移行する。

ステップＳ２５において、単語整形部１２０は、単語を、整形後の単語リストｎｅｗｗｏｒｄｓに追加する（ステップＳ２５）。そして、単語整形部１２０は、集合から全てのペアを取り出したか否かを判定する（ステップＳ２６）。集合から全てのペアを取り出していないと判定した場合には（ステップＳ２６；Ｎｏ）、単語整形部１２０は、次のペアを取り出すべく、ステップＳ２２に移行する。

一方、集合から全てのペアを取り出したと判定した場合には（ステップＳ２６；Ｙｅｓ）、単語整形部１２０は、単語整形処理を終了する。すなわち、単語リストｎｅｗｗｏｒｄｓに含まれる各単語が、文の整形後の各単語である。

［修正単語特定処理のフローチャート］
図８は、実施例１に係る修正単語特定処理のフローチャートの一例を示す図である。なお、図８では、意味的類似度算出部１３０は、修正前の文の整形後の各単語と、修正後の文の整形後の各単語を受け付けたものとする。

意味的類似度算出部１３０は、修正前の文と修正後の文の各単語の単語ベクトルの集合を生成する（ステップＳ３１）。例えば、意味的類似度算出部１３０は、修正前の文の各単語の単語ベクトルの集合ｂｅｆｏｒｅｗｏｒｄｓを［ｗ１，ｗ２，ｗ３，・・・ｗＮ］と生成する。なお、Ｎは、修正前の文の単語数である。意味的類似度算出部１３０は、修正後の文の各単語の単語ベクトルの集合ａｆｔｅｒｗｏｒｄｓを［ｗ´１，ｗ´２，ｗ´３，・・・ｗ´Ｍ］と生成する。なお、Ｍは、修正後の文の単語数である。

意味的類似度算出部１３０は、修正前の単語と修正後の単語の単語ベクトルのコサイン類似度を算出する（ステップＳ３２）。例えば、意味的類似度算出部１３０は、修正前の単語ｗｉと修正後の単語ｗ´ｊとの乗算で得られた値をコサイン類似度ｃｏｓ＿ｉｊとして算出する。なお、ｉは、０より大きくＮ以下の整数である。ｊは、０より大きくＭ以下の整数である。

そして、意味的類似度算出部１３０は、文中に早く出現する修正前の単語（ｉ＝１）から、最もコサイン類似度が高い修正後の単語を見つける。例えば、意味的類似度算出部１３０は、修正前の単語ｉに対して、ｃｏｓ＿ｉ１，ｃｏｓ＿ｉ２，・・・、ｃｏｓ＿ｉＭのコサイン類似度のうち最も高いコサイン類似度を持つ修正後のｊ（＝Ｌ）番目の単語をみつける（ステップＳ３３）。

そして、意味的類似度算出部１３０は、みつけた単語ペアの単語が含まれる単語ペアを除去する（ステップＳ３４）。例えば、意味的類似度算出部１３０は、修正前の単語ｗ１と修正後の単語ｗＬとを除去する。単語ペアに含まれる単語が、この後、別の単語と単語ペアを構成するのを防止するためである。

そして、意味的類似度算出部１３０は、次に文中に早く出現する修正前の単語（ｉ＞１）があるか否かを判定する（ステップＳ３５）。次に文中に早く出現する修正前の単語（ｉ＞１）があると判定した場合には（ステップＳ３５；Ｙｅｓ）、意味的類似度算出部１３０は、次に文中に早く出現する修正前の単語を処理すべく、ステップＳ３３に移行する。

一方、次に文中に出現する修正前の単語（ｉ＞１）がないと判定した場合には（ステップＳ３５；Ｎｏ）、修正単語特定部１４０は、みつけた単語ペアの中でコサイン類似度が「１」でない単語ペアを修正箇所として特定する（ステップＳ３６）。なお、コサイン類似度「１」は、修正なしであることを示す値である。そして、修正単語特定部１４０は、修正単語特定処理を終了する。

［実施例１の効果］
上記実施例１では、レポート修正内容特定装置１は、第１の文と当該第１の文を修正した第２の文をそれぞれ形態素解析して単語に分割する。レポート修正内容特定装置１は、分割した単語ごとに意味的な特徴量を表す単語ベクトルから、第１の文に含まれる単語と第２の文に含まれる単語の意味的類似度を算出する。レポート修正内容特定装置１は、意味的類似度が最も高くなる単語のペアを関連付け、関連付けしたペアの単語が異なる箇所を修正箇所として抽出する。かかる構成によれば、レポート修正内容特定装置１は、修正内容に対する分析技術の修正箇所を特定することができる。

ところで、実施例１では、レポート修正内容特定装置１は、第１の文を修正した第２の文がどの分析技術に関するものかが把握されている場合に、第１の文と第２の文（修正内容）に関し、修正内容に対する分析技術の修正箇所を特定すると説明した。しかしながら、レポート修正内容特定装置１は、これに限定されず、第２の文がどの分析技術に関するものかが把握されていない場合に、分析技術と第２の文との対応関係を検出する場合であっても良い。

そこで、実施例２では、レポート修正内容特定装置１が、第２の文がどの分析技術に関するものかが把握されていない場合に、分析技術と第２の文との対応関係を検出する場合について説明する。

［実施例２に係るレポート修正内容特定装置の構成］
図９は、実施例２に係るレポート修正内容特定装置の構成を示す機能ブロック図である。なお、図１に示すレポート修正内容特定装置１と同一の構成については同一符号を示すことで、その重複する構成および動作の説明については省略する。実施例１と実施例２とが異なるところは、制御部１０に文マッチング部２００を追加した点にある。また、実施例１と実施例２とが異なるところは、記憶部２０に文対応表２３を追加した点にある。

文マッチング部２００は、複数の分析技術から生成されるレポート（修正前レポート）を修正したレポート（修正後レポート）に含まれる各文と分析技術との対応関係を検出する。修正前レポートは、複数の分析技術から生成される。修正後レポートは、修正前レポートをレポート作成者によって修正されたコメント群のことである。レポート作成者は、修正したコメントがどの分析技術に対応するのかわからない。このため、分析技術の開発者側では、レポート作成者がどの部分に対してどういった修正を加えたかのかわからない。つまり、分析技術の開発者は、レポート作成者によって修正されたコメントがフィードバックされても、どの分析技術を改善する必要があるのかわからない。そこで、文マッチング部２００は、修正前レポートを修正した修正後レポートに含まれる文と分析技術との対応関係を検出する。ここでは、文マッチング部２００は、文章分割部２１０、文補完部２２０、形態素解析部２３０、単語整形部２４０、意味的類似度算出部２５０、文字的類似度算出部２６０、統合類似度算出部２７０および類似文特定部２８０を有する。

ここで、レポートの一例を、図１０を参照して説明する。図１０は、レポートの一例を示す図である。図１０に示すように、修正前レポートと修正後レポートとが対応付けて表わされている。修正前レポートは、複数の分析技術によって生成されたコメント群である。修正後レポートは、修正前レポートを例えばレポート作成者が修正したコメント群である。

図９に戻って、文対応表２３は、修正前レポートに含まれる修正前の文と分析技術との対応関係を示す表である。なお、文対応表２３は、予め生成される。

ここで、文対応表２３のデータ構造の一例を、図１１を参照して説明する。図１１は、実施例２に係る文対応表のデータ構造の一例を示す図である。図１１に示すように、文対応表２３は、レポートＮｏ２３ａ、コメントＩＤ２３ｂ、修正前２３ｃおよび分析技術２３ｄを対応付けて記憶する。レポートＮｏ２３ａは、修正前レポートのレポートＮｏに対応する。コメントＩＤ２３ｂは、修正前レポートに含まれる文を識別するＩＤに対応する。修正前２３ｃは、修正前レポートに含まれる修正前の文を示す。分析技術２３ｄは、修正前の文を生成した分析技術を示す。

一例として、レポートＮｏ２３ａが「１」およびコメントＩＤ２３ｂが「１」である場合に、修正前２３ｃとして「ＨＯＧＥＨＯＧＥは毎日６時に負荷が高くなる傾向である」、分析技術２３ｄとして「時間傾向分析時間毎」と記憶している。また、レポートＮｏ２３ａが「１」およびコメントＩＤ２３ｂが「２」である場合に、修正前２３ｃとして「ＨＯＧＥＨＯＧＥへのアクセスは１月２５日～２月２日に負荷が高い状況です」、分析技術２３ｄとして「時間傾向分析日毎」と記憶している。このように、分析技術２３ｄが「時間傾向分析」であっても、日毎や時間毎で分析の対象が異なる。

図９に戻って、文章分割部２１０は、修正前レポートの文章および修正後レポートの文章をそれぞれ文に分割する。例えば、文章分割部２１０は、文章を句点および改行で文に分割する。

文補完部２２０は、分割された文の主語に着目して再度文を分解する。これは、レポートに含まれる文は、ある程度決まった形式を持っているためである。形式の一例として、「ＸＸはＹＹでＺＺです」がある。つまり、文は、１つの主語とそれに関する分析コメントで成り立っている。そこで、文補完部２２０は、文の分解によって主語が複数並列に並び、述語が１つの文の場合には、述語をコピーすることで文を補完する。

ここで、文章分割部２１０によって行われる文章分割処理および文補完部２２０によって行われる文補完処理の一例を、図１２を参照して説明する。図１２は、実施例２に係る文章分割処理および文補完処理の一例を示す図である。図１２では、修正前レポートの文章を文に分割し、文を補完する場合を説明する。

図１２に示すように、修正前レポートの文章が符号ｃ１で表わされている。文章分割部２１０は、修正前レポートの文章ｃ１を句点および改行で文に分割する。分割した結果が符号ｃ２で表わされている。ここでは、３つの文に分割されている。ところが、３番目の文は、主語が２つあるので、まだ分割しきれていない。

文補完部２２０は、３番目の文の主語に着目して再度文を分解する。ここでは、符号ｃ３で表わされているように、３番目の文が新たな３番目の文と４番目の文に分解されている。新たな３番目の文が「ＦＵＧＡＦＵＧＡは毎日５時」であり、４番目の文が「ＨＯＧＥＦＵＧＡは毎日６時に負荷が高くなる傾向です」である。

そこで、文補完部２２０は、主語が複数並列に並び、述語が１つの文の場合には、述語をコピーすることで文を補完する。ここでは、符号ｃ４で表わされているように、文補完部２２０は、３番目の文に、４番目の文の述語をコピーすることで、３番目の文を補完する。

図９に戻って、形態素解析部２３０は、修正前レポートの文章を分割した文（修正前の文）ごとに形態素解析を行う。形態素解析部２３０は、修正後レポートの文章を分割した文（修正後の文）ごとに形態素解析を行う。例えば、形態素解析部２３０は、対象の文について、形態素解析を行い、単語に分割する。なお、形態素解析は、例えば、ＭｅＣａｂを適用しても良いし、Ｊａｎｏｍｅを適用しても良いし、いかなる解析ツールを適用しても良い。

単語整形部２４０は、修正前の文ごとに、分割された単語を整形する。単語整形部２４０は、修正後の文ごとに、分割された単語を整形する。例えば、単語整形部２４０は、対象の文について、品詞に基づいて、分割された単語を整形する。一例として、単語整形部２４０は、対象の単語の品詞のタイプが特定の品詞タイプである場合には、前の単語と対象の単語とを連結して、１つの単語に整形する。特定の品詞タイプは、例えば、動詞、助動詞または形容動詞である。これは、形態素解析部２３０によって単語が細かく分割されると、細かく分割された単語が雑音となって文の特徴をうまく表せなくなってしまうからである。つまり、文の特徴は、目的語や述語により現れるので、分析技術のコメント（文）の構造に沿って分割できれば、分析技術の特徴や文の特徴が現れると推定される。

意味的類似度算出部２５０は、修正前の文ごとに、意味的な特徴量を表す文ベクトルから、修正後の文との意味的類似度を算出する。ここでいう意味的類似度とは、２つの文が意味的に類似する度合いのことをいう。

例えば、意味的類似度算出部２５０は、修正前の文を分割した各単語の単語ベクトルを生成する。そして、意味的類似度算出部２５０は、各単語の単語ベクトルの平均を算出し、修正前の文の文ベクトルとする。また、意味的類似度算出部２５０は、修正後の文を分割した各単語の単語ベクトルを生成する。そして、意味的類似度算出部２５０は、各単語の単語ベクトルの平均を算出し、修正後の文の文ベクトルとする。なお、単語ベクトルは、例えばｗｏｒｄ２ｖｅｃを適用すれば良いが、いかなる公知技術を適用しても良い。実施例では、ｗｏｒｄ２ｖｅｃを適用した場合を説明する。

そして、意味的類似度算出部２５０は、修正前の各文と修正後の各文とを順に比較するために、修正前の各文の文ベクトルと修正後の各文の文ベクトルとの意味的類似度を算出する。すなわち、意味的類似度算出部２５０は、修正前の文ごとに、各文と、修正後の各文との意味的類似度を算出する。なお、意味的類似度は、例えばコサイン類似度を適用すれば良いが、いかなる公知技術を適用しても良い。実施例では、コサイン類似度を適用した場合を説明する。これにより、意味的類似度算出部２５０は、意味的類似度を用いることで、同じ分析技術で生成した文同士を特定することが可能となる。

文字的類似度算出部２６０は、修正前の文ごとに、修正後の文との文字的類似度を算出する。ここでいう文字的類似度とは、２つの文が文字的に類似する度合いのことをいい、例えば、２つの文の文字的に類似する単語の数の文全体の割合のことをいう。

例えば、文字的類似度算出部２６０は、修正前の文を分割した各単語と、修正後の文を分割した各単語とを比較する。文字的類似度算出部２６０は、文字的に類似する単語の数をカウントし、修正前の文全体に占める類似単語の割合を文字的類似度として算出する。文字的な類似とは、完全一致や一部一致を含む。なお、数字の違いにより文字的類似度が低くならないように、数字を全て同一の別の文字（例えば、Ｘ）で置き換えてから処理することが望ましい。

ここで、文字的類似度の算出を行うのは、以下の理由による。前述した意味的類似度算出部２５０によって用いられた意味的類似度では、同じ分析技術で生成した文同士の類似を判別できる。ところが、時間単位について言及している文と、日単位のことについて言及している文のような異なる対象について分析した文同士の判別は難しい。異なる対象には、例えば、ホストや、日毎や時間毎などの時間単位が挙げられる。一例として、曜日や日付、時間は、意味的に近いので類似度が高くなりやすい。そこで、文字的類似度算出部２６０は、文同士を単語ごとに比較して、文字的に似ている単語の数をカウントし、文全体に占める割合を文字的類似度として算出するのである。

統合類似度算出部２７０は、修正前の文ごとに、修正後の文との統合類似度を算出する。ここでいう統合類似度とは、意味的類似度と文字的類似度とを組み合わせた類似度のことをいう。例えば、統合類似度算出部２７０は、修正前の文と修正後の文について、意味的類似度および文字的類似度の平均を算出する。なお、統合類似度の算出方法は、これに限定されず、意味的類似度および文字的類似度のどちらか一方に重い重みを付けて算出する方法であっても良い。

類似文特定部２８０は、統合類似度が最も高くなる、修正前の文および修正後の文のペアを類似文として特定する。これにより、類似文特定部２８０は、統合類似度が最も高い文のペアを、同じ分析技術、同じ対象に対して言及した文同士としてマッチングできる。

また、類似文特定部２８０は、特定した文のペアのうち修正後の文を修正前の文に対応付けて文マッチング表２１に格納する。

［意味的類似度算出処理の一例］
ここで、意味的類似度算出部２５０によって行われる意味的類似度算出処理の一例を、図１３Ａおよび図１３Ｂを参照して説明する。図１３Ａおよび図１３Ｂは、実施例２に係る意味的類似度算出処理の一例を示す図である。

図１３Ａでは、符号ｄ０で表わす文の文ベクトルについて説明する。符号ｄ０で表わす文は、「負荷が増加しています」であり、単語が既に分割および整形された状態であるとする。「」が単語の区切りである。

意味的類似度算出部２５０は、符号ｄ０の文を分割した各単語の単語ベクトルを生成する。そして、意味的類似度算出部２５０は、各単語の単語ベクトルの平均を算出し、符号ｄ０の文の文ベクトルとする。ここでは、符号ｄ０の文の文ベクトルは、「負荷」，「が」，「増加し」および「ています」のそれぞれの単語の単語ベクトルの平均となる。

図１３Ｂでは、符号ｄ１で表わす修正前の文と符号ｄ２～ｄ７で表わすそれぞれの修正後の文との意味的類似度を算出する場合を説明する。修正前の文ｄ１、修正後の文ｄ２～ｄ７は、それぞれ文ベクトルを有しているとする。

意味的類似度算出部２５０は、修正前の文ｄ１と修正後の各文ｄ２～ｄ７とを順に比較するために、修正前の文ｄ１の文ベクトルと修正後の各文ｄ２～ｄ７の文ベクトルとのコサイン類似度を算出する。ここでは、修正前の文ｄ１と修正後の文ｄ２とのコサイン類似度は、「－０．３８８７２・・」と算出される。修正前の文ｄ１と修正後の文ｄ３とのコサイン類似度は、「－０．３４３４４・・」と算出される。修正前の文ｄ１と修正後の文ｄ４とのコサイン類似度は、「－０．４４０８４・・」と算出される。修正前の文ｄ１と修正後の文ｄ５とのコサイン類似度は、「０．５０４４５・・」と算出される。修正前の文ｄ１と修正後の文ｄ６とのコサイン類似度は、「－０．４５７７１・・」と算出される。修正前の文ｄ１と修正後の文ｄ７とのコサイン類似度は、「０．５０１４６・・」と算出される。この結果、修正前の文ｄ１と修正後の文ｄ５は、意味的に似ていることがわかる。修正前の文ｄ１と修正後の文ｄ７は、意味的に似ていることがわかる。すなわち、同じ負荷に関する時間傾向を分析した文同士の類似度が高くなっていることがわかる。

ところが、修正前の文ｄ１は、負荷に関する時間傾向に言及した文である。修正後の文ｄ５は、修正前の文ｄ１と同様、負荷に関する時間傾向に言及した文であるが、修正後の文ｄ７は、修正前の文ｄ１と同じ分析技術であるものの対象が異なる日傾向に言及した文である。すると、同じ負荷に関する分析技術であっても、異なる対象に言及した文同士の類似度も高くなってしまう。なお、類似度が高くなる対象の組合せには、時間と日に限定されず、時間と曜日、時間と日付、曜日と日付が含まれる。そこで、文字的類似度算出部２６０は、修正前の文と修正後の文との文字的類似度を算出する。

［文字的類似度算出処理の一例］
ここで、文字的類似度算出部２６０によって行われる文字的類似度算出処理の一例を、図１４Ａおよび図１４Ｂを参照して説明する。図１４Ａおよび図１４Ｂは、実施例２に係る文字的類似度算出処理の一例を示す図である。

図１４Ａでは、符号ｄ１０で表わす文と符号ｂ１１で表わす文との文字的類似度を算出する場合を説明する。符号ｄ１０で表わす文は、「ＨＯＧＥＨＯＧＥは毎日Ｘ時からＸ時に負荷が高くなります」であり、単語が既に分割および整形された状態であるとする。符号ｄ１１で表わす文は、「ＨＯＧＥＨＯＧＥは毎日Ｘ時に負荷が高くなる傾向です」であり、単語が既に分割および整形された状態であるとする。「」が単語の区切りである。また、数字は別の文字「Ｘ」で置き換えられている。

文字的類似度算出部２６０は、文ｄ１０を分割した各単語と、文ｄ１１を分割した各単語とを比較し、文字的に類似する単語の数をカウントし、文ｄ１０の全体に占める類似単語の割合を文字的類似度として算出する。ここでは、文ｄ１０と文ｄ１１とでは、「ＨＯＧＥＨＯＧＥ」、「毎日Ｘ時」および「負荷」が文字的に類似している。つまり、助詞を除いて、７単語中３単語がマッチしているので、文字的類似度は、３／７（＝０．４３）と算出される。

図１４Ｂでは、符号ｄ１で表わす修正前の文と符号ｄ２～ｄ７で表わすそれぞれの修正後の文との文字的類似度を算出する場合を説明する。修正前の文ｄ１、修正後の文ｄ２～ｄ７は、それぞれ、単語が既に分割および整形された状態であるとする。ここでは、修正前の文ｄ１と修正後の文ｄ２との文字的類似度は、「０」と算出される。修正前の文ｄ１と修正後の文ｄ３との文字的類似度は、「０」と算出される。修正前の文ｄ１と修正後の文ｄ４との文字的類似度は、「０」と算出される。修正前の文ｄ１と修正後の文ｄ５との文字的類似度は、「０．２８６」と算出される。修正前の文ｄ１と修正後の文ｄ６との文字的類似度は、「０」と算出される。修正前の文ｄ１と修正後の文ｄ７との文字的類似度は、「０．４３」と算出される。この結果、時間毎に言及した、修正前の文ｄ１と修正後の文ｄ７の組は、文字的に似ていることがわかる。同じ分析技術であっても、日毎に言及した文ｄ１と時間毎に言及した文ｄ５の組は、文ｄ１と文ｄ７の組に比べて、文字的に似ていないと評価される。

［統合類似度算出処理の一例］
ここで、統合類似度算出部２７０によって行われる統合類似度算出処理の一例を、図１５を参照して説明する。図１５は、実施例２に係る統合類似度算出処理の一例を示す図である。図１５では、符号ｄ１で表わす修正前の文と符号ｄ２～ｄ７で表わすそれぞれの修正後の文との統合類似度を算出する場合を説明する。

統合類似度算出部２７０は、修正前の文と修正後の文との意味的類似度および文字的類似度の平均を統合類似度として算出する。ここでは、修正前の文ｄ１と修正後の文ｄ２との統合類似度は、「－０．１８８７２・・」と算出される。修正前の文ｄ１と修正後の文ｄ３との文字的類似度は、「－０．１４３４４・・」と算出される。修正前の文ｄ１と修正後の文ｄ４との文字的類似度は、「－０．２４０８４・・」と算出される。修正前の文ｄ１と修正後の文ｄ５との文字的類似度は、「０．３９４４５・・」と算出される。修正前の文ｄ１と修正後の文ｄ６との文字的類似度は、「－０．２５７７１・・」と算出される。修正前の文ｄ１と修正後の文ｄ７との文字的類似度は、「０．４６３４９・・」と算出される。

この後、類似文特定部２８０は、統合類似度が最も高くなる、修正前の文および修正後の文のペアを類似文として特定する。ここでは、修正前の文ｄ１および修正後の文ｄ７のペアが、類似文として特定される。これにより、類似文特定部２８０は、類似文として特定されたペアを、同じ分析技術、同じ対象に対して言及した文同士としてマッチングできる。また、類似文特定部２８０は、修正後の文ｄ７の分析技術を特定できる。ここでは、修正前の文ｄ１および修正後の文ｄ７のペアが、負荷の時間傾向の分析に言及した文同士としてマッチングされる。補正後の文ｄ７は、負荷の時間傾向の分析技術と特定される。

［文マッチング処理のフローチャート］
図１６は、実施例２に係る文マッチング処理のフローチャートの一例を示す図である。図１６では、文マッチング表２１の修正前２１ｃと修正後２１ｅとがマッチング（対応付け）されていないものとする。

図１６に示すように、文マッチング部２００は、修正前のレポートの文章と修正後のレポートの文章を取得する（ステップＳ４１）。文マッチング部２００は、取得した修正前のレポートの文章と修正後のレポートの文章を１文ごとに分割する（ステップＳ４２）。

そして、文マッチング部２００は、１文を再度分解し、削れてしまった部分を補完する（ステップＳ４３）。例えば、文マッチング部２００は、分割された文の主語に着目して再度分解する。文マッチング部２００は、文の分解によって主語が複数並列に並び述語が１つの文の場合には、述語をコピーすることで文を補完する。

そして、文マッチング部２００は、修正前と修正後の各文を、形態素解析により、品詞に分解する（ステップＳ４４）。そして、文マッチング部２００は、修正前と修正後の文ごとに、品詞を基にした単語を整形する（ステップＳ４５）。なお、単語の整形処理のフローチャートの一例は、図７で示したので、その説明を省略する。

そして、文マッチング部２００は、修正前の文と修正後の文について、単語ベクトルによる意味的類似度を算出する（ステップＳ４６）。例えば、文マッチング部２００は、修正前の文を分割した各単語の単語ベクトルを生成する。そして、文マッチング部２００は、各単語の単語ベクトルの平均を算出し、修正前の文の文ベクトルとする。文マッチング部２００は、修正後の文を分割した各単語の単語ベクトルを生成する。そして、文マッチング部２００は、各単語の単語ベクトルの平均を算出し、修正後の文の文ベクトルとする。そして、文マッチング部２００は、修正前の各文の文ベクトルと、修正後の各文の文ベクトルとの意味的類似度を算出する。

また、文マッチング部２００は、修正前の文と修正後の文について、文字的類似度を算出する（ステップＳ４７）。例えば、文マッチング部２００は、修正前の文を分割した各単語と、修正後の文を分割した各単語とを比較する。文マッチング部２００は、文字的に類似する単語の数をカウントし、修正前の文全体に占める類似単語の割合を文字的類似度として算出する。

そして、文マッチング部２００は、修正前の文と修正後の文について、統合類似度を算出する（ステップＳ４８）。例えば、文マッチング部２００は、修正前の文と修正後の文との意味的類似度および文字的類似度の平均を算出する。

そして、文マッチング部２００は、修正前の文と修正後の文の対応付けを行い、修正後の各文の分析技術を特定する(ステップＳ４９)。例えば、文マッチング部２００は、統合類似度が最も高くなる、修正前の文と修正後の文のペアを類似文として特定する（対応付ける）。そして、文マッチング部２００は、特定したペアの修正前の文に対応する分析技術を、修正後の文の分析技術として特定する。そして、文マッチング部２００は、特定した文のペアのうち修正後の文を修正前の文に対応付けて文マッチング表２１に格納する。そして、文マッチング部２００は、文マッチング処理を終了する。

なお、文マッチング処理が終了した後、修正箇所特定部１００が、文マッチング表２１の、対応付けられた（マッチングされた）修正前の文と修正後の文に関し、修正箇所を特定すれば良い。

［実施例２の効果］
上記実施例２では、レポート修正内容特定装置１は、特定の分析技術により分析された第１の文と分析技術が未知の複数の第２の文をそれぞれ形態素解析して単語に分割する。レポート修正内容特定装置１は、該分割した単語ごとの単語ベクトルから第１の文および複数の第２の文それぞれの文章ベクトルを生成する。そして、レポート修正内容特定装置１は、第１の文および複数の第２の文それぞれの文ベクトルから第１の文と複数の第２の文それぞれとの意味的類似度を算出する。そして、レポート修正内容特定装置１は、意味的類似度に基づいて、第１の文と意味的に類似する第２の文を抽出する。かかる構成によれば、レポート修正内容特定装置１は、第１の文と意味的に類似する第２の文を抽出することで、第１の文と同じ分析技術で生成した第２の文を抽出することが可能となる。

また、上記実施例２では、レポート修正内容特定装置１は、第１の文と複数の第２の文それぞれとの類似する単語の数から文字的類似度を算出する。レポート修正内容特定装置１は、文字的類似度と意味的類似度とに基づいて、複数の第２の文の中から統合的に類似する第２の文を抽出する。かかる構成によれば、レポート修正内容特定装置１は、第１の文と意味的および文字的に類似する第２の文を抽出することで、第１の文と同じ分析技術および同じ対象に対して言及した第２の文を抽出することが可能となる。

ところで、実施例１，２では、レポート修正内容特定装置１は、同一の分析技術である修正前の第１の文と修正後の第２の文に関し、修正箇所を特定する場合を説明した。しかしながら、レポート修正内容特定装置１は、これに限定されず、さらに、修正箇所の修正タイプを特定しても良い。

そこで、実施例３では、レポート修正内容特定装置１は、修正前の第１の文を修正した修正後の第２の文について、修正箇所の修正タイプを特定する場合について説明する。

［実施例３に係るレポート修正内容特定装置の構成］
図１７は、実施例３に係るレポート修正内容特定装置の構成を示す機能ブロック図である。なお、図９に示すレポート修正内容特定装置１と同一の構成については同一符号を示すことで、その重複する構成および動作の説明については省略する。実施例１と実施例３とが異なるところは、制御部１０に修正タイプ特定部３００を追加した点にある。また、実施例２と実施例３とが異なるところは、記憶部２０に修正タイプ付き文マッチング表２４を追加した点にある。

修正タイプ付き文マッチング表２４は、修正箇所付き文マッチング表２２に修正タイプを追加した表である。なお、修正タイプ付き文マッチング表２４を、説明の便宜上、修正箇所付き文マッチング表２２と異なる表として説明するが、これに限定されず、同じ表としても良い。また、修正タイプ付き文マッチング表２４は、後述する修正タイプ推定部３２０によって生成される。

ここで、修正タイプ付き文マッチング表２４のデータ構造の一例を、図１８を参照して説明する。図１８は、実施例３に係る修正タイプ付き文マッチング表のデータ構造の一例を示す図である。

図１８に示すように、修正タイプ付き文マッチング表２４は、レポートＮｏ２４ａ、コメントＩＤ２４ｂ、修正前２４ｃ、分析技術２４ｄ、修正後２４ｅ、修正ＩＤ２４ｆ、修正箇所２４ｇおよび修正タイプ２４ｈを対応付けた情報である。レポートＮｏ２４ａ～修正箇所２４ｇは、修正箇所付き文マッチング表２２のレポートＮｏ２２ａ～修正箇所２２ｇと同様であるので、その説明を省略する。修正タイプ２４ｈは、修正箇所の誤りのタイプを示す。修正タイプ２４ｈには、「精度」や「文言」が含まれる。

一例として、修正箇所２４ｇが「毎日６時⇒毎日７時」である場合に、修正タイプ２４ｈとして「精度」と記憶している。また、修正箇所２４ｇが「多い状況です⇒高いです」である場合に、修正タイプ２４ｈとして「文言」と記憶している。

修正タイプ特定部３００は、修正文字特定部３１０および修正タイプ推定部３２０を有する。

修正文字特定部３１０は、修正箇所から修正文字を特定する。

例えば、修正文字特定部３１０は、修正単語特定部１４０によって修正箇所として特定された単語のペアをそれぞれ再び形態素解析して、品詞に応じた文字に分解する。そして、修正文字特定部３１０は、分解した文字同士を比較し、品詞が同じである異なる文字同士を修正文字として特定する。

一例として、単語のペアのうち、修正前の単語が「毎日６時」であり、修正後の単語が「毎日７時」であるとする。修正文字特定部３１０は、修正前の単語が再び形態素解析すると、「毎日６時」と分解する。修正文字特定部３１０は、修正後の単語が再び形態素解析すると、「毎日７時」と分解する。そして、修正文字特定部３１０は、分解された文字同士を比較すると、「６」と「７」が、品詞が同じ「数詞」である異なる文字同士であるので、これらの文字同士を修正文字として特定する。

別の例として、単語のペアのうち、修正前の単語が「毎日６時」であり、修正後の単語が「毎日６～７時」であるとする。修正文字特定部３１０は、修正前の単語を再び形態素解析すると、「毎日６時」と分解する。修正文字特定部３１０は、修正後の単語を再び形態素解析すると、「毎日６～７時」と分解する。そして、修正文字特定部３１０は、分解された文字同士を比較すると、「６」と「７」が、品詞が同じ「数詞」である異なる文字同士であるので、これらの文字同士を修正文字として特定する。ところが、修正は、「６」から「６～７」であるにもかかわらず、「６」から「７」の修正しか認識されない。そこで、修正文字特定部３１０は、「～」や「から」などが他の文字に繋がっている場合には、繋がっている文字も含めて修正文字とする。かかる場合には、修正文字特定部３１０は、「６」と「６７」が、品詞が同じ「数詞」である異なる文字同士であるので、これらの文字同士を修正文字として特定する。

修正タイプ推定部３２０は、修正箇所の修正タイプを推定する。例えば、修正タイプ推定部３２０は、修正文字特定部３１０によって特定された修正箇所に含まれる修正文字の品詞に基づいて、修正箇所の修正タイプを推定する。一例として、修正タイプ推定部３２０は、修正文字の品詞が数詞または形容詞である場合には、修正タイプを「精度」と推定する。すなわち、修正文字の品詞が数詞または形容詞である場合には、修正後の文で精度の修正が行われたと推定されるからである。また、修正タイプ推定部３２０は、修正文字の品詞が数詞および形容詞でない場合には、修正タイプを「文言」と推定する。すなわち、修正文字の品詞がそれ以外である場合には、修正後の文で文言の修正が行われたと推定されるからである。

また、修正タイプ推定部３２０は、修正タイプを修正箇所に対応付けて修正タイプ付き文マッチング表２４に格納する。

［修正タイプ特定処理のフローチャート］
図１９は、実施例３に係る修正タイプ特定処理のフローチャートの一例を示す図である。図１９では、修正タイプ特定部３００は、修正単語特定部１４０によって修正箇所として特定された、修正前と修正後の単語のペアを受け付けたものとする。

図１９に示すように、修正タイプ特定部３００は、修正前と修正後の単語ペアを再度形態素解析により品詞に分解する（ステップＳ５１）。修正タイプ特定部３００は、単語ペアの文字の集合を生成する（ステップＳ５２）。例えば、修正タイプ特定部３００は、修正前の単語の文字の集合ｂｅｆｏｒｅｃｈａｒａｓを［（ｃ１，ｈ１），（ｃ２，ｈ２），（ｃ３，ｈ３），・・・，（ｃＮ，ｈＮ）］と生成する。なお、ｃｉは、ｉ番目の修正前の文字であり、ｈｉは、ｉ番目の修正前の文字の品詞である。Ｎは、修正前の単語の文字数である。修正タイプ特定部３００は、修正後の単語の文字の集合ａｆｔｅｒｃｈａｒａｓを［（ｃ´１，ｈ´１），（ｃ´２，ｈ´２），（ｃ´３，ｈ´３），・・・，（ｃ´Ｍ，ｈ´Ｍ）］と生成する。なお、ｃｊは、ｊ番目の修正前の文字であり、ｈｊは、ｊ番目の修正前の文字の品詞である。Ｍは、修正前の単語の文字数である。

修正タイプ特定部３００は、修正前の文中に早く出現する文字（ｉ＝１）から修正前後の文字のペアを比較し、文字が異なり品詞が同じペアを取得する（ステップＳ５３）。ここでは、文字のペアを示すｃｉとｃ´ｊ（＝Ｌ）が異なり、品詞が同じであったとする。そして、修正タイプ特定部３００は、みつけた修正後の文字ｃ´Ｌを除去する（ステップＳ５４）。

修正タイプ特定部３００は、次に修正前の文中に早く出現する文字（ｉ＝ｉ＋１）があるか否かを判定する（ステップＳ５５）。次に修正前の文中に早く出現する文字があると判定した場合には（ステップＳ５５；Ｙｅｓ）、修正タイプ特定部３００は、次の文字を処理すべく、ステップＳ５３に移行する。

一方、次に修正前の文中に早く出現する文字がないと判定した場合には（ステップＳ５５；Ｎｏ）、修正タイプ特定部３００は、みつけたペアを修正文字のペアとして特定する（ステップＳ５６）。そして、修正タイプ特定部３００は、修正文字のペアの文字の中で、数詞かつ「から」や「～」で他の数詞と接続される文字を修正文字に連結する（ステップＳ５７）。

そして、修正タイプ特定部３００は、修正文字のペアの品詞が数詞または形容詞であるか否かを判定する（ステップＳ５８）。修正文字のペアの品詞が数詞または形容詞であると判定した場合には（ステップＳ５８；Ｙｅｓ）、修正タイプ特定部３００は、修正タイプを「精度」に推定する（ステップＳ５９）。そして、修正タイプ特定部３００は、修正タイプ特定処理を終了する。

一方、修正文字のペアの品詞が数詞および形容詞でないと判定した場合には（ステップＳ５８；Ｎｏ）、修正タイプ特定部３００は、修正タイプを「文言」に推定する（ステップＳ６０）。そして、修正タイプ特定部３００は、修正タイプ特定処理を終了する。

［実施例３の効果］
上記実施例３では、レポート修正内容特定装置１は、抽出した修正箇所を有するペアの単語をそれぞれ再び形態素解析して品詞に応じた文字に分割する。レポート修正内容特定装置１は、ペアの単語ごとに該分割した文字同士を比較し、異なる文字同士の品詞に基づいて、修正箇所の修正タイプを特定する。かかる構成によれば、レポート修正内容特定装置１は、修正箇所の修正タイプを特定することで、修正箇所の誤りのタイプを判別できる。この結果、レポート修正内容特定装置１は、修正前のレポートについて、修正タイプを含む修正内容を該当する分析技術の開発者にフィードバックすることで、分析技術の精度を向上させることができる。

［その他］
なお、レポート修正内容特定装置１は、既知のパーソナルコンピュータ、ワークステーションなどの情報処理装置に、上記した制御部１０と、記憶部２０などの各機能を搭載することによって実現することができる。

また、図示したレポート修正内容特定装置１の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、レポート修正内容特定装置１の分散・統合の具体的態様は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、形態素解析部１１０と単語整形部１２０とを１つの部として統合しても良い。また、意味的類似度算出部１３０を、単語ベクトルを生成する生成部と、意味的類似度を算出する算出部とに分離しても良い。また、記憶部２０をレポート修正内容特定装置１の外部装置としてネットワーク経由で接続するようにしても良い。

また、上記実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１に示したレポート修正内容特定装置１と同様の機能を実現する修正内容特定プログラムを実行するコンピュータの一例を説明する。図２０は、修正内容特定プログラムを実行するコンピュータの一例を示す図である。

図２０に示すように、コンピュータ５００は、各種演算処理を実行するＣＰＵ５０３と、ユーザからのデータの入力を受け付ける入力装置５１５と、表示装置５０９を制御する表示制御部５０７とを有する。また、コンピュータ５００は、記憶媒体からプログラムなどを読取るドライブ装置５１３と、ネットワークを介して他のコンピュータとの間でデータの授受を行う通信制御部５１７とを有する。また、コンピュータ５００は、各種情報を一時記憶するメモリ５０１と、ＨＤＤ（Hard Disk Drive）５０５を有する。そして、メモリ５０１、ＣＰＵ５０３、ＨＤＤ５０５、表示制御部５０７、ドライブ装置５１３、入力装置５１５、通信制御部５１７は、バス５１９で接続されている。

ドライブ装置５１３は、例えばリムーバブルディスク５１０用の装置である。ＨＤＤ５０５は、修正内容特定プログラム５０５ａおよび修正内容特定処理関連情報５０５ｂを記憶する。

ＣＰＵ５０３は、プログラム５０５ａを読み出して、メモリ５０１に展開し、プロセスとして実行する。かかるプロセスは、レポート修正内容特定装置１の各機能部に対応する。修正内容特定処理関連情報５０５ｂは、文マッチング表２１および修正箇所付き文マッチング表２２などに対応する。そして、例えばリムーバブルディスク５１０が、修正内容特定プログラム５０５ａなどの各情報を記憶する。

なお、修正内容特定プログラム５０５ａについては、必ずしも最初からＨＤＤ５０５に記憶させておかなくても良い。例えば、コンピュータ５００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ（Digital Versatile Disk）、光磁気ディスク、ＩＣ（Integrated Circuit）カードなどの「可搬用の物理媒体」に当該プログラムを記憶させておく。そして、コンピュータ５００がこれらから修正内容特定プログラム５０５ａを読み出して実行するようにしても良い。

１レポート修正内容特定装置
１０制御部
１００修正箇所特定部
１１０形態素解析部
１２０単語整形部
１３０意味的類似度算出部
１４０修正単語特定部
２００文マッチング部
２１０文章分割部
２２０文補完部
２３０形態素解析部
２４０単語整形部
２５０意味的類似度算出部
２６０文字的類似度算出部
２７０統合類似度算出部
２８０類似文特定部
３００修正タイプ特定部
３１０修正文字特定部
３２０修正タイプ推定部
２０記憶部
２１文マッチング表
２２修正箇所付き文マッチング表
２３文対応表
２４修正タイプ付き文マッチング表

Claims

コンピュータに、
第１の文と当該第１の文を修正した第２の文をそれぞれ形態素解析して単語に分割し、
該分割した単語ごとに意味的な特徴量を表す単語ベクトルから、前記第１の文に含まれる単語と前記第２の文に含まれる単語の意味的類似度を算出し、
前記意味的類似度が最も高くなる単語のペアを関連付け、
関連付けしたペアの単語が異なる箇所を修正箇所として抽出し、
該抽出した修正箇所を有するペアの単語をそれぞれ再び形態素解析して品詞に応じた文字に分割し、
前記ペアの単語ごとに該分割した文字同士を比較し、異なる文字同士の品詞に基づいて、前記修正箇所の修正タイプを特定する
処理を実行させる修正内容特定プログラム。
特定の分析技術により分析された前記第１の文と前記分析技術が未知の複数の第２の文をそれぞれ形態素解析して単語に分割し、
該分割した単語ごとの前記単語ベクトルから前記第１の文および複数の前記第２の文のそれぞれの文章ベクトルを生成し、前記第１の文および複数の前記第２の文のそれぞれの文ベクトルから前記第１の文と複数の前記第２の文のそれぞれとの意味的類似度を算出し、
前記意味的類似度に基づいて、前記第１の文と意味的に類似する前記第２の文を抽出する
ことを特徴とする請求項１に記載の修正内容特定プログラム。
該抽出する処理は、
前記第１の文と複数の前記第２の文のそれぞれとの類似する単語の数から文字的類似度を算出し、
前記文字的類似度と前記意味的類似度とに基づいて、複数の前記第２の文の中から統合的に類似する前記第２の文を抽出する
ことを特徴とする請求項２に記載の修正内容特定プログラム。
コンピュータに、
複数の分析技術によって生成される複数の文に含まれる、特定の分析技術により分析された第１の文と前記分析技術が未知の前記複数の文を修正した複数の第２の文をそれぞれ形態素解析して単語に分割し、
該分割した単語ごとの意味的な特徴量を表す単語ベクトルから前記第１の文および複数の前記第２の文のそれぞれの文ベクトルを生成し、前記第１の文および複数の前記第２の文のそれぞれの文ベクトルから前記第１の文と複数の前記第２の文のそれぞれとの意味的類似度を算出し、
前記意味的類似度に基づいて、前記第１の文と意味的に類似する前記第２の文を抽出するとともに、前記第２の文の分析技術を前記特定の分析技術として特定し、
前記第１の文と特定した第２の文とをそれぞれ形態素解析して単語に分割し、
該分割した単語ごとに意味的な特徴量を表す単語ベクトルから、前記第１の文に含まれる単語と前記第２の文に含まれる単語の意味的類似度を算出し、
前記意味的類似度が最も高くなる単語のペアを関連付け、
関連付けしたペアの単語が異なる箇所を修正箇所として抽出する
処理を実行させる修正内容特定プログラム。
第１の文と当該第１の文を修正した第２の文をそれぞれ形態素解析して単語に分割する分割部と、
前記分割部によって分割された単語ごとに意味的な特徴量を表す単語ベクトルから、前記第１の文に含まれる単語と前記第２の文に含まれる単語の意味的類似度を算出する算出部と、
前記意味的類似度が最も高くなる単語のペアを関連付ける関連付け部と、
前記関連付け部によって関連付けられたペアの単語が異なる箇所を修正箇所として抽出する抽出部と、
前記抽出部によって抽出された修正箇所を有するペアの単語をそれぞれ再び形態素解析して品詞に応じた文字に分割する分割部と、
前記分割部によって前記ペアの単語ごとに分割された文字同士を比較し、異なる文字同士の品詞に基づいて、前記修正箇所の修正タイプを特定する特定部と、
を有することを特徴とするレポート修正内容特定装置。