JP2017068435A

JP2017068435A - 文章データ処理装置、文章データ処理方法およびプログラム

Info

Publication number: JP2017068435A
Application number: JP2015191321A
Authority: JP
Inventors: 中島　章; Akira Nakajima; 章中島
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2017-04-06

Abstract

【課題】形態素解析が適用された自然言語処理を用いて、形態素同士の意味的な結合関係を作成するときに、形態素同士の意味的な結合関係が複雑化することを抑制すること。【解決手段】解析部は、文書データの中から、係り元形態素と、係り元形態素の直後の助詞と、助詞よりも後方の係り先形態素とを抽出し、かつ、係り元形態素と係り先形態素との間の形態素間距離を算出する。判定部は、複数の事例を学習済であって、係り元形態素と係り先形態素との間の関連性を判定する。複数の事例の各々は、助詞と、助詞の直前の形態素である係り元形態素と、助詞の後方の形態素である係り先形態素との間の形態素間距離と、係り元形態素と係り先形態素との間の関連性を示す解答とを含む。判定部は、解析部から、助詞および形態素間距離を含む入力データを受け取り、助詞および形態素間距離に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無を判定する。【選択図】図３

Description

本発明は、文章データ処理装置、文章データ処理方法およびプログラムに関する。

形態素解析が適用された自然言語処理では、例えば、文章が複数の形態素（名詞や動詞など、意味を持つ最小の構成要素）に分解され、分解された複数の形態素を基に文章が解析される。

上述の自然言語処理を適用した関連技術の一例として、特許文献１が挙げられる。特許文献１は、ＦＭＥＡ（Failure Mode and Effects Analysis：故障モードと影響解析）シートを自動で作成する技術を開示している。特許文献１によれば、オペレータは、ＦＭＥＡに関する事項が自由形式で記述された文書データを用意するだけでよい。ＦＭＥＡに関する内容の形態素（例：故障が発生した部品名）が文章データから複数抽出され、抽出された複数の形態素を基に、ＦＭＥＡシートが作成される。

更に、特許文献１は、形態素の共起頻度を基に作成した形態素ネットワーク図（共起頻度ネットワーク図）に関する技術を開示している。ここで、形態素ネットワーク図とは、例えば、無向グラフや有向グラフのように、形態素同士の意味的な結合関係を表す図である。特許文献１の例では、形態素ネットワーク図の内容がＦＭＥＡシートに反映される。

特許第５０１１９４７号公報

形態素ネットワーク図を作成する場合のように、形態素解析が適用された自然言語処理を用いて形態素同士の意味的な結合関係を作成する過程では、次のような事が起こり得る。

処理対象の文章の量が多くなるほど、形態素解析によって得られる形態素の種類も増える。また、共起頻度を基に形態素リンクリストを作成すると、形態素同士の意味的な関連性は考慮せず、無作為にリストが作成されるため、形態素同士の結合の組み合わせ数は膨大となる。ここで、「形態素リンク」とは、例えば、２つの形態素の間の結合を示すリンクである。図１は、形態素の数が膨大な場合（例：１０００個）の一例を示す形態素ネットワーク図である。例えば、図１に示す形態素Ｍ_１に着目すると、形態素Ｍ_１は、形態素Ｍ_１自身と関連性のある別の形態素Ｍ_２と結合している。更に、形態素Ｍ_２は、形態素Ｍ_２自身と関連性のある別の形態素Ｍ_３と結合している。このように、互いに関連性のある２つの形態素の結合が繰り返されている。そのため、図１に示すように、形態素解析によって得られる形態素の数が膨大である場合、形態素リンクの数も膨大になりやすい。このように、形態素リンクの数が膨大になると形態素ネットワーク図は過密となり、どの形態素とどの形態素が意味的に結合しているかを把握することができなくなり、過密な形態素ネットワーク図を基にＦＭＥＡシートを作成することが難しくなる。形態素解析が適用された自然言語処理において、膨大な数の形態素リンクを有する形態素ネットワーク図の中から、意味的な関連性を有する形態素リンクのみの絞り込みを行う手法を本発明者は求めていた。

本発明の目的は、形態素解析が適用された自然言語処理において、形態素同士の意味的な結合関係を作成するときに、膨大な数の形態素リンクを有する形態素ネットワーク図の中から、意味的な関連性を有する形態素リンクのみの絞り込みを行う文章データ処理装置、文章データ処理方法およびプログラムを提供することである。

以下に、「発明を実施するための形態」で使用される符号を用いて、課題を解決するための手段を説明する。これらの符号は、「特許請求の範囲」の記載と「発明を実施するための形態」との対応関係を明確にするために付加されたものである。これらの符号は、「特許請求の範囲」に記載されている発明の技術的範囲の解釈に用いられるものではない。

実施の形態における第１の観点の文書データ処理装置は、
文書データの中から、係り元形態素と、前記係り元形態素の直後の助詞と、前記助詞よりも後方の係り先形態素とを抽出し、かつ、前記係り元形態素と前記係り先形態素との間の形態素間距離を算出する解析部（１０）と、
複数の事例（２）を学習済の判定部（１１）であって、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する前記判定部（１１）と、
前記判定部による判定結果を出力する出力装置（１２０）と
を備える。
前記複数の事例の各々は、
学習用助詞と、
前記学習用助詞の直前の形態素である学習用係り元形態素と、前記学習用助詞の後方の形態素である学習用係り先形態素との間の形態素間距離を示す学習用形態素間距離と、
前記学習用係り元形態素と前記学習用係り先形態素との間の意味的な関連性の有無を示す学習用解答と
を含む。
前記判定部は、前記解析部から、前記助詞および前記形態素間距離を含む入力データを受け取り、前記助詞および前記形態素間距離に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する。

前記各事例は、前記学習用係り元形態素自体および前記学習用係り元形態素自体を含むことなく、前記学習用助詞、前記学習用形態素間距離および前記学習用解答によって構成されていてもよい。
前記判定部は、前記係り元形態素自体および前記係り先形態素自体を用いることなく、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定してもよい。

前記各事例は、
前記学習用係り元形態素の属性である学習用係り元属性と、
前記学習用係り先形態素の属性である学習用係り先属性と
を更に含んでいてもよい。
前記解析部は、前記係り元形態素の属性である係り元属性と、前記係り先形態素の属性である係り先属性とを判別してもよい。
前記判定部が前記解析部から受け取る前記入力データは、前記係り元属性および前記係り先属性を更に含んでいてもよい。
前記判定部は、更に、前記係り元属性および前記係り先属性に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定してもよい。

前記判定部は、前記係り元形態素が漢字含むか否か、前記係り元形態素がひらがなを含むか否か、および、前記係り元形態素がカタカナを含むか否かに基づいて、前記係り元属性を判定してもよい。

前記各事例は、前記学習用係り元形態素から前記学習用係り先形態素までの間にある読点の有無または読点の数を示す学習用読点情報を更に含んでいてもよい。
前記解析部は、前記係り元形態素から前記係り先形態素までの間にある読点の有無を検出してもよいし、または読点の数を算出してもよい。
前記判定部が前記解析部から受け取る前記入力データは、前記読点の有無、または前記読点の数を更に含んでいてもよい。
前記判定部は、更に、前記読点の有無、または前記読点の数に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定してもよい。

前記各事例における前記学習用係り元形態素の品詞および前記学習用係り先形態素の品詞は、名詞であってもよい。
前記解析部によって抽出される前記係り元形態素の品詞および前記係り先形態素の品詞は、名詞であってもよい。

前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を反映した形態素ネットワーク図を作成する形態素ネットワーク図作成部（１２）を更に備えていてもよい。
前記出力装置は、前記形態素ネットワーク図作成部によって作成された前記形態素ネットワーク図を表示してもよい。

前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を反映したＦＭＥＡシートを作成するＦＭＥＡシート作成部（１３）を更に備えていてもよい。
前記出力装置は、前記ＦＭＥＡシート作成部によって作成された前記ＦＭＥＡシートを表示してもよい。

実施の形態における第２の観点の文章データ処理方法は、
複数の事例を判定部が学習する学習ステップ（Ｓ１２）と、
ここで、前記複数の事例の各々は、
学習用助詞と、
前記学習用助詞の直前の形態素である学習用係り元形態素と、前記学習用助詞の後方の形態素である学習用係り先形態素との間の形態素間距離を示す学習用形態素間距離と、
前記学習用係り元形態素と学習用係り先形態素との間の意味的な関連性の有無を示す学習用解答と、
を含み、
文書データの中から、係り元形態素と、前記係り元形態素の直後の助詞と、前記助詞よりも後方の係り先形態素とを抽出する抽出ステップ（Ｓ２４）と、
前記係り元形態素と前記係り先形態素との間の形態素間距離を算出する算出ステップ（Ｓ２５）と、
前記助詞および前記形態素間距離を含む入力データを判定部が受け取るステップ（Ｓ２７）と、
前記助詞および前記形態素間距離に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する判定ステップ（Ｓ２９）と、
前記判定ステップによって得られた判定結果を出力する出力ステップ（Ｓ３）と
を備える。

実施の形態における第３の観点のプログラムは、上述の第２の観点の文章データ処理方法をコンピュータに実行させるプログラムである。

実施の形態によれば、形態素解析が適用された自然言語処理を用いて、形態素同士の意味的な結合関係を作成するときに、膨大な数の形態素リンクを有する形態素ネットワーク図の中から、意味的な関連性を有する形態素リンクのみの絞り込みを行うことができる。

図１は、形態素の数が膨大な場合の一例を示す形態素ネットワーク図である。図２は、「Ａ型機が着陸した。」という文章の形態素解析の結果を例示する図である。図３は、文書データ処理装置１の構成例を示す機能ブロック図である。図４は、文書データ処理装置１のハードウェア構成例を示すブロック図である。図５は、文書データ処理装置１の機能ブロック図である。図６は、文書データ処理方法のフローチャートである。図７は、教師データ２の一例を示す図である。図８は、ＦＭＥＡシートの作成に用いられる文章データ３の一例を示す図である。図９は、図８の文章１を基に実行された形態素解析の結果を示す図である。図１０は、文章１を基に作成された形態素リンクの候補を示す図である。図１１は、図９に示す形態素解析の結果から、図１０に示す形態素リンクの候補が抽出されるまでの過程を説明する図である。図１２は、図８の文章１を基に作成された形態素間距離の算出結果の一例を示す図である。図１３は、図８の文章１を基に作成された形態素リンクリスト６の一例を示す図である。図１４は、図１３の形態素リンクリスト６を用いた場合の判定結果の一例を示す図である。図１５は、図１４に示す全ての形態素リンクの候補の中から、「正解」が与えられた形態素リンクのみを示す図である。図１６は、頻度欄６４が設けられている形態素リンクリスト６の一例を示す図である。図１７は、図１４の形態素リンクリスト６を基に作成された形態素ネットワーク図の一例を示す図である。図１８は、図１４の形態素リンクリスト６を基に作成されたＦＭＥＡシートの一例を示す図である。図１９は、文書データ処理装置１の第１変形例を示す機能ブロック図である。図２０は、文書データ処理装置１の第２変形例を示す機能ブロック図である。

以下、本発明の実施の形態を図面に関連づけて説明する。以下の実施の形態において、同一の要素には原則として同一の符号を付し、その繰り返しの説明は省略する。

１．本発明者によって認識された事項
形態素解析が適用された自然言語処理を用いてＦＭＥＡシートを作成するときに、形態素ネットワーク図を作成する場合がある。本発明者は、形態素ネットワーク図を作成する過程で起こり得る、次のような事項を認識した。

自然言語処理のアルゴリズムに伴う形態素ネットワーク図の作成においては、意味的な関連性を持たない形態素リンクが膨大に発生することにより、分析に適さない程、過密な形態素ネットワーク図が得られることがある。意味的な関連性を持たない形態素リンクは、形態素ネットワーク図にも、ＦＭＥＡシートにも不要である。したがって、全ての形態素リンクの中から不要な形態素リンクを抽出して削除することができれば、形態素ネットワーク図に表示される形態素の数が減少する。その結果、ＦＭＥＡシート作成に適した形態素ネットワーク図が得られると期待される。

しかしながら、形態素リンクの数が膨大である場合（例：１０００個）、手動で形態素リンクの数を絞ることは、現実的ではない。その理由の一つは、時間と手間がかかるためである。他の理由は、どの形態素リンクが不要であるかを的確に判断することができる技量がオペレータに必要なためである。オペレータの技量に依存せずに素早く形態素リンクの数を絞るためには、手動よりも自動の方がよい。ただし、自動で形態素リンクの数を絞る方法を採用する場合、次のような検討事項がある。

（形態素リンクの欠落）
１つ目は、形態素リンクの数を絞るときに、意味を持つ形態素リンクが欠落してはいけないことである。この点の検討は、とりわけ、ＦＭＥＡシートを作成する場合には欠かせない。意味を持つ形態素リンクが欠落してはいけない理由を以下に述べる。

形態素リンクの数を絞るために、例えば、文章データ（例えば、ＦＭＥＡに関する事項が自由形式で記述されている。）における形態素リンクの使用頻度（例：「航空機」と「エンジン」の組合せの使用頻度）を適用する方法が考えられる。例えば、対象の形態素リンクの使用頻度が閾値よりも小さい場合、当該形態素リンクの重要度が相対的に低いとして、当該形態素リンクを不要と判断すればよい。

しかしながら、形態素リンクの使用頻度を基準に、形態素リンクの重要度を判定することには限界がある。それは、形態素リンクの重要度が当該形態素リンクの使用頻度に比例しない可能性があるためである。換言すれば、ある文章データにおける形態素リンクの使用頻度が相対的に低くても、使用頻度の低い形態素リンクが重要な意味を持つ場合がある。とりわけ、ＦＭＥＡシートは、故障などの事象を把握して類似した事象の発生を未然に防ぐと言う役割を持つ。そのため、形態素リンクの使用頻度が低いという理由で、使用頻度の低い形態素リンクを削除することは望ましくない。例えば、「エンジン」と「炎上」という２つの形態素が互いに結合された形態素リンクがあった場合を考える。この例において、たとえ、文章中で当該形態素リンクの使用頻度が１回であったとしても、「エンジン」と「炎上」との間には、無視できない重要な意味があることは理解されよう。したがって、このような場合、形態素リンクの使用頻度を基準に当該形態素リンクの重要度を判断することは、極力避けた方がよいと言える。

そこで、代替的に、教師付き機械学習を用いて、形態素リンクの数を絞る方法が考えられる。教師付き機械学習によれば、教師データを用いることにより、未知の事象に対して解答（例：正解／不正解）を得ることができる。形態素リンクの数を絞る場合、形態素リンクを構成する２つの形態素の組合せを判定器（「識別器」とも呼ばれる。）に入力することで、２つの形態素の間の意味的な関連性の有無を判定することができる。教師付き機械学習では、形態素リンクの使用頻度を用いる場合と比べると、発生頻度は低くても、重大事象に至る可能性のある形態素リンクの欠落を抑制しつつ、形態素リンクの数を絞ることが期待される。

（教師データの事例の数）
ただし、教師付き機械学習を用いる場合には、次の検討事項がある。それは、教師データに関する。教師データは、複数の事例（問題（事象）とその解答の組）を包含している。２つの形態素の組合せを判定器への入力に使う場合、膨大な数の事例を予め用意する必要がある。言い換えれば、作成すべき教師データのデータ量が大きくなりやすい。その理由を以下に述べる。

教師付き機械学習では、ある２つの形態素の間の意味的な関連性の有無について解答を求める場合、教師データには、正解・不正解に対するものとして、最低２つの事例が必要である。ＦＭＥＡシートを作成する場合を例に挙げれば、２つの形態素の組合せの数は、１千万通りを超えることもある。したがって、教師データに必要な事例の数も、１千万通りを超える。しかしながら、このような膨大な数の事例を用意することは、現実的ではない。それは、教師データの事例の作成に人手が欠かせないためである。

そこで、本発明者は、教師付き機械学習を用いる方法を採用し、教師データのデータ量を削減しつつ、教師付き機械学習を用いて形態素リンクの数を絞る方法について検討した。

２．実施の形態
２．１．概要
本実施の形態は、助詞を利用することにより、教師データの事例数の抑制を図りつつ、教師付き機械学習を用いて形態素リンクの数を絞る方法を提供する。助詞が着目された理由は、次の通りである。日本語では、原則、助詞の直前に、意味のある形態素がくる。また、原則、助詞の後方に、助詞の直前の形態素に対応する係り先が存在する。つまり、助詞の直前の形態素と、助詞の後方の形態素との間には、係り受け関係が成立している。両者の間の係り受け関係を利用すれば、助詞自体を教師データの事例に適用することが可能となる。助詞の種類（例：「て」、「に」、「から」、…）の数は限られているので、教師データを作成するために用意すべき事例の数も減る。

以下に、簡単な文章を例に挙げて、実施の形態の概要を説明する。図２は、「Ａ型機が着陸した。」という文章の形態素解析の結果を例示する図である。形態素解析によって、「Ａ型機が着陸した。」という文章は、図２に示すように、６つの形態素１−６に分解される。６つの形態素１−６の品詞は、それぞれ、名詞、助詞、名詞、動詞、助動詞および記号（句点）である。

先ず、助詞に着目する。図２の例では、助詞は、形態素２の「が」に相当する。日本語の文章では、原則、助詞の直前には、意味をもつ形態素がくる。そこで、助詞の直前の形態素に着目する。図２の例では、形態素１の「Ａ型機」が助詞の直前の形態素に相当する。また、原則、助詞の直前の形態素、つまり、係り元に対応する係り先は、助詞の後方に存在する。図２の例では、助詞の後方にある４つの形態素３−６の中で、形態素３の「着陸」が形態素１の係り先、つまり、助詞の後方の形態素に相当する。図２の例では、助詞の直前の形態素（「Ａ型機」）と、助詞の後方の形態素（「着陸」）との間に係り関係が成立していることが分かる。係り元形態素（「Ａ型機」）と係り先形態素（「着陸」）との間の意味的な関連性の有無が教師付き機械学習により判定される。なお、助詞の直前の形態素は、便宜的に「係り元形態素」と呼ばれる。助詞の後方の形態素は、便宜的に「係り先形態素」と呼ばれる。

ここで、留意すべきことは、両者の意味的な関連性の有無を判定するために、係り元形態素および係り先形態素が判定器への入力に使われるのではなく、助詞が判定器への入力に使われる点にある。どのような助詞がどのような係り元形態素および係り先形態素と結びつきやすいかを判定器が学習することができれば、助詞を判定器への入力に使うことができる。したがって、助詞を教師データの事例に適用することが可能となる。上述のように、助詞の種類の数は限られているので、用意すべき教師データのデータ量の大幅な削減が期待される。

係り元形態素と係り先形態素との間の意味的な関連性の有無の判定は、次に述べる文書データ処理装置によって実現される。図３は、文書データ処理装置１の構成例を示す機能ブロック図である。文書データ処理装置１は、解析部の一例である解析器１０と、判定部の一例である判定器１１と、教師データ２とを備える。文書データ処理装置１は、大別して、学習処理および判定処理の２つを実行する。

（学習処理）
学習処理では、図３の（Ａ）に示すように、判定器１１が教師データ２を用いて、学習（機械学習）を実行する。学習処理によって、学習済みの判定器１１が作成される。

教師データ２について簡単に説明する。教師データ２は、複数の事例によって構成されている。複数の事例の各々は、（学習用の）助詞（例：「が」）と、（学習用の）形態素間距離（例：「２」）と、助詞と形態素間距離との組合せに対する（学習用の）解答（例：「正解」）とを包含している。ここで、形態素間距離は、助詞の直前の形態素（係り元形態素）と、当該助詞の後方の形態素（係り先形態素）との間の相対的な距離である。相対的な距離は、例えば、係り元形態素と係り先形態素との間にある形態素の数であってもよい。形態素間距離は、判定器１１の判定精度をより向上させるために使われる。なお、教師データ２の各事例には、係り元形態素自体も、係り先形態素自体も含まれていないことに留意されたい。教師データ２の詳細については、後述の実施例にて取り上げる。

（判定処理）
判定処理においては、図３の（Ｂ）に示すように、学習済みの判定器１１に加え、解析器１０が用いられる。判定処理の説明においては、図２の文章（「Ａ型機が着陸した。」）を自由形式で記述された文章データ３の例として用いる。

先ず、図３の（Ｂ）に示すように、解析器１０は、文章データ３を取り込み、文章データ３の中から、係り元形態素（「Ａ型機」）と、係り元形態素の直後の助詞（「が」）と、係り先形態素（「着陸」）とを抽出する。更に、解析器１０は、係り元形態素と係り先形態素との間の形態素間距離を算出する。なお、図３の例では、形態素間距離は、「２」と算出される。形態素間距離の具体的な算出方法については、後述する。

次に、判定器１１は、助詞（「が」）および形態素間距離（「２」）を含む入力データ５を解析器１０から受け取る。そして、判定器１１は、助詞および形態素間距離に基づいて、係り元形態素（「Ａ型機」）と係り先形態素（「着陸」）との間の意味的な関連性の有無を判定する。図３の例では、「Ａ型機」と「着陸」との間には、意味的な関連性があると判定される。その結果、両者が意味的に結合した形態素リンクが抽出される。もし、係り元形態素と係り先形態素との間に意味的な関連性がない場合、形態素リンクは抽出されない。そして、出力装置１２０は、判定器１１による判定結果を出力する。なお、意味的な関連性の有無の判定処理において、係り元形態素自体（「Ａ型機」という文言そのもの）および係り先形態素自体（「着陸」という文言そのもの）が用いられていないことに留意されたい。

本実施の形態では、助詞を基にして教師データが作成される。助詞の種類の数は、助詞の定義または分類方法によって変わるものの、一般的には、２０種類から３０種類であると言われている。したがって、仮に１種類の助詞について２つの事例を作成する場合でも、教師データを作成するために用意すべき事例の数は、４０個から６０個で済む。あらゆる形態素の組合せを考慮する場合と比べると、教師データのデータ量が大幅に削減されることが分かる。また、助詞を基にして作成された教師データによって、係り元形態素と係り先形態素との間の意味的な関連性の有無が判定される。つまり、対象の形態素リンクを作成すべきか否かが助詞を基に判定される。教師データのデータ量が小さくなれば、判定器による判定に掛かる時間も短縮される。

２．２．構成
文書データ処理装置について詳細に説明する。先ず、文書データ処理装置のハードウェア構成について説明する。図４は、文書データ処理装置１のハードウェア構成例を示すブロック図である。文書データ処理装置１は、例えば、パーソナル・コンピュータ（ＰＣ）である。図４に示すように、文書データ処理装置１は、筐体（本体）１００と、入力デバイス１１０と、出力装置１２０とを有する。

筐体１００は、ＣＰＵ（中央演算処理装置）１０１と、メモリ１０２と、ハードディスク（HDD）１０３と、Ｉ／Ｏ（Input/Output）１０４と、バス１０５とを格納している。バス１０５には、ＣＰＵ１０１、メモリ１０２、ハードディスク１０３およびＩ／Ｏ１０４が電気的にそれぞれ接続されている。

ＣＰＵ１０１は、メモリ１０２、ハードディスク１０３およびＩ／Ｏ１０４と協働して、種々のソフトウェア処理を実行するように構成されている。種々のソフトウェア処理には、上述の学習処理および判定処理に加え、後述するように、形態素ネットワーク図の作成処理、ＦＭＥＡシートの作成処理も含まれる。

入力デバイス１１０は、例えば、キーボードやマウスで構成されている。入力デバイス１１０は、オペレータの指示に基づいた電気信号を生成し、生成された電気信号をＩ／Ｏ１０４を介してＣＰＵ１０１に出力する。

出力装置１２０は、例えば、ディスプレイであって、Ｉ／Ｏ１０４に接続されている。出力装置１２０は、ＣＰＵ１０１の処理結果をＩ／Ｏ１０４を介してＣＰＵ１０１から受け取る。そして、出力装置１２０は、受け取った処理結果を表示画面に表示する。処理結果には、後述するように、形態素ネットワーク図の作成処理結果、ＦＭＥＡシートの作成処理結果が含まれる。代替的に、出力装置１２０は、プリンタであってもよい。出力装置１２０の構成は、ＣＰＵ１０１の処理結果を出力することができれば、任意である。

文書データ処理装置１の機能的な構成について説明する。図５は、文書データ処理装置１の機能ブロック図である。文書データ処理装置１は、形態素解析が適用された自然言語処理を用いて、形態素ネットワーク図の作成およびＦＭＥＡシートの作成をアシストするように構成されている。

具体的には、図５に示すように、文書データ処理装置１は、解析器１０、判定器１１および教師データ２に加え、形態素ネットワーク図作成部１２と、ＦＭＥＡシート作成部１３と、形態素解析用辞書４とを備える。具体的には、ＣＰＵ１０１が、判定器１１の機能と、解析器１０の機能と、形態素ネットワーク図作成部１２の機能と、ＦＭＥＡシート作成部１３の機能とを備えている。メモリ１０２には、次の２つのデータのうちの少なくとも一方が必要に応じて展開される。１つは、教師データ２であって、学習処理の実行時に展開される。もう１つは、形態素解析用辞書４であって、判定処理の実行時に展開される。なお、メモリ１０２の説明は、一例に過ぎない。ＣＰＵ１０１が学習処理や判定処理などを実行可能であれば、教師データ２および形態素解析用辞書４の双方がどのような記憶手段にどのように格納されていてもよい。

以下に、ＣＰＵ１０１が持つ機能について順を追って説明する。また、文章データ３の例として、図２の例と同様の文章（「Ａ型機が着陸した。」）を取り上げる。なお、文章データ３自体は、文書データ処理装置１によって作成されてもよいし、他のコンピュータ装置によって作成されてもよい。

（解析器）
解析器１０は、後述の抽出処理と、後述の算出処理とを実行する。解析器１０は、抽出処理結果および算出処理結果を用いて、形態素リンクリスト６を作成する。簡単に言えば、形態素リンクリスト６は、形態素リンクの候補を挙げ、挙げられた候補の中から、意味のある形態素リンクを抽出するためのリストである。解析器１０は、作成された形態素リンクリスト６を判定器１１に出力する。以下に、解析器１０の処理について、順を追って説明する。

抽出処理について説明する。抽出処理において、解析器１０は、次の処理を実行する。第１に、解析器１０は、文章データ３を取り込み、形態素解析用辞書４をメモリ１０２から読み出す。解析器１０は、形態素解析用辞書４を用いて、取り込んだ文章データ３中の文章を複数の形態素に分解する（形態素解析）。図５の例では、上述の概要で述べた通り（図２を参照）、６つの形態素１−６に分解される。なお、形態素解析に用いられる形態素解析用辞書４は、公知の辞書であっても良い。

第２に、解析器１０は、分解された複数の形態素の中から、係り元形態素と、係り元形態素の直後の助詞と、係り先形態素とを抽出する。図５の例では、形態素１の「Ａ型機」が係り元形態素として抽出され、形態素２の「が」が助詞として抽出され、形態素３の「着陸」が係り先形態素として抽出される。抽出された３つの形態素のうち、係り元形態素および係り先形態素の組合せは、形態素リンクの候補となる。なお、係り元形態素、助詞および係り先形態素の抽出の順番は、任意である。図５の例では、抽出処理によって得られる係り元形態素および係り先形態素の組合せ、即ち、形態素リンクの候補が一つあるが、文章の内容によっては、形態素リンクの候補が複数ある。形態素リンクの候補が複数ある場合については、後述の実施例にて取り上げる。

係り先形態素（「着陸」）の抽出に際して、解析器１０は、対象の助詞よりも後方にある複数の形態素の中から、名詞の形態素を係り先形態素として抽出すればよい。簡単に言えば、係り先形態素の候補は、対象の助詞よりも後ろにある名詞だけである。その理由について説明する。「Ａ型機が着陸した。」という文章の場合、係り元形態素は、形態素１の「Ａ型機」に相当する。日本語では、係り元形態素の品詞は、原則、名詞である。係り元形態素に対応する係り先を考えると、係り先の候補として、形態素３の「着陸」、形態素４の「し」、形態素５の「た」、および形態素６の「。（句点）」が挙げられる。４つの形態素３−６の中で、係り受け関係が成立する組合せは、形態素１の「Ａ型機」と、名詞である形態素３の「着陸」との組合せしかない。この例のように、日本語では、係り受け関係が成立する２つの形態素の品詞は、原則、名詞である。したがって、上述のように、解析器１０は、名詞の形態素だけを係り先形態素として抽出すればよい。以上のことから、係り元形態素の品詞および係り先形態素の品詞は、一般的には、名詞であると言える。また、教師データ２の各事例における係り元形態素の品詞および係り先形態素の品詞も、一般的には、名詞であると言える。

算出処理について説明する。算出処理において、解析器１０は、形態素間距離を次のように算出する。「Ａ型機が着陸した。」という文章の場合、例えば、係り元形態素（「Ａ型機」）の位置が基準（例：「１」）に設定される。この場合、助詞（「が」）の位置は、「２」で表される。係り先形態素（「着陸」）の位置は、「３」で表される。形態素間距離は、２つの形態素の間の相対的な距離なので、「３−１＝２」と算出される。

形態素リンクリスト６の作成について説明する。抽出処理および算出処理の実行後、解析器１０は、以下に述べる形態素リンクリスト６を作成する。作成された形態素リンクリスト６は、メモリ１０２に記憶され、メモリ１０２に記憶された形態素リンクリスト６は、判定器１１に供給される。形態素リンクリスト６は、図５に示すように、例えば、形態素リンク欄６１と、入力データ欄６２と、解答欄６３とによって構成されている。なお、これらの欄自体は、説明のために便宜的に用いられるのに過ぎない。

形態素リンク欄６１は、形態素リンクの候補を入力（エントリ）するための欄である。言い換えれば、形態素リンク欄６１は、抽出処理によって抽出された係り元形態素および係り先形態素の組み合せを入力するための欄である。具体的には、形態素リンク欄６１は、係り元形態素が入力される欄と、助詞が入力される欄と、係り先形態素が入力される欄とで構成されている。図５の例では、係り元形態素の「Ａ型機」と、助詞の「が」と、係り先形態素の「着陸」とが形態素リンク欄６１の対応する欄にそれぞれ入力されている。なお、形態素リンク欄６１は、説明のために便宜的に設けられた欄であり、解析器１０の処理および判定器１１の処理に必須ではない。また、助詞が入力される欄は、設けられていなくてもよい。

入力データ欄６２は、判定器１１に与えるべき入力データを入力するための欄である。入力データ欄６２は、形態素間距離が入力される欄と、助詞が入力される欄とで構成されている。図５の例では、形態素リンクの候補において、形態素間距離の「２」および助詞の「が」が入力データ欄６２の対応する欄に入力されている。なお、判定器１１には、形態素リンク欄６１の内容ではなく、入力データ欄６２の内容が入力されることに留意されたい。

解答欄６３は、判定器１１による判定結果、即ち、解答を入力するための欄である。形態素リンクリスト６の作成段階では、解答欄６３は、例えば、空欄である。

（判定器）
判定器１１は、例えば、ニューラルネットワークのアルゴリズムに従って、学習処理と、判定処理とを実行する。代替的に、判定器１１は、サポートベクターマシンで構成されていてもよい。判定器１１に適用されるアルゴリズムは、教師付き学習が可能なアルゴリズムであれば、任意である。

学習処理において、判定器１１は、教師データ２をメモリ１０２から読み出し、教師データ２の各事例を学習する。図５に示す事例１の例では、助詞の「が」と形態素間距離の「２」との組み合わせに対する解答が「正解」であると、判定器１１は学習する。繰り返し述べるが、教師データ２の各事例は、係り元形態素自体および係り元形態素自体を含むことなく、助詞、形態素間距離および解答によって構成されている。なお、一般的には、判定器１１における学習処理は、解析器１０による抽出処理および算出処理の実行前に実行される。

判定処理において、各事例を学習済みの判定器１１は、形態素リンクリスト６に挙げられている形態素リンクの候補の中から、意味のある形態素リンクを抽出する。その詳細は、次の通りである。第１に、判定器１１は、解析器１０から形態素リンクリスト６を受け取る。そして、判定器１１は、受け取った形態素リンクリスト６の入力データ欄６２から、助詞と、当助詞に対応する形態素間距離を取得する。図５の例では、形態素間距離の「２」および助詞の「が」が取得される。

第２に、判定器１１は、係り元形態素自体および係り先形態素自体を用いることなく、入力データ欄６２から取得された助詞および形態素間距離に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無を判定する。判定後、判定器１１は、判定結果を解答欄６３の対応する欄（空欄）に入力する。図５の例では、助詞の「が」および形態素間距離の「２」に基づいて、係り元形態素の「Ａ型機」と係り先形態素の「着陸」との間の意味的な関連性の有無が判定される。その結果、例えば、両者の間に意味的な関連性があると判定される。つまり、図５の形態素リンクリスト６に挙げられた形態素リンクの候補は、意味のある形態素リンクであると判定される。図５の例では、判定器１１が、正解を表す記号（例：「○」）を解答欄６３の対応する欄に入力している。もし、意味的な関連性がないと判定された場合、判定器１１は、不正解を表す記号（例：「×」）を解答欄６３の対応する欄に入力する。無論、正解／不正解を表すために、フラグを用いてもよい。判定後、判定器１１は、判定結果が入力された形態素リンクリスト６を形態素ネットワーク図作成部１２および／またはＦＭＥＡシート作成部１３に出力する。

図５の例では、解答（判定のレベル）が正解または不正解の２値で表される。代替的に、解答が多値（例：正解／不正解／不明）で表されてもよい。例えば、判定処理の結果、「不明」という解答が得られた場合、オペレータが解答を正解または不正解に手動で振り分けられるように、判定器１１（文書データ処理装置１）が構成されていてもよい。

なお、図５に示す形態素リンクリスト６は、説明の理解が容易となるように例示されているに過ぎない。実際には、形態素リンクリスト６の内容は、ＣＰＵ１０１が処理を実行できるように、数値化されている。同様に、教師データ２の内容も数値化されている。また、形態素リンクリスト６の仕様は、好適に変更可能である。例えば、付加的に、頻度欄が設けられてもよい。頻度欄は、文章データ３の中で、同じ形態素リンクの候補が使われた回数を入力するための欄である。なお、頻度は、公知の方法（例：カウンタ）を用いて、解析器１０が算出すればよい。頻度の利用については、後述の実施例にて取り上げる。

（形態素ネットワーク図作成部）
形態素ネットワーク図作成部１２は、判定器１１による判定結果が反映された形態素リンクリスト６を取りこむ。そして、形態素ネットワーク図作成部１２は、形態素リンクリスト６を基に、係り元形態素と係り先形態素との間の意味的な関連性の有無を反映した形態素ネットワーク図を作成する。具体的には、形態素ネットワーク図作成部１２は、形態素リンクの候補に対する解答を解答欄６３から取得する。そして、取得された解答が正解である場合に限り、形態素ネットワーク図作成部１２は、当該形態素リンクを形態素ネットワーク図に反映させる。図５の例では、「Ａ型機」と「着陸」との組み合わせに対する解答が正解である。したがって、「Ａ型機」および「着陸」の形態素リンクが形態素ネットワーク図に反映される。

（ＦＭＥＡシート作成部）
ＦＭＥＡシート作成部１３は、判定器１１による判定結果を反映した形態素リンクリスト６を取りこむ。そして、ＦＭＥＡシート作成部１３は、形態素リンクリスト６を基に、係り元形態素と係り先形態素との間の意味的な関連性の有無を反映したＦＭＥＡシートを作成する。具体的には、ＦＭＥＡシート作成部１３は、形態素リンクの候補に対する解答を解答欄６３から取得する。そして、取得された解答が正解である場合に限り、ＦＭＥＡシート作成部１３は、当該形態素リンクに基づいた内容をＦＭＥＡシートに反映させる。図５の例では、「Ａ型機」と「着陸」との組み合わせに対する解答が正解である。したがって、「Ａ型機」および「着陸」の形態素リンクの内容がＦＭＥＡシートの対応する欄に入力される。

２．３．文書データ処理方法
文書データ処理装置で実行される文書データ処理方法について、図５および図６を参照しながら説明する。図６は、文書データ処理方法のフローチャートである。図６に示すように、文書データ処理方法は、大別すると、学習ステップＳ１と、判定ステップＳ２と、出力ステップＳ３とに分けられ、その順に実行される。ただし、学習ステップＳ１は、判定ステップＳ２よりも前に実行されていればよい。なお、コンピュータ（図４に示すＣＰＵ１０１）は、図６に示す文書データ処理方法の各ステップをプログラムとして実行する。

（学習ステップＳ１）
学習ステップＳ１は、判定器１１が教師付き学習を実行するステップである。具体的には、次の通りである。判定器１１は、教師データ２をメモリ１０２から読み出す（Ｓ１１）。そして、判定器１１は、教師データ２の各事例を学習する（Ｓ１２）。ステップＳ１２によって、学習済みの判定器１１が作成される。なお、判定器１１は、例えば、調整可能な複数のパラメータを備えている。複数のパラメータは、判定器１１が事例を学習することによって調整される。パラメータが調整された判定器１１が学習済みの判定器である。

（判定ステップＳ２）
判定ステップＳ２は、大まか言えば、形態素リンクの候補が挙げられた形態素リンクリスト６を解析器１０が作成し、形態素リンクリスト６に挙げられた候補の中から、意味のある形態素リンクを判定器１１が抽出するステップである。その詳細は、次の通りである。解析器１０は、文章データ３を取り込む（Ｓ２１）。また、解析器１０は、形態素解析用辞書４をメモリ１０２から読み出す（Ｓ２２）。そして、解析器１０は、形態素解析用辞書４を用いて、取り込んだ文章データ３中の文章を複数の形態素に分解する（Ｓ２３）。そして、解析器１０は、分解された複数の形態素の中から、係り元形態素と、係り元形態素の直後の助詞と、係り先形態素とを抽出する（Ｓ２４）。つまり、ステップＳ２４によって、形態素リンクの候補が抽出される。そして、解析器１０は、形態素間距離を算出する（Ｓ２５）。ステップＳ２４の結果およびステップＳ２５の結果を用いて、解析器１０は、形態素リンクリスト６を作成する（Ｓ２６）。

次に、判定器１１は、解析器１０から形態素リンクリスト６を受け取る（Ｓ２７）。そして、判定器１１は、受け取った形態素リンクリスト６から、助詞および形態素間距離を取得する（Ｓ２８）。そして、判定器１１は、助詞および形態素間距離に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無を判定する（Ｓ２９）。判定後、判定器１１は、判定結果が入力された形態素リンクリスト６を形態素ネットワーク図作成部１２および／またはＦＭＥＡシート作成部１３に出力する（Ｓ２１０）。

なお、技術的な矛盾が生じない限り、判定ステップＳ２における各ステップの順序を好適に変更することができる。例えば、形態素解析用辞書４をメモリ１０２から読み出すステップＳ２２の後に、文章データ３を取り込むステップＳ２１が実行されてもよい。あるいは、両者のステップが並列に実行されてもよい。例えば、形態素間距離を算出するステップＳ２５の後に、３つの形態素（係り元形態素、係り元形態素の直後の助詞、係り先形態素）を抽出するステップＳ２４が実行されてもよい。あるいは、両者のステップが並列に実行されてもよい。

（出力ステップＳ３）
出力ステップＳ３は、判定ステップＳ２の結果を用いて、形態素ネットワーク図およびＦＭＥＡシートを作成するステップである。具体的には、形態素ネットワーク図作成部１２は、形態素リンクリスト６を基に、係り元形態素と係り先形態素との間の意味的な関連性の有無を反映した形態素ネットワーク図を作成する（Ｓ３１）。そして、出力装置１２０は、作成された形態素ネットワーク図を出力する（Ｓ３２）。また、ＦＭＥＡシート作成部１３は、形態素リンクリスト６を基に、係り元形態素と係り先形態素との間の意味的な関連性の有無を反映したＦＭＥＡシートを作成する（Ｓ３３）。そして、出力装置１２０は、作成されたＦＭＥＡシートを出力する（Ｓ３４）。

なお、技術的な矛盾が生じない限り、出力ステップＳ３における各ステップの順序を好適に変更することができる。また、出力ステップＳ３の内容も好適に変更することができる。例えば、出力ステップＳ３では、形態素ネットワーク図およびＦＭＥＡシートの双方を作成する場合を例示したが、いずれか一方のみが作成されてもよい。例えば、形態素ネットワーク図を作成して出力することが不要な場合、ステップＳ３１およびＳ３２は不要である。

２．４．実施例
文書データ処理装置の実施例を図７から図１８を参照して説明する。先ず、図７および図８を参照して、実施例で用いられる教師データおよび文章データについて述べる。次に、図７に示す教師データおよび図８に示す文章データを用いた場合に、文書データ処理装置でどのような処理が行われるかについて述べる。図５も合わせて参照されたい。

（教師データ）
判定器の学習処理では、次のような教師データが用いられる。図７は、教師データ２の一例を示す図である。図７の例では、教師データ２は、形態素欄２１と、形態素間距離欄２２と、助詞欄２３と、解答欄２４とによって構成されている。形態素欄２１は、用意された係り元形態素と、用意された係り先形態素とを入力するための欄である。形態素間距離欄２２は、係り元形態素と係り先形態素との間の相対的な距離を入力するための欄である。助詞欄２３は、用意された助詞を入力するための欄である。解答欄２４は、係り元形態素と係り先形態素との間の意味的な関連性の有無を入力するための欄である。なお、形態素欄２１は、係り元形態素と係り先形態素との組み合わせを明示するために設けられたものであり、教師データ２に必須なものではない。

先ず、助詞の種類について述べる。図７の例では、「は」、「が」、「に」、「から」、「で」、「にて」、「ので」など、ｎ＝２５種類の助詞が用いられている。なお、助詞の種類の数は、ｎ＝２５種類より少なくてもよいし、多くてもよい。どのような種類の助詞を用いるかについても、特に限定されるわけではない。ただし、自然言語処理（判定器の判定精度）の精度を上げるという観点に照らせば、使用頻度が高いと想定される助詞が網羅される方がよい。

次に、１種類の助詞に対して、用意される事例の数について述べる。図７の例では、１種類の助詞に対して、ｋ＝６個の事例が用意されており、ｋ＝６個の事例の各々には、形態素間距離および解答が付加されている。したがって、教師データ２における事例の総数は、ｍ＝ｎ（助詞の種類）×ｋ（１種類の助詞に対する事例の数）と表される。１種類の助詞に対して用意される事例の数は任意であるが、次のことに留意すべきである。１種類の助詞に対して用意される事例の数が多いほど、判定器１１の判定精度は上がる。その反面、問題（事象）とその解答の組合せを多く用意する必要がある。実用的な観点では、１種類の助詞に対して適用する事例の数が２≦ｋ≦６であればよい。事例の総数が助詞の種類の数の２倍から６倍あれば、十分に高い判定精度を持つ判定器が得られるものと期待される。

教師データ２の数値化について述べる。本実施の形態では、教師データにおける問題およびその解答は、ベクトルデータで表現される。図７の例では、（１）式のベクトルデータによって、問題（助詞および形態素間距離）と、問題対する解答（正解／不正解）とが表される。

Ｔ_ｉ＝｛ｄ，（ｘ_１，ｘ_２，・・・，ｘ_ｎ），ｙ｝・・・（１）式

ここで、Ｔ_ｉは、教師データ２におけるｉ番目の事例を表す。パラメータｄは、例えば、形態素間距離を表す。パラメータ（ｘ_１，・・・，ｘ_ｎ）は、例えば、助詞の種類を表す。パラメータｎの最大値は、助詞の種類の数（例：ｎ＝２５）と一致する。パラメータｙは、例えば、解答を表す。解答が２値（正解／不正解）で表されるとき、パラメータｙは、例えば、１（正解）／０（不正解）で表される。図７の例では、説明を分かりやすくするために、解答が記号（○正解／×不正解）で表されている。ここで、１番目の事例を例に挙げる。係り元形態素の「三重」と係り先形態素の「記念展」との組み合わせに対応する助詞は、「は」である。形態素間距離は、「２」である。この場合のベクトルデータは、例えば、Ｔ_１＝｛２，（１，０，０，０，０，・・・，０，０），１｝と表される。無論、ベクトルデータＴ_ｉ自体の構成は、任意である。どのような種類の助詞をどのようなパラメータ（ｘ_１，・・・，ｘ_ｎ）で表すかについても、任意である。

教師データ２の作成について述べる。教師データ２自体は、手作業で作成される。例えば、１番目の事例では、係り元形態素の「三重」と係り先形態素の「記念展」との間に意味的な関連性があるとして、「正解」が与えられている。ただし、実際に、オペレータに要求される最低限の作業は、２つの形態素の間の意味的な関連性の有無を判定し、解答を与えることである。したがって、解答欄２４以外の欄へのデータ入力は、自動で行われてもよい。ここでは、説明を分かりやすくするため、全ての欄へのデータ入力が手作業で行われる場合を例に挙げる。

先ず、オペレータは、ｍ＝ｎ×ｋ個の事例を用意する。図７の例では、助詞の「は」について、ｋ＝６個の事例が用意されている。事例の内容は、特に限定されるものではない。係り元形態素の品詞および係り先形態素の品詞は、例えば、名詞である。ただし、機械学習の精度を上げるという観点では、使用する言葉にできるだけ偏りが生じないように、様々な文章の中から、３つの形態素の組合せ（係り元形態素、係り元形態素の直後の助詞、係り先形態素）を選ぶ方がよい。

ここで、１番目の事例Ｔ_１を作成する場合を例に挙げる。オペレータは、係り元形態素の「三重」と、係り元形態素の直後の助詞である「は」と、係り先形態素の「記念展」との組合せを用意する。そして、オペレータは、係り元形態素および係り先形態素を形態素欄２１に入力し、助詞を助詞欄２３に入力する。オペレータは、係り元形態素（「三重」）と係り先形態素（「記念展」）との意味的な関連性の有無を判定し、判定結果である「正解（例：○）」を解答欄２４に入力する。また、オペレータは、形態素間距離（例：２）を形態素間距離欄２２に入力しておく。その後、作成された教師データ２は、例えば、図４に示すハードディスク１０３に格納される。学習処理が実行されるときに、ハードディスク１０３に格納された教師データ２は、メモリ１０２に展開される。

（文章データ）
文章データの一例を挙げる。図８は、ＦＭＥＡシートの作成に用いられる文章データ３の一例を示す図である。ＦＭＥＡシートを作成する場合、例えば、「不適合報告書」と呼ばれる文章データ３が用意される。文章データ３は、例えば、３ページのテキスト３１−３３で構成されている。３ページのテキスト３１−３３にわたって、航空機に関する不具合などが記述されている。例えば、１ページ目のテキスト３１には、「１．発生状況」という項目において、次の文章１が記述されている。

文章１：「Ａ型機がＢ空港に着陸し、駐機場に到着直後にエンジンからの燃料漏れで出火し炎上した。」

以下に、図５に示すＣＰＵの機能を図７から図１８に関連付けて説明する。また、説明を簡略化するため、特に断りがない限り、図８の文章１を例に挙げる。

（判定器の学習処理）
学習処理では、図７に示す教師データ２の各事例を判定器１１が学習する（図６のステップＳ１２に対応）。１番目の事例を例に挙げると、助詞の「は」と、形態素間距離の「２」との組み合わせに対する解答が「正解」であると、判定器１１が学習する。図７の例では、各事例に含まれる要素の数は、助詞の種類の数を除けば、形態素間距離および解答の２つである。後述の変形例においても、各事例に含まれる要素の数は、助詞の種類の数を除けば、例えば、１０以下である。このように、要素の数は少ない。また、図７の例では、事例の総数は、ｍ＝ｎ（助詞の種類）×ｋ（１種類の助詞に対する事例の数）＝２５×６＝１５０である。本実施の形態における事例の総数は、多く見積もっても、例えば、ｍ＝３０００以下であり、好適には、ｍ＝１０００以下である。したがって、オペレータに要求される作業量は大きくない。これに対し、従来のように、係り元形態素自体および係り先形態素自体を教師データとして用いる場合、事例の総数は、係り元形態素の種類の数（「三重」、「開催場所」…）に係り先形態素の種類の数（「記念展」、「賢島」…）を乗ずることにより得られる。したがって、オペレータに要求される作業量が膨大となる。

（解析器の抽出処理）
解析器の抽出処理について述べる。解析器１０は、次のように、文章１を複数の形態素に分解する（図６のステップＳ２３に対応）。図９は、図８の文章１を基に実行された形態素解析の結果を示す図である。図９の例では、文章１は２４個の形態素に分解される。図９には、参考のため、品詞の詳細、活用形および読み方も例示されている。なお、図９の表自体は、解析器１０の抽出処理に必須ではない。

解析器１０は、分解された２４個の形態素の中から、形態素リンクの候補を抽出する（図６のステップＳ２４に対応）。具体的には、次の通りである。図１０は、文章１を基に作成された形態素リンクの候補を示す図である。図１０を参照すると、本実施の形態では、連続する名詞が一つの名詞（例：「到着」と「直後」）として取り扱われていることが分かる。ここで、２１番目から２４番目の係り元形態素に着目する。「到着直後」という形態素は、図９の例では、「到着」および「直後」という２つの形態素に分解されていた。２８番目および２９番目の係り元形態素（「燃料漏れ」）についても、同様のことが言える。連続する名詞には密接な関係があるので、連続する名詞を一つの名詞として取り扱ってもよい。

図１０の例では、連続する名詞を一つの名詞として取り扱うことにより、２９個の形態素リンクが候補として抽出されている。形態素リンクの候補が複数ある場合、解析器１０は、係り元形態素と係り先形態素との組合せをどのように抽出してもよい。ここでは、文章１の先頭から終わりに向かって、形態素を順番に検索する方法を例に挙げる。

図１１は、図９に示す形態素解析の結果から、図１０に示す形態素リンクの候補が抽出されるまでの過程を説明する図である。なお、図１０に示す数字は、形態素を連番で表している。図１１に示すように、先頭の形態素は、名詞の「Ａ型機」である。先ず、解析器１０は、名詞の「Ａ型機」を係り元形態素として抽出する。次に、解析器１０は、係り元形態素の直後の助詞を検索する。図１１の例では、名詞の「Ａ型機」の直後に、助詞の「が」がある。解析器１０は、係り元形態素の直後にある助詞の「が」を抽出する。次に、解析器１０は、係り先形態素を検索する。上述の図５の説明において、係り先形態素を抽出する場合、解析器１０が、助詞よりも後方にある複数の形態素の中から、名詞の形態素だけを係り先形態素として抽出すればよいことを述べた。したがって、解析器１０は、助詞（「が」）の後方にある名詞を検索する。図１１の例では、助詞（「が」）の後方に、８個の名詞（「Ｂ空港」、「着陸」、「駐機場」、「到着直後」、「エンジン」、「燃料漏れ」、「出火」、「炎上」）がある。解析器１０は、８個の名詞を順番に抽出していく（Ｓ４を参照）。

その後、解析器１０は、助詞の「が」の次にくる名詞を検索する。図１１の例では、解析器１０は、名詞の「Ｂ空港」を新たな係り元形態素として抽出する。次に、解析器１０は、係り元形態素の直後の助詞を検索する。図１１の例では、名詞の「Ｂ空港」の直後に、助詞の「に」がある。解析器１０は、新たな助詞として「に」を抽出する。以後、解析器１０は、助詞（「に」）の後方にある名詞を検索する。図１１の例では、助詞（「に」）の後方に、７個の名詞（「着陸」、「駐機場」、「到着直後」、「エンジン」、「燃料漏れ」、「出火」、「炎上」）がある。解析器１０は、７個の名詞を順番に抽出していく（Ｓ５を参照）。

以後、残りの名詞（「着陸」、「駐機場」、「到着直後」、「エンジン」、「燃料漏れ」、「出火」、「炎上」）に対して、ステップＳ４やＳ５と同様の手順を繰り返すことで、図１０に示す係り元形態素および係り先形態素の組合せ、つまり、形態素リンクの候補を抽出することができる。なお、図１１において、５番目の形態素である名詞の「着陸」については、「着陸」の直後の形態素が助詞ではなく、動詞（「し」）であることに留意されたい。したがって、係り元形態素が「着陸」である組合せ（例：「着陸」と「駐機場」）を形態素リンクの候補に挙げる必要はない。図１１において、１７番目の形態素である名詞の「出火」についても、同様のことが言える。

（解析器の算出処理）
解析器の算出処理について述べる。図１２は、図８の文章１を基に作成された形態素間距離の算出結果の一例を示す図である。算出処理では、解析器１０は、図１２に示すように、２９個ある形態素リンクの候補の各々について、形態素間距離を算出する（図６のステップＳ２５に対応）。１番目の形態素リンクの候補を例に挙げると、係り元形態素の「Ａ型機」と係り先形態素の「Ｂ空港」との間の形態素間距離が「２」と算出されている。なお、形態素間距離の算出は、図１２の例に限定されない。例えば、形態素間距離を段階的に表してもよい。この場合、係り元形態素と係り先形態素との間の形態素数が１であるときの形態素間距離を「１」と表し、係り元形態素と係り先形態素との間の形態素数が２以上３以下であるときの形態素間距離を「２」と表し、係り元形態素と係り先形態素との間の形態素数が４以上であるときの形態素間距離を「３」と表してもよい。

（形態素リンクリスト）
形態素リンクリストについて述べる。図１３は、図８の文章１を基に作成された形態素リンクリスト６の一例を示す図である。解析器１０は、図１０に示す形態素リンクの候補と、図１２に示す形態素間距離の算出結果とを用いて、図１３に示す形態素リンクリスト６を作成する（図６のステップＳ２６に対応）。ただし、形態素リンクリスト６が作成された段階では、解答がない。そのため、解答が未入力であることを示す記号「？」が解答欄６３に入力されている。

形態素リンクリスト６の数値化について述べる。教師データ２と同様に、入力データ欄６２の内容は、ベクトルデータで表される。図１３の例では、（２）式のベクトルデータによって、形態素間距離および助詞が表される。

Ｌ_ｉ＝｛ｄ，（ｘ_１，ｘ_２，・・・，ｘ_ｎ）｝・・・（２）式

ここで、Ｌ_ｉは、形態素リンクリスト６におけるｉ番目の形態素リンク（候補）を表す。パラメータｄは、例えば、形態素間距離を表す。パラメータ（ｘ_１，・・・，ｘ_ｎ）は、例えば、助詞の種類を表す。パラメータｎの最大値は、助詞の種類の数（例：ｎ＝２５）と一致する。ここで、１番目の形態素リンク（候補）を例に挙げる。１番目の形態素リンク（「Ａ型機」と「Ｂ空港」）に対応する入力データは、助詞の「が」および形態素間距離の「２」で構成されている。この場合のベクトルデータは、例えば、Ｌ_１＝｛２，（０，１，０，０，０，・・・，０）｝と表される。無論、教師データ２の場合と同様に、ベクトルデータＬ_ｉ自体の構成は、任意である。どのような種類の助詞をどのようなパラメータ（ｘ_１，・・・，ｘ_ｎ）で表すかについても、任意である。

なお、解析器１０のアルゴリズムなどに起因して、判定処理に直接使われないデータが形態素リンクリスト６に含まれている場合がある。つまり、判定器１１が解析器１０から受け取る入力データに、判定処理に不要なデータが含まれている場合がある。この場合、判定器１１は、不要なデータを無視すればよい。

以下に、判定処理に不要なデータが形態素リンクリスト６に含まれている場合の具体例を挙げる。図１３を参照すると、１６番目から２１番目の形態素リンクには、係り元形態素として名詞の「着陸」が挙げられている。３６番目の形態素リンクには、係り元形態素として名詞の「出火」が挙げられている。「着陸」および「出火」を係り元形態素とする形態素リンクは、上述の図１０の説明で述べたように、動詞の直前の形態素と、動詞の後方の形態素とで構成されており、判定処理には不要である。この場合、入力データのベクトルデータは、例えば、Ｌ_ｉ＝｛ｄ，（０，０，０，０，０，・・・，０）｝のように設定される。判定器１１は、助詞が（０，０，０，０，０，・・・，０）というパラメータで表されている場合、該当する助詞が存在しないと判断する。そして、判定器１１は、該当する形態素リンクの判定処理をスキップする。あるいは、該当する形態素リンクへの解答として、判定器１１が無条件で「不正解」を与えてもよい。

（判定器の判定処理）
判定器の判定処理について述べる。図１４は、図１３の形態素リンクリスト６を用いた場合の判定結果の一例を示す図である。図１５は、図１４に示す全ての形態素リンクの候補の中から、「正解」が与えられた形態素リンクのみを示す図である。判定器１１は、図１３に示す形態素リンクリスト６の入力データに基づいて、３６個ある形態素リンクの候補の各々が意味のある形態素リンクであるかを判定する（図６のステップＳ２９）。そして、判定器１１は、学習処理の結果を基に、形態素リンクの対象の各々に対して解答を与える。その結果、図１４の例では、３６個ある形態素リンクの対象の中から、１２個の形態素リンクに「正解」が与えられている。残りの形態素リンクは、各々を構成する係り元形態素と係り先形態素との間の意味的な関連性が低いとして、「不正解」が与えられている。図１５に示すように、学習済みの判定器１１によって、形態素リンクの数が３６個から１２個に絞られていることが分かる。

図１４の例では、形態素間距離が小さいほど、係り元形態素と係り先形態素との間の意味的な関連性が高くなっている。その理由は、形態素間距離が小さいほど、係り元形態素と係り先形態素との間の意味的な関連性が高くなるように、教師データが作成されているためである。なお、１６番目から２１番目の形態素リンク（係り元形態素が「着陸」）には、解答として「不正解」が与えられている。その理由は、助詞が（０，０，０，０，０，・・・，０）というパラメータで表されているためである。同様の理由により、３６番目の形態素リンク（係り元形態素が「出火」）にも、解答として「不正解」が与えられている。

（頻度の利用）
形態素リンクリスト６に頻度欄が設けられている場合について述べる。図１６は、頻度欄６４が設けられている形態素リンクリスト６の一例を示す図である。なお、図１６の例では、解答として「正解」が与えられた１２個の形態素リンクの各々に対して、頻度が示されている。また、頻度欄６４の説明に必要な箇所のみが示されている。

頻度は、形態素ネットワーク図およびＦＭＥＡシートを作成する場合に好適である。頻度の利用の一例を以下に挙げる。形態素ネットワーク図の場合、頻度が相対的に高い形態素リンクについて、形態素リンクを構成する２つの形態素（係り先形態素と係り元形態素）の間を相対的に狭く表示することが考えられる。あるいは、２つの形態素の間が相対的に太い線で結ばれてもよい。ＦＭＥＡシートを用いたリスク評価の場合、事象毎に発生頻度と影響度を組み合わせて評価してもよい。事象毎に発生頻度と影響度を組み合わせる場合、形態素リンクの出現頻度を参考情報として活用することができる。

（形態素ネットワーク図）
形態素ネットワーク図について述べる。図１７は、図１４の形態素リンクリスト６を基に作成された形態素ネットワーク図の一例を示す図である。図１７に示す形態素ネットワーク図には、係り元形態素と係り先形態素との間に意味的な関連性があると判定された形態素リンクのみが表示されている。ただし、図１７には、図１５に示す形態素リンクに加え、図８に示す文章データ３の全体から抽出されて「正解」が与えられた形態素リンクも反映されている。

例えば、図１５に示す１２個の形態素リンクのうち、係り先形態素が「Ａ型機」である形態素リンクに着目する。図１７に示すように、「Ａ型機」を起点として、「Ａ型機」と意味的な関連性のある６つの係り先形態素（「Ｂ空港」、「着陸」、「駐機場」、「到着直後」、「エンジン」および「燃料漏れ」）の各々が「Ａ型機」と放射状に有向線で結ばれている。このように、意味のある形態素のみが意味的に結合している。なお、図１７の例では、有向線の向き（矢印の向き）は、係り元形態素（例：「Ａ型機」）から係り先形態素（例：「Ｂ空港」）の向きである。有向線の向きを設定することができるのは、係り元となる形態素と、係り先となる形態素とが区別して得られるためである。

ここで、教師付き機械学習を適用せず、単に、２つの形態素の組合せを形態素ネットワーク図に反映させた場合を考える。この場合、図１３の形態素リンクリスト６に挙げられた全ての形態素リンクが形態素ネットワーク図に反映される。無論、文章データには、図８に示す文章１の他にも、文章が含まれる。したがって、図１７に示す形態素ネットワーク図と比べると、教師付き機械学習を適用しない場合に得られた形態素ネットワーク図は、例えば、図１のように、意味的な関連性を持たない形態素リンクが膨大に発生するため、分析に適さない過密な形態素ネットワーク図が得られる。しかしながら、本実施の形態によれば、図１７に示す通り、複数の形態素リンクが意味のある形態素リンクに絞られるので、ＦＭＥＡシート作成に適した形態素ネットワーク図が得られる。また、形態素リンクを絞る基準に形態素リンクの使用頻度が適用されないので、発生頻度は低くても、重大事象に至る可能性のある事象がＦＭＥＡシートから欠落することもない。

（ＦＭＥＡシート）
ＦＭＥＡシートについて述べる。図１８は、図１５の形態素リンクリスト６を基に作成されたＦＭＥＡシートの一例を示す図である。ＦＭＥＡシートは、例えば、「機能ブロック名」、「機能部品」、「機能」、「故障モード」、「推定原因」を入力する欄を備えている。図１５に示す形態素リンクの内容が対応する欄に入力されている。なお、図１８には、図８に示す文章データ３の全体から抽出されて「正解」が与えられた形態素リンクが反映されている。ＦＭＥＡシートについても、形態素ネットワーク図と同様に、複数の形態素リンクが意味のある形態素リンクに絞られるので、オペレータの技量に依存せずに素早く、網羅性の高いＦＭＥＡシートが作成される。

以上述べた通り、助詞および形態素間距離を基に形態素リンクの数が絞られる。したがって、形態素解析が適用された自然言語処理を用いて、形態素結同士の意味的な結合関係を作成するときに、重要な形態素リンクが欠落することなく、膨大な数の形態素リンクを有する形態素ネットワーク図の中から、意味的な関連性を有する形態素リンクのみを絞り込むことができる。

３．第１変形例
実施の形態の変形例について述べる。上述の実施の形態では、文章から抽出された助詞および形態素間距離に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無が判定される。第１変形例では、判定器の判定精度を上げるため、助詞および形態素間距離に加え、係り元形態素の属性および係り先形態素の属性が考慮される。属性として、例えば、漢字、ひらがな、カタカナが挙げられる。

詳細は、次の通りである。図１９は、文書データ処理装置１の第１変形例を示す機能ブロック図である。本変形例は、上述の実施の形態と次の点で相違する。１つ目は、教師データ２の構成である。図１９の（Ａ）に示すように、教師データ２の各事例は、助詞および形態素間距離に加え、（学習用の）係り元形態素の属性である係り元属性（例：「漢字」）と、（学習用の）係り先形態素の属性である係り先属性（例：「漢字」）とを包含している。本変形例では、属性は、漢字、ひらがな、および、カタカナのうちのいずれかに相当する。

２つ目は、解析器１０の処理内容である。解析器１０は、次の２つの属性を判別する。１つは、係り元形態素の属性である係り元属性である。もう１つは、係り先形態素の属性である係り先属性である。具体的には、係り元形態素が漢字含むか否か、係り元形態素がひらがなを含むか否か、および、係り元形態素がカタカナを含むか否かに基づいて、解析器１０は、係り元属性および係り先属性を判定する。図１９の（Ｂ）に示すように、文章データ３の内容が「Ａ型機が着陸した。」という文章である場合、係り元形態素である「Ａ型機」の属性は、漢字であると判別される。係り先形態素である「着陸」の属性も、漢字であると判別される。なお、係り元形態素を構成する文字の全てが、同じ属性で構成されている必要はない。

３つ目は、判定器１１の処理内容である。図１９の例では、判定器１１は、助詞（「が」）および形態素間距離（「２」）に加え、係り元属性（「漢字」）および係り先属性（「着陸」）を含む入力データ５を解析器１０から受け取る。判定器１１は、助詞、形態素間距離、係り元属性および係り先属性に基づいて、係り元形態素（「Ａ型機」）と係り先形態素（「着陸」）との間の意味的な関連性の有無を判定する。

第１変形例では、助詞および形態素間距離に加え、係り元属性および係り先属性に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無が判定される。そのため、判定器の判定精度が更に向上する。なお、属性は、アルファベットであってもよいし、数字（例：アラビア数字）であってもよい。属性がアルファベットまたは数字である場合も、第１変形例と同様の効果を得ることができる。また、本明細書において、「形態素自体」と「形態素属性」とは、互いに異なる概念である。「形態素自体」は、例えば、「Ａ型機」のように、単語の種類そのものを示す。これに対し、「形態素属性」は、複数種類の単語に共通する性質（例：「漢字」）を示す。

４．第２変形例
実施の形態の他の変形例について述べる。第２変形例では、判定器の判定精度を上げるため、助詞および形態素間距離に加え、学習用係り元形態素から学習用係り先形態素までの間にある読点（「、」）の有無が考慮される。

詳細は、次の通りである。図２０は、文書データ処理装置１の第２変形例を示す機能ブロック図である。本変形例は、上述の実施の形態と次の点で相違する。１つ目は、教師データ２の構成である。図２０の（Ａ）に示すように、教師データ２の各事例は、助詞および形態素間距離に加え、読点情報を包含している。ここで、読点情報は、係り元形態素から学習用係り先形態素までの間にある読点の有無を示す情報（例：「読点あり」）を包含している。

２つ目は、解析器１０の処理内容である。解析器１０は、文章データ３の中から、係り元形態素から係り先形態素までの間にある読点の有無を検出する。図２０の（Ｂ）に示すように、文章データ３の内容が「Ａ型機がＢ空港に着陸し、駐機場に到着直後にエンジンからの燃料漏れで出火し炎上した。」という文章である場合、係り元形態素である「Ｂ空港」と係り先形態素である「駐機場」との間に読点があると検出される。

３つ目は、判定器１１の処理内容である。図２０の例では、判定器１１は、助詞および形態素間距離に加え、読点情報を含む入力データ５を解析器１０から受け取る。図２０の例では、読点情報は、読点ありという情報を含んでいる。判定器１１は、助詞、形態素間距離および読点の有無に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無を判定する。

第２変形例では、助詞および形態素間距離に加え、読点の有無に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無が判定される。そのため、判定器の判定精度が更に向上する。なお、読点の有無の代わりに、読点の数を用いてもよい。読点の数を用いる場合、各事例の読点情報が、読点の数の情報を含んでいればよい。解析部が読点の数を算出し、判定部が読点の数に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無を判定すればよい。読点の数を用いても、読点の有無を用いる場合と同様の効果を得ることができる。

以上、全ての実施の形態および全ての変形例について説明した。本発明の趣旨を逸脱しない範囲内で、本発明に種々の変更を加えることができる。

技術的な矛盾が生じない範囲内で、実施の形態および全ての変形例を好適に組み合わせることができる。例えば、実施の形態を第１変形例および第２変形例と組み合わせてもよい。

１：文書データ処理装置、１０：解析器、１１：判定器、１２：形態素ネットワーク図作成部、１３：ＦＭＥＡシート作成部、１００：筐体（本体）、１１０：入力デバイス、１２０：出力装置、１０１：ＣＰＵ、１０２：メモリ、１０３：ハードディスク、１０４：Ｉ／Ｏ、１０５：バス、２：教師データ、２１：形態素欄、２２：形態素間距離欄、２３：助詞欄、２４：解答欄、３：文章データ、４：形態素解析用辞書、５：入力データ、６：形態素リンクリスト、６１：形態素リンク欄、６２：入力データ欄、６３：解答欄、６４：頻度欄

Claims

文書データの中から、係り元形態素と、前記係り元形態素の直後の助詞と、前記助詞よりも後方の係り先形態素とを抽出し、かつ、前記係り元形態素と前記係り先形態素との間の形態素間距離を算出する解析部と、
複数の事例を学習済の判定部であって、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する前記判定部と、
前記判定部による判定結果を出力する出力装置と
を備え、
前記複数の事例の各々は、
学習用助詞と、
前記学習用助詞の直前の形態素である学習用係り元形態素と、前記学習用助詞の後方の形態素である学習用係り先形態素との間の形態素間距離を示す学習用形態素間距離と、
前記学習用係り元形態素と前記学習用係り先形態素との間の意味的な関連性の有無を示す学習用解答と
を含み、
前記判定部は、前記解析部から、前記助詞および前記形態素間距離を含む入力データを受け取り、前記助詞および前記形態素間距離に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する
文書データ処理装置。
前記各事例は、前記学習用係り元形態素自体および前記学習用係り元形態素自体を含むことなく、前記学習用助詞、前記学習用形態素間距離および前記学習用解答によって構成されており、
前記判定部は、前記係り元形態素自体および前記係り先形態素自体を用いることなく、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する
請求項１に記載の文書データ処理装置。
前記各事例は、
前記学習用係り元形態素の属性である学習用係り元属性と、
前記学習用係り先形態素の属性である学習用係り先属性と
を更に含み、
前記解析部は、前記係り元形態素の属性である係り元属性と、前記係り先形態素の属性である係り先属性とを判別し、
前記判定部が前記解析部から受け取る前記入力データは、前記係り元属性および前記係り先属性を更に含み、
前記判定部は、更に、前記係り元属性および前記係り先属性に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する
請求項１または２に記載の文書データ処理装置。
前記判定部は、前記係り元形態素が漢字含むか否か、前記係り元形態素がひらがなを含むか否か、および、前記係り元形態素がカタカナを含むか否かに基づいて、前記係り元属性を判定する
請求項３に記載の文書データ処理装置。
前記各事例は、前記学習用係り元形態素から前記学習用係り先形態素までの間にある読点の有無または読点の数を示す学習用読点情報を更に含み、
前記解析部は、前記係り元形態素から前記係り先形態素までの間にある読点の有無を検出し、または読点の数を算出し、
前記判定部が前記解析部から受け取る前記入力データは、前記読点の有無、または前記読点の数を更に含み、
前記判定部は、更に、前記読点の有無、または前記読点の数に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する
請求項１から４のいずれか一項に記載の文書データ処理装置。
前記各事例における前記学習用係り元形態素の品詞および前記学習用係り先形態素の品詞は、名詞であり、
前記解析部によって抽出される前記係り元形態素の品詞および前記係り先形態素の品詞は、名詞である
請求項１から５のいずれか一項に記載の文書データ処理装置。
前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を反映した形態素ネットワーク図を作成する形態素ネットワーク図作成部を更に備え、
前記出力装置は、前記形態素ネットワーク図作成部によって作成された前記形態素ネットワーク図を表示する
請求項１から６のいずれか一項に記載の文章データ処理装置。
前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を反映したＦＭＥＡ（Failure Mode and Effects Analysis）シートを作成するＦＭＥＡシート作成部を更に備え、
前記出力装置は、前記ＦＭＥＡシート作成部によって作成された前記ＦＭＥＡシートを表示する
請求項１から７のいずれか一に記載の文章データ処理装置。
複数の事例を判定部が学習する学習ステップと、
ここで、前記複数の事例の各々は、
学習用助詞と、
前記学習用助詞の直前の形態素である学習用係り元形態素と、前記学習用助詞の後方の形態素である学習用係り先形態素との間の形態素間距離を示す学習用形態素間距離と、
前記学習用係り元形態素と学習用係り先形態素との間の意味的な関連性の有無を示す学習用解答と、
を含み、
文書データの中から、係り元形態素と、前記係り元形態素の直後の助詞と、前記助詞よりも後方の係り先形態素とを抽出する抽出ステップと、
前記係り元形態素と前記係り先形態素との間の形態素間距離を算出する算出ステップと、
前記助詞および前記形態素間距離を含む入力データを判定部が受け取るステップと、
前記助詞および前記形態素間距離に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する判定ステップと、
前記判定ステップによって得られた判定結果を出力する出力ステップと
を備える
文章データ処理方法。
請求項９に記載の文章データ処理方法をコンピュータに実行させるプログラム。