JP2017068435A - 文章データ処理装置、文章データ処理方法およびプログラム - Google Patents
文章データ処理装置、文章データ処理方法およびプログラム Download PDFInfo
- Publication number
- JP2017068435A JP2017068435A JP2015191321A JP2015191321A JP2017068435A JP 2017068435 A JP2017068435 A JP 2017068435A JP 2015191321 A JP2015191321 A JP 2015191321A JP 2015191321 A JP2015191321 A JP 2015191321A JP 2017068435 A JP2017068435 A JP 2017068435A
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- learning
- destination
- source
- particle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】形態素解析が適用された自然言語処理を用いて、形態素同士の意味的な結合関係を作成するときに、形態素同士の意味的な結合関係が複雑化することを抑制すること。【解決手段】解析部は、文書データの中から、係り元形態素と、係り元形態素の直後の助詞と、助詞よりも後方の係り先形態素とを抽出し、かつ、係り元形態素と係り先形態素との間の形態素間距離を算出する。判定部は、複数の事例を学習済であって、係り元形態素と係り先形態素との間の関連性を判定する。複数の事例の各々は、助詞と、助詞の直前の形態素である係り元形態素と、助詞の後方の形態素である係り先形態素との間の形態素間距離と、係り元形態素と係り先形態素との間の関連性を示す解答とを含む。判定部は、解析部から、助詞および形態素間距離を含む入力データを受け取り、助詞および形態素間距離に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無を判定する。【選択図】図3
Description
本発明は、文章データ処理装置、文章データ処理方法およびプログラムに関する。
形態素解析が適用された自然言語処理では、例えば、文章が複数の形態素(名詞や動詞など、意味を持つ最小の構成要素)に分解され、分解された複数の形態素を基に文章が解析される。
上述の自然言語処理を適用した関連技術の一例として、特許文献1が挙げられる。特許文献1は、FMEA(Failure Mode and Effects Analysis:故障モードと影響解析)シートを自動で作成する技術を開示している。特許文献1によれば、オペレータは、FMEAに関する事項が自由形式で記述された文書データを用意するだけでよい。FMEAに関する内容の形態素(例:故障が発生した部品名)が文章データから複数抽出され、抽出された複数の形態素を基に、FMEAシートが作成される。
更に、特許文献1は、形態素の共起頻度を基に作成した形態素ネットワーク図(共起頻度ネットワーク図)に関する技術を開示している。ここで、形態素ネットワーク図とは、例えば、無向グラフや有向グラフのように、形態素同士の意味的な結合関係を表す図である。特許文献1の例では、形態素ネットワーク図の内容がFMEAシートに反映される。
形態素ネットワーク図を作成する場合のように、形態素解析が適用された自然言語処理を用いて形態素同士の意味的な結合関係を作成する過程では、次のような事が起こり得る。
処理対象の文章の量が多くなるほど、形態素解析によって得られる形態素の種類も増える。また、共起頻度を基に形態素リンクリストを作成すると、形態素同士の意味的な関連性は考慮せず、無作為にリストが作成されるため、形態素同士の結合の組み合わせ数は膨大となる。ここで、「形態素リンク」とは、例えば、2つの形態素の間の結合を示すリンクである。図1は、形態素の数が膨大な場合(例:1000個)の一例を示す形態素ネットワーク図である。例えば、図1に示す形態素M1に着目すると、形態素M1は、形態素M1自身と関連性のある別の形態素M2と結合している。更に、形態素M2は、形態素M2自身と関連性のある別の形態素M3と結合している。このように、互いに関連性のある2つの形態素の結合が繰り返されている。そのため、図1に示すように、形態素解析によって得られる形態素の数が膨大である場合、形態素リンクの数も膨大になりやすい。このように、形態素リンクの数が膨大になると形態素ネットワーク図は過密となり、どの形態素とどの形態素が意味的に結合しているかを把握することができなくなり、過密な形態素ネットワーク図を基にFMEAシートを作成することが難しくなる。形態素解析が適用された自然言語処理において、膨大な数の形態素リンクを有する形態素ネットワーク図の中から、意味的な関連性を有する形態素リンクのみの絞り込みを行う手法を本発明者は求めていた。
本発明の目的は、形態素解析が適用された自然言語処理において、形態素同士の意味的な結合関係を作成するときに、膨大な数の形態素リンクを有する形態素ネットワーク図の中から、意味的な関連性を有する形態素リンクのみの絞り込みを行う文章データ処理装置、文章データ処理方法およびプログラムを提供することである。
以下に、「発明を実施するための形態」で使用される符号を用いて、課題を解決するための手段を説明する。これらの符号は、「特許請求の範囲」の記載と「発明を実施するための形態」との対応関係を明確にするために付加されたものである。これらの符号は、「特許請求の範囲」に記載されている発明の技術的範囲の解釈に用いられるものではない。
実施の形態における第1の観点の文書データ処理装置は、
文書データの中から、係り元形態素と、前記係り元形態素の直後の助詞と、前記助詞よりも後方の係り先形態素とを抽出し、かつ、前記係り元形態素と前記係り先形態素との間の形態素間距離を算出する解析部(10)と、
複数の事例(2)を学習済の判定部(11)であって、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する前記判定部(11)と、
前記判定部による判定結果を出力する出力装置(120)と
を備える。
前記複数の事例の各々は、
学習用助詞と、
前記学習用助詞の直前の形態素である学習用係り元形態素と、前記学習用助詞の後方の形態素である学習用係り先形態素との間の形態素間距離を示す学習用形態素間距離と、
前記学習用係り元形態素と前記学習用係り先形態素との間の意味的な関連性の有無を示す学習用解答と
を含む。
前記判定部は、前記解析部から、前記助詞および前記形態素間距離を含む入力データを受け取り、前記助詞および前記形態素間距離に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する。
文書データの中から、係り元形態素と、前記係り元形態素の直後の助詞と、前記助詞よりも後方の係り先形態素とを抽出し、かつ、前記係り元形態素と前記係り先形態素との間の形態素間距離を算出する解析部(10)と、
複数の事例(2)を学習済の判定部(11)であって、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する前記判定部(11)と、
前記判定部による判定結果を出力する出力装置(120)と
を備える。
前記複数の事例の各々は、
学習用助詞と、
前記学習用助詞の直前の形態素である学習用係り元形態素と、前記学習用助詞の後方の形態素である学習用係り先形態素との間の形態素間距離を示す学習用形態素間距離と、
前記学習用係り元形態素と前記学習用係り先形態素との間の意味的な関連性の有無を示す学習用解答と
を含む。
前記判定部は、前記解析部から、前記助詞および前記形態素間距離を含む入力データを受け取り、前記助詞および前記形態素間距離に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する。
前記各事例は、前記学習用係り元形態素自体および前記学習用係り元形態素自体を含むことなく、前記学習用助詞、前記学習用形態素間距離および前記学習用解答によって構成されていてもよい。
前記判定部は、前記係り元形態素自体および前記係り先形態素自体を用いることなく、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定してもよい。
前記判定部は、前記係り元形態素自体および前記係り先形態素自体を用いることなく、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定してもよい。
前記各事例は、
前記学習用係り元形態素の属性である学習用係り元属性と、
前記学習用係り先形態素の属性である学習用係り先属性と
を更に含んでいてもよい。
前記解析部は、前記係り元形態素の属性である係り元属性と、前記係り先形態素の属性である係り先属性とを判別してもよい。
前記判定部が前記解析部から受け取る前記入力データは、前記係り元属性および前記係り先属性を更に含んでいてもよい。
前記判定部は、更に、前記係り元属性および前記係り先属性に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定してもよい。
前記学習用係り元形態素の属性である学習用係り元属性と、
前記学習用係り先形態素の属性である学習用係り先属性と
を更に含んでいてもよい。
前記解析部は、前記係り元形態素の属性である係り元属性と、前記係り先形態素の属性である係り先属性とを判別してもよい。
前記判定部が前記解析部から受け取る前記入力データは、前記係り元属性および前記係り先属性を更に含んでいてもよい。
前記判定部は、更に、前記係り元属性および前記係り先属性に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定してもよい。
前記判定部は、前記係り元形態素が漢字含むか否か、前記係り元形態素がひらがなを含むか否か、および、前記係り元形態素がカタカナを含むか否かに基づいて、前記係り元属性を判定してもよい。
前記各事例は、前記学習用係り元形態素から前記学習用係り先形態素までの間にある読点の有無または読点の数を示す学習用読点情報を更に含んでいてもよい。
前記解析部は、前記係り元形態素から前記係り先形態素までの間にある読点の有無を検出してもよいし、または読点の数を算出してもよい。
前記判定部が前記解析部から受け取る前記入力データは、前記読点の有無、または前記読点の数を更に含んでいてもよい。
前記判定部は、更に、前記読点の有無、または前記読点の数に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定してもよい。
前記解析部は、前記係り元形態素から前記係り先形態素までの間にある読点の有無を検出してもよいし、または読点の数を算出してもよい。
前記判定部が前記解析部から受け取る前記入力データは、前記読点の有無、または前記読点の数を更に含んでいてもよい。
前記判定部は、更に、前記読点の有無、または前記読点の数に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定してもよい。
前記各事例における前記学習用係り元形態素の品詞および前記学習用係り先形態素の品詞は、名詞であってもよい。
前記解析部によって抽出される前記係り元形態素の品詞および前記係り先形態素の品詞は、名詞であってもよい。
前記解析部によって抽出される前記係り元形態素の品詞および前記係り先形態素の品詞は、名詞であってもよい。
前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を反映した形態素ネットワーク図を作成する形態素ネットワーク図作成部(12)を更に備えていてもよい。
前記出力装置は、前記形態素ネットワーク図作成部によって作成された前記形態素ネットワーク図を表示してもよい。
前記出力装置は、前記形態素ネットワーク図作成部によって作成された前記形態素ネットワーク図を表示してもよい。
前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を反映したFMEAシートを作成するFMEAシート作成部(13)を更に備えていてもよい。
前記出力装置は、前記FMEAシート作成部によって作成された前記FMEAシートを表示してもよい。
前記出力装置は、前記FMEAシート作成部によって作成された前記FMEAシートを表示してもよい。
実施の形態における第2の観点の文章データ処理方法は、
複数の事例を判定部が学習する学習ステップ(S12)と、
ここで、前記複数の事例の各々は、
学習用助詞と、
前記学習用助詞の直前の形態素である学習用係り元形態素と、前記学習用助詞の後方の形態素である学習用係り先形態素との間の形態素間距離を示す学習用形態素間距離と、
前記学習用係り元形態素と学習用係り先形態素との間の意味的な関連性の有無を示す学習用解答と、
を含み、
文書データの中から、係り元形態素と、前記係り元形態素の直後の助詞と、前記助詞よりも後方の係り先形態素とを抽出する抽出ステップ(S24)と、
前記係り元形態素と前記係り先形態素との間の形態素間距離を算出する算出ステップ(S25)と、
前記助詞および前記形態素間距離を含む入力データを判定部が受け取るステップ(S27)と、
前記助詞および前記形態素間距離に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する判定ステップ(S29)と、
前記判定ステップによって得られた判定結果を出力する出力ステップ(S3)と
を備える。
複数の事例を判定部が学習する学習ステップ(S12)と、
ここで、前記複数の事例の各々は、
学習用助詞と、
前記学習用助詞の直前の形態素である学習用係り元形態素と、前記学習用助詞の後方の形態素である学習用係り先形態素との間の形態素間距離を示す学習用形態素間距離と、
前記学習用係り元形態素と学習用係り先形態素との間の意味的な関連性の有無を示す学習用解答と、
を含み、
文書データの中から、係り元形態素と、前記係り元形態素の直後の助詞と、前記助詞よりも後方の係り先形態素とを抽出する抽出ステップ(S24)と、
前記係り元形態素と前記係り先形態素との間の形態素間距離を算出する算出ステップ(S25)と、
前記助詞および前記形態素間距離を含む入力データを判定部が受け取るステップ(S27)と、
前記助詞および前記形態素間距離に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する判定ステップ(S29)と、
前記判定ステップによって得られた判定結果を出力する出力ステップ(S3)と
を備える。
実施の形態における第3の観点のプログラムは、上述の第2の観点の文章データ処理方法をコンピュータに実行させるプログラムである。
実施の形態によれば、形態素解析が適用された自然言語処理を用いて、形態素同士の意味的な結合関係を作成するときに、膨大な数の形態素リンクを有する形態素ネットワーク図の中から、意味的な関連性を有する形態素リンクのみの絞り込みを行うことができる。
以下、本発明の実施の形態を図面に関連づけて説明する。以下の実施の形態において、同一の要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
1.本発明者によって認識された事項
形態素解析が適用された自然言語処理を用いてFMEAシートを作成するときに、形態素ネットワーク図を作成する場合がある。本発明者は、形態素ネットワーク図を作成する過程で起こり得る、次のような事項を認識した。
形態素解析が適用された自然言語処理を用いてFMEAシートを作成するときに、形態素ネットワーク図を作成する場合がある。本発明者は、形態素ネットワーク図を作成する過程で起こり得る、次のような事項を認識した。
自然言語処理のアルゴリズムに伴う形態素ネットワーク図の作成においては、意味的な関連性を持たない形態素リンクが膨大に発生することにより、分析に適さない程、過密な形態素ネットワーク図が得られることがある。意味的な関連性を持たない形態素リンクは、形態素ネットワーク図にも、FMEAシートにも不要である。したがって、全ての形態素リンクの中から不要な形態素リンクを抽出して削除することができれば、形態素ネットワーク図に表示される形態素の数が減少する。その結果、FMEAシート作成に適した形態素ネットワーク図が得られると期待される。
しかしながら、形態素リンクの数が膨大である場合(例:1000個)、手動で形態素リンクの数を絞ることは、現実的ではない。その理由の一つは、時間と手間がかかるためである。他の理由は、どの形態素リンクが不要であるかを的確に判断することができる技量がオペレータに必要なためである。オペレータの技量に依存せずに素早く形態素リンクの数を絞るためには、手動よりも自動の方がよい。ただし、自動で形態素リンクの数を絞る方法を採用する場合、次のような検討事項がある。
(形態素リンクの欠落)
1つ目は、形態素リンクの数を絞るときに、意味を持つ形態素リンクが欠落してはいけないことである。この点の検討は、とりわけ、FMEAシートを作成する場合には欠かせない。意味を持つ形態素リンクが欠落してはいけない理由を以下に述べる。
1つ目は、形態素リンクの数を絞るときに、意味を持つ形態素リンクが欠落してはいけないことである。この点の検討は、とりわけ、FMEAシートを作成する場合には欠かせない。意味を持つ形態素リンクが欠落してはいけない理由を以下に述べる。
形態素リンクの数を絞るために、例えば、文章データ(例えば、FMEAに関する事項が自由形式で記述されている。)における形態素リンクの使用頻度(例:「航空機」と「エンジン」の組合せの使用頻度)を適用する方法が考えられる。例えば、対象の形態素リンクの使用頻度が閾値よりも小さい場合、当該形態素リンクの重要度が相対的に低いとして、当該形態素リンクを不要と判断すればよい。
しかしながら、形態素リンクの使用頻度を基準に、形態素リンクの重要度を判定することには限界がある。それは、形態素リンクの重要度が当該形態素リンクの使用頻度に比例しない可能性があるためである。換言すれば、ある文章データにおける形態素リンクの使用頻度が相対的に低くても、使用頻度の低い形態素リンクが重要な意味を持つ場合がある。とりわけ、FMEAシートは、故障などの事象を把握して類似した事象の発生を未然に防ぐと言う役割を持つ。そのため、形態素リンクの使用頻度が低いという理由で、使用頻度の低い形態素リンクを削除することは望ましくない。例えば、「エンジン」と「炎上」という2つの形態素が互いに結合された形態素リンクがあった場合を考える。この例において、たとえ、文章中で当該形態素リンクの使用頻度が1回であったとしても、「エンジン」と「炎上」との間には、無視できない重要な意味があることは理解されよう。したがって、このような場合、形態素リンクの使用頻度を基準に当該形態素リンクの重要度を判断することは、極力避けた方がよいと言える。
そこで、代替的に、教師付き機械学習を用いて、形態素リンクの数を絞る方法が考えられる。教師付き機械学習によれば、教師データを用いることにより、未知の事象に対して解答(例:正解/不正解)を得ることができる。形態素リンクの数を絞る場合、形態素リンクを構成する2つの形態素の組合せを判定器(「識別器」とも呼ばれる。)に入力することで、2つの形態素の間の意味的な関連性の有無を判定することができる。教師付き機械学習では、形態素リンクの使用頻度を用いる場合と比べると、発生頻度は低くても、重大事象に至る可能性のある形態素リンクの欠落を抑制しつつ、形態素リンクの数を絞ることが期待される。
(教師データの事例の数)
ただし、教師付き機械学習を用いる場合には、次の検討事項がある。それは、教師データに関する。教師データは、複数の事例(問題(事象)とその解答の組)を包含している。2つの形態素の組合せを判定器への入力に使う場合、膨大な数の事例を予め用意する必要がある。言い換えれば、作成すべき教師データのデータ量が大きくなりやすい。その理由を以下に述べる。
ただし、教師付き機械学習を用いる場合には、次の検討事項がある。それは、教師データに関する。教師データは、複数の事例(問題(事象)とその解答の組)を包含している。2つの形態素の組合せを判定器への入力に使う場合、膨大な数の事例を予め用意する必要がある。言い換えれば、作成すべき教師データのデータ量が大きくなりやすい。その理由を以下に述べる。
教師付き機械学習では、ある2つの形態素の間の意味的な関連性の有無について解答を求める場合、教師データには、正解・不正解に対するものとして、最低2つの事例が必要である。FMEAシートを作成する場合を例に挙げれば、2つの形態素の組合せの数は、1千万通りを超えることもある。したがって、教師データに必要な事例の数も、1千万通りを超える。しかしながら、このような膨大な数の事例を用意することは、現実的ではない。それは、教師データの事例の作成に人手が欠かせないためである。
そこで、本発明者は、教師付き機械学習を用いる方法を採用し、教師データのデータ量を削減しつつ、教師付き機械学習を用いて形態素リンクの数を絞る方法について検討した。
2.実施の形態
2.1.概要
本実施の形態は、助詞を利用することにより、教師データの事例数の抑制を図りつつ、教師付き機械学習を用いて形態素リンクの数を絞る方法を提供する。助詞が着目された理由は、次の通りである。日本語では、原則、助詞の直前に、意味のある形態素がくる。また、原則、助詞の後方に、助詞の直前の形態素に対応する係り先が存在する。つまり、助詞の直前の形態素と、助詞の後方の形態素との間には、係り受け関係が成立している。両者の間の係り受け関係を利用すれば、助詞自体を教師データの事例に適用することが可能となる。助詞の種類(例:「て」、「に」、「から」、…)の数は限られているので、教師データを作成するために用意すべき事例の数も減る。
2.1.概要
本実施の形態は、助詞を利用することにより、教師データの事例数の抑制を図りつつ、教師付き機械学習を用いて形態素リンクの数を絞る方法を提供する。助詞が着目された理由は、次の通りである。日本語では、原則、助詞の直前に、意味のある形態素がくる。また、原則、助詞の後方に、助詞の直前の形態素に対応する係り先が存在する。つまり、助詞の直前の形態素と、助詞の後方の形態素との間には、係り受け関係が成立している。両者の間の係り受け関係を利用すれば、助詞自体を教師データの事例に適用することが可能となる。助詞の種類(例:「て」、「に」、「から」、…)の数は限られているので、教師データを作成するために用意すべき事例の数も減る。
以下に、簡単な文章を例に挙げて、実施の形態の概要を説明する。図2は、「A型機が着陸した。」という文章の形態素解析の結果を例示する図である。形態素解析によって、「A型機が着陸した。」という文章は、図2に示すように、6つの形態素1−6に分解される。6つの形態素1−6の品詞は、それぞれ、名詞、助詞、名詞、動詞、助動詞および記号(句点)である。
先ず、助詞に着目する。図2の例では、助詞は、形態素2の「が」に相当する。日本語の文章では、原則、助詞の直前には、意味をもつ形態素がくる。そこで、助詞の直前の形態素に着目する。図2の例では、形態素1の「A型機」が助詞の直前の形態素に相当する。また、原則、助詞の直前の形態素、つまり、係り元に対応する係り先は、助詞の後方に存在する。図2の例では、助詞の後方にある4つの形態素3−6の中で、形態素3の「着陸」が形態素1の係り先、つまり、助詞の後方の形態素に相当する。図2の例では、助詞の直前の形態素(「A型機」)と、助詞の後方の形態素(「着陸」)との間に係り関係が成立していることが分かる。係り元形態素(「A型機」)と係り先形態素(「着陸」)との間の意味的な関連性の有無が教師付き機械学習により判定される。なお、助詞の直前の形態素は、便宜的に「係り元形態素」と呼ばれる。助詞の後方の形態素は、便宜的に「係り先形態素」と呼ばれる。
ここで、留意すべきことは、両者の意味的な関連性の有無を判定するために、係り元形態素および係り先形態素が判定器への入力に使われるのではなく、助詞が判定器への入力に使われる点にある。どのような助詞がどのような係り元形態素および係り先形態素と結びつきやすいかを判定器が学習することができれば、助詞を判定器への入力に使うことができる。したがって、助詞を教師データの事例に適用することが可能となる。上述のように、助詞の種類の数は限られているので、用意すべき教師データのデータ量の大幅な削減が期待される。
係り元形態素と係り先形態素との間の意味的な関連性の有無の判定は、次に述べる文書データ処理装置によって実現される。図3は、文書データ処理装置1の構成例を示す機能ブロック図である。文書データ処理装置1は、解析部の一例である解析器10と、判定部の一例である判定器11と、教師データ2とを備える。文書データ処理装置1は、大別して、学習処理および判定処理の2つを実行する。
(学習処理)
学習処理では、図3の(A)に示すように、判定器11が教師データ2を用いて、学習(機械学習)を実行する。学習処理によって、学習済みの判定器11が作成される。
学習処理では、図3の(A)に示すように、判定器11が教師データ2を用いて、学習(機械学習)を実行する。学習処理によって、学習済みの判定器11が作成される。
教師データ2について簡単に説明する。教師データ2は、複数の事例によって構成されている。複数の事例の各々は、(学習用の)助詞(例:「が」)と、(学習用の)形態素間距離(例:「2」)と、助詞と形態素間距離との組合せに対する(学習用の)解答(例:「正解」)とを包含している。ここで、形態素間距離は、助詞の直前の形態素(係り元形態素)と、当該助詞の後方の形態素(係り先形態素)との間の相対的な距離である。相対的な距離は、例えば、係り元形態素と係り先形態素との間にある形態素の数であってもよい。形態素間距離は、判定器11の判定精度をより向上させるために使われる。なお、教師データ2の各事例には、係り元形態素自体も、係り先形態素自体も含まれていないことに留意されたい。教師データ2の詳細については、後述の実施例にて取り上げる。
(判定処理)
判定処理においては、図3の(B)に示すように、学習済みの判定器11に加え、解析器10が用いられる。判定処理の説明においては、図2の文章(「A型機が着陸した。」)を自由形式で記述された文章データ3の例として用いる。
判定処理においては、図3の(B)に示すように、学習済みの判定器11に加え、解析器10が用いられる。判定処理の説明においては、図2の文章(「A型機が着陸した。」)を自由形式で記述された文章データ3の例として用いる。
先ず、図3の(B)に示すように、解析器10は、文章データ3を取り込み、文章データ3の中から、係り元形態素(「A型機」)と、係り元形態素の直後の助詞(「が」)と、係り先形態素(「着陸」)とを抽出する。更に、解析器10は、係り元形態素と係り先形態素との間の形態素間距離を算出する。なお、図3の例では、形態素間距離は、「2」と算出される。形態素間距離の具体的な算出方法については、後述する。
次に、判定器11は、助詞(「が」)および形態素間距離(「2」)を含む入力データ5を解析器10から受け取る。そして、判定器11は、助詞および形態素間距離に基づいて、係り元形態素(「A型機」)と係り先形態素(「着陸」)との間の意味的な関連性の有無を判定する。図3の例では、「A型機」と「着陸」との間には、意味的な関連性があると判定される。その結果、両者が意味的に結合した形態素リンクが抽出される。もし、係り元形態素と係り先形態素との間に意味的な関連性がない場合、形態素リンクは抽出されない。そして、出力装置120は、判定器11による判定結果を出力する。なお、意味的な関連性の有無の判定処理において、係り元形態素自体(「A型機」という文言そのもの)および係り先形態素自体(「着陸」という文言そのもの)が用いられていないことに留意されたい。
本実施の形態では、助詞を基にして教師データが作成される。助詞の種類の数は、助詞の定義または分類方法によって変わるものの、一般的には、20種類から30種類であると言われている。したがって、仮に1種類の助詞について2つの事例を作成する場合でも、教師データを作成するために用意すべき事例の数は、40個から60個で済む。あらゆる形態素の組合せを考慮する場合と比べると、教師データのデータ量が大幅に削減されることが分かる。また、助詞を基にして作成された教師データによって、係り元形態素と係り先形態素との間の意味的な関連性の有無が判定される。つまり、対象の形態素リンクを作成すべきか否かが助詞を基に判定される。教師データのデータ量が小さくなれば、判定器による判定に掛かる時間も短縮される。
2.2.構成
文書データ処理装置について詳細に説明する。先ず、文書データ処理装置のハードウェア構成について説明する。図4は、文書データ処理装置1のハードウェア構成例を示すブロック図である。文書データ処理装置1は、例えば、パーソナル・コンピュータ(PC)である。図4に示すように、文書データ処理装置1は、筐体(本体)100と、入力デバイス110と、出力装置120とを有する。
文書データ処理装置について詳細に説明する。先ず、文書データ処理装置のハードウェア構成について説明する。図4は、文書データ処理装置1のハードウェア構成例を示すブロック図である。文書データ処理装置1は、例えば、パーソナル・コンピュータ(PC)である。図4に示すように、文書データ処理装置1は、筐体(本体)100と、入力デバイス110と、出力装置120とを有する。
筐体100は、CPU(中央演算処理装置)101と、メモリ102と、ハードディスク(HDD)103と、I/O(Input/Output)104と、バス105とを格納している。バス105には、CPU101、メモリ102、ハードディスク103およびI/O104が電気的にそれぞれ接続されている。
CPU101は、メモリ102、ハードディスク103およびI/O104と協働して、種々のソフトウェア処理を実行するように構成されている。種々のソフトウェア処理には、上述の学習処理および判定処理に加え、後述するように、形態素ネットワーク図の作成処理、FMEAシートの作成処理も含まれる。
入力デバイス110は、例えば、キーボードやマウスで構成されている。入力デバイス110は、オペレータの指示に基づいた電気信号を生成し、生成された電気信号をI/O104を介してCPU101に出力する。
出力装置120は、例えば、ディスプレイであって、I/O104に接続されている。出力装置120は、CPU101の処理結果をI/O104を介してCPU101から受け取る。そして、出力装置120は、受け取った処理結果を表示画面に表示する。処理結果には、後述するように、形態素ネットワーク図の作成処理結果、FMEAシートの作成処理結果が含まれる。代替的に、出力装置120は、プリンタであってもよい。出力装置120の構成は、CPU101の処理結果を出力することができれば、任意である。
文書データ処理装置1の機能的な構成について説明する。図5は、文書データ処理装置1の機能ブロック図である。文書データ処理装置1は、形態素解析が適用された自然言語処理を用いて、形態素ネットワーク図の作成およびFMEAシートの作成をアシストするように構成されている。
具体的には、図5に示すように、文書データ処理装置1は、解析器10、判定器11および教師データ2に加え、形態素ネットワーク図作成部12と、FMEAシート作成部13と、形態素解析用辞書4とを備える。具体的には、CPU101が、判定器11の機能と、解析器10の機能と、形態素ネットワーク図作成部12の機能と、FMEAシート作成部13の機能とを備えている。メモリ102には、次の2つのデータのうちの少なくとも一方が必要に応じて展開される。1つは、教師データ2であって、学習処理の実行時に展開される。もう1つは、形態素解析用辞書4であって、判定処理の実行時に展開される。なお、メモリ102の説明は、一例に過ぎない。CPU101が学習処理や判定処理などを実行可能であれば、教師データ2および形態素解析用辞書4の双方がどのような記憶手段にどのように格納されていてもよい。
以下に、CPU101が持つ機能について順を追って説明する。また、文章データ3の例として、図2の例と同様の文章(「A型機が着陸した。」)を取り上げる。なお、文章データ3自体は、文書データ処理装置1によって作成されてもよいし、他のコンピュータ装置によって作成されてもよい。
(解析器)
解析器10は、後述の抽出処理と、後述の算出処理とを実行する。解析器10は、抽出処理結果および算出処理結果を用いて、形態素リンクリスト6を作成する。簡単に言えば、形態素リンクリスト6は、形態素リンクの候補を挙げ、挙げられた候補の中から、意味のある形態素リンクを抽出するためのリストである。解析器10は、作成された形態素リンクリスト6を判定器11に出力する。以下に、解析器10の処理について、順を追って説明する。
解析器10は、後述の抽出処理と、後述の算出処理とを実行する。解析器10は、抽出処理結果および算出処理結果を用いて、形態素リンクリスト6を作成する。簡単に言えば、形態素リンクリスト6は、形態素リンクの候補を挙げ、挙げられた候補の中から、意味のある形態素リンクを抽出するためのリストである。解析器10は、作成された形態素リンクリスト6を判定器11に出力する。以下に、解析器10の処理について、順を追って説明する。
抽出処理について説明する。抽出処理において、解析器10は、次の処理を実行する。第1に、解析器10は、文章データ3を取り込み、形態素解析用辞書4をメモリ102から読み出す。解析器10は、形態素解析用辞書4を用いて、取り込んだ文章データ3中の文章を複数の形態素に分解する(形態素解析)。図5の例では、上述の概要で述べた通り(図2を参照)、6つの形態素1−6に分解される。なお、形態素解析に用いられる形態素解析用辞書4は、公知の辞書であっても良い。
第2に、解析器10は、分解された複数の形態素の中から、係り元形態素と、係り元形態素の直後の助詞と、係り先形態素とを抽出する。図5の例では、形態素1の「A型機」が係り元形態素として抽出され、形態素2の「が」が助詞として抽出され、形態素3の「着陸」が係り先形態素として抽出される。抽出された3つの形態素のうち、係り元形態素および係り先形態素の組合せは、形態素リンクの候補となる。なお、係り元形態素、助詞および係り先形態素の抽出の順番は、任意である。図5の例では、抽出処理によって得られる係り元形態素および係り先形態素の組合せ、即ち、形態素リンクの候補が一つあるが、文章の内容によっては、形態素リンクの候補が複数ある。形態素リンクの候補が複数ある場合については、後述の実施例にて取り上げる。
係り先形態素(「着陸」)の抽出に際して、解析器10は、対象の助詞よりも後方にある複数の形態素の中から、名詞の形態素を係り先形態素として抽出すればよい。簡単に言えば、係り先形態素の候補は、対象の助詞よりも後ろにある名詞だけである。その理由について説明する。「A型機が着陸した。」という文章の場合、係り元形態素は、形態素1の「A型機」に相当する。日本語では、係り元形態素の品詞は、原則、名詞である。係り元形態素に対応する係り先を考えると、係り先の候補として、形態素3の「着陸」、形態素4の「し」、形態素5の「た」、および形態素6の「。(句点)」が挙げられる。4つの形態素3−6の中で、係り受け関係が成立する組合せは、形態素1の「A型機」と、名詞である形態素3の「着陸」との組合せしかない。この例のように、日本語では、係り受け関係が成立する2つの形態素の品詞は、原則、名詞である。したがって、上述のように、解析器10は、名詞の形態素だけを係り先形態素として抽出すればよい。以上のことから、係り元形態素の品詞および係り先形態素の品詞は、一般的には、名詞であると言える。また、教師データ2の各事例における係り元形態素の品詞および係り先形態素の品詞も、一般的には、名詞であると言える。
算出処理について説明する。算出処理において、解析器10は、形態素間距離を次のように算出する。「A型機が着陸した。」という文章の場合、例えば、係り元形態素(「A型機」)の位置が基準(例:「1」)に設定される。この場合、助詞(「が」)の位置は、「2」で表される。係り先形態素(「着陸」)の位置は、「3」で表される。形態素間距離は、2つの形態素の間の相対的な距離なので、「3−1=2」と算出される。
形態素リンクリスト6の作成について説明する。抽出処理および算出処理の実行後、解析器10は、以下に述べる形態素リンクリスト6を作成する。作成された形態素リンクリスト6は、メモリ102に記憶され、メモリ102に記憶された形態素リンクリスト6は、判定器11に供給される。形態素リンクリスト6は、図5に示すように、例えば、形態素リンク欄61と、入力データ欄62と、解答欄63とによって構成されている。なお、これらの欄自体は、説明のために便宜的に用いられるのに過ぎない。
形態素リンク欄61は、形態素リンクの候補を入力(エントリ)するための欄である。言い換えれば、形態素リンク欄61は、抽出処理によって抽出された係り元形態素および係り先形態素の組み合せを入力するための欄である。具体的には、形態素リンク欄61は、係り元形態素が入力される欄と、助詞が入力される欄と、係り先形態素が入力される欄とで構成されている。図5の例では、係り元形態素の「A型機」と、助詞の「が」と、係り先形態素の「着陸」とが形態素リンク欄61の対応する欄にそれぞれ入力されている。なお、形態素リンク欄61は、説明のために便宜的に設けられた欄であり、解析器10の処理および判定器11の処理に必須ではない。また、助詞が入力される欄は、設けられていなくてもよい。
入力データ欄62は、判定器11に与えるべき入力データを入力するための欄である。入力データ欄62は、形態素間距離が入力される欄と、助詞が入力される欄とで構成されている。図5の例では、形態素リンクの候補において、形態素間距離の「2」および助詞の「が」が入力データ欄62の対応する欄に入力されている。なお、判定器11には、形態素リンク欄61の内容ではなく、入力データ欄62の内容が入力されることに留意されたい。
解答欄63は、判定器11による判定結果、即ち、解答を入力するための欄である。形態素リンクリスト6の作成段階では、解答欄63は、例えば、空欄である。
(判定器)
判定器11は、例えば、ニューラルネットワークのアルゴリズムに従って、学習処理と、判定処理とを実行する。代替的に、判定器11は、サポートベクターマシンで構成されていてもよい。判定器11に適用されるアルゴリズムは、教師付き学習が可能なアルゴリズムであれば、任意である。
判定器11は、例えば、ニューラルネットワークのアルゴリズムに従って、学習処理と、判定処理とを実行する。代替的に、判定器11は、サポートベクターマシンで構成されていてもよい。判定器11に適用されるアルゴリズムは、教師付き学習が可能なアルゴリズムであれば、任意である。
学習処理において、判定器11は、教師データ2をメモリ102から読み出し、教師データ2の各事例を学習する。図5に示す事例1の例では、助詞の「が」と形態素間距離の「2」との組み合わせに対する解答が「正解」であると、判定器11は学習する。繰り返し述べるが、教師データ2の各事例は、係り元形態素自体および係り元形態素自体を含むことなく、助詞、形態素間距離および解答によって構成されている。なお、一般的には、判定器11における学習処理は、解析器10による抽出処理および算出処理の実行前に実行される。
判定処理において、各事例を学習済みの判定器11は、形態素リンクリスト6に挙げられている形態素リンクの候補の中から、意味のある形態素リンクを抽出する。その詳細は、次の通りである。第1に、判定器11は、解析器10から形態素リンクリスト6を受け取る。そして、判定器11は、受け取った形態素リンクリスト6の入力データ欄62から、助詞と、当助詞に対応する形態素間距離を取得する。図5の例では、形態素間距離の「2」および助詞の「が」が取得される。
第2に、判定器11は、係り元形態素自体および係り先形態素自体を用いることなく、入力データ欄62から取得された助詞および形態素間距離に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無を判定する。判定後、判定器11は、判定結果を解答欄63の対応する欄(空欄)に入力する。図5の例では、助詞の「が」および形態素間距離の「2」に基づいて、係り元形態素の「A型機」と係り先形態素の「着陸」との間の意味的な関連性の有無が判定される。その結果、例えば、両者の間に意味的な関連性があると判定される。つまり、図5の形態素リンクリスト6に挙げられた形態素リンクの候補は、意味のある形態素リンクであると判定される。図5の例では、判定器11が、正解を表す記号(例:「○」)を解答欄63の対応する欄に入力している。もし、意味的な関連性がないと判定された場合、判定器11は、不正解を表す記号(例:「×」)を解答欄63の対応する欄に入力する。無論、正解/不正解を表すために、フラグを用いてもよい。判定後、判定器11は、判定結果が入力された形態素リンクリスト6を形態素ネットワーク図作成部12および/またはFMEAシート作成部13に出力する。
図5の例では、解答(判定のレベル)が正解または不正解の2値で表される。代替的に、解答が多値(例:正解/不正解/不明)で表されてもよい。例えば、判定処理の結果、「不明」という解答が得られた場合、オペレータが解答を正解または不正解に手動で振り分けられるように、判定器11(文書データ処理装置1)が構成されていてもよい。
なお、図5に示す形態素リンクリスト6は、説明の理解が容易となるように例示されているに過ぎない。実際には、形態素リンクリスト6の内容は、CPU101が処理を実行できるように、数値化されている。同様に、教師データ2の内容も数値化されている。また、形態素リンクリスト6の仕様は、好適に変更可能である。例えば、付加的に、頻度欄が設けられてもよい。頻度欄は、文章データ3の中で、同じ形態素リンクの候補が使われた回数を入力するための欄である。なお、頻度は、公知の方法(例:カウンタ)を用いて、解析器10が算出すればよい。頻度の利用については、後述の実施例にて取り上げる。
(形態素ネットワーク図作成部)
形態素ネットワーク図作成部12は、判定器11による判定結果が反映された形態素リンクリスト6を取りこむ。そして、形態素ネットワーク図作成部12は、形態素リンクリスト6を基に、係り元形態素と係り先形態素との間の意味的な関連性の有無を反映した形態素ネットワーク図を作成する。具体的には、形態素ネットワーク図作成部12は、形態素リンクの候補に対する解答を解答欄63から取得する。そして、取得された解答が正解である場合に限り、形態素ネットワーク図作成部12は、当該形態素リンクを形態素ネットワーク図に反映させる。図5の例では、「A型機」と「着陸」との組み合わせに対する解答が正解である。したがって、「A型機」および「着陸」の形態素リンクが形態素ネットワーク図に反映される。
形態素ネットワーク図作成部12は、判定器11による判定結果が反映された形態素リンクリスト6を取りこむ。そして、形態素ネットワーク図作成部12は、形態素リンクリスト6を基に、係り元形態素と係り先形態素との間の意味的な関連性の有無を反映した形態素ネットワーク図を作成する。具体的には、形態素ネットワーク図作成部12は、形態素リンクの候補に対する解答を解答欄63から取得する。そして、取得された解答が正解である場合に限り、形態素ネットワーク図作成部12は、当該形態素リンクを形態素ネットワーク図に反映させる。図5の例では、「A型機」と「着陸」との組み合わせに対する解答が正解である。したがって、「A型機」および「着陸」の形態素リンクが形態素ネットワーク図に反映される。
(FMEAシート作成部)
FMEAシート作成部13は、判定器11による判定結果を反映した形態素リンクリスト6を取りこむ。そして、FMEAシート作成部13は、形態素リンクリスト6を基に、係り元形態素と係り先形態素との間の意味的な関連性の有無を反映したFMEAシートを作成する。具体的には、FMEAシート作成部13は、形態素リンクの候補に対する解答を解答欄63から取得する。そして、取得された解答が正解である場合に限り、FMEAシート作成部13は、当該形態素リンクに基づいた内容をFMEAシートに反映させる。図5の例では、「A型機」と「着陸」との組み合わせに対する解答が正解である。したがって、「A型機」および「着陸」の形態素リンクの内容がFMEAシートの対応する欄に入力される。
FMEAシート作成部13は、判定器11による判定結果を反映した形態素リンクリスト6を取りこむ。そして、FMEAシート作成部13は、形態素リンクリスト6を基に、係り元形態素と係り先形態素との間の意味的な関連性の有無を反映したFMEAシートを作成する。具体的には、FMEAシート作成部13は、形態素リンクの候補に対する解答を解答欄63から取得する。そして、取得された解答が正解である場合に限り、FMEAシート作成部13は、当該形態素リンクに基づいた内容をFMEAシートに反映させる。図5の例では、「A型機」と「着陸」との組み合わせに対する解答が正解である。したがって、「A型機」および「着陸」の形態素リンクの内容がFMEAシートの対応する欄に入力される。
2.3.文書データ処理方法
文書データ処理装置で実行される文書データ処理方法について、図5および図6を参照しながら説明する。図6は、文書データ処理方法のフローチャートである。図6に示すように、文書データ処理方法は、大別すると、学習ステップS1と、判定ステップS2と、出力ステップS3とに分けられ、その順に実行される。ただし、学習ステップS1は、判定ステップS2よりも前に実行されていればよい。なお、コンピュータ(図4に示すCPU101)は、図6に示す文書データ処理方法の各ステップをプログラムとして実行する。
文書データ処理装置で実行される文書データ処理方法について、図5および図6を参照しながら説明する。図6は、文書データ処理方法のフローチャートである。図6に示すように、文書データ処理方法は、大別すると、学習ステップS1と、判定ステップS2と、出力ステップS3とに分けられ、その順に実行される。ただし、学習ステップS1は、判定ステップS2よりも前に実行されていればよい。なお、コンピュータ(図4に示すCPU101)は、図6に示す文書データ処理方法の各ステップをプログラムとして実行する。
(学習ステップS1)
学習ステップS1は、判定器11が教師付き学習を実行するステップである。具体的には、次の通りである。判定器11は、教師データ2をメモリ102から読み出す(S11)。そして、判定器11は、教師データ2の各事例を学習する(S12)。ステップS12によって、学習済みの判定器11が作成される。なお、判定器11は、例えば、調整可能な複数のパラメータを備えている。複数のパラメータは、判定器11が事例を学習することによって調整される。パラメータが調整された判定器11が学習済みの判定器である。
学習ステップS1は、判定器11が教師付き学習を実行するステップである。具体的には、次の通りである。判定器11は、教師データ2をメモリ102から読み出す(S11)。そして、判定器11は、教師データ2の各事例を学習する(S12)。ステップS12によって、学習済みの判定器11が作成される。なお、判定器11は、例えば、調整可能な複数のパラメータを備えている。複数のパラメータは、判定器11が事例を学習することによって調整される。パラメータが調整された判定器11が学習済みの判定器である。
(判定ステップS2)
判定ステップS2は、大まか言えば、形態素リンクの候補が挙げられた形態素リンクリスト6を解析器10が作成し、形態素リンクリスト6に挙げられた候補の中から、意味のある形態素リンクを判定器11が抽出するステップである。その詳細は、次の通りである。解析器10は、文章データ3を取り込む(S21)。また、解析器10は、形態素解析用辞書4をメモリ102から読み出す(S22)。そして、解析器10は、形態素解析用辞書4を用いて、取り込んだ文章データ3中の文章を複数の形態素に分解する(S23)。そして、解析器10は、分解された複数の形態素の中から、係り元形態素と、係り元形態素の直後の助詞と、係り先形態素とを抽出する(S24)。つまり、ステップS24によって、形態素リンクの候補が抽出される。そして、解析器10は、形態素間距離を算出する(S25)。ステップS24の結果およびステップS25の結果を用いて、解析器10は、形態素リンクリスト6を作成する(S26)。
判定ステップS2は、大まか言えば、形態素リンクの候補が挙げられた形態素リンクリスト6を解析器10が作成し、形態素リンクリスト6に挙げられた候補の中から、意味のある形態素リンクを判定器11が抽出するステップである。その詳細は、次の通りである。解析器10は、文章データ3を取り込む(S21)。また、解析器10は、形態素解析用辞書4をメモリ102から読み出す(S22)。そして、解析器10は、形態素解析用辞書4を用いて、取り込んだ文章データ3中の文章を複数の形態素に分解する(S23)。そして、解析器10は、分解された複数の形態素の中から、係り元形態素と、係り元形態素の直後の助詞と、係り先形態素とを抽出する(S24)。つまり、ステップS24によって、形態素リンクの候補が抽出される。そして、解析器10は、形態素間距離を算出する(S25)。ステップS24の結果およびステップS25の結果を用いて、解析器10は、形態素リンクリスト6を作成する(S26)。
次に、判定器11は、解析器10から形態素リンクリスト6を受け取る(S27)。そして、判定器11は、受け取った形態素リンクリスト6から、助詞および形態素間距離を取得する(S28)。そして、判定器11は、助詞および形態素間距離に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無を判定する(S29)。判定後、判定器11は、判定結果が入力された形態素リンクリスト6を形態素ネットワーク図作成部12および/またはFMEAシート作成部13に出力する(S210)。
なお、技術的な矛盾が生じない限り、判定ステップS2における各ステップの順序を好適に変更することができる。例えば、形態素解析用辞書4をメモリ102から読み出すステップS22の後に、文章データ3を取り込むステップS21が実行されてもよい。あるいは、両者のステップが並列に実行されてもよい。例えば、形態素間距離を算出するステップS25の後に、3つの形態素(係り元形態素、係り元形態素の直後の助詞、係り先形態素)を抽出するステップS24が実行されてもよい。あるいは、両者のステップが並列に実行されてもよい。
(出力ステップS3)
出力ステップS3は、判定ステップS2の結果を用いて、形態素ネットワーク図およびFMEAシートを作成するステップである。具体的には、形態素ネットワーク図作成部12は、形態素リンクリスト6を基に、係り元形態素と係り先形態素との間の意味的な関連性の有無を反映した形態素ネットワーク図を作成する(S31)。そして、出力装置120は、作成された形態素ネットワーク図を出力する(S32)。また、FMEAシート作成部13は、形態素リンクリスト6を基に、係り元形態素と係り先形態素との間の意味的な関連性の有無を反映したFMEAシートを作成する(S33)。そして、出力装置120は、作成されたFMEAシートを出力する(S34)。
出力ステップS3は、判定ステップS2の結果を用いて、形態素ネットワーク図およびFMEAシートを作成するステップである。具体的には、形態素ネットワーク図作成部12は、形態素リンクリスト6を基に、係り元形態素と係り先形態素との間の意味的な関連性の有無を反映した形態素ネットワーク図を作成する(S31)。そして、出力装置120は、作成された形態素ネットワーク図を出力する(S32)。また、FMEAシート作成部13は、形態素リンクリスト6を基に、係り元形態素と係り先形態素との間の意味的な関連性の有無を反映したFMEAシートを作成する(S33)。そして、出力装置120は、作成されたFMEAシートを出力する(S34)。
なお、技術的な矛盾が生じない限り、出力ステップS3における各ステップの順序を好適に変更することができる。また、出力ステップS3の内容も好適に変更することができる。例えば、出力ステップS3では、形態素ネットワーク図およびFMEAシートの双方を作成する場合を例示したが、いずれか一方のみが作成されてもよい。例えば、形態素ネットワーク図を作成して出力することが不要な場合、ステップS31およびS32は不要である。
2.4.実施例
文書データ処理装置の実施例を図7から図18を参照して説明する。先ず、図7および図8を参照して、実施例で用いられる教師データおよび文章データについて述べる。次に、図7に示す教師データおよび図8に示す文章データを用いた場合に、文書データ処理装置でどのような処理が行われるかについて述べる。図5も合わせて参照されたい。
文書データ処理装置の実施例を図7から図18を参照して説明する。先ず、図7および図8を参照して、実施例で用いられる教師データおよび文章データについて述べる。次に、図7に示す教師データおよび図8に示す文章データを用いた場合に、文書データ処理装置でどのような処理が行われるかについて述べる。図5も合わせて参照されたい。
(教師データ)
判定器の学習処理では、次のような教師データが用いられる。図7は、教師データ2の一例を示す図である。図7の例では、教師データ2は、形態素欄21と、形態素間距離欄22と、助詞欄23と、解答欄24とによって構成されている。形態素欄21は、用意された係り元形態素と、用意された係り先形態素とを入力するための欄である。形態素間距離欄22は、係り元形態素と係り先形態素との間の相対的な距離を入力するための欄である。助詞欄23は、用意された助詞を入力するための欄である。解答欄24は、係り元形態素と係り先形態素との間の意味的な関連性の有無を入力するための欄である。なお、形態素欄21は、係り元形態素と係り先形態素との組み合わせを明示するために設けられたものであり、教師データ2に必須なものではない。
判定器の学習処理では、次のような教師データが用いられる。図7は、教師データ2の一例を示す図である。図7の例では、教師データ2は、形態素欄21と、形態素間距離欄22と、助詞欄23と、解答欄24とによって構成されている。形態素欄21は、用意された係り元形態素と、用意された係り先形態素とを入力するための欄である。形態素間距離欄22は、係り元形態素と係り先形態素との間の相対的な距離を入力するための欄である。助詞欄23は、用意された助詞を入力するための欄である。解答欄24は、係り元形態素と係り先形態素との間の意味的な関連性の有無を入力するための欄である。なお、形態素欄21は、係り元形態素と係り先形態素との組み合わせを明示するために設けられたものであり、教師データ2に必須なものではない。
先ず、助詞の種類について述べる。図7の例では、「は」、「が」、「に」、「から」、「で」、「にて」、「ので」など、n=25種類の助詞が用いられている。なお、助詞の種類の数は、n=25種類より少なくてもよいし、多くてもよい。どのような種類の助詞を用いるかについても、特に限定されるわけではない。ただし、自然言語処理(判定器の判定精度)の精度を上げるという観点に照らせば、使用頻度が高いと想定される助詞が網羅される方がよい。
次に、1種類の助詞に対して、用意される事例の数について述べる。図7の例では、1種類の助詞に対して、k=6個の事例が用意されており、k=6個の事例の各々には、形態素間距離および解答が付加されている。したがって、教師データ2における事例の総数は、m=n(助詞の種類)×k(1種類の助詞に対する事例の数)と表される。1種類の助詞に対して用意される事例の数は任意であるが、次のことに留意すべきである。1種類の助詞に対して用意される事例の数が多いほど、判定器11の判定精度は上がる。その反面、問題(事象)とその解答の組合せを多く用意する必要がある。実用的な観点では、1種類の助詞に対して適用する事例の数が2≦k≦6であればよい。事例の総数が助詞の種類の数の2倍から6倍あれば、十分に高い判定精度を持つ判定器が得られるものと期待される。
教師データ2の数値化について述べる。本実施の形態では、教師データにおける問題およびその解答は、ベクトルデータで表現される。図7の例では、(1)式のベクトルデータによって、問題(助詞および形態素間距離)と、問題対する解答(正解/不正解)とが表される。
Ti={d,(x1,x2,・・・,xn),y}・・・(1)式
ここで、Tiは、教師データ2におけるi番目の事例を表す。パラメータdは、例えば、形態素間距離を表す。パラメータ(x1,・・・,xn)は、例えば、助詞の種類を表す。パラメータnの最大値は、助詞の種類の数(例:n=25)と一致する。パラメータyは、例えば、解答を表す。解答が2値(正解/不正解)で表されるとき、パラメータyは、例えば、1(正解)/0(不正解)で表される。図7の例では、説明を分かりやすくするために、解答が記号(○正解/×不正解)で表されている。ここで、1番目の事例を例に挙げる。係り元形態素の「三重」と係り先形態素の「記念展」との組み合わせに対応する助詞は、「は」である。形態素間距離は、「2」である。この場合のベクトルデータは、例えば、T1={2,(1,0,0,0,0,・・・,0,0),1}と表される。無論、ベクトルデータTi自体の構成は、任意である。どのような種類の助詞をどのようなパラメータ(x1,・・・,xn)で表すかについても、任意である。
教師データ2の作成について述べる。教師データ2自体は、手作業で作成される。例えば、1番目の事例では、係り元形態素の「三重」と係り先形態素の「記念展」との間に意味的な関連性があるとして、「正解」が与えられている。ただし、実際に、オペレータに要求される最低限の作業は、2つの形態素の間の意味的な関連性の有無を判定し、解答を与えることである。したがって、解答欄24以外の欄へのデータ入力は、自動で行われてもよい。ここでは、説明を分かりやすくするため、全ての欄へのデータ入力が手作業で行われる場合を例に挙げる。
先ず、オペレータは、m=n×k個の事例を用意する。図7の例では、助詞の「は」について、k=6個の事例が用意されている。事例の内容は、特に限定されるものではない。係り元形態素の品詞および係り先形態素の品詞は、例えば、名詞である。ただし、機械学習の精度を上げるという観点では、使用する言葉にできるだけ偏りが生じないように、様々な文章の中から、3つの形態素の組合せ(係り元形態素、係り元形態素の直後の助詞、係り先形態素)を選ぶ方がよい。
ここで、1番目の事例T1を作成する場合を例に挙げる。オペレータは、係り元形態素の「三重」と、係り元形態素の直後の助詞である「は」と、係り先形態素の「記念展」との組合せを用意する。そして、オペレータは、係り元形態素および係り先形態素を形態素欄21に入力し、助詞を助詞欄23に入力する。オペレータは、係り元形態素(「三重」)と係り先形態素(「記念展」)との意味的な関連性の有無を判定し、判定結果である「正解(例:○)」を解答欄24に入力する。また、オペレータは、形態素間距離(例:2)を形態素間距離欄22に入力しておく。その後、作成された教師データ2は、例えば、図4に示すハードディスク103に格納される。学習処理が実行されるときに、ハードディスク103に格納された教師データ2は、メモリ102に展開される。
(文章データ)
文章データの一例を挙げる。図8は、FMEAシートの作成に用いられる文章データ3の一例を示す図である。FMEAシートを作成する場合、例えば、「不適合報告書」と呼ばれる文章データ3が用意される。文章データ3は、例えば、3ページのテキスト31−33で構成されている。3ページのテキスト31−33にわたって、航空機に関する不具合などが記述されている。例えば、1ページ目のテキスト31には、「1.発生状況」という項目において、次の文章1が記述されている。
文章データの一例を挙げる。図8は、FMEAシートの作成に用いられる文章データ3の一例を示す図である。FMEAシートを作成する場合、例えば、「不適合報告書」と呼ばれる文章データ3が用意される。文章データ3は、例えば、3ページのテキスト31−33で構成されている。3ページのテキスト31−33にわたって、航空機に関する不具合などが記述されている。例えば、1ページ目のテキスト31には、「1.発生状況」という項目において、次の文章1が記述されている。
文章1:「A型機がB空港に着陸し、駐機場に到着直後にエンジンからの燃料漏れで出火し炎上した。」
以下に、図5に示すCPUの機能を図7から図18に関連付けて説明する。また、説明を簡略化するため、特に断りがない限り、図8の文章1を例に挙げる。
(判定器の学習処理)
学習処理では、図7に示す教師データ2の各事例を判定器11が学習する(図6のステップS12に対応)。1番目の事例を例に挙げると、助詞の「は」と、形態素間距離の「2」との組み合わせに対する解答が「正解」であると、判定器11が学習する。図7の例では、各事例に含まれる要素の数は、助詞の種類の数を除けば、形態素間距離および解答の2つである。後述の変形例においても、各事例に含まれる要素の数は、助詞の種類の数を除けば、例えば、10以下である。このように、要素の数は少ない。また、図7の例では、事例の総数は、m=n(助詞の種類)×k(1種類の助詞に対する事例の数)=25×6=150である。本実施の形態における事例の総数は、多く見積もっても、例えば、m=3000以下であり、好適には、m=1000以下である。したがって、オペレータに要求される作業量は大きくない。これに対し、従来のように、係り元形態素自体および係り先形態素自体を教師データとして用いる場合、事例の総数は、係り元形態素の種類の数(「三重」、「開催場所」…)に係り先形態素の種類の数(「記念展」、「賢島」…)を乗ずることにより得られる。したがって、オペレータに要求される作業量が膨大となる。
学習処理では、図7に示す教師データ2の各事例を判定器11が学習する(図6のステップS12に対応)。1番目の事例を例に挙げると、助詞の「は」と、形態素間距離の「2」との組み合わせに対する解答が「正解」であると、判定器11が学習する。図7の例では、各事例に含まれる要素の数は、助詞の種類の数を除けば、形態素間距離および解答の2つである。後述の変形例においても、各事例に含まれる要素の数は、助詞の種類の数を除けば、例えば、10以下である。このように、要素の数は少ない。また、図7の例では、事例の総数は、m=n(助詞の種類)×k(1種類の助詞に対する事例の数)=25×6=150である。本実施の形態における事例の総数は、多く見積もっても、例えば、m=3000以下であり、好適には、m=1000以下である。したがって、オペレータに要求される作業量は大きくない。これに対し、従来のように、係り元形態素自体および係り先形態素自体を教師データとして用いる場合、事例の総数は、係り元形態素の種類の数(「三重」、「開催場所」…)に係り先形態素の種類の数(「記念展」、「賢島」…)を乗ずることにより得られる。したがって、オペレータに要求される作業量が膨大となる。
(解析器の抽出処理)
解析器の抽出処理について述べる。解析器10は、次のように、文章1を複数の形態素に分解する(図6のステップS23に対応)。図9は、図8の文章1を基に実行された形態素解析の結果を示す図である。図9の例では、文章1は24個の形態素に分解される。図9には、参考のため、品詞の詳細、活用形および読み方も例示されている。なお、図9の表自体は、解析器10の抽出処理に必須ではない。
解析器の抽出処理について述べる。解析器10は、次のように、文章1を複数の形態素に分解する(図6のステップS23に対応)。図9は、図8の文章1を基に実行された形態素解析の結果を示す図である。図9の例では、文章1は24個の形態素に分解される。図9には、参考のため、品詞の詳細、活用形および読み方も例示されている。なお、図9の表自体は、解析器10の抽出処理に必須ではない。
解析器10は、分解された24個の形態素の中から、形態素リンクの候補を抽出する(図6のステップS24に対応)。具体的には、次の通りである。図10は、文章1を基に作成された形態素リンクの候補を示す図である。図10を参照すると、本実施の形態では、連続する名詞が一つの名詞(例:「到着」と「直後」)として取り扱われていることが分かる。ここで、21番目から24番目の係り元形態素に着目する。「到着直後」という形態素は、図9の例では、「到着」および「直後」という2つの形態素に分解されていた。28番目および29番目の係り元形態素(「燃料漏れ」)についても、同様のことが言える。連続する名詞には密接な関係があるので、連続する名詞を一つの名詞として取り扱ってもよい。
図10の例では、連続する名詞を一つの名詞として取り扱うことにより、29個の形態素リンクが候補として抽出されている。形態素リンクの候補が複数ある場合、解析器10は、係り元形態素と係り先形態素との組合せをどのように抽出してもよい。ここでは、文章1の先頭から終わりに向かって、形態素を順番に検索する方法を例に挙げる。
図11は、図9に示す形態素解析の結果から、図10に示す形態素リンクの候補が抽出されるまでの過程を説明する図である。なお、図10に示す数字は、形態素を連番で表している。図11に示すように、先頭の形態素は、名詞の「A型機」である。先ず、解析器10は、名詞の「A型機」を係り元形態素として抽出する。次に、解析器10は、係り元形態素の直後の助詞を検索する。図11の例では、名詞の「A型機」の直後に、助詞の「が」がある。解析器10は、係り元形態素の直後にある助詞の「が」を抽出する。次に、解析器10は、係り先形態素を検索する。上述の図5の説明において、係り先形態素を抽出する場合、解析器10が、助詞よりも後方にある複数の形態素の中から、名詞の形態素だけを係り先形態素として抽出すればよいことを述べた。したがって、解析器10は、助詞(「が」)の後方にある名詞を検索する。図11の例では、助詞(「が」)の後方に、8個の名詞(「B空港」、「着陸」、「駐機場」、「到着直後」、「エンジン」、「燃料漏れ」、「出火」、「炎上」)がある。解析器10は、8個の名詞を順番に抽出していく(S4を参照)。
その後、解析器10は、助詞の「が」の次にくる名詞を検索する。図11の例では、解析器10は、名詞の「B空港」を新たな係り元形態素として抽出する。次に、解析器10は、係り元形態素の直後の助詞を検索する。図11の例では、名詞の「B空港」の直後に、助詞の「に」がある。解析器10は、新たな助詞として「に」を抽出する。以後、解析器10は、助詞(「に」)の後方にある名詞を検索する。図11の例では、助詞(「に」)の後方に、7個の名詞(「着陸」、「駐機場」、「到着直後」、「エンジン」、「燃料漏れ」、「出火」、「炎上」)がある。解析器10は、7個の名詞を順番に抽出していく(S5を参照)。
以後、残りの名詞(「着陸」、「駐機場」、「到着直後」、「エンジン」、「燃料漏れ」、「出火」、「炎上」)に対して、ステップS4やS5と同様の手順を繰り返すことで、図10に示す係り元形態素および係り先形態素の組合せ、つまり、形態素リンクの候補を抽出することができる。なお、図11において、5番目の形態素である名詞の「着陸」については、「着陸」の直後の形態素が助詞ではなく、動詞(「し」)であることに留意されたい。したがって、係り元形態素が「着陸」である組合せ(例:「着陸」と「駐機場」)を形態素リンクの候補に挙げる必要はない。図11において、17番目の形態素である名詞の「出火」についても、同様のことが言える。
(解析器の算出処理)
解析器の算出処理について述べる。図12は、図8の文章1を基に作成された形態素間距離の算出結果の一例を示す図である。算出処理では、解析器10は、図12に示すように、29個ある形態素リンクの候補の各々について、形態素間距離を算出する(図6のステップS25に対応)。1番目の形態素リンクの候補を例に挙げると、係り元形態素の「A型機」と係り先形態素の「B空港」との間の形態素間距離が「2」と算出されている。なお、形態素間距離の算出は、図12の例に限定されない。例えば、形態素間距離を段階的に表してもよい。この場合、係り元形態素と係り先形態素との間の形態素数が1であるときの形態素間距離を「1」と表し、係り元形態素と係り先形態素との間の形態素数が2以上3以下であるときの形態素間距離を「2」と表し、係り元形態素と係り先形態素との間の形態素数が4以上であるときの形態素間距離を「3」と表してもよい。
解析器の算出処理について述べる。図12は、図8の文章1を基に作成された形態素間距離の算出結果の一例を示す図である。算出処理では、解析器10は、図12に示すように、29個ある形態素リンクの候補の各々について、形態素間距離を算出する(図6のステップS25に対応)。1番目の形態素リンクの候補を例に挙げると、係り元形態素の「A型機」と係り先形態素の「B空港」との間の形態素間距離が「2」と算出されている。なお、形態素間距離の算出は、図12の例に限定されない。例えば、形態素間距離を段階的に表してもよい。この場合、係り元形態素と係り先形態素との間の形態素数が1であるときの形態素間距離を「1」と表し、係り元形態素と係り先形態素との間の形態素数が2以上3以下であるときの形態素間距離を「2」と表し、係り元形態素と係り先形態素との間の形態素数が4以上であるときの形態素間距離を「3」と表してもよい。
(形態素リンクリスト)
形態素リンクリストについて述べる。図13は、図8の文章1を基に作成された形態素リンクリスト6の一例を示す図である。解析器10は、図10に示す形態素リンクの候補と、図12に示す形態素間距離の算出結果とを用いて、図13に示す形態素リンクリスト6を作成する(図6のステップS26に対応)。ただし、形態素リンクリスト6が作成された段階では、解答がない。そのため、解答が未入力であることを示す記号「?」が解答欄63に入力されている。
形態素リンクリストについて述べる。図13は、図8の文章1を基に作成された形態素リンクリスト6の一例を示す図である。解析器10は、図10に示す形態素リンクの候補と、図12に示す形態素間距離の算出結果とを用いて、図13に示す形態素リンクリスト6を作成する(図6のステップS26に対応)。ただし、形態素リンクリスト6が作成された段階では、解答がない。そのため、解答が未入力であることを示す記号「?」が解答欄63に入力されている。
形態素リンクリスト6の数値化について述べる。教師データ2と同様に、入力データ欄62の内容は、ベクトルデータで表される。図13の例では、(2)式のベクトルデータによって、形態素間距離および助詞が表される。
Li={d,(x1,x2,・・・,xn)}・・・(2)式
ここで、Liは、形態素リンクリスト6におけるi番目の形態素リンク(候補)を表す。パラメータdは、例えば、形態素間距離を表す。パラメータ(x1,・・・,xn)は、例えば、助詞の種類を表す。パラメータnの最大値は、助詞の種類の数(例:n=25)と一致する。ここで、1番目の形態素リンク(候補)を例に挙げる。1番目の形態素リンク(「A型機」と「B空港」)に対応する入力データは、助詞の「が」および形態素間距離の「2」で構成されている。この場合のベクトルデータは、例えば、L1={2,(0,1,0,0,0,・・・,0)}と表される。無論、教師データ2の場合と同様に、ベクトルデータLi自体の構成は、任意である。どのような種類の助詞をどのようなパラメータ(x1,・・・,xn)で表すかについても、任意である。
なお、解析器10のアルゴリズムなどに起因して、判定処理に直接使われないデータが形態素リンクリスト6に含まれている場合がある。つまり、判定器11が解析器10から受け取る入力データに、判定処理に不要なデータが含まれている場合がある。この場合、判定器11は、不要なデータを無視すればよい。
以下に、判定処理に不要なデータが形態素リンクリスト6に含まれている場合の具体例を挙げる。図13を参照すると、16番目から21番目の形態素リンクには、係り元形態素として名詞の「着陸」が挙げられている。36番目の形態素リンクには、係り元形態素として名詞の「出火」が挙げられている。「着陸」および「出火」を係り元形態素とする形態素リンクは、上述の図10の説明で述べたように、動詞の直前の形態素と、動詞の後方の形態素とで構成されており、判定処理には不要である。この場合、入力データのベクトルデータは、例えば、Li={d,(0,0,0,0,0,・・・,0)}のように設定される。判定器11は、助詞が(0,0,0,0,0,・・・,0)というパラメータで表されている場合、該当する助詞が存在しないと判断する。そして、判定器11は、該当する形態素リンクの判定処理をスキップする。あるいは、該当する形態素リンクへの解答として、判定器11が無条件で「不正解」を与えてもよい。
(判定器の判定処理)
判定器の判定処理について述べる。図14は、図13の形態素リンクリスト6を用いた場合の判定結果の一例を示す図である。図15は、図14に示す全ての形態素リンクの候補の中から、「正解」が与えられた形態素リンクのみを示す図である。判定器11は、図13に示す形態素リンクリスト6の入力データに基づいて、36個ある形態素リンクの候補の各々が意味のある形態素リンクであるかを判定する(図6のステップS29)。そして、判定器11は、学習処理の結果を基に、形態素リンクの対象の各々に対して解答を与える。その結果、図14の例では、36個ある形態素リンクの対象の中から、12個の形態素リンクに「正解」が与えられている。残りの形態素リンクは、各々を構成する係り元形態素と係り先形態素との間の意味的な関連性が低いとして、「不正解」が与えられている。図15に示すように、学習済みの判定器11によって、形態素リンクの数が36個から12個に絞られていることが分かる。
判定器の判定処理について述べる。図14は、図13の形態素リンクリスト6を用いた場合の判定結果の一例を示す図である。図15は、図14に示す全ての形態素リンクの候補の中から、「正解」が与えられた形態素リンクのみを示す図である。判定器11は、図13に示す形態素リンクリスト6の入力データに基づいて、36個ある形態素リンクの候補の各々が意味のある形態素リンクであるかを判定する(図6のステップS29)。そして、判定器11は、学習処理の結果を基に、形態素リンクの対象の各々に対して解答を与える。その結果、図14の例では、36個ある形態素リンクの対象の中から、12個の形態素リンクに「正解」が与えられている。残りの形態素リンクは、各々を構成する係り元形態素と係り先形態素との間の意味的な関連性が低いとして、「不正解」が与えられている。図15に示すように、学習済みの判定器11によって、形態素リンクの数が36個から12個に絞られていることが分かる。
図14の例では、形態素間距離が小さいほど、係り元形態素と係り先形態素との間の意味的な関連性が高くなっている。その理由は、形態素間距離が小さいほど、係り元形態素と係り先形態素との間の意味的な関連性が高くなるように、教師データが作成されているためである。なお、16番目から21番目の形態素リンク(係り元形態素が「着陸」)には、解答として「不正解」が与えられている。その理由は、助詞が(0,0,0,0,0,・・・,0)というパラメータで表されているためである。同様の理由により、36番目の形態素リンク(係り元形態素が「出火」)にも、解答として「不正解」が与えられている。
(頻度の利用)
形態素リンクリスト6に頻度欄が設けられている場合について述べる。図16は、頻度欄64が設けられている形態素リンクリスト6の一例を示す図である。なお、図16の例では、解答として「正解」が与えられた12個の形態素リンクの各々に対して、頻度が示されている。また、頻度欄64の説明に必要な箇所のみが示されている。
形態素リンクリスト6に頻度欄が設けられている場合について述べる。図16は、頻度欄64が設けられている形態素リンクリスト6の一例を示す図である。なお、図16の例では、解答として「正解」が与えられた12個の形態素リンクの各々に対して、頻度が示されている。また、頻度欄64の説明に必要な箇所のみが示されている。
頻度は、形態素ネットワーク図およびFMEAシートを作成する場合に好適である。頻度の利用の一例を以下に挙げる。形態素ネットワーク図の場合、頻度が相対的に高い形態素リンクについて、形態素リンクを構成する2つの形態素(係り先形態素と係り元形態素)の間を相対的に狭く表示することが考えられる。あるいは、2つの形態素の間が相対的に太い線で結ばれてもよい。FMEAシートを用いたリスク評価の場合、事象毎に発生頻度と影響度を組み合わせて評価してもよい。事象毎に発生頻度と影響度を組み合わせる場合、形態素リンクの出現頻度を参考情報として活用することができる。
(形態素ネットワーク図)
形態素ネットワーク図について述べる。図17は、図14の形態素リンクリスト6を基に作成された形態素ネットワーク図の一例を示す図である。図17に示す形態素ネットワーク図には、係り元形態素と係り先形態素との間に意味的な関連性があると判定された形態素リンクのみが表示されている。ただし、図17には、図15に示す形態素リンクに加え、図8に示す文章データ3の全体から抽出されて「正解」が与えられた形態素リンクも反映されている。
形態素ネットワーク図について述べる。図17は、図14の形態素リンクリスト6を基に作成された形態素ネットワーク図の一例を示す図である。図17に示す形態素ネットワーク図には、係り元形態素と係り先形態素との間に意味的な関連性があると判定された形態素リンクのみが表示されている。ただし、図17には、図15に示す形態素リンクに加え、図8に示す文章データ3の全体から抽出されて「正解」が与えられた形態素リンクも反映されている。
例えば、図15に示す12個の形態素リンクのうち、係り先形態素が「A型機」である形態素リンクに着目する。図17に示すように、「A型機」を起点として、「A型機」と意味的な関連性のある6つの係り先形態素(「B空港」、「着陸」、「駐機場」、「到着直後」、「エンジン」および「燃料漏れ」)の各々が「A型機」と放射状に有向線で結ばれている。このように、意味のある形態素のみが意味的に結合している。なお、図17の例では、有向線の向き(矢印の向き)は、係り元形態素(例:「A型機」)から係り先形態素(例:「B空港」)の向きである。有向線の向きを設定することができるのは、係り元となる形態素と、係り先となる形態素とが区別して得られるためである。
ここで、教師付き機械学習を適用せず、単に、2つの形態素の組合せを形態素ネットワーク図に反映させた場合を考える。この場合、図13の形態素リンクリスト6に挙げられた全ての形態素リンクが形態素ネットワーク図に反映される。無論、文章データには、図8に示す文章1の他にも、文章が含まれる。したがって、図17に示す形態素ネットワーク図と比べると、教師付き機械学習を適用しない場合に得られた形態素ネットワーク図は、例えば、図1のように、意味的な関連性を持たない形態素リンクが膨大に発生するため、分析に適さない過密な形態素ネットワーク図が得られる。しかしながら、本実施の形態によれば、図17に示す通り、複数の形態素リンクが意味のある形態素リンクに絞られるので、FMEAシート作成に適した形態素ネットワーク図が得られる。また、形態素リンクを絞る基準に形態素リンクの使用頻度が適用されないので、発生頻度は低くても、重大事象に至る可能性のある事象がFMEAシートから欠落することもない。
(FMEAシート)
FMEAシートについて述べる。図18は、図15の形態素リンクリスト6を基に作成されたFMEAシートの一例を示す図である。FMEAシートは、例えば、「機能ブロック名」、「機能部品」、「機能」、「故障モード」、「推定原因」を入力する欄を備えている。図15に示す形態素リンクの内容が対応する欄に入力されている。なお、図18には、図8に示す文章データ3の全体から抽出されて「正解」が与えられた形態素リンクが反映されている。FMEAシートについても、形態素ネットワーク図と同様に、複数の形態素リンクが意味のある形態素リンクに絞られるので、オペレータの技量に依存せずに素早く、網羅性の高いFMEAシートが作成される。
FMEAシートについて述べる。図18は、図15の形態素リンクリスト6を基に作成されたFMEAシートの一例を示す図である。FMEAシートは、例えば、「機能ブロック名」、「機能部品」、「機能」、「故障モード」、「推定原因」を入力する欄を備えている。図15に示す形態素リンクの内容が対応する欄に入力されている。なお、図18には、図8に示す文章データ3の全体から抽出されて「正解」が与えられた形態素リンクが反映されている。FMEAシートについても、形態素ネットワーク図と同様に、複数の形態素リンクが意味のある形態素リンクに絞られるので、オペレータの技量に依存せずに素早く、網羅性の高いFMEAシートが作成される。
以上述べた通り、助詞および形態素間距離を基に形態素リンクの数が絞られる。したがって、形態素解析が適用された自然言語処理を用いて、形態素結同士の意味的な結合関係を作成するときに、重要な形態素リンクが欠落することなく、膨大な数の形態素リンクを有する形態素ネットワーク図の中から、意味的な関連性を有する形態素リンクのみを絞り込むことができる。
3.第1変形例
実施の形態の変形例について述べる。上述の実施の形態では、文章から抽出された助詞および形態素間距離に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無が判定される。第1変形例では、判定器の判定精度を上げるため、助詞および形態素間距離に加え、係り元形態素の属性および係り先形態素の属性が考慮される。属性として、例えば、漢字、ひらがな、カタカナが挙げられる。
実施の形態の変形例について述べる。上述の実施の形態では、文章から抽出された助詞および形態素間距離に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無が判定される。第1変形例では、判定器の判定精度を上げるため、助詞および形態素間距離に加え、係り元形態素の属性および係り先形態素の属性が考慮される。属性として、例えば、漢字、ひらがな、カタカナが挙げられる。
詳細は、次の通りである。図19は、文書データ処理装置1の第1変形例を示す機能ブロック図である。本変形例は、上述の実施の形態と次の点で相違する。1つ目は、教師データ2の構成である。図19の(A)に示すように、教師データ2の各事例は、助詞および形態素間距離に加え、(学習用の)係り元形態素の属性である係り元属性(例:「漢字」)と、(学習用の)係り先形態素の属性である係り先属性(例:「漢字」)とを包含している。本変形例では、属性は、漢字、ひらがな、および、カタカナのうちのいずれかに相当する。
2つ目は、解析器10の処理内容である。解析器10は、次の2つの属性を判別する。1つは、係り元形態素の属性である係り元属性である。もう1つは、係り先形態素の属性である係り先属性である。具体的には、係り元形態素が漢字含むか否か、係り元形態素がひらがなを含むか否か、および、係り元形態素がカタカナを含むか否かに基づいて、解析器10は、係り元属性および係り先属性を判定する。図19の(B)に示すように、文章データ3の内容が「A型機が着陸した。」という文章である場合、係り元形態素である「A型機」の属性は、漢字であると判別される。係り先形態素である「着陸」の属性も、漢字であると判別される。なお、係り元形態素を構成する文字の全てが、同じ属性で構成されている必要はない。
3つ目は、判定器11の処理内容である。図19の例では、判定器11は、助詞(「が」)および形態素間距離(「2」)に加え、係り元属性(「漢字」)および係り先属性(「着陸」)を含む入力データ5を解析器10から受け取る。判定器11は、助詞、形態素間距離、係り元属性および係り先属性に基づいて、係り元形態素(「A型機」)と係り先形態素(「着陸」)との間の意味的な関連性の有無を判定する。
第1変形例では、助詞および形態素間距離に加え、係り元属性および係り先属性に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無が判定される。そのため、判定器の判定精度が更に向上する。なお、属性は、アルファベットであってもよいし、数字(例:アラビア数字)であってもよい。属性がアルファベットまたは数字である場合も、第1変形例と同様の効果を得ることができる。また、本明細書において、「形態素自体」と「形態素属性」とは、互いに異なる概念である。「形態素自体」は、例えば、「A型機」のように、単語の種類そのものを示す。これに対し、「形態素属性」は、複数種類の単語に共通する性質(例:「漢字」)を示す。
4.第2変形例
実施の形態の他の変形例について述べる。第2変形例では、判定器の判定精度を上げるため、助詞および形態素間距離に加え、学習用係り元形態素から学習用係り先形態素までの間にある読点(「、」)の有無が考慮される。
実施の形態の他の変形例について述べる。第2変形例では、判定器の判定精度を上げるため、助詞および形態素間距離に加え、学習用係り元形態素から学習用係り先形態素までの間にある読点(「、」)の有無が考慮される。
詳細は、次の通りである。図20は、文書データ処理装置1の第2変形例を示す機能ブロック図である。本変形例は、上述の実施の形態と次の点で相違する。1つ目は、教師データ2の構成である。図20の(A)に示すように、教師データ2の各事例は、助詞および形態素間距離に加え、読点情報を包含している。ここで、読点情報は、係り元形態素から学習用係り先形態素までの間にある読点の有無を示す情報(例:「読点あり」)を包含している。
2つ目は、解析器10の処理内容である。解析器10は、文章データ3の中から、係り元形態素から係り先形態素までの間にある読点の有無を検出する。図20の(B)に示すように、文章データ3の内容が「A型機がB空港に着陸し、駐機場に到着直後にエンジンからの燃料漏れで出火し炎上した。」という文章である場合、係り元形態素である「B空港」と係り先形態素である「駐機場」との間に読点があると検出される。
3つ目は、判定器11の処理内容である。図20の例では、判定器11は、助詞および形態素間距離に加え、読点情報を含む入力データ5を解析器10から受け取る。図20の例では、読点情報は、読点ありという情報を含んでいる。判定器11は、助詞、形態素間距離および読点の有無に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無を判定する。
第2変形例では、助詞および形態素間距離に加え、読点の有無に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無が判定される。そのため、判定器の判定精度が更に向上する。なお、読点の有無の代わりに、読点の数を用いてもよい。読点の数を用いる場合、各事例の読点情報が、読点の数の情報を含んでいればよい。解析部が読点の数を算出し、判定部が読点の数に基づいて、係り元形態素と係り先形態素との間の意味的な関連性の有無を判定すればよい。読点の数を用いても、読点の有無を用いる場合と同様の効果を得ることができる。
以上、全ての実施の形態および全ての変形例について説明した。本発明の趣旨を逸脱しない範囲内で、本発明に種々の変更を加えることができる。
技術的な矛盾が生じない範囲内で、実施の形態および全ての変形例を好適に組み合わせることができる。例えば、実施の形態を第1変形例および第2変形例と組み合わせてもよい。
1:文書データ処理装置、10:解析器、11:判定器、12:形態素ネットワーク図作成部、13:FMEAシート作成部、100:筐体(本体)、110:入力デバイス、120:出力装置、101:CPU、102:メモリ、103:ハードディスク、104:I/O、105:バス、2:教師データ、21:形態素欄、22:形態素間距離欄、23:助詞欄、24:解答欄、3:文章データ、4:形態素解析用辞書、5:入力データ、6:形態素リンクリスト、61:形態素リンク欄、62:入力データ欄、63:解答欄、64:頻度欄
Claims (10)
- 文書データの中から、係り元形態素と、前記係り元形態素の直後の助詞と、前記助詞よりも後方の係り先形態素とを抽出し、かつ、前記係り元形態素と前記係り先形態素との間の形態素間距離を算出する解析部と、
複数の事例を学習済の判定部であって、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する前記判定部と、
前記判定部による判定結果を出力する出力装置と
を備え、
前記複数の事例の各々は、
学習用助詞と、
前記学習用助詞の直前の形態素である学習用係り元形態素と、前記学習用助詞の後方の形態素である学習用係り先形態素との間の形態素間距離を示す学習用形態素間距離と、
前記学習用係り元形態素と前記学習用係り先形態素との間の意味的な関連性の有無を示す学習用解答と
を含み、
前記判定部は、前記解析部から、前記助詞および前記形態素間距離を含む入力データを受け取り、前記助詞および前記形態素間距離に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する
文書データ処理装置。 - 前記各事例は、前記学習用係り元形態素自体および前記学習用係り元形態素自体を含むことなく、前記学習用助詞、前記学習用形態素間距離および前記学習用解答によって構成されており、
前記判定部は、前記係り元形態素自体および前記係り先形態素自体を用いることなく、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する
請求項1に記載の文書データ処理装置。 - 前記各事例は、
前記学習用係り元形態素の属性である学習用係り元属性と、
前記学習用係り先形態素の属性である学習用係り先属性と
を更に含み、
前記解析部は、前記係り元形態素の属性である係り元属性と、前記係り先形態素の属性である係り先属性とを判別し、
前記判定部が前記解析部から受け取る前記入力データは、前記係り元属性および前記係り先属性を更に含み、
前記判定部は、更に、前記係り元属性および前記係り先属性に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する
請求項1または2に記載の文書データ処理装置。 - 前記判定部は、前記係り元形態素が漢字含むか否か、前記係り元形態素がひらがなを含むか否か、および、前記係り元形態素がカタカナを含むか否かに基づいて、前記係り元属性を判定する
請求項3に記載の文書データ処理装置。 - 前記各事例は、前記学習用係り元形態素から前記学習用係り先形態素までの間にある読点の有無または読点の数を示す学習用読点情報を更に含み、
前記解析部は、前記係り元形態素から前記係り先形態素までの間にある読点の有無を検出し、または読点の数を算出し、
前記判定部が前記解析部から受け取る前記入力データは、前記読点の有無、または前記読点の数を更に含み、
前記判定部は、更に、前記読点の有無、または前記読点の数に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する
請求項1から4のいずれか一項に記載の文書データ処理装置。 - 前記各事例における前記学習用係り元形態素の品詞および前記学習用係り先形態素の品詞は、名詞であり、
前記解析部によって抽出される前記係り元形態素の品詞および前記係り先形態素の品詞は、名詞である
請求項1から5のいずれか一項に記載の文書データ処理装置。 - 前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を反映した形態素ネットワーク図を作成する形態素ネットワーク図作成部を更に備え、
前記出力装置は、前記形態素ネットワーク図作成部によって作成された前記形態素ネットワーク図を表示する
請求項1から6のいずれか一項に記載の文章データ処理装置。 - 前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を反映したFMEA(Failure Mode and Effects Analysis)シートを作成するFMEAシート作成部を更に備え、
前記出力装置は、前記FMEAシート作成部によって作成された前記FMEAシートを表示する
請求項1から7のいずれか一に記載の文章データ処理装置。 - 複数の事例を判定部が学習する学習ステップと、
ここで、前記複数の事例の各々は、
学習用助詞と、
前記学習用助詞の直前の形態素である学習用係り元形態素と、前記学習用助詞の後方の形態素である学習用係り先形態素との間の形態素間距離を示す学習用形態素間距離と、
前記学習用係り元形態素と学習用係り先形態素との間の意味的な関連性の有無を示す学習用解答と、
を含み、
文書データの中から、係り元形態素と、前記係り元形態素の直後の助詞と、前記助詞よりも後方の係り先形態素とを抽出する抽出ステップと、
前記係り元形態素と前記係り先形態素との間の形態素間距離を算出する算出ステップと、
前記助詞および前記形態素間距離を含む入力データを判定部が受け取るステップと、
前記助詞および前記形態素間距離に基づいて、前記係り元形態素と前記係り先形態素との間の意味的な関連性の有無を判定する判定ステップと、
前記判定ステップによって得られた判定結果を出力する出力ステップと
を備える
文章データ処理方法。 - 請求項9に記載の文章データ処理方法をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015191321A JP2017068435A (ja) | 2015-09-29 | 2015-09-29 | 文章データ処理装置、文章データ処理方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015191321A JP2017068435A (ja) | 2015-09-29 | 2015-09-29 | 文章データ処理装置、文章データ処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017068435A true JP2017068435A (ja) | 2017-04-06 |
Family
ID=58494759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015191321A Pending JP2017068435A (ja) | 2015-09-29 | 2015-09-29 | 文章データ処理装置、文章データ処理方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017068435A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022244012A1 (en) * | 2021-05-18 | 2022-11-24 | Cyient Limited | System and method for performing failure mode and effect analysis in an edge gateway |
WO2023228351A1 (ja) * | 2022-05-26 | 2023-11-30 | 三菱電機株式会社 | 学習装置、管理シート作成支援装置、プログラム、学習方法及び管理シート作成支援方法 |
-
2015
- 2015-09-29 JP JP2015191321A patent/JP2017068435A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022244012A1 (en) * | 2021-05-18 | 2022-11-24 | Cyient Limited | System and method for performing failure mode and effect analysis in an edge gateway |
WO2023228351A1 (ja) * | 2022-05-26 | 2023-11-30 | 三菱電機株式会社 | 学習装置、管理シート作成支援装置、プログラム、学習方法及び管理シート作成支援方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10157171B2 (en) | Annotation assisting apparatus and computer program therefor | |
KR100999488B1 (ko) | 문서 표절 탐색 방법 및 장치 | |
US10402497B2 (en) | Processing method, processing apparatus, and recording medium | |
KR20200083111A (ko) | 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법 | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
KR102188739B1 (ko) | 감정 온톨로지에 기반을 둔 이모티콘 추천 장치 및 방법 | |
US8880391B2 (en) | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program | |
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
CN113158695A (zh) | 一种面向多语言混合文本的语义审核方法与系统 | |
CN113343706A (zh) | 基于多模态特征和语义规则的文本抑郁倾向检测系统 | |
JP2020190970A (ja) | 文書処理装置およびその方法、プログラム | |
US11436278B2 (en) | Database creation apparatus and search system | |
CN115017898A (zh) | 敏感文本的识别方法、装置、电子设备及存储介质 | |
Duran et al. | Some issues on the normalization of a corpus of products reviews in Portuguese | |
JP2017068435A (ja) | 文章データ処理装置、文章データ処理方法およびプログラム | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
JP2019179470A (ja) | 情報処理プログラム、情報処理方法、および情報処理装置 | |
CN111985232A (zh) | 基于nlp的机载显控系统需求的领域模型提取方法 | |
JP2016057810A (ja) | 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体 | |
JP2006119697A (ja) | 質問応答システム、質疑応答方法および質疑応答プログラム | |
KR20100115048A (ko) | 복사 문서 판별 시스템 및 그 방법 | |
TW202013216A (zh) | 文本情緒分析的方法,裝置與電腦程式產品 | |
US20240135107A1 (en) | Natural language processing system, natural language processing method, and natural language processing program | |
JP2004133896A (ja) | 特許明細書デバッグツールおよび特許明細書デバッグツールプログラム |