JP6535858B2

JP6535858B2 - 文書解析装置、プログラム

Info

Publication number: JP6535858B2
Application number: JP2015093710A
Authority: JP
Inventors: 村田　真樹; 真樹村田; 拓真岡田; 隆太藤原; 雅人徳久
Original assignee: Tottori University
Current assignee: Tottori University
Priority date: 2015-04-30
Filing date: 2015-04-30
Publication date: 2019-07-03
Anticipated expiration: 2035-04-30
Also published as: JP2016212533A

Description

本発明は、入力された文書に記載すべき項目である記載必要項目が記載されていないことを検出し、ユーザーによる文書の作成を支援する文書解析装置、プログラムに関する。

従来の情報抽出技術として、例えば、下記の特許文献１には、ある分野に関連する文書群から自動で複数の情報の対（例えば、複数の数値情報の対）を抽出する情報抽出装置、情報抽出方法及び情報抽出フログラムが開示されている。

また、下記の特許文献２には、文書群から自動で項目表現と固有表現の対を抽出する情報抽出装置、情報抽出方法及び情報抽出プログラムが開示されている。

また、下記の特許文献３には、記憶装置に記憶されるテキスト文書群から有用な情報を抽出することを実現するときに、その有用な情報をノイズ情報の影響を受けることなく抽出できるようにする新たな情報抽出技術が開示されている。

また、下記の非特許文献１には、大規模な文書群から数値固有表現情報を取り出し、様々な重要な情報を含むグラフや表を半自動で作成するシステムが開示されている。

また、下記の非特許文献２には、教師あり機械学習を用いて自然言語処理の論文アブストラクトから重要な情報を自動的に抽出する方法であって、重要な情報を抽出するために教師データとなるタグ付けデータを作成し、それを用いて教師あり機械学習により重要な表現を抽出する方法が開示されている。

特開2008-21052 特開2008-287388 特開2009-237640

村田、岩立、一井、馬、白土、金丸、塚脇、井佐原：「大規模文書群からの数値固有表現情報のテキストマイニング可視化システム」、社団法人情報処理学会研究報告、2008-NL-184 村田、Stijin、橋本、風間、山田、黒田、馬、相澤、島澤：「論文データからの重要情報の抽出と可視化」The 23rd Annual Conference of the Japanese Society for Artificial Intelligence, 2009

しかし、これらの文献では、文書中から情報対を抽出する方法や、それらを利用して自動的にグラフ等を生成する方法について開示されてはいるが、ユーザーの文書作成を支援するためにはいずれも不十分である。確かに、これらの技術は文書中から重要な情報を抽出することは可能であるが、数値情報の対や固有表現等を機械的に利用するのみであり、それらが真に重要な情報であるかは実際に人間の目で確認することが望ましいことは言うまでもない。特に、文書の種類毎に記載すべき項目である記載必要項目は、これらの技術を利用しても特定することは不可能である。

本発明はこのような事情に鑑みてなされたものであり、従来では検討すらされていなかったコンセプトである「文書中の記載必要項目の有無を判定し、ユーザーに提示することで文書作成を支援する」ことを実現すべく、ユーザーによる文書の作成を支援するための文書解析装置、プログラムを提供するものである。

本発明によれば、被解析文書由来の被解析データを取得する被解析データ取得部と、前記被解析文書の種類に対応した記載必要項目の有無に関する判定基準データを取得する判定基準データ取得部と、前記被解析データと前記判定基準データとを用いて、前記被解析文書中における前記記載必要項目に関連する要求データの有無を判定する判定部と、前記判定部の判定結果を出力する出力部と、を有し、前記判定部は、前記被解析文書の種類に関連する属性データに基づいて、前記被解析文書の種類毎に定められた前記記載必要項目に関する要求データを前記判定基準データから取得し、前記取得した要求データと前記被解析データとを用いて、前記被解析文書中における前記要求データの有無を判定する、文書解析装置が提供される。

以下、本発明の種々の実施形態を例示する。以下に示す実施形態は互いに組み合わせ可能である。
好ましくは、前記判定基準データは、文書の種類毎に記憶されたデータであって、前記種類の文書の記載必要項目を表すデータであり、前記要求データは、前記記載必要項目を検出するための単語であって、前記記載必要項目と関連する意味を有する複数の単語であり、前記属性データは、文書の種類を表すデータであり、前記判定部は、前記被解析データに前記記載必要項目と関連する意味を有する複数の単語のいずれかが含まれる場合、当該含まれる単語と対応する記載必要項目が前記被解析文書中に記載されていると判定する。
好ましくは、前記記載必要項目を検出するための単語は、同じ種類の複数の文書における単語の出現回数又は単語の出現率が予め定められた閾値より大きい又は以上の単語である。
好ましくは、前記判定基準データは、上位概念を表す第１単語であり、前記要求データは、前記第１単語の下位概念を意味する１又は複数の第２単語であり、前記属性データは、文書の種類を表すデータであり、前記判定部は、前記被解析データに前記第２単語のいずれかが含まれる場合、当該含まれる単語と対応する前記第１単語が前記被解析文書中に記載されていると判定する。
好ましくは、前記出力部は、前記判定部により記載されていると判定された記載必要項目は出力せず、記載されていないと判定された記載必要項目を出力する。
好ましくは、前記出力部は、前記被解析文書に記載されていない前記記載必要項目の、前記被解析文書と同じ種類の複数の文書における出現回数又は出現率を合わせて出力する。
好ましくは、前記被解析文書中に記載必要項目が記載されていない場合、前記被解析文書中の単語を検索語として検索を実行し、前記記載必要項目に関する文書を取得する外部文書取得部を有する。
好ましくは、前記被解析文書中に記載必要項目が記載されていない場合、当該既視されていない記載必要項目を質問として入力し、前記入力された質問に対する解答をインターネット検索により取得する質問応答部を有する。
好ましくは、前記被解析文書中に記載必要項目が記載されていない場合、前記被解析文書に類似する複数の文書を取得し、前記取得した複数の文書中から前記記載必要項目を特定し、前記特定された記載必要項目の集合を作成し、前記作成された記載必要項目の集合中の単語の組み合わせを利用して決定した単語を前記記載必要項目として提示する類似文書利用単語提示部を有する。
好ましくは、前記判定基準データは、文書と、前記文書への前記記載必要項目の記載の有無と、を対応付けて記憶されたデータを教師データとして機械学習を実行した結果を表すデータであり、前記要求データは、前記機会学習により学習したデータであって、文書を構成する各要素である素性を表すデータであり、前記判定部は、前記被解析データ中に含まれる素性と、前記素性を表すデータと、に基づいて、前記被解析文書中における前記記載必要項目データの記載の有無を判定する。
好ましくは、前記判定部により前記被解析文書の中に前記記載必要項目が記載されていないと判定された場合、前記機械学習の結果に基づいて、前記被解析文書に前記記載必要項目を追加する追加部を有する。
好ましくは、コンピュータを、
被解析文書由来の被解析データを取得する被解析データ取得部と、前記被解析文書の種類に対応した記載必要項目の有無に関する判定基準データを取得する判定基準データ取得部と、前記被解析データと前記判定基準データとを用いて、前記被解析文書中における前記記載必要項目に関連する要求データの有無を判定する判定部と、前記判定部の判定結果を出力する出力部と、を有し、前記判定部は、前記被解析文書の種類に関連する属性データに基づいて、前記被解析文書の種類毎に定められた前記記載必要項目に関する要求データを前記判定基準データから取得し、前記取得した要求データと前記被解析データとを用いて、前記被解析文書中における前記要求データの有無を判定する、文書解析装置として機能させるためのプログラムである。

本発明の文書解析装置の構成例を示すブロック図である。第１実施形態における第１記憶部への記憶例を示すフローチャートである。第１実施形態における文書内に出現する単語の出現率を示す図である。分類語彙表の分類番号の変更例を示す図である。分類語彙表を示す図であり、（ａ）は分類番号の付与例を、（ｂ）は分類番号の変更例を示す図である。目盛用の意味素性を示す図であり、（ａ）は意味素性の追加例を、（ｂ）は分類番号の順に並べ替えた例を示す図である。意味ソート後の名詞集合の整形例を示す図である。ＥＤＲを用いた意味ソートの例を示す図である。単語に複数の属性を付与した辞書の例を示す図である。辞書をソートした結果の例を示す図であり、（ａ）は左の属性からソートした結果を、（ｂ）は右の属性からソートした結果を示す図である。階層シソーラスを示す図であり、（ａ）は左からのソート結果による階層シソーラスを、（ｂ）は右からのソート結果による階層シソーラスを示す図である。第１実施形態における決定した記載必要項目と検出に役立つ単語の例を示す図であり、（ａ）は意味ソートをまとめたリスト、（ｂ）は実際の意味ソートの結果の一部を示す図である。第１実施形態における提示処理例を示すフローチャートである。第１実施形態における提示例を示す図であり、（ａ）は類似文書を提示する例を示す図、（ｂ）は類似文書における出現率を提示する例を示す図である。第１実施形態における上位・下位語での整理結果の例を示す図であり、（ａ）は修正前、（ｂ）は人手で修正した後を示す図である。第２実施形態における第２記憶部の構成例を示す図である。第２実施形態における第２記憶部に記憶されるデータ例を示す図であり、（ａ）は記載必要項目有無記憶部、（ｂ）は記載必要項目修正記憶部、（ｃ）は差分記憶部に記憶されるデータ例である。第２実施形態における第２記憶部への記憶例を示すフローチャートである。第２実施形態における提示処理例を示すフローチャートである。第２実施形態における提示例を示す図であり、（ａ）は候補を提示する例を示す図、（ｂ）は機械学習の結果に基づいた修正例を提示する例を示す図である。サポートベクトルマシン方のマージン最大化の概念図であり、（ａ）はスポールマージンを、（ｂ）はラージマージンを表す概念図である。第１実施形態の第１実施例の処理を表す概念図である。第２実施形態の第１実施例の処理を表す概念図である。本発明を実現するための機能ブロック図である。記載必要項目に関する研究の目的を表す図である。論文内で出現率が高い上位１００単語の結果を示す図である。決定した記載必要項目と検出に役立つ単語を示す図である。カッパ係数評価指標を示す図である。各記載必要項目の判別基準を示す図である。「比較」について文章作成支援の評価結果を示す図である。「問題点」について文章作成支援の評価結果を示す図である。「目的」などについて文章作成支援の評価結果を示す図である。「例」について文章作成支援の評価結果を示す図である。「目的」について正解であると人手で判別した例を示す図である。「問題点」について正解であると人手で判別した例を示す図である。城の重要情報の表の例を示す図である。最初に出現した重要情報の表の例を示す図である。出現した全ての重要情報の表の例を示す図である。文章作成支援に用いられる表の例を示す図である。 Wikipediaの記事の例を示す図である。 Wikipediaの記事にCaboChaを使用した結果の例を示す図である。上位下位関係の抽出例を示す図である。上位下位知識を用いた頻度分析の結果を示す図である。上位下位知識を用いた頻度分析の結果を示す図である。評価した最初に出現した重要情報の表を示す図である。評価した出現した全ての重要情報の表の一例を示す図である。固有表現抽出を用いて作成した表の評価結果を示す図である。評価した最初に出現した重要情報の表を示す図である。出現した全ての重要情報の表の一例を示す図である。上位下位知識を用いて作成した表の評価結果を示す図である。文章作成支援の結果の評価を示す図である。固有表現抽出に基づく手法との比較結果を示す図である。上位下位知識に基づく手法との比較結果を示す図である。空欄の抽出の成功例を示す図である。文章作成支援を行った例を示す図である。

以下、本発明の実施形態について説明する。以下の実施形態は、例示であって、本発明の範囲は、以下の実施形態で示すものに限定されない。

１．第１実施形態
第１実施形態の文書解析装置は、ユーザーが作成した文書の中に記載必要項目が記載されているか否かを情報抽出技術を利用して判定し、その旨をユーザーに提示することで文書作成支援を行うものである。

文書の種類（論文、特許の明細書、履歴書、医学書など）毎に記載必要項目はある程度決まっている。例えば、新聞であれば５Ｗ１Ｈを、論文であれば研究対象、成果、必要性、有効性等を、履歴書であれば自身の能力とその根拠、アピールポイント等が記載されることが望ましい。これらのことが記載されていなければ文書の説得力や可読性が低下するためである。よって、第１実施形態では、これらの望ましい記載を記載必要項目とし、ユーザーにより作成された文書の中に記載必要項目が記載されていなければ、その旨をユーザーに提示する。

＜装置の構成＞
図１は、第１実施形態の文書解析装置の構成例を示すブロック図である。第１実施形態の文書解析装置は、情報処理装置１によって実現される。情報処理装置１は、ＣＰＵ等から構成されて各部を制御するとともに種々のプログラムやエンジンを実行する制御部１０と、メモリ、ハードディスク、ＳＳＤ（ソリッド・ステート・ドライブ）等の記憶媒体から構成され、種々のデータを記憶する記憶部２０と、情報処理装置１を操作するためのタッチパネルやキーボード、音声入力部等で構成される操作部３０と、文字、画像、動画等の情報を表示するディスプレー等の表示部４０と、インターネットやイントラネット等のネットワークに接続され、外部の情報端末と通信する通信部５０とを備える。

制御部１０は、文書の種類を特定する文書種類特定部１０１と、文書の中に記載必要項目が記載されているか否かを判定する判定部１０３と、文書の中から単語を抽出する抽出部１０５と、質問を生成する質問生成部１０７と、機械学習の結果に基づいて機械学習の結果に基づいて文書を修正する文書修正部１０９と、機械学習を実行する機械学習エンジン１１１と、記憶部２０、操作部３０、表示部４０及び通信部５０とデータを送受信する送受信部１１３とを備える。送受信部１１３は、文書、記載必要項目の有無に関する判定基準データ等のデータの送受信も行う。これらの機能はプログラムやＡＳＩＣ等のハードウェアによって実現される。ここで、文書とは、特に電子文書のことであり、例えばユーザーにより文書作成ソフト等により作成された電子文書や、インターネット上に存在する電子文書等が挙げられ、手書きの文書をＯＣＲ（光学文字認識）等により電子化したものも含む。制御部１０は、記憶部２０、操作部３０、表示部４０及び通信部５０とそれぞれ通信し、これらを制御する。

記憶部２０は、文書の種類毎に、前記種類の文書に記載すべき項目である記載必要項目を記憶する第１記憶部２０１と、上位概念を表す上位語と下位概念を表す意味する下位語を対応付けて記憶する第２記憶部２０３と、文書と当該文書における前記記載必要項目の有無を対応付けて記憶する第３記憶部２０５と、種々の種類の電子文書を複数記憶する文書記憶部２０７と、文書記憶部２０７に記憶されている複数の文書における単語の出現回数及び出現頻度を文書の種類毎に記憶する出現回数・頻度記憶部２０９とを備える。

＜第１実施形態の第１実施例＞

＜文書作成支援処理のフロー＞
次に、図２、１３及び１４を用いて第１実施形態のうち、第１実施例の文書解析装置を利用した文書作成支援処理のフローについて説明する。第１実施例では、事前に第１記憶部２０１に記載必要項目に関するデータ（判定基準データ）を記憶した後に、それらのデータを利用して文書の中に記載必要項目が記載されているか否かを判定し、ユーザーに記載必要項目が欠如している旨を提示する、という流れである。

＜記載必要項目に関するデータの記憶＞
図２は事前に第１記憶部２０１に必記載必要項目に関するデータを記憶するときのフローを表すフローチャートである。第１実施例では、まず、記載必要項目とその項目の検出に役立つ単語を決定する。ここで、同じ種類の複数の文書に共通して出現する単語は記載必要項目の検出に役立つ単語である可能性が高いと考えられるため、記載必要項目の検出に役立つ単語を決定するために、文書記憶部２０７に記憶された同じ種類の複数の文書における単語の出現回数をカウントする（Ｓ１１）。

次に、ある単語が出現した文書の数を全文書の数で割ることで単語の出現率を算出する（Ｓ１３）。例えば、カウント対象とした同じ種類の複数の文書が３００件であり、そのうち２５０件の文書に単語「Ｚ」が出現している場合、単語「Ｚ」の出現率は「２５０／３００」となる。なお、ひとつの文書に単語「Ｚ」が複数回登場した場合でも出現率の計算においては「１回」とカウントする。

図３は、Ｓ１３の結果得られた単語のうち、出現率が高い上位９単語を示す例である。なお、図３の結果は、文書の種類「論文」、全文書数３９３件、出現した単語の総数１９，２３４件であった場合の例である。

次に、Ｓ１３において計算した出現率が予め定められた閾値以下又は未満の単語を記載必要項目の検出に役立つ単語の候補から除外する（Ｓ１５）。これは、多くの文書であまり使われていない単語については、その種類の文書で記載されることが望ましいものである可能性が低いためである。このとき、助詞や格助詞等の単語は除外するようにしてもよい。

次に、Ｓ１５において残った単語のうち、意味が類似する単語をまとめる（Ｓ１７）。例えば、「異なる」という単語が記載必要項目「新規性」の検出に役立つ単語である場合、「異なる」と意味が類似する「違う」、「違い」等の単語も記載必要項目「新規性」の検出に役立つ単語である可能性が高いからである。第１実施例では、意味が類似する単語をまとめるための手法は特に限定しないが、例えば、「意味ソート」、意味が類似する単語をまとめた「類似単語データベース」、又は人手で行う。

ここで、「意味ソート」について説明する。
１．意味ソートについて
意味ソートとは、単語を意味で並べかえるという考え方である。意味ソートは、単語の羅列を表示する際に５０音順（もしくはＥＵＣ漢字コード順）で表示するのではなく、単語の意味の順番でソートして表示しようという考え方である。意味ソートについては、非特許文献１０を参照のこと。

このような方法で、例えば、記載必要項目「新規性」の検出に役立つ単語である「異なる」と意味が類似する「違う」、「違い」等の意味が類似する単語をまとめることができる。実際に実行した意味ソートの結果の一部を図１２（ｂ）に示す。

次に、Ｓ１７の結果について、単語の選定やまとめ方に不備や漏れがないかの確認を人手で行う（Ｓ１９）。なお、確認作業をせずに分類語彙表の上位５ケタが一致するものを自動で類似する単語としてまとめてもよい。また５ケタは他の桁数でもよい。

図１２（ａ）は、Ｓ１９の結果得られた、記載必要項目の「項目名」、その項目の検出に役立つ「単語」及び「項目名の説明」をまとめたものの一例である。図１２（ａ）のデータを利用することで記載必要項目が記載されていないことの検出が可能となる。例えば、「例えば」、「例」、「具体」のいずれの単語も含まない文書は、記載必要項目「具体例」の記載が欠如しているものと判定される。記載必要項目「具体例」の記載が欠如している文書、特に論文や特許の明細書等では、読み手に具体的なイメージが伝わらず、文書の説得力や可読性が低下するために好ましくない。なお、図２のＳ１１〜Ｓ１９についての実際の実験結果及び考察については本明細書の末尾で詳細に説明する。

そして、Ｓ１９の結果得られた図１２の内容を、「項目名」、「単語」、「項目名の説明」を対応付けたデータとして第１記憶部２０１に記憶する。なお、第１実施形態では「項目名」、「単語」、「項目名の説明」を対応付けた表形式のデータとしているが、「項目名」と「単語」のみを対応付けたものであってもよく、「項目名の説明」と「単語」のみを対応付けたものでもよい。これら記載必要項目に関するデータを、文書の種類毎に第１記憶部２０１に記憶する。ここでは文書の種類「論文」について説明したが、他の種類、例えば特許の明細書、履歴書、医学書の文書についても同様のデータを作成する。

＜文書から記載必要項目の有無を検出＞
文書の種類毎に図２におけるＳ１１〜Ｓ２１までを繰り返し、記載必要項目に関するデータを第１記憶部２０１に記憶した後に、第１実施形態の文書作成支援処理が実行される。

図１３は情報抽出技術により対象文書の中に記載必要項目が記載されているか否かを判定し、ユーザーに提示するときのフローチャートである。まず、ユーザーが、例えば操作部３０を操作して文書作成ソフト等により文書を作成する。又は、既に作成されている文書を情報処理装置１に入力する。

そして、制御部１０に対して対象文書の中に記載されているか否かの判定を指示したり、作成している文書を保存することをトリガーとして、制御部１０からの指示により、文書種類特定部１０１が対象文書の種類を特定する（Ｓ３１）。なお、特定の仕方は特に限定されないが、文書のフォーマット、罫線、キーワード、頻出単語等を元に文書種類特定部１０１が対象文書の種類を特定してもよいし、ユーザーが対象文書の種類を手入力で指示してやってもよい。また、予め文書の種類を表すタグ等を文書に埋め込んておき、かかるタグに基づいて文書の種類を特定してもよい。

次に、対象文書に記載されている記載必要項目を特定する。具体的には、抽出部１０５が対対象文書から単語を抽出し、その中に対象文書と同じ種類の文書についての記載必要項目の検出に役立つ単語が存在するか否かを判断する。そして、「項目の特定に役立つ単語」が抽出されると（Ｓ３３：ＹＥＳ）、その単語に対応する「項目名」で表される記載必要項目を、第１記憶部２０１を参照して特定する（Ｓ３５）。一方、「項目の特定に役立つ単語」が抽出されなければ（Ｓ３３：ＮＯ）、後述するＳ３９まで進む。

Ｓ３５の結果、対象文書の中に全ての記載必要項目が記載されていれば、その種類の文書について記載すべき項目が全て記載されているものとして処理を終える（Ｓ３７：ＹＥＳ）。一方、対象文書の中に欠如している記載必要項目があれば（Ｓ３７：ＮＯ）、欠如している記載必要項目をユーザーに提示し（Ｓ３９）、処理を終える。

かかる処理により、ユーザーは対象文書の中に欠如している記載必要項目を容易に認識することができ、本来記載すべきであると思われる項目について漏れ無く追記・修正することで、より説得力、可読性の高い文書を作成することが可能となる。

＜ユーザーへの提示＞
図１４は図１３のＳ３９における提示の１例である。第１実施例では、制御部１０の指示により表示部４０に図１４のような画面が表示される。なお、このような画面を生成するためのデータは送受信部１１３を介して表示部４０に出力される。

図１４（ａ）はユーザーに対し対象文書と類似する文書を提示してやり、記載必要項目の記載の仕方についての参考にさせるための提示画面である。図１４（ａ）の例では、対象文書の中に「目的」、「目標」、「目指す」といった単語がいずれも出現しておらず、記載必要項目「目的」が欠如している場合の提示画面である。ユーザーは操作部３０により「ＹＥＳ」または「ＮＯ」を選択する。そして、ユーザーにより「ＹＥＳ」が選択された場合、制御部１０は文書記憶部２０７に記憶されている複数の文書の中から対象文書との類似度が最も高いと思われる文書を類似文書として表示部４０に表示する。これにより、作成している文書と類似する文書を参照でき、ユーザーの文書作成に役立つ。なお、ユーザーによる「ＹＥＳ」又は「ＮＯ」の選択を飛ばし、システムが能動的に類似文書を提示するようにしてもよい。

文書同士の類似度を判定する方法は特に限定されないが、例えば形態素解析技術を利用して文書から単語を取り出し、文書に含まれている単語の一致数が多いほど類似度が高いとする方法や、文書から取り出した複数の単語により構成される単語集毎の類似性により判定する方法などが考えられる。ここで、単語集合同士の類似性は、共通する単語の数や共通する単語の数に２をかけたものを単語集合に含まれる単語の数の和で割った値に基づいて求めることができる。また、対象文書から単語を抽出し、抽出した単語を元にして情報検索技術を利用して他の文書を取り出し、情報検索技術でのスコアを対象文書と他の文書との類似度としてもよい。その他、これらに類する方法でも可能である。

ここで、スコアの算出方法について、基本的な方法（ＴＦ−ＩＤＦ法）を含めて説明する。
１．基本的な方法（ＴＦ−ＩＤＦ法）の説明
ｓｃｏｒｅ（Ｄ）＝ Σ（ｔｆ（ｗ，Ｄ）＊ｌｏｇ（Ｎ／ｄｆ（ｗ）））
ｗ ∈Ｗで加算
Ｗ：キーワードの集合
ｔｆ（ｗ，Ｄ）：収集されたデータでのｗの出現回数
ｄｆ（ｗ）：全文書でＷが出現した文書の数
Ｎ：文書の総数
（数１）に示す式において、ｓｃｏｒｅ（Ｄ）が高い文書データを類似した根拠情報データとして出力する。

２．ＲｏｂｅｒｔｓｏｎらのＯｋａｐｉｗｅｉｇｈｔｉｎｇの説明
本方法は、非特許文献「村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均「位置情報と分野情報を用いた情報検索」自然言語処理（言語処理学会誌） 2000年 4月,7巻,2 号, p.141 ~ p.160」に記載されている。この非特許文献における（数２）が性能がよいことが知られている。そして、Σで積を取る前のｔｆ項とｉｄｆ項の積がＯｋａｐｉのウェイティング法になって、この値を単語の重みに使う。

Ｏｋａｐｉの式なら、
ｓｃｏｒｅ（Ｄ）＝Σ（ｔｆ（ｗ，Ｄ）／（ｔｆ（ｗ，Ｄ）＋ｌｅｎｇｔｈ／ｄｅｌｔａ）＊ｌｏｇ（Ｎ／ｄｆ（ｗ）））
ｗ ∈Ｗで加算
ｌｅｎｇｔｈ：データＤの長さ
ｄｅｌｔａ：データの長さの平均
データの長さは、データのバイト数、また、データに含まれる単語数などを使う。

以上の手法により算出されたスコアを利用し、文書同士の類似度を判定することができる。

図１４（ｂ）は対象文書に記載されていない記載必要項目の、対象文書と類似する複数の文書における出現率を合わせて提示するものである。これにより、どのくらいの文書で記載されているかをユーザーが把握でき、その記載必要項目を実際に対象文書に追加すべきかどうかの判断に役立つ。また、出現率と合わせて出現回数も提示してもよく、これらの値が大きいほど対象文書についての記載必要項目である可能性が高くなるので、ユーザーが適宜加筆・修正するときの参考になる。なお、記載必要項目の出現率について、例えば対象文書と類似する文書の数が３００であり、このうち１００の文書（グループＡ）に「必要」という単語が含まれ、１５０の文書（グループＢ）に「必要性」という単語が含まれていたとする。さらに、２０の文書（グループＣ）に「必要、必要性」という単語がともに含まれていたとする。この場合、グループＡ〜Ｃに含まれる計２７０の文書には記載必要項目「必要性」が含まれている（図１２（ａ）参照）といえるので、対象文書と類似する文書における記載必要項目「必要性」の出現率は「２７０／３００×１００＝９０％」と計算できる。さらに、類似する複数の文書でなく、同じ種類の複数の文書における出現率を合わせて提示してもよい。この場合も同様の計算で記載必要項目の出現率を求めることができる。

なお、図１４では記載必要項目「目的」が欠如している例を示したが、これに限定されない。例えば、対象文書に記載必要項目「必要性」と「例」が記載されていなければ、これら２つの記載必要項目が欠如している旨を提示してもよい。また、欠如している記載必要項目をまとめて提示したり、これらを順次提示してもよい。

＜第１実施形態の第２実施例＞
次に、情報抽出技術により対象文書の中に記載必要項目が記載されているか否かを検出する第２実施例を示す。第１実施例ではユーザーが作成した文書に対して記載必要項目が欠如していることを検出したが、第２実施例ではインターネット上に存在する文書に対して上位・下位語を利用して記載必要項目の有無を検出する例である。ここで、上位・下位語とは、上位概念を表す上位語と、上位語の下位概念を表す下位語をあわせた表現である。上位・下位語の例としては、上位語「県」−下位語「愛知県、大阪府、京都府、鳥取県・・・」、上位語「元号」−下位語「天、平成、昭和、大正・・・」等である。なお、１つの上位語に対しては複数の下位語が存在する。そして、これらの上位語と下位語を対応付けて第２記憶部２０３に記憶する。第２実施例では上位語を図１２における「項目名」、下位語を「項目の検出に役立つ単語」とみなして処理を実行する。なお、後述の「固有表現抽出」を利用する場合でも、固有表現抽出で取れるもの（「羽柴秀吉」、「鳥取県」など）を固有表現の種類（「人名」「地名」など）の下位語と見れば、同様に適用できる。

まず、操作部３０を操作し、インターネットの検索ソフトを起動する。そして、例えば検索ワードとして「溝口城」、「作山城」をそれぞれ入力して検索を実行する。

「溝口城」の検索結果として得られた文書には、「溝口城（みぞぐちじょう）は現在の愛知県豊山町に存在した日本のしろ（平城）である。築城年は天正初期（１５７３年頃）。」との記載があり、「作山城」の検索結果として得られた文書には、「作山城（つくりやまじょう）は、香川県高松市香西南町にあった日本の城である。」との記載があったとする。そして、これら２つの文書を対象とし、図１３におけるＳ３３と同様に、単語を抽出する。

図１５は、これらの結果をまとめたものである。なお、上段の「城名」、「県」、「時代」、「地名」、「元号」の欄は対象文書中に直接記載があったものではなく、記載必要項目としての上位語として予め定めたものである。なお、図１５についての実際の実験結果及び考察については本明細書の末尾で詳細に説明する。

図１５（ａ）中の「−」は対象文書の中に該当する記載がなかったものである。「作山城」については上位語「時代」の下位語に相当する単語と、上位語「元号」の下位語に相当する単語が対象文書の中に存在せず、「溝口城」については上位語「時代」の下位語に相当する単語が対象文書の中に存在しない。したがって、「作山城」の検索結果として得られた文書には記載必要項目「時代」と「元号」が、「溝口城」の検索結果として得られた文書には記載必要項目「時代」に関する記載が欠如しているということが言える。

これらの結果より、図１４と同様、それぞれの文書に記載必要項目が欠如している旨を提示する。これをもとにユーザーが情報を追記したものが図１５（ｂ）である。

以上、情報抽出技術を利用した第１実施形態について２つの実施例を説明した。第１実施形態では、図２のＳ１５において複数の文書における出現率が予め定められた閾値以下又は未満の単語を記載必要項目の検出に役立つ単語の候補から除外したが、これに限られない。例えば、出現率が予め定められた閾値以上又はより大きい単語を取り出す、出現数又は出現率が多いものから予め定めた個数取り出す、最大の出現数又は出現率の予め定められた係数をかけた値以上又はより大きい単語を取り出す、等でもよい。

＜第１実施形態の第３実施例＞
情報抽出技術を利用する第１実施形態の第３実施例は、第１実施形態の第２実施例に加え、情報検索技術を利用したものである。第１実施形態の第２実施例の処理の途中において、図１５（ａ）の溝口城について見ると、「時代」の欄が空欄になっている。第３実施例では、「時代」の欄を人手で埋めるのではなく、ＷＥＢ上の他の文書を参照する。

例えば、制御部１０がキーワード「溝口城ａｎｄ県（ａｎｄ検索）」を検索エンジンに入力し、通信部５０を介してＷＥＢ上の他の文書を検索する。そして、「溝口城」と「県」の２つの単語を含む他の文書（異なるＵＲＬで指定される文書）において上位・下位語により「安土桃山時代」を抽出できたら、それをユーザーに提示することで「時代」の欄の記載を支援する。

また、前述のスコアを利用した高度な情報検索技術により、対象文書と類似度の高い文書をＷＥＢ上から特定することも可能である。

＜第１実施形態の第４実施例＞
情報抽出技術を利用する第１実施形態の第４実施例は、第１実施形態の第２実施例に加え、例えば「特許第３８８２０４８号」の質問応答処理技術を利用したものである。第１実施形態の第２実施例の処理の途中において、図１５（ａ）の溝口城について見ると、「時代」の欄が空欄になっている。このとき、制御部１０は、「溝口城の時代は何ですか？」という質問文を生成し、図示しない質問応答システムに入力する。そして、入力された質問文に対して質問応答システムがＷＥＢ上で回答を探し出し、その回答を「時代」の欄に入力する。

なお、制御部１０が作成する質問文は、図１５（ａ）のような表において、「「行の項目」の「列の項目」は何ですか？」と一般化しておくことで、質問文を自動で生成することができる。これらの質問は質問生成部１０７により生成される。

＜第１実施形態の第５実施例＞
情報抽出技術を利用する第１実施形態の第５実施例は、第１実施形態の第２実施例に加え、類似する文書集合を利用したものである。第１実施形態の第２実施例の処理の途中において、図１５（ａ）の溝口城について見ると、「時代」の欄が空欄になっている。ここで、第１実施形態の第３実施例と同様に、ＷＥＢ上から関連文書を検索する。これは、前述のようなキーワードの掛けあわせやスコアを利用した高度な検索などにより実現され、溝口城と「時代」に関係する文書が得られる。

ここで、例えば溝口城以外の城では「時代」の欄に実際の時代が記入されている場合がある。この実際の時代の集合を時代集合Ａとする。そして、時代集合Aから、ある単語Bi と最も類似度の高い名詞Ciを取り出す。そして、全ての単語Biと名詞Ciの組のうち、最も類似度が高い組の単語を単語Bmと名詞Cmとする。この名詞Cmを、時代集合Ａと類似度の高い名詞として取り出して提示することで、溝口城の実際の時代やそのヒントを得ることができる可能性がある。なお、ここでは最も類似度の高いものを取り出したが、類似度の高い順から複数個、例えば上位10個程度のものを取り出し、それらをユーザーに示すとしてもよい。

なお、単語同士（単語Ｂと単語Ｃ）の類似度は、既存の単語辞書（分類語彙表）などを利用して類似度を求めてもよいし、ある文書を準備し、その文書で、単語Ｂと同じ文に出現している単語（単語集合Ｄ）と、単語Ｃと同じ文に出現している単語（単語集合Ｅ）を調べ、単語集合Ｄと単語集合Ｅの類似性から、単語同士の類似度を求めてもよい。単語集合Ｄと単語集合Ｅの類似性は、共通する単語数に基づいてもよいし、共通する単語数に２をかけたものを、単語集合Ｄの単語の個数と単語集合Ｅの単語の個数の和で割った値に基づいてもよいし、これらに類する方法でもよい。ここで、分類語彙表とは、例えば以下のようなものである。

あ, あ,4.310,1,10,*,
あ, 亜,1.104,2,40,,
あ, 亜,3.100,10,40,,
ああ, ああ,3.100,3,40,*,
ああ, ああ,4.310,1,20,*,
ああくとう, アーク燈,1.460,2,70,,
ああす, アース,1.462,6,10,,
ああち, アーチ,1.442,2,20,,
ああむほおる, アームホール,1.184,5,30,,
あある, アール,1.1961,4,10,,
あい, 愛,1.3020,9,10,*,
あい, 相,3.112,1,10,*,
あい, 藍,1.502,6,40,,
あいいく, 愛育,1.3642,1,40,,
あいいん, 愛飲,1.3332,3,60,,
あいいん, 合印,1.3114,1,30,Y,
あいうち, あい打ち,1.357,4,30,,
あいかぎ, 合鍵,1.454,8,50,,
あいかわらず, 相変らず,3.165,2,10,*,
あいかん, 哀歓,1.3011,4,60,,
あいがん, 哀願,1.366,1,100,,
あいがん, 愛翫,1.3852,2,10,,
あいぎ, 合着,1.421,4,40,,
あいきょう, 愛郷,1.3020,11,170,,
あいきょう, 愛嬌,1.3030,4,40,,

そして、上位３桁を意味分類と仮定し、種々の処理を実行することも可能である。

以上、第１実施形態の第１実施例〜第５実施例について説明したが、これらはそれぞれインターネット上に存在する文書に対して適用でき、また、ローカルな記憶手段に記憶されている文書についても適用できる。

２．第２実施形態
第２実施形態の文書解析装置は、ユーザーが作成した文書の中に記載必要項目が記載されていないことを教師あり機械学習技術を利用して検出し、その旨をユーザーに提示することで文書作成支援を行うものである。

＜第２実施形態の第１実施例＞
基本的な装置の構成は第１実施形態と同様であるが、第２実施形態の第１実施例では図１に示された第３記憶部２０５及び機械学習エンジン１１１を利用する。

＜教師データの学習＞
図１６は、第３記憶部２０５の構成例を示すブロック図である。第３記憶部２０５は、記載必要項目有無記憶部２０５ａと、記載必要項目修正記憶部２０５ｂと、差分記憶部２０５ｃを備える。

記載必要項目有無記憶部２０５ａは、複数の文書と当該文書中の記載必要項目の有無とを対応付けて記憶する。記載必要項目修正記憶部２０５ｂは、記載必要項目有無記憶部２０５ａに記憶されている文書のうちで記載必要項目が記載されていない文書に人手で記載必要項目に関する文を追加して修正した文書を記憶する。差分記憶部２０５ｃは、記載必要項目が記載されていない文書と、当該文書を修正した文書の差分（人手で追加した部分）を記憶する。

第１実施例では、予め学習データを準備しておく。例えば、「問題＝文書」、「解答＝記載必要項目有りor 記載必要項目無し」とする。具体的には、「問題＝機械学習に基づく実験を行った。学習データ数は１０００である。」に対し、「解答＝記載必要項目有り」と学習させる。これは、問題が機械学習に関する文書であり、機械学習にとって学習データ数は精度に大きく影響する重要な要素である。したがって、機械学習に関する文書においては学習データ数に関する情報を記載すべきであると考えられるので、「学習データ数」を記載必要項目としたのである。

次に、「問題＝機械学習により実験を行った。」に対し、「解答＝記載必要項目無し」と学習させる。これは、前述の通り、問題が機械学習に関する文書であるにも関わらず、記載すべき情報である学習データ数が記載されていないからである。

データの学習のときに利用する素性（解析に用いる情報で、問題を構成する各要素のこと）は問題の文書から取得する。例えば、上記の例では、「機械」、「学習」、「データ」、「数」、「１０００」等が素性となる。また、素性の種類として、２単語連続、３単語連続のものを利用してもよい。例えば、「機械学習」、「機械学習法」「データ数」、「学習データ数」などである。これらの素性も合わせて記憶する。このように、文書中にこれらの素性が含まれていれば「○」、含まれていなければ「×」と学習させる。素性には問題の文書に出現する単語の「ｔｆ」、「ｉｄｆ」、「ｔｆ−ｉｄｆ」、単語、単語の意味分類、単語の共起語などを用いる。なお、「ｔｆ」、「ｉｄｆ」、「ｔｆ−ｉｄｆ」については後述する。ここで、単語の共起語とは、ある単語がある文書中に出たとき、その文書中に頻繁に出現する別の限られた単語のことである。例えば、文書記憶部２０５に記憶された文書Ａには単語Ｘと単語Ｙが含まれ、文書Ｂにも単語Ｘと単語Ｙが含まれるなど、多くの文書において単語Ｘと単語Ｙが同時に含まれる場合、単語Ｙを単語Ｘの共起語（又は単語Ｘを単語Ｙの共起語）と呼ぶ。なお、文書単位でなく、同じ種類の文書中における一文、段落、データレコードを単位として共起語を特定してもよい。

そして、「問題＝機械学習に基づく実験を行った。学習データ数は1000である。」に対して「解答＝記載必要項目有り」、「問題＝機械学習により実験を行った。」に対して「解答＝記載必要項目無し」というデータを学習させることで、文書中に「機械」、「学習」、「機械学習」という語が素性にあって、「データ」、「数」、「データ数」がなければ、かかる文書は「記載必要項目無し」の文書であると判定できるようになる。

図１７は第３記憶部２０５に記憶されるデータ（判定基準データ）の例を示す図であり、（ａ）は記載必要項目有無記憶部２０５ａに、（ｂ）は記載必要項目修正記憶部２０５ｂに、（ｃ）は差分記憶部２０５ｃに記憶されるもので、文書の種類は「機械学習に関する文書」である。

図１７（ａ）の文書ＩＤ１ａ、２ａ及び５００００ａで表される文書には、機械学習に関する文書の記載必要項目である「学習データ数」が記載されているので記載必要項目有りとなり、「記載必要項目の有無」の欄は「○」となっている。一方、文書ＩＤ３ａ、４ａ、５ａ及び４９９９９ａで表される文書には、機械学習に関する文書であるにも関わらず「学習データ数」が記載されていない。このため、これらの文書は記載必要項目無しとなり、「記載必要項目の有無」の欄は「×」となっている。

図１７（ｂ）は、図１７（ａ）の文書のうち、「記載必要項目の有無」の欄が「×」である文書を人手で修正した文書である。ここでは、機械学習に関する文書の記載必要項目である「学習データ数」を追加している。

図１７（ｃ）は、修正前の文書と修正後の文書の差分、つまり、人手で追加した部分を示す図である。

＜文書から記載必要項目の有無を検出＞
図１８は第３記憶部２０５へデータを記憶し、機械学習を実行するときのフローを表すフローチャートである。Ｓ５１にて文書の種類毎に記載必要項目を特定する。前述の例では、ある文書が機械学習に関する文書である（文書の種類：機械学習）場合、記載必要項目として「学習データ数」を特定する。つまり、文書の種類に応じて、その文書にどのような事項が記載されるべきであるかを検討するのである。なお、記載必要項目を複数特定してもよく、例えば「文書の種類：機械学習」である場合に、さらに記載必要項目として「アルゴリズム」、「教師の有無」等を特定しておいてもよい。次に、Ｓ５３にて文書と当該文書における記載必要項目の記載の有無を対応付けたデータ（図１７参照）を教師データとし、機械学習を実行する。Ｓ５５にて文書中の素性と記載必要項目の記載の有無に関するルールを学習する。前述のように、対象文書中に「機械」、「学習」などが含まれているにも関わらず「データ」、「数」が含まれていなければかかる文書には記載必要項目「学習データ数」が記載されていない、と判定する等である。Ｓ５７にて学習したルールを第３記憶部２０５に記憶し、処理を終える。

図１９は機械学習により対象文書の中に記載必要項目が欠如していることを提示する処理の例を示すフローチャートである。まず、ユーザーが、例えば操作部３０を操作して文書作成ソフトなどにより文書を作成する。又は、既に作成されている文書を情報処理装置１に入力する。

そして、制御部１０に対して対象文書の中に記載必要項目が記載されていないかの検出指示するか、作成している文書を保存することをトリガーとして、制御部１０からの指示により、文書種類特定部１０１が対象文書の種類を特定する（Ｓ７１）。なお、特定の仕方は特に限定されないが、文書のフォーマット、罫線、キーワード、頻出単語等を元に文書種類特定部１０１が対象文書の種類を特定してもよいし、ユーザーが対象文書の種類を手入力で指示してやってもよい。

次に、前述の機械学習において記憶した素性を利用して対象文書の中から素性（単語）を抽出する（Ｓ７３）。対象文書が「機械学習法により実験を行った。（文書の種類：機械学習に関する文書）」である場合、「機械」、「学習」が素性にあり、「データ」、「数」が素性にない。したがって、前述の機械学習の結果に基づいて、「機械学習に関する文書」における記載必要項目である「学習データ数」に関する記載が欠如していると判断できる（Ｓ７５）。ここで、記載必要項目として「学習データ数」１つのみについて説明したが、記載必要項目が複数ある場合にはそれぞれの記載必要項目について処理を繰り返す。

Ｓ７５の結果、対象文書の中に全ての記載必要項目が記載されていれば、その種類の文書について記載すべき項目が全て記載されているものとして処理を終える（Ｓ７７：ＹＥＳ）。一方、対象文書の中に欠如している記載必要項目があれば（Ｓ７７：ＮＯ）、欠如している記載必要項目をユーザーに提示し（Ｓ７９）、処理を終える。

＜ユーザーへの提示＞
図２０は図１８のＳ７９における提示の１例である。図２０（ａ）は対象文書が「機械学習により実験を行った。結果は・・・」である場合である。かかる文書は図１７（ａ）の文書ＩＤ４ａ及び５ａと同一である。よって、図１７（ｃ）の差分データを参照すると、「学習データの個数は３００である。」又は「学習データの個数は２５００である。」が得られる。したがって、学習データ数をユーザーに選択させるための画面を表示する。なお、これに対しユーザーは操作部３０により学習データ数を入力でき、学習データ数が「３００」でも「２５００」でもなければ「その他」を選択したあとに任意の数を入力する。

図２０（ｂ）は対象文書が「機械学習を利用して実験を行った。結果は以下の通りである」の場合である。かかる文書を完全に一致する文書は第３記憶部２０５には存在しない。この場合、対象文書と類似する文書を言語処理技術等を用いて図１７（ａ）の記載必要項目有無記憶部２０５ａから検索し、文書ID４９９９ａの文書が対象文書と最も類似している文書として選択される。そして、図１７（ｃ）の差分データを参照し、「学習データの個数は３０００である。」を得る。したがって、ユーザーに対して記載必要項目「学習データ数」が欠如していることを提示するとともに、予想される学習データ数「３０００」を合わせて提示する。このとき、さらに「確信度」を提示してもよい。これは、対象文書と類似する文書を記載必要項目有無記憶部２０５ａから選択しているが、類似度が高ければ確信度も高くなり、類似している文書が複数存在した場合には確信度は低くなる、といった具合である。なお、機械学習の教師データ数や機械学習のアルゴリズム自体についての確信度を加味してもよい。

ここで、機械学習を利用した類似文書の確信度の求め方について詳細に説明する。機械学習の手法は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である（例えば、下記の非特許文献を参照）。

非特許文献３：村田真樹，機械学習に基づく言語処理，龍谷大学理工学部．招待講演．2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
非特許文献４：サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳，村田真樹，馬青，内元清貴，井佐原均，電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ，2001年．
非特許文献５：SENSEVAL2J辞書タスクでのＣＲＬの取り組み，村田真樹，内山将夫，内元清貴，馬青，井佐原均，電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ，2001年．

どういう問題のときに、という、問題の状況を機械に伝える際に、素性（解析に用いる情報で問題を構成する各要素）というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題：「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。

すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。このように教師あり機械学習法を行うことによって、規則を人手で作成する必要がなく、人手の手間を省ける学習データを多く準備することで、性能を向上させることができる。また、人手による規則よりも、より多くの規則のようなものを獲得したような形で高性能な処理が可能となる。

例えば、予め冗長性についての正解情報付きの教師データを取得した場合、ｋ近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いて正解情報に近い結果が得られる好適な係数を導き出す。

ｋ近傍法は、最も類似する一つの事例のかわりに、最も類似するｋ個の事例を用いて、このｋ個の事例での多数決によって分類先（解）を求める手法である。ｋは、あらかじめ定める整数の数字であって、一般的に、１から９の間の奇数を用いる。

シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。

シンプルベイズ法において、文脈ｂで分類ａを出力する確率は、以下の式（ａ）で与えられる。

ただし、ここで文脈ｂは、あらかじめ設定しておいた素性ｆｊ（∈Ｆ，１≦ｊ≦ｋ）の集合である。ｐ（ｂ）は、文脈ｂの出現確率である。ここで、分類ａに非依存であって定数のために計算しない。Ｐ（ａ）（ここでＰはｐの上部にチルダ）とＰ（ｆｉ｜ａ）は、それぞれ教師データから推定された確率であって、分類ａの出現確率、分類ａのときに素性ｆｉを持つ確率を意味する。Ｐ（ｆｉ｜ａ）として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式（ｂ）の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スムージングを行う。ここでは、以下の式（ｃ）を用いてスムージングを行ったものを用いる。

ただし、ｆｒｅｑ（ｆｉ，ａ）は、素性ｆｉを持ちかつ分類がａである事例の個数、ｆｒｅｑ（ａ）は、分類がａである事例の個数を意味する。

決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。

決定リスト方法では、あらかじめ設定しておいた素性ｆｊ（∈Ｆ，１≦ｊ≦ｋ）のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈ｂで分類ａを出力する確率は以下の式によって与えられる。

ｐ（ａ｜ｂ）＝ｐ（ａ｜ｆｍａｘ）
ただし、ｆｍａｘは以下の式（ｄ）によって与えられる。

また、Ｐ（ａｉ｜ｆｊ）（ここでＰはｐの上部にチルダ）は、素性ｆｊを文脈に持つ場合の分類ａｉの出現の割合である。

最大エントロピー法は、あらかじめ設定しておいた素性ｆｊ（１≦ｊ≦ｋ）の集合をＦとするとき、以下所定の条件式（式（ｅ））を満足しながらエントロピーを意味する式（１０）を最大にするときの確率分布ｐ（ａ，ｂ）を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。

ただし、Ａ、Ｂは分類と文脈の集合を意味し、ｇｊ（ａ，ｂ）は文脈ｂに素性ｆｊがあって、なおかつ分類がａの場合１となり、それ以外で０となる関数を意味する。また、Ｐ（ａｉ｜ｆｊ）（ここでＰはｐの上部にチルダ）は、既知データでの（ａ，ｂ）の出現の割合を意味する。

式（ｅ）は、確率ｐと出力と素性の組の出現を意味する関数ｇをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化（確率分布の平滑化）を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の非特許文献に記載されている。

非特許文献６：Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997）
非特許文献７：Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998)

サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。

図２１にサポートベクトルマシン法のマージン最大化の概念を示す。図２１において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図２１）（ａ）は、正例と負例の間隔が狭い場合（スモールマージン）の概念図、（ｂ）は、正例と負例の間隔が広い場合（ラージマージン）の概念図である。

このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔（マージン）が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図２１）（ｂ）に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。

基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張（カーネル関数の導入）がなされたものが用いられる。

この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。

ただし、ｘは識別したい事例の文脈（素性の集合）を、ｘｉとｙｊ（ｉ＝１，...，ｌ，ｙｊ∈｛１，−１｝）は学習データの文脈と分類先を意味し、関数ｓｇｎは、
ｓｇｎ（ｘ）＝１（ｘ≧０）
−１（ｏｔｈｅｒｗｉｓｅ）
であり、また、各αｉは式（ｉ）と式（ｊ）の制約のもと式（ｈ）を最大にする場合のものである。

また、関数Ｋはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。

Ｋ（ｘ，ｙ）＝（ｘ・ｙ＋１）ｄ式（ｈ）
Ｃ、ｄは実験的に設定される定数である。例えば、Ｃはすべての処理を通して１に固定した。また、ｄは、１と２の二種類を試している。ここで、αｉ＞０となるｘｉは、サポートベクトルと呼ばれ、通常、式（ｇ）の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。

なお、拡張されたサポートベクトルマシン法の詳細については、以下の非特許文献に記載されている。

非特許文献８：Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
非特許文献９：Taku Kudoh, Tinysvm:Support Vector machines, (http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が２個のデータを扱うものである。したがって、分類の数が３個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンＶＳレスト法などの手法を組み合わせて用いることになる。

ペアワイズ法は、ｎ個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア（ｎ（ｎ−１）／２個）を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、ｎ（ｎ−１）／２個の二値分類による分類先の多数決によって、分類先を求める方法である。

ワンＶＳレスト法は、例えば、ａ、ｂ、ｃという三つの分類先があるときは、分類先ａとその他、分類先ｂとその他、分類先ｃとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先ａとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、ａと推定する。

例えば、本発明の実施の形態において、機械学習機能が、機械学習の手法としてｋ近傍法を用いる場合、機械学習機能は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合（同じ素性をいくつ持っているかの割合）にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として記憶しておく。

また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習機能は、教師データの事例について、上記の事例の解と素性の集合との組を学習結果情報として記憶する。そして、新しい解の候補が抽出されたときに、記憶された学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて取得した解の候補の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その解の候補の素性の分類（解）と推定する。すなわち、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。

また、機械学習手法として決定リスト法を用いる場合には、機械学習機能は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを記憶する。そして、新しい解の候補が抽出されたときに、リストの優先順位の高い順に、抽出された解の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先（解）として推定する。すなわち、解の候補の素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここでは「抽出するべき」という分類になる確率のリストにおける優先順位とする。

また、機械学習手法として最大エントロピー法を使用する場合には、機械学習機能は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて記憶する。そして、新しい解の候補が抽出されたときに、記憶された確率分布を利用して、抽出された表現対の候補の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、解の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。

また、機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習機能は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて記憶する。そして新しい解の候補が抽出されたときに、記憶された超平面を利用して、抽出された表現対の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。すなわち、解の候補の素性の集合の場合にある解となりやすさの度合いを、分離平面からの正例（抽出するべき表現対）の空間への距離の大きさとする。より詳しくは、抽出するべき表現対を正例、抽出するべきではない表現対を負例とする場合に、分離平面に対して正例側の空間に位置する事例が「抽出するべき事例」と判断され、その事例の分離平面からの距離をその事例の度合いとする。

そして、事例の度合いが大きい文書を対象文書と類似する文書とし、これを記載必要項目有無記憶部２０５ａから取り出す。ここで、その「事例の度合い」を確信度として提示する。

なお、第３記憶部２０５に「機械学習に関する文書」をまとめて記憶する例を説明したが、これに限られない。文書の種類毎に分けず、複数の種類の文書と記載必要項目の有無をまとめて記憶し、これらをまとめて教師データとして学習しても良い。この場合、図１９のＳ７１は不要となる。

＜第２実施形態の第２実施例＞
次に、第２実施形態の第２実施例について説明する。第２実施例では、文書の「段落」を１つの単位として機械学習を実行する。ここで、記載必要項目無しの段落として、「機械学習により実験を行った。」とあり、これを修正して「機械学習により実験を行った。学習データの個数は５００である。」とした。これらの差分を取ると、「学習データの個数は５００である。」が得られる。したがって、対象文書内のある段落が「実験を行った。」で終わっていれば、「学習データの個数は５００である。」を追加するという規則を得ることができる。

ここで、「実験を行った。」は、段落の最後の７文字を利用すると予め定義しておいてもよく、また、５文字、１０文字等任意の文字数として定義しておいてもよい。

そして、
記載必要項目無しの段落：「機械学習により実験を行った。」
修正した段落：「機械学習により実験を行った。学習データの個数は５００である。」
から、
問題：「機械学習により実験を行った。」
答え：悪い文書
問題：「機械学習により実験を行った。学習データの個数は５００である。」
答え：良い文書
という学習データを自動で生成する。すなわち、記載必要項目無しの段落から作成したデータは悪い文書となり、修正した段落から作成したデータは良い文書となる。かかる学習データを多数作成し、それを機械学習で学習させると、どういう段落が良く、どういう段落が良くないかが理解できるようになる。なお、素性は、問題に出現した単語のｔｆ、ｉｄｆ、ｔｆ−ｉｄｆ、単語、単語の意味分類、単語の共起語等を用いる。

機械学習を実行したあと、新たに対象文書のある段落として「機械学習法により実験を行った。」が入力されたとする。この段落は最後の７文字が「実験を行った。」で終わっているので、前述の規則を用いて書き換えると、「機械学習法により実験を行った。学習データの個数は５００である。」となる。また、ランダムに文字を入れたり書き換えたりして、多数の種類の段落を作成する。

例えば、「特許第５６７８７７４号」などの言い換え技術を利用して、規則を用いて日本語として不適切でないように文書を修正することも可能である。または、言い換え技術を利用せずに不適切な文書をここで作成して次の機械学習の入力にいれることも可能である。後の機械学習で不適切な文書を除けるためである。

そして、作成された多数の段落を入力データとして機械学習で判定し、「良い」文書か「悪い」文書かを判断する。そして、「良い」文書のうち、すでに述べたような手法で求めた確信度が最も高いものを最も「良い」文書とする。そして、対象文書が入力されると、最も「良い」文書に近づくように対象文書を修正する。また、言い換え技術を組み合わせて文書を修正することも可能である。かかる書き換えは図１の文書修正部１０９により実行される。なお、本実施例では段落を単位として機械学習する例を示したが、これに限られない。例えば、複数の段落単位、章単位、複数の章単位又は文書全体に対して機械学習を実行してもよい。

以上、第１実施形態及び第２実施形態について説明した。ここで、第１実施形態の第１実施例及び第２実施形態の第１実施例の処理について、それぞれ概念図を用いて説明する。

図２２は第１実施形態の第１実施例の処理を表す概念図である。まず、（１）送受信部１１３を介して判定部１０３に文書が入力される。（２）図示しない文書種類特定部１０１は、文書の属性データ（単語の出現回数、単語の共起、意味、罫線、フォーマット、文書に付与されたタグ等）に基づいて文書の種類を特定する。（３）特定された文書の種類を送受信部１０３に通知し、（４）文書の種類に対応するデータを第１記憶部２０１から読み出して判定部１０３に渡す。（５）判定部１０３はかかるデータから項目の検出に役立つ単語（要求データ）を取得する。そして、（６）文書中に（５）で取得された単語が含まれているか否かを調べ、（７）判定結果を送受信部１１３を介して図示しない表示部４０へ通知する。

なお、文書の種類は、機械学習によっても特定可能である。例えば、「問題：文書データ」「答え：文書の種類」「素性：文書に含まれる単語」として機械学習を実行し、文書の中にどのような単語（素性）が含まれていればどの種類の文書になるのかを学習する。そして、かかる学習結果を利用することで、新たな文書が入力されても、文書中に含まれる単語（素性）を解析することで文書の種類を判定することができる。

また、文書の種類は類似文書検索を利用しても特定可能である。例えば、文書記憶部２０７に格納された複数の文書のうち、文書の種類が特定されている複数の文書を文書群Ａとし、文書と文書の種類を対応付けて記憶部２０に記憶しておく。そして、すでに述べた類似文書検索技術を利用し、新たに入力された文書に類似する文書を記憶部２０に記憶された文書群Ａから特定する。ここで、記憶部２０には文書と文書の種類が対応付けて記憶されているため、入力された文書に類似する文書が特定されることで、類似する文書の種類も特定できる。このように特定された類似する文書の種類を、新たに入力された文書の種類として推定する（類似する文書同士は文書の種類が同じであることが多いためである）。

図２３は第２実施形態の第２実施例の処理を表す概念図である。まず、（１）送受信部１１３を介して判定部１０３に文書が入力される。そして、（２）送受信部１１３を介して第３記憶部２０４に記憶されたデータが判定部１０３に入力される。（３）判定部１０３は、文書の属性データ（単語の出現回数、単語の共起、意味、罫線、フォーマット、文書に付与されたタグ等）に基づいて、同一又は類似する文書を表す文書ＩＤを特定する。そして、（４）特定された文書ＩＤに対応する差分データ（要求データ）を取得する。そして、（５）判定部１０３が文書中に差分データが含まれるか否かを調べ、（６）判定結果を送受信部１１３を介して図示しない表示部４０へ通知する。

最後に、上述した第１実施形態及び第２実施形態に係る発明を実現するためのソフトの観点での機能ブロック図を図２４を用いてに説明する。なお、図２４は単なる例示であり、サーバ２００に変えて文書解析装置１０００内の図示しない記憶部を用いてもよく、判定部１０３０が文書解析装置１０００の外部のサーバに格納されており、通信回線を通して判定結果を受け取る構成としてもよいことは言うまでもない。また、図１におけるブロック図は主にハードの観点で作成されたブロック図であり、図１と図２４の両者は互いに矛盾しない。

文書解析装置１０００は内部に被解析データ取得部１２３０、判定基準データ取得部１３３０、判定部１０３０及び出力部１１３０を含む。そして、操作部３００を用いてユーザーにより操作される。被解析データ取得部１２３０は通信部５００から被解析データを取得する。判定基準データ取得部１３３０はサーバ２００から判定基準データを取得する。そして、判定部１０３０は、被解析データ取得部１２３０から被解析データを、判定基準データ取得部１３３０から判定基準データを取得する。判定部１０３０による判定結果が出力部１１３０に受け渡され、出力部１１３０が出力した判定結果がディスプレー４００に表示される。さらに、ディスプレー４００に代えて、判定結果を外部のプリンタ６００で印刷してもよい。また、判定結果を通信部５２０を介して他のＰＣやサーバに送信してもよい。

最後に、第１実施形態の第１実施例における図２のＳ１１〜Ｓ１９についての実際の実験結果及び考察と、第１実施形態の第２実施例における図１５についての実際の実験結果及び考察について詳細に説明する。まず初めに図２のＳ１１〜Ｓ１９についての実際の実験結果及び考察について説明する。

概要
論文において記載すべき情報が記載されていない場合が存在する。その場合、研究の内容が読者に伝わり難いという問題が発生する。本研究では、論文に記載すべき情報を「記載必要項目」と定義し、論文内で記載必要項目が欠落している論文を自動検出することで、論文の文章作成支援を行うことを目的とする。多くの論文に出現する単語は記載必要項目である可能性が高いと考える。本研究では、全論文を出現論文数で割ることで出現率を算出し、出現率の高い単語を調査する。さらに、出現率の高い単語に類似している単語は記載必要項目の検出に役立つ単語であると考え、類似している単語を調査する。出現率の高い単語とその単語に類似している単語を参考に人手で検討し、記載必要項目とその項目の検出に役立つ単語を決定する。

決定した記載必要項目の検出に役立つ単語が一つもない論文を記載必要項目が欠落している論文であると判別する。このようなルールで判別し、ルールベースを利用して記載必要項目が欠落している論文を自動検出する。「比較」「問題」「目的」は F 値が 0.6 から 0.7 で検出でき、「例」は F 値が 0.86 で検出できた。それぞれの結果はベースラインよりも F 値が高かった。

＜目次＞
第 1 章はじめに
第 2 章研究の流れ
第 3 章記載必要項目と検出に役立つ単語の決定 8
3.1 問題設定
3.2 決定手順
3.2.1 頻度調査
3.2.2 意味ソート
3.2.3 人手での検討
3.3 データ
3.4 決定結果
3.4.1 頻度調査の結果
3.4.2 意味ソートの結果
3.4.3 記載必要項目と検出に役立つ単語の決定結果
第 4 章文章作成支援
4.1 問題設定
4.2 記載必要項目が欠落している論文の検出方法
4.3 データ
4.4 評価方法
4.4.1 評価の手順
4.4.2 F 値
4.4.3 人手での判別基準
4.4.4 カッパ係数による人手での判別基準の評価
4.5 実験結果
4.5.1 人手での判別基準とその基準の評価
4.5.2 文章作成支援の実験結果
4.6 考察
4.6.1 文章作成支援の実験考察

第 5 章おわりに

非特許文献１０：村田真樹,神崎享子,内元清貴,馬青,井佐原均: "意味ソート msort -意味的並べかえ手法による辞書の構築例とタグつきコーパスの作成例と情報提示システム
例-", 自然言語処理, Vol,7, No,1, pp,51-66, 2000.
非特許文献１１：菅沼明, 牛島和夫: "テキスト処理による推敲支援情報の抽出", 人工知能学会誌, 23巻, 1 巻, pp,25-32, 2008.
非特許文献１２： Masaki Murata, Hitoshi Isahara: "Automatic detection of mis-spelled Japanese expressions using a new method for automatic extraction of negative examples based on positive examples", IEICE Transactions, VOL,E85-D, No,9, pp,1416-1424, 2002.
非特許文献１３：村田真樹, 井佐原均: "自動言い換え技術を利用した三つの英語学習支援システム",情報科学技術レターズ, 3 巻, pp,85-88, 2004.
非特許文献１４：内元清貴, 村田真樹, 馬青, 関根聡, 井佐原均: "コーパスからの語順の獲得",言語処理学会論文誌「自然言語処理」,Vol,7,No,4,pp,163-180, 2000.
非特許文献１５：村田真樹, 馬青, 井佐原均, 内元清貴: "日本語文と英語文における統語構造認識とマジカルナンバー７±２", 言語処理学会論文誌「自然言語処理」, Vol,6, No,7, pp,61-73, 1999

第1章はじめに
論文において研究成果や研究の必要性・有効性などの記載すべき情報が記載されていない場合が存在する。その場合、研究の内容が読者に伝わり難いという問題が発生する。本研究では、論文に記載すべき情報を「記載必要項目」と定義し、論文内で記載必要項目が欠落しているか否かを自動検出することで、論文の文章作成支援を行うことを目的とする。

文章作成支援の研究は既に先行研究が多数ある。「冗長な表現の改善」の研究としては非特許文献１０が、「誤字の修正・適切な語の選択」の研究としては非特許文献１１、非特許文献１２、非特許文献１３が、「語順の修正・語と語の係り受けの誤りおよび複雑性の修正」の研究としては文献非特許文献１１、非特許文献１４、非特許文献１５がある。数多くの文章作成支援の研究があるが、論文の記載必要項目を利用して論文の文章作成支援を行う研究はないため本研究で扱うこととした。図２５は本研究の目的を表す。

本論文の主な主張を以下に整理する。
1. 論文内で記載必要項目が欠落しているか否かを自動判別し、文章作成支援を行う。
2. 論文の記載必要項目を利用して論文の文章作成支援を行う先行研究はないという新規性がある。
3. 記載必要項目の検出に役立つ単語を決定し、それらの単語の有無によって記載必要項目の欠落を自動判別できる。
4. 本研究では6つの記載必要項目を決定し、それらの項目が欠落している論文を検出した。その結果、6つの項目のうち4つの項目が欠落している論文を0.6から0.8という比較的高いF値で検出できた。
5. 全ての論文を文章作成支援の対象として検出した場合と比較した結果、本研究の提案手法のほうが検出精度が高いことが確認された。

本論文の構成は以下の通りである。第2章では、本研究の全体の流れについて述べている。第3章では、記載必要項目とその項目の検出に役立つ単語について述べている。第4章では、文章作成支援について述べている。

第2章研究の流れ
本研究の全体の流れを以下に示す。
1.記載必要項目とその項目の検出に役立つ単語を決定する。
2.検出に役立つ単語とルールベースを利用して記載必要項目が欠落している論文を自動検出する。
2.2の検出結果が文章作成支援に役立っているか否かを人手で判別し、評価する。
本研究では、初めに、記載必要項目とその項目の検出に役立つ単語を決定する。多くの論文に出現する単語は記載必要項目の検出に役立つ単語である可能性が高いと考える。そこで、記載必要項目の検出に役立つ単語を決定するために、論文内での単語の頻度調査を行う。論文に出現する単語ごとの出現率を算出し、出現率の高い単語を調べる。出現率の高い単語から記載必要項目の検出に役立つ単語であるかを人手で検討し決定する。

さらに、記載必要項目の検出に役立つ単語を増やすために、記載必要項目の検出に役立つ単語に類似している単語を調査する。類似している単語の調査には、意味ソート（非特許文献１０）を利用して調査を行う。

次に、記載必要項目の検出に役立つ単語が一つもない論文を記載必要項目が欠落している論文であると判別し、そういった論文を自動検出する。本研究ではルールベースを用いて検出を行う。最後に、ルールベースでの検出結果から文章作成支援に役立っているか否かを人手で判別し、評価を行う。本研究では記載必要項目を補う必要のある論文を文章作成支援に役立っている論文と判別し、F値を算出して評価を行う。

第3章記載必要項目と検出に役立つ単語の決定
3.1問題設定
記載必要項目と記載必要項目の検出に役立つ単語を決定する。検出に役立つ単語が一つもない場合は記載必要項目が欠落している論文であると判別でき、記載必要項目が欠落している論文の検出に役立つと考える。

3.2決定手順
記載必要項目とその項目の検出に役立つ単語の決定は以下の手順で行う。
1.多くの論文に出現する単語を調査する(3.2.1節)
2.1の結果から意味ソート（非特許文献１０）を利用して意味の類似している単語をまとめて表示させる(3.2.2節)
3.2の結果を人手で検討して、記載必要項目とその項目の検出に役立つ単語を決定する(3.2.3節)

手順の詳細を以下に示す。
3.2.1頻度調査
多くの論文に出現する単語は論文の記載必要項目である傾向である可能性が高いと考えられる。単語の出現した論文数を全論文数で割ることで単語の出現率を算出する。例えば、全論文300件中250件の論文に単語「Z」が存在している場合、単語「Z」の出現率は250/300となる。

3.2.2意味ソート
記載必要項目の検出に役立つ単語に類似している単語も記載必要項目の検出に役立つ単語である可能性があると考える。例えば「手法」という単語が記載必要項目の検出に役立つ単語である場合、その単語に類似している「方式」などの単語も記載必要項目の検出に役立つ単語である可能性がある。本研究では、記載必要項目の検出に役立つ単語に類似している単語を調査するために意味ソート（非特許文献１０）を利用する。意味ソート（非特許文献１０）は意味の類似している単語をまとめて表示させることができる。これにより出現率の低い単語も参考にでき、より詳細な記載必要項目とその項目の検出に役立つ単語が決定できると考える。

3.2.3人手での検討
3.2.2節の結果を参考にして、人手で記載必要項目とその項目の検出に役立つ単語を検討し決定する。

3.3データ
記載必要項目の決定を行う際に使用した実験データは、1994年から2013年の言語処理学会論文誌(393件)である。

3.4決定結果
3.4.1頻度調査の結果
本研究では、3.2.1節で挙げられた方法で頻度調査を行った。全論文数は393件あり、その論文中に出現する単語の総数は19、234単語であった。その内の出現率の高い上位100単語までの結果をまとめて図２６に示す。

3.4.2意味ソートの結果
論文での出現率の高い上位500単語を意味ソート（非特許文献１０）を使ってソートし、意味の類似している単語をまとめて表示させた。意味ソート（非特許文献１０）の結果の一部を図１２（ｂ）に示す。

3.4.3記載必要項目と検出に役立つ単語の決定結果
3.4.1節から研究の重要性・有用性を表す可能性がある「重要」や新規性を表す可能性がある「異なる」などの出現率が高いことがわかった。研究の重要性や新規性が存在しない論文は研究の内容が理解し難くなる可能性が高いので、「重要」「異なる」なども記載必要項目である可能性が高いと考えられる。また、「問題」「目的」などが存在しない論文は何が問題で何を目的にしているかを理解できなくなる可能性が高いと考えられる。さらに、「例えば」などが存在しない論文でも理解しやすい具体例などがない可能性があり、論文の内容の理解が難しくなる可能性があると考える。従って、「目的」「問題」「例えば」なども記載必要項目である可能性が高いと考えられる。

以上で記載必要項目である可能性が高いとされた単語と3.2.2節で述べた意味ソート（非特許文献１０）の結果を比べ、その単語に類似した単語を人手で検討し、記載必要項目とその項目の検出に役立つ単語を決定した。結果を図２７に示す。検出に役立つ単語が一つもない論文を記載必要項目が欠落している論文として自動検出でき、論文の文章作成支援に役立つ。

第4章文章作成支援
4.1問題設定
図２７の結果を基にルールベースで記載必要項目が欠落している論文を検出する。記載必要項目を補う必要がある論文が自動検出できれば、論文の文章作成支援に役立つとする。

4.2記載必要項目が欠落している論文の検出方法
図２７の検出に役立つ単語をルールとしてルールベースを利用し論文の検出を行う。図２７の検出に役立つ単語が一つも出現していない論文を記載必要項目が欠落している論文であると判別し、検出する。

4.3データ
文章作成支援の実験を行う際に、2011年度の年次大会論文(266件)を学習データとして使用し、2012年度の年次大会論文(305件)をテストデータとして使用した。また、学習データを5.4.3節の判別基準の設定に利用し、テストデータを評価に利用する。

4.4評価方法
4.4.1評価の手順
文章作成支援の評価は、以下の手順で行う。
1.4.2節で記載必要項目が欠落している論文であると判別され、ルールベースで検出されたものが文章作成支援に役立っている(その記載必要項目を補う必要がある)かを人手で判別する。
2.1の結果から提案手法であるルールベースのF値を算出する。
3.全ての論文をシステムの出力にした場合(全ての論文を記載必要項目が欠落している論文であると判別し、検出した場合)をベースラインとして、ベースラインのF値を算出する。
4.2と3で算出した結果から提案手法であるルールベースとベースラインのF値を比較し評価を行う。

4.4.2F値
本研究では文章作成支援の精度を再現率(recall)、適合率(precision)、F値(F-measure)で評価する。再現率と適合率は以下の式で算出される。

再現率=システムの正解数／テストデータ中の正解数(4.1)
適合率=システムの正解数／システムの出力数(4.2)

本研究では文章作成支援に役立っている論文を正解として(4.1)と(4.2)を算出した。また、(4.1)と(4.2)の値の調和平均(4.3)を求めることでF値を算出できる。

F値=2×適合率×再現率／適合率＋再現率(4.3)

4.4.3人手での判別基準
それぞれの項目の人手での判別でばらつきが生じないように項目ごとに基準を設定する。何故なら、曖昧な判別を行い、判別結果がばらつくとそれだけ再現率・適合率・F値が正確でなくなるからである。より正確な再現率・適合率・F値を求めるために2011年度の年次大会論文(266件)の学習データを使用し、提案手法で処理した結果を人手で評価する。そこでの評価を参考にして、人手での判別基準を設定する。

4.4.4カッパ係数による人手での判別基準の評価
本研究では5.4.3節の人手での判断基準をカッパ係数を利用して評価する。カッパ係数とは、ある現象を観察者が観察した場合の結果がどの程度一致しているかを表す統計量である。カッパ係数は以下の数式で求められる。

κ=Pr(a)‐Pr(e)／1‐Pr(e)(4.4)

κはカッパ係数、Pr(a)は見掛け上の一致率で、Pr(e)は偶然の一致率を示す。本研究では2人の観察者の一致率でカッパ係数を算出する。図２８はカッパ係数評価指標を示す。

4.5実験結果
4.5.1人手での判別基準とその基準の評価
2011年度の年次大会論文(266件)の学習データ内の論文を人手で判別し、判別基準を設定する人物一人(人物Aとする)と人物Aとは別の人物一人(人物Bとする)が人物Aの設定した判別基準を参考に人手で判別を行った。人物Aと人物Bの合計二人の判別結果の一致率からカッパ係数を算出した。また、人物Aが学習データにおいて人手判別したものからランダムに文章作成支援に役立っているものと役立っていないものをそれぞれ12件ずつ取り出した。その合計24件の論文を人物Bが判別基準を参考にして人手判別した。本研究で設定した判別基準でのカッパ係数は0.67であった。

記載必要項目の判別基準を図２９に示す。また、図２９では、文章作成支援に役立つと
判別したものは○、文章作成支援に役立たないと判別したものは×としている。図２９は各記載必要項目の判別基準を示す。

4.5.2文章作成支援の実験結果
2012年度の年次大会論文(305件)をテストデータとして実験を行った。結果を図３０〜図３３に示す。

4.6考察
4.6.1文章作成支援の実験考察
図３０〜図３３を見るとそれぞれベースラインよりもルールベースのほうがF値が高いことがわかる。また、図３３の「例」についての結果を見ると、ベースラインと提案手法であるルールベースのF値の差は0.80もあることもわかる。さらに図３０の「比較」についての結果もベースラインと提案手法であるルールベースの差が約0.3あることもわかる。

4.7具体例
記載必要項目が欠落している論文として検出された結果のうち人手で正解であると判別した論文の一部を具体例として以下に示す。また、記載必要項目を補う必要がある論文を正解としている。

4.7.1「目的」についての具体例
記載必要項目「目的」が欠落している論文として検出された結果のうち人手で正解であると判別した論文の一部を図３４に示す。

この例示した論文において、読み手が想像する研究の目的として以下のものが挙げられる。
1. 2つの問題点を解決することを目的にしている
2. 完全に解決する方法が見つかっていないので、完全に解決する方法についての手
法を提案することを目的にしている
3. 問題点がトレードオフの関係であるということを知ることを目的にしている
4. 大規模なコーパスを扱える環境を得ることを目的にしている
5. 日本語のコーパスにおける研究を行うことを目的にしている
6. 大規模な日本語コーパスで言語モデルの振る舞いを定量的に確認することを目的
にしている

しかし、実際この例示した研究では、問題点がトレードオフの関係であることを知ることを目的としていると考えられる。また、大規模な日本語コーパスで言語モデルの振る舞いを定量的に確認することも目的としていると考えられる。さらに、これら2つの目的には、この例で挙げられた2つの問題点を完全に解決する方法の提案に役立てるという目的も存在していると考えられる。

このような例の場合、本来の研究の目的が単語「目的」などを使用して明記しておらず、本来の研究の目的でない目的が多数想定されてしまう。その結果、どの目的がその研究においての主目的なのか論文読者が理解し難くなる可能性が考えられる。そういったことが起らないために、単語「目的」などの表現を用いて研究の目的を明記する必要がある（記載必要項目を補う必要がある）と考え、文章作成支援に役立っていると判別した。
4.7.2「問題点」についての具体例
記載必要項目「問題点」が欠落している論文として検出された結果のうち人手で正解であると判別した論文の一部を図３５に示す。

記載必要項目「問題点」というのは先行研究の問題点や研究の背景を差している。この例では、先行研究について述べられており、さらに研究の有効性も記述されている。しかし、先行研究の手法の概要のみを記述しており、先行研究で生じた問題についての記述が存在していない。仮に先行研究で問題が生じていなかったと考えても、その場合は先行研究の手法の概要と先行研究との明確な違いを記述する必要があると考える。

研究の背景として「近年、評判分析の対象として、Twitterが注目されている。」とあるが、この例の文章であると何故Twitterが評判分析の対象として注目されているかが理解し難いと考える。

4.7.3「比較」についての具体例
記載必要項目「比較」が欠落している論文として検出された結果のうち人手で正解であると判別した論文は論文全体を読んでも先行研究の比較や比較実験を表す文章がなく、論文内のどこで先行研究との比較を行っているかが理解できない。また、論文全体を読む必要があるので論文の一部を例として示すことができない。

4.7.4「例」についての具体例
記載必要項目「例」が欠落している論文として検出された結果のうち人手で正解であると判別した論文は論文全体を読んでも具体例がなく、理解が難しい複雑な手法などを読み手が理解できなくなる。また、論文全体を読む必要があるので、論文の一部を例として示すことができない。

第5章おわりに
本研究では、論文の文章作成支援を行うことを目的に、論文の記載必要項目を調査し、その結果を基にルールベースによって記載必要項目が欠落している論文を検出した。また、本研究で決定した記載必要項目のうち「重要性」「新規性」以外の項目を検出することができた。さらに「比較」「問題」「目的」はF値が0.6から0.7で検出でき、「例」はF値が0.86で検出できた。

続いて、図１５についての実際の実験結果及び考察について説明する。

概要
文章を作成する際に内容が欠落してしまうことがある。情報の欠落した文章はとても読み難いものである。そこで文書から重要情報の欠落を抽出しユーザに指摘する技術が求められている。そこで本研究では、城に関する重要情報を Wikipedia から抽出し、抽出した情報をもとに文章の欠落箇所を抽出し文章作成支援をすることを目的とする。多くの記事で共通して現れる項目を重要項目として、それに関わる情報を取り出して表の形に整理する。表において空欄になっている箇所は、Wikipedia 内で情報が欠けておりその情報を埋めるように文章を書くとよく、そのように文章作成支援をする。またその有効
性を確認するための実験も行う。

実験の結果、重要情報の抽出実験においては、固有表現抽出に基づく手法では 0.6 から 0.8 の正解率で、上位下位知識に基づく手法では約 8 割の正解率であり、2 手法間にあまり性能の差は見られなかったが、文章作成支援の結果においては、固有表現抽出に基づく手法では 0.53 の F 値で、上位下位知識に基づく手法では 0.85 の F 値であった。さらに、提案手法と比較手法の F 値を比較したところ、固有表現抽出に基づく手法、上位下位知識に基づく手法ともに比較手法より性能が良かった。

＜目次＞
第 1 章はじめに
第 2 章提案手法
2.1 重要情報の抽出
2.1.1 固有表現に基づく手法
2.1.2 上位下位知識に基づく
2.2 文章作成支援
第 3 章実験環境
3.1 実験データ
3.2 固有表現抽出
3.3 上位下位知識
3.3.1 頻度分析
第 4 章実験
4.1 実験条件
4.2 表の評価方法
4.2.1 固有表現抽出に基づく手法
4.2.2 上位下位知識に基づく手法
4.2.3 比較手法
4.3 F 値の算出式
4.4 実験結果
4.4.1 実験１固有表現抽出を用いた情報抽出の結果
4.4.2 実験 1 上位下位知識を用いた情報抽出の結果
4.4.3 実験２文章作成支援の性能評価
4.4.4 比較実験
4.4.5 文章作成支援の成功例
第 5 章おわりに
非特許文献１６：CaboCha/南瓜: Yet Another Japanese Dependency Structure Analyzerhttp://code.google.com/p/cabocha/
非特許文献１７：上位下位関係抽出ツール Version1.0 : Hyponymy extraction toolhttp://alaginrc.nict.go.jp/hyponymy/

第1章はじめに
文章を作成する際に内容が欠落してしまうことがある。情報の欠落した文章はとても読み難いものである。そこで文書から重要情報の欠落を抽出しユーザに指摘する技術が求められている。本研究では、城に関する重要情報を Wikipedia から抽出し、抽出した情報をもとに文章の欠落箇所を抽出し文章作成支援をすることを目的とする。多くの記事で共通して現れる項目を重要項目として、それに関わる情報を取り出して図３６のような形に整理する。表において空欄になっている箇所は、Wikipedia 内で情報が欠けておりその情報を埋めるように文章を書くとよく、そのように文章作成支援をする。またその有効性を確認するための実験も行う。

以下、第 2 章でWikipedia からの重要情報抽出の手法と文章作成支援の手法を提案する。第 3 章では本研究における実験環境を説明する。第 4 章で本研究の重要情報抽出の実験結果と、文章作成支援の性能の評価、また比較手法との性能の差を報告する。最後に第5 章で本稿をまとめる。図３６は城の重要情報の表の例である。

本研究の特徴を、重要情報の抽出と文章作成支援の二つに分けて以下に整理する。
1. 重要情報の抽出
1-1. 重要情報の抽出には固有表現抽出に基づく手法と上位下位知識に基づく手法を用いる。
1-2. 抽出した重要情報を表の形に可視化する。
1-3. 固有表現抽出に基づく手法では 0.6 から 0.8 の正解率で重要情報の抽出ができた。上位下位知識に基づく手法では、「地名」を除く項目で約 8 割の正解率であった。
2. 文章作成支援
2-1. 重要情報の抽出のみならず文章作成支援も行えるという新規性がある。
2-2. 文章作成支援の性能は固有表現抽出に基づく手法では 0.53 の F 値であり、上位下位知識に基づく手法では 0.85 の F 値であった。
2-3. 提案手法と比較手法とを比較した結果、固有表現抽出に基づく手法、上位下位知識に基づく手法ともに比較手法より性能が良かった。

第2章提案手法
本研究の手法は文章内における重要情報の抽出と、文章作成支援の二つの段階からなる。
3.1 重要情報の抽出
Wikipedia の城に関するページ (対象データ) を抽出し、その中から城に関する重要情報をCaboCha(固有表現抽出ツール)（非特許文献１６）を用いた固有表現抽出に基づく手法とALAGIN（非特許文献１７）の上位下位知識に基づく手法の 2 手法で抽出する。抽出は城のページ単位で行う。図３７のように最初に出現した重要情報のみをまとめた表と、図３８のように出現した全ての重要情報をまとめた表の 2 つを作成する。

3.1.1 固有表現に基づく手法
対象データから CaboCha を用いて、「人名」「地名」「組織名」に分類された語句を抽出し表にまとめる。この手法では城に関わる人物や、城の所在地などの重要情報が抽出される。
CaboChaは文書において固有表現を抽出できるルールである。文書中にある「羽柴秀吉」、「鳥取」などを人名や地名として認識できる。非特許文献：上田太一郎監修:「事例で学ぶテキストマイニング」共立出版2008にも固有表現抽出、CaboChaの説明がある。
固有表現の認識は上記のような既存のツールを用いてもよいし、規則に基づく方法、機械学習に基づく方法をで行ってもよい。

規則に基づく方法。
形態素解析結果に基づく各単語の品詞の情報、また単語自体の情報を利用した規則を人手で記述し、その規則を利用して固有表現抽出を行う。
規則の例
名詞＋「さん」の場合、人名とする
名詞＋「首相」の場合、人名とする
名詞＋「町」の場合、地名とする
名詞＋「市」の場合、地名とする

機械学習に基づく方法

機械学習の方法を利用する。正しい固有表現の情報を記述した大量のデータから、どういう表現が固有表現として正しいかを学習する。

固有表現の種類は、人名、地名に限らず、商品名、型番、大学名など様々なものを固有表現としてもよい。

2.1.2 上位下位知識に基づく手法
上位下位知識を用いて対象データで下位語の頻度分析を行い、頻度が高かった下位語の上位語を重要項目とする。対象データで重要項目の下位語を取り出し、表にまとめる。固有表現抽出を用いた手法では抽出できなかった情報を抽出できる可能性がある。固有表現抽出に基づく手法と同様に。

2.2 文章作成支援
重要情報の抽出で作成する表の空欄箇所を情報が欠けている項目と判定し、そのことをユーザに知らせ記載の追加を促すことで文章作成支援をする。図３９に文章作成支援に用いられる表の例を示す。この表において空欄になっている箇所が情報抽出の結果 Wikipedia 内に正解がないと判定された箇所である。本研究の文章作成支援の研究では、このような表の空欄箇所を情報の欠落としてユーザに知らせることを目的とする。

第3章実験環境
3.1 実験データ
本研究では Wikipedia(2014 年 11 月現在) のうち、記事タイトルが城で終っているページ (2665 ページ) を利用する。Wikipedia の記事の例を図４０に示す。

3.2 固有表現抽出
本研究では Wikipedia の城に関する記事から、固有表現を抽出するために CaboChaを用いる。以下の図４１が具体例である。活用型、活用形の後に固有表現タグが付与される。LOCATION は「地名」を、 PERSON は「人名」を、 ORGANIZATION は「組織名」をそれぞれ表す。本研究ではこの 3 つのタグのどれかが付与された表現を抽出する。

3.3 上位下位知識
本研究は上位下位関係の抽出に ALAGIN の上位下位関係抽出ツールを用いる。上位下位関係抽出ツールは、Wikipedia から上位下位関係となる用語ペアを数百万対のオーダーで抽出できるツールである。上位下位関係とは、"X は Y の一種 (一つ) である"と言える X と Y の関係を言う。 X のことを下位語、Y のことを上位語と呼ぶ。上位下位関係の抽出例を図４２に示す。

3.3.1 頻度分析
上位下位知識を用いて頻度分析を行い、下位語の出現記事数が 100 件を超えている上位語を取り出した。その結果において出現記事数が多かったものと、少かったものの例をそれぞれ 15 件ずつを図４３に示す。その取り出したものの中から重要項目になりうると思われるものを人手で選んだ。その結果「県」「時代」「地名」「元号」という4 つの上位語を重要項目とした。その 4 つの上位語の下位語が出現した記事数をまとめたものを図４４に示す。

第4章実験
4.1 実験条件
実験データには、Wikipediaの3、264、893ページ(2014年11月現在)を用いる。Wikipediaからのデータの抽出は、記事単位で行う。本研究では「城」というキーワードに基づき記事の抽出を行う。
実験 1：固有表現抽出に基づく手法と上位下位知識に基づく手法を用いて、Wikipedia の城に関するページの情報抽出を行い、表にまとめる。さらに、固有表現抽出に基づく手法で抽出された重要情報の正解率を「地名」「人名」「組織名」でそれぞれ求め、上位下位知識に基づく手法で抽出された重要情報の正解率を「県」「時代」「地名」「元号」でそれぞれ求める。
実験 2：重要情報抽出の実験において作成された表の空欄が、正しく抽出されているかどうかの性能評価を行う。その後、比較手法と提案手法の性能の比較を行う。

4.2 表の評価方法
4.2.1 固有表現抽出に基づく手法
ランダムに選択した 30 件を用いて評価を行う。「地名」の項目は、県名または所在地が抽出された場合正解とする。「人名」の項目は、築城主、城主のどちらかが抽出された場合正解とする。「組織名」の項目は、城に関すると思われる組織が抽出された場合正解とする。空欄が抽出された場合は Wikipedia 内に本当に正解の記載が無かった場合正解とする。出現した全ての重要情報をまとめた表では、1 つでも正解が抽出された場合正解とする。

4.2.2 上位下位知識に基づく手法
ランダムに選択した 30 件を用いて評価を行う。「県名」の項目は、その城が存在する県名が抽出された場合正解とする。「時代」の項目は、築城されてから廃城するまでの時代のいずれかが抽出された場合正解とする。「地名」の項目は、城の所在地が抽出された場合正解とする。「元号」の項目は、築城されてから廃城するまでの元号のいずれかが抽出された場合正解とする。空欄が抽出された場合は Wikipedia 内に本当に正解の記載が無かった場合正解とする。出現した全ての重要情報をまとめた表では、1 つでも正解が抽出された場合正解とする。

4.2.3 比較手法
文章作成支援の実験において、有効性確認のために固有表現抽出に基づく手法と上位下位知識に基づく手法で作成した表を、全て空欄と仮定して F 値を求める。

4.3 F値の算出式
文章作成支援の評価実験では以下の算出式を用いて F 値を求める。

F = (2 ×適合率×再現率／適合率 + 再現率) (4.1)

適合率 = 空欄かつ Wikipedia 内に正解がないもの／空欄のもの (4.2)

再現率 = 空欄かつ Wikipedia 内に正解がないもの／Wikipedia 内に正解がないもの
(4.3)

本研究において、適合率はシステムにより空欄になったものの中に、正解がいくつあるかの割合を表したものである。再現率は Wikipedia 内に正解の記載がなかったもののうち、正しく空欄を抽出できた割合である。F 値は適合率と再現率の調和平均である。式 4.2、4.3 において「空欄のもの」というのは重要情報の抽出実験で作成した表において空欄の部分のことである。また「Wikipedia 内に正解がないもの」というのは、Wikipedia 内にもともとその項目に関する事柄の記載がなされていないもののことである。F 値が大きいほど、Wikipedia での記載の欠如をシステムがより正しく抽出できたことを意味する。

4.4 実験結果
4.4.1 実験１固有表現抽出を用いた情報抽出の結果
固有表現抽出を用いて抜き出した重要情報のうち最初に出現したものだけをまとめたものを図４５に、出現した全ての重要情報をまとめたものを図４６に示す。その 2つの表を評価したものを図４７に示す。抽出した結果の正解率を求めると「地名」は0.83、「人名」は 0.83、「組織名」は 0.63 という正解率であった。図４５において太字で表記されているものは、正解と判断したものである。また、○と表記されているものは Wikipedia 内に正解の記載が無く、空欄が正しく抽出されたと判断したものである。図４７で、括弧で記載してあるものは 30 件を評価したうち正解と判断したものの数である。

4.4.2 実験 1 上位下位知識を用いた情報抽出の結果
頻度分析によって得られた上位語を用いて抜き出した重要情報のうち、最初に出現したものだけをまとめたものを図４８に、出現した全ての重要情報をまとめたものを図４９に示す。その 2 つの表を評価したものを図５０に示す。抽出した結果の正解率を求めると「県」は 0.83、「時代」は 0.93、「地名」は 0.26、「元号」は 0.83 という正解率であった。図４８において太字で表記されているものは、正解と判断したものである。また、○と表記されているものは Wikipedia 内に正解の記載が無く、空欄が正しく抽出されたと判断したものである。図５０で、括弧で記載してあるもののうちの分子の
値は 30 件を評価したうち正解と判断したものの数であり、分母は評価した数の 30 である。

4.4.3 実験２文章作成支援の性能評価
Wikipedia の城ページにおいて実際に情報が欠落していた項目を、情報抽出の実験で適切に空欄として検出できると、文章作成支援が適切に行えたと考える。この空欄箇所に基づく情報の欠落項目の検出性能を再現率、適合率、F 値で評価した。その結果を図５１に示す。固有表現抽出に基づく手法では 0.53 の F 値であり。上位下位知識に基づく手法では 0.85 の F 値であった。上位下位知識に基づく手法の性能の方が良かった。

4.4.4 比較実験
固有表現抽出に基づく手法と比較手法との比較結果を図５２、上位下位知識に基づく手法との比較結果を図５３に示す。比較実験の結果どちらの手法とも比較手法より性能が良かった。

4.4.5 文章作成支援の成功例
文章作成支援の成功例について説明する。図５４では、情報抽出した結果 Wikipedia内に正解の記載が無く、空欄を抽出したことになっている。そこで実際に Wikipedia内を確認したところ、実際に正解の記載が無かった。空欄が正しく抽出できていたものについてはウェブの他のページを用いて正解を書き込んだ。図５４について、この表では空欄を正しく抽出できており、Wikipedia 内に正解の記載がなかったので、他のウェブページを参考に正解の情報を書き込んだ。実際に書き込んだものを図５５に示す。このように正しく空欄を抽出でき、かつ、空欄の内容は他のページを参考にすれば記載可能であるため、図５４は文章作成支援に役立つ例となっている。

第5章おわりに
本研究では文章中の重要情報の記載欠落を指摘するために、2 段階の手法を提案した。その手法とは Wikipedia からの重要情報抽出に固有表現抽出に基づく手法と、上位下位知識に基づく手法の２つである。また、重要情報の抽出と同時に文章作成支援をする実験を行った。Wikipedia からの重要情報の抽出実験の結果、固有表現抽出に基づく手法では 0.6 から 0.8 の正解率で重要情報の抽出ができた。上位下位知識に基づく手法では、「地名」を除く項目で約 8 割の正解率であった。文章作成支援の性能は、固有表現抽出に基づく手法では 0.53 の F 値であり、上位下位知識に基づく手法で 0.85 のF 値であった。上位下位知識に基づく手法の性能の方が良かった。また、重要情報の抽出で作成した表の項目を全て空欄とみなす比較手法と比較した結果、固有表現抽出に基づく手法、上位下位知識に基づく手法ともに比較手法より性能が良かった。

以上、本発明についての種々の実施形態及び実施例について説明したが、これらに限定されず、記憶部２０を外部のサーバーとし、制御部１０、操作部３０、表示部４０及び通信部５０を有する情報処理装置１とネットワークを介して通信するものとしても良い。また、記憶部２０及び制御部１０を外部の同一又は別々のサーバーとし、操作部３０、表示部４０及び通信部５０を有する情報処理装置１とネットワークを介して通信するものとしても良い。この場合、情報処理装置１は例えばスマートフォン、タブレット端末、ウェアラブル端末又はＰＣ等であり、外部の記憶部２０を利用したいわゆるクラウドサービスの形で種々の機能が実現される。

また、本発明は、コンピュータにより読み取られ実行される処理プログラムとして実施することが可能である。本発明を実現する処理プログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。

１：情報処理装置、１０：制御部、１０１：文書種類特定部、１０３：判定部、１０５：抽出部、１０７：質問生成部、１０９：文書修正部、１１１：機械学習エンジン、１１３：送受信部、２０：記憶部、２０１：第１記憶部、２０３：第２記憶部、２０５：第３記憶部、２０５ａ：記載必要項目有無記憶部、２０５ｂ：記載必要項目修正記憶部、２０５ｃ：差分記憶部、２０７：文書記憶部、２０９：出現回数・頻度記憶部、３０：操作部、４０：表示部、５０：通信部

Claims

被解析文書由来の被解析データを取得する被解析データ取得部と、
前記被解析文書の種類に対応した記載必要項目の有無に関する判定基準データを取得する判定基準データ取得部と、
前記被解析データと前記判定基準データとを用いて、前記被解析文書中における前記記載必要項目に関連する要求データの有無を判定する判定部と、
前記判定部の判定結果を出力する出力部と、
を有し、
前記判定部は、前記被解析文書の種類に関連する属性データに基づいて、前記被解析文書の種類毎に定められた前記記載必要項目に関する要求データを前記判定基準データから取得し、前記取得した要求データと前記被解析データとを用いて、前記被解析文書中における前記要求データの有無を判定する、
文書解析装置。
前記判定基準データは、文書の種類毎に記憶されたデータであって、前記種類の文書の記載必要項目を表すデータであり、
前記要求データは、前記記載必要項目を検出するための単語であって、前記記載必要項目と関連する意味を有する複数の単語であり、
前記属性データは、文書の種類を表すデータであり、
前記判定部は、
前記被解析データに前記記載必要項目と関連する意味を有する複数の単語のいずれかが含まれる場合、当該含まれる単語と対応する記載必要項目が前記被解析文書中に記載されていると判定する、
請求項１に記載の文書解析装置。
前記記載必要項目を検出するための単語は、同じ種類の複数の文書における単語の出現回数又は単語の出現率が予め定められた閾値より大きい又は以上の単語である、
請求項２に記載の文書解析装置。
前記判定基準データは、上位概念を表す第１単語であり、
前記要求データは、前記第１単語の下位概念を意味する１又は複数の第２単語であり、
前記属性データは、文書の種類を表すデータであり、
前記判定部は、
前記被解析データに前記第２単語のいずれかが含まれる場合、当該含まれる単語と対応する前記第１単語が前記被解析文書中に記載されていると判定する、
請求項１に記載の文書解析装置。
前記出力部は、
前記判定部により記載されていると判定された記載必要項目は出力せず、記載されていないと判定された記載必要項目を出力する、
請求項１〜請求項４のいずれか１項に記載の文書解析装置。
前記出力部は、
前記被解析文書に記載されていない前記記載必要項目の、前記被解析文書と同じ種類の複数の文書における出現回数又は出現率を合わせて出力する、
請求項１〜請求項５のいずれか１項に記載の文書作成支援装置。
前記被解析文書中に記載必要項目が記載されていない場合、前記被解析文書中の単語を検索語として検索を実行し、前記記載必要項目に関する文書を取得する外部文書取得部
を有する請求項１に記載の文書解析装置。
前記被解析文書中に記載必要項目が記載されていない場合、当該記載されていない記載必要項目を質問として入力し、前記入力された質問に対する解答をインターネット検索により取得する質問応答部
を有する請求項１に記載の文書解析装置。
前記被解析文書中に記載必要項目が記載されていない場合、前記被解析文書に類似する複数の文書を取得し、前記取得した複数の文書中から前記記載必要項目を特定し、前記特定された記載必要項目の集合を作成し、前記作成された記載必要項目の集合中の単語の組み合わせを利用して決定した単語を前記記載必要項目として提示する類似文書利用単語提示部
を有する請求項１に記載の文書解析装置。
前記判定基準データは、文書と、前記文書への前記記載必要項目の記載の有無と、を対応付けて記憶されたデータを教師データとして機械学習を実行した結果を表すデータであり、
前記要求データは、前記機械学習により学習したデータであって、文書を構成する各要素である素性を表すデータであり、
前記判定部は、前記被解析データ中に含まれる素性と、前記素性を表すデータとに基づいて、前記被解析文書中における前記記載必要項目データの記載の有無を判定する、
請求項１に記載の文書解析装置。
前記判定部により前記被解析文書の中に前記記載必要項目が記載されていないと判定された場合、前記機械学習の結果に基づいて、前記被解析文書に前記記載必要項目を追加する追加部
を有する請求項１０に記載の文書解析装置。
コンピュータを、
被解析文書由来の被解析データを取得する被解析データ取得部と、
前記被解析文書の種類に対応した記載必要項目の有無に関する判定基準データを取得する判定基準データ取得部と、
前記被解析データと前記判定基準データとを用いて、前記被解析文書中における前記記載必要項目に関連する要求データの有無を判定する判定部と、
前記判定部の判定結果を出力する出力部と、
を有し、
前記判定部は、前記被解析文書の種類に関連する属性データに基づいて、前記被解析文書の種類毎に定められた前記記載必要項目に関する要求データを前記判定基準データから取得し、前記取得した要求データと前記被解析データとを用いて、前記被解析文書中における前記要求データの有無を判定する、
文書解析装置として機能させるためのプログラム。