JP6535858B2 - 文書解析装置、プログラム - Google Patents

文書解析装置、プログラム Download PDF

Info

Publication number
JP6535858B2
JP6535858B2 JP2015093710A JP2015093710A JP6535858B2 JP 6535858 B2 JP6535858 B2 JP 6535858B2 JP 2015093710 A JP2015093710 A JP 2015093710A JP 2015093710 A JP2015093710 A JP 2015093710A JP 6535858 B2 JP6535858 B2 JP 6535858B2
Authority
JP
Japan
Prior art keywords
document
data
analyzed
word
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015093710A
Other languages
English (en)
Other versions
JP2016212533A (ja
Inventor
村田 真樹
真樹 村田
拓真 岡田
拓真 岡田
隆太 藤原
隆太 藤原
雅人 徳久
雅人 徳久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tottori University
Original Assignee
Tottori University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tottori University filed Critical Tottori University
Priority to JP2015093710A priority Critical patent/JP6535858B2/ja
Publication of JP2016212533A publication Critical patent/JP2016212533A/ja
Application granted granted Critical
Publication of JP6535858B2 publication Critical patent/JP6535858B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、入力された文書に記載すべき項目である記載必要項目が記載されていないことを検出し、ユーザーによる文書の作成を支援する文書解析装置、プログラムに関する。
従来の情報抽出技術として、例えば、下記の特許文献1には、ある分野に関連する文書群から自動で複数の情報の対(例えば、複数の数値情報の対)を抽出する情報抽出装置、情報抽出方法及び情報抽出フログラムが開示されている。
また、下記の特許文献2には、文書群から自動で項目表現と固有表現の対を抽出する情報抽出装置、情報抽出方法及び情報抽出プログラムが開示されている。
また、下記の特許文献3には、記憶装置に記憶されるテキスト文書群から有用な情報を抽出することを実現するときに、その有用な情報をノイズ情報の影響を受けることなく抽出できるようにする新たな情報抽出技術が開示されている。
また、下記の非特許文献1には、大規模な文書群から数値固有表現情報を取り出し、様々な重要な情報を含むグラフや表を半自動で作成するシステムが開示されている。
また、下記の非特許文献2には、教師あり機械学習を用いて自然言語処理の論文アブストラクトから重要な情報を自動的に抽出する方法であって、重要な情報を抽出するために教師データとなるタグ付けデータを作成し、それを用いて教師あり機械学習により重要な表現を抽出する方法が開示されている。
特開2008-21052 特開2008-287388 特開2009-237640
村田、岩立、一井、馬、白土、金丸、塚脇、井佐原:「大規模文書群からの数値固有表現情報のテキストマイニング可視化システム」、社団法人情報処理学会研究報告、2008-NL-184 村田、Stijin、橋本、風間、山田、黒田、馬、相澤、島澤:「論文データからの重要情報の抽出と可視化」The 23rd Annual Conference of the Japanese Society for Artificial Intelligence, 2009
しかし、これらの文献では、文書中から情報対を抽出する方法や、それらを利用して自動的にグラフ等を生成する方法について開示されてはいるが、ユーザーの文書作成を支援するためにはいずれも不十分である。確かに、これらの技術は文書中から重要な情報を抽出することは可能であるが、数値情報の対や固有表現等を機械的に利用するのみであり、それらが真に重要な情報であるかは実際に人間の目で確認することが望ましいことは言うまでもない。特に、文書の種類毎に記載すべき項目である記載必要項目は、これらの技術を利用しても特定することは不可能である。
本発明はこのような事情に鑑みてなされたものであり、従来では検討すらされていなかったコンセプトである「文書中の記載必要項目の有無を判定し、ユーザーに提示することで文書作成を支援する」ことを実現すべく、ユーザーによる文書の作成を支援するための文書解析装置、プログラムを提供するものである。
本発明によれば、被解析文書由来の被解析データを取得する被解析データ取得部と、前記被解析文書の種類に対応した記載必要項目の有無に関する判定基準データを取得する判定基準データ取得部と、前記被解析データと前記判定基準データとを用いて、前記被解析文書中における前記記載必要項目に関連する要求データの有無を判定する判定部と、前記判定部の判定結果を出力する出力部と、を有し、前記判定部は、前記被解析文書の種類に関連する属性データに基づいて、前記被解析文書の種類毎に定められた前記記載必要項目に関する要求データを前記判定基準データから取得し、前記取得した要求データと前記被解析データとを用いて、前記被解析文書中における前記要求データの有無を判定する、文書解析装置が提供される。
以下、本発明の種々の実施形態を例示する。以下に示す実施形態は互いに組み合わせ可能である。
好ましくは、前記判定基準データは、文書の種類毎に記憶されたデータであって、前記種類の文書の記載必要項目を表すデータであり、前記要求データは、前記記載必要項目を検出するための単語であって、前記記載必要項目と関連する意味を有する複数の単語であり、前記属性データは、文書の種類を表すデータであり、前記判定部は、前記被解析データに前記記載必要項目と関連する意味を有する複数の単語のいずれかが含まれる場合、当該含まれる単語と対応する記載必要項目が前記被解析文書中に記載されていると判定する。
好ましくは、前記記載必要項目を検出するための単語は、同じ種類の複数の文書における単語の出現回数又は単語の出現率が予め定められた閾値より大きい又は以上の単語である。
好ましくは、前記判定基準データは、上位概念を表す第1単語であり、前記要求データは、前記第1単語の下位概念を意味する1又は複数の第2単語であり、前記属性データは、文書の種類を表すデータであり、前記判定部は、前記被解析データに前記第2単語のいずれかが含まれる場合、当該含まれる単語と対応する前記第1単語が前記被解析文書中に記載されていると判定する。
好ましくは、前記出力部は、前記判定部により記載されていると判定された記載必要項目は出力せず、記載されていないと判定された記載必要項目を出力する。
好ましくは、前記出力部は、前記被解析文書に記載されていない前記記載必要項目の、前記被解析文書と同じ種類の複数の文書における出現回数又は出現率を合わせて出力する。
好ましくは、前記被解析文書中に記載必要項目が記載されていない場合、前記被解析文書中の単語を検索語として検索を実行し、前記記載必要項目に関する文書を取得する外部文書取得部を有する。
好ましくは、前記被解析文書中に記載必要項目が記載されていない場合、当該既視されていない記載必要項目を質問として入力し、前記入力された質問に対する解答をインターネット検索により取得する質問応答部を有する。
好ましくは、前記被解析文書中に記載必要項目が記載されていない場合、前記被解析文書に類似する複数の文書を取得し、前記取得した複数の文書中から前記記載必要項目を特定し、前記特定された記載必要項目の集合を作成し、前記作成された記載必要項目の集合中の単語の組み合わせを利用して決定した単語を前記記載必要項目として提示する類似文書利用単語提示部を有する。
好ましくは、前記判定基準データは、文書と、前記文書への前記記載必要項目の記載の有無と、を対応付けて記憶されたデータを教師データとして機械学習を実行した結果を表すデータであり、前記要求データは、前記機会学習により学習したデータであって、文書を構成する各要素である素性を表すデータであり、前記判定部は、前記被解析データ中に含まれる素性と、前記素性を表すデータと、に基づいて、前記被解析文書中における前記記載必要項目データの記載の有無を判定する。
好ましくは、前記判定部により前記被解析文書の中に前記記載必要項目が記載されていないと判定された場合、前記機械学習の結果に基づいて、前記被解析文書に前記記載必要項目を追加する追加部を有する。
好ましくは、コンピュータを、
被解析文書由来の被解析データを取得する被解析データ取得部と、前記被解析文書の種類に対応した記載必要項目の有無に関する判定基準データを取得する判定基準データ取得部と、前記被解析データと前記判定基準データとを用いて、前記被解析文書中における前記記載必要項目に関連する要求データの有無を判定する判定部と、前記判定部の判定結果を出力する出力部と、を有し、前記判定部は、前記被解析文書の種類に関連する属性データに基づいて、前記被解析文書の種類毎に定められた前記記載必要項目に関する要求データを前記判定基準データから取得し、前記取得した要求データと前記被解析データとを用いて、前記被解析文書中における前記要求データの有無を判定する、文書解析装置として機能させるためのプログラムである。
本発明の文書解析装置の構成例を示すブロック図である。 第1実施形態における第1記憶部への記憶例を示すフローチャートである。 第1実施形態における文書内に出現する単語の出現率を示す図である。 分類語彙表の分類番号の変更例を示す図である。 分類語彙表を示す図であり、(a)は分類番号の付与例を、(b)は分類番号の変更例を示す図である。 目盛用の意味素性を示す図であり、(a)は意味素性の追加例を、(b)は分類番号の順に並べ替えた例を示す図である。 意味ソート後の名詞集合の整形例を示す図である。 EDRを用いた意味ソートの例を示す図である。 単語に複数の属性を付与した辞書の例を示す図である。 辞書をソートした結果の例を示す図であり、(a)は左の属性からソートした結果を、(b)は右の属性からソートした結果を示す図である。 階層シソーラスを示す図であり、(a)は左からのソート結果による階層シソーラスを、(b)は右からのソート結果による階層シソーラスを示す図である。 第1実施形態における決定した記載必要項目と検出に役立つ単語の例を示す図であり、(a)は意味ソートをまとめたリスト、(b)は実際の意味ソートの結果の一部を示す図である。 第1実施形態における提示処理例を示すフローチャートである。 第1実施形態における提示例を示す図であり、(a)は類似文書を提示する例を示す図、(b)は類似文書における出現率を提示する例を示す図である。 第1実施形態における上位・下位語での整理結果の例を示す図であり、(a)は修正前、(b)は人手で修正した後を示す図である。 第2実施形態における第2記憶部の構成例を示す図である。 第2実施形態における第2記憶部に記憶されるデータ例を示す図であり、(a)は記載必要項目有無記憶部、(b)は記載必要項目修正記憶部、(c)は差分記憶部に記憶されるデータ例である。 第2実施形態における第2記憶部への記憶例を示すフローチャートである。 第2実施形態における提示処理例を示すフローチャートである。 第2実施形態における提示例を示す図であり、(a)は候補を提示する例を示す図、(b)は機械学習の結果に基づいた修正例を提示する例を示す図である。 サポートベクトルマシン方のマージン最大化の概念図であり、(a)はスポールマージンを、(b)はラージマージンを表す概念図である。 第1実施形態の第1実施例の処理を表す概念図である。 第2実施形態の第1実施例の処理を表す概念図である。 本発明を実現するための機能ブロック図である。 記載必要項目に関する研究の目的を表す図である。 論文内で出現率が高い上位100単語の結果を示す図である。 決定した記載必要項目と検出に役立つ単語を示す図である。 カッパ係数評価指標を示す図である。 各記載必要項目の判別基準を示す図である。 「比較」について文章作成支援の評価結果を示す図である。 「問題点」について文章作成支援の評価結果を示す図である。 「目的」などについて文章作成支援の評価結果を示す図である。 「例」について文章作成支援の評価結果を示す図である。 「目的」について正解であると人手で判別した例を示す図である。 「問題点」について正解であると人手で判別した例を示す図である。 城の重要情報の表の例を示す図である。 最初に出現した重要情報の表の例を示す図である。 出現した全ての重要情報の表の例を示す図である。 文章作成支援に用いられる表の例を示す図である。 Wikipediaの記事の例を示す図である。 Wikipediaの記事にCaboChaを使用した結果の例を示す図である。 上位下位関係の抽出例を示す図である。 上位下位知識を用いた頻度分析の結果を示す図である。 上位下位知識を用いた頻度分析の結果を示す図である。 評価した最初に出現した重要情報の表を示す図である。 評価した出現した全ての重要情報の表の一例を示す図である。 固有表現抽出を用いて作成した表の評価結果を示す図である。 評価した最初に出現した重要情報の表を示す図である。 出現した全ての重要情報の表の一例を示す図である。 上位下位知識を用いて作成した表の評価結果を示す図である。 文章作成支援の結果の評価を示す図である。 固有表現抽出に基づく手法との比較結果を示す図である。 上位下位知識に基づく手法との比較結果を示す図である。 空欄の抽出の成功例を示す図である。 文章作成支援を行った例を示す図である。
以下、本発明の実施形態について説明する。以下の実施形態は、例示であって、本発明の範囲は、以下の実施形態で示すものに限定されない。
1.第1実施形態
第1実施形態の文書解析装置は、ユーザーが作成した文書の中に記載必要項目が記載されているか否かを情報抽出技術を利用して判定し、その旨をユーザーに提示することで文書作成支援を行うものである。
文書の種類(論文、特許の明細書、履歴書、医学書など)毎に記載必要項目はある程度決まっている。例えば、新聞であれば5W1Hを、論文であれば研究対象、成果、必要性、有効性等を、履歴書であれば自身の能力とその根拠、アピールポイント等が記載されることが望ましい。これらのことが記載されていなければ文書の説得力や可読性が低下するためである。よって、第1実施形態では、これらの望ましい記載を記載必要項目とし、ユーザーにより作成された文書の中に記載必要項目が記載されていなければ、その旨をユーザーに提示する。
<装置の構成>
図1は、第1実施形態の文書解析装置の構成例を示すブロック図である。第1実施形態の文書解析装置は、情報処理装置1によって実現される。情報処理装置1は、CPU等から構成されて各部を制御するとともに種々のプログラムやエンジンを実行する制御部10と、メモリ、ハードディスク、SSD(ソリッド・ステート・ドライブ)等の記憶媒体から構成され、種々のデータを記憶する記憶部20と、情報処理装置1を操作するためのタッチパネルやキーボード、音声入力部等で構成される操作部30と、文字、画像、動画等の情報を表示するディスプレー等の表示部40と、インターネットやイントラネット等のネットワークに接続され、外部の情報端末と通信する通信部50とを備える。
制御部10は、文書の種類を特定する文書種類特定部101と、文書の中に記載必要項目が記載されているか否かを判定する判定部103と、文書の中から単語を抽出する抽出部105と、質問を生成する質問生成部107と、機械学習の結果に基づいて機械学習の結果に基づいて文書を修正する文書修正部109と、機械学習を実行する機械学習エンジン111と、記憶部20、操作部30、表示部40及び通信部50とデータを送受信する送受信部113とを備える。送受信部113は、文書、記載必要項目の有無に関する判定基準データ等のデータの送受信も行う。これらの機能はプログラムやASIC等のハードウェアによって実現される。ここで、文書とは、特に電子文書のことであり、例えばユーザーにより文書作成ソフト等により作成された電子文書や、インターネット上に存在する電子文書等が挙げられ、手書きの文書をOCR(光学文字認識)等により電子化したものも含む。制御部10は、記憶部20、操作部30、表示部40及び通信部50とそれぞれ通信し、これらを制御する。
記憶部20は、文書の種類毎に、前記種類の文書に記載すべき項目である記載必要項目を記憶する第1記憶部201と、上位概念を表す上位語と下位概念を表す意味する下位語を対応付けて記憶する第2記憶部203と、文書と当該文書における前記記載必要項目の有無を対応付けて記憶する第3記憶部205と、種々の種類の電子文書を複数記憶する文書記憶部207と、文書記憶部207に記憶されている複数の文書における単語の出現回数及び出現頻度を文書の種類毎に記憶する出現回数・頻度記憶部209とを備える。
<第1実施形態の第1実施例>
<文書作成支援処理のフロー>
次に、図2、13及び14を用いて第1実施形態のうち、第1実施例の文書解析装置を利用した文書作成支援処理のフローについて説明する。第1実施例では、事前に第1記憶部201に記載必要項目に関するデータ(判定基準データ)を記憶した後に、それらのデータを利用して文書の中に記載必要項目が記載されているか否かを判定し、ユーザーに記載必要項目が欠如している旨を提示する、という流れである。
<記載必要項目に関するデータの記憶>
図2は事前に第1記憶部201に必記載必要項目に関するデータを記憶するときのフローを表すフローチャートである。第1実施例では、まず、記載必要項目とその項目の検出に役立つ単語を決定する。ここで、同じ種類の複数の文書に共通して出現する単語は記載必要項目の検出に役立つ単語である可能性が高いと考えられるため、記載必要項目の検出に役立つ単語を決定するために、文書記憶部207に記憶された同じ種類の複数の文書における単語の出現回数をカウントする(S11)。
次に、ある単語が出現した文書の数を全文書の数で割ることで単語の出現率を算出する(S13)。例えば、カウント対象とした同じ種類の複数の文書が300件であり、そのうち250件の文書に単語「Z」が出現している場合、単語「Z」の出現率は「250/300」となる。なお、ひとつの文書に単語「Z」が複数回登場した場合でも出現率の計算においては「1回」とカウントする。
図3は、S13の結果得られた単語のうち、出現率が高い上位9単語を示す例である。なお、図3の結果は、文書の種類「論文」、全文書数393件、出現した単語の総数19,234件であった場合の例である。
次に、S13において計算した出現率が予め定められた閾値以下又は未満の単語を記載必要項目の検出に役立つ単語の候補から除外する(S15)。これは、多くの文書であまり使われていない単語については、その種類の文書で記載されることが望ましいものである可能性が低いためである。このとき、助詞や格助詞等の単語は除外するようにしてもよい。
次に、S15において残った単語のうち、意味が類似する単語をまとめる(S17)。例えば、「異なる」という単語が記載必要項目「新規性」の検出に役立つ単語である場合、「異なる」と意味が類似する「違う」、「違い」等の単語も記載必要項目「新規性」の検出に役立つ単語である可能性が高いからである。第1実施例では、意味が類似する単語をまとめるための手法は特に限定しないが、例えば、「意味ソート」、意味が類似する単語をまとめた「類似単語データベース」、又は人手で行う。
ここで、「意味ソート」について説明する。
1.意味ソートについて
意味ソートとは、単語を意味で並べかえるという考え方である。意味ソートは、単語の羅列を表示する際に50音順(もしくはEUC漢字コード順)で表示するのではなく、単語の意味の順番でソートして表示しようという考え方である。意味ソートについては、非特許文献10を参照のこと。
このような方法で、例えば、記載必要項目「新規性」の検出に役立つ単語である「異なる」と意味が類似する「違う」、「違い」等の意味が類似する単語をまとめることができる。実際に実行した意味ソートの結果の一部を図12(b)に示す。
次に、S17の結果について、単語の選定やまとめ方に不備や漏れがないかの確認を人手で行う(S19)。なお、確認作業をせずに分類語彙表の上位5ケタが一致するものを自動で類似する単語としてまとめてもよい。また5ケタは他の桁数でもよい。
図12(a)は、S19の結果得られた、記載必要項目の「項目名」、その項目の検出に役立つ「単語」及び「項目名の説明」をまとめたものの一例である。図12(a)のデータを利用することで記載必要項目が記載されていないことの検出が可能となる。例えば、「例えば」、「例」、「具体」のいずれの単語も含まない文書は、記載必要項目「具体例」の記載が欠如しているものと判定される。記載必要項目「具体例」の記載が欠如している文書、特に論文や特許の明細書等では、読み手に具体的なイメージが伝わらず、文書の説得力や可読性が低下するために好ましくない。なお、図2のS11〜S19についての実際の実験結果及び考察については本明細書の末尾で詳細に説明する。
そして、S19の結果得られた図12の内容を、「項目名」、「単語」、「項目名の説明」を対応付けたデータとして第1記憶部201に記憶する。なお、第1実施形態では「項目名」、「単語」、「項目名の説明」を対応付けた表形式のデータとしているが、「項目名」と「単語」のみを対応付けたものであってもよく、「項目名の説明」と「単語」のみを対応付けたものでもよい。これら記載必要項目に関するデータを、文書の種類毎に第1記憶部201に記憶する。ここでは文書の種類「論文」について説明したが、他の種類、例えば特許の明細書、履歴書、医学書の文書についても同様のデータを作成する。
<文書から記載必要項目の有無を検出>
文書の種類毎に図2におけるS11〜S21までを繰り返し、記載必要項目に関するデータを第1記憶部201に記憶した後に、第1実施形態の文書作成支援処理が実行される。
図13は情報抽出技術により対象文書の中に記載必要項目が記載されているか否かを判定し、ユーザーに提示するときのフローチャートである。まず、ユーザーが、例えば操作部30を操作して文書作成ソフト等により文書を作成する。又は、既に作成されている文書を情報処理装置1に入力する。
そして、制御部10に対して対象文書の中に記載されているか否かの判定を指示したり、作成している文書を保存することをトリガーとして、制御部10からの指示により、文書種類特定部101が対象文書の種類を特定する(S31)。なお、特定の仕方は特に限定されないが、文書のフォーマット、罫線、キーワード、頻出単語等を元に文書種類特定部101が対象文書の種類を特定してもよいし、ユーザーが対象文書の種類を手入力で指示してやってもよい。また、予め文書の種類を表すタグ等を文書に埋め込んておき、かかるタグに基づいて文書の種類を特定してもよい。
次に、対象文書に記載されている記載必要項目を特定する。具体的には、抽出部105が対対象文書から単語を抽出し、その中に対象文書と同じ種類の文書についての記載必要項目の検出に役立つ単語が存在するか否かを判断する。そして、「項目の特定に役立つ単語」が抽出されると(S33:YES)、その単語に対応する「項目名」で表される記載必要項目を、第1記憶部201を参照して特定する(S35)。一方、「項目の特定に役立つ単語」が抽出されなければ(S33:NO)、後述するS39まで進む。
S35の結果、対象文書の中に全ての記載必要項目が記載されていれば、その種類の文書について記載すべき項目が全て記載されているものとして処理を終える(S37:YES)。一方、対象文書の中に欠如している記載必要項目があれば(S37:NO)、欠如している記載必要項目をユーザーに提示し(S39)、処理を終える。
かかる処理により、ユーザーは対象文書の中に欠如している記載必要項目を容易に認識することができ、本来記載すべきであると思われる項目について漏れ無く追記・修正することで、より説得力、可読性の高い文書を作成することが可能となる。
<ユーザーへの提示>
図14は図13のS39における提示の1例である。第1実施例では、制御部10の指示により表示部40に図14のような画面が表示される。なお、このような画面を生成するためのデータは送受信部113を介して表示部40に出力される。
図14(a)はユーザーに対し対象文書と類似する文書を提示してやり、記載必要項目の記載の仕方についての参考にさせるための提示画面である。図14(a)の例では、対象文書の中に「目的」、「目標」、「目指す」といった単語がいずれも出現しておらず、記載必要項目「目的」が欠如している場合の提示画面である。ユーザーは操作部30により「YES」または「NO」を選択する。そして、ユーザーにより「YES」が選択された場合、制御部10は文書記憶部207に記憶されている複数の文書の中から対象文書との類似度が最も高いと思われる文書を類似文書として表示部40に表示する。これにより、作成している文書と類似する文書を参照でき、ユーザーの文書作成に役立つ。なお、ユーザーによる「YES」又は「NO」の選択を飛ばし、システムが能動的に類似文書を提示するようにしてもよい。
文書同士の類似度を判定する方法は特に限定されないが、例えば形態素解析技術を利用して文書から単語を取り出し、文書に含まれている単語の一致数が多いほど類似度が高いとする方法や、文書から取り出した複数の単語により構成される単語集毎の類似性により判定する方法などが考えられる。ここで、単語集合同士の類似性は、共通する単語の数や共通する単語の数に2をかけたものを単語集合に含まれる単語の数の和で割った値に基づいて求めることができる。また、対象文書から単語を抽出し、抽出した単語を元にして情報検索技術を利用して他の文書を取り出し、情報検索技術でのスコアを対象文書と他の文書との類似度としてもよい。その他、これらに類する方法でも可能である。
ここで、スコアの算出方法について、基本的な方法(TF−IDF法)を含めて説明する。
1.基本的な方法(TF−IDF法)の説明
score(D)= Σ(tf(w,D)*log(N/df(w)))
w ∈W で加算
W:キーワードの集合
tf(w,D):収集されたデータでのwの出現回数
df(w):全文書でWが出現した文書の数
N:文書の総数
(数1)に示す式において、score(D)が高い文書データを類似した根拠情報データとして出力する。
2.RobertsonらのOkapi weightingの説明
本方法は、非特許文献「村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均「位置情報と分野情報を用いた情報検索」自然言語処理(言語処理学会誌) 2000年 4月,7巻,2 号, p.141 ~ p.160」 に記載されている。この非特許文献における(数2)が性能がよいことが知られている。そして、Σで積を取る前のtf項とidf項の積がOkapiのウェイティング法になって、この値を単語の重みに使う。
Okapiの式なら、
score(D)=Σ(tf(w,D)/(tf(w,D)+length/delta)*log(N/df(w)))
w ∈W で加算
length:データDの長さ
delta:データの長さの平均
データの長さは、データのバイト数、また、データに含まれる単語数などを使う。
以上の手法により算出されたスコアを利用し、文書同士の類似度を判定することができる。
図14(b)は対象文書に記載されていない記載必要項目の、対象文書と類似する複数の文書における出現率を合わせて提示するものである。これにより、どのくらいの文書で記載されているかをユーザーが把握でき、その記載必要項目を実際に対象文書に追加すべきかどうかの判断に役立つ。また、出現率と合わせて出現回数も提示してもよく、これらの値が大きいほど対象文書についての記載必要項目である可能性が高くなるので、ユーザーが適宜加筆・修正するときの参考になる。なお、記載必要項目の出現率について、例えば対象文書と類似する文書の数が300であり、このうち100の文書(グループA)に「必要」という単語が含まれ、150の文書(グループB)に「必要性」という単語が含まれていたとする。さらに、20の文書(グループC)に「必要、必要性」という単語がともに含まれていたとする。この場合、グループA〜Cに含まれる計270の文書には記載必要項目「必要性」が含まれている(図12(a)参照)といえるので、対象文書と類似する文書における記載必要項目「必要性」の出現率は「270/300×100=90%」と計算できる。さらに、類似する複数の文書でなく、同じ種類の複数の文書における出現率を合わせて提示してもよい。この場合も同様の計算で記載必要項目の出現率を求めることができる。
なお、図14では記載必要項目「目的」が欠如している例を示したが、これに限定されない。例えば、対象文書に記載必要項目「必要性」と「例」が記載されていなければ、これら2つの記載必要項目が欠如している旨を提示してもよい。また、欠如している記載必要項目をまとめて提示したり、これらを順次提示してもよい。
<第1実施形態の第2実施例>
次に、情報抽出技術により対象文書の中に記載必要項目が記載されているか否かを検出する第2実施例を示す。第1実施例ではユーザーが作成した文書に対して記載必要項目が欠如していることを検出したが、第2実施例ではインターネット上に存在する文書に対して上位・下位語を利用して記載必要項目の有無を検出する例である。ここで、上位・下位語とは、上位概念を表す上位語と、上位語の下位概念を表す下位語をあわせた表現である。上位・下位語の例としては、上位語「県」−下位語「愛知県、大阪府、京都府、鳥取県・・・」、上位語「元号」−下位語「天、平成、昭和、大正・・・」等である。なお、1つの上位語に対しては複数の下位語が存在する。そして、これらの上位語と下位語を対応付けて第2記憶部203に記憶する。第2実施例では上位語を図12における「項目名」、下位語を「項目の検出に役立つ単語」とみなして処理を実行する。なお、後述の「固有表現抽出」を利用する場合でも、固有表現抽出で取れるもの(「羽柴秀吉」、「鳥取県」など)を固有表現の種類(「人名」「地名」など)の下位語と見れば、同様に適用できる。
まず、操作部30を操作し、インターネットの検索ソフトを起動する。そして、例えば検索ワードとして「溝口城」、「作山城」をそれぞれ入力して検索を実行する。
「溝口城」の検索結果として得られた文書には、「溝口城(みぞぐちじょう)は現在の愛知県豊山町に存在した日本のしろ(平城)である。築城年は天正初期(1573年頃)。」との記載があり、「作山城」の検索結果として得られた文書には、「作山城(つくりやまじょう)は、香川県高松市香西南町にあった日本の城である。」との記載があったとする。そして、これら2つの文書を対象とし、図13におけるS33と同様に、単語を抽出する。
図15は、これらの結果をまとめたものである。なお、上段の「城名」、「県」、「時代」、「地名」、「元号」の欄は対象文書中に直接記載があったものではなく、記載必要項目としての上位語として予め定めたものである。なお、図15についての実際の実験結果及び考察については本明細書の末尾で詳細に説明する。
図15(a)中の「−」は対象文書の中に該当する記載がなかったものである。「作山城」については上位語「時代」の下位語に相当する単語と、上位語「元号」の下位語に相当する単語が対象文書の中に存在せず、「溝口城」については上位語「時代」の下位語に相当する単語が対象文書の中に存在しない。したがって、「作山城」の検索結果として得られた文書には記載必要項目「時代」と「元号」が、「溝口城」の検索結果として得られた文書には記載必要項目「時代」に関する記載が欠如しているということが言える。
これらの結果より、図14と同様、それぞれの文書に記載必要項目が欠如している旨を提示する。これをもとにユーザーが情報を追記したものが図15(b)である。
以上、情報抽出技術を利用した第1実施形態について2つの実施例を説明した。第1実施形態では、図2のS15において複数の文書における出現率が予め定められた閾値以下又は未満の単語を記載必要項目の検出に役立つ単語の候補から除外したが、これに限られない。例えば、出現率が予め定められた閾値以上又はより大きい単語を取り出す、出現数又は出現率が多いものから予め定めた個数取り出す、最大の出現数又は出現率の予め定められた係数をかけた値以上又はより大きい単語を取り出す、等でもよい。
<第1実施形態の第3実施例>
情報抽出技術を利用する第1実施形態の第3実施例は、第1実施形態の第2実施例に加え、情報検索技術を利用したものである。第1実施形態の第2実施例の処理の途中において、図15(a)の溝口城について見ると、「時代」の欄が空欄になっている。第3実施例では、「時代」の欄を人手で埋めるのではなく、WEB上の他の文書を参照する。
例えば、制御部10がキーワード「溝口城and県(and検索)」を検索エンジンに入力し、通信部50を介してWEB上の他の文書を検索する。そして、「溝口城」と「県」の2つの単語を含む他の文書(異なるURLで指定される文書)において上位・下位語により「安土桃山時代」を抽出できたら、それをユーザーに提示することで「時代」の欄の記載を支援する。
また、前述のスコアを利用した高度な情報検索技術により、対象文書と類似度の高い文書をWEB上から特定することも可能である。
<第1実施形態の第4実施例>
情報抽出技術を利用する第1実施形態の第4実施例は、第1実施形態の第2実施例に加え、例えば「特許第3882048号」の質問応答処理技術を利用したものである。第1実施形態の第2実施例の処理の途中において、図15(a)の溝口城について見ると、「時代」の欄が空欄になっている。このとき、制御部10は、「溝口城の時代は何ですか?」という質問文を生成し、図示しない質問応答システムに入力する。そして、入力された質問文に対して質問応答システムがWEB上で回答を探し出し、その回答を「時代」の欄に入力する。
なお、制御部10が作成する質問文は、図15(a)のような表において、「「行の項目」の「列の項目」は何ですか?」と一般化しておくことで、質問文を自動で生成することができる。これらの質問は質問生成部107により生成される。
<第1実施形態の第5実施例>
情報抽出技術を利用する第1実施形態の第5実施例は、第1実施形態の第2実施例に加え、類似する文書集合を利用したものである。第1実施形態の第2実施例の処理の途中において、図15(a)の溝口城について見ると、「時代」の欄が空欄になっている。ここで、第1実施形態の第3実施例と同様に、WEB上から関連文書を検索する。これは、前述のようなキーワードの掛けあわせやスコアを利用した高度な検索などにより実現され、溝口城と「時代」に関係する文書が得られる。
ここで、例えば溝口城以外の城では「時代」の欄に実際の時代が記入されている場合がある。この実際の時代の集合を時代集合Aとする。そして、時代集合Aから、ある単語Bi と最も類似度の高い名詞Ciを取り出す。そして、全ての単語Biと名詞Ciの組のうち、最も類似度が高い組の単語を単語Bmと名詞Cmとする。この名詞Cmを、時代集合Aと類似度の高い名詞として取り出して提示することで、溝口城の実際の時代やそのヒントを得ることができる可能性がある。なお、ここでは最も類似度の高いものを取り出したが、類似度の高い順から複数個、例えば上位10個程度のものを取り出し、それらをユーザーに示すとしてもよい。
なお、単語同士(単語Bと単語C)の類似度は、既存の単語辞書(分類語彙表)などを利用して類似度を求めてもよいし、ある文書を準備し、その文書で、単語Bと同じ文に出現している単語(単語集合D)と、単語Cと同じ文に出現している単語(単語集合E)を調べ、単語集合Dと単語集合Eの類似性から、単語同士の類似度を求めてもよい。単語集合Dと単語集合Eの類似性は、共通する単語数に基づいてもよいし、共通する単語数に2をかけたものを、単語集合Dの単語の個数と単語集合Eの単語の個数の和で割った値に基づいてもよいし、これらに類する方法でもよい。ここで、分類語彙表とは、例えば以下のようなものである。

あ, あ,4.310,1,10,*,
あ, 亜,1.104,2,40,,
あ, 亜,3.100,10,40,,
ああ, ああ,3.100,3,40,*,
ああ, ああ,4.310,1,20,*,
ああくとう, アーク燈,1.460,2,70,,
ああす, アース,1.462,6,10,,
ああち, アーチ,1.442,2,20,,
ああむほおる, アームホール,1.184,5,30,,
あある, アール,1.1961,4,10,,
あい, 愛,1.3020,9,10,*,
あい, 相,3.112,1,10,*,
あい, 藍,1.502,6,40,,
あいいく, 愛育,1.3642,1,40,,
あいいん, 愛飲,1.3332,3,60,,
あいいん, 合印,1.3114,1,30,Y,
あいうち, あい打ち,1.357,4,30,,
あいかぎ, 合鍵,1.454,8,50,,
あいかわらず, 相変らず,3.165,2,10,*,
あいかん, 哀歓,1.3011,4,60,,
あいがん, 哀願,1.366,1,100,,
あいがん, 愛翫,1.3852,2,10,,
あいぎ, 合着,1.421,4,40,,
あいきょう, 愛郷,1.3020,11,170,,
あいきょう, 愛嬌,1.3030,4,40,,

そして、上位3桁を意味分類と仮定し、種々の処理を実行することも可能である。
以上、第1実施形態の第1実施例〜第5実施例について説明したが、これらはそれぞれインターネット上に存在する文書に対して適用でき、また、ローカルな記憶手段に記憶されている文書についても適用できる。
2.第2実施形態
第2実施形態の文書解析装置は、ユーザーが作成した文書の中に記載必要項目が記載されていないことを教師あり機械学習技術を利用して検出し、その旨をユーザーに提示することで文書作成支援を行うものである。
<第2実施形態の第1実施例>
基本的な装置の構成は第1実施形態と同様であるが、第2実施形態の第1実施例では図1に示された第3記憶部205及び機械学習エンジン111を利用する。
<教師データの学習>
図16は、第3記憶部205の構成例を示すブロック図である。第3記憶部205は、記載必要項目有無記憶部205aと、記載必要項目修正記憶部205bと、差分記憶部205cを備える。
記載必要項目有無記憶部205aは、複数の文書と当該文書中の記載必要項目の有無とを対応付けて記憶する。記載必要項目修正記憶部205bは、記載必要項目有無記憶部205aに記憶されている文書のうちで記載必要項目が記載されていない文書に人手で記載必要項目に関する文を追加して修正した文書を記憶する。差分記憶部205cは、記載必要項目が記載されていない文書と、当該文書を修正した文書の差分(人手で追加した部分)を記憶する。
第1実施例では、予め学習データを準備しておく。例えば、「問題=文書」、「解答=記載必要項目有りor 記載必要項目無し」とする。具体的には、「問題=機械学習に基づく実験を行った。学習データ数は1000である。」に対し、「解答=記載必要項目有り」と学習させる。これは、問題が機械学習に関する文書であり、機械学習にとって学習データ数は精度に大きく影響する重要な要素である。したがって、機械学習に関する文書においては学習データ数に関する情報を記載すべきであると考えられるので、「学習データ数」を記載必要項目としたのである。
次に、「問題=機械学習により実験を行った。」に対し、「解答=記載必要項目無し」と学習させる。これは、前述の通り、問題が機械学習に関する文書であるにも関わらず、記載すべき情報である学習データ数が記載されていないからである。
データの学習のときに利用する素性(解析に用いる情報で、問題を構成する各要素のこと)は問題の文書から取得する。例えば、上記の例では、「機械」、「学習」、「データ」、「数」、「1000」等が素性となる。また、素性の種類として、2単語連続、3単語連続のものを利用してもよい。例えば、「機械学習」、「機械学習法」「データ数」、「学習データ数」などである。これらの素性も合わせて記憶する。このように、文書中にこれらの素性が含まれていれば「○」、含まれていなければ「×」と学習させる。素性には問題の文書に出現する単語の「tf」、「idf」、「tf−idf」、単語、単語の意味分類、単語の共起語などを用いる。なお、「tf」、「idf」、「tf−idf」については後述する。ここで、単語の共起語とは、ある単語がある文書中に出たとき、その文書中に頻繁に出現する別の限られた単語のことである。例えば、文書記憶部205に記憶された文書Aには単語Xと単語Yが含まれ、文書Bにも単語Xと単語Yが含まれるなど、多くの文書において単語Xと単語Yが同時に含まれる場合、単語Yを単語Xの共起語(又は単語Xを単語Yの共起語)と呼ぶ。なお、文書単位でなく、同じ種類の文書中における一文、段落、データレコードを単位として共起語を特定してもよい。
そして、「問題=機械学習に基づく実験を行った。学習データ数は1000である。」に対して「解答=記載必要項目有り」、「問題=機械学習により実験を行った。」に対して「解答=記載必要項目無し」というデータを学習させることで、文書中に「機械」、「学習」、「機械学習」という語が素性にあって、「データ」、「数」、「データ数」がなければ、かかる文書は「記載必要項目無し」の文書であると判定できるようになる。
図17は第3記憶部205に記憶されるデータ(判定基準データ)の例を示す図であり、(a)は記載必要項目有無記憶部205aに、(b)は記載必要項目修正記憶部205bに、(c)は差分記憶部205cに記憶されるもので、文書の種類は「機械学習に関する文書」である。
図17(a)の文書ID1a、2a及び50000aで表される文書には、機械学習に関する文書の記載必要項目である「学習データ数」が記載されているので記載必要項目有りとなり、「記載必要項目の有無」の欄は「○」となっている。一方、文書ID3a、4a、5a及び49999aで表される文書には、機械学習に関する文書であるにも関わらず「学習データ数」が記載されていない。このため、これらの文書は記載必要項目無しとなり、「記載必要項目の有無」の欄は「×」となっている。
図17(b)は、図17(a)の文書のうち、「記載必要項目の有無」の欄が「×」である文書を人手で修正した文書である。ここでは、機械学習に関する文書の記載必要項目である「学習データ数」を追加している。
図17(c)は、修正前の文書と修正後の文書の差分、つまり、人手で追加した部分を示す図である。
<文書から記載必要項目の有無を検出>
図18は第3記憶部205へデータを記憶し、機械学習を実行するときのフローを表すフローチャートである。S51にて文書の種類毎に記載必要項目を特定する。前述の例では、ある文書が機械学習に関する文書である(文書の種類:機械学習)場合、記載必要項目として「学習データ数」を特定する。つまり、文書の種類に応じて、その文書にどのような事項が記載されるべきであるかを検討するのである。なお、記載必要項目を複数特定してもよく、例えば「文書の種類:機械学習」である場合に、さらに記載必要項目として「アルゴリズム」、「教師の有無」等を特定しておいてもよい。次に、S53にて文書と当該文書における記載必要項目の記載の有無を対応付けたデータ(図17参照)を教師データとし、機械学習を実行する。S55にて文書中の素性と記載必要項目の記載の有無に関するルールを学習する。前述のように、対象文書中に「機械」、「学習」などが含まれているにも関わらず「データ」、「数」が含まれていなければかかる文書には記載必要項目「学習データ数」が記載されていない、と判定する等である。S57にて学習したルールを第3記憶部205に記憶し、処理を終える。
図19は機械学習により対象文書の中に記載必要項目が欠如していることを提示する処理の例を示すフローチャートである。まず、ユーザーが、例えば操作部30を操作して文書作成ソフトなどにより文書を作成する。又は、既に作成されている文書を情報処理装置1に入力する。
そして、制御部10に対して対象文書の中に記載必要項目が記載されていないかの検出指示するか、作成している文書を保存することをトリガーとして、制御部10からの指示により、文書種類特定部101が対象文書の種類を特定する(S71)。なお、特定の仕方は特に限定されないが、文書のフォーマット、罫線、キーワード、頻出単語等を元に文書種類特定部101が対象文書の種類を特定してもよいし、ユーザーが対象文書の種類を手入力で指示してやってもよい。
次に、前述の機械学習において記憶した素性を利用して対象文書の中から素性(単語)を抽出する(S73)。対象文書が「機械学習法により実験を行った。(文書の種類:機械学習に関する文書)」である場合、「機械」、「学習」が素性にあり、「データ」、「数」が素性にない。したがって、前述の機械学習の結果に基づいて、「機械学習に関する文書」における記載必要項目である「学習データ数」に関する記載が欠如していると判断できる(S75)。ここで、記載必要項目として「学習データ数」1つのみについて説明したが、記載必要項目が複数ある場合にはそれぞれの記載必要項目について処理を繰り返す。
S75の結果、対象文書の中に全ての記載必要項目が記載されていれば、その種類の文書について記載すべき項目が全て記載されているものとして処理を終える(S77:YES)。一方、対象文書の中に欠如している記載必要項目があれば(S77:NO)、欠如している記載必要項目をユーザーに提示し(S79)、処理を終える。
<ユーザーへの提示>
図20は図18のS79における提示の1例である。図20(a)は対象文書が「機械学習により実験を行った。結果は・・・」である場合である。かかる文書は図17(a)の文書ID4a及び5aと同一である。よって、図17(c)の差分データを参照すると、「学習データの個数は300である。」又は「学習データの個数は2500である。」が得られる。したがって、学習データ数をユーザーに選択させるための画面を表示する。なお、これに対しユーザーは操作部30により学習データ数を入力でき、学習データ数が「300」でも「2500」でもなければ「その他」を選択したあとに任意の数を入力する。
図20(b)は対象文書が「機械学習を利用して実験を行った。結果は以下の通りである」の場合である。かかる文書を完全に一致する文書は第3記憶部205には存在しない。この場合、対象文書と類似する文書を言語処理技術等を用いて図17(a)の記載必要項目有無記憶部205aから検索し、文書ID4999aの文書が対象文書と最も類似している文書として選択される。そして、図17(c)の差分データを参照し、「学習データの個数は3000である。」を得る。したがって、ユーザーに対して記載必要項目「学習データ数」が欠如していることを提示するとともに、予想される学習データ数「3000」を合わせて提示する。このとき、さらに「確信度」を提示してもよい。これは、対象文書と類似する文書を記載必要項目有無記憶部205aから選択しているが、類似度が高ければ確信度も高くなり、類似している文書が複数存在した場合には確信度は低くなる、といった具合である。なお、機械学習の教師データ数や機械学習のアルゴリズム自体についての確信度を加味してもよい。
ここで、機械学習を利用した類似文書の確信度の求め方について詳細に説明する。機械学習の手法は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である(例えば、下記の非特許文献を参照)。
非特許文献3:村田真樹,機械学習に基づく言語処理,龍谷大学理工学部.招待講演.2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
非特許文献4:サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.
非特許文献5:SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.
どういう問題のときに、という、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。
すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。このように教師あり機械学習法を行うことによって、規則を人手で作成する必要がなく、人手の手間を省ける学習データを多く準備することで、性能を向上させることができる。また、人手による規則よりも、より多くの規則のようなものを獲得したような形で高性能な処理が可能となる。
例えば、予め冗長性についての正解情報付きの教師データを取得した場合、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いて正解情報に近い結果が得られる好適な係数を導き出す。
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。
シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の式(a)で与えられる。

ただし、ここで文脈bは、あらかじめ設定しておいた素性fj(∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi|a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fiを持つ確率を意味する。P(fi|a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式(b)の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スムージングを行う。ここでは、以下の式(c)を用いてスムージングを行ったものを用いる。

ただし、freq(fi,a)は、素性fiを持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。
決定リスト方法では、あらかじめ設定しておいた素性fj(∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の式によって与えられる。
p(a|b)=p(a|fmax)
ただし、fmaxは以下の式(d)によって与えられる。

また、P(ai|fj)(ここでPはpの上部にチルダ)は、素性fjを文脈に持つ場合の分類aiの出現の割合である。
最大エントロピー法は、あらかじめ設定しておいた素性fj(1≦j≦k)の集合をFとするとき、以下所定の条件式(式(e))を満足しながらエントロピーを意味する式(10)を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。

ただし、A、Bは分類と文脈の集合を意味し、gj(a,b)は文脈bに素性fjがあって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai|fj)(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。
式(e)は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化(確率分布の平滑化)を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の非特許文献に記載されている。
非特許文献6:Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997)
非特許文献7:Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998)
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。
図21にサポートベクトルマシン法のマージン最大化の概念を示す。図21において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図21)(a)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、(b)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン)が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図21)(b)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入)がなされたものが用いられる。
この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。

ただし、xは識別したい事例の文脈(素性の集合)を、xiとyj(i=1,...,l,yj∈{1,−1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
−1(otherwise)
であり、また、各αiは式(i)と式(j)の制約のもと式(h)を最大にする場合のものである。

また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。
K(x,y)=(x・y+1)d 式(h)
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi>0となるxiは、サポートベクトルと呼ばれ、通常、式(g)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
なお、拡張されたサポートベクトルマシン法の詳細については、以下の非特許文献に記載されている。
非特許文献8:Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
非特許文献9:Taku Kudoh, Tinysvm:Support Vector machines, (http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n−1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n−1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、aと推定する。
例えば、本発明の実施の形態において、機械学習機能が、機械学習の手法としてk近傍法を用いる場合、機械学習機能は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として記憶しておく。
また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習機能は、教師データの事例について、上記の事例の解と素性の集合との組を学習結果情報として記憶する。そして、新しい解の候補が抽出されたときに、記憶された学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて取得した解の候補の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その解の候補の素性の分類(解)と推定する。すなわち、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。
また、機械学習手法として決定リスト法を用いる場合には、機械学習機能は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを記憶する。そして、新しい解の候補が抽出されたときに、リストの優先順位の高い順に、抽出された解の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。すなわち、解の候補の素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここでは「抽出するべき」という分類になる確率のリストにおける優先順位とする。
また、機械学習手法として最大エントロピー法を使用する場合には、機械学習機能は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて記憶する。そして、新しい解の候補が抽出されたときに、記憶された確率分布を利用して、抽出された表現対の候補の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、解の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。
また、機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習機能は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて記憶する。そして新しい解の候補が抽出されたときに、記憶された超平面を利用して、抽出された表現対の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。すなわち、解の候補の素性の集合の場合にある解となりやすさの度合いを、分離平面からの正例(抽出するべき表現対)の空間への距離の大きさとする。より詳しくは、抽出するべき表現対を正例、抽出するべきではない表現対を負例とする場合に、分離平面に対して正例側の空間に位置する事例が「抽出するべき事例」と判断され、その事例の分離平面からの距離をその事例の度合いとする。
そして、事例の度合いが大きい文書を対象文書と類似する文書とし、これを記載必要項目有無記憶部205aから取り出す。ここで、その「事例の度合い」を確信度として提示する。
なお、第3記憶部205に「機械学習に関する文書」をまとめて記憶する例を説明したが、これに限られない。文書の種類毎に分けず、複数の種類の文書と記載必要項目の有無をまとめて記憶し、これらをまとめて教師データとして学習しても良い。この場合、図19のS71は不要となる。
<第2実施形態の第2実施例>
次に、第2実施形態の第2実施例について説明する。第2実施例では、文書の「段落」を1つの単位として機械学習を実行する。ここで、記載必要項目無しの段落として、「機械学習により実験を行った。」とあり、これを修正して「機械学習により実験を行った。学習データの個数は500である。」とした。これらの差分を取ると、「学習データの個数は500である。」が得られる。したがって、対象文書内のある段落が「実験を行った。」で終わっていれば、「学習データの個数は500である。」を追加するという規則を得ることができる。
ここで、「実験を行った。」は、段落の最後の7文字を利用すると予め定義しておいてもよく、また、5文字、10文字等任意の文字数として定義しておいてもよい。
そして、
記載必要項目無しの段落:「機械学習により実験を行った。」
修正した段落:「機械学習により実験を行った。学習データの個数は500である。」
から、
問題:「機械学習により実験を行った。」
答え:悪い文書
問題:「機械学習により実験を行った。学習データの個数は500である。」
答え:良い文書
という学習データを自動で生成する。すなわち、記載必要項目無しの段落から作成したデータは悪い文書となり、修正した段落から作成したデータは良い文書となる。かかる学習データを多数作成し、それを機械学習で学習させると、どういう段落が良く、どういう段落が良くないかが理解できるようになる。なお、素性は、問題に出現した単語のtf、idf、tf−idf、単語、単語の意味分類、単語の共起語等を用いる。
機械学習を実行したあと、新たに対象文書のある段落として「機械学習法により実験を行った。」が入力されたとする。この段落は最後の7文字が「実験を行った。」で終わっているので、前述の規則を用いて書き換えると、「機械学習法により実験を行った。学習データの個数は500である。」となる。また、ランダムに文字を入れたり書き換えたりして、多数の種類の段落を作成する。
例えば、「特許第5678774号」などの言い換え技術を利用して、規則を用いて日本語として不適切でないように文書を修正することも可能である。または、言い換え技術を利用せずに不適切な文書をここで作成して次の機械学習の入力にいれることも可能である。後の機械学習で不適切な文書を除けるためである。
そして、作成された多数の段落を入力データとして機械学習で判定し、「良い」文書か「悪い」文書かを判断する。そして、「良い」文書のうち、すでに述べたような手法で求めた確信度が最も高いものを最も「良い」文書とする。そして、対象文書が入力されると、最も「良い」文書に近づくように対象文書を修正する。また、言い換え技術を組み合わせて文書を修正することも可能である。かかる書き換えは図1の文書修正部109により実行される。なお、本実施例では段落を単位として機械学習する例を示したが、これに限られない。例えば、複数の段落単位、章単位、複数の章単位又は文書全体に対して機械学習を実行してもよい。
以上、第1実施形態及び第2実施形態について説明した。ここで、第1実施形態の第1実施例及び第2実施形態の第1実施例の処理について、それぞれ概念図を用いて説明する。
図22は第1実施形態の第1実施例の処理を表す概念図である。まず、(1)送受信部113を介して判定部103に文書が入力される。(2)図示しない文書種類特定部101は、文書の属性データ(単語の出現回数、単語の共起、意味、罫線、フォーマット、文書に付与されたタグ等)に基づいて文書の種類を特定する。(3)特定された文書の種類を送受信部103に通知し、(4)文書の種類に対応するデータを第1記憶部201から読み出して判定部103に渡す。(5)判定部103はかかるデータから項目の検出に役立つ単語(要求データ)を取得する。そして、(6)文書中に(5)で取得された単語が含まれているか否かを調べ、(7)判定結果を送受信部113を介して図示しない表示部40へ通知する。
なお、文書の種類は、機械学習によっても特定可能である。例えば、「問題:文書データ」「答え:文書の種類」「素性:文書に含まれる単語」として機械学習を実行し、文書の中にどのような単語(素性)が含まれていればどの種類の文書になるのかを学習する。そして、かかる学習結果を利用することで、新たな文書が入力されても、文書中に含まれる単語(素性)を解析することで文書の種類を判定することができる。
また、文書の種類は類似文書検索を利用しても特定可能である。例えば、文書記憶部207に格納された複数の文書のうち、文書の種類が特定されている複数の文書を文書群Aとし、文書と文書の種類を対応付けて記憶部20に記憶しておく。そして、すでに述べた類似文書検索技術を利用し、新たに入力された文書に類似する文書を記憶部20に記憶された文書群Aから特定する。ここで、記憶部20には文書と文書の種類が対応付けて記憶されているため、入力された文書に類似する文書が特定されることで、類似する文書の種類も特定できる。このように特定された類似する文書の種類を、新たに入力された文書の種類として推定する(類似する文書同士は文書の種類が同じであることが多いためである)。
図23は第2実施形態の第2実施例の処理を表す概念図である。まず、(1)送受信部113を介して判定部103に文書が入力される。そして、(2)送受信部113を介して第3記憶部204に記憶されたデータが判定部103に入力される。(3)判定部103は、文書の属性データ(単語の出現回数、単語の共起、意味、罫線、フォーマット、文書に付与されたタグ等)に基づいて、同一又は類似する文書を表す文書IDを特定する。そして、(4)特定された文書IDに対応する差分データ(要求データ)を取得する。そして、(5)判定部103が文書中に差分データが含まれるか否かを調べ、(6)判定結果を送受信部113を介して図示しない表示部40へ通知する。
最後に、上述した第1実施形態及び第2実施形態に係る発明を実現するためのソフトの観点での機能ブロック図を図24を用いてに説明する。なお、図24は単なる例示であり、サーバ200に変えて文書解析装置1000内の図示しない記憶部を用いてもよく、判定部1030が文書解析装置1000の外部のサーバに格納されており、通信回線を通して判定結果を受け取る構成としてもよいことは言うまでもない。また、図1におけるブロック図は主にハードの観点で作成されたブロック図であり、図1と図24の両者は互いに矛盾しない。
文書解析装置1000は内部に被解析データ取得部1230、判定基準データ取得部1330、判定部1030及び出力部1130を含む。そして、操作部300を用いてユーザーにより操作される。被解析データ取得部1230は通信部500から被解析データを取得する。判定基準データ取得部1330はサーバ200から判定基準データを取得する。そして、判定部1030は、被解析データ取得部1230から被解析データを、判定基準データ取得部1330から判定基準データを取得する。判定部1030による判定結果が出力部1130に受け渡され、出力部1130が出力した判定結果がディスプレー400に表示される。さらに、ディスプレー400に代えて、判定結果を外部のプリンタ600で印刷してもよい。また、判定結果を通信部520を介して他のPCやサーバに送信してもよい。
最後に、第1実施形態の第1実施例における図2のS11〜S19についての実際の実験結果及び考察と、第1実施形態の第2実施例における図15についての実際の実験結果及び考察について詳細に説明する。まず初めに図2のS11〜S19についての実際の実験結果及び考察について説明する。
概要
論文において記載すべき情報が記載されていない場合が存在する。その場合、研究の内容が読者に伝わり難いという問題が発生する。本研究では、論文に記載すべき情報を「記載必要項目」と定義し、論文内で記載必要項目が欠落している論文を自動検出することで、論文の文章作成支援を行うことを目的とする。多くの論文に出現する単語は記載必要項目である可能性が高いと考える。 本研究では、 全論文を出現論文数で割ることで出現率を算出し、 出現率の高い単語を調査する。さらに、 出現率の高い単語に類似している単語は記載必要項目の検出に役立つ単語であると考え、 類似している単語を調査する。 出現率の高い単語とその単語に類似している単語を参考に人手で検討し、 記載必要項目とその項目の検出に役立つ単語を決定する。
決定した記載必要項目の検出に役立つ単語が一つもない論文を記載必要項目が欠落している論文であると判別する。 このようなルールで判別し、 ルールベースを利用して記載必要項目が欠落している論文を自動検出する。「比較」「問題」「目的」は F 値が 0.6 から 0.7 で検出でき、「例」は F 値が 0.86 で検出できた。 それぞれの結果はベースラインよりも F 値が高かった。
<目 次>
第 1 章 はじめに
第 2 章 研究の流れ
第 3 章 記載必要項目と検出に役立つ単語の決定 8
3.1 問題設定
3.2 決定手順
3.2.1 頻度調査
3.2.2 意味ソート
3.2.3 人手での検討
3.3 データ
3.4 決定結果
3.4.1 頻度調査の結果
3.4.2 意味ソートの結果
3.4.3 記載必要項目と検出に役立つ単語の決定結果
第 4 章 文章作成支援
4.1 問題設定
4.2 記載必要項目が欠落している論文の検出方法
4.3 データ
4.4 評価方法
4.4.1 評価の手順
4.4.2 F 値
4.4.3 人手での判別基準
4.4.4 カッパ係数による人手での判別基準の評価
4.5 実験結果
4.5.1 人手での判別基準とその基準の評価
4.5.2 文章作成支援の実験結果
4.6 考察
4.6.1 文章作成支援の実験考察

第 5 章 おわりに
非特許文献10:村田真樹,神崎享子,内元清貴,馬青,井佐原均: "意味ソート msort -意味的並べかえ手法による辞書の構築例とタグつきコーパスの作成例と情報提示システム
例-", 自然言語処理, Vol,7, No,1, pp,51-66, 2000.
非特許文献11: 菅沼明, 牛島和夫: "テキスト処理による推敲支援情報の抽出", 人工知能学会誌, 23巻, 1 巻, pp,25-32, 2008.
非特許文献12: Masaki Murata, Hitoshi Isahara: "Automatic detection of mis-spelled Japanese expressions using a new method for automatic extraction of negative examples based on positive examples", IEICE Transactions, VOL,E85-D, No,9, pp,1416-1424, 2002.
非特許文献13: 村田真樹, 井佐原均: "自動言い換え技術を利用した三つの英語学習支援システム",情報科学技術レターズ, 3 巻, pp,85-88, 2004.
非特許文献14: 内元清貴, 村田真樹, 馬青, 関根聡, 井佐原均: "コーパスからの語順の獲得",言語処理学会論文誌「自然言語処理」,Vol,7,No,4,pp,163-180, 2000.
非特許文献15: 村田真樹, 馬青, 井佐原均, 内元清貴: "日本語文と英語文における統語構造認識とマジカルナンバー7±2", 言語処理学会論文誌「自然言語処理」, Vol,6, No,7, pp,61-73, 1999
第1章はじめに
論文において研究成果や研究の必要性・有効性などの記載すべき情報が記載されていない場合が存在する。その場合、研究の内容が読者に伝わり難いという問題が発生する。本研究では、論文に記載すべき情報を「記載必要項目」と定義し、論文内で記載必要項目が欠落しているか否かを自動検出することで、論文の文章作成支援を行うことを目的とする。
文章作成支援の研究は既に先行研究が多数ある。「冗長な表現の改善」の研究としては非特許文献10が、「誤字の修正・適切な語の選択」の研究としては非特許文献11、非特許文献12、非特許文献13が、「語順の修正・語と語の係り受けの誤りおよび複雑性の修正」の研究としては文献非特許文献11、非特許文献14、非特許文献15がある。数多くの文章作成支援の研究があるが、論文の記載必要項目を利用して論文の文章作成支援を行う研究はないため本研究で扱うこととした。図25は本研究の目的を表す。
本論文の主な主張を以下に整理する。
1. 論文内で記載必要項目が欠落しているか否かを自動判別し、文章作成支援を行う。
2. 論文の記載必要項目を利用して論文の文章作成支援を行う先行研究はないという新規性がある。
3. 記載必要項目の検出に役立つ単語を決定し、それらの単語の有無によって記載必要項目の欠落を自動判別できる。
4. 本研究では6つの記載必要項目を決定し、それらの項目が欠落している論文を検出した。その結果、6つの項目のうち4つの項目が欠落している論文を0.6から0.8という比較的高いF値で検出できた。
5. 全ての論文を文章作成支援の対象として検出した場合と比較した結果、本研究の提案手法のほうが検出精度が高いことが確認された。
本論文の構成は以下の通りである。第2章では、本研究の全体の流れについて述べている。第3章では、記載必要項目とその項目の検出に役立つ単語について述べている。第4章では、文章作成支援について述べている。
第2章研究の流れ
本研究の全体の流れを以下に示す。
1.記載必要項目とその項目の検出に役立つ単語を決定する。
2.検出に役立つ単語とルールベースを利用して記載必要項目が欠落している論文を自動検出する。
2.2の検出結果が文章作成支援に役立っているか否かを人手で判別し、評価する。
本研究では、初めに、記載必要項目とその項目の検出に役立つ単語を決定する。多くの論文に出現する単語は記載必要項目の検出に役立つ単語である可能性が高いと考える。そこで、記載必要項目の検出に役立つ単語を決定するために、論文内での単語の頻度調査を行う。論文に出現する単語ごとの出現率を算出し、出現率の高い単語を調べる。出現率の高い単語から記載必要項目の検出に役立つ単語であるかを人手で検討し決定する。
さらに、記載必要項目の検出に役立つ単語を増やすために、記載必要項目の検出に役立つ単語に類似している単語を調査する。類似している単語の調査には、意味ソート(非特許文献10)を利用して調査を行う。
次に、記載必要項目の検出に役立つ単語が一つもない論文を記載必要項目が欠落している論文であると判別し、そういった論文を自動検出する。本研究ではルールベースを用いて検出を行う。最後に、ルールベースでの検出結果から文章作成支援に役立っているか否かを人手で判別し、評価を行う。本研究では記載必要項目を補う必要のある論文を文章作成支援に役立っている論文と判別し、F値を算出して評価を行う。
第3章記載必要項目と検出に役立つ単語の決定
3.1問題設定
記載必要項目と記載必要項目の検出に役立つ単語を決定する。検出に役立つ単語が一つもない場合は記載必要項目が欠落している論文であると判別でき、記載必要項目が欠落している論文の検出に役立つと考える。
3.2決定手順
記載必要項目とその項目の検出に役立つ単語の決定は以下の手順で行う。
1.多くの論文に出現する単語を調査する(3.2.1節)
2.1の結果から意味ソート(非特許文献10)を利用して意味の類似している単語をまとめて表示させる(3.2.2節)
3.2の結果を人手で検討して、記載必要項目とその項目の検出に役立つ単語を決定する(3.2.3節)
手順の詳細を以下に示す。
3.2.1頻度調査
多くの論文に出現する単語は論文の記載必要項目である傾向である可能性が高いと考えられる。単語の出現した論文数を全論文数で割ることで単語の出現率を算出する。例えば、全論文300件中250件の論文に単語「Z」が存在している場合、単語「Z」の出現率は250/300となる。
3.2.2意味ソート
記載必要項目の検出に役立つ単語に類似している単語も記載必要項目の検出に役立つ単語である可能性があると考える。例えば「手法」という単語が記載必要項目の検出に役立つ単語である場合、その単語に類似している「方式」などの単語も記載必要項目の検出に役立つ単語である可能性がある。本研究では、記載必要項目の検出に役立つ単語に類似している単語を調査するために意味ソート(非特許文献10)を利用する。意味ソート(非特許文献10)は意味の類似している単語をまとめて表示させることができる。これにより出現率の低い単語も参考にでき、より詳細な記載必要項目とその項目の検出に役立つ単語が決定できると考える。
3.2.3人手での検討
3.2.2節の結果を参考にして、人手で記載必要項目とその項目の検出に役立つ単語を検討し決定する。
3.3データ
記載必要項目の決定を行う際に使用した実験データは、1994年から2013年の言語処理学会論文誌(393件)である。
3.4決定結果
3.4.1頻度調査の結果
本研究では、3.2.1節で挙げられた方法で頻度調査を行った。全論文数は393件あり、その論文中に出現する単語の総数は19、234単語であった。その内の出現率の高い上位100単語までの結果をまとめて図26に示す。
3.4.2意味ソートの結果
論文での出現率の高い上位500単語を意味ソート(非特許文献10)を使ってソートし、意味の類似している単語をまとめて表示させた。意味ソート(非特許文献10)の結果の一部を図12(b)に示す。
3.4.3記載必要項目と検出に役立つ単語の決定結果
3.4.1節から研究の重要性・有用性を表す可能性がある「重要」や新規性を表す可能性がある「異なる」などの出現率が高いことがわかった。研究の重要性や新規性が存在しない論文は研究の内容が理解し難くなる可能性が高いので、「重要」「異なる」なども記載必要項目である可能性が高いと考えられる。また、「問題」「目的」などが存在しない論文は何が問題で何を目的にしているかを理解できなくなる可能性が高いと考えられる。さらに、「例えば」などが存在しない論文でも理解しやすい具体例などがない可能性があり、論文の内容の理解が難しくなる可能性があると考える。従って、「目的」「問題」「例えば」なども記載必要項目である可能性が高いと考えられる。
以上で記載必要項目である可能性が高いとされた単語と3.2.2節で述べた意味ソート(非特許文献10)の結果を比べ、その単語に類似した単語を人手で検討し、記載必要項目とその項目の検出に役立つ単語を決定した。結果を図27に示す。検出に役立つ単語が一つもない論文を記載必要項目が欠落している論文として自動検出でき、論文の文章作成支援に役立つ。
第4章文章作成支援
4.1問題設定
図27の結果を基にルールベースで記載必要項目が欠落している論文を検出する。記載必要項目を補う必要がある論文が自動検出できれば、論文の文章作成支援に役立つとする。
4.2記載必要項目が欠落している論文の検出方法
図27の検出に役立つ単語をルールとしてルールベースを利用し論文の検出を行う。図27の検出に役立つ単語が一つも出現していない論文を記載必要項目が欠落している論文であると判別し、検出する。
4.3データ
文章作成支援の実験を行う際に、2011年度の年次大会論文(266件)を学習データとして使用し、2012年度の年次大会論文(305件)をテストデータとして使用した。また、学習データを5.4.3節の判別基準の設定に利用し、テストデータを評価に利用する。
4.4評価方法
4.4.1評価の手順
文章作成支援の評価は、以下の手順で行う。
1.4.2節で記載必要項目が欠落している論文であると判別され、ルールベースで検出されたものが文章作成支援に役立っている(その記載必要項目を補う必要がある)かを人手で判別する。
2.1の結果から提案手法であるルールベースのF値を算出する。
3.全ての論文をシステムの出力にした場合(全ての論文を記載必要項目が欠落している論文であると判別し、検出した場合)をベースラインとして、ベースラインのF値を算出する。
4.2と3で算出した結果から提案手法であるルールベースとベースラインのF値を比較し評価を行う。
4.4.2F値
本研究では文章作成支援の精度を再現率(recall)、適合率(precision)、F値(F-measure)で評価する。再現率と適合率は以下の式で算出される。

再現率=システムの正解数/テストデータ中の正解数(4.1)
適合率=システムの正解数/システムの出力数(4.2)

本研究では文章作成支援に役立っている論文を正解として(4.1)と(4.2)を算出した。また、(4.1)と(4.2)の値の調和平均(4.3)を求めることでF値を算出できる。

F値=2×適合率×再現率/適合率+再現率(4.3)
4.4.3人手での判別基準
それぞれの項目の人手での判別でばらつきが生じないように項目ごとに基準を設定する。何故なら、曖昧な判別を行い、判別結果がばらつくとそれだけ再現率・適合率・F値が正確でなくなるからである。より正確な再現率・適合率・F値を求めるために2011年度の年次大会論文(266件)の学習データを使用し、提案手法で処理した結果を人手で評価する。そこでの評価を参考にして、人手での判別基準を設定する。
4.4.4カッパ係数による人手での判別基準の評価
本研究では5.4.3節の人手での判断基準をカッパ係数を利用して評価する。カッパ係数とは、ある現象を観察者が観察した場合の結果がどの程度一致しているかを表す統計量である。カッパ係数は以下の数式で求められる。

κ=Pr(a)‐Pr(e)/1‐Pr(e)(4.4)

κはカッパ係数、Pr(a)は見掛け上の一致率で、Pr(e)は偶然の一致率を示す。本研究では2人の観察者の一致率でカッパ係数を算出する。図28はカッパ係数評価指標を示す。
4.5実験結果
4.5.1人手での判別基準とその基準の評価
2011年度の年次大会論文(266件)の学習データ内の論文を人手で判別し、判別基準を設定する人物一人(人物Aとする)と人物Aとは別の人物一人(人物Bとする)が人物Aの設定した判別基準を参考に人手で判別を行った。人物Aと人物Bの合計二人の判別結果の一致率からカッパ係数を算出した。また、人物Aが学習データにおいて人手判別したものからランダムに文章作成支援に役立っているものと役立っていないものをそれぞれ12件ずつ取り出した。その合計24件の論文を人物Bが判別基準を参考にして人手判別した。本研究で設定した判別基準でのカッパ係数は0.67であった。
記載必要項目の判別基準を図29に示す。また、図29では、文章作成支援に役立つと
判別したものは○、文章作成支援に役立たないと判別したものは×としている。図29は各記載必要項目の判別基準を示す。
4.5.2文章作成支援の実験結果
2012年度の年次大会論文(305件)をテストデータとして実験を行った。結果を図30〜図33に示す。
4.6考察
4.6.1文章作成支援の実験考察
図30〜図33を見るとそれぞれベースラインよりもルールベースのほうがF値が高いことがわかる。また、図33の「例」についての結果を見ると、ベースラインと提案手法であるルールベースのF値の差は0.80もあることもわかる。さらに図30の「比較」についての結果もベースラインと提案手法であるルールベースの差が約0.3あることもわかる。
4.7具体例
記載必要項目が欠落している論文として検出された結果のうち人手で正解であると判別した論文の一部を具体例として以下に示す。また、記載必要項目を補う必要がある論文を正解としている。
4.7.1「目的」についての具体例
記載必要項目「目的」が欠落している論文として検出された結果のうち人手で正解であると判別した論文の一部を図34に示す。
この例示した論文において、読み手が想像する研究の目的として以下のものが挙げられる。
1. 2つの問題点を解決することを目的にしている
2. 完全に解決する方法が見つかっていないので、完全に解決する方法についての手
法を提案することを目的にしている
3. 問題点がトレードオフの関係であるということを知ることを目的にしている
4. 大規模なコーパスを扱える環境を得ることを目的にしている
5. 日本語のコーパスにおける研究を行うことを目的にしている
6. 大規模な日本語コーパスで言語モデルの振る舞いを定量的に確認することを目的
にしている
しかし、実際この例示した研究では、問題点がトレードオフの関係であることを知ることを目的としていると考えられる。また、大規模な日本語コーパスで言語モデルの振る舞いを定量的に確認することも目的としていると考えられる。さらに、これら2つの目的には、この例で挙げられた2つの問題点を完全に解決する方法の提案に役立てるという目的も存在していると考えられる。
このような例の場合、本来の研究の目的が単語「目的」などを使用して明記しておらず、本来の研究の目的でない目的が多数想定されてしまう。その結果、どの目的がその研究においての主目的なのか論文読者が理解し難くなる可能性が考えられる。そういったことが起らないために、単語「目的」などの表現を用いて研究の目的を明記する必要がある(記載必要項目を補う必要がある)と考え、文章作成支援に役立っていると判別した。
4.7.2「問題点」についての具体例
記載必要項目「問題点」が欠落している論文として検出された結果のうち人手で正解であると判別した論文の一部を図35に示す。
記載必要項目「問題点」というのは先行研究の問題点や研究の背景を差している。この例では、先行研究について述べられており、さらに研究の有効性も記述されている。しかし、先行研究の手法の概要のみを記述しており、先行研究で生じた問題についての記述が存在していない。仮に先行研究で問題が生じていなかったと考えても、その場合は先行研究の手法の概要と先行研究との明確な違いを記述する必要があると考える。
研究の背景として「近年、評判分析の対象として、Twitterが注目されている。」とあるが、この例の文章であると何故Twitterが評判分析の対象として注目されているかが理解し難いと考える。
4.7.3「比較」についての具体例
記載必要項目「比較」が欠落している論文として検出された結果のうち人手で正解であると判別した論文は論文全体を読んでも先行研究の比較や比較実験を表す文章がなく、論文内のどこで先行研究との比較を行っているかが理解できない。また、論文全体を読む必要があるので論文の一部を例として示すことができない。
4.7.4「例」についての具体例
記載必要項目「例」が欠落している論文として検出された結果のうち人手で正解であると判別した論文は論文全体を読んでも具体例がなく、理解が難しい複雑な手法などを読み手が理解できなくなる。また、論文全体を読む必要があるので、論文の一部を例として示すことができない。
第5章おわりに
本研究では、論文の文章作成支援を行うことを目的に、論文の記載必要項目を調査し、その結果を基にルールベースによって記載必要項目が欠落している論文を検出した。また、本研究で決定した記載必要項目のうち「重要性」「新規性」以外の項目を検出することができた。さらに「比較」「問題」「目的」はF値が0.6から0.7で検出でき、「例」はF値が0.86で検出できた。
続いて、図15についての実際の実験結果及び考察について説明する。
概要
文章を作成する際に内容が欠落してしまうことがある。情報の欠落した文章はとても読み難いものである。そこで文書から重要情報の欠落を抽出しユーザに指摘する技術が求められている。そこで本研究では、城に関する重要情報を Wikipedia から抽出し、抽出した情報をもとに文章の欠落箇所を抽出し文章作成支援をすることを目的とする。多くの記事で共通して現れる項目を重要項目として、それに関わる情報を取り出して表の形に整理する。表において空欄になっている箇所は、Wikipedia 内で情報が欠けておりその情報を埋めるように文章を書くとよく、そのように文章作成支援をする。またその有効
性を確認するための実験も行う。
実験の結果、重要情報の抽出実験においては、固有表現抽出に基づく手法では 0.6 から 0.8 の正解率で、上位下位知識に基づく手法では約 8 割の正解率であり、2 手法間にあまり性能の差は見られなかったが、文章作成支援の結果においては、固有表現抽出に基づく手法では 0.53 の F 値で、上位下位知識に基づく手法では 0.85 の F 値であった。さらに、提案手法と比較手法の F 値を比較したところ、固有表現抽出に基づく手法、上位下位知識に基づく手法ともに比較手法より性能が良かった。
<目次>
第 1 章 はじめに
第 2 章 提案手法
2.1 重要情報の抽出
2.1.1 固有表現に基づく手法
2.1.2 上位下位知識に基づく
2.2 文章作成支援
第 3 章 実験環境
3.1 実験データ
3.2 固有表現抽出
3.3 上位下位知識
3.3.1 頻度分析
第 4 章 実験
4.1 実験条件
4.2 表の評価方法
4.2.1 固有表現抽出に基づく手法
4.2.2 上位下位知識に基づく手法
4.2.3 比較手法
4.3 F 値の算出式
4.4 実験結果
4.4.1 実験1 固有表現抽出を用いた情報抽出の結果
4.4.2 実験 1 上位下位知識を用いた情報抽出の結果
4.4.3 実験2 文章作成支援の性能評価
4.4.4 比較実験
4.4.5 文章作成支援の成功例
第 5 章 おわりに
非特許文献16:CaboCha/南 瓜: Yet Another Japanese Dependency Structure Analyzerhttp://code.google.com/p/cabocha/
非特許文献17:上 位 下 位 関 係 抽 出 ツ ー ル Version1.0 : Hyponymy extraction toolhttp://alaginrc.nict.go.jp/hyponymy/
第1章 はじめに
文章を作成する際に内容が欠落してしまうことがある。情報の欠落した文章はとても読み難いものである。そこで文書から重要情報の欠落を抽出しユーザに指摘する技術が求められている。本研究では、城に関する重要情報を Wikipedia から抽出し、抽出した情報をもとに文章の欠落箇所を抽出し文章作成支援をすることを目的とする。多くの記事で共通して現れる項目を重要項目として、それに関わる情報を取り出して図36 のような形に整理する。表において空欄になっている箇所は、Wikipedia 内で情報が欠けておりその情報を埋めるように文章を書くとよく、そのように文章作成支援をする。またその有効性を確認するための実験も行う。
以下、第 2 章でWikipedia からの重要情報抽出の手法と文章作成支援の手法を提案する。第 3 章では本研究における実験環境を説明する。第 4 章で本研究の重要情報抽出の実験結果と、文章作成支援の性能の評価、また比較手法との性能の差を報告する。最後に第5 章で本稿をまとめる。図36は城の重要情報の表の例である。
本研究の特徴を、重要情報の抽出と文章作成支援の二つに分けて以下に整理する。
1. 重要情報の抽出
1-1. 重要情報の抽出には固有表現抽出に基づく手法と上位下位知識に基づく手法を用いる。
1-2. 抽出した重要情報を表の形に可視化する。
1-3. 固有表現抽出に基づく手法では 0.6 から 0.8 の正解率で重要情報の抽出ができた。上位下位知識に基づく手法では、「地名」を除く項目で約 8 割の正解率であった。
2. 文章作成支援
2-1. 重要情報の抽出のみならず文章作成支援も行えるという新規性がある。
2-2. 文章作成支援の性能は固有表現抽出に基づく手法では 0.53 の F 値であり、上位下位知識に基づく手法では 0.85 の F 値であった。
2-3. 提案手法と比較手法とを比較した結果、固有表現抽出に基づく手法、上位下位知識に基づく手法ともに比較手法より性能が良かった。
第2章 提案手法
本研究の手法は文章内における重要情報の抽出と、文章作成支援の二つの段階からなる。
3.1 重要情報の抽出
Wikipedia の城に関するページ (対象データ) を抽出し、その中から城に関する重要情報をCaboCha(固有表現抽出ツール)(非特許文献16)を用いた固有表現抽出に基づく手法とALAGIN(非特許文献17)の上位下位知識に基づく手法の 2 手法で抽出する。抽出は城のページ単位で行う。図37 のように最初に出現した重要情報のみをまとめた表と、図38 のように出現した全ての重要情報をまとめた表の 2 つを作成する。
3.1.1 固有表現に基づく手法
対象データから CaboCha を用いて、「人名」「地名」「組織名」に分類された語句を抽出し表にまとめる。この手法では城に関わる人物や、城の所在地などの重要情報が抽出される。
CaboChaは文書において固有表現を抽出できるルールである。文書中にある「羽柴秀吉」、「鳥取」などを人名や地名として認識できる。非特許文献:上田太一郎 監修:「事例で学ぶテキストマイニング」共立出版2008にも固有表現抽出、CaboChaの説明がある。
固有表現の認識は上記のような既存のツールを用いてもよいし、規則に基づく方法、機械学習に基づく方法をで行ってもよい。

規則に基づく方法。
形態素解析結果に基づく各単語の品詞の情報、また単語自体の情報を利用した規則を人手で記述し、その規則を利用して固有表現抽出を行う。
規則の例
名詞+「さん」の場合、人名とする
名詞+「首相」の場合、人名とする
名詞+「町」の場合、地名とする
名詞+「市」の場合、地名とする

機械学習に基づく方法

機械学習の方法を利用する。正しい固有表現の情報を記述した大量のデータから、どういう表現が固有表現として正しいかを学習する。

固有表現の種類は、人名、地名に限らず、商品名、型番、大学名など様々なものを固有表現としてもよい。
2.1.2 上位下位知識に基づく手法
上位下位知識を用いて対象データで下位語の頻度分析を行い、頻度が高かった下位語の上位語を重要項目とする。対象データで重要項目の下位語を取り出し、表にまとめる。固有表現抽出を用いた手法では抽出できなかった情報を抽出できる可能性がある。固有表現抽出に基づく手法と同様に。
2.2 文章作成支援
重要情報の抽出で作成する表の空欄箇所を情報が欠けている項目と判定し、そのことをユーザに知らせ記載の追加を促すことで文章作成支援をする。図39 に文章作成支援に用いられる表の例を示す。この表において空欄になっている箇所が情報抽出の結果 Wikipedia 内に正解がないと判定された箇所である。本研究の文章作成支援の研究では、このような表の空欄箇所を情報の欠落としてユーザに知らせることを目的とする。
第3章 実験環境
3.1 実験データ
本研究では Wikipedia(2014 年 11 月現在) のうち、記事タイトルが城で終っているページ (2665 ページ) を利用する。Wikipedia の記事の例を図40に示す。
3.2 固有表現抽出
本研究では Wikipedia の城に関する記事から、固有表現を抽出するために CaboChaを用いる。以下の図41が具体例である。 活用型、 活用形の後に固有表現タグが付与される。LOCATION は「地名」を、 PERSON は「人名」を、 ORGANIZATION は「組織名」をそれぞれ表す。本研究ではこの 3 つのタグのどれかが付与された表現を抽出する。
3.3 上位下位知識
本研究は上位下位関係の抽出に ALAGIN の上位下位関係抽出ツールを用いる。上位下位関係抽出ツールは、Wikipedia から上位下位関係となる用語ペアを数百万対のオーダーで抽出できるツールである。上位下位関係とは、"X は Y の一種 (一つ) である"と言える X と Y の関係を言う。 X のことを下位語、Y のことを上位語と呼ぶ。上位下位関係の抽出例を図42 に示す。
3.3.1 頻度分析
上位下位知識を用いて頻度分析を行い、下位語の出現記事数が 100 件を超えている上位語を取り出した。その結果において出現記事数が多かったものと、少かったものの例をそれぞれ 15 件ずつを図43に示す。その取り出したものの中から重要項目になりうると思われるものを人手で選んだ。その結果「県」「時代」「地名」「元号」という4 つの上位語を重要項目とした。その 4 つの上位語の下位語が出現した記事数をまとめたものを図44に示す。
第4章 実験
4.1 実験条件
実験データには、Wikipediaの3、264、893ページ(2014年11月現在)を用いる。Wikipediaからのデータの抽出は、記事単位で行う。本研究では「城」というキーワードに基づき記事の抽出を行う。
実験 1:固有表現抽出に基づく手法と上位下位知識に基づく手法を用いて、Wikipedia の城に関するページの情報抽出を行い、表にまとめる。さらに、固有表現抽出に基づく手法で抽出された重要情報の正解率を「地名」「人名」「組織名」でそれぞれ求め、上位下位知識に基づく手法で抽出された重要情報の正解率を「県」「時代」「地名」「元号」でそれぞれ求める。
実験 2:重要情報抽出の実験において作成された表の空欄が、正しく抽出されているかどうかの性能評価を行う。その後、比較手法と提案手法の性能の比較を行う。
4.2 表の評価方法
4.2.1 固有表現抽出に基づく手法
ランダムに選択した 30 件を用いて評価を行う。「地名」の項目は、県名または所在地が抽出された場合正解とする。「人名」の項目は、築城主、城主のどちらかが抽出された場合正解とする。「組織名」の項目は、城に関すると思われる組織が抽出された場合正解とする。空欄が抽出された場合は Wikipedia 内に本当に正解の記載が無かった場合正解とする。出現した全ての重要情報をまとめた表では、1 つでも正解が抽出された場合正解とする。
4.2.2 上位下位知識に基づく手法
ランダムに選択した 30 件を用いて評価を行う。「県名」の項目は、その城が存在する県名が抽出された場合正解とする。「時代」の項目は、築城されてから廃城するまでの時代のいずれかが抽出された場合正解とする。「地名」の項目は、城の所在地が抽出された場合正解とする。「元号」の項目は、築城されてから廃城するまでの元号のいずれかが抽出された場合正解とする。空欄が抽出された場合は Wikipedia 内に本当に正解の記載が無かった場合正解とする。出現した全ての重要情報をまとめた表では、1 つでも正解が抽出された場合正解とする。
4.2.3 比較手法
文章作成支援の実験において、有効性確認のために固有表現抽出に基づく手法と上位下位知識に基づく手法で作成した表を、全て空欄と仮定して F 値を求める。
4.3 F値の算出式
文章作成支援の評価実験では以下の算出式を用いて F 値を求める。

F = (2 ×適合率×再現率/適合率 + 再現率) (4.1)

適合率 = 空欄かつ Wikipedia 内に正解がないもの/空欄のもの (4.2)

再現率 = 空欄かつ Wikipedia 内に正解がないもの/Wikipedia 内に正解がないもの
(4.3)
本研究において、適合率はシステムにより空欄になったものの中に、正解がいくつあるかの割合を表したものである。再現率は Wikipedia 内に正解の記載がなかったもののうち、正しく空欄を抽出できた割合である。F 値は適合率と再現率の調和平均である。式 4.2、4.3 において「空欄のもの」というのは重要情報の抽出実験で作成した表において空欄の部分のことである。また「Wikipedia 内に正解がないもの」というのは、Wikipedia 内にもともとその項目に関する事柄の記載がなされていないもののことである。F 値が大きいほど、Wikipedia での記載の欠如をシステムがより正しく抽出できたことを意味する。
4.4 実験結果
4.4.1 実験1 固有表現抽出を用いた情報抽出の結果
固有表現抽出を用いて抜き出した重要情報のうち最初に出現したものだけをまとめたものを図45 に、出現した全ての重要情報をまとめたものを図46 に示す。その 2つの表を評価したものを図47 に示す。抽出した結果の正解率を求めると「地名」は0.83、「人名」は 0.83、「組織名」は 0.63 という正解率であった。図45 において太字で表記されているものは、正解と判断したものである。また、○と表記されているものは Wikipedia 内に正解の記載が無く、空欄が正しく抽出されたと判断したものである。図47 で、括弧で記載してあるものは 30 件を評価したうち正解と判断したものの数である。
4.4.2 実験 1 上位下位知識を用いた情報抽出の結果
頻度分析によって得られた上位語を用いて抜き出した重要情報のうち、最初に出現したものだけをまとめたものを図48 に、出現した全ての重要情報をまとめたものを図49 に示す。その 2 つの表を評価したものを図50 に示す。抽出した結果の正解率を求めると「県」は 0.83、「時代」は 0.93、「地名」は 0.26、「元号」は 0.83 という正解率であった。図48 において太字で表記されているものは、正解と判断したものである。また、○と表記されているものは Wikipedia 内に正解の記載が無く、空欄が正しく抽出されたと判断したものである。図50 で、括弧で記載してあるもののうちの分子の
値は 30 件を評価したうち正解と判断したものの数であり、分母は評価した数の 30 である。
4.4.3 実験2 文章作成支援の性能評価
Wikipedia の城ページにおいて実際に情報が欠落していた項目を、情報抽出の実験で適切に空欄として検出できると、文章作成支援が適切に行えたと考える。この空欄箇所に基づく情報の欠落項目の検出性能を再現率、適合率、F 値で評価した。その結果を図51 に示す。固有表現抽出に基づく手法では 0.53 の F 値であり。上位下位知識に基づく手法では 0.85 の F 値であった。上位下位知識に基づく手法の性能の方が良かった。
4.4.4 比較実験
固有表現抽出に基づく手法と比較手法との比較結果を図52、上位下位知識に基づく手法との比較結果を図53 に示す。比較実験の結果どちらの手法とも比較手法より性能が良かった。
4.4.5 文章作成支援の成功例
文章作成支援の成功例について説明する。図54 では、情報抽出した結果 Wikipedia内に正解の記載が無く、空欄を抽出したことになっている。そこで実際に Wikipedia内を確認したところ、実際に正解の記載が無かった。空欄が正しく抽出できていたものについてはウェブの他のページを用いて正解を書き込んだ。図54 について、この表では空欄を正しく抽出できており、Wikipedia 内に正解の記載がなかったので、他のウェブページを参考に正解の情報を書き込んだ。実際に書き込んだものを図55に示す。このように正しく空欄を抽出でき、かつ、空欄の内容は他のページを参考にすれば記載可能であるため、図54 は文章作成支援に役立つ例となっている。
第5章 おわりに
本研究では文章中の重要情報の記載欠落を指摘するために、2 段階の手法を提案した。その手法とは Wikipedia からの重要情報抽出に固有表現抽出に基づく手法と、上位下位知識に基づく手法の2つである。また、重要情報の抽出と同時に文章作成支援をする実験を行った。Wikipedia からの重要情報の抽出実験の結果、固有表現抽出に基づく手法では 0.6 から 0.8 の正解率で重要情報の抽出ができた。上位下位知識に基づく手法では、「地名」を除く項目で約 8 割の正解率であった。文章作成支援の性能は、固有表現抽出に基づく手法では 0.53 の F 値であり、上位下位知識に基づく手法で 0.85 のF 値であった。上位下位知識に基づく手法の性能の方が良かった。また、重要情報の抽出で作成した表の項目を全て空欄とみなす比較手法と比較した結果、固有表現抽出に基づく手法、上位下位知識に基づく手法ともに比較手法より性能が良かった。
以上、本発明についての種々の実施形態及び実施例について説明したが、これらに限定されず、記憶部20を外部のサーバーとし、制御部10、操作部30、表示部40及び通信部50を有する情報処理装置1とネットワークを介して通信するものとしても良い。また、記憶部20及び制御部10を外部の同一又は別々のサーバーとし、操作部30、表示部40及び通信部50を有する情報処理装置1とネットワークを介して通信するものとしても良い。この場合、情報処理装置1は例えばスマートフォン、タブレット端末、ウェアラブル端末又はPC等であり、外部の記憶部20を利用したいわゆるクラウドサービスの形で種々の機能が実現される。
また、本発明は、コンピュータにより読み取られ実行される処理プログラムとして実施することが可能である。本発明を実現する処理プログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介して種々の通信網を利用した送受信により提供されるものである。
1:情報処理装置、10:制御部、101:文書種類特定部、103:判定部、105:抽出部、107:質問生成部、109:文書修正部、111:機械学習エンジン、113:送受信部、20:記憶部、201:第1記憶部、203:第2記憶部、205:第3記憶部、205a:記載必要項目有無記憶部、205b:記載必要項目修正記憶部、205c:差分記憶部、207:文書記憶部、209:出現回数・頻度記憶部、30:操作部、40:表示部、50:通信部

Claims (12)

  1. 被解析文書由来の被解析データを取得する被解析データ取得部と、
    前記被解析文書の種類に対応した記載必要項目の有無に関する判定基準データを取得する判定基準データ取得部と、
    前記被解析データと前記判定基準データとを用いて、前記被解析文書中における前記記載必要項目に関連する要求データの有無を判定する判定部と、
    前記判定部の判定結果を出力する出力部と、
    を有し、
    前記判定部は、前記被解析文書の種類に関連する属性データに基づいて、前記被解析文書の種類毎に定められた前記記載必要項目に関する要求データを前記判定基準データから取得し、前記取得した要求データと前記被解析データとを用いて、前記被解析文書中における前記要求データの有無を判定する、
    文書解析装置。
  2. 前記判定基準データは、文書の種類毎に記憶されたデータであって、前記種類の文書の記載必要項目を表すデータであり、
    前記要求データは、前記記載必要項目を検出するための単語であって、前記記載必要項目と関連する意味を有する複数の単語であり、
    前記属性データは、文書の種類を表すデータであり、
    前記判定部は、
    前記被解析データに前記記載必要項目と関連する意味を有する複数の単語のいずれかが含まれる場合、当該含まれる単語と対応する記載必要項目が前記被解析文書中に記載されていると判定する、
    請求項1に記載の文書解析装置。
  3. 前記記載必要項目を検出するための単語は、同じ種類の複数の文書における単語の出現回数又は単語の出現率が予め定められた閾値より大きい又は以上の単語である、
    請求項2に記載の文書解析装置。
  4. 前記判定基準データは、上位概念を表す第1単語であり、
    前記要求データは、前記第1単語の下位概念を意味する1又は複数の第2単語であり、
    前記属性データは、文書の種類を表すデータであり、
    前記判定部は、
    前記被解析データに前記第2単語のいずれかが含まれる場合、当該含まれる単語と対応する前記第1単語が前記被解析文書中に記載されていると判定する、
    請求項1に記載の文書解析装置。
  5. 前記出力部は、
    前記判定部により記載されていると判定された記載必要項目は出力せず、記載されていないと判定された記載必要項目を出力する、
    請求項1〜請求項4のいずれか1項に記載の文書解析装置。
  6. 前記出力部は、
    前記被解析文書に記載されていない前記記載必要項目の、前記被解析文書と同じ種類の複数の文書における出現回数又は出現率を合わせて出力する、
    請求項1〜請求項5のいずれか1項に記載の文書作成支援装置。
  7. 前記被解析文書中に記載必要項目が記載されていない場合、前記被解析文書中の単語を検索語として検索を実行し、前記記載必要項目に関する文書を取得する外部文書取得部
    を有する請求項1に記載の文書解析装置。
  8. 前記被解析文書中に記載必要項目が記載されていない場合、当該記載されていない記載必要項目を質問として入力し、前記入力された質問に対する解答をインターネット検索により取得する質問応答部
    を有する請求項1に記載の文書解析装置。
  9. 前記被解析文書中に記載必要項目が記載されていない場合、前記被解析文書に類似する複数の文書を取得し、前記取得した複数の文書中から前記記載必要項目を特定し、前記特定された記載必要項目の集合を作成し、前記作成された記載必要項目の集合中の単語の組み合わせを利用して決定した単語を前記記載必要項目として提示する類似文書利用単語提示部
    を有する請求項1に記載の文書解析装置。
  10. 前記判定基準データは、文書と、前記文書への前記記載必要項目の記載の有無と、を対応付けて記憶されたデータを教師データとして機械学習を実行した結果を表すデータであり、
    前記要求データは、前記機械学習により学習したデータであって、文書を構成する各要素である素性を表すデータであり、
    前記判定部は、前記被解析データ中に含まれる素性と、前記素性を表すデータとに基づいて、前記被解析文書中における前記記載必要項目データの記載の有無を判定する、
    請求項1に記載の文書解析装置。
  11. 前記判定部により前記被解析文書の中に前記記載必要項目が記載されていないと判定された場合、前記機械学習の結果に基づいて、前記被解析文書に前記記載必要項目を追加する追加部
    を有する請求項10に記載の文書解析装置。
  12. コンピュータを、
    被解析文書由来の被解析データを取得する被解析データ取得部と、
    前記被解析文書の種類に対応した記載必要項目の有無に関する判定基準データを取得する判定基準データ取得部と、
    前記被解析データと前記判定基準データとを用いて、前記被解析文書中における前記記載必要項目に関連する要求データの有無を判定する判定部と、
    前記判定部の判定結果を出力する出力部と、
    を有し、
    前記判定部は、前記被解析文書の種類に関連する属性データに基づいて、前記被解析文書の種類毎に定められた前記記載必要項目に関する要求データを前記判定基準データから取得し、前記取得した要求データと前記被解析データとを用いて、前記被解析文書中における前記要求データの有無を判定する、
    文書解析装置として機能させるためのプログラム。
JP2015093710A 2015-04-30 2015-04-30 文書解析装置、プログラム Active JP6535858B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015093710A JP6535858B2 (ja) 2015-04-30 2015-04-30 文書解析装置、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015093710A JP6535858B2 (ja) 2015-04-30 2015-04-30 文書解析装置、プログラム

Publications (2)

Publication Number Publication Date
JP2016212533A JP2016212533A (ja) 2016-12-15
JP6535858B2 true JP6535858B2 (ja) 2019-07-03

Family

ID=57549855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015093710A Active JP6535858B2 (ja) 2015-04-30 2015-04-30 文書解析装置、プログラム

Country Status (1)

Country Link
JP (1) JP6535858B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6715758B2 (ja) * 2016-12-26 2020-07-01 Kddi株式会社 分類器生成装置、分類器生成方法、及びコンピュータプログラム
JPWO2021176628A1 (ja) * 2020-03-05 2021-09-10
JP7473245B2 (ja) 2020-06-24 2024-04-23 Necソリューションイノベータ株式会社 判定方法
CN112150012A (zh) * 2020-09-27 2020-12-29 高维智慧社会信息咨询(江苏)有限公司 基于扎根理论的营商环境数据分析系统
JP7371057B2 (ja) * 2021-04-28 2023-10-30 デロイトトーマツファイナンシャルアドバイザリー合同会社 情報処理装置、情報処理方法、端末プログラム、サーバプログラム及び契約書修正支援システム
WO2024034232A1 (ja) * 2022-08-09 2024-02-15 コニカミノルタ株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103268A (ja) * 1992-09-22 1994-04-15 Ricoh Co Ltd 文書管理装置
JP2002183117A (ja) * 2000-12-13 2002-06-28 Just Syst Corp 文書校正支援装置、文書校正支援方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003308314A (ja) * 2002-02-15 2003-10-31 Ricoh Co Ltd 文書作成支援装置
JP5095128B2 (ja) * 2006-05-23 2012-12-12 株式会社東芝 データ処理装置
JP2008033887A (ja) * 2006-06-30 2008-02-14 Toshiba Corp 文書データ処理装置
JP5587821B2 (ja) * 2011-04-11 2014-09-10 日本電信電話株式会社 文書トピック抽出装置及び方法及びプログラム
CN103198057B (zh) * 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置
JP6533048B2 (ja) * 2014-10-29 2019-06-19 株式会社野村総合研究所 コンプライアンスチェックシステムおよびコンプライアンスチェックプログラム

Also Published As

Publication number Publication date
JP2016212533A (ja) 2016-12-15

Similar Documents

Publication Publication Date Title
JP6535858B2 (ja) 文書解析装置、プログラム
US9779085B2 (en) Multilingual embeddings for natural language processing
US9959776B1 (en) System and method for automated scoring of texual responses to picture-based items
JP5398007B2 (ja) 関係情報拡張装置、関係情報拡張方法、及びプログラム
US10339168B2 (en) System and method for generating full questions from natural language queries
CN106778878B (zh) 一种人物关系分类方法及装置
US10339167B2 (en) System and method for generating full questions from natural language queries
US20170371955A1 (en) System and method for precise domain question and answer generation for use as ground truth
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
Kedzie et al. Real-time web scale event summarization using sequential decision making
Yun Ying et al. Opinion mining on Viet Thanh Nguyen’s the sympathizer using topic modelling and sentiment analysis
Golpar-Rabooki et al. Feature extraction in opinion mining through Persian reviews
Rozovskaya et al. Adapting to learner errors with minimal supervision
Rais et al. Sentiment Analysis of Peduli Lindungi Application Using the Naive Bayes Method
da Rocha et al. A text as unique as a fingerprint: Text analysis and authorship recognition in a Virtual Learning Environment of the Unified Health System in Brazil
JP5366179B2 (ja) 情報の重要度推定システム及び方法及びプログラム
JP2009237640A (ja) 情報抽出装置、情報抽出方法および情報抽出プログラム
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP5182845B2 (ja) 情報抽出装置、情報抽出方法及び情報抽出プログラム
Bučar et al. Sentiment classification of the Slovenian news texts
JP4919386B2 (ja) 情報抽出・表示装置
Fritzner Automated information extraction in natural language
Rahab et al. An Enhanced Corpus for Arabic Newspapers Comments
Zafar et al. Analyzing adverbs impact for sentiment analysis using hadoop
Palakodety et al. Low resource social media text mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190410

R150 Certificate of patent or registration of utility model

Ref document number: 6535858

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250