JP6535858B2 - 文書解析装置、プログラム - Google Patents
文書解析装置、プログラム Download PDFInfo
- Publication number
- JP6535858B2 JP6535858B2 JP2015093710A JP2015093710A JP6535858B2 JP 6535858 B2 JP6535858 B2 JP 6535858B2 JP 2015093710 A JP2015093710 A JP 2015093710A JP 2015093710 A JP2015093710 A JP 2015093710A JP 6535858 B2 JP6535858 B2 JP 6535858B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- data
- analyzed
- word
- items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Document Processing Apparatus (AREA)
Description
好ましくは、前記判定基準データは、文書の種類毎に記憶されたデータであって、前記種類の文書の記載必要項目を表すデータであり、前記要求データは、前記記載必要項目を検出するための単語であって、前記記載必要項目と関連する意味を有する複数の単語であり、前記属性データは、文書の種類を表すデータであり、前記判定部は、前記被解析データに前記記載必要項目と関連する意味を有する複数の単語のいずれかが含まれる場合、当該含まれる単語と対応する記載必要項目が前記被解析文書中に記載されていると判定する。
好ましくは、前記記載必要項目を検出するための単語は、同じ種類の複数の文書における単語の出現回数又は単語の出現率が予め定められた閾値より大きい又は以上の単語である。
好ましくは、前記判定基準データは、上位概念を表す第1単語であり、前記要求データは、前記第1単語の下位概念を意味する1又は複数の第2単語であり、前記属性データは、文書の種類を表すデータであり、前記判定部は、前記被解析データに前記第2単語のいずれかが含まれる場合、当該含まれる単語と対応する前記第1単語が前記被解析文書中に記載されていると判定する。
好ましくは、前記出力部は、前記判定部により記載されていると判定された記載必要項目は出力せず、記載されていないと判定された記載必要項目を出力する。
好ましくは、前記出力部は、前記被解析文書に記載されていない前記記載必要項目の、前記被解析文書と同じ種類の複数の文書における出現回数又は出現率を合わせて出力する。
好ましくは、前記被解析文書中に記載必要項目が記載されていない場合、前記被解析文書中の単語を検索語として検索を実行し、前記記載必要項目に関する文書を取得する外部文書取得部を有する。
好ましくは、前記被解析文書中に記載必要項目が記載されていない場合、当該既視されていない記載必要項目を質問として入力し、前記入力された質問に対する解答をインターネット検索により取得する質問応答部を有する。
好ましくは、前記被解析文書中に記載必要項目が記載されていない場合、前記被解析文書に類似する複数の文書を取得し、前記取得した複数の文書中から前記記載必要項目を特定し、前記特定された記載必要項目の集合を作成し、前記作成された記載必要項目の集合中の単語の組み合わせを利用して決定した単語を前記記載必要項目として提示する類似文書利用単語提示部を有する。
好ましくは、前記判定基準データは、文書と、前記文書への前記記載必要項目の記載の有無と、を対応付けて記憶されたデータを教師データとして機械学習を実行した結果を表すデータであり、前記要求データは、前記機会学習により学習したデータであって、文書を構成する各要素である素性を表すデータであり、前記判定部は、前記被解析データ中に含まれる素性と、前記素性を表すデータと、に基づいて、前記被解析文書中における前記記載必要項目データの記載の有無を判定する。
好ましくは、前記判定部により前記被解析文書の中に前記記載必要項目が記載されていないと判定された場合、前記機械学習の結果に基づいて、前記被解析文書に前記記載必要項目を追加する追加部を有する。
好ましくは、コンピュータを、
被解析文書由来の被解析データを取得する被解析データ取得部と、前記被解析文書の種類に対応した記載必要項目の有無に関する判定基準データを取得する判定基準データ取得部と、前記被解析データと前記判定基準データとを用いて、前記被解析文書中における前記記載必要項目に関連する要求データの有無を判定する判定部と、前記判定部の判定結果を出力する出力部と、を有し、前記判定部は、前記被解析文書の種類に関連する属性データに基づいて、前記被解析文書の種類毎に定められた前記記載必要項目に関する要求データを前記判定基準データから取得し、前記取得した要求データと前記被解析データとを用いて、前記被解析文書中における前記要求データの有無を判定する、文書解析装置として機能させるためのプログラムである。
第1実施形態の文書解析装置は、ユーザーが作成した文書の中に記載必要項目が記載されているか否かを情報抽出技術を利用して判定し、その旨をユーザーに提示することで文書作成支援を行うものである。
図1は、第1実施形態の文書解析装置の構成例を示すブロック図である。第1実施形態の文書解析装置は、情報処理装置1によって実現される。情報処理装置1は、CPU等から構成されて各部を制御するとともに種々のプログラムやエンジンを実行する制御部10と、メモリ、ハードディスク、SSD(ソリッド・ステート・ドライブ)等の記憶媒体から構成され、種々のデータを記憶する記憶部20と、情報処理装置1を操作するためのタッチパネルやキーボード、音声入力部等で構成される操作部30と、文字、画像、動画等の情報を表示するディスプレー等の表示部40と、インターネットやイントラネット等のネットワークに接続され、外部の情報端末と通信する通信部50とを備える。
次に、図2、13及び14を用いて第1実施形態のうち、第1実施例の文書解析装置を利用した文書作成支援処理のフローについて説明する。第1実施例では、事前に第1記憶部201に記載必要項目に関するデータ(判定基準データ)を記憶した後に、それらのデータを利用して文書の中に記載必要項目が記載されているか否かを判定し、ユーザーに記載必要項目が欠如している旨を提示する、という流れである。
図2は事前に第1記憶部201に必記載必要項目に関するデータを記憶するときのフローを表すフローチャートである。第1実施例では、まず、記載必要項目とその項目の検出に役立つ単語を決定する。ここで、同じ種類の複数の文書に共通して出現する単語は記載必要項目の検出に役立つ単語である可能性が高いと考えられるため、記載必要項目の検出に役立つ単語を決定するために、文書記憶部207に記憶された同じ種類の複数の文書における単語の出現回数をカウントする(S11)。
1.意味ソートについて
意味ソートとは、単語を意味で並べかえるという考え方である。意味ソートは、単語の羅列を表示する際に50音順(もしくはEUC漢字コード順)で表示するのではなく、単語の意味の順番でソートして表示しようという考え方である。意味ソートについては、非特許文献10を参照のこと。
文書の種類毎に図2におけるS11〜S21までを繰り返し、記載必要項目に関するデータを第1記憶部201に記憶した後に、第1実施形態の文書作成支援処理が実行される。
図14は図13のS39における提示の1例である。第1実施例では、制御部10の指示により表示部40に図14のような画面が表示される。なお、このような画面を生成するためのデータは送受信部113を介して表示部40に出力される。
1.基本的な方法(TF−IDF法)の説明
w ∈W で加算
W:キーワードの集合
tf(w,D):収集されたデータでのwの出現回数
df(w):全文書でWが出現した文書の数
N:文書の総数
(数1)に示す式において、score(D)が高い文書データを類似した根拠情報データとして出力する。
本方法は、非特許文献「村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均「位置情報と分野情報を用いた情報検索」自然言語処理(言語処理学会誌) 2000年 4月,7巻,2 号, p.141 ~ p.160」 に記載されている。この非特許文献における(数2)が性能がよいことが知られている。そして、Σで積を取る前のtf項とidf項の積がOkapiのウェイティング法になって、この値を単語の重みに使う。
w ∈W で加算
length:データDの長さ
delta:データの長さの平均
データの長さは、データのバイト数、また、データに含まれる単語数などを使う。
次に、情報抽出技術により対象文書の中に記載必要項目が記載されているか否かを検出する第2実施例を示す。第1実施例ではユーザーが作成した文書に対して記載必要項目が欠如していることを検出したが、第2実施例ではインターネット上に存在する文書に対して上位・下位語を利用して記載必要項目の有無を検出する例である。ここで、上位・下位語とは、上位概念を表す上位語と、上位語の下位概念を表す下位語をあわせた表現である。上位・下位語の例としては、上位語「県」−下位語「愛知県、大阪府、京都府、鳥取県・・・」、上位語「元号」−下位語「天、平成、昭和、大正・・・」等である。なお、1つの上位語に対しては複数の下位語が存在する。そして、これらの上位語と下位語を対応付けて第2記憶部203に記憶する。第2実施例では上位語を図12における「項目名」、下位語を「項目の検出に役立つ単語」とみなして処理を実行する。なお、後述の「固有表現抽出」を利用する場合でも、固有表現抽出で取れるもの(「羽柴秀吉」、「鳥取県」など)を固有表現の種類(「人名」「地名」など)の下位語と見れば、同様に適用できる。
情報抽出技術を利用する第1実施形態の第3実施例は、第1実施形態の第2実施例に加え、情報検索技術を利用したものである。第1実施形態の第2実施例の処理の途中において、図15(a)の溝口城について見ると、「時代」の欄が空欄になっている。第3実施例では、「時代」の欄を人手で埋めるのではなく、WEB上の他の文書を参照する。
情報抽出技術を利用する第1実施形態の第4実施例は、第1実施形態の第2実施例に加え、例えば「特許第3882048号」の質問応答処理技術を利用したものである。第1実施形態の第2実施例の処理の途中において、図15(a)の溝口城について見ると、「時代」の欄が空欄になっている。このとき、制御部10は、「溝口城の時代は何ですか?」という質問文を生成し、図示しない質問応答システムに入力する。そして、入力された質問文に対して質問応答システムがWEB上で回答を探し出し、その回答を「時代」の欄に入力する。
情報抽出技術を利用する第1実施形態の第5実施例は、第1実施形態の第2実施例に加え、類似する文書集合を利用したものである。第1実施形態の第2実施例の処理の途中において、図15(a)の溝口城について見ると、「時代」の欄が空欄になっている。ここで、第1実施形態の第3実施例と同様に、WEB上から関連文書を検索する。これは、前述のようなキーワードの掛けあわせやスコアを利用した高度な検索などにより実現され、溝口城と「時代」に関係する文書が得られる。
あ, あ,4.310,1,10,*,
あ, 亜,1.104,2,40,,
あ, 亜,3.100,10,40,,
ああ, ああ,3.100,3,40,*,
ああ, ああ,4.310,1,20,*,
ああくとう, アーク燈,1.460,2,70,,
ああす, アース,1.462,6,10,,
ああち, アーチ,1.442,2,20,,
ああむほおる, アームホール,1.184,5,30,,
あある, アール,1.1961,4,10,,
あい, 愛,1.3020,9,10,*,
あい, 相,3.112,1,10,*,
あい, 藍,1.502,6,40,,
あいいく, 愛育,1.3642,1,40,,
あいいん, 愛飲,1.3332,3,60,,
あいいん, 合印,1.3114,1,30,Y,
あいうち, あい打ち,1.357,4,30,,
あいかぎ, 合鍵,1.454,8,50,,
あいかわらず, 相変らず,3.165,2,10,*,
あいかん, 哀歓,1.3011,4,60,,
あいがん, 哀願,1.366,1,100,,
あいがん, 愛翫,1.3852,2,10,,
あいぎ, 合着,1.421,4,40,,
あいきょう, 愛郷,1.3020,11,170,,
あいきょう, 愛嬌,1.3030,4,40,,
そして、上位3桁を意味分類と仮定し、種々の処理を実行することも可能である。
第2実施形態の文書解析装置は、ユーザーが作成した文書の中に記載必要項目が記載されていないことを教師あり機械学習技術を利用して検出し、その旨をユーザーに提示することで文書作成支援を行うものである。
基本的な装置の構成は第1実施形態と同様であるが、第2実施形態の第1実施例では図1に示された第3記憶部205及び機械学習エンジン111を利用する。
図16は、第3記憶部205の構成例を示すブロック図である。第3記憶部205は、記載必要項目有無記憶部205aと、記載必要項目修正記憶部205bと、差分記憶部205cを備える。
図18は第3記憶部205へデータを記憶し、機械学習を実行するときのフローを表すフローチャートである。S51にて文書の種類毎に記載必要項目を特定する。前述の例では、ある文書が機械学習に関する文書である(文書の種類:機械学習)場合、記載必要項目として「学習データ数」を特定する。つまり、文書の種類に応じて、その文書にどのような事項が記載されるべきであるかを検討するのである。なお、記載必要項目を複数特定してもよく、例えば「文書の種類:機械学習」である場合に、さらに記載必要項目として「アルゴリズム」、「教師の有無」等を特定しておいてもよい。次に、S53にて文書と当該文書における記載必要項目の記載の有無を対応付けたデータ(図17参照)を教師データとし、機械学習を実行する。S55にて文書中の素性と記載必要項目の記載の有無に関するルールを学習する。前述のように、対象文書中に「機械」、「学習」などが含まれているにも関わらず「データ」、「数」が含まれていなければかかる文書には記載必要項目「学習データ数」が記載されていない、と判定する等である。S57にて学習したルールを第3記憶部205に記憶し、処理を終える。
図20は図18のS79における提示の1例である。図20(a)は対象文書が「機械学習により実験を行った。結果は・・・」である場合である。かかる文書は図17(a)の文書ID4a及び5aと同一である。よって、図17(c)の差分データを参照すると、「学習データの個数は300である。」又は「学習データの個数は2500である。」が得られる。したがって、学習データ数をユーザーに選択させるための画面を表示する。なお、これに対しユーザーは操作部30により学習データ数を入力でき、学習データ数が「300」でも「2500」でもなければ「その他」を選択したあとに任意の数を入力する。
非特許文献4:サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.
非特許文献5:SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.
ただし、fmaxは以下の式(d)によって与えられる。
非特許文献7:Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998)
sgn(x)=1(x≧0)
−1(otherwise)
であり、また、各αiは式(i)と式(j)の制約のもと式(h)を最大にする場合のものである。
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi>0となるxiは、サポートベクトルと呼ばれ、通常、式(g)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
非特許文献9:Taku Kudoh, Tinysvm:Support Vector machines, (http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
次に、第2実施形態の第2実施例について説明する。第2実施例では、文書の「段落」を1つの単位として機械学習を実行する。ここで、記載必要項目無しの段落として、「機械学習により実験を行った。」とあり、これを修正して「機械学習により実験を行った。学習データの個数は500である。」とした。これらの差分を取ると、「学習データの個数は500である。」が得られる。したがって、対象文書内のある段落が「実験を行った。」で終わっていれば、「学習データの個数は500である。」を追加するという規則を得ることができる。
記載必要項目無しの段落:「機械学習により実験を行った。」
修正した段落:「機械学習により実験を行った。学習データの個数は500である。」
から、
問題:「機械学習により実験を行った。」
答え:悪い文書
問題:「機械学習により実験を行った。学習データの個数は500である。」
答え:良い文書
という学習データを自動で生成する。すなわち、記載必要項目無しの段落から作成したデータは悪い文書となり、修正した段落から作成したデータは良い文書となる。かかる学習データを多数作成し、それを機械学習で学習させると、どういう段落が良く、どういう段落が良くないかが理解できるようになる。なお、素性は、問題に出現した単語のtf、idf、tf−idf、単語、単語の意味分類、単語の共起語等を用いる。
論文において記載すべき情報が記載されていない場合が存在する。その場合、研究の内容が読者に伝わり難いという問題が発生する。本研究では、論文に記載すべき情報を「記載必要項目」と定義し、論文内で記載必要項目が欠落している論文を自動検出することで、論文の文章作成支援を行うことを目的とする。多くの論文に出現する単語は記載必要項目である可能性が高いと考える。 本研究では、 全論文を出現論文数で割ることで出現率を算出し、 出現率の高い単語を調査する。さらに、 出現率の高い単語に類似している単語は記載必要項目の検出に役立つ単語であると考え、 類似している単語を調査する。 出現率の高い単語とその単語に類似している単語を参考に人手で検討し、 記載必要項目とその項目の検出に役立つ単語を決定する。
第 1 章 はじめに
第 2 章 研究の流れ
第 3 章 記載必要項目と検出に役立つ単語の決定 8
3.1 問題設定
3.2 決定手順
3.2.1 頻度調査
3.2.2 意味ソート
3.2.3 人手での検討
3.3 データ
3.4 決定結果
3.4.1 頻度調査の結果
3.4.2 意味ソートの結果
3.4.3 記載必要項目と検出に役立つ単語の決定結果
第 4 章 文章作成支援
4.1 問題設定
4.2 記載必要項目が欠落している論文の検出方法
4.3 データ
4.4 評価方法
4.4.1 評価の手順
4.4.2 F 値
4.4.3 人手での判別基準
4.4.4 カッパ係数による人手での判別基準の評価
4.5 実験結果
4.5.1 人手での判別基準とその基準の評価
4.5.2 文章作成支援の実験結果
4.6 考察
4.6.1 文章作成支援の実験考察
第 5 章 おわりに
例-", 自然言語処理, Vol,7, No,1, pp,51-66, 2000.
非特許文献11: 菅沼明, 牛島和夫: "テキスト処理による推敲支援情報の抽出", 人工知能学会誌, 23巻, 1 巻, pp,25-32, 2008.
非特許文献12: Masaki Murata, Hitoshi Isahara: "Automatic detection of mis-spelled Japanese expressions using a new method for automatic extraction of negative examples based on positive examples", IEICE Transactions, VOL,E85-D, No,9, pp,1416-1424, 2002.
非特許文献13: 村田真樹, 井佐原均: "自動言い換え技術を利用した三つの英語学習支援システム",情報科学技術レターズ, 3 巻, pp,85-88, 2004.
非特許文献14: 内元清貴, 村田真樹, 馬青, 関根聡, 井佐原均: "コーパスからの語順の獲得",言語処理学会論文誌「自然言語処理」,Vol,7,No,4,pp,163-180, 2000.
非特許文献15: 村田真樹, 馬青, 井佐原均, 内元清貴: "日本語文と英語文における統語構造認識とマジカルナンバー7±2", 言語処理学会論文誌「自然言語処理」, Vol,6, No,7, pp,61-73, 1999
論文において研究成果や研究の必要性・有効性などの記載すべき情報が記載されていない場合が存在する。その場合、研究の内容が読者に伝わり難いという問題が発生する。本研究では、論文に記載すべき情報を「記載必要項目」と定義し、論文内で記載必要項目が欠落しているか否かを自動検出することで、論文の文章作成支援を行うことを目的とする。
1. 論文内で記載必要項目が欠落しているか否かを自動判別し、文章作成支援を行う。
2. 論文の記載必要項目を利用して論文の文章作成支援を行う先行研究はないという新規性がある。
3. 記載必要項目の検出に役立つ単語を決定し、それらの単語の有無によって記載必要項目の欠落を自動判別できる。
4. 本研究では6つの記載必要項目を決定し、それらの項目が欠落している論文を検出した。その結果、6つの項目のうち4つの項目が欠落している論文を0.6から0.8という比較的高いF値で検出できた。
5. 全ての論文を文章作成支援の対象として検出した場合と比較した結果、本研究の提案手法のほうが検出精度が高いことが確認された。
本研究の全体の流れを以下に示す。
1.記載必要項目とその項目の検出に役立つ単語を決定する。
2.検出に役立つ単語とルールベースを利用して記載必要項目が欠落している論文を自動検出する。
2.2の検出結果が文章作成支援に役立っているか否かを人手で判別し、評価する。
本研究では、初めに、記載必要項目とその項目の検出に役立つ単語を決定する。多くの論文に出現する単語は記載必要項目の検出に役立つ単語である可能性が高いと考える。そこで、記載必要項目の検出に役立つ単語を決定するために、論文内での単語の頻度調査を行う。論文に出現する単語ごとの出現率を算出し、出現率の高い単語を調べる。出現率の高い単語から記載必要項目の検出に役立つ単語であるかを人手で検討し決定する。
3.1問題設定
記載必要項目と記載必要項目の検出に役立つ単語を決定する。検出に役立つ単語が一つもない場合は記載必要項目が欠落している論文であると判別でき、記載必要項目が欠落している論文の検出に役立つと考える。
記載必要項目とその項目の検出に役立つ単語の決定は以下の手順で行う。
1.多くの論文に出現する単語を調査する(3.2.1節)
2.1の結果から意味ソート(非特許文献10)を利用して意味の類似している単語をまとめて表示させる(3.2.2節)
3.2の結果を人手で検討して、記載必要項目とその項目の検出に役立つ単語を決定する(3.2.3節)
3.2.1頻度調査
多くの論文に出現する単語は論文の記載必要項目である傾向である可能性が高いと考えられる。単語の出現した論文数を全論文数で割ることで単語の出現率を算出する。例えば、全論文300件中250件の論文に単語「Z」が存在している場合、単語「Z」の出現率は250/300となる。
記載必要項目の検出に役立つ単語に類似している単語も記載必要項目の検出に役立つ単語である可能性があると考える。例えば「手法」という単語が記載必要項目の検出に役立つ単語である場合、その単語に類似している「方式」などの単語も記載必要項目の検出に役立つ単語である可能性がある。本研究では、記載必要項目の検出に役立つ単語に類似している単語を調査するために意味ソート(非特許文献10)を利用する。意味ソート(非特許文献10)は意味の類似している単語をまとめて表示させることができる。これにより出現率の低い単語も参考にでき、より詳細な記載必要項目とその項目の検出に役立つ単語が決定できると考える。
3.2.2節の結果を参考にして、人手で記載必要項目とその項目の検出に役立つ単語を検討し決定する。
記載必要項目の決定を行う際に使用した実験データは、1994年から2013年の言語処理学会論文誌(393件)である。
3.4.1頻度調査の結果
本研究では、3.2.1節で挙げられた方法で頻度調査を行った。全論文数は393件あり、その論文中に出現する単語の総数は19、234単語であった。その内の出現率の高い上位100単語までの結果をまとめて図26に示す。
論文での出現率の高い上位500単語を意味ソート(非特許文献10)を使ってソートし、意味の類似している単語をまとめて表示させた。意味ソート(非特許文献10)の結果の一部を図12(b)に示す。
3.4.1節から研究の重要性・有用性を表す可能性がある「重要」や新規性を表す可能性がある「異なる」などの出現率が高いことがわかった。研究の重要性や新規性が存在しない論文は研究の内容が理解し難くなる可能性が高いので、「重要」「異なる」なども記載必要項目である可能性が高いと考えられる。また、「問題」「目的」などが存在しない論文は何が問題で何を目的にしているかを理解できなくなる可能性が高いと考えられる。さらに、「例えば」などが存在しない論文でも理解しやすい具体例などがない可能性があり、論文の内容の理解が難しくなる可能性があると考える。従って、「目的」「問題」「例えば」なども記載必要項目である可能性が高いと考えられる。
4.1問題設定
図27の結果を基にルールベースで記載必要項目が欠落している論文を検出する。記載必要項目を補う必要がある論文が自動検出できれば、論文の文章作成支援に役立つとする。
図27の検出に役立つ単語をルールとしてルールベースを利用し論文の検出を行う。図27の検出に役立つ単語が一つも出現していない論文を記載必要項目が欠落している論文であると判別し、検出する。
文章作成支援の実験を行う際に、2011年度の年次大会論文(266件)を学習データとして使用し、2012年度の年次大会論文(305件)をテストデータとして使用した。また、学習データを5.4.3節の判別基準の設定に利用し、テストデータを評価に利用する。
4.4.1評価の手順
文章作成支援の評価は、以下の手順で行う。
1.4.2節で記載必要項目が欠落している論文であると判別され、ルールベースで検出されたものが文章作成支援に役立っている(その記載必要項目を補う必要がある)かを人手で判別する。
2.1の結果から提案手法であるルールベースのF値を算出する。
3.全ての論文をシステムの出力にした場合(全ての論文を記載必要項目が欠落している論文であると判別し、検出した場合)をベースラインとして、ベースラインのF値を算出する。
4.2と3で算出した結果から提案手法であるルールベースとベースラインのF値を比較し評価を行う。
本研究では文章作成支援の精度を再現率(recall)、適合率(precision)、F値(F-measure)で評価する。再現率と適合率は以下の式で算出される。
再現率=システムの正解数/テストデータ中の正解数(4.1)
適合率=システムの正解数/システムの出力数(4.2)
本研究では文章作成支援に役立っている論文を正解として(4.1)と(4.2)を算出した。また、(4.1)と(4.2)の値の調和平均(4.3)を求めることでF値を算出できる。
F値=2×適合率×再現率/適合率+再現率(4.3)
それぞれの項目の人手での判別でばらつきが生じないように項目ごとに基準を設定する。何故なら、曖昧な判別を行い、判別結果がばらつくとそれだけ再現率・適合率・F値が正確でなくなるからである。より正確な再現率・適合率・F値を求めるために2011年度の年次大会論文(266件)の学習データを使用し、提案手法で処理した結果を人手で評価する。そこでの評価を参考にして、人手での判別基準を設定する。
本研究では5.4.3節の人手での判断基準をカッパ係数を利用して評価する。カッパ係数とは、ある現象を観察者が観察した場合の結果がどの程度一致しているかを表す統計量である。カッパ係数は以下の数式で求められる。
κ=Pr(a)‐Pr(e)/1‐Pr(e)(4.4)
κはカッパ係数、Pr(a)は見掛け上の一致率で、Pr(e)は偶然の一致率を示す。本研究では2人の観察者の一致率でカッパ係数を算出する。図28はカッパ係数評価指標を示す。
4.5.1人手での判別基準とその基準の評価
2011年度の年次大会論文(266件)の学習データ内の論文を人手で判別し、判別基準を設定する人物一人(人物Aとする)と人物Aとは別の人物一人(人物Bとする)が人物Aの設定した判別基準を参考に人手で判別を行った。人物Aと人物Bの合計二人の判別結果の一致率からカッパ係数を算出した。また、人物Aが学習データにおいて人手判別したものからランダムに文章作成支援に役立っているものと役立っていないものをそれぞれ12件ずつ取り出した。その合計24件の論文を人物Bが判別基準を参考にして人手判別した。本研究で設定した判別基準でのカッパ係数は0.67であった。
判別したものは○、文章作成支援に役立たないと判別したものは×としている。図29は各記載必要項目の判別基準を示す。
2012年度の年次大会論文(305件)をテストデータとして実験を行った。結果を図30〜図33に示す。
4.6.1文章作成支援の実験考察
図30〜図33を見るとそれぞれベースラインよりもルールベースのほうがF値が高いことがわかる。また、図33の「例」についての結果を見ると、ベースラインと提案手法であるルールベースのF値の差は0.80もあることもわかる。さらに図30の「比較」についての結果もベースラインと提案手法であるルールベースの差が約0.3あることもわかる。
記載必要項目が欠落している論文として検出された結果のうち人手で正解であると判別した論文の一部を具体例として以下に示す。また、記載必要項目を補う必要がある論文を正解としている。
記載必要項目「目的」が欠落している論文として検出された結果のうち人手で正解であると判別した論文の一部を図34に示す。
1. 2つの問題点を解決することを目的にしている
2. 完全に解決する方法が見つかっていないので、完全に解決する方法についての手
法を提案することを目的にしている
3. 問題点がトレードオフの関係であるということを知ることを目的にしている
4. 大規模なコーパスを扱える環境を得ることを目的にしている
5. 日本語のコーパスにおける研究を行うことを目的にしている
6. 大規模な日本語コーパスで言語モデルの振る舞いを定量的に確認することを目的
にしている
4.7.2「問題点」についての具体例
記載必要項目「問題点」が欠落している論文として検出された結果のうち人手で正解であると判別した論文の一部を図35に示す。
記載必要項目「比較」が欠落している論文として検出された結果のうち人手で正解であると判別した論文は論文全体を読んでも先行研究の比較や比較実験を表す文章がなく、論文内のどこで先行研究との比較を行っているかが理解できない。また、論文全体を読む必要があるので論文の一部を例として示すことができない。
記載必要項目「例」が欠落している論文として検出された結果のうち人手で正解であると判別した論文は論文全体を読んでも具体例がなく、理解が難しい複雑な手法などを読み手が理解できなくなる。また、論文全体を読む必要があるので、論文の一部を例として示すことができない。
本研究では、論文の文章作成支援を行うことを目的に、論文の記載必要項目を調査し、その結果を基にルールベースによって記載必要項目が欠落している論文を検出した。また、本研究で決定した記載必要項目のうち「重要性」「新規性」以外の項目を検出することができた。さらに「比較」「問題」「目的」はF値が0.6から0.7で検出でき、「例」はF値が0.86で検出できた。
文章を作成する際に内容が欠落してしまうことがある。情報の欠落した文章はとても読み難いものである。そこで文書から重要情報の欠落を抽出しユーザに指摘する技術が求められている。そこで本研究では、城に関する重要情報を Wikipedia から抽出し、抽出した情報をもとに文章の欠落箇所を抽出し文章作成支援をすることを目的とする。多くの記事で共通して現れる項目を重要項目として、それに関わる情報を取り出して表の形に整理する。表において空欄になっている箇所は、Wikipedia 内で情報が欠けておりその情報を埋めるように文章を書くとよく、そのように文章作成支援をする。またその有効
性を確認するための実験も行う。
第 1 章 はじめに
第 2 章 提案手法
2.1 重要情報の抽出
2.1.1 固有表現に基づく手法
2.1.2 上位下位知識に基づく
2.2 文章作成支援
第 3 章 実験環境
3.1 実験データ
3.2 固有表現抽出
3.3 上位下位知識
3.3.1 頻度分析
第 4 章 実験
4.1 実験条件
4.2 表の評価方法
4.2.1 固有表現抽出に基づく手法
4.2.2 上位下位知識に基づく手法
4.2.3 比較手法
4.3 F 値の算出式
4.4 実験結果
4.4.1 実験1 固有表現抽出を用いた情報抽出の結果
4.4.2 実験 1 上位下位知識を用いた情報抽出の結果
4.4.3 実験2 文章作成支援の性能評価
4.4.4 比較実験
4.4.5 文章作成支援の成功例
第 5 章 おわりに
非特許文献16:CaboCha/南 瓜: Yet Another Japanese Dependency Structure Analyzerhttp://code.google.com/p/cabocha/
非特許文献17:上 位 下 位 関 係 抽 出 ツ ー ル Version1.0 : Hyponymy extraction toolhttp://alaginrc.nict.go.jp/hyponymy/
文章を作成する際に内容が欠落してしまうことがある。情報の欠落した文章はとても読み難いものである。そこで文書から重要情報の欠落を抽出しユーザに指摘する技術が求められている。本研究では、城に関する重要情報を Wikipedia から抽出し、抽出した情報をもとに文章の欠落箇所を抽出し文章作成支援をすることを目的とする。多くの記事で共通して現れる項目を重要項目として、それに関わる情報を取り出して図36 のような形に整理する。表において空欄になっている箇所は、Wikipedia 内で情報が欠けておりその情報を埋めるように文章を書くとよく、そのように文章作成支援をする。またその有効性を確認するための実験も行う。
1. 重要情報の抽出
1-1. 重要情報の抽出には固有表現抽出に基づく手法と上位下位知識に基づく手法を用いる。
1-2. 抽出した重要情報を表の形に可視化する。
1-3. 固有表現抽出に基づく手法では 0.6 から 0.8 の正解率で重要情報の抽出ができた。上位下位知識に基づく手法では、「地名」を除く項目で約 8 割の正解率であった。
2. 文章作成支援
2-1. 重要情報の抽出のみならず文章作成支援も行えるという新規性がある。
2-2. 文章作成支援の性能は固有表現抽出に基づく手法では 0.53 の F 値であり、上位下位知識に基づく手法では 0.85 の F 値であった。
2-3. 提案手法と比較手法とを比較した結果、固有表現抽出に基づく手法、上位下位知識に基づく手法ともに比較手法より性能が良かった。
本研究の手法は文章内における重要情報の抽出と、文章作成支援の二つの段階からなる。
3.1 重要情報の抽出
Wikipedia の城に関するページ (対象データ) を抽出し、その中から城に関する重要情報をCaboCha(固有表現抽出ツール)(非特許文献16)を用いた固有表現抽出に基づく手法とALAGIN(非特許文献17)の上位下位知識に基づく手法の 2 手法で抽出する。抽出は城のページ単位で行う。図37 のように最初に出現した重要情報のみをまとめた表と、図38 のように出現した全ての重要情報をまとめた表の 2 つを作成する。
対象データから CaboCha を用いて、「人名」「地名」「組織名」に分類された語句を抽出し表にまとめる。この手法では城に関わる人物や、城の所在地などの重要情報が抽出される。
CaboChaは文書において固有表現を抽出できるルールである。文書中にある「羽柴秀吉」、「鳥取」などを人名や地名として認識できる。非特許文献:上田太一郎 監修:「事例で学ぶテキストマイニング」共立出版2008にも固有表現抽出、CaboChaの説明がある。
固有表現の認識は上記のような既存のツールを用いてもよいし、規則に基づく方法、機械学習に基づく方法をで行ってもよい。
規則に基づく方法。
形態素解析結果に基づく各単語の品詞の情報、また単語自体の情報を利用した規則を人手で記述し、その規則を利用して固有表現抽出を行う。
規則の例
名詞+「さん」の場合、人名とする
名詞+「首相」の場合、人名とする
名詞+「町」の場合、地名とする
名詞+「市」の場合、地名とする
機械学習に基づく方法
機械学習の方法を利用する。正しい固有表現の情報を記述した大量のデータから、どういう表現が固有表現として正しいかを学習する。
固有表現の種類は、人名、地名に限らず、商品名、型番、大学名など様々なものを固有表現としてもよい。
上位下位知識を用いて対象データで下位語の頻度分析を行い、頻度が高かった下位語の上位語を重要項目とする。対象データで重要項目の下位語を取り出し、表にまとめる。固有表現抽出を用いた手法では抽出できなかった情報を抽出できる可能性がある。固有表現抽出に基づく手法と同様に。
重要情報の抽出で作成する表の空欄箇所を情報が欠けている項目と判定し、そのことをユーザに知らせ記載の追加を促すことで文章作成支援をする。図39 に文章作成支援に用いられる表の例を示す。この表において空欄になっている箇所が情報抽出の結果 Wikipedia 内に正解がないと判定された箇所である。本研究の文章作成支援の研究では、このような表の空欄箇所を情報の欠落としてユーザに知らせることを目的とする。
3.1 実験データ
本研究では Wikipedia(2014 年 11 月現在) のうち、記事タイトルが城で終っているページ (2665 ページ) を利用する。Wikipedia の記事の例を図40に示す。
本研究では Wikipedia の城に関する記事から、固有表現を抽出するために CaboChaを用いる。以下の図41が具体例である。 活用型、 活用形の後に固有表現タグが付与される。LOCATION は「地名」を、 PERSON は「人名」を、 ORGANIZATION は「組織名」をそれぞれ表す。本研究ではこの 3 つのタグのどれかが付与された表現を抽出する。
本研究は上位下位関係の抽出に ALAGIN の上位下位関係抽出ツールを用いる。上位下位関係抽出ツールは、Wikipedia から上位下位関係となる用語ペアを数百万対のオーダーで抽出できるツールである。上位下位関係とは、"X は Y の一種 (一つ) である"と言える X と Y の関係を言う。 X のことを下位語、Y のことを上位語と呼ぶ。上位下位関係の抽出例を図42 に示す。
上位下位知識を用いて頻度分析を行い、下位語の出現記事数が 100 件を超えている上位語を取り出した。その結果において出現記事数が多かったものと、少かったものの例をそれぞれ 15 件ずつを図43に示す。その取り出したものの中から重要項目になりうると思われるものを人手で選んだ。その結果「県」「時代」「地名」「元号」という4 つの上位語を重要項目とした。その 4 つの上位語の下位語が出現した記事数をまとめたものを図44に示す。
4.1 実験条件
実験データには、Wikipediaの3、264、893ページ(2014年11月現在)を用いる。Wikipediaからのデータの抽出は、記事単位で行う。本研究では「城」というキーワードに基づき記事の抽出を行う。
実験 1:固有表現抽出に基づく手法と上位下位知識に基づく手法を用いて、Wikipedia の城に関するページの情報抽出を行い、表にまとめる。さらに、固有表現抽出に基づく手法で抽出された重要情報の正解率を「地名」「人名」「組織名」でそれぞれ求め、上位下位知識に基づく手法で抽出された重要情報の正解率を「県」「時代」「地名」「元号」でそれぞれ求める。
実験 2:重要情報抽出の実験において作成された表の空欄が、正しく抽出されているかどうかの性能評価を行う。その後、比較手法と提案手法の性能の比較を行う。
4.2.1 固有表現抽出に基づく手法
ランダムに選択した 30 件を用いて評価を行う。「地名」の項目は、県名または所在地が抽出された場合正解とする。「人名」の項目は、築城主、城主のどちらかが抽出された場合正解とする。「組織名」の項目は、城に関すると思われる組織が抽出された場合正解とする。空欄が抽出された場合は Wikipedia 内に本当に正解の記載が無かった場合正解とする。出現した全ての重要情報をまとめた表では、1 つでも正解が抽出された場合正解とする。
ランダムに選択した 30 件を用いて評価を行う。「県名」の項目は、その城が存在する県名が抽出された場合正解とする。「時代」の項目は、築城されてから廃城するまでの時代のいずれかが抽出された場合正解とする。「地名」の項目は、城の所在地が抽出された場合正解とする。「元号」の項目は、築城されてから廃城するまでの元号のいずれかが抽出された場合正解とする。空欄が抽出された場合は Wikipedia 内に本当に正解の記載が無かった場合正解とする。出現した全ての重要情報をまとめた表では、1 つでも正解が抽出された場合正解とする。
文章作成支援の実験において、有効性確認のために固有表現抽出に基づく手法と上位下位知識に基づく手法で作成した表を、全て空欄と仮定して F 値を求める。
文章作成支援の評価実験では以下の算出式を用いて F 値を求める。
F = (2 ×適合率×再現率/適合率 + 再現率) (4.1)
適合率 = 空欄かつ Wikipedia 内に正解がないもの/空欄のもの (4.2)
再現率 = 空欄かつ Wikipedia 内に正解がないもの/Wikipedia 内に正解がないもの
(4.3)
4.4.1 実験1 固有表現抽出を用いた情報抽出の結果
固有表現抽出を用いて抜き出した重要情報のうち最初に出現したものだけをまとめたものを図45 に、出現した全ての重要情報をまとめたものを図46 に示す。その 2つの表を評価したものを図47 に示す。抽出した結果の正解率を求めると「地名」は0.83、「人名」は 0.83、「組織名」は 0.63 という正解率であった。図45 において太字で表記されているものは、正解と判断したものである。また、○と表記されているものは Wikipedia 内に正解の記載が無く、空欄が正しく抽出されたと判断したものである。図47 で、括弧で記載してあるものは 30 件を評価したうち正解と判断したものの数である。
頻度分析によって得られた上位語を用いて抜き出した重要情報のうち、最初に出現したものだけをまとめたものを図48 に、出現した全ての重要情報をまとめたものを図49 に示す。その 2 つの表を評価したものを図50 に示す。抽出した結果の正解率を求めると「県」は 0.83、「時代」は 0.93、「地名」は 0.26、「元号」は 0.83 という正解率であった。図48 において太字で表記されているものは、正解と判断したものである。また、○と表記されているものは Wikipedia 内に正解の記載が無く、空欄が正しく抽出されたと判断したものである。図50 で、括弧で記載してあるもののうちの分子の
値は 30 件を評価したうち正解と判断したものの数であり、分母は評価した数の 30 である。
Wikipedia の城ページにおいて実際に情報が欠落していた項目を、情報抽出の実験で適切に空欄として検出できると、文章作成支援が適切に行えたと考える。この空欄箇所に基づく情報の欠落項目の検出性能を再現率、適合率、F 値で評価した。その結果を図51 に示す。固有表現抽出に基づく手法では 0.53 の F 値であり。上位下位知識に基づく手法では 0.85 の F 値であった。上位下位知識に基づく手法の性能の方が良かった。
固有表現抽出に基づく手法と比較手法との比較結果を図52、上位下位知識に基づく手法との比較結果を図53 に示す。比較実験の結果どちらの手法とも比較手法より性能が良かった。
文章作成支援の成功例について説明する。図54 では、情報抽出した結果 Wikipedia内に正解の記載が無く、空欄を抽出したことになっている。そこで実際に Wikipedia内を確認したところ、実際に正解の記載が無かった。空欄が正しく抽出できていたものについてはウェブの他のページを用いて正解を書き込んだ。図54 について、この表では空欄を正しく抽出できており、Wikipedia 内に正解の記載がなかったので、他のウェブページを参考に正解の情報を書き込んだ。実際に書き込んだものを図55に示す。このように正しく空欄を抽出でき、かつ、空欄の内容は他のページを参考にすれば記載可能であるため、図54 は文章作成支援に役立つ例となっている。
本研究では文章中の重要情報の記載欠落を指摘するために、2 段階の手法を提案した。その手法とは Wikipedia からの重要情報抽出に固有表現抽出に基づく手法と、上位下位知識に基づく手法の2つである。また、重要情報の抽出と同時に文章作成支援をする実験を行った。Wikipedia からの重要情報の抽出実験の結果、固有表現抽出に基づく手法では 0.6 から 0.8 の正解率で重要情報の抽出ができた。上位下位知識に基づく手法では、「地名」を除く項目で約 8 割の正解率であった。文章作成支援の性能は、固有表現抽出に基づく手法では 0.53 の F 値であり、上位下位知識に基づく手法で 0.85 のF 値であった。上位下位知識に基づく手法の性能の方が良かった。また、重要情報の抽出で作成した表の項目を全て空欄とみなす比較手法と比較した結果、固有表現抽出に基づく手法、上位下位知識に基づく手法ともに比較手法より性能が良かった。
Claims (12)
- 被解析文書由来の被解析データを取得する被解析データ取得部と、
前記被解析文書の種類に対応した記載必要項目の有無に関する判定基準データを取得する判定基準データ取得部と、
前記被解析データと前記判定基準データとを用いて、前記被解析文書中における前記記載必要項目に関連する要求データの有無を判定する判定部と、
前記判定部の判定結果を出力する出力部と、
を有し、
前記判定部は、前記被解析文書の種類に関連する属性データに基づいて、前記被解析文書の種類毎に定められた前記記載必要項目に関する要求データを前記判定基準データから取得し、前記取得した要求データと前記被解析データとを用いて、前記被解析文書中における前記要求データの有無を判定する、
文書解析装置。 - 前記判定基準データは、文書の種類毎に記憶されたデータであって、前記種類の文書の記載必要項目を表すデータであり、
前記要求データは、前記記載必要項目を検出するための単語であって、前記記載必要項目と関連する意味を有する複数の単語であり、
前記属性データは、文書の種類を表すデータであり、
前記判定部は、
前記被解析データに前記記載必要項目と関連する意味を有する複数の単語のいずれかが含まれる場合、当該含まれる単語と対応する記載必要項目が前記被解析文書中に記載されていると判定する、
請求項1に記載の文書解析装置。 - 前記記載必要項目を検出するための単語は、同じ種類の複数の文書における単語の出現回数又は単語の出現率が予め定められた閾値より大きい又は以上の単語である、
請求項2に記載の文書解析装置。 - 前記判定基準データは、上位概念を表す第1単語であり、
前記要求データは、前記第1単語の下位概念を意味する1又は複数の第2単語であり、
前記属性データは、文書の種類を表すデータであり、
前記判定部は、
前記被解析データに前記第2単語のいずれかが含まれる場合、当該含まれる単語と対応する前記第1単語が前記被解析文書中に記載されていると判定する、
請求項1に記載の文書解析装置。 - 前記出力部は、
前記判定部により記載されていると判定された記載必要項目は出力せず、記載されていないと判定された記載必要項目を出力する、
請求項1〜請求項4のいずれか1項に記載の文書解析装置。 - 前記出力部は、
前記被解析文書に記載されていない前記記載必要項目の、前記被解析文書と同じ種類の複数の文書における出現回数又は出現率を合わせて出力する、
請求項1〜請求項5のいずれか1項に記載の文書作成支援装置。 - 前記被解析文書中に記載必要項目が記載されていない場合、前記被解析文書中の単語を検索語として検索を実行し、前記記載必要項目に関する文書を取得する外部文書取得部
を有する請求項1に記載の文書解析装置。 - 前記被解析文書中に記載必要項目が記載されていない場合、当該記載されていない記載必要項目を質問として入力し、前記入力された質問に対する解答をインターネット検索により取得する質問応答部
を有する請求項1に記載の文書解析装置。 - 前記被解析文書中に記載必要項目が記載されていない場合、前記被解析文書に類似する複数の文書を取得し、前記取得した複数の文書中から前記記載必要項目を特定し、前記特定された記載必要項目の集合を作成し、前記作成された記載必要項目の集合中の単語の組み合わせを利用して決定した単語を前記記載必要項目として提示する類似文書利用単語提示部
を有する請求項1に記載の文書解析装置。 - 前記判定基準データは、文書と、前記文書への前記記載必要項目の記載の有無と、を対応付けて記憶されたデータを教師データとして機械学習を実行した結果を表すデータであり、
前記要求データは、前記機械学習により学習したデータであって、文書を構成する各要素である素性を表すデータであり、
前記判定部は、前記被解析データ中に含まれる素性と、前記素性を表すデータとに基づいて、前記被解析文書中における前記記載必要項目データの記載の有無を判定する、
請求項1に記載の文書解析装置。 - 前記判定部により前記被解析文書の中に前記記載必要項目が記載されていないと判定された場合、前記機械学習の結果に基づいて、前記被解析文書に前記記載必要項目を追加する追加部
を有する請求項10に記載の文書解析装置。 - コンピュータを、
被解析文書由来の被解析データを取得する被解析データ取得部と、
前記被解析文書の種類に対応した記載必要項目の有無に関する判定基準データを取得する判定基準データ取得部と、
前記被解析データと前記判定基準データとを用いて、前記被解析文書中における前記記載必要項目に関連する要求データの有無を判定する判定部と、
前記判定部の判定結果を出力する出力部と、
を有し、
前記判定部は、前記被解析文書の種類に関連する属性データに基づいて、前記被解析文書の種類毎に定められた前記記載必要項目に関する要求データを前記判定基準データから取得し、前記取得した要求データと前記被解析データとを用いて、前記被解析文書中における前記要求データの有無を判定する、
文書解析装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015093710A JP6535858B2 (ja) | 2015-04-30 | 2015-04-30 | 文書解析装置、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015093710A JP6535858B2 (ja) | 2015-04-30 | 2015-04-30 | 文書解析装置、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016212533A JP2016212533A (ja) | 2016-12-15 |
JP6535858B2 true JP6535858B2 (ja) | 2019-07-03 |
Family
ID=57549855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015093710A Active JP6535858B2 (ja) | 2015-04-30 | 2015-04-30 | 文書解析装置、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6535858B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6715758B2 (ja) * | 2016-12-26 | 2020-07-01 | Kddi株式会社 | 分類器生成装置、分類器生成方法、及びコンピュータプログラム |
JPWO2021176628A1 (ja) * | 2020-03-05 | 2021-09-10 | ||
JP7473245B2 (ja) | 2020-06-24 | 2024-04-23 | Necソリューションイノベータ株式会社 | 判定方法 |
CN112150012A (zh) * | 2020-09-27 | 2020-12-29 | 高维智慧社会信息咨询(江苏)有限公司 | 基于扎根理论的营商环境数据分析系统 |
JP7371057B2 (ja) * | 2021-04-28 | 2023-10-30 | デロイトトーマツファイナンシャルアドバイザリー合同会社 | 情報処理装置、情報処理方法、端末プログラム、サーバプログラム及び契約書修正支援システム |
WO2024034232A1 (ja) * | 2022-08-09 | 2024-02-15 | コニカミノルタ株式会社 | 情報処理装置、情報処理方法及びプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06103268A (ja) * | 1992-09-22 | 1994-04-15 | Ricoh Co Ltd | 文書管理装置 |
JP2002183117A (ja) * | 2000-12-13 | 2002-06-28 | Just Syst Corp | 文書校正支援装置、文書校正支援方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003308314A (ja) * | 2002-02-15 | 2003-10-31 | Ricoh Co Ltd | 文書作成支援装置 |
JP5095128B2 (ja) * | 2006-05-23 | 2012-12-12 | 株式会社東芝 | データ処理装置 |
JP2008033887A (ja) * | 2006-06-30 | 2008-02-14 | Toshiba Corp | 文書データ処理装置 |
JP5587821B2 (ja) * | 2011-04-11 | 2014-09-10 | 日本電信電話株式会社 | 文書トピック抽出装置及び方法及びプログラム |
CN103198057B (zh) * | 2012-01-05 | 2017-11-07 | 深圳市世纪光速信息技术有限公司 | 一种自动给文档添加标签的方法和装置 |
JP6533048B2 (ja) * | 2014-10-29 | 2019-06-19 | 株式会社野村総合研究所 | コンプライアンスチェックシステムおよびコンプライアンスチェックプログラム |
-
2015
- 2015-04-30 JP JP2015093710A patent/JP6535858B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016212533A (ja) | 2016-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6535858B2 (ja) | 文書解析装置、プログラム | |
US9779085B2 (en) | Multilingual embeddings for natural language processing | |
US9959776B1 (en) | System and method for automated scoring of texual responses to picture-based items | |
JP5398007B2 (ja) | 関係情報拡張装置、関係情報拡張方法、及びプログラム | |
US10339168B2 (en) | System and method for generating full questions from natural language queries | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
US10339167B2 (en) | System and method for generating full questions from natural language queries | |
US20170371955A1 (en) | System and method for precise domain question and answer generation for use as ground truth | |
WO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
Kedzie et al. | Real-time web scale event summarization using sequential decision making | |
Yun Ying et al. | Opinion mining on Viet Thanh Nguyen’s the sympathizer using topic modelling and sentiment analysis | |
Golpar-Rabooki et al. | Feature extraction in opinion mining through Persian reviews | |
Rozovskaya et al. | Adapting to learner errors with minimal supervision | |
Rais et al. | Sentiment Analysis of Peduli Lindungi Application Using the Naive Bayes Method | |
da Rocha et al. | A text as unique as a fingerprint: Text analysis and authorship recognition in a Virtual Learning Environment of the Unified Health System in Brazil | |
JP5366179B2 (ja) | 情報の重要度推定システム及び方法及びプログラム | |
JP2009237640A (ja) | 情報抽出装置、情報抽出方法および情報抽出プログラム | |
JP4539616B2 (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム | |
JP5182845B2 (ja) | 情報抽出装置、情報抽出方法及び情報抽出プログラム | |
Bučar et al. | Sentiment classification of the Slovenian news texts | |
JP4919386B2 (ja) | 情報抽出・表示装置 | |
Fritzner | Automated information extraction in natural language | |
Rahab et al. | An Enhanced Corpus for Arabic Newspapers Comments | |
Zafar et al. | Analyzing adverbs impact for sentiment analysis using hadoop | |
Palakodety et al. | Low resource social media text mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190410 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6535858 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |