JP6764991B1

JP6764991B1 - 文抽出システム、文抽出方法、及びプログラム

Info

Publication number: JP6764991B1
Application number: JP2019221991A
Authority: JP
Inventors: 祐輝中山; 誠津々見; 浩司村上
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2019-06-06
Filing date: 2019-12-09
Publication date: 2020-10-07
Anticipated expiration: 2039-12-09
Also published as: US20200387569A1; JP2020201929A; US11238219B2

Abstract

【課題】文抽出の精度を高める。【解決手段】文抽出システム（１）の候補文特定手段（１０１）は、所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも１つの候補文を特定する。結束文特定手段（１０４）は、少なくとも１つの前記候補文と結束性のある少なくとも１つの結束文を特定する。決定手段（１０５）は、少なくとも１つの前記候補文を抽出するか否かに基づいて、少なくとも１つの前記結束文を抽出するか否かを決定する。【選択図】図５

Description

本発明は、文抽出システム、文抽出方法、及びプログラムに関する。

従来、複数の文の中から少なくとも１つの文を抽出する技術が検討されている。例えば、非特許文献１には、企業の決算短信などの文書の中から、業績の要因が記述された業績要因文を抽出するために、個々の文における企業キーワードの有無を判定し、企業キーワードの係り受けをたどって手掛かり表現に到達するか否かを判定し、業績要因文を抽出する技術が記載されている。

酒井浩之，西沢裕子，松並祥吾，坂地泰紀企業の決算短信ｐｄｆからの業績要因の抽出人工知能学会論文誌Ｖｏｌ．３０，Ｎｏ．１，ｐｐ．１７２−１８２，２０１５

しかしながら、非特許文献１の技術は、個々の文に着目して判定を行うものであり、前後の文脈を考慮していないので、文抽出の精度を十分に高めることはできなかった。例えば、文書の中には、企業キーワードと手掛かり表現を含まなくても、前後の文脈を考慮すると業績の要因が記述された文（例えば、直前の文における企業キーワードを「これ」などの語によって引用した文）が存在し、非特許文献１の技術では、このような文は抽出できない。また例えば、文書の中には、企業キーワードの係り受けをたどって偶然手掛かり表現に到達するが、前後の文脈を考慮すると業績の要因とは関係のない文（例えば、世界経済の動向が記述された文）も存在し、非特許文献１の技術では、このような文を抽出してしまい、ノイズとなる。

本発明は上記課題に鑑みてなされたものであって、その目的は、文抽出の精度を高めることが可能な文抽出システム、文抽出方法、及びプログラムを提供することである。

上記課題を解決するために、本発明に係る文抽出システムは、所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも１つの候補文を特定する候補文特定手段と、少なくとも１つの前記候補文と結束性のある少なくとも１つの結束文を特定する結束文特定手段と、少なくとも１つの前記候補文を抽出するか否かに基づいて、少なくとも１つの前記結束文を抽出するか否かを決定する決定手段と、を含む。

本発明に係る文抽出方法は、所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも１つの候補文を特定する候補文特定ステップと、少なくとも１つの前記候補文と結束性のある少なくとも１つの結束文を特定する結束文特定ステップと、少なくとも１つの前記候補文を抽出するか否かに基づいて、少なくとも１つの前記結束文を抽出するか否かを決定する決定ステップと、を含む。

本発明に係るプログラムは、所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも１つの候補文を特定する候補文特定手段、少なくとも１つの前記候補文と結束性のある少なくとも１つの結束文を特定する結束文特定手段、少なくとも１つの前記候補文を抽出するか否かに基づいて、少なくとも１つの前記結束文を抽出するか否かを決定する決定手段、としてコンピュータを機能させる。

また、本発明の一態様では、前記結束文特定手段は、前記抽出条件を充足しない文である少なくとも１つの非候補文の中から、少なくとも１つの前記結束文を特定し、前記決定手段は、少なくとも１つの前記結束文を抽出すると決定する。

また、本発明の一態様では、前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段を更に含み、前記結束文特定手段は、前記スコアが所定の選択基準を満たす少なくとも１つの前記候補文と結束性のある少なくとも１つの前記結束文を特定する。

また、本発明の一態様では、前記選択基準は、前記スコアの順序であり、前記結束文特定手段は、前記スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、少なくとも１つの前記結束文を特定する。

また、本発明の一態様では、前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段と、前記スコアが所定の変更基準を満たす少なくとも１つの前記候補文については、抽出しないように変更する変更手段と、を更に含む。

また、本発明の一態様では、前記結束文特定手段は、前記スコアが前記変更基準を満たす少なくとも１つの前記候補文と結束性のある少なくとも１つの他の候補文を、少なくとも１つの前記結束文として特定し、前記決定手段は、少なくとも１つの前記結束文については、抽出しないと決定する。

また、本発明の一態様では、前記変更基準は、前記スコアの順序であり、前記変更手段は、前記スコアが低い順に所定数の候補文を選択し、当該選択された所定数の候補文については、抽出しないように変更する。

また、本発明の一態様では、前記複数の文のうち、前記抽出条件を充足しない少なくとも１つの非候補文については、前記スコアが所定値になる又は前記スコアが計算されない。

また、本発明の一態様では、前記スコアが前記変更基準よりも高い基準を満たす少なくとも１つの前記候補文については、前記変更基準を満たす少なくとも１つの前記候補文と結束性があったとしても、抽出しない文として決定されることを制限する制限手段を更に含む。

また、本発明の一態様では、前記複数の文を含む文書は、複数の部分に分けられており、前記結束文特定手段は、前記部分ごとに、少なくとも１つの前記結束文を特定する。

また、本発明の一態様では、前記結束文特定手段は、少なくとも１つの前記候補文との接続性、参照性、及び語彙的結束性のうちの少なくとも１つに基づいて、少なくとも１つの前記結束文を特定する。

また、本発明の一態様では、前記抽出条件は、複数のキーワードのうちの少なくとも１つを含むことであり、前記候補文特定手段は、少なくとも１つの前記キーワードを含む少なくとも１つの前記候補文を特定する。

また、本発明の一態様では、前記複数の文の各々は、企業の決算に関する内容であり、前記抽出条件は、業績の要因が記述された業績要因文を抽出するための条件である。

本発明によれば、文抽出の精度を高めることができる。

文抽出システムの全体構成を示す図である。決算短信の一例を示す図である。文抽出システムの処理の概要を示す図である。文抽出システムの処理の概要を示す図である。文抽出システムで実現される機能の一例を示す機能ブロック図である。決算短信データベースのデータ格納例を示す図である。キーワードデータベースのデータ格納例を示す図である。評価結果データのデータ格納例である。サーバによって実行される処理を示すフロー図である。変形例における機能ブロック図である。

［１．文抽出システムの全体構成］
以下、本発明に関わる文抽出システムの実施形態の例を説明する。図１は、文抽出システムの全体構成を示す図である。図１に示すように、文抽出システム１は、サーバ１０及びユーザ端末２０を含み、これらはインターネットなどのネットワークＮに接続される。図１では、サーバ１０及びユーザ端末２０を１台ずつ示しているが、これらは複数台あってもよい。

サーバ１０は、サーバコンピュータであり、例えば、制御部１１、記憶部１２、及び通信部１３を含む。制御部１１は、少なくとも１つのプロセッサを含む。制御部１１は、記憶部１２に記憶されたプログラムやデータに従って処理を実行する。記憶部１２は、主記憶部及び補助記憶部を含む。例えば、主記憶部はＲＡＭなどの揮発性メモリであり、補助記憶部は、ハードディスクやフラッシュメモリなどの不揮発性メモリである。通信部１３は、有線通信又は無線通信用の通信インタフェースを含み、例えば、ネットワークＮを介してデータ通信を行う。

ユーザ端末２０は、ユーザが操作するコンピュータであり、例えば、パーソナルコンピュータ、携帯情報端末（タブレット型コンピュータを含む）、又は携帯電話機（スマートフォンを含む）等である。ユーザ端末２０は、制御部２１、記憶部２２、通信部２３、操作部２４、及び表示部２５を含む。制御部２１、記憶部２２、及び通信部２３のハードウェア構成は、それぞれ制御部１１、記憶部１２、及び通信部１３と同様であってよい。操作部２４は、入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスやキーボード等である。操作部２４は、ユーザの操作内容を制御部２１に伝達する。表示部２５は、例えば、液晶表示部又は有機ＥＬ表示部等である。

なお、記憶部１２，２２に記憶されるものとして説明するプログラム及びデータは、ネットワークを介してこれらに供給されるようにしてもよい。また、サーバ１０及びユーザ端末２０の各々のハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、サーバ１０及びユーザ端末２０の各々は、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、光ディスクドライブやメモリカードスロット）や外部機器と直接的に接続するための入出力部（例えば、ＵＳＢ端子）を含んでもよい。この場合、情報記憶媒体に記憶されたプログラムやデータが読取部又は入出力部を介して、サーバ１０及びユーザ端末２０の各々に供給されるようにしてもよい。

［２．文抽出システムの概要］
文抽出システム１は、複数の文の中から、少なくとも１つの文を抽出する。文は、句点、ピリオド、感嘆符、又は疑問符などで終わる（区切られる）一続きの言葉である。文は、任意の言語で記述されてよく、例えば、英語、日本語、中国語、スペイン語、フランス語、又はアラビア語などであってもよい。

本実施形態では、企業の決算短信の中から少なくとも１つの文を抽出する場合を例に挙げて、文抽出システム１の処理を説明する。なお、文は、決算に関する内容に限られず、任意の内容が記述されていてよい。例えば、ニュース記事、論説、論文、小説、ブログやＳＮＳなどに対する投稿、議事録、公的文書、テレビや映画などの字幕情報、又は教材の中から少なくとも１つの文を抽出するなどの他の任意の場面に、文抽出システム１を適用可能である。

図２は、決算短信の一例を示す図である。図２に示すように、決算短信Ｆは、企業の決算に関する内容を含み、例えば、文、見出し、目次、図、表、及び画像などが含まれる。決算短信Ｆは、任意のレイアウトで記述されてよく、例えば、所定の規則に準拠した形式で作成される。なお、図２では、説明の簡略化のために、特にページを分けずに示しているが、実際の決算短信Ｆは、複数のページに分けられている。

決算短信Ｆの中には、投資家などのユーザに有用な文もあれば、ユーザにとって有用ではない文もある。このため、本実施形態の文抽出システム１は、ユーザに有用な知識を提供するために、決算短信Ｆの中から、少なくとも１つの業績要因文を抽出する。

業績要因文は、企業の業績につながった要因を示す文である。別の言い方をすれば、業績要因文は、企業の売上高及び利益の少なくとも一方に影響を与えた要因を示す文である。業績要因文は、決算短信Ｆに係る企業に投資すべきか否かの判断材料となる文ということもできる。

例えば、業績要因文を抽出する手法としては、従来技術で説明した非特許文献１の手法が存在する。先述したように、非特許文献１の手法では、文単位で業績要因文を判定しているため、文抽出の精度を十分に高めることができない。そこで、本実施形態の文抽出システム１では、決算短信Ｆにおける文脈を考慮して、従来の手法では抽出できなかった業績要因文を抽出したり、従来の手法では誤って抽出されてしまうノイズを除去したりすることによって、文抽出の精度を高めるようにしている。

図３及び図４は、文抽出システム１の処理の概要を示す図である。図３及び図４では、説明の簡略化のために、決算短信Ｆにおける見出しや文の内容は省略している。例えば、図３及び図４の「見出し１」と「見出し２」の各々は、図２の決算短信Ｆにおける「（Ａ）国内事業」や「（Ｂ）海外事業」などの見出しである。また例えば、図３及び図４の「文１−１」〜「文１−６」と「文２−１」〜「文２−２」の各々は、図２の決算短信Ｆにおける「（Ａ）国内事業」や「（Ｂ）海外事業」などの見出しの間に記載された文である。

図３に示すように、まず、文抽出システム１は、決算短信Ｆに含まれる個々の情報を、見出しと文に分類する（符号「Ｆ１」の状態）。見出しと文の分類方法自体は、公知の手法を適用可能である。例えば、文抽出システム１は、句点のない行を見出しとして特定してもよいし、（１）や（Ａ）といった見出しを示す特定の語が冒頭に記載された行を見出しとして特定してもよい。また例えば、文抽出システム１は、句点やピリオドなどによって区切られた部分を文として特定してもよいし、見出し以外の部分を文として特定してもよい。

文抽出システム１は、決算短信Ｆに含まれる複数の文の中から、業績要因文の候補である候補文を特定する（符号「Ｆ２」の状態）。候補文の特定方法自体は、公知の手法を適用可能であり、本実施形態では、非特許文献１の手法を利用する場合を説明する。このため、候補文は、非特許文献１の手法で業績要因文として抽出される文ということができる。本実施形態では、候補文は、業績要因文として抽出されることもあるし、抽出されないこともある。図３では、候補文を網掛けで示しており、例えば、「文１−２」、「文２−１」、及び「文２−２」には、企業キーワードが含まれており、企業キーワードの係り受けをたどって手掛かり表現に到達するため、候補文として特定される。

文抽出システム１は、候補文のスコアを計算し、スコアが最大の文と最小の文を選択する（符号「Ｆ３」の状態）。スコアは、文抽出の信頼度又は正確度である。別の言い方をすれば、スコアは、業績要因文である蓋然性又は確率である。スコアの計算方法の詳細は、後述する。スコアが高いほど業績要因文である蓋然性が高く、スコアが低いほど業績要因文である蓋然性が低い。図３の例では、「文１−２」のスコアが最大であり、「文２−１」のスコアが最小である。なお、候補文ではない非候補文（例えば、「文１−１」など）については、スコアは計算されないものとする。

文抽出システム１は、スコアが最小の「文２−１」の評価を反転する（符号「Ｆ４」の状態）。評価は、抽出すべき文であるか否かの評価であり、本実施形態では、業績要因文又は非業績要因文の何れかの評価となる。

非業績要因文は、業績要因文ではない文である。業績要因文は、抽出すべき文であるのに対し、非業績要因文は、抽出すべきではない文である。候補文が特定された時点（符号「Ｆ２」の時点）では、全ての候補文の評価は業績要因文となり、非候補文の評価は非業績要因文となる。なお、非候補文は、候補文ではない文であり、候補文以外の文である。符号「Ｆ４」の状態では、スコアが最小の「文２−１」は、候補文として特定されたが、業績要因文である蓋然性が最も低いので、非業績要因文の評価に変わる。

図４に移り、文抽出システム１は、セグメントごとに、スコアが最大の候補文と結束性のある結束文と、スコアが最小の候補文と結束性のある結束文と、を特定する（符号「Ｆ５」の状態）。セグメントは、文書の一部分であり、情報のまとまりの単位である。本実施形態では、セグメントは、ある見出しと次の見出しの間の部分である。

結束性は、ある文と他の文との間に文法的又は語彙的な結びつきが存在することである。別の言い方をすれば、結束性は、ある文と他の文が意味的又は内容的に関連することである。結束文は、ある文と結束性のある他の文である。結束文は、候補文のこともあるし、非候補文のこともある。即ち、候補文と非候補文に結束性が存在することもあるし、ある候補文と他の候補文に結束性が存在することもある。結束文の特定方法については、後述する。

図４の例では、スコアが最大の候補文である「文１−２」と結束性のある結束文として、「文１−３」、「文１−４」、及び「文１−６」が特定される。例えば、「文１−２」と「文１−４」のように、「文１−３」を介して間接的に結束性が見出されることもある。また、スコアが最小の候補文である「文２−１」と結束性のある結束文として、「文２−２」が特定される。

文抽出システム１は、スコアが最大の候補文の評価を結束文に伝播させる（符号「Ｆ６」の状態）。ここでの伝播とは、結束文の評価を候補文の評価に合わせることである。スコアが最大の候補文の評価は、業績要因文なので、結束文の評価も業績要因文となる。図４の例では、スコアが最大の候補文である「文１−２」の評価が、結束文である「文１−３」、「文１−４」、及び「文１−６」に伝播する。このため、「文１−３」、「文１−４」、及び「文１−６」は、非候補文であり非特許文献１の技術であれば非業績要因文であるが、「文１−２」と結束性があるので、本実施形態では業績要因文として抽出される。

文抽出システム１は、スコアが最小の候補文の評価を結束文に伝播させる（符号「Ｆ７」の状態）。スコアが最小の候補文の評価は、非業績要因文に変更されているので、結束文の評価も非業績要因文となる。図４の例では、スコアが最小の候補文である「文２−１」の評価が、結束文である「文２−２」に伝播する。このため、「文２−２」は、候補文であり非特許文献１の技術であれば業績要因文であるが、評価が反転された「文２−１」と結束性があるので、本実施形態では非業績要因文となり、抽出されない。

文抽出システム１は、決算短信Ｆに含まれる複数の文の各々の最終的な評価結果に基づいて、業績要因文を抽出する。図４の例では、符号「Ｆ７」の状態が最終的な状態を示しているので、「文１−２」、「文１−３」、「文１−４」、及び「文１−６」が業績要因文として抽出される。

以上のように、本実施形態の文抽出システム１は、スコアが最大の候補文と結束性のある結束文については、候補文ではなかったとしても業績要因文とする。例えば、図３及び図４の「文１−３」、「文１−４」、及び「文１−６」のように、従来の手法では抽出できなかった業績要因文を抽出することで、文抽出の精度を高めている。

例えば、図２の決算短信Ｆにおいて、「国内事業は、缶詰の売上高が減少しましたが、レトルト食品と調味料の売上高が増加し、前年同期比増収となりました。」の文は、非特許文献１の技術で業績要因文として抽出される。一方、「品目別では、レトルト食品は、カレー、シチューなどが増加となりましたが、離乳食などが減少となりました。」の文は、「カレー」や「シチュー」などの語が企業キーワードとして抽出されるが、「増加となりました」や「減少となりました」が手掛かり表現として抽出されないので、非特許文献１の技術では業績要因文として抽出されなかった。この点、文抽出システム１によれば、これらの文の間の結束性を特定することによって、前者の文の評価が後者の文に伝播し、非特許文献１の技術では抽出できなかった後者の文が業績要因文として抽出される。

また、文抽出システム１は、スコアが最小の候補文の評価を反転させ、当該候補文と結束性のある結束文については、候補文であったとしても非業績要因文とする。例えば、図３及び図４の「文２−１」及び「文２−２」のように、従来の手法では業績要因文として抽出されていた文（ノイズとなりうる文）を抽出しないようにすることで、文抽出の精度を高めている。

例えば、図２の決算短信Ｆにおいて、「純資産合計は、全連結会計年度末に比べ５００万円増加し、１０億円となりました。」の文と、「これは利益余剰金が７００万円増加した一方で、為替換算調整勘定が２００万円減少したことなどによるものです。」の文は、非特許文献１の技術で業績要因文として抽出される。しかし、これらの文は、業績の要因が記述されていないので、業績要因文ではなく、ノイズとなっていた。この点、文抽出システム１によれば、後者の文は、スコアが最低の文として特定され、評価を反転させたうえで、前者の文に評価を伝播させるので、これらの文が業績要因文として抽出されることを防止し、ノイズを低減する。

以上のように、文抽出システム１は、従来の手法で抽出できなかった業績要因文を抽出したり、従来の手法で誤って抽出されてしまった非業績要因文を抽出しないようにしたりする構成を有し、文抽出の精度を高めるようにしている。以降、文抽出システム１の構成の詳細を説明する。なお、以降では、記載の簡略化のために、決算短信Ｆの符号を省略する。

［３．本実施形態において実現される機能］
図５は、文抽出システム１で実現される機能の一例を示す機能ブロック図である。図５に示すように、例えば、データ記憶部１００、候補文特定部１０１、取得部１０２、変更部１０３、結束文特定部１０４、決定部１０５、及び抽出部１０６が実現される。本実施形態では、これら各機能がサーバ１０において実現される。データ記憶部１００は、記憶部１２を主として実現され、他の各機能は、制御部１１を主として実現される。

［３−１．データ記憶部］
データ記憶部１００は、文を抽出するために必要なデータを記憶する。例えば、データ記憶部１００は、決算短信データベースＤＢ１、キーワードデータベースＤＢ２、及び評価結果データＤＴ１を記憶する。

図６は、決算短信データベースＤＢ１のデータ格納例を示す図である。図６に示すように、決算短信データベースＤＢ１は、決算短信に関する情報が格納されたデータベースである。例えば、決算短信データベースＤＢ１には、企業の名前、企業の属性、決算短信の実データへのリンク（パス）、及び抽出部１０６により抽出された業績要因文が格納される。

属性は、企業を分類するための情報である。例えば、属性は、企業が取り扱う業務分野、企業が販売する商品のカテゴリ、又は企業が提供するサービスのカテゴリなどである。本実施形態では、企業は、複数の属性のうちの少なくとも１つに属するものとする。なお、企業は、特に属性によって分類されていなくてもよい。

決算短信の実データは、任意のファイル形式であってよく、例えば、テキスト形式、文書ファイル形式、イメージファイル形式、表形式、又はＨＴＭＬ形式などであってよい。決算短信の実データは、データ記憶部１００に保存されており、決算短信データベースＤＢ１には、決算短信の保存先へのリンクが格納される。

業績要因文の実データも、任意のファイル形式であってよい。業績要因文の実データは、決算短信のうち重要な一部分を抜き出した要約ということもできる。決算短信データベースＤＢ１には、業績要因文そのものが格納されていてもよいし、業績要因文を格納した実データへのリンクが格納されていてもよい。

図７は、キーワードデータベースＤＢ２のデータ格納例を示す図である。図７に示すように、キーワードデータベースＤＢ２は、候補文を特定するためのキーワードが格納されたデータベースである。例えば、キーワードデータベースＤＢ２には、属性ごとに、企業キーワードと手掛かり表現が格納される。

企業キーワードは、企業にとって重要なキーワードである。例えば、企業キーワードは、企業の業務分野に関するキーワード、企業が販売する商品に関するキーワード、又は企業が提供するサービスに関するキーワードなどである。図７のデータ格納例では、水産加工といった属性に対し、水産加工の業務分野に関する「かつお」、「さば」、及び「漁獲」といった企業キーワードが関連付けられている。

手掛かり表現は、業績の良し悪しの手掛かりとなる表現である。例えば、手掛かり表現は、「好調」、「良好」、「不調」、又は「悪化」などの語を含む述語や形容詞などである。図７のデータ格納例では、水産加工といった属性に対し、水産加工の業績の良し悪しの手掛かりとなる「好調だった」、「良好だった」、及び「不調だった」といった手掛かり表現が関連付けられている。手掛かり表現は、「好調」などの語を含むため、文抽出をするためのキーワードの一例ということもできる。

企業キーワードと手掛かり表現は、文抽出システム１の管理者により手入力されてもよいが、本実施形態では、決算短信や業績発表記事などに出現する単語が統計的に分析されて抽出されるものとする。例えば、サーバ１０は、企業キーワードを収集するために、ある企業ｔの決算短信に出現する名詞ｎに対し、数式１に示すＷ（ｎ，Ｆ（ｔ））を計算する。

Ｆ（ｔ）は、企業ｔの決算短信ｆの集合である。企業ｔは、定期的に最新の決算短信ｆを発行するので、Ｆ（ｔ）は、企業ｔが発行した決算短信ｆの履歴ということもできる。Ｆ（ｔ）は、過去の全期間における決算短信ｆの集合であってもよいし、直近の一定期間における決算短信ｆの集合であってもよい。

Ｗ（ｎ，Ｆ（ｔ））は、決算短信の集合であるＦ（ｔ）における名詞ｎが企業キーワードであるか否かを決定するための評価値である。例えば、Ｗ（ｎ，Ｆ（ｔ））は、キーワードデータベースＤＢ２に格納される。Ｈ（ｎ，Ｆ（ｔ））は、ｆ∈Ｆ（ｔ）の中で名詞ｎが決算短信ｆで出現する確率のエントロピーである。ＴＦ（ｎ，Ｆ（ｔ））は、Ｆ（ｔ）中の文書全てを統合して１つの文書とみなした場合のｔｆ−ｉｄｆ値である。なお、確率のエントロピー又はｔｆ−ｉｄｆ値の何れか一方のみが考慮されてもよい。

数式１の値は、ある企業の決算短信に多く、かつ、まんべんなく出現し、他の企業の決算短信には出現しない名詞に対して高い値を取る。例えば、サーバ１０は、企業ｔにおけるＷ（ｎ，Ｆ（ｔ））の平均値を計算し、Ｗ（ｎ，Ｆ（ｔ））の値が当該平均値よりも大きく、かつ、ｌｏｇ_２（Ｎ／ｄｆ（ｎ））が１より大きい名詞を企業キーワードとして抽出する。

なお、手掛かり表現についても、企業キーワードと同様に、統計的な情報に基づいて抽出されてもよいし、手掛かり表現については、文抽出システム１の管理者によって手入力されてもよい。また、本実施形態では、企業の属性ごとに、企業キーワードと手掛かり表現が用意されている場合を説明するが、企業キーワードと手掛かり表現は、個々の企業ごとに用意されていてもよい。また例えば、特に属性や企業ごとに用意するのではなく、対象となる全企業で共通の企業キーワードと手掛かり表現が用意されていてもよい。

図８は、評価結果データＤＴ１のデータ格納例である。図８に示すように、評価結果データＤＴ１は、決算短信に含まれる文の評価が格納されるデータである。例えば、評価結果データＤＴ１には、決算短信の文ごとに、候補文フラグ、スコア、結束文情報、及び評価結果が格納される。なお、図８のデータ格納例では、見出しの情報も格納されているが、見出しの情報は省略してもよい。

候補文フラグは、候補文であるか否かを示す情報である。例えば、候補文フラグがオンの文は、候補文として特定されたことを示し、候補文フラグがオフの文は、候補文として特定されなかったことを示す。本実施形態では、候補文フラグがオンの文についてのみスコアが計算されて評価結果データＤＴ１に格納される。

結束文情報は、結束文として特定された他の文を示す情報である。本実施形態では、スコアが最大の候補文と、スコアが最小の候補文と、の各々の結束文が特定されるので、これら２つの文についてのみ、結束文情報が格納される。評価結果は、抽出すべき文であるか否かの評価を示す。本実施形態では、評価結果として、業績要因文であることを示す値、又は、非業績要因文であることを示す値の何れかが格納される。

［３−２．候補文特定部］
候補文特定部１０１は、所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも１つの候補文を特定する。

抽出条件は、文を抽出するための条件である。別の言い方をすれば、抽出条件は、要約を作成するための条件である。抽出条件は、文抽出のルール、又は、自動要約アルゴリズムに含まれる条件ということもできる。抽出条件は、任意の条件を設定可能であり、例えば、抽出条件は、所定のキーワードの有無、キーワードに関連付けられた評価値の範囲、又は、文中の単語の特徴量の範囲などである。本実施形態では、抽出条件は、個々の文単位で判定可能な条件とするが、文脈が考慮される条件が設定されていてもよい。

本実施形態では、複数の文の各々は、企業の決算に関する内容なので、抽出条件は、業績の要因が記述された業績要因文を抽出するための条件となる。先述したように、本実施形態では、抽出条件の一例として、非特許文献１の手法を説明するが、抽出条件自体は、要約を作成する際に利用される種々の条件を利用可能である。

候補文特定部１０１は、決算短信に含まれる複数の文の各々が抽出条件を満たすか否かを判定する。別の言い方をすれば、候補文特定部１０１は、文ごと、抽出条件を満たすか否かを判定する。候補文特定部１０１は、抽出条件を満たす少なくとも１つの文を候補文として特定する。候補文特定部１０１は、抽出条件を満たさない文については候補文として特定せず、抽出条件を満たす文を候補文として特定する。候補文特定部１０１の処理結果は、評価結果データＤＴ１に格納され、候補文の候補文フラグはオンになり、非候補文の候補文フラグはオフになる。

なお、本実施形態では、決算短信に含まれる複数の文の全てを候補文特定部１０１の処理対象とするが、一部の文だけが処理対象となってもよい。また、処理対象となる複数の文は、１つのデータの中にまとめられている必要はなく、複数のデータの中から候補文が特定されてもよい。また例えば、候補文特定部１０１は、候補文を１つだけ特定してもよいし、複数の候補文を特定してもよい。また例えば、候補文特定部１０１は、抽出条件を満たす文の全てを候補文として特定してもよいし、抽出条件を満たす文の一部だけを候補文として特定してもよい。候補文として特定される文の数は、上限数が定められていてもよいし、特に上限数が定められていなくてもよい。

本実施形態では、抽出条件は、複数のキーワードのうちの少なくとも１つを含むことであり、候補文特定部１０１は、少なくとも１つのキーワードを含む少なくとも１つの候補文を特定する。候補文特定部１０１は、文ごとに、キーワードデータベースＤＢ２に格納されたキーワードを含むか否かを判定する。候補文特定部１０１は、キーワードを含まない文は候補文として特定せず、キーワードを含む文を候補文として特定する。

非特許文献１の手法を例に挙げると、候補文特定部１０１は、文ごとに、企業キーワードを含むか否かを判定する。候補文特定部１０１は、企業キーワードを含む文の文節が係り受けをたどって手掛かり表現に到達するか否かを判定する。候補文特定部１０１は、手掛かり表現に到達すると判定された文を候補文（非特許文献１の手法では業績要因文）として特定する。このため、本実施形態の抽出条件は、企業キーワードを含み、かつ、係り受けをたどって手掛かり表現に到達することである。

例えば、決算短信の中に、「かつおやさばなどの漁獲が好調だった。」といった文が存在したとする。この場合、候補文特定部１０１は、企業キーワードである「かつお」、「さば」、及び「漁獲」といった企業キーワードを含む文節の係り受けをたどり、手掛かり表現である「好調だった」に到達するので、この文を候補文として特定する。一方、候補文特定部１０１は、企業キーワードが存在しない文、又は、企業キーワードは存在するが手掛かり表現に到達しない文については、候補文として特定しない。

［３−３．取得部］
取得部１０２は、候補文ごとに、抽出条件に基づくスコアを取得する。スコアは、予め定められた計算式に基づいて計算されるようにすればよく、計算式は、データ記憶部１００に予め記憶されているものとする。計算式は、候補文とスコアの関係が定義された式ということができ、候補文の全体又は一部が計算式に入力されると、スコアが出力される。

例えば、候補文が抽出条件に合致する度合が高いほどスコアが高くなり、候補文が抽出条件に合致する度合が低いほどスコアが低くなる。また例えば、候補文に含まれるキーワードの数が多いほどスコアが高くなり、候補文に含まれるキーワードの数が少ないほどスコアが低くなる。また例えば、候補文に含まれるキーワードの評価値が高いほどスコアが高くなり、候補文に含まれるキーワードの評価値が低いほどスコアが低くなる。

本実施形態では、取得部１０２が、候補文に含まれるキーワードの評価値に基づいて、スコアを取得する場合を説明する。ここでは、評価値の一例として、数式１に示すＷ（ｎ，Ｆ（ｔ））を説明するが、評価値は、他の方法によって計算されてもよい。例えば、キーワードの出現頻度やｔｆ−ｉｄｆ値をそのまま評価値として利用してもよい。また例えば、評価値は、統計的に計算されるのではなく、文抽出システム１の管理者が手動で指定してもよい。例えば、取得部１０２は、候補文に含まれるキーワードの評価値と下記の数式２とに基づいて、候補文のスコアを取得する。

ｃｏｎｆ（ｔ，ｆ，ｉ）は、企業ｔの決算短信ｆ∈Ｆ（ｔ）におけるｉ行目の候補文ｓ_ｉのスコアである。Ｋ（ｔ，ｆ，ｉ）は、ｉ行目の候補文ｓ_ｉの中で係り受けをたどって手掛かり表現に到達する企業キーワードの集合である。ｃｏｎｆ（ｔ，ｆ，ｉ）は、ｎ∈Ｋを満たす全てのｎでＷ（ｎ，Ｆ（ｔ））が高いほど高い値を取る。

本実施形態では、スコアが最大の候補文と最小の候補文が選択されるので、下記の数式３及び数式４に示すように、ｃｏｎｆ（ｔ，ｆ，ｉ）に基づいて、スコアが最大の行番号Ｍ（ｔ，ｆ）と、スコアが最小の行番号Ｌ（ｔ，ｆ）と、が取得される。

本実施形態では、決算短信に含まれる文のうち、抽出条件を充足する少なくとも１つの候補文がスコアの計算対象となり、抽出条件を充足しない少なくとも１つの非候補文については、スコアが計算されないものとする。このため、取得部１０２は、非候補文については、スコアを計算せず、評価結果データＤＴ１には、非候補文のスコアは格納されない。

なお、非候補文については、スコアを計算しないのではなく、スコアを所定値（固定値）としてもよい。この値は、候補文のスコアよりも小さい値であり、例えば、０などである。例えば、非候補文は、企業キーワードを含まないので、数式２に基づいてスコアを計算しようとしても、そもそも評価値Ｗ（ｎ，Ｆ（ｔ））が存在しないので、０となる。即ち、非候補文については、どの文についても共通の値のスコアとしてもよい。

［３−４．変更部］
変更部１０３は、スコアが所定の変更基準を満たす少なくとも１つの候補文については、抽出しないように変更する。変更基準は、候補文の評価を変更するための基準であり、スコアが比較的低いことである。例えば、変更基準は、スコアの順位が所定の順位未満であること、スコアが閾値未満であること、又は、スコアが下位所定パーセントであることなどである。

変更部１０３は、少なくとも１つの候補文の各々のスコアに基づいて、変更基準を満たす候補文を特定する。変更部１０３は、変更基準を満たす候補文については、評価を変更し、変更基準を満たさない候補文については、評価を変更しない。変更部１０３は、変更基準を満たす全ての候補文の評価を変更してもよいし、評価を変更する候補文に上限数を定めておき、変更基準を満たす一部の候補文の評価だけを変更してもよい。

本実施形態では、変更基準は、スコアの順序であり、変更部１０３は、スコアが低い順に所定数の候補文を選択し、当該選択された所定数の候補文については、抽出しないように変更する。選択される候補文の数（即ち、上記所定数の数値）は、任意の数であってよく、本実施形態では１つとするが、２つ以上であってもよい。また、選択される候補文の数は、固定値であってもよいし、可変値であってもよい。例えば、変更部１０３は、候補文の中からスコアが最小の文ｓ_Ｌを特定し、評価結果データＤＴ１に格納される評価結果を、業績要因文から非業績要因文に変更する。即ち、変更部１０３は、文ｓ_Ｌの評価結果を、抽出すべき文という評価から、抽出すべきではない文という評価に変更する。

［３−５．結束文特定部］
結束文特定部１０４は、少なくとも１つの候補文と結束性のある少なくとも１つの結束文を特定する。結束文特定部１０４は、特定された全ての候補文について、結束性の判定をしてもよいし、一部の候補文についてのみ、結束性の判定をしてもよい。本実施形態では、全ての候補文の結束性を判定するのではなく、結束文特定部１０４は、スコアが所定の選択基準を満たす少なくとも１つの候補文と結束性のある少なくとも１つの結束文を特定する場合を説明する。

選択基準は、結束性を判定する候補文を選択するための基準である。別の言い方をすれば、選択基準は、評価を伝播させる候補文を選択するための基準である。例えば、選択基準は、スコアの順位が所定の順位以上であること、スコアの順位が所定の順位未満であること、スコアが閾値以上であること、スコアが閾値未満であること、スコアが上位所定パーセントであること、又はスコアが下位所定パーセントであることなどである。結束文特定部１０４は、選択基準を満たす全ての候補文の結束性を判定してもよいし、結束性を判定する候補文に上限数を定めておき、選択基準を満たす一部の候補文の結束性だけを判定してもよい。

本実施形態では、選択基準は、スコアの順序であり、例えば、結束文特定部１０４は、スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、少なくとも１つの結束文を特定する。選択される候補文の数（即ち、上記所定数の数値）は、任意の数であってよく、本実施形態では１つとするが、２つ以上であってもよい。また、選択される候補文の数は、固定値であってもよいし、可変値であってもよい。例えば、変更部１０３は、候補文の中から、スコアが最大の文ｓ_Ｍを選択し、文ｓ_Ｍについて、結束文の有無を判定する。

なお、結束文の判定対象となる文は、候補文であってもよいし、非候補文であってもよい。業績要因文の候補文の評価は、非業績要因文の非候補文に対して伝播するので、非候補文が結束文の判定対象となる。例えば、結束文特定部１０４は、抽出条件を充足しない文である少なくとも１つの非候補文の中から、少なくとも１つの結束文を特定する。結束文特定部１０４は、非候補文の中から、スコアが最大の文ｓ_Ｍと結束性のある少なくとも１つの結束文を特定する。

また例えば、結束文特定部１０４は、候補文の中からスコアが最小の文ｓ_Ｌを選択し、他の候補文の中から、文ｓ_Ｌについて結束文の有無を判定する。本実施形態では、スコアが最小の文ｓ_Ｌは、反転された評価（即ち、非業績要因文の評価）が伝播されるので、候補文が結束文の判定対象となる。結束文特定部１０４は、スコアが変更基準を満たす少なくとも１つの候補文と結束性のある少なくとも１つの他の候補文を、少なくとも１つの結束文として特定する。

本実施形態では、複数の文を含む文書は、複数の部分に分けられており、結束文特定部１０４は、部分ごとに、少なくとも１つの結束文を特定する。本実施形態では、セグメントが当該部分に相当するが、特にセグメントでなくてもよい。例えば、結束文特定部１０４は、ページごとに結束文を特定してもよいし、段落ごとに結束文を特定してもよい。また例えば、結束文特定部１０４は、管理者が選択した範囲ごとに結束文を特定してもよい。

結束性の判定方法自体は、公知の種々の手法を適用可能である。結束文特定部１０４は、ある候補文と非候補文との間に結束性が見出された場合には、当該非候補文は結束文となる。また例えば、ある候補文と他の候補文との間に結束性が見出された場合には、当該他の候補文は結束文となる。例えば、結束文特定部１０４は、少なくとも１つの候補文との接続性、参照性、及び語彙的結束性のうちの少なくとも１つに基づいて、少なくとも１つの結束文を特定する。本実施形態では、接続性、参照性、及び語彙的結束性の全てに基づいて結束文が特定される場合を説明するが、これらの何れか１つ又は２つに基づいて結束文が特定されてもよい。

接続性は、接続詞又は副詞の有無である。例えば、「また」、「そして」、「一方」といった接続詞が文頭又は文中に存在していたり、「特に」といった副詞が文頭又は文中に存在していたりした場合に、結束性があるとされる。参照性は、代名詞の有無である。例えば、「これ」、「それ」といった代名詞が文頭又は文中に存在している場合に、結束性があるとされる。語彙的結束性は、共通する語の有無である。例えば、所定の語が共通している場合に、結束性があるとされる。

例えば、結束文特定部１０４は、接続性と参照性については、以下の手順に基づいて、隣接した文の結束性の有無を特定する。なお、以降の説明は、スコアが最低の文ｓ_Ｌの結束文を例に挙げるが、スコアが最高の文ｓ_Ｍの結束文についても同じ処理が行われる。

（手順１）ｉ＝Ｌ−１，ｊ＝Ｌ＋１（ｉ，ｊは変数であり、Ｌはスコアが最低の文ｓ_Ｌの行数である。）
（手順２）ｓ_ｉが見出しであれば、手順５へ。
（手順３）ｓｉの文頭に接続詞又は副詞があれば、ｓ_ｉとｓ_ｉ＋１との間に結束性があるとし、なければ手順５へ。
（手順４）ｉを１つ減らし、手順２へ。
（手順５）ｓ_ｊが見出しであれば、処理を終了する。
（手順６）ｓ_ｊが文頭に接続詞又は副詞があれば、ｓ_ｊとｓ_ｊ−１の間に結束性があるとし、なければ処理を終了する。
（手順７）ｊを１つ増やし、手順５へ。

また例えば、語彙的結束性に関し、結束文特定部１０４は、文間の語の重複に着目して結束文を特定する。一般的に文は、主題を示す部分である主題部と、それ以外の部分である非主題部と、に分けられる。本実施形態では、「において」や「について」といった所定の語を含む文節を主題部とし、それ以外を非主題部とする。２つの文の間で主題部に語の重複がある場合は、類似した話題の可能性があるため、一方の抽出結果が片方の結果に依存すると考えられる。また、２つの文の間で主題部と非主題部の間に語の重複がある場合も、同じ話題に対して詳細化される可能性があるので、同じことがいえる。

以上により、スコアが最大の候補文ｓ_Ｍとスコアが最低の候補文ｓ_Ｌとの各々の名詞の形態素集合を用いて、同じセグメント内の文について、主題部内の名詞の形態素集合と上記の集合に１つでも重複する形態素があれば、両者の間に結束性があると判定する。

例えば、図２の例であれば、「国内事業は、缶詰の売上高が減少しましたが、レトルト食品と調味料の売上高が増加し、前年同期比増収となりました。」の文と、「品目別では、レトルト食品は、カレー、シチューなどが増加となりましたが、離乳食などが減少となりました。」の文と、の間には、「レトルト食品」という名詞が共通しているので、これらの間には、結束性があると判定される。

なお、候補文によっては、結束性のある文が存在しないこともあるので、必ずしも結束文が見つかるとは限らない。このため、候補文の評価が伝播しないこともある。一方、候補文によっては、結束性のある文が複数存在することもあるので、２つ以上の結束文が特定されることもある。このため、候補文の評価が複数の結束文に伝播することもある。結束文特定部１０４は、結束性がある限りの結束文を特定してもよいし、上限数に達するまで結束文を特定してもよい。

［３−６．決定部］
決定部１０５は、少なくとも１つの候補文を抽出するか否かに基づいて、少なくとも１つの結束文を抽出するか否かを決定する。決定部１０５は、候補文と同じ評価になるように、結束文の評価を決定する。別の言い方をすれば、決定部１０５は、候補文の評価と、当該候補文と結束性のある結束文の評価と、を一致させる。決定部１０５による決定結果は、評価結果データＤＴ１に格納される。

例えば、決定部１０５は、抽出する候補文と結束性のある少なくとも１つの結束文が特定された場合、当該少なくとも１つの結束文を抽出すると決定する。例えば、候補文の評価が業績要因文である場合に、決定部１０５は、当該候補文と結束性のある結束文の評価を業績要因文に決定する。本実施形態では、決定部１０５は、スコアが最大の文ｓ_Ｍと結束性のある非候補文の評価を、非業績要因文から業績要因文に変更する。

また例えば、決定部１０５は、抽出しない候補文と結束性のある少なくとも１つの結束文については、抽出しないと決定する。また例えば、候補文の評価が非業績要因文の場合に、決定部１０５は、当該候補文と結束性のある結束文の評価を非業績要因文に決定する。本実施形態では、決定部１０５は、スコアが最低の文ｓ_Ｌと結束性のある候補文の評価を、業績要因文から非業績要因文に変更する。

［３−７．抽出部］
抽出部１０６は、決定部１０５の決定結果に基づいて、複数の文の中から少なくとも１つの文を抽出する。例えば、抽出部１０６は、決定部１０５により抽出すると決定された結束文を抽出し、決定部１０５により抽出しないと決定された結束文は抽出しない。抽出部１０６は、評価結果データＤＴ１を参照し、評価結果が業績要因文である文を抽出し、評価結果が非業績要因文である文は抽出しない。

なお、抽出部１０６は、評価結果が業績要因文である全ての文を抽出してもよいし、評価結果が業績要因文の一部だけの文を抽出してもよい。例えば、抽出部１０６により抽出される文には、上限が定められていてもよい。この場合、抽出部１０６は、スコアに基づいて、抽出すべき文を決定してもよい。抽出部１０６は、決算短信から抽出した業績要因文を決算短信データベースＤＢ１に格納する。

［４．本実施形態において実行される処理］
図９は、サーバ１０によって実行される処理を示すフロー図である。図９に示す処理は、制御部１１が記憶部１２に記憶されたプログラムに基づいて動作することによって実行される。図９に示す処理は、図５に示す機能ブロックにより実行される処理の一例である。

図９に示すように、制御部１１は、決算短信データベースＤＢ１を参照し、処理対象となる決算短信を取得する（Ｓ１）。Ｓ１においては、制御部１１は、決算短信データベースＤＢ１に格納された決算短信のうち、まだ業績要因文を抽出していない決算短信の何れかを処理対象として決定する。

制御部１１は、抽出条件に基づいて、決算短信に含まれる複数の文の中から、少なくとも１つの候補文を特定する（Ｓ２）。Ｓ２においては、制御部１１は、キーワードデータベースＤＢ２に基づいて、企業キーワードを含み、かつ、係り受けをたどって手掛かり表現に到達する文を候補文として特定する。

制御部１１は、Ｓ２で特定した候補文ごとに、スコアを取得する（Ｓ３）。Ｓ３においては、制御部１１は、数式２に基づいて、各候補文のスコアを計算し、評価結果データＤＴ１に格納する。

制御部１１は、Ｓ２で特定した候補文の中から、スコアが最大の候補文ｓ_Ｍとスコアが最小の候補文ｓ_Ｌとを選択する（Ｓ４）。なお、スコアが最大の文が複数存在する場合（同率１位の文が複数存在する場合）には、これら複数の文の全てが選択されてもよいし、何れか１つだけが選択されてもよい。スコアが最小の文についても同様である。

制御部１１は、スコアが最小の候補文ｓ_Ｌの評価を反転させる（Ｓ５）。Ｓ５においては、制御部１１は、候補文ｓ_Ｌの評価を業績要因文から非業績要因文に変更する。

制御部１１は、セグメントごとに、スコアが最大の候補文ｓ_Ｍと結束性のある結束文と、スコアが最小の候補文ｓ_Ｌと結束性のある結束文と、を特定する（Ｓ６）。Ｓ６においては、制御部１１は、スコアが最大の候補文ｓ_Ｍの上にある見出しと下にある見出しの間にある文の中から、結束文を特定する。また、制御部１１は、スコアが最大の候補文ｓ_Ｌの上にある見出しと下にある見出しの間にある文の中から、結束文を特定する。

制御部１１は、スコアが最大の候補文ｓ_Ｍと結束性のある結束文に、スコアが最大の候補文の評価を伝播させる（Ｓ７）。Ｓ７においては、制御部１１は、結束文として特定された非候補文の評価を非業績要因文から業績要因文に変更する。

制御部１１は、スコアが最小の候補文ｓ_Ｌと結束性のある結束文に対し、スコアが最小の候補文の評価を伝播させる（Ｓ８）。Ｓ８においては、制御部１１は、結束文として特定された候補文の評価を業績要因文から非業績要因文に変更する。

制御部１１は、評価結果データＤＴ１に基づいて、決算短信の中から業績要因文を抽出し（Ｓ９）、本処理は終了する。Ｓ９においては、制御部１１は、評価結果データＤＴ１の評価結果が業績要因文の文を抽出し、決算短信データベースＤＢ１に格納する。

以上説明した文抽出システム１によれば、少なくとも１つの候補文と結束性のある少なくとも１つの結束文を特定し、少なくとも１つの候補文を抽出するか否かに基づいて、少なくとも１つの結束文を抽出するか否かを決定する。これにより、文抽出システム１は、個々の文単位で抽出条件を満たすか否かを判定して文抽出するのではなく、文脈を考慮して文抽出するので、文抽出の精度を高めることができる。

また、文抽出システム１は、抽出条件を充足しない少なくとも１つの非候補文の中から、少なくとも１つの結束文を特定し、当該特定された少なくとも１つの結束文を抽出すると決定する。例えば、抽出条件を満たさない文であったとしても、前後の文脈を考慮すると抽出すべき文のことがあり、抽出される候補文と結束性のある結束文を抽出することで、このような文の抽出漏れを防止することができる。文の抽出漏れを防止することで、抽出される文を増やすことができる。また、重要な文が抽出されないことによる文抽出の精度低下を防止することができる。

また、文抽出システム１は、候補文ごとに取得されたスコアが所定の選択基準を満たす少なくとも１つの候補文と結束性のある少なくとも１つの結束文を特定する。例えば、全ての候補文について結束文を特定すると、スコアが比較的低く、相対的に重要ではない候補文についても結束文が特定されてしまい、文抽出の精度の低下を招く可能性があるが、選択基準を満たす候補文だけを結束文の特定対象とすることで、より重要な候補文について結束文を特定し、文抽出の精度の低下を防止することができる。

また、文抽出システム１は、スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、少なくとも１つの結束文を特定する。スコアが高い順に選択された所定数の候補文は、候補文の中でより重要な文なので、重要な候補文の結束文を特定することで、文抽出の精度の低下をより効果的に防止することができる。

また、文抽出システム１は、スコアが所定の変更基準を満たす少なくとも１つの候補文については、抽出しないように変更する。例えば、スコアが比較的低い候補文については、一応は抽出条件を満たしているが、他の候補文に比べると重要ではないため、このような候補文については、抽出しないようにすることで、文抽出の精度を効果的に高めることができる。例えば、抽出される文が多すぎると、抽出された文全体で考えると精度が平均化されて低下するところ、抽出される文を重要なものに絞り込むことで、文抽出の精度を高めることができる。

また、文抽出システム１は、スコアが変更基準を満たす少なくとも１つの候補文と結束性のある少なくとも１つの他の候補文を、少なくとも１つの結束文として特定し、当該特定した少なくとも１つの候補文については、抽出しないと決定する。例えば、抽出条件を満たす文であったとしても、前後の文脈を考慮すると抽出すべきではない文のことがあり、抽出されない候補文と結束性のある結束文を抽出しないことで、このような文が抽出されることによるノイズの発生を防止することができる。

また、文抽出システム１は、スコアが低い順に所定数の候補文を選択し、当該選択された所定数の候補文については、抽出しないように変更する。スコアが低い順に選択された所定数の候補文は、候補文の中であまり重要ではない文なので、重要ではない候補文の結束文を特定することで、文抽出の精度の低下をより効果的に防止することができる。

また、文抽出システム１は、抽出条件を充足しない少なくとも１つの非候補文については、スコアが所定値になる又はスコアが計算されない。非候補文については、スコアの差がつかなかったり、そもそもスコアを計算できなかったりするので、非候補文の中で抽出すべき蓋然性の優劣をつけることができない。このため、スコアが変更基準を満たす少なくとも１つの候補文の評価を反転させて伝播させることにより、ノイズの発生を効果的に防止することができる。

また、文抽出システム１は、複数の文を含む文書のセグメントごとに、少なくとも１つの結束文を特定することで、セグメントをまたいで評価が伝播することを防止できる。

また、文抽出システム１は、少なくとも１つの候補文との接続性、参照性、及び語彙的結合性のうちの少なくとも１つに基づいて、少なくとも１つの結合文を特定することで、結束文を正確に特定することができる。

また、文抽出システム１は、抽出条件である複数のキーワードのうちの少なくとも１つを含む少なくとも１つの候補文を特定することで、候補文を正確に特定することができる。

また、文抽出システム１は、決算短信等の文書の中から、業績要因文を抽出する。これにより、テキスト集合から投資に有用な知識を抽出する金融テキストマイニングの精度を向上させることができる。

［５．変形例］
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。

図１０は、変形例における機能ブロック図である。図１０に示すように、変形例の文抽出システム１では、実施形態で説明した機能に加えて、制限部１０７が実現される。制限部１０７は、制御部１１を主として実現される。制限部１０７は、スコアが変更基準よりも高い基準を満たす少なくとも１つの候補文については、変更基準を満たす少なくとも１つの候補文と結束性があったとしても、抽出しない文として決定されることを制限する。

変更基準の意味は、実施形態で説明した通りであり、ここでは、スコアが最小であることを一例として説明する。変更基準よりも高い基準とは、変更基準よりも順位が高いこと、又は、変更基準よりもスコアの閾値が高いことである。ここでは、変更基準よりも高い基準は、実施形態で説明した選択基準と同じであり、スコアが最大であることを一例として説明する。

制限とは、評価を伝播させないことであり、評価を変えないことである。即ち、抽出すべき文の評価のまま変更しないことが制限に相当する。例えば、制限部１０７は、スコアが最大の候補文ｓ_Ｍが、スコアが最小の候補文ｓ_Ｌの結束文として特定されたとしても評価を変更しないように制限する。

なお、変更基準よりも高い基準は、選択基準とは異なっていてもよい。例えば、制限部１０７は、スコアが最大の候補文ｓ_Ｍだけでなく、スコアが２番目〜５番目までの候補文についても、評価を変更しないように制限してもよい。他にも例えば、制限部１０７は、スコアが閾値以上の全ての候補文については評価を変更しないように制限してもよい。

上記変形例によれば、スコアが高い候補文については、スコアが低い候補文の評価が伝播しないので、スコアが高いにも関わらず業績要因文として抽出されないといったことを防止でき、文抽出の精度を効果的に高めることができる。

なお、文抽出システム１は、スコアが最小の候補文ｓ_Ｌの評価を反転する処理を省略してもよい。この場合、候補文は、全て業績要因文となる。文抽出システム１は、評価の反転を行わずに、業績要因文として抽出される候補文の評価を伝播させてもよい。この場合、文抽出システム１は、従来の手法よりも多くの文抽出をすることができる。また例えば、文抽出システム１は、スコアが最大の候補文ｓ_Ｍの評価だけを伝播させるのではなく、業績要因文として抽出される全ての候補文の評価を伝播させてもよい。また例えば、文抽出システム１は、ランダムに選択された一部の候補文の評価を伝播させてもよいし、管理者が選択した候補文の評価を伝播させてもよい。

また例えば、文抽出システム１は、スコアが最小の候補文ｓ_Ｌの評価を反転するのではなく、スコアが閾値未満の候補文の中からランダムに選択された候補文の評価を反転させてもよいし、管理者が選択した候補文の評価を反転させてもよい。また例えば、評価を反転させるための条件を用意しておき、文抽出システム１は、当該条件を満たす候補文の評価を反転させてもよい。この条件としては、明らかに業績要因文ではないキーワードを含むことであってもよいし、文全体の特徴量が所定範囲となることであってもよい。また例えば、文抽出システム１は、非候補文についてもスコアを計算可能であってもよい。また例えば、特にセグメントに関係なく、セグメントをまたいで結束文が特定されてもよい。

また例えば、各機能がサーバ１０で実現される場合を説明したが、複数のコンピュータによって機能が分担されてもよい。例えば、サーバ１０及びユーザ端末２０の各々で機能が分担されてもよいし、複数のサーバコンピュータで機能が分担されてもよい。この場合、ネットワークＮを介して処理結果が送受信されることで、機能が分担されるようにすればよい。また例えば、データ記憶部１００に記憶されるものとして説明したデータは、サーバ１０以外のコンピュータに記憶されていてもよい。

１文抽出システム、１０サーバ、１１制御部、１２記憶部、１３通信部、２０ユーザ端末、２１制御部、２２記憶部、２３通信部、２４操作部、２５表示部、１００データ記憶部、１０１候補文特定部、１０２取得部、１０３変更部、１０４結束文特定部、１０５決定部、１０６抽出部、１０７制限部、ＤＢ１決算短信データベース、ＤＢ２キーワードデータベース、ＤＴ１評価結果データ。

Claims

所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも１つの候補文を特定する候補文特定手段と、
前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段と、
前記スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、前記抽出条件を充足しない文である少なくとも１つの非候補文の中から、当該選択された候補文と結束性のある少なくとも１つの結束文を特定する結束文特定手段と、
少なくとも１つの前記結束文を抽出すると決定する決定手段と、
を含む文抽出システム。
所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも１つの候補文を特定する候補文特定手段と、
前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段と、
前記スコアが所定の変更基準を満たす少なくとも１つの前記候補文については、抽出しないように変更する変更手段と、
前記スコアが前記変更基準を満たす少なくとも１つの前記候補文と結束性のある少なくとも１つの他の候補文を、少なくとも１つの結束文として特定する結束文特定手段と、
少なくとも１つの前記結束文については、抽出しないと決定する決定手段と、
を含む文抽出システム。
前記変更基準は、前記スコアの順序であり、
前記変更手段は、前記スコアが低い順に所定数の候補文を選択し、当該選択された所定数の候補文については、抽出しないように変更する、
請求項２に記載の文抽出システム。
前記複数の文のうち、前記抽出条件を充足しない少なくとも１つの非候補文については、前記スコアが所定値になる又は前記スコアが計算されない、
請求項２に記載の文抽出システム。
前記スコアが前記変更基準よりも高い基準を満たす少なくとも１つの前記候補文については、前記変更基準を満たす少なくとも１つの前記候補文と結束性があったとしても、抽出しない文として決定されることを制限する制限手段を更に含む、
請求項２に記載の文抽出システム。
前記複数の文を含む文書は、複数の部分に分けられており、
前記結束文特定手段は、前記部分ごとに、少なくとも１つの前記結束文を特定する、
請求項１〜５の何れかに記載の文抽出システム。
前記結束文特定手段は、少なくとも１つの前記候補文との接続性、参照性、及び語彙的結束性のうちの少なくとも１つに基づいて、少なくとも１つの前記結束文を特定する、
請求項１〜６の何れかに記載の文抽出システム。
前記抽出条件は、複数のキーワードのうちの少なくとも１つを含むことであり、
前記候補文特定手段は、少なくとも１つの前記キーワードを含む少なくとも１つの前記候補文を特定する、
請求項１〜７の何れかに記載の文抽出システム。
前記複数の文の各々は、企業の決算に関する内容であり、
前記抽出条件は、業績の要因が記述された業績要因文を抽出するための条件である、
請求項１〜８の何れかに記載の文抽出システム。
所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも１つの候補文を特定する候補文特定ステップと、
前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得ステップと、
前記スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、前記抽出条件を充足しない文である少なくとも１つの非候補文の中から、当該選択された候補文と結束性のある少なくとも１つの結束文を特定する結束文特定ステップと、
少なくとも１つの前記結束文を抽出すると決定する決定ステップと、
を含む文抽出方法。
所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも１つの候補文を特定する候補文特定ステップと、
前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得ステップと、
前記スコアが所定の変更基準を満たす少なくとも１つの前記候補文については、抽出しないように変更する変更ステップと、
前記スコアが前記変更基準を満たす少なくとも１つの前記候補文と結束性のある少なくとも１つの他の候補文を、少なくとも１つの結束文として特定する結束文特定ステップと、
少なくとも１つの前記結束文については、抽出しないと決定する決定ステップと、
を含む文抽出方法。
所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも１つの候補文を特定する候補文特定手段、
前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段、
前記スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、前記抽出条件を充足しない文である少なくとも１つの非候補文の中から、当該選択された候補文と結束性のある少なくとも１つの結束文を特定する結束文特定手段、
少なくとも１つの前記結束文を抽出すると決定する決定手段、
としてコンピュータを機能させるためのプログラム。
所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも１つの候補文を特定する候補文特定手段、
前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段、
前記スコアが所定の変更基準を満たす少なくとも１つの前記候補文については、抽出しないように変更する変更手段、
前記スコアが前記変更基準を満たす少なくとも１つの前記候補文と結束性のある少なくとも１つの他の候補文を、少なくとも１つの結束文として特定する結束文特定手段、
少なくとも１つの前記結束文については、抽出しないと決定する決定手段、
としてコンピュータを機能させるためのプログラム。