JP6764991B1 - 文抽出システム、文抽出方法、及びプログラム - Google Patents

文抽出システム、文抽出方法、及びプログラム Download PDF

Info

Publication number
JP6764991B1
JP6764991B1 JP2019221991A JP2019221991A JP6764991B1 JP 6764991 B1 JP6764991 B1 JP 6764991B1 JP 2019221991 A JP2019221991 A JP 2019221991A JP 2019221991 A JP2019221991 A JP 2019221991A JP 6764991 B1 JP6764991 B1 JP 6764991B1
Authority
JP
Japan
Prior art keywords
sentence
candidate
sentences
score
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019221991A
Other languages
English (en)
Other versions
JP2020201929A (ja
Inventor
祐輝 中山
祐輝 中山
誠 津々見
誠 津々見
浩司 村上
浩司 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Application granted granted Critical
Publication of JP6764991B1 publication Critical patent/JP6764991B1/ja
Publication of JP2020201929A publication Critical patent/JP2020201929A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文抽出の精度を高める。【解決手段】文抽出システム(1)の候補文特定手段(101)は、所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する。結束文特定手段(104)は、少なくとも1つの前記候補文と結束性のある少なくとも1つの結束文を特定する。決定手段(105)は、少なくとも1つの前記候補文を抽出するか否かに基づいて、少なくとも1つの前記結束文を抽出するか否かを決定する。【選択図】図5

Description

本発明は、文抽出システム、文抽出方法、及びプログラムに関する。
従来、複数の文の中から少なくとも1つの文を抽出する技術が検討されている。例えば、非特許文献1には、企業の決算短信などの文書の中から、業績の要因が記述された業績要因文を抽出するために、個々の文における企業キーワードの有無を判定し、企業キーワードの係り受けをたどって手掛かり表現に到達するか否かを判定し、業績要因文を抽出する技術が記載されている。
酒井浩之,西沢裕子,松並祥吾,坂地泰紀 企業の決算短信pdfからの業績要因の抽出 人工知能学会論文誌 Vol.30,No.1,pp.172−182,2015
しかしながら、非特許文献1の技術は、個々の文に着目して判定を行うものであり、前後の文脈を考慮していないので、文抽出の精度を十分に高めることはできなかった。例えば、文書の中には、企業キーワードと手掛かり表現を含まなくても、前後の文脈を考慮すると業績の要因が記述された文(例えば、直前の文における企業キーワードを「これ」などの語によって引用した文)が存在し、非特許文献1の技術では、このような文は抽出できない。また例えば、文書の中には、企業キーワードの係り受けをたどって偶然手掛かり表現に到達するが、前後の文脈を考慮すると業績の要因とは関係のない文(例えば、世界経済の動向が記述された文)も存在し、非特許文献1の技術では、このような文を抽出してしまい、ノイズとなる。
本発明は上記課題に鑑みてなされたものであって、その目的は、文抽出の精度を高めることが可能な文抽出システム、文抽出方法、及びプログラムを提供することである。
上記課題を解決するために、本発明に係る文抽出システムは、所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定手段と、少なくとも1つの前記候補文と結束性のある少なくとも1つの結束文を特定する結束文特定手段と、少なくとも1つの前記候補文を抽出するか否かに基づいて、少なくとも1つの前記結束文を抽出するか否かを決定する決定手段と、を含む。
本発明に係る文抽出方法は、所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定ステップと、少なくとも1つの前記候補文と結束性のある少なくとも1つの結束文を特定する結束文特定ステップと、少なくとも1つの前記候補文を抽出するか否かに基づいて、少なくとも1つの前記結束文を抽出するか否かを決定する決定ステップと、を含む。
本発明に係るプログラムは、所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定手段、少なくとも1つの前記候補文と結束性のある少なくとも1つの結束文を特定する結束文特定手段、少なくとも1つの前記候補文を抽出するか否かに基づいて、少なくとも1つの前記結束文を抽出するか否かを決定する決定手段、としてコンピュータを機能させる。
また、本発明の一態様では、前記結束文特定手段は、前記抽出条件を充足しない文である少なくとも1つの非候補文の中から、少なくとも1つの前記結束文を特定し、前記決定手段は、少なくとも1つの前記結束文を抽出すると決定する。
また、本発明の一態様では、前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段を更に含み、前記結束文特定手段は、前記スコアが所定の選択基準を満たす少なくとも1つの前記候補文と結束性のある少なくとも1つの前記結束文を特定する。
また、本発明の一態様では、前記選択基準は、前記スコアの順序であり、前記結束文特定手段は、前記スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、少なくとも1つの前記結束文を特定する。
また、本発明の一態様では、前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段と、前記スコアが所定の変更基準を満たす少なくとも1つの前記候補文については、抽出しないように変更する変更手段と、を更に含む。
また、本発明の一態様では、前記結束文特定手段は、前記スコアが前記変更基準を満たす少なくとも1つの前記候補文と結束性のある少なくとも1つの他の候補文を、少なくとも1つの前記結束文として特定し、前記決定手段は、少なくとも1つの前記結束文については、抽出しないと決定する。
また、本発明の一態様では、前記変更基準は、前記スコアの順序であり、前記変更手段は、前記スコアが低い順に所定数の候補文を選択し、当該選択された所定数の候補文については、抽出しないように変更する。
また、本発明の一態様では、前記複数の文のうち、前記抽出条件を充足しない少なくとも1つの非候補文については、前記スコアが所定値になる又は前記スコアが計算されない。
また、本発明の一態様では、前記スコアが前記変更基準よりも高い基準を満たす少なくとも1つの前記候補文については、前記変更基準を満たす少なくとも1つの前記候補文と結束性があったとしても、抽出しない文として決定されることを制限する制限手段を更に含む。
また、本発明の一態様では、前記複数の文を含む文書は、複数の部分に分けられており、前記結束文特定手段は、前記部分ごとに、少なくとも1つの前記結束文を特定する。
また、本発明の一態様では、前記結束文特定手段は、少なくとも1つの前記候補文との接続性、参照性、及び語彙的結束性のうちの少なくとも1つに基づいて、少なくとも1つの前記結束文を特定する。
また、本発明の一態様では、前記抽出条件は、複数のキーワードのうちの少なくとも1つを含むことであり、前記候補文特定手段は、少なくとも1つの前記キーワードを含む少なくとも1つの前記候補文を特定する。
また、本発明の一態様では、前記複数の文の各々は、企業の決算に関する内容であり、前記抽出条件は、業績の要因が記述された業績要因文を抽出するための条件である。
本発明によれば、文抽出の精度を高めることができる。
文抽出システムの全体構成を示す図である。 決算短信の一例を示す図である。 文抽出システムの処理の概要を示す図である。 文抽出システムの処理の概要を示す図である。 文抽出システムで実現される機能の一例を示す機能ブロック図である。 決算短信データベースのデータ格納例を示す図である。 キーワードデータベースのデータ格納例を示す図である。 評価結果データのデータ格納例である。 サーバによって実行される処理を示すフロー図である。 変形例における機能ブロック図である。
[1.文抽出システムの全体構成]
以下、本発明に関わる文抽出システムの実施形態の例を説明する。図1は、文抽出システムの全体構成を示す図である。図1に示すように、文抽出システム1は、サーバ10及びユーザ端末20を含み、これらはインターネットなどのネットワークNに接続される。図1では、サーバ10及びユーザ端末20を1台ずつ示しているが、これらは複数台あってもよい。
サーバ10は、サーバコンピュータであり、例えば、制御部11、記憶部12、及び通信部13を含む。制御部11は、少なくとも1つのプロセッサを含む。制御部11は、記憶部12に記憶されたプログラムやデータに従って処理を実行する。記憶部12は、主記憶部及び補助記憶部を含む。例えば、主記憶部はRAMなどの揮発性メモリであり、補助記憶部は、ハードディスクやフラッシュメモリなどの不揮発性メモリである。通信部13は、有線通信又は無線通信用の通信インタフェースを含み、例えば、ネットワークNを介してデータ通信を行う。
ユーザ端末20は、ユーザが操作するコンピュータであり、例えば、パーソナルコンピュータ、携帯情報端末(タブレット型コンピュータを含む)、又は携帯電話機(スマートフォンを含む)等である。ユーザ端末20は、制御部21、記憶部22、通信部23、操作部24、及び表示部25を含む。制御部21、記憶部22、及び通信部23のハードウェア構成は、それぞれ制御部11、記憶部12、及び通信部13と同様であってよい。操作部24は、入力デバイスであり、例えば、タッチパネルやマウス等のポインティングデバイスやキーボード等である。操作部24は、ユーザの操作内容を制御部21に伝達する。表示部25は、例えば、液晶表示部又は有機EL表示部等である。
なお、記憶部12,22に記憶されるものとして説明するプログラム及びデータは、ネットワークを介してこれらに供給されるようにしてもよい。また、サーバ10及びユーザ端末20の各々のハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、サーバ10及びユーザ端末20の各々は、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部(例えば、光ディスクドライブやメモリカードスロット)や外部機器と直接的に接続するための入出力部(例えば、USB端子)を含んでもよい。この場合、情報記憶媒体に記憶されたプログラムやデータが読取部又は入出力部を介して、サーバ10及びユーザ端末20の各々に供給されるようにしてもよい。
[2.文抽出システムの概要]
文抽出システム1は、複数の文の中から、少なくとも1つの文を抽出する。文は、句点、ピリオド、感嘆符、又は疑問符などで終わる(区切られる)一続きの言葉である。文は、任意の言語で記述されてよく、例えば、英語、日本語、中国語、スペイン語、フランス語、又はアラビア語などであってもよい。
本実施形態では、企業の決算短信の中から少なくとも1つの文を抽出する場合を例に挙げて、文抽出システム1の処理を説明する。なお、文は、決算に関する内容に限られず、任意の内容が記述されていてよい。例えば、ニュース記事、論説、論文、小説、ブログやSNSなどに対する投稿、議事録、公的文書、テレビや映画などの字幕情報、又は教材の中から少なくとも1つの文を抽出するなどの他の任意の場面に、文抽出システム1を適用可能である。
図2は、決算短信の一例を示す図である。図2に示すように、決算短信Fは、企業の決算に関する内容を含み、例えば、文、見出し、目次、図、表、及び画像などが含まれる。決算短信Fは、任意のレイアウトで記述されてよく、例えば、所定の規則に準拠した形式で作成される。なお、図2では、説明の簡略化のために、特にページを分けずに示しているが、実際の決算短信Fは、複数のページに分けられている。
決算短信Fの中には、投資家などのユーザに有用な文もあれば、ユーザにとって有用ではない文もある。このため、本実施形態の文抽出システム1は、ユーザに有用な知識を提供するために、決算短信Fの中から、少なくとも1つの業績要因文を抽出する。
業績要因文は、企業の業績につながった要因を示す文である。別の言い方をすれば、業績要因文は、企業の売上高及び利益の少なくとも一方に影響を与えた要因を示す文である。業績要因文は、決算短信Fに係る企業に投資すべきか否かの判断材料となる文ということもできる。
例えば、業績要因文を抽出する手法としては、従来技術で説明した非特許文献1の手法が存在する。先述したように、非特許文献1の手法では、文単位で業績要因文を判定しているため、文抽出の精度を十分に高めることができない。そこで、本実施形態の文抽出システム1では、決算短信Fにおける文脈を考慮して、従来の手法では抽出できなかった業績要因文を抽出したり、従来の手法では誤って抽出されてしまうノイズを除去したりすることによって、文抽出の精度を高めるようにしている。
図3及び図4は、文抽出システム1の処理の概要を示す図である。図3及び図4では、説明の簡略化のために、決算短信Fにおける見出しや文の内容は省略している。例えば、図3及び図4の「見出し1」と「見出し2」の各々は、図2の決算短信Fにおける「(A)国内事業」や「(B)海外事業」などの見出しである。また例えば、図3及び図4の「文1−1」〜「文1−6」と「文2−1」〜「文2−2」の各々は、図2の決算短信Fにおける「(A)国内事業」や「(B)海外事業」などの見出しの間に記載された文である。
図3に示すように、まず、文抽出システム1は、決算短信Fに含まれる個々の情報を、見出しと文に分類する(符号「F1」の状態)。見出しと文の分類方法自体は、公知の手法を適用可能である。例えば、文抽出システム1は、句点のない行を見出しとして特定してもよいし、(1)や(A)といった見出しを示す特定の語が冒頭に記載された行を見出しとして特定してもよい。また例えば、文抽出システム1は、句点やピリオドなどによって区切られた部分を文として特定してもよいし、見出し以外の部分を文として特定してもよい。
文抽出システム1は、決算短信Fに含まれる複数の文の中から、業績要因文の候補である候補文を特定する(符号「F2」の状態)。候補文の特定方法自体は、公知の手法を適用可能であり、本実施形態では、非特許文献1の手法を利用する場合を説明する。このため、候補文は、非特許文献1の手法で業績要因文として抽出される文ということができる。本実施形態では、候補文は、業績要因文として抽出されることもあるし、抽出されないこともある。図3では、候補文を網掛けで示しており、例えば、「文1−2」、「文2−1」、及び「文2−2」には、企業キーワードが含まれており、企業キーワードの係り受けをたどって手掛かり表現に到達するため、候補文として特定される。
文抽出システム1は、候補文のスコアを計算し、スコアが最大の文と最小の文を選択する(符号「F3」の状態)。スコアは、文抽出の信頼度又は正確度である。別の言い方をすれば、スコアは、業績要因文である蓋然性又は確率である。スコアの計算方法の詳細は、後述する。スコアが高いほど業績要因文である蓋然性が高く、スコアが低いほど業績要因文である蓋然性が低い。図3の例では、「文1−2」のスコアが最大であり、「文2−1」のスコアが最小である。なお、候補文ではない非候補文(例えば、「文1−1」など)については、スコアは計算されないものとする。
文抽出システム1は、スコアが最小の「文2−1」の評価を反転する(符号「F4」の状態)。評価は、抽出すべき文であるか否かの評価であり、本実施形態では、業績要因文又は非業績要因文の何れかの評価となる。
非業績要因文は、業績要因文ではない文である。業績要因文は、抽出すべき文であるのに対し、非業績要因文は、抽出すべきではない文である。候補文が特定された時点(符号「F2」の時点)では、全ての候補文の評価は業績要因文となり、非候補文の評価は非業績要因文となる。なお、非候補文は、候補文ではない文であり、候補文以外の文である。符号「F4」の状態では、スコアが最小の「文2−1」は、候補文として特定されたが、業績要因文である蓋然性が最も低いので、非業績要因文の評価に変わる。
図4に移り、文抽出システム1は、セグメントごとに、スコアが最大の候補文と結束性のある結束文と、スコアが最小の候補文と結束性のある結束文と、を特定する(符号「F5」の状態)。セグメントは、文書の一部分であり、情報のまとまりの単位である。本実施形態では、セグメントは、ある見出しと次の見出しの間の部分である。
結束性は、ある文と他の文との間に文法的又は語彙的な結びつきが存在することである。別の言い方をすれば、結束性は、ある文と他の文が意味的又は内容的に関連することである。結束文は、ある文と結束性のある他の文である。結束文は、候補文のこともあるし、非候補文のこともある。即ち、候補文と非候補文に結束性が存在することもあるし、ある候補文と他の候補文に結束性が存在することもある。結束文の特定方法については、後述する。
図4の例では、スコアが最大の候補文である「文1−2」と結束性のある結束文として、「文1−3」、「文1−4」、及び「文1−6」が特定される。例えば、「文1−2」と「文1−4」のように、「文1−3」を介して間接的に結束性が見出されることもある。また、スコアが最小の候補文である「文2−1」と結束性のある結束文として、「文2−2」が特定される。
文抽出システム1は、スコアが最大の候補文の評価を結束文に伝播させる(符号「F6」の状態)。ここでの伝播とは、結束文の評価を候補文の評価に合わせることである。スコアが最大の候補文の評価は、業績要因文なので、結束文の評価も業績要因文となる。図4の例では、スコアが最大の候補文である「文1−2」の評価が、結束文である「文1−3」、「文1−4」、及び「文1−6」に伝播する。このため、「文1−3」、「文1−4」、及び「文1−6」は、非候補文であり非特許文献1の技術であれば非業績要因文であるが、「文1−2」と結束性があるので、本実施形態では業績要因文として抽出される。
文抽出システム1は、スコアが最小の候補文の評価を結束文に伝播させる(符号「F7」の状態)。スコアが最小の候補文の評価は、非業績要因文に変更されているので、結束文の評価も非業績要因文となる。図4の例では、スコアが最小の候補文である「文2−1」の評価が、結束文である「文2−2」に伝播する。このため、「文2−2」は、候補文であり非特許文献1の技術であれば業績要因文であるが、評価が反転された「文2−1」と結束性があるので、本実施形態では非業績要因文となり、抽出されない。
文抽出システム1は、決算短信Fに含まれる複数の文の各々の最終的な評価結果に基づいて、業績要因文を抽出する。図4の例では、符号「F7」の状態が最終的な状態を示しているので、「文1−2」、「文1−3」、「文1−4」、及び「文1−6」が業績要因文として抽出される。
以上のように、本実施形態の文抽出システム1は、スコアが最大の候補文と結束性のある結束文については、候補文ではなかったとしても業績要因文とする。例えば、図3及び図4の「文1−3」、「文1−4」、及び「文1−6」のように、従来の手法では抽出できなかった業績要因文を抽出することで、文抽出の精度を高めている。
例えば、図2の決算短信Fにおいて、「国内事業は、缶詰の売上高が減少しましたが、レトルト食品と調味料の売上高が増加し、前年同期比増収となりました。」の文は、非特許文献1の技術で業績要因文として抽出される。一方、「品目別では、レトルト食品は、カレー、シチューなどが増加となりましたが、離乳食などが減少となりました。」の文は、「カレー」や「シチュー」などの語が企業キーワードとして抽出されるが、「増加となりました」や「減少となりました」が手掛かり表現として抽出されないので、非特許文献1の技術では業績要因文として抽出されなかった。この点、文抽出システム1によれば、これらの文の間の結束性を特定することによって、前者の文の評価が後者の文に伝播し、非特許文献1の技術では抽出できなかった後者の文が業績要因文として抽出される。
また、文抽出システム1は、スコアが最小の候補文の評価を反転させ、当該候補文と結束性のある結束文については、候補文であったとしても非業績要因文とする。例えば、図3及び図4の「文2−1」及び「文2−2」のように、従来の手法では業績要因文として抽出されていた文(ノイズとなりうる文)を抽出しないようにすることで、文抽出の精度を高めている。
例えば、図2の決算短信Fにおいて、「純資産合計は、全連結会計年度末に比べ500万円増加し、10億円となりました。」の文と、「これは利益余剰金が700万円増加した一方で、為替換算調整勘定が200万円減少したことなどによるものです。」の文は、非特許文献1の技術で業績要因文として抽出される。しかし、これらの文は、業績の要因が記述されていないので、業績要因文ではなく、ノイズとなっていた。この点、文抽出システム1によれば、後者の文は、スコアが最低の文として特定され、評価を反転させたうえで、前者の文に評価を伝播させるので、これらの文が業績要因文として抽出されることを防止し、ノイズを低減する。
以上のように、文抽出システム1は、従来の手法で抽出できなかった業績要因文を抽出したり、従来の手法で誤って抽出されてしまった非業績要因文を抽出しないようにしたりする構成を有し、文抽出の精度を高めるようにしている。以降、文抽出システム1の構成の詳細を説明する。なお、以降では、記載の簡略化のために、決算短信Fの符号を省略する。
[3.本実施形態において実現される機能]
図5は、文抽出システム1で実現される機能の一例を示す機能ブロック図である。図5に示すように、例えば、データ記憶部100、候補文特定部101、取得部102、変更部103、結束文特定部104、決定部105、及び抽出部106が実現される。本実施形態では、これら各機能がサーバ10において実現される。データ記憶部100は、記憶部12を主として実現され、他の各機能は、制御部11を主として実現される。
[3−1.データ記憶部]
データ記憶部100は、文を抽出するために必要なデータを記憶する。例えば、データ記憶部100は、決算短信データベースDB1、キーワードデータベースDB2、及び評価結果データDT1を記憶する。
図6は、決算短信データベースDB1のデータ格納例を示す図である。図6に示すように、決算短信データベースDB1は、決算短信に関する情報が格納されたデータベースである。例えば、決算短信データベースDB1には、企業の名前、企業の属性、決算短信の実データへのリンク(パス)、及び抽出部106により抽出された業績要因文が格納される。
属性は、企業を分類するための情報である。例えば、属性は、企業が取り扱う業務分野、企業が販売する商品のカテゴリ、又は企業が提供するサービスのカテゴリなどである。本実施形態では、企業は、複数の属性のうちの少なくとも1つに属するものとする。なお、企業は、特に属性によって分類されていなくてもよい。
決算短信の実データは、任意のファイル形式であってよく、例えば、テキスト形式、文書ファイル形式、イメージファイル形式、表形式、又はHTML形式などであってよい。決算短信の実データは、データ記憶部100に保存されており、決算短信データベースDB1には、決算短信の保存先へのリンクが格納される。
業績要因文の実データも、任意のファイル形式であってよい。業績要因文の実データは、決算短信のうち重要な一部分を抜き出した要約ということもできる。決算短信データベースDB1には、業績要因文そのものが格納されていてもよいし、業績要因文を格納した実データへのリンクが格納されていてもよい。
図7は、キーワードデータベースDB2のデータ格納例を示す図である。図7に示すように、キーワードデータベースDB2は、候補文を特定するためのキーワードが格納されたデータベースである。例えば、キーワードデータベースDB2には、属性ごとに、企業キーワードと手掛かり表現が格納される。
企業キーワードは、企業にとって重要なキーワードである。例えば、企業キーワードは、企業の業務分野に関するキーワード、企業が販売する商品に関するキーワード、又は企業が提供するサービスに関するキーワードなどである。図7のデータ格納例では、水産加工といった属性に対し、水産加工の業務分野に関する「かつお」、「さば」、及び「漁獲」といった企業キーワードが関連付けられている。
手掛かり表現は、業績の良し悪しの手掛かりとなる表現である。例えば、手掛かり表現は、「好調」、「良好」、「不調」、又は「悪化」などの語を含む述語や形容詞などである。図7のデータ格納例では、水産加工といった属性に対し、水産加工の業績の良し悪しの手掛かりとなる「好調だった」、「良好だった」、及び「不調だった」といった手掛かり表現が関連付けられている。手掛かり表現は、「好調」などの語を含むため、文抽出をするためのキーワードの一例ということもできる。
企業キーワードと手掛かり表現は、文抽出システム1の管理者により手入力されてもよいが、本実施形態では、決算短信や業績発表記事などに出現する単語が統計的に分析されて抽出されるものとする。例えば、サーバ10は、企業キーワードを収集するために、ある企業tの決算短信に出現する名詞nに対し、数式1に示すW(n,F(t))を計算する。
Figure 0006764991
F(t)は、企業tの決算短信fの集合である。企業tは、定期的に最新の決算短信fを発行するので、F(t)は、企業tが発行した決算短信fの履歴ということもできる。F(t)は、過去の全期間における決算短信fの集合であってもよいし、直近の一定期間における決算短信fの集合であってもよい。
W(n,F(t))は、決算短信の集合であるF(t)における名詞nが企業キーワードであるか否かを決定するための評価値である。例えば、W(n,F(t))は、キーワードデータベースDB2に格納される。H(n,F(t))は、f∈F(t)の中で名詞nが決算短信fで出現する確率のエントロピーである。TF(n,F(t))は、F(t)中の文書全てを統合して1つの文書とみなした場合のtf−idf値である。なお、確率のエントロピー又はtf−idf値の何れか一方のみが考慮されてもよい。
数式1の値は、ある企業の決算短信に多く、かつ、まんべんなく出現し、他の企業の決算短信には出現しない名詞に対して高い値を取る。例えば、サーバ10は、企業tにおけるW(n,F(t))の平均値を計算し、W(n,F(t))の値が当該平均値よりも大きく、かつ、log(N/df(n))が1より大きい名詞を企業キーワードとして抽出する。
なお、手掛かり表現についても、企業キーワードと同様に、統計的な情報に基づいて抽出されてもよいし、手掛かり表現については、文抽出システム1の管理者によって手入力されてもよい。また、本実施形態では、企業の属性ごとに、企業キーワードと手掛かり表現が用意されている場合を説明するが、企業キーワードと手掛かり表現は、個々の企業ごとに用意されていてもよい。また例えば、特に属性や企業ごとに用意するのではなく、対象となる全企業で共通の企業キーワードと手掛かり表現が用意されていてもよい。
図8は、評価結果データDT1のデータ格納例である。図8に示すように、評価結果データDT1は、決算短信に含まれる文の評価が格納されるデータである。例えば、評価結果データDT1には、決算短信の文ごとに、候補文フラグ、スコア、結束文情報、及び評価結果が格納される。なお、図8のデータ格納例では、見出しの情報も格納されているが、見出しの情報は省略してもよい。
候補文フラグは、候補文であるか否かを示す情報である。例えば、候補文フラグがオンの文は、候補文として特定されたことを示し、候補文フラグがオフの文は、候補文として特定されなかったことを示す。本実施形態では、候補文フラグがオンの文についてのみスコアが計算されて評価結果データDT1に格納される。
結束文情報は、結束文として特定された他の文を示す情報である。本実施形態では、スコアが最大の候補文と、スコアが最小の候補文と、の各々の結束文が特定されるので、これら2つの文についてのみ、結束文情報が格納される。評価結果は、抽出すべき文であるか否かの評価を示す。本実施形態では、評価結果として、業績要因文であることを示す値、又は、非業績要因文であることを示す値の何れかが格納される。
[3−2.候補文特定部]
候補文特定部101は、所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する。
抽出条件は、文を抽出するための条件である。別の言い方をすれば、抽出条件は、要約を作成するための条件である。抽出条件は、文抽出のルール、又は、自動要約アルゴリズムに含まれる条件ということもできる。抽出条件は、任意の条件を設定可能であり、例えば、抽出条件は、所定のキーワードの有無、キーワードに関連付けられた評価値の範囲、又は、文中の単語の特徴量の範囲などである。本実施形態では、抽出条件は、個々の文単位で判定可能な条件とするが、文脈が考慮される条件が設定されていてもよい。
本実施形態では、複数の文の各々は、企業の決算に関する内容なので、抽出条件は、業績の要因が記述された業績要因文を抽出するための条件となる。先述したように、本実施形態では、抽出条件の一例として、非特許文献1の手法を説明するが、抽出条件自体は、要約を作成する際に利用される種々の条件を利用可能である。
候補文特定部101は、決算短信に含まれる複数の文の各々が抽出条件を満たすか否かを判定する。別の言い方をすれば、候補文特定部101は、文ごと、抽出条件を満たすか否かを判定する。候補文特定部101は、抽出条件を満たす少なくとも1つの文を候補文として特定する。候補文特定部101は、抽出条件を満たさない文については候補文として特定せず、抽出条件を満たす文を候補文として特定する。候補文特定部101の処理結果は、評価結果データDT1に格納され、候補文の候補文フラグはオンになり、非候補文の候補文フラグはオフになる。
なお、本実施形態では、決算短信に含まれる複数の文の全てを候補文特定部101の処理対象とするが、一部の文だけが処理対象となってもよい。また、処理対象となる複数の文は、1つのデータの中にまとめられている必要はなく、複数のデータの中から候補文が特定されてもよい。また例えば、候補文特定部101は、候補文を1つだけ特定してもよいし、複数の候補文を特定してもよい。また例えば、候補文特定部101は、抽出条件を満たす文の全てを候補文として特定してもよいし、抽出条件を満たす文の一部だけを候補文として特定してもよい。候補文として特定される文の数は、上限数が定められていてもよいし、特に上限数が定められていなくてもよい。
本実施形態では、抽出条件は、複数のキーワードのうちの少なくとも1つを含むことであり、候補文特定部101は、少なくとも1つのキーワードを含む少なくとも1つの候補文を特定する。候補文特定部101は、文ごとに、キーワードデータベースDB2に格納されたキーワードを含むか否かを判定する。候補文特定部101は、キーワードを含まない文は候補文として特定せず、キーワードを含む文を候補文として特定する。
非特許文献1の手法を例に挙げると、候補文特定部101は、文ごとに、企業キーワードを含むか否かを判定する。候補文特定部101は、企業キーワードを含む文の文節が係り受けをたどって手掛かり表現に到達するか否かを判定する。候補文特定部101は、手掛かり表現に到達すると判定された文を候補文(非特許文献1の手法では業績要因文)として特定する。このため、本実施形態の抽出条件は、企業キーワードを含み、かつ、係り受けをたどって手掛かり表現に到達することである。
例えば、決算短信の中に、「かつおやさばなどの漁獲が好調だった。」といった文が存在したとする。この場合、候補文特定部101は、企業キーワードである「かつお」、「さば」、及び「漁獲」といった企業キーワードを含む文節の係り受けをたどり、手掛かり表現である「好調だった」に到達するので、この文を候補文として特定する。一方、候補文特定部101は、企業キーワードが存在しない文、又は、企業キーワードは存在するが手掛かり表現に到達しない文については、候補文として特定しない。
[3−3.取得部]
取得部102は、候補文ごとに、抽出条件に基づくスコアを取得する。スコアは、予め定められた計算式に基づいて計算されるようにすればよく、計算式は、データ記憶部100に予め記憶されているものとする。計算式は、候補文とスコアの関係が定義された式ということができ、候補文の全体又は一部が計算式に入力されると、スコアが出力される。
例えば、候補文が抽出条件に合致する度合が高いほどスコアが高くなり、候補文が抽出条件に合致する度合が低いほどスコアが低くなる。また例えば、候補文に含まれるキーワードの数が多いほどスコアが高くなり、候補文に含まれるキーワードの数が少ないほどスコアが低くなる。また例えば、候補文に含まれるキーワードの評価値が高いほどスコアが高くなり、候補文に含まれるキーワードの評価値が低いほどスコアが低くなる。
本実施形態では、取得部102が、候補文に含まれるキーワードの評価値に基づいて、スコアを取得する場合を説明する。ここでは、評価値の一例として、数式1に示すW(n,F(t))を説明するが、評価値は、他の方法によって計算されてもよい。例えば、キーワードの出現頻度やtf−idf値をそのまま評価値として利用してもよい。また例えば、評価値は、統計的に計算されるのではなく、文抽出システム1の管理者が手動で指定してもよい。例えば、取得部102は、候補文に含まれるキーワードの評価値と下記の数式2とに基づいて、候補文のスコアを取得する。
Figure 0006764991
conf(t,f,i)は、企業tの決算短信f∈F(t)におけるi行目の候補文sのスコアである。K(t,f,i)は、i行目の候補文sの中で係り受けをたどって手掛かり表現に到達する企業キーワードの集合である。conf(t,f,i)は、n∈Kを満たす全てのnでW(n,F(t))が高いほど高い値を取る。
本実施形態では、スコアが最大の候補文と最小の候補文が選択されるので、下記の数式3及び数式4に示すように、conf(t,f,i)に基づいて、スコアが最大の行番号M(t,f)と、スコアが最小の行番号L(t,f)と、が取得される。
Figure 0006764991
Figure 0006764991
本実施形態では、決算短信に含まれる文のうち、抽出条件を充足する少なくとも1つの候補文がスコアの計算対象となり、抽出条件を充足しない少なくとも1つの非候補文については、スコアが計算されないものとする。このため、取得部102は、非候補文については、スコアを計算せず、評価結果データDT1には、非候補文のスコアは格納されない。
なお、非候補文については、スコアを計算しないのではなく、スコアを所定値(固定値)としてもよい。この値は、候補文のスコアよりも小さい値であり、例えば、0などである。例えば、非候補文は、企業キーワードを含まないので、数式2に基づいてスコアを計算しようとしても、そもそも評価値W(n,F(t))が存在しないので、0となる。即ち、非候補文については、どの文についても共通の値のスコアとしてもよい。
[3−4.変更部]
変更部103は、スコアが所定の変更基準を満たす少なくとも1つの候補文については、抽出しないように変更する。変更基準は、候補文の評価を変更するための基準であり、スコアが比較的低いことである。例えば、変更基準は、スコアの順位が所定の順位未満であること、スコアが閾値未満であること、又は、スコアが下位所定パーセントであることなどである。
変更部103は、少なくとも1つの候補文の各々のスコアに基づいて、変更基準を満たす候補文を特定する。変更部103は、変更基準を満たす候補文については、評価を変更し、変更基準を満たさない候補文については、評価を変更しない。変更部103は、変更基準を満たす全ての候補文の評価を変更してもよいし、評価を変更する候補文に上限数を定めておき、変更基準を満たす一部の候補文の評価だけを変更してもよい。
本実施形態では、変更基準は、スコアの順序であり、変更部103は、スコアが低い順に所定数の候補文を選択し、当該選択された所定数の候補文については、抽出しないように変更する。選択される候補文の数(即ち、上記所定数の数値)は、任意の数であってよく、本実施形態では1つとするが、2つ以上であってもよい。また、選択される候補文の数は、固定値であってもよいし、可変値であってもよい。例えば、変更部103は、候補文の中からスコアが最小の文sを特定し、評価結果データDT1に格納される評価結果を、業績要因文から非業績要因文に変更する。即ち、変更部103は、文sの評価結果を、抽出すべき文という評価から、抽出すべきではない文という評価に変更する。
[3−5.結束文特定部]
結束文特定部104は、少なくとも1つの候補文と結束性のある少なくとも1つの結束文を特定する。結束文特定部104は、特定された全ての候補文について、結束性の判定をしてもよいし、一部の候補文についてのみ、結束性の判定をしてもよい。本実施形態では、全ての候補文の結束性を判定するのではなく、結束文特定部104は、スコアが所定の選択基準を満たす少なくとも1つの候補文と結束性のある少なくとも1つの結束文を特定する場合を説明する。
選択基準は、結束性を判定する候補文を選択するための基準である。別の言い方をすれば、選択基準は、評価を伝播させる候補文を選択するための基準である。例えば、選択基準は、スコアの順位が所定の順位以上であること、スコアの順位が所定の順位未満であること、スコアが閾値以上であること、スコアが閾値未満であること、スコアが上位所定パーセントであること、又はスコアが下位所定パーセントであることなどである。結束文特定部104は、選択基準を満たす全ての候補文の結束性を判定してもよいし、結束性を判定する候補文に上限数を定めておき、選択基準を満たす一部の候補文の結束性だけを判定してもよい。
本実施形態では、選択基準は、スコアの順序であり、例えば、結束文特定部104は、スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、少なくとも1つの結束文を特定する。選択される候補文の数(即ち、上記所定数の数値)は、任意の数であってよく、本実施形態では1つとするが、2つ以上であってもよい。また、選択される候補文の数は、固定値であってもよいし、可変値であってもよい。例えば、変更部103は、候補文の中から、スコアが最大の文sを選択し、文sについて、結束文の有無を判定する。
なお、結束文の判定対象となる文は、候補文であってもよいし、非候補文であってもよい。業績要因文の候補文の評価は、非業績要因文の非候補文に対して伝播するので、非候補文が結束文の判定対象となる。例えば、結束文特定部104は、抽出条件を充足しない文である少なくとも1つの非候補文の中から、少なくとも1つの結束文を特定する。結束文特定部104は、非候補文の中から、スコアが最大の文sと結束性のある少なくとも1つの結束文を特定する。
また例えば、結束文特定部104は、候補文の中からスコアが最小の文sを選択し、他の候補文の中から、文sについて結束文の有無を判定する。本実施形態では、スコアが最小の文sは、反転された評価(即ち、非業績要因文の評価)が伝播されるので、候補文が結束文の判定対象となる。結束文特定部104は、スコアが変更基準を満たす少なくとも1つの候補文と結束性のある少なくとも1つの他の候補文を、少なくとも1つの結束文として特定する。
本実施形態では、複数の文を含む文書は、複数の部分に分けられており、結束文特定部104は、部分ごとに、少なくとも1つの結束文を特定する。本実施形態では、セグメントが当該部分に相当するが、特にセグメントでなくてもよい。例えば、結束文特定部104は、ページごとに結束文を特定してもよいし、段落ごとに結束文を特定してもよい。また例えば、結束文特定部104は、管理者が選択した範囲ごとに結束文を特定してもよい。
結束性の判定方法自体は、公知の種々の手法を適用可能である。結束文特定部104は、ある候補文と非候補文との間に結束性が見出された場合には、当該非候補文は結束文となる。また例えば、ある候補文と他の候補文との間に結束性が見出された場合には、当該他の候補文は結束文となる。例えば、結束文特定部104は、少なくとも1つの候補文との接続性、参照性、及び語彙的結束性のうちの少なくとも1つに基づいて、少なくとも1つの結束文を特定する。本実施形態では、接続性、参照性、及び語彙的結束性の全てに基づいて結束文が特定される場合を説明するが、これらの何れか1つ又は2つに基づいて結束文が特定されてもよい。
接続性は、接続詞又は副詞の有無である。例えば、「また」、「そして」、「一方」といった接続詞が文頭又は文中に存在していたり、「特に」といった副詞が文頭又は文中に存在していたりした場合に、結束性があるとされる。参照性は、代名詞の有無である。例えば、「これ」、「それ」といった代名詞が文頭又は文中に存在している場合に、結束性があるとされる。語彙的結束性は、共通する語の有無である。例えば、所定の語が共通している場合に、結束性があるとされる。
例えば、結束文特定部104は、接続性と参照性については、以下の手順に基づいて、隣接した文の結束性の有無を特定する。なお、以降の説明は、スコアが最低の文sの結束文を例に挙げるが、スコアが最高の文sの結束文についても同じ処理が行われる。
(手順1)i=L−1,j=L+1(i,jは変数であり、Lはスコアが最低の文sの行数である。)
(手順2)sが見出しであれば、手順5へ。
(手順3)siの文頭に接続詞又は副詞があれば、sとsi+1との間に結束性があるとし、なければ手順5へ。
(手順4)iを1つ減らし、手順2へ。
(手順5)sが見出しであれば、処理を終了する。
(手順6)sが文頭に接続詞又は副詞があれば、sとsj−1の間に結束性があるとし、なければ処理を終了する。
(手順7)jを1つ増やし、手順5へ。
また例えば、語彙的結束性に関し、結束文特定部104は、文間の語の重複に着目して結束文を特定する。一般的に文は、主題を示す部分である主題部と、それ以外の部分である非主題部と、に分けられる。本実施形態では、「において」や「について」といった所定の語を含む文節を主題部とし、それ以外を非主題部とする。2つの文の間で主題部に語の重複がある場合は、類似した話題の可能性があるため、一方の抽出結果が片方の結果に依存すると考えられる。また、2つの文の間で主題部と非主題部の間に語の重複がある場合も、同じ話題に対して詳細化される可能性があるので、同じことがいえる。
以上により、スコアが最大の候補文sとスコアが最低の候補文sとの各々の名詞の形態素集合を用いて、同じセグメント内の文について、主題部内の名詞の形態素集合と上記の集合に1つでも重複する形態素があれば、両者の間に結束性があると判定する。
例えば、図2の例であれば、「国内事業は、缶詰の売上高が減少しましたが、レトルト食品と調味料の売上高が増加し、前年同期比増収となりました。」の文と、「品目別では、レトルト食品は、カレー、シチューなどが増加となりましたが、離乳食などが減少となりました。」の文と、の間には、「レトルト食品」という名詞が共通しているので、これらの間には、結束性があると判定される。
なお、候補文によっては、結束性のある文が存在しないこともあるので、必ずしも結束文が見つかるとは限らない。このため、候補文の評価が伝播しないこともある。一方、候補文によっては、結束性のある文が複数存在することもあるので、2つ以上の結束文が特定されることもある。このため、候補文の評価が複数の結束文に伝播することもある。結束文特定部104は、結束性がある限りの結束文を特定してもよいし、上限数に達するまで結束文を特定してもよい。
[3−6.決定部]
決定部105は、少なくとも1つの候補文を抽出するか否かに基づいて、少なくとも1つの結束文を抽出するか否かを決定する。決定部105は、候補文と同じ評価になるように、結束文の評価を決定する。別の言い方をすれば、決定部105は、候補文の評価と、当該候補文と結束性のある結束文の評価と、を一致させる。決定部105による決定結果は、評価結果データDT1に格納される。
例えば、決定部105は、抽出する候補文と結束性のある少なくとも1つの結束文が特定された場合、当該少なくとも1つの結束文を抽出すると決定する。例えば、候補文の評価が業績要因文である場合に、決定部105は、当該候補文と結束性のある結束文の評価を業績要因文に決定する。本実施形態では、決定部105は、スコアが最大の文sと結束性のある非候補文の評価を、非業績要因文から業績要因文に変更する。
また例えば、決定部105は、抽出しない候補文と結束性のある少なくとも1つの結束文については、抽出しないと決定する。また例えば、候補文の評価が非業績要因文の場合に、決定部105は、当該候補文と結束性のある結束文の評価を非業績要因文に決定する。本実施形態では、決定部105は、スコアが最低の文sと結束性のある候補文の評価を、業績要因文から非業績要因文に変更する。
[3−7.抽出部]
抽出部106は、決定部105の決定結果に基づいて、複数の文の中から少なくとも1つの文を抽出する。例えば、抽出部106は、決定部105により抽出すると決定された結束文を抽出し、決定部105により抽出しないと決定された結束文は抽出しない。抽出部106は、評価結果データDT1を参照し、評価結果が業績要因文である文を抽出し、評価結果が非業績要因文である文は抽出しない。
なお、抽出部106は、評価結果が業績要因文である全ての文を抽出してもよいし、評価結果が業績要因文の一部だけの文を抽出してもよい。例えば、抽出部106により抽出される文には、上限が定められていてもよい。この場合、抽出部106は、スコアに基づいて、抽出すべき文を決定してもよい。抽出部106は、決算短信から抽出した業績要因文を決算短信データベースDB1に格納する。
[4.本実施形態において実行される処理]
図9は、サーバ10によって実行される処理を示すフロー図である。図9に示す処理は、制御部11が記憶部12に記憶されたプログラムに基づいて動作することによって実行される。図9に示す処理は、図5に示す機能ブロックにより実行される処理の一例である。
図9に示すように、制御部11は、決算短信データベースDB1を参照し、処理対象となる決算短信を取得する(S1)。S1においては、制御部11は、決算短信データベースDB1に格納された決算短信のうち、まだ業績要因文を抽出していない決算短信の何れかを処理対象として決定する。
制御部11は、抽出条件に基づいて、決算短信に含まれる複数の文の中から、少なくとも1つの候補文を特定する(S2)。S2においては、制御部11は、キーワードデータベースDB2に基づいて、企業キーワードを含み、かつ、係り受けをたどって手掛かり表現に到達する文を候補文として特定する。
制御部11は、S2で特定した候補文ごとに、スコアを取得する(S3)。S3においては、制御部11は、数式2に基づいて、各候補文のスコアを計算し、評価結果データDT1に格納する。
制御部11は、S2で特定した候補文の中から、スコアが最大の候補文sとスコアが最小の候補文sとを選択する(S4)。なお、スコアが最大の文が複数存在する場合(同率1位の文が複数存在する場合)には、これら複数の文の全てが選択されてもよいし、何れか1つだけが選択されてもよい。スコアが最小の文についても同様である。
制御部11は、スコアが最小の候補文sの評価を反転させる(S5)。S5においては、制御部11は、候補文sの評価を業績要因文から非業績要因文に変更する。
制御部11は、セグメントごとに、スコアが最大の候補文sと結束性のある結束文と、スコアが最小の候補文sと結束性のある結束文と、を特定する(S6)。S6においては、制御部11は、スコアが最大の候補文sの上にある見出しと下にある見出しの間にある文の中から、結束文を特定する。また、制御部11は、スコアが最大の候補文sの上にある見出しと下にある見出しの間にある文の中から、結束文を特定する。
制御部11は、スコアが最大の候補文sと結束性のある結束文に、スコアが最大の候補文の評価を伝播させる(S7)。S7においては、制御部11は、結束文として特定された非候補文の評価を非業績要因文から業績要因文に変更する。
制御部11は、スコアが最小の候補文sと結束性のある結束文に対し、スコアが最小の候補文の評価を伝播させる(S8)。S8においては、制御部11は、結束文として特定された候補文の評価を業績要因文から非業績要因文に変更する。
制御部11は、評価結果データDT1に基づいて、決算短信の中から業績要因文を抽出し(S9)、本処理は終了する。S9においては、制御部11は、評価結果データDT1の評価結果が業績要因文の文を抽出し、決算短信データベースDB1に格納する。
以上説明した文抽出システム1によれば、少なくとも1つの候補文と結束性のある少なくとも1つの結束文を特定し、少なくとも1つの候補文を抽出するか否かに基づいて、少なくとも1つの結束文を抽出するか否かを決定する。これにより、文抽出システム1は、個々の文単位で抽出条件を満たすか否かを判定して文抽出するのではなく、文脈を考慮して文抽出するので、文抽出の精度を高めることができる。
また、文抽出システム1は、抽出条件を充足しない少なくとも1つの非候補文の中から、少なくとも1つの結束文を特定し、当該特定された少なくとも1つの結束文を抽出すると決定する。例えば、抽出条件を満たさない文であったとしても、前後の文脈を考慮すると抽出すべき文のことがあり、抽出される候補文と結束性のある結束文を抽出することで、このような文の抽出漏れを防止することができる。文の抽出漏れを防止することで、抽出される文を増やすことができる。また、重要な文が抽出されないことによる文抽出の精度低下を防止することができる。
また、文抽出システム1は、候補文ごとに取得されたスコアが所定の選択基準を満たす少なくとも1つの候補文と結束性のある少なくとも1つの結束文を特定する。例えば、全ての候補文について結束文を特定すると、スコアが比較的低く、相対的に重要ではない候補文についても結束文が特定されてしまい、文抽出の精度の低下を招く可能性があるが、選択基準を満たす候補文だけを結束文の特定対象とすることで、より重要な候補文について結束文を特定し、文抽出の精度の低下を防止することができる。
また、文抽出システム1は、スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、少なくとも1つの結束文を特定する。スコアが高い順に選択された所定数の候補文は、候補文の中でより重要な文なので、重要な候補文の結束文を特定することで、文抽出の精度の低下をより効果的に防止することができる。
また、文抽出システム1は、スコアが所定の変更基準を満たす少なくとも1つの候補文については、抽出しないように変更する。例えば、スコアが比較的低い候補文については、一応は抽出条件を満たしているが、他の候補文に比べると重要ではないため、このような候補文については、抽出しないようにすることで、文抽出の精度を効果的に高めることができる。例えば、抽出される文が多すぎると、抽出された文全体で考えると精度が平均化されて低下するところ、抽出される文を重要なものに絞り込むことで、文抽出の精度を高めることができる。
また、文抽出システム1は、スコアが変更基準を満たす少なくとも1つの候補文と結束性のある少なくとも1つの他の候補文を、少なくとも1つの結束文として特定し、当該特定した少なくとも1つの候補文については、抽出しないと決定する。例えば、抽出条件を満たす文であったとしても、前後の文脈を考慮すると抽出すべきではない文のことがあり、抽出されない候補文と結束性のある結束文を抽出しないことで、このような文が抽出されることによるノイズの発生を防止することができる。
また、文抽出システム1は、スコアが低い順に所定数の候補文を選択し、当該選択された所定数の候補文については、抽出しないように変更する。スコアが低い順に選択された所定数の候補文は、候補文の中であまり重要ではない文なので、重要ではない候補文の結束文を特定することで、文抽出の精度の低下をより効果的に防止することができる。
また、文抽出システム1は、抽出条件を充足しない少なくとも1つの非候補文については、スコアが所定値になる又はスコアが計算されない。非候補文については、スコアの差がつかなかったり、そもそもスコアを計算できなかったりするので、非候補文の中で抽出すべき蓋然性の優劣をつけることができない。このため、スコアが変更基準を満たす少なくとも1つの候補文の評価を反転させて伝播させることにより、ノイズの発生を効果的に防止することができる。
また、文抽出システム1は、複数の文を含む文書のセグメントごとに、少なくとも1つの結束文を特定することで、セグメントをまたいで評価が伝播することを防止できる。
また、文抽出システム1は、少なくとも1つの候補文との接続性、参照性、及び語彙的結合性のうちの少なくとも1つに基づいて、少なくとも1つの結合文を特定することで、結束文を正確に特定することができる。
また、文抽出システム1は、抽出条件である複数のキーワードのうちの少なくとも1つを含む少なくとも1つの候補文を特定することで、候補文を正確に特定することができる。
また、文抽出システム1は、決算短信等の文書の中から、業績要因文を抽出する。これにより、テキスト集合から投資に有用な知識を抽出する金融テキストマイニングの精度を向上させることができる。
[5.変形例]
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
図10は、変形例における機能ブロック図である。図10に示すように、変形例の文抽出システム1では、実施形態で説明した機能に加えて、制限部107が実現される。制限部107は、制御部11を主として実現される。制限部107は、スコアが変更基準よりも高い基準を満たす少なくとも1つの候補文については、変更基準を満たす少なくとも1つの候補文と結束性があったとしても、抽出しない文として決定されることを制限する。
変更基準の意味は、実施形態で説明した通りであり、ここでは、スコアが最小であることを一例として説明する。変更基準よりも高い基準とは、変更基準よりも順位が高いこと、又は、変更基準よりもスコアの閾値が高いことである。ここでは、変更基準よりも高い基準は、実施形態で説明した選択基準と同じであり、スコアが最大であることを一例として説明する。
制限とは、評価を伝播させないことであり、評価を変えないことである。即ち、抽出すべき文の評価のまま変更しないことが制限に相当する。例えば、制限部107は、スコアが最大の候補文sが、スコアが最小の候補文sの結束文として特定されたとしても評価を変更しないように制限する。
なお、変更基準よりも高い基準は、選択基準とは異なっていてもよい。例えば、制限部107は、スコアが最大の候補文sだけでなく、スコアが2番目〜5番目までの候補文についても、評価を変更しないように制限してもよい。他にも例えば、制限部107は、スコアが閾値以上の全ての候補文については評価を変更しないように制限してもよい。
上記変形例によれば、スコアが高い候補文については、スコアが低い候補文の評価が伝播しないので、スコアが高いにも関わらず業績要因文として抽出されないといったことを防止でき、文抽出の精度を効果的に高めることができる。
なお、文抽出システム1は、スコアが最小の候補文sの評価を反転する処理を省略してもよい。この場合、候補文は、全て業績要因文となる。文抽出システム1は、評価の反転を行わずに、業績要因文として抽出される候補文の評価を伝播させてもよい。この場合、文抽出システム1は、従来の手法よりも多くの文抽出をすることができる。また例えば、文抽出システム1は、スコアが最大の候補文sの評価だけを伝播させるのではなく、業績要因文として抽出される全ての候補文の評価を伝播させてもよい。また例えば、文抽出システム1は、ランダムに選択された一部の候補文の評価を伝播させてもよいし、管理者が選択した候補文の評価を伝播させてもよい。
また例えば、文抽出システム1は、スコアが最小の候補文sの評価を反転するのではなく、スコアが閾値未満の候補文の中からランダムに選択された候補文の評価を反転させてもよいし、管理者が選択した候補文の評価を反転させてもよい。また例えば、評価を反転させるための条件を用意しておき、文抽出システム1は、当該条件を満たす候補文の評価を反転させてもよい。この条件としては、明らかに業績要因文ではないキーワードを含むことであってもよいし、文全体の特徴量が所定範囲となることであってもよい。また例えば、文抽出システム1は、非候補文についてもスコアを計算可能であってもよい。また例えば、特にセグメントに関係なく、セグメントをまたいで結束文が特定されてもよい。
また例えば、各機能がサーバ10で実現される場合を説明したが、複数のコンピュータによって機能が分担されてもよい。例えば、サーバ10及びユーザ端末20の各々で機能が分担されてもよいし、複数のサーバコンピュータで機能が分担されてもよい。この場合、ネットワークNを介して処理結果が送受信されることで、機能が分担されるようにすればよい。また例えば、データ記憶部100に記憶されるものとして説明したデータは、サーバ10以外のコンピュータに記憶されていてもよい。
1 文抽出システム、10 サーバ、11 制御部、12 記憶部、13 通信部、20 ユーザ端末、21 制御部、22 記憶部、23 通信部、24 操作部、25 表示部、100 データ記憶部、101 候補文特定部、102 取得部、103 変更部、104 結束文特定部、105 決定部、106 抽出部、107 制限部、DB1 決算短信データベース、DB2 キーワードデータベース、DT1 評価結果データ。

Claims (13)

  1. 所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定手段と、
    前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段と、
    前記スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、前記抽出条件を充足しない文である少なくとも1つの非候補文の中から、当該選択された候補文と結束性のある少なくとも1つの結束文を特定する結束文特定手段と、
    なくとも1つの前記結束文を抽出する決定する決定手段と、
    を含む文抽出システム。
  2. 所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定手段と、
    前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段と、
    前記スコアが所定の変更基準を満たす少なくとも1つの前記候補文については、抽出しないように変更する変更手段と、
    前記スコアが前記変更基準を満たす少なくとも1つの前記候補文と結束性のある少なくとも1つの他の候補文を、少なくとも1つの結束文として特定する結束文特定手段と、
    少なくとも1つの前記結束文については、抽出しないと決定する決定手段と、
    を含む文抽出システム。
  3. 前記変更基準は、前記スコアの順序であり、
    前記変更手段は、前記スコアが低い順に所定数の候補文を選択し、当該選択された所定数の候補文については、抽出しないように変更する、
    請求項に記載の文抽出システム。
  4. 前記複数の文のうち、前記抽出条件を充足しない少なくとも1つの非候補文については、前記スコアが所定値になる又は前記スコアが計算されない、
    請求項に記載の文抽出システム。
  5. 前記スコアが前記変更基準よりも高い基準を満たす少なくとも1つの前記候補文については、前記変更基準を満たす少なくとも1つの前記候補文と結束性があったとしても、抽出しない文として決定されることを制限する制限手段を更に含む、
    請求項に記載の文抽出システム。
  6. 前記複数の文を含む文書は、複数の部分に分けられており、
    前記結束文特定手段は、前記部分ごとに、少なくとも1つの前記結束文を特定する、
    請求項1〜の何れかに記載の文抽出システム。
  7. 前記結束文特定手段は、少なくとも1つの前記候補文との接続性、参照性、及び語彙的結束性のうちの少なくとも1つに基づいて、少なくとも1つの前記結束文を特定する、
    請求項1〜の何れかに記載の文抽出システム。
  8. 前記抽出条件は、複数のキーワードのうちの少なくとも1つを含むことであり、
    前記候補文特定手段は、少なくとも1つの前記キーワードを含む少なくとも1つの前記候補文を特定する、
    請求項1〜の何れかに記載の文抽出システム。
  9. 前記複数の文の各々は、企業の決算に関する内容であり、
    前記抽出条件は、業績の要因が記述された業績要因文を抽出するための条件である、
    請求項1〜の何れかに記載の文抽出システム。
  10. 所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定ステップと、
    前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得ステップと、
    前記スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、前記抽出条件を充足しない文である少なくとも1つの非候補文の中から、当該選択された候補文と結束性のある少なくとも1つの結束文を特定する結束文特定ステップと、
    なくとも1つの前記結束文を抽出する決定する決定ステップと、
    を含む文抽出方法。
  11. 所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定ステップと、
    前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得ステップと、
    前記スコアが所定の変更基準を満たす少なくとも1つの前記候補文については、抽出しないように変更する変更ステップと、
    前記スコアが前記変更基準を満たす少なくとも1つの前記候補文と結束性のある少なくとも1つの他の候補文を、少なくとも1つの結束文として特定する結束文特定ステップと、
    少なくとも1つの前記結束文については、抽出しないと決定する決定ステップと、
    を含む文抽出方法。
  12. 所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定手段、
    前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段、
    前記スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、前記抽出条件を充足しない文である少なくとも1つの非候補文の中から、当該選択された候補文と結束性のある少なくとも1つの結束文を特定する結束文特定手段、
    なくとも1つの前記結束文を抽出する決定する決定手段、
    としてコンピュータを機能させるためのプログラム。
  13. 所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定手段、
    前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段、
    前記スコアが所定の変更基準を満たす少なくとも1つの前記候補文については、抽出しないように変更する変更手段、
    前記スコアが前記変更基準を満たす少なくとも1つの前記候補文と結束性のある少なくとも1つの他の候補文を、少なくとも1つの結束文として特定する結束文特定手段、
    少なくとも1つの前記結束文については、抽出しないと決定する決定手段、
    としてコンピュータを機能させるためのプログラム。
JP2019221991A 2019-06-06 2019-12-09 文抽出システム、文抽出方法、及びプログラム Active JP6764991B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/432933 2019-06-06
US16/432,933 US11238219B2 (en) 2019-06-06 2019-06-06 Sentence extraction system, sentence extraction method and information storage medium

Publications (2)

Publication Number Publication Date
JP6764991B1 true JP6764991B1 (ja) 2020-10-07
JP2020201929A JP2020201929A (ja) 2020-12-17

Family

ID=72665886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019221991A Active JP6764991B1 (ja) 2019-06-06 2019-12-09 文抽出システム、文抽出方法、及びプログラム

Country Status (2)

Country Link
US (1) US11238219B2 (ja)
JP (1) JP6764991B1 (ja)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3597697B2 (ja) * 1998-03-20 2004-12-08 富士通株式会社 文書要約装置およびその方法
US20040010458A1 (en) * 2002-07-10 2004-01-15 First Data Corporation Methods and systems for organizing information from multiple sources
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence
US7693825B2 (en) * 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
JP2006059082A (ja) * 2004-08-19 2006-03-02 Yokohama National Univ 文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム
JP2006092473A (ja) * 2004-09-27 2006-04-06 Toshiba Corp 回答支援システムおよび装置、回答支援プログラム
JP2009140411A (ja) 2007-12-10 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> 文章要約装置および文章要約方法
US9087043B2 (en) * 2010-09-29 2015-07-21 Rhonda Enterprises, Llc Method, system, and computer readable medium for creating clusters of text in an electronic document
US20160343086A1 (en) * 2015-05-19 2016-11-24 Xerox Corporation System and method for facilitating interpretation of financial statements in 10k reports by linking numbers to their context
JP6155409B1 (ja) * 2017-01-23 2017-06-28 株式会社xenodata lab. 決算分析システムおよび決算分析プログラム

Also Published As

Publication number Publication date
US20200387569A1 (en) 2020-12-10
JP2020201929A (ja) 2020-12-17
US11238219B2 (en) 2022-02-01

Similar Documents

Publication Publication Date Title
Khoo et al. Lexicon-based sentiment analysis: Comparative evaluation of six sentiment lexicons
US9633007B1 (en) Loose term-centric representation for term classification in aspect-based sentiment analysis
US9317498B2 (en) Systems and methods for generating summaries of documents
US10255354B2 (en) Detecting and combining synonymous topics
Kang et al. based measurement of customer satisfaction in mobile service: Sentiment analysis and VIKOR approach
Ding et al. Learning topical translation model for microblog hashtag suggestion
Baly et al. A characterization study of arabic twitter data with a benchmarking for state-of-the-art opinion mining models
Moussa et al. A survey on opinion summarization techniques for social media
US9645995B2 (en) Language identification on social media
US8972413B2 (en) System and method for matching comment data to text data
US20210026835A1 (en) System and semi-supervised methodology for performing machine driven analysis and determination of integrity due diligence risk associated with third party entities and associated individuals and stakeholders
US9239880B2 (en) Method and apparatus for identifying synonyms and using synonyms to search
Cataldi et al. Good location, terrible food: detecting feature sentiment in user-generated reviews
US20150347920A1 (en) Search system and corresponding method
Avvenuti et al. GSP (Geo-Semantic-Parsing): geoparsing and geotagging with machine learning on top of linked data
US20130060769A1 (en) System and method for identifying social media interactions
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
US20170132190A1 (en) Recommend content segments based on annotations
JP2018538603A (ja) 検索クエリ間におけるクエリパターンおよび関連する総統計の特定
US11928433B2 (en) Systems and methods for term prevalence-volume based relevance
JP5435249B2 (ja) イベント分析装置、イベント分析方法、およびプログラム
Fan et al. Analyzing sentiments in Web 2.0 social media data in Chinese: experiments on business and marketing related Chinese Web forums
US20160004977A1 (en) Content Monetization System
WO2016067396A1 (ja) 文の並び替え方法および計算機
Panigrahi et al. Features level sentiment mining in enterprise systems from informal text corpus using machine learning techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191224

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191224

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20191219

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200914

R150 Certificate of patent or registration of utility model

Ref document number: 6764991

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250