JP2018120284A - 決算分析システムおよび決算分析プログラム - Google Patents

決算分析システムおよび決算分析プログラム Download PDF

Info

Publication number
JP2018120284A
JP2018120284A JP2017009463A JP2017009463A JP2018120284A JP 2018120284 A JP2018120284 A JP 2018120284A JP 2017009463 A JP2017009463 A JP 2017009463A JP 2017009463 A JP2017009463 A JP 2017009463A JP 2018120284 A JP2018120284 A JP 2018120284A
Authority
JP
Japan
Prior art keywords
factor
morpheme
pattern
settlement
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017009463A
Other languages
English (en)
Other versions
JP6155409B1 (ja
Inventor
洋二郎 関
Yojiro Seki
洋二郎 関
大輔 宮代
Daisuke Miyashiro
大輔 宮代
夏樹 八木
Natsuki Yagi
夏樹 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xenodata Lab Co Ltd
Original Assignee
Xenodata Lab Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xenodata Lab Co Ltd filed Critical Xenodata Lab Co Ltd
Priority to JP2017009463A priority Critical patent/JP6155409B1/ja
Priority to JP2017110899A priority patent/JP6889038B2/ja
Application granted granted Critical
Publication of JP6155409B1 publication Critical patent/JP6155409B1/ja
Publication of JP2018120284A publication Critical patent/JP2018120284A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

【課題】決算関連情報からの要因抽出を効率的かつ柔軟に行う。【解決手段】パターン記憶部11には、要因パターンが記憶されている。この要因パターンは、少なくとも科目および金額情報を含む会計上の事象の表現と、この事象の要因の表現とを有する。形態素解析部5は、決算関連情報に含まれる文章を分解した各文について形態素解析を行い、形態素列を生成する。ラベリング部6は、形態素列を構成する形態素またはその組み合わせに対して、固有の属性ラベルを付与する。パターン比較部7は、属性ラベルによって抽象化された形態素列と、パターン記憶部に記憶された要因パターンとを比較し、形態素列が要因パターンと一致するか否かを判定する。要因抽出部8は、要因パターンと一致した形態素列について、要因パターンによって指定された部分を要因として抽出し、この抽出された要因を形態素列における科目および金額情報と紐付ける。【選択図】図1

Description

本発明は、決算関連情報を分析して、会計上の事象の要因を抽出する決算分析システムおよび決算分析プログラムに関する。
一般に、証券取引所が開示する決算短信、企業が発表する業績予想の修正、証券会社が発表する決算分析レポートといった決算関連情報は、投資家や機関投資家にとって、株式や債券などの投資取引を行う上での重要な情報源となる。そのため、従来より、コンピュータを用いて、決算関連情報を自動で処理する様々な手法が提案されている。
例えば、特許文献1には、決算書の分析結果に基づく記事を作成する記事作成システムが開示されている。この記事作成システムは、決算書データから取得される情報に関する条件と、決算書データから取得された情報がその条件に適合した場合に使用される文字列とを含むテンプレートを備えている。XBRL(eXtensible Business Reporting Language)で記述された決算書データを受け付けた場合、この決算書データから取得される情報がテンプレートに記述された条件に適合するか否かが判断される。そして、この条件に適合する場合、テンプレートに記述された文字列を含んだ記事を表す記事データが自動的に作成される。これにより、決算書の分析結果に基づく記事の作成に要する時間の短縮を図る。
また、特許文献2には、不動産ポートフォリオの分析を行う装置が開示されている。この装置では、複数の不動産物件の属性データと、不動産物件運用の決算データと、分析に用いる決算データを標準化するための標準化ルール情報とが記憶されている。決算データは、標準化ルール情報に基づいて、予め決められた標準化データに変換される。そして、この標準化データと、不動産物件の属性データとに基づいて、収益率等の指標が計算される。これにより、不動産投資におけるポートフォリオ分析を容易に行うことが可能となる。
特開2011−008527号公報 特開2008−140294号公報
ところで、インターネット等の普及により、様々な決算関連情報の入手が容易になった今日、これらの情報を収集・分析してレポート化することは、投資家や機関投資家にとって有用である。その際、特に有用なのは、科目および金額を主体とした会計上の事象(例えば、「営業利益が○○億円」)に対して、その要因(例えば、「為替の影響等により」)を抽出・特定することである。しかしながら、従来、このような要因を決算関連情報から自動で抽出する手法は存在しない。
本発明は、かかる事情に鑑みてなされたものであり、その目的は、決算関連情報からの要因抽出を効率的かつ柔軟に行うことである。
かかる課題を解決すべく、第1の発明は、パターン記憶部と、形態素解析部と、ラベリング部と、パターン比較部と、要因抽出部とを有し、決算関連情報を分析する決算分析システムを提供する。パターン記憶部には、要因パターンが記憶されている。この要因パターンは、少なくとも科目および金額情報を含む会計上の事象の表現と、この事象の要因の表現とを有する。形態素解析部は、決算関連情報に含まれる文章を分解した文のそれぞれについて形態素解析を行い、文の形態素列を生成する。ラベリング部は、形態素列を構成する形態素またはその組み合わせに対して、少なくとも科目および金額を分類する属性毎に固有の属性ラベルを付与する。パターン比較部は、属性ラベルによって抽象化された形態素列と、パターン記憶部に記憶された要因パターンとを比較し、形態素列が要因パターンと一致するか否かを判定する。要因抽出部は、要因パターンと一致した形態素列について、要因パターンによって指定された部分を要因として抽出し、この抽出された要因を形態素列における科目および金額情報と紐付ける。
ここで、第1の発明において、上記要因抽出部は、要因パターンと一致した形態素列のうち、要因を表す表現の前方または後方において連続し、かつ、属性ラベルが付与されていない不定の繰り返し部分を要因として抽出することが好ましい。
第1の発明において、上記要因抽出部は、一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、文章の順序に従って他の文を分析し、この欠落した要素が得られたことをもって、科目、金額情報、および要因の紐付けを行ってもよい。
第1の発明において、予め定義された文字列を記憶する形態素解析辞書をさらに設けてもよい。この場合、上記形態素解析部は、形態素解析辞書に記憶された文字列については、一つの形態素として扱う。また、上記形態素の組み合わせについて、属性ラベルを対応付けて記憶するラベリング辞書をさらに設けてもよい。この場合、上記ラベリング部は、一つの形態素として扱われる形態素の組み合わせに対して、ラベリング辞書によって特定される属性ラベルを付与する。
また、第2の発明は、少なくとも科目および金額情報を含む会計上の事象の表現と、この事象の要因の表現とを有する要因パターンが予め記憶されているコンピュータを用いて、決算関連情報を分析する決算分析プログラムを提供する。このプログラムは、決算関連情報に含まれる文章を分解した文のそれぞれについて形態素解析を行い、文の形態素列を生成する第1のステップと、形態素列を構成する形態素またはその組み合わせに対して、少なくとも科目および金額を分類する属性毎に固有の属性ラベルを付与する第2のステップと、属性ラベルによって抽象化された形態素列と、要因パターンと比較し、形態素列が要因パターンと一致するか否かを判定する第3のステップと、要因パターンと一致した形態素列について、要因パターンによって指定された部分を要因として抽出し、この抽出された要因を形態素列における科目および金額情報と紐付ける第4のステップとを有する処理をコンピュータに実行させる。
ここで、第2の発明において、上記第4のステップは、要因パターンと一致した形態素列のうち、要因を表す表現の前方または後方において連続し、かつ、属性ラベルが付与されていない不定の繰り返し部分を要因として抽出するステップであることが好ましい。
第2の発明において、上記第4のステップは、一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、文章の順序に従って他の文を分析し、この欠落した要素が得られたことをもって、科目、金額情報、および要因の紐付けを行うステップを含んでいてもよい。
第2の発明において、コンピュータには、予め定義された文字列に関する形態素の組み合わせを記憶する形態素解析辞書が予め記憶されていてもよい。この場合、上記第1のステップは、形態素解析辞書に記憶された文字列については、一つの形態素として扱うステップを含む。また、コンピュータには、上記形態素の組み合わせについて、属性ラベルを対応付けて記憶するラベリング辞書が予め記憶されていてもよい。この場合、上記第2のステップは、一つの形態素として扱われる形態素の組み合わせに対して、ラベリング辞書によって特定される属性ラベルを付与するステップを含む。
さらに、第1および第2の発明において、上記金額情報は、金額の増減に関する情報であることが好ましい。
本発明によれば、文そのものではなく、文を形態素解析した上で属性ラベルによって抽象化された形態素列が、予め定義された要因パターンと比較される。そして、両者が一致した場合、この形態素列のうち、要因パターンによって指定された部分が要因として抽出される。要因パターンとの比較を属性ラベルによって抽象化された形態素列ベースで行うことで、定義すべき要因パターンの数を有効に抑制でき、要因抽出を効率的かつ柔軟に行うことが可能となる。
決算分析システムのブロック構成図 決済分析レポートの表示例を示す図 文書解析ルーチンのフローチャート 処理対象となる文の一例を示す図 ラベリングされた形態素列の名称をまとめた一覧表 要因パターンの一例を示す図 係り受け解析における要因抽出例の説明図
図1は、本実施形態に係る決算分析システムのブロック構成図である。決算分析システム1は、入力された決算関連情報を分析し、その分析結果として、レポートを作成・出力する。このシステム1は、典型的にはコンピュータによって実現することができ、その機能的なブロックとして、データ前処理部2と、文書解析部3と、レポート作成部4とを有する。
データ前処理部2は、インターネット上に公開された決算関連情報、例えば、証券取引所が開示する決算短信、企業が発表する業績予想の修正、証券会社が発表する決算分析レポートなどを取得する。決算関連情報の取得は、各企業のホームページ(IRページ)をクローリングすることによって行うことができる。また、データ前処理部2は、取得したXBRLデータを解析して財務情報を取得すると共に、取得したPDFデータを解析して、セグメント別、地域別などの財務情報を取得する。ここで、XBRL(eXtensible Business Reporting Language)とは、拡張可能な事業報告言語であって、財務諸表などのビジネスレポートを電子文書化することで、それらの作成の効率化や比較・分析などの二次利用を目的として、XML(Extensible Markup Language)の規格をベースに作られた言語である。さらに、データ前処理部2は、決済関連情報としてのPDFデータを解析して、このPDFに記載されている文章のデータを取得する。
文書解析部3は、データ前処理部2によって取得された文章から、決算結果である会計上の事象が生じた要因を抽出・取得する。ここで、会計上の事象とは、例えば、「営業利益が○○億円」といった如く、科目および金額情報を主体とした記述である。本明細書において、「金額情報」とは、文章中に出現した金額に関する情報を指し、具体的には、以下のパターンが想定されるが、特に、金額の増減に関しては重要な情報として注目すべきである。
[金額情報のパターン]
1.科目+金額(例:売上高1億円)
2.科目+金額増減(例:売上高が1億円増加)
3.科目+金額増減(例:増収)
また、要因とは、例えば、「為替の影響等により」といった如く、会計上の事象が生じた原因や要因を表す記述である。文書解析部3は、このような事象と要因とを紐付けて、1組のデータとして記憶・保持する。このような事象と要因との紐付けは、後述する文単位で文章全体に対して行われる。
レポート作成部4は、文書解析部3によって取得されたデータに基づいて、決算の内容を分析し、その分析結果を決済分析レポートとして出力する。図2は、決済分析レポートの表示例を示す図である。同図の例では、事業のセグメント別に、「売上高」、「営業益」、「利益」等の各事象について、その要因が「解説」として記述されている。それぞれの事象および「解説」のセットは、後述する要因抽出部8による情報の紐付けに基づいて生成される。なお、決算分析レポートの作成に際しては、文書解析部3による解析結果だけでなく、上述したXBRL解析やPDF解析で抽出された数値データも適宜使用される。
文書解析部3は、これを構成する機能的なサブブロックとして、形態素解析部5と、ラベリング部6と、パターン比較部7と、要因抽出部8とを有する。また、文書解析部3は、文書解析に必要となる予め定義された情報を記憶する記憶部として、形態素解析辞書9と、ラベリング辞書10と、パターン記憶部11とを備えている。形態素解析辞書9は、形態素解析において、一つの形態素として扱うべきものとして、予め定義された文字列(例えば、「月」、「前年」、「売上高」に準じる科目など)を多数記憶している。ラベリング辞書10は、ラベリング部6の処理において用いられ、形態素の組み合わせについて、属性ラベルを対応付けて記憶している。そして、一つの形態素として扱われる形態素の組み合わせに対して、ラベリング辞書10によって特定された属性ラベルが付される。また、パターン記憶部11には、予め定義された要因パターンが多数記憶されている。それぞれの要因パターンは、少なくとも科目および金額情報を含む会計上の事象の表現と、この事象の要因の表現とを有するパターンである。形態素解析辞書9、ラベリング辞書10およびパターン記憶部11の記憶内容は、適宜、追加・変更することができる。
形態素解析部5は、決算関連情報に含まれる文章を文に分解すると共に、それぞれの文についての形態素解析を行い、文毎の形態素列を生成する。ここで、PDFには行の概念がないので、形態素解析に先立ち、1文の切れ目(句点やインデント等)で行となるように、文字列が成形される。形態素解析とは、処理対象となる文を形態素と呼ばれる最も小さな文法単位に分割して解析することであり、日本語の解析では、文から単語を切り出していき、動詞、形容詞、名詞、副詞、連体詞、接続詞、助動詞、助詞といった如く、その単語の品詞と活用とが推定される。その際、形態素解析辞書9によって予め定義された文字列については、形態素解析上、一つの形態素として取り扱われ、所定のメタデータが付与される。
ラベリング部6は、文の形態素列を構成する形態素またはその組み合わせに対して、属性毎に固有の属性ラベルを付与する(ラベリング)。例えば、数字と”円”の組み合わせには「金額」という属性ラベルを付与するといった如くである。属性ラベルは、最低限、「科目」および「金額」を分類できることが要求されるが、これら以外の属性を適宜設定してもよい。また、ラベリング辞書10にて予め定義された形態素の組み合わせ(1つの形態素として扱うべきもの)については、用語辞書9によって指定された属性ラベルが付与される。
パターン比較部7は、属性ラベルによって抽象化された文の形態素列と、パターン記憶部11に記憶された要因パターンとを比較し、形態素列が要因パターンと一致するか否かを判定する。
要因抽出部8は、要因パターンと一致した形態素列について、要因パターンによって指定された部分を要因として抽出し、この抽出された要因を形態素列における科目および金額情報と紐付ける。例えば、国名+助詞+科目+助詞+不定の繰り返し+”により”+金額差分という要因パターンと一致した形態素列については、要因を表す表現である”により”の前方において連続し、かつ、属性ラベルが付与されていない「不定の繰り返し」の部分が要因として抽出されるといった如くである。ここで、「不定の繰り返し」とは、正規表現では、例えば、”.”(「科目」や「金額情報」等のラベルが付与されていない任意の一文字)と、”+”(直前のパターンの1回以上の繰り返し)”との組み合わせとして表現できる。また、要因を表す表現には様々なものが存在し、表現によっては後方において連続した「不定の繰り返し」の部分が要因とされることもある。なお、本実施形態において、科目、金額、および要因の3要素を1組のセットとした紐付けは、基本的に文単位で行われるが、これらの要素が別個の文になっている場合には、3要素の過不足をみながら、複数の文から1組のセットが抽出される。
図3は、文書解析部3において実行される文書解析ルーチンのフローチャートである。この文書解析処理は、コンピュータに図3の処理を実行させるコンピュータプログラムをインストールすることによって実行される。以下、図4に示した文を一例に文書解析の詳細について説明する。
まず、ステップ1において、形態素解析部5は、PDFより取得された文書を文単位で分解し、それぞれの文に対して、文章の順序に従って文番号を昇順で付与する。続くステップ2において、処理対象となる文番号を指定する循環変数nが1にセットされ、文章における最初の文の処理が開始される。
ステップ3において、形態素解析部5は、処理対象となる文の形態素解析を行う。上述したように、用語辞書にて予め定義された形態素の組み合わせについては一つの形態素として扱う以外、一般的な形態素解析と異なるところはない。
ステップ4において、ラベリング部6は、形態素列を構成する形態素またはその組み合わせに対してラベリングを行う。このラベリングには、(1)単純な形態素列に対するラベリング、(2)定義済み形態素列に対するラベリング、(3)金額増減の表現に対するラベリングの3つが存在する。
(1)単純な形態素列に対するラベリング
句点や数値などのような簡単な形態素列の組み合わせに対して、属性ラベルが付与される。読点については、形態素のメタデータが「記号」かつ「読点」の形態素であり、「,」にマッチする場合、「,」「、」の属性ラベルが付与される。句点については、形態素のメタデータが「記号」かつ「句点」の形態素であり、「.」にマッチする場合、「。」とされる。また、数値については、形態素のメタデータが「名詞」かつ「数」の形態素が1つ以上存在するものをAとし、読点や句点に続き形態素のメタデータが「名詞」かつ「数」の形態素が1つ以上するものをBとした場合、AまたはABにマッチするものに「数値」の属性ラベルが付与される。さらに、金額については、上記「数値」に「円」が続くものに「金額」の属性ラベルが付与される。図4の例文では、「1,616億円」,「3,621億円」,「6,128億円」,「944億円」,「53億円」の各形態素列に「金額」の属性ラベルが付与されることになる。
(2)定義済み形態素列に対するラベリング
月、前年、売上高に準ずる科目など、ラベリング辞書10にて定義済みの形態素列に対して、属性ラベルが付与される。例えば、売上高に準ずる科目として、「連結」という表現をAとし、「売上収益」,「売上高」,「売上」,「営業収益」等の表現をBとし、括弧に囲まれた形態素列をCとした場合、B,AB,BC,ABCにマッチするものに対して、「売上高」や「売上」といった属性ラベルが付与される。
(3)金額増減の表現に対するラベリング
単純な表現、カッコ書き付き、割合での表現等でパターン分けして属性ラベルが付与される。例えば、「過去最高の」をA、結果の直前の表現をB、前期の表現、前期の表現+読点をC、金額または割合の1回以上の繰り返しをD、括弧に囲まれた形態素をE、読点+金額または割合、読点+金額または割合+EをF、増減の表現をG、読点をHとした場合、ABCBDEFGH、BCBDEFGH、CBDEFGHといった組み合せを定義してマッチするものに「金額増減」の属性ラベルが付与される。ただし、定義すべき全ての組み合わせを列挙すると記述量が膨大になるため、実際には、組み合せの全列挙ではなく、正規表現のような手法が用いられる。図4の例文では、「3,621億円の増収」,「6,128 億円の減収」,「944億円の増収」,「53億円の減収」,「減少額1,616億円」に対して、「金額増減」の属性ラベルが付与される。
ステップ5において、パターン比較部7は、属性ラベルによって抽象化された文の形態素列と、パターン記憶部11に記憶された要因パターンとを比較し、両者が一致するか否かが判断される(マッチング)。ここで、ラベリングされた形態素列の名称として、図5の一覧表に示す名称を用いる場合について考える。この場合、マッチさせる形態素列のパターン(要因パターン)としては、図6に示すように、A系(A1〜A5・・・),B系(B1〜B3・・・),C系(C1〜C3・・・)などが考えられる。例えば、要因パターンAは、[要因前置]+「セグメント前置」+「セグメント表現」+「要因(逆向)候補」+「要因前置(含:要因)」+「要因(逆向)候補」+”営業利益率は前年を維持し、”+「修飾(分量)」+「科目表現」+「価格表現」+「行末」より構成されていることを意味する。このような要因パターンは、多数の決算関連情報をサンプルとして調査し、要因の抽出漏れがないように多数用意されている。
両者の並びが一致する場合には、ステップ6の肯定判定からステップ7の要因抽出に進み、要因抽出部8は、要因パターンによって指定された部分が結果(要因・科目・金額増減)として抽出する。例えば、A系およびC系の要因パターンについては、「CAUSE_THOUGH」が要因(逆)、「CAUSE」が要因(順)、「ACCOUNT_PHRASE」が科目、「PRICE_SET」が金額増減として抽出されるといった如くである。また、B系の要員パターンについては、「CAUSE_THOUGH」が要因(逆)、「CAUSE」が要因(順)、「PRICE_SET_WITH_ACCOUNT」が科目、金額増減として抽出されるといった如くである。
ステップ7において抽出された要因は、形態素列における科目および金額情報と紐付けて1組のセットとされる。図4の例文では、「3,621億円の増収」という事象について「原油及び天然ガスの売上高に関し、販売数量の増加により」という要因、「6,128億円の減収」という事象について「平均単価の下落により」という要因、「944億円の増収」という事象について「売上の平均為替レートが円安となったことにより」という要因がそれぞれ抽出されることになる。なお、「増収」や「減収」といった表記は、科目としては売上高を表している。
これに対して、両者が一致しない場合には、ステップ6の否定判定からステップ8に進み、要因抽出部8は、複数の文に跨がる組み合わせ判定を行う。すなわち、一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、文章の順序に従って他の文を分析し、この欠落した要素が得られたことをもって、科目、金額情報、および要因の紐付けが行われる。
そして、ステップ9において、循環変数nがラストであるか、換言すれば、文章における最後の文の処理が終了したかが判断される。循環変数nがラストでない場合には、ステップ10で循環変数をインクリメントした上で、ステップ3に戻り、新たな文の処理を実行する。これに対して、循環変数がラストの場合には、一連の処理が終了する。
このように、本実施形態によれば、文そのものではなく、文を形態素解析した上で属性ラベルによって抽象化された形態素列が、予め定義された要因パターンと比較される。そして、両者が一致した場合、この形態素列のうち、要因パターンによって指定された部分が要因として抽出される。一般に、決算関連情報は、ある程度決まった形式の文章で記述されることが多い。このような傾向に鑑み、事象と要因との関係を記述した多数の文章から記述のバリエーションを抽出し、それぞれを要因パターンとして定義しておく。そして、要因パターンとの比較を属性ラベルによって抽象化された形態素列ベースで行うことで、定義すべき要因パターンの数を有効に抑制しつつ、要因抽出を効率的に行うことができる。それとともに、新たなバリエーションが見つかった場合には、新たに定義された要因パターンをパターン記憶部11に追加するだけでよいため、柔軟性にも優れている。
また、本実施形態によれば、処理対象となる一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、文章の順序に従って他の文を分析し、この欠落した要素が得られたことをもって、事象(科目,金額情報)と要因との紐付けが行われる。これにより、要因抽出をより効果的に行うことが可能となる。
さらに、本実施形態によれば、予め定義された文字列を形態素解析辞書9に登録・記憶しておき、この文字列については、形態素解析上、一つの形態素として取り扱う。これにより、決済関連情報に記載された用語をより正確に認識でき、その結果として、要因抽出の精度の向上を図ることができる。
なお、上述した実施形態では、要因抽出の一環として、形態素列における形態素の並び方と、要因パターンにおける要素の並び方とのマッチングを行う例について説明したが、本発明はこれに限定されるものではなく、形態素同士の係り受けのパターンに基づいて同様の処理を行ってもよい。この場合、要因パターンとしては、事象および要因を含む要素同士の係り受けのパターンとして定義される。
図7は、係り受け解析における要因抽出例の説明図である。解析対象となる例文を形態素解析した結果が「国内」「の」「販売」「が」「好調」「に」「推移」「した」「こと」「から」「、」「増収」「となり」「まし」「た」である場合、まず、形態素がラベリングされる。例えば、「国内」がセグメント、「増収」が科目+増減、「、」「まし」「た」などは無視といった如くである。つぎに、起点となる「となり」から伸びているグループに分割される。例えば、(1)「国内の販売が」はセグメントに含まれている、(2)「好調に推移したことから」は、何のラベルも付いてない形態素で構成されているので要因である可能性が高い、(3)「、」は無視のみ、(4)「増収」は科目+増減が含まれている、(5)「まし」は無視のみ、(6)「た」も無視のみ、といった如くである。最後に、無視を除いて整理することにより、科目+増減として「増収」が、要因として「好調に推移したことから」が抽出される。
1 決済分析システム
2 データ前処理部
3 文書解析部
4 レポート作成部
5 形態素解析部
6 ラベリング部
7 パターン比較部
8 要因抽出部
9 形態素解析辞書
10 ラベリング辞書
11 パターン記憶部

Claims (12)

  1. 決算関連情報を分析する決算分析システムにおいて、
    少なくとも科目および金額情報を含む会計上の事象の表現と、当該事象の要因の表現とを有する要因パターンを記憶するパターン記憶部と、
    前記決算関連情報に含まれる文章を分解した文のそれぞれについて形態素解析を行い、文の形態素列を生成する形態素解析部と、
    前記形態素列を構成する形態素またはその組み合わせに対して、少なくとも科目および金額を分類する属性毎に固有の属性ラベルを付与するラベリング部と、
    前記属性ラベルによって抽象化された前記形態素列と、前記パターン記憶部に記憶された前記要因パターンとを比較し、前記形態素列が前記要因パターンと一致するか否かを判定するパターン比較部と、
    前記要因パターンと一致した前記形態素列について、前記要因パターンによって指定された部分を要因として抽出し、当該抽出された要因を前記形態素列における科目および金額情報と紐付ける要因抽出部と
    を有することを特徴とする決算分析システム。
  2. 前記要因抽出部は、前記要因パターンと一致した前記形態素列のうち、要因を表す表現の前方または後方において連続し、かつ、前記属性ラベルが付与されていない不定の繰り返し部分を要因として抽出することを特徴とする請求項1に記載された決算分析システム。
  3. 前記要因抽出部は、一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、前記文章の順序に従って他の文を分析し、当該欠落した要素が得られたことをもって、科目、金額情報、および要因の紐付けを行うことを特徴とする請求項1または2に記載された決算分析システム。
  4. 予め定義された文字列を記憶する形態素解析辞書をさらに有し、
    前記形態素解析部は、前記形態素解析辞書に記憶された文字列については、一つの形態素として扱うことを特徴とする請求項1に記載された決算分析システム。
  5. 前記形態素の組み合わせについて、前記属性ラベルを対応付けて記憶するラベリング辞書をさらに有し、
    前記ラベリング部は、一つの形態素として扱われる前記形態素の組み合わせに対して、前記ラベリング辞書によって特定される前記属性ラベルを付与することを特徴とする請求項4に記載された決算分析システム。
  6. 前記金額情報は、金額の増減に関する情報であることを特徴とする請求項1から5のいずれかに記載された決算分析システム。
  7. 少なくとも科目および金額情報を含む会計上の事象の表現と、当該事象の要因の表現とを有する要因パターンが予め記憶されているコンピュータを用いて、決算関連情報を分析する決算分析プログラムにおいて、
    前記決算関連情報に含まれる文章を分解した文のそれぞれについて形態素解析を行い、文の形態素列を生成する第1のステップと、
    前記形態素列を構成する形態素またはその組み合わせに対して、少なくとも科目および金額を分類する属性毎に固有の属性ラベルを付与する第2のステップと、
    前記属性ラベルによって抽象化された前記形態素列と、前記要因パターンと比較し、前記形態素列が前記要因パターンと一致するか否かを判定する第3のステップと、
    前記要因パターンと一致した前記形態素列について、前記要因パターンによって指定された部分を要因として抽出し、当該抽出された要因を前記形態素列における科目および金額情報と紐付ける第4のステップと
    を有する処理を前記コンピュータに実行させることを特徴とする決算分析プログラム。
  8. 前記第4のステップは、前記要因パターンと一致した前記形態素列のうち、要因を表す表現の前方または後方において連続し、かつ、前記属性ラベルが付与されていない不定の繰り返し部分を要因として抽出するステップであることを特徴とする請求項7に記載された決算分析プログラム。
  9. 前記第4のステップは、一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、前記文章の順序に従って他の文を分析し、当該欠落した要素が得られたことをもって、科目、金額情報、および要因の紐付けを行うステップを含むことを特徴とする請求項7または8に記載された決算分析プログラム。
  10. 前記コンピュータには、予め定義された文字列を記憶する形態素解析辞書が予め記憶されており、
    前記第1のステップは、前記形態素解析辞書に記憶された文字列については、一つの形態素として扱うステップを含むことを特徴とする請求項7に記載された決算分析プログラム。
  11. 前記コンピュータには、前記形態素の組み合わせについて、前記属性ラベルを対応付けて記憶するラベリング辞書が予め記憶されており、
    前記第2のステップは、一つの形態素として扱われる前記形態素の組み合わせに対して、前記ラベリング辞書によって特定される前記属性ラベルを付与するステップを含むことを特徴とする請求項10に記載された決算分析プログラム。
  12. 前記金額情報は、金額の増減に関する情報であることを特徴とする請求項7から11のいずれかに記載された決算分析プログラム。
JP2017009463A 2017-01-23 2017-01-23 決算分析システムおよび決算分析プログラム Active JP6155409B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017009463A JP6155409B1 (ja) 2017-01-23 2017-01-23 決算分析システムおよび決算分析プログラム
JP2017110899A JP6889038B2 (ja) 2017-01-23 2017-06-05 決算分析システムおよび決算分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017009463A JP6155409B1 (ja) 2017-01-23 2017-01-23 決算分析システムおよび決算分析プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017110899A Division JP6889038B2 (ja) 2017-01-23 2017-06-05 決算分析システムおよび決算分析プログラム

Publications (2)

Publication Number Publication Date
JP6155409B1 JP6155409B1 (ja) 2017-06-28
JP2018120284A true JP2018120284A (ja) 2018-08-02

Family

ID=59218569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017009463A Active JP6155409B1 (ja) 2017-01-23 2017-01-23 決算分析システムおよび決算分析プログラム

Country Status (1)

Country Link
JP (1) JP6155409B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020201929A (ja) * 2019-06-06 2020-12-17 楽天株式会社 文抽出システム、文抽出方法、及びプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6784788B2 (ja) * 2019-02-22 2020-11-11 株式会社三菱総合研究所 情報処理装置、情報処理方法及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011090036A1 (ja) * 2010-01-19 2011-07-28 日本電気株式会社 動向情報検索装置、動向情報検索方法および記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011090036A1 (ja) * 2010-01-19 2011-07-28 日本電気株式会社 動向情報検索装置、動向情報検索方法および記録媒体

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
坂地 泰紀、外2名: "決算短信PDFからの原因・結果表現の抽出", 電子情報通信学会論文誌D, vol. 第J98−D巻,第5号, JPN6017018272, 7 May 2015 (2015-05-07), JP, pages 811 - 822, ISSN: 0003562379 *
大西 恒彰、外1名: "月次報告書と基準価格を用いた投資信託商品の要因分析", 第8回データ工学と情報マネジメントに関するフォーラム (第14回日本データベース学会年次大会), JPN6017018269, 8 August 2016 (2016-08-08), JP, pages 1 - 8, ISSN: 0003562378 *
磯沼 大、外6名: "業績変動を考慮した決算短信からの重要文抽出", 情報処理学会 研究報告 自然言語処理(NL) 2016−NL−227, JPN6017018266, 1 August 2016 (2016-08-01), JP, pages 1 - 6, ISSN: 0003562377 *
西崎 海人、外2名: "新聞記事の企業業績発表記事からの製品・部門情報の抽出", 言語処理学会第16回年次大会発表論文集, JPN6017018274, 8 March 2010 (2010-03-08), JP, pages 1038 - 1041, ISSN: 0003562380 *
酒井 浩之、外1名: "企業の業績発表記事からの業績要因の抽出", 言語処理学会第13回年次大会発表論文集, JPN6017018275, 19 March 2007 (2007-03-19), JP, pages 436 - 439, ISSN: 0003562381 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020201929A (ja) * 2019-06-06 2020-12-17 楽天株式会社 文抽出システム、文抽出方法、及びプログラム

Also Published As

Publication number Publication date
JP6155409B1 (ja) 2017-06-28

Similar Documents

Publication Publication Date Title
US10049100B2 (en) Financial event and relationship extraction
US10535042B2 (en) Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet
US8892579B2 (en) Method and system of data extraction from a portable document format file
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
AU2019265874B2 (en) Systems and methods for document deviation detection
US20230028664A1 (en) System and method for automatically tagging documents
Suryono et al. P2P Lending sentiment analysis in Indonesian online news
US20240296188A1 (en) System and Method for Parsing Regulatory and Other Documents for Machine Scoring Background
US20120078950A1 (en) Techniques for Extracting Unstructured Data
JP6155409B1 (ja) 決算分析システムおよび決算分析プログラム
JP2020067987A (ja) 要約作成装置、要約作成方法、及びプログラム
CN110188340B (zh) 一种研报文本实体名词自动识别方法
WO2023198696A1 (en) Method for extracting information from an unstructured data source
JP6889038B2 (ja) 決算分析システムおよび決算分析プログラム
Janicki et al. Detection and attribution of quotes in Finnish news media: BERT vs. rule-based approach
CN113868431A (zh) 面向金融知识图谱的关系抽取方法、装置及存储介质
Lamba et al. Exploring OCR Errors in Full-Text Large Documents: A Study of LIS Theses and Dissertations
SURYONO et al. P2P Lending Sentiment Analysis in Indonesian Online
US20150019208A1 (en) Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device
JP2007102723A (ja) 文書検索装置、文書検索方法および文書検索プログラム
Reiser et al. Analyzing Historical Legal Textcorpora: German VET and CVET regulations
Danyang et al. The Extraction of Comment Information and Sentiment Analysis in Chinese Reviews
Go Gender bias in dependency parsing
Schumann et al. Extraction of Numerical Facts from German Texts to Enrich Internal Audit Data
KR20240057666A (ko) 문서 내의 범주형 문장을 추출 및 요약하는 방법 및 시스템

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170605

R150 Certificate of patent or registration of utility model

Ref document number: 6155409

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250