JP2018120284A - 決算分析システムおよび決算分析プログラム - Google Patents
決算分析システムおよび決算分析プログラム Download PDFInfo
- Publication number
- JP2018120284A JP2018120284A JP2017009463A JP2017009463A JP2018120284A JP 2018120284 A JP2018120284 A JP 2018120284A JP 2017009463 A JP2017009463 A JP 2017009463A JP 2017009463 A JP2017009463 A JP 2017009463A JP 2018120284 A JP2018120284 A JP 2018120284A
- Authority
- JP
- Japan
- Prior art keywords
- factor
- morpheme
- pattern
- settlement
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 230000000877 morphologic effect Effects 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 10
- 230000014509 gene expression Effects 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 8
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 239000002245 particle Substances 0.000 description 3
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 239000010779 crude oil Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003345 natural gas Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
Description
1.科目+金額(例:売上高1億円)
2.科目+金額増減(例:売上高が1億円増加)
3.科目+金額増減(例:増収)
句点や数値などのような簡単な形態素列の組み合わせに対して、属性ラベルが付与される。読点については、形態素のメタデータが「記号」かつ「読点」の形態素であり、「,」にマッチする場合、「,」「、」の属性ラベルが付与される。句点については、形態素のメタデータが「記号」かつ「句点」の形態素であり、「.」にマッチする場合、「。」とされる。また、数値については、形態素のメタデータが「名詞」かつ「数」の形態素が1つ以上存在するものをAとし、読点や句点に続き形態素のメタデータが「名詞」かつ「数」の形態素が1つ以上するものをBとした場合、AまたはABにマッチするものに「数値」の属性ラベルが付与される。さらに、金額については、上記「数値」に「円」が続くものに「金額」の属性ラベルが付与される。図4の例文では、「1,616億円」,「3,621億円」,「6,128億円」,「944億円」,「53億円」の各形態素列に「金額」の属性ラベルが付与されることになる。
月、前年、売上高に準ずる科目など、ラベリング辞書10にて定義済みの形態素列に対して、属性ラベルが付与される。例えば、売上高に準ずる科目として、「連結」という表現をAとし、「売上収益」,「売上高」,「売上」,「営業収益」等の表現をBとし、括弧に囲まれた形態素列をCとした場合、B,AB,BC,ABCにマッチするものに対して、「売上高」や「売上」といった属性ラベルが付与される。
単純な表現、カッコ書き付き、割合での表現等でパターン分けして属性ラベルが付与される。例えば、「過去最高の」をA、結果の直前の表現をB、前期の表現、前期の表現+読点をC、金額または割合の1回以上の繰り返しをD、括弧に囲まれた形態素をE、読点+金額または割合、読点+金額または割合+EをF、増減の表現をG、読点をHとした場合、ABCBDEFGH、BCBDEFGH、CBDEFGHといった組み合せを定義してマッチするものに「金額増減」の属性ラベルが付与される。ただし、定義すべき全ての組み合わせを列挙すると記述量が膨大になるため、実際には、組み合せの全列挙ではなく、正規表現のような手法が用いられる。図4の例文では、「3,621億円の増収」,「6,128 億円の減収」,「944億円の増収」,「53億円の減収」,「減少額1,616億円」に対して、「金額増減」の属性ラベルが付与される。
2 データ前処理部
3 文書解析部
4 レポート作成部
5 形態素解析部
6 ラベリング部
7 パターン比較部
8 要因抽出部
9 形態素解析辞書
10 ラベリング辞書
11 パターン記憶部
Claims (12)
- 決算関連情報を分析する決算分析システムにおいて、
少なくとも科目および金額情報を含む会計上の事象の表現と、当該事象の要因の表現とを有する要因パターンを記憶するパターン記憶部と、
前記決算関連情報に含まれる文章を分解した文のそれぞれについて形態素解析を行い、文の形態素列を生成する形態素解析部と、
前記形態素列を構成する形態素またはその組み合わせに対して、少なくとも科目および金額を分類する属性毎に固有の属性ラベルを付与するラベリング部と、
前記属性ラベルによって抽象化された前記形態素列と、前記パターン記憶部に記憶された前記要因パターンとを比較し、前記形態素列が前記要因パターンと一致するか否かを判定するパターン比較部と、
前記要因パターンと一致した前記形態素列について、前記要因パターンによって指定された部分を要因として抽出し、当該抽出された要因を前記形態素列における科目および金額情報と紐付ける要因抽出部と
を有することを特徴とする決算分析システム。 - 前記要因抽出部は、前記要因パターンと一致した前記形態素列のうち、要因を表す表現の前方または後方において連続し、かつ、前記属性ラベルが付与されていない不定の繰り返し部分を要因として抽出することを特徴とする請求項1に記載された決算分析システム。
- 前記要因抽出部は、一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、前記文章の順序に従って他の文を分析し、当該欠落した要素が得られたことをもって、科目、金額情報、および要因の紐付けを行うことを特徴とする請求項1または2に記載された決算分析システム。
- 予め定義された文字列を記憶する形態素解析辞書をさらに有し、
前記形態素解析部は、前記形態素解析辞書に記憶された文字列については、一つの形態素として扱うことを特徴とする請求項1に記載された決算分析システム。 - 前記形態素の組み合わせについて、前記属性ラベルを対応付けて記憶するラベリング辞書をさらに有し、
前記ラベリング部は、一つの形態素として扱われる前記形態素の組み合わせに対して、前記ラベリング辞書によって特定される前記属性ラベルを付与することを特徴とする請求項4に記載された決算分析システム。 - 前記金額情報は、金額の増減に関する情報であることを特徴とする請求項1から5のいずれかに記載された決算分析システム。
- 少なくとも科目および金額情報を含む会計上の事象の表現と、当該事象の要因の表現とを有する要因パターンが予め記憶されているコンピュータを用いて、決算関連情報を分析する決算分析プログラムにおいて、
前記決算関連情報に含まれる文章を分解した文のそれぞれについて形態素解析を行い、文の形態素列を生成する第1のステップと、
前記形態素列を構成する形態素またはその組み合わせに対して、少なくとも科目および金額を分類する属性毎に固有の属性ラベルを付与する第2のステップと、
前記属性ラベルによって抽象化された前記形態素列と、前記要因パターンと比較し、前記形態素列が前記要因パターンと一致するか否かを判定する第3のステップと、
前記要因パターンと一致した前記形態素列について、前記要因パターンによって指定された部分を要因として抽出し、当該抽出された要因を前記形態素列における科目および金額情報と紐付ける第4のステップと
を有する処理を前記コンピュータに実行させることを特徴とする決算分析プログラム。 - 前記第4のステップは、前記要因パターンと一致した前記形態素列のうち、要因を表す表現の前方または後方において連続し、かつ、前記属性ラベルが付与されていない不定の繰り返し部分を要因として抽出するステップであることを特徴とする請求項7に記載された決算分析プログラム。
- 前記第4のステップは、一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、前記文章の順序に従って他の文を分析し、当該欠落した要素が得られたことをもって、科目、金額情報、および要因の紐付けを行うステップを含むことを特徴とする請求項7または8に記載された決算分析プログラム。
- 前記コンピュータには、予め定義された文字列を記憶する形態素解析辞書が予め記憶されており、
前記第1のステップは、前記形態素解析辞書に記憶された文字列については、一つの形態素として扱うステップを含むことを特徴とする請求項7に記載された決算分析プログラム。 - 前記コンピュータには、前記形態素の組み合わせについて、前記属性ラベルを対応付けて記憶するラベリング辞書が予め記憶されており、
前記第2のステップは、一つの形態素として扱われる前記形態素の組み合わせに対して、前記ラベリング辞書によって特定される前記属性ラベルを付与するステップを含むことを特徴とする請求項10に記載された決算分析プログラム。 - 前記金額情報は、金額の増減に関する情報であることを特徴とする請求項7から11のいずれかに記載された決算分析プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017009463A JP6155409B1 (ja) | 2017-01-23 | 2017-01-23 | 決算分析システムおよび決算分析プログラム |
JP2017110899A JP6889038B2 (ja) | 2017-01-23 | 2017-06-05 | 決算分析システムおよび決算分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017009463A JP6155409B1 (ja) | 2017-01-23 | 2017-01-23 | 決算分析システムおよび決算分析プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017110899A Division JP6889038B2 (ja) | 2017-01-23 | 2017-06-05 | 決算分析システムおよび決算分析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6155409B1 JP6155409B1 (ja) | 2017-06-28 |
JP2018120284A true JP2018120284A (ja) | 2018-08-02 |
Family
ID=59218569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017009463A Active JP6155409B1 (ja) | 2017-01-23 | 2017-01-23 | 決算分析システムおよび決算分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6155409B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020201929A (ja) * | 2019-06-06 | 2020-12-17 | 楽天株式会社 | 文抽出システム、文抽出方法、及びプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6784788B2 (ja) * | 2019-02-22 | 2020-11-11 | 株式会社三菱総合研究所 | 情報処理装置、情報処理方法及びプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011090036A1 (ja) * | 2010-01-19 | 2011-07-28 | 日本電気株式会社 | 動向情報検索装置、動向情報検索方法および記録媒体 |
-
2017
- 2017-01-23 JP JP2017009463A patent/JP6155409B1/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011090036A1 (ja) * | 2010-01-19 | 2011-07-28 | 日本電気株式会社 | 動向情報検索装置、動向情報検索方法および記録媒体 |
Non-Patent Citations (5)
Title |
---|
坂地 泰紀、外2名: "決算短信PDFからの原因・結果表現の抽出", 電子情報通信学会論文誌D, vol. 第J98−D巻,第5号, JPN6017018272, 7 May 2015 (2015-05-07), JP, pages 811 - 822, ISSN: 0003562379 * |
大西 恒彰、外1名: "月次報告書と基準価格を用いた投資信託商品の要因分析", 第8回データ工学と情報マネジメントに関するフォーラム (第14回日本データベース学会年次大会), JPN6017018269, 8 August 2016 (2016-08-08), JP, pages 1 - 8, ISSN: 0003562378 * |
磯沼 大、外6名: "業績変動を考慮した決算短信からの重要文抽出", 情報処理学会 研究報告 自然言語処理(NL) 2016−NL−227, JPN6017018266, 1 August 2016 (2016-08-01), JP, pages 1 - 6, ISSN: 0003562377 * |
西崎 海人、外2名: "新聞記事の企業業績発表記事からの製品・部門情報の抽出", 言語処理学会第16回年次大会発表論文集, JPN6017018274, 8 March 2010 (2010-03-08), JP, pages 1038 - 1041, ISSN: 0003562380 * |
酒井 浩之、外1名: "企業の業績発表記事からの業績要因の抽出", 言語処理学会第13回年次大会発表論文集, JPN6017018275, 19 March 2007 (2007-03-19), JP, pages 436 - 439, ISSN: 0003562381 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020201929A (ja) * | 2019-06-06 | 2020-12-17 | 楽天株式会社 | 文抽出システム、文抽出方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6155409B1 (ja) | 2017-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10049100B2 (en) | Financial event and relationship extraction | |
US10535042B2 (en) | Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet | |
US8892579B2 (en) | Method and system of data extraction from a portable document format file | |
CN109933796B (zh) | 一种公告文本关键信息提取方法及设备 | |
AU2019265874B2 (en) | Systems and methods for document deviation detection | |
US20230028664A1 (en) | System and method for automatically tagging documents | |
Suryono et al. | P2P Lending sentiment analysis in Indonesian online news | |
US20240296188A1 (en) | System and Method for Parsing Regulatory and Other Documents for Machine Scoring Background | |
US20120078950A1 (en) | Techniques for Extracting Unstructured Data | |
JP6155409B1 (ja) | 決算分析システムおよび決算分析プログラム | |
JP2020067987A (ja) | 要約作成装置、要約作成方法、及びプログラム | |
CN110188340B (zh) | 一种研报文本实体名词自动识别方法 | |
WO2023198696A1 (en) | Method for extracting information from an unstructured data source | |
JP6889038B2 (ja) | 決算分析システムおよび決算分析プログラム | |
Janicki et al. | Detection and attribution of quotes in Finnish news media: BERT vs. rule-based approach | |
CN113868431A (zh) | 面向金融知识图谱的关系抽取方法、装置及存储介质 | |
Lamba et al. | Exploring OCR Errors in Full-Text Large Documents: A Study of LIS Theses and Dissertations | |
SURYONO et al. | P2P Lending Sentiment Analysis in Indonesian Online | |
US20150019208A1 (en) | Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device | |
JP2007102723A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
Reiser et al. | Analyzing Historical Legal Textcorpora: German VET and CVET regulations | |
Danyang et al. | The Extraction of Comment Information and Sentiment Analysis in Chinese Reviews | |
Go | Gender bias in dependency parsing | |
Schumann et al. | Extraction of Numerical Facts from German Texts to Enrich Internal Audit Data | |
KR20240057666A (ko) | 문서 내의 범주형 문장을 추출 및 요약하는 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170605 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6155409 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |