JP6764991B1 - 文抽出システム、文抽出方法、及びプログラム - Google Patents
文抽出システム、文抽出方法、及びプログラム Download PDFInfo
- Publication number
- JP6764991B1 JP6764991B1 JP2019221991A JP2019221991A JP6764991B1 JP 6764991 B1 JP6764991 B1 JP 6764991B1 JP 2019221991 A JP2019221991 A JP 2019221991A JP 2019221991 A JP2019221991 A JP 2019221991A JP 6764991 B1 JP6764991 B1 JP 6764991B1
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- candidate
- sentences
- score
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B7/00—Electrically-operated teaching apparatus or devices working with questions and answers
- G09B7/02—Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
以下、本発明に関わる文抽出システムの実施形態の例を説明する。図1は、文抽出システムの全体構成を示す図である。図1に示すように、文抽出システム1は、サーバ10及びユーザ端末20を含み、これらはインターネットなどのネットワークNに接続される。図1では、サーバ10及びユーザ端末20を1台ずつ示しているが、これらは複数台あってもよい。
文抽出システム1は、複数の文の中から、少なくとも1つの文を抽出する。文は、句点、ピリオド、感嘆符、又は疑問符などで終わる(区切られる)一続きの言葉である。文は、任意の言語で記述されてよく、例えば、英語、日本語、中国語、スペイン語、フランス語、又はアラビア語などであってもよい。
図5は、文抽出システム1で実現される機能の一例を示す機能ブロック図である。図5に示すように、例えば、データ記憶部100、候補文特定部101、取得部102、変更部103、結束文特定部104、決定部105、及び抽出部106が実現される。本実施形態では、これら各機能がサーバ10において実現される。データ記憶部100は、記憶部12を主として実現され、他の各機能は、制御部11を主として実現される。
データ記憶部100は、文を抽出するために必要なデータを記憶する。例えば、データ記憶部100は、決算短信データベースDB1、キーワードデータベースDB2、及び評価結果データDT1を記憶する。
候補文特定部101は、所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する。
取得部102は、候補文ごとに、抽出条件に基づくスコアを取得する。スコアは、予め定められた計算式に基づいて計算されるようにすればよく、計算式は、データ記憶部100に予め記憶されているものとする。計算式は、候補文とスコアの関係が定義された式ということができ、候補文の全体又は一部が計算式に入力されると、スコアが出力される。
変更部103は、スコアが所定の変更基準を満たす少なくとも1つの候補文については、抽出しないように変更する。変更基準は、候補文の評価を変更するための基準であり、スコアが比較的低いことである。例えば、変更基準は、スコアの順位が所定の順位未満であること、スコアが閾値未満であること、又は、スコアが下位所定パーセントであることなどである。
結束文特定部104は、少なくとも1つの候補文と結束性のある少なくとも1つの結束文を特定する。結束文特定部104は、特定された全ての候補文について、結束性の判定をしてもよいし、一部の候補文についてのみ、結束性の判定をしてもよい。本実施形態では、全ての候補文の結束性を判定するのではなく、結束文特定部104は、スコアが所定の選択基準を満たす少なくとも1つの候補文と結束性のある少なくとも1つの結束文を特定する場合を説明する。
(手順2)siが見出しであれば、手順5へ。
(手順3)siの文頭に接続詞又は副詞があれば、siとsi+1との間に結束性があるとし、なければ手順5へ。
(手順4)iを1つ減らし、手順2へ。
(手順5)sjが見出しであれば、処理を終了する。
(手順6)sjが文頭に接続詞又は副詞があれば、sjとsj−1の間に結束性があるとし、なければ処理を終了する。
(手順7)jを1つ増やし、手順5へ。
決定部105は、少なくとも1つの候補文を抽出するか否かに基づいて、少なくとも1つの結束文を抽出するか否かを決定する。決定部105は、候補文と同じ評価になるように、結束文の評価を決定する。別の言い方をすれば、決定部105は、候補文の評価と、当該候補文と結束性のある結束文の評価と、を一致させる。決定部105による決定結果は、評価結果データDT1に格納される。
抽出部106は、決定部105の決定結果に基づいて、複数の文の中から少なくとも1つの文を抽出する。例えば、抽出部106は、決定部105により抽出すると決定された結束文を抽出し、決定部105により抽出しないと決定された結束文は抽出しない。抽出部106は、評価結果データDT1を参照し、評価結果が業績要因文である文を抽出し、評価結果が非業績要因文である文は抽出しない。
図9は、サーバ10によって実行される処理を示すフロー図である。図9に示す処理は、制御部11が記憶部12に記憶されたプログラムに基づいて動作することによって実行される。図9に示す処理は、図5に示す機能ブロックにより実行される処理の一例である。
なお、本発明は、以上に説明した実施の形態に限定されるものではない。本発明の趣旨を逸脱しない範囲で、適宜変更可能である。
Claims (13)
- 所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定手段と、
前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段と、
前記スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、前記抽出条件を充足しない文である少なくとも1つの非候補文の中から、当該選択された候補文と結束性のある少なくとも1つの結束文を特定する結束文特定手段と、
少なくとも1つの前記結束文を抽出すると決定する決定手段と、
を含む文抽出システム。 - 所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定手段と、
前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段と、
前記スコアが所定の変更基準を満たす少なくとも1つの前記候補文については、抽出しないように変更する変更手段と、
前記スコアが前記変更基準を満たす少なくとも1つの前記候補文と結束性のある少なくとも1つの他の候補文を、少なくとも1つの結束文として特定する結束文特定手段と、
少なくとも1つの前記結束文については、抽出しないと決定する決定手段と、
を含む文抽出システム。 - 前記変更基準は、前記スコアの順序であり、
前記変更手段は、前記スコアが低い順に所定数の候補文を選択し、当該選択された所定数の候補文については、抽出しないように変更する、
請求項2に記載の文抽出システム。 - 前記複数の文のうち、前記抽出条件を充足しない少なくとも1つの非候補文については、前記スコアが所定値になる又は前記スコアが計算されない、
請求項2に記載の文抽出システム。 - 前記スコアが前記変更基準よりも高い基準を満たす少なくとも1つの前記候補文については、前記変更基準を満たす少なくとも1つの前記候補文と結束性があったとしても、抽出しない文として決定されることを制限する制限手段を更に含む、
請求項2に記載の文抽出システム。 - 前記複数の文を含む文書は、複数の部分に分けられており、
前記結束文特定手段は、前記部分ごとに、少なくとも1つの前記結束文を特定する、
請求項1〜5の何れかに記載の文抽出システム。 - 前記結束文特定手段は、少なくとも1つの前記候補文との接続性、参照性、及び語彙的結束性のうちの少なくとも1つに基づいて、少なくとも1つの前記結束文を特定する、
請求項1〜6の何れかに記載の文抽出システム。 - 前記抽出条件は、複数のキーワードのうちの少なくとも1つを含むことであり、
前記候補文特定手段は、少なくとも1つの前記キーワードを含む少なくとも1つの前記候補文を特定する、
請求項1〜7の何れかに記載の文抽出システム。 - 前記複数の文の各々は、企業の決算に関する内容であり、
前記抽出条件は、業績の要因が記述された業績要因文を抽出するための条件である、
請求項1〜8の何れかに記載の文抽出システム。 - 所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定ステップと、
前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得ステップと、
前記スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、前記抽出条件を充足しない文である少なくとも1つの非候補文の中から、当該選択された候補文と結束性のある少なくとも1つの結束文を特定する結束文特定ステップと、
少なくとも1つの前記結束文を抽出すると決定する決定ステップと、
を含む文抽出方法。 - 所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定ステップと、
前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得ステップと、
前記スコアが所定の変更基準を満たす少なくとも1つの前記候補文については、抽出しないように変更する変更ステップと、
前記スコアが前記変更基準を満たす少なくとも1つの前記候補文と結束性のある少なくとも1つの他の候補文を、少なくとも1つの結束文として特定する結束文特定ステップと、
少なくとも1つの前記結束文については、抽出しないと決定する決定ステップと、
を含む文抽出方法。 - 所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定手段、
前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段、
前記スコアが高い順に所定数の候補文を選択し、当該選択された候補文ごとに、前記抽出条件を充足しない文である少なくとも1つの非候補文の中から、当該選択された候補文と結束性のある少なくとも1つの結束文を特定する結束文特定手段、
少なくとも1つの前記結束文を抽出すると決定する決定手段、
としてコンピュータを機能させるためのプログラム。 - 所定の抽出条件に基づいて、複数の文の中から抽出される文の候補である少なくとも1つの候補文を特定する候補文特定手段、
前記候補文ごとに、前記抽出条件に基づくスコアを取得する取得手段、
前記スコアが所定の変更基準を満たす少なくとも1つの前記候補文については、抽出しないように変更する変更手段、
前記スコアが前記変更基準を満たす少なくとも1つの前記候補文と結束性のある少なくとも1つの他の候補文を、少なくとも1つの結束文として特定する結束文特定手段、
少なくとも1つの前記結束文については、抽出しないと決定する決定手段、
としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/432933 | 2019-06-06 | ||
US16/432,933 US11238219B2 (en) | 2019-06-06 | 2019-06-06 | Sentence extraction system, sentence extraction method and information storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6764991B1 true JP6764991B1 (ja) | 2020-10-07 |
JP2020201929A JP2020201929A (ja) | 2020-12-17 |
Family
ID=72665886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019221991A Active JP6764991B1 (ja) | 2019-06-06 | 2019-12-09 | 文抽出システム、文抽出方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11238219B2 (ja) |
JP (1) | JP6764991B1 (ja) |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3597697B2 (ja) * | 1998-03-20 | 2004-12-08 | 富士通株式会社 | 文書要約装置およびその方法 |
US20040010458A1 (en) * | 2002-07-10 | 2004-01-15 | First Data Corporation | Methods and systems for organizing information from multiple sources |
US7720675B2 (en) * | 2003-10-27 | 2010-05-18 | Educational Testing Service | Method and system for determining text coherence |
US7693825B2 (en) * | 2004-03-31 | 2010-04-06 | Google Inc. | Systems and methods for ranking implicit search results |
JP2006059082A (ja) * | 2004-08-19 | 2006-03-02 | Yokohama National Univ | 文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム |
JP2006092473A (ja) * | 2004-09-27 | 2006-04-06 | Toshiba Corp | 回答支援システムおよび装置、回答支援プログラム |
JP2009140411A (ja) | 2007-12-10 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | 文章要約装置および文章要約方法 |
US9087043B2 (en) * | 2010-09-29 | 2015-07-21 | Rhonda Enterprises, Llc | Method, system, and computer readable medium for creating clusters of text in an electronic document |
US20160343086A1 (en) * | 2015-05-19 | 2016-11-24 | Xerox Corporation | System and method for facilitating interpretation of financial statements in 10k reports by linking numbers to their context |
JP6155409B1 (ja) * | 2017-01-23 | 2017-06-28 | 株式会社xenodata lab. | 決算分析システムおよび決算分析プログラム |
-
2019
- 2019-06-06 US US16/432,933 patent/US11238219B2/en active Active
- 2019-12-09 JP JP2019221991A patent/JP6764991B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20200387569A1 (en) | 2020-12-10 |
JP2020201929A (ja) | 2020-12-17 |
US11238219B2 (en) | 2022-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khoo et al. | Lexicon-based sentiment analysis: Comparative evaluation of six sentiment lexicons | |
US9633007B1 (en) | Loose term-centric representation for term classification in aspect-based sentiment analysis | |
US9317498B2 (en) | Systems and methods for generating summaries of documents | |
US10255354B2 (en) | Detecting and combining synonymous topics | |
Kang et al. | based measurement of customer satisfaction in mobile service: Sentiment analysis and VIKOR approach | |
Ding et al. | Learning topical translation model for microblog hashtag suggestion | |
Baly et al. | A characterization study of arabic twitter data with a benchmarking for state-of-the-art opinion mining models | |
Moussa et al. | A survey on opinion summarization techniques for social media | |
US9645995B2 (en) | Language identification on social media | |
US8972413B2 (en) | System and method for matching comment data to text data | |
US20210026835A1 (en) | System and semi-supervised methodology for performing machine driven analysis and determination of integrity due diligence risk associated with third party entities and associated individuals and stakeholders | |
US9239880B2 (en) | Method and apparatus for identifying synonyms and using synonyms to search | |
Cataldi et al. | Good location, terrible food: detecting feature sentiment in user-generated reviews | |
US20150347920A1 (en) | Search system and corresponding method | |
Avvenuti et al. | GSP (Geo-Semantic-Parsing): geoparsing and geotagging with machine learning on top of linked data | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
US20170132190A1 (en) | Recommend content segments based on annotations | |
JP2018538603A (ja) | 検索クエリ間におけるクエリパターンおよび関連する総統計の特定 | |
US11928433B2 (en) | Systems and methods for term prevalence-volume based relevance | |
JP5435249B2 (ja) | イベント分析装置、イベント分析方法、およびプログラム | |
Fan et al. | Analyzing sentiments in Web 2.0 social media data in Chinese: experiments on business and marketing related Chinese Web forums | |
US20160004977A1 (en) | Content Monetization System | |
WO2016067396A1 (ja) | 文の並び替え方法および計算機 | |
Panigrahi et al. | Features level sentiment mining in enterprise systems from informal text corpus using machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191224 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20191224 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20191219 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200821 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200908 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6764991 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |